一种视频网站相似用户搜索系统和方法_2

文档序号:9288410阅读:来源:国知局
于种子用户观看的每个标签,采用相同的哈希函数计算哈希值,从而找到对应的倒 排索引文件块,读取其中的观看信息,得到观看过该标签的用户总数、所有用户标识和观看 频率,计算观看过该标签的每个用户的相似性,方法如下:
[0062]
[0063] 其中,SU1表示用户u在标签i上的相似性,tf。表示用户u观看标签i的频率,D 表示所有用户总数,P,表示观看标签i的用户总数。
[0064] 对于所有种子用户观看标签搜索返回的结果进行综合分析,计算每个返回用户的 综合相似件,其计筧方法为:
[0065]
[0066] 其中,Scorei表示用户的综合相似性,SU1表示用户u在标签i上的相似性。
[0067] 步骤4,根据综合相似性进行从大到小的排序,经过一定的过滤筛选,输出排序后 的结果。
[0068] 最终得到的种子文件及其搜索结果示例如下:
[0069]
[0070] 表2种子用户
[0071]
[0072] 表3部分搜索返回结果
[0073]
[0074] 表4部分相似用户的内容观看记录
[0075] 示例二:某产品目标人群扩展
[0076] 某一产品已经锁定了少量的目标人群U= {U1,…,Um},期望在某视频网站进行产 品推广,要求推广受众是与已经锁定的目标人群U中具有相似兴趣的用户群。同时该网站 记录了最近一周内的用户观看记录R = {AVxClx,…,UnVyCny}〇
[0077] 步骤1,利用网站的观看记录,查找目标人群U中用户的视频观看记录,结合视频 信息,得到目标人群基于视频标签的观看记录。结合该产品的信息,对目标人群的观看标签 进行筛选,滤除无关标签。将过滤后的观看记录作为搜索的种子。之后,对于最近一周内的 所有观看记录,以标签作为视频内容的描述,根据每个视频的标签信息,统计每个用户一周 内在每个标签上的观看次数,得到形如"用户标识一标签一观看次数"的观看记录。
[0078] 对于相同用户标识的观看记录进行合并计算,得到每个用户观看的所有标签,并 且计算每个标签的观看频率。计算方法为:
[0079]
[0080] 其中,为标签i的频率,C ^ (^为用户观看标签i、标签j的次数,T为该用户观 看的所有标签的集合。这样我们就得到了每个用户在每个标签上的观看频率。
[0081] 步骤2,以标签作为索引关键字,对观看信息建立倒排索引。对标签进行哈希,得到 哈希值;对倒排索引文件进行适当分块,将哈希值与文件分块建立映射;将每个标签所对 应的观看信息(包括:该标签观看的用户总数、观看该标签的所有用户标识和每个用户的 观看频率)存储至该标签哈希值所对应的文件分块处。
[0082] 步骤3,对于给定的种子用户观看记录,利用观看标签信息在倒排索引文件上进行 搜索。对于种子用户观看的每个标签,采用相同的哈希函数计算哈希值,从而找到对应的倒 排索引文件块,读取其中的观看信息,得到观看过该标签的用户总数、所有用户标识和观看 频率,计算观看过该标签的每个用户的相似性,计算方法如下:
[0083]
[0084] 其中,Sui表示用户u在标签i上的相似性,tf ^表示用户u观看标签i的频率,D 表示所有用户总数,P,表示观看标签i的用户总数。
[0085] 对所有种子用户观看标签搜索返回的结果进行综合分析,计算每个返回用户的综 合相似性。其计算方法为:
[0086]
[0087] 其中,Scoreu表示用户u的综合相似性,Sui表示用户u在标签i上的相似性。
[0088] 步骤4,根据综合相似性进行从大到小的排序,经过一定的过滤筛选,输出排序后 的结果。
[0089] 该产品目标用户的观看内容示例如下:
[0090]
[0091] 表5客户观看内容示例
[0092] 搜索到的部分结果示例如下:
[0093]
[0094] 表6部分搜索返回结果
[0095]
[0096] 表7部分相似用户的观看记录
[0097] 在详细说明本发明的较佳实施例之后,熟悉本领域的技术人员可清楚的了解,在 不脱离随附权利要求的保护范围与精神下可进行各种变化与改变,且本发明亦不受限于说 明书中所举示例性实施例的实施方式。
【主权项】
1. 一种视频网站相似用户捜索方法,包括: 步骤1,对用户观看内容进行统计分析,统计一段时间内的用户视频观看记录,结合视 频内容描述词得到每个用户对每一种视频内容的观看次数和频率,其中,上述视频内容描 述词通过视频标签、关键词W及视频标题分词来描述; 步骤2,建立用户的倒排索引,根据上述步骤1中统计分析得到的观看记录,基于视频 内容描述词建立用户的倒排索引,该索引形式W视频内容描述词作为索引关键字,W观看 该描述词的所有用户标识及观看频率作为索引值; 步骤3,进行相似用户捜索并计算相似性,利用种子用户的视频观看记录,W视频内容 描述词为捜索关键字,在索引文件上进行相似用户的捜索,同时计算相应用户的相似性,得 到初步的捜索结果; 步骤4,进行捜索结果排序,利用相似性对初步捜索结果进行由大到小的排序,经过过 滤处理得到最终的相似人群捜索结果。2. 根据权利要求1所述的方法,其中,步骤1进一步包括: 步骤1. 1,利用视频用户的观看记录,统计用户一段时间内的视频观看次数,得到"用户 标识---视频标识---观看次数"的视频观看列表; 步骤1. 2,对于视频信息,提取视频信息列表"视频标识---标签1、标签2、…、标签i",结合视频观看列表生成内容观看列表"用户标识---标签i---观看次数"; 步骤1. 3,对具有相同用户标识的内容观看记录进行合并,利用标签i的观看次数计算 得到标签i的观看频率,即每个用户一段时间内在该标签上的观看频率,计算方法为:其中,tfi为标签i的频率,C1、C,为用户观看标签i、标签j的次数,T为该用户观看的 所有标签的集合。3. 根据权利要求1所述的方法,其中,步骤2进一步包括: 步骤2. 1,W标签为索引关键字,统计观看过该标签的所有用户W及每个用户观看该标 签的频率,计算得到观看过该标签的用户总数; 步骤2. 2,利用哈希方法,对标签进行哈希计算,对索引文件进行分块; 步骤2. 3,将标签的观看信息存储至哈希值所对应的位置。4. 根据权利要求1所述的方法,其中,步骤3进一步包括: 步骤3. 1,对种子用户的观看记录进行分析,对种子用户的每一个标签进行捜索,得到 观看过该标签的所有用户总数、用户标识W及相应的观看频率; 步骤3. 2,对每一个捜索返回的用户计算相似性,其计算方法如下:其中,Sui表示用户U在标签i上的相似性,tf。1表示用户U观看标签i的频率,D表示 所有用户总数,Pi表示观看标签i的用户总数; 步骤3. 4,对所有种子用户的观看标签进行捜索返回的结果进行综合分析,计算每个返 回用户的综合相似性,计算方法为:其中,Score。表示用户U的综合相似性,S。康示用户U在标签i上的相似性。5. 根据权利要求1所述的方法,其中,步骤4进一步包括:对于捜索返回的用户群W及 每个用户的综合相似性,按照相似性进行由大到小的排序,可W采用适当的相似性阔值进 行结果过滤,将排序过滤后的结果输出。6. -种视频网站相似用户捜索系统,包括: 统计分析装置,对用户观看内容进行统计分析,统计一段时间内的用户视频观看记录, 结合视频内容描述词得到每个用户对每一种视频内容的观看次数和频率,其中,上述视频 内容描述词通过视频标签、关键词W及视频标题分词来描述; 索引装置,建立用户的倒排索引,根据统计分析装置中统计分析得到的观看记录,基于 视频内容描述词建立用户的倒排索引,该索引形式W视频内容描述词作为索引关键字,W 观看该描述词的所有用户标识及观看频率作为索引值; 计算装置,进行相似用户捜索并计算相似性,利用种子用户的视频观看记录,W视频内 容描述词为捜索关键字,在索引文件上进行相似用户的捜索,同时计算相应用户的相似性, 得到初步的捜索结果; 排序装置,进行捜索结果排序,利用相似性对初步捜索结果进行由大到小的排序,经过 过滤处理得到最终的相似人群捜索结果。7. 根据权利要求6所述的系统,其中,统计分析装置利用视频用户的观看记录,统计用 户一段时间内的视频观看次数,得到"用户标识---视频标识---观看次数"视频观看列表; 对于视频信息,提取视频信息列表"视频标识---标签1、标签2、…、标签i",结合视频观 看列表生成内容观看列表"用户标识---标签i---观看次数";对具有相同用户标识的内容 观看记录进行合并,利用标签的观看次数计算标签的观看频率,即每个用户一段时间内在 该标签上的观看频率,计算方法为:其中,tfi为标签i的频率,C1、C,为用户观看标签i、标签j的次数,T为该用户观看的 所有标签的集合。8. 根据权利要求6所述的系统,其中,索引装置W标签为索引关键字,统计观看过该标 签的所有用户W及每个用户观看该标签的频率,计算观看过该标签的用户总数;利用哈希 方法,对标签进行哈希计算,对索引文件进行分块;将标签的观看信息存储至哈希值所对应 的位置。9. 根据权利要求6所述的系统,其中,计算装置对种子用户的观看记录进行分析,对种 子用户的每一个标签进行捜索,得到观看过该标签的所有用户总数、用户标识W及相应的 观看频率; 对每一个捜索返回的用户计算相似性,其计算方法如下:其中,Sui表示用户u在标签i上的相似性,tf。1表示用户u观看标签i的频率,D表示 所有用户总数,Pi表示观看标签i的用户总数; 对所有种子用户的观看标签进行捜索返回的结果进行综合分析,计算每个返回用户的 综合相似性,计算方法为:其中,Score。表示用户U的综合相似性,S。康示用户U在标签i上的相似性。
【专利摘要】本发明根据种子用户的情况,提出了一种基于视频内容的视频网站相似用户搜索系统和方法。本发明将视频的描述词视为视频内容的描述,将用户的视频观看行为提炼为用户对视频内容的观看,从而利用对视频内容的索引,来搜索具有相似观看行为的用户群。本发明的系统和方法可以搜索出更多的相似的视频用户,扩展相似的视频网站用户群,从而提升广告中产品的推广效果。
【IPC分类】G06F17/30
【公开号】CN105005576
【申请号】CN201510142618
【发明人】房晓宇, 江建博, 朱凯泉, 章岑, 蒋子俊, 潘柏宇, 卢述奇
【申请人】合一信息技术(北京)有限公司
【公开日】2015年10月28日
【申请日】2015年3月27日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1