一种视频网站相似用户搜索系统和方法

文档序号:9288410阅读:687来源:国知局
一种视频网站相似用户搜索系统和方法
【技术领域】
[0001] 本发明涉及一种视频网站相似用户搜索系统和方法。
【背景技术】
[0002] 目前视频网站上的视频广告投放常常会遇到这样的问题:在某一广告投放中,某 些用户对该广告表现出了兴趣,发生了点击或者消费行为。相似的视频用户,对于广告产品 的兴趣具有一定程度的相似性,例如:两个同样观看了健身瑜伽视频的用户,可能都会对减 肥产品、化妆品等感兴趣;而两个同样观看了刀塔游戏视频的用户,可能会对一些网页游戏 广生兴趣。
[0003]相似的用户观看行为,可以为推测其兴趣爱好提供线索。在广告投放过程中,一些 用户对投放的广告产生了积极的反馈(例如:点击、购买等),以这些用户作为种子用户,进 行相似人群的扩展搜索,在未来的广告投放中就可以有的放矢地锁定这一类人群,从而使 广告投放产生更大的效益。
[0004]因此,如何利用种子用户的观看行为,对视频网站进行有效的相似用户搜索,就成 了一个非常重要的问题。

【发明内容】

[0005]本发明根据种子用户的情况,提出了一种基于视频内容的视频网站相似用户搜索 系统和方法。本发明将视频的描述词视为视频内容的描述,将用户的视频观看行为提炼为 用户对视频内容的观看,从而利用对视频内容的索引,来搜索具有相似观看行为的用户群。
[0006]本发明的系统和方法可以搜索出更多的相似的视频用户,扩展相似的视频网站用 户群,从而提升广告中产品的推广效果,使得该广告的投放产生更大的效益,在广告投放领 域有着重要的应用价值。
【附图说明】
[0007]本发明将参照附图来进一步详细说明,其中:
[0008] 图1是本发明的视频网站相似用户搜索方法流程图;
[0009] 图2是本发明的视频网站相似用户搜索系统结构示意图。
【具体实施方式】
[0010] 虽然将参照含有本发明的较佳实施例的附图充分描述本发明,但在此描述之前应 了解,本领域的普通技术人员可修改本文中所描述的发明,同时获得本发明的技术效果。因 此,须了解以下的描述对本领域的普通技术人员而言为一广泛的揭示,且其内容不在于限 制本发明所描述的示例性实施例。
[0011] 参考图1所示,本发明的视频网站相似用户搜索方法包括:
[0012] 步骤1,对用户观看内容进行统计分析,统计一段时间内(例如一周)的用户视频 观看记录,结合视频内容描述词得到每个用户在每一种视频内容上的观看次数和频率。其 中,视频内容描述词主要通过视频标签、关键词以及视频标题分词来描述,视频标签、关键 词以及视频标题分词都对视频内容进行了简短而抽象的描述,能够较为有效地刻画视频的 内容信息,不同的视频可能含有相似的内容,表现在它们可能拥有相同的标签或关键词。利 用用户的观看记录,结合视频内容描述词,统计用户在不同内容上的观看频率,可以有效地 反映用户的兴趣偏好。
[0013] 其中,步骤1进一步包括:
[0014] 步骤1. 1,利用视频用户的观看记录,统计用户一段时间内的视频观看次数,得到 "用户标识 视频标识 观看次数"的视频观看列表;
[0015] 步骤1. 2,对于视频信息,提取视频信息列表"视频标识标签1、标签2、…、标 签i ",结合视频观看列表生成内容观看列表"用户标识一标签i-观看次数";
[0016]步骤1.3,对具有相同用户标识的内容观看记录进行合并,利用标签i的内容观看 次数计算得到标签i的观看频率,即每个用户一段时间内在标签i上的观看频率,计算方法 为:
[0017]
[0018] 其中,为标签i的频率,CpC#用户观看标签i、标签j的次数,T为该用户观 看的所有标签的集合。
[0019] 通过步骤1,可以得到每个用户最近一段时间内观看的视频内容以及每种视频内 容的观看频率。
[0020] 步骤2,建立用户的倒排索引,根据步骤1中统计分析得到的观看记录,基于视频 内容描述词建立用户的倒排索引,该索引形式以视频内容的描述词作为索引关键字,以观 看该描述词的所有用户标识及其观看频率作为索引值。
[0021] 其中,步骤2进一步包括:
[0022] 步骤2. 1,以标签为索引关键字,统计观看过该标签的所有用户以及每个用户的观 看频率,计算观看过该标签的用户总数;
[0023] 步骤2. 2,利用哈希方法,对标签进行哈希计算,对索引文件进行分块;
[0024] 步骤2. 3,将标签的观看信息存储至哈希值所对应的分块处。
[0025] 步骤3,进行相似用户搜索并计算相似性,利用种子用户的视频观看记录,以视频 内容描述词为搜索关键字,在索引文件上进行相似用户的搜索,同时计算相应用户的相似 性,得到初步的搜索结果。
[0026] 其中,步骤3进一步包括:
[0027] 步骤3. 1,对种子用户的观看记录进行分析,对种子用户的每一个标签进行搜索, 得到观看过该标签的所有用户总数、用户标识以及相应的观看频率;
[0028] 步骤3. 2,对每一个搜索返回的用户计算相似性,其计算方法如下:
[0029]
[0030] 其中,SU1表示用户u在标签i上的相似性,tf^表示用户u观看标签i的频率,D 表示所有用户总数,Pi表示观看标签i的用户总数;
[0031] 步骤3. 4,对所有种子用户的观看标签进行搜索返回的结果进行综合分析,计算每 个返回用户的综合相似性,计算方法为:
[0032]
[0033] 其中,Scoreu表示用户u的综合相似性,S U1表示用户u在标签i上的相似性。
[0034] 步骤4,进行搜索结果排序,利用相似性对初步搜索结果进行由大到小的排序,经 过过滤处理得到最终的相似人群搜索结果。对于搜索返回的用户群以及每个用户的综合相 似性,按照相似性进行由大到小的排序,可以采用适当的相似性阈值进行结果过滤,将排序 过滤后的结果输出。
[0035] 参考图2,本发明还提供一种视频网站相似用户搜索系统,包括:
[0036] 统计分析装置,对用户观看内容进行统计分析,统计一段时间内的用户视频观看 记录,结合视频内容描述词得到每个用户对每一种视频内容的观看次数和频率,其中,上述 视频内容描述词通过视频标签、关键词以及视频标题分词来描述。
[0037] 其中,统计分析装置利用视频用户的观看记录,统计用户一段时间内的视频观看 次数,得到"用户标识一视频标识一观看次数"视频观看列表;对于视频信息,提取视频 信息列表"视频标识一标签1、标签2、…、标签i",结合视频观看列表生成内容观看列表 "用户标识一标签i-观看次数";对具有相同用户标识的内容观看记录进行合并,利用 标签i的观看次数计算标签i的观看频率,即每个用户一段时间内在标签i上的观看频率, 计算方法为:
[003J
[0039] 其中,为标签i的频率,C ^ (^为用户观看标签i、标签j的次数,T为该用户观 看的所有标签的集合。
[0040] 索引装置,建立用户的倒排索引,根据第一步中统计分析得到的观看记录,基于视 频内容描述词建立用户的倒排索引,该索引形式以视频内容描述词作为索引关键字,以观 看该描述词的所有用户标识及观看频率作为索引值。
[0041] 其中,索引装置以标签为索引关键字,统计观看过该标签的所有用户以及每个用 户的观看频率,计算观看过该标签的用户总数;利用哈希方法,对标签进行哈希计算,对索 引文件进行分块;将标签的观看信息存储至哈希值所对应的分块处。
[0042] 计算装置,进行相似用户搜索并计算相似性,利用种子用户的视频观看记录,以视 频内容描述词为搜索关键字,在索引文件上进行相似用户的搜索,同时计算相应用户的相 似性,得到初步的搜索结果。
[0043] 其中,计算装置对种子用户的观看记录进行分析,对种子用户的每一个标签进行 搜索,得到观看过该标签的所有用户总数、用户标识以及相应的观看频率;
[0044] 对每一个搜索返回的用户计算相似性,其计算方法如下:
[0045]
[0046] 其中,SU1表示用户u在标签i上的相似性,tf。表示用户u观看标签i的频率,D 表示所有用户总数,P,表示观看标签i的用户总数;
[0047] 对所有种子用户的观看标签进行搜索返回的结果进行综合分析,计算每个返回用 户的综合相似性,计算方法为:
[0048]
[0049] 其中,Scoreu表示用户u的综合相似性,S U1表示用户u在标签i上的相似性。
[0050] 排序装置,进行搜索结果排序,利用相似性对初步搜索结果进行由大到小的排序, 经过过滤处理得到最终的相似人群搜索结果。
[0051] 其中,排序装置对于搜索返回的用户群以及每个用户的综合相似性,按照相似性 进行由大到小的排序,可以采用适当的相似性阈值进行结果过滤,将排序过滤后的结果输 出。
[0052] 下面,通过两个示例进一步详细说明本发明的系统和方法。
[0053] 示例一:某视频网站相似人群搜索。
[0054] 某网站有视频集合S = {Vd. . .,VJ,每个视频包含一组内容描述词(即标签), 不同视频之间可能还有相同的描述词。同时该网站记录了最近一周内的用户观看记录R = iUi---Vx-clx,…,un-vy-cny}〇
[0055] 步骤1,以标签作为视频内容的描述,根据每个视频的标签信息,统计每个用户一 周内在每个标签上的观看次数,得到形如"用户标识一标签一观看次数"的观看记录; 对于相同用户标识的观看记录进行合并计算,得到每个用户观看的所有标签,并且计算每 个标签的观羞颇銮.i+笪方法为,
[0056]
[0057] 其中,为标签i的频率,C ^ (^为用户观看标签i、标签j的次数,T为该用户观 看的所有标签的集合。这样,就得到了每个用户在每个标签上的观看频率,部分观看记录示 例如下:
[0058]
[0059] 表1用户观看内容记录示例
[0060] 步骤2,以标签作为索引关键字,对观看信息建立倒排索引。对标签进行哈希,得到 哈希值;对倒排索引文件进行适当分块,将哈希值与文件分块建立映射;将每个标签所对 应的观看信息(包括:该标签观看的用户总数、观看该标签的所有用户标识和每个用户的 观看频率)存储至该标签哈希值所对应的文件分块处。
[0061] 步骤3,对于给定的种子用户观看记录,利用观看标签信息在倒排索引文件上进行 搜索。对
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1