名人视频搜索结果个性化排序的方法

文档序号:6380161阅读:224来源:国知局
专利名称:名人视频搜索结果个性化排序的方法
技术领域
本发明涉及互联网搜索引擎技术领域,尤其涉及一种名人视频搜索结果个性化排序的方法。
背景技术
随着WEB2. O的到来,在线视频的传播已经达到了前所未有的水平。虽然如此海量的视频数据能满足几乎所有用户的需求,但同时也使得搜寻和查找到用户真正感兴趣的视频成为了一件非常烦琐的事情。尽管搜索引擎已经成为了用户广泛使用的工具,但很少有搜索引擎能满足用户的个性化需求。往往对于同一个查询词,不同的用户表达的意思不尽相同。因此,个性化搜索对于信息爆炸的当今是非常必要的。在巨大的视频库中,有很大一部分是与名人相关的视频,由于“名人效应”,这些视频受到了广大用户的关注。传统搜索引擎根据视频与查询的相关性来排序。当用户搜索某 一名人,搜索引擎通常返回一个包含各类视频的列表。其中,可能仅仅只有某一类视频是用户感兴趣的。在现有的搜索个性化排序方法中,一些研究者采用聚类算法辅助个性化搜索。比如,有人把社会语义词汇聚类成一些概念,然后通过这些概念连接用户和对象(视频、图像或文本等)。还有一些人采用概念或本体的层次集合,其中概念或本体的每一个结点都表示某一兴趣。进一步,有些研究者利用主题模型分析用户的兴趣主题分布。图I为现有技术进行名人视频搜索结果个性化排序的流程图。如图I所示,现有技术名人搜索结果个性化排序的流程包括步骤S102,为多个用户分别建立用户文档,由该文档利用主题模型建立统一的兴趣主题空间,并得到多个用户分别在该兴趣主题空间的分布向量;步骤S104,分别利用每个名人视频的语义词汇和类别为每个名人视频建立文档,然后将其分别映射至上述兴趣主题空间,得到每个名人视频在兴趣主题空间的分布向量;步骤S106,利用用户和视频在兴趣主题空间分布向量的匹配程度对视频序列重排序。发明人发现上述名人视频搜索结果个性化排序的方法存在如下技术缺陷I)只考虑了用户的兴趣分布,而没有考虑搜索对象(名人)的流行分布,个性化排序准确性差;2)建立兴趣主题空间时,没到考虑兴趣主题空间中语义词汇之间的相关性,影响了兴趣主题空间的准确表达。

发明内容
(一)要解决的技术问题为解决上述的一个或多个问题,本发明提供了一种名人视频搜索结果个性化排序的方法,以提高个性化排序的准确性。(二)技术方案
根据本发明的一个方面,提供了一种名人视频搜索结果个性化排序的方法。该方法包括为多个预设待搜索名人分别建立文档,利用该文档由主题模型建立统一的流行主题空间,并分析各待搜索名人在该流行主题空间的分布向量;利用用户与互联网的在线交互记录建立用户文档,由多个用户文档利用主题模型建立统一的兴趣主题空间,并得到多个用户分别在该兴趣主题空间的分布向量;将流行主题空间和兴趣主题空间中各潜在主题的语义词汇进行整合,利用词网得到整合后各语义词汇之间的相似度,建立状态转移矩阵;根据所述状态转移矩阵,利用随机游走迭代过程更新流行主题空间和兴趣主题空间中各潜在主题在整合后各语义词汇上的概率分布,用相对熵连接兴趣主题空间与流行主题空间中的潜在主题;分别利用每个待搜索名人视频的语义词汇和类别为每个待搜索名人视频建立文档,然后将其分别映射至上述兴趣主题空间,得到每个待搜索名人视频在兴趣主题空间的分布向量;以及利用用户,待搜索名人以及视频在兴趣主题空间分布向量的内积对视频序列重排序。(三)有益效果从上述技术方案可以看出,本发明名人视频搜索结果个性化排序的方法具有以下 有益效果(I)同时考虑了用户和待搜索名人特点,在不同数据集上分析用户的兴趣分布和待搜索名人的流行分布,有效地表达了用户兴趣主题和待搜索名人的流行主题,从而提高了个性化排序的准确性;(2)利用随机游走迭代过程加强流行主题空间和兴趣主题空间中各潜在主题的语义词汇之间的关联,提高了流行主题空间和兴趣主题空间中各潜在主题的准确性;同时,随机游走过程使得流行主题空间和兴趣主题空间中各潜在主题的概率分布遍布整个词汇集,从而可以有效关联兴趣主题空间和流行主题空间。


图I为现有技术利用传统方法进行互联网搜索结果个性化排序的流程图;图2为本发明实施例名人视频搜索结果个性化排序方法的流程图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。且在附图中,以简化或是方便标示。再者,附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。本发明的目的是实现名人个性化搜索。该问题存在如下挑战。首先,我们通常不易知道名人活跃在那个领域;另外,由于隐私问题,用户也很少明确表达自己的兴趣分布;最后,用户兴趣主题空间与名人流行主题空间基于不同的数据集,两个空间不存在显示相关性,如何对这两个空间进行有效关联也是一个难点。在本发明的一个示例性实施例中,提出了一种名人视频搜索结果个性化排序的方法。图2为本发明实施例名人视频搜索结果个性化排序方法的流程图。如图2所示,本实施例包括步骤S202,为多个待搜索名人分别建立文档,利用该文档由主题模型建立统一的流行主题空间,并分析各待搜索名人在该流行主题空间的分布向量;通常情况下,在互联网上进行名人搜索的对象为通常所说的“名人”,此处的名人,为在某一群体、某一领域内具有较高知名度的人,如克林顿、成吉思汗、耶稣、贝克汉姆、张靓颖等。上述为搜索的特定名人建立文档,可以是搜索引擎提供商编辑的文档,也可以是利用互联网上的与该特定名人相关的已有文档,例如维基百科、百度百科或搜狗百科等网站提供的该特定名人的词条。考虑到公正性和权威性,优选采用维基百科的相关词条。一般来说,名人都有维基文档,这些文档全面介绍他们的职业、成就和生活等方面,从而反映了名人的流行分布。但是这类文本中含有大量噪声和没有实际意义的词汇,不 利于名人流行主题分布的表达。为了解决这个问题,我们利用词网来过滤这些信息,并且只保留了名词性成分,因为名词具有最强的语义性。此处,词网即WorldNet,是一种包含了语义信息的字典。WorldNet根据词条的意义将它们分组,并为每一个同义词集合提供了简短,概要的定义,并记录不同集合之间的语义关系。基于上述讨论,本步骤又可以分为以下子步骤步骤S202a,收集整理多个名人分别的维基百科词条信息;步骤S202b,利用词网过滤上述多个名人词条信息中的噪声,滤除所述多个名人词条信息除名词成分之外的其他成分;步骤S202c,对于多个名人中的每一个,利用其对应的名人词条信息的名词成分建立名人文档;步骤S202d,利用多个名人文档由主题模型建立流行主题空间,并得到每个名人在该流行主题空间的分布向量。上述主题模型可以选择潜在狄利克利分布模型(LDA),当然也可以选择本领域公知的其他模型,例如概率潜在主义分析模型(PLSA)或关联主题模型(CTM)。步骤S204,利用用户与互联网的在线交互记录建立用户文档,由多个用户文档利用主题模型建立统一的兴趣主题空间,并得到多个用户分别在该兴趣主题空间的分布向量;用户对某一视频的主动行为(如上传或收藏)反映了用户的兴趣爱好。因此我们利用用户上传或收藏视频的语义词汇和类别来建立用户文档。但是这类语义词汇通常由网络用户提供,含有大量噪声,如无意义的词汇及误输入。这里我们同样采用词网进行过滤,具体步骤与S202类似,可以分为以下子步骤步骤S204a,收集多个用户分别上传或收藏的互联网资源的语义词汇和类别;步骤S204b,利用词网过滤上述语义词汇和类别中的噪声,滤除所述语义词汇和类别中除名词成分之外的其他成分;步骤S204c,对于多个用户中的每一个,利用所述语义词汇和类别中的名词成分建立用户文档。步骤S204d,由多个用户文档利用潜在狄利克利分布主题模型建立兴趣主题空间,并得到多个用户分别在该兴趣主题空间的分布向量。经过步骤S202和S204,分别获得了用户兴趣主题空间与名人流行主题空间,接下来通过连接这两个主题空间的潜在主题来关联兴趣主题空间与流行主题空间。步骤S206,将流行主题空间和兴趣主题空间中各潜在主题的语义词汇进行整合,利用词网得到整合后各语义词汇之间的相似度,建立状态转移矩阵;根据所述状态转移矩阵,利用随机游走迭代过程更新流行主题空间和兴趣主题空间中各潜在主题在语义词汇上的概率分布,用相对熵(Relative Entropy)连接兴趣主题空间与流行主题空间中的潜在主题,从而实现兴趣主题空间与流行主题空间的连接。由于流行主题空间和兴趣主题空间分别来自不同的数据集,因此他们的词汇表(空间中所有词汇的集合)是不一致的,换句话说,具有相似意义的主题在不同空间所包含的词汇是不一致的。因此,通过把流行主题空间和兴趣主题空间中各潜在主题的语义词汇进行整合, 并利用词网得到词汇之间的语义相关性,建立状态转移矩阵,然后采用随机游走迭代过程更新每个主题在所有词汇上的概率分布,使每个主题的概率分布拓展到整个融合后的词汇集,此时便可计算各个主题之间的相对熵,从而连接兴趣主题空间与流行主题空间。本步骤S206中“利用词网得到整合后各语义词汇之间的相似度,建立状态转移矩阵”具体包括使用Su表示语义词汇i和j之间的语义相似性。对于一个给定的包含N个语义词汇的语义词汇网络。每一个语义词汇被看成一个结点。状态转移矩阵用P(NXN)表示。该状态转移矩阵的元素Pu表示从结点i到结点j的转移概率,即语义词汇i和j的相似度。Pij = Sij/ Σ k Sik (2)本步骤S206中“根据所述状态转移矩阵,利用随机游走迭代过程更新流行主题空间和兴趣主题空间中各潜在主题在语义词汇上的概率分布”具体包括用rk(i)表示结点i在随机游走迭代过程中第k次迭代时的概率值,那么,所有结点的概率值形成一个列向量rk= [rk(i)]NX1。因此,随机游走迭代过程的表达式为rk = λ Pr^i+d-λ )y (3)其中y是潜在主题在语义词汇上的初始概率分布,λ e (0,I)是权重参数。λ越大则随机游走迭代过程的作用越强。随机游走迭代过程使得相似的语义词汇有相近的概率分布,同时使得近义词越多的词汇得到更多的强化。随机游走迭代过程使得每个潜在主题的概率分布拓展到整个融合后的词汇集。本步骤S206中“用相对熵(Relative Entropy)连接兴趣主题空间与流行主题空间中的潜在主题”具体包括采用计算兴趣主题和流行主题之间的相对熵。因为相对熵是与方向有关的,所以,采用两个方向的平均相对熵。假定主题z和主题X分别来自兴趣主题空间和流行主题空间。相对熵表示为dkl(z Il x) = -(Σ ^(0^^ + Σ χ 0^-^)⑷其中ζ (i)和X (i)表示主题z和主题X在语义词汇i上的概率值。主题z和主题X的相似度即为相对熵的倒数。
经过步骤S206,我们实现了潜在语义主题层面关联用户与名人,从而提高了个性化排序的准确性。步骤S208 :分别利用每个名人视频的语义词汇和类别为每个名人视频建立文档,然后将其分别映射至上述兴趣主题空间,得到每个名人视频在兴趣主题空间的分布向量;具体地说,假定Φ是一个KXM(K是兴趣主题空间潜在主题个数,M是语义词典的维数)马尔可夫矩阵。每一行表示某一主题在语义词汇上的概率分布。对于任一视频向量Vmx1,投影到兴趣主题空间后的分布向量为V' Kx1 = Φνκχ1。步骤S210 :利用用户,名人以及视频在兴趣主题空间分布向量的内积对视频序列
重排序。给定任一用户(用U表示),当该用户搜索某位名人(用c表示),我们首先从传统搜索引擎得到初始视频序列。然后把与名人相关的视频(初始视频序列的前N个视频) 分别映射到兴趣主题空间。然后我们根据兴趣主题空间与流行主题空间的关联度对初始序列重排序,具体步骤如下对于任一名人视频V,他与某一用户的相关性得分由该名人和该用户及该视频在兴趣主题空间的分布向量共同决定,具体表达式如下P (score \ v, u, c)(5)=Σ = Ρ(Zi I v)p{zL IIOpizi I c)=If=I P (.Zi \v)p(zL\u) Σ;=1^ (Xj \c)p(zi\ Xj )其中K(L)是兴趣(流行)主题空间潜在主题个数,Zi (Xj)是兴趣(流行)主题空间第i (j)个潜在主题;P(Zi I V)和p(Zi |u)分别表示视频V和用户u在主题Zi上的概率;P(ZiIxi)由相对熵近似(如公式4)。Σ^Ι间接表示名人C在主题Zi上
的概率。该公式表明,我们计算视频得分时,不仅考虑视频与搜索词的相似性,还考虑用户本身的兴趣分布。为每个视频重新计算他们与用户的相关性得分后,我们再根据这一得分调整视频序列,返回给该用户。为了便于理解,以下以一具体的搜索结果为例进行说明,例如,特定用户A对特定名人“贝克汉姆”进行搜索,具体步骤如下我们首先I)利用维基百科对多个名人分别建立文档;利用多个用户分别与互联网资源的在线交互记录建立用户文档。其中名人“贝克汉姆”((1__),“用户八”(d撕Α)及部分其他名人文档(dd$彳自$)与用户文档(dj^B,dj^。)不思如下。d 卩克 & 姆 ={season united league club match real cup final teamplayerpremier young goals madrid goal champions scoring players youthenglandpresident title scored number shirt played football injurycompetition gameslondon reached transfer barceIona matches family companyproduced nightfeatured number work late school took age received Californiafatherappearance appeared working interview. . . }d嘎嘎女士 = {album music released song songs performed country tourrecordsbillboard concert band chart artist musical awards sold albums recordlive hitsolo debut award recorded release grammy rock copies october popperformingsingles studio dance fame addition nominations fusari monsterborn criticallyworldwide countries art sgband judas creative tried positiveradio starlight.. .}d 罗伯茨 ={film role starred appeared played movie charactertelevisionaward star comedy cast series films performance drama acting officereviewssuccess supporting production opposite box actress episode festivaladaptationroles September years york announced february american november aprilworldseries. . . }......d ^ ^ A = {robin gary norris baba comedy bob pack soccer footballsalemengineer training free real pitch goal retard film driver Iimo battleswerve mikekick curve festival technique madrid jimmy perfect rock tutorialdrunk cornercasino martin stockbroker hotel league crazy blue porn crone gymnastics rileyshot iris dice news manchester nike penny.. . }d用户B= {gaming music play wedding quality dream nancy drewdefinitionsong academy screen viva description hq princess albumfilmanimation disneyknowledge white real studio game firefly story officialvision coliseum capsulemac beauty voyage soundtrack vega monster versionsecret edition slot. . . }d用户 c = {filmanimation comedy bang theory merchant raj bookleonardnight talk super future penny diary list animal bucket idiot host italiaanimationfunny interview work ice question world television opening twinsstupidhumor roads episode head headache guinness plumbing coming sky spotofficeguest strike warwick. . . } ......2)然后利用潜在狄利克利分布主题模型建立流行主题空间和兴趣主题空间,并得到所有名人分别在流行主题空间的分布向量及所有用户分别在兴趣主题空间的分布向量。3)利用词网得到各语义词汇之间的相似度,建立状态转移矩阵PNXN。然后利用随机游走迭代过程更新各潜在主题在语义词汇上的概率分布,最后用相对熵连接兴趣主题空间与流行主题空间中的潜在主题,从而实现兴趣主题空间与流行主题空间的连接。
权利要求
1.一种名人视频搜索结果个性化排序的方法,其特征在于,包括 为多个预设待搜索名人分别建立文档,利用该文档由主题模型建立统一的流行主题空间,并分析各待搜索名人在该流行主题空间的分布向量; 利用用户与互联网的在线交互记录建立用户文档,由多个用户文档利用主题模型建立统一的兴趣主题空间,并得到多个用户分别在该兴趣主题空间的分布向量; 将流行主题空间和兴趣主题空间中各潜在主题的语义词汇进行整合,利用词网得到整合后各语义词汇之间的相似度,建立状态转移矩阵;根据所述状态转移矩阵,利用随机游走迭代过程更新流行主题空间和兴趣主题空间中各潜在主题在整合后各语义词汇上的概率分布,用相对熵连接兴趣主题空间与流行主题空间中的潜在主题; 分别利用每个待搜索名人视频的语义词汇和类别为每个待搜索名人视频建立文档,然后将其分别映射至上述兴趣主题空间,得到每个待搜索名人视频在兴趣主题空间的分布向量;以及 利用用户,待搜索名人以及视频在兴趣主题空间分布向量的内积对视频序列重排序。
2.根据权利要求I所述的方法,其特征在于,所述为多个预设待搜索名人分别建立文档的步骤包括 收集整理多个待搜索名人分别的词条信息; 利用词网过滤上述多个待搜索名人词条信息中的噪声,滤除所述多个待搜索名人词条信息除名词成分之外的其他成分; 对于多个待搜索名人中的每一个,利用其对应的词条信息的名词成分建立待搜索名人文档。
3.根据权利要求2所述的方法,其特征在于,利用文档由潜在狄利克利分布模型建立统一的流行主题空间。
4.根据权利要求2所述的方法,其特征在于,所述待搜索名人的词条信息取自于维基百科。
5.根据权利要求I所述的方法,其特征在于,所述利用用户与互联网的在线交互记录建立用户文档的步骤包括 收集多个用户分别上传或收藏的互联网资源的语义词汇和类别; 利用词网过滤上述语义词汇和类别中的噪声,滤除所述语义词汇和类别中除名词成分之外的其他成分; 对于多个用户中的每一个,利用所述语义词汇和类别中的名词成分建立用户文档。
6.根据权利要求I所述的方法,其特征在于,所述利用词网得到整合后各语义词汇之间的相似度,建立状态转移矩阵的步骤中 对于一个给定的包含N个语义词汇的语义词汇网络,每一个语义词汇被看成一个结点;状态转移矩阵用P(NXN)表示,该状态转移矩阵的元素Pu表示从结点i到结点j的转移概率 Pij — Sij/ Σ kSik 其中,Sij表示语义词汇i和j之间的语义相似性。
7.根据权利要求6所述的方法,其特征在于,所述根据状态转移矩阵,利用随机游走迭代过程更新流行主题空间和兴趣主题空间中各潜在主题在语义词汇上的概率分布的步骤中,每一潜在主题随机游走的迭代公式为rk = λ Piv1+(I-λ )y 其中,A(IV1)是一个列向量,表示某潜在主题各结点在随机游走迭代过程中第k(k-l)次迭代时的概率值,P为状态转移矩阵,λ e (0,1)是权重参数,y是该潜在主题在语义词汇上的初始概率分布。
8.根据权利要求7所述的方法,其特征在于,所述用相对熵连接兴趣主题空间与流行主题空间中的潜在主题的步骤中,相对熵表示为
9.根据权利要求7所述的方法,其特征在于,所述分别利用每个待搜索名人视频的语义词汇和类别为每个待搜索名人视频建立文档,然后将其分别映射至上述兴趣主题空间,得到每个待搜索名人视频在兴趣主题空间的分布向量的步骤中 Φ是一个KXM(K是兴趣主题空间潜在主题个数,M是整合后语义词汇的个数)马尔可夫矩阵,每一行表示某一主题在语义词汇上的概率分布,对于任一视频向量vMX1,投影到兴趣主题空间后的分布向量为V' KX1 = ΦνΜΧ1。
10.根据权利要求I所述的方法,其特征在于,所述利用用户,待搜索名人以及视频在兴趣主题空间分布向量的内积对视频序列重排序的步骤包括 得到初始视频序列; 把与待搜索名人相关的视频分别映射到兴趣主题空间; 根据兴趣主题空间与流行主题空间的关联度对初始序列重排序。
11.根据权利要求10所述的方法,其特征在于,所述兴趣主题空间与流行主题空间的关联度
12.根据权利要求I至10中任一项所述的方法,其特征在于,所述的待搜索名人为在某一群体、某一领域内具有高知名度的人。
全文摘要
本发明提供了一种名人视频搜索结果个性化排序的方法。本方法同时考虑了用户和待搜索名人特点,在不同数据集上分析用户的兴趣分布和待搜索名人的流行分布,有效地表达了用户的兴趣主题和待搜索名人的流行主题,并对用户兴趣主题和名人流行主题进行有效关联,从而提高了个性化排序的准确性。
文档编号G06F17/30GK102880728SQ201210427389
公开日2013年1月16日 申请日期2012年10月31日 优先权日2012年10月31日
发明者徐常胜, 邓拯宇 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1