一种基于用户停留时间分析的个性化网页搜索排序方法

文档序号:6559423阅读:177来源:国知局
专利名称:一种基于用户停留时间分析的个性化网页搜索排序方法
技术领域
本发明涉及计算机搜索、数据挖掘以及人工智能领域,尤其涉及一种基于用户停留时间的个性化网页搜索排序方法。
背景技术
近年来,出现了一系列的研究活动,以研究个性化或面向用户的搜索引擎和算法,如2007年发表在第十六届国际万维网会议(WWW,07:Proceedings of the 16th international conference on World Wide Web)上的一篇文章“个性化搜索策略的大规 ^tMWift"τ '^ ” ( "A large-scale evaluation and analysis of personalized search strategies”)。在2008年第二十三届美国人工智能学会会议上的一篇文章“基于用户关
webpage ranking algorithm based on user attention time")里,作者也提出建立一个面向用户的网页搜索引擎的个性化解决方案。现有的个性化引擎依靠的是用户的反馈,它可以分为显式反馈和隐式反馈。我们从这两种反馈中都可以得到用户的喜好特征(Salton&Buckley 1990 ;White, Jose, &Ruthven 2001 ;White, Ruthven, &Jose 2002)。但是用户一般都不愿意去提供显式的反馈,所以现在的研究越来越多的研究都转向隐式反馈(Granka,Joachims, &Gay 2004 ; Guan&Cutrell 2007 ;Fu 2007)。研究表明,隐式反馈可以很好的反映用户的搜索意图(Fox et al. 2005 ;Dou, Song, &Wen2007 ;Fu 2007).并且从大量的隐式反馈中得到的用户喜好往往比显式反馈更加可靠。查询历史现代研究中,用得最多的隐式反馈就是用户的查询历史。Google的个性化搜索(http://www.google.com/psearch)就是基于用户的查询历史的。总的来说,基于查询历史的算法又可以分为以下两类一类是基于整个查询历史的算法,另一类是基于某个查询会话(指的是一连串相关的查询)。对于前者来说,通常算法会产生一个该用户的概要文本用来描述用户的搜索喜好。点击数据点击数据是另一种非常重要的隐式反馈,如(Dupret, Mrudock, &Piwowarski 2007 Joachims 2002)。在一个搜索结果页面上,我们假设用户点击过的链接比用户没有点过的链接对于此用户来说更加重要。研究者们用了很多中方法从用户的点击行为中获取用户的喜好特征。举例来说,有些研究者用一种叫Ranking SVM 的算法(Hersh et al. 1994)通过用户的点击信息来获得对该用户来说最好的网页排序。在(Radlinski&Joachims 2005) 一文中,作者不但从用户的单次查询中提取用户喜好,同时也从用户对同一信息的一连串查询中提取用户的喜好,这些喜好特征然后通过 Ranking SVM的改进算法来进行训练。Sun et al. Q005)提出了一种基于Singluar Value Decomposition的算法,它通过分析用户的点击数据来提高搜索引擎的建议系统的准确率。关注时间相对来说,关注时间是一个新型的隐式用户反馈。虽然它在近期的研究中越来越多被提到,但是关于它是否真的能够反映用户意图仍然有争辩。Kelly和Belkin(2004 ;2001)建议说,在文本的关注时间和它对用户的有用度之间并没有非常可靠的相互关系。但是不同的是,在他们的研究当中,关注时间是通过测量一组用户阅读不同主题的文章而得到的平均关注时间。Halabi et al. (2007)认为对于一个的用户在同一个搜索行为中关注时间,它可以很好的反映出用户的喜好。然而,在目前现有技术中,并没有对用户关注时间(停留时间)做更深入研究,特别是如何根据用户在每个文档上的阅读时间,进一步推测该用户对每个话题的阅读兴趣。

发明内容
本发明提出了一种基于最优化模型的方法,并充分利用了在线资源维基百科,通过文档级用户停留时间来推测概念词级用户停留时间,从而更加精准的捕捉用户的阅读兴趣,为个人用户提供更理想的网页搜索结果。一种基于用户停留时间分析的个性化网页搜索排序方法,包括以下步骤1)获取用户在其阅读过的每个网页上的用户停留时间;2)将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合;3)推测用户在每个概念词上的用户停留时间;4)估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果。所述的获取用户在其阅读过的每个网页上的用户停留时间的步骤为a)利用自定义浏览器,记录用户在每个网页页面上的停留时间,即该页面作为活动(active)页面的时间;所谓自定义浏览器,即为自行开发的可记录用户在网页上的关注时间的网页客户端软件,或通过网页浏览器插件技术实现的用于记录用户在特定网页上停留时间的现有网页浏览器的插件;b)对收集的用户停留时间样本进行如下校正DT (Di) = max {Τ (Di) -T0,0};其中是T(Di)通过自定义浏览器获得的用户对于网页Di的停留时间;Ttl是用户用来判断该网页是否值得一读的时间,缺省设为O 10秒的定值;DT(Di)则是经校正后网页 Di的用户停留时间。如果用户在超过一定时间阈值的期间内均没有移动鼠标或者进行键盘操作,则会丢弃该用户停留时间样本,认为该用户在浏览网页的过程中暂时离开了当前电脑。该时间阈值缺省设置为2分钟。所述的将用户阅读过的每个网页都表示成一个若干个概念词的集合的步骤为c)对用户阅读过的每个网页Di,使用2006年“Detecting spam web pages through content analysis”文章中提到的内容分析来检测垃圾网页的算法去除网页中的非内容部分,得到该网页的纯文本内容;d)对01中的每一个词,若在维基百科上存在对该词定义的页面,则将该词标记为一个概念词;e)统计Di中每个概念词&的出现次数,将Di表示成一个概念词的集合CV(D1) = {{C],n])\ j = 1,2,...,Z(D1)),η, >n2 >...>nz(Dj) ■其中是第j个概念词在Di中的出现次数,ζ (Di)是Di中不同概念词的个数。所述的推测用户在每个概念词上的用户停留时间的步骤为f)在用户阅读过的网页中出现过的所有概念词中,记每个待求的概念词Ci的用户停留时间为DT(Ci); g)根据神经认知科学中的大脑厌倦原理,根据用户对每个概念词Ci单次出现时获得的用户停留时间DT(Ci),使用如下公式,导出该概念词在某个网页中累计出现Iii次时获得的综合用户停留时间NDT(Ci)
权利要求
1.一种基于用户停留时间分析的个性化网页搜索排序方法,其特征在于包括以下步骤1)获取用户在其阅读过的每个网页上的用户停留时间;2)将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合;3)推测用户在每个概念词上的用户停留时间;4)估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果。
2.根据权利要求1所述的基于用户停留时间的个性化网页搜索排序方法,其特征在于所述的获取用户在其阅读过的每个网页上的用户停留时间的步骤为a)利用自定义浏览器,记录用户在每个网页页面上的停留时间,即该页面作为活动 (active)页面的时间;所述的自定义浏览器,为用于记录用户在网页上的关注时间的网页客户端软件,或通过网页浏览器插件技术实现的用于记录用户在特定网页上停留时间的现有网页浏览器的插件;b)对收集的用户停留时间样本进行如下校正DT(Di) = max IT(Di)-T0,0}·其中是T(Di)通过自定义浏览器获得的用户对于网页Di的停留时间;Ttl是用户用来判断该网页是否值得一读的时间,缺省设为0 10秒的定值;DT(Di)则是经校正后网页Di 的用户停留时间,如果用户在超过一定时间阈值的期间内均没有移动鼠标或者进行键盘操作,则会丢弃该用户停留时间样本。
3.根据权利要求1所述的基于用户停留时间的个性化网页搜索排序方法,其特征在于所述的将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合的步骤为c)对用户阅读过的每个网页Di,使用内容分析来检测垃圾网页的算法去除网页中的非内容部分,得到该网页的纯文本内容;d)对01中的每一个词,若在维基百科上存在对该词定义的页面,则将该词标记为一个概念词;e)统计Di中每个概念词&的出现次数,将Di表示成一个概念词的集合 CV(D1) = {(Cy, y)l J = 1,2,..., Z(A)M1 >n2> …> nz{Di),其中是第j个概念词&在Di中的出现次数,ζ (Di)是Di中不同概念词的个数。
4.根据权利要求1所述的基于用户停留时间的个性化网页搜索排序方法,其特征在于所述的推测用户在每个概念词上的用户停留时间的步骤为f)在用户阅读过的网页中出现过的所有概念词中,记每个待求的概念词Ci的用户停留时间为DT(Ci);g)根据神经认知科学中的大脑厌倦原理,根据用户对每个概念词Ci单次出现时获得的用户停留时间DT(Ci),使用如下公式,导出该概念词在某个网页中累计出现Iii次时获得的综合用户停留时间NDT(Ci)NDT(Ci) = ^^a2- I + exp(aj (1 - nt)) .其中Iii为概念词Ci在网页中累计出现的次数;&1, 为系数,分别缺省设为0. 33,1. 16 ; 上述公式所体现的大脑厌倦机制是当同一概念词被用户反复阅读时,这一概念词获得的用户停留时间会以非线性方式逐次减少,趋于饱和;h)对在用户阅读过的网页中出现过的任意两个概念词Ci, .,使用基于维基百科语义分析的算法计算它们之间的语义相似度,记为S(CpCj);i)定义辅助函数Q(Di;k)为若网HDi只含有其出现次数最多的前k个概念词时,用户在DiI的停留时间。Q(D”k)的值可由如下公式逐步计算导出
5.根据权利要求4所述的基于用户停留时间的个性化网页搜索排序方法,其特征在于所述的用最优化方法求出每个概念词Ci的用户停留时间DT(Ci)的解值,使得所有的用户停留时间相对差之间达到最大的一致性,包括以下步骤1)对在用户阅读过的网页中出现过的任意三个概念词Ci, Cj, Ck,定义三个辅助函数 F1 (Ci,Cj,Ck),F2 (Ci,Cj,Ck),F3 (Ci,Cj,Ck)为F1 (Ci, Cj, Ck) = (RD (Ci, Cj) -RD (Ci, Ck)) (s (Ci, Cj) _s (Ci, Ck)), F2 (Ci, Cj, Ck) = (RD (Ci, Cj) -RD (Cj, Ck)) (s (Ci, Cj) _s (Cj, Ck)), F3 (Ci, Cj, Ck) = (RD (Ci, Ck) -RD (Cj, Ck)) (s (Ci, Ck) -s (Cj, Ck)); m)记 F (Ci, Cj, Ck) = F1 (Ci, Cj, Ck) +F2 (Ci, Cj, Ck) +F3 (Ci, Cj, Ck),将求解每个概念词的用户停留时间的问题转化为以下的最优化问题
6.根据权利要求1所述的基于用户停留时间的个性化网页搜索排序方法,其特征在于所述的估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果的步骤为r)当用户提交一个网页搜索请求时,使用传统的网页搜索引擎获得搜索结果的前300 个网页;s)对其中的每个网页Dx,使用步骤c)_e)所述方法,将其表示为若干个概念词组成的集合;t)对该网页中所有概念词的用户停留时间求和,将总和作为该用户对网页Dx的用户停留时间,记为DT(Dx);u)估计该用户对网页Dx的阅读兴趣I (Dx)l + exp(-Z -i x);其中Rx为网页Dx在传统的网页搜索引擎的排序名次;参数b设为0.2;而t = exp(-N/100),其中N代表目前为止该用户所阅读过的文章数量;ν)将网页按照用户对其阅读兴趣从大到小重新排列,生成个性化的网页搜索结果。
全文摘要
本发明公开了一种基于用户停留时间分析的个性化网页搜索排序方法,该方法首先通过一个自定义网页浏览器获取文档级的用户停留时间,据此推测出在概念词级的用户停留时间;然后跟据推测获得的概念词级的用户停留时间,进一步预测该用户对任意网页搜索结果中的每个网页的个性化阅读兴趣;最终依据该用户的个性化阅读兴趣生成面向这一用户的个性化网页搜索结果。本发明利用人工智能相关技术,应用网页搜索和文本处理等方法来估计用户对于不同概念的阅读兴趣,从而将个人阅读习惯和需求考虑在网页搜索排序的过程中,使得网页搜索结果排序更加贴近用户个性化预期的结果,为用户提供更好的网络搜索和浏览支持。
文档编号G06F17/30GK102231165SQ201110194078
公开日2011年11月2日 申请日期2011年7月11日 优先权日2011年7月11日
发明者刘智满, 徐颂华, 江浩 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1