一种用于对检索结果重新排序的协同检索方法

文档序号:6484356阅读:168来源:国知局
专利名称:一种用于对检索结果重新排序的协同检索方法
技术领域
本发明涉及 一 种用于对检索结果重新排序的协同检索方法,适用于W e b 信息的协同检索。
技术背景检索结果的排序对用户查询的质量存在直接影响。当检索结果中的每个 文档根据自身的相关性和重要性被赋予合理的分值作为排序依据时,查询过 程是令人满意的;反之,如果检索结果中文档的评分结果缺乏合理性,将产 生较差的用户体验。通过评估特定文档的重要性和权威性对文档进行排序,已经展开了大量 的研究,并提出了很多方法,其中最为著名的两种方法是HITS和PageRank。 但HITS算法需要较多的查询处理时间,而且更容易受到垃圾链接的影响; 而PageRank算法根据Web上的所有页面计算各页面的全局分数,独立于用 户查询,没有考虑用户的特定话题。近年来,通过分析查询日志对检索结果重排序的研究取得了一定的发 展,如Ziming和Silviu提出了一种基于查询日志的Web检索结果重排序 方法Q-Rank, Q-Rank从日志中寻找活动查询的相关信息构建查询上下文, 以此作为排序的主要因素。Eugene 、 Eric和Susan从查询日志中挖掘用户的 行为信息,优化查询结果排序。Shen和Zhai提出的方法使用过去的查询序 列辅助当前查询,并对文档的相关性进ff预测。日前,美国《大众机械》杂志近日预测了 2009年将可能出现的是十大 科技概念,其中协同检索技术赫然在列。协同检索是考虑到参加合作项目的 人经常复制彼此间在网络搜索方面的工作而产生的技术,其充分证明了"团 结就是力量",提高了搜索效率。然而,已有的协同检索技术的实现过程都忽略了 Web协同检索的一个重要步骤,即社区的建立。在已有的方法中, 社区的组成由用户或系统预先进行定义,这种才几制往往忽略了两个用户之间 的相似度,在排序过程中为社区中的每位成员赋予相同的权重,降低了系统 的有效性。除此之外,还存在(l)必须预先定义查询种类,而且预定义的质 量直接影响排序质量;(2)用户描述文件的建立使用支持向量机的方法,如果 用户兴趣发生改变,更新难度较大的技术问题。 发明内容本发明的技术解决问题克服现有技术的不足,提供一种对Web检索 结果重新排序的协同4全索方法CRRA(Collaborative Re-Ranking Approach)。 该方法从分析查询日志入手建立潜在知识库,动态的计算社区的范围,参考 社区内各成员的检索经验,对检索结果重新排序。在参考检索经验时,根据 各成员与活动用户之间的相似度赋予不同的权重。使用CRRA进行Web信 息检索后,大大增强了自身的有效性。本发明的技术解决方案 一种对Web检索结果重新排序的协同检索方 法,该方法旨在用户、查询和文档特征词之间建立概率关系模型,并使用该 模型构造用户兴趣描述文件、根据概率理论和协同过滤技术动态计算社区; 之后,分配给社区中每位成员一个推荐向量,并利用这些向量计算每个检索 结果文档的排序分值;其特征在于该方法分为四个阶段预处理阶段、用 户兴趣学习阶段、社区计算阶段和排序分值计算阶段。预处理阶段的主要目的是分析得到所有用户的检索经验。根据查询曰志 建立查询^和文档特征词4之间的概率关系,构造矩阵^7,、其中矩阵元素 对应于条件概率; 仏l&),当概率值越高时,特征词^与查询^之间的关系越 紧密。条件概率p仏l^.)的计算方式如下其中,D(《,)表示用户提交查询义.时所选择的结果文档组成的集合,d为该集合中的一个文档,r(力表示文档d的特征词集合,^>,力是用于计算在文档d 内包含特征词/次数的函数,x&.)表示查询日志中关于查询&.的记录条数, /(%,^)表示查询日志中提交了查询A并同时选择了文档t/的次数。在计算条件概率/ 仏l&)之后,矩阵M"就可以被完整的表达出来。矩阵M^的每一行表示一个查询概念,每一列表示一个特征词,矩阵中的每个数值表示讨论中的条件概率。因此,在矩阵M"的某一行中,其最大值表示对 应的特征词与对应的查询关系最为密切。每一行对应的查询概念可表示为一个向量^ = (wm , %v2 ,..., wm , } = I : ),(《,),…,P(G (力),...}。用户兴趣学习阶段中,通过分析查询日志中的查询会话片段,用矩阵形 式表示用户兴趣,即矩阵M^,'。查询会话片段用 一个三元组表示,即",,^,S),其中仏和^表示一个用户w,提交给Web搜索系统的一个查询^表示一个向量,该向量描述了在该场景中每个特征词^出现在被选择文档中的条件 概率,即S = K,m,w',,"-,…,,.. },且,.,a = /4 I ",,力), 且一个查询会话片段对应查询日志中的一条记录,因此,它可能是一个完整 的查询会话,即在该查询会话片段中用户找到了满足自己需求的信息;也可 能是一个查询会话的一部分,即用户检索Web系统时的目标并未在这一个 查询会话片段中达到,可能需要重构查询。从定义可以看出,每个查询会话 片段涉及了三个因素,即用户、查询和特征词。矩阵AT7"的构造过程将用户视为 一个关键因素。矩阵中的每个元 素对应于一个条件概率,即; (4h,A)。根据条件概率/^勿,)的计算方法,可 以得到<formula>formula see original document page 8</formula>其中,DO,,&)表示用户w,提交查询^后选择的所有文档组成的集合,d为该集合中的一个文档,/^,,&)是用于统计用户M,提交查询^y次数的函数,/(",,》,力 表示用户M,提交查询^后选择文档d的次数。矩阵W^的每一行表示对应 用户的一个查询概念,每一列表示一个特征词,元素数值对应条件概率户(4lw,., /)。每一行表示的查询概念可以表示为一个向量,则每个用户的兴趣描述由这样的向量组成。社区计算阶段中,动态计算社区范围。当一个用户W提交一个查询《给Web搜索系统后,该用户所在的社区"的计算方法如下1)计算查询《的邻居,即从查询日志中分析出与查询《相似的查询。 在预处理阶段矩阵W"的基础上,得到每个查询的向量表示形式,即l = (P(A I力),户02 l力),…,P(G I《;), } 计算每个查询与活动查询^之间的相似度。查询《和^之间的相似度计算选 用向量空间模型中的cosine相似度方法,即^S7'W(《,, ) = COS(《,)=1 1间选择与查询《最为相似的Kg个查询组成《的邻居区域2 (g包括《本身)。2) 构造用户-特征词矩阵A^ 。该矩阵中的每个元素对应于条件概率 /("l",),其计算方法如下/^(^ lM,)=》(G l",,^)xP(^ 。3) 计算用户所在的社区范围,即用户的最近邻居。在矩阵i^,'的基础 上,每个用户可以表示成一个向量形式,即利用用户向量计算用户W与其余用户之间的相似度,并选择最为相似的《 个用户组成社区f/。用户w与w,之间的相似度计算方法如下式所示排序分值计算阶段的主要目标是在上述三个阶段准备工作的基础上,为 结果文档进行排序。检索结果中每个文档的排序位置应该综合考虑活动用户 的检索经验和社区内其他成员的检索经-睑。当完成社区t/的动态计算之后,计算文档d的排序分值,即S(W, w,《,f/) = " x y/w(S, wc)) + (1 — ") x 2 (《z'柳(w, w,) x x/附(S, w产)),其中,参数cc反映了个人因素与社区因素在重要性上的相对比值,S表示文 档d的向量,即本发明的优点及功效在于采用本发明的协同检索方法后,可取得较高 的排序质量,且不同部分查询会话中得到的排序质量不会受到干扰,稳定性 佳。该方法在分析查询日志的基础上,采用了一个无监督的、增量的、协同 的重排序过程。该方法分析用户的检索活动之后,动态的确定社区的组成, 从而保证了社区内的成员拥有较高的内部相似度。


图1为本发明的对检索结果重新排序的协调检索方法的总体框架图; 图2为不同参数设置下的实验效果;图3为本发明CRRA方法与TF-IDF、RRCF三种算法的DCG指标比较。
具体实施方式
本发明一种对Web检索结果重新排序的协同^^索方法(CRRA),强调 Web检索过程中的三个主要的实体,即用户、查询和文档特征词,每个实体 的任何改变都会影响到查询上下文。对于相同的查询,不同的用户可能拥有不同的信息需求;另一方面,面对相同的信息需求,不同的用户提交的查询 可能千差万别。经过对查询日志内容的统计分析,该方法在这三个实体之间 建立了一个概率关系模型,并使用这个模型构造用户兴趣描述文件、根据概率理论和协同过滤技术动态计算社区。最后,CRRA方法分配给社区中每位 成员一个推荐向量,并利用这些向量计算每个检索结果文档的排序分值。 CRRA方法的整个过程可以分为四个阶段,即预处理阶段、用户兴趣学习阶 段、社区计算阶段和排序分值计算阶段。图1对CRRA方法的四个阶段进行 了概括的介绍。为了验证CRRA方法的有效性,按照CRRA方法的具体步骤进行了 一 系列的实验预处理、用户兴趣学习、社区计算和排序分值计算。实验数据集选用AOL搜索引擎的查询日志,该数据集采集了三个月内 657,427个用户提交的约20,000,000个查询。在实-验过程中,通过统计每个 查询被用户提交的总次数来衡量查询的重要性,得到每个查询的评分,最终 只选择保留分值大于200,000的查询进行分析,这些查询一共涉及78个具 有代表性的用户,并将这78名用户的查询日志组成一个数据子集,被用户 点击查看过的所有文档内容也被添加到该数据子集中。表1列出了该数据子 集的信息。表i 数据子集的信息项目数目ussrs78queries63999lines of dat3160752表2列出了由数据子集统计出来的最常用的50个查询,选择其中10个 用来进行实验(表中用灰色背景标注的查询)。每个查询经商业搜索引擎 AOL处理之后返回的前20个结果用来进行实验分析,且每个查询-检索结果 对由人工的方式从0到5进行分级评分。该评分才几制反映了文档与对应查询 之间的相关性,0表示毫不相关,5表示关系密切。表2 50个常用的查询(字体斜体加粗的查询选作实验用)yahoogoogle.commyspacemyspace.comyahoo.comtargetlowesmap questdictionarycingularmsnqvcsearsweatherupsask.combed bath and beyondexpediahotmailticketmastermapq nest,commy space.com0rbk2msn.comikeakm artkohlscostcobestbuybest buydillardsmacystoys r ususpswebmdwww.myspace,comsprint最终用来实验的IO个查询信息如表所示:表3实验用的10个查询信息序号查询1american idol2ask jeeves3barnes and noble4google5m叩quest6my space7pizza hut8verizon wireless9W aim art10yellow pages为了衡量^f企索结果的排序质量,采用Kalervo和Jaana介绍的评价指标 DCGCD&coimfed Cwww/a"ve Ga/w)。 DCG才艮据文档在一个结果列表中的位置 信息,度量该文档的重要性。若文档排名越靠前,则被赋予的权重更高,并 且允许用户自行定义不同级别的相关性判断。DCG的计算方法定义如下其中,M/,是用户为排序位置为p的文档赋予的相关性等级。计算出来 的ZX7G值越高,说明结果的排序质量也越高。iiCRRA方法的实验过程中,共涉及3个参数,分别是&, &和《。图 描述了这三个参数不同的设置对CRRA方法的影响。其中,图2(a)描述了当 尺 =10, ct=0.5时,不同的&设置;图2(b)描述了当&=10, a=0.5时,不同的 i^设置;图2(c)描述了当^=10,^=10时,不同的cc设置。1 )不同的相4以查询个凄t不同的相似查询个数,即设置不同的&值。图2(a)说明了在不同的《《 值条件下,CRRA方法的DCG指标变化。实验条件为,A:,=10, ot=0.5, & 的取值分别为5、 10、 15、 20、 25和30。从实-睑结果可知,j 值的变化对 排序质量造成了一定程度的影响。分析CRRA方法的过程得到,2决定了 t/ 的选择,g中排在前列的查询对f/而言尤为关键。当&的取值增大时,致 使与活动查询q相似程度较低的查询添加到2中成为噪声,于是,活动用 户w的偏远邻居也随之被添加到社区C/中,因此,整体的排序质量降低。 随着&的取值继续增大,噪声查询造成的影响也被淹没,使得排序质量趋 于稳定。但是,选择过多的相似查询(即&的取值过大)将消耗更多的时 间。由此可见,参数」^的设置应该兼顾排序质量与时间,在实际应用中, 用户可通过GUI手动调节该参数。在后续的实验中,设置尺广IO。2) 不同的用户邻居个数不同的用户邻居个数,即设置不同的&值。图2(b)说明了在不同的& 值条件下,CRRA方法的DCG指标变化。实验条件为,」、=10, a=0.5, & 的取值分别为5、 10、 15、 20、 25和30。从实验结果可知,i^值的变化对 排序质量影响甚微。当0确定了以后,社区/7的范围也随之确定。通常, 社区中的成员越多,越有利于提供准确的推荐,但另一方面,同样会消耗过 多的时间。因此,参数K,的取值也必须合适,在排序准确率和时间之间取 得一个平衡。在后续的时间中,默认设置&=10。3) 参数ct的设置设置不同的参数a,意味着CRRA方法在个人检索经验与社区集体检索经验之间的相对重要性设置不同。图(c)显示了不同的参数a条件下CRRA 方法的Z)CG指标变化。实-险条件为,K广IO, J^=10, a从0.1到0.9之间 以0.1为步长递增变化。从图(c)可以看出,当参数a的取值增加时,Z)CG 指标降低,即排序质量有所降低。参数a决定了个人与社区集体之间检索经 验的比重,a的取值变大说明个人检索经验所占的比重增大,而检索质量的 降低则肯定了社区的集体检索经验所发挥的作用,即在排序过程中,社区的 检索经验比个人的检索经验更精确、更有效。默认设置《=0.1,并且规定用 户可以通过GUI对该参数进行调节。 4) CRRA的准确率选择另外两种算法来对比测试CRRA方法的有效性,一种是筒单的基于 TF-IDF特征词评分和cosine相似度算法的文档排序方法,另 一种是Rohini 和Vasudeva于2007年介绍的RRCF算法。图显示了实验之后CRRA方法的DCG指标结果,同时对比比较了 TF-IDF以及RRCF两种算法的DCG指标结果。按照平均的DCG指标,CRRA 方法比TF-IDF算法取得了 9.7%的提高,比RRCF算法取得了 3.7%的提高。 对每个查询而言,CRRA均拥有良好的实验表现,取得较高的排序质量。而 RRCF算法则不太稳定,这个算法可以在部分查询会话中取得很好的排序质 量,而在有的查询会话中的排序质量则偏差,这说明RRCF算法得到的排序 质量容易受到干扰。CRRA方法在分析查询日志的基础上,采用了一个无监 督的、增量的、协同的重排序过程。该方法分析用户的检索活动之后,动态 的确定社区的组成,从而保证了社区内的成员拥有较高的内部相似度。因此, CRRA方法产生较高的排序质量的同时,具备了很好的稳定性。
权利要求
1、一种对Web检索结果重新排序的协同检索方法,该方法旨在用户、查询和文档特征词之间建立概率关系模型,并使用该模型构造用户兴趣描述文件,根据概率理论和协同过滤技术动态计算社区;之后,分配给社区中每位成员一个推荐向量,并利用这些向量计算每个检索结果文档的排序分值;其特征在于该方法分为四个阶段预处理阶段、用户兴趣学习阶段、社区计算阶段和排序分值计算阶段;在所述的预处理阶段中,根据查询日志建立查询qj和文档特征词tk之间的概率关系,构造矩阵Mq,t,其中矩阵元素对应于条件概率p(tk|qj);特征词tk与查询qj之间的相关度随概率值单调递增;条件概率p(tk|qj)计算后,矩阵Mq,t即可表达出来,矩阵Mq,t的每一行表示一个查询概念,每一列表示一个特征词,矩阵中的每个数值表示讨论中的条件概率;矩阵Mq,t的某一行中,其最大值表示对应的特征词与对应的查询关系最为密切,每一行对应的查询概念可表示为一个向量<maths id="math0001" num="0001" ><math><![CDATA[ <mrow><msub> <mover><mi>q</mi><mo>&RightArrow;</mo> </mover> <mi>j</mi></msub><mo>=</mo><mo>{</mo><msub> <mi>w</mi> <mrow><mi>j</mi><mo>,</mo><msub> <mi>t</mi> <mn>1</mn></msub> </mrow></msub><mo>,</mo><msub> <mi>w</mi> <mrow><mi>j</mi><mo>,</mo><msub> <mi>t</mi> <mn>2</mn></msub> </mrow></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub> <mi>w</mi> <mrow><mi>j</mi><mo>,</mo><msub> <mi>t</mi> <mi>k</mi></msub> </mrow></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>}</mo><mo>=</mo><mo>{</mo><mi>p</mi><mrow> <mo>(</mo> <msub><mi>t</mi><mn>1</mn> </msub> <mo>|</mo> <msub><mi>q</mi><mi>j</mi> </msub> <mo>)</mo></mrow><mo>,</mo><mi>p</mi><mrow> <mo>(</mo> <msub><mi>t</mi><mn>2</mn> </msub> <mo>|</mo> <msub><mi>q</mi><mi>j</mi> </msub> <mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>p</mi><mrow> <mo>(</mo> <msub><mi>t</mi><mi>k</mi> </msub> <mo>|</mo> <msub><mi>q</mi><mi>j</mi> </msub> <mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>}</mo><mo>;</mo> </mrow>]]></math></maths>在所述的用户兴趣学习阶段,通过分析查询日志中的查询会话片段,用矩阵形式表示用户兴趣,即矩阵Muq,t,其中查询会话片段用一个三元组表示,即 id="icf0002" file="A2009100831710002C2.tif" wi="21" he="5" top= "186" left = "24" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>ui和qj表示一个用户ui提交给Web搜索系统的一个查询qj; id="icf0003" file="A2009100831710002C3.tif" wi="4" he="4" top= "187" left = "184" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>表示一个向量,该向量描述了在该场景中每个特征词tk出现在被选择文档中的条件概率,且<maths id="math0002" num="0002" ><math><![CDATA[ <mrow><msub> <mover><mi>w</mi><mo>&RightArrow;</mo> </mover> <mi>ij</mi></msub><mo>=</mo><mo>{</mo><msub> <mi>w</mi> <mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>,</mo><msub> <mi>t</mi> <mn>1</mn></msub> </mrow></msub><mo>,</mo><msub> <mi>w</mi> <mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>,</mo><msub> <mi>t</mi> <mn>2</mn></msub> </mrow></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub> <mi>w</mi> <mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>,</mo><msub> <mi>t</mi> <mi>k</mi></msub> </mrow></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>}</mo><mo>,</mo> </mrow>]]></math> id="icf0004" file="A2009100831710002C4.tif" wi="65" he="10" top= "215" left = "42" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/></maths>且<maths id="math0003" num="0003" ><math><![CDATA[ <mrow><msub> <mi>w</mi> <mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>,</mo><msub> <mi>t</mi> <mi>k</mi></msub> </mrow></msub><mo>=</mo><mi>p</mi><mrow> <mo>(</mo> <msub><mi>t</mi><mi>k</mi> </msub> <mo>|</mo> <msub><mi>u</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>q</mi><mi>j</mi> </msub> <mo>)</mo></mrow><mo>,</mo> </mrow>]]></math> id="icf0005" file="A2009100831710002C5.tif" wi="45" he="7" top= "215" left = "117" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/></maths>一个查询会话片段对应查询日志中的一条记录;在所述的社区计算阶段中,动态计算社区范围;在所述的排序分值计算阶段中,为结果文档进行排序;完成社区U的动态计算之后,计算文档d的排序分值,即<maths id="math0004" num="0004" ><math><![CDATA[ <mrow><mi>S</mi><mrow> <mo>(</mo> <mi>d</mi> <mo>,</mo> <mi>u</mi> <mo>,</mo> <mi>q</mi> <mo>,</mo> <mi>U</mi> <mo>)</mo></mrow><mo>=</mo><mi>&alpha;</mi><mo>&times;</mo><mi>sim</mi><mrow> <mo>(</mo> <mover><mi>d</mi><mo>&RightArrow;</mo> </mover> <mo>,</mo> <msup><mi>u</mi><mi>Q</mi> </msup> <mo>)</mo></mrow><mo>+</mo><mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&alpha;</mi> <mo>)</mo></mrow><mo>&times;</mo><munder> <mi>&Sigma;</mi> <mrow><msub> <mi>u</mi> <mi>i</mi></msub><mo>&Element;</mo><mi>U</mi> </mrow></munder><mrow> <mo>(</mo> <mi>sim</mi> <mrow><mo>(</mo><mi>u</mi><mo>,</mo><msub> <mi>u</mi> <mi>i</mi></msub><mo>)</mo> </mrow> <mo>&times;</mo> <mi>sim</mi> <mrow><mo>(</mo><mover> <mi>d</mi> <mo>&RightArrow;</mo></mover><mo>,</mo><msubsup> <mi>u</mi> <mi>i</mi> <mi>Q</mi></msubsup><mo>)</mo> </mrow> <mo>)</mo></mrow><mo>,</mo> </mrow>]]></math></maths>其中,参数α反映了个人因素与社区因素在重要性上的相对比值, id="icf0007" file="A2009100831710003C2.tif" wi="2" he="3" top= "42" left = "171" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>表示文档d的向量,即<maths id="math0005" num="0005" ><math><![CDATA[ <mrow><mover> <mi>d</mi> <mo>&RightArrow;</mo></mover><mo>=</mo><mo>{</mo><mi>p</mi><mrow> <mo>(</mo> <msub><mi>t</mi><mn>1</mn> </msub> <mo>|</mo> <mi>d</mi> <mo>)</mo></mrow><mo>,</mo><mi>p</mi><mrow> <mo>(</mo> <msub><mi>t</mi><mn>2</mn> </msub> <mo>|</mo> <mi>d</mi> <mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>p</mi><mrow> <mo>(</mo> <msub><mi>t</mi><mi>k</mi> </msub> <mo>|</mo> <mi>d</mi> <mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>}</mo> </mrow>]]></math></maths><maths id="math0006" num="0006" ><math><![CDATA[ <mrow><mo>=</mo><mo>{</mo><mfrac> <mrow><mi>tf</mi><mrow> <mo>(</mo> <msub><mi>t</mi><mn>1</mn> </msub> <mo>,</mo> <mi>d</mi> <mo>)</mo></mrow> </mrow> <mrow><munder> <mi>&Sigma;</mi> <mrow><mi>t</mi><mo>&Element;</mo><mi>T</mi><mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo></mrow> </mrow></munder><mi>tf</mi><mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo></mrow> </mrow></mfrac><mo>,</mo><mfrac> <mrow><mi>tf</mi><mrow> <mo>(</mo> <msub><mi>t</mi><mn>2</mn> </msub> <mo>,</mo> <mi>d</mi> <mo>)</mo></mrow> </mrow> <mrow><munder> <mi>&Sigma;</mi> <mrow><mi>t</mi><mo>&Element;</mo><mi>T</mi><mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo></mrow> </mrow></munder><mi>tf</mi><mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo></mrow> </mrow></mfrac><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mfrac> <mrow><mi>tf</mi><mrow> <mo>(</mo> <msub><mi>t</mi><mi>k</mi> </msub> <mo>,</mo> <mi>d</mi> <mo>)</mo></mrow> </mrow> <mrow><munder> <mi>&Sigma;</mi> <mrow><mi>t</mi><mo>&Element;</mo><mi>T</mi><mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo></mrow> </mrow></munder><mi>tf</mi><mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo></mrow> </mrow></mfrac><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>}</mo><mo>.</mo> </mrow>]]></math></maths>
2. 如权利要求1所述的一种对Web检索结果重新排序的协同检索方法, 其特征在于所述的条件概率p(4^)的计算方式如下<formula>formula see original document page 3</formula>其中,Z)(^)表示用户提交查询^时所选择的结果文档组成的集合,d为该集合中的一个文档,r(力表示文档d的特征词集合,?/u力是用于计算在文档d 内包含特征词/次数的函数,A /)表示查询日志中关于查询^的记录条数, X&,力表示查询日志中提交了查询^并同时选择了文档"的次数。
3. 如权利要求1所述的一种对Web检索结果重新排序的协同检索方法, 其特征在于所述的查询会话片段可以是一个完整的查询会话,也可以是一 个查询会话的一部分。
4. 如权利要求1所述的一种对Web检索结果重新排序的协同检索方法, 其特征在于所述的矩阵7kT,'的构造过程将用户视为一个关键因素;矩阵 M"^中的每个元素对应于一个条件概率/ (4|m,,&),<formula>formula see original document page 3</formula>其中,D(W,,&.)表示用户M,提交查询^后选择的所有文档组成的集合,"为该集合中的一个文档,X"^j)是用于统计用户",提交查询^次数的函数,/(w^,力 表示用户W,.提交查询^后选择文档d的次数。
5.如权利要求1所述的一种对Web检索结果重新排序的协同检索方法, 其特征在于所述的动态计算社区范围,包括以下3个步骤l)计算查询g的邻居,从查询日志中分析出与查询《相似的查询。在 预处理阶段矩阵的基础上,得到每个查询的向量表示形式,计算每个查询与活动查询《之间的相似度;查询《和A之间的相似度计算选 用向量空间模型中的cosine相似度方法,即<formula>formula see original document page 0</formula>间选择与查询《最为相似的&个查询组成《的邻居区域2, 2包括?本身;2) 构造用户-特征词矩阵A^',该矩阵中的每个元素对应于条件概率Z綱,且<formula>formula see original document page 0</formula>3) 计算用户所在的社区范围,即用户的最近邻居;在矩阵M犷的基础 上,每个用户可以表示成一个向量形式,即< =1 ",),/^A k),…/^(G I",)},利用用户向量计算用户w与其余用户之间的相似度,并选择最为相似的^ 个用户组成社区"。用户w与w,之间的相似度计算方法如下式所示<formula>formula see original document page 0</formula>
全文摘要
本发明提出了一种用于对检索结果重新排序的协同检索方法,该方法的主要目的是将具有相同检索意图用户的检索经验结合起来,用于提高检索结果的排序质量。该方法分为四个阶段预处理阶段、用户兴趣学习阶段、社区计算阶段和排序分值计算阶段。从Web搜索引擎的查询日志入手,该方法对用户的检索活动进行分析,在预处理阶段建立查询-特征词关系矩阵作为潜在知识库。然后从用户的查询会话片段中学习每个用户的兴趣模型。综合用户的兴趣模型和潜在知识库,动态的计算社区的组成范围。最后,社区内成员的检索经验根据各成员与活动用户之间的相似度被赋予不同的权重,用于调整检索结果的顺序,提高排序质量。
文档编号G06F17/30GK101556603SQ20091008317
公开日2009年10月14日 申请日期2009年5月6日 优先权日2009年5月6日
发明者刘永利, 琪 张, 欧阳元新, 璋 熊 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1