用于顾及当用户在搜索引擎中提出查询时的用户意图的点击模型的制作方法

文档序号:6440712阅读:175来源:国知局
专利名称:用于顾及当用户在搜索引擎中提出查询时的用户意图的点击模型的制作方法
技术领域
本发明搜索引擎,尤其涉及生成用于搜索引擎的训练数据的方法。
背景技术
对于连接到万维网(“web”)的主计算机的用户而言,采用web浏览器和搜索引擎来定位具有用户感兴趣的特定内容的网页已经是常见的。诸如微软的Live搜索等搜索引擎索引由全世界的计算机维护的数百亿个网页。主计算机的用户编撰查询,而搜索引擎标识匹配这些查询的页面或文档,例如包括查询的关键字的页面。这些页面或文档被称为结果集。在许多情况下,在查询时对结果集中的页面进行排名是计算上昂贵的。多个搜索引擎在它们的排名技术中依靠许多特征。证据源可包括查询和页面或查询和指向页面的超链接的锚文本之间的文本相似性、例如经由浏览器工具栏或通过对搜索结果页面中的链接的点击来测量的页面的用户流行度、以及作为内容提供者之间的对等背签的形式来查看的页面之间的超接合(hyper-linkage)。排名技术的有效性能够影响页面相对于查询的相对质量或相关性,以及页面被查看的概率。一些现有搜索引擎经由对页面进行打分的函数来对搜索结果进行排名。该函数从训练数据中自动习得。训练数据又通过向人类判定者提供查询/页面组合来创建,该人类判定者被要求基于页面有多好地匹配查询来标记页面,例如完美、优秀、良好、一般或差。每一查询/页面组合都被转换成特征向量,特征向量然后被提供给能够导出归纳训练数据的函数的机器学习算法。对于常识查询,人类判定者能够得出对页面有多好地匹配查询的合理评估是很有可能的。然而,在判定者如何评估查询/页面组合时存在广泛的变化。这部分地是由于对于查询的较好或较差页面的先验知识,以及定义对查询的“完美”回答的主观特性(这对于诸如“优秀”、“良好”、“一般”和“差”之类的其他定义亦如此)。实际上,查询/页面对通常仅由一个判定者来评估。此外,判定者可能不具有查询的任何知识并因此提供不正确的评级。最终,web上的大量查询和页面暗示将需要判定非常多的对。将该人类判定过程缩放到越来越多的查询/页面组合将会是富有挑战性的。点击日志中嵌入关于用户对搜索引擎的满意度的重要信息并且能够提供相关性信息的高度有价值的源。与人类判定者相比,获取点击便宜得多并且点击通常反映当前相关性。然而,已知点击由于呈现次序、文档的外观(例如,标题和摘要)以及各个站点的声誉而发生偏差。已经作出各种尝试以解决在分析点击和搜索结果相关性之间的关系时出现的这种和其他偏差。这些模型包括位置模型、级联模型以及动态贝叶斯网络(DNB)模型。

发明内容
具有不同搜索意图的用户可能向搜索引擎提交相同的查询却期望不同的搜索结果。因此,在用户搜索意图和用户指定的查询之间可能存在偏差,而导致用户点击时可观察到的差异。换而言之,搜索结果的吸引力不仅受到其相关性的影响,也是由查询背后用户潜在的搜索意图所确定的。由此,用户点击可以由意图偏差和相关性两者确定。如果用户没有清楚地制定其输入查询以精确地表达其信息需求,就会有较大的意图偏差。在一个实现中,提供包含此处被称为意图假设的新的假设的点击模型。意图假设假定仅在结果或摘录符合用户的搜索意图,即它是用户所需的之后才点击它。由于查询部分地反映出用户的搜索意图,因此如果文档与查询无关那么假定根本不需要它是合理的。 另一方面,相关文档是否需要是唯一地受到用户意图和查询之间的间隙的影响。根据另一实现,生成用于搜索引擎的训练数据的方法从检索关于用户点击行为的日志数据开始。基于包括参数的点击模型来分析日志数据以确定多个页面中每一个页面与查询的相关性,该参数涉及表示用户在执行搜索时的意图的用户意图偏差。接着将页面的相关性转换成训练数据。在一个特定的实现中,点击模型是包括表示文档是否被点击的可观察到的二进制值以及表示文档是否被用户检查和被用户需要的隐藏的二进制变量。提供本发明内容是为了以简化的形式介绍将在以下具体实施方式
中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。附图简述

图1示出了搜索引擎在其中运行的示例性环境100。图2描述了意图、查询和在会话期间找到的文档之间的三角关系,其中连接两个实体的边度量两个实体时间的匹配度。图3是在为用五个随机挑选的查询对两组搜索会话执行的实验中每一个查询的点进率的图示。图4示出了用于图3中使用的所有搜索查询的第一和第二组之间的点进率之间的差值的分布。图5将检查假设和意图假设的图形模型作比较。图6是用于从点击日志生成训练数据的方法的实现的操作流程。
具体实施例方式图1示出了搜索引擎可在其中运行的示例性环境100。环境包括由网络130,例如因特网、广域网(WAN)或局域网(LAN)彼此连接的一个或多个客户计算机110和一个或多个服务器计算机120(通常是“主机”)。网络130提供对诸如万维网("web") 131的服务的访问。Web 131允许客户计算机110访问包含包含在例如由服务器计算机120维护和服务的网页121(例如网页或其他文档)中的基于文本的或多媒体内容的文档。通常,这是由在客户计算机110中执行的web浏览器应用程序114完成。每一个页面121的位置可以由诸如输入到web浏览器应用程序114中以访问网页121的。许多网页可以包括到其他网页 121的超链接123。超链接也可以是URL的形式的。虽然此处关于是页面的文档描述了实现,但是应当理解环境可以包括具有可以被表征的内容和连接性的任何链接数据对象。为了帮助用户定位感兴趣的内容,搜索引擎140可以在例如盘存储、随机访问存储器(RAM)或数据库的存储器中包含页面的索引141。响应于查询111,搜索引擎140返回满足查询111的项(例如关键词)的结果集112。由于搜索引擎140存储上百万的页面,尤其是当查询111是松散地指定时,结果集 112可以包括许多合格的页面。这些页面可以与用户的实际信息需求有关或无关。因此,向客户机110呈现的结果集112的顺序影响用户关于搜索引擎140的经验。在一个实现中,排序过程可以作为搜索引擎140中的排序引擎的一部分来实现。 排序过程可以是基于此处进一步描述的点击日志150的,以改进结果集112中页面的排序, 这样可以更加精确地标识与特定话题相关的页面113。对于提供给搜索引擎140的每一个查询111,点击日志150可以包括提供的查询 111、提供它的时间、作为结果集112向用户示出的多个页面(例如十个页面、二十个页面等)以及用户点击过的结果集112的页面。如此处所使用的,项点击是指用户通过任何适当的用户界面设备选择页面或其他对象的任何方式。点击可以被组合到会话中,并且可用于推断用户对于给定的查询点击的页面的顺序。点击日志150由此可用于推断关于特定页面的相关性的人类判断。虽然仅示出了一个点击日志150,但是可以关于此处所描述的技术和方面使用任何数目的点击日志。点击日志150可以被解释并用于生成可以由搜索引擎140的使用的训练数据。较高质量的训练数据提供更好地排列的搜索结果。用户点击的页面和跳过的页面可用于评估页面与查询11的相关性。此外,用于训练数据的标签可以基于来自点击日志150的数据生成。标签可以改进搜索引擎相关性排序。累计多个用户的点击比单个人类判断提供更好的相关性确定。用户一般知道一点查询并且因此点击结果的多个用户带来意见的多样性。对于单个人类的判断,判断有可能没有查询的知识。此外,点击大部分是彼此独立的。每一个用户的点击不是由其他用户的点击确定。具体地,更多用户发出查询并点击他们感兴趣的结果。存在某些细微的相关性, 例如朋友可以向彼此推荐链接。然而,在很大程度上,点击是独立的。由于考虑来自多个用户的点击数据,因此相对于可能或可能不知道查询以及可能不知道查询结果的人类判断而言,可以获取特例和有关局部知识的描绘。除了更多的“判断”(用户)之外,点击日志也提供关于更多查询的判断。此处所描述的技术可以被应用到头查询(经常询问的查询)和尾查询(不经常询问的查询)。由于提出来自他们自身兴趣的查询的用户更可能能够评估作为查询的结果呈现的页面的相关性,因此而改进每一个率的质量。排序引擎142可以包括日志数据分析器145和训练数据生成器147。日志数据分析器145可以例如经由数据源访问引擎143从点击日志150接收点击日志数据152。日志数据分析器145可以分析点击日志数据152并且向训练数据生成器147提供分析的结果。 训练数据生成器147可以使用例如工具、应用程序和累加器来基于分析的结果确定特定页面的相关性或标签,并且可以将相关性和标签应用到页面上,如此处进一步描述的。排序引擎142可以包括可包括日志数据分析器145、训练数据生成器147和数据源访问引擎143的计算设备,并且可用于此处所描述的技术和操作的性能。在结果集中,向用户呈现较小的页面或文档。这些较小页面被称为摘要。应该注意向用户示出的文档的较好的摘录(看起来高度相关的)可以人工地造成较差的(例如不相关的)页面被更多地点击,并且相似地,较差的摘录(看起来不相关的)可以造成高度相关的页面被较少地点击。构想了摘录的质量可以与文档的质量捆绑。摘录通常可以包括搜索标题、来自页面或文档的文本的简要部分以及URL。已经发现用户更可能点击排名较高的页面,而不管该页面是否实际上与查询相关。这被称为位置偏差。试图解决位置偏差的一种点击模式是位置点击模式。该模式假设仅当用户实际检查摘录并得出结果与搜索相关的结论时才点击结果。这个想法稍后被公式化为检查假设。此外,模型假定检查的概率仅与结果的位置相关。被称为检查点击模型的另一模型通过用倍增因数奖励在搜索结果中位置较低的相关文档来扩展位置点击模型。检查假设假定如果检查了文档,那么对于给定的查询文档的点进率是常数,其值由查询和文档之间的相关性来确定。被称为级联点击模型的另一模型通过假定用户完全扫描搜索结果来进一步扩展检查点击模型。上述点击模型不在结果(即摘录)的实际和感知相关性之间区分。即,当用户检查结果并认为它相关时,用户仅感知该结果是相关的,而不是确实知道。仅当用户实际点击结果并检查页面或文档自身时,用户才能够了解结果是否实际相关。在结果的实际和感知相关性之间区分的一个模型是DBN模型。尽管它们在解决位置偏差问题方面的成功,但是用户点击不能完全用相关性和位置偏差来解释。具体地,具有不同搜索意图的用户可能向搜索引擎提交相同的查询,却期望不同的搜索结果。因此,可能在用户搜索意图和用户制定的查询之间存在偏差,这导致用户点击中可观察到的多样性。换而言之,单个查询可能不能精确地反映出用户搜索意图。取查询“Wad ”作为一个示例。由于用户希望浏览有关iPad的一般信息,她可能提交该查询, 且假定从apple, com或wikipedia. com接收到的搜索结果对她是有吸引力的。相反地,提供相同的查询的另一用户可能查找诸如用户对iPad的评论或反馈的信息。在这种情况下, 更有可能点击如技术评论和讨论的搜索结果。该示例表明搜索结果的吸引力不仅受到其相关性的影响,也是由查询背后用户潜在的搜索意图所确定的。图2描述了意图、查询和在会话期间找到的文档之间的三角关系,其中连接两个实体的边度量两个实体时间的匹配度。每一个用户在提交查询前有内在的搜索意图。当用户来到搜索引擎时,她根据其搜索意图制定查询,并且将查询提交给搜索引擎。意图偏差度量意图和查询之间的匹配度。搜索引擎接收查询并返回经排序的文档列表,而相关性度量查询和文档之间的匹配度。用户检查每一个文档并且更可能点击相对于其他文档更好地满足其信息需求的文档。图2中的三角关系表明用户点击是由意图偏差和相关性两者确定的。如果用户没有清楚地定制其输入查询以精确地表达其信息需求,那么将会有较大的意图偏差。由此,用户不可能点击不符合其搜索意图的文档,即使该文档与查询非常相关。检查假设可以被认为是简化的情况,其中搜索意图和输入查询是等价的并且没有意图偏差。因此,当仅采用检查假设时,可能会错误地估计查询和文档之间的相关性。以下定义和注解对于描述此处所述的方法和系统的各方面和实现会是有用的。 用户提交查询q并且搜索引擎返回包含M(例如10)个结果或摘要的搜索结果页面,由
表示,其中i是在第i个位置处结果的索引。用户检查每一个搜索结果的摘录并
1 =
且点击它们中的一些或一个都不点击。相同的查询内的搜索被称为搜索会话,用S表示。在一个搜索会话中不考虑对赞助商广告或其他web元素的点击。随后对查询的重新提交或重新制定被作为新的会话来对待。三个二元随机变量C” Ei和氏被定义为在第i个位置处的模型用户点击、用户检查和文档相关性事件Ci:用户是否点击了结果;Ei 用户是否检查了结果;Ri 对应于结果的目标文档是否是相关的其中第一事件可以从搜索会话观察到,而后两个事件是隐藏的。PHCi = 1)是第 i个文档的CTRJHEi = 1)是检查第i个文档的概率,而I3HRi = 1)是第i个文档的相关性。参数A被用于表示文档相关性如下ΡΓ<Α = ‘1) =⑴接着,上述的检查假设可以如下表示假设1 (检查假设)。当且仅当结果被检查且相关时才点击结果,其被公式化为S = 1, Jit = 1 Gi = 1 ⑵其中氏和Ei是彼此独立的。等价地,公式(2)可以以概率的方式重新用公式表示为Pr(Ci = 1 IEi = 1,Ri = 1) =1 (3)Pr (Ci = 11 Ei = 0) =0(4)Pr (Ci = 11 Ri = 0) =0(5)在对氏求和之后,该假设被简化为Rr(C i = 1 pi = I) = f*.(6)Pr(Ci = IlEi = O)=O(7)结果,文档点进率被表示为
PrfG = 1)= E PfiEi = e) ¥t(Ct = ; β)
=Pr(R. = l》Pr_ = = i)
、丨丨■ ^v,! . HI -n ■■ —I Il U Il LIlmvIM .._Il...-,丨._■.
位置偏差文档相关性其中位置偏差和文档相关性被分解。该假设已被用在各种点击模型中以减轻位置偏差问题。上述另一点击模型,级联点击模型是基于级联假设的,其可以被公式化为如下假设2 (级联假设)。用户没有遗漏地完全检查搜索结果,并且第一结果总是被检查Pr (Ei = 1) = 1(8)Pr (Ei+1 = 11 Ei = 0) =0(9)级联模型将检查假设和级联假设组合在一起,并进一步假定用户在达到第一点击之后停止检查并放弃搜索会话CN 102542003 A
Pr(Ei+1 = IlEi = 1,Ci) = I-Ci (10)然而,该模型过于受到限制并且只能处理最多具有一个点击的搜索会话。相关点击模型(DCM)级联模型推广到包括具有多个点击的会话,并且引入一组位置相关的参数,即Pr(Ew = IlEi = LCi = I) = Xi (11)Pr (Ei+1 = 11 Ei = 1,Ci = 0) =1 (12)其中λ i表示在点击之后检查下一文档的概率。这些参数是全局性的,且因此在所有搜索会话之间共享。该模型假定用户检查最后一次点击以下的所有后续的摘要。实际上,如果用户对最后点击的文档感到满意,她通常不继续检查后续的搜索结果。动态贝叶斯网络模型(DBN)假定摘要的吸引力确定用户是否点击它以查看相应的文档,而用户对文档的满意度确定用户是否检查下一文档。从形式上而言,Pr(鳥+1 二直|馬= IlGi = I) = Tfl -(13)Pr (Ei+1 = 11 Ei = 1,Ci = 0) = γ , (14)其中参数、是用户无需点击而检查下一文档的概率,而参数s π i是用户满意度。 实验比较表明DBN模型优于基于级联假设的其他点击模型。DBN模型采用期望最大化算法来估计参数,其可能需要为收敛做出大量迭代。用于DBN方法的贝叶斯推断方法,期望传 S P. Minka ^"Expectation propagation forapproximate Bayesian inference (Μ 于近似贝叶斯推断的期望传播)”,UAI,10第362-369页(Morgan Kaufmann Publishers Inc.)中介绍。又一点击模型,用户浏览模型(UBM),也是基于检查假设的,但是不遵循级联假设。 相反地,它假定检查概率Ei与先前点击的摘录Ii = max{j e {1,. . .,i-1} Cj = 1}的位置和第i个位置与Ii的位置之间的距离相关Frpi ==氣,i-‘e (15)如果对位于位置i之前的摘录没有点击,就将Ii设置为0。UBM模型下搜索会话
的似然性在形式上相当简单M.Wt(OtM) = H《*%,氣’I.产(1 —一(16)
i*-J其中在所有的搜索会话之间共享M^^f^yl个参数。在Pr (Ei+1 = 1 Hi = 1,Ci
= 1) = Y (I-Snl)中讨论的贝叶斯浏览模型(BBM)与UBM遵循相同的假设,但是采用贝叶斯推断算法。如上所述,检查假设是许多现有的点击模型的基础。假设主要针对对点击日志数据中的位置偏差建模。具体地,它假定点击发生的概率是在用户检查结果之后,由查询和结果唯一确定的。然而,控制实验证明检查假设所持有的假设不能完全解释点进日志数据。相反地,给定查询和经检查的结果,在对该文档的点进率之间仍然存在多样性。该现象清楚地表明位置偏差不仅是影响点击行为的偏差。在一个实验中,用五个随机挑选的查询对两组搜索会话计算文档点进率。一个组包括实际上在位置2到10有一个点击的会话,而另一组包括在位置2到10有至少两个点击的会话。对于每一个查询,对相同的文档计算点进率,而该文档总是处于第一位置的。该实验的结果在图3中示出,图3是关于每一个查询的点进率的图示。根据检查假设,如果文档已经被检查,那么查询和结果之间的相关性是常数。这意味着两个组中的点进率应该彼此相等,因为总是检查处于顶部位置的文档。然而,如图3中所示,对于两个组没有一个查询呈现出相同的点进率。相反地,观察到第二组中的点进率显著地高于第一组中的点进率。为了进一步调查该分析,将第二组中的点进率减去第一组中的点进率,并且在所有搜索查询上绘制该差值的分布。图4示出了对于所有查询两个组之间的点进率的差值。 所得的分布匹配高斯分布,其中心在大约0. 2的正值处。具体地,对应的差值位于[-0. 01, 0.01]中的查询的数目仅占到所有查询的3 34%,这表明检查假设不能精确地表征大部分查询的点击行为。由于当用户浏览第一文档时用户可能还未阅读最后九个文档,因此相对于对最后九个文档做出的任何点击而言是否已点击了第一文档是独立的事件。由此,对于该现象唯一合理的解释是在查询背后有内在的搜索意图,而该意图导致两个组之间的点击多样性。可以用新的假设来解决该多样性,该新的假设在此处被称为意图假设。意图假设保留检查假设提出的检查的概念。此外,意图假设假定仅在结果或摘录符合用户的搜索意图,即用户需要它时才点击该结果或摘录。由于查询部分地反映出用户的搜索意图,因此假定如果文档与查询无关,则根本不需要它是合理的。另一方面,是否需要相关文档唯一地受到用户的意图和查询之间的间隙的影响。从该定义,如果用户过去总是提交准确地反映其搜索意图的查询,那么意图假设将被降低为检查假设。形式上,意图假设包括以下三个语句1.当且仅当文档被检查且是用户所需时,用户才点击搜索结果列表中的摘录以访问相应的文档。2.如果感知到文档是不相关的,那么用户不会需要它。3.如果感知到文档是相关的,那么是否需要它仅受到用户的意图和查询直接的间隙的影响。图5将检查假设和意图假设的图形模型作比较。如可以在意图假设中看到的,隐藏的事件Ni被插入到氏和Ci之间,以区分文档相关度和被点击的文档。为了用概率的方式表示意图假设,将介绍以下注解和符号。假设在会话s中有m 个结果或摘录。第i个摘录用CU1表示,而它是否被点击用Ci表示。Ci是二元变量。Ci = 1表示摘录被点击,而Ci = 0表示它没有被点击。相似地,摘录cU i是否被检查、是否被感知相关和是否所需分别用二元变量E” Ri和Ni来表示。在该定义下,意图假设可以被公式化为Si = IsJV4 = I^CJ4 = I (17)PriM4 = 1) = r ·(Ig)Pr (Ni = 11 Ri = 0) =0(19)Pr(Ni = 1 IRi = 1) = μ s(20)此处,rh是摘录CU1的相关性,而μ s被定义为意图偏差。由于意图假设假定 μ 3应该仅受到意图和查询的影响,因此μ s在相同的会话中的所有摘要之间共享,这意味
9着它是会话s中的全局隐藏变量。然而,它在不同的会话中一般是不同的,因为意图偏差一般会是不同的。将等式(17)、(18)、(19)和(20)组合,不难得出
权利要求
1.一种生成用于搜索引擎的训练数据的方法,包括检索O10)关于用户点击行为的日志数据;基于包括参数的点击模型来分析O20)日志数据以确定多个页面中每一个页面与查询的相关性,所述参数涉及表示用户在执行搜索时的意图的用户意图偏差;以及将所述页面的相关性转换(MO)成训练数据。
2.如权利要求1所述的方法,其特征在于,所述用户意图偏差通过查询(111)和文档相关性之间的关系来确定,所述查询由所述用户通过所述搜索引擎来执行以获取包括在搜索结果(112)中的文档。
3.如权利要求1所述的方法,其特征在于,所述点击模型是包括可观察到的二进制值和隐藏二进制变量的图形模型,所述可观察到的二进制值表示文档是否被点击,而所述隐藏二进制变量表示所述文档是否被所述用户检查并且是否被所述用户需要。
4.如权利要求1所述的方法,其特征在于,所述点击模型是被重构成包括涉及所述用户意图偏差的参数的DBN模型。
5.如权利要求1所述的方法,其特征在于,所述点击模型是被重构成包括涉及所述用户意图偏差的参数的UBM模型。
6.如权利要求1所述的方法,其特征在于,多个模型参数与所述点击模型相关联并且所述方法还包括使用涉及所述用户意图偏差的参数的初始化值来确定用于一系列训练查询会话的所述多个模型参数中的每一个的值;对于每一个查询会话,使用已经确定的每一个模型参数的值来估算涉及所述用户意图偏差的参数的值;以迭代方式重复所述确定和估算步骤直到所有参数收敛。
7.如权利要求6所述的方法,其特征在于,所述确定和估算步骤使用概率图形模型来与基于似然的推断一起执行。
8.如权利要求7所述的方法,其特征在于,所述概率图形模型是贝叶斯网络。
9.如权利要求6所述的方法,其特征在于,还包括对于每一个查询会话集成全部模型参数以导出似然函数;最大化所述似然函数以估算涉及所述用户意图偏差的参数的值;以及使用已经估算出的涉及所述用户意图偏差的参数的值来更新所述模型参数。
10.如权利要求6所述的方法,其特征在于,与出现在所述查询结果列表中的较高处的被点击页面相比,所述点击模型对出现在查询结果列表中的较低处的被点击页面施加更高的权重。
全文摘要
本发明公开了用于顾及当用户在搜索引擎中提出查询时的用户意图的点击模型。一种生成用于搜索引擎的训练数据的方法通过检索涉及用户点击行为的日志数据来开始。基于包括参数的点击模型来分析日志数据以确定多个页面中每一个页面与查询的相关性,该参数涉及表示用户在执行搜索时的意图的用户意图偏差。然后将这些页面的相关性转换成训练数据。
文档编号G06F17/30GK102542003SQ20111040915
公开日2012年7月4日 申请日期2011年11月30日 优先权日2010年12月1日
发明者王刚, 陈伟柱, 陈正 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1