使用路径受约束的随机游走的查询扩展和查询-文档匹配的制作方法_3

文档序号：9893582阅读：来源：国知局

，而促在图300中出现的长度不大于1的路径类型连同虚设类型丄一起的集合，该虚设类型表示偏置特征(bias fea化re)。例如，对于节点s、t可W设定P(t S，丄）=1。对于目标节点t是否与源节点S相关的得分，可W通过下式给出：
[0046] (1)
[0047] 在前文中，其中λη是特征π的权重。待学习的模型参数是矢量λ=〈λη〉ηΕΒ。此外，对B 的构造和对λ的估计可W是应用特定的(application specific)。对于犯，源节点是待扩展的输入查询Q(例如，节点302)，而目标节点是备选扩展项W(例如，节点308之一）。因此，方程式(1)给出了 W是否为Q的适当的扩展项的概率。
[004引参见图4,示出了基于来自捜索日志的点进数据402来构造带标记并且有向的图 104的系统400。点进数据402可被留存在数据仓库404中。可W预见的是，数据仓库404可W 是图1的数据仓库102;然而，所要求保护的主题内容并非限于此。点进数据402可W包括查询文档对（query document pair)。
[0049]此外，系统400包括建立器部件406，其根据点进数据402来构造带标记并且有向的图104。建立器部件406还可W包括图生成部件408和边标记部件410。图生成部件408可W生成用于文档、查询和单词的节点。此外，图生成部件408可W生成将节点链接起来的边。 [0化0] 边标记部件410可W将标记分配给边。更具体地，边标记部件410可W在图中对每条边通过各自的关系做标记。此外，边标记部件410可W对在带标记并且有向的图104中的每条边分配各自的边得分。边标记部件410可W基于针对边的关系的关系特定的概率模型来生成给定边的边得分。
[0051]点进数据402包括查询-文档对的列表。每个对包括一个查询和一个文档，该文档具有对于该查询的一个或多个用户点击。因此，图生成部件408可W将捜索日志表示为图G = (C，T)(例如，带标记并且有向的图104、图3中的图300)。此外，图生成部件408定义了 Ξ类节点，分别表示查询、文档、W及在查询和文档中出现的单词。在捜索日志中的查询（由Q'表示)具有已点击的(一个或多个)文档。待扩展的输入查询（由Q表示），可W是新的、低频的查询，不具有已点击的文档。运样的查询可被称为罕见查询。然而，还可W预见的是，待扩展的输入查询Q'，可W替代地是具有已点击的文档的、在捜索日志中的查询。Q和Q'在G中被视为不同的节点(如图3中所示）。
[0化2] 边标记部件410将图104中每条边通过关系r进行标记。此外，边标记部件410使用关系特定的模型θτ对图104中的每条边进行评分。边分数是对于边类型rW-步随机游走从源节点巧I胜目标节点t的概率，P(t I s，0r)。下文在表1中示出关系r和它们对应的评分函数 score (S一 t;!·)的例子。
[0化3] 表1 [0化4]
[ο化5]
[0化6]
[0057] 如上文所提到的，表1阐述了关系r和它们的对应的评分函数的例子。如上文所提供的，tf (q;Q)是项q在查询Q中出现的次数，而I QI是查询Q的长度。tf (W;D)是项W在D中出现的次数，而ID I是文档D的长度。cf(w)和I C I的值是在合集Collection)层面近似地定义的，其中合集包括在捜索日志中的文档集合。Ptm(.)是由转化模型（translation model)分配的单词转化概率，该转化模型是在根据点进数据402得出的查询-标题对上训练的。在#2中的 Pt"(q'|q)也是由相同的查询-标题转化模型分配的，基于如下假设:适当的扩展项q'很可能出现在已点击的文档的标题中。click(Q/，D)是在捜索日志中为Q'而点击文档D的次数。在# 11和#12中，D是在捜索日志中的文档的全集，Q是在捜索日志中的查询的全集，而N是在捜索日志中的点击的总数(例如，N= SqeqSd却click(Q，D))。此外，α和β是模型超参数，分别控制针对查询语言模型和文档语言模型进行的平滑。
[005引当使用关系特定的模型θτ对图104中的每条边进行评分时，边标记部件410可W通过softmax将边得分按照概率P(t I S，0r)来计算如下；
[0化9]
[0060] 值得注意的是，常规的路径受约束的随机游走模型普遍缺失θτ，且因而传统上将边得分计算为：
[0061]
[0062] 在前文中，I(r(s，t))是指示函数，如果存在一条具有类型r的边将S连接到t，则该指示函数取值1。相比之下，如本文中所阐述地引入0r，允许纳入已为犯发展的各种模型W 及文档排序模型。
[0063] 表1中的示例评分函数一般分为四个类别。第一类别包括用于similar.*关系的函数(例如，#1)，且是基于BM25模型的。第二类别，其包括用于generate.*关系的函数(例如，# 4)，使用一元语言模型，所述模型具有使用狄利克雷先验的贝叶斯平滑。第Ξ类别，包括用于click.*的函数(例如，#3)，使用点击模型。第四类别，包括用于translation.*的函数(例如，#5)，使用转化模型，其中，如果点进数据402可用于模型训练，则单词转化概率Ptm是在查询-文档对上估计的，运是通过假定查询平行于为该查询而点击的文档。
[0064] 再次参考图3。给定图300，W输入查询的节点Q(例如，节点302)开始、并且W单词节点W(例如，节点308之一)结束的任何路径类型π，定义一个实值特征，其可被视为犯模型 (或犯特征）。该特征值是通过类型η的路径受约束的随机游走来炼选W作为扩展项的概率Ρ (w|Q，n)。表2提供了路径类型的例子，其可被用作路径受约束的随机游走模型中的特征。
[00化]表2
[0066]
[0067]
[006引
[0069] 表2提供了；类犯特征：（1 )TM特征，其使用转化模型来执行犯(例如，对应的路径类型是由表2中从TM巧ljTM5的ID来指定的），（2) SQ特征，其使用相似查询来执行犯（例如， SQ1到SQ6)，W及(3)RD特征，其使用(伪)相关文档来执行犯(例如，RD1到RD10)。
[0070] 许多基于日志的犯技术可W使用基于点进的转化模型，其中项相互关系是使用从点进数据中提取的查询-文档对来预先计算的。与基于叙词表的方法(无论是手动编译的还是从文档合集派生的）相反，使用转化模型的基于日志的方法能够明确地捕获在查询项和文档项之间的相互关系。使用转化模型的基于日志的犯技术的一个例子是通过路径类型 TMlUranslate.Q2w〉来编码的。倘若没有(足够的）点进数据用于模型训练，可W采用使用马尔可夫链的技术，其中在两个单词之间的转化概率是通过在文档-单词图上的随机游走来计算的;运样的技术可W通过表2中的路径类型TM2和TM3来编码。
[0071] 罕见查询常常对网络捜索提出挑战。对罕见查询Q的扩展，常常是通过添加来自与 Q相似的常见查询Q'的项来执行的。路径受约束的随机游走模型通过实例化路径类型SQ1 〈similar. Q2Q '，. generate. Q ' 2w〉的随机游走来达成运一点。例如，可W通过在查询-文档点击图上执行随机游走来对相似的查询进行检索。因此，可W通过使用相似查询的更大的集合来增强罕见查询扩展，所述相似查询是通过沿着具有类型click.Q2D和click.D2Q的边反复地应用随机游走来识别的。在表2中的SQ3和SQ4是运样的模型的两个例子。
[0072] 在捜索日志中所见的输入查询Q的相关文档D的集合，可W通过收集对于该查询有点击的文档来形成。因此，相关反馈犯方法可W如(例如)RD8来表示，
[0073] (click.Q2D,generate.D2w)
[0074] 如果输入查询是罕见查询，则伪相关文档的集合可W通过捜索日志中的相似查询 Q '（例如，与输入查询相似的查询)来形成，例如，RD1
[00巧]〈simila;r.Q2Q，'click.Q，2D,generate.D2w〉
[0076] 为解决数据稀疏性问题，更多的伪相关文档可W通过在查询-文档点击图上执行随机游走来检索，例如表2中的RD4和RD5。
[0077] 图5至8示出了在表示输入查询Q的源节点502(例如，图3中的节点302)和表示备选查询扩展项W1的目标节点504(例如，图3中的节点308之一)之间的各种示例性的路径受约束的随机游走。图5至8描绘了图3的带标记并且有向的图300的分别的部分。图5至8中阐述的例子示出了四种不同的路径类型。然而，应当理解的是，所要求保护的主题内容并不限于所示的例子。
[0078] 图5描绘了路径受约束的随机游走500,其按照表2中的路径类型TM1从源节点502 到目标节点504对带标记并且有向的图中的边进行遍历。路径受约束的随机游走500是一步随机游走。更具体地，路径受约束的随机游走500沿着由关系trans late. Q2w标记的边506从源节点502到目标节点504。
[0079] 图6描绘了路径受约束的随机游走600,其按照表2中的路径类型SQ1从源节点502 到目标节点504对带标记并且有向的图中的边进行遍历。路径受约束的随机游走600是两步随机游走。具体地，路径受约束的随机游走600在源节点502开始，沿着由关系simi lar. Q2Q ' 标记的边602从源节点502到表示相似查询Q'A的节点604(例如，图3中的节点304之一），并且然后沿着由关系generate.Q/ 2w标记的边606从表示相似查询Q'a的节点604到目标节点 504。
[0080] 图7描绘了路径受约束的随机游走700,其按照表2中的路径类型RD1从源节点502 到目标节点504对带标记并且有向的图中的边进行遍历。路径受约束的随机游走700是Ξ步随机游走。具体地，路径受约束的随机游走700在源节点502开始，沿着由关系simi lar. Q2Q ' 标记的边702从源节点502到表示相似查询Q'b的节点704(例如，图3中的节点304之一），然后沿着由关系click. Q'2D标记的边706从表示相似查询Q'b的节点704到表示文档化的节点 7〇8(例如，图3中的节点306之一），并且然后沿着由关系generate. D2w标记的边710从表示文档化的节点708到目标节点504。
[0081] 图8描绘了路径受约束的随机游走800,其按照表2中的路径类型TM4从源节点502 到目标节点504对带标记并且有向的图中的边进行遍历。路径受约束的随机游走800是Ξ步随机游走。更具体地，路径受约束的随机游走800在源节点502开始，沿着由关系 generate. Q2w标记的边802从源节点502到表示单词Wc的节点804(例如，图3中的节点308之一，表示不同于备选查询扩展项W1的单词），然后沿着由关系generate.标记的边806从表示单词W。的

完整全部详细技术资料下载

当前第3页1 2 3 4 5