使用路径受约束的随机游走的查询扩展和查询-文档匹配的制作方法_3

文档序号:9893582阅读:来源:国知局
,而促在图300中出现的长度不大于1的路径类型连同虚设类型丄 一起的集合,该虚设类型表示偏置特征(bias fea化re)。例如,对于节点s、t可W设定P(t S,丄)=1。对于目标节点t是否与源节点S相关的得分,可W通过下式给出:
[0046] (1)
[0047] 在前文中,其中λη是特征π的权重。待学习的模型参数是矢量λ=〈λη〉ηΕΒ。此外,对B 的构造和对λ的估计可W是应用特定的(application specific)。对于犯,源节点是待扩展 的输入查询Q(例如,节点302),而目标节点是备选扩展项W(例如,节点308之一)。因此,方程 式(1)给出了 W是否为Q的适当的扩展项的概率。
[004引参见图4,示出了基于来自捜索日志的点进数据402来构造带标记并且有向的图 104的系统400。点进数据402可被留存在数据仓库404中。可W预见的是,数据仓库404可W 是图1的数据仓库102;然而,所要求保护的主题内容并非限于此。点进数据402可W包括查 询文档对(query document pair)。
[0049]此外,系统400包括建立器部件406,其根据点进数据402来构造带标记并且有向的 图104。建立器部件406还可W包括图生成部件408和边标记部件410。图生成部件408可W生 成用于文档、查询和单词的节点。此外,图生成部件408可W生成将节点链接起来的边。 [0化0] 边标记部件410可W将标记分配给边。更具体地,边标记部件410可W在图中对每 条边通过各自的关系做标记。此外,边标记部件410可W对在带标记并且有向的图104中的 每条边分配各自的边得分。边标记部件410可W基于针对边的关系的关系特定的概率模型 来生成给定边的边得分。
[0051]点进数据402包括查询-文档对的列表。每个对包括一个查询和一个文档,该文档 具有对于该查询的一个或多个用户点击。因此,图生成部件408可W将捜索日志表示为图G = (C,T)(例如,带标记并且有向的图104、图3中的图300)。此外,图生成部件408定义了 Ξ类 节点,分别表示查询、文档、W及在查询和文档中出现的单词。在捜索日志中的查询(由Q'表 示)具有已点击的(一个或多个)文档。待扩展的输入查询(由Q表示),可W是新的、低频的查 询,不具有已点击的文档。运样的查询可被称为罕见查询。然而,还可W预见的是,待扩展的 输入查询Q',可W替代地是具有已点击的文档的、在捜索日志中的查询。Q和Q'在G中被视为 不同的节点(如图3中所示)。
[0化2] 边标记部件410将图104中每条边通过关系r进行标记。此外,边标记部件410使用 关系特定的模型θτ对图104中的每条边进行评分。边分数是对于边类型rW-步随机游走从 源节点巧I胜目标节点t的概率,P(t I s,0r)。下文在表1中示出关系r和它们对应的评分函数 score (S一 t;!·)的例子。
[0化3] 表1 [0化4]
[ο化5]
[0化6]
[0057] 如上文所提到的,表1阐述了关系r和它们的对应的评分函数的例子。如上文所提 供的,tf (q;Q)是项q在查询Q中出现的次数,而I QI是查询Q的长度。tf (W;D)是项W在D中出现 的次数,而ID I是文档D的长度。cf(w)和I C I的值是在合集Collection)层面近似地定义的, 其中合集包括在捜索日志中的文档集合。Ptm(.)是由转化模型(translation model)分配的 单词转化概率,该转化模型是在根据点进数据402得出的查询-标题对上训练的。在#2中的 Pt"(q'|q)也是由相同的查询-标题转化模型分配的,基于如下假设:适当的扩展项q'很可能 出现在已点击的文档的标题中。click(Q/,D)是在捜索日志中为Q'而点击文档D的次数。在# 11和#12中,D是在捜索日志中的文档的全集,Q是在捜索日志中的查询的全集,而N是在捜索 日志中的点击的总数(例如,N= SqeqSd却click(Q,D))。此外,α和β是模型超参数,分别控 制针对查询语言模型和文档语言模型进行的平滑。
[005引当使用关系特定的模型θτ对图104中的每条边进行评分时,边标记部件410可W通 过softmax将边得分按照概率P(t I S,0r)来计算如下;
[0化9]
[0060] 值得注意的是,常规的路径受约束的随机游走模型普遍缺失θτ,且因而传统上将 边得分计算为:
[0061]
[0062] 在前文中,I(r(s,t))是指示函数,如果存在一条具有类型r的边将S连接到t,则该 指示函数取值1。相比之下,如本文中所阐述地引入0r,允许纳入已为犯发展的各种模型W 及文档排序模型。
[0063] 表1中的示例评分函数一般分为四个类别。第一类别包括用于similar.*关系的函 数(例如,#1),且是基于BM25模型的。第二类别,其包括用于generate.*关系的函数(例如,# 4),使用一元语言模型,所述模型具有使用狄利克雷先验的贝叶斯平滑。第Ξ类别,包括用 于click.*的函数(例如,#3),使用点击模型。第四类别,包括用于translation.*的函数(例 如,#5),使用转化模型,其中,如果点进数据402可用于模型训练,则单词转化概率Ptm是在查 询-文档对上估计的,运是通过假定查询平行于为该查询而点击的文档。
[0064] 再次参考图3。给定图300,W输入查询的节点Q(例如,节点302)开始、并且W单词 节点W(例如,节点308之一)结束的任何路径类型π,定义一个实值特征,其可被视为犯模型 (或犯特征)。该特征值是通过类型η的路径受约束的随机游走来炼选W作为扩展项的概率Ρ (w|Q,n)。表2提供了路径类型的例子,其可被用作路径受约束的随机游走模型中的特征。
[00化]表2
[0066]
[0067]
[006引
[0069] 表2提供了;类犯特征:(1 )TM特征,其使用转化模型来执行犯(例如,对应的路径 类型是由表2中从TM巧ljTM5的ID来指定的),(2) SQ特征,其使用相似查询来执行犯(例如, SQ1到SQ6),W及(3)RD特征,其使用(伪)相关文档来执行犯(例如,RD1到RD10)。
[0070] 许多基于日志的犯技术可W使用基于点进的转化模型,其中项相互关系是使用从 点进数据中提取的查询-文档对来预先计算的。与基于叙词表的方法(无论是手动编译的还 是从文档合集派生的)相反,使用转化模型的基于日志的方法能够明确地捕获在查询项和 文档项之间的相互关系。使用转化模型的基于日志的犯技术的一个例子是通过路径类型 TMlUranslate.Q2w〉来编码的。倘若没有(足够的)点进数据用于模型训练,可W采用使用 马尔可夫链的技术,其中在两个单词之间的转化概率是通过在文档-单词图上的随机游走 来计算的;运样的技术可W通过表2中的路径类型TM2和TM3来编码。
[0071] 罕见查询常常对网络捜索提出挑战。对罕见查询Q的扩展,常常是通过添加来自与 Q相似的常见查询Q'的项来执行的。路径受约束的随机游走模型通过实例化路径类型SQ1 〈similar. Q2Q ',. generate. Q ' 2w〉的随机游走来达成运一点。例如,可W通过在查询-文档 点击图上执行随机游走来对相似的查询进行检索。因此,可W通过使用相似查询的更大的 集合来增强罕见查询扩展,所述相似查询是通过沿着具有类型click.Q2D和click.D2Q的边 反复地应用随机游走来识别的。在表2中的SQ3和SQ4是运样的模型的两个例子。
[0072] 在捜索日志中所见的输入查询Q的相关文档D的集合,可W通过收集对于该查询有 点击的文档来形成。因此,相关反馈犯方法可W如(例如)RD8来表示,
[0073] (click.Q2D,generate.D2w)
[0074] 如果输入查询是罕见查询,则伪相关文档的集合可W通过捜索日志中的相似查询 Q '(例如,与输入查询相似的查询)来形成,例如,RD1
[00巧]〈simila;r.Q2Q,'click.Q,2D,generate.D2w〉
[0076] 为解决数据稀疏性问题,更多的伪相关文档可W通过在查询-文档点击图上执行 随机游走来检索,例如表2中的RD4和RD5。
[0077] 图5至8示出了在表示输入查询Q的源节点502(例如,图3中的节点302)和表示备选 查询扩展项W1的目标节点504(例如,图3中的节点308之一)之间的各种示例性的路径受约 束的随机游走。图5至8描绘了图3的带标记并且有向的图300的分别的部分。图5至8中阐述 的例子示出了四种不同的路径类型。然而,应当理解的是,所要求保护的主题内容并不限于 所示的例子。
[0078] 图5描绘了路径受约束的随机游走500,其按照表2中的路径类型TM1从源节点502 到目标节点504对带标记并且有向的图中的边进行遍历。路径受约束的随机游走500是一步 随机游走。更具体地,路径受约束的随机游走500沿着由关系trans late. Q2w标记的边506从 源节点502到目标节点504。
[0079] 图6描绘了路径受约束的随机游走600,其按照表2中的路径类型SQ1从源节点502 到目标节点504对带标记并且有向的图中的边进行遍历。路径受约束的随机游走600是两步 随机游走。具体地,路径受约束的随机游走600在源节点502开始,沿着由关系simi lar. Q2Q ' 标记的边602从源节点502到表示相似查询Q'A的节点604(例如,图3中的节点304之一),并 且然后沿着由关系generate.Q/ 2w标记的边606从表示相似查询Q'a的节点604到目标节点 504。
[0080] 图7描绘了路径受约束的随机游走700,其按照表2中的路径类型RD1从源节点502 到目标节点504对带标记并且有向的图中的边进行遍历。路径受约束的随机游走700是Ξ步 随机游走。具体地,路径受约束的随机游走700在源节点502开始,沿着由关系simi lar. Q2Q ' 标记的边702从源节点502到表示相似查询Q'b的节点704(例如,图3中的节点304之一),然 后沿着由关系click. Q'2D标记的边706从表示相似查询Q'b的节点704到表示文档化的节点 7〇8(例如,图3中的节点306之一),并且然后沿着由关系generate. D2w标记的边710从表示 文档化的节点708到目标节点504。
[0081] 图8描绘了路径受约束的随机游走800,其按照表2中的路径类型TM4从源节点502 到目标节点504对带标记并且有向的图中的边进行遍历。路径受约束的随机游走800是Ξ步 随机游走。更具体地,路径受约束的随机游走800在源节点502开始,沿着由关系 generate. Q2w标记的边802从源节点502到表示单词Wc的节点804(例如,图3中的节点308之 一,表示不同于备选查询扩展项W1的单词),然后沿着由关系generate.标记的边806从 表示单词W。的
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1