使用路径受约束的随机游走的查询扩展和查询-文档匹配的制作方法_4

文档序号:9893582阅读:来源:国知局
节点804到表示相似查询Q'c的节点808(例如,图3中的节点304之一),并且然 后沿着由关系generate. Q'2w标记的边810从表示相似查询Q'c的节点808至I旧标节点504。
[0082] 再次参考图1。随机游走部件106可W将随机游走作为矩阵乘法来实施。作为示例, 检索相似查询的任务可W通过由随机游走部件106沿着click.Q2D和click.D2Q重复地应用 随机游走来执行。设N为在G(例如,带标记并且有向的图104)中的查询节点的数量,并且设Μ 为文档节点的数量。设A为具有条目Aq,d = P(D|Q)的ΝΧΜ矩阵,称为查询-文档转化矩阵,其 中该概率是根据如在表1的#3中那样的点击计算的。另外,设B是具有条目Bd,q = P(Q|D)的Μ ΧΝ矩阵,其中该概率是根据如在表1的#4中那样的点击计算的。A和Β称为过渡矩阵。因此, 使用C = AB,可W计算在化步W内从初始查询Qo游走到任一其它查询Q的概率。此外,对应概 率(corresponding probability),被用来测量查询到查询的相似度,是由
给出的。因为矩阵A和B是稀疏的,所W可W高效地计算矩阵积C = AB。随 着k增加,Ck变得稠密,而不能高效地计算该幕。然而,随着k增加,捜索意图转变离开初始查 询,因为概率在所有的查询上铺开。因此,可W将k设置为例如1或2。
[0083] 对于犯,由关系估算部件112估算的方程式(1)的路径受约束的随机游走模型可W 被重写如下:
[0084] (3)
[0085] 上面是B中的路径特征31的加权线性组合。因此,路径受约束的随机游走模型通过 对组合路径的集合进行排序来执行犯,其中每个组合路径用于一对Q和W(例如,备选扩展 项)。
[0086] 下文从总体上描述了方程式3中B的构造。给定带标记并且有向的图300,路径类型 的总数|B|可W随着路径长度的增加而指数地增长。因而,最大路径长度可W被设定为基本 上任何整数(例如,最大长度可被设定成7,或基本上任何其它整数)。此外,可W利用预先定 义的关系集合,其是选择性的,例如在表1中所示的。给定路径类型n,由于G中节点的数量, 即使具有长度限制,实例化π的路径的总数仍可能是相当大的。例如,由于可W将一个单词 基于经平滑的转化模型转化成任何其它单词,任何节点对(Q,Q')可W具有得分不为零的关 系化anslate.Q2Q/(表1中的#2),因此使得过渡矩阵稠密。为了效率,通过在每一步随机游 走之后留存(局部(partial))路径的一个子集(例如,前1000(局部)路径),可W保持过渡矩 阵的乘法运算为稀疏的。
[0087] 此外,可W通过生成训练数据并且使用该训练数据执行参数估计,来估计参数λη (例如,分配给不同的路径类型110的权重)。用于对在方程式(3)中的参数λη进行估计的训 练数据被表示为〇={(町71)},其中义1是对(口曰山)地,机)的路径特征的矢量。也就是说,又1 的第j个分量是Ρ(wi I Qi,~),而yi是布尔变量,其指示着wi是否为对于化适当的扩展项。
[008引例如,假定开发出相关性判定集合(relevance化dgment set)。该集合可w包括 一个查询集合。每个查询与一个文档集合相关联。每个查询-文档对具有相关标记 (relevant label)。可W在该集合上估算文档排序模型Score(D,Q)的有效性。通过检验用W 来扩展Q是否会导致增强的文档排序结果,可W确定单词W是否为对于查询Q适当的扩展。例 如,可W利用如下的排序模型:
[0089]
[0090] 如在方程式(4)中所阐述的,W是在考虑中的扩展项,α是它的权重,q是在原始查询 Q中的一个项,而0Q和θ〇分别是查询模型和文档模型。查询模型P(q|0Q)通过不具有平滑的 MLE(最大似然估计)估计为:
[0091]
[0092] 在上面,tf(q;Q)是q在Q中出现的次数,而iQl是查询的长度。文档模型,例如,P(q 9d),可W通过具有狄利克雷平滑的MLE来估计为:
[0093]
[0094] 因此,tf(w;D)是W在D中出现的次数,Id I是文档的长度。μ是狄利克雷先验(例如, 设定为2000),而P(w|C)是W在合集C上的概率,其可W通过不具有平滑的MLE来进行估计。 [00M]方程式(4)可W被视为具有单个项的简化形式的犯。它被用来标记W是否为对于Q 适当的扩展项。为了简化训练数据生成过程,可W假定:W独立于其它扩展项而作用于该查 询,并且每个扩展项W相等的权重添加到Q中,例如,α = 0.01或α = -〇.〇1。
[0096] 训练数据可W如下生成。对于相关性判定集合中的每个查询Q,可W通过收集在与 Q成对的文档中出现但却不在Q中出现的项,来形成备选扩展项的集合Iwi}。然后,如果wi在α = 0.01时增强对文档进行排序的有效性,并且在α = -〇.01时负面影响对文档进行排序的有 效性,则可W将Wi标记为对于Q适当的扩展项。如果Wi产生相反的效果,或在α = 〇 . 01时和在α 二-0.01时产生相同的效果,可W将wi否定地标记。
[0097] 此外,参数λη可W根据训练数据如下估计。给定训练数据D,为优化模型参数λ = 〈λη〉忙Β,可W通过将下列对象最大化:
[009引
[0099] 在上面,αι和日2分别控制^正则化(其帮助结构选择)和L2正则化(其帮助缓和过度 拟合)的强度。?·(Χ,7;λ)是训练样本(x,y)的对数似然比,并且被定义为:
[0100] f(x,y;λ)=y logP(x,λ)++(1-y)l〇g(1-Ρ(χ,λ)) (8)
[0101] 此外,
[0102]
[0103] 是模型预测概率。所述最大化例如可W使用0Wl^-QN(0;rthant-Wise Limited memory Quasi-Newton)算法来执行,运是L-BFGS( limited memory Broyden-Fletcher- Gol壯arb-Shanno algorithm)的一个被设计用于解决不可微分的b范式的版本。
[0104] 方程式(3)的基于路径受约束的随机游走的模型可W给每个路径类型分配一个权 重。运样的参数化被称为"每个路径类型一个权重(〇116-'\¥6;[曲1:可61'可日1:11-1796)"。将模型 参数化的一种替代方式是"每个边标记一个权重(one-wei曲t-per-edge-label Γ。例如,如 上所述的目标函数和优化程序,可W相似地被用于对"每个边标记一个权重"进行参数估 计。因为模型可被视为路径受约束的随机游走的组合,其中每条路径将其权重设定为沿着 该路径的边权重的乘积,边权重的梯度可W计算如下:首先计算关于路径的梯度,并且然后 应用导数的链式法则。
[0105] -般而言,在本文中提供的技术将捜索日志用于犯W进行网络捜索排序。描述了 基于路径受约束的随机游走的犯技术,其中捜索日志被表示为带标记的有向的图,而对于 输入查询选择扩展项的概率是通过在该图上的受约束的随机游走的学习组合来计算的。运 样的用于犯的基于路径受约束的随机游走的方法是通用且灵活的,其中各种犯模型可作为 特征被纳入,同时还允许纳入另外的特征(例如,W后开发的),通过将路径类型用游走行为 的富集来定义。路径受约束的随机游走模型也提供了原则性的数学框架,其中不同的犯模 型(例如,定义为路径类型或特征)可W用统一的方式纳入,因此缓解了对点进数据的稀疏 性和用户查询的模糊捜索意图的敏感性。
[0106] 此外,如本文中所指出的,虽然前述例子中许多都设及针对查询扩展而利用路径 受约束的随机游走,可W预见的是,可W替代地针对查询-文档匹配而利用本文阐述的基于 路径受约束的随机游走的技术(例如,直接地用于网络文档排序)。例如,查询Q和文档D的相 关性得分可W被建模为一个概率,通过从Q到D的路径受约束的随机游走的学习组合来计 算,其中不同的文档排序模型可W作为路径类型而被纳入。遵循此例子,除了点进数据之 夕h还可W为构造 G而纳入其它数据源,例如网络文档的链接图和类别结构。
[0107] 图9至10示出了关于使用路径受约束的随机游走的示例性方法。虽然所述方法被 示出和描述为W-序列执行的一系列行为,但应当理解和领会,所述方法并不受该序列的 顺序的限制。例如,一些行为可W用不同于本文中描述的次序发生。此外,一个行为可W和 另一个行为同时地进行。此外,在一些实例中,可能并不是所有的行为都是对于实施本文中 描述的方法所必需的。
[0108] 此外,本文描述的行为可W是计算机可执行指令,其可被一个或多个处理器实施 和/或被存储在一个或多个计算机可读介质上。计算机可执行指令可W包括例程、子例程、 程序、执行线程,和/或类似物。再另外,所述方法中的行为的结果可W在计算机可读介质上 存储、在显示设备上显示,和/或诸如此类。
[0109] 图9示出了使用路径受约束的随机游走的方法900。在902,可W接收输入查询。在 904,可W基于所述输入查询在计算机实施的带标记并且有向的图上执行路径受约束的随 机游走。在906,可W至少部分地基于路径受约束的随机游走来计算在目标节点和表示输入 查询的源节点之间的关系的得分。
[0110] 现在转到图10,示出的是一种方法1000,用于使用路径受约束的随机游走执行查 询扩展或查询-文档匹配。在1002,可W基于输入查询在计算机实施的带标记并且有向的图 上执行路径受约束的随机游走。在1004,可W确定按照不同的预先定义路径类型对图上在 节点之间的边进行遍历的路径受约束的随机游走的各自的值。在1006,按照不同的预先定 义路径类型对图上在节点之间的边进行遍历的路径受约束的随机游走的各自的值可W被 组合,W计算在目标节点和表示输入查询的源节点之间的关系的得分。
[0111] 现在参考图11,示出了可W根据本文中公开的系统和方法使用的示例性计算设备 1100的高层次图示。例如,计算设备1100可W用于执行路径受约束的随机游走W进行查询 扩展和/或查询-文档匹配的系统中。通过另一示例,计算设备1100可W用于基于来自捜索 日志的点进数据来构造带标记并且有向的图的系统中。计算设备1100包括至少一个处理器 1102,其执行存储在存储器1104中的指令。所述指令可W是,例如,用于实施被描述为由上 文讨论的一个或多个部件实现的功能的指令,或用于实施上文所描述的一个或多个方法的 指令。处理器1102可W借助于系统总线1106来访问存储器1104。除了存储可执行指令之外, 存储器1104还可W存储带标记并且有向的图、关系的得分、排序表、点进数据,等等。
[0112] 计算设备1100还包括数据存储区1108,其可由处理器1102借助于系统总线1106来 访问。数据存储区1108可W包括可执行指令、带标记并且有向的图、关系的得分、排序表、点 进数据,等等。计算设备1100还包括输入接口 1110,其允许外部设备与计算设备1100相通 信。例如,可W使用计算接口 11
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1