使用路径受约束的随机游走的查询扩展和查询-文档匹配的制作方法

文档序号:9893582阅读:399来源:国知局
使用路径受约束的随机游走的查询扩展和查询-文档匹配的制作方法
【专利说明】使用路径受约束的随机游走的查询扩展和查询-文档匹配
【背景技术】
[0001 ]项错配(term mismatch)可能成为在执行捜索时的挑战。例如,一项查询(que巧) 与其相关文档往往是使用不同词汇和语言风格来构成的,运会导致项错配。捜索引擎所利 用的将文档匹配到查询的常规算法可能由于项错配而受到不利影响,并且因此,常常采用 查询扩展(犯)来解决运样的挑战。查询扩展(que巧e邱ansion)能够利用另外的相关项(称 作"扩展项")来对由用户发起的查询进行扩展,W使得能够检索到更相关的文档。
[0002]已经实现了各种常规犯技术W用于信息检索(IR)。一些基于自动相关反馈(例如, 显式反馈和伪相关反馈(PRF))的传统犯技术能够增强IR的表现。然而,运样的技术可能无 法直接应用于商业网络捜索引擎,因为相关的文档可能是不可用的。此外,伪相关文档的生 成可W采用多相位检索,运要实时执行可能是昂贵并且耗时的。
[000;3]最近发展的犯技术利用捜索日志(例如,点进(click-t虹OU曲)数据)。运些技术称 为基于日志的犯,也能够从(伪)相关文档的集合中得出扩展项用于查询。然而,与基于自动 相关反馈的技术不同,可W用基于日志的QE技术根据记录在捜索日志中的用户点击 (click)来识别相关的集合。例如,通过将先前已针对输入查询点击过的文档包括进来,能 够形成该查询的(伪)相关文档的集合。许多常规的基于日志的犯技术使用根据捜索日志预 先计算出的全局模型。该模型能够捕获在查询项和文档项之间的相互关系,并且能够被用 来即时(on the fly)为输入查询生成扩展项。
[0004] 尽管基于日志的犯技术的有效性,运样的方法仍可能苦于各种问题。例如,数据稀 疏性能够对基于日志的犯技术的有效性造成影响。如齐普夫定律(Zipf's law)所陈述的, 大部分的查询在捜索日志中可能几乎没有或完全没有点击。此外,捜索意图的模糊性能够 对基于日志的犯技术造成不利影响。例如,项相互关系模型(term correlation model)可 能无法将查询项"book"在"school book(学校用书Γ中与在"hotel booking(酒店预订Γ 中的捜索意图相区分。虽然通过使用基于词组(phrase)和概念的相互关系模型可W部分地 缓解该问题,但可能存在运样的场景:其中在不使用全局上下文的情况下不能够正确地识 别捜索意图。例如,查询"为什么六瓶一包"可能是关于包装的,而"极品烘赔面包"的查询意 图可能关屯、的是在加利福尼亚寻找一家面包店。在运样的情况下,该输入查询的(伪)相关 文档的集合,如果可得的话,可能是比全局相互关系模型更可能保留原始捜索意图的。

【发明内容】

[0005] 本文所描述的是,关于使用路径受约束的随机游走来进行查询扩展和/或查询文 档匹配的各种科技。来自捜索日志的点进数据可W表示为计算机实现的、带标记(labeled) 并且有向(directed)的图。可W在计算机实现的、带标记并且有向的图上执行"路径受约束 的随机游走(PCRW)",用于查询扩展和/或文档-查询匹配。可W基于输入查询在带标记并且 有向的图上执行路径受约束的随机游走。带标记并且有向的图可W包括第一节点集合,所 述第一节点集合表示包括在来自捜索日志的点进数据中的查询。此外,带标记并且有向的 图可W包括第二节点集合,所述第二节点集合表示包括在来自捜索日志的点进数据中的文 档。带标记并且有向的图还可W包括第Ξ节点集合,所述第Ξ节点集合表示来自查询和文 档的单词。带标记并且有向的图还可W包括在节点之间的边,所述边表示在查询、文档和单 词之间的关系。路径受约束的随机游走可W包括经由所述图的的边在节点之间进行的遍 历。此外,在目标节点与表示所述输入查询的源节点之间的关系的得分(score),可W至少 部分地基于路径受约束的随机游走来计算。
[0006] 根据各个实施例,能够实现基于路径受约束的随机游走的查询扩展技术。因而,路 径受约束的随机游走的目标节点能够代表备选查询扩展项(例如,表示来自查询和文档的 单词的第Ξ节点集合能够包括所述目标节点)。因此,可W计算在表示备选查询扩展项的目 标节点与表示输入查询的源节点之间的关系的得分。运样的得分可W被计算为在带标记并 且有向的图上、在表示备选查询扩展项的目标节点与表示输入查询的源节点之间的路径受 约束的随机游走的学习组合(learned combination)。所述关系的得分可W是对于输入查 询挑选所述备选查询扩展项的概率。
[0007] 根据其它实施例,能够实现基于在带标记并且有向的图上的路径受约束的随机游 走的查询-文档匹配技术。因此,路径受约束的随机游走的目标节点可W代表备选文档(例 如,表示包括在来自捜索日志的点进数据中的文档的第二节点集合能够包括所述目标节 点)。因此,可W计算在表示备选文档的目标节点与表示输入查询的源节点之间的关系的得 分。该得分可W被计算为在带标记并且有向的图上、在表示备选文档的目标节点与表示输 入查询的源节点之间的路径受约束的随机游走的学习组合。另外,该关系的得分可W是备 选文档与输入查询相关的概率。
[0008] 依照各种实施例,在目标节点与表示输入查询的源节点之间的关系的得分,可W 通过确定在目标节点与表示输入查询的源节点之间的路径受约束的随机游走的各个值来 计算。例如,路径受约束的随机游走能够根据不同的路径类型从表示输入查询的源节点到 目标节点对所述图的节点之间的边进行遍历。路径类型可W包括作为对应的路径受约束的 随机游走的一部分来进行遍历的、在图中的节点之间的关系的序列。因此,路径类型可W 是,在对应的路径受约束的随机游走的执行期间可W遵循的、包括在带标记并且有向的图 中的边的边标记(edge label)的序列。此外,可W将根据不同的路径类型从表示输入查询 的源节点到目标节点对所述图的节点之间的边进行遍历的路径受约束的随机游走的各个 值进行组合,W计算在目标节点与表示输入查询的源节点之间的关系的得分。
[0009] 上文的
【发明内容】
提出了简化概述,W便提供对本文所讨论的系统和/或方法的一 些方面的基本理解。该
【发明内容】
并不是对本文所讨论的系统和/或方法的详尽概览。它不是 要标识关键/重要元素,也不是要描绘运样的系统和/或方法的范围。其唯一的目的是W简 化形式提出一些概念,作为稍后提出的更详细的说明书的铺垫。
【附图说明】
[0010] 图1示出执行路径受约束的随机游走的示例性系统的功能方框图。
[0011] 图2示出将路径受约束的随机游走作为捜索的一部分来执行的示例性系统的功能 方框图。
[0012 ]图3示出示例性带标记并且有向的图。
[0013]图4示出基于来自捜索日志的点进数据来构造带标记并且有向的图的示例性系统 的功能方框图。
[0014] 图5-8示出在表示输入查询Q的源节点与表示备选查询扩展项W1的目标节点之间 的各种示例性路径受约束的随机游走。
[0015] 图9是示出使用路径受约束的随机游走的示例性方法的流程图。
[0016] 图10是示出使用路径受约束的随机游走来执行查询扩展或查询-文档匹配的示例 性方法的流程图
[0017] 图11示出示例性计算设备。
【具体实施方式】
[0018] 现在参考附图来描述关于使用路径受约束的随机游走来进行查询扩展和/或查 询-文档匹配的各种科技,其中同样的附图标记在通篇中被用来指代同样的元素。在下文的 说明书中,出于解释目的阐述了很多具体细节,W便于提供对一个或多个方面的透彻理解。 然而,可W显而易见的是,运样的(一个或多个)方面可W在没有运些特定细节的情况下实 践。在其它实例中,用方框图的形式示出公知的结构和设备,W便于描述一个或多个方面。 此外,应当理解,被描述为由特定系统部件来实现的功能可W通过多个部件来执行。同样 地,例如,一个部件可W被配置为执行被描述为由多个部件来实现的功能。
[0019] 此外,术语"或"旨在意指包容性的"或"而不是排他性的"或"。也就是说,除非另有 指定或从上下文中能明白的,否则短语气采用A或B"旨在意指任何自然的包容性的排列。也 就是说,下列实例中的任何实例均满足短语气采用A或B":X采用A;X采用B;或X采用A和B二 者。另外,在本申请及所附权利要求中使用的冠词"一个"和"一"一般应该被理解为意指"一 个或多个",除非另有指定或从上下文能明白是要指向单数形式。
[0020] 如在本文中所阐述的,可W实现基于路径受约束的随机游走的查询扩展和/或查 询-文档匹配。来自捜索日志的点进数据可被表示成带标记并且有向的图。针对查询扩展, 对于输入查询挑选备选查询扩展项的概率是通过在图上的路径受约束的随机游走的学习 组合来计算的。此外,针对查询文档匹配,备选文档与输入查询相关的概率可W通过在图上 的路径受约束的随机游走的学习组合来计算。
[0021] 本文中提供了原则性的框架,其W统一方式将不同的模型纳入。例如,针对查询扩 展:框架可W是通用的,运是通过将各种犯模型作为特殊案例涵盖;框架也可W是灵活的, 运是通过使得多种信息能够用统一的方式组合。此外,框架支持纳入另外的犯模型(例如, 使得(一个或多个)犯模型能够随后被添加或移除)。此外,本文中提供的基于路径受约束的 随机游走的技术可W有效地扩展罕见查询(例如,未在捜索日志中见到的低频查询),并且 提供与常规犯技术相比增强的表现。
[0022] 现在参见附图,图1示出了执行路径受约束的随机游走的系统100。例如,系统100 能够基于路径受约束的随机游走实现查询扩展。根据另一示例,系统100能够基于路径受约 束的随机游走实现查询-文档匹配。
[0023] 系统100包括数据仓库102,其留存(retain)带标记并且有向的图104。捜索日志 (其可W包括已点击的查询-文档对)可W表示为带标记并且有向的图104,该图包括Ξ类节 点,分别表示查询、文档和单词(例如,备选扩展项)。因此,带标记并且有向的图104包括:第 一节点集合,其表示包括在来自捜索日志的点进数据中的查询;第二节点集合,其表示包括 在来自捜索日志的点进数据中的文档;W及第Ξ节点集合,其表示来自查询和文档的单词。 此外,带标记并且有向的图104包括在节点之间的边,所述边表示在查询、文档和单词之间 的关系。包括在带标记并且有向的图104中的节点之间的边,是通过各自的关系来标记的。 在带标记并且有向的图104中的边还可W被分配W各自的边得分(edge score),运是基于 针对各自的关系的关系特定的(re lat ion-spec if i C)概率模型的。
[0024] 系统100还包括随机游走部件106,其能够接收输入查询108。随机游走部件106能 够基于输入查询108在带标记并且有向的图104上执行路径受约束的随机游走。由随机游走 部件106执行的路径受约束的随机游走可W包括在图104的节点之间的边上进行遍历。路径 受约束的随机游走根据预先定义的路径类型
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1