搜索查询和文档相关数据翻译的制作方法

文档序号:6379732阅读:252来源:国知局
专利名称:搜索查询和文档相关数据翻译的制作方法
搜索查询和文档相关数据翻译
相关申请的交叉引用
本申请要求在2011年10月25日提交的序列号为61/551,363的美国临时专利申 请、以及在2011年12月16日提交的第13/328924号美国专利申请的优先权。
背景技术
搜索互联网以定位相关的文档和广告会是挑战性的,这是因为搜索查询和web (网页)文档/广告往往使用不同的语言风格和词汇。存在与目前的互联网搜索技术有关 的各种问题。通常,查询包含与相关文档中的术语不同但有关的术语,这导致了被称为词 汇空缺问题的公知的信息检索问题。有时,当查询包含具有导致含糊不清的多重含义的 术语时,搜索引擎检索到与用户的意图不匹配的许多文档,这可以称为嘈杂扩散(noisy proliferation)问题。由于搜索查询和web文档是由各种各样的人用非常不同的语言风格 编著的这一事实,这两个问题在互联网搜索中实质上更为普遍。
研究团体所开发的典型信息检索方法(不管其在基准数据集(例如,文本检索会议 (TREC)集合)上的现有技术性能如何)基于词袋和精确术语匹配方案,并且不能有效地处理 这些问题。一些方法采用趋向于使嘈杂扩散问题更糟糕的特别(ad-hoc)措施。虽然已经 提出了数种方法来确定查询中的术语与文档中的术语之间的关系,但是这些方法中的大多 数依赖于基于术语在查询和文档中同现的术语相似度(如余弦相似度)的不适当措施。例 如,在付费搜索系统中,期望定位与搜索查询有关的且具有潜在用户关注的文档(其可以包 括广告),由此用户将更有可能点击它们,然而,由于由文档内容和搜索查询之间的语言差 异而引起的词汇空缺问题和/或嘈杂扩散问题,已知的技术通常返回无关的文档。发明内容
提供本发明内容来以简化的形式介绍代表性构思的选择,下面在具体实施方式
中 进一步对其进行描述。本发明内容既不意在表明所要求保护的主题的关键特征或基本特 征,也不意在以会限制所要求保护的主题的范围的任何方式来进行使用。
简单地说,文中所描述的主题的各个方面针对于常见语言(例如,英语)的子语言 之间的文档和搜索查询翻译模型。在一个方面,开发用于将搜索查询术语映射到文档相关 数据(诸如广告描述)的翻译模型涉及构建包括词对齐的查询-文档对的词对齐训练语料 库。在一个方面,可以使用已记录的搜索历史来生成训练语料库,已记录的搜索历史包括源 于搜索查询的点击事件。对于每一对,可以假定给定的搜索查询翻译成点击过的文档标题 或广告描述,这是因为用户不会选择无关的文档或广告。在针对每个查询-文档对确定文 档相关词与查询术语之间的词对齐(例如查询术语与文档相关词/短语之间的映射,如一 对一映射)之后,估计词对齐中特定的文档相关词与相应的查询术语之间的翻译概率。这些 翻译概率可以由部署到互联网的搜索引擎使用。
在另一方面,搜索引擎的训练机构可以生成词对齐训练语料库并识别查询-广告 双语短语(即,双短语(b1-phrase))。训练机构可以计算与查询-广告双短语相关联的短语翻译概率,并产生针对广告的基于短语的查询翻译概率,这些基于短语的查询翻译概率被 提供给搜索引擎,用于基于搜索查询是否可以从与这样的文档有关的数据生成或翻译出而 对文档进行排名。在另一方面,搜索引擎提供方可以使用基于短语的翻译模型,以通过关于 更好的关键词、所建议的描述等的信息来支持广告客户。
根据结合附图进行的以下详细描述,其他的优点会变得明显。


本发明通过举例的方式来说明并且不限于附图,在附图中,相似的附图标记表示 相似的元件,并且在附图中
图1是示出了根据一个示例性实施方式的用于搜索查询和文档相关数据翻译的 示例性系统的框图。
图2是示出了根据一个示例性实施方式的用于翻译模型训练的示例性流水线的 框图。
图3是示出了根据一个示例性实施方式的用于付费广告搜索的示例性运行时间 数据流的框图。
图4是示出了根据一个示例性实施方式的开发用于将搜索查询术语与广告相关 数据进行映射的基于短语的翻译模型的示例性步骤的流程图。
图5是表示可以实施文中所描述的各个实施例的示例性的非限制性网络化环境 的框图。
图6是表示可以实施文中所描述的各个实施例的一个或更多个方面的示例性的 非限制性计算系统或运行环境的框图。
具体实施方式
文中所描述的技术的各个方面一般针对搜索查询和文档相关数据翻译。文档相关 数据可以包括广告着陆页、广告描述和/或文档标题等。在生成使用或不使用对齐模板来 捕获搜索查询部分与文档部分之间的语义相似度的翻译模型之后,翻译模型可以结合到搜 索引擎的模型数据中。在搜索引擎被部署的情况下,当基于搜索查询是否可以从文档相关 数据翻译出而将搜索查询映射到一个或更多个相关文档时,翻译模型可以用作特征信息的 源。
应当理解,文中的任何示例均为非限制性的。如此,本发明并不局限于文中所描述 的任何具体实施例、方面、构思、结构、功能或示例。相反,文中所描述的任何实施例、方面、 构思、结构、功能或示例为非限制性的,并且可以按照总体上在计算和搜索中提供益处和优 点的各种方式来使用本发明。
图1是示出了根据一个示例性实施方式的用于文档和搜索查询翻译的示例性系 统的框图。该示例性系统的组件可以包括使用数据102、训练机构104、模型数据106、搜 索引擎提供方108和示例性用户110。应理解,示例性用户110表示搜索引擎用户群体中的 任何用户。当示例性用户110通过本地计算设备传送搜索查询时,示例性搜索引擎采用来 自模型数据106的各种模型以用如文中所述的搜索结果来响应搜索查询。在使用数据102 累积一段时间之后,训练机构104对使用数据102进行分析并生成一个或更多个模型,所述一个或更多个模型随后被部署到搜索引擎提供方108以作为模型数据106的更新。学习如 何组合多个模型以识别相关文档可以以离线的方式执行。
根据一个实施方式,使用数据102可以包括在特定时间段(例如,一年)内收集的、 与多个搜索引擎用户相关联的聚合的搜索历史。使用数据102可以包括已记录的搜索查 询、相关搜索结果以及源于搜索查询的点击事件,并对应于具有统一资源定位符(URL)的文 档(包括广告)。使用数据102还可以包括文档相关数据,诸如文档标题和/或广告关键词 和描述等。
训练机构104可以利用用于计算搜索查询子语言与文档/广告子语言之间的翻译 概率的各种数据,诸如对齐模板112和/或词对齐训练语料库114。要理解的是,虽然这些 翻译概率的示例性实施例涉及常见语言(诸如英语),但是每个概率是指经常在信息检索系 统内出现的、不同词或短语之间的词汇空缺。搜索查询术语可以映射到具有相同或类似含 义的不同术语和/或映射到在各种文档/广告中传达的多个含义。
例如,响应于针对“jogging shoes (慢跑鞋)”的搜索查询,示例性搜索引擎可能不 将包括短语“running shoes (跑鞋)”的广告识别为相关的,或者替选地,可能将该广告分类 为具有低相关性,即便这两个短语共享语义关系。为了修补这样的词汇空缺,相应的翻译概 率捕获这两个短语之间的语义关系或相似度。在一个实施方式中,相应的翻译概率包括下 述值该值表示短语“running shoes”可以从“jogging shoes”翻译出以及短语“jogging shoes”可以从“running shoes”翻译出的机率,并由此表示广告与搜索查询的相关性如何。
为了确定词或短语是否共享语义关系,根据一个示例性实施方式,训练机构104 提取搜索查询术语和与点击事件相关联的文档相关数据。在构建词对齐之后,训练机构104 将提取的数据转换成词对齐训练语料库114,词对齐训练语料库114包括用作搜索查询术 语和/或文档相关数据的词或短语的词对齐的查询-文档对。在一个实施方式中,训练机 构104可以使用词对齐训练语料库114来产生对齐模板112,对齐模板112可以包括这些词 或短语的广义版本。
对齐模板112可以提供使用通用词类(例如,共享语义关系的词分组)而不是实际 词的替代的词对齐。在一个实施方式中,与该示例性搜索引擎相关联的一个或更多个特征 (功能)可以使用对齐模板112,以响应于搜索查询来对文档/广告进行排名。每个特征可 以将搜索查询分割成将搜索查询术语映射到文档相关数据(诸如文档/广告关键词)的对齐 模板112的子集,并且产生与其他值相结合以形成特征信息(例如形成加权平均)的值(诸如 相关性得分或相关性得分的矢量)。要理解的是,可以采用许多其他特征来计算特定文档/ 广告的相关性得分,诸如语言结构(例如,与广告标题/描述的良好形成质量有关的值)、对 齐模板子集的数量或排序等。
在一个实施方式中,训练机构104可以通过基于词对齐训练语料库114生成使用 数据102中的先前记录的搜索查询术语与文档相关数据之间的映射信息,来构建翻译模型 116。映射信息可以包括适合于词对齐训练语料库114的各种概率,诸如除了基于词的翻译 概率和/或基于短语的翻译概率之外的查询映射概率。训练机构104可以采用期望最大化 技术来收敛(例如训练)基于词或基于短语的翻译概率以基本上与查询-文档对匹配,以及 最大化每个文档对的查询映射概率。查询翻译概率可以表示从给定的文档的一个或更多个 部分(诸如广告描述或文档标题)生成搜索查询的条件概率。如文中所描述的,示例性搜索引擎可以使用查询翻译概率作为未处理(pending)的搜索查询与潜在搜索结果之间的正确翻译或映射的似然性。
在一个示例性实施方式中,训练机构104可以将翻译模型116结合到模型数据106 中,用于由示例性搜索引擎使用。例如,训练机构104可以通过内插(例如,线性或对数-线性内插)将基于词的翻译模型与语言模型(诸如一元语言模型)相结合。要理解的是,翻译模型116可以与任意η元语言模型(诸如二元、三元或四元模型)相结合。作为另一个示例,训练机构104可以将翻译模型116结合到(线性或非线性)排名模型框架中,在所述排名模型框架中,基于短语的翻译模型和/或基于词的翻译模型可以响应于搜索查询来产生用于对文档/广告排名的各种特征,如文中所述的。线性排名模型框架还可以使用用于不同特征的其他模型。替选地,训练机构104可以将翻译模型116存储在模型数据106中,用于(例如在不与其他模型相结合的情况下)在对文档/广告排名中直接使用。
在训练机构104将翻译模型116结合到模型数据106中之后,示例性搜索引擎(如搜索引擎118)可以使用翻译概率以协助搜索查询和文档映射。为了产生响应于当前搜索查询而列出的可能相关且有用的搜索结果,搜索引擎118采用各种机构(如相关性机构120 和/或预测机构122)来对诸如广告的文档集合进行识别和适当排名。
在一个实施方式中,相关性机构120可以使用各种特征信息124来过滤文档集合, 各种特征信息124可以使用模型数据106而产生。例如,相关性机构120可以基于由翻译模型116提供的翻译概率来计算相关性得分/值。针对当前搜索查询具有最高翻译概率的文档也可以具有存在相关性的最高似然性。相关性机构120可以将这些得分与排名数据126 进行比较并去除低于阈值的文档。
预测机构122也可以使用特征信息124,针对每个剩余文档确定点击预测得分(诸如点进率(click-through rate))。例如,预测机构122可以向下述文档(诸如广告)分配最闻点进率所述文档具有在给定当如搜索查询的情况下被点击的最闻后验概率,和/或具有如翻译模型116所提供的相关性的最高似然性。作为另一个示例,最高点进率可以取决于各种其他特征,如文档在搜索结果页上的位置、文档相关数据(例如,广告标题/描述)的可读性。预测机构122可以采用神经网络排序器,神经网络排序器集成了大量特征,以预测如果广告在搜索结果页中显示,则其会有多大可能被点击。具有超过预定义阈值的点进率的文档集合将被存储在排名数据126中并最终呈现给用户110。
在一个示例性实施方式中,搜索引擎提供方108还可以提供一个或更多个软件组件/工具(如建议机构128),以辅助广告客户开发导致更高点进率的广告。在一个示例性实施方式中,建议机构128可以产生用于改进广告收益的策略130,其包括在描述或标题中使用以提高排名的一个或更多个关键词/短语。在另一个示例性实施方式中,策略130还可以包括进行竞价以实现向广告客户网页的更高牵引的一个或更多个搜索查询术语/关键词(例如,构成全部或部分搜索查询)。
在另一个示例性实施方式中,建议机构128可以基于包括翻译模型116的模型数据106来生成针对包含翻译的词和/或短语的广告的元数据流132。例如,元数据流132可以包括着陆页信息(例如,URL或标题)、翻译的关键词、广告标题/描述和/或其他元数据。 搜索引擎提供方108可将元数据流132附于伴随广告的当前元数据。下面示出了元数据流 132的示例性格式
广告客户着陆页URL/标题广告标题广告描述翻译的关键词
图2是示出了根据一个示例性实施方式的用于翻译模型训练的示例性流水线的 框图。示例性流水线的元素(例如,步骤或处理)可以开始于元素202,在元素202处,从包 含搜索历史(例如,源于搜索查询的广告点击)的各个用户日志中提取查询-广告对。要理 解的是,尽管图2示出了用于文档和搜索查询翻译的元素,但是广告和搜索查询翻译也可 以以相同或相似的方式来执行。相应地,训练机构(如图1中的训练机构104)可以执行示 例性流水线的元素中的至少一些。
元素204是指训练词对齐模型和/或将词对齐模型应用于查询-文档对。假定 文档相关数据翻译成搜索查询,词对齐模型一般是指在给定文档相关数据的情况下的模 型参数集合和搜索查询术语集合的联合似然性(joint likelihood)。模型参数集合可 以包括来自文档相关数据(如文档标题)的词的排列U1. . . Bj),该排列映射到搜索查询术 语位置(1... j)的索引。在文中可以被称为词对齐的这种排列可以表示为如下数值序列 (numerical series):在该数值序列中,每个a」具有O和I (例如,诸如文档标题或关键词 /标签等文档相关数据的长度)之间的值i,使得如果在搜索查询的位置j处的词被连接到 在文档标题的位置i处的词,则afi,并且如果它没有连接到任何文档词,则aj=0。
词对齐模型可以基于文档词和搜索查询术语之间的依存关系。在一个实施方式 中,词对齐模型可以假定词序列中的每个位置具有被分配给搜索查询中的相应词的均等概 率,或者可以计算每个文档标题位置的条件概率。例如,文档标题中的第一个词相比于任 何其他词位置可以具有映射到搜索查询术语的更高的概率。词对齐可以提供除了两个词/ 短语之间的同时出现计数之外的附加信息。例如,使用词对齐估计的翻译概率可以考虑关 于搜索查询中的映射到文档标题中的另一个词/短语的一个词/短语的位置的失真或一致 性。
训练机构可以采用用于生成词对齐的各种技术(例如,期望最大化及其变型)。这 些技术中的一些技术(例如维特比(Viterbi )技术/算法)可以去除没有翻译成其他子语言 的一些“隐藏”词和/或使得能够实现查询术语和文档标题词之间的一对一映射。在一个示 例性实施方式中,训练机构针对每个查询-广告双语词或短语(即双短语)计算最有可能的 词序列,其中所述查询-广告双语词或短语是可以作为单位从一种子语言翻译成另一种子 语言的连续词或短语。这些词序列可以使训练机构能够集中于形成广告的提炼的关键词, 并假定搜索查询从这些关键词生成或翻译出。
元素206针对于词/短语对的提取。每个对(q,w)包括一个或更多个搜索查询术 语(q)以及一个或更多个文档相关词(《),如广告标题或描述中的词。元素208是指基于 词对齐来计算翻译概率P (q Iw)和翻译概率p(w|q)。在一个示例性实施方式中,翻译概率 p(q|w)表示特定术语q可以从给定的词w翻译出的条件概率(例如,似然性)。在另一个示例性实施方式中,翻译概率P (w I q)表示特定词w可以从给定术语q翻译出的条件概率(例如,后验概率)。
可以使用从用户日志导出的训练数据(例如,由KQi, DiLi=1-NI表示的查询-文档对)来获得词翻译概率P (q I W)。训练方法可以遵循训练统计词对齐模型的标准过程。在一个实施方式中,通过使从训练数据上的标题中生成查询的翻译概率最大化来对模型参数 Θ进行优化
权利要求
1.一种计算环境中的、至少部分地在至少ー个处理器上执行的方法,包括应用用于将ー个或更多个搜索查询术语映射(204)到文档相关数据的翻译模型(116),所述应用包括处理包含对应于词对齐的查询-文档对(114)的数据的所述翻译模型(116);将所述翻译模型(116)结合(408)到信息检索模型(106)中;以及响应于搜索查询而使用(410)所述信息检索模型(106)来产生包含相关文档的搜索結果。
2.根据权利要求1所述的方法,其中,处理所述翻译模型还包括处理搜索引擎使用数据以识别词对齐的查询-文档对,以便使用与每个查询-文档对相关联的后验分布和似然性分布来训练所述翻译模型。
3.根据权利要求1所述的方法,其中,处理所述翻译模型还包括估计表示捜索查询子语言与文档子语言之间的语义关系的翻译概率,其中,估计所述翻译概率还包括以下至少ー个调节自翻译概率或计算广告的查询翻译概率。
4.根据权利要求1所述的方法,还包括生成与广告相关联的元数据流或建议关键词中的至少ー个。
5.根据权利要求1所述的方法,还包括以下至少ー个基于所述捜索查询计算每个潜在文档的相关性得分或基于所述捜索结果计算每个相关文档的点击预测得分。
6.一种计算环境中的系统,包括训练机构(104),所述训练机构被配置成处理词对齐训练语料库(114)以及识别(406)查询-广告双短语,其中所述训练机构(104)还被配置成计算(208)与所述查询-广告双短语相关联的短语翻译概率,以产生(406)针对广告的基于短语的查询翻译概率并将所述基于短语的查询翻译概率提供(408)给搜索引擎。
7.根据权利要求6所述的系统,其中,所述搜索引擎还包括排名机构,所述排名机构被配置成根据所述基于短语的查询翻译概率来计算给定搜索查询情况下的每个广告的得分,其中,所述排名机构还被配置成以下功能中的至少ー个基于所述广告的ー组得分来过滤所述搜索查询的捜索结果或计算包括所述短语翻译概率的短语翻译模型的特征信息。
8.根据权利要求6所述的系统,其中,所述系统还包括建议机构,所述建议机构被配置成产生用于使与广告客户相关联的ー组广告的收益最大化的策略。
9.具有计算机可执行指令的一个或更多个计算机可读介质,所述计算机可执行指令在被执行时进行包括以下步骤 访问(302)翻译模型(116),所述翻译模型捕获搜索查询部分与广告部分之间的语义相似度; 将搜索查询映射(304、306)到一个或更多个相关广告; 基于所述翻译模型(116)对所述一个或更多个相关广告进行排名(308、310);以及 产生(410)捜索结果,所述搜索结果包括具有针对所述搜索查询的排名的顺序的所述一个或更多个相关广告。
10.根据权利要求10所述的ー个或更多个计算机可读介质,还具有这样的计算机可执行指令,所述指令包括 生成用于基于对齐模板对所述一个或更多个相关文档进行排名的基于短语的特征信息。
全文摘要
本主题公开内容公开了搜索查询和文档相关数据翻译,并针对于开发一种用于将搜索查询术语映射到文档相关数据的翻译模型。通过将包括搜索历史的用户日志处理成词对齐的查询-文档对,可以使用对应于词对齐的查询-文档对的数据(例如概率)来训练翻译模型。在将翻译模型结合到搜索引擎的模型数据中之后,所使用的翻译模型可以用作下述特征其用于产生当前搜索查询的相关性得分以及根据相关性对文档/广告进行排名。
文档编号G06F17/30GK103049474SQ201210413480
公开日2013年4月17日 申请日期2012年10月25日 优先权日2011年10月25日
发明者高剑峰, 威廉·多兰, 克里斯托弗·布罗克特, 王正灏, 李玫, 黄学东 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1