用于意图查询的自然语言搜索结果的制作方法

文档序号:9602524阅读:276来源:国知局
用于意图查询的自然语言搜索结果的制作方法
【专利说明】用于意图查询的自然语言搜索结果
[0001]相关申请的交叉引用
[0002]本申请要求于2013年6月4日提交的题为"NATURAL LANGUAGE SEARCH RESULTSFOR INTENT QUERIES〃的美国非临时专利申请N0.13/910,031的优先权并且是其延续申请,通过参考将其公开全部合并于此。
【背景技术】
[0003]搜索引擎是发现信息的流行方法。常规地,搜索引擎爬取语料库中的文档,对该文档生成倒排索引,并且使用该索引来确定哪些文档是对搜索查询的响应。搜索结果通常包括来自响应文档的标题以及来自文档的包括查询中的一个或多个搜索词语的文本摘录。这样的摘录不是自然语言结果并且典型地不能向不存在一个正确答案的非事实问题提供完整的易于理解的答案。虽然用户可选择与摘录相关联的链接以查看摘录在原始文档中的上下文以确定所识别的信息是否是足够的,但是这会降低用户体验并且就用户得到对非事实问题的答案而言需要额外的努力。

【发明内容】

[0004]—些实现使得搜索系统能够提供对自然语言和非事实查询的增强的搜索结果。该搜索系统可以使得查询请求者以直观的格式接收相关答案而无需加载并读取原始文档源。自然语言查询是使用人用来问诸如"how do I make hummus ? 〃的问题的词语的查询。一些自然语言查询是非事实的。非事实查询可以是包括对与主题有关的特定信息的请求的查询。特定信息被认为是问题类别并且对于针对各种主题的问题可具有相同格式。例如,在烹饪上下文中查询请求者可能具有与制作太妃糖有关的问题。配方指导是对太妃糖的主题所请求的特定信息并且该指导可以包括不同的或复杂的信息。在一些实现中,搜索系统可以执行权威源的离线处理以确定并存储对共同的明确意图的非事实问题的答案。搜索系统可以识别明确意图的查询并且使该查询与所存储的答案相匹配并且提供具有来自一个或多个权威源的完整答案的增强的搜索结果。
[0005]本公开的一个方面可体现为一种计算机实现的方法,该计算机实现的方法包括使用至少一个处理器对来自权威源的文档进行解析以生成标题文本对。对于每个标题文本对,该方法还包括:使用至少一个处理器将标题文本对与多个意图模板中的第一意图模板相关联,该第一意图模板具有相关联的问题类别;基于第一意图模板来确定标题文本对的主题和问题类别;并且将标题文本对存储在以主题和问题类别为键的数据存储中。该方法还包括:确定查询与所述多个意图模板中的第二意图模板相对应,该第二意图模板具有相关联的第二问题类别;基于第二意图模板来确定查询的第二主题;从具有主题和问题类别键的数据存储中检索与所述第二主题和所述第二问题类别相对应的标题文本对;并且提供用于查询的搜索结果,其中搜索结果包括所检索的标题文本对中的至少一个。
[0006]该方法可包括以下特征中的一个或多个。例如,第二意图模板可包括一个非可变部分和一个可变部分。在这样的实现中,使查询与第二意图模板相对应可包括:确定查询包括与所述一个非可变部分相对应的第一项,确定查询中的第二词语与所述可变部分一致,并且确定查询中的第二词语与数据存储中的主题相对应。作为另一示例,使查询与第二意图模板相对应可包括从查询的词语生成潜在模板并且确定潜在模板中的一个是否与第二意图模板相对应。在一些实现中将标题文本对与第一意图模板相关联包括确定标题的文本与第一意图模板的非可变部分相对应并且主题是从与第一意图模板的可变部分相对应的标题的文本得到的。
[0007]在一些实现中,该方法可进一步包括通过以下生成多个意图模板:从权威源获得意图问题;从意图问题生成潜在模板;确定每个独特潜在模板的出现频率;选择预定数目的最频繁出现的潜在模板;并且将所选择的潜在模板存储在存储器中作为所述多个意图模板。在这样的实现中,潜在模板是第一潜在模板并且生成多个意图模板可进一步包括:从搜索记录获得第二意图问题;从第二意图问题生成第二潜在模板;并且在确定、选择以及存储操作中将所述第二潜在模板与所述第一潜在模板包括在一起。而且,在这样的实现中,每个潜在模板可以具有至少一个非可变部分和可变部分,该可变部分表示与潜在模板的非可变部分相对应的文本中的主题的起始位置。因此,生成多个意图模板可包括基于所选择的潜在模板的非可变部分向每个所选择的潜在模板分配相应问题类别。
[0008]本公开的另一方面可体现为一种计算机系统,该计算机系统包括至少一个处理器以及用于存储指令的存储器,所述指令在被所述至少一个处理器执行时可使所述计算机系统执行操作。该操作包括:对来自权威源的文档进行解析以生成至少一个标题文本对,该文本出现在文档中的标题之下;并且向标题文本对分配主题和问题类别。该操作还包括:将标题文本对存储在以主题和问题类别为键的数据存储中;确定查询与所述主题和所述问题类别相对应;并且提供标题文本对作为所述查询的自然语言搜索结果。标题文本对的文本部分可以是出现在来自权威源的原始文档中的段落或者项列表。
[0009]该系统可包括以下特征中的一个或多个。例如,操作可以包括:通过对文档的索引搜索对所述查询进行响应的文档来生成基于摘录的搜索结果;并且随自然语言搜索结果提供基于摘录的搜索结果。在这样的实现中,可使用特定排名算法对基于摘录的结果进行排名,并且使用相同排名算法对标题文本对进行排名。作为另一示例,该操作还可以包括:从数据存储检索多个标题文本对,每个标题文本对以所述主题和所述问题类别为键;对所述多个标题文本对进行排名;并且为所述搜索结果选择预定数目的排名最高的标题文本对。在这样的实现中,可以基于标题文本对的文本部分的长度或者基于所述文本部分与所述多个标题文本对中的其它标题文本对的文本部分的相似性或者这些的组合来对所述多个标题文本对进行排名。
[0010]作为另一示例,该系统还可以包括用于存储多个意图模板的存储器,并且其中当标题与所述多个意图模板中的一个相符时生成所述标题文本对。在这样的实现中,可以通过标题与其相符的意图模板来确定问题类别。在一些实现中,生成标题文本对包括:从所述标题在所述文档中的上下文确定主题;并且将所述主题添加到所述标题文本对的标题部分。
[0011]本公开的另一方面可体现为一种计算机系统,该计算机系统包括至少一个处理器以及用于存储指令的存储器,所述指令在被搜索至少一个处理器执行时可使所述计算机系统执行操作。该操作包括:对来自权威源的文档进行解析以生成多个标题文本对;从所述标题文本对生成潜在模板集;确定所述潜在模板集中的至少一些的出现数量;并且将具有最高数量的潜在模板作为意图模板存储在所述计算机系统的存储器中。
[0012]该系统可包括以下特征中的一个或多个。例如,将标题转换为潜在模板可以包括用可变部分来替换所述标题中的连续词语的子集。作为另一示例,所述潜在模板集是第一潜在模板集并且该操作进一步包括:使用搜索记录来确定先前发布的具有与权威源相关联的搜索结果的查询;从所确定的查询生成第二潜在模板集;并且将上述第二潜在模板集与所述第一潜在模板集包括为确定出现数量的一部分。在一些实现中,该操作包括向意图模板分配问题类别,该问题类别被存储为意图模板的属性。
[0013]在一个实现中,该操作包括:接收自然语言查询并且确定所述意图模板中与所述自然语言查询相对应的意图模板,所确定的意图模板具有相关联的问题类别。该操作可以进一步包括:使用所确定的意图模板来确定所述自然语言查询的主题;对文档的索引搜索对所述主题和相关联问题类别做出响应的文档;并且提供用于所述自然语言查询的搜索结果,包括对所述主题和相关联的问题类别做出响应的文档。
[0014]本公开的另一方面可体现为一种计算机可读介质,该计算机可读介质上记录有且具体化指令,该指令当由计算机系统的处理器执行时使得所述计算机系统执行在这里所公开的任何方法。
[0015]可实现这里所描述的主题的实现中的一个或多个以便实现以下优点中的一个或多个。作为一个示例,该系统可以提供对查询的自然语言答案。自然语言答案是以提供多样或复杂答案或者对每个答案多于一个事实的段落和/或列表格式的答案。自然语言答案具有高质量,因为它们是从权威源得到的。而且,因为答案是自然语言答案,因此查询请求者可查看并在两个或多个权威源当中对完整答案进行快速且轻松地比较。此外,因为自然语言答案提供多样或复杂答案,因此用户增加了权威源文档具有热捧答案的信心,即使在搜索结果中提供了仅答案的开始。在一些实现中,自然语言响应可以包括在摘录式搜索结果之前,这使得可对答案容易且直观地定位。在一些实现中,如果提供了自然语言结果中的一个的重复,则可以去除摘录型搜索结果,因而自动地消减了提供给查询请求者的搜索结果。
[0016]作为另一示例,与关键字查询相比,自然语言查询可以具有低得多的搜索量。改进的搜索系统可识别自然语言查询的意图,并且因而提供了传统搜索引擎可能会错过的或者不能响应自然语言查询而高排名的高质量答案。在一些实现中,搜索系统可以将自然语言查询转换成关键字查询以提高对自然语言查询所返回的基于摘录的结果的质量。
[0017]在附图和下面的描述中阐述了一个或多个实现的细节。其它特征从描述和附图以及权利要求书中将是显而易见的。
【附图说明】
[0018]图1图示了根据一些实现的示例性系统。
[0019]图2图示了按照所公开的实现的示出包括自然语言答案的增强的搜索结果的用户界面的示例。
[0020]图3图示了按照所公开的实现的用于提供增强有自然语言答案的搜索结果的示例性过程的流程图。
[0021]图4图示了按照所公开的实现的用于生成意图模板的示例性过程的流程图。
[0022]图5图示了按照所公开的实现的用于生成用于提供自然语言答案的问题与答案数据存储的示例性过程的流程图。
[0023]图6图示了按照所公开的实现的用于使用问题与答案数据存储来向查询提供答案的示例性过程的流程图。
[0024]图7图示了按照所公开的实现的用于确定查询是否包括明确意图的问题的示例性过程的流程图。
[0025]图8示出了可用于实现所描述的技术的计算机设备的示例。
[0026]图9示出了可用于实现所描述的技术的分布式计算机设备的示例。
[0027]在各个附图中相同参考符号指示相同的元素。
【具体实施方式】
[0028]图1是根据示例性实现的系统100的方框图。系统100可以用于实现搜索引擎,该搜索引擎提供对包括具有可识别意图的问题的查询的自然语言答案。对图1中的系统100的描述被描述为能够搜索通过因特网可获得的权威源以生成提供自然语言答案的问题与答案(Q&A)数据存储的系统。该系统可以提供用于识别具有明确意图的问题的查询并且用于从权威源的内容识别自然语言答案的意图模板。可以使用所描述的技术的其它配置和应用。例如
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1