对自然语言问题的基于学习的处理的制作方法

文档序号:6534473阅读:154来源:国知局
对自然语言问题的基于学习的处理的制作方法
【专利摘要】所描述的技术使得能够使用基于机器学习的方法来收集和分析来自web搜索的证据来回答自然语言问题。接收到的自然语言问题被分析以提取查询单元并使用基于规则的探试和/或通过机器学习训练的分类器来确定问题类型、答案类型和/或词汇答案类型。查询生成模板被用于生成多个经排序的查询,这多个经排序的查询被用于收集证据来确定对于自然语言问题的答案。基于暗暗类型和/或词汇答案类型来从结果中提取候选答案,并使用先前被离线训练的排序器对候选答案进行排序。计算候选答案的置信度水平,并且如果排名第一(前几)的回答的置信度水平超过阈值,则该排名第一(前几)的回答可被提供给用户。
【专利说明】对自然语言问题的基于学习的处理
[0001] 背景
[0002] 在线搜索引擎向用户提供了用于在web上定位内容的功能强大的手段。也许由于 搜索引擎是软件程序,所以它们被开发为更加高效地处理以诸如反映编程语言的形式的布 尔查询之类的形式输入的查询。然而,许多用户可能偏好以自然语言形式输入查询,类似于 他们在日常生活中可能正常交流的那样。例如,搜索web以知晓保加利亚的首都的用户可 能偏好输入"保加利亚的首都是什么? "而非"首都AND保加利亚"。由于许多搜索引擎已 经被优化来接受具有正式查询形式的用户查询,它们可能不太能够高效且准确地对自然语 言查询进行响应。
[0003] 以前的方案倾向于依赖经组织的数据知识库来回答自然语言查询。这个方式以 IBM?创建的Watson问题回答计算系统为例,其出名地出现在美国的Jeopardy!?游戏节 目上并取得了胜利。因为Watson和类似的方案依赖于知识库,所以它们所能回答的问题的 范围可被限于知识库中经组织的数据的范围。此外,这样的知识库在用新数据来更新方面 可能是昂贵且耗时的。


【发明内容】

[0004] 描述了用于通过使用基于机器学习的方法来收集和分析来自web搜索的证据来 回答由用户作为搜索查询输入的自然语言问题的技术。在一些示例中,在接收到由用户输 入的自然语言问题后,执行分析来确定该问题的问题类型、答案类型和/或词汇答案类型 (LAT)。该分析可采用基于规则的探试和/或使用机器学习来离线训练的分类器。也可使 用组块、句子边界检测、句子模式检测、解析、指定实体检测、词性标记、标记化或其它工具 来从自然语言问题中提取一个或多个查询单元。
[0005] 在一些实现方式中,所提取的查询单元、答案类型、问题类型和/或LAT随后可被 应用到一个或多个查询生成模板以生成多个查询,该多个查询将被用于收集证据来确定针 对自然语言问题的答案。接着,可使用通过使用机器学习被离线训练的排序器对这些查询 进行排序,排名前N的查询可被发送到搜索引擎。接着,可使用另一经机器学习训练的排序 器对结果(例如,web文档的地址和/或片断)进行过滤和/或排序,并且基于答案类型和 /或LAT从结果中提取候选回答。可使用通过使用机器学习被离线训练的排序器对候选答 案进行排序,并且排名在前的回答可被提供给用户。也可确定候选答案的置信度水平,并且 如果排名第一的答案的置信度水平超过阈值置信度,则该答案可被提供。
[0006] 提供本概述以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本


【发明内容】
并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求 保护主题的范围。

【专利附图】

【附图说明】
[0007] 参考附图来描述【具体实施方式】。在附图中,附图标记最左边的数字标识该附图标 记首次出现的附图。在不同的附图中使用相同的附图标记指示类似或相同的项。
[0008] 图1描绘了根据各实施例的用于回答自然语言问题的示例用例。
[0009] 图2是描绘各实施例可在其中操作的示例环境的示意图。
[0010] 图3是示出根据各实施例的示例计算系统的图。
[0011] 图4描绘了根据各实施例的用于回答自然语言问题的说明性过程的流程图。
[0012] 图5描绘了根据各实施例的用于分析自然语言问题来确定问题类型、答案类型、 LAT和/或查询单元的说明性过程的流程图。
[0013] 图6描绘了根据各实施例的用于确定多个搜索查询来收集用于回答自然语言问 题的证据的说明性过程的流程图。
[0014] 图7描绘了根据各实施例的用于分析搜索结果作为用于回答自然语言问题的证 据的说明性过程的流程图。
[0015] 图8描绘了根据各实施例的用于从搜索结果证据中提取可能的答案的说明性过 程的流程图。
[0016] 详细描述
[0017] 概览
[0018] 在此描述的各实施例提供了用于回答由用户作为搜索查询输入的自然语言问题 的技术。在一些实施例中,从寻找对自然语言问题的答案的用户接收作为搜索查询的该自 然语言问题(例如,通过搜索引擎)。如本文所描述的,自然语言问题包括字符序列,该字符 序列至少部分可采用表现正常、日常讲话的语法和/或句法。例如,用户可询问问题"保加 利亚的首都是什么? "或"大宪章是何时签署的?"。虽然本文给出的一些示例描述了包括 特定问题形式(例如,谁,什么,哪里,何时,为何,如何等)的自然语言问题,但是各实施例 并不被如此限制并可支持任何形式的自然语言问题。
[0019] 为了标识针对自然问题的至少一个回答,各实施例采用四个阶段:问题理解,查 询公式化,证据收集以及答案提取/排序。进一步参考图4-8来描述这四个阶段中的各个 阶段。概览部分的其余部分参考图1中示出的示例情形简要地描述了这四个阶段。该示 例情形开始于接收到自然语言问题102,"就在这个'Gretchen am Spinnrade'作曲家遇 见贝多芬后不久,他是在他的葬礼上的持火把者"。各实施例采用web搜索证据搜集和分 析(至少部分地是基于机器学习的)来尝试查明答案。在该示例中的实际答案是"Franz Schubert"。
[0020] 在一些实施例中,问题理解包括对自然语言问题进行分析来预测问题类型和答案 类型。问题类型可包括仿真事实型(例如,"保加利亚的首都是什么? ")、定义型(例如, "'ambidextrous'的含义是什么? ")、谜题型(例如,"我能用字母BYONGEO拼出什么单 词? ")、数学型(例如,"最低的十个幸福数字(happy numbers)是什么? ")或任何其它类 型的问题。答案类型可包括人、位置、时间/日期、数量、事件、生物(例如,动物、植物等)、 物体、概念或任何其它答案类型。在一些实施例中,词汇答案类型(LAT)也可以被预测。LAT 可更具体和/或可以是答案类型的子集。例如,具有答案类型"人"的问题可具有"作曲家" 的LAT。对问题类型、答案类型和/或LAT的预测可使用基于规则的探试方法、(例如在在 线接收到自然语言问题之前)使用机器学习来离线训练的分类器,或这两个方法的组合。 在图1的示例中,自然语言问题102具有事实型的问题类型104、人的答案类型106以及作 曲家的LAT 108。
[0021] 问题理解也可包括从自然语言问题中提取查询单元。查询单元可以包括以下的一 个或多个:单词、基本名词短语、句子、指定实体、引用、释义(例如,基于同义词、上位词等 的重新阐述)以及事实。可使用对自然语言问题的基于语法的分析来提取查询单元,基于 语法的分析包括以下的一个或多个:组块、句子边界检测、句子模式检测、解析、指定实体检 测、词性标记以及标记化。在图1显示的示例中,自然语言问题102包括诸如以下的查询单 元110 :单词(例如,"不久"、"Gretchen"、"作曲家"等)、名词短语(例如,"作曲家遇见贝 多芬"、"在他的葬礼上的持火把者"等)、指定实体(例如,"Gretchen am Spinnrade"、"贝 多芬"等)、引用(例如,"'Gretchen am Spinnrade'")以及释义(例如,将作曲家改写为 "音乐家"、"艺术家"等)。
[0022] 在一些实施例中,第二阶段是查询公式化。在这个阶段,从问题理解阶段获取的信 息可被用于生成一个或多个搜索查询以用于收集证据来确定针对自然语言问题的回答。在 一些实施例中,所提取的查询单元以及问题类型、答案类型和/或LAT被应用到一个或多个 查询生成模板来生成一组候选查询。可使用通过使用不受监督的机器学习技术或诸如支持 向量机(SVM)等受监督的机器学习技术来离线训练的排序器对候选查询进行排序。在一些 实施例中,排名在前的预定数量N(例如,25)个查询被发送以由诸如Microsoft? Bing? 等一个或多个web搜索引擎执行。在图1显示的示例中,排名前三的搜索查询112被确定 为:"Gretchen am Spinnrade 作曲家"、"什么是 Gretchen am Spinnrade" 以及"作曲家遇 见贝多芬"。
[0023] 在一些实施例中,第三阶段是证据收集,其中排名前N个搜索查询被搜索引擎执 行并且搜索结果被分析。在一些实施例中,每个搜索查询的前N个结果(例如,由执行搜 索查询的搜索引擎排序的)可被相互合并以创建搜索结果的经合并的列表。在一些实施 例中,搜索结果可包括结果网页的地址(诸如,统一资源定位符(URL)、统一资源标识符 (URI)、网际协议(IP)地址、或其它标识符)和/或来自结果网页的内容的片断。经合并的 搜索结果可被过滤来移除重复的结果和/或噪声结果。
[0024] 在第四阶段答案提取/排序阶段,可从搜索结果中提取候选答案。在一些实施例 中,候选答案提取包括对搜索结果页面中具有与在问题理解阶段确定的答案类型和/或 LAT相匹配的类型的那些指定实体的基于词典的实体识别。在一些实施例中,所提取的指定 实体被规范化以扩展缩写式、纠正搜索结果中的拼写错误、扩展适当的名称(例如,从Bill 到William)等等。在图1的示例中,所提取的候选答案114包括Ludwig van Beethoven、 Franz、Franz GriIlparzer、Franz Schubert 和 Franz Liszt。
[0025] 接着,可通过将为各个候选答案确定的一组特征应用到使用机器学习技术(例 如,SVM)来离线训练的排序器来对候选答案进行排序。在图1的示例中,经排序的候选 答案 116 是 Franz Schubert、Franz Liszt、Franz Gri I lparzer、Franz 和 Ludwig van Beethoven。在一些实施例中,可为排名在前的候选答案中的一个或多个确定置信度水平。 置信度水平可被规范化为从〇到1,并且,在一些实施例中,当排名第一的候选答案具有超 过预定的阈值置信度水平的置信度水平时,该排名第一的候选答案作为针对用户的问题的 答案被提供。在图1的示例中,回答118是具有置信度水平0. 85的Franz Schubert。以下 参考图2-8进一步描述各实施例。
[0026] 说明性环境
[0027] 图2示出了各实施例可在其中操作的示例环境200。如所示,环境200的各种计算 设备经一个或多个网络202彼此通信,网络可包括允许这种通信的任何类型的网络。例如, 网络202可包括诸如因特网之类的公共网络、诸如机构和/或个人内联网、或专用和公开网 络的某种组合。网络202还可包括任何类型的有线和/或无线网络,包括但不限于局域网 (LAN)、广域网(WAN)、Wi-Fi、WiMax以及移动通信网络(如3G、4G等等)。网络202可利用 通信协议,包括基于分组的和/或基于数据报的协议,如IP、传输控制协议(TCP)、用户数据 报协议(UDP)或其他类型的协议。而且,网络202还可包括便于网络通信和/或形成网络 的硬件基础的若干设备,如交换机、路由器、网关、接入点、防火墙、基站、中继器、主干设备 等等。
[0028] 环境200进一步包括诸如客户端设备204的一个或多个客户端计算设备。在一些 实施例中,客户端设备204是与一个或多个可能向web搜索引擎或其它应用提供自然语言 问题的终端用户相关联的。客户端设备204可包括用户可用来通过网络202发送和接收信 息的任何类型的计算设备。例如,客户端设备204可包括但不限于台式计算机、膝上型计算 机、平板计算机、电子书阅读器、可佩戴计算机、媒体播放器、车用计算机、移动计算设备、智 能电话、个人数字助理(PDA)、游戏控制台、移动游戏设备、机顶盒等等。客户端设备204可 包括使得用户能够浏览到在线搜索引擎或其它联网应用并输入可通过在此描述的各实施 例来回答的自然语言问题的一个或多个应用、程序或软件组件(例如,web浏览器)。
[0029] 如在图2中进一步显示的,环境200可包括一个或多个服务器计算设备,诸如自然 语言问题处理服务器设备206、搜索引擎服务器设备208和机器学习服务器设备210。在一 些实施例中,这些服务器计算设备中的一个或多个可由提供用于根据本文描述的各实施例 回答自然语言问题的网络服务的个体、企业或其它实体进行管理、操作和/或一般地关联。 这些服务器计算设备实质上可以是任何类型的联网计算设备或联网计算设备的群集。虽然 在图2中单独地描绘了这三种类型的服务器,但是各实施例并不限于此。在一些实施例中, 自然语言问题处理服务器设备206、搜索引擎服务器设备208和/或机器学习服务器设备 210的功能可被组合到一个或多个服务器上或可被选择以最优化性能的任何组合中的服务 器群集,以用于有效地使用物理空间、用于商业原因、用于可用性原因以及其它原因。
[0030] 在一些实施例中,自然语言问题处理服务器设备206提供用于接收、分析和/或回 答从客户端设备204的用户接收到的自然语言问题的服务。这些服务在此结合图4-8进一 步描述。
[0031] 在一些实施例中,搜索引擎服务器设备208提供用于执行在线web搜索的服务 (例如,搜索引擎软件应用和用户界面)。同样地,这些服务器可接收web搜索查询并以满 足搜索查询的网页的地址或标识符(例如,URL、URI、IP地址等)的形式和/或以来自所得 到的网页的内容的至少一部分(例如,片断)的形式来提供结果。搜索引擎服务器设备208 也可对搜索结果按照相关性或预测的用户兴趣的次序进行排序。在一些实施例中,自然语 言问题处理服务器设备206可采用由搜索引擎服务器设备208主控的一个或多个搜索引擎 来收集用于回答自然语言问题的证据,如在此进一步描述的。
[0032] 在一些实施例中,机器学习服务器设备210提供用于训练分类器、排序器和/或其 它用于本文描述的分类和/或排序的组件的服务。这些服务可包括不受监督的机器学习技 术和/或受监督的机器学习技术,诸如SVM。
[0033] 如图2中所示的,环境200还可包括一个或多个知识库212。这些知识库 可被用于补充在此描述的基于web搜索的技术,并可包括一般兴趣的知识库(例如, Wikipedia?,DBPedia?,Freebase?)或覆盖指定的感兴趣的主题的更明确的知识库。
[0034] 说明性计算系统架构
[0035] 图3描绘了根据各实施例的示例计算系统300。在一些实施例中,计算系统300是 图2中描绘的客户端设备204、自然语言问题处理服务器设备206、搜索引擎服务器设备208 和/或机器学习服务器设备210的示例。计算系统300包括处理单元302。处理单元302 可包含多个处理单元,并可被实现为硬件、软件或其某种组合。处理单元302可包括一个或 多个处理器。如本文所使用的,处理器包括硬件组件。此外,处理单元302可包括以任何合 适的编程语言编写的用以执行本文所描述的各种功能的计算机可执行的、处理器可执行的 和/或机器可执行的指令。计算设备300还包括系统存储器304,系统存储器可包括诸如随 机存取存储器(RAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)等之类的 易失性存储器。RAM 306包括一个或多个执行中的操作系统(OS) 308,以及一个或多个执行 中的过程,包括可由处理单元302加载和执行的组件、程序或应用。这样的过程可包括自然 语言问题处理组件310以执行接收、分析由用户提供的自然语言问题、收集关于该自然语 言问题的证据和/或回答该自然语言问题的动作。这些功能在此结合图4-8进一步描述。 RAM 306也可包括用于基于web查询来执行web搜索的搜索引擎组件312,以及用于使用受 监督的或不受监督的机器学习方法来训练分类器或其它实体的机器学习组件314。
[0036] 系统存储器304还可包括诸如只读存储器(ROM) 316、闪存等之类的非易失性存储 器。如显示的,ROM 316可包括用于引导计算系统300的基本输入/输出系统(BIOS) 318。 尽管未显示,但是系统存储器304可进一步存储由0S308或在系统存储器304中执行的任 何组件、程序或应用生成和/或利用的程序或组件数据。系统存储器304还可包括高速缓 存存储器。
[0037] 如图3中所示,计算系统300还可包括诸如不可移动存储322 (例如,硬盘驱动器) 和/或可移动存储324的计算机可读存储介质320,包括但不限于磁盘存储、光盘存储、磁带 存储等等。盘驱动器及相关联的计算机可读介质可为计算系统300的操作提供对计算机可 读指令、数据结构、程序模块以及其它数据的非易失性存储。
[0038] 一般来说,计算机可读介质包括计算机可读存储介质和通信介质。
[0039] 计算机可读存储介质是包括以用于存储如计算机可读指令、数据结构、程序模块 和其他数据等信息的任何方法或技术来实现的易失性和非易失性、可移动和不可移动介质 的有形介质。计算机存储介质包括但不限于,RAM、R0M、可擦除可编程只读存储器(EEPROM)、 SRAM、DRAM、闪存或其他存储器技术、紧致盘只读存储器(CD-ROM)、数字多功能盘(DVD)或 其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备,或者可用于存储信息以供计算设 备访问的任何其他非传输介质。
[0040] 相反,是非有形的通信介质可在诸如载波的已调制数据信号或其他传输机制中体 现计算机可读指令、数据结构、程序模块或其他数据。如本文所限定的,计算机可读存储介 质不包括通信介质。
[0041] 计算系统300还可包括输入设备326,包括但不限于键盘、鼠标、笔、游戏控制器、 用于语音识别的语音输入设备、触摸屏、触摸输入设备、姿势输入设备、基于运动或基于对 象的识别输入设备、生物信息输入设备等。计算系统300还可包括输出设备328,包括但 不限于显示器、打印机、音频扬声器、触觉输出等等。计算系统300可进一步包括通信连接 330,该通信连接300允许计算系统300与其它计算设备332进行通信,其它计算设备包括 客户端设备、服务器设备、数据库和/或其它可通过一个或多个通信网络访问的联网设备。 [00 42] 示例操作
[0043] 图4-8描绘了示出根据各种实施例的示例过程的流程图。这些过程的操作在单独 的框中示出,并且参考这些框来概括。这些过程被示为逻辑流程图,其每个操作可表示可用 硬件、软件或其组合实现的一个或多个操作。在软件的上下文中,这些操作表示存储在一个 或多个计算机存储介质上的计算机可执行指令,这些指令在由一个或多个处理器执行时使 得一个或多个处理器执行既定操作。一般而言,计算机可执行指令包括执行特定功能或实 现特定抽象数据类型的例程、程序、对象、模块、组件、数据结构等。描述操作的次序并不旨 在解释为限制,并且任何数量的所述操作可以按任何次序进行组合、细分成多个子操作、和 /或并行执行,以实现所描述的过程。在一些实施例中,图4-8中示出的过程由自然语言问 题处理服务器设备206和/或自然语言问题处理组件310中的一个或多个来执行。
[0044] 图4描绘了根据各实施例的用于回答自然语言问题的说明性过程400的流程图。 该过程可遵循以上描述的四个阶段:问题理解,查询公式化,证据收集以及答案提取/排 序。在402,接收到自然语言问题。在一些实施例中,问题可在在线通信会话期间从用户(诸 如客户端设备204的用户)接收,并且该问题可通过搜索网站或其它网络应用的用户界面 提供给用户。在一些实施例中,也可接收分类。例如(例如,如在Jeopardy!?游戏中),可 接收到指示自然语言问题属于一宽泛的分类(诸如地理、历史、科学、娱乐等)或一较窄的 分类(诸如澳大利亚的地理、拜占庭帝国的历史、碳水化合物代谢的科学)的信息。
[0045] 在404,分析自然语言问题和/或分类来预测或确定与自然语言问题相关联的问 题类型和答案类型。在一些实施方式中,还为问题预测LAT。还可从自然语言问题中提取一 个或多个查询单元。这些任务是问题理解阶段的一部分,并且结合图5进行进一步详细地 描述。
[0046] 在406,基于在404对自然语言问题的分析来公式化一个或多个搜索查询。在一些 实施例中,该公式化包括将查询单元、问题类型、答案类型和/或LAT应用到一个或多个查 询生成模板。这些任务是查询公式化阶段的一部分,并且结合图6进行进一步详细地描述。
[0047] 在408,通过由至少一个搜索引擎执行一个或多个搜索查询来收集证据。该证据收 集阶段结合图7进行进一步描述。
[0048] 在410,分析从执行一个或多个搜索查询中得到的搜索结果以从该搜索结果中提 取或以其它方式确定和排序一个或多个候选答案。该答案提取和排序阶段结合图8进行进 一步描述。
[0049] 在412,向用户提供一个或多个候选答案。在一些实施例中,某个预定数量个排名 在前的候选答案被提供给用户。在一些实施例中,还可在每个候选答案旁提供置信度水平 以提供系统对该候选答案可能是准确的置信度的测量。在一些实施例中,基于排名最高的 候选答案的置信度水平高于预定的阈值置信度水平,该排名最高的候选答案被提供给用户 作为针对自然语言问题的答案。此外,在一些实施例中,如果没有候选答案具有高于阈值置 信度水平的置信度水平,那么可向用户提供没有候选答案达到最低置信度水平的消息或其 它指示。
[0050] 数学地,过程400可被描述为公式1 :
[0051]

【权利要求】
1. 一种计算机实现的方法,包括: 分析自然语言问题W预测所述自然语言问题的问题类型和答案类型; 至少部分基于所述问题类型W及至少部分基于从所述自然语言问题中提取的一个或 多个查询单元来公式化经排序的多个捜索查询; 从经由捜索引擎执行所述经排序的多个捜索查询中的至少一些所得到的多个捜索结 果中确定一个或多个候选答案,所述确定至少部分基于所述答案类型; 根据为所述一个或多个候选答案中的每一个确定的置信度水平来对所述一个或多个 候选答案进行排序;W及 至少部分基于确定所述一个或多个候选答案中排名最高的候选答案具有高于预定的 阔值置信度的置信度水平来提供所述排名最高的候选答案。
2. 如权利要求1所述的方法,其特征在于,通过使用分类器来对所述问题类型进行预 测,所述分类器是使用机器学习技术用多个特征来训练的。
3. 如权利要求1所述的方法,其特征在于,至少部分基于多个预定的规则来预测所述 答案类型。
4. 如权利要求1所述的方法,其特征在于,还包括: 采用排序器来对所述多个捜索查询进行排序,所述排序器是使用机器学习技术来训练 的;化及 确定所述多个捜索查询中排名最高的数个捜索查询W供所述捜索引擎执行。
5. 如权利要求1所述的方法,其特征在于,还包括: 在确定所述一个或多个候选答案之前,过滤所述多个捜索结果W移除重复的捜索结果 或噪声捜索结果中的至少一个。
6. 如权利要求1所述的方法,其特征在于,确定所述一个或多个候选回答包括: 从所述多个捜索结果中提取一个或多个指定实体,所述一个或多个指定实体对应于所 述答案类型,所述提取至少部分基于所述一个或多个指定实体与所述多个捜索结果的文本 的词典匹配;W及 规范化所述一个或多个指定实体W确定所述一个或多个候选答案。
7. 如权利要求1所述的方法,其特征在于,通过使用排序器对所述一个或多个候选答 案进行排序,所述排序器是使用机器学习技术来被训练的。
8. -种系统,包括: 至少一个存储器. 与所述至少一个存储器通信的至少一个处理器;W及 自然语言问题处理组件,所述自然语言问题处理组件存储在所述至少一个存储器上并 被所述至少一个处理器执行W: 分析接收到的自然语言问题W确定所述自然语言问题的问题类型和答案类型; 从所述自然语言问题中确定一个或多个查询单元; 至少部分基于所述问题类型和所述一个或多个查询单元来公式化多个捜索查询; 至少部分基于所述回答类型来从多个捜索结果中确定一个或多个候选答案,所述多个 捜索结果得自于经由捜索引擎执行所述多个捜索查询中的至少一些;W及 至少部分基于为所述一个或多个候选答案中的每一个确定的置信度水平来对所述一 个或多个候选答案进行排序。
9. 如权利要求8所述的系统,其特征在于,进一步包括: 机器学习组件,所述机器学习组件存储在所述至少一个存储器中并被所述至少一个处 理器执行来使用机器学习技术来训练排序器; 其中所述自然语言问题处理组件还用于: 使用所述排序器对所述多个捜索查询进行排序;W及 确定所述多个捜索查询中排名最高的数个捜索查询W供所述捜索引擎执行。
10. -种或多种存储指令的计算机可读存储介质,所述指令在由至少一个处理器执行 时指令所述至少一个处理器执行W下动作: 分析接收到的自然语言问题W确定所述自然语言问题的问题类型和答案类型; 至少部分基于所述问题类型W及至少部分基于从所述自然语言问题中提取的一个或 多个查询单元来公式化多个捜索查询; 从执行所述多个捜索查询中的至少一些得到的多个捜索结果中提取一个或多个候选 答案;化及 根据为所述一个或多个候选答案中的每一个确定的置信度水平来对所述一个或多个 候选答案进行排序。
【文档编号】G06F17/30GK104471568SQ201380035865
【公开日】2015年3月25日 申请日期:2013年7月2日 优先权日:2012年7月2日
【发明者】M·周, F·魏, X·刘, H·孙, Y·段, C·孙, H-Y·舒姆 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1