用于使用多个所选知识库来回答自然语言问题的设备和方法

文档序号:9422795阅读:249来源:国知局
用于使用多个所选知识库来回答自然语言问题的设备和方法
【技术领域】
[0001]本发明涉及用于使用多个所选知识库来自动回答自然语言问题的设备和方法。
【背景技术】
[0002]当今的企业需要基于分析来自海量且异构的数据库或源的信息而做出决策。对机器或技术安装进行控制的越来越多方面由数据驱动,并且作为结果,越来越多的操作者需要访问数据。
[0003]构建工业等级的问题回答(QA)系统的挑战是成许多倍的,这不仅是由于底层知识库的领域特异性,而且还因为与系统的用户交互,所述用户交互需要涵盖宽范围的查询。
[0004]—个挑战是在商用硬件上的运行时性能。例如,可接受的速度可以被定义为在800ms内计算回答表示。
[0005]系统应当是可伸缩的,因为响应时间不应当与正访问的数据的大小成比例。
[0006]企业数据是异构且动态的。QA系统需要集成这些源并且适应它们变化的性质。集成过程的部分包括提供用于数据的统一语义学。
[0007]此外,不同的用户需要访问企业数据,他们中的大多数知道他们想要什么但是不确切知道如何得到它。工业QA系统需要允许它们容易地表述查询,尽可能地接近自然语言。
[0008]该要求被以下事实所复杂化:大多数使用与其数据有关的领域特定的术语和概念。在问题回答过程中需要捕获和使用该术语学。考虑到操作者多么习惯于以自然语言进行会话,这样的系统必须提供直观的接口用于更正错误,即触及问题的正确含义并且使随后的回答可视化。
[0009]也就是说,系统用户不仅要求使用(有效的)自然语言问题(例如向我示出在中国的所有活动的单位)、查询语言构造,例如通过按容量降序排序的性能而选择单位名称),而且还要求使用(传统)关键词搜索(例如,st rna ksp),或者这些的混合。这可能是重要的,因为常规的语法驱动的方法,例如通过它们的解析树来标识关系(de Marneffe、MacCartney、和Manning,2006))几乎不能用作参考。
[0010]安全性是在工业设置中访问数据的重要方面。特别地,要求以下认证:即发问者能够访问所涉及的所有数据片段。
[0011]自然语言理解(NLU)已经长期都是人工智能(Al)的目标。考虑Al完成任务,其包括将自然语言语句映射成以支持其它任务(诸如自动化的推理、或问题回答)的形式化语言表述的完整的、无歧义的、形式化含义表示。
[0012]对数据库的自然语言访问(NLIDB)是NLU任务,其中目标语言是结构化查询语言(例如SQL)。NLIDB已经存在了很长时间,其开始于LUNAR系统(Woods 1970)。早期NLIDB系统主要米取手动构建的、基于语法的方法(Woods 1970 ;Warren和Pereira 1982 ;Dowding等,1993 ;Bos等,1996),所述方法经证明不仅是劳动力密集的而且还是脆弱的。
[0013]开发了许多学习方法(Zelle和Mooney 1996 ;Miller等,1996)以及更新近地有(Kate、Wong 和 Mooney 2005 ;Kate 和 Mooney 2006 ;Zettlemoyer 和 Collins 2005 ;Wong 和Mooney 2006 ;2007)和(Lu 等,2008)。其中有两个例外(Miller 等,1996)和(Zettlemoyer和Collins 2005),它们都采用语义驱动的方法。
[0014]学术上的问题回答系统示出了很大的希望:(Gunning等,2012)示出了具有很少训练并且没有底层知识库的知识的领域专家可以使用这样的系统来回答在比如化学、生物和物理之类的科学领域中的复杂问题。
[0015]近来,已经存在来自工业部门的新兴的兴趣来使计算机系统不仅分析大量的相关信息(Ferrucci等,2010),而且还提供直观的用户接口来以交互式的对话方式、用自然语言提出问题(Sonntag 2009 ;Waltinger、Breuing 和 Wachsmuth 2012)。
[0016]问题回答的若干工业应用已经提起了关于问题回答作为有效方式来与系统交互的兴趣和认知:IBM Watson的Jeopardy挑战(Ferrucci等,2010)示出了能够准确地并且成规模地完成开放域QA。以Mathematica为中心的Wolfram Alpha的知识引擎是Apple的Siri后的引擎,其已经证明是用于移动设备的成功交互介质。
[0017]因此,本发明的目的是改进对自然语言问题的自动回答。

【发明内容】

[0018]根据第一方面,提供了一种用于使用多个所选的数据库来回答自然语言问题的自然语言问题回答设备。所述自然语言问题回答设备包括候选搜索实体、假说(hypthesis)生成实体、假说排列(ranking)实体以及知识库路由实体。
[0019]候选搜索实体被配置成提供针对所接收的自然语言问题的信息单元的多个面向三分法(trichotomy-oriented)的表示,其中面向三分法的表示中的每一个包括用于面向三分法的表示的知识库特定的概念、概念实例、概念实例关系以及概率值。
[0020]假说生成实体被配置成生成关于在概念、概念实例和概念实例关系之间的链接的多个假说。
[0021]假说排列实体被配置成基于用所生成的假说来查询辅知识库以及面向三分法的表示的概率值而对所生成的假说进行排列。
[0022]知识库路由实体被配置成基于经排列的假说而从多个可用的知识库中选择多个知识库。
[0023]借助于用于输入的问题的信息单元的本面向三分法的表示以及关于其链接的随后的假说,对所述辅知识库、特别是不同的辅知识库进行查询得以改进。
[0024]本自然语言问题回答设备(在下文中也为:设备)的总体语义原理是在概念、实例以及连接它们的关系的表示内的三分法。也就是说,给定输入的问题,所述设备的目的首先在于标识表示领域特定的或数据库特定的概念的那些信息单元,并且然后第二是表示该概念的关联值或实例的信息条目。第三,所述设备目标在于检测在所标识的对象之间是否存在关系,即概念实例关系。
[0025]本三分法方法是有益的,因为由设备消耗的数据可以附加地包括(半)结构化键值(key-value)关联,其被存储在多个数据库视图内,例如多个oracle数据库视图。考虑到半结构属性,因为所考虑的信息单元不仅是单个日期、数字、温度或实体,而且还是整个语句、短语或注释块。由于目标应用的面向数据库的性质,预期的回答类型还可以与传统的(大多地基于仿真陈述的(factoid_based))QA系统不同。更确切地,本设备(其也可以称作QA设备或QA系统)被提供为语义层,所述语义层连接并且操纵现有的查询接口以及相应的相关联的知识或数据库。所述设备的相应回答因而主要是基于列表的,其附加地涉及多个数据库表的联结。
[0026]根据实施例,自然语言问题回答设备的实体形成流水线或处理流水线。例如,候选搜索实体、假说生成实体、假说排列实体以及知识库路由实体耦合到彼此并且形成所述处理流水线。
[0027]例如,自然语言问题回答设备的处理流水线可以如下工作:每个输入的问题通过标识其语义概念表示而被处理。语义概念表示可以被定义为输入的问题的代表性表示。
[0028]随后,生成相应的解释签名(例如1968 {日期(1968);数字(1968);……})。
[0029]在那之后,可以构造回答签名。回答签名包括回答类型(例如,直接的回答或基于SQL)、回答属性(例如,数值的、日期)以及其中可以找到回答的预期的数据库字段,例如,最确信的解释被选择并且组合成单独排列的回答签名。
[0030]基于单独的回答签名,所述设备构造回答文档(例如报告)、回答查询(例如,SQL语句)或产生直接的回答(例如仿真陈述回答短语),其最终被发送到输出组件。集成组件中的每一个可以产生用于存储单独的解释的置信度值。
[0031]在候选搜索实体内,所述设备目的在于标识和解析可能与彼此相互链接的不同概念。在面向三分法的表示之后,设备尝试搜索并且区分概念(称为回答字段(answerField)——例如PAC日期)、概念值实例(称为搜索字段(searchField)——例如操作)或已经扩充的键值对(称为领域字段(domainField)——例如,国家名称:中国)。另夕卜,候选搜索实体可以给键值对之间的关系属性进行注解并且在查询内标识时间和日期参考。也就是说,每个时间参考,诸如表达式,可以由例如其在Oracle时间戳方面的时间值来进行注解。查询扩展模块可以查询SPARQL端点,其尝试收集单个实体的不同表面形式(例如GE vs.通用电气)。开放领域知识模块可以收集如在DBpedia数据集(Auer等,2008)内聚集的数据。对于每个对应的实体,UIMA注解器可以被合并在总体QA处理流水线中。
[0032]根据实施例,假说生成实体被配置成针对概念、概念实例和概念实例关系的每个可能的组合而生成一个假说。
[0033]作为该实施例的结果,借助于每个可能的假说,从知识库中收集附加信息。因而,用于回答输入的问题的查询得以改进。
[0034]假说生成实体可以生成不同的问题解释(S卩,问题可能意指什么的假说)。更确切地,基于候选搜索实体的输出,它生成对回答字段(概念)和搜索字段(实例)如何连接到彼此(例如直接或隐式)(关系)的不同假说:
c
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1