用于识别候选答案之间的关系的方法和系统的制作方法

文档序号:8380990阅读:340来源:国知局
用于识别候选答案之间的关系的方法和系统的制作方法
【技术领域】
[0001] 本申请一般地涉及一种改进的数据处理设备和方法,更具体地讲,涉及用于识别 和显示由问答(QA)系统产生的候选答案之间的关系的机构。
【背景技术】
[0002] 随着增加的计算网络(诸如,互联网)的使用,人类当前淹没于他们可从各种结构 化和非结构化源获得的大量信息。然而,当用户试图拼凑用户在搜索关于各种主题的信息 期间认为相关的他们能够发现的信息时,存在大量信息空隙。为了辅助这种搜索,近来的研 究已涉及产生问答(QA)系统,QA系统可接收输入问题,分析输入问题,并且返回指示输入 问题的最可能的答案的结果。QA系统提供用于搜索内容(例如,电子文档)的源的大的集 合的自动化机构,并且针对输入问题分析它们以确定问题的答案和答案对于回答输入问题 的准确性的置信量度。
[0003] -个这种QA系统是可从New York, Armonk的国际商用机器(IBM)公司购得的 Watson?系统。Watson?系统将高级自然语言处理、信息检索、知识表示和推理以及机器学 习技术应用于开域问题回答的领域。Watson?系统建立在用于假设产生、大量证据搜集、分 析和评分的IBM的De印QA tm技术上。De印QAtm接收输入问题,分析输入问题,将问题分解为 组成部分,基于分解的问题和答案源的初步搜索的结果产生一个或多个假设,基于从证据 源进行的证据的检索执行假设和证据评分,执行所述一个或多个假设的合成,并且基于训 练的模型,执行最后的合并和评级以输出输入问题的答案以及置信量度。
[0004] 各种美国专利申请公开描述了各种类型的问答系统。第2011/0125734号美国专 利申请公开公开了一种用于基于数据的资料库(corpus)产生问答对的机构。该系统开始 于一组问题,然后分析这组内容以提取这些问题的答案。第2011/0066587号美国专利申请 公开公开了一种用于将分析的信息的报告转换为一批问题并且从信息集确定这批问题的 答案是被回答还是被反驳的机构。结果数据被包括在更新的信息模型中。

【发明内容】

[0005] 在一个说明性实施例中,提供一种在数据处理系统中用于识别由问答(QA)系统 响应于输入问题而产生的或者由用户直接输入以由问答(QA)系统考虑的候选答案之间的 共性的方法。该方法包括:由数据处理系统或用户输入从QA系统接收输入问题的多个候选 答案,并且由数据处理系统识别存在于这些候选答案中的项。该方法还包括:由数据处理系 统确定每个候选答案中的项之间的关系。此外,该方法包括:由数据处理系统基于确定的每 个候选答案中的项之间的关系确定第一项和第二项之间的共同关系,共同关系至少在所述 多个候选答案的一个子集之中是共同的。另外,该方法包括:由数据处理系统提供所述多个 候选答案和共同关系。
[0006] 在其它说明性实施例中,提供一种包括具有计算机可读程序的计算机可用或可读 介质的计算机程序产品。当在计算装置上执行所述计算机可读程序时,所述计算机可读程 序使计算装置执行以上参照方法说明性实施例概述的操作中的各种操作及其组合。
[0007] 在另一说明性实施例中,提供一种系统/设备。该系统/设备可包括:一个或多个 处理器;和存储器,耦合到所述一个或多个处理器。该存储器可包括指令,当由所述一个或 多个处理器执行所述指令时,所述指令使所述一个或多个处理器执行以上参照方法说明性 实施例概述的操作中的各种操作及其组合。
[0008] 考虑到下面对本发明的示例性实施例的详细描述,将会描述本发明的这些和其它 特征和优点,或者本发明的这些和其它特征和优点将会对于本领域普通技术人员而言变得 清楚。
【附图说明】
[0009] 当结合附图阅读时,通过参照下面对说明性实施例的详细描述,将会最好地理解 本发明以及使用的优选模式及其另外的目的和优点,其中:
[0010] 图1描述计算机网络中的问/答创建(QA)系统的一个说明性实施例的示意图;
[0011] 图2是可实现说明性实施例的各方面的示例性数据处理系统的方框图;
[0012] 图3表示根据一个说明性实施例的用于处理输入问题的QA系统流水线;
[0013] 图4是根据一个说明性实施例的候选答案关系识别引擎的主要操作元件的示例 性方框图;
[0014] 图5是概述根据一个说明性实施例的用于执行用于产生用于识别候选答案中的 关系的实体/项关系资源的预处理操作的示例性操作的流程图;
[0015] 图6是概述根据一个说明性实施例的用于使用实体/项关系资源确定候选答案之 间的关系的示例性操作的流程图;以及
[0016] 图7是根据一个说明性实施例的候选答案用户界面的示例性示图。
【具体实施方式】
[0017] 说明性实施例提供用于识别由问答(QA)系统产生的候选答案之间的关系的机 构。也就是说,说明性实施例提供用于回答"给定由QA系统针对一问题计算的一组候选答 案,候选答案彼此具有什么共同点? "这一问题的机构。通过评估和表示对于一组候选答案 中的元素而言共同的项,通过评估和表示候选答案之间共同的、候选答案内的实体和项之 间的关系,以及通过参照共同项以及实体和项及其关系,检索和显示显示候选答案之间的 关联的资料库中的段落,说明性实施例回答这种问题。
[0018] 应该理解,这里所使用的术语"机构"可以是具有设备、过程或计算机程序产品的 形式的说明性实施例的各功能或方面的任何实现方式。这里描述的机构可被实现为专用硬 件、在通用硬件上执行的软件、存储在介质上从而可容易地由专用或通用硬件执行的软件 指令、用于执行功能的过程或方法或者以上各项的组合。
[0019] 说明性实施例的机构在一个或多个数据仓库(例如,数据库等)中创建一个或多 个数据结构,所述一个或多个数据结构识别在文档中的句子的文本中识别的实体之间的关 系。说明性实施例的机构还使实体与它们在搜索索引中的共同引用(co-reference)相关 联。结果,这些机构可显示对于问题的一组候选答案而言共同的项,按照项的实体类型(例 如,人、组织或其它项"类型")过滤共同的项,识别项和实体之间的关系,并且显示支持候选 答案和共同项相关的断言的段落。
[0020] 说明性实施例的机构可使用实体识别和跟踪引擎,诸如可从New York,Armonk的 国际商用机器公司购得的统计信息和关系提取(SIRE)引擎。SIRE提供:用于使用最大熵 模型的项或实体检测的部件,能够从注释数据训练最大熵模型;可训练的共同引用部件,用 于对在文档中检测到的对应于相同实体的项进行分组;和可训练的关系提取系统。当然, 可在不脱离说明性实施例的精神和范围的情况下使用其它实体识别和跟踪引擎,并且SIRE 在这里仅用作例子以帮助理解由说明性实施例做出的改进。
[0021] 实体识别和跟踪(EIT)引擎提供文档中的文本的语法分解、在文本中检测到的实 体的识别、共同引用解析(参考相同实体的两个或更多项的解析)和实体之间的关系检测。 另外,提供用于产生利用由EIT引擎发现的共同引用的项增强的搜索索引以及用于产生关 系数据库的逻辑,所述关系数据库存储由EIT引擎发现的实体、实体类型、与实体相关的 项、资料库内或跨资料库的特定关系的频率、作为关系的源的文档的公布时间、资料库标识 符和作为关系的源的文档的文档标识符。
[0022] 这些资源被用于识别由QA系统产生的候选答案中的实体、项和关系以识别除了 候选答案是共同输入问题的答案的明显关系之外的候选答案之间的关系。也就是说,给定 由QA系统返回或由用户明确地输入以由QA系统考虑的针对输入问题的一组候选答案,说 明性实施例的逻辑显示返回的联系起候选答案的实体、项和它们的关系(例如,候选答案 之间的共同项),并且显示支持答案/实体/项关系的资料库中的段落。实体、项和关系的 这种识别考虑了在资源的产生期间识别的项的共同引用。
[0023] 因此,由说明性实施例的机构产生的结果可被输出到用户,以使得用户能够更深 入地了解候选答案之间的共性和候选答案之间的关系,从而用户更深入地了解他们的原始 输入问题的答案。例如,可诸如通过用户界面给予用户选项以询问针对候选答案的共性的 问题。可询问的这种问题的例子例如可以是"所有的答案具有什么共同项? "(以及显示项 和答案相关的资料库的文档中的段落是什么)、"答案的子集具有什么共同项?(以及显示 项和答案相关的段落是什么)"等。在一些情况下,问题可针对实体类型以确定什么实体类 型在候选答案之间是共同的,例如,"所有的答案具有什么共同的人? "(其中"人"是实体类 型)、"所有的答案具有什么共同的组织? "、"所有的答案具有什么共同的国家? "等。
[0024] 由说明性实施例的机构执行的分析的结果可被用于基于确定的项的特性、项之间 的关系和用户询问的关于候选答案的特定问题,改变候选答案的显示。例如,如果用户要 求候选答案之间共同的项的指示,则可在候选答案以及支持项和特定候选答案之间的关系 的段落中突出显示共同项。此外,资料库内和/或跨资料库的项和实体之间的关系的频率 可被用作该关系的强度的量度,并且可被用于修改候选答案的显示以代表候选答案中的关 系的相对强度,例如以颜色、字体、尺寸或任何其它文本或图形特性的不同强调显示不同强 度。此外,关系的独特性的量度也可被用于修改候选答案的显示。不管单独地或组合地实 现以上特征中的哪些特征,说明性实施例针对使用的项和在候选答案中提及的项/实体之 间的关系,提供对在候选答案之间什么是共同的以及在候选答案为什么被选择为输入问题 的候选答案后面的推理的更深入的了解。
[0025] 将在以下参照附图更详细地描述本发明的说明性实施例的以上方面和优点。应该 理解,附图仅用于说明本发明的示例性实施例。本发明可包括未在附图中明确地示出但考 虑到说明性实施例的当前描述将会对于本领域普通技术人员而言容易想到的各方面、实施 例和描述的示例性实施例的变型。
[0026] 所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算 机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、 完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方 式,这里可以统称为"电路"、"模块"或"系统"。此外,在一些实施例中,本发明的各个方面 还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介 质中包含计算机可读的程序代码。
[0027] 可使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可 读信号介质或计算机可读存储介质。计算机可读存储介质可以是电子、磁、光学、电磁或半 导体性质的系统、设备或装置、前述各项的任何合适的组合或者其等同物。计算机可读存 储介质的更具体的例子(非穷举列表)将会包括下述各项:具有存储能力的电气装置、便 携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器 (EPROM或闪存)、基于光纤的装置、便携式压缩盘只读存储器(CDROM)、光学存储装置、磁存 储装置或前述各项的任何合适的组合。在这个文档的上下文中,计算机可读存储介质可以 是能够包含或存储由指令执行系统、设备或装置使用或结合指令执行系统、设备或装置使 用的程序的任何有形介质。
[0028] 在一些说明性实施例中,计算机可读介质是非暂态计算机可读介质。非暂态计算 机可读介质是
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1