用于选择用以代表表格式信息的方法和系统的制作方法

文档序号:8395851
用于选择用以代表表格式信息的方法和系统的制作方法
【技术领域】
[0001] 本发明总体上涉及用于处理文档的方法、系统和计算机程序产品。更具体地,本发 明涉及用于选择用以代表表格式信息的结构的方法、系统和计算机程序产品。
【背景技术】
[0002] 文档包括很多形式的信息。例如,被布置为语句和段落的文本信息传达叙述形式 的信息。
[0003] 一些类型的信息用表格式组织来呈现。例如,文档可以包括用于呈现财务信息、组 织信息以及总体上通过某种关系彼此相关的任何数据项的表格。
[0004] 自然语言处理(NLP)是一种有助于信息在人与数据处理系统之间的交换的技术。 例如,NLP的一个分支涉及将给定内容变换成人类可用的语言或形式。例如,NLP可以接受 其内容是计算机专用语言或形式的文档,并且产生其对应内容是人类可读形式的文档。
[0005] 问答系统(Q&A系统)是一种在数据处理硬件上执行的人工智能应用。Q&A系统回 答与用自然语言所呈现的给定主题领域有关的问题。
[0006] 通常,Q&A系统提供有对如下领域特定信息的集合的访问:Q&A系统基于该领域特 定信息的集合回答与该领域有关的问题。例如,Q&A系统访问关于该领域的知识体系,其中 知识体系(知识库)可以按照各种配置来组织。例如,某个领域的知识库可以包括领域特 定信息的结构化存储库、诸如与该领域有关的本体论或非结构化数据、或者关于该领域的 自然语言文档的集合。IBMWatson是Q&A系统的一个示例。(IBM和Watson是美国和其他 国家的国际商用机器公司的商标)。
[0007] Q&A系统可以被配置成接收来自各种源的输入。例如,Q&A系统可以通过网络接收 以下内容作为输入:电子文档或其他数据的语料库、来自内容创建者的数据、来自一个或多 个内容用户的信息、以及来自其他可能的输入源的其他这样的输入。至Q&A系统的输入中 的一些或所有输入可以通过网络102来被路由。网络上的各种计算设备可以包括用于内容 创建者和内容用户的访问点。这些计算设备中的一些计算设备可以包括用于存储数据的语 料库的设备。网络可以包括本地网络连接和远程连接,使得Q&A系统可以在任何尺寸的环 境、包括本地和全局环境、例如因特网中进行操作。另外地,Q&A系统可以被配置成用作前 端系统,该前端系统能够使得从文档、网络可访问的源和/或结构化的数据源提取的或在 其中代表的各种知识可用。以这一方式,一些处理填充具有输入接口的Q&A系统以接收知 识请求以及相应地接收响应。
[0008] 内容创建者在文档中创建内容用于作为数据的语料库的一部分、通过Q&A系统 来使用。文档可以包括用于在Q&A系统中使用的任何文件、文本、文章或数据源。内容用 户向Q&A系统中输入问题,这些问题由Q&A系统使用数据的语料库中的内容来回答。在处 理针对语义内容评估文档的给定部分时,处理可以使用各种约定来向Q&A系统询问这样 的文档。一个约定是将询问作为格式良好的问题发送给Q&A系统。语义内容是基于能指 (signifier)、诸如词语、短语、标记和符号之间的关系的内容、以及它们代表什么、它们的 意义或者蕴意。换言之,语义内容是诸如通过使用自然语言处理来解释表达的内容。
[0009] 处理向Q&A系统发送形式合法的问题(例如自然语言问题)。Q&A系统解释问题 并且向内容用户提供包含问题的一个或多个答案的响应。Q&A系统还可以按答案的经排序 的列表向用户提供响应。
[0010] 作为示例,IBMWatson?Q&A系统接收输入问题,解析问题以提取问题的主要特 征,使用提取出的特征来制定询问,以及将这些询问应用于数据的语料库。基于将询问应用 于数据的语料库,Q&A系统通过以下操作来生成输入问题的假说或候选答案的集合:遍及 数据的语料库查找数据的语料库的有某一可能性包含针对输入问题的有价值响应的部分。
[0011] IBMWatson?Q&A系统然后通过使用各种推理算法对输入问题的语言以及数据的 语料库在应用询问期间被找出的部分中的每个部分中所使用的语言执行分析。可以应用数 百个甚至数千个推理算法,其中每个算法执行不同的分析、例如比较并且生成得分。例如, 某些推理算法可以查看输入问题的语言内的用语及同义字与数据的语料库的找出部分的 匹配。其他推理算法可以查找语言中的时间特征和空间特征,而再其他的推理算法可以评 估数据的语料库的部分的来源并且评估其真实性。
[0012] 从各种推理算法获得的得分指示基于该推理算法的特定关注区域的、潜在响应通 过输入问题而被推断出的程度。每个所得得分然后相对于统计模型而被加权。统计模型捕 获推理算法在IBMWatson?Q&A系统的训练期期间在建立特定领域的两个相似的段落之间 的推断时表现得怎样。统计模型然后可以用于概述IBMWatson?Q&A系统对于如下证据所 具有的置信度水平:潜在响应、即候选答案通过问题被推断出。这个过程可以对于候选答案 中的每个候选答案而被重复,直至IBMWatson?Q&A系统识别出浮现为比其他答案强得多 的候选答案并且因此生成输入问题的最终答案或者经排序的答案集合。可以例如从IBM公 司网站、IBM红皮书等获得关于IBMWatson?Q&A系统的更多信息。例如,可以在2011年 IBMdeveloperWorks中Yuan等人的"WatsonandHealthcare"中以及在 2012 年IBM红皮 书中RobHigh的"TheEraofCognitiveSystems:AnInsideLookatIBMWatsonand HowitWorks"中找到关于IBMWatson?Q&A系统的信息。

【发明内容】

[0013] 说明性实施例提供用于表格式数据的主题分析的方法、系统和计算机程序产品。 一个实施例包括一种用于选择用以代表表格式信息的结构的方法。该实施例从表格结构的 汇集中选择与表格对应的表格结构,表格结构函数描述表格结构中的单元格配对中的单元 格何时应当彼此相似。该实施例选择单元格相似度函数,其中单元格相似度函数根据准则 来比较表格结构中的单元格配对中的单元格并且输出单元格配对包括包含有彼此相似的 值的单元格的概率。该实施例根据单元格相似度函数来确定表格结构中的第一单元格配对 中的第一单元格和第二单元格彼此相似的单元格相似概率。该实施例使用单元格相似概率 来调整表格结构代表表格的计算的概率。该实施例将所计算的概率指示为第一模型代表表 格的概率,其中第一模型是表格结构和所选择的单元格相似度函数的函数。
[0014] 另一实施例包括一种计算机可用程序产品,其包括计算机可用存储设备,计算机 可用存储设备包括用于选择用以代表表格式信息的结构的计算机可用代码。该实施例还包 括用于从表格结构的汇集中选择与表格对应的表格结构的计算机可用代码,表格结构函数 描述表格结构中的单元格配对中的单元格何时应当彼此相似。该实施例还包括用于选择单 元格相似度函数的计算机可用代码,其中单元格相似度函数根据
再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1