用于针对自然语言处理任务的内容可用性的方法和系统的制作方法

文档序号:8395862阅读:420来源:国知局
用于针对自然语言处理任务的内容可用性的方法和系统的制作方法
【技术领域】
[0001]本发明涉及用于针对自然语言处理任务的内容可用性的方法和系统。
【背景技术】
[0002]对于要求针对自然语言处理(NLP)任务的非结构化文本输入的计算任务,经常难于将文档从大量格式转换成“普通”句子。例如,对于依赖于大量非结构化句子来解析以便在摄取过程期间形成语料库的问题/回答(QA)系统,包括图表(diagram)的文档提供了极大困难。即使图表可以被转换成更多文本格式(例如,HTML等),图表也可以证明是使系统非常难以正确解译语义。一个常用方式是直接忽略图表和图像以及按照除了句子以外的方式被结构化的文本。这趋向于易于实施,但是一些可能非常重要的内容被丢弃。另一方式是针对许多类型的内容中的每个类型(比如每个类型的图表)编写新的转换器。尽管有效,但这由于内容的类型和布局增多而可能昂贵并且耗费时间。

【发明内容】

[0003]提供了一种用于使各种类型的内容可用于自然语言处理(NLP)任务的方式。在该方式中,文档分节的屏幕视图被提供作为对屏幕读取器应用的输入。屏幕读取器应用将在该屏幕上显示的信息转换为自然语言格式。然后对该自然语言格式执行NLP操作。在一个实施例中,NLP操作由问题和回答(QA)系统执行。在另一实施例中,在文档分节被输入到屏幕读取器应用之前,包括该文档分节的整个文档被接收并且该文档分节被标识为与用来转换文档内容的一个或者多个本机转换器不兼容的分节。
[0004]在一个实施例中,包括多个文档分节的输入文档被接收。与用来转换文档内容的本机转换器兼容的文档分节集合被标识,并且这一文档分节集合使用本地转换器被转换。与本机转换器不兼容的另一文档分节集合被标识,并且这一集合通过向屏幕读取器应用输入与这一文档分节集合对应的屏幕视图被转换为NLP格式。在又一实施例中,不兼容文档分节的标识包括检测与不兼容文档分节对应的内容类型,其中该内容类型是图表、表格、图片或者非文本文档类型。在再一实施例中,过程接收可听语音作为来自屏幕读取器应用的输入。可听语音输入然后被输入到将可听语音转换为文本NLP格式的语音识别应用。在再一实施例中,过程将使用本机文档转换器转换的文档部分和使用屏幕读取器应用转换的文档分节合并,其中作为结果的合并的文档按照与原始输入文档相同的顺序。
[0005]前述是概要并且因此必然地包含对细节的简化、概括和省略;因此,本领域技术人员将领会到该概要仅为例示性并且并未旨在于是以任何方式的限制。如仅仅由权利要求限定的本发明的其他方面、创造性特征和优点将在以下阐明的非限制性详细描述中变得显而易见。
【附图说明】
[0006]通过参照附图,本发明可以被更好地理解并且其大量目标、特征和优点将被使得对本领域技术人员显而易见,在附图中:
[0007]图1描绘了包括利用知识库的知识管理器的网络环境;
[0008]图2是信息处置系统(informat1n handling system)的比如在图1中示出的处理器和组件的框图;
[0009]图3是描绘了在使各种类型的内容可用于自然语言处理(NLP)任务时使用的各种组件的组件示图;
[0010]图4是对示出了用来使各种类型的内容可用于自然语言处理(NLP)任务的逻辑的流程图的描绘;
[0011]图5是对示出了用来处理内容的逻辑的流程图的描绘;以及
[0012]图6是对示出了执行利用屏幕读取器将文档的分节转换为适合于自然语言处理(NLP)任务的转换的形式的过程的逻辑的流程图的描绘。
【具体实施方式】
[0013]所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
[0014]可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于一一电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0015]计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括一一但不限于一一电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0016]计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括一一但不限于一一无线、有线、光缆、RF等等,或者上述的任意合适的组合。
[0017]可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言一诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言一诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机,服务器或服务器集群上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络一一包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0018]下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
[0019]也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
[0020]也可以把这些计算机程序指令加载到计算机、其他可编程数据处理装置或者其他设备上以使得在该计算机、其他可编程装置或者其他设备上执行一系列操作步骤以产生计算机可实施过程,从而使得在计算机或者其他可编程装置上执行的指令提供用于实施流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。
[0021]图1描绘了计算机网络102中的问题/回答创建(QA)系统100的一个例示性实施例的示意图。知识管理器100可以包括连接到计算机网络102的计算设备104(包括一个或者多个处理器和一个或者多个存储器,并且潜在地包括在本领域中众所周知的任何其他计算设备元件,包括总线、存储设备、通信接口等)。网络102可以包括经由一个或者多个有线和/或无线数据通信链路相互通信或者与其他设
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1