用于针对自然语言处理任务的内容可用性的方法和系统的制作方法_2

文档序号:8395862阅读:来源:国知局
备或者组件通信的多个计算设备104,其中每个通信链路可以包括接线、路由器、交换机、发射机、接收机等中的一个或者多个。知识管理器100和网络102可以支持用于一个或者多个内容用户的问题/回答(QA)生成功能。知识管理器100的其他实施例可以与除了在此描绘的那些之外的组件、系统、子系统和/或设备一起被使用。
[0022]知识管理器可以被配置为从各种源接收输入。例如,知识管理器100可以从网络102、电子文档106或者其他数据的语料库、内容创建者108、内容用户和其他可能的输入源接收输入。在一个实施例中,对内容管理器100的输入中的一些或者全部可以通过网络102被路由。网络102上的各种计算设备104可以包括用于内容创建者和内容用户的接入点。计算设备104中的一些计算设备可以包括用于存储数据的语料库的数据库的设备。网络102在各种实施例中可以包括本地网络连接和远程连接,从而使得知识管理器100可以在包括本地和全局(例如,因特网)的任何大小的环境中操作。附加地,知识管理器100可以充当可以使从文档、网络可访问源和/或结构化数据源提取的或者在文档、网络可访问源和/或结构化数据源中代表的各种知识可用的前端系统。以这一方式,一些过程用还包括用于接收知识请求以及相应地做出响应的输入接口的知识管理器填充知识管理器。
[0023]在一个实施例中,内容创建器创建文档106中的内容以用于作为数据的语料库的一部分与知识管理器100 —起使用。文档106可以包括任何文件、文本、文章或者用于在知识管理器100中使用的数据的源。内容用户可以经由通往网络102的网络连接或者因特网连接访问知识管理器100,并且可以向知识管理器100输入可以由数据的语料库中的内容回答的问题。如以下进一步描述的,在过程评估文档的用于语义内容的给定分节时,过程可以使用各种约定(convent1ns)来从知识管理器查询它。一个约定是发送良好形成的问题。语义内容是如下内容,其基于在信号物(比如字、短语、记号、符号)之间的关系以及它们象征什么、它们的表示或者内涵。换言之,语义内容是如下内容,其比如通过使用自然语言(NL)处理来解译表达。在一个实施例中,过程向知识管理器发送良好形成的问题(例如,自然语言问题等)。知识管理器100可以解译问题并且向用户提供包含对问题的一个或者多个回答的响应。在一些实施例中,知识管理器100可以在排名的回答列表中向用户提供响应。
[0024]在一些例示性实施例中,知识管理器100可以是可以从纽约州阿蒙克市的国际商业机器公司获得的IBM Watson? QA系统,其被补充了此后描述的例示性实施例的机制。IBMWatson?知识管理器系统可以接收输入问题,其然后将该输入问题解析以提取问题的主要特征,这些主要特征然后转而用来制定向数据的语料库应用的查询。基于向数据的语料库应用查询,通过跨数据的语料库来寻找数据的语料库的有包含对输入问题的有价值响应的一些潜能的部分,生成对输入问题的假定或者候选回答的集合。
[0025]IBM Watson? QA系统然后使用各种推理算法对输入问题的语言和在应用查询期间发现的数据的语料库的部分中的每个部分中使用的语言执行深入分析。可能有被应用的数百乃至数千个推理算法,这些推理算法中的每个推理算法执行不同分析(例如,比较)并且生成分数。例如,一些推理算法可以着眼于在输入问题的语言内的术语和同义词与数据的语料库的发现的部分的匹配。其他推理算法可以着眼于语言中的时间和空间特征,而其他的推理算法可以评估数据的语料库的部分的源并且评估其精确性。
[0026]从各种推理算法获得的分数基于该推理算法的关注点的具体区域指示潜在响应被输入问题推断出的程度。每个作为结果的分数然后针对于统计模型被加权。统计模型在IBM Watson? QA系统的训练时段期间捕获当在两个相似段落之间针对特定领域建立推断时推理算法被多么好地执行。统计模型然后可以用来总结IBM Watson? QA系统关于潜在响应(即,候选回答)被问题推断出的明显性的置信度水平。这一过程可以针对候选回答中的每个候选回答被重复,直到IBM Watson? QA系统标识出表现为比其他候选回答显著更强的候选回答,并且因此生成针对输入问题的最终回答或者排名的回答集合。
[0027]可以利用QA系统100的各种类型的信息处置系统的范围从小型手持设备(比如手持计算机/移动电话100)到大型主机系统(比如主机计算机170)。手持计算机110的示例包括个人数字助理(PDA)、个人娱乐设备(比如MP3播放器、便携电视和光盘播放器)。信息处置系统的其他示例包括笔,或者平板计算机、计算机120、膝上型计算机,或者上网本、计算机130、个人计算机系统150以及服务器160。如所示,各种信息处置系统可以使用计算机网络100被联网在一起。可以用来互连各种信息处置系统的各种类型的计算机网络102包括局域网(LAN)、无线局域网(WLAN)、因特网、公共交换电话网络(PSTN)、其他无线网络以及可以用来互连信息处置系统的任何其他网络拓扑。信息处置系统中的许多信息处置系统包括非易失性数据存储库,比如硬盘驱动器和/或非易失性存储器。在图1中示出的信息处置系统中的一些信息处置系统描绘了分离的非易失性数据存储库(服务器160利用非易失性数据存储库165,并且主机计算机170利用非易失性数据存储库175)。非易失性数据存储库可以是在各种信息处置系统外部的组件或者可以在信息处置系统中的一个信息处置系统内部。在图2中示出了信息处置系统的例示性示例,该示例示出了示例性处理器和一般由该处理器访问的各种组件。
[0028]图2图示了信息处置系统200,更特别地,图示了处理器和常用组件,该信息处置系统200是能够执行在此描述的计算操作的计算机系统的简化示例。信息处置系统200包括耦合到处理器接口总线212的一个或者多个处理器210。处理器接口总线212将处理器210连接到北桥215,其也被称为存储器控制器集线器(MCH)。北桥215连接到系统存储器220并且提供用于供处理器210访问系统存储器的手段。图形控制器225也连接到北桥215。在一个实施例中,PCI快速总线218将北桥215连接到图形控制器225。图形控制器225连接到显示器设备230,比如计算机监视器。
[0029]北桥215和南桥235使用总线219相互连接。在一个实施例中,总线是以高速在北桥215和南桥235之间的每个方向传递数据的直接媒体接口(DMI)总线。在另一实施例中,外围组件互连(PCI)总线连接北桥和南桥。南桥235 (也被称为I/O控制器集线器(ICH))是通常实施以比由北桥提供的能力更慢的速度操作的能力的芯片。南桥235典型地提供用来连接各种组件的各种总线。这些总线例如包括PCI和PCI快速总线、ISA总线、系统管理总线(SM总线或者SMB)和/或低管脚计数(LPC)总线。LPC总线经常连接低带宽设备,比如引导ROM 296和“遗留”1/0设备(使用“超级I/O芯片”)。“遗留”1/0设备(298)可以包括例如串行和并行端口、键盘、鼠标和/或软盘控制器。TPC总线还将南桥235连接至可信平台模块(TPM) 295。经常在南桥235中包括的其他组件包括直接存储器访问(DMA)控制器、可编程中断控制器(PIC)和使用总线284将南桥235连接到非易失性存储设备285 (比如硬盘驱动)的存储设备控制器。
[0030]快速卡255是将可热插拔设备连接到信息处置系统的插槽。快速卡255支持PCI快速和USB连通性两者,因为它使用通用串行总线(USB)和PCI快速总线两者连接到南桥235。南桥235包括想连接到USB的设备提供USB连通性的USB控制器240。这些设备包括网络摄像头(相机)250、红外(IR)接收机248、键盘和轨迹板244和提供无线个人局域网络(PAN)的蓝牙设备246。USB控制器240还向其他杂项USB连接的设备242 (比如鼠标、可移除非易失性存储设备245、调制解调器、网卡、ISDN连接器、传真机、打印机、USB集线器和许多其他类型的USB连接的设备)提供USB连通性。尽管可移除非易失性存储设备245被示出为U
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1