组合不同类型强制组件以实现延迟类型评估的方法和系统的制作方法

文档序号:6540627阅读:320来源:国知局
组合不同类型强制组件以实现延迟类型评估的方法和系统的制作方法
【专利摘要】本发明涉及组合不同类型强制组件以实现延迟类型评估的方法和系统。在一种回答问题的方法中,接收问题,确定问题LAT,并标识所述问题的候选答案。使用第一组件确定所述候选答案的初步类型以便产生所述初步类型。每个所述第一组件使用不同的方法产生初步类型。产生表示所述初步类型与所述问题LAT之间的匹配度的第一类型得分。使用第二组件评估每个初步类型和每个第一类型得分。每个所述第二组件基于所述第一类型得分以及所述初步类型匹配所述问题LAT的程度度量的组合而产生第二得分。所述第二组件使用不同的方法产生所述第二得分。基于所述第二得分计算表示所述候选答案与所述问题LAT匹配的置信度的最终得分。
【专利说明】组合不同类型强制组件以实现延迟类型评估的方法和系统

【技术领域】
[0001]本公开涉及问答(QA)系统,更具体地说,涉及判定候选答案是否具有适当的词法答案类型。

【背景技术】
[0002]在标题为“System and Method for Providing Quest1n and Answers withDeferred Type Evaluat1n (用于提供具有延迟类型评估的问答的系统和方法)”的第12/126,642号美国专利申请(2008年5月23日提交,公布为第US2009/0292687A1号美国专利申请公开,公告为第8,332,394B2号美国专利,其内容在此引入作为参考)中解释了延迟类型评估的概念。
[0003]在先前提交的标题为“Providing Quest1n and Answers with Deferred TypeEvaluat1n Using Text with Limited Structure (使用具有受限结构的文本提供具有延迟类型评估的问答)”的第13/239,165号美国专利申请(2011年9月21日提交,公布为第US2012/0078902A1号美国专利申请公开,其内容在此引入作为参考)中进一步讨论了延迟类型评估的概念。


【发明内容】

[0004]此处的系统和方法解决个体类型强制组件的覆盖问题。目前,具有各种方法以便判定候选答案是否具有词法答案类型(LAT)。所有这些解决方案依赖一组特定的资源和一组特定的算法。因为每个类型强制组件具有它自己的局限性和偏向性,所以通常可以改进类型强制的覆盖。
[0005]此处的系统和方法组合不同类型强制组件的中间输出以便产生新的类型强制输出,这种新的类型强制输出分别可比其它类型强制组件改进覆盖。
[0006]本公开利用LAT的概念。LAT从查询的自然语言分析计算得出,并且比其本体类别提供更多的答案描述。问题/查询的LAT是实体的一个或多个所指对象的描述符,该实体是问题的有效答案。
[0007]根据此处的一种方法,将问题接收到计算机化设备中。使用所述计算机化设备确定问题LAT。所述问题LAT是与所述问题关联的词法答案类型。使用所述计算机化设备标识所述问题的候选答案。使用所述计算机化设备的第一组件自动确定所述候选答案的初步类型。所述第一组件使用不同的方法产生所述初步类型,并且每个所述第一组件均产生初步类型。使用所述计算机化设备对所述初步类型与所述问题LAT之间的匹配进行自动评分。每个所述第一组件产生第一类型得分。所述第一类型得分表示所述初步类型与所述问题LAT之间的匹配度。基于所述组件中的哪个组件产生了所述初步类型而区分所述评分。使用所述计算机化设备的第二组件自动评估每个初步类型和每个第一类型得分。每个所述第二组件基于所述第一类型得分以及所述初步类型匹配所述问题LAT的程度度量的组合而产生第二得分。所述第二组件使用不同的方法产生所述第二得分。使用所述计算机化设斤述问题的程度度量的组合,针对所述斤述计算机化设备自动输出最终得分,所述二得分。所述最终得分表示所述候选答案是的问题的候选答案的置信度得分的计算机[查询分析模块;在操作上连接到所述查询卜第一组件、在操作上连接到所述多个第一多个第二组件的分类器;以及用户接口,其羑口将问题接收到所述自动以系统中。所型(一”。所述候选答案生成器自动计算;多个第一组件中的每个第一组件的所述候不同的方法产生所述初步类型。所述处理注行自动评分,以便基于所述初步类型对应的每个第一组件产生第一类型得分。基于?类型而区分所述评分。基于产生相同候选初步类型接收不同的类型得分。所述处理个所述第一组件均产生初步类型。对所述初步类型与所述问题LAT之间的匹配进行自动评分。每个所述第一组件产生第一类型得分。所述第一类型得分表示所述初步类型与所述问题LAT之间的匹配度。基于所述组件中的哪个组件产生了所述初步类型而区分所述评分。使用所述计算机化设备的第二组件自动评估每个初步类型和每个第一类型得分。每个所述第二组件基于所述第一类型得分以及所述初步类型匹配所述问题LAT的程度度量的组合而产生第二得分。所述第二组件使用不同的方法产生所述第二得分。基于来自每个所述第二组件的所述第二得分自动计算最终得分。自动输出所述最终得分,所述最终得分表示所述候选答案是与所述问题LAT匹配的类型的置信度。

【专利附图】

【附图说明】
[0011]从以下参考附图的详细描述,将更好地理解此处的系统和方法,这些附图不一定按比例绘制,其中:
[0012]图1是根据此处的系统和方法的高级系统图;
[0013]图2是示出此处的系统和方法的不同方面的框图;
[0014]图3是示出此处的系统和方法的不同方面的框图;
[0015]图4是示出此处的系统和方法的不同方面的框图;
[0016]图5是示出此处的系统和方法的流程图;
[0017]图6是根据此处的系统和方法的硬件系统的示意图;
[0018]图7是根据此处的系统和方法的部署系统的示意图;
[0019]图8是根据此处的系统和方法的集成系统的示意图;
[0020]图9是根据此处的系统和方法的按需系统的示意图;
[0021]图10是根据此处的系统和方法的虚拟专用网络系统的示意图;以及
[0022]图11是根据此处的系统和方法的虚拟专用网络系统的示意图。

【具体实施方式】
[0023]应该很容易地理解,本公开的系统和方法如通常在此处附图中描述和示出的那样,可以以除了在此描述的系统和方法之外的各种不同的配置来布置和设计。因此,以下对这些系统和方法的详细描述如在附图中表示的那样,并非旨在限制由所附权利要求限定的范围,而仅是表示选定的系统和方法。以下描述仅作为实例,并且仅示出在此公开和要求保护的系统和方法的某些概念。
[0024]如在此所指的,单词“问题”和“查询”及其扩展可以交换使用并且指同一概念,即对信息的请求。此类请求通常以疑问句表示,但它们也可以以其它形式表示,例如表示为提供感兴趣实体的描述的陈述句(其中可以从上下文推断对实体标识的请求)。“结构化信息”(来自“结构化信息源”)在此被定义为其本意明确并显式地以数据的结构或格式表示的信息(例如,数据库表)。“非结构化信息”(来自“非结构化信息源”)在此被定义为其本意仅由其内容暗示的信息(例如,自然语言文档)。“半结构化”指其某些含义显式地以数据的格式表示的数据,例如文档的一部分可以被标记为“标题”。
[0025]图1示出显示在此描述的系统100的逻辑架构的高级系统图。如图1中所示,系统100包括查询分析模块112,其实现接收和分析用户问题或查询118的功能。根据一种系统隹,其包括一个或多个包含关系集合(例如,突以其它方式)数据库。在一个示例性实施系统(例如,硬盘驱动器)中的数据库。答案:寸接,这些源包括类型化列表(例如,世界上3(例如,国家+国家元首?、三元(例如,国家
&答案132进行排序并确定响应144,响应机系统120返回给用户115,其中所述响应&述,或澄清的请求一当未找到高质量的问答案排序模块141包括训练后的模型组件:前数据可以对有关以下各项的信息进行编I勺特性、候选答案评分模块138为候选答案匕,可以将机器学习算法应用于候选答案评I性的信息。这些先前数据例如在技术服务I获得,其中许多网站都列出问题以及正确述的方式增强问答功能。因此,所述系统和方法可以作为计算机程序产品(包括可由处理设备执行的指令)提供,或者作为部署计算机程序产品的服务提供。所述架构采用搜索引擎(文档检索系统)作为候选答案生成模块123的一部分,搜索引擎可以专用于因特网、公用数据库、网站(例如,IMDB.com)或私用数据库。数据库可以存储在任何存储系统(例如,硬盘驱动器或闪存)中,并且可以通过网络分发。
[0032]如图1中所示,查询分析模块112接收输入,输入包括例如用户115经由基于Web的浏览器设备输入的查询118。输入到系统100的查询118可以包括字符串,例如“Whowas the tallest American president?(谁是最高的美国总统?)”。备选地,查询118可以包括字符串和隐式上下文,例如“Who was the shortest?(谁最矮?)”。在该实例中,上下文的范围可以从简单的字符串(例如,“American presidents (美国总统)”或“Who wasthe tallest American president?”)到任何数据结构,例如处理先前字符串的所有中间结果一例如在多回合对话中发生的情况。查询分析模块112接收查询118,查询分析模块112包括但不限于以下一个或多个子过程:解析和谓词论元结构块(未示出),其实现功能和编程接口以便将输入查询分解为其语法和语义成分,例如名词词组、动词词组和谓词/论元结构。可以使用(英语槽语法)ESG型解析器实现解析。可以提供焦点段、焦点和修饰语块,其计算问题的焦点和焦点修饰语。进一步实施方式可以还包括查询分析模块112中的问题分解块(未示出),其实现功能和编程接口以便分析查询118以确定问题指定的有关目标答案的约束集合。根据此处的系统和方法,查询分析模块112包括词法答案类型(LAT)块152,其实现功能和编程接口以便提供有关答案类型的附加约束。查询分析模块112中的计算包括但不限于词法答案类型。LAT从查询118的自然语言分析计算得出,并且比其本体类别提供更多的答案描述。
[0033]在图1中,LAT块152包括某些功能/子功能(未示出)以确定LAT。这些子功能包括解析器(例如上面描述的ESG解析器)和共指解析模块(例如,如http://www.1s1.edu/.about.hobbs/muc5-generic-final.pdf ;以及 http://gate.ac.uk/sale/taln02/taln-ws-coref.pdf 中所述)。
[0034]所述某些功能/子功能操作以便从查询的自然语言分析计算LAT,并且比其本体类别提供更多的答案描述。因此,例如,以下句子中的斜体单词表示LAT “Aftercircumnavigating the Earth, which explorer became mayor of Plymouth, England?(在环游地球之后,哪位探险家成为英国普利茅斯的市长?)”,答案必须包括“explorer (探险家)”和“mayor (市长)”,并且这两个字符串成为问题LAT。
[0035]如上所述,问题/查询118的LAT是实体的所指对象的类型(即,描述符),该实体是问题的有效答案。实际上,LAT是自然语言理解模块(未示出,包括模式集合或具有语义解释器的解析器)检测到的答案的描述符。
[0036]参考LAT块152,在图1的查询分析模块112中,LAT表示标识正确答案的语义类型的问题术语。如所公知的那样,可以通过诸如“在问题中,跟在疑问词之后并用作主要动词的主语或宾语的任何名词词组是LAT”之类的模式规则在问题中检测LAT。例如,在问题“WhichDublin-born actor once married Ellen Barkin?(出生于都柏林的哪位男演员曾经与艾伦.巴金结婚?)”中,名词词组“Dublin-born actor (出生于都柏林的男演员)”跟在疑问词“which (哪位)”之后,并且是主要动词“marry (结婚)”的主语。可以手动对LAT检测规则进行编码,或者由机器通过关联规则学习而自动学习LAT检测规则。在这种情况下,自然语言理解模块可以限于实施上述简单规则。
[0037]LAT应该包括主要名词的修饰语,前提是LAT更改主要名词的含义。例如,词组“body of water (水域)”具有不同于“water (水)”或“body (身体)”的含义,因此在以下查询中,LAT必须包括整个词组(斜体):
[0038]“Joliet and C0.found that the Mississippi emptied into what body ofwater?(乔利矣特和同事发现密西西比河流入什么水域?)”
[0039]应该理解,多个LAT可以存在于查询和上下文中,甚至可以存在于同一子句中。例如,在以下查询中斜体单词表示LAT:
[0040]“Inl581,a year after circumnavigating the Earth, which explorer becamemayor of Plymouth, England?(在1581年,即在环游地球之后的一年,哪位探险家成为英国普利茅斯的市长?)”
[0041]“Which New York City river is actually a tidal strait connecting upperNew York Bay with Long Island Sound?(纽约市的哪条河流实际上是连接上纽约湾与长岛海峡的潮汐海峡?)”
[0042]尽管在许多情况下,可以使用上面描述的简单规则计算问题的LAT,但在其它情况下(例如当存在多个LAT时),根据语法和谓词论元结构计算LAT。因此,自然语言理解模块应该包括解析器(例如使用ESG计算语法结构)和浅层语义解释器,以便计算对话实体(例如“river (河流)”和“tidal strait (潮汝海峡)”或者“explorer”和“mayor”)之间的语义共指,从而将它们均添加到LAT列表中。应该理解,LAT可以包括修饰语。
[0043]因此,在上面第一个实例中,LAT列表可以包含explorer、mayor、mayor ofPlymouth (普利茅斯市长)、mayor of Plymouth, England (英国普利茅斯市长)。标识答案类型的最小可能名词词组对应于最大实体组,并且最大名词词组提供最佳匹配。
[0044]根据此处的系统和方法,证据收集和答案评分模块135包括数个类型强制(TyCor)组件155 (如下面进一步详细描述的),以测试候选答案以便确定候选答案132是用于问题/查询118的适当类型。
[0045]参考图2,类型强制框架包括一组答案评分组件,每个组件获得问题LAT207和候选答案132,并且判定候选答案132是否具有问题的词法类型,从而返回候选答案类型是适当的词法类型215的程度度量。对于每个候选答案132,将候选答案与数据语料库(例如,答案源知识库129)中的实例相匹配。检索与数据语料库中的这些实例关联的候选类型。将问题LAT207与候选类型相匹配,并且产生表示匹配度的得分。每个TyCor组件155使用分型信息源并且执行例如下面描述的数个步骤,每个步骤能够检测影响其置信度的错误。
[0046]实体消歧和匹配(EDM):在使用现有分型信息源中,最明显、最易于出错的步骤是在该源中查找对应于候选答案的实体。因为候选答案仅是字符串,所以该步骤同时考虑多义关系(同一名称可以指许多实体)和同义关系(同一实体可以具有多个名称)。每个源可能需要它自己的特殊EDM实施,这些实施利用源的属性,例如,DBpedia对实体URI中的有用命名信息进行编码。EDM实施通常尝试针对答案使用某个上下文,但在完全结构化源中,该上下文可能难以利用。
[0047]谓词消歧和匹配(PDM):类似于EDM,在源中查找对应于LAT的类型。在某些源中,这是与EDM相同的算法,在其它源中,类型查找需要特殊处理。在少数源中,尤其是使用非结构化信息作为源的那些源中,PDM步骤仅返回LAT本身。在分型和生成中,该步骤对应于从问题中产生语义答案类型(SAT)。PDM严格对应于针对特定源的词义消歧概念。
[0048]类型检索(TR):在EDM之后,检索所检索的实体的类型。对于某些TyCor组件(如使用结构化源的那些组件),该步骤执行源的主要功能并且很简单。在其它组件(如非结构化源)中,这可能需要对自然语言的某些小片段进行解析或其它语义处理。
[0049]类型对齐:然后比较PDM和TR步骤的结果以便确定匹配度。在例如包含类型分类的源中,这包括检查包含、分离等的分类。对于其它源,对齐使用WordNet之类的资源在类型之间查找同义词、上义词等。
[0050]上面每个步骤都生成反映其操作准确性的类型得分,其中考虑到实体映射或信息检索过程的不确定性。每个TyCor组件155产生的最终得分是分析步骤得分和候选答案类型中的置信度的组合。在第US2009/0292687A1号美国专利申请公开中详细描述了特定评分方法的某些实例。
[0051]具体地说,将候选答案132和类型(多个)表示为词法字符串。得分(在此称为类型得分)的产生包括数个步骤:候选答案与实例匹配,实例与类型关联提取,以及LAT与类型匹配。类型得分反映可以将候选答案“强制”为LAT的程度,其中较高的得分指示较好的强制。
[0052]在候选答案与实例匹配中,将候选答案与知识资源中的一个或多个实例相匹配,其中实例采取的形式取决于知识资源。对于结构化知识库,实例可以是实体,对于百科全书源(例如Wikipedia),实例可以是百科全书中的表项,对于诸如WordNet (词法数据库)之类的词法资源,实例可以是同义词集合表项(同义词集合),以及对于非结构化文档(或网页)集合,实例可以是在文本中出现的任何术语或词组。如果发现多个实例,则采用使用聚合功能的汇总,以组合来自所有候选答案的得分。如果没有发现适合的实例,则返回为O的得分。
[0053]接下来,从资源中提取实例关联信息。该信息将每个实例与类型或类型集合关联。取决于资源,这可以采取不同的形式;在知识库中,这对应于将实例与类型相关的特定感兴趣关系;对于百科全书源,这可以是为实体指定词法类型的词法类别信息;对于诸如WordNet之类的词法资源,这是一组词法关系,例如同义词集合中的下义关系(例如,“艺术家”是“人”);以及对于非结构化文档集合,这可以是其它表示类型的术语和词组的共现或接近。
[0054]然后,尝试将每个LAT与每个类型相匹配。将使用类型的词法表现。例如,对于百科全书,这可以是表示类别的字符串;对于诸如WordNet之类的词法资源,这可以是包含在同义词集合中的字符串集合。通过以下方式执行匹配:使用字符串匹配或其它词法资源(例如WordNet)以便检查LAT和类型之间的同义关系或下义关系。可以针对感兴趣的类型实现特殊逻辑;例如可以激活person匹配器逻辑,该逻辑不需要严格的匹配、同义词或下义词关系,而是LAT和类型是术语“person (人)”的下义词。通过这种方式,例如将为“he(他)”和“painter (画家)”提供正得分,即使它们不是严格的同义词或下义词。最后,可以经由聚合功能,将对匹配度进行评分的得分对集合解析为单个最终得分。最终得分表示候选答案是与问题LAT207相匹配的类型的置信度。中的每一个尝试获得输入候选答案132的6同的资源和不同的算法,所以它们可能针
〔案的答案类型:将不同的资源特定方法应强制方法。例如,可能针对候选答案产生初180等)将不同的答案-类型查找算法应用源特定类型分类方法可能导致不同的资源是因为以不同的方式评估候选答案132。定反映其操作准确性的类型得分,其中考虑1资源特定答案-类型分类方法可以以不同厅评分。换言之,一种资源特定方法可能为3—种资源特定方法可能为相同的答案-类的资源特定方法还将产生不同的答案-类
7001-组件组合的结果直接作为特性发布,1评分。问题是与其说候选答案132“正确”,同。根据此处的系统和方法,可以使用TyCor组件的任意组合。来自第一组TyCor组件155a - 155f的每一个的输出包括初步类型313和第一类型得分。
[0063]第二组TyCor组件355a - 355g评估来自第一组TyCor组件155a - 155f的每一个的候选答案的初步类型313和第一类型得分,以便针对初步类型313产生第二得分。第二得分基于以下两者的组合:第一类型得分,以及基于用于第二组TyCor组件355a - 355g的每一个的方法和资源将初步类型313与问题LAT207匹配的程度度量。第二组TyCor组件355a - 355g可以使用起源信息(B卩,哪个TyCor组件提取了候选答案的初步类型313)作为特性。
[0064]分类器373评估来自第二组TyCor组件355a - 355g的每一个的第二得分,并且通过聚合来自第二组TyCor组件355a - 355g的每一个的第二得分确定最终得分,该最终得分表示候选答案132具有问题的词法类型的置信度。分类器373可以通过机器学习算法(例如逻辑回归)从注释的训练数据的一组实际实例来训练,或者可以实现为一组手动创建的规则。可以手动对分类规则进行编码,或者通过关联规则学习自动学习这些分类规则。
[0065]此外,第二组TyCor组件355a - 355g可以用于判定问题LAT207 “leader (元首)”是否包含初步类型313 (即,是LAT的子类型)。注意,使用的各组TyCor组件不相同。根据此处的系统和方法,可以使用TyCor组件的任意组合以便确定可能的实例类型,并且判定类型是否是问题LAT207的子类型。
[0066]图4示出类型强制链的一个实例。如果实例问题是“What leader gave a speechat the dedicat1n of a nat1nal cemetery in Gettysburg, PA?(哪位兀首在宾夕法尼亚州葛底斯堡的国家公墓落成典礼上发表演说?)”。根据分析,问题LAT207可以是“leader(元首)”。候选答案432可以是“Lincoln (林肯)”。任务是判定“Lincoln”是否是元首。TyCor组件链可以通过以下过程产生输出:
[0067]首先,第一组TyCor 组件(Wiki_introl55a、Wiki_Listl55b、Identityl55c>Wiki_categoryl55d、WordNetl55e和Yagol55f)的每一个尝试获得输入候选答案432的类型。因为不同的TyCor组件155a-155f使用不同的资源和不同的算法,所以它们可能针对相同的候选答案提取不同的初步类型。在该实例中,候选答案432 “Lincoln”可能提取两个或更多初步类型,例如President (总统)443和Politician (政治家)446。尽管可能提取初步类型Automobile (汽车),但预计这将具有非常低的第一得分。
[0068]如上所述,可以通过以下方式查找给定候选答案的初步类型:将不同的资源特定方法应用于产生候选答案的每个不同资源。例如,可能产生候选答案的不同资源(Wik1-List、WordNet, Yago等)将不同的答案类型查找算法应用于自身以便查找答案类型。因此,使用不同的资源特定类型分类方法可能导致不同的资源针对相同的候选答案产生不同的类型类别(president答案类型和politician答案类型),这只是因为候选答案Lincoln432来自不同的资源。
[0069]第一组TyCor 组件 155a - 155f 的输出为第二组 TyCor 组件(Wiki_intro355a、Wik1-List355b> Identity355c>Wik1-category355d>WordNet355e> Yago355f 和Prismatic355g)的每一个提供输入。来自第一组TyCor组件155a - 155f的每一个的输出包括初步类型(例如,President443和Politician446)和第一类型得分。第二组TyCor组件355a - 355g判定问题LAT207 “leader”是否包含类型(例如,President443和Politician446)(即,是 LAT 的子类型)。
[0070]如上所述,第一组TyCor组件155a - 155f的每一个生成反映其操作准确性的类型得分,其中考虑到实体映射或信息检索过程的不确定性。不同的资源特定答案类型分类方法可以以不同的方式,对初步类型与LAT匹配的概率进行评分。在该实例中,一种资源特定方法可能为初步类型“preSident”443与“leader”LAT匹配提供70%的概率,而另一种资源特定方法可能为相同的初步类型“preSident”443与“leader”LAT匹配提供90%的概率。当然,不同的资源特定方法还将产生不同的初步类型(例如,初步类型“politician”446)。
[0071]第二组TyCor组件355a - 355g评估来自第一组TyCor组件155a - 155f的每一个的候选答案的初步类型President443和Politician446以及第一类型得分,以便针对初步类型President443和Politician446产生第二得分。第二得分基于以下组合:第一类型得分;以及基于用于第二组TyCor组件355a - 355g的每一个的方法和资源将初步类型President443和Politician446与问题LAT207 “leader”匹配的程度度量。第二得分是用于指示类型与LAT的匹配度的数值。
[0072]分类器373使用第二组TyCor组件355a - 355g的输出判定候选答案432“Lincoln”是否是元首。分类器373评估来自第二组TyCor组件355a - 355g的每一个的第二得分并且确定最终得分,该最终得分表示候选答案432 “Lincoln”具有问题的词法类型(“leader”)的置信度。
[0073]分类器373聚合来自第二组TyCor组件355a - 355g的每一个的第二得分,并且使用起源信息(即,哪个TyCor组件提取了候选答案的类型,并且哪些TyCor组件确定初步类型是问题LAT的子类型)作为特性。分类器373的输出是最终得分,该最终得分表示候选答案432 “Lincoln”具有问题的词法类型“leader”的置信度。
[0074]可以有利地在数个垂直领域的应用中采用此处公开的系统和方法的原理:包括涉及文本分析的应用不断增加的领域,以及其中遍历大量数据变得重要的领域。例如,实例领域可以包括但不限于例如生物技术、金融、营销、法律等。
[0075]此外,可以扩展本概念以便涵盖信息搜寻对话,而不仅仅是问答。这具有以下应用:例如人和机器(电话、计算机)之间的口语对话,以及例如使用语音和文本的多模式对话,它们都利用基于规则的对话模型创建方法,或者利用统计对话建模和基于规则的对话建模的组合。因此,它不允许在不大量降低性能的情况下进行上下文切换。根据此处的系统和方法执行的延迟类型匹配应该减少性能降低并且允许上下文切换。
[0076]在另一种系统和方法中,可以扩展概念以便涵盖信息挖掘,其中数据通常质量低下,但上下文应该例如有助于从会议记录中提取信息。
[0077]图5是示出根据此处的系统和方法的确定问答系统中的问题的候选答案的置信度得分的示例性方法的处理流程的流程图。在509,将问题接收到包括数据语料库的自动QA系统中。在518,执行自动查询分析以便确定与问题关联的词法答案类型(LAT)。在527,候选答案生成器使用数据语料库标识问题的候选答案。在536,使用第一多个TyCor组件确定候选答案的初步类型。第一多个TyCor组件的每一个使用不同的资源(算法和/或数据库)产生初步类型,并且第一多个TyCor组件的每一个产生初步类型。TyCor组件可以根据不同的方法,针对相同的候选答案产生不同的初步类型。在545,第一多个TyCor组件的每一个将初步类型与问题LAT相比较,并且在554,使用TyCor组件的自动评分功能,根据初步.程序指令实现。计算机程序指令可以提供:理装置的处理器,从而生产出一种机器,使里装置的处理器执行时,产生了实现流程图7动作的装置。
-种包括有形计算机可读介质的制造品,计十算机实现的方法(包括但不限于图5中所,可读非瞬时性介质的任意组合。计算机可可读存储介质。非瞬时性计算机存储介质述的方法。计算机可读存储介质例如可以体的系统、装置或器件,或者上述的任意合I可读指令以便执行上面参考图5描述的方可读介质中,这些指令使得计算机、其它可,从而,存储在计算机可读介质中的指令就;个方框中规定的功能/动作的指令的制造连接到外围设备(例如磁盘机711和磁带驱动器713)或者其它可由所述系统读取的程序存储器件。所述系统可以读取程序存储器件上的本发明指令,并且执行这些指令以便执行此处的系统和方法的方法。
[0084]在图6中,CPU710根据存储在只读存储器(ROM)716中的程序或者从外围设备(例如磁盘机711和磁带驱动器713)加载到随机存取存储器(RAM)714的程序,执行各种处理。在RAM714中,还在必要时存储CPU710执行各种处理等时所需的数据。CPU710、R0M716和RAM714通过总线712彼此相连。输入/输出适配器718也连接到总线712,以便在必要时提供输入/输出接口。在必要时将诸如磁盘、光盘、磁光盘、半导体存储器之类的可移动介质安装在外围设备上,以便可以在必要时将从其中读取的计算机程序安装到RAM714中。
[0085]所述系统还包括用户接口适配器719,其将键盘715、鼠标717、扬声器724、麦克风722和/或诸如触摸屏设备(未示出)之类的其它用户接口设备连接到总线712以便收集用户输入。此外,通信适配器720 (包括网络接口卡,例如LAN卡、调制解调器等)将总线712连接到数据处理网络725。通信适配器720通过诸如因特网之类的网络执行通信处理。显示适配器721将总线712连接到显示设备723,显示设备723例如可以体现为诸如显示器(例如阴极射线管(CRT)、液晶显示器(IXD)等)、打印机或发送器之类的输出设备。
[0086]在其中使用软件实现上述一系列处理的情况下,可以从网络(例如因特网)或存储介质(例如可移动介质)安装组成软件的程序。
[0087]所属【技术领域】的技术人员应该理解,存储介质并不限于图6中所示的其中存储程序的外围设备,存储介质从器件单独分发以便为用户提供程序。可移动介质的实例包括磁盘(包括软盘)、光盘(包括紧凑盘只读存储器(CD-ROM)和数字通用光盘(DVD))、磁光盘(包括小型磁盘(MD)(注册商标))和半导体存储器。备选地,存储介质可以是R0M716、包含在存储扇区711中的硬盘等,存储介质在其中存储程序并且连同包含它们的器件一起分发给用户。
[0088]所属【技术领域】的技术人员知道,此处的系统和方法的各个方面可以实现为系统、方法或计算机程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件系统、完全的软件系统(包括固件、驻留软件、微代码等),或硬件和软件方面结合的系统,这里可以统称为“电路”、“模块”或“系统”。此外,本公开的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
[0089]可以采用一个或多个计算机可读非瞬时性介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。非瞬时性计算机存储介质存储指令,并且处理器执行指令以便执行在此描述的方法。计算机可读存储介质例如可以是一但不限于一电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、磁存储器件、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、“即插即用”存储器件(如USB闪存驱动器)、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。远程计算机可以通过任意种类的网络一包十算机,或者,可以连接到外部计算机(例如土的各种系统和方法的系统、方法和计算机在这点上,流程图或框图中的每个方框可莫块、程序段或代码的一部分包含一个或多:当注意,在有些作为替换的实现中,方框中声发生。例如,两个连续的方框实际上可以执行,这依所涉及的功能而定。也要注意的取/或流程图中的方框的组合,可以用执行匕现,或者可以用专用硬件与计算机指令的.类的存储介质,直接在客户端、服务器和代印中央服务器或中央服务器组,将过程软件欠件下载到执行过程软件的客户端计算机。茫。然后通过电子邮件上的按钮将过程软件丨1]它将请求转发到实际服务器。代理服务器等要代理服务器,则安装代理服务器(901)。&器,或者通过文件共享将过程软件直接从:将事务发送到包含过程软件的服务器并使到服务器的文件系统。将过程软件存储在问服务器上的过程软件并将过程软件复制:是使服务器自动将过程软件复制到每个客的安装程序。用户在其客户端计算机上执呈咖)。
等过程软件发送给用户来部署过程软件。标I:机的地址(805).通过电子邮件将过程软接收电子邮件(905 ),然后将过程软件从电用户在其客户端计算机上执行安装过程软用户客户端计算机上的用户目录(806)0如专输到用户的客户端计算机目录(907).这库版本号(923).还检查服务器以便判定是丨勺03、应用和吣3的版本号匹配(924)0如,0集成在927继续。
个或多个服务器上使用正确版本更新不匹件,则在一个或多个服务器上更新该软件伽)。
判定是否具有将在客户端上执行的任何过匕执行,则集成继续到930并且退出。如果
(软件:其包括使用过程软件测试的操作系:929?。还检查客户端以便判定是否存在过丨勺03、应用和吣3的版本号匹配030。如,0集成继续到930并且退出。
事户端上使用正确版本更新不匹配的版本率之类的其它使用度量接近某一容量以致影响性能时,添加额外的网络带宽、存储器、存储装置等以便共享工作负载。将用于每个服务和客户的使用度量发送到收集服务器,该服务器针对在提供过程软件共享执行的服务器网络中的任何位置处理的每个服务,计算每个客户的使用度量总和。将总计的使用单位度量定期乘以单位成本,并且备选地将生成的总过程软件应用服务成本发送给客户和/或在客户访问的网站上指示,客户然后向服务提供者支付款项。在另一种方法中,服务提供者直接从客户在银行或金融机构中的账户请求款项。在另一种方法中,如果服务提供者也是使用过程软件应用的客户的客户,则使应付给服务提供者的款项与服务提供者应支付的款项抵消,以便最小化支付转移。
[0113]过程软件被共享,从而以灵活、自动的方式同时服务于多个客户。它被标准化,从而需要很少的定制,并且它可扩展,从而以即买即用模型按需提供容量。
[0114]过程软件可以存储在可从一个或多个服务器访问的共享文件系统上。经由事务执行过程软件,这些事务包含使用被访问服务器上的CPU单位的数据和服务器处理请求。CPU单位是服务器的中央处理器上的时间单位,例如分钟、秒、小时。此外,被访问服务器可以发出需要CPU单位的其它服务器请求。CPU单位是表示一种使用度量的实例。其它使用度量包括但不限于网络带宽、存储器利用率、存储装置利用率、分组传输、完整事务等。
[0115]当多个客户使用同一过程软件应用时,通过包括在事务中的参数区分其事务,这些参数标识唯一客户和该客户的服务类型。记录所有CPU单位以及用于每个客户的服务的其它使用度量。当去往任何一个服务器的事务数量达到开始影响该服务器性能的某一数量时,访问其它服务器以便增加容量并且共享工作负载。同样,当诸如网络带宽、存储器利用率、存储装置利用率之类的其它使用度量接近某一容量以致影响性能时,添加额外的网络带宽、存储器、存储装置等以便共享工作负载。
[0116]将用于每个服务和客户的使用度量发送到收集服务器,该服务器针对在提供过程软件共享执行的服务器网络中的任何位置处理的每个服务,计算每个客户的使用度量总和。将总计的使用单位度量定期乘以单位成本,并且备选地将生成的总过程软件应用服务成本发送给客户和/或在客户访问的网站上指示,客户然后向服务提供者支付款项。
[0117]在另一种方法中,服务提供者直接从客户在银行或金融机构中的账户请求款项。
[0118]在另一种方法中,如果服务提供者也是使用过程软件应用的客户的客户,则使应付给服务提供者的款项与服务提供者应支付的款项抵消,以便最小化支付转移。
[0119]在图9中,步骤940开始按需过程。创建事务,该事务包含唯一客户标识、被请求的服务类型以及进一步指定服务类型的任何服务参数(941)。然后将事务发送到主服务器(942)。在按需环境中,主服务器最初可以是仅有的服务器,然后随着容量的使用,向按需环境中添加其它服务器。
[0120]查询按需环境中的服务器中央处理单元(CPU)容量(943)。估计事务的CPU要求,然后将按需环境中的服务器可用CPU容量与事务CPU要求相比较,以便查看在任意服务器中是否具有足够的CPU可用容量以处理事务(944)。如果没有足够的服务器CPU可用容量,则分配额外的服务器CPU容量以便处理事务(948)。如果已经具有足够的可用CPU容量,则将事务发送到选定服务器(945 )。
[0121]在执行事务之前,检查剩余的按需环境以便判定环境是否具有足够的可用容量以处理事务。该环境容量例如包括但不限于以下事物:网络带宽、处理器存储器、存储装置等(946)。如果没有足够的可用容量,则向按需环境中添加容量(947)。接下来,访问处理事务所需的软件,将其加载到存储器中,然后执行事务(949)。
[0122]记录使用度量(950)。使用度量包括按需环境中用于处理事务的那些功能的各个部分。记录例如包括但不限于网络带宽、处理器存储器、存储装置和CPU周期的这些功能的使用。计算使用度量总和,将其乘以单位成本,然后将其记录为向请求客户收取的费用(951)。如果客户请求将按需成本发布到网站(952),则发布按需成本(953)。
[0123]如果客户请求将按需成本通过电子邮件发送到客户地址(954),则发送按需成本(955)。如果客户请求直接从客户账户支付按需成本(956),则直接从客户账户接收款项(957)。最后一个步骤是退出按需过程(958)。
[0124]可以通过使用虚拟专用网络(VPN)部署、访问和执行过程软件,虚拟专用网络是可以用于保护通过否则不安全或不可信网络的连接的技术的任何组合。使用VPN是为了提高安全性并且降低操作成本。VPN使用公共网络(通常为因特网)将远程站点或用户连接在一起。VPN使用通过因特网从公司的专用网络路由到远程站点或员工的“虚拟”连接,而不是使用专用的实际连接(例如租用线路)。
[0125]可以通过远程访问或站点到站点VPN来部署、访问和执行过程软件。当使用远程访问VPN时,经由公司专用网络和远程用户之间的通过第三方服务提供商的安全、加密的连接来部署、访问和执行过程软件。企业服务提供商(ESP)设置网络访问服务器(NAS),并且为远程用户的计算机提供桌面客户端软件。远程工作者然后可以拨打免费号码或者直接通过电缆或DSL调制解调器连接以便到达NAS,并且使用其VPN客户端软件访问公司网络并访问、下载和执行过程软件。
[0126]当使用站点到站点VPN时,通过使用专用设备和大规模加密来部署、访问和执行过程软件,这些设备和加密用于通过公共网络(例如因特网)连接公司的多个固定站点。
[0127]通过VPN经由隧道传输过程软件,这是将整个分组放在另一个分组中并且通过网络发送的过程。网络和两个点理解外部分组的协议,这两个点称为隧道接口,分组通过这些接口进入和离开网络。
[0128]在图10和11中,步骤960开始虚拟专用网络(VPN)过程。进行判定以便查看是否需要用于远程访问的VPN (961)。如果不需要,则继续到962。如果需要,则判定是否存在远程访问VPN (964)。
[0129]如果存在,则继续到965。否则,标识第三方提供商,其在公司的专用网络和公司的远程用户之间提供安全、加密的连接(976)。标识公司的远程用户(977)。第三方提供商然后设置网络访问服务器(NAS)(978),该网络访问服务器允许远程用户拨打免费号码或者直接通过电缆或DSL调制解调器连接以便访问、下载和安装用于远程访问VPN的桌面客户端软件(979)。
[0130]构建远程访问VPN之后,或者如果先前已安装远程访问VPN,则远程用户然后可以通过拨号到NAS或者直接通过电缆或DSL调制解调器连接到NAS来访问过程软件(965)。这允许进入公司网络,可在其中访问过程软件(966)。通过网络经由隧道将过程软件传输到远程用户的桌面。即,将过程软件分为分组,并且将包括数据和协议的每个分组放在另一个分组中(967)。当过程软件到达远程用户的桌面时,将过程软件从分组中移除,进行重构,然后在远程用户的桌面上执行(968 )。但是并不排除一个或多个其它特性、整数、加。
作以及所有功能性限定的装置或步骤的等指出的其它元件相组合地执行该功能的结冲系统和方法的描述,但所述描述并非旨在I所述系统和方法的范围和精神的情况下,欠和变化都将是显而易见的。此处所用术语、实际应用或对市场中的技术的技术改进,爭在此公开的系统和方法。
【权利要求】
1.一种方法,包括: 将问题接收到计算机化设备中; 使用所述计算机化设备确定问题LAT,所述问题LAT是与所述问题关联的词法答案类型; 使用所述计算机化设备标识所述问题的候选答案; 使用所述计算机化设备的第一组件自动确定所述候选答案的初步类型,所述第一组件使用不同的方法产生所述初步类型,并且每个所述第一组件均产生初步类型; 使用所述计算机化设备对所述初步类型与所述问题LAT之间的匹配进行自动评分,每个所述第一组件产生第一类型得分,所述第一类型得分表示所述初步类型与所述问题LAT之间的匹配度,基于所述第一组件中的哪个第一组件产生了所述初步类型而区分所述评分; 使用所述计算机化设备的第二组件自动评估每个所述初步类型和每个所述第一类型得分,每个所述第二组件基于所述第一类型得分以及所述初步类型匹配所述问题LAT的程度度量的组合而产生第二得分,所述第二组件使用不同的方法产生所述第二得分; 使用所述计算机化设备,基于来自每个所述第二组件的所述第二得分自动计算最终得分;以及 使用所述计算机化设备 自动输出所述最终得分,所述最终得分表示所述候选答案是与所述问题LAT匹配的类型的置信度。
2.根据权利要求1的方法,还包括: 使用所述计算机化设备执行自动查询分析以便确定所述问题LAT。
3.根据权利要求1的方法,所述评分进一步包括: 使用所述计算机化设备将所述候选答案与数据语料库中的实例相匹配; 使用所述计算机化设备从所述数据语料库检索初步类型,所述初步类型与所述实例关联; 使用所述计算机化设备将所述问题LAT与从所述数据语料库检索的所述初步类型相匹配;以及 使用所述计算机化设备产生得分,所述得分表示所述问题LAT与所述候选答案的所述初步类型之间的匹配度。
4.根据权利要求1的方法,所述第一组件包括类型强制组件,所述类型强制组件具有不同的资源特定类型分类方法,以便对所述初步类型匹配所述问题LAT的所述程度度量进行评分, 所述评分进一步包括将所述初步类型与所述问题LAT相比较,以便针对每个所述类型强制组件和所述计算机化设备的自动评分功能产生所述第一类型得分。
5.根据权利要求1的方法,还包括使用所述计算机化设备,利用聚合功能将来自每个所述第二组件的所述第二得分自动解析为单个最终得分。
6.根据权利要求1的方法,还包括使用所述计算机化设备,由所述第二组件基于所述初步类型与所述问题LAT匹配的良好程度而自动判定所述初步类型中的任何初步类型是否是所述问题LAT的子类型。
7.一种方法,包括:使用计算机化设备自动标识问答系统中的问题的问题词法答案类型LAT ; 使用所述计算机化设备自动生成所述问题的候选答案; 使用所述计算机化设备的第一组件自动确定所述候选答案的初步类型,所述第一组件使用不同的资源产生所述初步类型,并且每个所述第一组件均针对所述候选答案产生初步类型; 使用所述计算机化设备的所述第一组件对所述初步类型与所述问题LAT之间的匹配进行自动评分,并且基于所述初步类型对应于所述问题LAT的数量,针对每个初步类型产生第一类型得分,所述第一组件使用不同的资源针对所述初步类型产生所述第一类型得分,并且基于所述第一组件中的哪个第一组件产生了所述初步类型而区分所述评分; 使用所述计算机化设备,由每个第二组件自动评估来自每个所述第一组件的每个所述初步类型和所述第一类型得分,每个所述第二组件基于所述第一类型得分以及所述初步类型匹配所述问题LAT的程度度量的组合而针对所述候选答案产生所述初步类型的第二得分;以及 使用所述计算机化设备自动输出最终得分,所述最终得分基于来自每个所述第二组件的所述第二得分,所述最终得分表示所述候选答案是与所述问题LAT匹配的类型的置信 度。
8.根据权利要求7的方法,还包括: 将问题接收到所述计算机化设备中;以及 使用所述计算机化设备执行自动查询分析以便确定所述问题LAT。
9.根据权利要求7的方法,所述问答系统进一步包括数据语料库,所述方法还包括: 使用所述计算机化设备,利用所述数据语料库自动生成所述问题的所述候选答案。
10.根据权利要求9的方法,所述评分进一步包括: 使用所述计算机化设备将所述候选答案与所述数据语料库中的实例相匹配; 使用所述计算机化设备从所述数据语料库检索初步类型,所述初步类型与所述实例关联; 使用所述计算机化设备将所述问题LAT与从所述数据语料库检索的所述初步类型相匹配;以及 使用所述计算机化设备产生得分,所述得分表示所述问题LAT与所述候选答案的所述初步类型之间的匹配度。
11.根据权利要求7的方法,所述第一组件包括类型强制组件,所述类型强制组件具有不同的资源特定类型分类方法,以便对所述初步类型匹配所述问题LAT的所述程度度量进行评分, 所述评分进一步包括将所述初步类型与所述问题LAT相比较,以便使用所述类型强制组件和所述计算机化设备的自动评分功能,针对每个所述初步类型产生所述第一类型得分。
12.根据权利要求7的方法,还包括使用所述计算机化设备,利用聚合功能将来自每个所述第二组件的所述第二得分自动解析为单个最终得分。
13.根据权利要求7的方法,还包括: 使用所述计算机化设备,由所述第二组件基于所述初步类型与所述问题LAT匹配的良好程度而判定所述初步类型中的任何初步类型是否是所述问题LAT的子类型。
14.一种用于确定问答系统中的问题的候选答案的置信度得分的计算机系统,所述计算机系统包括: 自动问答QA系统,其包括: 查询分析模块; 候选答案生成器,其在操作上连接到所述查询分析模块;以及 处理器,其包括: 多个第一组件; 多个第二组件,其在操作上连接到所述多个第一组件;以及 分类器,其在操作上连接到所述多个第二组件;以及 用户接口,其在操作上连接到所述查询分析模块,所述用户接口将问题接收到所述自动QA系统中, 所述查询分析模块确定所述问题的问题词法答案类型LAT ; 所述候选答案生成器自动计算所述问题的候选答案; 所述处理器针对来自 所述多个第一组件中的每个第一组件的所述候选答案,自动计算初步类型,所述第一组件使用不同的方法产生所述初步类型; 所述处理器对所述初步类型与所述问题LAT之间的匹配进行自动评分,以便基于所述初步类型对应于所述问题LAT的数量,从所述多个第一组件中的每个第一组件产生第一类型得分,基于所述多个第一组件中的哪个组件产生了所述初步类型而区分所述评分,并且基于产生相同初步类型的所述组件之间的差异,所述相同初步类型接收不同的类型得分;所述处理器使用所述多个第二组件中的每个第二组件,自动评估来自所述多个第一组件中的每个第一组件的每个所述初步类型和所述第一类型得分,并且针对所述多个第二组件中的每个第二组件,基于所述初步类型匹配所述问题LAT的程度度量而产生所述初步类型的第二得分;以及 所述处理器基于来自所述多个第二组件中的每个第二组件的所述初步类型的所述第二得分,从所述分类器自动输出所述初步类型的最终得分。
15.根据权利要求14的系统,所述自动QA系统进一步包括数据语料库, 所述候选答案生成器使用所述数据语料库自动计算所述问题的候选答案。
16.根据权利要求15的系统,还包括: 所述处理器自动将所述候选答案与所述数据语料库中的实例相匹配; 所述处理器自动从所述数据语料库检索初步类型,所述初步类型与所述实例关联; 所述处理器自动将所述问题LAT与从所述数据语料库检索的所述初步类型相匹配;以及 所述处理器自动产生表示所述问题LAT与所述候选答案的所述初步类型之间的匹配度的得分。
17.根据权利要求14的系统,所述多个第一组件包括类型强制组件,所述类型强制组件具有不同的资源特定类型分类方法,以便对所述初步类型匹配所述问题LAT的所述程度度量进行评分, 所述处理器自动将所述初步类型与所述问题LAT相比较,以便使用所述类型强制组件和所述处理器的自动评分功能,针对每个所述初步类型产生所述得分。
18.根据权利要求14的系统,还包括: 所述处理器使用所述分类器,利用聚合功能将来自所述多个第二组件中的每个第二组件的所述第二得分自动解析为单个最终得分。
19.根据权利要求14的系统,还包括: 所述处理器使用所述多个第二组件,基于所述初步类型与所述问题LAT匹配的良好程度而判定所述初步类型中的任何初步类型是否是所述问题LAT的子类型。
【文档编号】G06F17/30GK104050224SQ201410095843
【公开日】2014年9月17日 申请日期:2014年3月14日 优先权日:2013年3月15日
【发明者】S·巴格希, J·J·范, D·A·弗鲁茨, A·A·卡利安普, J·W·默多克四世, C·A·韦尔蒂 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1