生成用于信息领域的自然语言处理模型的制作方法

文档序号：6497622阅读：252来源：国知局

生成用于信息领域的自然语言处理模型的制作方法
【专利摘要】提供用于生成用于信息领域的自然语言处理模型的方法和系统。该方法包括：从信息领域的源模型得出自然语言词典的框架；应用定义概念和关系的语法规则的集合；以及基于来自信息领域的参考文档扩展自然语言词典的框架，以提供用于信息领域的自然语言处理模型，其中扩展框架包括对用于概念和关系的术语聚类和打分。
【专利说明】生成用于信息领域的自然语言处理模型
【技术领域】
[0001]本发明涉及生成自然语言处理模型的领域。具体而言，本发明涉及生成用于信息领域的自然语言处理模型。
【背景技术】
[0002]现代业务分析和过程大量依赖于流过和围绕业务流动的信息。核心业务过程信息包括来自诸如电子邮件、报告文档、演示和即使消息之类的来源的事务数据和文本数据二者。这一信息可以视为流“过”业务的信息并且从经认证的团体内或者在经认证的团体内始发。
[0003]这一信息的文本组成的相对重要性已经多年不断增加并且现在被认同为很重要的组成。信息的文本组成这时由于难以创建用于理解这一非结构化的内容的自然语言处理(NLP)模型而大量未被处理。
[0004]另外，Web2.0和社交媒体的问世已经产生来自应用的可能有巨大价值的“围绕”业务流动的文本信息的次生泛滥，这些应用的范围广泛，如聊举数例为产品标识新市场、理解品牌情绪和发现影响因素。
[0005]高级NLP模型可能对业务具有的影响使得它是目前信息技术行业中的最快增长的需求之一。然而由于自然语言的复杂性，创建这样的模型并不容易。
[0006]自然语言处理(NLP)模型是如下术语，该术语用来描述向文本分析引擎的输入的抽象化的集合的术语，从而它可以提取概念(命名的实体、比如“人”引用、“位置”引用等)和那些概念之间的关系(例如“住在”)。有了这些“事实”，可以暴露文本用于编程使用和过程自动化。事实在这一情况下的示例会是“约翰麦克格拉斯住在都柏林主街123号”或者“麦克格拉斯提供主街321号作为他的家庭地址”。
[0007]这样的模型很依赖于有待处理的输入的“领域”。没有“一刀切”模型，即使对于比如标识“人”的某些事物，也将在不同的文本来源中有可变的成功程度(由准确率或者精确率/查全率定义)。例如在医疗记录中提及的“人”将很不同于在学术引用中提及的“人”。另外，在医疗记录的情况下，理解“人”的子分类颇为重要，从而NLP系统会向任何具体人引用指派正确的语义子类、例如患者与外科医生、私人内科医生之间的差异等。
[0008]开发和维护领域专属NLP模型成本高。有用于开发这样的NLP模型的两种已知方式:1)人工基础创建字列表和上下文规则以及2)基于机器学习的方式，这些方式需要标注的语料库作为输入，机器学习算法在该输入上运行以“学习”特征，这些特征指示语义类向给定的文本跨度的指派。
[0009]两种已知方法颇为耗时，前者具有明确并且人工可调的优点，而后者是黑匣子、但是未提供较低的录入禁止，因为对于标注任务仅需领域本身的知识，其中如在前者中那样，也需要下层匹配技术的一些知识。
[0010]因此，在本领域中需要解决前述问题。
【发明内容】

[0011]根据本发明的第一方面，提供了一种用于生成用于信息领域的自然语言处理模型的方法，该方法包括:从信息领域的源模型得出自然语言词典的框架；应用语法规则的集
入
口 O
[0012]从第一方面来看，本发明提供了一种用于生成用于信息领域的自然语言处理模型的方法，该方法包括:从信息领域的源模型得出自然语言词典的框架；应用定义概念和关系的语法规则的集合；基于来自信息领域的参考文档扩展自然语言词典的框架，以提供用于信息领域的自然语言处理模型，其中扩展框架包括对用于概念和关系的术语进行聚类和打分。
[0013]优选地，本发明提供了一种方法，其中得出自然语言词典的框架使用信息领域中的优选术语。
[0014]优选地，本发明提供了一种方法，其中应用语法规则的集合包括取得主语、谓语、宾语和可变顺序以用于覆盖。
[0015]优选地，本发明提供了一种方法，其中扩展框架包括:选择优选术语作为概念或者关系；在来自信息领域的参考文档中执行对优选术语的关键字搜索；以及提供用于优选术语的潜在术语的有序集合。
[0016]优选地，本发明提供了一种方法，该方法包括:确定局部η元语法；测量η元语法的一个或者多个度量；以及对η元语法打分。
[0017]优选地，本发明提供了一种方法，其中扩展自然语言词典的框架包括:基于来自信息领域的参考文档得出进一步的语法规则；以及对语法规则与用于概念和关系的聚类的术语求交。
[0018]优选地，本发明提供了一种方法，该方法包括:使用来自动词的语言类的动词结构以驱动向聚类的术语应用的交集。
[0019]优选地，本发明提供了一种方法，其中扩展框架开始于起始概念或者关系，并且向外迭代地移出源模型中的邻近概念或者关系链接；并且通过增大分数来细化概念和关系的扩展的术语。
[0020]优选地，本发明提供了一种方法，该方法包括:使用分数阈值来确定用于概念或者关系的最佳术语的散度。
[0021]优选地，本发明提供了一种方法，其中扩展框架基于结果动态地改变迭代策略。
[0022]优选地，本发明提供了一种方法，其中得出自然语言词典的框架是基于多于一个源模型。
[0023]优选地，本发明提供了一种方法，其中得出自然语言词典的框架利用开放数据以初始地填充框架，其中源模型的本体类被匹配于开放数据的类。
[0024]从另一方面来看，本发明提供了一种在计算机可读介质上存储并且可向数字计算机的内部存储器中加载的计算机程序，该计算机程序包括当所述程序在计算机上运行时用于执行如以上描述的方法的软件代码部分。
[0025]从另一方面来看，本发明提供了一种用于生成用于信息领域的自然语言处理模型的系统，该系统包括:处理器；框架部件，用于从信息领域的源模型得出自然语言词典的框架；语法规则部件，用于应用定义概念和关系的语法规则的集合；扩展部件，用于基于来自信息领域的参考文档扩展自然语言词典的框架以提供用于信息领域的自然语言处理模型，其中扩展框架包括对用于概念和关系的术语聚类和打分。
[0026]优选地，本发明提供了一种系统，其中用于应用语法规则的集合的语法规则部件包括取得主语、谓语、宾语和可变顺序以用于覆盖。
[0027]优选地，本发明提供了一种系统，其中用于扩展框架的扩展部件包括部件，该部件包括概念/关系聚类部件，用于:选择优选术语作为概念或者关系；在来自信息领域的参考文档中执行对优选术语的关键字搜索；以及提供用于优选术语的潜在术语的有序集合。
[0028]优选地，本发明提供了一种系统，其中概念/关系聚类部件用于:确定局部η元语法；测量η元语法的一个或者多个度量；以及对η元语法打分。
[0029]优选地，本发明提供了一种系统，其中用于扩展自然语言词典的框架的扩展部件包括:语法规则生成部件，用于基于来自信息领域的参考文档得出进一步的语法规则；以及求交部件，用于对语法规则与用于概念和关系的聚类的术语求交。
[0030]优选地，本发明提供了一种系统，其中用于扩展框架的扩展部件开始于起始概念或者关系，并且向外迭代地移出源模型中的邻近概念或者关系链接；并且通过增大分数来细化概念和关系的扩展的术语。
[0031]优选地，本发明提供了一种系统，其中用于扩展框架的扩展部件基于结果动态地改变迭代策略。
【专利附图】

【附图说明】
[0032]现在将参照附图仅以示例方式描述本发明的优选实施例，在附图中:
[0033]图1是根据本发明的优选实施例的方法的实施例的流程图；
[0034]图2是根据本发明的优选实施例的图1的方法的进一步细节的流程图；
[0035]图3是根据本发明的优选实施例的系统的实施例的框图；
[0036]图4是根据本发明的优选实施例的计算机系统的框图；
[0037]图5是根据本发明的优选实施例的一方面的源模型的树形图；并且
[0038]图6是根据本发明的优选实施例的一方面的源模型的关系图。
【具体实施方式】
[0039]将理解为了说明的简化和清楚，图中所示单元未必按比例绘制各。例如，单元中的一些单元的尺度为了清楚而可以相对于其它单元被夸大。另外，在认为适合时，附图标记可以在各图之中重复以指示对应或者类似的特征。
[0040]在以下具体描述中，阐述许多具体细节以便提供对本发明的透彻理解。然而，本领域技术人员将理解没有这些具体细节仍然可以实现本发明。在其它实例中，未具体描述公知方法、过程和部件以免使本发明模糊。
[0041]描述了一种用于生成和成熟化针对既定信息领域的自然语言处理模型的方法和系统。该方法利用领域或者行业模型、实质上为业务领域本身的本体(ontology)在许多情况下的存在。
[0042]提供了一种成本有效的解决方案以从领域或者行业模型(如例如可用并且由IBM’s Industry Models Group主动开发的领域或者行业模型，IBM是国际商业机器公司的商标)或者其它本体形式生成和成熟化领域专属自然语言处理模型。这一起始模型或者本体称为源模型。这允许迅速创建、部署和维护自然语言处理模型。自然语言处理模型然后可以用来在该领域的解决方案内分析自由文本文档。
[0043]所描述的方法和系统利用领域模型的结构和信息来生成初始NLP模型并且允许经由关键字和动词聚类以及打分技术增大初始NLP模型中的节点的稀疏标记(按照定义，初始模型中的节点可以用单个术语(term)被标记为推荐的最佳实践优选使用术语)。
[0044]在模型本身中的实体之间的交互实现收集在其中包含/引用的概念的文本表示。许多已知和简单的经验式技术可以用来整理和推断字典和规则。然而在不使用模型的环境性质、即轮流为外部链接(关系或者谓语)和目标节点类型及其规范的汇集的情况下，在模型中会有许多噪声。
[0045]参照图1，流程图100示出所描述的方法的实施例。
[0046]可以从源模型111得出101针对信息领域的自然语言词典(lexicon)的框架。源模型111可以是任何本体形式、比如行业或者领域模型或者在指定信息领域中的其它本体形式(例如，本体可以是数据库方案)。按照它们的性质，这些源模型提供用于得出针对它们的既定信息领域(银行、保险、医疗等)的自然语言词典的框架的必要数据。该方法可以使用包括外部并公开可用的模型和数据的多于一个源模型、例如Linked Open Data(链接的开放数据)、WordNet等。
[0047]可以从可选地包括来自业务术语表的同义字的源概念模型直接构建框架自然语言词典。备选地，可以从Linked Open Data (W3C Sematic Web Education and Outreach 的项目)构建框架，其中源模型中的本体类可以针对在Linked Open Data云中描述的类来匹配。如果初始框架没有实例数据(仅有类型描述)一在该情况下有可能利用Linked OpenData以初始地填充框架一则这可以适用。
[0048]这产生在简单的种子语法规则的集合中组合并应用102的概念标签和动作动词的稀疏字典，这些种子语法规则取得主语-谓语-宾语和可变顺序以用于覆盖或者按照语言规则。例如一些语言可以具有前置结构(predominance of construction),其中“约翰看见玛丽”(主语-谓语-宾语)的顺序被更自然地表达为“看见约翰玛丽”。
[0049]然而，由于用来得出初始框架的源模型经由有限的优选术语或者标签(通常为一个)的集合有意地描述涉及到的概念和关系，所以需要扩展或者“增厚”所得词典。在以下描述中分离地引用概念和关系；然而关系可以视为特殊概念类型。
[0050]一旦这样的框架就位，需要经由关键字聚类和其它标准技术用同义字、动词和表达式扩展或者增厚103它。基于从信息领域取得的参考文档113 (例如，电子邮件、政策、指南、文档、报告等)的集合来执行增厚103。增厚103包括从框架中的优选术语得出概念和关系标签术语并且从种子语法规则的集合生成语法规则。
[0051]增厚的框架形成104NLP模型的基础，该NLP模型用来处理业务中的所有非结构化的信息并且在语义上将领域文档中的概念的所有提及分类，从而它们可以用于文本分析。
[0052]跨任何中等到大规模组织，有在相同业务领域中操作的许多应用(例如多个支付引擎、客户开设账户应用)。组织可以具有不断增加数量的产品和服务，这使组织内的数据量以指数速率增长。为了应对这一问题，需要公共架构和公共业务语言以增加运营效率和上市时间。[0053]需要公共业务语言以在执行以下操作中的任何操作时解决这些问题:交叉业务处理线；应用合理化；项目要求收集；业务到IT ;规章合规等。有跨业务线的多个同义字并且难以合理化它们，这一问题在需要解密和迎合新规章要求时加剧。
[0054]行业模型包括用于回应公共结构化业务语言的这一需要的特定资源、因此为领域专属NLP模型的成本有效生成提供机会。
[0055]每个行业模型提供可以包括所针对的领域知识(例如银行、保险、医疗保健、…)的若干建模级。具体而言，它们可以包括:
[0056]a..用于行业领域中的术语的自由文本定义的业务术语表、包括同义字、缩写、短
;五坐P 口寸ο
[0057]b..用于高级概念/结构定义及其固有关系结构的概念模型
[0058]参照图2，流程图200示出具有所描述的方法的进一步处理细节的实施例。
[0059]选择201初始优选术语作为起始概念或者关系的术语。框架自然语言词典可以用来初始地标识文本中的段落，这些段落将产生进一步的术语和语法以实现增厚过程。优选术语可以是来自框架自然语言词典的关键字匹配。
[0060]优选术语可以在从业务领域取得的参考文档(例如电子邮件、正式政策、指南、报告等)的集合中用作关键字搜索202。关键字搜索可以是实现收集全面词汇表和语法的、以实现文档中的段落的良好查全率为目标的对案例不敏感的关键字搜索。备选地，如果在表现方面有价值，则可以使用对案例敏感的关键字搜索。例如，可以在一些领域或者文档中使用对案例敏感的关键字搜索，在这些领域或者文档中可以有显著重叠并且对案例不敏感的搜索会生成太多噪声。
[0061]可以取得203本地η元语法(n-gram)和/或短语，这意味着所有重叠的字集合，其中字的数目在优选术语附近为“η”。在概念的情况下，可以取得包含优选术语的名词短语。相似地，可以针对关系取得相关动词短语。
[0062]可以确定204η元语法度量。在最简单的实施例中，对η元语法频率计数，并且用文本邻近分数对η元语法打分205，该文本邻近分数可以自然地包括频率、但是不会限于这
一具体度量。
[0063]有可以潜在地影响潜在术语的排行的许多可能方式。这些可以包括已知技术、t匕如主题分解、潜藏语义分析等并且也可以包括应用同义字和一般资源、比如WordNet，只要维持领域特异性即可。(应当注意使用WordNet可能引入不希望的过多广义化方面，但是它可以辅助结果或者在用户调和的场景中有用。)
[0064]可能度量的示例包括但不限于以下度量:
[0065]向优选术语的象征(token)数目(移位):
[0066]频率计算可以将tf/idf样式归一化用于文档语料库；虽然对于良好结果而言不是需要的，但是它可以在某些情况下提供一些改进；
[0067]术语包括可能也需要考虑共同引用分辨、例如“它们” =IBM在句子的上下文中描述重要客户采取的动作…可能=“如果利息未被…记入贷方，则他们将关闭他们的账户”。
[0068]应用专用NLP模型，这些NLP模型会标识可能指示定义的模式。示例规则可以是“IBM是重要客户”会引起在对用于概念(“客户”)的优选术语的引用之前包括未知(意味着在正常语言词汇表以外)或者全大写(“IBM”)或者首字母大写(Titlecase)或者驼峰式大写(CaMeLCase)象征跟随有动词“to be”的任何变形(“are”)、又跟随有可选定界符(“an”)和形容词(“重要”)的一般模式。
[0069]有利于未知或者在词汇表以外的术语(其中在词汇表以外这里主要是指不是讨论的语言、例如英语的部分)。
[0070]排除所谓“停用词”、例如“1广、“8”、“访611”。将必须潜在地为每个节点、但是有可能为概念比对关系分离地指定停用词列表。
[0071]对于动词关系相似。动词关系可以视为特殊概念类型并且可以按照本体或者模型的节点和链接结构被这样表示。
[0072]除了在用于概念的描述中包含的内容之外，动词关系概念可以具有应用的语言动词分析的附加选项。可以将动词分类成具有不同配价框架的组。例如，动词采用的论元(argument)种类和它们如何排列、那些论元为可选、动词的“方向”、例如“保罗踢狗”……踢取得主语和宾语，在这一情况下，方向是从保罗到狗、即保罗是主语而狗是宾语，因此概念{主语:=(人，实例=保罗)}经由动词关系“踢”链接到概念{宾语:=(动物，实例=狗)}。
[0073]基于本体/领域模型的所描述的基于术语的η元语法交集大量减轻对于这样的详细动词知识的需要，但是在它存在或者经由处理器、比如语言深度解析器可用时，所描述的方式可以利用它。这样的方式经常在大量使用领域专属语言的文本中并未表现良好，因此在基于概念的η元语法一其中可以以概念的更一般形式取得概念(即概念也包括动词关系概念)——上组合所描述的基于模型的交集方式可以对总体结果具有正面效果并且去除对于在这样的领域专属情况下将易错的、复杂基础语言处理、比如深度解析的需要。
[0074]可以针对源模型中的概念节点或者关系生成206潜在术语的有序集合，但是它仍然将很有噪声。
[0075]已经对于起始概念或者关系这样做，该方法可以向下一概念或者关系节点迭代207。在实施例中，迭代可以移出模型中的关系链接并且对于这些中的每个关系链接重复从而产生用于每个概念和关系以及邻近概念的术语的集合。备选地，该过程可以例如由于更基本的(atomic)名词短语相对简单而跳转至在关系节点之前的邻近概念节点。
[0076]随着该方法从源模型中的起始概念节点或者关系节点向外迭代207，可以通过基于与当前节点的交集增加分数(加法或者其它加权函数)来细化先前节点的术语的集合。
[0077]任何概念或者关系的组合可以用于迭代207、包括事件驱动的方式改变或者切换。可以使用备选策略，该备选策略包括在由试探法驱动的策略之间的协调。
[0078]例如，可以针对可能的同义字监视频率的改变速率，因为运行的算法可以影响接着使用哪种方式并且这可以根据监视度量而动态地变化。如果未足够快地发现结果，则可以使用备选策略。如果发现并且需要交叉引用太多术语，则应用备选策略可以帮助更快地消除噪声。
[0079]使用主语-谓语-宾语上下文，因此模型让概念节点(主语)经由关系(谓语)链接到其它概念节点(宾语)。这产生用于概念或者关系的最佳术语的迅速发散，并且使用分数阈值可以构建类型的词典。
[0080]这一词典形成NLP模型的基础，该NLP模型用来处理业务中的所有非结构化的信息并且在语义上将任何公司文档中的概念的所有提及分类，因此它们可以用于之前提及的文本分析的现在标准的益处中的任何益处。
[0081]已经标识用于概念和关系实例的显式标签中的许多显式标签，可以完成标注并且应用标准机器学习技术以基于文本的任何暴露的特征、例如大写、词性、数字、通过规则表达发现的经分类的象征(例如日期/时间、URL、电子邮件等)得出语法规则。
[0082]标注是指如下过程，该过程已经标识先前文本中的一些术语(代表概念的单个字或者多字短语)，可以扫描文本内容寻找这些术语并且在文本中标记出现。所得标记的文本可以用作向标准机器学习过程的输入，标准机器学习过程的输入会自动生成模型，该模型会搜集重要上下文特征，这些上下文特征标识这样的事物的出现。这然后可以本身被应用作为NLP模型、但是在多数情况下将更好地用作一种用于生成更多潜在术语的方式。
[0083]标注的文本然后允许如对于标准机器学习情况那样产生自动模型或者向领域专家呈现在标注的实例周围的特征分布的统计视图，从而可以标识并且随后应用适当语法规则和/或重要文本特征。
[0084]机器学习可以是全自动或者由用户调和的。在用户调和的情况下，机器学习可以仅向领域专家呈现统计观测、比如一种类型的实例前面的给定的特征模式的前置。
[0085]例如模式、比如“Mr.”和“Dr.”在人引用之前。
[0086]这提供用各种机器学习技术或者使用机器学习的、用户调和的混合学习在某个自动化程度上得出语法规则以发现统计相关特征模式并且将它们向领域专家用户呈现。
[0087]得出的语法规则与从悬在模型的任何两个或者更多要素(概念或者关系)之间的上下文得出的η元语法集合的交集可以用来基于参考文档扩展框架。这允许高效产生具有高度覆盖的准确NLP模型。
[0088]来自动词语言分类的动词结构的使用也可以用来驱动可以应用于η元语法集合的交集逻辑。
[0089]可以得出初始种子语法规则(图1的步骤102)，这些初始种子语法规则可以用来作为生成附加语法规则的过程的种子。可以从参考文档113生成附加语法规则。这与增厚来自模型的概念定义的优选术语相似。给定这些概念示例被标注的文档汇集，可以推断指示这样的概念的语法。
[0090]生成的语法规则与从悬在模型的任何两个或者更多要素(概念或者关系)之间的上下文得出的η元语法的交集产生良好结果并且允许高效生成具有高度覆盖的准确NLP模型。
[0091]优选实施例将在“反馈循环”中包括以上过程，这意味着可以迭代地应用它而输出它本身(例如，在以上示例中使用“ IBM”，但是这时取优选术语“顾客”为变量，这将可能导致发现“客户”)。
[0092]在备选实施例中，过程可以由于更多基本的名词短语相对简单而跳转至在关系节点之前的邻近概念节点。
[0093]此外，可以从模型关系得出主语-谓语-宾语结构的任何组合。
[0094]生成语法规则可以视为与产生新术语类似，仅有的不同是考虑较抽象特征的事实。即术语得出过程仅关注文本中的实际字和字序列，而语法规则得出会关注文本中的较抽象特征、比如在提及机器学习时在之前段落中引用的特征。
[0095]在主要部分中，语法规则得出在图2的序列、包括迭代完成之后发生。然而，使用种子语法规则帮助打分确实表明过程可以分叉以生成它们并且将进一步生成的集合与初始种子集合一起应用。
[0096]交集贯穿该过程、即在初始运行中的术语打分中以及随后随着得出的规则在下一步骤中的学习和生效而发生。
[0097]参照图3，框图300示出所描述的系统的实施例。
[0098]提供可以生成和维护用于领域320的NLP模型的NLP模型生成系统310。领域320可以例如是业务领域、医疗领域、学术领域等。领域320可以具有源模型321、比如行业模型或者其它本体，该本体使用用于领域320的优选术语。领域320也可以包括参考文档322、如比如电子邮件、政策、指南、文档、报告等。
[0099]NLP模型生成系统310可以包括用于从领域源模型321得出自然语言词典的框架的框架部件311。NLP模型生成系统310也可以包括用于使用简单的种子语法规则集来组合概念标签和动作动词的语法规则部件312。
[0100]NLP模型生成系统310也可以包括用于经由关键字聚类和其它技术用同义字、动词和表达式从领域320的参考文档322增厚或者扩展框架模型的扩展部件313。扩展部件313可以包括用于扩展概念/关系标签术语的概念/关系聚类部件314和用于生成语法规则的语法规则生成部件315。扩展部件311还可以包括用于对聚类的概念/关系和生成的语法规则求交以产生NLP模型330的求交部件316。
[0101]可以针对领域320生成所得NLP模型330。NLP模型330可以用来分析在领域中使用的文档和语言以提供语言分析。NLP模型330可以自动“阅读”领域中的所有文本并且将它映射到它在模型中相配的地方从而提供用于文本的结构以供分析。
[0102]参照图4，用于实施本发明的方面的示例性系统包括适合用于存储和/或执行程序代码的数据处理系统400，该数据处理系统包括通过总线系统403直接或者间接地耦合到存储器单元的至少一个处理器401。存储器单元可以包括在实际执行程序代码期间运用的本地存储器、大容量存储装置和高速缓存存储器，这些高速缓存存储器提供至少一些程序代码的暂时存储以便减少必须在执行期间从大容量存储装置取回代码的次数。
[0103]存储器单元可以包括形式为只读存储器(ROM) 404和随机存取存储器(RAM) 405的系统存储器402。基本输入/输出系统(B10S)406可以被存储在R0M404中。包括操作系统软件408的系统软件407可以被存储在RAM405中。软件应用410也可以被存储于RAM405中。
[0104]系统400也可以包括主存储装置411、比如磁硬盘驱动，以及二级存储装置412、比如磁盘驱动和光盘驱动。驱动及其关联计算机可读介质提供用于系统400的计算机可执行指令、数据结构、程序模块和其它数据的非易失性存储。软件应用可以被存储在主和二级存储装置411、412以及系统存储器402上。
[0105]计算机系统400可以经由网络适配器416使用与一个或者多个远程计算机的逻辑连接在联网环境中操作。
[0106]输入/输出设备413可以直接或者通过居间I/O控制器耦合到系统。用户可以通过输入设备(比如键盘、指向设备)或者其它输入设备(例如麦克风、操纵杆、游戏板、卫星盘、扫描仪等)向系统400中录入命令和信息。输出设备可以包括扬声器、打印机等。显示设备414也经由接口、比如视频适配器415连接到系统总线403。[0107]使用金融服务数据模型(FSDM)作为源模型来给出示例。FSDM是分类模型，该分类模型包括企业范围的词汇表，该词汇表用来精确定义许多概念的含义，这些概念组成金融机构对它本身及其业务环境的看法。它使涉及特定业务概念的所有方面或者观点能够按照在分类分级内的要素来表达。
[0108]参照图5，树形图500示出用于FSDM中的术语“参与方”501的分类分级。矩形代表对象，并且圆化的块代表属性。属性是称为“具有(has_a)”的特殊关系类型、8卩“参与方具有IP类型个人”，这意味着“A是个人”。因此，属性是某种分类。可以直接在父节点中或者在特殊情况下跨同级节点使用树形图500中的信息。整个树可以用来收集用于感兴趣的概念的信息。
[0109]树形图500具有用于“参与方”的根节点501，该根节点具有子属性节点“法律状态”502、“角色”503和“类型”504。一般将“法律状态”节点502和“角色”节点503的进一步子节点示出为分支505、506。
[0110]“类型”节点504具有示出的用于“组织” 507、“组织单位” 508和“个人” 509的子节点。“个人”节点509具有示出的用于“婚姻状态”510和“健康状态”511的子属性节点。“婚姻状态”节点510具有子节点“已婚” 512、“单身” 513和“离异” 514。“健康状态”节点511具有子节点“未受伤害”515、“残疾” “516和“未知”517。
[0111]表示为节点的这些概念可以如图6中所示经由关系相互相关。图6是通过关系链接概念的示意图600。这给予用于说明各种业务场景的能力。
[0112]在图6中，对象、例如参与方601、位置602、事件603和安排604可以由如箭头611、612、613、614、615所示关系链接。箭头和它们代表的关系可以是单向或者双向。
[0113]相异关系620-627(具有小写名称的虚线框)可以是由“U”符号指示的关系611-615的成员。
[0114]相异概念630-635(具有大写名称的虚线框)可以是对象601-604的成员。
[0115]例如从参与方601开始，该图指示个人631或者组织630可以是参与方601并且它们可以与事件603具有的关系、比如事务633或者通信634是“发起”626。换而言之，参与方发起通信(例如约翰史密斯发送电子邮件)。
[0116]以下列举示例使用情况场景。用于NLP和文本分析的潜在使用一般众多而触及深远，并且以下仅为少数示例。
[0117]示例 I
[0118]保险提供商想要电子邮件与在数据贮存库(即客户、政策、索赔等)中维护的相关人为因素自动相关。
[0119]NLP模型可以用来通过处理包含的文本、标记对相关信息位的引用、比如名称、政策编号、索赔ID、然后将那些映射到现有记录来变换自由文本资源(比如电子邮件)作为数据数据。
[0120]示例 2
[0121]建模者需要验证银行模型支持IS020022/S印a要求。SPEA是在2007与2010年之间跨EU引入的新的全欧洲支付系统。有为了金融机构或者支付处理器成为SPEA注册和SPEA遵守而制定的具体要求。
[0122]NLP模型可以处理法规文档、标识必要模型要求(概念、关系、…)并且验证给定的银行模型是否针对那些要求提供必要支持。
[0123]示例3
[0124]IBM顾问想要更容易地估计将公司X的现有基础设施升级成给定的医疗保健模型的成本。
[0125]公司X雇用IBM基于由“行业模型”提供的医疗保健模型翻新他们的数据基础设施。顾问被委派分析公司X的系统的容量并且估计在升级中所涉及的工作这样的任务。NLP模型可以在分析来自公司X的结构报告、架构文档等以从现有架构标识遗漏概念时有很大帮助。
[0126]可以通过网络向客户将自然语言处理模型生成系统提供为服务。
[0127]本发明可以采用全硬件实施例、全软件实施例或者包含硬件和软件单元两者的实施例的形式。在优选实施例中，本发明在包括但不限于固件、驻留软件、微代码等的软件中实施。
[0128]本发明可以采用从计算机可用或者计算机可读介质可访问的计算机程序产品的形式，该计算机可用或者计算机可读介质提供用于由计算机或者任何指令执行系统使用与其结合使用的程序代码。出于本描述的目的，计算机可用或者计算机可读介质可以是任何可以包含、存储、传达、传播或者传送用于由指令执行系统、装置或者设备使用或者结合其使用的程序的装置。
[0129]介质可以是电子、磁、光、电磁、红外线或者半导体的系统(或者装置或者设备)或者传播介质。计算机可读介质的示例包括半导体或者固态的存储器、磁带、可移除计算机盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘的当前示例包括紧致盘只读存储器(CD-ROM)、紧致盘读/写(CD-R/W)和DVD。
[0130]可以对前文进行改进和修改而不脱离本发明的范围。
【权利要求】
1.一种用于生成用于信息领域的自然语言处理模型的方法，包括: 从所述信息领域的源模型(111)得出(101)自然语言词典的框架；应用(102)定义概念和关系的语法规则的集合；基于来自所述信息领域的参考文档扩展(103)所述自然语言词典的所述框架，以提供用于所述信息领域的自然语言处理模型，其中扩展所述框架包括对用于概念和关系的术语聚类和打分。
2.根据权利要求1所述的方法，其中得出(101)自然语言词典的框架使用所述信息领域中的优选术语。
3.根据权利要求1或2所述的方法，其中应用(102)语法规则的集合包括取得主语、谓语、宾语和可变顺序以用于覆盖。
4.根据权利要求1至3中任一项所述的方法，其中扩展(103)所述框架包括: 选择(201)优选术语作为概念或者关系；在来自所述信息领域的参考文档中执行(202)对所述优选术语的关键字搜索；以及提供(206)用于所述优选术语的潜在术语的有序集合。
5.根据权利要求4所述的方法，包括: 确定(203)局部η元语法；测量(204)所述η元语法的一个或者多个度量；以及对所述η元语法打分(205)。
6.根据前述权利要求中任一项所述的方法，其中扩展(103)所述自然语言词典的所述框架包括: 基于来自所述信息领域的所述参考文档得出进一步的语法规则；以及对所述语法规则与用于概念和关系的聚类的所述术语求交。
7.根据权利要求6所述的方法，包括: 使用来自动词的语言类的动词结构以驱动向聚类的术语应用的所述交集。
8.根据前述权利要求中任一项所述的方法，其中扩展(103)所述框架开始于起始概念或者关系，并且向外迭代地移出所述源模型中的邻近概念或者关系链接；并且通过增大分数来细化概念和关系的扩展的所述术语。
9.根据权利要求8所述的方法，包括: 使用分数阈值来确定用于概念或者关系的最佳术语的散度。
10.根据前述权利要求中任一项所述的方法，其中扩展(103)所述框架基于结果动态地改变迭代策略。
11.根据前述权利要求中任一项所述的方法，其中得出(101)自然语言词典的框架是基于多于一个源模型(111)。
12.根据前述权利要求中任一项所述的方法，其中得出(101)自然语言词典的框架利用开放数据以初始地填充所述框架，其中所述源模型的本体类被匹配于开放数据的类。
13.—种在计算机可读介质上存储并且可向数字计算机的内部存储器中加载的计算机程序，包括当所述程序在计算机上运行时用于执行根据权利要求1-12中任一项所述的方法的软件代码部分。
14.一种用于生成用于信息领域的自然语言处理模型的系统，包括:处理器；框架部件(311)，用于从所述信息领域(320)的源模型(321)得出自然语言词典的框架；语法规则部件(312)，用于应用定义概念和关系的语法规则的集合；扩展部件(313)，用于基于来自所述信息领域(320)的参考文档(322)扩展所述自然语言词典的所述框架，以提供用于所述信息领域的自然语言处理模型(314)，其中扩展所述框架包括对用于概念和关系的术语聚类和打分。
15.根据权利要求14所述的系统，其中用于应用语法规则的集合的所述语法规则部件(312)包括取得主语、谓语、宾语和可变顺序以用于覆盖。
16.根据权利要求14或15所述的系统，其中用于扩展所述框架的所述扩展部件(313)包括部件，所述部件包括概念/关系聚类部件(314)，用于: 选择优选术语作为概念或者关系；在来自所述信息领域的参考文档中执行对所述优选术语的关键字搜索；以及提供用于所述优选术语的潜在术语的有序集合。
17.根据权利要求16所述的系统，其中所述概念/关系聚类部件(314)用于: 确定局部η元语法；测量所述η元语法的一个或者多个度量；以及对所述η元语法打分。
18.根据权利要求14至17中任一项所述的系统，其中用于扩展所述自然语言词典的所述框架的所述扩展部件(313)包括: 语法规则生成部件(315)，用于基于来自所述信息领域的所述参考文档得出进一步的语法规则；以及求交部件(316)，用于对所述语法规则与用于概念和关系的聚类的所述术语求交。
19.根据权利要求14至19中任一项所述的系统，其中用于扩展所述框架的所述扩展部件(313)开始于起始概念或者关系，并且向外迭代地移出所述源模型中的邻近概念或者关系链接；并且通过增大分数来细化概念和关系的扩展的所述术语。
20.根据权利要求14至17中任一项所述的系统，其中用于扩展所述框架的所述扩展部件(313)基于结果动态地改变迭代策略。
【文档编号】G06F17/27GK103999081SQ201280061093
【公开日】2014年8月20日申请日期:2012年11月26日优先权日:2011年12月12日
【发明者】D·J·麦克洛斯基, D·博尔佩里, D·卡恩斯申请人:国际商业机器公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D·J·麦克洛斯基;D·博尔佩里;D·卡恩斯
技术所有人：国际商业机器公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。