确定代表自然语句的主题的术语的组合的方法和系统的制作方法

文档序号:8258504阅读:157来源:国知局
确定代表自然语句的主题的术语的组合的方法和系统的制作方法
【技术领域】
[0001]本发明涉及注释自然语言的文本,更具体而言涉及确定代表较大文本主体的主题的关键术语。
【背景技术】
[0002]自然语言处理(NLP)在文件的非结构性文本中标识实体或对象,并且确定这些实体之间的关系。NLP引擎通过使得所述非结构性文本中的语言符号或单词与含有关键术语和该关键术语的变体的词典中的条目相匹配来标识所述实体或对象以及该实体或对象的变体。该对应词典条目代表该非结构性文本中的实体或对象。人们就基于被匹配的条目的注释或概念是否应该被应用到所述语言符号或单词做出受限的固定(inflexible)布尔决定。
[0003]授予Salkeld等的美国专利US8,332,434教导了一种将一组单词映射到一组本体术语的系统。针对本体上下文的不同起始点确定与本体上下文中的一组单词对应的术语集合。使用考虑到一致性和通俗性的适合度函数,对从每个起始点开始获取的术语集合进行排序。如果具有非常高的术语排序的术语的本体与起始点本体具有无价值的(trivial)相关性,则被降低级别或丢弃。

【发明内容】

[0004]本发明的实施例是一种用于确定代表自然语句的主题的术语的组合的方法、计算机系统以及计算机程序产品。
[0005]确定从句子的开头到所述句子中的与所述术语的组合中的术语匹配的相应术语的相应的单词数量。所述句子被划分成多种多样的自然语言短语,所述自然语言短语包括复杂短语和从所述复杂短语中抽取的第一和第二简单短语。所述复杂短语比整个句子短。部分基于(a)从句子的开头到所述句子中的与所述术语的组合中的术语匹配的相应术语的相应的单词数量、(b)所述组合中的所有术语是否都包含在所述第一和/或第二简单短语中、以及(c)所述组合中的所有术语是否都包含在所述复杂短语中但是没有包含在所述第一和/或第二简单短语中,确定所述术语的组合代表所述句子的主题有多好。
[0006]本发明的实施例提供用于注释非结构性文本的自然语言处理,其增加了优于现有基于词典的语言符号匹配方法的查全率(recall),同时生成置信度来评估精度。与现有注释方法的僵化布尔决定相比,该置信度提供了精度的更灵活评估
【附图说明】
[0007]图1是根据本发明实施例的用于生成术语的组合的置信度的系统的框图。
[0008]图2A-2B描述了根据本发明实施例的在图1的系统中包括的计算机系统中执行的置信度生成器程序的流程图。
[0009]图3描述了由根据本发明实施例的在图1的系统中包括的计算机系统中执行的置信度生成程序生成的分析树的实例。
[0010]图4根据本发明实施例的用于生成术语的组合的置信度的图1的系统中所包括的计算机系统的框图。
【具体实施方式】
[0011]概述
[0012]本发明的实施例确定置信度,该置信度指示了术语的预定组合代表诸如自认/人类语言的句子或句子组的非结构性自然语言文本的可能性。非结构性文本可以是对专家系统的采用在自然语言中的句子而不是关键词表达的用户查询,其中非结构性文本的整个含义与用户希望某些事情,诸如求助指导或产品,相关联。代替针对查询中的文本的整体搜索文档的搜索引擎,本发明的实施例使得查询的非结构性文本与被用来的搜索文档的预定术语或关键词的组合相关联。所述术语的预定组合有时被称为语义类型,并且根据最高置信度所选择的术语的具体组合可以被用作一组搜索术语。如下面详细描述的那样,用于代表性搜索术语的置信度基于与预定术语组合中的术语(或其同义词)匹配的非结构性文本中的语言符号(例如,单词)之间的接近度的两种不同测量。通常,在句子中彼此相近的那些单词(或其同义词)会比在句子中彼此更远的那些单词(或其同义词)被赋予更多的权重。而且,在包含在句子的复杂短语中的简单短语中一起出现的那些单词(或其同义词)会比在复杂短语中一起出现而不是在句子的任何简单短语中一起出现的那些单词(或其同义词)被赋予更多的权重。
[0013]用于生成术语组合的置信度的系统
[0014]图1是本剧本发明实施例的用于生成术语组合的置信度的系统10的框图。系统100包括计算机102,其可以包括任何类型的继续按系统,包括例如:个人计算机,大型计算机、膝上计算机、服务器等等。计算机102包括:中央处理单元(CPU)(未示出)、有形数据存储器件(未示出)以及内存(未示出)。计算机102利用CPU执行经由内存(未示出)存储在有形存储器件中的基于软件的置信度生成程序104 (即,计算机程序指令),以便接收自然语言的非结构性文本106以及生成相应的预定术语组合110的置信度108,其中所生成的置信度108指示了相应术语组合110为非结构性文本106的主题、概念或本质的可能性。置信度生成程序104(1)基于本体112中的规则标识在非结构性文本106中出现的术语组合110 ; (2)生成包括作为根部的非结构性文本106和作为节点的非结构性文本106的术语和短语的分析树114 ; (3)基于术语组合110中的术语距非结构性文本106的开头的距离确定第一接近度测量值;以及(4)基于该术语距分析树114的根部的距离确定第二接近度测量值。置信度生成程序104基于第一和第二接近度测量值生成术语组合110的置信度108。在一个实施例中,分析树114是通过深度分析形成的短语结构分析树。短语结构分析树中的每个节点包含单词或短语(例如名词短语或动词短语)。短语结构分析树中的每个短语可以包括一个或多个单词和/或一个或多个其他短语。
[0015]作为一个实例,计算机102接收作为非结构性文本106的用户提供的句子,其中,该句子查询制造商专家系统(未示出)关于由制造商提供的产品以及用户希望的进一步信息。置信度生成程序104标识具有与在用户提供的句子中出现的相应第一和第二单词匹配的第一和第二术语(或该术语的同义词)的预定术语组合110。置信度生成程序104生成分析树114使得该句子为分析树114的根部而该句子的单词、短语的元素以及短语为节点。置信度生成程序104基于第一单词距该句子的开头的第一距离与第二单词距该句子的开头的距离之间的差值来确定第一接近度测量值。置信度生成程序104基于分析树114的第一级别数和第二级别数之间的差值来确定第二接近度测量值。第一级别数是分析树114的第一单词与根部之间的级别数。第二级别数是分析树114的第二单词与根部之间的级别数。基于第一和第二接近度测量值,置信度生成程序104确定所标识的两个术语(two-term)组合指示用户提供的句子的概念(concept)或主题(subject matter)的可能性(Iikehood)。本发明可等同地应用到三、四或更多数两的术语的组合。
[0016]计算机102的内部和外部组件将在下面参照图4进行进一步描述。系统10的组合的功能将在下面参照图2A-2B的阐述中进一步描述。
[0017]图2A-2B描述了根据本发明实施例的在图1的系统中所包括的计算机系统中执行的置信度生成器程序的流程图。在步骤202中,置信度生成器程序104(参见图1)接收用户输入的自然语言句子作为非结构性文本106(参见图1)。可替换地,程序104 (参见图1)可以接收多个句子和其他类型的非结构性文本。
[0018]在步骤204之前,置信度生成器程序104 (参见图1)通过利用本体112 (参见图1)中的规则生成多个术语组合110(参见图1),其中该术语组合110(参见图1)为潜在代表在步骤202中接收的句子的主题的概念。Each rule in本体112(参见图1)中的每个规则指定了在步骤202中接收的句子中包括的单词和具体术语组合110 (参见图1)之间的关系。例如,置信度生成器程序104(参见图1)标识在步骤202中接收到的句子中的“pipe(管道)”和“stuck(卡塞)”并使用本体112 (参见图1)中的规则StuckPipe具有Child Pipe来生成术语组合(即,概念)“StuckPipe”。
[0019]在步骤204中,置信度生成器程序104 (参见图1)从多个术语组合110 (参见图1)中选择第一预定术语组合,并且确定置信度108 (参见图1)的初始值。返回到步骤204的每个循环(下面所述)从多个术语组合110 (参见图1)中选择下一个术语组合。在一个实施例中,置信度108(参见图1)的初始值为100%。如果在步骤204中所选择的术语组合基于一个或多个先前处理的术语组合,则置信度108(参见图1)的初始值可以小于100%。例如,置信度生成器程序104 (参见图1)根据“pump (泵)”和“pressure (压力)”形成的组合“pump pressure”其置信度为70%而根据“pressure (压力)”和“ increase (增加)”形成的组合“pump pressure”其置信度为80%。在该实施例中,置信度生成器程序104 (参见图1)随后根据先前形成的初始值为75%的置信度108(参见图1)的“pump pressure”和“pressure increase” 形成“pump pressure increase”。在该实例中,选择 75% 以便处于用于“pump pressure”的70%水平和用于“pressure increase”的80%水平的中间,但是可以考虑其他因素(例如,一个术语由于更高的出现频率而导致其更重要)来对“pumppressure”和“pressure increase”赋予不同权重,以便选择70%和80%之间的另一个值。在一个实施例中,所述多个术语组合采用资源描述框架((RDF)数据模型表达。
[0020]在步骤206中,置信度生成器程序104(参见图1)确定在步骤204中所选择的术语组合110(参见图1)的每个术语是
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1