用于识别自然语言文件中的整体-部分关系的语义处理器的制作方法

文档序号:6477097阅读:252来源:国知局

专利名称::用于识别自然语言文件中的整体-部分关系的语义处理器的制作方法
技术领域
:本申请涉及用于从电子或数字形式的文件中进行自动知识识别和提取的系统和方法,所识别和提取的知识反映出宾语/概念之间和外部世界事实/主语域之间的整体-部分(Whole-Part)语义关系。
背景技术
:下列美国专利文件对本申请所涉及的领域进行了描述1995年5月向Ito颁发的美国专利No.5,418,889(下文中用Ito表示);1997年12月向Hitachi颁发的美国专利No.5,696,916(下文中用Hitachi表示);2000年2月向Liddy等颁发的美国专利No.6,026,388(下文中用Liddy表示);2001年2月向Boguraev等颁发的美国专利No.6,185,592(下文中用Boguraev1表示);2001年4月向Boguraev颁发的美国专利No.6,212,494(下文中用Boguraev2表示);2001年7月向Paik等颁发的美国专利No.6,263,335(下文中用Paik表示);2004年6月向Kim等颁发的美国专利No.6,754,654(下文中用Kim表示);2004年11月向Davies等颁发的美国专利No.6,823,325(下文中用Davies表示);以及2005年3月向Binnig等颁发的美国专利No.6,871,199(下文中用Binnig表示)。知识库和知识工程是现代信息系统和相应技术的关键组成部分。知识工程通常基于从不同知识领域中的专家获得的信息的归纳。然而,分析表明,该方法无法用来创建足够的实际生活(工业)应用。存在两个问题第一,这种知识的最可靠且最有效的来源是什么;以及第二,如何对这些知识进行识别、提取并随后进行形式化(formalize)。分析表明,在如今这个全球计算机化的时代,最可靠的知识来源是广义文字的文本,也就是作为一组自然语言文件(书籍、文章、专利、报告等)的文本。因此,考虑到第二个问题,知识工程的基本前提如下1.文本是知识表示的理想的自然和智能模型;2.可以在文本中找到一切第二个前提可能看起来过于绝对,但随着对文本范围进行扩大的趋势,这越来越符合实际。从文本中能够获得什么类型的知识?通过什么自动方法来实现?一些现有的方法将目标放在具有严格的结构且是人工编译的数据库和具有严格定义的字段的文本上。通常会对文本进行浅显的语言分析。Kim对处理具有严格结构的文本(主要是电子邮件)进行了描述。Kim的处理从源文件的预先已知的字段中提取相应的信息并将这些信息置于反映组织结构的数据库(DB)(例如,具有组织内的个人的名字和头衔的字段的DB)的预先定义的字段中。Kim中描述的语言处理只用于根据所谓的过滤器从文件中提取关键项。Davies描述了对文本进行词法和语法分析,以便区分名词与动词,并以这种方式根据"how"、"why"、"what"和"whatis"的关系在预先定义和构造的数据库中进行非常明确的搜索。Bi皿ig还描述了分形层次网络形式的预先构造的数据库(即,知识数据库)的使用,其反映了外部世界(知识领域)的知识,以便自动扩展来自输入串的信息。首先,使用语义处理器对输入串(例如,语句的部分或整个语句等等)进行处理,该语义处理器执行句法和语法的解析和变换,以构建输入网络。该网络随后被"浸入"到知识数据库中,以通过关于宾语及其关系和定语的外部世界的模型,对作为某种记录的输入信息和输入信息随后的扩展进行扩展。Boguraev1描述了深入的文本分析的执行,其中,对于文本段,基于它们的使用频率以加权语义角色对最重要的名词组进行标记。所有上述情况都关注于概念相关的特定知识。这是可以从文本中提取的入门级知识。Boguraev2描述了以计算机为媒介的语言分析的使用,其用于创建
技术领域
中的关键术语的分类,并且还确定技术功能(动词_宾语)的实行者(处理者)。Hitachi描述了使用预先定义的概念字典的系统,该概念字典具有高_低关系,也就是概念之间的泛化(is-a)关系和部分-整体关系。Liddy将类似的技术用于信息搜索系统中的用户询问扩展。Ito描述了包括因果模型库和设备模型(devicemodel)库的知识库的使用。设备模型库具有多组设备知识,这些设备知识描述目标机器的设备的分层。因果模型库是在设备模型库的基础上形成的,且具有多组目标机器中的故障事件的因果关系。因此,设备的每个部件中发生故障的可能原因是根据关于该部件与设备中的其它部件的结构连接的信息来猜测的。通常,最紧密"连接"的部件被确定为所述原因。Paik描述了不依赖于域(domain-ind印endent)且自动建立其自己的主语知识库的系统。该系统识别概念(任何命名的实体或想法,比如人、地点、事物或组织)以及它们之间的关系。这些关系允许创建"概念_关系_概念"三元组。因此,Paik中识别的知识接近于下一重要的知识等级——事实(主语_动作_宾语),尽管它们还不是适于识别像整体_部分关系这样的重要语义关系的事实。事实上,以上方法都没有教导或提出对电子文件或数字信息中的文本进行处理,以确定宾语/概念之间和外部世界事实/主语域之间的整体_部分语义关系。
发明内容根据本发明的方案,提供了一种用于自动识别自然语言文件中的整体-部分关系的方法。所述方法包括提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语-动作-宾语(eSA0)集,其中,每个eSAO集具有一个或更多eSA0成分;将所述一个或更多eSAO集与整体_部分关系模式进行匹配;以及基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。所述一个或更多eSAO成分可以是来自于包括下列元素的组的一个或更多元素主语、宾语、动作、形容词、介词、间接宾语和副词。所述整体eSAO可以包括所述eSAO成分中的一个或更多,或所述一个或更多eSAO集的单个eSAO成分的一部分;并且所述部分eSAO可以包括所述eSAO成分中的一个或更多,或所述一个或更多eSAO集的单个eSAO成分的一部分。所述eSA0整体-部分关系可以包括顺序运算符,所述顺序运算符将所述整体eSAO的eSAO成分关联到所述部分eSAO的eSAO成分,所述运算符包括词法、语法和语义语言指示符中的一个或更多。所述方法还可以包括对所述文本的至少部分应用词性标签,以生成所述文本的标签部分;以及对所述文本的标签部分进行解析,以生成所述文本的解析标签部分,其中,识别所述文本中的eSAO集是对所述文本的解析标签部分执行。应用词性标签可以是对所述文本的预格式化部分执行,由此,所述文本的预格式化部分包括移除了非自然语言符号的文本。将所述一个或更多eSAO集与整体_部分关系模式进行匹配可以包括对单个eSAO集进行匹配,并且基于所述匹配来生成一个或更多eSAO整体-部分关系可以包括生成单个eSAO整体-部分关系。将所述一个或更多eSAO集与整体_部分关系模式进行匹配可以包括对一对eSAO集进行匹配,并且基于所述匹配来生成一个或更多eSAO整体-部分关系可以包括基于对所述一对eSAO集进行匹配来生成单个eSAO整体-部分关系。将所述一个或更多eSAO集与整体-部分关系模式进行匹配可以包括访问整体-部分模式数据库,所述整体-部分模式数据库是通过包括以下步骤的方法生成识别文本文件的语料库中的eSAO集;生成语句的语料库,其中,每个语句包含所识别的eSAO集中的至少一个;识别所述语句中的整体_部分关系的特定情况;将整体_部分关系的所述特定情况归纳成eSAO整体-部分模式;以及将所述eSAO整体-部分模式存储在所述整体_部分模式数据库中。识别所述文本中的一个或更多扩展主语_动作_宾语(eSAO)集可以包括访问语言知识库,所述语言知识库具有识别语言模型形式的数据库,其对eSAO成分的定义进行定义。识别所述文本中的一个或更多扩展主语_动作_宾语(eSAO)集可以包括识别所述文本的一个或更多语句中的主语、宾语、动作、形容词、介词、间接宾语和副词中的一个或更多。根据本发明的另一方案,提供了一种用于通过自动识别自然语言文件中的整体-部分关系来生成整体-部分知识库的方法。所述方法包括提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体_部分关系模式进行匹配;基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO;以及将所述一个或更多eSAO整体-部分关系存储在所述整体-部分知识库中。根据本发明的另一方案,提供了一种包括具有计算机可执行指令的计算机可读介质的计算机程序产品,用于执行识别自然语言文件中的整体-部分关系的方法。所述方法包括提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体_部分关系模式进行匹配;以及基于所述匹配来生成一个或更多eSAO整体_部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。所述方法还可以包括将所述一个或更多eSA0整体-部分关系存储在整体_部分知识库中。根据本发明的另一方案,提供了一种用于自动识别电子或数字形式文本中的整体_部分关系的语义处理器,所述语义处理器包括语言知识库和语义分析器。所述语义分析器包括扩展主语-动作-宾语(eSAO)识别器,用于产生基于所述文本的一个或更多eSAO集,其中,所述eSAO集是基于存储在识别语言模型形式的所述语言知识库中的eSAO定义;以及整体_部分识别器,被配置为将所述一个或更多eSAO集与存储在所述语言知识库中的已知整体_部分关系模式进行匹配,并基于所述匹配来产生一个或更多eSAO整体-部分关系。所述语义处理器可以包括包含所述语义分析器的语言分析器。所述语言分析器还可以包括词性标签器,被配置为对所述文本的至少部分应用词性标签;以及解析器,被配置为对由所述词性标签器应用标签的文本进行解析,并将所解析且应用标签的文本提供给所述扩展主语_动作_宾语(eSAO)识别器。所述语义处理器还可以包括预格式化器,被配置为接收所述电子或数字形式的文本,并基于存储在所述语言知识库中的数据来产生预格式化文本,以输入到所述词性标签器;以及知识库生成器,被配置为从所述语言分析器生成的一个或更多eSAO整体-部分关系产生整体_部分知识库。所述预格式化器可以被配置为执行以下功能中的至少一个移除所述文本的数字或电子表示中不形成自然语言文本的一部分的符号;检测并纠正所述文本中的误匹配或错误;以及将所述文本分割成语句和单词结构。所述语义处理器还可以包括整体_部分关系生成器,被配置为生成并存储所述已知整体-部分关系模式。所述整体-部分关系生成器可以包括语料库语言分析器,被配置为识别文本文件的语料库中的eSAO集;语料库eSAO生成器,被配置为生成语句的语料库,其中,每个语句包含所识别的eSAO集中的至少一个;关系识别器,被配置为识别所述语句中的整体_部分关系的特定情况;模式生成器,被配置为将整体_部分关系的所述特定情况归纳成eSAO整体-部分模式;以及模式测试器,被配置为将所述eSAO整体-部分模式存储在整体-部分模式数据库中。所述一个或更多eSAO整体-部分关系的每个都可以包括整体eSAO、部分eSAO以及至少一个将所述整体eSAO关联到所述部分eSAO的顺序运算符。基于所述文本的每个eSAO集可以包括eSAO成分,所述整体eSAO可以包括所述eSAO成分的一个或更多,并且所述部分eSAO可以包括一个或更多不同于所述整体eSAO的一个或更多eSAO成分的eSAO成分。所述eSAO成分可以包括来自于包含以下元素的组的一个或更多元素主语、宾语、动作、形容词、介词、间接宾语和副词。所述整体-部分识别器还可以被配置为将单个eSAO集与已知整体_部分关系模式进行匹配,以生成单个eSAO整体-部分关系。所述整体-部分识别器还可以被配置为将一对eSAO集与已知整体_部分关系模式进行匹配,以生成单个eSAO整体-部分关系。附图通过实例而非限制的方式描绘了优选实施例。在附图中,相同的标号指代相同或相似的部件。图1是根据本发明的方案的语义处理器的结构与功能方案的实施例。图2是根据本发明的方案的语言分析器的结构与功能方案的实施例。图3是根据本发明的方案的语义分析器的结构与功能方案的实施例。图4是根据本发明的方案的建立整体_部分模式的数据库的原理方案的实施例。具体实施例方式将理解,尽管术语第一、第二等可以在本文中用来描述各种部件,但这些部件并不受这些术语的限制。这些术语用来在部件间进行区分,并不意味着部件需要有顺序。例如,在不偏离本发明的范围的情况下,第一部件可以被称为第二部件,类似的,第二部件可以被称为第一部件。如本文所使用的,术语"和/或"包括一个或更多相关列出项的任何以及全部组合。将理解,当提及一部件"在另一部件上"或"连接到"或"耦合到"另一部件时,该部件可以是直接在该另一部件上或者连接或耦合到该另一部件,或者是可以存在中间部件。相反,当提及一部件"直接在另一部件上"或"直接连接到"或"直接耦合到"另一部件时,不存在中间部件。其它用来描述部件之间的关系的词语应该以类似方式进行解释(例如,"在...之间"相对于"直接在...之间"、"相邻"相对于"直接相邻"等)。本文所使用的术语仅用来描述特定实施例,而不是为了限制本发明。如本文所使用的,除非上下文明确指出,否则单数形式"一个(a,an)"和"这个"也包括复数形式。还将理角牟,当在本文中使用时,术语"包括(comprise、comprising、includes禾口/或including),,指定存在所阐述的特征、步骤、操作、部件和/或组件,但并不排除存在或附加一个或更多其他特征、步骤、操作、部件、组件和/或其组合。在各种实施例中,提供了一种用来从电子或数字形式的文件中自动识别并提取非常重要的知识的系统和方法,所识别和提取的知识反映宾语/概念之间和事实之间的"整体_部分"语义关系。例如,宾语/概念之间的整体_部分语义关系示出特定技术设备包括什么组件。而事实之间的整体-部分语义关系例如示出特定技术过程包括的操作以及这些操作的顺序。根据本公开的方案,与仅检领USA0之间的语义关系的现有方法不同,扩展SA0(eSA0)被使用。在优选实施例中,eSA0包括7种成分,其中,至少一种eSA0成分被定义。附加成分提供更深入和更高质量的分析。在其它实施例中,eSAO可以被扩展以包括附加成分。在本文中,术语"eSAO"和"eSAO集"可交换使用,这两种术语指是指多个eSA0成分的集合。在优选实施例中,eSA0成分包括1.主语(S),对宾语(0)执行动作(A);2.动作(A),由主语(S)对宾语(0)执行;3.宾语(0),主语(S)在其上执行动作(A);4.形容词(Adj),修饰主语(S)或动作(A),动作(A)在eSA0中跟在主语之后,且没有宾语(0)(例如"Theinventionisefficient.,,或"Thewaterbecomeshot.,,);5.介词(Pr印),支配间接宾语(10)(例如"Thelampisplacedonthetable.,,或"Thedevicereducesfrictionbyultrasound.,,)56.间接宾语(IO),通常表现为名词短语,其与介词一起修饰动作(A),以作为状语(例如"Thelampisplacedonthetable.,,或"Thedevicereducesfrictionbyultrasound.,,);以及7.副词(Adv),通常修饰执行动作(A)的条件(例如"Theprocessisslowlymodified.,,或"Thedrivermustnotturnwheelinsuchamanner.,,)。eSA0格式的应用实例在下面的表1和表2中示出<table>tableseeoriginaldocumentpage10</column></row><table>表1输入语句Themaximumvalueofxisdependentontheionicradiusofthelanthanidedement.输出主语maximumvalueofx动作Be宾语-介词On间接宾语ionicradiusofthelanthanide形容词Dependent副词一表2事实之间(即eSA0之间)的语义关系的一种类型是因果关系,如在标题为"ComputerBasedSummarizationofNaturalLangimgeDocuments.,,的美国专利申请公开No.20030130837中所讨论。在该公开中还描述了因果关系的识别。例如,输入语句"Todaytheusercandownload10,000papersfromthewebbytypingtheword'screen'."将得出如表3中所示的eSAO之间的因果关系。1<table>tableseeoriginaldocumentpage12</column></row><table>表3语义处理被用于建立来自自然语言文件中的eSA0的知识内存在的整体_部分关系。假定宾语是事实(完整或不完整)的组成部分,则eSAO格式在这里被认为是文件内容的正式知识表示的格式。在说明性实施例中,用于识别电子或数字形式的文本中的整体-部分关系的语义处理包括对该文本进行预格式化;执行语言分析;以及生成整体_部分知识库。根据本发明的方案的整体-部分语义处理器(下文中用语义处理器(SP)表示)的实施例可以参照图1来理解。语义处理器100对原始文本10进行处理以生成整体_部分知识库50。在该实施例中,语义处理器100包括预格式化器20(用于对原始文本进行预格式化)、语言分析器30(用于执行语言分析)以及知识库生成器40(用于生成整体_部分知识库50)。语义处理器100的所有模块的功能可以在语言知识库60中进行维护,该语言知识库60包括各种数据库(比如字典、分类器、统计数据等)和用于识别语言模型(用于文本到单词的分离,名词和动词短语、主语、宾语、动作及其定语的识别,因果关系识别等)的数据库。语言分析器30和知识库生成器40在下文中另外详细描述。由预格式化器20执行的文本预格式化优选地根据美国专利申请公开No.20030130837中描述的技术来执行。优选地,对文本进行预格式化包括从文本中移除非自然语言符号,例如标点。图2说明了包括语言分析器30的模块的实施例。语言分析器30对来自预格式化器20的预格式化文本进行处理,以产生语义分析文本16。预格式化文本12由词性标签器32(用于确定词性标签并将其应用于预格式化文本12)来接收。解析器34随后对应用了POS标签的文本进行解析,以供语义分析器300进行处理。由所述POS标签器和解析器34执行的功能优选地根据美国专利申请公开No.20030130837中描述的技术来执行。图3说明了包括语义分析器300的模块的实施例。语义分析器300接收解析文本14,并产生语义分析文本16。语义分析器300具有执行eSA0识别的eSA0识别器310。ESA0识别优选地根据美国专利申请公开No.20020010574和美国专利申请公开No.20020116176中描述的技术来执行。对所有eSAO元素的识别是通过相应的识别语言模型来实现的,所述识别语言模型是知识库100的部分。这些模型描述了使用词性标签、词法和句法分类的规则,所述规则随后被用于从解析文本提取具有限定动作、非限定动作、动名词的eSA0。动作提取规则的一个实例为〈HVZXBENXVBN〉=>(〈A>=〈VBN》该规则意思是"如果输入语句包含在应用词性标签步骤中分别获得HVZ、BEN、VBN标签的单词wl、w2、w3的序列,则该序列中具有VBN标签的单词是动作"。例如,hasHVZbeenBENproduced_VBN=>(A=produce)。此外,在提取主语和宾语的规则中还要考虑动作的语态(主动或被动语态)。整体-部分(W-P)识别器320执行eSA0内和/或eSA0之间的整体-部分关系的识别,然后产生语义分析文本16。在下文中根据本发明的方案对该过程的实施例进行更详细的描述。整体-部分识别器320使用算法来检测单个eSA0中以及不同eSA0之间的文本语句内的整体-部分关系。这些算法可被归类为生成语言模型或模式。首先,这些模式描述使用环境,即,语句中存在整体-部分关系的指示符,然后,描述这样的信息,所述信息关于单个eSA0中的哪些成分充当所述关系中的整体元素以及单个eSA0或eSA0集中的哪些成分充当所述关系中的部分元素。整体-部分指示符是指单独的eSA0成分并描述语言单元、它们的词法和语法标签、语义类别等。整体-部分识别器320优选地对所有eSA0,以及与公共列表中的一种模式相符的eSA0集进行分析。如果eSA0或eSA0集与一模式相符,则整体_部分识别器320根据该模式对整体_部分关系的存在进行登记,并对eSA0或eSA0集中的那些成分是整体类型的语义单元以及那些成分是部分类型的语义单元进行标记。以这种方式标记的eSA0和eSA0集随后被指引到知识库生成器40(参见图1),该知识库生成器40形成宾语/概念列表和事实列表,并将这些列表存储在整体_部分知识库50中,所述宾语/概念之间以及所述事实之间具有整体-部分关系。下面是根据该实施例的用于识别文本中的整体_部分关系的优选模式。然而,根据其它实施例也可以使用其它模式。部分I.用于识别单个eSA0中的整体_部分关系的模式模式1:"主语/宾语+动作"类型如果在文本中识别出eSA0且该eSA0具有至少三个非空字段用于主语、动作和宾语,则该模式形成。在该实施例中,对于这种模式存在两种可能情况。在第一种情况中,主语具有"PART-0F(……的部分)"意义,宾语非空,并且联系主语和宾语的动作具有系动词的意义。在第二种情况中,动作具有相同意义,主语非空,并且宾语具有"PART-OF"意义。在任何一种情况中,eSAO成分(主语或宾语)的具有"PART-OF"意义的特定部分被识别为输出关系的整体成分,所指示的一对成分中的另一成分被识别为部分成分。在这种模式中,"PART-OF"主语/宾语的意思是一非终结符之后为单词"of",再之后为任意单词或短语,所述非终结符表示任何其中没有单词"of"的单词或短语,并且以与如下列表中的至少一个单词匹配的单词或短语结束"partIcomponent|constituent|element|unit|construct|ingredient|interior|inside,,。所述主i吾/宾i吾的足艮在单i司"of,,后面的部分被识别为输出关系的"整体"部分。在优选实施例中,"系动词"的意义至少与单词或短语"belpresentlr印resent"相匹配。表4示出了第一情况下模式1的一般形式。主语PART-0F整体动作系动词宾语非空部分介词间接宾语形容词副词表4例如,考虑输入语句为"Theprincipalpartofthecaristhedriver'swheel."表5示出了从该语句提取的eSA0:主语principalpartofthecar动作be宾语driver'swheel介词间接宾语形容词副词表5因为该eSA0满足模式1的条件,所以获得以下整体_部分关系整体=car部分=driver'swheel表6示出了第二种情况下模式1的一般形式。<table>tableseeoriginaldocumentpage15</column></row><table>表6例如,输入语句"Thedriver'swheelrepresentstheprincipalpartofthecar"将产生表7中示出的eSA0:<table>tableseeoriginaldocumentpage15</column></row><table>表7根据优选实施例,从该输入语句得到的整体_部分关系为整体=car部分=driver'swheel樽式2:"动作"类型如果动作字段具有"COMPRISE(包括)"意义或用动词"have"或"include"来表示,则模式2形成。在这种模式中,"COMPRISE"动作意思是至少表示下列单词或短语的非终结符-"comprise|contain|incorporate|consistof,,。表8不出了模式2的一般形式。<table>tableseeoriginaldocumentpage16</column></row><table>表8在用动词"have"表示动作的情况中,该动作在原句中必须是用"having"形式来表示。用动词"include"来表示以及在原句中用"including"形式来表示的动作所涉及的eSAO必须具有单数主语。例如,输入语句"Theinternalcombustionengine15bcontainsthecamshaftl7a","Theinternalcombustionengine15bhavingthecamshaft17a,,,"Theinternalcombustionengine15bincludesthecamshaft17a,,,"Theinternalcombustionengine15bincludingthecamshaft17a,,的每一个都将产生表9中示出的相应eSAO。<table>tableseeoriginaldocumentpage16</column></row><table>主语internalcombustionengine15b副词表9因为所有这些eSA0都满足模式2的条件,所以获得下列整体_部分关系整体=internalcombustionengine15b部分=camshaft17a樽式3:"动作+介词"类型这种模式存在两种类型。在第一种情况中,如果动作字段具有"EQUIP(装备)"意义且介词字段具有"WITH(具有)"意义,则该模式形成。在这种情况中,"EQUIP"动作意思是至少表示单词或短语"equipIprovideIsupplyIinstrument"的非终结符。"WITH"介词意思是至少表示单词"with"的非终结符。表10示出了这种情况下模式3的一般形式。主语动作EQUIP宾语非空整体介词WITH间接宾语非空部分形容词副词表10例如,输入语句"Thecarisequippedwiththeengine,,将产生表11中示出的eSA0:主语动作equip宾语CM*介词with<table>tableseeoriginaldocumentpage18</column></row><table>表ll根据优选实施例,从该输入语句产生的整体-部分关系为整体=car部分=engine在第二种情况中,如果动作字段具有"POSITION(位于)"意义并在原句中用动词的被动形式来表示,并且介词字段具有"INSIDE(内)"意义,则模式3形成。在这种模式中,"POSITION"动作意思是至少匹配单词或短语"equipIprovideIsupplyIinstrument"的非终结符。"INSIDE"介词意思是至少匹配单词或短语"insideIwithin"的非终结符。表12示出了这种情况下模式3的一般形式。<table>tableseeoriginaldocumentpage18</column></row><table>表12例如,输入语句"Theengineislocatedinsidethecar"将产生表13中示出的eSA0:<table>tableseeoriginaldocumentpage18</column></row><table>主语介词inside间接宾语CM*形容词副词表13根据优选实施例,从该输入语句产生的整体-部分关系为整体=car部分=engineM^i:"名词短语"类型如果表示eSAO的主语成分或宾语成分的名词短语包含下列结构,则模式4形成NG1-C0NTAINING|RICHNG2在这种模式中,NG1和NG2是表示名词组的非终结符;"CONTAINING"是至少匹配单词或短语"containing|comprising|incorporating"的非终结符;"RICH,,是至少表示单词"richIbased|laden|enriched|reduced|fortified"的非终结符。在这种情况中,NG2被识别为整体_部分关系的整体成分,而NG1被识别为部分成分。例如,输入语句(该实例仅包含模式说明所需的语句部分)"Gold-containingcardis..."和"Oxygen-richwateris..."满足模式4的条件,并相应的得到下列整体-部分关系整体=cord整体=water部分=gold部分=oxygen部分II.用于从eSAO集识别整体_部分关系的模式M^l:"动名词短语"类型模式5旨在提取多个eSAO之间的整体-部分关系,其中,一个eSAO表示所述关系的整体成分,而其它eSAO表示部分成分。如果具有在原句中用动名词(VBG)短语表示的动作字段的eSAO后面跟有动作字段具有"COMPRISE(包括)"意义的eSA0,并且再后面跟有一个或更多用动名词短语表示并用";"或","或其它标点或连词分离的eSA0,则模式5形成。第一个eSAO被标记为整体eSA0,而从第三个eSAO开始的其它eSAO被标记为部分eSA0。在以上提到的至少三个eSAO之间,如果需要的话,可以存在其它所谓的定语eSAO的eSA0,它们可以被标记为eSAO-定语。在这种模式中,"COMPRISE"动作意思是至少匹配单词或短语"compriseIincludeIcontainIincorporateIconsistof,,的非终结符。表14不出了模式5的一般形式,其中不包括定语eSAO。<table>tableseeoriginaldocumentpage20</column></row><table>表14例如,从输入语句"Creatingadataflowincludesthefollowingsteps:addingoneormoresourcestoextractdatafromfilesanddatabases;addingthetransformationsthatmeetthebusinessrequirements"中提取的eSA0集在表15中示出。<table>tableseeoriginaldocumentpage20</column></row><table>表15由于所有这些eSAO都满足模式5的条件,所以获得下列整体_部分关系整体=eSA0-l部分={eSA0-3/定语eSA0_4,eSA0-5/定语eSAO-6}[OH8]樽式6:"IF从句"类型如果具有在原句中用通过连词(至少为"iflwhen")引出的条件从句(IF从句)表达的动作字段的eSAO后面跟有具有"PERFORM(执行)"意义的动作字段的eSAO,并且再后面跟有一个或更多用";"或","或其它标点或连词分离的eSA0,则模式6形成。第一个eSAO被标记为整体eSAO,而从第三个eSAO开始的其它eSAO被标记为部分eSAO。在这种模式中,"PERFORM"动作意思是至少匹配单词或短语"followlcomplete|do|perform|take"的非终结符。表16示出了模式6的一般形式。eSAO-1eSA0-2{eSA0-i},i>3主语动作IF从句PERFORM非空宾语介词间接宾语形容词副词表16例如,从输入语句"Wheninitiallycreatinganextension,takethefollowingst印s-coordinatetheuseofextensionwiththevendor;writeanextensionspecification,,提取的eSAO集在表17中示出。eSAO-1eSA0-2eSA0-3eSAO-4主语动作createtekecoordinatewrite宾语extensionfollowingstepsuseofextensionextensionspecification21eSA0-leSA0-2eSA0-3eSAO-4介词with间接宾语vendor形容词副词initially表17由于所有这些eSAO都满足模式6的条件,所以获得下列整体_部分关系整体=eSAO-1部分={eSA0-3,eSAO-4}樽式7:"不定式短语"类型如果具有在原句中用通过小品词"to"或至少短语"inorderto"引出的不定式短语表达的动作字段的eSAO后面跟有其中动作字段具有"PERFORM"意义的eSA0,并且再后面跟有一个或更多用";"或","或其它标点或连词分离的eSA0,则模式7形成。第一个eSAO被标记为整体eSAO,而从第三个eSAO开始的其它eSAO被标记为部分eSAO。在这种模式中,"PERFORM"动作意思是至少匹配单词或短语"followIcomplete|do|perform|take"的非终结符。表18示出了模式7的一般形式。eSAO-1eSA0-2{eSA0-i},i>3主语动作不定式短语(T0VB)PERFORM非空宾语介词间接宾语形容词副词表18例如,从输入语句"TochangeyourmarginsinMicrosoftInternetExplorerfollowthesesteps:ClickontheFilemenu;SelectPageSetup,,提取的eSAO<table>tableseeoriginaldocumentpage23</column></row><table>表19由于所有这些eSA0都满足模式7的条件,所以获得下列整体_部分关系整体=eSAO-1部分={eSA0-3,eSAO-4}图4示出了可以用来生成能够用在本文公开的实施例中的关系模型的模块。如图4中所示,足够大的文本文件的语料库170被优选地用来建立和形成模型或模式。语料库语言分析器180对语料库170执行语言分析以识别eSA0。语料库eSA0生成器190生成包含至少一个eSA0(完整或不完整)的语句的语料库。关系识别器200对包含至少一个eSA0的语句中的整体_部分关系的一些特定情况进行识别处理。模式生成器210将特定情况归纳成更一般的模式。模式测试器220检查整体-部分关系的存在并将批准的模式放置到用于整体_部分关系识别的数据库230中。优选地,关系识别器200的功能由专家手动实行。例如,专家对来自eSA0文本语料库的语句"Theengineislocatedinsidethecar"进行分析,其中,语言分析器执行词性标签应用、解析和语义分析并识别eSA0(参见表13),并且专家设置指示该eSA0的宾语和间接宾语形成整体_部分关系的特殊标签,其中,间接宾语是所述关系的整体成分,宾语是部分成分。这种角色分配可以是基于介词"inside"的意义。随后该语句进入到模式生成器210。模式生成器210对整体-部分关系进行分析并将其归纳到模式的级别。模式生成器的功能同样优选地由专家手动实行。以这种方式,专家既考虑了他或她自己的经验和知识,又考虑了包含在语言知识库中的知识。回到前面的实例,专家应该得出结论介词"within"具有与介词"inside"相似的意思,并且至少云力词"situate|contain|position|dispose|fix|installlmountlhouse"具有与动词"locate"相似的意思。因此,专家以表12中表示的方式登记模式的原型。模式测试器220使用原型模式来在eSA0文本语料库中寻找整体_部分关系的实例。专家对所获得的实例进行分析并批准模式(可以有一些纠正)。模式测试器220随后将该批准的模式放入用于整体_部分识别的模式数据库230中。如上所述,语义分析器180和模式生成器210都可以访问语言知识库,以执行它们的功能。此外,在一些实施例中,模式数据库230可以被合并到语言知识库60中以支持上面参照图1-3所描述的整体_部分语义处理。根据本发明的方案的实施例可以由驻留在一个或更多计算机、微处理器、微控制器或其它处理设备上的计算机可执行指令来提供。用于执行系统和方法的计算机可执行指令可以驻留在处理设备中的存储器内,或者可以通过软盘、硬盘、致密盘(CD)、数字通用盘(DVD)、只读存储器(ROM)或任何其它存储介质来提供给处理设备。前面对示例性的优选实施例的详细描述只是为了说明的目的而阐述。并不意图穷举或将本发明限制为所描述的精确形式,而仅仅是想要使本领域技术人员能够理解本发明可以如何用于特定使用或实现。理解了本文的公开内容后,可以进行的修改和变化对于本领域技术人员将是显而易见的。对示例性实施例的描述并不意图是限制性的,其可以包括容限、特征大小、特定工作条件、工程规范等,并且其可以在实现之间变化,或者随着现有技术的状态变化而变化,并且这些示例性实施例的描述不应该暗含限制。已经参照现有技术的当前状态给出了本公开,而且本公开设想了改进,并且设想了在将来的修改可以考虑这些改进,即根据现有技术的到那时的当前状态。本发明的范围意在由所写出的权利要求和可适用的等价物所限定。而且,本公开中的任何要素、组件、方法或过程步骤都不是意在可为公众所用,不管在权利要求中是否明确记载了该要素、组件或步骤。除非要素使用"用于……的模块"的短语来明确记载,否则,本文中的权利要求要素都不得按照美国法典第35条第112款第六段来进行解释,并且,除非步骤或多个步骤使用"用于……的步骤"的短语来明确记载,否则,本文中的方法或过程步骤都不得按照美国法典第35条第112款第六段来进行解释。权利要求一种用于自动识别自然语言文件中的整体-部分关系的方法,所述方法包括提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体-部分关系模式进行匹配;以及基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。2.根据权利要求1所述的方法,其中,所述一个或更多eSAO成分是来自于包括下列元素的组的一个或更多元素主语、宾语、动作、形容词、介词、间接宾语和副词。3.根据权利要求1所述的方法,其中所述整体eSAO包括所述eSAO成分中的一个或更多,或所述一个或更多eSAO集的单个eSAO成分的一部分;并且所述部分eSAO包括所述eSAO成分中的一个或更多,或所述一个或更多eSAO集的单个eSAO成分的一部分。4.根据权利要求2所述的方法,其中,所述eSAO整体-部分关系包括顺序运算符,所述顺序运算符将所述整体eSAO的eSAO成分关联到所述部分eSAO的eSAO成分,所述运算符包括词法、语法和语义语言指示符中的一个或更多。5.根据权利要求1所述的方法,还包括对所述文本的至少部分应用词性标签,以生成所述文本的应用标签的部分;以及对所述文本的所应用标签的部分进行解析,以生成所述文本的解析且应用标签的部分,其中,识别所述文本中的eSAO集是对所述文本的所解析且应用标签的部分执行的。6.根据权利要求5所述的方法,其中,应用词性标签是对所述文本的预格式化部分执行的,由此,所述文本的预格式化部分包括移除了非自然语言符号的文本。7.根据权利要求1所述的方法,其中将所述一个或更多eSAO集与整体_部分关系模式进行匹配包括对单个eSAO集进行匹配;并且基于所述匹配来生成一个或更多eSAO整体-部分关系包括生成单个eSAO整体-部分关系。8.根据权利要求1所述的方法,其中将所述一个或更多eSAO集与整体_部分关系模式进行匹配包括对一对eSAO集进行匹配;并且基于所述匹配来生成一个或更多eSAO整体-部分关系包括基于对所述一对eSAO集进行匹配来生成单个eSAO整体-部分关系。9.根据权利要求1所述的方法,其中,将所述一个或更多eSAO集与整体-部分关系模式进行匹配包括访问整体_部分模式数据库,所述整体_部分模式数据库是通过包括以下步骤的方法生成的识别文本文件的语料库中的eSAO集;生成语句的语料库,其中,每个语句包含所识别的eSAO集中的至少一个;识别所述语句中的整体_部分关系的特定情况;将整体_部分关系的所述特定情况归纳成eSA0整体-部分模式;以及将所述eSAO整体-部分模式存储在所述整体_部分模式数据库中。10.根据权利要求i所述的方法,其中,识别所述文本中的一个或更多扩展主语-动作_宾语(eSAO)集包括访问语言知识库,所述语言知识库具有对eSAO成分进行定义的数据库。11.根据权利要求l所述的方法,其中,识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集包括识别所述文本的一个或更多语句中的主语、宾语、动作、形容词、介词、间接宾语和副词中的一个或更多。12.—种用于通过自动识别自然语言文件中的整体_部分关系来生成整体_部分知识库的方法,所述方法包括提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语_动作_宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体_部分关系模式进行匹配;基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO;以及将所述一个或更多eSAO整体-部分关系存储在所述整体_部分知识库中。13.—种包括具有计算机可执行指令的计算机可读介质的计算机程序产品,用于执行识别自然语言文件中的整体_部分关系的方法,所述方法包括提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语_动作_宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体_部分关系模式进行匹配;以及基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。14.根据权利要求13所述的计算机程序产品,其中,所述方法还包括将所述一个或更多eSAO整体-部分关系存储在整体_部分知识库中。15.—种用于自动识别电子或数字形式的文本中的整体-部分关系的语义处理器,所述语义处理器包括语言知识库;以及语义分析器,包括扩展主语-动作-宾语(eSAO)识别器,用于产生基于所述文本的一个或更多eSAO集,其中,所述eSAO集是基于存储在所述语言知识库中的eSAO定义;以及整体_部分识别器,被配置为将所述一个或更多eSAO集与存储在所述语言知识库中的已知整体_部分关系模式进行匹配,并基于所述匹配来产生一个或更多eSAO整体-部分关系。16.根据权利要求15所述的语义处理器,其中,所述语义处理器包括包含所述语义分析器的语言分析器,所述语言分析器还包括词性标签器,被配置为对所述文本的至少部分应用词性标签;以及解析器,被配置为对由所述词性标签器应用标签的文本进行解析,并将所解析且应用标签的文本提供给所述扩展主语-动作-宾语(eSAO)识别器。17.根据权利要求16所述的语义处理器,还包括预格式化器,被配置为接收所述电子或数字形式的文本,并基于存储在所述语言知识库中的数据来产生预格式化文本,以输入到所述词性标签器;以及知识库生成器,被配置为根据所述语言分析器生成的一个或更多eSA0整体-部分关系产生整体-部分知识库。18.根据权利要求17所述的语义处理器,其中,所述预格式化器被配置为执行以下功能中的至少一个移除所述文本的数字或电子表示中不形成自然语言文本的一部分的符号;检测并纠正所述文本中的误匹配或错误;以及将所述文本分割成语句和单词结构。19.根据权利要求15所述的语义处理器,还包括整体-部分关系生成器,被配置为生成并存储所述已知整体_部分关系模式,所述整体_部分关系生成器包括语料库语言分析器,被配置为识别文本文件的语料库中的eSA0集;语料库eSA0生成器,被配置为生成语句的语料库,其中,每个语句包含所识别的eSAO集中的至少一个;关系识别器,被配置为识别所述语句中的整体_部分关系的特定情况;模式生成器,被配置为将整体_部分关系的所述特定情况归纳成eSA0整体-部分模式;以及模式测试器,被配置为将所述eSA0整体-部分模式存储在整体_部分模式数据库中。20.根据权利要求15所述的语义处理器,其中,所述一个或更多eSA0整体-部分关系中的每一个都包括整体eSA0、部分eSA0以及至少一个将所述整体eSA0关联到所述部分eSA0的顺序运算符。21.根据权利要求20所述的语义处理器,其中,基于所述文本的每个eSA0集包括eSA0成分,所述整体eSA0包括所述eSA0成分的一个或更多,并且所述部分eSA0包括一个或更多不同于所述整体eSA0的一个或更多eSA0成分的eSA0成分。22.根据权利要求21所述的语义处理器,其中,所述eSA0成分是来自于包括以下元素的组的一个或更多元素主语、宾语、动作、形容词、介词、间接宾语和副词。23.根据权利要求15所述的语义处理器,其中,所述整体-部分识别器还被配置为将单个eSA0集与已知整体_部分关系模式进行匹配,以生成单个eSA0整体-部分关系。24.根据权利要求15所述的语义处理器,其中,所述整体-部分识别器还被配置为将一对eSA0集与已知整体_部分关系模式进行匹配,以生成单个eSA0整体-部分关系。全文摘要一种用于自动识别至少一个自然语言的电子或数字文件中的整体-部分关系的语义处理器和方法执行以下操作识别文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体-部分关系模式进行匹配;以及基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。文档编号G06F17/30GK101702944SQ200880014918公开日2010年5月5日申请日期2008年3月17日优先权日2007年3月15日发明者A·沃龙佐夫,A·韦特尔,D·帕斯塔诺豪,I·索夫佩尔,J·托德亨德申请人:发明机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1