基于关键词和动词依存的中文实体关系抽取方法与流程

文档序号:16670152发布日期:2019-01-18 23:31阅读:435来源:国知局
基于关键词和动词依存的中文实体关系抽取方法与流程
本发明涉及中文实体关系抽取方法,尤其涉及一种基于关键词和动词依存分析的大规模自由文本抽取方法。
背景技术
:随着互联网信息技术的飞速发展,互联网上的文本信息呈现爆炸式增长。如何从大规模的文本信息中快速而准确地抽取人们需要的信息成为研究的热点。因此,信息抽取技术应运而生。实体关系抽取作为信息抽取的重要组成部分,其目的在于从自然语言文本挖掘出实体间的语义关联,不仅有助于领域本体的建立,促进知识图谱的构建,而且通过对实体间的语义信息深入挖掘与分析能够进一步理解用户的搜索意图,从而为用户提供更加精准的搜索服务,提高用户搜索体验。传统的中文实体关系抽取面向的是特定领域文本的、限定关系类别、限定实体类别等的抽取,常用的方法是基于有监督的机器学习方法。这种有监督的实体关系抽取方法需要人工标注关系语料库,预定义关系类型,但面对现实中海量的非结构化、跨领域的中文文本,很多时候难以预先确定实体关系类型,所以有监督的机器学习方法在实体关系抽取中遇到了严峻挑战。因此,面对大规模自由文本,开放式无监督的关系抽取方法受到越来越多的关注。现有开放式无监督关系抽取方法主要有基于聚类算法、基于启发式规则和基于句法分析的实体抽取方法。其中,基于聚类的实体关系抽取方法是通过距离、位置等限制获得实体对,再运用某种聚类算法将语义相似的实体对聚为同一类簇,然后选择代表性的词作为每个类簇的关系表述。该方法不需要预定义关系类别、标注语料、制定人工规则,很大程度上降低了人工参与,但该类方法仍有一些不足之处,比如聚类算法中固有的聚类数目、聚类中心的确定问题,而且需要大量相关实体对才能训练出好的效果,对于低频实体对的召回率较低,此外难以准确归纳每个类簇的关系描述词。基于启发式规则的实体抽取方法一般是通过对大量中文实体抽取结构特征进行分析,总结出常见三元组的实体对距离和关系指示词在实体间位置分布,然后通过对实体间距离和关系词位置的限制生成候选三元组,最后对候选三元组进行过滤。有研究是采用全局排序和类型排序的方法来挖掘关系指示词,然后使用关系指示词和句式规则对关系三元组进行过滤,该方法从文本中抽取的实体关系三元组准确率较高,但通过实体对间距离的限制可能会过滤掉一些有关联的实体对而且关系指示词的不全面会将有语义关联的三元组过滤掉,所以使得抽取的召回率较低。基于句法分析的实体关系抽取通过分析句子句法结构以及词语间的依存关关系识别实体对之间的关系。常用的基于句法分析的方法是获取两实体间最短依存树,然后以两实体间的最短依赖路径中的词汇作为关系词,构造出三元组,该类方法操作简单,但得到的关系词可能是多个词语的组合,而在一些复杂中文句子中获得的组合词也未必能形成正确的短语,所以关系表述可能会很抽象,意义比较模糊。此外,还有一类基于句法分析的方法是深入挖掘实体间最短依存路径所蕴含的依存语义,利用依存关系、词性信息和位置关系等特征为限定,得到依存语义范式,若输入文本中实体对间的依存路径与所提的依存语义范式匹配,则能抽取出三元组关系。该方法对抽取的关系词相对准确,计算复杂度低,抽取效率高,而对于复杂文本,特别是有多个实体的句子,抽取效果不太理想。但总体来说,基于句法分析的实体关系计算复杂度低,能应对大规模、跨领域中文文本的实体关系抽取。当代许多语法学家,无论中外,都强调动词是句子结构的核心,主张“动词中心说”,因为词项之间客观存在的句法语义关联主要表现在动词词项对其他词项(主要为名词词项)的制约上,所以动词可以作为考察句子语义结构的出发点,能够挖掘动词和前后名词性成分的语义组合关系。通过对大量关系实例统计分析,连接两实体的动词一般可以表示实体间的语义关系,因此可以对依存于动词的成分进行分析,发掘与动词构成主谓、动宾、动补等依存关系的词项,若这些词项是实体,则可构建较为准确的实体关系三元组。例如,对于句子的动词,若找到依赖于该动词的主语和宾语,并且主语和宾语都是实体,则该主语、宾语和动词可构建为三元组。研究发现,目前非特定领域的实体关系抽取主要针对人、机构、地点之间的关系抽取,而一些文章比如一篇关于介绍大数据的文章或一篇产品说明书,其中人、机构、地点等命名实体出现的频率较少,若仅提取这些命名实体的语义关系,很难挖掘文本的深层语义关系。而一篇文本文档中频繁出现的词汇,尤其是名词,一定程度上能够反映文档描述的主要内容,因此可以增加关键名词扩充文档实体集,挖掘更多文本中主体信息之间联系,从而构建出更加丰富的语义网络。技术实现要素:本发明的目的在于面对现有大规模非结构化自由文本的实体关系抽取,有监督的方法由于难以预定义关系类别、标注关系语料而受到制约,现有开放式无监督实体关系抽取方法虽然有些成效,但总体准确率不高,从而提出一种能够使跨领域自由文本关系抽取更加准确的无监督关系抽取方法,即提供一种基于关键词和动词依存的中文实体关系抽取方法,使大规模中文文本的实体关系抽取更加有效,更加精确。实现上述目的的技术方案是:一种基于关键词和动词依存的中文实体关系抽取方法,包括:对文本进行分词,抽取关键词,生成文本关键词词库;对文本分句,对各个单句分别进行分词、词性标注、命名实体识别和依存句法分析,获得每个单句的分词、词性、命名实体和依存句法分析信息;获取各个单句中的动词集合和实体集合;单句中动词和实体个数都大于0时,分析依存于动词的词项是否匹配关系句法规则,若匹配,获得初始的实体关系三元组,再对实体关系三元组进行扩充;否则,进行该单句的下一个动词匹配;文本中所有单句执行关系抽取后,得到文本三元组集合。优选的,根据句号、感叹号和问号对输入的文本进行分句处理,获得单句集合。优选的,抽取关键词时,先根据词性特征对分词结果进行过滤,仅保留名词性词项作为候选关键词,再计算候选关键词的tf-idf权值,最后将阈值大于设定阈值的词输入文本关键词集合;其中,tf是指词在文本中出现的次数,idf是指逆文件频率。优选的,所述的实体集合由文本全局关键词集合和命名实体构成。优选的,所述的关系句法规则是根据句子依存句法结构,将动词作为候选关系词,分析句子中其他词项与动词的依存关系是否为主谓、动宾、介宾、动补关系,若句中存在两个词项与动词间的依存关系为这些关系中的两种,比如主谓和动宾,主谓和介宾等,且这两个词项都是实体,则可确定初始的实体关系三元组。优选的,所述的关系句法规则包括判断类动词的isa规则和其他动词的非isa规则。优选的,isa规则中,实体与关系词有关的规则的句子结构表示为“entity1+noun+is+entity2”或“entity2+is+entity1+noun”,实体关系三元组初步表示为(entity1,noun,entity2);其中,entity1和entity2是句子中的实体对,一个实体与判断类动词为主谓关系或动宾关系,另一个实体与判断类动词无直接关系;noun表示句子中的名词,与判断类动词存在主谓关系或动宾关系,并且存在另一个实体与判断类动词无直接关系,但与该名词是定中依存关系,用来修饰该名词;isa规则中,实体与关系词无关的规则是指句子中存在一个实体与判断类动词为主谓关系,存在一个名词与判断类动词为动宾关系,而实体与实体之间是并列关系,其句子结构可表示为“entity1+conj+entity2(++)+is+noun”,关系三元组可初步表示为(entity1,noun,entity2);其中,entity1和entity2是句子中的实体对,entity2(++)表示可能存在一个或多个实体与entity1并列,noun是句子中的名词。优选的,非isa规则包括动词有主语规则以及动词无主语规则;动词有主语规则包括主谓宾结构、主谓介宾结构、主谓补宾结构、前宾介宾结构和其他结构,具体包括:所述主谓宾结构是指从某一动词出发,根据依存句法,该动词的主语和宾语存在,且都为实体,可以建成初始的实体关系三元组;所述主谓介宾结构是指从某一动词出发,根据依存句法,该动词的主语存在且为实体,依存于该动词的介词有宾语且为实体,可以抽出初始的实体关系三元组;所述主谓补宾结构是指从某一动词出发,该动词为不及物动词,根据依存句法,该动词存在主语且为实体,存在依存于动词的补语,而补语有宾语且为实体,可构成初始的实体关系三元组;所述前宾介宾结构是指从某一动词出发,根据依存句法,存在依存于该动词的前置宾语且为实体,存在依存于该动词的介词,而介词有宾语且为实体,可形成初始的实体关系三元组;所述其他结构是指从某一动词出发,根据依存句法,该动词的主语存在且为实体,存在依存于动词的其他结构,该结构存在宾语且为实体,能够构建出三元组关系;动词无主语规则包括动词并列结构和句子无主语结构,具体包括:所述动词并列结构表示句子中存在一个词项能够与某个动词直接建立动宾关系或间接建立介宾关系、补宾关系,且该词项为实体,没有能与该动词建立主谓关系的词项,但存在与该动词并列的其他动词,两者主语一致,所以以其并列动词的主语作为主语,可构建实体关系三元组;所述句子无主语结构表示句子不存在主语,但存在一个词项能与某个动词直接建立动宾关系或间接建立介宾、补宾关系,且该词项为实体,根据中文启发式规则可追溯该句子的前一个句子,以前句核心动词的主语作为该句的主语;在依存句法理论中,主张核心动词是句子的中心成分,支配着其他成分,而一个句子可能存在多个动词,每个动词可能都存在主语,所以该规则只取前句的核心动词的主语作为该句的主语。优选的,所述的对实体关系三元组进行扩充,包括实体词扩充、关系词扩充和并列三元组扩充,具体为:所述的实体词扩充是将关键词实体与其定语修饰词合并;所述的关系词扩充包括添加否定状语、添加非实体宾语;所述的并列三元组扩充是当已获取实体关系三元组中的实体存在并列实体时,将并列实体与该关系词组成新的三元组。本发明的有益效果是:本发明区别于一般中文实体抽取只关注命名实体(人名、地名、机构名)之间的关系,以文本全局关键词扩充传统的命名实体集,增加描述文本主要内容的关键词的语义关系,使构建的文本语义网络更加丰富。本发明区别于一般基于句法分析的无监督实体抽取方法大多从实体对出发寻找其关系词,效率不高,该方法以动词为候选关系词,根据中文语法中动词能够连接前后名词性成分之间语义关系,以动词依存句法为立足点,无需限制实体之间的距离、无需考虑关系词的位置,较一般基于句法分析的实体抽取方法获取的三元组更加准确高效。附图说明图1为本发明实体关系抽取流程图;图2为本发明关系句法规则分类图;图3为本发明依据句法分析的一实例示意图;图4为本发明依据句法分析的二实例示意图;图5为本发明依据句法分析的三实例示意图;图6为本发明提出的关系句法规则的一示意图;图7为本发明提出的关系句法规则的二示意图;图8为本发明提出的关系句法规则的三示意图;图9为本发明提出的关系句法规则的四示意图;图10为本发明中依据句法分析的一实例示意图;图11为本发明中依据句法分析的二实例示意图。具体实施方式下面将结合附图对本发明作进一步说明。本发明的基于关键词和动词依存的中文实体关系抽取方法,分析动词的依存关系,实现大规模自由文本的实体关系抽取,为构建文本语义网络提供数据支持,参见图1,具体包括以下步骤:步骤1,对输入的文本进行分词,抽取关键词,将抽取的关键词生成关键词词库。抽取文本全局关键词的目的是扩充传统实体集,传统实体集只针对人名、地名、机构名等命名实体,而本发明是面向的大规模无领域自由文本,若一篇文本文档几乎没有人名、地名和机构名,那么就会导致抽不出实体关系,所以本发明将关键词作为实体集的一部分,进行实体关系抽取,挖掘文档中语义关系。关键词是能够表示文本主题的词语或短语,且关键词大多为名词,一篇文本语料中的关键词可能在该文档中频繁出现,而在其他文档中出现次数较少,所以本发明提取关键词时,先对文本进行分词,再根据词性特征过滤掉一些非名词类的词语,仅保留名词性词项作为候选关键词,计算候选关键词的tf-idf(词频-逆文档频率)权值,将阈值大于设定阈值的词作为文本关键词,并输入文本关键词集合。其中,tf是指词在文本中出现的次数,idf是指逆文件频率,提取tf-idf特征倾向于识别在某篇文档中经常出现,但在其他文档中不常见的词语。步骤2,根据句号,感叹号,问号对输入的文本进行分句处理,输出单句集合。步骤3,对各个单句分别进行分词、词性标注、命名实体识别和依存句法分析,获得每个单句的分词、词性、命名实体和依存句法分析信息。其中,命名实体主要获取句子中人名、地名、机构名等实体。句子结构中各语言单元(词项)总是存在着一定的关系,而这种关系在句子中主要体现在语言单位(词项)之间的句法语义关系上,依存句法分析就是分析句子各语言单位(词项)之间的相互依存关系,从而识别句子中“主谓宾”、“定状补”等语法成分。步骤4,获取各个单句中的动词集和实体集,若单句中动词和实体个数都大于0,则进行步骤5,否则结束对该句子的处理。其中,实体不仅仅包括命名实体,还包括描述文本主题内容的全局关键词集合,使得文本实体库更加充实丰富。步骤5,分析依存于动词的词项是否匹配关系句法规则,若匹配,获得初始的实体关系三元组,再对实体关系三元组进行扩充;否则,进行该句子的下一个动词进行匹配;关系句法规则是在实体抽取前制定的,是根据依存句法分析并结合一些中文语法的启发式规则构建的。在现代汉语语法中,动词对句子中的其他语义成分如施事、受事等有一定的制约作用,所以可以将动词作为分析句子语义结构的出发点来挖掘动词与其前后名词性成分的语义组合关系。因此,本发明的关系句法规则是从动词出发,分析依存于动词的成分,比如当动词的主语和宾语存在且都为实体时,该主谓宾结构就构成了一个实体关系三元组。满足关系句法规则只获得初始的实习关系三元组,还需要进一步对实体关系三元组进行修饰补充。步骤6,文本中所有句子都执行关系抽取后,可得到文本三元组集合。结合上面所述,本发明的核心在于关系句法规则和实体关系三元组扩充,下面着重介绍相关内容:一、关系句法规则在现代汉语语法中,动词是句子语义分析的立足点,它对句子中的其他语义成分如施事、受事等有一定的制约作用。通过对大量实体关系实例分析发现,实体关系三元组总以某些固定的句法结构出现,而动词常在这些结构中起连接作用,所以连接两实体的动词一般可以表示实体间的语义关系。在依存句法结构中,主要的标注关系如表1所示,其中与动词有关的结构有:主谓关系、动宾关系、前置宾语、动补结构、状中结构、介宾关系等。将这些结构中的几个结构组合映射为关系句法规则,可应用于实体关系抽取。有一类动词为判断类动词(如动词“是”)在关系抽取中一般不作为关系词,而与其关联的名词才起到关系连接的作用。因此,本发明单独处理判断类动词,将关系规则分为isa规则和非isa规则两大类,每个类又划分为各个小类,参见图2,isa规则包括实体与关系词有关的规则、实体与关系词无关的规则。非isa规则包括动词有主语规则和动词无主语规则,其中动词有主语规则包括主谓宾结构、主谓介宾结构、主谓补宾结构、前宾介宾结构以及其他结构;动词无主语结构包括动词并列结构和句子无主语结构。关系类型依存标签主谓关系sbv动宾关系vob前置宾语fob状中结构adv动补结构cmp介宾关系pob定中结构att并列关系coo兼语dbl间宾关系iob左附加关系lad右附加关系rad独立结构is标点wp核心关系had表1表1为依存句法标注关系。1、isa规则:现代汉语中判断动词(如动词“是”)的作用主要有表判断、表说明、表存在。其中,表判断是表示事物属于什么或等于什么,如北京是中国的首都;表说明是表示事物的特征、情况或情况,如这辆车是红色的;表存在是表示事物的存在性,如遍地是牛羊。本发明研究实体抽取关系时,只考虑其中的表判断作用。根据关系实例,动词“是”一般不作为关系描述词,将isa规则分为实体与关系词有关的规则、实体与关系词无关的规则。1.1、实体与关系词有关的规则:实体与关系词有关的规则是指动词“是”的主语为实体,宾语为普通名词,或动词“是”的主语为普通名词,宾语为实体,且存在另一个实体与该名词是定中关系。其句子结构表示为“entity1+noun+is+entity2”或“entity2+is+entity1+noun”,实体关系三元组初步表示为(entity1,noun,entity2);其中,entity1和entity2是句子中的实体对,一个实体与动词“是”为主谓关系或动宾关系,另一个实体与动词“是”无直接关系;noun表示句子中的名词,与动词“是”存在主谓关系或动宾关系,并且存在另一个实体与动词“是”无直接关系,但与该名词是定中依存关系,用来修饰该名词。如“中国的首都是北京。”,其依存句法分析参见图3,动词“是”作为句子核心词,存在主语“首都”、宾语“北京”、“中国”为“首都”的定语,可构建三元组(中国,首都,北京);再如“张某是著名影星张三的儿子。”,其依存句法分析参见图4,动词“是”作为句子核心词,存在主语“张某”,宾语“儿子”,“张三”为“儿子”的定语,可构成三元组(张三,儿子,张某)。1.2、实体与关系词无关的规则:实体与关系词无关的规则是动词“是”存在主语为实体,存在宾语为普通名词,存在另一个或多个实体与主语实体是并列关系。其句子结构表示为“entity1+noun+is+entity2”或“entity2+is+entity1+noun”,实体关系三元组初步表示为(entity1,noun,entity2);其中,entity1和entity2是句子中的实体对,一个实体与动词“是”为主谓关系或动宾关系,另一个实体与动词“是”无直接关系;noun表示句子中的名词,与动词“是”存在主谓关系或动宾关系,并且存在另一个实体与动词“是”无直接关系,但与该名词是定中依存关系,用来修饰该名词。如“小李和小王是夫妻。”,其依存句法分析参见图5,动词“是”作为句子核心词,存在主语“小李”、宾语“夫妻”、“小李”和“小王”是并列关系,可形成三元组(小李,夫妻,小王)。2、非isa规则:非isa规则是指以作为实体语义关系描述的非判断动词为核心,构建实体关系句法规则。动词作为句法结构、语义结构的核心,从句法上看,动词决定了句子结构的基本面貌,从语义上看,语义结构是以动词为核心建立起来的,所以被称为述谓结构或谓述结构、动核结构。本发明根据基本述谓结构和典型句法结构间的映射,构建非isa的关系句法规则,由于动词在词项间的语义连接,需获得两个受其支配的词项,根据动词有无受其支配的主语分为动词有主语规则和动词无主语规则,在每类规则下又可分为几个小类,(参见图2)具体介绍如下:2.1、动词有主语规则:(1)主谓宾结构,主谓宾结构是动词谓语句中最常见的结构,本发明构建主谓宾结构规则是指从某一动词出发,根据依存句法,该动词的主语和宾语存在,且都为实体,构建出初始的三元组,动词与实体间依存关系参见图6,其中,e1、e2表示实体,v表示动词,依存弧的具体释义参见表1。例如,“王五访问美国。”中动词“访问”的主语为“王五”,动词的宾语为“美国”,可输出三元组(王五,访问,美国)。(2)主谓介宾结构,该规则是指动词与实体在句法上表示为主谓介宾结构,即从某一动词出发,根据依存句法,该动词的主语存在且为实体,依存于该动词的介词有宾语且为实体,可以抽出初始的三元组,动词与实体间依存关系参见图7,其中,e1、e2表示实体,v表示动词,p表示介词,依存弧的具体释义参见表1。例如,“李四在同济大学发表演讲”中动词“发表”的主语为“李四”,依存于动词“发表”的介词“在”有宾语“同济大学”,可输出初始的三元组(李四,发表,同济大学)。(3)主谓补宾结构,该规则是指动词与实体在句法上表示为主谓补宾结构,即从某一动词出发,该动词为不及物动词,根据依存句法,该动词的主语存在且为实体,存在依存于动词的补语,该补语有宾语且为实体,可构成初步三元组,具体依存关系表示参加图8,其中,e1、e2表示实体,v表示动词,p表示介词,依存弧的具体释义参见表1。例如,“王五毕业于哈佛大学。”中不及物动词“毕业”存在主语“王五”,存在补语介词“于”,介词“于”存在宾语“哈佛大学”,可以输出三元组(王五,毕业,哈佛大学)。(4)前宾介宾结构,该规则是指动词与实体在句法上表示为前宾介宾结构,即从某一动词出发,根据依存句法,该动词有前置宾语且为实体,存在受其支配的介词,而介词存在宾语且为实体,可形成初始的三元组,具体依存关系表示参见图9,e1、e2表示实体,v表示动词,p表示介词,依存弧的具体释义参见表1。该规则本质上并没有主语,但动词还是支配两个词项,所以可将其看作类似有主语的结构,这种结构常见于被动句型中,如“张三被复旦大学录取了。”中动词“录取”的前置宾语为“张三”,存在依存于“录取”的介词“被”,介词“被”有宾语“复旦大学”,可输出三元组(复旦大学,录取,张三)。(5)其他结构,该规则是指从某一动词出发,根据依存句法,该动词的主语存在且为实体,存在依存于动词的其他结构,该结构存在宾语且为实体,能够构建出三元组关系。比如,“李四在企业座谈会上强调推进金融改革。”,该句子的依存关系参见图10,动词“强调”存在主语“李四”和宾语“推进”,动词“推进”存在宾语“改革”,可构建出初始的三元组(李四,强调,改革)。2.2、动词无主语规则:(1)动词并列结构,动词并列结构表示动词不存在主语,存在某个词项能与该动词直接建立动宾关系或借助另一词间接建立动宾关系,且这个词项为实体,但存在与该动词并列的其他动词,两者主语一致,所以能够以其并列动词的主语作为主语构建实体关系三元组,具体依存句法表示参见图11,其中,e1、e2、e3表示实体,v1和v2表示动词,依存弧likevob指词项与动词可能是直接动宾关系,也可能借助某个词获得的间接动宾关系(如某词项是某介词的宾语,该介词依存于某个动词)。例如,“李四访问中国,并在同济大学发表演讲。”中前一个动词根据“主谓宾结构”这个规则可抽取出三元组(李四,访问,中国),第二个动词“发表”通过介宾结构获得宾语“同济大学”,却无主语,但是动词“发表”与“访问”并列,所以根据两个动词的主语一致性,可确定另一个初步三元组(李四,发表,同济大学)。本实施例只以两个并列动词示例,但并不局限于两个并列动词,该规则同样适用包含多个并列动词的句子。(2)句子无主语结构,该规则表示句子不存在主语,存在一个词项能与某个动词直接建立动宾关系或间接建立介宾、动补宾等关系,且该词项为实体,根据中文启发式规则可追溯该句子的前一个句子,以前句核心动词的主语作为该句的主语;在依存句法理论中,主张核心动词是句子的中心成分,支配着其他成分,而一个句子可能存在多个动词,每个动词可能都存在主语,所以该规则只取前句核心动词的主语作为该句的主语。二、实体关系三元组扩充满足关系句法规则只是获得初始的三元组,本发明还需对三元组进一步扩充,包括实体扩充、关系词扩充和并列三元组扩充,具体为:(1)实体扩充,实体扩充的目的是对于分词阶段被切分为多个词项的名词短语进行合并,本发明将关键词实体(非人名、地名、机构名)与其定语修饰词合并;若关键词实体前一个词与该关键词实体是定中关系,且不为量词,或关键词与前几个非量词词项构成连续的定中结构,则将其与关键词实体合并。如上述实施例中“李四在企业座谈会上强调推进金融改革。”抽取出初始的三元组(李四,强调,改革),该句中“金融”是修饰“改革”的定语,所以将两者合并,三元组更新成(李四,强调,金融改革)。(2)关系词扩充,为了使实体间关系描述更加准确具体,本发明给关系词添加否定状语、非实体宾语扩充;其中,若作为候选关系词的动词前有否定副词修饰,表达的则是与动词相反的意思,因此需将与候选关系词前的否定副词添加到关系词中,例如,“张三不喜欢大海”,根据关系句法规则,抽取的初始三元组为(张三,喜欢,大海),通过关系词扩充更新为(张三,不喜欢,大海)。此外,若非实体词在句中充当了动词的宾语,能够使两实体间的关系更加清晰。上述实施例中“李四在同济大学发表演讲”中三元组由初始的(李四,发表,同济大学)可扩展为(李四,发表演讲,同济大学)。(3)并列三元组扩充,句子中常存在并列主语或并列宾语,当这些主语或宾语为实体关系三元组中的实体时,需将其并列实体组成新的三元组。例如,对于句子“小芳、小红和小华是小李和小王的女儿。”,根据本发明提出的关系句法规则,抽取的初始三元组为(小李,女儿,小芳),通过并列实体扩充,增加了其他5个三元组,分别为(小李,女儿,小红)、(小李,女儿,小华)、(小王,女儿,小芳)、(小王,女儿,小红)、(小王,女儿,小华)。以上实施例仅供说明本发明之用,而非对本发明的限制,有关
技术领域
的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1