一种基于依存语义的中文无监督开放式实体关系抽取方法与流程

文档序号：12034576阅读：975来源：国知局

本发明涉及人工智能与自然语言处理领域的信息抽取研究，尤其是涉及一种基于依存语义的中文无监督开放式实体关系抽取方法。

背景技术：

大数据的浪潮宛有钱塘江之势汹涌而来，互联网积存的数据呈爆炸式增长。面对web中的海量信息，用户想快速的找到自己关心的信息，变得十分困难。传统搜索引擎只能将与用户查询内容相关的大量网页返回给用户，必须再对网页进行浏览后才能得到用户自己需要的信息。这种单一的返回网页的搜索方式已不能满足用户面对海量网络数据的实际需求。互联网为人们提供了一个取之不尽用之不竭的信息源，如何快速准确地从中自动挖掘有价值的信息成为人们关注的焦点。

信息抽取技术应运而生。把文本中蕴含的无结构化信息以结构化或者半结构化的形式输出，快速获取用户真正关心的内容，从而提供智能化、人性化的信息服务，这就是信息抽取的任务。例如，从飞机失事事件的新闻报道中，抽取人物、时间、地点、伤亡人数、事故原因等信息，让用户快速获取事件原委。而命名实体关系抽取是信息抽取的一个核心子任务，也叫做实体关系抽取或关系抽取，从无结构的自然语言文本中抽取相关命名实体之间的语义关系，并整理成结构化的关系三元组(entity1，relationwords，entity2)，其中entity1、entity2是存在关系的实体对，relationwords则是描述实体之间语义关系的词或词序列。

实体关系抽取有着重要的研究价值，在知识图谱、智能搜索引擎、自动问答系统、文本挖掘、机器翻译等许多人工智能领域都有广泛的应用。

传统的信息抽取通过训练好的抽取器识别目标关系类型，需要预先定义的关系类型和大量标注的训练语料。传统的中文关系抽取基于有监督的机器学习算法，主要包括基于特征的方法和基于核的方法。此类方法有几点不足：首先，定义一个全面的实体关系类型体系是很困难的；其次，严重依赖于大规模已标注的训练语料，手工标注语料是费时费力的，且标注的质量难以把控；最后，开放式网络文本海量且不能预先定义，因此传统的方法无法适应开放领域信息抽取需求。开放式实体关系抽取技术克服了传统关系抽取的弊端，可以自动地发现网络文本中任意的关系类型，具有重要的发展前景和研究价值。在开放式关系抽取研究方面，主要是应用聚类算法。通过位置限制、距离限制等手段，抽取候选实体对，然后聚类生成相似实体对的类簇，然后为各类簇标注关系类标签，选择较有代表性的词作为该类的关系描述词。这样的方法存在两个问题：聚类算法需要相当数量的相关实体对，即对于单个或者少量的实体对无法得到有效的结果，当训练语料不足时会严重影响此类方法的效果；很难确定最后的核心关系词是否能够成为一个有效的关系特征词，最后所确定类族的描述词也不一定适合该簇中的每一对实体。此外，有学者研究基于深层句法分析或语义角色标注的方法，取得不错的效果，此方面研究主要集中在英文语料上。

开放式关系抽取在英语语料上的研究，已经取得非常瞩目的成果，但是对中文语料的研究相对较少。中文语料在构词、构句和表述方面具有其独特的灵活性和复杂性，其研究难度要远大于英文，因此，现有的一些英文实体关系抽取系统无法适应于中文语料。必需仔细研究中文词法、句法，并将其引入实体关系抽取，才能获得适合中文领域的实体关系抽取系统。

研究发现，在进行实体关系抽取时，存在关系的实体对之间往往存在一定的句法关系。例如，如果两个实体分别是句子的主语和宾语，那么实体对的关系特征词就极可能是谓语动词。如果提前知道了实体对之间的句法关系，那么就可以比较准确的确定实体对之间的关系特征词。依存句法分析可以反映出句子各成分之间的语义修饰关系。由于句子中的命名实体必定会作为一个名词短语出现在依存结构中，那么实体之间的依存路径也必然会反映出相应实体对的关系特征。

综上所述，为使实体关系抽取方法更适用于中文语料，立足于中文特有的句法语义特征，充分展现无监督方法在开放领域的适应性和有效性。本发明提出了一种无监督的中文开放式关系抽取方法——依存语义范式(dependencysemanticnormalforms，dsnfs)。为中文开放式关系抽取研究领域提带来创新性成果。

技术实现要素：

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于依存语义的中文无监督开放式实体关系抽取方法。本发明的目的是规避传统抽取方法训练语料要求高、移植性扩展性差和无法适应开放式网络文本等弊端，又考虑到中文在词法语法等方面的复杂灵活等特性导致的英文语料下的抽取方法无法移植到中文上来，本发明提出一种立足中文语言特色的针对网络文本的开放式无监督实体关系抽取方法。

为了解决上述技术问题，本发明以实体关系与依存分析树之间的映射为基础，深入挖掘最短依存路径所蕴涵的依存语义，利用依存关系、词性信息和位置关系等特征为限定，得到依存语义范式，提出并实现了一种新颖的无监督中文开放式关系抽取方法。

本发明的目的可以通过以下技术方案来实现：

一种基于依存语义的中文无监督开放式实体关系抽取方法，该方法包括以下步骤：

s1、预处理输入文本：对输入文本进行中文分词、词性标注和依存句法分析；

s2、对输入文本进行命名实体识别；

s3、从识别出的实体中任意选出两个实体构成候选实体对；

s4、寻找候选实体对中的两个实体之间的依存路径；

s5、分析候选实体对中的两个实体之间的依存路径所映射的句法结构是否与依存语义范式集的范式匹配，若是，则根据被匹配的范式从输入文本的剩余部分中抽取出词或短语作为关系词，抽取的关系词与候选实体对构成关系三元组，若否则进行下一组候选实体对的范式匹配；

s6、输出关系三元组。

所述的关系三元组形式为：(entity1，relationwords，entity2)，其中entity1、entity2是存在关系的实体对，relationwords是描述实体之间语义关系的词或短语。

所述的依存语义范式包括第一类前修饰结构类、第二类并列结构类、第三类动词相关类、第四类模板化类和其他类。

所述的第一类前修饰结构类包括组合式定语结构和由结构助词“的”与中心语连接的结构，组合式定语结构对应依存语义范式“entity1+attword1(+attword2)+entity2”，由结构助词“的”与中心语连接的结构对应语义范式“entity1+的+noun+entity2”或“entity1+的+entity2+noun”，其中entity1、entity2是存在关系的实体对，attword1和attword2为不同的定语词，noun为名词。

所述的第二类并列结构类包括并列名词结构和并列动词结构。

所述的并列名词结构包括并列实体作为主语结构，并列实体作为谓词宾语结构，并列实体作为介词宾语结构以及前三种的混合结构，并列实体作为主语结构对应依存语义范式“entity2+conj+(entity1++)+pred+entity3”，并列实体作为谓词宾语结构对应依存语义范式“entity2+pred+entity3+conj+(entity1++)”，并列实体作为介词宾语结构对应依存语义范式“entity2+prep+entity3+conj+(entity1++)+pred(+dobj)”，其中entity2、entity3为存在关系的实体对，(entity1++)表示存在一个或多个并列实体，conj为连词，pred为谓词，prep为介词，dobj为直接宾语。

所述的并列动词结构包括动词连用结构和并列类复句结构。

所述的第三类动词相关类包括主谓动宾结构和主谓介宾结构，主谓动宾结构对应依存语义范式“entity1+pred+entity2”，主谓介宾结构对应依存语义范式“entity1+prep+entity2+pred(+dobj)”，其中，entity1、entity2是存在关系的实体对，pred为谓词，prep为介词，dobj为直接宾语。

与现有技术相比，本发明具有以下优点：

1)本发明提出的方法有充足的能力应对复杂的中文句法，抽取过程中，无需限制实体对与关系词的相对位置，避免传统方法中位置限制带来的弊端；

2)本发明提出的方法可以获得更丰富的结果，可以抽取以动词或名词为核心的关系短语，相较之下，其他一些效果较好的抽取器只能抽取动词为关系词；

3)本发明提出的方法可以较好地识别长跨度的依存关系，特别是在并列结构的情况下，可以抽取共现的关系三元组，避免传统方法中距离限制带来的弊端；

4)本发明提出的方法无需模型训练语料，一条句子也可以进行关系抽取，计算复杂度低，抽取效率高，可满足高实时性需求。

附图说明

图1为本发明抽取方法流程示意图；

图2为依存语义范式dsnf1图模型；

图3为依存语义范式dsnf2图模型；

图4为依存语义范式dsnf3图模型；

图5为依存语义范式dsnf4图模型；

图6为依存语义范式dsnf5图模型；

图7为依存语义范式dsnf6图模型；

图8为依存语义范式dsnf7图模型；

图9为依存语义范式dsnf8图模型；

图10为依存语义范式dsnf9图模型。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

本发明提出的一种基于依存语义的中文无监督开放式实体关系抽取方法，为基于依存语义范式(dsnfs)的实体关系抽取方法，可以实现自动抽取，无需人工干预，输入是未经任何处理的自然语言句子，输出就是实体关系三元组。如图1所示，整个过程可以描述如下：

步骤1：预处理输入文本。每个句子将经过分词、词性标注、依存句法分析等一系列自然语言处理操作,为后续步骤做准备。本发明所提出的方法借助哈工大社会计算与信息检索研究中心研发的“语言技术平台(ltp)”所提供的自然语言处理技术进行上述操作。

步骤2：选择候选实体对。通过命名实体识别模块进行输入文本的实体识别，然后将所有识别出来的候选实体进行两两组对。本方法采用哈工大语言技术平台提供的命名实体识别技术和迭代的启发式方法进行命名实体识别。后者是通过合并相连名词获取最大化名词短语，其中名词的词性只能是{ni，nh，ns，nz，j}，分别代表机构名、人名、地理名、其他专有名词和缩略词。两种方法互为补充，同时展开。

步骤3：匹配依存语义范式。对于步骤二中得到候选实体对，分析实体间的依存最短路径所映射的句法结构是否能够匹配某一个dsnf，

步骤4：输出关系三元组。步骤3执行完后，若匹配，则从中抽取出关系词，输出关系三元组；若未匹配，则进行下一组候选实体对的匹配。

本发明提出的方法的核心在于依存语义范式，下面将着重介绍其相关内容：

通过统计分析大量关系实例后发现，关系三元组总是会出现在某些固定的句法结构中，对实体关系有表征作用的句法结构有：主谓关系、动宾关系、介词宾语、并列成分和修饰关系等。将这些结构映射到依存树中可以得到依存语义范式(dsnfs)。dsnfs是由词序列、词性、依存路径及其相关的依存标签组合而成。本方法将该范式集分为前修饰、并列、动词相关、模板化的、其他五大类，在每一类中，可以得到一种或多种dsnf，为关系抽取提供合理的依据。

一、前修饰(pre-modificationclass，premod)

前修饰在中文短语中是一种非常重要的修饰类型。在中文语言学看来，premod句法类的关系表述是一种偏正结构，它能形成一个偏正短语。而偏正短语的结构由定语中心语和修饰语配对组成，其中定语是名词性偏正短语中的前附加成分。定语的构成成分范围很广泛，除了副词和“的”字短语之外，其他各类实词(名词、动词和形容词)和短语都可以充当定语。除此之外，定语的复杂性还在于它的多层次性，从不同的侧面加以限定、描写并同时叠加在一个中心语之前，使得一个中心语可以带有多个定语。

从形式结构看，定语可以分为以下两种类型：

1)组合式定语，直接附加在中心语之前，中间不加“的”的定语，即“定语+中心语”。例如，“<org>高二3班</org>班主任<per>王某</per>”中的“高二3班”是“班主任”的定语，“高二3班班主任”是“王某”的定语，“班主任”也表述了实体“高二3班”和“王某”之间的语义关系，从而构成一个关系三元组(高二3班，班主任，王某)。由于定语的多层次性，可能由多个词组合共同作为关系特征词，例如，“<org>某公司</org>首席执行官<per>赵某</per>”可以抽取关系(某公司，首席执行官，赵某)，其中由“首席”和“执行官”组合为关系特征词。per表示人名，org表示机构名。

将组合式定语结构映射在依存分析中表现为：定语依存于中心语，依存关系为“定中关系”，若存在多层定语，则距离中心语较远的定语词依存于距离中心语较近的定语词或直接依存于中心语，依存关系也为“定中关系”。经统计研究，在实际的关系抽取中，我们主要考虑有两层定语和三层定语的结构，既得到关系抽取范式dsnf1：“entity1+attword1(+attword2)+entity2”，依存分析如图2所示。此外还要考虑词性的限制，只考虑定语词(attword1、attword2)为名词的情况，如果“attword1”为职业相关名词(主要包括与机构、工作相关的名词，如董事长、总经理、县长等)；或者“attword1”为普通名词(相对于职业相关名词)且“entity2”为人物实体，满足这两种限制时才会进行关系抽取。

2)由结构助词“的”与中心语连接的定语，即“定语+的+中心语”。例如，“<per1>张某</per1>的妻子<per2>孙某</per2>”可以抽取关系元组(张某，妻子，孙某)。再如，“<org>某大学</org>的<per>裴某某</per>老师”和“<org>某大学</org>的老师<per>裴某某</per>”，虽然结构有所不同，但表达相同的含义。因此可以表达为两种关系抽取范式dsnf2和dsnf3：“entity1+的+noun+entity2”或“entity1+的+entity2+noun”。从这两种结构中可以抽取关系三元组(entity1，noun，entity1)。可映射为依存句法分析形式，如图3，图4。

在关系抽取中还可能遇到这样的情况，偏正短语中只包含一个实体名词，例如“刘某某教师游览上海”、“小明的妻子是小红”等，这种偏正短语往往蕴含在其他关系句法类中。此时，实体作为定语修饰中心语，在依存句法分析时，实体将不会再直接作为主语或宾语，而是其修饰的中心语成为了句法结构中的主干成分。在关系抽取过程中充分考虑这种情况，将中心语作为“伪实体(pseudo-entity，pe)”在依存分析时做相应的转换。例如“<per>刘某某</per><pe-per>教师</pe-per>游览<loc>上海</loc>”，抽取伪实体“教师”和实体“上海”之间的关系“游览”，然后转换并输出关系三元组(刘某某，游览，上海)。在接下来的分析中遇到此种情况将不再赘述。pe-per表示人名类伪实体。

二、动词相关(verbalclass，verb)

该类中，相关的两个实体，往往一个处于主语的位置，而另一个处于宾语的位置，可以是动词的宾语(动宾结构)，也可以是介词(preposition，prep)的宾语(介宾结构)，且实体间的关系可以直接由一个谓词(predicate，pred)表达。根据宾语的不同又可以进一步分为“主谓—动宾”结构和“主谓—介宾”结构。

1)对于“主谓—动宾”结构，例如，“<per>刘某某</per>游览<loc>上海</loc>”，该例句中“刘某某”是主语，“上海”是宾语，“游览”则是两实体发生关联的谓语动词，可以抽取三元组(刘某某，游览，上海)。将“主谓—动宾”结构映射到依存分析图中，两实体都依存于核心动词，依存关系分别为“主谓关系”和“动宾关系”。可得关系抽取范式dsnf4：“entity1+pred+entity2”，可以抽取关系三元组(entity1，pred，entity2)。依存分析如图5所示。loc表示地理名词，

2)对于“主谓—介宾”结构，例如“<per>刘某某</per>对<loc>上海</loc>进行深度游”，主语是实体“刘某某”，动词“进行”是句子的谓语，主语实体依存于谓语动词，依存关系为“主谓关系”。“对上海”构成介宾短语，实体“上海”依存于介词“对”，依存关系为“介宾关系”；介词“对”以关系“状中结构”依存于谓语动词。名词短语“深度游”则是谓词的直接宾语，由此可以抽取关系元组(刘某某，进行深度游，上海)。值得说明的地方，由于实体2处于介宾短语的位置，它通过介词间接与谓语动词发生依存关系，所以为了使关系抽取结果具有更明确的语义，本文将谓词短语和谓语的直接宾语(directobject，dobj)共同作为关系特征词。“主谓—介宾”结构可映射为关系抽取范式dsnf5：“entity1+prep+entity2+pred(+dobj)”，可以抽取关系三元组(entity1，pred-dobj，entity2)依存分析如图6所示。

特别地，对于“主谓—介宾”结构，如果介词为“由、被”等表示被动的词语，此时将entity1和entity2的位置互换，构成关系三元组(entity2，pred-dobj，entity1)。

三、并列(coordinationclass，coor)

并列关系在中文语句中也是相当常见的。并列表示句子或短语之间具有的一种相互关联，或是同时并举，或是同时进行的关系，并列成分只有前后之分而无主次之分。发生并列关系的，可以是相互关联的不同事物，也可以是同一事物的不同方面，还可以是同一主体的不同动作。并列短语又叫并列词组，一般是由两个或两个以上的名词、动词、形容词、代词或数量词等组合而成，构成词的词性一般要求相同。词与词之间是并列关系，中间常用顿号或“和、及、又、与、并”等连词(conjunction，conj)。在关系抽取中主要考虑并列名词和并列动词两种。

如在“<per1>刘某某</per1>和<per2>彭某某</per2>游览<org>上海</org>”中，“刘某某”和“彭某某”是两个具有并列关系的名词。两个实体发生这种名词短语并列关系时，它们产生相同的行为并作用在另一个共同实体上。示例中可以提取关系三元组(刘某某，游览，上海)，同时，“刘某某”的并列成分“彭某某”也与“上海”之间存在“游览”关系，可以抽取关系元组(彭某某，游览，上海)。实际上，coor句法类需要依赖于其他句法类而存在，如上例中，关系元组(刘某某，游览，上海)应该属于verb句法类。因为实体“彭某某”依存于实体“刘某某”，依存关系为“并列关系”，所以发生在实体“刘某某”上的关系同样适用于实体“彭某某”。根据实体在句法中所处的位置主要有主语位置、谓词宾语位置和介词宾语位置三类，由此可得，

1)并列名词作为主语时，提取出关系抽取范式dsnf6：“entity2+conj+(entity1++)+pred+entity3”，(其中(entity1++)表示存在一个或多个并列实体，下同)。由关系三元组(entity2，pred，entity3)可得三元组(entity1，pred，entity3)，依存关系如图7所示。

2)并列名词作为谓词宾语时，提取出关系抽取范式dsnf7：“entity2+pred+entity3+conj+(entity1++)”，由关系三元组(entity2，pred，entity3)可得三元组(entity2，pred，entity1)，依存关系如图8所示。

3)并列名词作为介词宾语时，提取出关系抽取范式dsnf8：“entity2+prep+entity3+conj+(entity1++)+pred(+dobj)”，由关系三元组(entity2，pred-dobj，entity3)可得三元组(entity2，pred-dobj，entity1)，依存关系如图9所示。

4)前三种类型的混合型。如“<per1>李某某</per1>同学、<per2>张某某</per2>同学一起，分别在<org1>上海</org1>和<org2>杭州</org2>邀约了<per3>张某某</per3>同学和<per4>高某某</per4>同学。”是前三种类型的混合。

并列动词主要描述由同一个主语同时发出的两个不同的动作。分两类情况，

1)第一类情况，是动词连用。在中文构句时，当一个动词无法将行为的涵义描述完整时，往往会两个动词连用，第一个动词对第二个动词进行补充，第二个动词是及物动词，因此一般抽取距离宾语更近的第二个动词作为关系特征词。如“<per>张某某</per>踏雪游览<loc>庐山</loc>”，其中“踏雪”和“游览”构成并列关系，可以抽取关系(张某某，游览，庐山)。

2)第二类情况，则是并列类复句，指的是复句中的几个子句在语义上具有平等并列的关系。如果两个或多个事件之间存在并举罗列的关系，而不存在因果上的联系，就可以构成并列类复句。子句之间常常用逗号和“并、还、而且”等连词分开。如例句“<org1>某公司</org1>经理<per>高某</per>参观<org2>厂房</org2>，并在<org3>某车间</org3>发表生产指导建议。”逗号将复句分成两个子句，分别表达了两个事件，且主语同为实体“高某”，因此两个子句构成并列。并列子句中的谓词“参观”和“发表”构成并列，依存关系为“并列关系”。映射到依存句法时可描述为：如果实体2作为宾语依存于谓语动词2，而此动词2与另外一个动词1构成并列(依存关系为“并列关系”)，同时存在实体1作为主语依存于动词1，那么可以推断实体1和实体2之间存在关系，关系特征词为动词2。因此可以得到关系抽取范式dsnf9：“entity1+pred1+pred2+entity2”，依存分析如图10所示。范式dsnf9可以涵盖上述两类情况。

值得说明，并列结构是嵌套在其他句法类中存在的。范式dsnf6、dsnf7、dsnf8和dsnf9只表达了并列名词依赖于verb句法类中“主谓—动宾”结构时的表现状况。其他状况不再赘述。实际抽取操作步骤相似，当entity1和entity2存在并列关系时，如果三元组(entity2，relationword，entity3)成立，则可得关系三元组(entity1，relationword，entity3)；如果三元组(entity3，relationword，entity2)成立，则可得关系三元组(entity3，relationword，entity1)。

四、模式化的(formulaicclass，form)

form的类型往往是一些在中文中经常出现，无法归纳到前面几种关系句法类中，但一般具有固定的表达格式。例如，“王某，某大学教授，发表……”，“王某”和“某大学教授”之间无法找到相应连接词，没有直接修饰关系，所以都不符合上述几种类型。但是从此句中可抽取实体关系三元组(王某，教授，某大学)。类似的行文表达方式是很常见的，它是中国人的写作习惯。针对这些特殊语法表达结构，只需提取出模板做硬性匹配就可以取得很好效果。

五、其他(otherclass)

本方法把所有目前无法分辨的其他关系类型归纳到这一类。由于该类的不确定性，本文对这一类不做深入研究。

本发明公布了一种基于依存语义的中文无监督开放式实体关系抽取方法，规避传统方法人工标注依赖性大，结果不合理等弊端，立足于中文独特、灵活的句法特征，以实体关系与依存分析树之间的映射为基础，深入挖掘最短依存路径所蕴涵的依存语义，利用依存关系、词性信息和位置关系等特征为限定，得到依存语义范式(dsnfs)，利用此范式集可以从海量大数据中快速准确地自动抽取实体关系。无需任何人工，可实现全自动抽取，无需依赖模型训练语料，计算复杂度低，抽取效率高，可满足高实时性需求。本发明可以广泛应用于知识图谱、智能搜索引擎、自动问答系统、文本挖掘、机器翻译等人工智能领域。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：向阳;贾圣宾;鄂世嘉;吕东东
技术所有人：同济大学
我是此专利的发明人

上一篇：基于主题模型的裁判文书相似度分析方法与流程
上一篇：情感标识的辨识方法和情感标识的辨识系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。