实体关系抽取方法及装置、存储介质、电子设备与流程

文档序号:19739726发布日期:2020-01-18 05:02阅读:210来源:国知局
实体关系抽取方法及装置、存储介质、电子设备与流程

本公开涉及自然语言处理技术领域,具体而言,涉及一种实体关系抽取方法、实体关系抽取装置、电子设备以及计算机可读存储介质。



背景技术:

近年来,随着信息技术的不断发展,产生了大量的非结构化文本数据,例如新闻稿等,非结构化的数据不利于快速分析和处理。信息抽取研究了如何从这些文本提取出结构化的数据,信息抽取包括实体抽取和实体关系抽取,其中,实体指具有客观意义或指代性较强的词语,包括人名、地名、组织机构名、时间日期、专有名词等。相关技术中,在抽取实体关系时,准确性较低。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

本公开的目的在于提供一种实体关系抽取方法、实体关系抽取装置、电子设备以及计算机可读存储介质,进而在一定程度上克服由于相关技术的限制和缺陷而导致的在抽取实体关系时准确性较低的问题。

根据本公开的第一方面,提供一种实体关系抽取方法,包括:

获取待抽取实体关系的文本,通过实体和关系联合抽取模型对所述文本进行处理,得到第一实体关系三元组;

确定所述文本中的词语及所述词语对应的标签,根据关系规则集对所述文本中的词语及所述标签进行匹配,确定第二实体关系三元组;

根据所述词语及所述标签构建实体对,通过关系分类模型对所述文本进行处理,确定针对所述实体对的第三实体关系三元组;

根据所述第一实体关系三元组、所述第二实体关系三元组和所述第三实体关系三元组,确定实体关系抽取结果。

在本公开的一种示例性实施例中,所述根据所述第一实体关系三元组、所述第二实体关系三元组和所述第三实体关系三元组,确定实体关系抽取结果,包括:

从所述第一实体关系三元组、所述第二实体关系三元组和所述第三实体关系三元组中选取第一实体之间及第二实体之间均相同的目标实体关系三元组;

根据所述目标实体关系三元组,确定实体关系抽取结果。

在本公开的一种示例性实施例中,所述根据所述目标实体关系三元组,确定实体关系抽取结果,包括:

对所述目标实体关系三元组中的实体关系向量进行加权平均,得到目标实体关系向量;

将所述目标实体关系三元组中第一实体和第二实体,以及所述目标实体关系向量中最大值对应的实体关系作为实体关系抽取结果。

在本公开的一种示例性实施例中,所述根据关系规则集对所述文本中的词语及所述标签进行匹配,确定第二实体关系三元组,包括:

针对所述关系规则集中的每条关系规则,判断所述文本中的单个词语是否与该关系规则中的关系触发词语相同;

在所述单个词语与所述关系触发词语相同时,搜索所述标签中是否存在与该关系规则中第一实体标签相同的第一目标标签,以及与该关系规则中第二实体标签相同的第二目标标签;

在第一目标标签和第二目标标签均存在时,根据第一目标标签对应的词语、第二目标标签对应的词语以及该关系规则中的实体关系类型,构建第二实体关系三元组。

在本公开的一种示例性实施例中,所述通过实体和关系联合抽取模型对所述文本进行处理,得到第一实体关系三元组,包括:

对所述文本进行分词处理,得到多个词语;

将所述多个词语转换为语义向量,将所述语义向量输入实体和关系联合抽取模型,得到词语标签;

根据所述词语标签,构建第一实体关系三元组。

在本公开的一种示例性实施例中,

在所述根据所述词语及所述标签构建实体对之后,所述方法还包括:

对所述文本中的实体对进行标记,得到标记后的文本;

所述通过关系分类模型对所述文本进行处理,确定第三实体关系三元组,具体包括:

所述通过关系分类模型对所述标记后的文本进行处理,确定第三实体关系三元组。

在本公开的一种示例性实施例中,所述通过关系分类模型对所述标记后的文本进行处理,确定第三实体关系三元组,包括:

将所述标记后文本转换为对应的文本语义向量;

将所述文本语义向量输入关系分类模型,得到实体关系的概率分布向量;

根据所述实体对以及所述概率分布向量,构建第三实体关系三元组。

在本公开的一种示例性实施例中,所述方法还包括:

对所获取的初始文本进行指代消解,得到所述待抽取实体关系的文本。

根据本公开的第二方面,提供一种实体关系抽取装置,包括:

第一实体关系三元组确定模块,用于获取待抽取实体关系的文本,通过实体和关系联合抽取模型对所述文本进行处理,得到第一实体关系三元组;

第二实体关系三元组确定模块,用于确定所述文本中的词语及所述词语对应的标签,根据关系规则集对所述文本中的词语及所述标签进行匹配,确定第二实体关系三元组;

第三实体关系三元组确定模块,用于根据所述词语及所述标签构建实体对,通过关系分类模型对所述文本进行处理,确定针对所述实体对的第三实体关系三元组;

实体关系抽取结果确定模块,用于根据所述第一实体关系三元组、所述第二实体关系三元组和所述第三实体关系三元组,确定实体关系抽取结果。

在本公开的一种示例性实施例中,所述实体关系抽取结果确定模块,包括:

目标三元组选取单元,用于从所述第一实体关系三元组、所述第二实体关系三元组和所述第三实体关系三元组中选取第一实体之间及第二实体之间均相同的目标实体关系三元组;

抽取结果确定单元,用于根据所述目标实体关系三元组,确定实体关系抽取结果。

在本公开的一种示例性实施例中,所述抽取结果确定单元,具体用于对所述目标实体关系三元组中的实体关系向量进行加权平均,得到目标实体关系向量;将所述目标实体关系三元组中第一实体和第二实体,以及所述目标实体关系向量中最大值对应的实体关系作为实体关系抽取结果。

在本公开的一种示例性实施例中,所述第一实体关系三元组确定模块,包括:

分词单元,用于对所述文本进行分词处理,得到多个词语;

词语标签确定单元,用于将所述多个词语转换为语义向量,将所述语义向量输入实体和关系联合抽取模型,得到词语标签;

第一三元组构建单元,用于根据所述词语标签,构建第一实体关系三元组。

在本公开的一种示例性实施例中,所述第二实体关系三元组确定模块,包括:

触发词语判断单元,用于针对所述关系规则集中的每条关系规则,判断所述文本中的单个词语是否与该关系规则中的关系触发词语相同;

目标标签判断单元,用于在单个词语与所述关系触发词语相同时,搜索所述标签中是否存在与该关系规则中第一实体标签相同的第一目标标签,以及与该关系规则中第二实体标签相同的第二目标标签;

第二三元组构建单元,用于在第一目标标签和第二目标标签均存在时,根据第一目标标签对应的词语、第二目标标签对应的词语以及该关系规则中的实体关系类型,构建第二实体关系三元组。

在本公开的一种示例性实施例中,所述装置还包括:

标记模块,用于对所述文本中的实体对进行标记,得到标记后的文本;

所述第三实体关系三元组确定模块,具体用于通过关系分类模型对所述标记后的文本进行处理,确定第三实体关系三元组。

在本公开的一种示例性实施例中,所述第三实体关系三元组确定模块通过以下步骤实现通过关系分类模型对所述标记后的文本进行处理,确定第三实体关系三元组:

将所述标记后文本转换为对应的文本语义向量;

将所述文本语义向量输入关系分类模型,得到实体关系的概率分布向量;

根据所述实体对以及所述概率分布向量,构建第三实体关系三元组。

在本公开的一种示例性实施例中,所述装置还包括:

指代消解模块,用于对所获取的初始文本进行指代消解,得到所述待抽取实体关系的文本。

根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开示例性实施例至少可以具有以下部分或全部有益效果:

在本公开的一示例实施方式所提供的实体关系抽取方法中,通过实体和关系联合抽取模型抽取实体关系,可以根据命名实体识别和关系抽取的交互约束信息,提高实体关系抽取的准确性。在实体类别和关系类别较多时,将关系分类模型和关系规则集抽取的实体关系与实体和关系联合抽取模型抽取的实体关系相结合,确定最终的实体关系,可以在提高抽取结果准确性的同时,提高系统性能的稳定性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的一种实体关系抽取方法及装置的示例性系统架构的示意图;

图2示出了根据本公开的一个实施例的实体关系抽取方法的一种流程图;

图3示出了本公开实施例中通过实体和关系联合抽取模型进行实体关系抽取的流程图;

图4示出了根据本公开实施例的基于规则的方法抽取实体关系的一种流程图;

图5示出了根据本公开的一个实施例的实体关系抽取装置的一种结构图;

图6示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种实体关系抽取方法及装置的示例性应用环境的系统架构的示意图。

如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的实体关系抽取方法一般由服务器105执行,相应地,实体关系抽取装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的实体关系抽取方法也可以由终端设备101、102、103执行,相应地,实体关系抽取装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,可以是用户通过终端设备101、102、103将待抽取实体关系的文本上传至服务器105,服务器105通过本公开实施例所提供的实体关系抽取方法对该文本进行处理,并将得到的实体关系抽取结果发送给终端设备101、102、103。

以下对本公开实施例的技术方案进行详细阐述:

在信息抽取技术中,研究如何从文本中提取诸如人名、地名、组织机构名等关键信息的命名实体识别已经较为成熟,相较而言,研究提取两个实体之间关系的关系抽取技术还有待发展。目前,可以通过关系分类模型、实体和关系联合抽取模型、基于规则的方法等抽取实体关系。

其中,关系分类模型通过选择不同的特征和分类模型确定实体对的关系类别,关系分类模型以给出待抽取关系的实体为假设,而在实际应用中往往没有给出待分类的实体,需要先进行命名实体识别,这些方法将命名实体识别与关系抽取分割开,缺少对这两个任务的联合建模;并且,相较于文本复杂的语义信息,常见的文本特征和分类模型能力仍然是有限的,抽取的实体关系准确性较低。

实体和关系联合抽取模型通过定义特殊的标注集,由实体类别、关系类别排列组合而来。它们将实体和关系联合抽取任务归纳为一种序列标注任务,通过模型给文本中每个字或词标注上包含实体类别和关系类别的标签,然后根据每个字或词的标签再提取出实体和关系。联合抽取模型对实体识别和关系抽取进行了联合建模,能够考虑到这两个任务之间的交互约束信息,但在实体、关系类别较多的时候,抽取的实体关系准确性较低。如果通过增大标签集提高实体关系抽取的准确性,那么模型复杂度升高,性能受到影响。

基于规则的方法可以根据自动学习或人工定制的规则,一旦发现符合某条规则的,就可以判断实体的关系。然而,该方法对于不在规则集内的情况无法识别,准确性较低。

为了解决上述问题,本公开实施例提供了一种实体关系抽取方法,可以提高实体关系抽取的准确性。

参见图2,图2示出了根据本公开的一个实施例的实体关系抽取方法的一种流程图,包括以下步骤:

步骤s210,获取待抽取实体关系的文本,通过实体和关系联合抽取模型对文本进行处理,得到第一实体关系三元组。

步骤s220,确定文本中的词语及词语对应的标签,根据关系规则集对文本中的词语及词语对应的标签进行匹配,确定第二实体关系三元组。

步骤s230,根据文本中的词语及词语对应的标签构建实体对,通过关系分类模型对该文本进行处理,确定针对该实体对的第三实体关系三元组。

步骤s240,根据第一实体关系三元组、第二实体关系三元组和第三实体关系三元组,确定实体关系抽取结果。

本公开实施例的实体关系抽取方法,通过实体和关系联合抽取模型抽取实体关系,可以根据命名实体识别和关系抽取的交互约束信息,提高实体关系抽取的准确性。在实体类别和关系类别较多时,将关系分类模型和关系规则集抽取的实体关系与实体和关系联合抽取模型抽取的实体关系相结合,确定最终的实体关系,可以在提高抽取结果准确性的同时,提高系统性能的稳定性。

下面,对于本示例实施方式的上述步骤进行更加详细的说明。

在步骤s210中,获取待抽取实体关系的文本,通过实体和关系联合抽取模型对文本进行处理,得到第一实体关系三元组。

本公开实施例中,待抽取实体关系的文本可以是text文本、word文本等,该文本中的信息可以是新闻信息、社交网络信息等。需要说明的是,该文本可以是经过指代消解之后的文本,也就是说,在本步骤之前,可以先获取初始文本,然后对所获取的初始文本进行指代消解之后,得到上述待抽取实体关系的文本。指代消解可以消除文本中的指代关系。比如用人称代词“他”、“她”等代称某个人物实体,或“aa”、“aa”等表示同一个人物的指称等等。通过指代消解,可以将初始文本中的指代替换为该实体真实的名称,将指代消解后的文本作为待抽取实体关系的文本,指代消解可以有效降低后续实体和关系抽取任务的复杂度。

获取待抽取实体关系的文本之后,可以通过实体和关系联合抽取模型进行实体关系的抽取,参见图3,图3示出了通过实体和关系联合抽取模型进行实体关系抽取的流程图,可以包括以下步骤:

步骤s310,对文本进行分词处理,得到多个词语。

本公开实施例中,可以对该文本进行分词和去停用词处理等,得到多个词语。分词是将文本按照一定的规范重新组合成词序列的过程,例如,文本信息为“今天天气晴朗”,经过分词之后,可以得到多个词语“今天”、“天气”和“晴朗”。还可以去除掉停用词,例如,可以过滤掉英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。

步骤s320,将多个词语转换为语义向量,将语义向量输入实体和关系联合抽取模型,得到词语标签。

针对每个词语,可以进行向量化表示,将词语转换为对应的词向量。例如,可以通过word2vec将每个词语转换为对应的词向量,其中,word2vec是可以将词转换为向量的相关模型。之后,将多个词语的词向量输入实体和关系联合抽取模型中,可以得到每个词语对应的词语标签,该词语标签可以表示词语的实体类别和关系类别。

可选的,实体和关系联合抽取模型的数量可以为一个或多个,例如可以是长短期记忆网络-条件随机场模型(lstm-crf模型)、bert模型等,在实体和关系联合抽取模型的数量为多个时,可以为不同的实体和关系联合抽取模型设置不同的权重。其中,长短期记忆网络-条件随机场模型在输出端将softmax与crf模型结合起来,通过长短期记忆网络可以解决提取序列特征的问题,通过随机场模型有效利用了句子级别的标记信息。在长短期记忆网络-条件随机场模型下,输出的将不再是相互独立的标签,而是最佳的标签序列。

来自transformer的双向编码器表征模型(bert模型)是在33亿文本的语料上训练的语言模型,bert模型基于所有层中的左、右语境进行联合调整,来预训练深层双向表征。因此,只需要增加一个输出层,就可以对预训练的bert表征进行微调,就能为更多的任务创建当前最优模型,例如问答和语言推断任务等,整个过程不需要对特定任务进行实质性的架构修改,bert模型在不同的任务均得到了较好的结果。

步骤s330,根据词语标签,构建第一实体关系三元组。

具体的,由于词语标签可以表示词语的实体类别和关系类别,可以将关系类别相同的词语标签对应的实体合并成一个实体关系三元组作为最后的结果。如果一个句子包含一个以上同一关系类别的词语标签,可以采用就近原则来进行配对。

需要说明的是,第一实体关系三元组的数量可以有多个,每个实体关系三元组包括:第一实体、第二实体以及第一实体和第二实体之间的关系。本公开实施例中,可以对第一实体和第二实体的关系进行编码,得到编码结果l1,l1为实体关系向量。例如,可以对第一实体和第二实体的关系进行独热编码或其他编码方式编码之后得到l1。那么,第一实体关系三元组可以通过表示,l1∈rn,n为关系类别的数量。其中,独热编码即一位有效编码,主要是采用r位状态寄存器来对r个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效。

在步骤s220中,确定文本中的词语及词语对应的标签,根据关系规则集对文本中的词语及词语对应的标签进行匹配,确定第二实体关系三元组。

如前所述,信息抽取包括实体抽取,命名实体识别技术可以识别文本中具有特定意义的实体。命名实体识别技术已经比较成熟,当前命名实体识别技术中,可以通过序列标注的方法实现,即通过给文本中每个词语设置不同的标签,来判断它们是否属于某一类实体的一部分。通过命名实体识别技术,可以确定文本中的词语及词语对应的标签,也就是,得到文本的词语序列(记为tokens)和对应的标签序列(记为tags),词语序列和标签序列之间是一一对应的:

tokens={token1,token2,…,tokenm};

tags={tag1,tag2,…,tagm};

其中,m为文本中的词语tokens的数量,tagi为tokeni对应的标签。需要说明的是,词语序列中可以包含属于实体的词语,也可以包含不属于实体的词语。

在确定词语序列和标签序列之后,可以根据基于规则的方法抽取实体关系,可参见图4,针对关系规则集中的每条关系规则,可以包括以下步骤:

步骤s410,判断文本中的单个词语是否与该关系规则中的关系触发词语相同。

需要说明的是,关系规则集是关系规则的集合,可以存储在规则文件中,通过规则文件存储规则便于快速添加和修改。在每条关系规则中,可以包括:关系触发词语、关系类型、第一实体标签和第二实体标签。关系触发词语表示触发实体关系抽取的词语,也就是说,对于文本中的任一词语,在该词语与关系触发词语相同时,可以进行实体关系的抽取;否则,不进行实体关系的抽取。第一实体标签和第二实体标签是表示实体的标签,与实体一一对应。实体关系类型可以表示第一实体标签对应的实体和第二实体标签对应的实体之间的关系。

在抽取实体关系前,可以将规则文件中的关系规则读出并保存在内存中,以待使用。在抽取实体关系时,可以按照词语序列依次进行处理,由于文本中每个词语的处理方法相同,在此以单个词语为例进行说明。

对于单个词语,可以通过将该词语依次与每条关系规则进行匹配,以确定实体关系。对于每条关系规则,判断该词语是否与该关系规则中的关系触发词语相同,如果不同,进行下一条关系规则的匹配,如果该词语与所有的关系规则中的关系触发词语均不相同,表示该词语不符合关系规则集中的实体关系,那么,可以对文本中的下一个词语进行处理。而在该词语与关系触发词语相同时,执行步骤s420。需要说明的是,关系规则集中关系触发词语与该词语相同的关系规则的数量可以是一个,也可以是多个。

步骤s420,搜索标签中是否存在与该关系规则中第一实体标签相同的第一目标标签,以及与该关系规则中第二实体标签相同的第二目标标签。

本公开实施例中,在该词语与关系规则中的关系触发词语相同时,表示该词语可能符合该关系规则中的实体关系,可以进一步判断文本中的词语对应的标签中是否存在与该关系规则中第一实体标签相同的第一目标标签,以及与该关系规则中第二实体标签相同的第二目标标签。在第一目标标签和第二目标标签均存在时,表示可以抽取到实体关系,执行步骤s430;在第一目标标签和第二目标标签均不存在时,或者,只存在一个时,表示不能抽取到上述单个词语对应的实体关系三元组。

其中,关系规则中还可以包括:第一实体搜索策略和第二实体搜索策略。在搜索过程中,可以通过第一实体搜索策略搜索标签序列中是否存在与该关系规则中第一实体标签相同的第一目标标签,通过第二实体搜索策略搜索标签序列中是否存在与该关系规则中第二实体标签相同的第二目标标签。第一实体搜索策略和第二实体搜索策略可以包括:在标签序列中同时从关系触发词语对应的标签的前向和后向进行搜索,或者先前向再后向、先后向再前向等。

步骤s430,根据第一目标标签对应的词语、第二目标标签对应的词语以及该关系规则中的实体关系类型,构建第二实体关系三元组。

在第一目标标签和第二目标标签均存在时,该关系规则中的实体关系类型即为第一目标标签对应的实体和第二目标标签对应的实体之间的实体关系。因此,构建的第二实体关系三元组即为:第一目标标签对应的词语、第二目标标签对应的词语、该关系规则中的实体关系类型。类似地,本公开也可以对该实体关系类型进行编码,得到l2,第二实体关系三元组可以通过表示,l2表示第一实体和第二实体的关系,l2∈rn

可见,本公开实施例的基于规则的方法,关系规则复杂度较低,在抽取实体关系时,将词语与每条关系规则进行对比的过程简单快捷,准确性较高,并且性能比较稳定。

步骤s230,根据文本中的词语及词语对应的标签构建实体对,通过关系分类模型对该文本进行处理,确定针对该实体对的第三实体关系三元组。

在步骤s220中,得到了文本中的词语及词语对应的标签,根据标签的类型,可以确定词语是否属于实体。因此,可以选取属于实体的标签对应的词语,构建实体对。本公开实施例中,在确定任一实体对后,可以对文本中的实体对进行标记,得到标记后的文本。可选的,可以通过特殊符号替换文本中的该实体对,或者在文本中该实体对中两个实体的前面和后面添加特殊标记符号等。例如,若实体对中的两个实体分别是:人名a和人名b,进行标记之后,可以是【人名a】和#人名b#,或者<h>人名a<h>和<t>人名b<t>等。

相应地,可以通过关系分类模型对标记后的文本进行处理,确定第三实体关系三元组。具体的,将标记后文本转换为对应的文本语义向量,转换方法与步骤s320类似,在此不再详述。之后,将文本语义向量输入关系分类模型,得到实体关系的概率分布向量。其中,关系分类模型的数量可以是一个或多个,在关系分类模型的数量为多个时,可以为不同的关系分类模型设置不同的权重。概率分布向量中的元素分别表示属于对应的关系类别的概率,概率分布向量中元素与关系类别的对应关系可以是在训练关系分类模型时预先设定的,例如,第一个元素表示属于朋友关系的概率、第二元素表示属于父子关系的概率等等。

根据实体对以及概率分布向量,可以构建第三实体关系三元组。第三实体关系三元组可以通过表示,l3为概率分布向量,概率分布向量中的元素值越大,表示属于对应的关系类别的概率越高,概率分布向量中的元素值越小,属于对应的关系类别的概率越低,因此,l3可以用于表示第一实体和第二实体的关系。

步骤s240,根据第一实体关系三元组、第二实体关系三元组和第三实体关系三元组,确定实体关系抽取结果。

在得到第一实体关系三元组、第二实体关系三元组和第三实体关系三元组之后,为了提高实体关系抽取的准确性,可以从第一实体关系三元组、第二实体关系三元组和第三实体关系三元组中选取第一实体之间及第二实体之间均相同的目标实体关系三元组。也就是,选取的实体关系三元组,所选取的实体关系三元组即为目标实体关系三元组。需要说明的是,由于分别从第一实体关系三元组、第二实体关系三元组和第三实体关系三元组中选取目标实体关系三元组,因此,对于每组目标实体关系三元组,所选取的目标实体关系三元组的数量可以为3个。

之后,根据目标实体关系三元组,可以得到每个目标实体确定实体关系抽取结果。可选的,可以对目标实体关系三元组中的实体关系向量进行加权平均,得到目标实体关系向量。例如,可以根据公式:l=w1l′1+w2l′2+w3l′3,计算目标实体关系向量。

其中,l′1表示从第一实体关系三元组l1中选取的目标实体关系三元组,l′2表示从第一实体关系三元组l2中选取的目标实体关系三元组,l′3表示从第一实体关系三元组l3中选取的目标实体关系三元组,w1,w2,w3分别表示l′1、l2′和l′3对应的权重,可以通过多种集成方法学习得到,也可以通过经验设置。

最后,可以将目标实体关系向量中最大值对应的实体关系作为目标实体关系三元组中第一实体和第二实体之间的关系,并将目标实体关系三元组中第一实体和第二实体,以及目标实体关系向量中最大值对应的实体关系作为实体关系抽取结果。

本公开还可以将从第一实体关系三元组、第二实体关系三元组和第三实体关系三元组中选取的目标实体关系三元组中的实体关系分别显示给用户,使用户从其中选取最终的实体关系。之后将目标实体关系三元组中第一实体和第二实体,以及用户选取的最终的实体关系作为实体关系抽取结果。

本公开实施例的实体关系抽取方法,通过实体和关系联合抽取模型抽取实体关系,可以根据命名实体识别和关系抽取的交互约束信息,提高实体关系抽取的准确性。在实体类别和关系类别较多时,将关系分类模型和关系规则集抽取的实体关系与实体和关系联合抽取模型抽取的实体关系相结合,确定最终的实体关系,可以在提高抽取结果准确性的同时,提高系统性能的稳定性。并且,与基于规则的方法相比,本公开适用性较高。

应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。

进一步的,本示例实施方式中,还提供了一种实体关系抽取装置500,参考图5所示,包括:

第一实体关系三元组确定模块510,用于获取待抽取实体关系的文本,通过实体和关系联合抽取模型对文本进行处理,得到第一实体关系三元组;

第二实体关系三元组确定模块520,用于确定文本中的词语及词语对应的标签,根据关系规则集对文本中的词语及词语对应的标签进行匹配,确定第二实体关系三元组;

第三实体关系三元组确定模块530,用于根据文本中的词语及词语对应的标签构建实体对,通过关系分类模型对文本进行处理,确定针对该实体对的第三实体关系三元组;

实体关系抽取结果确定模块540,用于根据第一实体关系三元组、第二实体关系三元组和第三实体关系三元组,确定实体关系抽取结果。

在本公开的一种示例性实施例中,实体关系抽取结果确定模块,包括:

目标三元组选取单元,用于从第一实体关系三元组、第二实体关系三元组和第三实体关系三元组中选取第一实体之间及第二实体之间均相同的目标实体关系三元组;

抽取结果确定单元,用于根据目标实体关系三元组,确定实体关系抽取结果。

在本公开的一种示例性实施例中,抽取结果确定单元,具体用于对目标实体关系三元组中的实体关系向量进行加权平均,得到目标实体关系向量;将目标实体关系三元组中第一实体和第二实体,以及目标实体关系向量中最大值对应的实体关系作为实体关系抽取结果。

在本公开的一种示例性实施例中,第一实体关系三元组确定模块,包括:

分词单元,用于对文本进行分词处理,得到多个词语;

词语标签确定单元,用于将多个词语转换为语义向量,将语义向量输入实体和关系联合抽取模型,得到词语标签;

第一三元组构建单元,用于根据词语标签,构建第一实体关系三元组。

在本公开的一种示例性实施例中,第二实体关系三元组确定模块,包括:

触发词语判断单元,用于针对关系规则集中的每条关系规则,判断文本中的单个词语是否与该关系规则中的关系触发词语相同;

目标标签判断单元,用于在单个词语与关系触发词语相同时,搜索标签中是否存在与该关系规则中第一实体标签相同的第一目标标签,以及与该关系规则中第二实体标签相同的第二目标标签;

第二三元组构建单元,用于在第一目标标签和第二目标标签均存在时,根据第一目标标签对应的词语、第二目标标签对应的词语以及该关系规则中的实体关系类型,构建第二实体关系三元组。

在本公开的一种示例性实施例中,上述实体关系抽取装置还包括:

标记模块,用于对文本中的实体对进行标记,得到标记后的文本;

第三实体关系三元组确定模块,具体用于通过关系分类模型对标记后的文本进行处理,确定第三实体关系三元组;

在本公开的一种示例性实施例中,所述第三实体关系三元组确定模块通过以下步骤实现通过关系分类模型对所述标记后的文本进行处理,确定第三实体关系三元组:

将标记后文本转换为对应的文本语义向量;

将文本语义向量输入关系分类模型,得到实体关系的概率分布向量;

根据实体对以及概率分布向量,构建第三实体关系三元组。

在本公开的一种示例性实施例中,上述实体关系抽取装置还包括:

指代消解模块,用于对所获取的初始文本进行指代消解,得到待抽取实体关系的文本。

上述装置中各模块或单元的具体细节已经在对应的实体关系抽取方法中进行了详细的描述,因此此处不再赘述。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施例中,还提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行本示例实施方式中的实体关系抽取方法的全部或者部分步骤。

图6示出了用于实现本公开实施例的电子设备的计算机系统的结构示意图。需要说明的是,图6示出的电子设备的计算机系统600仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示,计算机系统600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram603中,还存储有系统操作所需的各种程序和数据。cpu601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。

以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如局域网(lan)卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时,执行本申请的装置中限定的各种功能。

在本公开的示例性实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。

需要说明的是,本公开所示的计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频等等,或者上述的任意合适的组合。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1