一种基于边界识别的嵌套实体识别方法及系统与流程

文档序号:24238067发布日期:2021-03-12 13:11阅读:128来源:国知局
一种基于边界识别的嵌套实体识别方法及系统与流程

本发明涉及自然语言处理技术领域,具体地,涉及一种基于边界识别的嵌套实体识别方法及系统,对自然语言中的嵌套实体进行识别。



背景技术:

命名实体是自然语言中信息承载的一种基本单元,实体识别是自然语言诸多任务,如信息抽取、阅读理解的基础任务,因此,深入研究实体精准抽取在自然语言处理中具有重要意义。

通常,命名实体指文本中具有特殊意义的名词,如人名(per),地点(loc),地理区域(gpe),组织机构(org)以及其他专有名词或特殊名词。常规的实体识别可以通过深度学习中的序列标注模型(如“长短期记忆-条件随机场”模型等)实现,这类模型可以通过对每个语义单元进行标注,从而获得语义单元的唯一标签,通过对标签进行组合得到实体片段。然而,在命名实体识别中存在一种嵌套现象,使得文字与实体标签之间无法建立一对一关系。因此,对于嵌套实体的识别,现有成熟的序列标注模型无法直接套用。

针对嵌套实体的识别,目前主要存在两类方法:

一类是按照一定的规则逐层识别嵌套实体,这类方法存在三个严重的缺陷:1)识别不同层次实体产生的误差不断累积,导致模型对实体识别的效果随着层次加深而越来越差;2)层次定义的模糊性导致同一层实体之间的分布差异极大,模型难以精确识别;3)对同一段文本的重复识别带来不必要的计算,增加了计算成本。这些缺陷导致此类方法无法达到实践的需求。

另一类方法则是借助外部知识实现对嵌套结构的展平后通过序列标注的方法对实体进行提取。这些外部知识包括正则,标定规则等,是对文本中实体所包含的先验知识的一种归纳。然而,在实践中,不同领域中包含的实体分布和模式各不相同,这导致针对不同的数据集,需要订制不同的外部知识进行提取。因此,这类方法往往在特定数据集上效果显著,而不具有泛化性。

基于以上的背景,目前嵌套实体识别存在的主要矛盾在于如何平衡准确性和泛化能力,即研究在保证嵌套实体识别准确性的前提下如何构建具有泛化能力的方法对于嵌套实体识别的实际应用具有重要的意义。

目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。



技术实现要素:

本发明针对现有技术中存在的上述不足,提供了一种基于边界识别的嵌套实体识别方法及系统。

本发明是通过以下技术方案实现的。

根据本发明的一个方面,提供了一种基于边界识别的嵌套实体识别方法,包括:

对输入文本进行数据预处理,经过预处理的文本数据转化为一个多维向量;

将得到的多维向量进行特征编码,得到具有上下文信息的编码向量;

对具有上下文信息的编码向量提取实体边界信息,然后对提取的实体边界信息进行解码,识别得到实体片段的边界,得到实体边界信息;

采用识别得到的实体边界信息,对具有上下文信息的编码向量进行掩膜,得到备选实体片段向量,通过实体分类解码对备选实体片段的特征进行分类,得到实体分类信息;

组合得到的实体分类信息和实体边界信息,进而得到待提取的嵌套实体。

优选地,所述对输入文本进行数据预处理,包括:文本预处理和向量嵌入;其中:

所述文本预处理,捕捉输入文本的内在信息,包括分词、词性标注、语法解析以及语义解析,得到以词语为单位的文本片段以及文本片段所对应的语法依存树和语义解析树;

所述向量嵌入,在文本预处理的基础上,对词汇、字符、词性、语义和语法进行嵌入;其中:

词汇嵌入通过预训练的语言模型进行向量化,包括:调用预训练好的中文预训练模型,将每个词汇按照模型提供的接口进行编码作为模型的输入,最后通过bert计算得到词汇向量;

字符嵌入通过卷积神经网络学习嵌入方式,包括:随机初始化字符嵌入表,将每个字符进行编码,通过嵌入表得到初始向量,该向量通过卷积神经网络进行卷积并采用最大池化的方法得到字符级向量;

词性嵌入通过随机初始化向量并训练得到,包括:随机初始化词性嵌入表,将每类词性进行编码,通过嵌入表得到词性向量;

语义和语法嵌入通过图卷积网络对语义解析树和语法依存树进行卷积得到相应的语义向量和语法向量;

经过文本预处理和向量嵌入,将输入文本转化为一个多维向量。

优选地,所述将得到的多维向量进行特征编码,得到具有上下文信息的编码向量,包括:

利用双向长短时记忆网络对得到的多维向量进行线性变换和非线性扭曲,编码后的向量包含了上下文信息,即为具有上下文信息的编码向量。

优选地,所述对具有上下文信息的编码向量提取实体边界相关的信息,然后对提取的实体边界相关信息解码,识别得到实体片段的边界,得到实体边界信息,包括:

利用两级指针网络,网状识别具有上下文信息的编码向量的左边界组和右边界序列,再解码为对应的实体边界。

优选地,所述两级指针网络包括用于识别左边界组的组序列指针网络和用于识别右边界序列的实体序列指针网络;其中:

对于组序列指针网络,其输入为具有上下文信息的编码向量e和上一时刻得到的左边界向量o,通过左边界向量o对编码向量e做注意力操作,得到未标准化的定位概率;对于第j时刻,左边界定位概率为:

其中,uj,i为左边界未标准化的定位概率,v,w均为可训练的参数,下标l表示左边界,上标t为向量转置符号;

此时,第j时刻选择的左边界向量oj为:

oj=argmaxi(uj,i);

对于实体序列指针网络,其输入为编码向量、上一时刻得到的右边界向量以及所处组对应的左边界向量,对左边界向量和相应的右边界向量进行拼接,再对编码向量做注意力操作:

其中,uj,k,i为右边界未标准化的定位概率,下标p,r,k分别为右边界和对应第k个左边界,上标t为向量转置符号;

最终得到的右边界向量为oj,k=argmaxi(uj,k,i)。

优选地,所述采用识别得到的实体边界信息,对具有上下文信息的编码向量进行掩膜,得到备选实体片段向量,通过实体分类解码对备选实体片段的特征进行分类,得到实体分类信息,包括:

采用识别得到的实体边界信息对具有上下文信息的编码向量进行掩膜,得到备选实体片段向量,通过卷积神经网络学习备选实体片段向量,然后对得到的特征进行分类得到实体的类别,即为实体分类信息。

优选地,所述方法还包括:对实体边界信息提取过程和实体分类信息提取过程进行优化,

优选地,所述对实体边界信息提取过程和实体分类信息提取过程进行优化,包括:

采用交叉熵损失函数,通过召回率优先的方式交替训练实体边界信息提取过程和实体分类信息提取过程,实现提取过程的优化。

优选地,对所述实体分类信息提取过程进行优化的过程中,还加入空值类和负样本;其中:

所述空值类用于二次筛选实体,提升准确率;

所述负样本用于确保能够学习到空值类的表征;

所述负样本通过实体边界信息提取过程生成。

根据本发明的另一个方面,提供了一种基于边界识别的嵌套实体识别系统,包括:

数据预处理模块:对输入文本进行数据预处理,经过预处理的文本数据转化为一个多维向量;

特征编码模块,将数据预处理模块得到的多维向量进行特征编码,得到具有上下文信息的编码向量;

边界识别解码模块,将特征编码模块得到的具有上下文信息的编码向量作为输入,提取得到实体边界信息,然后对提取的实体边界信息进行解码,识别得到实体片段的边界,输出得到实体边界信息;

实体分类解码模块,将边界识别解码模块识别得到的实体边界信息和特征编码模块得到的具有上下文信息的编码向量作为输入,采用实体边界信息对具有上下文信息的编码向量进行掩膜,得到备选实体片段向量,通过实体分类解码对备选实体片段的特征进行分类,输出得到实体分类信息;

实体预测模块,将边界识别解码模块得到的实体分类信息和实体分类解码模块得到的实体边界信息进行组合,进而得到待提取的嵌套实体。

优选地,所述系统还包括:

模型训练模块,分别对边界识别解码模块和实体分类解码模块进行优化。

根据本发明的第三个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项所述的方法。

根据本发明的第四个方面,一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述任一项所述的方法。

由于采用了上述技术方案,本发明与现有技术相比,具有如下至少一项有益效果:

1、本发明提供的基于边界识别的嵌套实体识别方法及系统,通过边界展平的方式(即得到具有上下文信息的编码向量和得到实体边界信息的方式)避免了嵌套结构分层所产生的累积误差和实体分布差异带来的负面影响,在不同层次嵌套实体识别中都具有较好的识别能力;

2、本发明提供的基于边界识别的嵌套实体识别方法及系统,不需要引入正则或者其他标注规则展平实体,在不同领域不同数据上都可以使用,具有较强的泛化能力;

3、本发明提供的基于边界识别的嵌套实体识别方法及系统,带来的其他额外增益,如避免了对文本的重复操作,提高识别效率等。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明一优选实施例中基于边界识别的嵌套实体识别方法的工作流程图。

图2为本发明一优选实施例中边界识别解码过程示意图;

图3为本发明一优选实施例中实体分类解码过程示意图。

具体实施方式

下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

现有的逐层识别嵌套实体会引入大量的累积误差和计算成本,难以保证其方法的有效性,不具有实践性。因此,有效解决嵌套实体识别的思路需要先对嵌套结构进行展平。然而,这种思路最大的挑战在于对文本数据的展平往往依赖于数据本身的结构,因此需要大量的先验知识辅助,难以泛化。

本发明一实施例提供了一种基于边界识别的嵌套实体识别方法,该方法利用实体边界搜索的嵌套实体展平思路,利用嵌套实体与其边界具有一一对应的关系,将实体识别转化为两层边界识别问题。

本实施例提供的基于边界识别的嵌套实体识别方法,包括以下步骤:

步骤1,对输入文本进行数据预处理,经过预处理的文本数据转化为一个多维向量;

步骤2,将得到的多维向量进行特征编码,得到具有上下文信息的编码向量;

步骤3,对具有上下文信息的编码向量提取实体边界信息,然后对提取的实体边界信息进行解码,识别得到实体片段的边界,得到实体边界信息;

步骤4,采用识别得到的实体边界信息,对具有上下文信息的编码向量进行掩膜,得到备选实体片段向量,通过实体分类解码对备选实体片段的特征进行分类,得到实体分类信息;

步骤5,组合得到的实体分类信息和实体边界信息,进而得到待提取的嵌套实体。

在本实施例中,提取方式是先提取左边界得到一个列表,后对于列表中的每个值再提取对应的右边界,得到一系列的列表,然后将每个左边界和对应的有边界列表中每个右边界组合成一个边界对,这个边界对就代表嵌套实体,然后对应的实体类别组合成三元组,表示一个嵌套实体。

作为一优选实施例,步骤1中,对输入文本进行数据预处理,包括:文本预处理和向量嵌入;其中:

文本预处理,捕捉输入文本的内在信息,包括分词、词性标注、语法解析以及语义解析,得到以词语为单位的文本片段以及文本片段所对应的语法依存树和语义解析树;

向量嵌入,在文本预处理的基础上,对词汇、字符、词性、语义和语法进行嵌入;其中:

词汇嵌入通过预训练的语言模型进行向量化,具体地:调用预训练好的中文预训练模型,将每个词汇按照模型提供的接口进行编码作为模型的输入,最后通过bert计算得到词汇向量;

字符嵌入通过卷积神经网络学习嵌入方式,具体地,随机初始化字符嵌入表,将每个字符进行编码,通过嵌入表得到初始向量,该向量通过卷积神经网络进行卷积并采用最大池化的方法得到字符级向量;

词性嵌入通过随机初始化向量并训练得到,具体地随机初始化词性嵌入表,将每类词性进行编码,通过嵌入表得到词性向量;

语义和语法嵌入通过图卷积网络对语义解析树和语法依存树进行卷积得到相应的语义向量和语法向量;

经过文本预处理和向量嵌入,将输入文本转化为一个多维向量。

作为一优选实施例,步骤2包括:

利用双向长短时记忆网络对得到的多维向量进行线性变换和非线性扭曲,编码后的向量包含了上下文信息,即为具有上下文信息的编码向量。

作为一优选实施例,步骤3包括:

利用两级指针网络,网状识别具有上下文信息的编码向量的左边界组和右边界序列,再解码为对应的实体边界。

作为一优选实施例,两级指针网络包括用于识别左边界组的组序列指针网络和用于识别右边界序列的实体序列指针网络;其中:

对于组序列指针网络,其输入为具有上下文信息的编码向量e和上一时刻得到的左边界向量o,通过左边界向量o对编码向量e做注意力操作,得到未标准化的定位概率;对于第j时刻,左边界定位概率为:

其中,uj,i为左边界未标准化的定位概率,v,w均为可训练的参数,下标l表示左边界,上标t为向量转置符号;

此时,第j时刻选择的左边界向量oj为:

oj=argmaxi(uj,i);

对于实体序列指针网络,其输入为编码向量、上一时刻得到的右边界向量以及所处组对应的左边界向量,对左边界向量和相应的右边界向量进行拼接,再对编码向量做注意力操作:

其中,uj,k,j为右边界未标准化的定位概率,下标r,k分别为右边界和对应第k个左边界,上标t为向量转置符号;

最终得到的右边界向量为oj,k=argmaxi(uj,k,i)。

作为一优选实施例,步骤4包括:

采用识别得到的实体边界信息对具有上下文信息的编码向量进行掩膜,得到备选实体片段向量,通过卷积神经网络学习备选实体片段特征(该特征是一个向量,即为备选实体片段向量),然后对得到的特征进行分类得到实体的类别(这是实体识别中两个任务之一,就是先确定哪一部分是实体,之后判断实体类别,比如说是人物、地点、组织机构等),即为实体分类信息。

作为一优选实施例,本实施例所提供的方法,还包括如下步骤:

对实体边界信息提取过程和实体分类信息提取过程进行优化。

作为一优选实施例,优化的方法为:

采用交叉熵损失函数,通过召回率优先的方式交替训练实体边界信息提取过程和实体分类信息提取过程,实现提取过程的优化。

作为一优选实施例,对实体分类信息提取过程进行优化的过程中,还加入空值类和负样本;其中:

空值类用于二次筛选实体,提升准确率;

负样本用于确保能够学习到空值类的表征;

负样本通过实体边界信息提取过程生成。

本实施例所提供的基于边界识别的嵌套实体识别方法,主要包括:数据预处理、文本特征编码、边界识别解码、实体分类解码、过程优化(训练)以及实体预测的过程。

在本发明部分实施例中:

通过分词、词性标注、语法解析和语义解析等文本预处理方法全面捕捉输入文本的内在信息;借助预训练语言模型得到语义丰富的分布式表征;得到多维向量。

利用双向长短时记忆网络对得到的分布式表征进行编码,编码后的表征包含了上下文信息。后续边界识别解码与实体分类解码以此表征为输入。

利用两级指针网络构建边界识别解码模型,从而网状识别左边界组和右边界序列,再解码为对应的实体边界。

通过实体边界解码后的备选边界对特征编码后得到向量进行掩膜,通过卷积循环网络对候选实体进行分类,这一流程称为实体分类解码。

通过召回率优先的方式交替训练边界识别解码过程和实体分类解码过程,实现对过程的优化。

复用训练后所得到的过程参数(模型参数),按照级联的方式连接边界识别解码过程(边界识别解码模型)和实体分类解码过程(实体分类解码模型),用于提取待检测文本中的嵌套实体。

本实施例所提供的基于边界识别的嵌套实体识别方法,首先按照实体左边界进行分组,每组实体通过其右边界进行表征,得到一个基于边界的两层部分展平的结构,实现了嵌套结构的展平工作。

数据预处理:主要包含文本处理和向量嵌入两步,实现文本数据的向量化编码过程。本方法首先采用自然语言处理中的基本方法对文本进行切分,标注,语法语义解析等过程,后通过一个编码不同的嵌入方式组合特征得到分布式文本向量。

特征编码:特征提取在分布式文本向量的基础上进一步对文本进行编码,通过循环网络捕捉文本的上下文信息,从而得到包含上下文信息的编码向量。该编码向量用作两个解码过程的输入。

边界识别解码:是整个方法的核心,一方面,边界识别解码需要通过编码向量捕捉到实体的定位信息;另一方面,边界识别解码过程也需要按照一定的策略实现嵌套结构的展平。最终,边界识别解码过程解码出实体的候选边界

实体分类解码:是构建一个分类器在边界识别后的对候选边界进行分类,进一步确定候选实体是不是真正的实体的以及确定实体类别。

过程优化(训练):采用深度学习中的adam优化器对特征编码、边界识别解码和实体分类解码过程的参数进行优化。在优化过程中,采用了召回率优先的方法有效减少过程连接中产生的累计误差。

实体预测:则直接级联特征编码、边界识别解码和实体分类解码的过程,载入训练后的过程参数,实现对待检测文本的嵌套实体提取。

下面结合附图,对本实施例所提供的技术方案进一步详细描述如下。

如图1所示,为基于边界识别的嵌套实体识别方法的工作流程示意图。该方法主要包含六个过程,分别为:数据预处理、特征编码、边界识别解码、实体分类解码、过程训练和实体预测。

其中,数据预处理包含文本处理和向量嵌入两个子过程。首先,文本预处理包含以下步骤:分词、词性标注、语法解析和语义解析。通过上述步骤,文本预处理输出以词语为单位的文本片段,以“一名摄影师在美国坦克袭击一座巴勒斯坦旅馆时丧生”为例,文本处理输出结果为带有词性标注文本片段“一名m/摄影师n/在p/美国ns/坦克n/袭击v/一座m/巴勒斯坦ns/旅馆n/时n/丧生v”。此外,文本预处理还输出文本对应的语法依存树和语义解析树。其次,向量嵌入包含对词汇、字符、词性、语义和语法的嵌入。词汇通过预训练的语言模型进行向量化;对字符级别的信息可以通过卷积神经网络学习嵌入方式,词性嵌入可以通过随机初始化向量并通过过程训练得到,语义和语法嵌入通过图卷积网络对语义解析树和语法依存树进行卷积得到相应的语义向量和语法向量。

特征编码则利用预处理后的文本向量进一步进行编码,其为两个解码过程提供共享的上下文信息。

如图2所示,图2中,左侧给出了特征编码过程示意图,通过双向循环神经网络(具体使用的是双向长短时记忆模型)逐个词汇对文本进行编码,得到编码后的向量e。

如图2所示,图2中,右侧展示了边界识别解码过程示意图。根据图所示的结构,边界识别解码采用两个指针网络按网状模式分别计算基于左边界的组序列和基于右边界的组内实体序列。首先对于组序列指针网络输入为编码向量e和上一时刻得到的左边界向量o,通过o对e做注意力操作来得到未标准化的定位概率。因此,对于第j时刻,左边界定位概率可以通过其中v,w均为可训练的参数。此时,第j时刻选择的左边界为oj=argmaxi(uj,i)(2)。类似的,计算实体右边界序列以编码向量,上一时刻得到的右边界向量以及所处组对应的左边界向量为输入,相比于式子(1),实体序列指针网络需要对左边界向量和相应的右边界向量进行拼接后,再对编码向量做注意力操作:最终得到的右边界为oj,k=argmaxi(uj,k,i)(4)。

如图3所示,展示实体分类解码过程示意图。首先,以文本信息x和从边界识别解码过程得到的候选边界y作为输入。文本信息通过数据预处理过程得到编码向量e,通过边界y对e做掩膜操作,得到备选实体相关片段的向量,后通过卷积神经网络学习片段特征,而后进行分类得到实体的类别。

过程训练提供了对整个过程训练的方案。对边界识别和实体分类部分分别定义损失函数,本方法采用交叉熵损失函数用于学习。在学习过程中,通过随机梯度进行优化。由于边界识别和实体分类两个过程呈现串联形式(过程1的输出作为过程2的输入),在训练时也通过交替训练两个过程的策略综合训练整个基于边界识别的嵌套实体识别过程。此外,为保证训练的准确性,在训练阶段,实体分类解码过程需要添加额外的两类操作:1)分类模型加入空值类用于二次筛选实体,确保提升准确率;2)人为加入10%的负样本确保能够学习到空值类的表征,负样本可通过边界识别解码过程生成。

实体预测用于对未标注文本进行嵌套实体识别,识别后输出嵌套实体片段和相应的分类信息。

下面结合一具体应用实例,对本发明上述实施例所提供的方法进一步详细描述如下。

以“上海交通大学”为例,该片段包含两个实体:地理实体“上海”和机构实体“上海交通大学”。识别过程中首先识别到位置1——“上”作为左边界,后识别位置“2”——“海”和位置6——“学”作为右边界,最终得到两个实体。这种展平方式仅仅利用了嵌套结构固有的属性,而不需要对数据进行先验知识的提取,因此可以适用不同领域不同数据集,保证了方法的泛化能力。

基于以上的分析,基于边界识别的嵌套实体识别方法,通过嵌套结构展平的边界识别的方式,解决了如下技术问题:

1)通过边界部分展平嵌套结构;

2)文本数据编码;

3)构建基于边界识别的解码器;

4)边界识别解码模型和实体分类解码模型的训练。

通过f1指标对是被准确率进行评估,得到结果的准确率相比现有技术,提升1.3个百分点。

本发明另一实施例提供了一种基于边界识别的嵌套实体识别系统,包括:

数据预处理模块:对输入文本进行数据预处理,经过预处理的文本数据转化为一个多维向量;

特征编码模块,将数据预处理模块得到的多维向量进行特征编码,得到具有上下文信息的编码向量;

边界识别解码模块,将特征编码模块得到的具有上下文信息的编码向量作为输入,提取得到实体边界信息,然后对提取的实体边界信息进行解码,识别得到实体片段的边界,输出得到实体边界信息;

实体分类解码模块,将边界识别解码模块识别得到的实体边界信息和特征编码模块得到的具有上下文信息的编码向量作为输入,采用实体边界信息对具有上下文信息的编码向量进行掩膜,得到备选实体片段向量,通过实体分类解码对备选实体片段的特征进行分类,输出得到实体分类信息;

实体预测模块,将边界识别解码模块得到的实体分类信息和实体分类解码模块得到的实体边界信息进行组合,进而得到待提取的嵌套实体。

作为一优选实施例,本实施例所提供的系统,还包括:

模型训练模块,分别对边界识别解码模块和实体分类解码模块进行优化。

本发明第三个实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行本发明上述实施例中任一项所述的方法。

可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-accessmemory,缩写:ram),如静态随机存取存储器(英文:staticrandom-accessmemory,缩写:sram),双倍数据率同步动态随机存取存储器(英文:doubledataratesynchronousdynamicrandomaccessmemory,缩写:ddrsdram)等;存储器也可以包括非易失性存储器(英文:non-volatilememory),例如快闪存储器(英文:flashmemory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。

本发明第四个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行本发明上述实施例中任一项所述的方法。

本发明上述实施例提供的基于边界识别的嵌套实体识别的方法及系统,基于实体边界的两层提取模式匹配,按照左边界对实体进行分组,按照右边界匹配每组内的实体序列;采用循环神经网络对文本进行编码;以上一步生成的左边界为输入,通过指针网络1迭代按顺序生成实体组序列;组合每组内左边界和上一步生成的右边界作为输入,通过指针网络迭代生成组内实体序列;解码两层结构得到候选实体;通过卷积神经网络对实体进行分类。本发明上述实施例所提供的方法及系统,在不引入外部知识的前提下,通过简单的两层结构有效展平嵌套信息中的嵌套结构,在保证浅层信息精准提取的基础上,能够有效提高对深层嵌套结构的解析能力,确保深层嵌套信息提取的准确率。通过对嵌套结构进行展平,通过两层边界识别的方法实现了嵌套实体识别,在确保识别准确性的同时,也具有泛化能力。

需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照方法的技术方案实现系统的组成,即,方法中的实施例可理解为构建系统的优选例,在此不予赘述。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1