基于词汇增强和多特征的中文命名实体识别方法及装置与流程

文档序号:28807112发布日期:2022-02-09 02:46阅读:224来源:国知局
基于词汇增强和多特征的中文命名实体识别方法及装置与流程

1.本发明属于信息抽取技术领域,更具体地,涉及一种基于词汇增强和多特征的中文命名实体识别方法及装置。


背景技术:

2.命名实体识别从研究角度来说,主要可归纳为两类:一类是基于传统方法的,主要有基于词典与模板的方法、基于无监督学习的方法以及基于特征的监督学习方法;另一类是基于深度学习方法的,该类别按输入形式的不同,又可以归纳为基于字级别的、基于词级别。
3.初期的研究方法通过构建词汇信息和模板规则来进行,这些方法大多由行业专家依据数据集的特征人工构建特殊词典或者模板,进行匹配识别。一般来说,当制定的规则能比较准确地反应数据集语言特征时,识别效果较好,但规则依赖于具体数据集的文本风格且构建代价高。另外一个值得注意的问题是,基于词典和模板规则的系统可移植性差,不易移植到其他领域。聚类方法被广泛应用于基于无监督的命名实体识别,这类方法通过在大规模的文本数据上构建词汇信息、模式以及领域语言的文本信息统计来预测被划分到各个类簇的实体。同一个类簇的实体在语义空间上距离较近,具有相似的上下文信息。基于聚类的方法偏向于高质量的通用文本,在其他文本上识别率不高。基于特征的监督学习方法大多运用了概率统计的理论基础,所以也被称为基于概率统计的方法。该类方法解决命名实体识别问题的主要思路是序列标注,即通过大规模语料训练标注模型,从而对句子的各个位置进行标注。特征工程是基于传统概率统计模型的一个常见环节,指的是对数据集进行人工的特征选择与处理,然而对数据集进行特征工程处理会花费较大的时间成本,这使得该类方法存在一定的局限性。
4.在基于深度学习的命名实体识别的模型中,有两种典型的模型:基于字级别的模型与基于词级别的模型。对于英文命名实体识别而言,英文单词中存在天然的空格分割。因此,在英文命名实体识别中,通常是进行基于词级别的研究,另外,为了更充分地使用语义信息,一些研究在英文单词的基础上引入了组成该单词的字符的信息。对于中文命名实体识别而言,句子的表达是字符接着字符的,尽管一些研究工作在中文词语分割中取得了一些成果,但分词误差仍然存在并会影响下游模型的识别效果。因此,中文命名实体识别模型通常是基于字级别的,但基于字级别的模型忽略了中文词汇的语义信息,而词汇信息对于确定实体边界有重大意义。例如,就“武汉”这个词来说,对单个字符“汉”而言,可能将其标注为表示民族的单个实体,如果在其基础上引入词汇信息“武汉”之后,则更容易将其正确识别为地理位置实体的末尾。


技术实现要素:

5.针对现有技术的以上缺陷或改进需求,本发明提出了一种基于词汇增强和多特征的中文命名实体识别方法及装置,目的是为了解决现有的实体识别方法未充分利用中文文
本序列的字符特征、字符对应的词汇特征以及预训练特征等语义信息,导致识别的精确率和召回率不高的问题。
6.为实现上述目的,本发明提供了一种基于词汇增强和多特征的中文命名实体识别方法,包含以下步骤:s1,提取输入序列的字符特征、词汇特征以及预训练特征;s2,利用门控机制将所述词汇特征融入到所述字符特征中,以实现对字符特征的词汇增强;s3,线性拼接经过词汇增强后的字符特征和所述预训练特征,得到输入序列的最终特征;s4,对所述最终特征进行编码处理,以提取上下文特征;s5,基于所述上下文特征预测所述输入序列的最佳标签序列。
7.进一步地,所述s1包括:s11,利用双向长短期记忆网络提取输入序列的位置特征,利用卷积神经网络提取输入序列的局部形态特征,线性拼接所述位置特征和局部形态特征,得到输入序列的字符特征;s12,通过字符串模式匹配的方式引入字符对应的词汇信息,包括以字符开头的、以字符为中间部分的、以字符结尾的以及单个字符成词的词汇信息,并以词频加权平均的方式提取所述词汇特征;s13,利用预训练的bert-wwm模型提取输入序列的预训练特征。
8.进一步地,所述s2中,门控机制的计算方式为:
9.x
c,w
=xc*σ(xwwg+bg)
10.其中,σ为sigmoid函数,wg、bg为可学习的参数,xc为字符特征,xw为字符对应的词汇特征,x
c,w
为经过词汇增强后的字符特征。
11.进一步地,所述s2中,门控机制的计算方式为:
12.x
c,w
=g*xc+(1-g)*xw13.其中,g=σ(xcwc+xwww+bg),σ为sigmoid函数,wc、ww、bg为可学习的参数,xc为字符特征,xw为字符对应的词汇特征,x
c,w
为经过词汇增强后的字符特征。
14.进一步地,所述s3中,输入序列的最终特征表示为:
[0015][0016]
其中,x为输入序列的最终特征,x
c,w
为经过词汇增强后的字符特征,x
t
为预训练特征,表示线性拼接。
[0017]
进一步地,所述s5包括:s51,利用全连接层将提取到的上下文特征映射为每个字符对应标签的分数矩阵;s52,使用线性链条件随机场对所述分数矩阵进行解码,结合所述分数矩阵和条件随机场的条件转移矩阵计算每个标签序列的概率,从而预测输入序列的最佳标签序列。
[0018]
本发明另一方面还提供了一种基于词汇增强和多特征的中文命名实体识别装置,包括:特征提取模块,用于提取输入序列的字符特征、词汇特征以及预训练特征;词汇增强模块,用于利用门控机制将所述词汇特征融入到所述字符特征中,以实现对字符特征的词汇增强;多特征结合模块,用于线性拼接经过词汇增强后的字符特征和所述预训练特征,得到输入序列的最终特征;上下文编码模块,用于对所述最终特征进行编码处理,以提取上下文特征;标签解码模块,用于基于所述上下文特征预测所述输入序列的最佳标签序列。
[0019]
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
[0020]
(1)本发明首先提取输入序列的字符特征、词汇特征以及预训练特征;然后,利用门控机制将词汇特征融入到字符特征中,以实现对字符特征的词汇增强;接着,线性拼接经
过词汇增强后的字符特征和预训练特征,得到输入序列的最终特征;最后,对最终特征进行编码处理以提取上下文特征,并基于上下文特征预测输入序列的最佳标签序列。如此,本发明充分利用中文文本序列的字符特征、字符对应的词汇特征以及预训练特征,能够提高识别的精确率和召回率。
[0021]
(2)本发明使用双向长短期记忆网络和卷积神经网络提取中文字符序列的特征并线性拼接提取的特征,这兼顾了字符的远距离依赖的位置特征和局部的形态特征,从而使得提取到的字符特征更充分。
[0022]
(3)本发明在不分词的前提下,通过字符串模式匹配的方法,将词汇信息融入到单个字符中,这避免了中文分词误差造成的实体边界的识别误差和实体的分类误差。为了充分利用词汇信息,本发明构造了以字符开头、以字符作为中间部分、以字符结尾的以及单字成词的集合,然后按词频加权平均提取对应集合的词汇特征,接着使用门控机制来实现词汇对字符的增强,以此将词汇信息融入对应的字符,这更充分地利用了字符对应的词汇信息,且使用门控机制来控制词汇信息与字符信息的融合,使得词汇特征可以辅助决定字符特征的某些维度参与实体片段的判定,使得实体片段的识别更准确。
[0023]
(4)本发明线性拼接词汇增强后的字符特征与预训练模型提取的预训练特征,构建多特征的策略模式,进一步提升了中文命名实体识别的指标。
附图说明
[0024]
图1是本发明提供的一种基于词汇增强和多特征的中文命名实体识别方法的流程示意图;
[0025]
图2是本发明提供的一种基于词汇增强和多特征的中文命名实体识别装置的结构框图。
具体实施方式
[0026]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。此外,以下所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0027]
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0028]
本发明首先结合双向长短期记忆网络和卷积神经网络提取中文字符特征,使得提取的特征兼具长距离依赖的位置特征和局部形态特征。然后,在不分词的前提下,通过字符串模式匹配的方式引入字符对应的词汇信息,包括以字符开头的、以字符为中间部分的、以字符结尾的以及单个字符成词的词汇信息,并以词频加权平均的方式提取词汇特征。之后,通过门控机制将词汇特征融入到字符特征中,以实现对字符的词汇增强。接着,使用预训练
的bert-wwm模型来提取字符序列的预训练特征。最后,将经过词汇增强后的字符特征和预训练特征线性拼接,构成多特征的策略模式,从而改善中文命名实体识别的识别指标。
[0029]
图1是本发明提供的一种基于词汇增强和多特征的中文命名实体识别方法的流程示意图,该识别方法包括操作s1-操作s5。
[0030]
s1,提取输入序列的字符特征、词汇特征以及预训练特征;
[0031]
s2,利用门控机制将所述词汇特征融入到所述字符特征中,以实现对字符特征的词汇增强;
[0032]
s3,线性拼接经过词汇增强后的字符特征和所述预训练特征,得到输入序列的最终特征;
[0033]
s4,对所述最终特征进行编码处理,以提取上下文特征;
[0034]
s5,基于所述上下文特征预测所述输入序列的最佳标签序列。
[0035]
具体而言,分为如下步骤:
[0036]
1、字符特征、词汇特征以及预训练特征提取
[0037]
1.1、字符特征提取
[0038]
对于字符向量序列,本发明不仅使用卷积神经网络来提取局部形态特征,而且使用双向长短期记忆网络来提取长距离依赖的位置特征,从而更好地编码序列的位置信息。本发明将双向长短期记忆网络每一个单元提取到的字符特征与卷积神经网络中多个卷积核各自提取到的局部字符特征线性拼接,以此来表示单个字符的特征向量。这样既保留了局部形态特征,也使用了长距离依赖的位置特征。
[0039]
设经过字嵌入向量矩阵后的字符特征表示为ec,本发明提取到的字符特征如公式(1)所示。
[0040][0041]
其中,dropout为防止过拟合策略,表示线性拼接。bilstm网络和cnn网络提取到的字符特征的维度一致。
[0042]
1.2、词汇特征提取
[0043]
对于每个字符而言,定义集合begin为以此字符开头的词汇集合,集合middle为以此字符为中间部分的词汇集合,集合end为以此字符结尾的词汇集合,集合single为此字符单独组成词汇的情形,为表述便利,分别取集合对应首字母,下文简称这四个集合为“bmes”,形式化的表示如公式(2)所示。
[0044][0045]
其中,w
i,j
指代输入序列中从i到j的子序列,l表示预训练词典,n表示序列长度。如果字符的某个集合为空,为了使模型训练时可以并行化计算,本发明用“null”标识来填充空集合。
[0046]
对于给定的词典,首先构建词汇前缀树,接着依次对输入句子序列的子串进行匹
配,具体是通过两个索引正向移动和反向移动来定位句子片段,然后将匹配到的词汇分发到组成该词汇的各个字符对应的“bmes”集合中。例如,“协和医院”这个词被分发到“协”的b集、“和”的m集、“医”的m集以及“院”的e集。由此可见,本发明的模型结构不仅引入了以字符结尾的词汇信息,而且引入了以字符开头的词汇信息和以字符为中间部分的词汇信息以及单个字符组成词汇的信息,这使得词汇信息的利用更充分。
[0047]
接下来是将集合中的词汇信息映射成固定维度的向量表示。此处将字符的“bmes”集合分别映射成一个向量表示,以此来提取字符对应的四类情形的词汇特征。对于字符对应的“bmes”集合,任一集合中可能有多个词汇。为了充分利用数据集的词频语义信息,本发明使用词频来对“bmes”集合中词汇对应的词向量进行加权平均,从而生成对应集合的词汇向量表示。
[0048]
下面介绍提取词汇特征的具体方案。对于某个字符对应的“bmes”集合中,所有词的总词频如公式(3)所示,p(w)表示词w的词频。
[0049][0050]
以s
x
来表示字符的“bmes”集合中任意一个,则s
x
对应的特征向量表示如公式(4)所示。
[0051][0052]
其中,ew是词嵌入向量矩阵。
[0053]
对于某个字符而言,在提取到其对应的“bmes”集合各自对应的特征后,本发明将这些特征向量进行拼接,如公式(5)所示,以此作为这个字符所能融入的所有词汇信息,这些信息包括了以它为开头、以它为中间部分、以它为结尾和其单独成词的情形。
[0054][0055]
1.3、预训练特征提取
[0056]
对于给定的文本序列s,本发明使用bert-wwm的tokenizer来对输入的序列形式“[cls]+字符序列+[sep]”进行编码,从而生成token-id。其中“[cls]”和“[sep]”是句子分隔标志。在训练时,bert-wwm模型是以句子对作为输入的,并使用0和1标识token,以此来区分两个句子对。为了便于处理,本发明使用单个句子作为输入,因此只需要生成一个全0序列seg-id,并将token-id和seg-id作为bert-wwm的输入,从而提取字符序列预训练的特征,如公式(6)所示。
[0057]
x
t
=bert-wwm(token-id(s),seg-id,mask)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0058]
其中,mask表示对输入序列进行填充并标识,通常用1表示该位为原始字符,用0表示该位是填充字符,这样使得文本序列可以批量输入到bert-wwm模型进行迭代训练。
[0059]
2、门控机制进行词汇增强
[0060]
词汇信息有利于识别命名实体的边界,例如“大学”这个词标识了某某大学这个特定的组织类实体的结尾,因此可以使用词汇信息对相应的字符信息加以控制,辅助字符特征流入下层。如长短期记忆网络的遗忘门、输入门和输出门,都使用门控机制来决定某些维度特征的流入,这使得特征可以在尽可能多的时间步长中进行流动,若没有这些控制门,特征很容易在各个时间步的转换中消失。
[0061]
本发明提出了两种门控机制来控制词汇信息与字符信息的融合,使得词汇特征可以辅助决定字符特征的某些维度参与实体片段的判定。
[0062]
门控机制一。如公式如(7)所示。
[0063]
x
c,w
=gate(xc,xw)=xc*σ(xwwg+bg)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0064]
其中,σ为sigmoid函数,wg、bg为可学习的参数,xc为字符特征,xw为字符对应的词汇特征。正如lstm模型中使用sigmoid函数来控制信息流动一样,因为sigmoid函数的值域为(0,1),所以此处将被sigmoid函数作用的词汇特征与字符特征对应相乘,使得词汇特征被映射为接近0的维度屏蔽对应字符特征维度的信息,接近1的维度选择对应字符维度的信息进行流动,从而达到词汇信息融入字符信息的效果,以实现对字符的词汇增强。
[0065]
门控机制二。计算过程如公式(8)、(9)所示。
[0066]
g=σ(xcwc+xwww+bg)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0067]
x
c,w
=g*xc+(1-g)*xwꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0068]
其中,σ为sigmoid函数,wc、ww、bg为可学习的参数,xc为字符特征,xw为字符对应的词汇特征。从上式中可以看出,若g值较大,模型倾向选择输入字符串特征xc。若g值较小,模型倾向于选择词汇特征xw,这样使得模型在训练的过程中动态选择字符特征或者词汇特征向下游上下文编码层的流入。
[0069]
门控机制一使用的可学习的参数更轻量,因此其在较小规模的数据集上效果更好,而门控机制二使用的可学习参数更多,在较大规模的数据集上效果更好。
[0070]
3、多特征的策略模式
[0071]
如前所述,本发明提取了字符特征、词汇特征并通过词汇增强的方式将词汇特征引入到字符特征中,另外,使用了预训练的bert-wwm模型来提取字符序列特征。对于提取到的多种特征,本发明使用线性拼接的方式进行结合,即对经过词汇增强后的字符特征和预训练模型提取的字符序列特征进行拼接,得到最终的输入序列特征,如公式(10)所示。
[0072][0073]
其中,x
c,w
为经过词汇增强后的字符特征,x
t
为预训练模型提取的特征。
[0074]
4、上下文编码层提取上下文相关性
[0075]
首先通过双向长短期记忆网络(bilstm)对输入序列的最终特征表示进行编码处理,提取上下文特征,然后使用全连接层将提取到的特征映射为每个字符对应标签的分数,最后将标签分数输入到标签解码层,进行解码。由于本发明使用的是自适应的特征提取,因此上下文编码层也可以替换为其他有代表性的编码网络,例如id-cnn、transformer等。
[0076]
5、标签解码层预测输入序列最佳标签序列
[0077]
本发明使用线性链条件随机场来对标签分数进行解码。条件随机场通过上下文编码层获取的分数矩阵和自身的条件转移矩阵来计算和预测某个标签序列的概率,具体的计算方式由维特比算法完成。
[0078]
图2是本发明提供的一种基于词汇增强和多特征的中文命名实体识别装置的结构框图。参阅图2,该识别装置200包括特征提取模块210、词汇增强模块220、多特征结合模块230、上下文编码模块240以及标签解码模块250。
[0079]
特征提取模块210例如执行操作s1,用于提取输入序列的字符特征、词汇特征以及预训练特征;
[0080]
词汇增强模块220例如执行操作s2,用于利用门控机制将所述词汇特征融入到所述字符特征中,以实现对字符特征的词汇增强;
[0081]
多特征结合模块230例如执行操作s3,用于线性拼接经过词汇增强后的字符特征和所述预训练特征,得到输入序列的最终特征;
[0082]
上下文编码模块240例如执行操作s4,用于对所述最终特征进行编码处理,以提取上下文特征;
[0083]
标签解码模块250例如执行操作s5,用于基于所述上下文特征预测所述输入序列的最佳标签序列。
[0084]
识别装置200用于执行上述图1所示实施例中的识别方法。本实施例未尽之细节,请参阅前述图1所示实施例中的识别方法,此处不再赘述。
[0085]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1