自适应分配上下文特征的命名实体识别方法及装置、计算机可读存储介质与流程

文档序号:32155597发布日期:2022-11-11 22:42阅读:33来源:国知局
自适应分配上下文特征的命名实体识别方法及装置、计算机可读存储介质与流程

1.本公开涉及命名实体识别方法,特别涉及自适应分配上下文特征的命名实体识别方法及装置、计算机可读存储介质。


背景技术:

2.在文本领域中,准确的识别命名实体类型及其实体边界对开发更复杂的自然语言系统,如信息提取、问题回答、文本摘要等具有极大的影响。传统的命名实体识别方法依赖大量的人为定义的特征,然而这类方法不仅非常的耗时耗力,还需要领域以及语言方面的专业知识。近年来,深度学习依靠其强大的数据挖掘能力,最大化的减少了手工构建特征的成本,并在图像分类、语音识别以及自然语言处理等领域取得了令人瞩目的成就。因此,利用深度学习方法进行命名实体识别具有重大的研究意义。


技术实现要素:

3.bilstm(bi-directional long short-term memory,双向长短期记忆)网络模型可以提取文本序列中单词的上下文特征,从而帮助模型更好地理解单词的语义以及不同单词之间的关联。对于命名实体单词,应该为其融入丰富的上下文信息来提升识别效果,但是现在的 bilstm网络模型仅将容量有限的隐状态作为单词的上下文特征,这是不够的。另外,对于非命名实体单词,其大多是信息量较小的停用词等,在识别这类单词时,往往不需要太多上下文信息就可以给出判断,如果为其融入了过多的上下文信息很可能被上下文信息中其他单词的特征所干扰从而给出错误判断。
4.本公开是鉴于上述问题而作出的,其目的在于提供一种能够提高命名实体识别效果的自适应分配上下文特征的命名实体识别方法及装置、计算机可读存储介质。
5.根据本公开的一个方面,提供了一种自适应分配上下文特征的命名实体识别方法,包括:对文本中的每个单词进行词嵌入而得到文本的词向量序列,将该词向量序列分别输入到神经网络模型的前后向网络,提取前后向隐状态,拼接前后向隐状态得到单词的初级上下文特征;使用基于距离的注意力机制来融合单词的所述初级上下文特征,得到单词的增强上下文特征;以及通过针对每个单词计算出的门控系数来融合单词的所述初级上下文特征和所述增强上下文特征,得到单词的自适应分配上下文特征并从所述神经网络模型输出,其中所述门控系数的值域为0至1。
6.根据本公开的另一个方面,提供了一种自适应分配上下文特征的命名实体识别装置,包括:存储器,其上存储有指令;以及一个或多个处理器,被配置为执行存储在所述存储器上的指令,以执行权利要求所述的方法。
7.根据本公开的另一个方面,提供了一种计算机可读存储介质,包括计算机可执行指令,所述计算机可执行指令被一个或多个处理器执行时,使得所述一个或多个处理器执行所述的方法。
8.根据本公开,能够提高命名实体识别效果。
附图说明
9.图1是本公开的实施例的自适应分配上下文特征的命名实体识别方法的概略示意图。
10.图2是本公开的实施例的自适应分配上下文特征的bilstm网络模型的工作流程概略框图。
11.图3示出了能够实现本公开的实施例的计算设备的示例性配置。
具体实施方式
12.本公开中,通过增强文本中单词的隐状态与其余单词的隐状态,从而增强每个单词的上下文特征,进而,动态地调整不同类型单词例如命名实体单词以及非命名实体单词中上下文特征的占比,自适应地分配上下文特征,削弱上下文信息在非命名实体单词特征中的占比,从而提高命名实体识别效果。
13.也就是说,将自适应融合上下文特征的方法引入bilstm网络模型,从而更加合理地为命名实体单词以及非命名实体单词分配单词个体特征以及单词上下文特征,从而改善命名实体识别效果。
14.下面,参照附图详细说明具体实施例。
15.图1是本公开的实施例的自适应分配上下文特征的命名实体识别方法的概略示意图。
16.图1中,除了自适应地分配上下文特征的bilstm网络模型以外,其他动作基本与现有技术相同。
17.图2是本公开的实施例的自适应分配上下文特征的bilstm网络模型的工作流程概略框图。
18.如图2所示,首先,得到单词的初级上下文特征。
19.具体而言,令输入的文本序列为其中wi指第i个单词,n 为文本中单词的数量。对每个单词进行词嵌入得到文本的词向量序列再如下式(1)与下式(2)所示,将词向量序列分别输入到bilstm 网络模型的前后向神经网络提取前后向隐状态与然后如下式(3)所示,拼接前后向隐状态得到单词的初级上下文特征
[0020][0021][0022][0023]
其次,得到单词的增强上下文特征。
[0024]
具体而言,为了进一步丰富每个单词的上下文特征,使用基于距离的注意力机制
来融合单词的初级上下文特征,
[0025]
例如,令d
ji
为单词wj距离单词wi的归一化距离:
[0026][0027]
一般来说,距离单词wi越近的单词的上下文特征对单词wi越重要,因此对于每一个单词wi按照高斯加权的方式融合单词wi及其余单词的上下文特征,得到增强上下文特征
[0028][0029][0030][0031]
其中,μ和σ分别是的均值和标准差,α
ji
是加权系数。
[0032]
接着,得到单词的自适应分配上下文特征。
[0033]
具体而言,考虑到对于不同类型的单词,例如命名实体单词和非命名实体单词,应为命名实体单词分配更多上下文特征,为非命名实体单词分配较少上下文特征,使用门控机制来自适应地为单词分配上下文特征。
[0034]
例如,首先,为每个单词wi计算门控系数gi,例如,将代表单词个体特征的初级上下文特征和其增强上下文特征输入双线性函数和 sigmoid激活函数中计算出值域为0至1的门控系数gi:
[0035][0036]
其中wg为双线性函数的参数。
[0037]
然后,通过门控系数gi融合初级上下文特征和增强上下文特征得到bilstm网络模型的最终输出,即自适应分配上下文特征
[0038][0039]
另外,为了进一步指导bilstm网络模型对gi的学习,在bilstm 网络模型最终的损失函数中加入对gi的监督信息,即对于命名实体单词,使gi尽可能小,对于非命名实体单词,使gi尽可能大:
[0040][0041]
上述公式中第一项为一般的命名实体识别序列交叉熵损失,上述公式中第二项和第三项分别为对命名实体单词和非命名实体单词的门控系数的负对数损失,其中ne和nne分别代表命名实体识别序列中命名实体单词位置集合和非命名实体单词位置集合。
[0042]
本公开在现有bilstm网络模型的基础上提出一种单词的上下文特征增强方法,从而增强了每个单词的上下文特征。
[0043]
进一步地,本公开为了削弱上下文信息在非命名实体单词特征中的占比,提出一种自适应分配上下文特征的方法,动态地调整不同类型单词中上下文特征的占比。
[0044]
由此,相比于现有的bilstm网络模型仅将容量有限的隐状态作为单词的上下文特征,同时非命名实体单词大多是信息量较小的停用词,在识别这类单词时,往往不需要太多上下文信息就可以给出判断,如果为其融入了过多的上下文信息很可能被上下文信息中其他单词的特征所干扰从而给出错误判断,本公开可以通过单词的上下文特征的增强方法和自适应分配上下文特征的方法,在减少其他单词特征干扰的情况下,尽可能增强更多的上下文信息,从而提高命名实体识别的准确率。
[0045]
图3示出了能够实现本公开的实施例的计算设备的示例性配置。
[0046]
计算设备1200是能够应用本公开的上述自适应分配上下文特征的命名实体识别方法的硬件设备的实例。
[0047]
计算设备1200可以是被配置为执行处理和/或计算的任何机器。计算设备1200可以是但不限制于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数据助手(pda)、智能电话、车载计算机或以上组合。
[0048]
如图3所示,计算设备1200可以包括可以经由一个或多个接口与总线1202连接或通信的一个或多个元件。计算设备1200可以包括例如一个或多个处理器1204、一个或多个输入设备1206以及一个或多个输出设备1208。一个或多个处理器1204可以是任何种类的处理器,并且可以包括但不限于一个或多个通用处理器或专用处理器(诸如专用处理芯片)。
[0049]
计算设备1200还可以包括或被连接至非暂态存储设备1214,该非暂态存储设备1214可以是任何非暂态的并且可以实现数据存储的存储设备,并且可以包括但不限于固态存储器、软盘、硬盘带或任何其他磁性介质、压缩盘或任何其他光学介质、缓存存储器和/或任何其他存储芯片或模块、和/或计算机可以从其中读取数据、指令和/或代码的其他任何介质。计算设备1200还可以包括随机存取存储器 (ram)1210和只读存储器(rom)1212。rom 1212可以以非易失性方式存储待执行的程序、实用程序或进程。ram 1210可提供易失性数据存储,并存储与计算设备1200的操作相关的指令。计算设备1200还可包括耦接至数据链路1218的网络/总线接口1216。网络/ 总线接口1216可以是能够启用与外部装置和/或网络通信的任何种类的设备或系统,并且可以包括但不限于调制解调器、网络卡、红外线通信设备、无线通信设备和/或芯片集。
[0050]
在本公开的描述中,虽然在说明书和附图中以特定次序描绘了操作,但是这不应该被理解为要求以所示的特定次序执行这样的操作。在某些情况下,多任务处理和并行处理可以是有利的。
[0051]
以上已经描述了本公开的实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的实施例。在不偏离所说明的实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释实施例的原理、实际应用或对市场技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的实施例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1