一种基于字词融合的低词汇信息损失中文命名实体识别方法

文档序号:35119765发布日期:2023-08-14 12:22阅读:27来源:国知局

:随着信息技术的迅速发展,新闻、法律、医疗、媒体等领域的数据呈现爆炸式增长。从海量非结构化数据中提取信息,将其转换为结构化数据,从而获得有价值的信息,已成为研究的热点。命名实体识别(ner)作为信息抽取领域的关键技术之一,旨在从文本中识别出命名实体并将其分类为预定义的类别,例如人名、地名、组织名称、货币名称和专有名词等。命名实体识别不仅是构建知识图谱所必需的技术,而且在信息检索、问答系统和机器翻译等自然语言处理(nlp)的下游应用中扮演着重要的角色,准确地识别实体对于这些下游任务有直接的帮助作用。在第六届语义理解会议(muc-6)上,命名实体识别技术首先被提出,随后研究者们对其进行了大量的研究。早期的ner方法主要运用由语言学专家根据语言知识特性手工构造的规则模板,通过匹配的方式实现命名实体的识别。但是该方法存在规则制定成本高、规则无法移植到其他语料等局限性。因此在其他大型语料中单纯依靠这种方法较难获得良好的识别结果。后来基于特征工程和机器学习的命名实体识别系统成为主流,常用的方法有最大熵、隐马尔可夫模型、支持向量机和条件随机场等。近年来,深度学习在各领域上的成功应用引起了巨大的关注。得益于深度学习本身端到端的特性,无需复杂的特征工程,深度学习的网络框架通用性好,精确度高,在神经网络拓扑结构和训练范式方面效果显著,目前深度学习网络已成为解决命名实体识别任务的最主要模型。

背景技术

0、
背景技术:

1、大量的研究工作已在资源丰富的英文各领域开展。面向中文的ner起步较晚,而且中文与英文等其他语言相差较大,由于其自身的语言特性,中文领域的ner主要存在以下3个特殊性。

2、(1)中文词语的边界不明确。中文的单元词汇边界模糊,缺少英文文本中空格这样明确的分隔符,也没有明显的词形变换特征,因此容易造成许多边界歧义,从而加大了ner的难度。

3、(2)中文ner需要同中文分词和语法分析相结合。只有准确的中文分词和语法分析才能正确划分出命名实体,才能提升ner的性能,这也额外增加了中文ner的难度。

4、(3)中文存在多义性、句式复杂表达灵活、多省略等特点。在不同领域的同一词语所表示的含义并不相同,且同一语义也可能存在多种表达。此外,互联网的迅速发展,尤其是网络文本中的文字描述更加个性化和随意化,这都使得实体的识别更加困难。

5、为了利用词边界信息,一些研究工作将词汇信息整合到基于字符的模型中,使得中文命名实体识别模型性能得到进一步提升。这些基于字符的词汇增强方法要明显优于单纯基于字符或基于词的方法,已被广泛运用于中文命名实体识别。本研究从输入表示的角度出发,将这些方法分为基于词、基于字和基于字-词混合的三类模型,并分别对它们进行介绍。

6、基于词的ner模型

7、基于词的中文命名实体识别模型需要先对输入文本进行分词,然后将分词结果作为输入输入到命名实体识别模型中,再利用不同的算法进行实体标注和分类。collobert提出了第一个基于词的命名实体识别模型,它构建了一个统一的卷积神经网络架构,可以同时处理多种自然语言处理任务,如词性标注、语义角色标注、命名实体识别等。这个架构还利用了无标注文本来学习一个语言模型,这是一种新的半监督学习方式。hovy等人通过结合双向lstm、cnn和crf来进行序列标注任务。lample等人使用长短期记忆网络(lstm)代替cnn进行特征提取。chen等人提出了bilstm-crf模型,并取得了良好的性能效果。当上述模型应用于中文命名实体识别时,作为模型输入,对中文进行分词是必须的,所以都会遭受分词错误的影响。

8、基于字的ner模型

9、与基于词的模型不同,基于字的模型无需对文本分词,而是直接以单字为输入。这样可以减少分词错误带来的负面影响,并且通常能够提升模型性能。cui等人提出了一种基于bart的模板化ner模型,通过n-gram方法构建候选实体,然后将其与手工模板拼接,使用bart对其打分,从而预测出实体类别。kenton介绍了一种基于bert的ner模型,通过在bert输出层添加一个crf层来进行序列标注,同时使用bioes标签体系来表示实体边界和类型。strubell等人为充分利用gpu的并行性,提出了迭代扩张卷积神经网络id-cnns,该模型由四个结构相同的dilated cnn模块拼接在一起,在保持识别准确性的同时,速度相较于bilstm-crf提升了八倍。li等人通过在词之间插入边界符,巧妙地将词的边界信息融入模型,解决了词的oov问题。基于字符的命名实体识别虽然往往优于基于词的方法,但是它忽略了词汇信息,而词汇信息对于确定实体边界非常重要。

10、基于字-词混合的ner模型

11、由于缺乏足够的中文命名实体识别标注数据资源,因此如何在基于字符的模型中引入词汇信息成为近年来ner任务研究的重点。在一些中文命名实体识别任务上,使用词汇信息的方法可以媲美甚至优于大语料预训练模型bert。

12、peng等人首次将中文命名实体识别任务和中文分词任务进行联合训练,在社交媒体数据的ner任务中效果获得了显著提升。gui等人使用卷积神经网络来并行处理所有句子和词汇,并提出一种反思机制,通过添加反馈层并反馈高层特征,细化嵌入词汇权重,来解决潜在词汇冲突的问题。xuan等人提出了一种新的cnn结构cgs-cnn,它不仅可以获取字形信息,还可以通过融合机制捕获语境和字形之间潜在交互知识。liu等人提出将外部词典知识与bert模型结合,通过lexicon adapter层直接将外部词典知识融合到bert层中。zhang等人首先提出了一种基于格的长短期记忆网络(lattice-lstm)模型,它在lstm-crf的基础上,通过有向无环图来连接单词开始和结束字符之间的存储单元,从而利用词汇信息,在多个中文数据集上都达到了当时最优的效果。但lattice lstm中每个字符只能获取以它为结尾的词汇,且数量是不固定的,导致信息损失和运行效率低下。liu等人对其进行改进,提出了wc-lstm,通过固定模型输入大小和丰富词汇信息,加快了模型训练速率,弥补了词汇信息损失问题。


技术实现思路

0、
技术实现要素:

1、虽然wc-lstm在lattice-lstm基础上已经取得了很大的进步,但其依然没有充分利用词汇信息。如附图1所示,“天”字在第二层lstm融入了“天安门”词汇信息,“门”字在第一层lstm融入了“天安门”词汇信息,皆对该字符标签的正确预测产生了积极影响,而由于wc-lstm模型并不会对存在于词汇中间的字符注入词汇信息,因此“安”字丢失“天安门”词汇信息,这一定程度上降低了该字符被预测正确的可能性。针对该问题,本发明提出在bilstm两层的输入上,对于每个字符,不仅融入以该字符为开头和结尾的词汇信息,还融入以该字符存在于其他词汇中间的词汇信息,分别采用两种编码策略来提取词汇信息,最终使用crf得到全局最优标签序列。为验证本模型的性能优势,在公开数据集weibo、resume、msra上进行实验。主要贡献如下:

2、(1)提出一种基于字词融合的低词汇信息损失的ner模型,在对字符融入以该字符为开始和结尾词汇信息的基础上,额外融入以该字符为中间字符的词汇,避免了词汇信息损失。

3、(2)引入两种编码策略,能够固定模型输入和无遗失地采纳各词汇信息,充分利用词汇信息。

4、(3)在三个中文数据集上进行实验,结果表明,本发明在性能上均优于基础模型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1