基于多交叉注意力特征融合的生物医学命名实体识别方法

文档序号:37796559发布日期:2024-04-30 17:06阅读:9来源:国知局
基于多交叉注意力特征融合的生物医学命名实体识别方法

本发明涉及自然语言处理,具体为基于多交叉注意力特征融合的生物医学命名实体识别方法。


背景技术:

1、命名实体识别是指识别文本中具有特定意义的实体,如人名,地名,机构名等。它的目的是从非结构化的文本中定位实体提及并将其分类为预定义的类别。然而,与一般领域不同,生物医学领域作为一个交叉学科,结合了医学和生物学等多个学科的方法和理论,其相关文献不仅包含了大量的科研成果,还记录了临床研究、药物治疗、基因表达等关键信息,都是为领域专业人员编写的,对于该领域的信息提取,通常需要更广泛的特定领域知识。同时,由于生物医学文献的海量性,人工处理这些文本成为一项繁重且耗时的任务。尽管国际上已组织了许多人工管理工作,以提取文本中生物医学概念等信息,并将提取得到的信息存储在结构化的知识资源中,如swiss-prot和genbank。但由于文献数据逐年增长的速度太快,对于开发自动化且高性能的bioner方法来帮助检索、组织和管理大量生物医学数据和信息就变得愈发重要。bioner是一种利用自然语言处理技术在文本中标注出如疾病、基因、蛋白质等实体的方法,同时也是后续进行进一步生物医学文献检索、生物医学问答系统等任务的关键子任务。

2、传统的生物医学命名实体识别方法可以分为基于规则和基于字典的方法。但基于规则和字典的方法往往对领域知识依赖性强,扩展性和可移植性差,而且推出规则和建立字典往往需要耗费大量的时间。随着数据量的增加,越来越多的研究人员尝试使用机器学习方法来处理bioner任务,比如隐马尔可夫模型(hidden markov model,hmm),支持向量机模型(support vector machine,svm),最大熵模型(maximum entropy,me)和条件随机场模型(conditional random fields,crf)。但是传统的机器学习方法通常只通过拼接的方法对字词特征进行融合,忽略了字词相互融合过程中的特征信息,进而导致了提取的特征准确率低,最终导致实体识别准确率低的问题。


技术实现思路

1、本发明的目的是:针对现有技术中通常只通过拼接的方法对字词特征进行融合,忽略了字词相互融合过程中的特征信息,进而导致了提取的特征准确率低,最终导致实体识别准确率低的问题,提出基于多交叉注意力特征融合的生物医学命名实体识别方法。

2、本发明为了解决上述技术问题采取的技术方案是:

3、基于多交叉注意力特征融合的生物医学命名实体识别方法,包括以下步骤:

4、步骤一:获取生物医学数据集,之后,针对生物医学数据集中的每个句子x,即单词序列,将句子x中所有实体和非实体分别进行标注;

5、步骤二:利用标注的实体和非实体,训练bi-bwc-lm模型,得到训练好的bi-bwc-lm模型;

6、所述bi-bwc-lm模型具体过程如下:

7、步骤1:将句子x输入biodistilbert模型,生成单词嵌入w;

8、步骤2:将句子x分割为字符,并将每个字符分别转换为one-hot向量和初始的字符嵌入向量,之后,将one-hot向量输入charcnn,得到字符级特征cc,将初始的字符嵌入向量输入charlstm,得到字符级特征cl;

9、步骤3:将单词嵌入w分别与字符级特征cc和字符级特征cl进行交叉注意力融合,得到融合后的嵌入twc和twl,之后将融合后的嵌入twc和twl再次进行交叉注意力融合,得到特征向量t;

10、步骤4:将特征向量t输入bilstm,得到双向输出序列h;

11、步骤5:将双向输出序列h输入多头注意力机制,得到输出的特征向量;

12、步骤6:将步骤5得到的特征向量输入实体类别识别模型,得到实体类别标签,进而完成实体识别,所述实体类别识别模型包括第一线性层、silu激活函数、dropout层以及第二线性层;

13、所述第一线性层用于将多头注意力机制输出的特征向量进行降维;

14、所述silu激活函数用于对第一线性层的输出进行非线性变换;

15、所述dropout层用于防止模型过拟合;

16、所述第二线性层用于将非线性变换得到的特征映射到类别空间,即得到实体类别;

17、步骤三:利用训练好的bi-bwc-lm模型进行实体识别。

18、进一步的,所述步骤2中将句子x分割为字符通过split()函数以及list()函数进行。

19、进一步的,所述步骤2中charcnn采用尺寸为4×4和尺寸为8×8的卷积核。

20、进一步的,所述融合后的嵌入twc表示为:

21、

22、q=wwq

23、k=ccwk

24、v=ccwv

25、所述融合后的嵌入twl表示为:

26、

27、所述特征向量t表示为:

28、

29、其中,q表示query,k表示key,v表示value,dk表示k的维度大小,表示ccwk的维度大小,wq、wk、wv分别表示三个可训练的参数矩阵,表示clwk的维度大小,表示twlwk的维度大小。

30、进一步的,所述bilstm包括前向lstm与后向lstm,所述前向lstm表示为:

31、

32、细胞状态更新和隐藏状态更新表示为:

33、ht=ot*tanh(ct)

34、

35、隐藏状态输出表示为:

36、

37、

38、

39、其中,it表示输入门,ft表示遗忘门,ot表示输出门,表示临时细胞状态,ct表示细胞状态,wi表示输入门的权重系数,wf表示遗忘门的权重系数,wo表示输出门的权重系数,wc表示临时细胞状态的权重,bi表示输入门的偏置值,bf表示遗忘门的偏置值,bo表示输出门的偏置值,bc表示临时细胞状态的偏置值,和分别表示t时刻的前文和后文的隐藏状态信息,表示lstm信息向量首尾拼接操作,ht表示bilstm在t时刻的隐藏状态输出,xt表示t时刻的输入词,tanh表示双曲正切函数。

40、进一步的,所述多头注意力机制运算定义如下:

41、multihead(q,k,v)=concat(head1,…,headh)w

42、

43、

44、其中,和分别表示第j个注意力头上q,k,v的参数映射矩阵,dk表示k的维度大小,concat为拼接操作,h表示head的总数,w表示将拼接结果进行线性转换,j=1,2,...,h。

45、进一步的,所述bi-bwc-lm模型的损失函数loss表示为:

46、loss=lce+lfl

47、

48、lfl=-(1-p)γlogp

49、其中,lce表示交叉熵损失函数,lfl表示focalloss损失函数,n表示样本数量,m表示类别数量,u表示第u个样本,m表示第m个类别,γ表示可调节因子,γ=2,p表示样本真实类别的预测概率。

50、进一步的,所述生物医学数据集包括ncbi-disease,bc5cdr-disease,bc5cdr-chem,bc2gm以及jnlpba。

51、进一步的,所述将句子x中所有实体和非实体分别进行标注通过bioes法进行。

52、进一步的,所述实体包括:disease、chemical、gene、dna、protein、cell-type、cell-line以及rna。

53、本发明的有益效果是:

54、本技术同时使用charcnn和charlstm,两个字符特征提取模型,charcnn通过卷积操作捕捉局部特征,而charlstm通过模拟时序依赖关系捕捉长期依赖关系。它们的结合可以更好地理解文本数据的语义信息,提高特征提取的准确性。有效缓解了现有方法通常只通过拼接的方法对字词特征进行融合,忽略了字词相互融合过程中的特征信息,进而导致了提取的特征准确率低,最终导致实体识别准确率低的问题,本技术使用biodistilbert提取单词嵌入后分别和charcnn和charlstm提取的字符级嵌入进行交叉注意力融合,弥补了单一提取词特征和字符特征的不足。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1