电子病历命名实体识别方法和装置、电子设备及存储介质与流程

文档序号:35916326发布日期:2023-10-30 08:49阅读:41来源:国知局
电子病历命名实体识别方法和装置、电子设备及存储介质与流程

本技术涉及数字医疗,尤其涉及一种电子病历命名实体识别方法和装置、电子设备及存储介质。


背景技术:

1、命名实体识别(name entity recognition,ner)技术可用于识别文本中的特定实体信息,如人名、地名、组织名称等,命名实体识别广泛应用于信息抽取、信息检索、智能问答、机器翻译等领域。通常,命名实体识别任务被形式化为序列标记任务,并且通过预测每个单词或每个单词的标记来联合预测实体边界和实体类型。

2、在数字医疗领域,通过命名实体识别技术将电子病历文本数据中蕴含的与医疗相关的实体名称归类到预定的类别,能够对医学信息检索、智能会诊中的问答对话、疾病信息抽取等方面起到较大的推动作用。

3、目前,大多数的电子病历命名实体识别方法常常是通过引入医学词典来对电子病历数据中的实体特征进行识别,这一方式常常无法根据不同的医学场景选取合适的词汇,会导致对命名实体的边界判断错误,存在着实体识别的准确性不高的问题。


技术实现思路

1、本技术实施例的主要目的在于提出一种电子病历命名实体识别方法和装置、电子设备及存储介质,旨在提高电子病历的命名实体识别的准确性。

2、为实现上述目的,本技术实施例的第一方面提出了一种电子病历命名实体识别方法,所述方法包括:

3、获取电子病历数据;其中,所述电子病历数据包括病历文本数据;

4、对所述病历文本数据进行分词处理,得到病历词语序列;

5、通过预设的命名实体识别模型的第一分支网络对所述病历词语序列进行特征提取,得到病历文本特征,其中,所述命名实体识别模型包括特征融合网络、第二分支网络、以及识别网络;

6、基于所述特征融合网络对所述病历文本特征和预先获取的词汇数据进行融合处理,得到融合文本特征;

7、基于所述第二分支网络对所述融合文本特征进行实体抽取,得到融合文本实体特征;

8、基于所述识别网络对所述融合文本实体特征进行实体识别,得到所述融合文本实体特征的实体类型。

9、在一些实施例,所述通过预设的命名实体识别模型的第一分支网络对所述病历词语序列进行特征提取,得到病历文本特征,包括:

10、通过所述第一分支网络对所述病历词语序列中的病历词语进行词嵌入处理,得到词嵌入向量;

11、对所述词嵌入向量进行多头注意力计算,得到第一注意力计算结果;

12、对所述第一注意力计算结果进行归一化处理,得到所述病历文本特征。

13、在一些实施例,所述基于所述特征融合网络对所述病历文本特征和预先获取的词汇数据进行融合处理,得到融合文本特征,包括:

14、基于所述特征融合网络对所述病历文本特征和所述词汇数据进行双线性注意力计算,得到第二注意力计算结果;

15、基于所述病历文本特征对所述第二注意力计算结果进行语义增强,得到中间文本特征;

16、对所述中间文本特征进行标准化处理,得到所述融合文本特征。

17、在一些实施例,所述基于所述特征融合网络对所述病历文本特征和所述词汇数据进行双线性注意力计算,得到第二注意力计算结果,包括:

18、对所述病历文本特征和所述词汇数据进行特征相乘,得到第一特征矩阵;

19、对所述第一特征矩阵进行总和池化处理,得到第二特征矩阵;

20、对所述第二特征矩阵进行向量化处理,得到双线性特征向量;

21、对所述双线性特征向量进行归一化处理,得到归一化特征;

22、基于预设函数对所述归一化特征进行注意力计算,得到所述第二注意力计算结果。

23、在一些实施例,所述方法还包括获取所述词汇数据,具体包括:

24、对所述病历文本数据进行分割处理,得到文本字符;

25、遍历预设的扫描词典,选取所述扫描词典中包含所述文本字符的医学词语作为候选词语;

26、从多个所述候选词语中筛选出目标词语,并将所述目标词语整合为所述词汇数据。

27、在一些实施例,所述从多个所述候选词语中筛选出目标词语,包括:

28、获取所述候选词语的词性类别;

29、基于所述词性类别,从多个所述候选词语中筛选出所述目标词语。

30、在一些实施例,所述基于所述识别网络对所述融合文本实体特征进行实体识别,得到所述融合文本实体特征的实体类型,包括:

31、基于所述识别网络对所述融合文本实体特征进行实体类型评分,得到所述融合文本实体特征的类型评分数据;

32、根据所述类型评分数据,得到所述融合文本实体特征的实体类型。

33、为实现上述目的,本技术实施例的第二方面提出了一种电子病历命名实体识别装置,所述装置包括:

34、数据获取模块,用于获取电子病历数据,其中,所述电子病历数据包括病历文本数据;

35、分词模块,用于对所述病历文本进行分词处理,得到病历词语序列;

36、特征提取模块,用于通过预设的命名实体识别模型的第一分支网络对所述病历词语序列进行特征提取,得到病历文本特征,其中,所述命名实体识别模型包括特征融合网络、第二分支网络、以及识别网络;

37、融合模块,用于基于所述特征融合网络对所述病历文本特征和预先获取的词汇数据进行融合处理,得到融合文本特征;

38、实体抽取模块,用于基于所述第二分支网络对所述融合文本特征进行实体抽取,得到融合文本实体特征;

39、实体识别模块,用于基于所述识别网络对所述融合文本实体特征进行实体识别,得到所述融合文本实体特征的实体类型。

40、为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

41、为实现上述目的,本技术实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。

42、本技术提出的电子病历命名实体识别方法、电子病历命名实体识别装置、电子设备及存储介质,其通过获取电子病历数据;其中,电子病历数据包括病历文本数据;对病历文本数据进行分词处理,得到病历词语序列,使得能够在词级别上对电子病历进行命名实体识别。进一步地,通过预设的命名实体识别模型的第一分支网络对病历词语序列进行特征提取,得到病历文本特征,其中,命名实体识别模型包括特征融合网络、第二分支网络、以及识别网络;基于特征融合网络对病历文本特征和预先获取的词汇数据进行融合处理,得到融合文本特征,能够在命名实体识别过程中引入词汇知识,能够极大地减少对人工标注的需求,还使得能够在命名实体识别过程中根据不同的上下文及不同的场景,自适应选取最适合的词汇与病历文本特征进行融合,提高融合文本特征的特征质量和特征内容全面性。进一步地,基于第二分支网络对融合文本特征进行实体抽取,得到融合文本实体特征,能够较为方面地抽取到文本实体特征,最后,基于识别网络对融合文本实体特征进行实体识别,得到融合文本实体特征的实体类型,能够较为准确性地识别到的命名实体特征的具体类型,提高对电子病历的命名实体识别的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1