中医术语识别方法、装置、设备及存储介质与流程

文档序号:35267318发布日期:2023-08-30 02:31阅读:28来源:国知局
中医术语识别方法、装置、设备及存储介质与流程

本发明涉及人工智能技术,尤其涉及一种中医术语识别方法、装置、电子设备及存储介质。


背景技术:

1、随着中医学及人工智能的发展,基于中医语义理解的应用(例如:中医学搜索引擎、中医知识问答系统、中医问诊系统)越来越受到人们的关注,但是语义理解的基础是症状实体的识别,因此,需要识别中医诊断问诊中的中医术语实体。

2、由于中医学诊断中存在大量术语合并缩写的情况,例如:“舌红苔黄”,可以分解为“舌质红”、“舌苔黄”。“苔黄腻”可以分解为“舌苔黄”、“舌苔腻”,现有的中医术语实体识别方法无法识别中医术语实体中合并的所有术语,导致中医术语识别的准确率较差。


技术实现思路

1、本发明提供一种中医术语识别方法、装置、电子设备及存储介质,其主要目的在于提高了中医术语识别的准确率。

2、获取待识别的中医诊断文本,对所述中医诊断文本进行实体识别,得到中医术语实体;

3、获取标准中医术语词词典及特征提取模型,其中,所述特征提取模型为利用所述标准中医术语词词典构建的字典树训练的图神经网络模型;

4、利用所述特征提取模型对所述中医术语实体进行特征提取,得到所述中医术语实体中每个字符对应的字符特征向量;

5、基于所述标准中医术语词词典对所述字符特征向量进行交叉熵损失分类,得到所述标准中医术语词词典中每个标准中医术语词的分析特征值;

6、基于所述分析特征值对所有所述标准中医术语词进行筛选,得到所述中医诊断文本的目标识别结果。

7、可选地,所述对所述中医诊断文本进行实体识别,得到中医术语实体,包括:

8、将所述中医诊断文本中的每个字符转化为字符向量;

9、将所有所述字符向量按照对应的字符在所述中医诊断文本中的顺序进行组合,得到文本矩阵;

10、对所述文本矩阵进行双仿射变换,得到文本初始特征矩阵;

11、对所述文本初始特征矩阵进行多通道卷积,得到每个通道对应的第一文本特征矩阵;

12、将所有所述第一文本特征矩阵作为层进行堆叠,得到第二文本特征矩阵;

13、对所述第二文本特征矩阵进行通道特征压缩,得到第三文本特征矩阵;

14、将所述第三文本特征矩阵的每个元素进行二分类交叉熵损失转化,得到目标文本特征矩阵,其中,所述目标特征矩阵的行列的维度与所述中医诊断文本中字符的数量相等;

15、根据所述目标文本特征矩阵中大于预设筛选阈值的元素对应的行列顺序构建字符顺序区间;

16、切分所述中医诊断文本中字符顺序在所述字符顺序区间内的字符,得到所述中医术语实体。

17、可选地,所述根据所述目标文本特征矩阵中大于预设筛选阈值的元素对应的行列顺序构建字符顺序区间,包括:

18、选取所述目标文本特征矩阵中的大于预设筛选阈值的元素,得到目标元素;

19、获取所述目标元素在所述目标文本特征矩阵中的行顺序及列顺序;

20、将所述目标元素的列顺序及行顺序分别作别区间左端点及区间右端点,得到所述目标元素的初始字符顺序区间;

21、根据所述初始字符顺序区间的端点对所有初始字符顺序区间进行区间对齐筛选,得到字符顺序区间。

22、可选地,所述根据所述初始字符顺序区间的端点对所有初始字符顺序区间进行区间对齐筛选,得到字符顺序区间,包括:

23、汇总所有所述初始字符顺序区间,得到初始字符顺序区间集;

24、提取所述初始字符顺序区间集中每种区间左端点对应所有初始字符顺序区间中区间长度最长的初始字符顺序区间,得到目标字符顺序区间集;

25、将所述目标字符顺序区间集中的每个初始字符顺序区间作为所述字符顺序区间。

26、可选地,所述利用所述特征提取模型对所述中医术语实体进行特征提取,得到所述中医术语实体中每个字符对应的字符特征向量,包括:

27、根据所述中医术语实体中每个字符在所述中医诊断问诊文本中的顺序对所述第二文本特征矩阵的层元素进行提取,得到每个字符的初始字符向量;

28、将所有所述初始字符向量按照对应字符在所述中医术语实体中的先后顺序进行组合,得到实体特征矩阵;

29、将所述实体特征矩阵输入所述特征提取模型,得到特征提取矩阵;

30、基于所述中医术语实体中每个字符的顺序对所述特征提取矩阵中的列进行提取,得到所述字符特征向量。

31、可选地,所述基于所述分析特征值对所有所述标准中医术语词进行筛选,得到所述中医诊断文本的目标识别结果,包括:

32、按照所述分析特征值的大小对所有所述标准中医术语词进行降序排序,得到中医术语序列;

33、选取所述中医术语序列内预设排序范围内的所有标准中医术语词作为所述中医术语实体的标准化结果;

34、汇总所有所述标准化结果,得到所述目标识别结果。

35、为了解决上述问题,本发明还提供一种中医术语识别装置,所述装置包括:

36、实体识别模块,用于获取待识别的中医诊断文本,对所述中医诊断文本进行实体识别,得到中医术语实体;

37、实体特征提取模块,用于获取标准中医术语词词典及特征提取模型,其中,所述特征提取模型为利用所述标准中医术语词词典构建的字典树训练的图神经网络模型;利用所述特征提取模型对所述中医术语实体进行特征提取,得到所述中医术语实体中每个字符对应的字符特征向量;

38、实体标准化模块,用于基于所述标准中医术语词词典对所述字符特征向量进行交叉熵损失分类,得到所述标准中医术语词词典中每个标准中医术语词的分析特征值;基于所述分析特征值对所有所述标准中医术语词进行筛选,得到所述中医诊断文本的目标识别结果。

39、可选地,所述基于所述分析特征值对所有所述标准中医术语词进行筛选,得到所述中医诊断文本的目标识别结果,包括:

40、按照所述分析特征值的大小对所有所述标准中医术语词进行降序排序,得到中医术语序列;

41、选取所述中医术语序列内预设排序范围内的所有标准中医术语词作为所述中医术语实体的标准化结果;

42、汇总所有所述标准化结果,得到所述目标识别结果。

43、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:

44、存储器,存储至少一个计算机程序;及

45、处理器,执行所述存储器中存储的计算机程序以实现上述所述的中医术语识别方法。

46、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的中医术语识别方法。

47、本发明实施例对所述中医诊断文本进行实体识别,得到中医术语实体;获取标准中医术语词词典及特征提取模型,其中,所述特征提取模型为利用所述标准中医术语词词典构建的字典树训练的图神经网络模型;利用所述特征提取模型对所述中医术语实体进行特征提取,得到所述中医术语实体中每个字符对应的字符特征向量;基于所述标准中医术语词词典对所述字符特征向量进行交叉熵损失分类,得到所述标准中医术语词词典中每个标准中医术语词的分析特征值;基于所述分析特征值对所有所述标准中医术语词进行筛选,得到所述中医诊断文本的目标识别结果,在识别中医诊断文本中的中医术语实体的基础上,进一步识别中医术语实体对应的所有标准中医术语词,解决了无法识别中医术语词中的合并缩写的术语的情况,提高了中医术语实体识别的准确率,因此本发明实施例提出的中医术语识别方法、装置、电子设备及可读存储介质提高了中医术语识别的准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1