医学文本信息的处理方法及装置、存储介质与流程

文档序号:35872575发布日期:2023-10-28 08:13阅读:47来源:国知局
医学文本信息的处理方法及装置、存储介质与流程

本发明涉及电子应用领域中的数据处理技术,特别是涉及一种医学信息的处理方法及装置、存储介质。


背景技术:

1、医学术语标准化是医学统计中一项重要的任务,通过医学术语标准化能够将临床上不同表达的医学文本信息找到对应的医学术语的标准表达,进而能够提高医学统计的准确性,并且有利于医疗数据检索和分析。

2、相关技术中的医学术语标准化方案,大多采用机器学习或深度学习的模型算法,将医学术语标准化任务理解为普通的短文本的匹配任务,这样确定出来各个标准词忽略了医学文本信息中的医学含义,导致医学术语标准化的准确性较低。


技术实现思路

1、以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本发明实施例提供了一种医学文本信息处理方法及装置、存储介质,能够根据医疗文本信息中的医学含义对医疗文本信息进行拆分解读,提高医学术语标准化的准确性。

3、第一方面,本发明实施例提供一种医学文本信息的处理方法,包括:

4、获取医学文本信息;

5、对所述医学文本信息进行成分分析,提取所述医学文本信息中的医学实体以及所述医学实体对应的成分类型,将提取的所述医学实体组成候选医学实体集合;

6、对所述候选医学实体集合中各个不同的所述医学实体之间进行成分重组,确定成分重组后能够还原所述医学文本信息的目标组合;

7、输出所述目标组合对应的所述医学实体以及所述医学实体的所述成分类型。

8、第二方面,本发明实施提供一种医学文本信息的处理装置,包括:

9、获取模块,用于获取医学文本信息;

10、成分提取模块,用于对所述医学文本信息进行成分分析,提取所述医学文本信息中的医学实体以及所述医学实体对应的成分类型,将提取的所述医学实体组成候选医学实体集合;

11、成分重组模块,对所述候选医学实体集合中各个不同的所述医学实体之间进行成分重组,确定成分重组后能够还原所述医学文本信息的目标组合;

12、输出模块,输出所述目标组合对应的所述医学实体以及所述医学实体的所述成分类型。

13、进一步,上述成分重组模块具体用于:

14、通过遍历的方式寻找所述候选医学实体集合中,各个不同的所述医学实体之间的实体组合;

15、将所述实体组合对应的各个所述医学实体进行成分重组,将成分重组后能够还原所述医学文本信息的所述实体组合确定为所述目标组合。

16、进一步,上述成分重组模块还具体用于:

17、根据所述医学实体在所述医学文本信息中的位置顺序,对所述医学实体集合中的所述医学实体进行排序;

18、通过遍历的方式寻找经过排序后的所述候选医学实体集合中,各个不同的所述医学实体之间的实体组合。

19、进一步,上述成分重组模块还具体用于:

20、将所述实体组合中的各个所述医学实体与所述医学文本信息进行比较,若所述实体组合中的各个所述医学实体的组合能够覆盖所述医学文本信息中的所有字符,则确定所述实体组合为能够还原所述医学文本信息的所述目标组合。

21、进一步,上述成分重组模块还具体用于:

22、将所述医学文本信息与所述候选医学实体集合中的各个所述医学实体依次进行比较;

23、若所述医学实体与所述医学文本信息之间存在重叠字符,将当前的所述医学实体加入到所述实体组合,并且将所述重叠字符从所述医学文本信息中删除;

24、将删除所述重叠字符后的所述医学文本信息与所述候选医学实体集合的下一个所述医学实体进行比较;

25、若删除所述重叠字符后的所述医学文本信息的字符数量变成0,则确定当前所述实体组合为能够还原所述医学文本信息的所述目标组合。

26、进一步,上述成分重组模块还具体用于:

27、获取已确定的所述目标组合;

28、若当前所述医学实体在已确定的所述目标组合中存在记录,则跳过当前所述医学实体选择所述候选医学实体集合中的下一个所述医学实体;

29、若当前所述医学实体在已确定的所述目标组合中没有记录,则判断所述医学实体与所述医学文本信息之间是否存在重叠字符,将存在重叠字符的所述医学实体加入到所述实体组合,并且将所述重叠字符从所述医学文本信息中删除。

30、进一步,上述成分重组模块还具体用于:

31、依据所述医学实体在所述医学文本信息中的位置顺序,将所述实体组合对应的各个所述医学实体进行拼接重组,得到重组文本信息;

32、将所述重组文本信息与所述医学文本信息进行比较,若所述重组文本信息能够覆盖所述医学文本信息中的所有字符,则确定所述实体组合为能够还原所述医学文本信息的所述目标组合。

33、进一步,上述成分提取模块具体用于:

34、获取所述医学文本信息的多个成分类型;

35、基于各个所述成分类型调用实体命名识别模型进行成分提取,以在所述医学文本信息中分别提取与各个所述成分类型对应的医学实体;

36、将提取的所述医学实体组成候选医学实体集合。

37、进一步,上述成分提取模块具体用于:

38、根据各个所述成分类型确定对应不同所述成分类型对应的成分抽取问题;

39、根据不同的所述成分抽取问题向所述机器阅读理解模型分别进行提问,以在所述医学文本信息中分别提取与各个所述成分类型对应的医学实体。

40、进一步,上述成分提取模块具体用于:

41、根据不同的所述成分抽取问题向所述机器阅读理解模型进行提问,以在所述医学文本信息中提取与各个所述成分抽取问题对应的所述医学实体的位置信息,其中所述位置信息表征所述医学实体在所述医学文本信息中的起始字符位置和结束字符位置。

42、进一步,上述阅读理解模型通过模型训练装置进行训练,所述模型训练装置包括:

43、训练样本获取装置,用于获取训练样本数据,所述训练样本数据包括医学文本训练样本、所述成分抽取问题以及对应各个所述成分抽取问题的所述医学实体的位置标签数据;

44、预测装置,根据不同的所述成分抽取问题向所述机器阅读理解模型进行提问,以在所述医学文本信息中提取与各个所述成分抽取问题对应的所述医学实体的预测位置信息;

45、参数调节装置,根据所述预测位置信息和所述位置标签数据计算所述机器阅读理解模型的目标损失参数,根据所述目标损失参数对所述机器阅读理解模型进行训练。

46、进一步,上述参数调节装置具体用于:

47、根据所述预测位置信息确定所述医学实体在所述医学文本信息中的起始字符位置和结束字符位置;

48、根据所述预测位置信息的起始字符位置和结束字符位置以及所述位置标签数据的起始字符位置和结束字符位置计算所述机器阅读理解模型的第一损失参数;

49、根据所述预测位置信息的起始字符位置以及所述位置标签数据的起始字符位置计算所述机器阅读理解模型的第二损失参数;

50、根据所述预测位置信息的结束字符位置以及所述位置标签数据的结束字符位置计算所述机器阅读理解模型的第三损失参数;

51、将所述第一损失参数、所述第二损失参数以及所述第三损失参数进行加权求和得到所述目标损失参数;

52、根据所述目标损失参数对所述机器阅读理解模型进行训练。

53、第三方面,本发明实施例提供一种电子设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的医学文本信息的处理方法。

54、第四方面,本发买哪个实施例提供一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现上述的医学文本信息的处理方法。

55、第五方面,本发明实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行实现上述的医学文本信息的处理方法。

56、本发明实施例至少包括以下有益效果:本发明实施例通过获取医学文本信息,对所述医学文本信息进行成分分析,提取所述医学文本信息中的医学实体以及所述医学实体对应的成分类型,将提取的所述医学实体组成候选医学实体集合,对所述候选医学实体集合中各个不同的所述医学实体之间进行成分重组,确定成分重组后能够还原所述医学文本信息的目标组合,输出所述目标组合对应的所述医学实体以及所述医学实体的所述成分类型。由于目标组合中的各个医学实体能够重组还原所述医学文本信息,因此目标组合中的医学实体能够对原始的医学文本信息的医学含义进行准确的表达,能够提高医学术语标准化的准确性。另外,由于不同的目标组合包括不同成分类型的医学实体,因此能够在保持对医学含义准确表达的基础上,形成对医学文本信息不同角度的成分拆分方式,能够在医学统计以及医学检索分析任务中提供更加丰富的信息内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1