电子病历文本分类模型训练方法、装置、电子设备及介质与流程

文档序号：36515131发布日期：2023-12-29 17:06阅读：38来源：国知局

本发明涉及计算机，尤其涉及一种电子病历文本分类模型训练方法、装置、电子设备及介质。

背景技术：

1、随着近年来健康医疗信息化的发展，在临床科学研究、健康医疗服务等场景下形成了健康医疗大数据。其中，电子病历作为健康医疗大数据的主要组成部分，发挥着重大的作用。对电子病历进行分类，可以进一步降低获取相关疾病的医疗记录的时间成本，从而可以进一步实现医院对病人医疗记录的系统管理。

2、目前对电子病历的分类分为2种，第一种是电子病历记录分类，即对电子病历(electronic medical record，emr)记录的电子病历类型进行分类，类型有入院记录、出院记录、手术记录和影像检查记录等；第二种是对电子病历文本分类，即对入院记录中的文本内容进行分类，例如可分为主诉、现病史、既往史等。其中较为重要的是电子病历文本分类，该分类过程多采用机器学习模型，对训练数据依赖较高，迁移性和稳定性较差，对于复杂多变的电子病历文本，例如某医院的日常记录中可以包含入院记录和病程记录等文本，无法保障电子病历文本的分类结果的准确性。

技术实现思路

1、本发明提供一种电子病历文本分类模型训练方法、装置、电子设备及介质，用以解决现有技术中电子病历文本分类模型迁移性和稳定性较差导致分类结果准确性差的问题。

2、本发明提供一种电子病历文本分类模型训练方法，包括：

3、在基于爬虫程序或大数据获取的与疾病相关的网络文本内容中，筛选和第一电子病历文本数据集包含的文本内容的相似度大于或等于相似度阈值的文本信息，构建网络文本数据集；

4、基于目标关键信息和预设电子病历模板，生成扩展电子病历文本数据集，所述目标关键信息基于所述第一电子病历文本数据集确定，其中，所述目标关键信息包括疾病类型与患者年龄之间的关联关系、疾病症状和患者所处环境之间的关联关系、治疗手段与疾病类型之间的关联关系以及诊断依据与疾病类型之间的关联关系；

5、将所述第一电子病历文本数据集和所述扩展电子病历文本数据集进行k-means聚类处理，得到多个类簇的电子病历文本数据；

6、在新增的电子病历文本数据集的聚类结果不为所述多个类簇中的一个类簇的情况下，基于所述不为所述多个类簇中的一个类簇的电子病历文本数据集，对第一分类模型进行多次迭代训练；其中，所述第一分类模型基于所述第一电子病历文本数据集训练得到；

7、在迭代训练的次数达到迭代次数阈值且每次迭代训练中的模型训练指标正常的情况下，获取所述多次迭代训练中最后一次迭代训练得到的第二分类模型；

8、在所述第二分类模型的模型性能指标优于所述第一分类模型的情况下，将所述第一分类模型更新为所述第二分类模型，所述第二分类模型用于对待分类电子病历文本进行文本分类。

9、在一些实施例中，在所述基于所述不为所述多个类簇中的一个类簇的电子病历文本数据集，对第一分类模型进行多次迭代训练之前，所述方法还包括：

10、对初始电子病历文本数据集进行预处理，得到预处理后的初始电子病历文本数据集；

11、对所述预处理后的初始电子病历文本数据集进行分类标注，得到所述第一电子病历文本数据集；

12、基于所述第一电子病历文本数据集，对初始分类模型进行训练，得到所述第一分类模型。

13、在一些实施例中，所述基于所述不为所述多个类簇中的一个类簇的电子病历文本数据集，对第一分类模型进行多次迭代训练，包括：

14、对所述不为所述多个类簇中的一个类簇的电子病历文本数据集进行分类标注，得到第二电子病历文本数据集；

15、在所述第二电子病历文本数据集的数据量超过数量阈值的情况下，基于所述第二电子病历文本数据集和所述第一电子病历文本数据集，对所述第一分类模型进行所述多次迭代训练。

16、在一些实施例中，在所述将所述第一分类模型更新为所述第二分类模型之后，所述方法还包括：

17、将所述待分类电子病历文本输入至所述第二分类模型进行文本分类，得到所述第二分类模型输出的所述待分类电子病历文本的分类结果数据；

18、基于所述分类结果数据，判断所述分类结果数据的准确率；

19、在所述分类结果数据的准确率大于或等于准确率阈值且所述分类结果数据与所述第二分类模型的训练数据之间的相似度小于所述相似度阈值的情况下，将所述分类结果数据确定为所述新增的电子病历文本数据集。

20、在一些实施例中，在所述获取所述多次迭代训练中最后一次迭代训练得到的第二分类模型之后，所述方法还包括：

21、在所述第二分类模型的模型性能指标没有优于所述第二分类模型的情况下，基于所述第一分类模型，对所述待分类电子病历文本进行分类。

22、在一些实施例中，在所述对第一分类模型进行多次迭代训练之后，所述方法还包括：

23、在所述多次迭代训练中任一次迭代训练获取的分类模型的模型训练指标异常的情况下，停止所述多次迭代训练；

24、在停止所述多次迭代训练的情况下，基于所述第一分类模型，对所述待分类电子病历文本进行分类。

25、本发明还提供一种电子病历文本分类模型训练装置，包括：

26、数据获取模块，用于在基于爬虫程序或大数据获取的与疾病相关的网络文本内容中，筛选和第一电子病历文本数据集包含的文本内容的相似度大于或等于相似度阈值的文本信息，构建网络文本数据集；

27、数据扩展模块，用于基于目标关键信息和预设电子病历模板，生成扩展电子病历文本数据集，所述目标关键信息基于所述第一电子病历文本数据集确定，其中，所述目标关键信息包括疾病类型与患者年龄之间的关联关系、疾病症状和患者所处环境之间的关联关系、治疗手段与疾病类型之间的关联关系以及诊断依据与疾病类型之间的关联关系；

28、数据聚类模块，用于将所述第一电子病历文本数据集和所述扩展电子病历文本数据集进行k-means聚类处理，得到多个类簇的电子病历文本数据；

29、模型训练模块，用于在新增的电子病历文本数据集的聚类结果不为所述多个类簇中的一个类簇的情况下，基于所述不为所述多个类簇中的一个类簇的电子病历文本数据集，对第一分类模型进行多次迭代训练；其中，所述第一分类模型基于所述第一电子病历文本数据集训练得到；

30、模型获取模块，用于在迭代训练的次数达到迭代次数阈值且每次迭代训练中的模型训练指标正常的情况下，获取所述多次迭代训练中最后一次迭代训练得到的第二分类模型；

31、模型更新模块，用于在所述第二分类模型的模型性能指标优于所述第一分类模型的情况下，将所述第一分类模型更新为所述第二分类模型，所述第二分类模型用于对待分类电子病历文本进行文本分类。

32、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述电子病历文本分类模型训练方法。

33、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述电子病历文本分类模型训练方法。

34、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述电子病历文本分类模型训练方法。

35、本发明提供的电子病历文本分类模型训练方法、装置、电子设备及介质，通过将第一电子病历文本数据集和扩展电子病历文本数据集进行k-means聚类处理，得到多个类簇的电子病历文本数据，采用不为多个类簇中的一个类簇的电子病历文本数据集对第一分类模型进行自动迭代训练，得到第二分类模型，降低电子病历文本数据的处理量，降低建立分类模型的人工参与量，并且可以及时根据迭代后的第二分类模型进行电子病历文本的分类，可适应复杂的医学文本分类场景，从而提高分类模型的可迁移性，具有较好的普适性；电子病历文本分类识别的准确率也得到很大的提升，并且可以应用于各类型的复杂电子病历文本的分类识别中，降低人工分类的成本和优化分类模型的成本。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘晶
技术所有人：北方健康医疗大数据科技有限公司
我是此专利的发明人

上一篇：一种电池加工用覆膜切割装置的制作方法
上一篇：一种活塞内孔同轴度检测装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。