一种医疗数据输入的优化方法、装置及电子设备

文档序号:37980631发布日期:2024-05-13 12:39阅读:9来源:国知局
一种医疗数据输入的优化方法、装置及电子设备

本发明涉及数据处理,特别涉及一种医疗数据输入的优化方法、装置及电子设备。


背景技术:

1、医疗数据的复杂性要求模型能够更好地理解医学知识和特征,以便更精准地进行诊断、预测、总结、推荐等任务。而医疗数据中包含大量冗余数据,以住院病历为例(包含入院记录、每日查房记录、会诊记录、出院记录等等),医疗数据根据主客观等分类,如果不能有效地处理和利用,会影响模型的训练和应用效果。

2、目前对于数据输入结构优化的方法极少,主要方法都是如何把非结构化数据进行结构化。而现在大语言模型发展迅速,再将数据进行后结构化的意义不大了,因为大语言模型可以直接理解处理非结构化数据。目前已有的数据优化处理基本是先进行分词,然后进行命名实体识别(结合知识图谱),这样问题在于破坏了文本的语义关系,结构化后文本变为为词,缺少了语义关系。同时对于关键信息的提取,现有方法是通过与知识图谱进行聚类或者计算相似度方法,没有基于特征重要性评估的方法。针对目前结构化医疗数据通用框架映射复杂、人工对照初始化投入多、冗余数据多的问题是本领域技术人员急需解决的技术问题。

3、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本技术的目的在于提供一种医疗数据输入的优化方法及相关设备,至少在一定程度上克服现有技术存在的问题,通过对医疗数据提出基于重要性评估的数据输入结构优化方法,计算多个特征的位置优势因子重要性,最后按权重方法得出最后输入数据结构,从而压缩无效信息和去除冗余,保留病历中的核心数据。

2、本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。

3、根据本技术的一个方面,提供一种医疗数据输入的优化方法,包括:获取初始病历信息和训练样本集,其中,所述训练样本集包括若干输入变量和若干输入变量对应的原始特征贡献度;对所述若干输入变量对应的原始特征贡献度进行归一化处理,生成目标特征贡献度;构建位置优势因子重要性评估模型;基于所述位置优势因子重要性评估模型对所述若干输入变量进行处理,生成目标位置优势因子;基于所述目标位置优势因子生成目标排序位置结构;基于所述目标排序位置结构生成病历大语言模型;基于所述病历大语言模型对所述初始病历信息进行处理,生成目标病历信息;基于预设病历评价模型对所述目标病历信息进行处理,生成评价结果。

4、在本技术的一个实施例中,所述基于所述位置优势因子重要性评估模型对所述若干输入变量进行处理,生成目标位置优势因子,包括:基于所述位置优势因子重要性评估模型分别对若干输入变量进行处理,生成单变量效应特征;其中,所述位置优势因子重要性评估模型包括用于计算单变量效应特征的计算公式,所述单变量效应特征的计算公式为:。

5、在本技术的一个实施例中,所述基于所述位置优势因子重要性评估模型对所述若干输入变量进行处理,生成目标位置优势因子,还包括:基于所述位置优势因子重要性评估模型分别对两个输入变量进行处理,生成双变量效应特征;其中,所述位置优势因子重要性评估模型包括用于计算双变量效应特征的计算公式,所述双变量效应特征的计算公式为:

6、。

7、在本技术的一个实施例中,所述基于所述位置优势因子重要性评估模型对所述若干输入变量进行处理,生成目标位置优势因子,还包括:基于所述位置优势因子重要性评估模型分别对两个输入变量进行处理,生成双变量效应特征;其中,所述位置优势因子重要性评估模型包括用于计算双变量效应特征的计算公式,所述双变量效应特征总值的计算公式为:。

8、在本技术的一个实施例中,所述基于所述位置优势因子重要性评估模型对所述若干输入变量进行处理,生成目标位置优势因子,还包括:对所述双变量效应特征总值进行归一化处理,生成若干位置优势因子;对所述若干位置优势因子进行均值处理,生成目标位置优势因子。

9、在本技术的一个实施例中,所述基于预设病历评价模型对所述目标病历信息进行处理,生成评价结果,包括:基于预设病历评价模型对所述目标病历信息进行处理,生成字段完整性、内容一致性、和信息压缩率;基于所述字段完整性、所述内容一致性和所述信息压缩率生成评价结果。

10、在本技术的一个实施例中,所述基于预设病历评价模型对所述目标病历信息进行处理,生成评价结果,还包括:所述预设病历评价模型包括用于计算字段完整性结果的计算公式,所述字段完整性的计算公式为:

11、

12、其中,为句子长度的惩罚项,防止词数量较少时易取得较高的分数p;表示对第i个样本,生成的关键词与参照关键词的交集词数; 表示对第i个样本,参照文本的关键词数量; 表示对第i个样本,模型生成文本的关键词数量;

13、所述预设病历评价模型包括用于计算内容一致性的计算公式,所述内容一致性的计算公式为:

14、

15、其中,为词数量的惩罚项,防止词数量较少时易取得较高的综合分数a; 表示对第i个样本,生成的关键词与参照关键词的交集词数; 表示对第i个样本,生成的正确的关键词对应的数值与参照数值相等的数量;

16、所述预设病历评价模型包括用于计算信息压缩率的计算公式,所述信息压缩率的计算公式为:

17、

18、表示对第i个样本,模型生成文本的token数量;

19、表示对第i个样本,原始文本的token数量。

20、本技术的另一个方面,一种医疗数据输入的优化装置,其特征在于,包括:获取模块,用于获取初始病历信息和训练样本集,其中,所述训练样本集包括若干输入变量和若干输入变量对应的原始特征贡献度;构建位置优势因子重要性评估模型;处理模块,用于对所述若干输入变量对应的原始特征贡献度进行归一化处理,生成目标特征贡献度;基于所述位置优势因子重要性评估模型对所述若干输入变量进行处理,生成目标位置优势因子;基于所述目标位置优势因子生成目标排序位置结构;基于所述目标排序位置结构生成病历大语言模型;基于所述病历大语言模型对所述初始病历信息进行处理,生成目标病历信息;基于预设病历评价模型对所述目标病历信息进行处理,生成评价结果。

21、根据本技术的再一个方面,一种电子设备,其特征在于,包括:第一处理器;以及存储器,用于存储所述第一处理器的可执行指令;其中,所述第一处理器配置为经由执行所述可执行指令来执行实现上述的医疗数据输入的优化方法。

22、根据本技术的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被第二处理器执行时实现上述的医疗数据输入的优化方法。

23、根据本技术的又一个方面,提供一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被第三处理器执行时实现上述的医疗数据输入的优化方法。

24、本技术所提供的一种医疗数据输入的优化方法及相关设备,由服务器获取初始病历信息和训练样本集,其中,训练样本集包括若干输入变量和若干输入变量对应的原始特征贡献度;对若干输入变量对应的原始特征贡献度进行归一化处理,生成目标特征贡献度;构建位置优势因子重要性评估模型;基于位置优势因子重要性评估模型对若干输入变量进行处理,生成目标位置优势因子;基于目标位置优势因子生成目标排序位置结构;基于目标排序位置结构生成病历大语言模型;基于病历大语言模型对初始病历信息进行处理,生成目标病历信息;基于预设病历评价模型对目标病历信息进行处理,生成评价结果。通过对医疗数据提出基于重要性评估的数据输入结构优化方法,计算多个特征的位置优势因子重要性,最后按权重方法得出最后输入数据结构,从而压缩无效信息和去除冗余,保留病历中的核心数据。

25、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1