本发明涉医疗及人工智能,尤其涉及一种基于插补和增强的防控辅助诊疗方法、装置、设备及介质。
背景技术:
1、基于“感染-重症”二维分类的四组诊疗体系(非感染非重症、感染非重症、非感染重症、感染重症),可显著优化临床决策与资源配置。
2、但是现有的分组诊疗方法存在以下不足:基于人工的分组诊疗可以实现一定的准确度,但是费时费力;临床实践中电子病历存在部分字段缺失(如实验室检查未执行),人工填补的主观性较大且难以处理大量数据,但传统插补方法难以处理多模态混合缺失场景;均值插补、多重插补等传统方法仅针对数值型缺失数据,完全忽视文本描述(如“高热伴意识模糊”)中蕴含的病理信息,导致感染指标与症状描述脱节,此类模态割裂使老年患者误诊率增加。
3、gpt-4等模型生成数值常超出医学合理范围,需人工二次校验,增加的临床工作量;文本与数值处理流程分离,无法建立“肺部湿啰音”与氧合指数的定量映射关系,导致跨模态语义断裂;大量参数模型的全量微调需依赖超算集群支持,单次插补能耗成本达传统方法的十余倍,完全不符合医院本地化部署需求,且推理延迟超500ms,难以满足急诊场景的实时性要求。
技术实现思路
1、本发明实施例的主要目的在于提出一种基于插补和增强的防控辅助诊疗方法、装置、设备及介质,提高了老年防控辅助诊疗的时效性和准确率。
2、本发明的一方面提供了一种基于插补和增强的防控辅助诊疗方法,包括:
3、获取用户病例信息,对所述用户病例信息采用第一模型执行插补和增强处理,得到用户病例文本和用户病例数据;
4、对用户病例文本和用户病例数据采用第二模型执行分组诊疗及疾病风险预测处理,得到预测结果;
5、所述第一模型的训练步骤包括:
6、采用预训练于医学语料的模型架构,使用对抗学习进行微调;
7、获取第一数据集,采用transformer编码层和自注意力机制确定多模态关联,通过第一数据集及多模态关联执行模型训练和模型微调,得到所述第一模型;
8、所述第二模型的训练步骤包括:
9、获取原始特征中与分组诊疗及疾病风险预测的相关特征;
10、对所述相关特征进行拼接和降维处理,得到联合特征向量;
11、根据第二数据集及所述联合特征向量执行模型训练,得到第二模型。
12、根据所述的基于插补和增强的防控辅助诊疗方法,其中采用预训练于医学语料的模型架构,使用对抗学习进行微调,包括:
13、对预训练于医学语料的nvidia biomegatron-3.8b的自注意力矩阵通过lora和adapter进行混合微调,将自注意力矩阵插入每层transformer后时进行医学约束注入,其中医学约束注入通过总损失函数实现,总损失函数为:
14、
15、其中,为基础任务损失,为动态权重调整,表示动态惩罚权重,表示医学病理约束的损失,表示对抗训练,为对抗损失权重;
16、对模型架构执行基于值域边界的医学约束,以及执行基于病理逻辑的医学约束,其中值域边界用于表征指标范围,其中病理逻辑用于表征文本描述的因果关系。
17、根据所述的基于插补和增强的防控辅助诊疗方法,其中获取第一数据集,采用transformer编码层和自注意力机制确定多模态关联,通过第一数据集及多模态关联执行模型训练和模型微调,得到所述第一模型,包括:
18、采用pgd算法沿损失梯度方向进行扰动,同时根据数值类型进行老年特异性扰动;
19、通过transformer编码层采用多头自注意力基于标准注意力进行微调,其中标准注意力为:
20、
21、其中,q为query矩阵,即查询向量;k为key矩阵,即键向量;v为value矩阵,即值矩阵;表示查询向量与键向量的点积,表示键向量的维度;
22、其中lora微调仅调整query矩阵、key矩阵及value矩阵;
23、通过前馈网络两层全连接,采用gelu激活的网络插入adapter的方式执行模型增强处理;
24、采用biowordpiece分词器进行对所述第一数据集执行分词、数据清洗及截断设置,其中数据清洗保留医学术语;
25、将经过数据处理的第一数据集进行均值及行z-score归一化,并对缺失字段添加二进制掩码特征处理,在第一数据集中添加随机掩码数值字段或文本片段,得到对抗样本;
26、将对抗样本和第一数据集作为输入,根据预设训练参数执行对抗训练,得到第一模型。
27、根据所述的基于插补和增强的防控辅助诊疗方法,其中获取原始特征中与分组诊疗及疾病风险预测的相关特征,包括:
28、对原始特征单因素方差分析,保留与分组诊疗及疾病风险预测的相关特征,使用随机森林重要性对相关特征基于基尼不纯度计算特征重要性,保留特征重要性大于预设值的相关特征。
29、根据所述的基于插补和增强的防控辅助诊疗方法,其中对所述相关特征进行拼接和降维处理,得到联合特征向量,包括:
30、对相关特征通过大模型进行处理得到cls向量,对cls向量采用主成分分析降维处理,得到文本特征;
31、对降维处理的相关特征保留原始特插补值,通过计算插补偏移量进行数值特征增强,得到数值特征;
32、将文本特征和数值特征进行特征拼接,得到所述联合特征向量。
33、根据所述的基于插补和增强的防控辅助诊疗方法,其中根据第二数据集及所述联合特征向量执行模型训练,得到第二模型,包括:
34、根据第二数据集和所述联合特征向量作为输入,根据预设训练参数五折交叉验证进行模型评估,得到模型评估结果;
35、根据模型评估结果采用贝叶斯搜索,以auc为优化目标进行超参数优化,得到最优参数组合的第二模型;
36、对所述第二模型采用shap值评估特征贡献,对超过预设重要性的特征进行保留;
37、根据模型评估结果、最优参数组合、特征贡献及特征重要性确定第二模型的xgboost模型配置,并对第二模型执行分组诊疗及疾病风险预测的验证处理。
38、根据所述的基于插补和增强的防控辅助诊疗方法,其中方法还包括:
39、对用户病例信息进行数据规范化处理,获取所述第一模型和所述第二模型处理后得到的分组诊疗及疾病风险预测结果,对分组诊疗及疾病风险预测结果执行插补耗时、置信度分布及异常报警监控,若存在异常报警则进行复核;根据插补耗时及置信度分布对所述第一模型及第二模型执行迭代更新。
40、本发明实施例的另一方面提供了一种基于插补和增强的防控辅助诊疗装置,包括:
41、第一模块,用于获取用户病例信息,对所述用户病例信息采用第一模型执行插补和增强处理,得到用户病例文本和用户病例数据;
42、第二模块,用于对用户病例文本和用户病例数据采用第二模型执行分组诊疗及疾病风险预测处理,得到预测结果;
43、所述第一模型的训练包括:
44、第三模块,用于采用预训练于医学语料的模型架构,使用对抗学习进行微调;
45、第四模块,用于获取第一数据集,采用transformer编码层和自注意力机制确定多模态关联,通过第一数据集及多模态关联执行模型训练和模型微调,得到所述第一模型;
46、所述第二模型的训练步骤包括:
47、第五模块,用于获取原始特征中与分组诊疗及疾病风险预测的相关特征;
48、第六模块,用于对所述相关特征进行拼接和降维处理,得到联合特征向量;
49、第七模块,用于根据第二数据集及所述联合特征向量执行模型训练,得到第二模型。
50、本发明实施例的另一方面提供了一种电子设备,包括处理器以及存储器;
51、所述存储器用于存储程序;
52、所述处理器执行所述程序实现如前文所描述的方法。
53、本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文所描述的方法。
54、本发明的有益效果为:通过lora+adapter参数高效微调策略与医学规则约束的方式进行学习,提升了数据插补的准确性与临床合理性;下游模型接入与训练的创新优势本发明设计的特征融合与xgboost优化流程,实现了高精度分级预测与临床可解释性的平衡;使用多模态联合决策,融合文本语义特征与数值偏移量特征(δ值),克服单一数据源局限性,感染重症分组auc较传统模型提升明显;同时实现实时响应与容错机制,如当插补值超出医学范围时,自动审核并同步返回传统与大模型结果,误操作风险降低显著;提高老年防控辅助诊疗的时效性和准确率。