基于强化学习的临床思维数据生成系统及方法

文档序号:37235964发布日期:2024-03-06 16:56阅读:12来源:国知局
基于强化学习的临床思维数据生成系统及方法

本发明属于医疗健康信息,尤其涉及一种基于强化学习的临床思维数据生成系统及方法。


背景技术:

1、临床思维是指医务人员在进行疾病诊断时所使用的一种系统性、综合性的思考过程。医务人员对收集到的临床表现、实验室检查、影像学资料等信息进行综合分析,确定患者可能患有的疾病,并制定相应的治疗计划,需要扎实的医学知识、丰富的临床经验以及良好的分析能力和判断力。相同疾病的不同患者,其临床表现和医学检查检验结果也会存在较大差别,往往无法仅根据临床指南进行诊断,需要医务人员综合医学知识和临床经验,进行全面的分析判断。电子病历系统中虽然记录了患者的疾病信息,但是没有记录医务人员的临床诊断思维。医务人员的临床诊断思维数据,尤其是高年资临床专家的临床思维数据,可以给缺少临床经验的医务人员提供丰富的学习资源。

2、临床思维数据,即反映医务人员做出疾病诊断的临床思维的信息,应该记录医务人员进行临床诊断所依据的疾病信息及分析顺序、相互作用关系和对应权重。然而,临床思维数据一直没有被记录,也极少被研究者和技术人员关注,主要原因有:(1)医务人员在诊疗过程中,书写包含患者疾病信息的电子病历就已经是极大的工作量,不可能专门撰写自己诊断决策的过程以及依据。(2)信息化技术尚不能完全自动捕获临床思维数据。在电子病历系统中,对医务人员的操作路径进行记录和分析,是尝试挖掘医务人员诊疗行为的一种方式。但是,这种方式无法区分与诊断过程无关的行为记录,无法获取不同模态信息的相互作用和对应权重。

3、大语言模型技术的出现为解决上述问题提供了帮助,它具有巨大的知识储备和优秀的自然语言生成能力。通过知识蒸馏、指令微调等技术,使用医学相关语料对预训练大模型进行下游任务训练,能够得到具备一定医学专业知识和临床诊断能力的医疗大模型,例如由谷歌大模型实验室开发的med-palm医疗大模型、香港中文大学团队开发的华佗gpt医疗大模型。对于医学领域微调训练过的大模型,虽然能广泛的胜任相对简单的医疗诊断问题,但面对临床诊断信息模态多样、诊断情况复杂的场景,仍然难以摆脱解释性差的模型“黑盒”问题,无法做出具有临床思维的诊断结果。


技术实现思路

1、本发明的目的在于针对现有技术的不足,提供一种基于强化学习的临床思维数据生成系统及方法。

2、本发明的目的是通过以下技术方案来实现的:

3、根据本说明书的第一方面,提供一种基于强化学习的临床思维数据生成系统,该系统包括:

4、模态标识模块,用于对多模态医疗数据输入进行类别标签匹配,得到若干类别标签-数据键值对,形成模态标识组;

5、模态决策模块,将模态标识组中当前用于诊断的医疗数据输入作为状态,选择类别标签作为决策,计算选择的类别标签对应的医疗数据输入进行诊断行为的奖励,基于强化学习方法训练状态-决策表,所述状态-决策表记录当前状态做出不同决策的置信度,训练目标是根据当前状态做出决策所对应的奖励,优化状态-决策表做出决策所使用的置信度;利用状态-决策表依据模态标识组生成临床决策数据和临床决策置信度;

6、大模型诊断模块,用于对大模型发起对话,接收模态决策模块输出的临床决策,查询其在模态标识组中对应的输入,在多轮次对话场景下请求大模型做出临床诊断,得到疾病-症状-模态三元组集合形式的临床诊断结果;

7、奖励反馈模块,用于构建疾病-症状-模态奖励矩阵,接收大模型诊断模块输出的临床诊断结果,在疾病-症状-模态奖励矩阵中查询所有三元组对应的奖励值,计算临床诊断结果中疾病诊断结果的奖励值,得到临床决策的奖励值,返回给模态决策模块;

8、临床思维修饰模块,用于对多模态医疗数据输入的临床决策数据进行修饰,形成能够体现临床诊断决策过程的临床思维数据。

9、进一步地,所述模态标识模块中,对于多模态医疗数据输入,通过利用提示词对大模型询问实现类别标签匹配。

10、进一步地,所述模态决策模块中,构建与状态-决策表结构相同的优化矩阵,记录优化前的置信度,在训练开始前状态-决策表所有的置信度均初始化为零,训练过程中,根据当前状态做出决策所对应的奖励、状态-决策表做出决策所使用的置信度以及新状态对应的所有置信度的最大值,计算新的置信度并替换状态-决策表中原本的置信度,同时将原本的置信度记录到优化矩阵中,单次训练完成后计算优化值,反复训练直到优化值稳定,得到最优状态-决策表。

11、进一步地,所述模态决策模块中临床决策数据的生成包括:依据模态标识组初始化当前状态,检索状态-决策表中当前状态对应的所有决策的置信度,选择置信度最高的决策并进行记录,当前状态因选择的决策转变为新的状态,新的状态会产生新的决策;做出临床决策直至用完模态标识组中所有的类别标签-数据键值对,得到模态标识组的临床决策数据及临床决策置信度。

12、进一步地,所述大模型诊断模块中,对大模型发起对话,要求大模型按照提示词对接下来每一轮输入的临床决策做出临床诊断,并以二元组的形式返回可能的诊断结果,所述二元组中的元素为疾病和相关症状,所述二元组与临床决策构成疾病-症状-模态三元组,将所有三元组的集合作为临床诊断结果。

13、进一步地,所述奖励反馈模块中,所述疾病-症状-模态奖励矩阵记录临床诊断结果中的三元组对应的奖励值,具体构建方法如下:

14、使用知识图谱构建疾病-症状表,知识图谱的节点包含症状和疾病,关系反映两者之间的关联程度,对知识图谱中的每个疾病-症状关系进行赋值,得到疾病和症状对应的奖励值;

15、基于知识蒸馏方法构建疾病-模态表,所述疾病-模态表为疾病-模态奖励值矩阵,模态维度为所有类别标签,疾病维度为使用的知识图谱中所有疾病节点中的疾病,利用提示词让医疗大模型为每个奖励值赋值;

16、基于知识蒸馏方法构建症状-模态表,所述症状-模态表为症状-模态奖励值矩阵,模态维度为所有类别标签,症状维度为使用的知识图谱中所有症状节点中的症状,利用提示词让医疗大模型为每个奖励值赋值;

17、依据所述疾病-症状表、疾病-模态表和症状-模态表,得到疾病-症状-模态奖励矩阵。

18、进一步地,所述奖励反馈模块中,计算临床诊断结果中疾病诊断结果的奖励值,即计算疾病诊断结果与模态标识组对应的多模态医疗数据输入的疾病诊断标签的匹配程度,通过临床诊断结果中涉及的单个疾病诊断结果在所有疾病诊断结果中的可信度计算得到。

19、进一步地,所述奖励反馈模块中,所述临床决策的奖励值的计算包括:对于临床诊断结果中的每个三元组,通过疾病-症状-模态奖励矩阵检索其对应的奖励值,计算奖励均值;对于临床诊断结果中涉及的疾病,计算与疾病诊断标签的匹配程度,累加后与对齐系数相乘,保证匹配程度和奖励均值对齐。

20、进一步地,所述临床思维修饰模块中,模态标识组的每个临床决策对应一个诊断思维块,所述诊断思维块包含:当前诊断思维使用的模态信息、当前诊断思维关注的症状及对应的可信度、症状指向的疾病及对应的可信度、诊断思维块对最终诊断思维的贡献度;所述诊断思维块对最终诊断思维的贡献度为诊断思维块对应的临床决策的奖励值与临床决策数据对应的所有奖励值之和的比值;将模态标识组的所有诊断思维块组合,得到临床思维数据。

21、根据本说明书的第二方面,提供一种基于强化学习的临床思维数据生成方法,该方法包括:

22、对多模态医疗数据输入进行类别标签匹配,得到若干类别标签-数据键值对,形成模态标识组;

23、将模态标识组中当前用于诊断的医疗数据输入作为状态,选择类别标签作为决策,计算选择的类别标签对应的医疗数据输入进行诊断行为的奖励,基于强化学习方法训练状态-决策表,所述状态-决策表记录当前状态做出不同决策的置信度,训练目标是根据当前状态做出决策所对应的奖励,优化状态-决策表做出决策所使用的置信度;利用状态-决策表依据模态标识组生成临床决策数据和临床决策置信度;

24、对大模型发起对话,查询临床决策在模态标识组中对应的输入,在多轮次对话场景下请求大模型做出临床诊断,得到疾病-症状-模态三元组集合形式的临床诊断结果;

25、构建疾病-症状-模态奖励矩阵,在疾病-症状-模态奖励矩阵中查询临床诊断结果中所有三元组对应的奖励值,计算临床诊断结果中疾病诊断结果的奖励值,得到临床决策的奖励值;

26、临床思维修饰模块,用于对多模态医疗数据输入的临床决策数据进行修饰,形成能够体现临床诊断决策过程的临床思维数据。

27、本发明的有益效果是:本发明利用知识蒸馏方法提炼大模型内关于临床诊断过程中模态与疾病、模态与症状之间关系的知识,这些知识将用于强化学习的训练过程;本发明利用强化学习方法生成多模态医疗数据输入的临床思维数据,依据生成过程中的状态、决策和奖励,优化生成策略,训练得到最优的临床思维数据的生成策略。通过本发明中的临床思维数据生成策略,能够对临床诊断过程中产生的临床诊断数据进行思维语义空间拓展,归纳其中的临床逻辑,解决临床诊断数据中无医务人员思维过程记录的问题。同时,融合多模态数据,并基于临床思维对文字模态的诊断信息进行模态标识,保证了临床可信性,增强了临床诊断数据的临床可解释性,极大程度的解决其在应用中的“黑盒”问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1