医学经验总结模型的建立方法、装置及数据评估方法与流程

文档序号:12669602阅读:216来源:国知局
医学经验总结模型的建立方法、装置及数据评估方法与流程

本发明实施例涉及计算机应用技术领域,尤其涉及一种医学经验总结模型的建立方法、装置及数据评估方法。



背景技术:

病历是医务人员对患者疾病的发生、发展、转归,进行检查、诊断、治疗等医学活动过程所作的文字记录。病历既是临床实践工作的总结,又是探索疾病规律及处理医学纠纷的法律依据,是国家的宝贵财富。

在临床医学中,有效整理病历,从中挖掘医生临床医学经验,对医学进步具有重大意义。在实际诊疗中,由于医务人员本身存在知识储备和临床经验等方面的差异性,往往不同的医务人员针对同一种疾病或者症状的诊断方式以及用药习惯等也不尽相同,而出现有的收效显著有的却见效甚微。而通过组织业内医务人员的进行治疗经验交流,不仅需要大量的人力物力,且不具有实时性和普遍共享性。因此,如何有效地从病历中整理出医学经验,实现医学知识共享显得尤为重要。



技术实现要素:

本发明提供了一种医学经验总结模型的建立方法、装置及数据评估方法,以有效地从病历中整理出医学经验,实现医学知识共享。

第一方面,本发明实施例提供了一种医学经验总结模型的建立方法,该方法包括:

根据历史病历样本中的目标数据对预设的生成式模型进行训练;

根据训练完成后的所述生成式模型生成第一伪造数据,并根据所述目标数据以及所述第一伪造数据对预设的鉴别式模型进行训练;

根据训练完成后的所述生成式模型生成第二伪造数据,并根据训练完成后的所述鉴别式模型对所述第二伪造数据的鉴别结果对所述生成式模型的参数进行调整,将调整后满足预设平衡条件的生成式模型作为医学经验总结模型。

第二方面,本发明实施例还提供了一种医学经验总结模型的建立装置,该装置包括:

生成式模型训练模块,用于根据历史病历样本中的目标数据对预设的生成式模型进行训练;

鉴别式模型训练模块,用于根据训练完成后的所述生成式模型生成第一伪造数据,并根据所述目标数据以及所述第一伪造数据对预设的鉴别式模型进行训练;

医学经验总结模型生成模块,用于根据训练完成后的所述生成式模型生成第二伪造数据,并根据训练完成后的所述鉴别式模型对所述第二伪造数据的鉴别结果对所述生成式模型的参数进行调整,将调整后满足预设平衡条件的生成式模型作为医学经验总结模型。

第三方面,本发明实施例还提供了一种基于医学经验总结模型的数据评估方法,该方法包括:

获取用户输入的患者数据;其中,所述患者数据包括患者当前的病情描述;

采用本发明任意实施例所述的医学经验总结模型的建立方法所建立的医学经验总结模型对当前输入的所述患者数据进行处理,输出与所述患者数据对应的数据评估结果进行显示;其中,所述数据评估结果包括与患者当前的病情描述所对应的疾病类型。

本发明实施例的技术方案,首先通过历史病历样本中的目标数据即来训练生成式模型,使得生成式模型能够比较好地拟合真实的病历数据;然后根据生成式模型生成第一伪造数据以及真实病历数据来训练鉴别式模型,使得鉴别式模型能够很好地识别哪些是真实的病历数据,哪些是第一伪造数据;进而根据鉴别式模型对生成式模型生成第二伪造数据的鉴别结果调整生成式模型的参数,目的是让生成式模型生成的假数据,与真实病历非常相似,从而使得生成式模型也针对历史病历样本中没有覆盖到的目标数据,能够有效地从历史病历样本中整理出临床医学经验,很好地实现对医学经验的总结,促进医学进步。

附图说明

为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。

图1为本发明实施例一提供的一种医学经验总结模型的建立方法的流程图;

图2为本发明实施例二提供的一种医学经验总结模型的建立方法的流程图;

图3为本发明实施例三提供的一种医学经验总结模型的建立方法的流程图;

图4为本发明实施例四提供的一种医学经验总结模型的建立装置的结构图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一所提供的一种医学经验总结模型的建立方法的流程示意图。如图1所示,本实施例的方法可以由医学经验总结模型的建立装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可独立的配置在服务器中或者由终端和服务器配合实现本实施例的方法。

本实施例的方法具体包括:

S110、根据历史病历样本中的目标数据对预设的生成式模型进行训练。

可以理解的是,历史病历样本包括手写的纸质版病历以及电子化历史病历等。其中,历史病历样本中的目标数据可以包括历史病历样本中所记载的目标病情描述,以及与目标病情描述对应的一种、两种或者多种目标疾病类型。

示例性地,生成式模型Generator可以是由一个深度神经网络多层感知器(Multi-Layer Perceptron,MLP)构成。其中,生成式模型Generator的输入层、隐藏层和输出层以及网络初始参数可以根据实际需求进行设置,在此不做限定。

根据历史病历样本中的目标数据对预设的生成式模型进行训练,可以是根据历史病历样本中的目标病情描述,以及该历史病历样本中与目标病情描述对应的目标疾病类型,对预设的生成式模型Generator进行训练,即生成式模型Generator输入的是目标病情描述,输出的是与该目标病情描述对应的目标疾病类型。具体可包括:获取至少一份历史病历样本中的目标病情描述,以及与所述病情描述所对应的至少一种目标疾病类型;根据所述目标病情描述以及所述至少一种目标疾病类型对预设的生成式模型进行训练。

在本操作中,采用历史病历样本中的目标数据来训练生成式模型Generator,使得这样生成式模型Generator的参数能够比较好得拟合真实的病历数据。

S120、根据训练完成后的所述生成式模型生成第一伪造数据,并根据所述目标数据以及所述第一伪造数据对预设的鉴别式模型进行训练。

在本实施例中,第一伪造数据与目标数据相对应,可以理解为历史病历样本中没有覆盖到的数据。类似地,第一伪造数据可以包括随机生成的第一伪造病情描述,以及与第一伪造病情描述对应的一种、两种或者多种第一伪造疾病类型。其中,第一伪造疾病类型由第一伪造病情描述输入训练完成后的生成式模型,经生成式模型处理后得到。值得注意的是,第一伪造数据并不一定不符合医学理论,换言之,在临床医学上,随机生成的第一伪造病情并不一定不能诊断出第一伪造疾病类型,第一伪造病情与第一伪造疾病类型之间的关系也可能是符合医学原理的。

需要说明的是,“第一伪造数据”中的“第一”仅仅用于与之后出现的伪造数据进行区分,“第一”本身并没有特殊含义。

示例性地,鉴别式模型Discriminator可以由一个深度神经网络多层感知器(Multi-Layer Perceptron,MLP)构成。若将目标数据定义为真数据,第一伪造数据定义为伪数据,则根据目标数据和第一伪造数据进行训练的预设的鉴别式模型,旨在辨别输入数据的真伪,即鉴别式模型Discriminator训练的目的是,使得鉴别式模型能够更精准地鉴别哪些数据来自于真实病历,哪些是基于生成式模型Generator伪造出的数据,也可以理解为,鉴别式模型用于鉴别输入数据是不是存在于历史病历样本中。对于鉴别式模型来说,输入目标数据之后的理想鉴别结果为真数据;输入第一伪造数据之后的理想鉴别结果为假数据。

具体地,根据训练完成后的所述生成式模型生成第一伪造数据,并根据所述目标数据以及所述第一伪造数据对预设的鉴别式模型进行训练,可以包括:将随机生成的第一伪造病历描述输入训练完成后的所述生成式模型中,输出与所述第一伪造病情描述对应的至少一种第一伪造疾病类型;进而,根据所述目标病情描述与所述目标疾病类型,以及所述第一伪造病历描述与所述第一伪造疾病类型,对预设的鉴别式模型进行训练。

S130、根据训练完成后的所述生成式模型生成第二伪造数据,并根据训练完成后的所述鉴别式模型对所述第二伪造数据的鉴别结果对所述生成式模型的参数进行调整,将调整后满足预设平衡条件的生成式模型作为医学经验总结模型。

类似地,第二伪造数据可以包括随机生成的第二伪造病情描述,以及与第二伪造病情描述对应的一种、两种或者多种第二伪造疾病类型。其中,第二伪造疾病类型由第二伪造病情描述输入训练完成后的生成式模型,经生成式模型处理后得到。值得注意的是,第二伪造数据并不一定不符合医学理论,换言之,在临床医学上,随机生成的第二伪造病情并不一定不能诊断出第二伪造疾病类型,第二伪造病情与第二伪造疾病类型之间的关系也可能是符合医学原理的。

需要说明的是,“第二伪造数据”中的“第二”仅仅用于与之前出现的“第一伪造数据”进行区分,“第一”与“第二”本身并没有特殊含义。

示例性地,预设平衡条件可以包括:基于预设次数的训练后所述生成式模型及所述鉴别式模型所对应的预设的各评价函数中同一所述评价函数的各函数值随着训练次数的增加而收敛。其中,评价函数可包括拟合评价函数、鉴别评价函数以及生成评价函数等。

以生成式模型为例,假设生成式模型的训练数据包含N条数据,其中,N为正整数。那么实际上每一轮训练时,生成式模型的参数就被调整了N次。每一轮训练结束后,可以计算一下调整后的生成式模型的评价函数,记为Losst=1。然后,用同样的N条数据,我们对模型做第二次训练。结束后,再计算一下生成式模型的评价函数Losst=2;依此类推,用同样的N条数据,重复训练过程M次,每次训练结束后,都计算一下评价函数Losst。则在此过程中,生成式模型的参数总共被调整了N*M次。

为了使得训练后的生成是模型的输出结果尽可能的精准或达到预期,可以基于海量历史病历样本对生成式模型进行多次的训练。在训练达到或超过预设的次数阈值时,可以选取靠近最后一次训练的预设数量(次数)的训练作为目标评价训练,比如,选择最后20次训练作为目标评价训练,如果LossM-20,LossM-19,…,LossM-1,LossM彼此的数值非常接近,从曲线图上来看,在训练次数的变化时,LOSS函数的函数值变化很小或者不再变化,换而言之,LOSS函数收敛了,那么训练就可以结束了。

综上,预设平衡条件可以,用公式表示为其中,M是生成式模型的训练次数;τ是预设的收敛阈值,例如可取5%或0.05。

具体地,根据训练完成后的所述鉴别式模型对生成式模型生成第二伪造数据的鉴别结果,对生成式模型的参数进行调整,可以包括:将随机生成的第二伪造病情描述输入训练完成后的所述生成式模型,输出与所述第二伪造病情描述对应的所述第二伪造疾病类型;将所述第二伪造病情描述以及所述第二伪造疾病类型输入训练完成后的所述鉴别式模型中,获取与所述第二伪造病情描述以及所述第二伪造疾病类型对应的参考鉴别结果;根据所述参考鉴别结果对所述生成式模型的参数进行调整。

需要说明的是,第一伪造数据与第二伪造数据可以相同也可以不相同。为了更好地实现鉴别式模型对第二伪造数据的鉴别结果对生成式模型的反调整,可以采用与第一伪造数据不同的第二伪造数据输入鉴别式模型,获取与第二伪造数据对应的参考鉴别结果。

上述技术方案,相当于对生成式模型的第二次训练,可以让生成式模型尽可能迷惑鉴别式模型,目的是使得生成式模型生成的伪数据,与真实病历非常相似,以覆盖真实病例中没有覆盖到的数据,也可以理解为借助历史病历样本中的真实数据,更好地评估出与输入数据对应的输出数据。

本实施例的技术方案,首先通过历史病历样本中的目标数据即来训练生成式模型,使得生成式模型能够比较好地拟合真实的病历数据;然后根据生成式模型生成第一伪造数据以及真实病历数据来训练鉴别式模型,使得鉴别式模型能够很好地识别哪些是真实的病历数据,哪些是第一伪造数据;进而根据鉴别式模型对生成式模型生成第二伪造数据的鉴别结果调整生成式模型的参数,目的是让生成式模型生成的伪数据,与真实病历非常相似,从而使得生成式模型针对历史病历样本中没有覆盖到的数据,也能够很好地实现对医学经验的总结,有效地从历史病历样本中整理出临床医学经验,实现临床医学经验的共享,促进医学进步。

实施例二

图2为本发明实施例二所提供的一种医学经验总结模型的建立方法的流程示意图,如图2所示,本实施例在上述实施例的基础上,可选是所述根据历史病历样本中的目标数据对预设的生成式模型进行训练,包括:获取至少一份历史病历样本中的目标病情描述,以及与所述病情描述所对应的至少一种目标疾病类型;根据所述目标病情描述以及所述至少一种目标疾病类型对预设的生成式模型进行训练。

在上述各技术方案的基础上,可选地,所述根据训练完成后的所述生成式模型生成第一伪造数据,并根据所述目标数据以及所述第一伪造数据对预设的鉴别式模型进行训练,进一步包括:将随机生成的第一伪造病历描述输入训练完成后的所述生成式模型中,输出与所述第一伪造病情描述对应的至少一种第一伪造疾病类型;根据所述目标病情描述与所述目标疾病类型,以及所述第一伪造病历描述与所述第一伪造疾病类型,对预设的鉴别式模型进行训练。

在上述各技术方案的基础上,进一步地,所述根据训练完成后的所述生成式模型生成第二伪造数据,并根据训练完成后的所述鉴别式模型对所述第二伪造数据的鉴别结果对所述生成式模型的参数进行调整,具体可包括:将随机生成的第二伪造病情描述输入训练完成后的所述生成式模型,输出与所述第二伪造病情描述对应的所述第二伪造疾病类型;将所述第二伪造病情描述以及所述第二伪造疾病类型输入训练完成后的所述鉴别式模型中,获取与所述第二伪造病情描述以及所述第二伪造疾病类型对应的参考鉴别结果;根据所述参考鉴别结果对所述生成式模型的参数进行调整。

具体地,本实施例的方法包括:

S210、获取至少一份历史病历样本中的目标病情描述,以及与所述目标病情描述所对应的至少一种目标疾病类型。

示例性地,目标病情描述可包括下述中的至少一个:患者的基本信息、生命体征、症状、化验指标以及检查标志物等。具体地,患者的基本信息可包括性别、年龄、工作性质、家庭住址以及经济收入等等;患者的生命体征可包括身高、体重、体温、脉搏以及血压等等;患者的症状可包括对患者不适的主观描述,在历史病历样本中可用对话等自然语言表达,譬如头痛、恶心、眩晕以及食欲不振等;患者的化验指标可包括血小板计数偏低、白细胞计数偏高、血糖浓度偏高以及尿蛋白计数偏高等;患者的检查标志物可包括心电图特征、脑电图特征、X光片显示某区域有阴影、彩超显示某区域低回声结节、CT显示条索状阴影以及PET显示某区域局部代谢率偏高等。

可以理解的是,在同一份历史病历样本中,与病情描述所对应的目标疾病类型可能是一种、两种或多种,例如,与病情描述所对应的目标疾病类型可能包括一种疾病,也可能还包括由该疾病引起的各种并发症,或者患者本身就罹患多种疾病。在本实施例中,与目标病情描述所对应的至少一种目标疾病类型可理解为同一历史病历样本中与目标病情描述所对应的所有的目标疾病类型。为了更好地对生成式模型进行训练,可以尽可能多地获取历史病历样本数据。基于海量历史病历样本对生成式模型进行训练。

S220、根据所述目标病情描述以及所述至少一种目标疾病类型对预设的生成式模型进行训练。

对生成式模型的训练旨在通过实际输出与目标输出的差距调整模型的参数,使得输入的目标病情描述经过生成式模型的处理后,输出与目标病情描述对应的目标疾病类型。具体地,根据所述目标病情描述以及所述至少一种目标疾病类型对预设的生成式模型进行训练可包括:将目标病情描述输入预设的生成式模型中,输出与目标病情描述所对应的至少一种估算疾病类型以及估算疾病类型的概率分布;将估算疾病类型与目标疾病类型进行比对,根据比对结果对生成式模型的参数进行调整。

采用目标病情描述以及与目标病情描述所对应的至少一种目标疾病类型来训练生成式模型,即采用历史病历样本中真实的目标数据来训练生成式模型,能够使得生成式模型的参数能够比较好得拟合真实的病历数据。

S230、将随机生成的第一伪造病历描述输入训练完成后的所述生成式模型中,输出与所述第一伪造病情描述对应的至少一种第一伪造疾病类型。

根据历史病历样本中的目标病情描述以及与目标病情描述对应的至少一种目标疾病类型训练完成的生成式模型,可根据输入的随机生成的第一伪造病历描述,结合训练后的模型参数,输出与第一伪造病历描述对应的第一伪造疾病类型。其中,第一伪造疾病类型的数量可能是一种、两种或多种。

S240、根据所述目标病情描述与所述目标疾病类型,以及所述第一伪造病历描述与所述第一伪造疾病类型,对预设的鉴别式模型进行训练。

在本实施例中,可以将一份历史病历样本中的目标病情描述以及与该目标病情描述对应的目标疾病类型,即真实的病历数据,作为一组真数据,输入预设的鉴别模型之后对应的输出为用于表示该数据为真的估算鉴别结果,例如具体可以是接近或者等于1的概率值;将第一伪造病情描述以及生成式模型输出的与第一伪造病情描述对应的第一伪造疾病类型,第一伪造病情描述与第一伪造疾病类型作为一组伪数据,输入预设的鉴别模型之后对应的输出为用于表示该数据为假的估算鉴别结果,例如具体可以是接近或等于0的概率值。

根据所述目标病情描述与所述目标疾病类型,以及所述第一伪造病历描述与所述第一伪造疾病类型,对预设的鉴别式模型进行训练,目的是为了优化鉴别式模型,提升对真伪数据的鉴别精准度。具体可包括:将所述目标病情描述与所述目标疾病类型,以及所述第一伪造病历描述与所述第一伪造疾病类型输入预设的鉴别式模型中,输出用于表示数据真实性的估算鉴别结果;将所述估算鉴别结果与预设的目标鉴别结果进行比较,根据比较结果对所述鉴别式模型的参数进行调整。

S250、将随机生成的第二伪造病情描述输入训练完成后的所述生成式模型,输出与所述第二伪造病情描述对应的所述第二伪造疾病类型。

其中,随机生成的第二伪造病情描述可以是人为编写的病历描述,也可以是将不同历史病历样本中的病情描述打乱重新组合生成的新的病历描述。可以理解的是,第二伪造病情描述需要经过预处理,去除相互冲突的病情描述。例如,“未见咳嗽”与“浓痰”可以理解为相互冲突的病情描述。

S260、将所述第二伪造病情描述以及所述第二伪造疾病类型输入训练完成后的所述鉴别式模型中,获取与所述第二伪造病情描述以及所述第二伪造疾病类型对应的参考鉴别结果。

由于第二伪造病情描述以及第二伪造疾病类型基于生成式模型生成,因此将第二伪造病情描述以及第二伪造疾病类型输入训练完成的鉴别式模型中,可以通过鉴别式模型输出的参考鉴别结果辅助判断生成式模型的输出结果是否接近真实数据,评价生成式模型的训练成果。

S270、根据所述参考鉴别结果对所述生成式模型的参数进行调整,将调整后满足预设平衡条件的生成式模型作为医学经验总结模型。

根据参考鉴别结果对生成式模型的参数进行调整,可以是根据鉴别式模型对基于生成式模型第二伪造病情描述以及第二伪造疾病类型的参考鉴别结果,计算出生成式模型的生成误差,进而根据生成误差对生成式模型的参数进行调整。具体可以包括:基于参考鉴别结果以及预设的生成评价函数计算出在当前鉴别结果下所述生成式模型的生成误差;根据计算出的生成误差采用梯度下降法对生成式模型的参数进行调整。

需要说明的是,对生成式模型的参数进行调整的目的在于,当将伪造的病情描述输入生成式模型中后,生成式模型所生成的与伪造的病情描述对应的伪造疾病类型,作为伪造数据输入鉴别式模型时,也能够被鉴别为真实数据。从而使得生成式模型在针对历史病历样本未覆盖到的数据是,也能够很好地提供可供参考的医学经验。

本实施例的技术方案,通过历史病历样本中的目标数据即目标病情描述以及与目标病情描述对应的目标疾病类型,对生成式模型进行训练,能够使得生成式模型根据输入的目标病情描述准确地输出与目标病情描述对应的目标疾病类型,实现对历史病历样本中的医学经验的有效总结;考虑到历史病历样本中无法完全覆盖临床医学知识,进一步通过训练完成的生成式模型生成与随机生成的第一伪造病历描述对应的第一伪造疾病类型,作为伪造数据,将伪造数据与历史病历样本中的目标数据对鉴别式模型进行训练,使得鉴别式模型能够准确地识别出数据的真实性;进而,根据训练完成的鉴别式模型对第二伪造病情描述以及第二伪造疾病类型的参考鉴别结果,对生成式模型的参数进行反调整,能够进一步优化生成式模型,提升医学经验总结模型的准确性。

实施例三

图3为本发明实施例三所提供的一种医学经验总结模型的建立方法的流程示意图,如图3所示,本实施例在上述实施例的基础上,可选是所述根据所述目标病情描述以及所述至少一种目标疾病类型对预设的生成式模型进行训练,包括:将所述目标病情描述输入预设的生成式模型中,输出与所述目标病情描述所对应的至少一种估算疾病类型以及所述估算疾病类型的概率分布;将所述估算疾病类型与所述目标疾病类型进行比对,根据比对结果对所述生成式模型的参数进行调整。

在上述各技术方案的基础上,具体地,所述根据所述目标病情描述与所述目标疾病类型,以及所述第一伪造病历描述与所述第一伪造疾病类型,对预设的鉴别式模型进行训练,可包括:将所述目标病情描述与所述目标疾病类型,以及所述第一伪造病历描述与所述第一伪造疾病类型输入预设的鉴别式模型中,输出用于表示数据真实性的估算鉴别结果;将所述估算鉴别结果与预设的目标鉴别结果进行比较,根据比较结果对所述鉴别式模型的参数进行调整。

在上述各技术方案的基础上,进一步地,所述根据所述参考鉴别结果对所述生成式模型的参数进行调整,可包括:基于所述参考鉴别结果以及预设的生成评价函数计算出在当前鉴别结果下所述生成式模型的生成误差;根据计算出的生成误差采用梯度下降法对生成式模型的参数进行调整。

具体地,本实施例的方法包括:

S301、获取至少一份历史病历样本中的目标病情描述,以及与所述病情描述所对应的至少一种目标疾病类型。

S302、将所述目标病情描述输入预设的生成式模型中,输出与所述目标病情描述所对应的至少一种估算疾病类型以及所述估算疾病类型的概率分布。

在本实施例中,将目标病情描述输入预设的生成式模型中,生成式模型根据已经收集到的目标病情描述,判断患者可能罹患的疾病类型。生成式模型的实际输出可以表示为条件概率其中,si是第i位患者的目标病情描述;di表示第i位患者可能罹患的疾病类型,由于生成式模型输出的与目标病情描述对应的估算疾病类型的数量可能不止一个,可以采用表示第i位患者可能罹患的第j种疾病类型。即生成式模型Generator的输入是目标病情描述si;生成式模型Generator的输出是该目标病情描述si所对应的患者可能罹患的各种估算疾病类型以及各估算疾病类型所对应的各个概率pdf(di),也可以理解为各估算疾病类型的概率分布,即

进一步地,为了使得生成式模型的输出结果具有针对性,可以把输出的中超过预先设定的阈值的疾病类型作为诊断结果di

S303、将所述估算疾病类型与所述目标疾病类型进行比对,根据比对结果对所述生成式模型的参数进行调整。

具体地,将所述估算疾病类型与所述目标疾病类型进行比对,根据比对结果对所述生成式模型的参数进行调整,可包括:基于预设的拟合评价函数计算出所述估算疾病类型与所述目标疾病类型之间的拟合误差;根据所述拟合误差对所述生成式模型的参数进行调整。示例性地,拟合评价函数用如下公式表示:其中,si表示第i份历史病历样本中的目标病情描述;表示第i位份历史病历样本中的第j种疾病类型;表示在第i份历史病历样本中的目标病情描述si下,所述第i份历史病历样本中的患者罹患第j种疾病类型的条件概率;表示与目标病情描述si对应的第j种疾病类型是否存在于第i份历史病历样本中,可用0或1表示;LossG表示所述估算疾病类型与所述目标疾病类型之间的拟合误差。

其中,如果第j种疾病类型出现在第i份历史病历样本的诊断结果中,那么如果第j种疾病类型没有出现在第i份历史病历样本的诊断结果中,那么拟合误差越小,说明生成式模型Generator模仿医生的临床诊断模仿得越像,对医学经验的总结越好。但是仅根据历史病历样本中的目标数据模仿医生的临床诊断,并不意味着生成式模型Generator的诊断很精准,原因如下:由于医生没有给患者做足够的化验和检查,导致无法做出正确的诊断,或者因为患者的病情过于复杂,在多个可能的疾病中,很难甄别患者究竟罹患哪些疾病,从而导致历史病历样本中的诊断结果可能不准确;历史病历样本中的目标病情描述残缺,不足以支持历史病历样本中的诊断结果;历史病历样本中涵盖的病情描述不完备,遇到罕见的病情,无法找到足够数量的相似历史病历,来辅助诊断决策。此时可以参考医学临床指南等医学参考文献,修正生成式模型Generator的诊断结果pdf(di|si)。

具体地,将所述估算疾病类型与所述目标疾病类型进行比对,根据比对结果对所述生成式模型的参数进行调整,还可以包括:获取医学参考文献中与目标疾病类型对应的参考病情描述;基于预设的偏差惩罚函数计算所述参考病情描述与历史病历样本中的目标病情描述之间的描述误差;根据所述描述误差对所述生成式模型的参数进行调整。

举例而言,在生成式模型Generator中输入的目标病情描述用si表示,生成式模型Generator根据该病情描述si所输出的目标疾病类型的概率分布用公式可以表示为:若根据医学参考文献疾病类型的参考病情描述应该是此时,可以计算历史病历样本中的目标病情描述si,与医学参考文献中的病情描述之间的差距,即两者描述误差。譬如,历史病历样本中的目标病情描述si包含三个指标,历史病历样本中的诊断结果di包含两种疾病类型,di=d1,d2。而根据医学参考文献,疾病类型d1的参考病情描述应该包含两个指标s1,s2;疾病类型d2的参考病情描述应该包含三个指标s3,s4,s5。那么历史病历样本中对疾病d1的诊断,是有充足证据的;而历史病历样本中对疾病d2的诊断,缺失了病情描述s4,s5。此时,可以构造偏差惩罚函数其中,Δi是目标病情描述相对于参考病情描述的缺失个数;si表示第i份历史病历样本中的目标病情描述;表示第i位份历史病历样本中的第j种疾病类型;ξ(si|di)表示所述参考病情描述与所述历史病历样本中的目标病情描述之间的描述误差。计算出的ξ的结果,介于0和1之间,当Δ=0时,ξ=1,当Δ=+∞时,ξ=0。延用上述例子,历史病历样本中对疾病d2的诊断,缺失了两项病情描述s4,s5,则此时的偏差惩罚函数用ξ来修正生成式模型Generator的诊断结果具体可以用公式表示为

为了进一步强化生成式模型,在所述根据所述描述误差对所述生成式模型的参数进行调整之后,还可以包括:根据生成式模型所输出与所述目标病情描述所对应的至少一种估算疾病类型的概率分布,计算出各所述估算疾病类型的熵;基于所述熵与所述偏差惩罚函数构建低熵偏差函数,根据所述低熵偏差惩罚函数对所述生成式模型的参数进行调整。

通常为了使得诊断具有针对性,生成式模型Generator的诊断结果不要罗列过多种的疾病类型,而是集中于少数疾病类型。譬如,生成式模型Generator根据已经收集到的有限的病情描述,输出的诊断结果显示患者可能罹患五种疾病类型,其中,每种疾病类型的概率分别是20%。这时,各疾病类型对应的熵是-1.0*(5*0.20*log0.20)=2.32,其中,对数log以2为底。

假设随后生成式模型中输入了更多的病情描述,然后把诊断结果更新为患者可能罹患两种疾病类型,与这两种疾病类型对应的概率分别为20%和80%,这时各疾病类型对应的熵是-1.0*(0.20*log0.20+0.80*log0.80)=0.72。在极端情况下,与输入的病情描述对应的诊断结果可能只有一种疾病类型,概率为100%,这时该疾病类型对应的熵是-1.0*log1.0=0。由此可知,诊断结果越是集中在少数几个疾病类型,熵值越低。如果诊断结果只有一个疾病,则熵值最低,为0。

在本实施例中,诊断结果中各疾病类型对应的熵可以由以下公式计算:

进一步地,在采用偏差惩罚函数的同时,可以将计算出的熵与偏差惩罚函数结合构建出熵偏差函数。示例性地,低熵偏差函数可以用公式表示为进而,为了达到低熵的效果,可进一步构建出低熵偏差惩罚函数。示例性地,低熵偏差惩罚函数可用公式表示为使ξ(di)的取值介于0和1之间。当诊断结果只包含一个疾病,熵值为0,ξ=0。当诊断结果包含无数种疾病类型时,熵值会很大,此时ξ趋近于1。

根据低熵偏差惩罚函数对生成式模型的参数进行调整,即用低熵偏差惩罚函数ξ(di)来修正生成式模型的输出结果。具体地,可以采用如下公式构建损失函数:LossG=∑i{[Discriminator(si,di)-1]2}-λ*ξ(di),其中,λ为低熵偏差惩罚函数ξ(di)的权重。λ的具体取值可根据需求设置,在此不做限定,如可以为0.2。

采用上述技术方案对生成式模型进行参数调整,能够在训练生成式模型Generator的过程中,兼顾三方面的因素:很好地拟合历史病历样本中记录的医生的临床诊断经验;符合医学参考文献中的医学知识;诊断结果集中于少数疾病乐行,而避免罗列过多可能疾病类型,可参考性强。

S304、将随机生成的第一伪造病历描述输入训练完成后的所述生成式模型中,输出与所述第一伪造病情描述对应的至少一种第一伪造疾病类型。

S305、将所述目标病情描述与所述目标疾病类型,以及所述第一伪造病历描述与所述第一伪造疾病类型输入预设的鉴别式模型中,输出用于表示数据真实性的估算鉴别结果。

如上所述,可以将所述目标病情描述与所述目标疾病类型作为真数据,将第一伪造病情描述以及生成式模型输出的与第一伪造病情描述对应的第一伪造疾病类型作为伪数据,输入预设的鉴别模型,进而由鉴别式模型输出用于表示该数据为真假的估算鉴别结果。

S306、将所述估算鉴别结果与预设的目标鉴别结果进行比较,根据比较结果对所述鉴别式模型的参数进行调整。

具体地,将所述估算鉴别结果与预设的目标鉴别结果进行比较,根据比较结果对所述鉴别式模型的参数进行调整,可包括:基于预设的鉴别评价函数计算出所述估算鉴别结果与预设的目标鉴别结果之间的鉴别误差;根据鉴别误差对鉴别式模型的参数进行调整。示例性地,鉴别评价函数可以用公式表示为:Loss(D)=∑i{pdf(true|di,si)-label(si,di)}2,其中,label(si,di)输入的病情描述si以及与病情描述si对应的疾病类型di的目标鉴别结果。

把多份历史病历样本中的表征真实病历的目标数据与基于生成式模型生成的伪造数据,掺杂在一起,作为鉴别模型的训练数据。则每一组训练数据均由三元组构成,分别为第i份病历的病情描述si,与病情描述si对应的疾病类型di,以及表征改组数据真伪的目标鉴别结果labeli。其中,di为这份病历的诊断结果,可包含若干种疾病类型,可表示为n表示疾病类型的总数量。labeli是标识,如果这份病历是历史病历样本中的目标数据,即对应的真实病历,则labeli=1。如果是伪造数据,则labeli=0。

输入一份病历描述si及其诊断结果di给鉴别模型,通过鉴别式模型识别这份病历的真实性。鉴别式模型的输出是估算鉴别结果表示为概率pdf(true|di,si)表示是这份病历是真实病历的概率是多少。把鉴别模型的输出pdf(true|di,si)与训练数据中的label(si,di)比较。如果鉴别模型的pdf(true|di,si)接近于1,意味着鉴别式模型认为si和di来自真实的历史病历样本中的可能性越大。

实际上,在生成这一组训练数据时,预先知道这组数据是来自真实的历史病历样本,还是基于生成式模型伪造的数据,如果该组训练数据是真实的历史病历样本,则在训练数据中预设标签label(si,di)=1,如果该组训练数据是基于生成式模型伪造的数据,则预设标签label(si,di)=0。如果pdf(true|di,si)接近于1,而label(si,di)=0,那么说明鉴别模型鉴别错误,需要调整鉴别模型的参数。

假设,鉴别式模型的训练数据是一组输入和与输入对应的正确的输出,用公式表示为{(s1,d1),0},{(s2,d2),0},{(s3,d3),1},…,{(sN,dN),0},其中,N为表示训练数据的总组数(总条数)。将训练数据中的(si,di)作为鉴别式模型Discriminator输入,由鉴别式模型Discriminator计算输出,可得到如下类似的计算结果,即估算鉴别结果[0.1,0.9,0.8...0.5,0.3];比较预设的目标鉴别结果与鉴别式模型Discriminator计算出的估算鉴别结果,可根据预设的鉴别评价函数计算得到鉴别式模型Discriminator的鉴别误差Loss(D)。

譬如,鉴别式模型Discriminator的输出估算鉴别结果是[0.1,0.9,0.8...0.5,0.3],而目标鉴别结果是[0,0,1,...,1,0]。此时,鉴别误差Loss(D)=(0.1-0)2+(0.9-0)2+(0.8-1)2+…+(0.3-0)2=0.01+0.81+0.04+…+0.09。

鉴别误差Loss(D)越小,说明鉴别式模型Discriminator鉴别真伪的能力越强。因此,可以进一步根据鉴别误差Loss(D)采用梯度下降算法,调整鉴别式模型Discriminator深度神经网络的参数,使得鉴别误差Loss(D)尽可能缩小。

S307、将随机生成的第二伪造病情描述输入训练完成后的所述生成式模型,输出与所述第二伪造病情描述对应的所述第二伪造疾病类型。

S308、将所述第二伪造病情描述以及所述第二伪造疾病类型输入训练完成后的所述鉴别式模型中,获取与所述第二伪造病情描述以及所述第二伪造疾病类型对应的参考鉴别结果。

可选地,为了更好地更全面地对生成式模型进行调整,第二伪造病情描述可以不同于第一伪造病情描述。本操作中的参考鉴别结果可以理解为鉴别式模型输出的与第二伪造病情描述以及第二伪造疾病类型对应的估算鉴别结果。

S309、基于所述参考鉴别结果以及预设的生成评价函数计算出在当前鉴别结果下所述生成式模型的生成误差。

其中,预设的生成评价函数可以表示为:LossG=[Discrimintor(si,di)-1]2,(si,di)表示第i组伪造数据;Discrimintor(si,di)表示参考鉴别结果。

把随机生成第二伪造病情描述si以及生成式模型输出的与第二伪造病情描述si对应的第二疾病类型di,作为一组伪数据输入鉴别式模型,由鉴别式模型Discriminator鉴别真伪。如果鉴别式模型Discriminator的鉴别结果很精准,则鉴别式模型输出的估算鉴别结果应该接近表示数据为伪造数据的目标鉴别结果,越接近于0。但是,从生成式模型Generator的立场出发,生成式模型Generator希望鉴别式模型Discriminator被自己愚弄,输出结果接近于表示数据真实数据的鉴别结果,即更接近于1,从而使得生成式模型对历史病历样本中未覆盖到的数据也能输出具有参考价值的诊断结果。

S310、根据计算出的生成误差采用梯度下降法对生成式模型的参数进行调整,将调整后满足预设平衡条件的生成式模型作为医学经验总结模型。

计算出的生成误差LossG越小,说明生成式模型Generator模仿医生的临床诊断模仿得越像。因此,可根据生成误差LossG用梯度下降算法,调整生成式模型Generator的参数,使得LossG尽可能缩小。

本实施例的技术方案,能够解决上述各技术方案所解决的技术问题,具有相同的有益效果,而且能够通过生成式模型与鉴别式模型的输出结果分别调整生成式模型与鉴别式模型的参数,从而提升生成式模型与鉴别式模型的输出结果的精准度,进一步地,还能够通过根据参考鉴别结果计算出的生成误差对生成式模型进行反调整,充分发挥生成对抗网络的优势,提升医学经验总结模型对医学经验总结的准确性。

实施例四

图4为本发明实施例四所提供的一种医学经验总结模型的建立装置的结构框图。该装置可通过硬件和/或软件的方式实现,并一般可独立的配置在服务器中或者由终端和服务器配合实现本实施例的方法。如图4所示,本实施例的医学经验总结模型的建立装置包括:生成式模型训练模块410、鉴别式模型训练模块420和医学经验总结模型生成模块430。

其中,生成式模型训练模块410,用于根据历史病历样本中的目标数据对预设的生成式模型进行训练;鉴别式模型训练模块420,用于根据训练完成后的所述生成式模型生成第一伪造数据,并根据所述目标数据以及所述第一伪造数据对预设的鉴别式模型进行训练;医学经验总结模型生成模块430,用于根据训练完成后的所述生成式模型生成第二伪造数据,并根据训练完成后的所述鉴别式模型对所述第二伪造数据的鉴别结果对所述生成式模型的参数进行调整,将调整后满足预设平衡条件的生成式模型作为医学经验总结模型。

本实施例的技术方案,首先通过历史病历样本中的目标数据即来训练生成式模型,使得生成式模型能够比较好地拟合真实的病历数据;然后根据生成式模型生成第一伪造数据以及真实病历数据来训练鉴别式模型,使得鉴别式模型能够很好地识别哪些是真实的病历数据,哪些是第一伪造数据;进而根据鉴别式模型对生成式模型生成第二伪造数据的鉴别结果调整生成式模型的参数,目的是让生成式模型生成的假数据,与真实病历非常相似,从而使得生成式模型也针对历史病历样本中没有覆盖到的目标数据,能够很好地实现对医学经验的总结,有效地从历史病历样本中整理出临床医学经验,实现临床医学经验的共享,促进医学进步。

在上述技术方案的基础上,所述生成式模型训练模块可包括:目标数据获取单元和生成式模型训练单元。其中,目标数据获取单元,用于获取至少一份历史病历样本中的目标病情描述,以及与所述病情描述所对应的至少一种目标疾病类型;生成式模型训练单元,用于根据所述目标病情描述以及所述至少一种目标疾病类型对预设的生成式模型进行训练。

在上述各技术方案的基础上,所述鉴别式模型训练模块可包括:第一伪造数据获生成单元和鉴别式模型训练单元。其中,第一伪造数据生成单元,用于将随机生成的第一伪造病历描述输入训练完成后的所述生成式模型中,输出与所述第一伪造病情描述对应的至少一种第一伪造疾病类型;鉴别式模型训练单元,用于根据所述目标病情描述与所述目标疾病类型,以及所述第一伪造病历描述与所述第一伪造疾病类型,对预设的鉴别式模型进行训练。

在上述各技术方案的基础上,所述医学经验总结模型生成模块可包括:第二伪造数据生成单元、参考鉴别结果获取单元和生成参数调整单元。

其中,第二伪造数据生成单元,用于将随机生成的第二伪造病情描述输入训练完成后的所述生成式模型,输出与所述第二伪造病情描述对应的所述第二伪造疾病类型;参考鉴别结果获取单元,用于将所述第二伪造病情描述以及所述第二伪造疾病类型输入训练完成后的所述鉴别式模型中,获取与所述第二伪造病情描述以及所述第二伪造疾病类型对应的参考鉴别结果;生成参数调整单元,用于根据所述参考鉴别结果对所述生成式模型的参数进行调整。

在上述各技术方案的基础上,所述生成式模型训练单元具体可包括:估算疾病类型输出子单元和生成参数调整子单元。其中,估算疾病类型输出子单元,用于将所述目标病情描述输入预设的生成式模型中,输出与所述目标病情描述所对应的至少一种估算疾病类型以及所述估算疾病类型的概率分布;生成参数调整子单元,用于将所述估算疾病类型与所述目标疾病类型进行比对,根据比对结果对所述生成式模型的参数进行调整。

在上述各技术方案的基础上,所述生成参数调整子单元具体可用于:基于预设的拟合评价函数计算出所述估算疾病类型与所述目标疾病类型之间的拟合误差;根据所述拟合误差对所述生成式模型的参数进行调整。

在上述各技术方案的基础上,所述生成参数调整子单元还可用于:获取医学参考文献中与目标疾病类型对应的参考病情描述;基于预设的偏差惩罚函数计算所述参考病情描述与历史病历样本中的目标病情描述之间的描述误差;根据所述描述误差对所述生成式模型的参数进行调整。

在上述各技术方案的基础上,生成参数调整子单元还进一步可用于:在所述根据所述描述误差对所述生成式模型的参数进行调整之后,根据生成式模型所输出与所述目标病情描述所对应的至少一种估算疾病类型的概率分布,计算出各所述估算疾病类型的熵;基于所述熵与所述偏差惩罚函数构建低熵偏差函数,根据所述低熵偏差惩罚函数对所述生成式模型的参数进行调整。

在上述各技术方案的基础上,所述鉴别式模型训练模块可包括:估算鉴别结果输出单元和鉴别参数调整单元。其中,估算鉴别结果输出单元,用于将所述目标病情描述与所述目标疾病类型,以及所述第一伪造病历描述与所述第一伪造疾病类型输入预设的鉴别式模型中,输出用于表示数据真实性的估算鉴别结果;鉴别参数调整单元,用于将所述估算鉴别结果与预设的目标鉴别结果进行比较,根据比较结果对所述鉴别式模型的参数进行调整。

在上述各技术方案的基础上,所述鉴别参数调整单元具体可用于:基于预设的鉴别评价函数计算出所述估算鉴别结果与预设的目标鉴别结果之间的鉴别误差;根据鉴别误差对鉴别式模型的参数进行调整。

在上述各技术方案的基础上,所述生成参数调整单元具体可用于:基于所述参考鉴别结果以及预设的生成评价函数计算出在当前鉴别结果下所述生成式模型的生成误差;根据所述生成误差采用梯度下降法对所述生成式模型的参数进行调整。

在上述各技术方案的基础上,所述预设平衡条件可包括:基于预设次数的训练后所述生成式模型及所述鉴别式模型所对应的预设的各评价函数中同一所述评价函数的各函数值随着训练次数的增加而收敛。

上述装置可执行本发明任意实施例所提供的医学经验总结模型的建立方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的医学经验总结模型的建立方法。

另外,本发明实施例还提供了一种基于医学经验总结模型的数据评估方法,该方法包括:获取用户输入的患者数据;其中,所述患者数据包括患者当前的病情描述;采用本发明任意实施例所述的医学经验总结模型的建立方法所建立的医学经验总结模型对当前输入的所述患者数据进行处理,输出与所述患者数据对应的数据评估结果进行显示;其中,所述数据评估结果包括与患者当前的病情描述所对应的疾病类型。

上述基于医学经验总结模型的数据评估方法,通过医学经验总结模型对用户所输入病情描述进行处理,进而输出并显示与对应的评估疾病类型,能够对用户输入的患者数据进行有效评估,为用户可能罹患的疾病类型提供判断依据。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1