一种医学数据处理方法、预测模型的训练方法及装置与流程

文档序号:22618067发布日期:2020-10-23 19:20阅读:145来源:国知局
一种医学数据处理方法、预测模型的训练方法及装置与流程

本发明实施例涉及医学数据处理技术领域,尤其涉及一种医学数据处理方法、预测模型的训练方法及装置。



背景技术:

随着信息科学的迅猛发展,基于人工智能的大数据处理方式被广泛应用,尤其是诸如深度神经网络模型等的智能模型处理方式。

目前对数据的处理方式,一般是将采集的数据输入至人工智能模型中,由人工智能模型对输入的数据进行识别、筛选和处理。因此,对人工智能模型的训练过程中需要大量的样本数据,对于小样本数据,尤其是小样本医学数据来说,存在样本采集难度,进一步导致人工智能模型的训练精度差。



技术实现要素:

本发明提供一种医学数据处理方法、预测模型的训练方法及装置,以实现通过对医学数据的处理满足模型的训练需求。

第一方面,本发明实施例提供了一种医学数据处理方法,包括:

获取第一对象的第一医学数据参数和第二对象的第二医学数据参数;

基于第一扩展规则分别对所述第一医学数据参数和所述第二医学数据参数进行参数扩展,以及基于第二扩展规则对所述第一医学数据参数和所述第二医学数据参数进行关联参数扩展,得到扩展后的医学数据参数;

基于扩展后的各医学数据参数的先验分布确定所述扩展后的各医学数据参数分布状态,基于所述分布状态对所述扩展后的各医学数据参数进行迭代采样;

根据采样结果筛选所述扩展后的各医学数据参数确定有效医学数据参数,其中,所述有效医学数据参数形成的样本数据用于训练具有目标预测功能的预测模型。

第二方面,本发明实施例还提供了一种预测模型的训练方法,包括:

获取目标预测功能对应的有效医学数据参数形成的样本数据,其中,所述有效医学数据参数根据如本发明实施例提供的医学数据处理方法确定;

基于所述样本数据对待训练的预测模型进行训练,得到具有目标预测功能的预测模型。

第三方面,本发明实施例还提供了一种医学数据处理装置,包括:

医学数据参数获取模块,用于获取第一对象的第一医学数据参数和第二对象的第二医学数据参数;

参数扩展模块,用于基于第一扩展规则分别对所述第一医学数据参数和所述第二医学数据参数进行参数扩展,以及基于第二扩展规则对所述第一医学数据参数和所述第二医学数据参数进行关联参数扩展,得到扩展后的医学数据参数;

迭代采样模块,用于基于扩展后的各医学数据参数的先验分布确定所述扩展后的各医学数据参数分布状态,基于所述分布状态对所述扩展后的各医学数据参数进行迭代采样;

有效数据确定模块,用于根据采样结果筛选所述扩展后的各医学数据参数确定有效医学数据参数,其中,所述有效医学数据参数形成的样本数据用于训练具有目标预测功能的预测模型。

第四方面,本发明实施例还提供了一种预测模型的训练装置,其特征在于,包括:

样本数据获取模块,用于获取目标预测功能对应的有效医学数据参数形成的样本数据,其中,所述有效医学数据参数根据如本发明实施例提供的医学数据处理方法确定;

模型训练模块,用于基于所述样本数据对待训练的预测模型进行训练,得到具有目标预测功能的预测模型。

第五方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例提供的医学数据处理方法或本发明实施例提供的预测模型的训练方法。

第六方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的医学数据处理方法或本发明实施例提供的预测模型的训练方法。

本发明提供的技术方案,通过对第一对象的第一医学数据参数和第二对象的第二医学数据参数分别进行扩展以及关联扩展,提高了医学数据参数的多样性的同时,预先设置了各种初始数据参数之间的扩展关系,替代了预测模型训练过程中对输入的初始数据参数进行的组合和扩展,简化了预测模型的训练过程,降低了模型的训练难度并提高了预测模型的训练效果,从而降低对训练样本的需求。进一步的,通过从扩展后的医学数据参数中筛选有效医学数据参数,替代了预测模型的训练过程对无效医学数据参数的筛选以及减少了无效医学数据参数的干扰,高预测模型收敛速度,进一步降低了训练预测模型过程中对样本的需求数量。

附图说明

图1为本发明实施例一提供的一种医学数据处理方法的流程示意图;

图2是发明实施例二提供的一种医学数据处理方法的流程示意图;

图3是本发明实施例三提供的预测模型的训练方法的流程示意图;

图4是本发明实施例提供的多种模型的roc_auc数值的示意图;

图5是本发明实施例四提供的一种预测模型的训练方法的流程示意图;

图6是本发明实施例五提供的一种医学数据处理装置的结构示意图;

图7是本发明实施例六提供的一种预测模型的训练装置的结构示意图;

图8为本发明实施例七提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种医学数据处理方法的流程示意图,本实施例可适用于对医学数据进行处理的情况,该方法可以由本发明实施例提供的医学数据处理装置来执行,该装置可集成与诸如计算机或者服务器等的电子设备中。该方法具体包括如下步骤:

s110、获取第一对象的第一医学数据参数和第二对象的第二医学数据参数。

s120、基于第一扩展规则分别对所述第一医学数据参数和所述第二医学数据参数进行参数扩展,以及基于第二扩展规则对所述第一医学数据参数和所述第二医学数据参数进行关联参数扩展,得到扩展后的医学数据参数。

s130、基于扩展后的各医学数据参数的先验分布确定所述扩展后的各医学数据参数分布状态,基于所述分布状态对所述扩展后的各医学数据参数进行迭代采样。

s140、根据采样结果筛选所述扩展后的各医学数据参数确定有效医学数据参数,其中,所述有效医学数据参数形成的样本数据用于训练具有目标预测功能的预测模型。

其中,第一对象和第二对象可以是人体对象,也可以是动物对象。可选的,第一对象和第二对象可以是进行器官移植的两个对象,例如,第一对象为器官供体,第二对象为器官受体。器官移植可以是但不限于肝移植、心脏移植、眼角膜移植、肾移植等。

第一医学数据参数和所述第二医学数据参数为可以直接获取或采集的医学数据参数,例如可通过仪器检测、分析方式采集的参数,或者可通过第一对象和第二对象的属性参数等,属性信息可以包括但不限于性别、年龄、体重、身高等。目前,在预测模型的训练过程中,将初始数据参数输入至预测模型中,由预测模型在训练过程中确定各初始数据参数之间的关系,导致需要大量的训练样本以及较大的训练周期。其中,初始数据参数为未进行扩展的第一医学数据参数和第二医学数据参数。可选的,预测模型可以是具有器官移植的功能预测的预测模型。

本实施例中,可以是分别对第一医学数据参数或所述第二医学数据参数进行参数扩展,还可以是对第一医学数据参数和所述第二医学数据参数进行关联参数扩展,得到多种扩展后医学数据参数。实现了对初始数据的挖掘,该扩展后的医学数据参数包括初始数据参数和挖掘得到的扩展医学数据参数。通过挖掘得到的医学数据参数对预测模型进行训练,简化了预测模型探索输入参数之间关系的过程,加快了预测模型在训练过程中的收敛速度,进一步降低了对样本数据的需求数量和训练周期。

需要说明的是,在获取第一对象的第一医学数据参数和第二对象的第二医学数据参数之后,在进行参数扩展之前,还包括:对初始数据参数进行预处理,可以包括数据清洗、去重和归一化等。其中,数据清洗可以是缺失数据的初始数据参数进行删除,去重处理可以是对相似度较高的初始数据参数进行相似参数剔除。可选的,去重处理可以包括:计算任意两个初始数据参数之间的相似度,当所述相似度超过预设相似度时,进行相似参数剔除。具有高度相似度的初始数据参数对目标预测功能的影响相似,剔除其中任一初始数据参数,可减少冗余参数,降低医学数据参数处理的复杂程度,提高处理效率。

其中,可以是通过皮尔森相关系数计算任意两个初始数据参数之间的相似度。以肝移植数据参数为例,参见表1,表1为初始数据参数相似度的示意。

表1

对筛选得到的初始数据参数进行归一化处理,可降低不同参数的差异性对预测模型的影响。其中,不同初始数据参数的对应不同归一化方式,可以预先设置有各个初始数据参数的归一化方式。参见表2,表2为肝移植数据参数中部分参数的归一化方式。

表2

在上述实施例的采集上,对经过预处理的第一医学数据参数和/或第二医学数据参数进行参数类型扩展,可选的,对所述初始数据参数进行参数类型扩展,包括如下至少一项:基于每一个初始数据参数的扩展、基于关联初始数据参数形成的参数组的扩展、基于不同对象对应的初始数据参数的扩展、基于同一对象的至少一个初始数据参数形成的参数组的扩展和基于所述初始数据参数的参数差异的扩展。

可选的,所述基于第一扩展规则分别对所述第一医学数据参数和所述第二医学数据参数进行参数扩展,包括:对于所述第一医学数据参数或者第二医学数据参数中的任一初始数据参数,确定所述初始数据参数对应的标准参数范围,并基于所述标准参数范围确定标称值;基于所述初始数据参数与所述标称值的差值进行参数扩展,得到所述初始数据参数对应的至少一个扩展医学数据参数。

其中,第一医学数据参数和第二医学数据参数均包括多个初始数据参数,对每一个初始数据参数,初始数据参数的标称值可以是初始数据参数的标准范围中间值、均值、众数中任一项,标准范围包括该初始数据参数处于标准状态下的最大值和最小值,可根据最大值和最小值确定该初始数据参数的中间值或者均值等,相应的,确定初始数据参数与标称值的差值,可以是将该差值作为扩展医学数据参数,还可以是对该差值进行预设方式的计算,得到扩展医学数据参数。例如预设方式可以是权重计算或者非线性计算等。例如扩展医学数据参数可以是weight×|feature-standard_feature|,其中,weight为权重系数,feature为初始数据参数,standard_feature为初始数据参数的标称值;例如,扩展医学数据参数还可以是e^(w|feature-standard_feature|),其中,w为权重系数。

示例性的,以初始数据参数为血清钠为例,人血血清钠的标准范围为135-145mmol/l,相应的,扩展医学数据参数可以是na-(145+135)/2、weight×|na-(145+135)/2|或者e^(w|na-(145+135)/2|),其中,na为第一医学数据参数和/或所述第二医学数据中的血清钠。

可选的,当一个初始数据参数在不同状态下可存在不同的标准参数范围,例如状态可以是但不限于体重状态、年龄状态和性别状态等。示例性的,对于bmi(bodymassindex,身体质量指数),不同性别对应不同的标准范围。可在不同的状态下分别进行参数扩展。

本实施例中,通过各参数的标准范围对各参数进行扩展,引入各参数的医学先验经验,使得挖掘得到的扩展医学数据参数携带有医学先验经验。由于在预测模型的训练过程中,仅是对数值的训练,通常通过大量的监督训练得到参数的分布规则,导致需求大量的训练样本。本实施例中,通过在数据挖掘阶段对扩展医学数据参数赋予医学先验经验,替代了在预测模型训练过程中通过大量迭代训练得到参数的分布规则,减少了对样本数量的需求,为医学数据的小样本训练提供便利。

示例性的,参见的表3,表3为本发明实施例提供的对初始数据参数进行独立扩展的示例。

表3

可选的,所述基于第一扩展规则分别对所述第一医学数据参数和所述第二医学数据参数进行参数扩展,包括:在所述第一医学数据参数或者第二医学数据参数中的初始数据参数,确定进行参数扩展的参数组,其中,所述参数组中包括根据业务需求确定的至少两个初始数据参数,或者,具有关联关系的至少两个初始数据参数;对所述参数组中的至少两个初始数据参数进行至少一种扩展运算,得到扩展医学数据参数。

对于第一对象的第一医学数据参数,根据业务需求确定的至少两个初始数据参数,形成一个参数组,对于每一个参数组,对参数组中的至少两个初始数据参数进行扩展运算,其中,扩展运算可以是包括但不限于求和、均值、方差等。例如,业务需求可以是但不限于手术时间需求,不同的业务需求对应不同的参数组,可以是预选确定各业务需求和参数的对应关系,获取用户输入的业务需求,分别调用每一个业务需求对应的至少两个初始数据参数,形成参数组。参见表4,表4为肝移植数参数中关联初始数据参数的扩展方式的示例。

需要说明的是,在确定参数组的过程中,不仅针对第一医学数据参数和所述第二医学数据参数,还包括术中信息,即对第一对象和第二对象进行手术过程中的医学数据参数,同样执行上述扩展,得到扩展医学数据参数。

表4

参数组中的至少两个初始数据参数还可以是具有关联关系,其中,关联关系可以是正相关或者负相关。初始数据参数之间的关联关系可以是预先设置,还可以是根据大量对象的医学数据参数统计得到的。例如,在肝移植参数中,受体bmi越低,总胆红素越高,成负相关关联。在一些实施例中,参数组中具有关联关系的初始数据参数为两个。

具有关联关系的至少两个初始数据参数的扩展运算可以是和运算、差运算比值运算以及比值的导数运算等。示例性的,参见表5,表5为肝移植数参数中关联初始数据参数的扩展方式的示例。

表5

本实施例中,通过医学先验经验将具有关联关系或者属于同一业务需求下的多个参数形成参数组,对同一参数组内的全部初始数据参数进行扩展运算,以形成具有参数关联意义的扩展医学数据参数,通过基于医学先验经验对具有关联的初始数据参数进行关联挖掘,简化了预测模型训练过程中对各参数之间关联关系的过程,相应的,减少了对训练样本数量的需求。

可选的,基于第二扩展规则对所述第一医学数据参数和所述第二医学数据参数进行关联参数扩展,包括:确定所述第一医学数据参数和所述第二医学数据参数中的同一类型的医学数据参数对,对各所述医学数据参数对进行数值运算,得到所述医学数据参数对对应的扩展医学数据参数。

基于不同对象对应的初始数据参数的扩展可以是基于不同对象的同一种初始数据参数进行扩展,例如可以是包括判断不同对象的同一种初始数据参数是否匹配,确定不同对象的同一种初始数据参数的差值、和、商、乘积等。参见表6,表6为肝移植数参数中关联初始数据参数的扩展方式的示例。

本实施例中,预测模型用于对第一对象和第二对象之间器官移植数据进行预测,确定器官移植功能,在对预测模型进行训练之间,对第一对象和第二对象的对应初始数据参数进行关联扩展,得到具有两个用户之间关联的扩展医学数据参数,基于上述扩展医学数据参数对预测模型进行训练,可简化训练过程中对不同对象之间的参数关联挖掘过程,提高了训练效率,进一步降低了训练样本数量的需求。

表6

可选的,基于第二扩展规则对所述第一医学数据参数和所述第二医学数据参数进行关联参数扩展,包括:基于所述第一对象和所述第二对象的目标参数的匹配状态,确定所述目标参数的匹配状态对应的对象分组;基于第一医学数据参数和/或所述第二医学数据参数,以及所述对象分组中的不同对象的参数均值进行参数扩展,得到扩展医学数据参数。

本实施例中,可以是基于目标参数的匹配状态对多个对象的医学数据参数进行分组,例如,目标参数可以是年龄、性别和移植物类型等。示例性的,进行器官移植的两个对象的性别为女和男,则上述两个对象的性别为不匹配;若进行器官移植的两个对象的年龄均为50岁,则上述两个对象的年龄相匹配。示例性的,历史对象的对象分组可以包括但不限于年龄不匹配、年龄匹配、性别匹配、性别不匹配、移植物类型不匹配和移植物类型匹配等。

基于第一对象和第二对象的目标参数,确定是否相匹配,例如第一对象的目标参数分别为性别女,年龄20,第二对象的目标参数分别为性别女,年龄50,则可确定第一对象和第二对象的年龄不匹配,性别匹配。分别确定年龄不匹配分组和性别匹配分组,基于年龄不匹配分组和性别匹配分组中各参数均值进行参数扩展,参数均值可以包括供体均值、受体均值以及整体均值。相应的,扩展医学数据参数可以是第一医学数据参数或所述第二医学数据参数与对应参数均值的差值。

通过对第一医学数据参数和所述第二医学数据参数的扩展,提前确定各初始数据参数之间扩展关系,减少预测模型训练过程中对输入的初始数据参数的组合和扩展,提高收敛效率,减少对训练样本数量的需求。同时在参数扩展的过程中,引用医学先验经验,避免在预测模型的训练过程中仅进行数值训练导致不符合医学标准的问题,进一步提供了预测模型的训练精度。

在确定扩展后的医学数据参数之后,对扩展后的医学数据参数进行有效医学数据参数的筛选,以减少无需医学数据参数在预测模型训练过程中的干扰,提高训练效率,进一步减少对训练样本数量的需求。

其中,每一个医学数据参数的先验分布可以是不同的,可根据医学数据参数类型确定。示例性的,医学数据参数的先验分布可以是但不限于柯西分布、均匀分布、t分布、指数分布或者贝塔分布。通过先验分布确定每一个医学数据参数的权重,权重越大,表明对目标预测功能的影响越大,权重越小,表明对目标预测功能的影响越小。当医学数据参数的权重为零或者小于预设权重值时,确定该医学数据参数为无效医学数据参数。

在一些实施例中,可以是基于医学数据参数的先验分布和贝叶斯算法确定医学数据参数的权重。其中,医学数据参数的先验分布表征医学数据参数的权重分布方式,例如先验分布为柯西分布时,表明医学数据参数的权重满足柯西分布。通过对扩展后的各医学数据参数进行迭代采样,得到采样结果,并进一步基于采样结果确定扩展后的各医学数据参数的权重,并将权重不为零的医学数据参数确定为有效医学数据参数,或者,将权重大于预设权重值的医学数据参数确定为有效医学数据参数。基于有效医学数据参数确定样本数据,可对待训练的预测模型进行训练,得到具有目标预测功能的预测模型。

本实施例的技术方案,通过对第一对象的第一医学数据参数和第二对象的第二医学数据参数分别进行扩展以及关联扩展,提高了医学数据参数的多样性的同时,预先设置了各种初始数据参数之间的扩展关系,替代了预测模型训练过程中对输入的初始数据参数进行的组合和扩展,简化了预测模型的训练过程,降低了模型的训练难度并提高了预测模型的训练效果,从而降低对训练样本的需求。进一步的,通过从扩展后的医学数据参数中筛选有效医学数据参数,替代了预测模型的训练过程对无效医学数据参数的筛选以及减少了无效医学数据参数的干扰,高预测模型收敛速度,进一步降低了训练预测模型过程中对样本的需求数量。

实施例二

图2是发明实施例二提供的一种医学数据处理方法的流程示意图,在上述实施例的基础上进行了优化,该方法包括:

s210、获取第一对象的第一医学数据参数和第二对象的第二医学数据参数。

s220、基于第一扩展规则分别对所述第一医学数据参数和所述第二医学数据参数进行参数扩展,以及基于第二扩展规则对所述第一医学数据参数和所述第二医学数据参数进行关联参数扩展,得到扩展后的医学数据参数。

s230、基于扩展后的各医学数据参数的先验分布确定所述扩展后的各医学数据参数分布状态,基于所述分布状态对所述扩展后的各医学数据参数进行迭代采样。

s240、根据所述扩展后的各医学数据参数的先验分布对所述扩展后的医学数据参数的权重进行随机采样,得到医学数据参数的初始状态;

s250、基于预先确定的转移矩阵对所述初始状态进行迭代处理,得到所述扩展后的各医学数据参数稳定的分布状态,基于稳定的分布状态对所述扩展后的各医学数据参数进行迭代采样。

s260、根据采样结果筛选所述扩展后的各医学数据参数确定有效医学数据参数,其中,所述有效医学数据参数形成的样本数据用于训练具有目标预测功能的预测模型。

与目标预测功能相关医学数据参数类型繁杂,且还可以包括基于已有医学数据参数进行扩展得到的扩展医学数据参数,并非全部的医学数据参数均对目标预测功能存在影响,目前的预测模型的训练过程,是将全部的医学数据参数输入至待训练预测模型中,在训练过程中,由预测模型对参数进行筛选,因此预测模型训练周期长,样本需求数量大。

本实施例中,通过每一个医学数据参数的先验分布,判断每一个医学数据参数是否对目标预测功能是否存在有效影响,以从大量医学数据参数中删除无效参数,得到对目标预测功能有效的医学数据参数,该有效医学数据参数可用于训练具有目标预测功能的预测模型。通过剔除无效医学数据参数的方式,降低预测模型的训练难度,进一步降低了训练预测模型过程中对样本的需求数量,在保证预测模型的训练精度的基础上,可实现预测模型的小样本训练。

其中,每一个医学数据参数的先验分布可以是不同的,可根据医学数据参数类型确定。示例性的,医学数据参数的先验分布可以是但不限于柯西分布、均匀分布、t分布、指数分布或者贝塔分布。通过先验分布确定每一个医学数据参数的权重,权重越大,表明对目标预测功能的影响越大,权重越小,表明对目标预测功能的影响越小。当医学数据参数的权重为零或者小于预设权重值时,确定该医学数据参数为无效医学数据参数。

可选的,基于扩展后的各医学数据参数的先验分布确定所述扩展后的各医学数据参数分布状态,包括:根据所述扩展后的各医学数据参数的先验分布对所述扩展后的医学数据参数的权重进行随机采样,得到医学数据参数的初始状态;基于预先确定的转移矩阵对所述初始状态进行迭代处理,得到所述扩展后的各医学数据参数稳定的分布状态。

其中,医学数据参数的先验分布表征医学数据参数的权重分布方式,例如先验分布为柯西分布时,表明医学数据参数的权重满足柯西分布。通过对医学数据参数的权重进行随机采样,确定该采样值在先验分布中的概率值,各个医学数据参数的权重随机采样值对应的概率值组成医学数据参数的初始状态。该初始状态可以是采样矩阵的形式展示。

本实施例中,通过对医学数据参数的初始状态迭代进行状态转移,当状态转移稳定时,得到各医学数据参数的稳定分布状态。通过预先确定的转移矩阵对医学数据参数的初始状态进行状态转移,转移矩阵可以是通过马尔科夫链确定,当可逆马尔科夫链满足细致平衡方程时,得到转移矩阵。

基于转移矩阵对初始状态进行迭代的处理,当迭代次数满足预设迭代次数时,将预设次数的转移状态确定为稳定分布状态;或者,当迭代处理得到的转移状态收敛时,将收敛状态下的转移状态确定为稳定分布状态。

具体的,基于预先确定的转移矩阵对所述初始状态进行迭代处理,得到所述各医学数据参数的稳定分布状态,包括:基于所述转移矩阵对所述初始状态进行状态转移,得到转移状态;基于预设建议分布和验证阈值,对所述转移状态进行判断;当满足状态要求时,对所述转移状态迭代进行状态转移;当不满足状态要求时,对重新执行根据各医学数据参数的先验分布对所述医学数据参数的权重进行随机采样的步骤。

对初始状态的状态转移可以是将转移矩阵与医学数据参数的初始状态进行乘积处理,得到转移状态。基于预设建议分布和验证阈值,对转移状态进行判断接受-拒绝算法的判断,其中,建议分布可以是但不限于对称分布、正态分布或者独立分布,可根据需要设置。验证阈值可以固定阈值,或者在预设区间中抽取的随机数,预设区间可以是(0,1)。

可选的,基于预设建议分布和验证阈值,对所述转移状态进行判断,包括:基于所述预设建议分布确定所述转移状态的接受概率;当所述接受概率大于或等于所述验证阈值时,确定所述转移状态满足状态要求。

其中,可以是基于如下公式计算转移状态的接受概率:

,其中,的后验分布,的概率,为基于建议分布q由进行转移的转移概率,为基于建议分布q由进行转移的转移概率,为当前状态,下一采样状态。

当满足状态要求时,确定当前迭代次数是否满足预设次数,或者当前的转移状态是否处于收敛状态,若否,则基于转移矩阵对当前的转移状态进一步进行状态转移,若是,则将当前的转移状态确定为稳定分布状态;当接受概率小于验证阈值时,确定不满足状态要求,则重新基于各医学数据参数的先验分布进行权重的采样,确定新的初始状态,并执行上述过程,直到得到稳定分布状态。

稳定分布状态包括每一个医学数据参数在整体医学数据参数的采样过程中的分布概率。基于稳定分布状态中各个医学数据参数的概率值,对医学数据参数的权重进行预设次数的采样,其中预设次数可以100或者1000等,可根据需求设置。

将预设次数的采样,确定扩展后的各医学数据参数的权重的采样结果,对于任一扩展后的医学数据参数,基于该任一医学数据参数采样结果的分布确定权重。其中,权重的确定方式可以与先验分布相关。其中,当先验分布为柯西分布时,将所述任一医学数据参数的采样结果的分布峰值对应的数值,确定为所述任一医学数据参数的权重。

将权重不为零的医学数据参数确定为有效医学数据参数,或者,将权重大于预设权重值的医学数据参数确定为有效医学数据参数。基于有效医学数据参数确定样本数据,可对待训练的预测模型进行训练,得到具有目标预测功能的预测模型。

本实施例的技术方案,基于各个医学数据参数的先验分布,确定扩展后的各医学数据参数在目标预测功能中的影响权重,并基于权重筛选对目标预测功能有效的医学数据参数,剔除无效医学数据参数,降低预测模型的训练难度,提高预测模型收敛速度,进一步降低了训练预测模型过程中对样本的需求数量,在保证预测模型的训练精度的基础上,可实现预测模型的小样本训练。

实施例三

图3是本发明实施例三提供的预测模型的训练方法的流程示意图,该方法用于训练具有目标预测功能的预测模型,该方法包括:

s310、获取目标预测功能对应的有效医学数据参数形成的样本数据,其中,所述有效医学数据参数根据如上述实施例提供的医学数据处理方法确定。

s320、基于所述样本数据对待训练的预测模型进行训练,得到具有目标预测功能的预测模型。

本实施例中,通过基于上述实施例得到的有效医学数据参数,进行样本采样,得到样本数据。例如可以是根据有效医学数据参数在多个样本对象的参数集中进行提取得到。基于有效医学数据参数形成的样本数据对待训练的预测模型进行训练,简化了对模型训练的过程,无需大数量的样本数据,达到降低样本数量以及提高训练效率的效果。

在上述实施例的基础上,在基于所述样本数据对待训练的预测模型进行训练之前,所述方法还包括:基于预设组的样本数据,对至少两种待训练模型进行验证,确定用于进行所述目标预测功能训练的待训练模型。其中,至少两种待训练模型可以包括但不限于逻辑回归模型l1、逻辑回归模型l2、支持向量机、k-临近(k-nearestneighbors,knn)模型、深度学习模型cnn、随机森林模型(randomforest)、lightgbm(梯度提升决策树)中的至少两种。通过预设组(例如可以是20组)的样本数据对训练,并对训练得到的模型进行验证,衡量训练得到的模型的预测精度,将预测精度最高的模型确定为用于进行所述目标预测功能训练的待训练模型。

具体的,获取每一组样本数据输入得到的预测结果的评价值,其中评价值可以是roc_auc数值,roc_auc数值可通过曲线的形式展示,该曲线的纵轴为tpr真正例率,即预测为正且实际为正的样本占总样本的比例,横轴为fpr假阳例率,即预测为正但实际为负的样本占总样本的比例。对预设组的样本数据的评价值进行处理,例如可以是确定预设组的样本数据的评价值的均值和方差,通过得到的均值和方差筛选用于进行所述目标预测功能训练的待训练模型。其中,用于进行所述目标预测功能训练的待训练模型可满足以下条件:方差最小,均值最大。在一些实施例中可以是对方差和均值进行加权计算,根据加权结果筛选用于进行所述目标预测功能训练的待训练模型,可实现对方差和均值的兼顾,其中,方差和均值的权重可根据需求确定。

示例性的,参见图4,图4是本发明实施例提供的多种模型的roc_auc数值的示意图。根据图4可知,逻辑回顾模型l1为用于进行所述目标预测功能训练的待训练模型。

本实施例中,通过筛选适合于目标预测功能的待训练样本,有利于提高训练效率和预测精度。

实施例四

图5是本发明实施例四提供的一种预测模型的训练方法的流程示意图,在上述实施例的基础上进行了细化,该方法包括:

s410、获取进行器官移植的第一对象的第一医学数据参数和第二对象的第二医学数据参数。

s420、基于第一扩展规则分别对所述第一医学数据参数和所述第二医学数据参数进行参数扩展,以及基于第二扩展规则对所述第一医学数据参数和所述第二医学数据参数进行关联参数扩展,得到扩展后的医学数据参数。

s430、基于扩展后的各医学数据参数的先验分布确定所述扩展后的各医学数据参数分布状态,基于所述分布状态对所述扩展后的各医学数据参数进行迭代采样。

s440、根据采样结果筛选所述扩展后的各医学数据参数确定有效医学数据参数。

s450、获取有效医学数据参数形成的样本数据,基于所述样本数据对待训练的预测模型进行训练,得到具有器官移植的功预测功能的预测模型。

本实施例的技术方案,器官移植可以是肝移植,通过对肝移植后的肝功能预测功能的初始数据参数进行扩展,提高肝移植参数的多样性和全面性。通过各医学数据参数的先验分布确定对应的权重,以筛选有效的医学数据参数。示例性的,参见表7,表7是肝移植数值中有效医学数据参数和对应的权重的示例。

表7

其中,groupby(移植物类型)[供体血小板].mean()为以移植物类型为分组方式,供体血小板的均值,groupby(移植物类型)[移植物重量].mean()、groupby(是否肿瘤)[总手术时间].mean()和groupby(性别匹配)[供体钠].mean()的含义以此类推。

根据表7可知,移植物类型_供体bmi_mean_div、移植物类型_移植物重量_mean_div、、是否肿瘤_总手术时间_mean_div、性别匹配_供体钠_mean_divs、受体bmi/从开始灌洗至入袋中时间、移植物类型_供体血小板_mean_div为有效医学数据参数。

基于确定的有效医学数据参数确定样本数据,该样本数据为小样本数据,对待训练的预测模型进行训练,得到具有肝移植后的肝功能失功预测功能的预测模型,在保证预测模型精度的基础上,降低了对样本数据的数据需求,简化了预测模型的训练过程,提高了预测模型的训练效率。

实施例五

图6是本发明实施例五提供的一种医学数据处理装置的结构示意图,该装置包括:

医学数据参数获取模块510,用于获取第一对象的第一医学数据参数和第二对象的第二医学数据参数;

参数扩展模块520,用于基于第一扩展规则分别对所述第一医学数据参数和所述第二医学数据参数进行参数扩展,以及基于第二扩展规则对所述第一医学数据参数和所述第二医学数据参数进行关联参数扩展,得到扩展后的医学数据参数;

迭代采样模块530,用于基于扩展后的各医学数据参数的先验分布确定所述扩展后的各医学数据参数分布状态,基于所述分布状态对所述扩展后的各医学数据参数进行迭代采样;

有效数据确定模块540,用于根据采样结果筛选所述扩展后的各医学数据参数确定有效医学数据参数,其中,所述有效医学数据参数形成的样本数据用于训练具有所述目标预测功能的预测模型。

可选的,参数扩展模块520,包括:

标称值确定单元,用于对于所述第一医学数据参数或者第二医学数据参数中的任一初始数据参数,确定所述初始数据参数对应的标准参数范围,并基于所述标准参数范围确定标称值;

第一扩展单元,用于基于所述初始数据参数与所述标称值的差值进行参数扩展,得到所述初始数据参数对应的至少一个扩展医学数据参数。

可选的,参数扩展模块520,包括:

参数组确定单元,用于在所述第一医学数据参数或者第二医学数据参数中的初始数据参数,确定进行参数扩展的参数组,其中,所述参数组中包括根据业务需求确定的至少两个初始数据参数,或者,具有关联关系的至少两个初始数据参数;

第二扩展单元,用于对所述参数组中的至少两个初始数据参数进行至少一种扩展运算,得到扩展医学数据参数。

可选的,参数扩展模块520,包括:

对象分组确定单元,用于基于所述第一对象和所述第二对象的目标参数的匹配状态,确定所述目标参数的匹配状态对应的对象分组;

第三扩展单元,用于基于第一医学数据参数和/或所述第二医学数据参数,以及所述对象分组中的不同对象的参数均值进行参数扩展,得到扩展医学数据参数。

可选的,参数扩展模块520,包括:

第四扩展单元,用于确定所述第一医学数据参数和所述第二医学数据参数中的同一类型的医学数据参数对,对各所述医学数据参数对进行数值运算,得到所述医学数据参数对对应的扩展医学数据参数。

可选的,所述第一对象为器官供体,所述第二对象为器官受体,所述目标预测功能的预测模型为器官移植的功能预测。

可选的,迭代采样模块530包括:

初始状态确定单元,用于根据所述扩展后的各医学数据参数的先验分布对所述扩展后的医学数据参数的权重进行随机采样,得到医学数据参数的初始状态;

稳定分布状态确定单元,用于基于预先确定的转移矩阵对所述初始状态进行迭代处理,得到所述扩展后的各医学数据参数稳定的分布状态。

可选的,稳定分布状态确定单元用于:

状态转移子单元,用于基于所述转移矩阵对所述初始状态进行状态转移,得到转移状态;

转移状态判断子单元,用于基于预设建议分布和验证阈值,对所述转移状态进行判断,当满足状态要求时,对所述转移状态迭代进行状态转移,当不满足状态要求时,重新执行根据扩展后的各医学数据参数的先验分布对所述医学数据参数的权重进行随机采样的步骤。

可选的,转移状态判断子单元用于:

基于所述预设建议分布确定所述转移状态的接受概率;

当所述接受概率大于或等于所述验证阈值时,确定所述转移状态满足状态要求。

可选的,稳定分布状态确定单元用于:

当迭代次数满足预设迭代次数时,将所述预设次数的转移状态确定为稳定分布状态;或者,

当迭代处理得到的转移状态收敛时,将收敛状态下的转移状态确定为稳定分布状态。

可选的,有效数据确定模块540用于:

将所述任一扩展后的医学数据参数的采样结果的分布峰值对应的数值,确定为所述任一扩展后的医学数据参数的权重;

将权重大于预设阈值的医学数据参数确定为有效医学数据参数。

上述医学数据处理装置可执行本发明任意实施例所提供的医学数据处理方法,具备执行医学数据处理方法相应的功能模块和有益效果。

实施例六

图7是本发明实施例六提供的一种预测模型的训练装置的结构示意图,该装置包括:

样本数据获取模块610,用于获取目标预测功能对应的有效医学数据参数形成的样本数据,其中,所述有效医学数据参数根据如本发明实施例提供的医学数据处理方法确定;

模型训练模块620,用于基于所述样本数据对待训练的预测模型进行训练,得到具有目标预测功能的预测模型。

可选的,该装置还包括:

模型筛选模块,用于在基于所述样本数据对待训练的预测模型进行训练之前,基于预设组的样本数据,对至少两种待训练模型进行验证,确定用于进行所述目标预测功能训练的待训练模型。

上述预测模型的训练装置可执行本发明任意实施例所提供的预测模型的训练方法,具备执行预测模型的训练方法相应的功能模块和有益效果。

实施例七

图8为本发明实施例七提供的一种电子设备的结构示意图。图8示出了适于用来实现本发明实施方式的电子设备412的框图。图8显示的电子设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。设备412典型的是承担图像分类功能的电子设备。

如图8所示,电子设备412以通用计算设备的形式表现。电子设备412的组件可以包括但不限于:一个或者多个处理器416,存储装置428,连接不同系统组件(包括存储装置428和处理器416)的总线418。

总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(industrystandardarchitecture,isa)总线,微通道体系结构(microchannelarchitecture,mca)总线,增强型isa总线、视频电子标准协会(videoelectronicsstandardsassociation,vesa)局域总线以及外围组件互连(peripheralcomponentinterconnect,pci)总线。

电子设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

存储装置428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(randomaccessmemory,ram)430和/或高速缓存存储器432。电子设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图8未显示,通常称为“硬盘驱动器”)。尽管图8中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(compactdisc-readonlymemory,cd-rom)、数字视盘(digitalvideodisc-readonlymemory,dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块426的程序436,可以存储在例如存储装置428中,这样的程序模块426包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块426通常执行本发明所描述的实施例中的功能和/或方法。

电子设备412也可以与一个或多个外部设备414(例如键盘、指向设备、摄像头、显示器424等)通信,还可与一个或者多个使得用户能与该电子设备412交互的设备通信,和/或与使得该电子设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口422进行。并且,电子设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(localareanetwork,lan),广域网wideareanetwork,wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与电子设备412的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(redundantarraysofindependentdisks,raid)系统、磁带驱动器以及数据备份存储系统等。

处理器416通过运行存储在存储装置428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例提供的医学数据处理方法或本发明实施例提供的预测模型的训练方法。

实施例八

本发明实施例八提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的医学数据处理方法或本发明实施例提供的预测模型的训练方法。

当然,本发明实施例所提供的一种计算机可读存储介质,其上存储的计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的医学数据处理方法或预测模型的训练方法。

本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的源代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的源代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机源代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。源代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1