患者住院时长的预测方法、装置、电子设备及存储介质与流程

文档序号:23963329发布日期:2021-02-18 20:28阅读:85来源:国知局
患者住院时长的预测方法、装置、电子设备及存储介质与流程

[0001]
本申请涉及数据处理技术领域,具体涉及一种患者住院时长的预测方法、装置、电子设备及存储介质。


背景技术:

[0002]
住院时长是评价医疗资源利用效率的关键指标,智能化的住院时长预测系统可以辅助临床医生识别疾病风险较高的患者,提供及时的医疗干预,从而改善患者的住院预后;也可辅助医生合理安排有限的医疗资源,使得医疗资源的利用效率达到最大化;还可在患者入院初期为患者及其家属提供住院时长相关的信息咨询,使得患者及其家属可以对其病情与住院可能情况掌握更多信息,由此提高患者的医疗服务满意度并减少由于信息不对称所造成的医患矛盾。
[0003]
以肾脏疾病为例,慢性肾脏疾病是由各种原发性肾脏疾病及糖尿病、高血压等导致肾脏损害引起的一组常见慢性疾病群。我国的肾脏病医疗卫生体系亟需结合智能化的临床决策支持系统以提高医疗效率,改善患者预后。
[0004]
现有的患者住院时长预测一般是依据临床医生的工作经验,由于患者病情的复杂性,医生的工作经验主观性过高,患者住院时长预测的难度大、分析效率低、准确率低,无法有效地辅助医生的临床决策、提升医疗效率。
[0005]
考虑到真实世界中住院时长受人为因素影响具有一定的波动性,精确到天的数值型住院时长的预测模型往往误差较大。将住院时长预测从数值型预测问题转换为有序多分类预测问题,各个分类组间患者特征差异更为典型,可以由此提升模型预测准确率,且分类结果能提供足够的信息用于临床决策支持与患者咨询。目前,有序多分类问题一般基于数值型预测模型或无序多分类预测模型解决:数值型预测模型假设结局变量多个类别之间遵循等比相关关系,而真实世界中有序多分类数据的多个类别间往往并不遵循严格的等比相关关系;无序多分类预测模型则直接忽视了有序多分类结局变量各个类别之间的递进关系,预测模型的性能往往受到一定限制。同时,当有序多分类结局变量各个类别之间存在数据不平衡问题时,无序多分类预测模型会产生较大的预测误差。


技术实现要素:

[0006]
本申请的目的是提供一种患者住院时长的预测方法、装置、电子设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
[0007]
根据本申请实施例的一个方面,提供一种患者住院时长的预测方法,包括:
[0008]
利用多个二分类基学习器级联串接构建有序多分类的预测模型;
[0009]
利用训练数据集训练各个所述基学习器直至每一所述基学习器达到性能指标要求,得到训练好的预测模型;
[0010]
根据预设预测特征,选取待预测样本输入所述训练好的预测模型,得到预测结果。
[0011]
进一步地,在所述利用训练数据集训练各个所述基学习器之前,所述预测方法还包括:
[0012]
基于医院信息管理系统中患者的电子病历数据,进行数据清理,提取训练数据构成训练数据集。
[0013]
进一步地,在所述根据预设预测特征,选取待预测样本输入所述训练好的预测模型之前,所述预测方法还包括:
[0014]
从所述医院信息管理系统的电子病历数据中或者从所述训练数据集中筛选出对患者的住院时长预测价值高的预测特征;
[0015]
结合专家知识对所筛选的预测特征进行补充与调整,得到预设预测特征。
[0016]
进一步地,所述进行数据清理,包括:
[0017]
剔除缺失率过高的患者数据,剔除异常数据,以及随机填补数据缺失值。
[0018]
进一步地,所述二分类基学习器为梯度提升决策树算法。
[0019]
进一步地,所述利用训练数据集训练各个所述二分类基学习器直至每一所述二分类基学习器达到性能指标要求,包括:
[0020]
s1、将所述训练数据集输入所述预测模型,设定初始值m=1;单个训练样本输入格式为(x,y);y为包含有序m分类的结局变量,x代表训练样本的预测特征的集合;m为所述预测模型的分类类别的数量;
[0021]
s2、判断m是否<m;若是,则进入步骤s3;若否,则跳到步骤s7;
[0022]
s3、提取y≥第m类别的数据作为第m个基学习器的训练数据子集;
[0023]
s4、用第一训练标签标记所述训练数据子集中y=第m类别的数据,用第二训练标签标记所述训练数据子集中y>第m类别的数据;
[0024]
s5、基于上述步骤获得的所述训练数据子集与训练标签,训练所述二分类基学习器,得到第m个基学习器;
[0025]
s6、m自增1后更新,返回步骤s2;
[0026]
s7、输出训练完成的m-1个基学习器。
[0027]
进一步地,采用随机超参数搜索结合五折交叉验证方法实现各个基学习器的超参数优化,使用f1分数作为超参数寻优的模型预测性能的参考指标。
[0028]
进一步地,所述预测方法还包括:
[0029]
基于医院信息管理系统中电子病历数据的更新,定期同步对所述预测模型进行更新。
[0030]
根据本申请实施例的另一个方面,提供一种患者住院时长的预测装置,包括:
[0031]
构建模块,用于利用多个二分类基学习器级联串接构建有序多分类的预测模型;
[0032]
训练模块,用于利用训练数据集训练各个所述基学习器直至每一所述基学习器达到性能指标要求,得到训练好的预测模型;
[0033]
预测模块,用于根据预设预测特征,选取待预测样本输入所述训练好的预测模型,得到预测结果。
[0034]
根据本申请实施例的另一个方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实
现上述的患者住院时长的预测方法。
[0035]
根据本申请实施例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的患者住院时长的预测方法。
[0036]
本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:
[0037]
本申请实施例提供的患者住院时长的预测方法,利用多个二分类基学习器级联串接构建有序多分类的预测模型,将有序多类别的预测任务拆分为几个逐层递进的二分类任务,每一层分别有一个基学习器,待预测样本的信息逐层输入各个训练好的基学习器,获得预测类别,保留了有序多分类结局变量中各个类别间的序列递进关系,且不假设有序类别间为等比关系,更加符合真实数据特征,通过将数据集逐层拆分,使得用于各层基学习器训练的数据集中两个类别的数据相对平衡,可以有效解决多类别间数据不平衡的问题,提高了预测结果准确率。
[0038]
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
[0039]
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]
图1示出了本申请的一个实施例的患者住院时长的预测方法流程图;
[0041]
图2示出了本申请的一个实施例中的基学习器的训练过程流程图;
[0042]
图3示出了本申请的一个实施例中的选取待预测样本输入训练好的预测模型得到预测结果的流程图;
[0043]
图4示出了本申请的另一个实施例提供的患者住院时长的预测装置的结构框图;
[0044]
图5示出了本申请的另一个实施例提供的电子设备的结构框图;
[0045]
图6示出了本申请的另一个实施例提供的一种智能化肾脏疾病患者住院时长的预测系统的结构框图。
具体实施方式
[0046]
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0047]
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义
来解释。
[0048]
如图1所示,本申请的一个实施例提供了一种患者住院时长的预测方法,包括以下步骤:
[0049]
s1、采集有效建模数据。
[0050]
本实施例以肾脏疾病患者为例,本领域技术人员可以理解的是,本实施例的方法不仅仅局限于用于肾脏疾病患者,还可以用于其他疾病患者的住院时长预测。基于医院信息管理系统中肾脏疾病患者的电子病历数据,经过数据清理,提取有效建模数据。建模数据即用于训练基学习器的训练数据。
[0051]
采集医院信息管理系统中的电子病历数据,基于国际通用的kdigo肾脏疾病临床指南给出的慢性肾脏疾病诊断标准,筛选出肾脏疾病患者;对信息缺失率超过30%的患者数据和特征指标、数据异常值进行删除处理,不纳入最终模型构建;对数据的缺失值采用随机填补算法进行填充,随机填补算法可以使得填补后数据保持真实数据的分布特征;由此提取出有效建模数据,利用有效建模数据构成建模数据库。
[0052]
s2、筛选预测特征。
[0053]
结合专家知识与特征筛选算法从建模数据库中筛选出预测价值高且便于临床实践采集的一定数量的预测特征构成用于建模的特征子集。
[0054]
从医院信息管理系统中的电子病历数据中提取出预测特征集合,其中,预测特征集合包括:人口学特征,肾脏疾病特征,就医特征,一般疾病特征,实验室检验指标特征等。
[0055]
1)人口学特征包括:年龄,性别,婚姻状态,职业,教育水平,医疗保险类型等参数数据;
[0056]
2)肾脏疾病特征包括:慢性肾脏病分期,肾脏疾病原发病,肾脏疾病诊断年限等参数数据;
[0057]
3)就医特征包括:医疗机构类型,住院次数,入院状态,入院途径,入院科室等参数数据;
[0058]
4)一般疾病特征包括:入院病因,是否患有合并症(糖尿病,高血压,肿瘤,慢性阻塞性肺病,肺部感染,心血管疾病,脑血管疾病,慢性肝病)等参数数据;
[0059]
5)实验室检验指标特征包括:血常规,尿常规,尿蛋白/肌酐,血肌酐,血糖,血脂,电解质,血钙,血磷,全段甲状旁腺激素等参数数据。
[0060]
使用递归特征消除算法筛选出对肾脏疾病患者的住院时长预测价值高的一定数量的预测特征子集;其次结合专家知识对所筛选的预测特征子集进行补充与调整。结合专家知识与特征筛选算法的特征选择有利于保证筛选特征的准确性与临床实践的可行性。特征筛选可降低预测模型的复杂度,便于临床实践。
[0061]
s3、构建预测模型。
[0062]
利用多个二分类基学习器级联串接构建有序多分类的预测模型。
[0063]
具体地,将肾脏疾病患者的住院时长从低到高依次划分为m个类别,基于步骤s2所筛选的预测特征子集作为预测模型的输入,采用所述的级联式逐层建模算法,以梯度提升决策树算法为基学习器,构建肾脏疾病患者住院时长的预测模型;其中,各个基学习器的超参数优化采用随机超参数搜索结合五折交叉验证方法,使用f1分数作为超参数寻优的模型预测性能的参考指标。
[0064]
s4、利用训练数据集训练各个所述基学习器直至每一所述基学习器达到性能指标要求,得到训练好的预测模型。
[0065]
本实施例的级联式逐层建模算法的基本结构采用多级集成架构,由多个二分类基学习器级联串接构成,每一层分别训练一个基学习器,有序m分类的预测模型则包含m-1个基学习器。m为预测模型的分类类别数量。
[0066]
将结局变量的m个类别按照递增顺序排列,对于第m(m=1,2,

,m-1)个基学习器,其训练数据子集为y≥第m类别的数据。
[0067]
给定训练数据集d,其单个训练样本输入格式为(x,y)。其中,y为包含有序m分类的结局变量,将结局变量的m个类别按照递增顺序排列,得到第1类别<第2类别<
···
<第m类别<
···
<第m类别;x代表训练样本的预测特征的集合。
[0068]
如图2所示,在某些实施方式中,基学习器的训练过程包括以下步骤:
[0069]
s11、输入训练数据集d,设定初始值m=1;
[0070]
s12、判断m是否<m:若是,则进入步骤s13,;若否,则跳到步骤s17;
[0071]
s13、提取训练数据子集:提取y≥第m类别的数据作为第m个基学习器的训练子集;
[0072]
s14、标记数据标签:将提取训练数据子集中y=第m类别的数据的训练标签记为0,将y>第m类别的数据的训练标签记为1;
[0073]
s15、训练基学习器:基于上述步骤提取的训练数据子集与数据标签,训练预设的二分类基学习器,由此得到第m个基学习器;
[0074]
s16、m自增1后更新,返回步骤s12;即m=m+1或m=m++;
[0075]
s17、输出训练完成的m-1个基学习器。
[0076]
其中,采用随机超参数搜索结合五折交叉验证方法实现各个基学习器的超参数优化,使用f1分数作为超参数寻优的模型预测性能的参考指标。
[0077]
s5、根据预设预测特征,选取待预测样本输入所述训练好的预测模型,得到预测结果。
[0078]
向预测模型中输入待预测样本,得到预测结果,在某些实施方式中,还包括对预测结果进行可视化展示。
[0079]
将新入院患者的信息输入住院时长预测模型中,得到预测结果,可视化展示预测结果及诊疗建议,基于shap算法给出该患者的预测特征对其住院时长影响的可视化结果。
[0080]
将新的待预测样本的信息逐层输入各个训练好的基学习器,直到获得其预测类别并输出。
[0081]
在某些实施方式中,如图3所示,步骤s5具体包括:
[0082]
s51、输入待预测样本的信息,设定初始值m=1;
[0083]
s52、判断m是否小于m:若是,则将样本信息输入训练好的第m个基学习器中,得到输出0或者1;
[0084]
s53、若输出为0,则该样本的最终预测类别为第m类别,同时跳到步骤s55;若输出为1,则m自增1后更新(即执行操作m=m+1),同时进入步骤s54;
[0085]
s54、判断m是否等于m:若是,则该样本的最终预测类别为第m类别,同时跳到步骤s55;若否,则返回步骤s52;
[0086]
s55、输出该样本的最终预测类别。
[0087]
s6、自动更新预测模型。
[0088]
基于医院电子病历数据管理系统收集数据的更新,定期同步对住院时长预测模型进行更新。
[0089]
基于医院电子病历数据管理系统收集数据的更新,每年年末基于近三年系统数据更新建模数据,根据步骤s3所述方法构建新的住院时长预测模型,使用更新后的住院时长预测模型代替历史预测模型,由此实现对住院时长预测模型的定期同步更新。
[0090]
本申请实施例的患者住院时长预测方法,基于有序多分类预测的级联式逐层建模算法,采用多级集成架构,由多个基学习器级联串接而成,适用于有序多类别且类别间不遵循等比相关关系或类别间存在数据不平衡的预测问题。本申请实施例提供的方法,将有序多类别的预测任务拆分为几个逐层递进的二分类任务,每一层分别训练一个基学习器,新的待预测样本的信息逐层输入各个训练好的基学习器,直到获得其预测类别并输出。级联式逐层建模算法保留了有序多分类结局变量中各个类别间的序列递进关系,且不假设有序类别间为等比关系,更加符合真实数据特征。另外,通过将数据集逐层拆分,使得用于各层基学习器训练的数据集中两个类别的数据相对平衡,可以有效解决多类别间数据不平衡问题。
[0091]
如图4所示,本申请的另一个实施例提供了一种患者住院时长的预测装置,包括:
[0092]
构建模块30,用于利用多个二分类基学习器级联串接构建有序多分类的预测模型;
[0093]
训练模块40,用于利用训练数据集训练各个所述基学习器直至每一所述基学习器达到性能指标要求,得到训练好的预测模型;
[0094]
预测模块50,用于根据预设预测特征,选取待预测样本输入所述训练好的预测模型,得到预测结果。
[0095]
在某些实施方式中,预测装置还包括数据提取模块10,用于在利用训练数据集训练各个基学习器之前,基于医院信息管理系统中患者的电子病历数据,进行数据清理,提取训练数据构成训练数据集。
[0096]
在某些实施方式中,预测装置还包括预测特征获取模块20,用于在根据预设预测特征,选取待预测样本输入所述训练好的预测模型之前,
[0097]
从所述医院信息管理系统的电子病历数据中或者从所述训练数据集中筛选出对患者的住院时长预测价值高的预测特征;
[0098]
结合专家知识对所筛选的预测特征进行补充与调整,得到预设预测特征。
[0099]
在某些实施方式中,数据提取模块10包括用于进行数据清理的清理单元,清理单元具体用于:
[0100]
剔除缺失率过高的患者数据,剔除异常数据,以及随机填补数据缺失值。
[0101]
二分类基学习器为梯度提升决策树算法。
[0102]
在某些实施方式中,训练模块40具体用于:
[0103]
s11、将所述训练数据集输入所述预测模型,设定初始值m=1;单个训练样本输入格式为(x,y);y为包含有序m分类的结局变量,x代表训练样本的预测特征的集合;m为所述预测模型的分类类别的数量;
[0104]
s12、判断m是否<m;若是,则进入步骤s13;若否,则跳到步骤s17;
[0105]
s13、提取y≥第m类别的数据作为第m个基学习器的训练数据子集;
[0106]
s14、用第一训练标签标记所述训练数据子集中y=第m类别的数据,用第二训练标签标记所述训练数据子集中y>第m类别的数据;
[0107]
s15、基于上述步骤获得的所述训练数据子集与训练标签,训练所述二分类基学习器,得到第m个基学习器;
[0108]
s16、m自增1后更新,返回步骤s12;
[0109]
s17、输出训练完成的m-1个基学习器。
[0110]
在某些实施方式中,训练模块40具体还用于采用随机超参数搜索结合五折交叉验证方法实现各个基学习器的超参数优化,使用f1分数作为超参数寻优的模型预测性能的参考指标。
[0111]
在某些实施方式中,预测装置还包括更新模块60,更新模块60用于基于医院信息管理系统中电子病历数据的更新,定期同步对所述预测模型进行更新。
[0112]
本申请的另一个实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述的患者住院时长的预测方法。如图5所示,在某些实施方式中,电子设备70可以包括:处理器700,存储器701,总线702和通信接口703,处理器700、通信接口703和存储器701通过总线702连接;存储器701中存储有可在处理器700上运行的计算机程序,处理器700运行该计算机程序时执行本申请前述任一实施方式所提供的患者住院时长的预测方法。
[0113]
本申请的另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的患者住院时长的预测方法。
[0114]
如图6所示,本申请的另一个实施例提供了一种智能化肾脏疾病患者住院时长的预测系统,包括:
[0115]
输入模块,至少用于输入新入院的肾脏疾病患者的信息;
[0116]
预测模块,至少用于通过前述方法构建并训练得到的肾脏疾病患者住院时长预测模型,对该新入院患者的数据进行住院时长预测;
[0117]
显示模块,至少用于显示可视化预测结果。
[0118]
与现有技术相比,本申请实施例的患者住院时长预测方法,能达到如下有益效果:基于有序多分类预测的级联式逐层建模算法,保留了有序多分类结局变量中各个类别间的序列递进关系,且不假设有序类别间为等比关系,更加符合真实数据特征;通过将数据集逐层拆分,使得用于各层基学习器训练的数据集中两个类别的数据相对平衡,可以有效解决多类别间数据不平衡问题。同时,本公开基于该级联式逐层建模算法对医院电子病例数据管理系统收集的患者数据进行挖掘,以梯度提升决策树算法为基学习器,构建了面向患者的住院时长预测模型及系统,为新入院的患者提供可视化的预测结果展示,并根据医院电子病历数据管理系统的数据更新实现智能化的住院时长预测模型的同步化更新,改善了现有的住院时长预测依据临床医生经验进行主观预测的不足,有效提高了患者住院时长的预测效率及准确度,从而辅助临床决策与医疗资源分配,提高患者的住院预后与医疗满意度。
[0119]
本申请实施例提供的方法、装置、电子设备以及计算机可读存储介质不仅仅局限于用于肾脏疾病患者住院时长的预测,还可以广泛用于其他疾病患者的住院时长的预测。
[0120]
需要说明的是:
[0121]
术语“模块”并非意图受限于特定物理形式。取决于具体应用,模块可以实现为硬件、固件、软件和/或其组合。此外,不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。
[0122]
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
[0123]
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
[0124]
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0125]
以上所述实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1