基于降维组合分类算法非计划性再入院风险评估预测模型的制作方法_2

文档序号:9751135阅读:来源:国知局
模块中得到的拉普拉斯降维得分矩阵构成,输出变量为患者非计 划性再入院的概率值;
[0040]构建Logistic回归分类模块,用于:对于高维数据,尤其是大样本数据集,传统的 Logistic回归分类方法往往会遇到以下几个方面的问题:(1)高维数据会产生大量参数; (2)随着数据维数的增高,多重共线性的现象也将愈加严重;(3)当变量的维数很高时,容易 导致数据过拟合,即训练集的误差会下降,而测试集的误差在下降到一定程度后反而会上 升;(4)维数过高会给计算打来很大的负担,容易导致奇异的协方差矩阵。
[0041 ]为了使Logistic回归模型能够应用于高维分类问题中,本发明利用基于Logistic 回归模型的惩罚似然方法对患者的非计划性再入院情况进行预测。针对拉普拉斯特征降维 之后的得分矩阵构建Logistic回归模型对数据进行分类,分类的结果为二值变量,取值为0 和1,其中1表示患者在两年内会发生非计划性再入院,而0表示患者在两年内不会发生非计 划性再入院。可以表示为:
[0042]
[0043]其中,Pl为在各特征变量的相互作用下患者发生非计划性再入院的概率,且 /?:.=(! + exp(、〇>y'sfXl表示患者的第i个特征因子,ει为第i个患者的特征因子的随机误差, 7^为患者非计划性再入院发生比,β为待估计的参数,表示在某一个因子改变一个单位 时log it (pi)的改变量。Logistic回归模型中的参数估计值β得到的时候,由公式 _fexp(xf可以得到Logistic回归模型的分类概率pi。
[0044] 模型预测能力评估模块,训练过的Logistic回归分类模型学习了患者的人口特 征、病症特征以及临床路径等特征参数,并将训练结果反馈到电子病历中,针对新患者再进 行非计划性再入院的情况进行预测,从而实现优化患者再入院情况的目的。
[0045] 模型的有效性检验模块,使用残差P-P图来检验Logistic回归模型预测的有效性。 残差P-P图可以考察模型预测的残差是否符合正态分布。图形的纵轴为正态分布下的期望 累积概率,横轴为残差实际的累积概率。当残差分布的曲线与代表正态分布的曲线的重合 度越高说明残差分布与正态分布越一致。
[0046]降维模块,其实施过程包括:
[0047]在数据降维的过程中利用线性逼近的思想,在降维过程中引入投影矩阵,即高维 空间到低维空间的投影可以通过线性变换Y=PTX实现,其中P为投影矩阵,则拉普拉斯变换 的目标函数变为:
[0048]
[0049] 这里,Tr表示矩阵的迹,D和L分别为对角矩阵和拉普拉斯矩阵,为避免出现奇异 解,引入约束条件?化》> = I,则优化目标函数为:
[0050]
[0051 ] s.t.PTXDXTP = I
[0052]利用Lagrange方法,即可求解得到最小值的投影矩阵。
[0053] Logistic回归模型的实施过程包括:利用对数似然估计方法对参数值β进行估计, 贝1JP的参数似然估计函数为
[0054]
?
[0055] 则邱勺对数似然估计函数为:
[0056]
[0057] 关于参数β求导后可得到估计方程为:
[0058]
[0059] 其中,-(ζ)表示为:
[0060]
[0061]经过计算之后,估计方程可以简化为:
[0062]
[0063] Logistic回归模型以极大似然估计为基础,结合经验似然估计和惩罚似然的思 想,用经验似然估计方法取代惩罚似然方法中的极大似然方法。对于Logistic回归模型来 说,参数β的对数似然函数为
丨,可以得到参数β 的惩罚似然函数估计值为:
[0064]
[0065] 由Logistic回归模型的惩罚似然估计可以看出,惩罚似然方法的框架是由两部分 组成的,前面的部分为对数似然函数,这是由各自模型的最大似然函数形式决定的,这一部 分可以相当于一个损失函数;后面的部分是惩罚函数,惩罚函数有多种形式,不同的惩罚函 数会对结果造成不同的影响。本发明的惩罚经验似然方法是在惩罚似然思想的基础上,将 经验似然方法运用到Logistic回归模型中对参数进行估计。
[0066]以下利用2011 -2012年上海市三甲医院的1218904名高血压患者的住院数据,删除 掉患者信息都缺失的数据,最终选取336584名患者为研究对象,通过对影响患者两年内的 非计划性再入院率,进而影响患者预后的因素不仅包含患者的性别、年龄等人口学特征、还 包含患者的教育程度、用药情况、生活习惯、医保状况、并发症的情况以及经济情况等各种 各样的因素进行详细的分析,选取患者的临床资料信息、就诊信息、用药信息、特征信息、并 发症和合并症信息、实验室数据等指标纳入风险预测模型,合理的考虑影响患者再入院的 因素,通过拉普拉斯特征降维方法对数据进行降维,并在此基础上构建Logistic回归模型 的经验惩罚似然函数对高血压患者的非计划性再入院情况进行概率分类预测,并对分类预 测的效果进行评估,从而了解各影响因素与患者非计划性再入院之间的关系及相关程度, 为改善患者的再入院情况以及预后等提供科学依据。
[0067]结合图1,本发明提供的一种基于降维组合分类算法的患者非计划性再入院风险 评估预测方法的具体实施步骤为:
[0068]步骤1:整理高血压患者的信息数据,包含患者的人口学信息:性别、年龄等因素; 患者的并发症信息:包含糖尿病、慢性肾病、冠心病、心肌梗死、高血脂等并发症因素;患者 的用药数据:依据《高血压指南(2010版)》选取包含钙通道阻滞剂、ACEI、ARB、利尿剂和受体 阻滞剂以及其他等高血压用药以及药物的组合形式共36种用药类别;患者的检验检查数据 共24项;患者的体征数据共30项;患者的就诊数据:包含患者的门诊和住院情况数据信息共 7项。将这104项患者数据信息作为输入数据,患者的再入院情况作为输出数据。
[0069]步骤2、对数据进行预处理,对数据进行归一化处理,确保数据不受量纲的影响,并 在此基础上求取相应的相关系数矩阵,依据各指标与患者再入院情况的相关系数判断各指 标的重要程度,由此判断对患者再入院影响最大的因素依次为:患者最后一次入院之前的 就诊情况包括患者的门诊和住院信息情况、患者的并发症情况、患者的体征情况、患者的年 龄情况、患者的用药情况、患者的体征情况、患者的性别等。
[0070] 步骤3、在此基础上运用ΚΜ0和Bartlett的检验方法对数据进行分析:
[0071] 表 1 ΚΜ0 和 Bartlett 的检验
[0072]
[0073]由表可知,Bartlett检验统计量的观测值为3561096.166,相应的概率P值为 0.000,在显著性水平α = 0.01的情况下,拒绝原假设,认为相关性矩阵与单位矩阵有显著性 差异,适合进行拉普拉斯特征降维。
[0074] 步骤4、拉普拉斯特征降维方法:利用
:十算高维空间中给定的数 据点之间的距离,并将该距离作为各个数据点之间的权值作为数据点之间的近邻关系,构 建出权值矩阵W^,并利用线性逼近的思想,通过特征值分解的方法计算目标函数
i s求得拉普拉斯矩阵,并最终利用Lagrange方法,求解高维矩阵在 低维空间上的的投影矩阵,实现对数据的降维。利用该降维方法,选取累积方差贡献度大于 等于80%的原则提取患者的特征,共提取51个患者的特征,该51个特征可以用原104个患者 的数据特征表示出来。
[0075] 步骤4、数据分区:将每项患者的数据特征因子按照拉普拉斯数据降维方法提取的 数据特征组合构成输入向量矩阵,将患者两年内的再入院情况作为输出变量,为了降低参 数的影响,选用随机抽样的方法将数据分为训练集和测试集,其中训练组的患者为80%,包 含患者的样本数为269114名,测试组的患者为20%,包换患者的样本数为67470名,即对每 个患者的数据划分标签,在训练集上构建相应的Logistic回归分类模型的经验惩罚似然函 数,并在测试集对患者的分类
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1