基于降维组合分类算法非计划性再入院风险评估预测模型的制作方法_3

文档序号：9751135阅读：来源：国知局

情况进行预测；
[0076] 步骤5、L 〇 g i s t i c回归模型构建:在拉普拉斯特征降维的基础上，对高血压患者的两年内非计划性再入院情况数据使用Logistic回归模型的经验惩罚似然函数进行建模研究，使用惩罚经验似然方法来进行模型的变量选择和参数估计。之后对该数据的分类问题进行研究，最终得到分类的误判率。
[0077] 表2高血压患者再入院情况的Logistic回归模型的参数估计
[0078]
[0079]
[0080]
[0081 ]通过Logi st i c回归模型的惩罚经验似然方法对拉普拉斯特征降维之后得到的特征因子进行回归分析，得到了包含常数项的各个特征因子的回归系数、回归系数的标准误差，Wa 1 d检验统计量的观测值、Wa 1 d检验统计量的P值，由该表可以看出所有特征因子以及常数项的Wald检验统计量的P值都为0.000,在0.05的显著性水平下都通过检验，表明该模型的Logit线性关系显著，模型合理。
[0082] 由Logistic回归模型的惩罚经验似然方法得到的模型如下：
[0083] 表3模型拟合优度检验「00841
[0085] 该表显示了 Logistic回归模型的拟合优度方面的测度指标，最终模型的-2倍的对数似然估计值为19127.435，所对应的Cox&Snell R方和Nagelkerke R方都比较大，尤其是 Nagelkerke R方值接近于1，说明了模型的拟合优度总体较好。
[0086] 表4 Hosmer和Lemeshow检验「00871
[0088] 该表显示Hosmer-Lemeshow检查的结果。在该模型中，Hosmer-Lemeshow统计量的观测值为9343.671，概率P值为0.000,在0.01的显著性水平下，拒绝原假设，模型的拟合优度较好。认为由模型预测得到的患者的再入院情况的预测值能够较好的反应患者的实际值的分布情况。
[0089] 步骤6:模型预测效果评估:将Logistic回归模型的惩罚经验似然方法应用到高维数据的分类问题中，构造 Logistic回归模型的惩罚经验似然函数，应用该方法对高血压患者两年内的非计划性再入院情况预测，应用该模型选择出重要的影响变量并通过不断调整参数改进模型的分类效果。保存Logistic回归模型的训练结果，并将测试集的数据代入到该模型中，对模型的测试效果进行评估，模型的预测结果如下表所示：
[0090] 表5 Logistic回归模型分类结果表
[0091]
在该表中，符号0表示该患者再入院的概率较低，符号1表示该患者再入院的概率较高，概率值大于0.5的患者记录为再入院的患者，由该表可以看出，模型总的预测效果为 98.72%，其中两年内无再入院情况的患者的预测的准确率为98.74%，而两年内有再入院的情况的患者的预测准确率为98.69%，在67470名患者中只有1312名患者没有得到正确分类，模型整体预测的精度较高。
[0093]步骤六:模型的有效性检验:首先检验Logistic回归模型的预测有效性。使用残差 P-P图可以考察模型预测的残差是否符合正态分布。P-P图的纵轴为正态分布下的期望累积概率，横轴为残差实际的累积概率。当残差分布的曲线与代表正态分布的曲线的重合度越高说明残差分布与正态分布越一致。如图2和图3可以看出，模型的残差曲线分布与代表正态分布的斜线重合度很高，说明Logistic回归模型的预测值残差分布较合理。
【主权项】
1. 一种基于降维组合分类算法的非计划性再入院风险评估预测方法，其特征在于，包括W下步骤：步骤1、获取历史的入院患者信息，构建入院患者信息的高维空间特征矩阵；步骤2、运用拉普拉斯特征映射方法对高维空间特征矩阵进行降维，得到拉普拉斯降维得分矩阵；步骤3、构建训练集，训练集包括输入向量矩阵及输出变量，输入向量为由降维模块中得到的拉普拉斯降维得分矩阵构成，输出变量为患者非计划性再入院的概率值；步骤4、构建Logistic回归模型后，采用训练集对Logistic回归模型进行训练，利用拉普拉斯降维得分矩阵构建Logistic回归模型对数据进行分类，分类的结果为二值变量，取值为0和1，其中1表示患者在某段时间内会发生非计划性再入院，而0表示患者在某段内不会发生非计划性再入院；步骤5、针对新的入院患者信息，利用训练后的Logistic回归模型对当前入院患者的非计划性再入院风险进行评估预测。2. 如权利要求1所述的一种基于降维组合分类算法的非计划性再入院风险评估预测模型，其特征在于，在所述步骤1中，所述入院患者信息包括入院患者的人口特征数据信息、患者的用药情况数据信息、患者的口诊和住院情况数据信息、患者的体征信息、患者的并发症和合并症数据信息、患者的入院情况和出院转归W及患者的检验检查数据信息。3. 如权利要求1所述的一种基于降维组合分类算法的非计划性再入院风险评估预测模型，其特征在于，在所述步骤1中，得到所述高维空间特征矩阵后，对其中非0-1的矩阵的信息因子进行归一化处理，并计算归一化后的决策矩阵的相关系数矩阵，确定各项因子之间的相关系数，W及各项因子与患者再入院情况之间的相关系数，据此判断各项影响因子与患者再入院关系的大小，W及影响的重要程度。4. 如权利要求1所述的一种基于降维组合分类算法的非计划性再入院风险评估预测模型，其特征在于，所述步骤2包括：步骤2.1、计算高维空间特征矩阵中给定的数据点Xi的k个近邻点，构建一个无向的邻域图G，邻域图G的节点表示n个样本点，且它的所对应的边表示数据点之间的近邻关系；步骤2.2、计算近邻点之间的权值，构建出权值矩阵W; 步骤2.3、对LY = ADY进行求解，得到的前d个最大的特征根A所对应的特征向量即为所述拉普拉斯降维得分矩阵，式中，D为通过权值矩阵W计算所得到的对角矩阵，L = D-W为拉普拉斯矩阵。5. 如权利要求4所述的一种基于降维组合分类算法的非计划性再入院风险评估预测模型，其特征在于，所述Logistic回归模型表示为：式中，Pi为在各特征变量的相互作用下患者发生非计划性再入院的概率，且 A=(l + exp(x/>)尸"康示患者患者的第i个特征因子，Ei为第i个患者的特征因子的随机误差，为患者非计划性再入院发生比，e为待估计的参数，表示在某一个因子改变一个单位时logit (Pi)的改变量。6. 如权利要求1所述的一种基于降维组合分类算法的非计划性再入院风险评估预测模型，其特征在于，在所述步骤2中，在降维的过程中利用线性逼近的思想，在降维过程中引入投影矩阵，即高维空间X到低维空间Y的投影可W通过线性变换Y = pTx实现，其中P为投影矩阵。7. 如权利要求1所述的一种基于降维组合分类算法的非计划性再入院风险评估预测模型，其特征在于，所述Logistic回归模型W极大似然估计为基础，结合经验似然估计和惩罚似然的思想，用经验似然估计方法取代惩罚似然方法中的极大似然方法。
【专利摘要】随着医疗信息化的不断发展，已经实现了海量数据的存储和处理，然而面对海量的医疗数据，如何高效率、高精度的完成对患者的识别和分类，已经成为医疗行业的重大挑战。本发明针对患者的非计划性再入院情况进行数据降维组合分类，开展深入的研究。本发明通过将患者的临床资料信息、就诊信息、用药信息、体征信息、并发症和合并症信息、实验室数据等指标纳入风险预测模型，合理的考虑影响患者非计划性再入院的因素，通过拉普拉斯特征降维方法对数据进行降维，并在此基础上构建基于Logistic回归模型的惩罚似然估计对非计划性再入院情况进行概率分类预测，从而了解各影响因素与患者再入院之间的关系及相关程度。
【IPC分类】G06F19/00
【公开号】CN105512477
【申请号】CN201510876357
【发明人】杨冬艳, 李光亚, 陈诚, 马成龙, 张敬谊, 张鑫金
【申请人】万达信息股份有限公司
【公开日】2016年4月20日
【申请日】2015年12月3日

完整全部详细技术资料下载

当前第3页1 2 3