基于降维组合分类算法非计划性再入院风险评估预测模型的制作方法

文档序号:9751135阅读:621来源:国知局
基于降维组合分类算法非计划性再入院风险评估预测模型的制作方法
【技术领域】
[0001] 本发明涉及一种基于大样本、高维度情况下利用基于降维组合分类算法的患者非 计划性再入院风险评估预测模型,通过对患者再入院的影响因素及相关程度进行分析,构 建患者非计划性再入院的评估指标体系,从而对患者的再入院情况进行分类预测的方法。
【背景技术】
[0002] 随着医疗信息化的不断发展,已经实现了海量数据的存储和处理,然而面对海量 的医疗数据,如何高效率、高精度的完成对患者的识别和分类,已经成为医疗行业的重大挑 战。

【发明内容】

[0003] 本发明的目的是提供一种基于大样本、高维度情况下利用基于降维组合分类算法 的患者非计划性再入院风险评估预测方法。
[0004] 为了达到上述目的,本发明的技术方案是提供了一种基于降维组合分类算法的非 计划性再入院风险评估预测方法,其特征在于,包括以下步骤:
[0005] 步骤1、获取历史的入院患者信息,构建入院患者信息的高维空间特征矩阵;
[0006] 步骤2、运用拉普拉斯特征映射方法对高维空间特征矩阵进行降维,得到拉普拉斯 降维得分矩阵;
[0007] 步骤3、构建训练集,训练集包括输入向量矩阵及输出变量,输入向量为由降维模 块中得到的拉普拉斯降维得分矩阵构成,输出变量为患者非计划性再入院的概率值;
[0008] 步骤4、构建Log i s t i c回归模型后,采用训练集对Log i s t i c回归模型进行训练,利 用拉普拉斯降维得分矩阵构建Logistic回归模型对数据进行分类,分类的结果为二值变 量,取值为〇和1,其中1表示患者在某段时间内会发生非计划性再入院,而〇表示患者在某段 内不会发生非计划性再入院;
[0009] 步骤5、针对新的入院患者信息,利用训练后的Logistic回归模型对当前入院患者 的非计划性再入院风险进行评估预测。
[0010] 优选地,在所述步骤1中,所述入院患者信息包括入院患者的人口特征数据信息、 患者的用药情况数据信息、患者的门诊和住院情况数据信息、患者的体征信息、患者的并发 症和合并症数据信息、患者的入院情况和出院转归以及患者的检验检查数据信息。
[0011]优选地,在所述步骤1中,得到所述高维空间特征矩阵后,对其中非0-1的矩阵的信 息因子进行归一化处理,并计算归一化后的决策矩阵的相关系数矩阵,确定各项因子之间 的相关系数,以及各项因子与患者再入院情况之间的相关系数,据此判断各项影响因子与 患者再入院关系的大小,以及影响的重要程度。
[0012] 优选地,所述步骤2包括:
[0013] 步骤2.1、计算高维空间特征矩阵中给定的数据点Xi的k个近邻点,构建一个无向 的邻域图G,邻域图G的节点表示η个样本点,且它的所对应的边表示数据点之间的近邻关 系;
[0014]步骤2.2、计算近邻点之间的权值,构建出权值矩阵W;
[0015] 步骤2.3、对LY = ADY进行求解,得到的前d个最大的特征根λ所对应的特征向量即 为所述拉普拉斯降维得分矩阵,式中,D为通过权值矩阵W计算所得到的对角矩阵,L = D_W为 拉普拉斯矩阵。
[0016] 优选地,所述Logistic回归模型表示为:
[0017]
[0018] 式中,Pl为在各特征变量的相互作用下患者发生非计划性再入院的概率,且 ii:Hl+exp(xf/?)r5fXl表示患者患者的第i个特征因子,ει为第i个患者的特征因子的随机 误差,为患者非计划性再入院发生比,β为待估计的参数,表示在某一个因子改变一个 单位时log it(pi)的改变量。
[0019] 优选地,在所述步骤2中,在降维的过程中利用线性逼近的思想,在降维过程中引 入投影矩阵,即高维空间X到低维空间Y的投影可以通过线性变换Y=P TX实现,其中P为投影 矩阵。
[0020] 优选地,所述Logi st ic回归模型以极大似然估计为基础,结合经验似然估计和惩 罚似然的思想,用经验似然估计方法取代惩罚似然方法中的极大似然方法。
[0021] 本发明在对现有患者的分类进行研究的基础上,针对患者的非计划性再入院情况 进行数据降维组合分类,开展深入的研究。影响患者非计划性再入院率,进而影响预后的因 素不仅包含患者的性别、年龄等人口学特征,还包含患者的教育程度、用药情况、生活习惯、 医保状况、并发症的情况以及经济情况等各种各样的因素,单一的考虑任何一种因素或者 只考虑其中的几种因素都是不全面的。本发明通过将患者的临床资料信息、就诊信息、用药 信息、体征信息、并发症和合并症信息、实验室数据等指标纳入风险预测模型,合理的考虑 影响患者非计划性再入院的因素,通过拉普拉斯特征降维方法对数据进行降维,并在此基 础上构建基于Logistic回归模型的惩罚似然估计对高血压患者的非计划性再入院情况进 行概率分类预测,并对分类预测的效果进行评估,从而了解各影响因素与患者再入院之间 的关系及相关程度,为改善患者的再入院情况以及预后等提供科学依据。
【附图说明】
[0022] 图1为本发明提供的一种基于回归的患者非计划性再入院风险评估预测模型的原 理图;
[0023] 图2为本发明提供的回归预测模型效果的P-P图;
[0024] 图3为本发明提供的回归预测模型残差分布的P-P图。
【具体实施方式】
[0025] 为使本发明更明显易懂,兹以优选实施例作详细说明如下。
[0026] 本发明提供了一种基于大样本、高维度情况下利用拉普拉斯特征提取方法对数据 进行降维,并在此基础上构建Logistic回归模型对高血压患者的再入院情况进行概率分类 预测,并对预测效果进行评估的方法,其特征在于,包括:
[0027] 输入输出数据模块,该输入输出数据模块的输入数据为:整理好的入院患者的人 口特征数据信息、患者的用药情况数据信息、患者的门诊和住院情况数据信息、患者的体征 信息、患者的并发症和合并症数据信息、患者的入院情况和出院转归以及患者的检验检查 数据信息等;该输入输出数据模块的输出数据为:患者非计划性再入院情况的概率值;
[0028] 数据采集和预处理模块,用于:构建入院患者信息的特征矩阵,对其中非0-1的矩 阵的信息因子进行归一化处理,并计算归一化后的决策矩阵的相关系数矩阵,确定各项因 子之间的相关系数,以及各项因子与患者再入院情况之间的相关系数,据此判断各项影响 因子与患者再入院关系的大小,以及影响的重要程度;
[0029] 降维模块,用于:运用拉普拉斯特征映射方法对患者的特征信息数据进行降维,其 核心思想是通过嵌入算法保持数据点之间的局部结构,将高维空间中离的很近的数据点对 应于低维空间的投影点的距离也离的很近。拉普拉斯算法的基本步骤如下所示:
[0030] 步骤1:计算由住院患者所组成的高维空间中给定的数据点个近邻点,构建 一个无向的邻域图G,G的节点表示η个样本点,且它的所对应的边表示数据点之间的近邻关 系;
[0031 ]步骤2:计算近邻数据点之间的权值,构建出权值矩阵Wij。权值矩阵的构造一般采 取以下两种方式:1)若数据和数据点&在领域图G中互为近邻点,则Wu = l,否则^ = 0;
2)热核函数:若数据点Xl和数据点&在领域图G中互为近邻点,则权重:|: (其中参数σ为实数),否则Wij = 0;[0032] 步骤3:计算高维数据的低维表示。拉普拉斯的目标函数定义为:
[0033]
[0034]
[0035]
[0036] 因此拉普拉斯的降维问题最终转换为求解以下特征值分解的问题:
[0037] LY = ADY
[0038] 这里Du = Σ 为通过权值矩阵计算所得到的对角矩阵,L = D_W为拉普拉斯矩阵, 对上式进行求解得到的前d个最大的特征根所对应的特征向量即为数据降维的结果。
[0039] 数据分区模块,采用交叉验证的方法将输入向量矩阵及输出变量分为训练集和测 试集,输入向量为由降维
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1