老年健康数据知识分析方法和系统与流程

文档序号:19789588发布日期:2020-01-24 14:04阅读:793来源:国知局
老年健康数据知识分析方法和系统与流程
本发明涉及数据处理
技术领域
,具体涉及一种老年健康数据知识分析方法和系统。
背景技术
:老年健康数据包括日常活动能力、器具性活动能力、教育程度、工作类型、运动习惯、饮食健康、医疗服务、心理状态等方面的个人数据。老年健康数据具有复杂性、精确性、安全性、异构性及封闭性的特点。对老年人健康影响因素的全面分析研究,对于科学认识老龄化健康问题和实现健康的老龄化具有重要意义。长期以来,健康普查数据的分析方法一直是统计方法或者简单的线性回归分析,即通过提出假设再进行挖掘验证数据中的关系。然而,现有的基于统计方法或者简单的线性回归分析的健康普查数据的分析方法虽然可以较为充分的利用有限的宝贵数据,但提出的假设一般是基于某个主要因素,例如居住模式、教育水平、经济地位等进行相应的考察,没有结合多个方面的具体因素进行综合考虑,存在一定的局限性,导致分析结果准确度不高。技术实现要素:(一)解决的技术问题针对现有技术的不足,本发明提供了一种老年健康数据知识分析方法和系统,解决了分析结果准确度不高的技术问题。(二)技术方案为实现以上目的,本发明通过以下技术方案予以实现:本发明提供一种老年健康数据知识分析方法,所述方法由计算机执行,包括以下步骤:s1、获取老年健康调查数据;s2、对所述老年健康调查数据进行预处理;s3、对预处理之后的老年健康调查数据进行集成特征选择,得到关键特征;s4、基于所述关键特征获取知识发现模型;s5、基于机器学习评价指标、解释机器学习性评价方法和所述知识发现模型,获取老年健康调查数据知识发现模型;s6、基于所述老年健康调查数据知识发现模型分析所述老年健康调查数据,得到所述老年健康调查数据中的自变量与因变量的关系。优选的,所述预处理包括缺失值处理。优选的,所述缺失值处理包括:s201、记一组老年健康调查数据为x1......xk,以统一的形式表示这组老年健康调查数据中的缺失值;s202、从第一个老年健康调查数据开始,如果x1有缺失值,将在其他变量x2到xk上回归,将x1中的缺失值替换为预测值,所述预测值由来自x1的后验预测分布模拟得出;s203、对于下一个具有缺失值的老年健康调查数据xi,在所有其他老年健康调查数据x1......xk上回归,xi中的缺失值被来自xi的后验预测分布的模拟值所取代,将老年健康调查数据中的所有缺失值进行替换。优选的,所述集成特征选择包括:s301、分别使用卡方检验、互信息、基于l2逻辑回归、随机逻辑回归、随机森林和lightgbm对预处理之后的一组老年健康调查数据中的特征a进行特征选择,获取特征a的6种类型的特征得分向量;s302、对所述特征a的6种类型的特征得分向量进行归一化处理,归一化处理的公式包括:其中:x*为归一化处理后的特征得分向量;xi为特征a的6种类型的特征得分向量中的其中一种特征得分向量;s303、基于归一化后的特征a的6种类型的特征得分向量获取特征平均总得分值;s304、基于步骤s301~s303的方法,获取老年健康调查数据中m个特征的特征平均总得分值,再将m个特征的特征平均总得分值相加,得到总得分值,将总得分值除以6,除以6之后再除以老年健康调查数据中老年人的个数,得到最终平均总得分值,选取老年健康调查数据中特征平均总得分值在最终平均总得分值之上的特征作为关键特征。优选的,所述获取知识发现模型的方法包括:将关键特征输入梯度提升树分类器中,获取知识发现模型。优选的,所述获取老年健康调查数据知识发现模型的具体方法包括:s501、基于机器学习评价指标对知识发现模型进行评价,基于评价结果,筛选知识发现模型,得到初始老年健康调查数据知识发现模型;s502、将排列重要性和基于博弈论shapley值的shapleyadditiveexplanations两种解释机器学习性评价方法加入到初始老年健康调查数据知识发现模型中,得到老年健康调查数据知识发现模型。优选的,在步骤s501中,所述机器学习评价指标包括:准确率、f值和auc值。本发明还提供一种老年健康数据知识分析系统,所述系统包括计算机,所述计算机包括:至少一个存储单元;至少一个处理单元;其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:s1、获取老年健康调查数据;s2、对所述老年健康调查数据进行预处理;s3、对预处理之后的老年健康调查数据进行集成特征选择,得到关键特征;s4、基于所述关键特征获取知识发现模型;s5、基于机器学习评价指标、解释机器学习性评价方法和所述知识发现模型,获取老年健康调查数据知识发现模型;s6、基于所述老年健康调查数据知识发现模型分析所述老年健康调查数据,得到所述老年健康调查数据中的自变量与因变量的关系。(三)有益效果本发明提供了一种老年健康数据知识分析方法和系统。与现有技术相比,具备以下有益效果:本发明通过对预处理之后的老年健康调查数据中的特征进行集成特征选择,得到关键特征,再基于关键特征获取知识发现模型,并在知识发现模型融入基于机器学习评价指标和解释机器学习性评价方法,得到老年健康调查数据知识发现模型,然后通过老年健康调查数据知识发现模型分析老年健康调查数据中的自变量与因变量的关系。本发明提出了基于集成学习的特征选择方法,构建知识发现模型,同时融入基于评价指标和解释机器学习性评价方法,使得老年健康调查数据知识发现模型既有评价指标又引入了解释性评价方法,能从多个维度分析老年健康调查数据中的自变量与因变量的关系,从而能准确、全面的分析出老年人健康影响因素。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实例一种老年健康数据知识分析方法的框图;图2为本发明实施例中的roc曲线图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本申请实施例通过提供一种老年健康数据知识分析方法和系统,解决了现有技术中健康普查数据的分析方法的准确度低的问题,实现从多个维度分析老年健康调查数据中的自变量与因变量的关系,从而能准确、全面的分析出老年人健康影响因素。本申请实施例中的技术方案为解决上述技术问题,总体思路如下:本发明实施例通过对预处理之后的老年健康调查数据中的特征进行集成特征选择,得到关键特征,再基于关键特征获取知识发现模型,并在知识发现模型融入基于评价指标和解释机器学习性评价方法,得到老年健康调查数据知识发现模型,然后通过老年健康调查数据知识发现模型分析老年健康调查数据中的自变量与因变量的关系。本发明实施例提出了基于集成学习的特征选择方法,构建知识发现模型,同时融入基于评价指标和解释机器学习性评价方法,使得老年健康调查数据知识发现模型既有机器学习评价指标又引入了解释性评价方法,能从多个维度分析老年健康调查数据中的自变量与因变量的关系,从而能准确、全面的分析出老年人健康影响因素。为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。本发明实施例提供了一种老年健康数据知识分析方法,该方法由计算机执行,如图1所示,包括步骤s1~s6:s1、获取老年健康调查数据;s2、对老年健康调查数据进行预处理;s3、对预处理之后的老年健康调查数据进行集成特征选择,得到关键特征;s4、基于上述关键特征获取知识发现模型;s5、基于机器学习评价指标、解释机器学习性评价方法和所述知识发现模型,获取老年健康调查数据知识发现模型;s6、基于上述老年健康调查数据知识发现模型分析所述老年健康调查数据,得到上述老年健康调查数据中的自变量与因变量的关系。本发明实施例提出了基于集成学习的特征选择方法,构建知识发现模型,同时融入基于机器学习评价指标和解释机器学习性评价方法,使得老年健康调查数据知识发现模型既有机器学习评价指标又引入了解释性评价方法,能从多个维度分析老年健康调查数据中的自变量与因变量的关系,从而能准确、全面的分析出老年人健康影响因素。下面对个步骤进行详细的描述:s1、获取老年健康调查数据。需要说明的是,在本发明实施例中,老年健康调查数据以clhls项目2014年的最新调查数据为例,该数据的原始样本包含了7192条样本,共计886个变量。通过该项调查的说明手册,发现一些变量是为了保证问卷调查的合理性而设计的,但是这些变量本身没有什么实际的含义,比如每一类问题前都会有一道问题涉及本题是由本人亲自回答,还是由他人代答,每一道此类题目对应着一个变量,通常这类变量的名称编码以字母“r”开头,我们首先删除此类对于本文的研究来说没有实际意义的变量,其次删除所有行或者列均为空的样本。s2、对老年健康调查数据进行预处理。具体实施过程如下:s201、记一组老年健康调查数据为x1......xk,以统一的形式表示这组老年健康调查数据中的缺失值;s202、从第一个老年健康调查数据开始,如果x1有缺失值,它将在其他变量x2到xk上回归,将x1中的缺失值替换为预测值,所述预测值由来自x1的后验预测分布模拟得出;s203、对于下一个具有缺失值的老年健康调查数据xi,在所有其他老年健康调查数据x1......xk上回归,xi中的缺失值被来自xi的后验预测分布的模拟值所取代,将老年健康调查数据中的所有缺失值进行替换。需要说明的是,在本发明实施例中,对于缺失值所占比例超过10%的变量进行删除。另外需要注意的是,本发明实施例中排除掉岁数超过105岁的样本。这样得到的自评健康数据集为6312条,特征(变量)为206个,心理健康数据集为6314条,特征(变量)为206个。然后对两个数据集分别进行特征选择,以方便建模。下面以自评健康数据集为例,进行进一步分析。s3、对预处理之后的老年健康调查数据进行集成特征选择,得到关键特征。具体实施过程如下:s301、分别使用卡方检验、互信息、基于l2逻辑回归、随机逻辑回归、随机森林和lightgbm对预处理之后的一组自评健康数据集中的一个特征(在本发明实施例中,一个特征是指特征a,特征a指m个特征中的其中一个,m=206)进行特征选择,获取一个特征的6种类型的特征得分向量;s302、对6种类型的特征得分向量进行归一化处理,为了确保由不同特征选择方法产生的特征得分向量具有可比性,需要在执行特征得分向量汇总融合之前进行归一化处理,每个特征选择方法产生的特征得分向量都被标准化为取值在[0,1]中的范围。归一化处理的公式包括:其中:x*为归一化处理后的特征得分向量;xi为6种类型的特征得分向量中的其中一种特征得分向量;s303、基于归一化后的一种特征的6种类型的特征得分向量获取特征平均总得分值。具体为,将一个特征的6种类型的特征得分向量相加,再除以6,得到特征平均总得分值。s304、基于步骤s301~s303的方法,获取老年健康调查数据中206个特征的特征平均总得分值,再将206个特征的特征平均总得分值相加,得到总得分值,将总得分值除以6,除以6之后再除以老年健康调查数据中老年人的6312,得到最终平均总得分值,选取老年健康调查数据中特征平均总得分值在最终平均总得分值之上的特征作为关键特征。最终选择出44个关键特征。如表1所示。其中,表中的mean是指最终平均总得分值,stability是指随机逻辑回归,chi2是指卡方检验,rf是指随机森林,lasso_l2是指基于l2逻辑回归,lgbm是指lightgbm,mi是指互信息。表1通过表格可以发现,就特征选择的结果而言,卡方检验方法出现了大量的分数为零,而其他的方法总体保持了相对一致的趋势,从而筛选出最有效的关键特征。由于原始样本的变量都是以字母代号的形式进行编码,含义不清楚,所以对所筛选出的特征(变量)按照其实际含义重新进行命名,并呈现了每个特征(变量)的具体编码含义,详见表2所示:表2结合每个特征所代表的实际含义可以看出,在决定老年人生理健康感受的因素中,心理状态占据了相当重要的部分,数个变量都是和心理状态有关的,比如说是否仍然乐观,是否会焦虑,是否会感到孤独等。除此之外,也能发现几个最常困扰老年人的慢性疾病的出现,比如肺部有关的疾病,心血管疾病,糖尿病和关节疾病,这些高发的老年疾病常常会对老年人的生活产生实际的影响。饮食上的一些习惯似乎也暗中影响了老年人的生理健康感受,比如鸡蛋的摄入,牛奶的摄入等。以上的特征选择结果只是初步表明了特征的可能的重要性,最终的排名必须得经过对模型的训练后才能给出。s4、基于上述关键特征获取知识发现模型。具体为:将44个关键特征输入梯度提升树分类器中,作为输入变量,自评健康作为因变量,获取知识发现模型。同时,在本发明实施例中,还通过常用的透明度高的模型即逻辑斯蒂回归模型、决策树模型、随机森林模型获得知识发现模型。s5、基于评价指标、解释机器学习性评价方法和上述知识发现模型,获取老年健康调查数据知识发现模型。具体实施过程如下:s501、对知识发现模型的表现进行机器学习评价指标评价,上述机器学习评价指标包括准确率、f值和auc值。值筛选知识发现模型,得到初始老年健康调查数据知识发现模型。从表3和图2可得出,表3和图2中gbdt是指通过梯度提升树(gbdt)构建的知识发现模型。综合各个模型的结果可以看出通过梯度提升树构建的知识发现模型在各个指标上拥有最好的表现,尤其是在准确率,f值和auc(roc曲线下的面积)这几个关键指标上,其综合表现是优于其他模型的。这说明通过梯度提升树构建知识发现模型能够以不错的效率识别出老年人的自评健康状态,无论是健康的状态还是不健康的状态。表3accuracyprecisionrecallf1auc逻辑回归76.22%73.11%72.89%72.97%83.79%决策树74.72%69.48%75.76%72.48%81.78%随机森林74.78%75.17%63.90%69.04%81.65%gbdt77.74%74.48%75.37%74.89%85.19%s502、将排列重要性和基于博弈论shapley值的shapleyadditiveexplanations(沙普利加性解释)两种解释机器学习性评价方法加入到初始老年健康调查数据知识发现模型中,得到老年健康调查数据知识发现模型。s6、基于上述老年健康调查数据知识发现模型分析上述老年健康调查数据,得到上述老年健康调查数据中的自变量与因变量的关系。具体实施过程如下:首先考察各项因素如何单独地影响老年健康自评。通过排列重要性方法得到的结果如表4所示,在表格中,越是靠近顶部的特征对结果预测影响越大,底部的特征则是影响最小的。因为是随机打乱排列进行计算,所以实际上执行了多次操作,影响大小通过均值加方差来进行表示,如果出现值为负数,说明该特征随机打乱后的预测结果反而更好,这类特征基本没有什么用,可以考虑事后删除掉。观察前十的排名,在本发明实施例中,可以看到最为重要的是生活满意度评价,该特征也是与心理健康相关度很高的表征变量。这说明了老年人的健康必须是全面的健康,心理和生理上的缺一不可。同时老年人对自己健康状况的变化的感受也十分的重要,这需要注意和老年人的交流,注意他们对自己身体状况感受的表达,这会是非常重要的健康信号。同时睡眠质量以及心态方面尤其是积极乐观的心态也占据了比较重要的位置。活动受限和急诊就医常常是老年人健康状况出问题的直接表现形式,而能否蹲下起立则是老年人虚弱程度的表现,因此他们也有较高的排名。老年人的年龄也有很重要的作用,说明健康状况可能与年龄的分布有关,需要有针对性的针对不同年龄段提供对应的健康服务。而在前20名中,还注意到老年人的身高也出现在了相对靠前的位置,通过对国内外文献关于老年人身高和健康的关系的检索,发现了国外的一些研究指出,老年人随着岁数增大,身高会出现一定萎缩,这和老年人的生理健康有着十分重要的关系,是老年人生理健康状况的重要信号。这一点是以往研究人员对该调查数据集的研究中所没有涉及到的。尤其是,这为持续跟踪老年人健康状况,提供了一种可能的简单途径,即通过关注老年人的身高的变化情况,作为老年人健康状况预警的重要信号之一。而心脏疾病和哮喘等肺部疾病则是老年慢性病中最突出的,牙齿数、能否走一千米和弯腰拾物,也是老年身体健康的重要表现,在本发明实施例中的重要性排名也相对靠前。此外省份也在前20名中,说明老年健康自评也与地域分布可能有较强关系。而在最后的排名中,出现了两个负值,意味着两个变量对于预测自评健康没有丝毫作用,其中一个是家庭收入,这似乎与大部分人的直觉不符,因为一般的大部分人认为家庭收入更高,会有更好的医疗保健,健康也应该更好。表4排列重要性解释方法计算速度快,可以快速地给出特征的全局重要性排名,反映出特征对于模型来说是否重要,但是这种影响不够直观,比如排列重要性的取值为中等时,可能意味着它只对少量预测有很大的影响,但是整体影响较少,或者对所有的预测都有中等程度的影响,也即排列重要性无法反映出每个特征具体如何影响最终的结果。因此,在本发明实例中,还引入了基于博弈论shapley值的shapleyadditiveexplanations方法,该方法的计算较为复杂,但是该方法可以具体的衡量出每个特征在每次的样本预测或者所有的样本预测中发挥的作用,提供关于特征重要性的局部洞察。同时这两种解释性方法可以互相确认,有助于增强对模型和结果的信任。本发明实施例还提供一种老年健康数据知识分析系统,上述系统包括计算机,上述计算机包括:至少一个存储单元;至少一个处理单元;其中,上述至少一个存储单元中存储有至少一条指令,上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤:s1、获取老年健康调查数据;s2、对老年健康调查数据进行预处理;s3、对预处理之后的老年健康调查数据进行集成特征选择,得到关键特征;s4、基于所述关键特征获取知识发现模型;s5、基于机器学习评价指标、解释机器学习性评价方法和上述知识发现模型,获取老年健康调查数据知识发现模型;s6、基于上述老年健康调查数据知识发现模型分析上述老年健康调查数据,得到上述老年健康调查数据中的自变量与因变量的关系。可理解的是,本发明实施例提供的上述老年健康数据知识分析系统与上述老年健康数据知识分析方法相对应,其有关内容的解释、举例、有益效果等部分可以参考老年健康数据知识分析方法中的相应内容,此处不再赘述。综上所述,与现有技术相比,具备以下有益效果:本发明实施例提出了基于集成的特征选择方法,构建知识发现模型,同时融入基于机器学习评价指标和解释机器学习性评价方法,使得老年健康调查数据知识发现模型既有机器学习评价指标又引入了解释性评价方法,能从多个维度分析老年健康调查数据中的自变量与因变量的关系,从而能准确、全面的分析出老年人健康影响因素。需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1