基于随机森林的老年人认知功能分类方法与流程

文档序号:12271953阅读:385来源:国知局
基于随机森林的老年人认知功能分类方法与流程

本发明涉及一种基于随机森林的老年人认知功能分类方法,属于生物医学技术领域。



背景技术:

近年来,我国老年人口数量与日俱增,中国已经步入了老龄化社会。老年人健康问题成为了社会医疗和保障体系的重要关注对象。人体生理机能会随着老龄化的进程而不断衰减,当生理机能衰减到一定程度时,老年人便失去了生活自理能力,此时需要大量人力和物力保证其生活,会对社会医疗和保障体系带来巨大压力。因此如何延长老年人健康生活状态,保障老年人生活自理能力,比单纯延长人体生理寿命具有更大的社会效益,是人口老龄化过程中必须要面对的关键问题。而在老年人健康生活状态中,认知功能具有重要的地位,同时影响这老年人的生理和心理健康,是保障老年人健康生活状态的重要一环。

认知功能是指人体大脑所具有的一系列高级功能,比如感知、理解、记忆和计算等,即人有意识的精神活动的统称,是保证人体健康生活状态的重要组成部分。认知功能包括了多个认知域,如计算、结构能力和语言理解等,反映了大脑功能的不同方面。认知功能衰减主要由与记忆、思维和学习等高级智能行为相关的大脑加工过程出现异常而导致,表现在认知速度减缓、记忆能力减退和反应时间变长等方面,严重影响人的正常生活。老年人在年龄增长过程中,认知功能会缓慢衰减,这属于一种正常生理现象,但这种衰减具有个体差异性,且在一定程度上会受外界环境和干预的影响,因此实现老年人认知功能好坏的分类,对老年人认知功能衰减的预防和预警具有重要意义。

目前对老年人认知功能分类方法的研究,大多采用了量表的形式。量表主要分为两类,一类是以功能检验方式为主,另一类以行为活动观测为主。在所有的量表中,简易精神状态筛查量表(MMSE)使用最为广泛,其由Folstein于1975年建立,属于以功能检验方式为主的量表,主要包括对定向力(地点与时间定向)、记忆力(短期和瞬时记忆)、语言能力等项目的考察。量表总分为30分,填表所需时长大约5至10分钟,该量表表现良好,召回率可以达到80%~90%。此外画钟测验(CDT)和7min神经认知筛查量表也属于第一类量表。其中CDT通过模仿画钟和画指定时间的钟两种方式,测试受试者的结构能力和执行能力,量表总分为16分。7min神经认知筛查量表则包括记忆、定向、语言流利性测试和画钟测试共4个方面,规定耗时为7分钟。观测人体行为活动的量表以观测被测者行为活动的方式,对其认知功能进行分类,常用量表主要是日常生活活动能力量表(ADL)。ADL量表包括躯体生活自理量表和工具性日常生活能力量表两部分,共计14项,该量表可以通过三种不同得分(单项得分、总得分或者分量表得分)对量表结果进行分析。

近年来,采用机器学习方法构建老年人认知功能分类模型也是研究的热点。Daoqiang Zhang在FDG-PET、MRI和CSF三种生物标志物的基础上,采用支持向量机(SVM)算法,构建了认知功能分类模型,该模型分类准确率最高可达93.2%。2014年,Gray针对低文化水平人群,结合了因子回归方法和逻辑回归方法,构建了一个认知功能分类工具,该工具受试者工作特征曲线下面积(AUC)和召回率分别为0.871和91.7%。

综上所述,在老年人认知功能分类方法的研究中,大多采用了量表的形式,同时机器学习算法也开始逐渐被应用。以量表为工具的分类方法,根据量表输出得分或等级对老年人认知功能进行分类,具有较高的准确率和可信度,但是量表测试项目多,使用繁琐,无法满足对老年人认知功能类别快速划分的需求。采用机器学习算法构建的老年人认知功能分类模型,多为二类分类模型(如实现对认知功能良好和较差的分类),对认知功能类别划分不够精细,不利于实现对个体有针对性干预方法的研究。



技术实现要素:

本发明的目的是解决老年人认知功能分类方法中存在不便捷、不精细的问题,提出一种基于随机森林的老年人认知功能分类方法。

本发明的设计原理为:基于MMSE量表得分及受教育程度实现对老年人认知功能类别的划分,综合不同认知功能类别在各个认知域下的得分相对比值,以及认知功能类别与不同认知域的线性相关系数,确定与认知功能类别密切相关的认知域,即关键认知域。然后采用随机森林算法构建认知功能得分回归模型,提取对老年人认知功能分类具有重要影响的非量表属性,即外联属性。基于关键认知域以及外联属性,构建随机森林分类模型,实现对老年人认知功能的分类。该发明利用易采集指标,可以实现老年人认知功能良好、一般和较差三种类别的细分。

本发明的技术方案是通过如下步骤实现的:

步骤1,分析MMSE量表得分和受教育程度属性,划分老年人认知功能类别,利用MMSE量表对认知域的划分,统计不同认知功能类别在各个认知域的得分均值,计算各个认知域下不同认知功能类别的得分相对比值,同时计算不同认知功能类别与各个认知域的线性相关系数,综合相对比值和线性相关系数,提取关键认知域,具体实现方法为:

步骤1.1,利用MMSE量表得分情况和受教育程度属性,划分老年人认知功能为良好、一般和较差三种类别。

步骤1.2,根据量表属性,统计不同认知功能类别在各个认知域的得分均值,计算不同认知功能类别在不同认知域下的得分相对比值。计算方法为:

其中,Gij为在第i个认知域中第j个认知功能类别的得分均值,i取值范围为1到9的整数,分别代表9个认知域,j取值为1、2或3,分别代表认知功能良好、一般和较差。

步骤1.3,计算认知功能总得分与不同认知域下得分的Pearson线性相关系数,计算方法为:

其中n表示样本个数,Z和Y为两维需要计算相关性的属性。

步骤1.4,综合步骤1.2所得相对比值和步骤1.3所得Pearson线性相关系数,确定与认知功能分类密切相关的关键认知域。

步骤2,以非量表属性作为自变量,采用随机森林算法构建认知功能得分回归模型,计算非量表属性对认知功能的重要性得分,综合属性重要性得分排序高低和采集难度大小选取影响老年人认知功能分类的外联属性。具体实现方法为:

步骤2.1,选取所需非量表属性和认知功能总得分属性构建数据集,依据预先选定最优参数(树的个数ntree和分裂属性个数m),构建随机森林回归模型,对模型构建中产生的第i棵回归树,用相应袋外数据计算其均方残差MSEi,i≤ntree,故一共计算求得ntree个均方残差。

步骤2.2,在袋外数据中,对第j个非量表属性随机添加噪声,构建新的袋外数据,用新建袋外数据重新计算每颗回归树的均方残差MSEij',结合步骤2.1计算所得均方残差,计算出该属性的重要性得分,计算方法为:

其中Fj为第j个属性的重要性得分,ntree为随机森林所创建树的个数。

步骤2.3,重复步骤2.2,计算所有非量表属性的重要性得分。

步骤2.4,基于步骤2.3所得的属性重要性得分,由高到低进行属性重要性排序,综合考虑属性重要性和采集难度选取外联属性。

步骤3,基于关键认知域和外联属性,采用SMOTE上采样方法平衡样本数较少的类别,在平衡后的数据集基础上,构建随机森林分类模型,实现老年人认知功能类别的细分,具体实现方法为:

步骤3.1,根据步骤1和步骤2提取的关键认知域和外联属性,重新构建数据集S。

步骤3.2,基于数据集S,采用SMOTE上采样方法,在样本数量较少的类别中,根据所需上采样倍率K,对每个原始样本选取K个最邻近样本,然后分别在原始样本与其每个最邻近样本之间随机插入人工创建的新样本,获得样本平衡后的数据集S',新样本的计算方法为:

Nij=Oi+rand(0,1)*R(Oi,Oij)

其中,Nij为第j(j≤K)个新样本,Oi为原始样本,Oij为Oi的第j个最邻近样本,rand(0,1)表示产生一个大于0小于1的随机数,R(Oi,Oij)表示该原始样本Oi到其最邻近样本Oij距离。

步骤3.3,基于数据集S',利用十折交叉验证方法得到模型构建所需最优参数,采用随机森林算法构建老年人认知功能分类模型。

有益效果

相比于量表分类方法,本发明创建的基于随机森林的老年人认知功能分类模型采用了非量表属性和量表属性相结合的属性集,这些属性易于采集,简化了模型的使用,有利于老年人认知功能类别的快速划分,可以更好地应用于老年人认知功能自评。

相比于支持向量机等机器学习方法,本发明构建的基于随机森林的老年人认知功能分类模型实现了认知功能良好、一般和较差三种类别的划分,分类更精细,有利于实现对老年人认知功能有针对性干预方法的研究。

附图说明

图1为本发明提出的老年人认知功能分类方法原理图

图2为具体实施方式中模型效果对比实验原理图

图3为具体实施方式中老年人认知功能分类方法测试效果图

具体实施方式

为了更好的说明本发明的目的和优点,下面结合附图和实施例对本发明方法的实施方式做进一步详细说明。

测试数据来自于13家位于7个不同省市医院2011~2012年的调查数据,数据一共9503条,每条数据482维,包括了医疗状况、个人基本信息、认知功能等9大方面,数据样本均为年龄大于等于60岁的老年人。

测试过程主要包括四个环节,所有环节均在同一台计算机上完成,该计算机配置为:Intel双核CPU(主频2.93GHz),4GB内存,windows7操作系统。

环节一

本环节详细说明影响老年人认知功能类别划分的关键认知域的提取。具体实施步骤如下:

步骤1.1,利用MMSE量表得分和受教育程度属性,划分老年人认知功能类别。

老年人认知功能类别划分准则见表1:

表1.老年人认知功能类别划分准则

步骤1.2,提取9维认知域得分属性及类别标签,进行数据清理后,获得包含4516条10维属性的新数据集。

步骤1.3,计算不同认知功能类别在每个认知域的得分均值,依据得分相对比值计算公式,获得不同认知功能类别在不同认知域下的得分相对比值。

不同认知域下各认知功能类别得分相对比值见表2:

表2.不同认知域下各认知功能类别得分相对比值

步骤1.4,由9维认知域得分属性求和计算认知功能总得分,根据认知功能总得分和不同认知域下得分,计算两者之间的的Pearson线性相关系数。

认知功能和认知域线性相关性分析见表3:

表3.认知功能与认知域线性相关性分析

步骤1.5,以认知功能一般与良好得分相对比值小于0.9,认知功能较差与良好得分相对比值小于0.7,以及Pearson相关系数绝对值大于0.45为标准选取构图能力、注计集以及短期记忆三个认知域作为影响老年人认知功能类别划分的关键认知域。

环节二

本环节详细说明采用随机森林回归模型实现影响老年人认知功能类别划分的外联属性的提取过程。具体实施步骤如下:

步骤2.1,从原始数据源中提取非量表属性和认知功能得分属性,筛除不完整数据和噪声数据,获得包含3477条103维属性的新数据集。

步骤2.2,基于新数据集,以认知功能得分为因变量,构建随机森林回归模型,调节模型构建过程中回归树个数ntree和分裂属性个数m,采用十折交叉验证方法计算模型均方残差值,选择模型均方残差值最小模型对应参数(ntree=480,m=21)作为最优参数。

步骤2.3,基于模型最优参数构建随机森林回归模型,对模型构建产生的每棵回归树,用其相应袋外数据计算均方残差MSEi,故一共产生480个均方残差。

步骤2.4,在袋外数据中,分别对每个属性添加噪声,构建新的袋外数据,利用构建后袋外数据测试所得均方残差MSEij',与步骤2.3所得原始均方残差MSEi,依据相应公式计算各个属性的重要性得分。

步骤2.5,基于步骤2.4所得的属性重要性得分,由高到低进行属性重要性排序,综合考虑属性重要性和采集难度,选取受教育程度、出生日期、经济水平、乘坐交通工具、居住环境、身体质量指数和理财能力,一共7维属性作为影响老年人认知功能类别划分的外联属性。

7维外联属性重要性得分见表4:

表4.7维外联属性重要性得分

环节三

本环节详细说明基于随机森林的老年人认知功能分类模型的构建过程。具体实施步骤如下:

步骤3.1,根据提取的关键认知域和外联属性一共10维属性,以及认知功能类别属性,重新构建新数据集。

步骤3.2,采用SMOTE上采样方法,在原有数据集中插入人工构造样本,将原不同类别样本数量比例从18:4.65:1,均衡为2:2:3。

步骤3.3,基于样本均衡后的数据集,采用十折交叉验证方法得到分类模型构建所需最优参数(回归树个数ntree=14和分裂属性个数m=8),进而采用随机森林算法构建老年人认知功能分类模型。

环节四

本环节通过对比实验详细说明,通过结合关键认知域和外联属性,以及SMOTE上采样方法,对老年人认知功能分类模型效果的提升。具体实施步骤如下:

步骤4.1,分别提取7个外联属性、3个关键认知域和两者结合下的10维属性构建3个数据集S1、S2和S3

步骤4.2,基于步骤4.1所得3个数据集,分别采用SMOTE上采样方法均衡化样本,构建3个新数据集S1'、S2'和S3'。

步骤4.3,将样本均衡前后一共6个数据集,分别构建分类模型,计算各个模型对不同认知功能类别的召回率,并进行对比。

模型效果对比见表5:

表5.模型效果对比

由表4可以看出,本发明的构建老年人认知功能分类模型综合测试效果最佳,说明样本均衡化处理和属性融合共同改善了模型分类性能。

本发明针对目前老年人认知功能分类方法中存在不便捷、不精细的问题,提出一种基于随机森林的老年人认知功能分类方法。通过老年人认知功能分类实验证明,本发明对不同认知功能类别均具有较高的召回率,模型所需属性个数少,易于采集,便于老年人认知功能类别的快速划分,同时模型对老年人认知功能进行三种类别的细分,有利于实现对老年人个体有针对性干预方法的研究。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1