老年人寿命预测方法、设备及计算机可读存储介质与流程

文档序号:33620737发布日期:2023-03-25 11:36阅读:71来源:国知局
老年人寿命预测方法、设备及计算机可读存储介质与流程

1.本发明涉及老年人寿命预测技术领域,尤其涉及一种老年人寿命预测方法、设备及计算机可读存储介质。


背景技术:

2.多项研究证据表明许多人口统计学资料因素、生活方式、功能状况、疾病和生理因素与寿命有关,而大多数研究均以死亡率或者相关疾病的发病率为研究结局,较少关注研究死亡寿命,故对于个人健康老年人寿命预测的研究相对较少。
3.此外,传统的老年人寿命预测研究,常常使用难以测量的遗传数据和表观遗传数据进行老年人寿命预测,其预测成本高、操作复杂,不适合大规模推广。


技术实现要素:

4.本技术实施例通过提供一种老年人寿命预测方法,旨在提供一种能够低成本且简单实现老年人寿命预测的方式。
5.为实现上述目的,本技术实施例提供了一种老年人寿命预测方法,包括:
6.从历史寿命研究资料获取与寿命相关的人口统计学资料、生理健康资料及日常生活方式构成基础变量;
7.从所述基础变量中筛选出影响寿命的关键变量;
8.根据所述关键变量构建并训练回归模型;
9.根据训练完成的回归模型建立老年人寿命预测工具;
10.基于所述老年人寿命预测工具进行老年人寿命预测。
11.在一实施例中,从所述基础变量中筛选出影响寿命的关键变量,包括:
12.根据lasso回归算法所述基础变量中筛选出影响寿命的关键变量,这其中,取距离最小均方误差一个标准误的值作为变量筛选所需的λ值。
13.在一实施例中,根据所述关键变量构建并训练回归模型,包括:
14.根据所述关键变量构建并训练多元线性回归模型,以得到老年人寿命预测所需的目标多元线性回归模型。
15.在一实施例中,根据所述关键变量构建并训练多元线性回归模型,以得到老年人寿命预测所需的目标多元线性回归模型,包括:
16.根据所述关键变量构建第一多元线性回归方程;
17.根据所述关键变量的关联数据拟合第一多元线性回归方程;
18.根据第一多元线性回归方程拟合后的各个关键变量的显著性,从所述关键变量中筛选出显著影响寿命的有效变量;
19.根据所述有效变量构建第二多元线性回归方程;
20.根据所述有效变量的关联数据拟合第二多元线性回归方程,得到所需的目标多元线性回归模型。
21.在一实施例中,有效变量包括连续数值型变量和分组变量,其中,
22.所述连续数值型变量包括以下变量:
23.年龄、心理健康评分、简易精神状态量表评分、日常生活自理能力评分;
24.所述分组变量包括以下变量:
25.性别、民族、居住地、婚姻状况、吸烟情况、饮酒情况、锻炼情况、做家务情况、从事园艺活动情况、打牌或打麻将情况、饲养家畜情况、看电视或听广播情况、自评健康状况、糖尿病、心脏病、呼吸系统疾病、癌症;
26.这其中,每一所述分组变量包括至少一个参考变量和至少一个哑变量。
27.在一实施例中,所述第二多元线性回归方程的表达式如下:
28.预期寿命=14.236+0.880*年龄+0.573*女性+0.282*少数民族+0.116*农村+0.336*已婚-0.149*现在吸烟-0.206*曾经吸烟+0.074*现在饮酒-0.181*曾经饮酒+0.219*现在锻炼+0.010*曾经锻炼+0.260*偶尔做家务+0.249*经常做家务+0.313*偶尔从事园艺活动+0.281*经常从事园艺活动+0.109*偶尔打牌或打麻将+0.422*经常打牌或打麻将+0.167*偶尔饲养家畜+0.572*经常饲养家畜+0.016*偶尔看电视或听广播+0.153*经常看电视或听广播+0.249*自评健康状况非常好+0.207*自评健康状况良好-0.182*自评健康状况差-0.247*自评健康状况非常差+0.021*心理健康评分+0.022*简易精神状态量表评分-0.119*日常生活自理能力评分-0.907*患糖尿病-0.213*患心脏病-0.177*患呼吸系统疾病-1.063*患癌症。
29.在一实施例中,所述老年人寿命预测方法还包括:
30.通过bootstrap重新采样评估模型性能。
31.在一实施例中,所述老年人寿命预测工具包括变量输入模块和预期寿命输出模块,其中,所述预期寿命输出模块通过图形和文本中至少一者输出寿命预测结果,所述寿命预测结果包括预期寿命上限及预期寿命下限。
32.为实现上述目的,本技术实施例还提出一种老年人寿命预测设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的老年人寿命预测程序,所述处理器执行所述老年人寿命预测程序时实现如上述任一项所述的老年人寿命预测方法。
33.为实现上述目的,本技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有老年人寿命预测程序,所述老年人寿命预测程序被处理器执行时实现如上述任一项所述的老年人寿命预测方法。
34.本技术技术方案的老年人寿命预测方法,通过从历史寿命研究资料中获取与寿命关联的人口统计学资料、生理健康资料和日常生活方式作为变量以构建回归模型,再基于该回归模型建立老年人寿命预测工具以进行老年人寿命预测,如此,根据这些容易获取的人口统计学资料、生理健康资料及日常生活方式作为特征便可进行相对准确的老年人寿命预测。相较于传统的采用遗传及表观遗传因素进行老年人寿命预测的方法而言,本技术的老年人寿命预测方法能够更为简单和经济地实现老年人个体的寿命预测。并且,本技术的方案还能够提供针对性建议改善个人的生活方式,以使其获得更健康的生活方式,延长个人健康寿命。此外,通过筛选出的关键变量,使得预测的结果能够更好地反映个体的实际情况,使得预测结果更加准确。
附图说明
35.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
36.图1为本发明老年人寿命预测设备一实施例的模块结构图;
37.图2为本发明老年人寿命预测方法一实施例的流程示意图;
38.图3为本发明老年人寿命预测方法另一实施例的流程示意图。
39.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
40.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
41.为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
42.应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。文中出现的“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的数量词
ꢀ“
一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。而“第一”、“第二”、以及“第三”等的使用不表示任何顺序,可将这些词解释为名称。
43.如图1所示,图1是本发明实施例方案涉及的硬件运行环境的服务器1(又叫老年人寿命预测设备)结构示意图。
44.本发明实施例服务器,如“物联网设备”、带联网功能的智能空调、智能电灯、智能电源,带联网功能的ar/vr设备,智能音箱、自动驾驶汽车、pc,智能手机、平板电脑、电子书阅读器、便携计算机等具有显示功能的设备。
45.如图1所示,所述服务器1包括:存储器11、处理器12及网络接口13。
46.其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是服务器1的内部存储单元,例如该服务器1的硬盘。存储器11在另一些实施例中也可以是服务器1的外部存储设备,例如该服务器1上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。
47.进一步地,存储器11还可以包括服务器1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于服务器1的应用软件及各类数据,例如老年人寿命预测程序10的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
48.处理器12在一些实施例中可以是一中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序
代码或处理数据,例如执行老年人寿命预测程序10等。
49.网络接口13可选的可以包括标准的有线接口、无线接口(如wi-fi接口),通常用于在该服务器1与其他电子设备之间建立通信连接。
50.网络可以为互联网、云网络、无线保真(wi-fi)网络、个人网(pan)、局域网(lan)和/或城域网(man)。网络环境中的各种设备可以被配置为根据各种有线和无线通信协议连接到通信网络。这样的有线和无线通信协议的例子可以包括但不限于以下中的至少一个:传输控制协议和互联网协议(tcp/ip)、用户数据报协议(udp)、超文本传输协议(http)、文件传输协议(ftp)、zigbee、edge、ieee 802.11、光保真(li-fi)、802.16、ieee 802.11s、ieee 802.11g、多跳通信、无线接入点(ap)、设备对设备通信、蜂窝通信协议和/或蓝牙(blue tooth)通信协议或其组合。
51.可选地,该服务器还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以称为显示屏或显示单元,用于显示在服务器1中处理的信息以及用于显示可视化的用户界面。
52.图1仅示出了具有组件11-13以及老年人寿命预测程序10的服务器1,本领域技术人员可以理解的是,图1示出的结构并不构成对服务器1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
53.在本实施例中,处理器12可以用于调用存储器11中存储的老年人寿命预测程序,并执行以下操作:
54.从历史寿命研究资料获取与寿命相关的人口统计学资料、生理健康资料及日常生活方式构成基础变量;
55.从所述基础变量中筛选出影响寿命的关键变量;
56.根据所述关键变量构建并训练回归模型;
57.根据训练完成的回归模型建立老年人寿命预测工具;
58.基于所述老年人寿命预测工具进行老年人寿命预测。
59.在一实施例中,处理器12可以用于调用存储器11中存储的老年人寿命预测程序,并执行以下操作:
60.从所述基础变量中筛选出影响寿命的关键变量,包括:
61.根据lasso回归算法所述基础变量中筛选出影响寿命的关键变量,这其中,取距离最小均方误差一个标准误的值作为变量筛选所需的λ值。
62.在一实施例中,处理器12可以用于调用存储器11中存储的老年人寿命预测程序,并执行以下操作:
63.根据所述关键变量构建并训练回归模型,包括:
64.根据所述关键变量构建并训练多元线性回归模型,以得到老年人寿命预测所需的目标多元线性回归模型。
65.在一实施例中,处理器12可以用于调用存储器11中存储的老年人寿命预测程序,并执行以下操作:
66.根据所述关键变量构建并训练多元线性回归模型,以得到老年人寿命预测所需的
目标多元线性回归模型,包括:
67.根据所述关键变量构建第一多元线性回归方程;
68.根据所述关键变量的关联数据拟合第一多元线性回归方程;
69.根据第一多元线性回归方程拟合后的各个关键变量的显著性,从所述关键变量中筛选出显著影响寿命的有效变量;
70.根据所述有效变量构建第二多元线性回归方程;
71.根据所述有效变量的关联数据拟合第二多元线性回归方程,得到所需的目标多元线性回归模型
72.在一实施例中,处理器12可以用于调用存储器11中存储的老年人寿命预测程序,并执行以下操作:
73.有效变量包括连续数值型变量和分组变量,其中,
74.所述连续数值型变量包括以下变量:
75.年龄、心理健康评分、简易精神状态量表评分、日常生活自理能力评分;
76.所述分组变量包括以下变量:
77.性别、民族、居住地、婚姻状况、吸烟情况、饮酒情况、锻炼情况、做家务情况、从事园艺活动情况、打牌或打麻将情况、饲养家畜情况、看电视或听广播情况、自评健康状况、糖尿病、心脏病、呼吸系统疾病、癌症;
78.这其中,每一所述分组变量包括至少一个参考变量和至少一个哑变量。
79.在一实施例中,处理器12可以用于调用存储器11中存储的老年人寿命预测程序,并执行以下操作:
80.所述第二多元线性回归方程的表达式如下:
81.预期寿命=14.236+0.880*年龄+0.573*女性+0.282*少数民族+0.116*农村+0.336*已婚-0.149*现在吸烟-0.206*曾经吸烟+0.074*现在饮酒-0.181*曾经饮酒+0.219*现在锻炼+0.010*曾经锻炼+0.260*偶尔做家务+0.249*经常做家务+0.313*偶尔从事园艺活动+0.281*经常从事园艺活动+0.109*偶尔打牌或打麻将+0.422*经常打牌或打麻将+0.167*偶尔饲养家畜+0.572*经常饲养家畜+0.016*偶尔看电视或听广播+0.153*经常看电视或听广播+0.249*自评健康状况非常好+0.207*自评健康状况良好-0.182*自评健康状况差-0.247*自评健康状况非常差+0.021*心理健康评分+0.022*简易精神状态量表评分-0.119*日常生活自理能力评分-0.907*患糖尿病-0.213*患心脏病-0.177*患呼吸系统疾病-1.063*患癌症。
82.在一实施例中,处理器12可以用于调用存储器11中存储的老年人寿命预测程序,并执行以下操作:
83.所述老年人寿命预测方法还包括:
84.通过bootstrap重新采样评估模型性能。
85.在一实施例中,处理器12可以用于调用存储器11中存储的老年人寿命预测程序,并执行以下操作:
86.所述老年人寿命预测工具包括变量输入模块和预期寿命输出模块,其中,所述预期寿命输出模块通过图形和文本中至少一者输出寿命预测结果,所述寿命预测结果包括预期寿命上限及预期寿命下限。
87.基于上述老年人寿命预测设备的硬件构架,提出本发明老年人寿命预测方法的实施例。本发明的老年人寿命预测方法,旨在提供一种能够低成本且简单实现老年人寿命预测的方式。
88.参照图2,图2为本发明老年人寿命预测方法的一实施例,所述老年人寿命预测方法包括以下步骤:
89.s10、从历史寿命研究资料获取与寿命相关的人口统计学资料、生理健康资料及日常生活方式构成基础变量。
90.其中,历史寿命研究资料指的是与老年人寿命研究的相关既往研究资料、论文、文献、调查问卷等过去的研究或调查中获得的数据资料,如全国多中心的中国老年健康影响因素跟踪调查 (clhls) 数据(例如lv yb, gao x, yin zx, et al. revisiting the association of blood pressure with mortality in oldest old people in china: community based, longitudinal prospective study、gu d, feng q, zeng y. chinese longitudinal healthy longevity study. in: pachana na, ed. encyclopedia of geropsychology. springer singapore、yi z. introduction to the chinese longitudinal healthy longevity survey (clhls). in: yi z, poston dl, vlosky da, gu d, eds. healthy longevity in china. vol 20. demographic methods and population analysis. springer netherlands等)。通过获取这些与老年人寿命相关的研究数据,我们能够从中得到与老年人寿命的相关因素,以使所得到模型能够更为准确地进行老年人寿命的预测。值得补充的是,在一些研究中,我们可以将65岁及以上的人群限定为老年人。
91.进一步地,与寿命相关的人口统计学资料是指对寿命有影响的人口统计学特征,如年龄、性别、民族、居住地等。
92.与寿命相关的生理健康资料则是指bmi(身体质量指数)、血压、疾病状态等与寿命相关联的生理特征。
93.与寿命相关的日常生活方式因素是指与一个人的日常生活和行为有关的因素,如饮食习惯、锻炼习惯、做家务情况、睡眠质量、吸烟状况等。
94.可以理解,日常生活方式可以影响一个人的健康状况,从而对寿命产生影响,因此对于老年人寿命预测,我们需要关注这些与寿命相关的日常生活方式,通过研究这些日常生活方式与人的寿命的潜在关联,使得我们在进行老年人寿命预测时,可以依靠这些日常生活方式以进行相对更为准确的老年人寿命预测。
95.具体地,从历史寿命研究资料获取与寿命相关的人口统计学资料、生理健康资料及日常生活方式构成基础变量大体包括以下步骤:
96.1、数据收集:获得与寿命相关的研究资料、文献、调查问卷等。
97.2、数据清理:收集到的数据可能存在缺失值、异常值等,需要进行数据清理,以保证数据的准确性和完整性。
98.3、变量提取:从历史研究数据中提取与寿命相关的人口统计学资料、生理健康资料及日常生活方式构成基础变量。这里的基础变量是指根据历史研究资料所初步判定的能够对寿命造成影响的变量:
99.示例性的,这些基础变量包括以下变量:
100.年龄、性别、民族、居住地、婚姻状况、居住情况、受教育时间、吸烟情况、饮酒情况、锻炼情况、膳食多样性评分、蔬菜摄入情况、水果摄入情况、肉类摄入情况、鸡蛋摄入情况、鱼类摄入情况、大蒜摄入情况、饮茶情况、豆类以及制品摄入情况、咸菜摄入情况、咀嚼能力、自评健康状况、心理健康评分、做家务情况、从事园艺活动情况、读书或看报情况、饲养家畜情况、打牌或打麻将情况、看电视或听广播情况、mmse(简易精神状态量表)评分、adl(日常生活自理能力)评分、收缩压、舒张压、脉压差、平均动脉压、糖尿病、心脏病、肺结核、白内障、呼吸系统疾病、脑血管疾病、青光眼、癌症、前列腺肿瘤、消化系统疾病、肾病、褥疮、手触颈后、手触后背、bmi。
101.值得说明的是,我们所得到的基础变量不仅包括变量名,还包括变量所关联的数据,如寿命这一变量所关联的是连续数据值型数据、婚姻状况所关联的数据是已婚、未婚、离异或丧偶等分类数据。
102.s20、从所述基础变量中筛选出影响寿命的关键变量。
103.其中,影响寿命的关键变量是指对寿命具有重要影响的变量。
104.具体来说,为了能够进一步地提升数据质量,并为了提高模型的训练速度及模型对老年人寿命预测的准确率,我们需要对基础变量做二次筛选,以获取与寿命关联更为紧密的变量,即关键变量。
105.示例性的,我们可以采用以下几种方法从基础变量中获取关联变量:
106.1、统计学分析:例如单变量分析、相关分析、多元回归分析等。
107.2、数据挖掘:使用机器学习算法,如决策树、随机森林等,对历史寿命研究资料进行分析,筛选出对寿命产生影响的关键变量。
108.3、专家评估:邀请相关领域的专家,通过对基础变量的专业评估,筛选出对寿命产生影响的关键变量。
109.值得说明的是,以上这些方法只是本技术技术方案所提供的示例性方案,其他可以被本领域技术人员所采用的变量筛选方案也在本技术技术方案的保护范围之内。
110.s30、根据所述关键变量构建并训练回归模型。
111.其中,回归模型是统计学中一种用于预测数值型变量的方法,其基本思想是根据一组特征变量与被预测变量之间的关系,建立一个函数来预测被预测变量的值。
112.常见的回归模型有线性回归、多项式回归、决策树回归、随机森林回归、支持向量回归等。
113.具体地,可以根据关键变量与寿命之间的关联关系,选择合适的回归模型,将关键变量作为输入变量、寿命作为输出变量以构建回归模型。在回归模型构建完成后,便可以根据关键变量关联数据以训练回归模型(使回归方程拟合),以确定各个关联变量的系数。
114.值得补充的是,为了提供模型的训练速度及训练完成的模型质量,我们可以对关联变量关联数据进行预处理,如进行数据清洗、数据转换和数据标准化等步骤。
115.s40、根据训练完成的回归模型建立老年人寿命预测工具。
116.具体地,在得到符合期望的回归模型后,我们可以将回归模型的方程和参数整合到一个预测工具中,以实现老年人寿命预测功能。
117.可选择地,所建立的老年人寿命预测工具可以通过网页应用、手机app、小程序、计算机程序等方式呈现。
118.s50、基于所述老年人寿命预测工具进行老年人寿命预测。
119.具体地,在得到老年人寿命预测工具后,用户便可基于该老年人寿命预测工具进行老年人寿命预测。在实际进行老年人寿命预测时,需要用户在老年人寿命预测工具输入自身与关键变量相关的数据,在得到相关数据后,老年人寿命预测工具便可输出用户的寿命预测结果,该预测结果包括预测的寿命年龄和可能的寿命分布(预测寿命的上限及下限)。
120.在一些实施例中,所述老年人寿命预测工具包括变量输入模块和预期寿命输出模块,其中,所述预期寿命输出模块通过图形的方式输出寿命预测结果,所述寿命预测结果包括预期寿命、预期寿命上限及预期寿命下限。
121.具体地,变量输入模块提供了一个输入界面,用户可以通过该模块输入各个关键变量的值,从而完成老年人寿命预测的前期准备。
122.预期寿命输出模块则通过图形和文本中的至少一种输出预测结果,预测结果包括预期寿命、预期寿命上限和预期寿命下限。
123.可选择地,在一些实施例中的预期寿命输出模块同时通过图形和文本的方式输出寿命预测结果,其中,文本包括但不限于数值文本、文字文本,图形包括但不限于为柱状图。可以理解,通过图形和文本的方式输出寿命预测结果,可以方便地显示预测结果的结论和可靠性。当然,在其他实施例中,本技术的老年人寿命预测工具也可通过图形和文本中的一者输出寿命预测结果。
124.可以理解,本技术技术方案的老年人寿命预测方法,通过从历史寿命研究资料中获取与寿命关联的人口统计学资料、生理健康资料和日常生活方式作为变量以构建回归模型,再基于该回归模型建立老年人寿命预测工具以进行老年人寿命预测,如此,根据这些容易获取的人口统计学资料、生理健康资料及日常生活方式作为特征便可进行相对准确的老年人寿命预测。相较于传统的采用遗传及表观遗传因素进行老年人寿命预测的方法而言,本技术的老年人寿命预测方法能够更为简单和经济地实现老年人个体的寿命预测。并且,本技术的方案还能够提供针对性建议改善个人的生活方式,以使其获得更健康的生活方式,延长个人健康寿命。此外,通过筛选出的关键变量,使得预测的结果能够更好地反映个体的实际情况,使得预测结果更加准确。
125.在一些实施例中,从所述基础变量中筛选出影响寿命的关键变量,包括:
126.根据lasso回归算法所述基础变量中筛选出影响寿命的关键变量,这其中,取距离最小均方误差一个标准误的值作为变量筛选所需的λ值。
127.其中,lasso回归算法是一种线性回归算法,它通过在损失函数中添加l1正则项来缩小不重要的变量的系数,使不重要的特征的系数接近于零,从而筛选出关键变量。
128.具体地,使用lasso回归算法筛选关键变量的步骤如下:
129.1、准备好基础变量的数据;
130.2、构建损失函数,并在损失函数中加入l1正则项;
131.3、通过最小化损失函数的值来求解系数;
132.4、根据系数的绝对值进行排序,系数绝对值较小的变量将被缩小,并可以被删除;
133.5、使用距离最小均方误差一个标准误的值作为λ值,筛选出系数绝对值大于该λ值的变量,这些变量将被视为影响寿命的关键变量。
134.通过使用lasso回归算法,可以精确地筛选出影响寿命的关键变量,更好地掌控老年人寿命预测的结果。
135.值得说明的是,距离最小均方误差一个标准误的值指的是使用回归模型估计数据时产生的误差的标准差的大小。均方误差是一个衡量回归模型拟合数据的好坏的指标,其值越小,说明回归模型的拟合效果越好。而标准误则表示误差的大小,因此,距离最小均方误差一个标准误的值表示使用该回归模型预测数据时产生的误差的大小。
136.应该理解的是,采用距离最小均方误差一个标准误的值作为λ值可以在保证预测精度的前提下对变量进行筛选。通过对误差与模型复杂度之间的平衡,可以避免因为模型过于复杂而造成的过拟合,同时又可以避免因为模型过于简单而造成的欠拟合。最终确定的关键变量更具有预测价值,使模型预测效果更为准确。
137.示例性的,在经过lasso算法筛选后,所得到基础变量如下:
138.年龄、性别(男;女)、民族(汉族;少数民族)、居住地(城市;农村)、婚姻状况(未婚、离异或丧偶;已婚)、吸烟情况(从不吸烟;现在吸烟;曾经吸烟)、饮酒情况(从不饮酒;现在饮酒;曾经饮酒)、锻炼情况(从不锻炼;现在锻炼;曾经锻炼)、做家务情况(很少或从不;偶尔;经常)、从事园艺活动情况(很少或从不;偶尔;经常)、打牌或打麻将情况(很少或从不;偶尔;经常)、饲养家畜情况(很少或从不;偶尔;经常)、看电视或听广播情况(很少或从不;偶尔;经常)、自评健康状况(非常好;良好;一般;差;非常差)、心理健康评分、mmse评分、adl评分、糖尿病(否;是)、心脏病(否;是)、呼吸系统疾病(否;是)、癌症(否;是)。其中,年龄、心理健康评分、mmse评分、adl评分等是连续数值型变量,性别、民族等是分组变量,每个分组变量的分组如括号中所示。
139.在一些实施例中,根据所述关键变量构建并训练回归模型,包括:
140.根据所述关键变量构建并训练多元线性回归模型,以得到老年人寿命预测所需的目标多元线性回归模型。
141.其中,多元线性回归模型是一种常用的回归分析方法,它假设多个自变量与因变量之间存在线性关系,通过回归系数确定这种关系。
142.值得说明的是,相较于其他回归模型,多元线性回归模型在老年人寿命预测上的优势主要在于:
143.1、能够处理多个自变量的影响:多元线性回归模型可以同时考虑多个因素对寿命的影响,进而更精确地预测寿命。
144.2、模型简单易于理解:多元线性回归模型的基本原理是建立因变量与多个自变量的线性关系,这一点容易理解。
145.3、数据处理方便:多元线性回归模型能够处理离散型数据以及连续型数据,不需要对数据进行复杂的预处理。
146.4、模型效果较好:在数据较为充分的情况下,多元线性回归模型的效果通常较为良好,具有相对准确的寿命预测结果。
147.如图3所示,在一些实施例中,根据所述关键变量构建并训练多元线性回归模型,以得到老年人寿命预测所需的目标多元线性回归模型包括以下步骤:
148.s110、根据所述关键变量构建第一多元线性回归方程。
149.具体地,多元线性回归方程的表达式如下:
150.y =β0 +β1x1 +β2x2+

+βkxk,
151.其中,y是因变量即寿命,xi(i = 1,2,

k)是自变量,即关键变量,βi(i = 0,1,2,

k)是回归系数。
152.具体地,可以根据上述表达式及所得到的关键变量构建第一多元线性回归方程。
153.s120、根据所述关键变量的关联数据拟合第一多元线性回归方程。
154.示例性的,关键变量的关联数据如下:年龄:70;性别:男/女;民族:汉族/少数民族等。
155.具体地,可以将关键变量及其关联数据导入统计分析软件(如r语言、sas等)中,以拟合第一多元线性回归方程。或是通过最小二乘法、梯度下降法等数学方法对方程进行求解,以拟合第一多元线性回归方程。
156.s130、根据第一多元线性回归方程拟合后的各个关键变量的显著性,从所述关键变量中筛选出显著影响寿命的有效变量。
157.具体来说,可以通过计算每个关键变量的t值或者p值可以评估其显著性。其中,t值是用来评估回归系数与其真实值之间的差距的。t值越大,说明回归系数与其真实值的差距越大,说明该关键变量对寿命预测结果的影响程度越大。
158.p值是用来评估关键变量是否具有统计显著性的。p值越小,说明关键变量的影响程度越大,越具有统计显著性,也就是说该关键变量对寿命预测结果有越重要的影响。通常,对于p值需要设定一个阈值,若关键变量的p值小于该阈值(通常为0.05),则认为该关键变量具有显著性,反之则不具有显著性。
159.最终,通过对比各个关键变量的t值或p值,可以筛选出显著影响寿命的有效变量,从而得到更精确的多元线性回归模型。
160.s140、根据所述有效变量构建第二多元线性回归方程。
161.具体地,在确定了有效变量后,可基于与第一多元线性回归方程基本相同的方式构建多元线性回归方程,以得到第二多元线性回归方程。可以理解,相较于第一多元线性回归方程,该第二多元线性回归方程能够更准确地进行老年人寿命预测。
162.s150、根据所述有效变量的关联数据拟合第二多元线性回归方程,得到所需的目标多元线性回归模型。
163.具体地,可将有效变量的关联数据导入统计分析软件,以拟合第二多元线性回归方程。在拟合的过程中,软件会使用最小二乘法等方法对多元线性回归方程进行调整,以使预测值与实际数据尽可能地接近。最终,拟合出的第二多元线性回归方程就是所需的目标多元线性回归模型。
164.可以理解,通过上述方案能够得到更为精确地多元线性回归模型,从而能够更为准确的进行老年人寿命预测。
165.可选择地,经过筛选后地有效变量包括连续数值型变量和分组变量,其中,连续数值型变量包括以下变量:年龄、心理健康评分、简易精神状态量表评分、日常生活自理能力评分;
166.分组变量包括以下变量:
167.性别(男;女)、民族(汉族;少数民族)、居住地(城市;农村)、婚姻状况(未婚、离异或丧偶;已婚)、吸烟情况(从不吸烟;现在吸烟;曾经吸烟)、饮酒情况(从不饮酒;现在饮酒;
曾经饮酒)、锻炼情况(从不锻炼;现在锻炼;曾经锻炼)、做家务情况(很少或从不;偶尔;经常)、从事园艺活动情况(很少或从不;偶尔;经常)、打牌或打麻将情况(很少或从不;偶尔;经常)、饲养家畜情况(很少或从不;偶尔;经常)、看电视或听广播情况(很少或从不;偶尔;经常)、自评健康状况(非常好;良好;一般;差;非常差)、糖尿病(否;是)、心脏病(否;是)、呼吸系统疾病(否;是)、癌症(否;是);这其中,每一分组变量包括至少一个参考变量和至少一个哑变量。
168.值得说明的是,在分组变量的情况下,每一分组通常会有一个参考变量和至少一个哑变量。参考变量代表该分组的基准类别,哑变量则表示该分组与其他类别的相对位置。通过使用参考变量和哑变量,多元线性回归模型可以对分组变量进行合理的比较和分析。
169.在一些实施例中,第二多元线性回归方程的表达式如下:
170.预期寿命=14.236+0.880*年龄+0.573*女性+0.282*少数民族+0.116*农村+0.336*已婚-0.149*现在吸烟-0.206*曾经吸烟+0.074*现在饮酒-0.181*曾经饮酒+0.219*现在锻炼+0.010*曾经锻炼+0.260*偶尔做家务+0.249*经常做家务+0.313*偶尔从事园艺活动+0.281*经常从事园艺活动+0.109*偶尔打牌或打麻将+0.422*经常打牌或打麻将+0.167*偶尔饲养家畜+0.572*经常饲养家畜+0.016*偶尔看电视或听广播+0.153*经常看电视或听广播+0.249*自评健康状况非常好+0.207*自评健康状况良好-0.182*自评健康状况差-0.247*自评健康状况非常差+0.021*心理健康评分+0.022*简易精神状态量表评分-0.119*日常生活自理能力评分-0.907*患糖尿病-0.213*患心脏病-0.177*患呼吸系统疾病-1.063*患癌症。
171.可以理解,上述第二多元线性回归方程的表达式即是所需的目标多元线性回归模型。在进行老年人寿命预测时,老年人寿命预测工具能够根据上述表达式预测用户寿命。
172.值得补充的是,在上述表达式中未出现的变量(一般为分组变量中的参考变量),默认其自变量系数为0,即无法对寿命造成正向或负向的影响,故而在进行老年人寿命预测时,老年人寿命预测工具不会计算未出现变量的得分。
173.在一些实施例中,所述老年人寿命预测方法还包括:通过bootstrap重新采样评估模型性能。
174.其中,bootstrap 重新采样是一种统计方法,用于评估评价模型性能的稳健性。它通过在原始数据的基础上进行多次随机采样,并对于每个采样数据重新构建评价模型,来评估该模型的性能。通过进行多次随机采样,bootstrap 重新采样可以评估评价模型的稳健性和可靠性。如果评价模型的统计量在不同的采样数据中具有高的稳定性,那么可以说该模型的性能是稳健的。
175.具体而言,bootstrap 重新采样通过以下步骤进行:
176.1、从原始数据集中进行随机采样,并且在每一次采样中可能会重复选择一些数据。
177.2、对于每个采样数据,使用评价模型进行拟合。
178.3、计算每个评价模型的统计量,例如,r
2 (r-square)、均方根误差(root mean square error, rmse),平均绝对误差(mean absolute error, mae)、组内相关系数(intra-class correlation coefficient, icc)等。
179.示例性的,在一些实施例中,在经过1000次 bootstrap 重新采样后,模型的r2为
0.893、均方根误差为2.86(95%ci 2.84-2.88)年、平均绝对误差为2.18 (95%ci 2.16-2.20) 年。实测和预测寿命之间的组内相关系数为0.971(95%ci 0.971-0.971)。
180.值得补充的是,如果模型效果不够理想,可以通过修正模型参数或更换模型类型等方式来提高模型效果。
181.此外,本发明实施例还提出一种计算机可读存储介质,计算机可读存储介质可以是硬盘、多媒体卡、sd卡、闪存卡、smc、只读存储器(rom)、可擦除可编程只读存储器(eprom)、便携式紧致盘只读存储器(cd-rom)、usb存储器等中的任意一种或者几种的任意组合。计算机可读存储介质中包括老年人寿命预测程序10,本发明之计算机可读存储介质的具体实施方式与上述老年人寿命预测方法以及服务器1的具体实施方式大致相同,在此不再赘述。
182.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
183.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
184.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
185.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
186.尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
187.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1