一种基于Cox回归模型的老人健康数据分析方法

文档序号:9911469阅读:755来源:国知局
一种基于Cox回归模型的老人健康数据分析方法
【技术领域】
[0001] 本发明属于大数据分析技术领域,涉及一种基于Cox回归模型的老人健康数据分 析方法。
【背景技术】
[0002] 智能养老也称之为"智能居家养老(Smart home care)",是新近流行的一种养老 概念。最早由英国生命信托基金会最早提出,被统称为全智能化老年系统,该养老模式能让 老人在日常生活中不受时间和地理环境的束缚,在老年福利院、老年公寓、敬老院、老年康 复中心、酒店式养老公寓及大型养老社区等养老机构过上高质量高享受的生活。
[0003] 老人健康数据分析是"智能养老"的一个重要环节。它的主要内容是健康风险评 估,是老年人疾病预防的第一步。该研究通过收集到老人健康数据,分析老年人生活方式、 环境、遗传等危险因素与疾病之间的量化关系并建立模型,根据模型预测老人在一定时间 内发生某种特定疾病或因该疾病死亡的概率。不同方法建立的风险评估模型从预测准确性 (accuracy)、模型拟合度(goodness of fit)、可靠性(reliability)三个方面进行效果评 价和比较。
[0004] 当前对健康数据的分析基本上都是基于对研究对象的身高、体重、肺活量、身体素 质、营养状况、血压、血糖等方面进行检查测量然后对获得的数据进行分析,再配合走访、问 卷调查法等方法从获得的数据中分析出存在的问题并提出相应的一些对策。这种研究方法 只能用于发现现有问题,而不能对研究群体的健康状况进行预测,而且这种传统的研究方 法涉及走访研究和调查问卷,具有研究周期相对较长,工作量较大等缺点,不能很好的满足 现代社会快速的生活节奏的要求。

【发明内容】

[0005] 本发明的目的是为了克服上述问题,提出一种实现了对群体数据的分析来预测个 体健康状况的基于Cox回归模型的老人健康数据分析方法。
[0006] 本发明的技术方案为:一种基于Cox回归模型的老人健康数据分析方法,其特征在 于,设定Cox回归模型为:
[0007] h(t,X) =h〇(t)exp(Pixi+^2X2+. . ·+βηΧη)
[0008] 其中,Χ= (χι,Χ2, . . . ,xn) '是η维向量,它表示一个个体的η个变量的观测值,代表 风险函数的η个协变量,是研究影响老人健康状况的η个因素;h (t,X)表示具有协向量X在时 亥Ijt的风险率函数,hQ(t)表示t时刻的基准风险率函数,即t时刻协变量X的取值为0时的风 险率函数,可以看出h Q(t)仅与时间有关表示相应协变量&回归系数,β为回归系数向量;
[0009] 设定Cox回归模型对应的生存函数为:
[0010] S(t;X)=S〇(t)exp(x,i!)
[0011] 其中,SQ(t)是t时刻的平均生存函数,即在危险因素处在平均水平时的生存函数。
[0012] 分析方法包括以下步骤:
[0013] a.收集多个老人的健康数据作为样本,估算出危险因子的回归系数,所述危险因 子为影响老人健康的因素;
[0014] b.根据步骤a中获得的回归系数估计值,分析危险因子的相对危险系数RR;
[0015] c.根据步骤b中获得的相对危险系数,获取与老人健康数据相关联的危险因子的 集合;
[0016] d.使用Cox生存函数对个体老人的发病率进行预测。
[0017] 进一步的,步骤a具体包括以下步骤:
[0018] al.假设由η个老人组成样本,则需要从观测时间开始,在时刻t得到k个不同的健 康时间段统计值和η-k个不同的删失数据,所述删失数据为在观测时间段内退出的个体;将 得到的k个不同的观测值表示为:ti<t2< . . . <tk;设Ri = {j: tj 2 ti}表示ti时刻的风险集, 其含义为在t时刻之前没有发生老人生病且没有出现删失的个体;
[0019] a2.采用似然函数
[0020]
[0021] 通过上述的似然函数,可以求出回归系数&的估计值。
[0022] 但是根据研究的特殊情况,由于统计量的原因,连续变量的数据经常存在许多结, 即是得到的统计数据存在相同值的统计量的情况。若结点很多,则应该考虑离散模型。若结 点相对较少,我们可以将式子做些简化,并将这些结点考虑进去。于是我们用以下式子将结 打开,从而优化似然函数为:
[0023] 进一步的,步骤a具体包括以下步骤:
[0024] al.假设由η个老人组成样本,则需要从观测时间开始,在时刻t得到k个不同的健 康时间段统计值和η-k个不同的删失数据,所述删失数据为在观测时间段内退出的个体;将 得到的k个不同的观测值表示为:ti<t2< . . . <tk;设Ri = {j: tj 2 ti}表示ti时刻的风险集, 其含义为在t时刻之前没有发生老人生病且没有出现删失的个体;
[0025] a2.采用似然函数
[0026]
[0027]求出回归系数邮]估计值;其中,k为得到的k观测值;cU为老人的健康时间等于^的 个数;令Di表示ti时刻老人发生疾病的人数的集合;S⑴为di个样本个体的变量总和,即 %:.〕= Σ 4。
[0028]进一步的,所述步骤b的具体方法为:
[0029] bl.通过公式:
[0030] RR = exp(P)
[0031] 获得危险因子的相对危险系数RR;所述相对危险系统RR为危险因子Xl暴露与未暴 露的相对危险度。RR值越大,表明暴露的效应越大;
[0032] b2.根据获得的RR值进行危险因子分类统计,具体为:
[0033]第一类:RR为0.9~1或1.0~1.1,表示暴露因素与疾病无关联;
[0034]第二类:RR为0.7~0.8或1.2~1.4,表示暴露因素与疾病有弱的关联;
[0035]第三类:RR为0.4~0.6或1.5~2.9,表示暴露因素与疾病有中的关联;
[0036]第四类:RR为0.1~0.3或3.0~9.9,表示暴露因素与疾病有强的关联;
[0037]第五类:RR小于0.1或大于10,表示暴露因素与疾病关联很强。
[0038]进一步的,所述步骤c的具体方法为:
[0039] cl.根据步骤b2的分类,分别将每一类危险因子作为独立的一组进行协变量检验, 具体为:
[0040] 假设某组拥有m个值,例如:(β1; 假设为= ... =0m=〇,l〈m〈pj 中P为研究初始的危险因素的个数;H1: (fo,. . .,i3m)中至少有一个私不为0;将&
最大部分似然函数的对数值记作InU 将似然函数的检验水准*:1设为〇. 〇5;
[0041]可以证明在Ho成立的条件下,统计量服从自由度为m的卡方分布,X2的值为:
;所有祕(广;除去Α,···,χ?以外的所有X)}.;
[0042]可以证明在Ho成立的条件下,统计量服从自由度为m的卡方分布;通过卡方检验, 如果假设成立的概率落在接受域之内,则这组回归系数对应的危险因子与老人健康状况的 关联性较弱可以被忽略,否则就不能被忽略,该组的危险因子就被收入危险因子集合中; [0043] c2.依次完成5类危险因子的回归系数假设检验,排除与老人健康无关的因子,得 到与之具有强关联的因子的集合X。
[0044] 进一步的,步骤d的具体方法为:
[0045] 设步骤c2获得的老人健康危险因子集合X,X=(xi,X2, . . .,xt) ',通过采集单个老 人的相关危险数据(X1,X2, ...,xt),再使用人群的平均危险因素水平和平均发病率对Cox生 存函数进行调整,可以计算出老人未来4年的发病率,老人发病危险率P计算公式如下:
[0046] p = i-s〇(t)exp(f(x>M))
[0047] 其中,以叉,]\〇=01(叉1-]\11)+02(叉2-]/[2) + ...+01;(叉1;-]/[1;),01,...,01;为集合中各危险因 素不同分层的偏回归系数, X1,.. .Xn为个人各危险因素的水平,Mi,...,"为本人群各危险 因素的平均水平。
[0048] 本发明的有益效果为,本发明从老人的身体健康数据入手,通过大数据分析老人 自身因素与发生疾病之间的关系并建立起判定疾病发生的模型,最终通过监控老人的生命 体征,实现对疾病的预测,实现智能养老。
【具体实施方式】
[0
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1