一种基于Cox回归模型的老人健康数据分析方法_2

文档序号:9911469阅读:来源:国知局
049] 下面详细描述本发明的技术方案:
[0050] 本发明老人健康数据分析的主要思想是通对老人群体健康数据进行Cox回归模型 建模,分析影响该群体老人健康的危险因素及其危险系数进而对个体进行疾病预测。众所 周知,高血压、冠心病、骨质疏松等慢性疾病是老人的常见疾病,它们困扰着老人正常的日 常活动。更为严重的是,这几类突发疾病在发作时一旦得不到及时的医治就很有可能危及 到老人的生命,造成无法挽回的损失。因此对老人身体健康状况进行风险评估具有很大的 实用价值。本文中提出的老人健康数据分析算法是根据老人的年龄、性别、体重指数、血压、 体温、固醇水平、吸烟等影响老人身体健康的因素进行Cox回归模型建模,同时借助以人群 的平均危险因素水平和平均发病率对Cox生存函数进行调整,预测老人的健康状况并估算 出老人患病的概率。我们将老人的健康水平设置为健康、亚健康和不健康三个等级。经过系 统计算,如果当前老人的健康水平被评为"亚健康",系统会提示让老人去医院检查;如果系 统计算出老人的身体健康水平是"不健康",这样就说明老人的身体可能出现较为严重的健 康问题,此时系统在提醒老人去就医的同时也会将相关信息报告给监护人员和医务人员, 让他们对老人进行及时的健康检查和治疗。
[0051]本发明中选择正确的危险因子作为研究的对象是进行老人健康数据分析的基础。 通过研究发现,老人常见的几种疾病的危险因素有很大的相似性,因此本发明以冠心病和 高血压这两种老年人常见疾病为例。
[0052]冠心病的高危因素,除临床已诊断的冠心病外,还包括有症状的颈动脉疾病、外周 动脉疾病、腹主动脉瘤和糖尿病。具有以上高危因素中任何一项者,未来4年发生心脏病或 心脏病复发的可能性>20%,即4年心脏病危险>20%。老人冠心病的主要危险因素包括吸 烟、高血压(血压> 140/90mmHg,或正接受抗高血压药物治疗)、HDL-胆固醇<40mg/dl,心血管 疾病家族史。具有〇~1个主要危险因素者,其未来10年心脏病危险>10%。具有2个或2个以 上主要危险因素者,患心脏病危险会增加20%。其它危险因素包括肥胖、运动少、高饱和脂 肪酸和高胆固醇饮食、高半胱氨酸和脂蛋白水平升高等。
[0053]高血压作为老人常患的另一种疾病,它的主要危险因素与冠心病有很大相似。除 了上述冠心病的危险因素外还包括血管老化、血压上升、性格忧郁与精神紧张、食盐过量、 高糖类食物摄入过量和饮酒。
[0054]本发明基于在福利院、老年公寓、敬老院、老年康复中心、酒店式养老公寓及大型 养老社区等群体养老机构中建立健康档案,通过分析影响某个特定群体健康的危险因素, 并计算出各因素的相对危险度(relative risk,RR),利用假设检验找出与老人健康状况强 关联因素的集合。最后通过实时收集个体老人的健康数据,以人群的平均危险因素水平和 平均发病率对Cox生存函数进行调整,计算出老人发病概率。
[0055] Cox比例分析模型是一种半参数的模型,顾名思义,它是介于参数和非参数之间的 一种回归方法。由于对基线函数没有任何限制,只是利用部分似然函数估计出预测因素对 身体健康的影响,集合了参数模型和非参数模型两者之间的优点,是一种多因素的生存分 析方法。它可以分析带有删失生存时间的资料,同时可以分析诸多因素对生存时间的影响, 且不要求估计资料的生存函数的分布类型。本发明采用C0X回归模型作为分析危险因素和 老人健康状况之间联系的方法。
[0056] Cox回归模型的基本形式为:
[0057] h(t,X) =h〇(t)exp(01Xl+02X2+ . . . +βηΧη) (1)
[0058] Χ=(χι,Χ2, . . . ,Χη) '是η维向量,它表示一个个体的η个变量的观测值,也是风险函 数的η个协变量。h(t,X)表示具有协向量X在时刻t的风险率函数,ho(t)表示t时刻的基准风 险率函数,g卩t时刻协变量X的取值为0时的风险率函数,可以看出ho(t)仅与时间有关。X = (X1,X2, ... ,Χη) '表示相应协变量回归系数向量。
[0059]该模型对应的生存函数为:
[0060] S(t;X)=So(t)exp(x,i!) (2)
[0061] 其中So(t)是t时刻的平均生存函数,及时在危险因素处在平均水平时的生存函 数。从统计学的观点上看,Cox回归模型必须拥有两个基本假定:
[0062] 比例风险假定:不同个体有成比例的危险率函数。即hUdd/hUds)对于单个个 体的协变量Xi=(Xn,Xi2,. . .,Xm) '和X2=(X21,X12, . . .,X2n) '不随时间t的改变而改变。 [0063]对数线性的假定:式(2)可以变化为:
[0064] lnh(t;X)/ho(t)=X'i3,即对模型中的连续型变量,任意个体i的对象风险与协变 量呈线性关系。
[0065] 步骤A:本发明采用特定敬老院中老人的健康数据作为训练数据,设有η个老人组 成的随机样本(例如取η = 100)。从观测时间开始(即t = 0时刻),通过观察收集在时亥Ijt得到 k个不同的健康时间段统计值和n-k个不同的删失数据(所谓的删失数据就是指在进行观测 时间段内,由于一些原因退出观测的个体)。我们得到k个不同的观测值可以用顺序统计量 表示为:ti<t2< . . . <tk。我们令Ri = {j : tj 2 ti}表示ti时刻的风险集(Risk set),也就是 说在^时刻之前没有发生老人生病且没有出现删失的个体,组成的集合中有k个观测值。 Cox回归模型的统计值,一般采用如下的部分似然函数在缺乏基准危险率的场合来估计模 型式(1)中的回归系数。
[0066]
(3;)
[0067]为推断回归系数β,我们将L(i3)当作初始似然函数来处理,求出回归系数β的估计 值。特别地,当在适当条件下,由(3)式极大化导出的估计回归系数#是逼近正态分布的,其 协方差阵为通常的lnL(i3)的二阶导数矩阵的结合估计。
[0068] 由于统计量的原因,连续变量的数据经常存在许多结(ties,即是得到的统计数据 存在相同值的情况称统计数据存在结)。若结点很多,则应该考虑离散模型。若结点相对较 少,我们可以将式(3)做些简化,并将这些结点考虑进去。于是我们可以用以下式子将结打 开用来代替式(3):
[0069]
(4).
[0070] 其中di为老人的健康时丨日」等fti的个数。令Di表示ti时刻老人发生疾病(包括死 亡)的人数的集合。s (i)为这个cu个样本个体的变量总和,即= Σ ;。如果没有结,则相当 于在公式(4)中令所有的cU均为1,这样式子就退化为公式(3)。公式(4)的是为了处理统计 量中存在大量的结而提出的,本质上两个式子的作用相同。本发明方案所用到的关于似然 函数的推导基于公式(4)。建立Cox比例风险回归模型,求部分似然函数函数达到极大时参 数的取值,即为回归系数β的最大似然估计值。
[0071] 步骤Β:在获得回归系数队的最大似然估计值后,危险因素Xi暴露与未暴露的相对 危险度RR(Relative risk)的计算公式为:
[0072] RR = exp(P) (5)
[0073 ]相对危险度RR表明暴露组发病率是对照组发病的多少倍。说明的是暴露组的发病 危险性是非暴露组的倍数。RR值越大,表明暴露的效应越大,暴露与结局的关联的强度越 大。一般来说其数值意义可以归纳为:
[0074]第一类:RR为0.9~1或1.0~1.1,说明暴露因素与疾病无关联;
[0075]第二类:RR为0.7~0.8或1.2~1.4,说明暴露因素与疾病有弱的关联;
[0076]第三类:RR为0.4~0.6或1.5~2.9,说明暴露因素与疾病有中的关联;
[0077]第四类:RR为0.1~0.3或3.0~9.9,说明暴露因素与疾病有强的关联;
[0078]第五类:RR小于0.1或大于10,说明暴露因素与疾病关联很强。
[0079]步骤C:通过RR值基本能够确定所研究的危险因素与老人健康状况之间的关系,但 是RR值处在0.9~1.1的范围中的危险因素并不能说明该危险因素真的对老人健康状况无 关联,同时由于统计样本的原因也不能说明RR值小于0.1或者大于10的危险因子对老人健 康状况的关联一定很强。为了提高预测的准确性,本发明在建立Cox比例回归模型之后,需 要获得对老人健康状况有明显关联的变量子集,即对不同的RR值得危险因素进行假设检 验,确定它们对老人健康状况的影响
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1