个性化的生体年龄预测模型生成方法及系统与流程

文档序号:37926007发布日期:2024-05-11 00:05阅读:6来源:国知局
个性化的生体年龄预测模型生成方法及系统与流程

本发明涉及一种用于以个性化方式预测生体年龄的模型生成方法,尤其涉及一种用于生成通过以体检数据为基础计算出相对于不同出生年龄的超出年龄而对个人的生体年龄进行预测的模型的个性化生体年龄预测模型生成方法及其系统。


背景技术:

1、通常来讲,出生年龄是指当前年度与出生年度之间的差异,与个人的当前健康状态无关,在相同年度出生的所有人的出生年龄必然全部相同。

2、因此,并不能只通过出生年龄完整地呈现出与个人的当前健康状态或整体的身体功能下降有关的“老化”程度,从而需要开发出用于对可以表示出与老化相关的身体功能下降的“生体年龄”进行预测或测定的技术。

3、生体年龄与出生年龄不同,是对根据身体的整体健康状态发生变化的部分进行数值化的结果,即通过数值表示出身体的健康以及老化程度的结果。

4、即使是出生年龄相同,因为每个人的身体健康状态互不相同,因此与出生年龄相比,使用通过对身体的整体健康状态进行测定或推测而获得的生体年龄,可以更加准确地对当前的整体健康状态、老化程度乃至于实际的预期寿命进行预测。

5、<用于预测/测定生体年龄的现有研究>

6、从1969年的comfort开始直至今日,人们一直在努力开展与生体年龄的测定相关的研究活动。

7、对生体年龄进行测定时所使用的生物标志物应该配备的因素包括,

8、1).提供与身体功能或新陈代谢系统相关的信息,

9、2).拥有与出生年龄有相关关系的定量特性,

10、3).拥有重现性、敏感性以及具体性特性,

11、4).不仅适合于人类,还可以适用于试验动物。

12、考虑到如上所述的因素,正在开展尝试使用物理性(physical)、生理性(physiological)以及生化性(biochemical)生物标志物对身体年龄进行测定的研究活动。

13、作为对生体年龄进行测定时经常使用的生物标志物,包括如身体质量指数(bmi)、血压(收缩压以及舒张压)、腰围、肺活量、肌肉量、白蛋白以及胆固醇数值等,并将其作为主因子使用通过多重线性回归分析(multivariable linear regression analysis)以及主成分分析(pca,principal component analysis)对生体年龄测定模型进行研究。

14、<死亡危险程度预测研究>

15、莱文和克里明斯(levine and crimmins)进行了利用生体年龄对10年内的死亡率进行预测的研究活动,而布朗以及麦克戴德(brown and mcdaid)对如出生年龄、教育程度、性别、收入、婚姻状态、职业、人种、宗教、吸烟、喝酒、活动量以及肥胖等因素对成人的死亡率造成的影响进行了调查以及研究。

16、此外,还有与利用包括性别、是否吸烟、出生年龄以及保险类型(underwritingclass)在内的9个因素构建逻辑回归模型并借此对死亡危险程度进行评估的模型相关的研究案例。

17、在韩国,有在以大量韩国人作为对向构建使用体检数据对生体年龄进行测定的模型之后在所测定到的生体年龄大于出生年龄的情况下使用cox回归模型(cox regression)对17年内的死亡造成的影响力进行研究的案例。

18、在目前的以论文或专利形态公开的生体年龄测定模型中,以个人的生体年龄=55.7岁等方式仅给出1个数值,无法客观且明确地对所述数值的含义做出定量以及定形解释,因此有必要将个人的老化状态以如概率范围/分布等其他形态表示而非1个数值。

19、<生体年龄测定相关的科学引文索引(sci)级论文>

20、目前已经公开的生体年龄测定模型

21、(a).a new approach to the concept and computation ofbiological age

22、2006,mechanisms ofageing anddevelopment(以捷克人为对象)

23、对生物标志物的影响进行非线性建模

24、(b).a method for identifying biomarkers ofaging and constructing anindex ofbiological age in humans

25、2007,journal ofgerontology(京都大学,以日本男性为对象)

26、利用主成分分析(pca)技法的建模(r2=0.52)

27、(c).development of models for predicting biological age(ba)withphysical,biochemical,and hormonal parameters

28、2008,arch gerontol geriatr(区分综合生体、身体、生化以及激素年龄,以韩国人为对象)

29、多重线性回归(multiple linear regression)建模(男性r2=0.62,女性r2=0.66)

30、(d).developing a biological age assessment equation using principalcomponent analysis and clinical biomarkers ofaging in korean men

31、2009,archives ofgerontology and geriatrics(区分不同年龄段的正常、糖异常以及糖尿病患者,首尔大学,以韩国男性为对象)

32、利用主成分分析(pca)技法的建模(r2=0.581)

33、(e).development and application of biological age prediction modelswith physical fitness andphysiological components in korean adults

34、2012,gerontology(区分不同年龄段的正常以及肥胖患者,牙山医院,以韩国人为对象)

35、利用主成分分析(pca)技法的建模(男性r2=0.638,女性r2=0.672)

36、(f).生体年龄对死亡造成的影响力分析

37、biological age as a useful index to predict seventeen-year survivaland mortality in koreans

38、2017,bmc geriatrics(利用以55万余名韩国人为对象进行17年跟踪调查的资料,进行生体年龄对死亡造成的影响力分析)

39、其中,所述r2是指决定系数(coefficient of determination)。

40、<多重线性回归分析模型:mlr>

41、图3对线性回归直线进行了图示。

42、在图3中,线性回归直线可以通过如y=a+b*x等线性回归式表示。

43、图3中标记出来的点表示对各个个人进行测定的坐标x(体检数值)以及y(年龄),呈现出了在体检数值增加时出生年龄也随之增加的趋势。在将其通过线性回归模型表示时,将呈现出体检数值越高年龄越大的影响。

44、(体检数值对年龄增加造成的定量影响力为线性回归式的斜率)

45、即,可以说使用线性回归模型的生体年龄预测模型的概要在于,将估计存在于体检数据与年龄(更准确地来讲为出生年龄)之间的增/间关系中的某一处的生体年龄设定为线性回归式的y值。

46、多重线性回归分析模型可以通过下述数学式1表示。

47、【数学式1】

48、y=a0+a1×bmi+a2×sbp+a3×hdl

49、多重线性回归(mlr,multivariable linear regression)模型

50、所述数学式1将出生年龄作为从属变量(y)并将身体质量指数(bmi)、收缩压(sbp)以及高密度脂蛋白(hdl)等3个变量作为独立变量,表示出了独立变量对出生年龄造成的线性影响力。

51、其中,a1、a2以及a3为回归系数(regression coefficient),表示出了身体质量指数(bmi)、收缩压(sbp)以及高密度脂蛋白(hdl)对出生年龄造成的影响力。

52、此外,a0为回归常数(截距(intercept)或回归常数(regression constant))。

53、通过所述数学式1计算出来的y是在输入了身体质量指数(bmi)、收缩压(sbp)以及高密度脂蛋白(hdl)的测定值时所计算出来的数值,而多重线性回归(mlr)模型的核心在于将所述数值设定为生体年龄。

54、如上所述的多重线性回归(mlr)模型具有如下所述的问题。

55、对于年轻人来讲,所预测出来的生体年龄(ba)与出生年龄(ca)相比较高(overestimate),而对于老年人来讲,所预测出来的生体年龄(ba)较低(underestimate)。

56、据推测这是因为数据所拥有的特性而造成的,但是确切的机制尚不清楚。

57、图4是对出生年龄(x)与生体年龄y之间的关系进行图示的图表,表示出了在多重线性回归模型中的较高(较低)预测(over(under)estimation)的实例。

58、在生体年龄(ba)中,出生年龄(ca)从属(从属变量)于体检项目这一点是一个矛盾。

59、即,出生年龄(ca)并不是从属于体检项目,而是从属于日历时间(calendartime)。

60、尤其是,当体检项目与出生年龄(ca)之间的相关关系为“1”时,体检项目本身将没有任何用处(依据:ingram,1988)。

61、这表示在建立模型时所制定的假定本身存在矛盾。

62、下述论文中提及到了多重线性回归模型中存在的问题。

63、(a).2008线性回归模型-mlr模型

64、development of models for predicting biological age(ba)with physical,biochemical,and hormonal parameters

65、(b).2009首尔大学医院模型-主成分分析(pca)模型

66、developing a biological age assessment equation using principalcomponent analysis and clinical biomarkers of aging in korean

67、(c).2011牙山医院模型-主成分分析(pca)模型

68、development and application of biological age prediction models withphysical fitness and physiological components in korean adults

69、(d).2010生体年龄模型之间的比较论文

70、an empirical comparative study on biological age estimationalgorithms with an application of work ability index(wai)

71、<主成分分析模型说明:pca>

72、主成分分析法(pca;principal component analysis),

73、是指如图5所示的通过对多个变量(v1~v5)所呈现出的共同特性进行分析而查找出代表性的少数独立因素(因素1以及因素2)的方法。

74、例如,在使用如收缩压(sbp)、舒张压(dbp)、高密度脂蛋白(hdl)、低密度脂蛋白(ldl)以及甘油三酯(tg)等5个变量进行主成分分析(pca)的情况下,可以提取出“血压因素”以及“胆固醇因素”等2个独立因素。

75、通过对多个体检变量(如身体质量指数(bmi)、腰围(wst)、收缩压(sbp)、舒张压(dbp)、谷草转氨酶(ast)、谷丙转氨酶(alt)、r-谷氨酰转肽梅(ggtp)、高密度脂蛋白(hdl)、低密度脂蛋白(ldl)、甘油三酯(tg)以及肺活量等)适用主成分分析(pca),提取出共同存在于所述变量的“1个因素”。

76、如上所述的通过主成分分析(pca)提取出来的“1个因素与出生年龄具有相当水准的相关关系”。(皮尔逊相关系数(pearson'correlation coefficient)为0.8)

77、因此,主成分分析(pca)生体年龄预测模型的核心在于将通过主成分分析(pca)方法提取的“1个因素”确定为呈现出人体的实际老化状态的“生体年龄”。

78、下述为使用主成分分析(pca)的生体年龄预测模型。

79、(a).2009首尔大学医院模型-主成分分析(pca)模型

80、developing a biological age assessment equation using principalcomponent analysis and clinical biomarkers of aging in korean men

81、(b).2011牙山医院模型-主成分分析(pca)模型

82、development and application of biological age prediction models withphysical fitness and physiological components in korean adults

83、(c).2007日本人模型-主成分分析(pca)模型

84、a method for identifying biomarkers of aging and constructing anindex ofbiological age in humans pca

85、使用主成分分析(pca)的生体年龄预测模型的特征

86、主成分分析(pca)与多重回归分析不同,并没有从属变量以及独立变量的区分。即,可以说是一种在体检项目为5个的情况下提取出在5个数值中共同呈现出来的因素(主成分)的方法。

87、在图5中,观察5个变量在坐标上的位置可以认为v1~v3以及v4~v5分别属于不同的两个簇(cluster),而这表明5个变量可以通过2个因素进行说明。

88、最终,作为输入值输入5个变量,但是在预测实际生体年龄(ba)时所使用的变量为因素1以及因素2。

89、其中,实际生体年龄预测模型将只使用影响力最大的1个因素。

90、使用主成分分析(pca)生体年龄预测模型与多重线性回归分析(mlr)模型不同,并不需要将出生年龄(ca)作为从属变量使用,但是会在所提取出的呈现出最大影响力的因素中使用与年龄(例如1岁以及2岁)相同的单位(即unit),而且为了在生体年龄(ca)预测时对偏差(bias)进行补正,将出生年龄(ca)作为独立变量加入到生体年龄(ba)预测模型中。

91、对主成分分析(pca)模型进行整理,可以通过下述数学式2表示。

92、【数学式2】

93、ba=f(x1)+g(ca)

94、其中,ba代表生体年龄,x1代表通过主成分分析(pca)提取的1个主成分因素,ca代表出生年龄,f代表将x1作为输入变量使用的变换函数,而g代表将ca作为输入变量使用的变换函数。

95、即,生体年龄是只在主成分分析(pca)的主成分因素以及出生年龄分别乘以加权值之后进行求和而计算出来的数值。

96、<主成分分析(pca)模型的缺点>

97、因为通过主成分分析(pca)提取出来的主成分与出生年龄具有相当高的相关关系,因此将其作为代表生体年龄的数值只是研究人员的主观意见。

98、而且,为了使得通过主成分分析(pca)提取出来的因素成为具有“年龄”单位的变量(生体年龄)而导入了将“出生年龄”作为变量使用的变换函数,因此只是研究人员的单纯的想法而并没有经过客观的验证。

99、将“出生年龄”作为”变量使用并导入到生体年龄模型中的另一个原因在于,在将“出生年龄”作为变量使用之前,同样会发生与多重线性回归分析(mlr)模型相同的在年轻人群中被较高评价(overestimation)而在老年人群中被过低评价(underestimation)的现象。

100、在韩国专利公开2014年第0126229号“生体年龄计算模型生成方法及系统以及所述生体年龄计算方法及系统”中提供了一种利用所述主成分分析(pca)生体年龄预测模型计算生体年龄的方法。


技术实现思路

1、在老龄化进展迅速的韩国社会环境中,作为用于过上长期健康生活的预防措施,需要一种可以预测个人的老化状态的方法。

2、本发明的目的在于提供一种考虑到老化机制会根据男、女或出生年龄段发生变化,按照性别以及出生年龄段构建生体年龄预测模型,并通过各个年龄段的生体年龄预测模型与生体年龄进行预测的个性化的生体年龄预测模型生成方法及系统。

3、本发明的目的在于提供一种并不是单纯地提出生体年龄(例如55岁),而是将个人的老化状态以生体年龄概率范围/分布的形态进行呈现,从而提供可以更加客观且明确地做出解释的生体年龄信息的个性化的生体年龄预测模型生成方法及系统。

4、在目前的以论文或专利公开的生体年龄测定模型中,以个人的生体年龄=55.7岁等方式仅给出1个数值,无法客观且明确地对所述数值的含义做出定量以及定形解释,因此有必要将个人的老化状态以如概率范围/分布等形态表示而非1个数值。

5、本发明的技术特征在于:与现有的生体年龄预测模型(多重线性回归分析(mlr)以及主成分分析(pca))不同,并不是使用体检数据直接预测生体年龄,而是通过体检数据计算出利用出生年龄无法解释的“超出老化因素(即delta)”。

6、本发明拟开发出一种因为老化机制会根据男、女或出生年龄段发生变化而根据性别以及出生年龄段以不同方式工作的多个生体年龄测定模型。

7、本发明拟使用考虑到在与代表出生年龄相同的人群的数值(例如身体质量指数平均值以及血压平均值等)进行比较时对个人进行测定的体检数值差异分布的统计模型对生体年龄进行预测。

8、本发明的个性化的生体年龄预测模型生成方法,其特征在于,包括:

9、年龄区间设定过程,设定为了生成二元逻辑回归模型而作为训练数据(trainingdata)使用的年龄区间(x~y);

10、二元逻辑回归模型生成过程,将在所述年龄区间设定过程中所设定的年龄区间的各个年龄单位作为1单位,将各个年龄单位的训练数据区分为未达年龄组(uagm)以及超出年龄组(oagm)等2个组,并生成各个年龄单位的二元逻辑回归模型(mx~my);

11、年龄预测概率计算过程,根据二元逻辑回归模型计算出每个样本对象被预测为超出年龄组(oagm)的概率(pm);

12、临界值提取过程,将未达年龄组(uagm)以及超出年龄组(oagm)设定为二分变量,将所述被预测为超出年龄组(oagm)的概率设定为预测变量,并通过接受者操作特征曲线(receiver operating characteristic curve)分析提取出临界值(cm);

13、年龄预测概率补正过程,向被预测为超出年龄组(oagm)的概率(pm)适用临界值(cm)(pm-cm)而计算出被预测为超出年龄组(oagm)的超出概率(dm);

14、超出年龄计算过程,计算出与通过所述年龄预测概率补正过程计算出来的被预测为超出年龄组(oagm)的超出概率(dm)相关的加权值平均(delta_i),并借此计算出个人的超出年龄(individual's excess aging);以及,

15、生体年龄计算过程,将通过所述超出年龄计算过程计算出来的个人的超出年龄与出生年龄相加而计算出生体年龄。

16、此外,本发明的特征在于:所述二元逻辑回归模型生成过程中的训练数据是根据体检项目信息构成,而且还包括:体检项目信息设定过程,用于对作为训练数据使用的体检项目信息进行查询、添加以及删除设定。

17、此外,还可以包括:条件信息设定过程,用于对与在所述二元逻辑回归模型生成过程中的训练数据相关的男、女条件信息进行设定。

18、本发明的特征在于:在所述超出年龄计算过程中的个人的超出年龄,

19、是所计算出来的个人的dm(m=26,…,75)乘以相应年龄(=m)并全部累加的值的平均。

20、本发明的个性化的生体年龄预测模型生成系统,其特征在于,包括:

21、体检数据收集组件,用于对从体检系统提供过来的体检数据进行收集并存储到数据存储组件中进行管理;

22、训练数据设定组件,用于根据所设定的训练数据基准年龄区间(x~y)以及体检项目信息确定从体检数据收集组件提供的体检数据中的有效的训练数据;

23、二元逻辑回归模型生成组件,对于通过所述训练数据设定组件设定的训练数据,生成所设定的年龄区间(x~y)内的各个年龄单位的二元逻辑回归模型(mx~my);

24、年龄预测概率计算组件,根据通过二元逻辑回归模型生成组件生成的二元逻辑回归模型,计算出训练数据中的各个个人被预测为超出年龄组的概率(pm);

25、临界值提取组件,将未达年龄组(uagm)以及超出年龄组(oagm)设定为二分变量,将所述被预测为超出年龄组(oagm)的概率设定为预测变量,并通过接受者操作特征曲线(roc curve)分析提取出临界值(cutoff)(cm);

26、年龄预测概率补正组件,向通过所述年龄预测概率计算组件计算出来的被预测为超出年龄组(oagm)的概率(pm)适用临界值(cm)(pm-cm)而计算出个人被预测为超出年龄组(oagm)的超出概率(dm),并对通过所述年龄预测概率计算组件计算出来的被预测为超出年龄组(oagm)的概率(pm)进行补正;

27、超出年龄计算组件,计算出与通过所述年龄预测概率补正组件计算出来的被预测为超出年龄组(oagm)的超出概率(dm)相关的加权值平均(delta_i),并借此计算出个人的超出年龄(individual's excess aging);

28、生体年龄计算组件,利用通过所述超出年龄计算组件计算出来的个人的超出年龄从出生年龄计算出生体年龄;以及,

29、数据存储组件,对通过体检数据收集组件收集到的体检数据以及通过训练数据设定组件设定的训练数据进行存储管理。

30、本发明的特征在于,还包括:使用者设定组件,提供可供使用者对所述训练数据设定组件的年龄以及体检项目信息进行查询和设定的程序。

31、本发明的特征在于,还包括:使用者设定组件,提供可供使用者对用于在所述训练数据设定组件中决定训练数据的条件信息的程序;所述条件信息为男、女性别信息。

32、本发明的特征在于:所述训练数据设定组件的体检项目信息,

33、由包括如身体质量指数、腰围、收缩压以及舒张压等身体检查指标以及如三种肝脏数值(谷草转氨酶(ast)、谷丙转氨酶(alt)以及γ-谷氨酰转肽酶(γ-gtp))、肌酸酐、三种胆固醇(高密度脂蛋白(hdl)、低密度脂蛋白(ldl)以及甘油三酯(tg))、空腹血糖以及血红蛋白等血液检查指标的健康保险体检项目数据构成。

34、如上所述的本发明可以利用已经积累在国民健康保险公团的高品质的大规模体检数据开发出生体年龄预测模型,从而节省单独构建和研究用于开发出生体年龄预测模型的数据的过程中所需要的费用以及时间。

35、此外,本发明可以在考虑到根据男女以及年龄段发生变化的老化程度的情况下,通过体检数据利用根据男女以及年龄段的各个个人的相对值计算出个人的超出年龄并将其作为加权值信息对生体年龄进行预测,从而生成更加可靠的个性化的生体预测模型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1