一种预测疾病生存期的逐步多元回归模型及应用的制作方法

文档序号:11951431阅读:523来源:国知局
本发明属于生物医药领域,具体涉及一种预测疾病生存期的逐步多元回归模型与应用。
背景技术
:二十一世纪的今天,恶性肿瘤仍然是严重危害人类生命健康的重大疾病。从世界范围内看,肿瘤的发生、发展不容乐观。随着人口逐渐老龄化、吸烟、感染、环境污染、膳食结构等问题的存在,肿瘤诊断所面临的形势极为严峻。根据全国肿瘤登记中心发布的《2015年中国癌症统计数据》显示,2015年中国预计有429.2万例新发肿瘤病例和281.4万例死亡病例。癌症已成为中国疾病死因之首,发病率和死亡率还在攀升,癌症已成为我国非常重要的公共健康问题。几乎22%的全球新发癌症病例出现在中国,27%的癌症死亡病例在中国。美国癌症患者5年存活率达到85%,中国患者5年存活率仅为25%。根据深圳市慢性病防治中心公布的数据,2013年全市报告病种所有恶性肿瘤、宫颈原位癌,中枢神经系统良性肿瘤为14831例,较2012年增长18.1%。而2012年的同比增长幅度为13.4%,证明深圳的恶性肿瘤报告例数呈快速增长趋势。癌症已经连续5年成为深圳居民死因的首位。对于癌症等慢性病的患者的生存期准确预测,不仅是患者和家属关心得重要问题,也是制定合理的治疗方案和临终关怀措施的重要依据。长期以来生存期的判断是根据医生的经验,而临床经验的可靠性因人而异。生存期临床预测评估较为灵活,但因受制于认知偏差的影响而不可避免地降低了预测准确性。研究结果显示,与实际生存期相比,生存期临床经验预测往往可高估45%,预测误差在1周内为25%。即便是富有经验的临床肿瘤学专家的准确率也只有20%左右。丰富的临床经验并不能提高预测准确性。因此很多研究开始尝试整合患者症状,生化指标,临床数据,通过统计学方法更加全面和准确地对生存期进行预测。之前的研究利用Cox比例风险模型,建立指数方程,计算不同个体的期望生存曲线,通过临床数据进行癌症的生存期预测(余红梅,《预后指数在慢性病及肿瘤病人长期生存预测中的应用》)。张晓东采用多种数据挖掘方法在肺癌病人生存期预测中的应用效果。方法采用决策树、贝叶斯、神经网络等算法对肺癌病人的数据进行挖掘。显示贝叶斯分类算法和神经网络算法的分类准确率高过决策树算法。结论应用数据挖掘算法对肺癌病人生存期分类预测具有一定的可行性,可以给临床医师提供参考(张晓东,《数据挖掘技术在肺癌生存期预测中的应用探讨》)。孙晓光等总结了北京协和医院1995-2004年妇科肿瘤住院病房死亡的恶性肿瘤患者,其中91列入院后未接受任何肿瘤治疗的病例资料回顾分析,通过建立多因素分析和回归模型,确定了KPS,年龄,血尿素氮,呼吸困难,发热等5个指标为较可靠指标,具有稳定性和普遍性意义(孙晓光,《妇科恶性肿瘤患者的生存期预测》)。临床生化指标在生存期预测中具有重要参考价值,格拉斯哥预后评分(GlasgowPrognosticScore,GPS)根据C反应蛋白浓度升高和(或)低蛋白血症的严重度将患者分为3个预计生存期组。GPS主要用于评估新诊断的晚期肺癌和上消化管恶性肿瘤患者。维生素B12/C反应蛋白指数(BCI)则是根据血清B12与C反应蛋白浓度的比值进行生存期预测。此外,韩国的一项研究显示,血尿酸水平可独立预测终末期癌症患者的生存期。肿瘤标志物(Tumormarker,TM)是指存在于血液、体液和组织中可检测到的与肿瘤的发生、发展有关的物质,其或不存在于正常成人组织而仅见于胚胎组织,或在肿瘤组织中的含量大大超过在正常组织中的含量,其存在或量变可提示肿瘤的性质,从而了解肿瘤的发生、细胞分化及功能。随着分子生物学和系统生物学的技术发展,大量分子组学数据的产生为癌症的的早期诊断、疗效监测、复发、预后及预测等多个方面提供了参考依据。但产生的海量分子生物学数据又很少被系统分析和利用,因为它们并未与临床数据相整合,尤其是患者生存期预测。通过对癌症大数据和癌症分子组学数据挖掘,建立统计分析模型,将会更好的对癌症病人存活期进行预测。技术实现要素:有鉴于此,本发明提供了一种预测疾病生存期的逐步多元回归模型,其中所述逐步多元回归模型的回归方程式为:y=Xβ+ε式中,生存期向量为y=(y1,y2,…,yn)',向量参数为β=(β0,β1,β2,…,βp),随机误差为ε=(ε1,ε2,…,εp),矩阵X为:X=1x11x12...x1p1x21x22...x2p............1xn1xn2...xnp]]>式中,xi表示第i个病人的miRNA表达水平,蛋白质表达水平或临床分期数据。优选地,本发明所述逐步多元回归模型中,所述逐步多元回归模型的回归方程式为:yi=xiβ+εi式中,xi表示第i个病人的分子表达水平数据或临床数据,yi——表示第i个病人的生存期数据;εi——表示第i个病人的生存期预测误差。优选地,本发明所述逐步多元回归模型中,所述回归方程式中的所述xi为:xi=1xi1...xip.]]>优选地,本发明所述逐步多元回归模型中,所述回归方程式中的所述β的最小二乘估计解为b=(b0,b1,......,bp)=(XTX)-1XTY式中,b表示β的最小二乘估计,XT为X的转置。优选地,本发明所述逐步多元回归模型中,所述回归方程式中的总平方和SST、与残差平方和SSE与回归平方和SSR为:SST=yTy-n(y‾)2]]>SSR=bTXTy-n(y‾)2]]>SSE=yTy-bTXTy其中,总平方和SST与残差平方和SSE、回归平方和SSR具有如下关系:SST=SSE+SSR。式中,yT表示y的转置,表示y的均值。优选地,本发明所述逐步多元回归模型中,所述回归方程式中的回归均方(MSR)和残差均方(MSE)为MSR=SSRp-1;]]>MSE=SSEn-p;]]>其中,所述SSE的自由度为n-p,所述SSR的自由度为p-1。优选地,本发明所述逐步多元回归模型中,在所述逐步多元回归模型中通过构造F统计量,来判断是否引入一个新的变量或删除原有的一个变量,在每引入一个新的变量都需要进行是否需要删除一个变量,即检验新引入的变量是否与原有变量具有相关性;当拟合系数大于0.8时,认为拟合效果较好;其中,所述F为式中m表示新方程中参数的个数。优选地,本发明所述逐步多元回归模型中,所述逐步多元回归模型中需要设置添加显著性水平和删除显著性水平,添加显著性水平应该不小于删除显著性水平。优选地,本发明所述逐步多元回归模型中,所述疾病为慢性疾病;优选地,所述疾病为癌症;更优选地,所述癌症能够表现出在蛋白质表达水平、miRNA表达水平等分子生物学水平的数据或具有癌症分期相关数据;最优选地,所述癌症为乳腺癌。本发明的另一目的在于提供上述逐步多元回归模型在预测癌症、及与癌症类似重大疾病患者生存期方面的应用。本发明通过建立分子组学和临床数据的回归模型,对于癌症生存期的进准预测。对于生存期的预测往往是通过一些非正式的主观方法(例如经验)。通过统计学工具对包括临床指标在内的多种生存相关因素进行分析,并建立生存期预测模型,虽然可以有效提高生存期预测准确性,但是缺少从分子组学数据的角度进行考量。而本发明在原有模型和数学方法基础上,创新地加入了分子组学指标例如蛋白质组,miRNA组学数据结合临床分期作为肿瘤病人生存期的预测的分析参数和考量指标,大幅提高之前只通过临床数据的预测准确性,对于晚期癌症患者的生存期预测、临床决策、政策制定以及患者及家庭成员的计划安排中具有重要意义,为癌症生存期的进准诊断提供了价值的参考。具体实施方式以下通过具体实施例进一步对本发明的技术方案进行说明,应理解以下仅为本发明的示例性说明,并不用于限制本发明权利要求的保护范围。实施例1数据描述与处理研究数据来自于癌症基因组图谱数据TheCancerGenomeAtlas/TCGA(https://tcga-data.nci.nih.gov/tcga/dataAccessMatrix.htm)。选取浸润性乳癌病人miRNASeq和Experssion-Protein数据水平为3的下载。数据处理为1206×1046miRNA表达水平矩阵、937×285Protein表达水平矩阵和临床数据矩阵,其中1046,285为miRNA和Protein的个数,1206,937、1100为各自的病人数。112为临床属性。挑选同时拥有miRNA和蛋白质表达水平并且有生存期的病人样本78例。在miRNA表达数据和蛋白质表达数据中有78个乳腺癌病人有生存期记录,这78个人还有年龄,性别、癌症分期和肿瘤大小等数据。选取乳癌病人共有的蛋白质种类数据,数据最终为78个乳癌病人的1046个miRNA数据。137个蛋白质数据和7类临床数据。临床数据部分如表1。表1乳癌病人临床数据部分数据实施例2逐步多元回归模型建立方法及结果1、逐步多元线性回归预测模型的建立设病人的生存期y与miRNA、蛋白质表达水平和临床数据x1,x2,…,xp可能存在线性关系,其回归模型为:y=Xβ+ε其中生存期向量为y=(y1,y2,…,yn)',向量参数为β=(β0,β1,β2,…,βp),随机误差为ε=(ε1,ε2,…,εp),矩阵X为X=1x11x12...x1p1x21x22...x2p............1xn1xn2...xnp]]>设普通最小二乘估计得到的回归模型为yi=xiβ+εi式中xi——表示第i个病人的分子表达水平数据或临床数据,即xi=1xi1...xip;]]>yi——表示第i个病人的生存期数据;εi——表示第i个病人的生存期预测误差。如β的最小二乘估计解为b=(b0,b1,......,bp)=(XTX)-1XTY式中,b表示β的最小二乘估计,XT为X的转置。我们知xiβ为其模型的预测值。总平方和SST与残差平方和SSE、回归平方和SSR具有如下关系:SST=SSE+SSRβ的最小二乘估计解为b=(b0,b1,......,bp)=(XTX)-1XTY进一步可以推出:SST=yTy-n(y‾)2]]>SSR=bTXTy-n(y‾)2]]>SSE=yTy-bTXTy式中,yT表示y的转置,表示y的均值。又SSE的自由度为n-p,SSR的自由度为p-1,回归均方(MSR)和残差均方(MSE)为:MSR=SSRp-1,MSE=SSEn-p]]>在逐步多元回归分析中通过构造F统计量,式中m——表示新方程中参数的个数来判断是否引入一个新的变量或删除原有的一个变量,在每引入一个新的变量都需要进行是否需要删除一个变量,即检验新引入的变量是否与原有变量具有相关性。需要设置添加显著性水平和删除显著性水平,添加显著性水平应该不小于删除显著性水平。2、结果在逐步多元回归模型中,选取引入置信水平位0.95,删除置信水平位0.90。对78个死亡乳癌病人的生存期数据与1046个miRNA表达水平进行逐步多元回归拟合。得到的拟合结果如表2所示。表2乳腺癌病人miRNA表达水平与生存期逐步多元回归拟合结果当把蛋白质表达水平、临床分期加入到线性回归方程中,当选取变量各数相同时,后者的准确性显然高于前者。蛋白质是人体生命的真正体现者,与癌症的肿瘤直径、附近淋巴状况和癌细胞是否发生远处转移有密切的联系,因此在回归方程中加入蛋白质可使效率更高。表3乳癌病人miRNA、蛋白质表达水平和临床数据与生存期逐步多元回归拟合结果其中对临床分析作如下变换:拟合系数为0.824016时,选取的10个变量(既包含RNA,蛋白质,也包含癌症分期),hsa-mir-218-2,hsa-mir-3187,hsa-mir-320d-1,hsa-mir-378,hsa-mir-522,EGFR-R-V,FOXO3a_pS318_S321-R-C,PKC-delta_pS664-R-V,Snail-M-QC(前五个来自实施例1中miRNA库数据,后四个来自实施例1中蛋白质库数据),还有癌症分期数据。由上可见,本发明通过引入蛋白质表达水平,miRNA表达水平,以及癌症分期等相关的数据来增加癌症生存期预测准确性。通过进行逐步多元回归方法建立miRNA表达水平,蛋白质表达水平,癌症分期与生存期之间的关系,发现逐步多元回归方法所选取的某些特定的miRNA,蛋白质以及癌症分期与癌症患者生存期具有很强的相关性。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。即本发明专利的方法可以扩增到与癌症类似的多种重大疾病的生存期预测。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1