整合表观遗传因素的缺血性脑卒中不良结局风险预测装置的制作方法

文档序号:19934613发布日期:2020-02-14 22:25阅读:378来源:国知局
本发明涉及脑卒领域,具体涉及一种整合表观遗传因素的缺血性脑卒中不良结局风险预测装置。
背景技术
::在世界范围内,脑卒中是居民死亡的第三位死因和致残的主要原因[1]。在发展中国家,脑卒中所致的疾病及经济负担正在快速增长。随着30多年中国经济的迅速发展和国民生活方式的改变,尤其是人口老龄化及城镇化进程的加速,中国脑卒中发病人数逐渐增加并呈快速增长趋势。据估计,我国约有700万脑卒中存活者,每年有250万新发脑卒中的病例[2]。目前脑卒中已成为我国城市和农村人口的第一位致死和致残原因。脑卒中不仅给患者带来身体和心理上的痛苦,同时给家庭、社会及国家造成严重的经济负担。据估计,目前全国每年总的脑卒中经济负担在400亿元左右[3]。在所有脑卒中患者中,约70%~90%为缺血性脑卒中,其不良结局包括病后残疾、心血管事件、脑卒中再发和死亡。研究表明,导致脑卒中不良结局的危险因素与其发病的危险因素有重叠[4]。脑卒中不良结局的传统危险因素具体有年龄、神经功能损伤、糖尿病、高血压、高血脂、房颤、心肌梗死、心力衰竭、医院等级、入院及时性和护理质量等,但这些危险因素只能解释30%左右的脑卒中不良结局风险[5-8]。有文献报道,美国某些地区脑卒中的死亡率异常增长,而传统的危险因素无法解释其原因[9]。一些生物标志物:如酸性钙结合蛋白(s-100β)、基质金属蛋白9(mmp-9)[10]、抗纤溶酶α2[11]、炎症相关标志物(crp、tnf-α、il-6和vegf)[12,13]和血凝/纤溶系统相关的生物标志物(d-二聚体和血浆血管因子)等[14-17]也能用于预测或影响脑卒中患者的不良结局。脑卒中是一种复杂性疾病,受遗传因素和环境因素以及它们的交互作用共同影响。它的病理基础是动脉粥样硬化。大量的遗传流行病学证据显示遗传因素在脑卒中发生、发展中发挥着重要作用。近些年,随着高通量基因型检测技术的进步,人们利用全基因组关联研究的方法,发现了许多与缺血性脑卒中等动脉粥样硬化性疾病相关的基因组区域或遗传标记[18]。dna甲基化是一种重要的表观遗传修饰,参与基因表达调控并在疾病发生发展中具有重要作用。环境因素对疾病风险的影响往往是通过影响甲基化水平而发挥作用的[19-21],同时dna甲基化水平也受到基因多态性的调控[22-24]。甲基化与缺血性脑卒中的关系已有报道[25,26]。同时,甲基化也是潜在的缺血性脑卒中不良结局的预测指标[27-29].脑卒中1年复发率为5%~15%[30],男性5年的累积复发率为42%,女性为24%,而复发所引起的致残率和死亡率高,因此做好脑卒中的二级预防极为重要。2014年美国心脏病协会(aha)和美国卒中协会(asa)在stroke杂志上发表脑卒中的二级预防指南显示[31]:针对脑卒中的预防性治疗方法可以有效的降低脑卒中再发风险[30]。这些方法包括:抗血小板治疗,积极治疗高血压、房颤、动脉阻塞和高脂血症,及改变患者的生活习惯等。但是,脑卒中的病理形成机制具有很强的异质性,即使具有相同脑卒中机制的个体也存在较大的差异性[32],这也是这些年脑卒中复发率居高不下的原因之一。脑卒中的风险预测模型和二级预防措施不能仅限于传统的危险因素。遗传因素在脑卒中的预后和个体化治疗的作用已经取得初步成果[33]。已有文献报道关于中国缺血性脑卒中人群复发风险与3个基因位点关联[34,35],一篇关于脑源性神经营养因子(bdnf)相关多态位点与脑卒中预后关联的研究[36,37]。脑卒中个体化治疗方面最典型的研究就是cyp2c9和vkorc1基因型与华法令的合适治疗剂量选择和临床溶栓治疗结果显著关联[38-40]。与恶性肿瘤治疗类似,针对脑卒中的二级预防也需要准确的预后和预测信息,如预测初次治疗后的复发风险或预测不同治疗方案的有效性。参考文献1.mortality,gbd,causesofdeath,c.global,regional,andnationalage-sexspecificall-causeandcause-specificmortalityfor240causesofdeath,1990-2013:asystematicanalysisfortheglobalburdenofdiseasestudy2013lancet.2015;385(9963):117-171.2.liu,l,wang,d,wong,ks,wang,y.strokeandstrokecareinchina:hugeburden,significantworkload,andanationalprioritystroke;ajournalofcerebralcirculation.2011;42(12):3651-3654.3.prc,moh.2010annualchinesehealthcarestatistics.beijing:chinaunionmedicaluniversitypublication.2010.4.o'donnell,mj,xavier,d,liu,l,zhang,h,chin,sl,rao-melacini,p,etal.riskfactorsforischaemicandintracerebralhaemorrhagicstrokein22countries(theinterstrokestudy):acase-controlstudylancet.2010;376(9735):112-123.5.hillen,t,coshall,c,tilling,k,rudd,ag,mcgovern,r,wolfe,cd.causeofstrokerecurrenceismultifactorial:patterns,riskfactors,andoutcomesofstrokerecurrenceinthesouthlondonstrokeregisterstroke;ajournalofcerebralcirculation.2003;34(6):1457-1463.6.mohan,km,crichton,sl,grieve,ap,rudd,ag,wolfe,cd,heuschmann,pu.frequencyandpredictorsfortheriskofstrokerecurrenceupto10yearsafterstroke:thesouthlondonstrokeregisterjournalofneurology,neurosurgery,andpsychiatry.2009;80(9):1012-1018.7.xu,g,liu,x,wu,w,zhang,r,yin,q.recurrenceafterischemicstrokeinchinesepatients:impactofuncontrolledmodifiableriskfactorscerebrovasculardiseases(basel,switzerland).2007;23(2-3):117-120.8.muscari,a,puddu,gm,santoro,n,zoli,m.asimplescoringsystemforoutcomepredictionofischemicstrokeactaneurologicascandinavica.2011;124(5):334-342.9.el-saed,a,kuller,lh,newman,ab,lopez,o,costantino,j,mctigue,k,etal.geographicvariationsinstrokeincidenceandmortalityamongolderpopulationsinfouruscommunitiesstroke;ajournalofcerebralcirculation.2006;37(8):1975-1979.10.laskowitz,dt,kasner,se,saver,j,remmel,ks,jauch,ec.clinicalusefulnessofabiomarker-baseddiagnostictestforacutestroke:thebiomarkerrapidassessmentinischemicinjury(brain)studystroke;ajournalofcerebralcirculation.2009;40(1):77-85.11.marti-fabregas,j,borrell,m,cocho,d,belvis,r,castellanos,m,montaner,j,etal.hemostaticmarkersofrecanalizationinpatientswithischemicstroketreatedwithrt-paneurology.2005;65(3):366-370.12.vila,n,castillo,j,davalos,a,chamorro,a.proinflammatorycytokinesandearlyneurologicalworseninginischemicstrokestroke;ajournalofcerebralcirculation.2000;31(10):2325-2329.13.whiteley,w,jackson,c,lewis,s,lowe,g,rumley,a,sandercock,p,etal.inflammatorymarkersandpooroutcomeafterstroke:aprospectivecohortstudyandsystematicreviewofinterleukin-6plosmedicine.2009;6(9):e1000145.14.yoon,cw,kim,sj,bang,oy,chung,cs,lee,kh,kim,gm.premorbidwarfarinuseandlowerd-dimerlevelsareassociatedwithaspontaneousearlyimprovementinanatrialfibrillation-relatedstrokejournalofthrombosisandhaemostasis:jth.2012;10(11):2394-2396.15.roldan,v,marin,f,muina,b,torregrosa,jm,hernandez-romero,d,valdes,m,etal.plasmavonwillebrandfactorlevelsareanindependentriskfactorforadverseeventsincludingmortalityandmajorbleedinginanticoagulatedatrialfibrillationpatientsjournaloftheamericancollegeofcardiology.2011;57(25):2496-2504.16.motoki,h,tomita,t,aizawa,k,kasai,h,izawa,a,kumazaki,s,etal.coagulationactivityisincreasedintheleftatriaofpatientswithparoxysmalatrialfibrillationduringthenon-paroxysmalperiod.comparisonwithchronicatrialfibrillationcirculationjournal:officialjournalofthejapanesecirculationsociety.2009;73(8):1403-1407.17.kang,dw,yoo,sh,chun,s,kwon,ky,kwon,su,koh,jy,etal.inflammatoryandhemostaticbiomarkersassociatedwithearlyrecurrentischemiclesionsinacuteischemicstrokestroke;ajournalofcerebralcirculation.2009;40(5):1653-1658.18.malik,r,chauhan,g,traylor,m,sargurupremraj,m,okada,y,mishra,a,etal.multiancestrygenome-wideassociationstudyof520,000subjectsidentifies32lociassociatedwithstrokeandstrokesubtypesnatgenet.2018;50(4):524-537.19.yugi,k,kubota,h,hatano,a,kuroda,s.trans-omics:howtoreconstructbiochemicalnetworksacrossmultiple'omic'layerstrendsbiotechnol.2016;34(4):276-290.20.aslibekyan,s,agha,g,colicino,e,do,an,lahti,j,ligthart,s,etal.associationofmethylationsignalswithincidentcoronaryheartdiseaseinanepigenome-wideassessmentofcirculatingtumornecrosisfactoralphajamacardiol.2018;3(6):463-472.21.huang,x,li,s,ni,p,gao,y,jiang,b,zhou,z,etal.rapidresponsetochangingenvironmentsduringbiologicalinvasions:dnamethylationperspectivesmolecol.2017;26(23):6621-6633.22.hannon,e,spiers,h,viana,j,pidsley,r,burrage,j,murphy,tm,etal.methylationqtlsinthedevelopingbrainandtheirenrichmentinschizophreniarisklocinatneurosci.2016;19(1):48-54.23.ng,b,white,cc,klein,hu,sieberts,sk,mccabe,c,patrick,e,etal.anxqtlmapintegratesthegeneticarchitectureofthehumanbrain'stranscriptomeandepigenomenatneurosci.2017;20(10):1418-1426.24.hannon,e,dempster,e,viana,j,burrage,j,smith,ar,macdonald,r,etal.anintegratedgenetic-epigeneticanalysisofschizophrenia:evidenceforco-localizationofgeneticassociationsanddifferentialdnamethylationgenomebiol.2016;17(1):176.25.zhao,h,han,z,ji,x,luo,y.epigeneticregulationofoxidativestressinischemicstrokeagingdis.2016;7(3):295-306.26.davisarmstrong,nm,chen,wm,brewer,ms,williams,sr,sale,mm,worrall,bb,etal.epigenome-wideanalysesidentifytwonovelassociationswithrecurrentstrokeinthevitamininterventionforstrokepreventionclinicaltrialfrontgenet.2018;9:358.27.gomez-uriz,am,milagro,fi,mansego,ml,cordero,p,abete,i,dearce,a,etal.obesityandischemicstrokemodulatethemethylationlevelsofkcnq1inwhitebloodcellshummolgenet.2015;24(5):1432-1440.28.soriano-tarraga,c,mola-caminal,m,giralt-steinhauer,e,ois,a,rodriguez-campello,a,cuadrado-godia,e,etal.biologicalageisbetterthanchronologicalaspredictorof3-monthoutcomeinischemicstrokeneurology.2017;89(8):830-836.29.gallego-fabrega,c,carrera,c,reny,jl,fontana,p,slowik,a,pera,j,etal.ppm1amethylationisassociatedwithvascularrecurrenceinaspirin-treatedpatientsstroke.2016;47(7):1926-1929.30.lackland,dt,roccella,ej,deutsch,af,fornage,m,george,mg,howard,g,etal.factorsinfluencingthedeclineinstrokemortality:astatementfromtheamericanheartassociation/americanstrokeassociationstroke;ajournalofcerebralcirculation.2014;45(1):315-353.31.kernan,wn,ovbiagele,b,black,hr,bravata,dm,chimowitz,mi,ezekowitz,md,etal.guidelinesforthepreventionofstrokeinpatientswithstrokeandtransientischemicattack:aguidelineforhealthcareprofessionalsfromtheamericanheartassociation/americanstrokeassociationstroke;ajournalofcerebralcirculation.2014;45(7):2160-2236.32.kim,sj,moon,gj,bang,oy.biomarkersforstrokejournalofstroke.2013;15(1):27-37.33.kalow,w,tang,bk,endrenyi,l.hypothesis:comparisonsofinter-andintra-individualvariationscansubstitutefortwinstudiesindrugresearchpharmacogenetics.1998;8(4):283-289.34.zhang,z,xu,g,zhu,w,cao,l,bai,w,xiong,y,etal.chromosome12p13variantspredictrecurrenceofischaemicstrokeinachinesepopulationeuropeanjournalofneurology:theofficialjournaloftheeuropeanfederationofneurologicalsocieties.2014;21(11):1400-1405.35.zhang,z,xu,g,zhu,w,cao,l,yan,b,liu,x.prkch1425g/apolymorphismpredictsrecurrenceofischemicstrokeinachinesepopulationmolecularneurobiology.2014.36.siironen,j,juvela,s,kanarek,k,vilkki,j,hernesniemi,j,lappalainen,j.themetalleleofthebdnfval66metpolymorphismpredictspooroutcomeamongsurvivorsofaneurysmalsubarachnoidhemorrhagestroke;ajournalofcerebralcirculation.2007;38(10):2858-2860.37.cheeran,b,talelli,p,mori,f,koch,g,suppa,a,edwards,m,etal.acommonpolymorphisminthebrain-derivedneurotrophicfactorgene(bdnf)modulateshumancorticalplasticityandtheresponsetortmsthejournalofphysiology.2008;586(pt23):5717-5725.38.higashi,mk,veenstra,dl,kondo,lm,wittkowsky,ak,srinouanprachanh,sl,farin,fm,etal.associationbetweencyp2c9geneticvariantsandanticoagulation-relatedoutcomesduringwarfarintherapyjama.2002;287(13):1690-1698.39.sconce,ea,khan,ti,wynne,ha,avery,p,monkhouse,l,king,bp,etal.theimpactofcyp2c9andvkorc1geneticpolymorphismandpatientcharacteristicsuponwarfarindoserequirements:proposalforanewdosingregimenblood.2005;106(7):2329-2333.40.park,sm,lee,jk,chun,si,lee,hi,kwon,su,kang,dw,etal.vkorc1andcyp2c9genotypevariationsinrelationtowarfarindosinginkoreanstrokepatientsjournalofstroke.2013;15(2):115-121.cox回归是一种多因素生存数据分析方法,主要用于探寻疾病预后的影响因素,在脑卒中疾病再发风险的预测起着非常重要的作用[1]。许多研究结合传统的危险因素,根据cox模型开发有效的量表,如essen脑卒中风险量表(essenstrokeriskscore,esrs)[2]、脑卒中预测工具ⅱ(strokeprognosticinstrumentⅱ,spi-ⅱ)量表[3]和90天脑卒中复发风险评分量表(recurrenceriskestimatorat90days,rre-90)[4]等,来鉴别高危脑卒中复发人群。研究者也提出了许多基于cox模型的变量筛选和建模方法,最常用的有ridge回归[5]、lasso回归法[6]和弹性网技术[7](elasticnet,en)。对于高维的生存数据的处理,lassocox回归和ridgecox回归是常用的方法。参考文献1.cox,dr.regressionmodelsandlifetablesjournaloftheroyalstatisticalsociety.1972;34:187-220.2.weimar,c,diener,hc,alberts,mj,steg,pg,bhatt,dl,wilson,pw,etal.theessenstrokeriskscorepredictsrecurrentcardiovascularevents:avalidationwithinthereductionofatherothrombosisforcontinuedhealth(reach)registrystroke;ajournalofcerebralcirculation.2009;40(2):350-354.3.navi,bb,kamel,h,sidney,s,klingman,jg,nguyen-huynh,mn,johnston,sc.validationofthestrokeprognosticinstrument-iiinalarge,modern,community-basedcohortofischemicstrokesurvivorsstroke;ajournalofcerebralcirculation.2011;42(12):3392-3396.4.ay,h,gungor,l,arsava,em,rosand,j,vangel,m,benner,t,etal.ascoretopredictearlyriskofrecurrenceafterischemicstrokeneurology.2010;74(2):128-135.5.friedman,j,hastie,t,tibshirani,r.regularizationpathsforgeneralizedlinearmodelsviacoordinatedescent.jstatsoftw.2010;33(1):1-22.6.tibshirani,r.thelassomethodforvariableselectioninthecoxmodelstatisticsinmedicine.1997;16(4):385-395.7.zou,h,hastie,t.regularizationandvariableselectionviatheelasticnetj.r.stat.soc.ser.b-stat.methodol.2005;67:301-320.传统技术存在以下技术问题:许多传统的针对各种慢性疾病临床预后因素和预测方法已经应用多年,然而这些方法预测精度普遍不高[1,2]。其主要原因是没有全面考虑个体的遗传信息。已有的统计方法学研究表明:整合临床和遗传数据往往能提高预测能力,然而与仅仅利用传统临床因素的模型相比,预测能力并没有显著提高[1]。现代分子遗传学的发展使得人们更容易获得基因组学的生物大数据,由此,也为寻找新的脑卒中不良结局生物标记物和建立准确的风险预测模型提供了难得的机会。但是,我们仍面临着的巨大挑战,其中包括:1)如何在海量的候选标记中筛选预测性较强的临床指标和分子标志物;2)如何精确估计这些预后因子的作用;3)如何将众多的预测因子整合到精确的预测模型中。基因组学的高维数据通常存在变量多、噪声大和变量之间存在多重共线性等特点。同时,变量间包含具有相似生物学功能注释的基因模块和复杂的基因信息关联网络。这种高维数据给统计分析工作带来了前所未有的困难。首先,数以万计的预测变量不可能都与结局相关;其次,当预测变量个数太大时,很容易导致过拟合。将高维数据降到低维,从众多原始变量中得到那些最能反映分类本质的变量或特征,可以有效的降低模型的复杂度和减少运算量,并有利于数据可视化和对数据的理解。降维主要有特征提取和特征筛选两种方式,其中以特征筛选为主。目前特征筛选方法大致可分为三类:过滤法,包裹法和嵌入法[3]。过滤法优势在于计算简便、速度快,常用的方法包括t检验、sam、auc等;缺点是仅考虑了单个变量的作用,而忽略了变量间的联合作用。近年来一些多变量的过滤法被相继提出,但只能在一定程度上包含变量间的相互作用。包裹法多使用遗传算法作为搜索策略。该方法在变量筛选的过程中,考虑了变量间的相互关系,缺点是容易出现过拟合和运算效率低。嵌入法的核心则是将分类模型的建立与变量选择结合在一起。变量的重要性评价根据判别模型的算法实现,在建立模型的同时,即可给出各变量的重要性得分,如随机森林的vim评分。相比较于前两种算法,嵌入式算法的优势在于考虑了变量间的相关性,同时要比包裹法省时,不易出现过拟合。但是这类方法不能直接估计参数及其置信区间,也就不能确定预测因子对应变量相关程度[4]。由于模型不可识别和过拟合问题,经典的cox回归往往不能分析高维数据。lassocox称为l1惩罚cox模型,因此能够使许多回归系数的效应压缩到0,从而进行变量的筛选[5],但也排除了很多对预测有作用的微小效应[6,7]。如果预测因子的数量较少(如变量<2000)或者已知某些预测因子是非常重要,lasso也许就不适合解决这些问题。另外,lasso只能提供参数的点估计,尽管区间估计的方法可以采用bootstrap的方法获得,但其存在计算量大、估计不稳定等缺点[8]。ridgecox回归叫l2惩罚cox模型,虽然模型精度较高,但是ridge回归不能降维,从而无法提供稀疏的预测模型[9]。将弹性网技术(elasticnet,en)用于cox模型分析中叫en-cox模型,其巧妙地将ridge回归和lasso有效结合,经过将两者的惩罚项结合,完善ridge回归和进行变量筛选[10]。但当遇到超高维数据时(维度p相对于n极其大时),这些方法的计算效能会降低,运算时间将大大延长[11]。参考文献1.barillot,e,calzone,l,hupe,p,vert,jp,zinovyev,a.computationalsystemsbiologyofcancer(chapman&hall/crcmathematical&computationalbiology,2012).2.muscari,a,puddu,gm,santoro,n,zoli,m.asimplescoringsystemforoutcomepredictionofischemicstrokeactaneurologicascandinavica.2011;124(5):334-342.3.saeys,y,inza,i,larranaga,p.areviewoffeatureselectiontechniquesinbioinformaticsbioinformatics.2007;23(19):2507-2517.4.janitza,s,strobl,c,boulesteix,al.anauc-basedpermutationvariableimportancemeasureforrandomforestsbmcbioinformatics.2013;14:119.5.tibshirani,r.thelassomethodforvariableselectioninthecoxmodelstatmed.1997;16(4):385-395.6.friedman,j,hastie,t,tibshirani,r.regularizationpathsforgeneralizedlinearmodelsviacoordinatedescent.jstatsoftw.2010;33(1):1-22.7.efron,b,hastie,t,johnstone,i,tibshirani,r.vol.32,407-451(theannalsofstatistics2004).8.kyung,m,gill,j,ghosh,m,casella,g.penalizedregression,standarderrors,andbayesianlassosbayesiananalysis.2010;5:369-412.9.verweij,pj,vanhouwelingen,hc.penalizedlikelihoodincoxregressionstatisticsinmedicine.1994;13(23-24):2427-2436.10.zou,h,hastie,t.regularizationandvariableselectionviatheelasticnetj.r.stat.soc.ser.b-stat.methodol.2005;67:301-320.11.fan,jq,lv,jc.sureindependencescreeningforultrahighdimensionalfeaturespacej.r.stat.soc.ser.b-stat.methodol.2008;70:849-883.技术实现要素:本发明要解决的技术问题是提供一种整合表观遗传因素的缺血性脑卒中不良结局风险预测装置,最近,基于贝叶斯理论的方法成为研究热点。与其他方法不同,贝叶斯方法能够整合各类先验分布,同时处理多种不确定问题,在模型估计中引入先验信息降低模型估计的复杂性。我们团队结合队列研究中常见的生存时间数据类型,基于贝叶斯广义线性模型[1-5]和cox模型,提出贝叶斯多水平生存分析模型(bayesianhierarchicalsurvivalmodels),改进期望极大算法的迭代加权最小平方法算法(expectation-maximizationbasediterativelyweightedleastsquares,em-iwls),将微小效应和先验信息有机地结合到预测模型之中。同时将分析交互作用的效应遗传原则[6](effectheredityprinciple,即重要的主效应预测因子更有可能存在明显交互作用)整合到模型估计中,以更加准确地估计主效应和交互作用,进而改善预后预测效果。新提出的贝叶斯多水平生存分析模型具有以下优势:1)lasso及其改进算法可以表达成多水平模型,该方法可以看作是我们提出的多水平模型的一个特例;2)能够更加高效地处理多水平结构特征的数据及先验信息,尤其是不同基因模块重叠时;3)可以从数据中直接估计压缩参数,而不是像其他惩罚法那样使用交叉验证预先估计压缩参数;4)不仅可以提供效应的点估计,而且能估计标准误和置信区间;5)该模型所运用的新的em-iwls算法灵活高效。表观遗传因素是很好的缺血性脑卒中不良结局预测因子。本发明结合脑卒中患者的临床数据、血液中生物学指标和表观遗传数据建立缺血性脑卒中不良结局风险预测模型。在贝叶斯多水平模型和cox模型的基础上,整合并引入表观遗传因素,构建新的不良结局风险预测模型并检验模型的准确性和有效性。为了解决上述技术问题,本发明提供了一种整合表观遗传因素的缺血性脑卒中不良结局风险预测装置,包括:所述计算机,所述计算机被编程以便执行如下步骤:构建多水平贝叶斯广义线性回归模型其中,h(t,x)为比例风险模型以风险率函数,t为时间,x为自变量(预测指标),h0(t)为所有自变量为0时的基础风险率,和表示脑卒中遗传因素和相应的参数,exp()为指数函数;通过选择合适的先验分布,脑子中相关遗传变异微小效应的估计和已有的脑卒中生物学先验信息的整合;多水平贝叶斯cox模型中采用em-iwls方法进行相应参数估计。在其中一个实施例中,采用多水平柯西分布和双指数分布作为各个参数先验分布,两种先验分布的表达形式分别为:βj为多水平贝叶斯广义线性回归模型中各系数的参数,n()为正态分布,inv-χ2()为逆卡方分布,gamma()为伽马分布,b-1,b为对应各分布的参数。在其中一个实施例中,多水平贝叶斯广义线性回归模型拟合应用bhglm软件包中的bcoxph函数来完成。在其中一个实施例中,多水平贝叶斯cox模型中采用em-iwls方法进行相应参数估计具体包括:在期望步(e-step),基于当前的参数值,获得先验分布超参数的极大似然估计,在极大步(m-step),以期望步获得的超参数估计为基础,通过iwls进行各个效应参数值的估计,如此反复迭代直至收敛,最终获得各效应参数的准确估计。在其中一个实施例中,或者通过newton-raphson迭代算法进行各个效应参数值的估计。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如下步骤:构建多水平贝叶斯广义线性回归模型其中,h(t,x)为比例风险模型以风险率函数,t为时间,x为自变量(预测指标),h0(t)为所有自变量为0时的基础风险率,和表示脑卒中遗传因素和相应的参数,exp()为指数函数;通过选择合适的先验分布,脑子中相关遗传变异微小效应的估计和已有的脑卒中生物学先验信息的整合;多水平贝叶斯cox模型中采用em-iwls方法进行相应参数估计。在其中一个实施例中,采用多水平柯西分布和双指数分布作为各个参数先验分布,两种先验分布的表达形式分别为:βj为多水平贝叶斯广义线性回归模型中各系数的参数,n()为正态分布,inv-χ2()为逆卡方分布,gamma()为伽马分布,b-1,b为对应各分布的参数。在其中一个实施例中,多水平贝叶斯广义线性回归模型拟合应用bhglm软件包中的bcoxph函数来完成。在其中一个实施例中,多水平贝叶斯cox模型中采用em-iwls方法进行相应参数估计具体包括:在期望步(e-step),基于当前的参数值,获得先验分布超参数的极大似然估计,在极大步(m-step),以期望步获得的超参数估计为基础,通过iwls迭代算法进行各个效应参数值的估计,如此反复迭代直至收敛,最终获得各效应参数的准确估计。在其中一个实施例中,或者通过newton-raphson迭代算法进行各个效应参数值的估计。在其中一个实施例中,一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。本发明的有益效果:利用本发明构建的缺血性脑卒中不良结局风险分析新方法,对基于缺血性脑卒中相关遗传与环境高维的实际数据进行分析,验证方法的实用性,并与现有常用方法进行比较,展示新方法的优势。应用多水平贝叶斯cox模型构建的只包含传统危险因素的缺血性脑卒中发病后3个月内死亡风险预测模型的cindex为0.734(标准差0.003)。应用多水平贝叶斯cox模型构建的包含传统危险因素和mscore的缺血性脑卒中发病后3个月内死亡风险预测模型的cindex为0.830(标准差0.003)。因此,合并传统危险因素和dna甲基化水平的多水平贝叶斯风险预测模型具有较高的cindex,故而优于传统模型。通过有效的应用,阐明现有基于表观遗传与环境因素数据对缺血性脑卒中不良结局风险预测的效力,明确影响缺血性脑卒中不良结局的危险因素构成,为缺血性脑卒中二级预防和个体化治疗提供科学依据。附图说明图1是本发明整合表观遗传因素的缺血性脑卒中不良结局风险预测中的技术路线图。图2是本发明整合表观遗传因素的缺血性脑卒中不良结局风险预测中的amh基因不同甲基化水平组个体的生存率示意图。图3是本发明整合表观遗传因素的缺血性脑卒中不良结局风险预测中的c1orf82基因不同甲基化水平组个体的生存率示意图。图4是本发明整合表观遗传因素的缺血性脑卒中不良结局风险预测中的prdm6基因不同甲基化水平组个体的生存率示意图。图5是本发明整合表观遗传因素的缺血性脑卒中不良结局风险预测中的syt7基因不同甲基化水平组个体的生存率示意图。图6是本发明整合表观遗传因素的缺血性脑卒中不良结局风险预测中的缺血性脑卒中发病后3个月内死亡风险的多水平贝叶斯cox模型示意图。具体实施方式下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。总体研究方案本发明结合脑卒中患者的临床数据、血液中生物学指标和表观遗传数据建立缺血性脑卒中不良结局风险预测模型。我们已经完成了3000例缺血性脑卒中病例的临床特征(包括临床表现以及血常规、血糖、血脂、肝功能指标、肾功能指标、心功能指标、凝血功能和电解质等检验指标)、临床用药、疾病史、心脑血管病家族史、生活方式危险因素的收集以及维生素d、抗磷脂抗体和10种炎症标志物的检测;已经完成3000例缺血性脑卒中病例的发病后3个月的随访工作,获得了不良结局的相关资料。同时获得了所有患者的dna标本。前期研究中我们已经发现了缺血性脑卒中不良结局相关的基因甲基化位点。本发明应用多重目的区域甲基化富集测序技术,检测dna甲基化水平。在贝叶斯多水平模型和cox模型的基础上,整合并引入表观遗传因素,构建新的不良结局风险预测模型并检验模型的准确性和有效性。步骤一dna甲基化测序应用技术进行了相关基因启动子区域的dna甲基化测序,以探索基因甲基化与缺血性脑卒中不良结局的关联。dna标本进行浓度和纯度检测,要求浓度≥20ng/μl,总dna量≥1μg,od260/280=1.7~2.0,od260/230≥1.8。符合质量要求的dna标本经重亚硫酸盐处理后,非甲基化的胞嘧啶转变为尿嘧啶,而甲基化的胞嘧啶保持不变。应用多重目的区域甲基化富集测序技术,检测dna甲基化水平。该方法结合目的区域富集和二代测序技术,实现对多个特定cpg岛同时捕获序列,通量高,~500×的测序深度,在大幅度降低研究费用的同时实现个性化目的区域测序检测,具有检测基因针对性和大样本可行性等优点,适用于大样本多基因的目的区域dna甲基化水平检测。每个dna样本经过重亚硫酸盐处理后检测目的基因片段越多,则每样本每基因片段的检测单价越低。步骤二数据整理及初步分析根据测序获得的甲基化位点reads数计算该位点的甲基化水平(即甲基化程度)。甲基化水平=该位点甲基化(检测到碱基c)的reads数/该位点总的reads数。dna甲基化水平是连续变量(取值范围从0到1)。基因的甲基化水平用所在基因检测的甲基化位点水平的平均值来估计。应用t检验或非参数检验比较两组甲基化水平的差异。logistic回归分析甲基化水平与不良结局的关联,计算比值比(oddsratio,or)和相应的95%可信区间(confidenceinterval,ci)。在关联分析中校正年龄、性别、吸烟、饮酒和血脂等变量,计算多因素调整的or值及相应的95%ci。将个体按照dna甲基化水平三分位数进行分组,应用cox比例分析回归模型(coxproportionalhazardsmodel)评估不同dna甲基化水平下个体的死亡风险,并绘制生存曲线,应用mantel-haenszel检验不同dna甲基化水平组个体生存率的差异。患者死亡时间根据死亡证明来确定。应用r语言软件完成,统计检验显著性阈值为0.05。步骤三构建多水平贝叶斯风险预测模型3.1资料与方法本发明应用多水平贝叶斯cox模型(r语言bhglm软件包),在队列随访数据中构建包含缺血性脑卒中不良结局相关的表观遗传因素、人口统计学、生活方式和血清生化指标的脑卒中风险预测模型,建立风险评估系统。相比经典cox、lassocox和ridgecox回归模型,多水平贝叶斯生存分析模型能够更加高效地处理多水平结构特征的数据及先验信息;可以从数据中直接估计压缩(shrinkage)参数,而不是像其他惩罚法那样使用交叉验证预先估计压缩参数;不仅可以提供效应的点估计,而且能估计标准误和置信区间。3.2风险预测模型构建在此模型中,自变量不仅包括传统危险因素,也包括基因组学数据,据此,本发明构建不良结局风险预测模型表达如下:其中,h(t,x)为比例风险模型以风险率函数,t为时间,x为自变量(预测指标),h0(t)为所有自变量为0时的基础风险率,和表示脑卒中遗传因素和相应的参数,exp()为指数函数。需要说明的是,本发明构建的缺血性脑卒中不良结局风险预测模型将以多水平贝叶斯广义线性回归模型为框架,通过选择合适的先验分布,脑子中相关遗传变异微小效应的估计和已有的脑卒中生物学先验信息的整合。模型拟合应用bhglm软件包中的bcoxph函数来完成。模型构建的思路如下:本发明采用多水平柯西分布和双指数分布作为各个参数先验分布,这种先验分布的特点是在特定的参数设置下,能够使得回归模型演变为多种经典回归模型,因此对于各类参数的估计将更具有优势。此外,通过这种先验分布,对参数给予了较小的压缩,因此能够实现小效应参数的估计。两种先验分布的表达形式分别为:βj为多水平贝叶斯广义线性回归模型中各系数的参数,n()为正态分布,inv-χ2()为逆卡方分布,gamma()为伽马分布,b-1,b为对应各分布的参数。3.3参数拟合算法本发明在多水平贝叶斯cox模型中采用em-iwls方法进行相应参数估计。该算法灵活高效,基本思路是:在期望步(e-step),基于当前的参数值,获得先验分布超参数的极大似然估计,在极大步(m-step),以期望步获得的超参数估计为基础,通过常用的iwls或newton-raphson迭代算法进行各个效应参数值的估计,如此反复迭代直至收敛,最终获得各效应参数的准确估计。3.4模型预测效能评价方法本发明采用十折交叉验证(10-foldcross-validation),即将数据集等分成10份,轮流将其中9份作为训练数据,进行模型构建,另外1份作为测试数据,用模型预测的发病,与实际发病进行比较,据此评价模型预测的效能。交叉验证应用bhglm软件包中的cv.bh函数来完成。对每个模型计算c统计量(cindex),c统计量值最大者为最优模型。在以往国家自然科学基金面上项目(编号:81172761)的支持下,我们已经完成了3000例缺血性脑卒中病例的临床特征(包括临床表现以及血常规、血糖、血脂、肝功能指标、肾功能指标、心功能指标、凝血功能和电解质等检验指标)、临床用药、疾病史、心脑血管病家族史、生活方式危险因素等资料的收集以及维生素d、4种抗磷脂抗体和10种炎症标志物的检测。保存所有3000例病例的血清(血浆)和dna标本。步骤一dna甲基化测序对样本进行浓度和纯度检测,筛选到达测序要求的dna标本。我们筛选了1,207例缺血性脑卒中患者的dna标本,应用技术进行了相关基因启动子区域的dna甲基化测序。测序的基因包括amh,c1orf82,hdac9,igfbp3,lrrc10b,pde3a,prdm6,syt7,tbx2和ttbk1。对这10个基因进行基因组序列评估并设计对应引物,测序获得了377个dna甲基化位点的数据。步骤二数据整理及初步分析对所有患者样品测序获得的377个dna甲基化位点的数据进行质量评估,筛选出有效reads数,计算每个样品的每个位点的甲基化水平,并结合临床表型数据进行分析。1,207例缺血性脑卒中患者在发病3个月内共发生不良结局事件患者有490例,其中发生460例残疾,16例死亡。应用logistic回归分析发现amh,c1orf82,igfbp3,pde3a,prdm6和syt7基因的甲基化水平与缺血性脑卒中患者3个月内死亡或残疾相关联(表1),也与缺血性脑卒中患者3个月内发生不良结局事件相关联(表2)。表1dna甲基化与3个月内残疾或死亡的关联ci:置信区间(confidenceinterval);or:比值比(oddsratio).已校正自变量表2dna甲基化与3个月内发生不良结局事件的关联ci:置信区间(confidenceinterval);or:比值比(oddsratio).已校正自变量应用cox比例分析回归模型分析发现amh,c1orf82,pde3a,prdm6和syt7基因的甲基化水平与3个月内的死亡风险显著相关(表3)。从风险比值来看,这些基因的甲基化水平越高,患者在3个月内死亡的风险越低。表3dna甲基化与3个月内死亡风险的关联ci:置信区间(confidenceinterval);hr:风险比(hazardratio)。已校正自变量生存曲线分析也发现amh,c1orf82,prdm6和syt7基因甲基化水平与死亡分析的关系。四个基因甲基化水平按三分位分组,amh(图2),c1orf82(图3),pde3a(图4)和syt7(图5)基因甲基化水平最高组具有最高的生存率,即这些基因的甲基化水平越高,患者在3个月内死亡的风险越低,生存率越高。应用cox比例分析回归模型分析发现与3个月内的死亡风险显著相关的非遗传因素包括nih评分(nihscore)和年龄。而其他因素如性别、发病到入院间隔时间、血压、血脂、血糖水平、血小板计数、红细胞计数、白细胞计数、糖化血红蛋白、体重指数、吸烟和饮酒等与缺血性脑卒中发病后3个月内的死亡风险没有显著关联。步骤三构建多水平贝叶斯风险预测模型应用多水平贝叶斯cox模型(r语言bhglm软件包),在缺血性脑卒中患者随访数据中构建包含缺血性脑卒中不良结局相关的表观遗传因素、nih评分和年龄的缺血性脑卒中发病后3个月内的死亡风险预测模型,建立风险评估系统。在模型中,将与缺血性脑卒中发病后3个月内的死亡风险相关的甲基化位点的水平取平均值,构建缺血性脑卒中发病后3个月内的死亡风险甲基化得分(mscore)。应用多水平贝叶斯cox模型构建包含nih评分、年龄和mscore的死亡风险预测模型,三个因素在模型中具有意义(表4,图6)。表4缺血性脑卒中发病后3个月内死亡风险的多水平贝叶斯cox模型参数ci:置信区间(confidenceinterval);hr:风险比(hazardratio)。已校正自变量十折交叉验证发现,应用多水平贝叶斯cox模型构建的只包含传统危险因素的缺血性脑卒中发病后3个月内死亡风险预测模型的cindex为0.734(标准差0.003)。应用多水平贝叶斯cox模型构建的包含传统危险因素和mscore的缺血性脑卒中发病后3个月内死亡风险预测模型的cindex为0.830(标准差0.003)。因此,合并传统危险因素和dna甲基化水平的多水平贝叶斯风险预测模型具有较高的cindex,故而优于传统模型。以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本
技术领域
:的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1