基于BRCA1和BRCA2突变的乳腺癌患病风险评估算法的制作方法

文档序号:12365065阅读:203来源:国知局
本发明涉及疾病风险评估算法领域,尤其是-乳腺癌患病风险评估算法。
背景技术
:乳腺癌发病率在我国女性恶性肿瘤发病率中排在第一位。BRCA1和BRCA2基因突变存在于80%的乳腺癌高发家族的患者中。目前医院对于乳腺癌的诊断主要靠检查双侧乳腺、乳腺X线摄影(乳腺钼靶照相)、乳腺磁共振检查(MRI)等。这样诊断发现的乳腺癌一般已到晚期,很难治愈。因此,研究BRCA1和BRCA2基因突变位置与乳腺癌患病风险之间的关系,设计乳腺癌风险评估算法就成为一项迫切且很有临床意义的工作。本发明的主要目的是建立中国人特异的乳腺癌致病相关突变库,定义BRCA1和BRCA2基因高危突变位置;设计乳腺癌患病风险评估算法,计算样本个体乳腺癌患病的绝对风险,预测个体未来几年内患乳腺癌的概率;最后就是根据家族病史信息,对上述个体的患病概率进行修正,并预测突变样本的亲属(一级亲属)未来几年内患乳腺癌的概率。技术实现要素:为了解决现有技术存在的不足,本发明提供了一种基于BRCA1和BRCA2突变的乳腺癌患病风险评估算法。本发明中的一种基于BRCA1和BRCA2突变的乳腺癌患病风险评估算法,包括以下步骤:i)中国人特异的乳腺癌致病相关突变库的构建:对检测到的突变的致病和有害程度的注释,主要通过筛查其中是否含有已发现的,较公认的高危突变;j)将样本中BRCA1和BRCA2基因平均分为30个区域,与乳腺癌致病相关突变库中BRCA1和BRCA2的高危突变位点进行比对,设定阈值,超过阈值的区域定义为该区域突变;k)建立COX比例风险回归模型,剔除不显著因素:i.截尾值,对样本结局的处理:患乳腺癌样本为“0”,截尾值为“1”,卵巢癌、降低风险性输卵管卵巢切除术、降低风险性乳房切除术、死亡、截止随访时间都不患癌症当做截尾数据;ii样本对应的生存曲线:由于样本数据寻在截尾数据,可以考虑使用半参数模型-COX比例风险回归模型;首先需要进行比例风险假定,检查某协变量是否 满足PH假定,最简单的方法是观察按该变量分组的生存曲线,即log(-log)图;若生存曲线交叉,提示不满足PH假定;iii.根据步骤b中的确定的高危突变位置,建立乳腺癌的突变位置与赋值表;iv.建立评估模型,COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系,而是用风险函数作为因变量λ(t,x)=λ0(t)eβ1X1+β2X2+...+βpXP,]]>(t,x)是具有突变位置X的个体在年龄段t时的风险函数;λ0(t)是年龄段t对应的基准风险率;X=(X1,X2,...,Xp)′表示与乳腺癌患病相关的突变位置。l)进行COX比例风险回归模型参数估计,模型右侧分为两部分:非参数部分λ0(t),以及参数部分βj(j=1,2,...,p)。COX模型中的参数是采用最大似然估计法估计的,在队列研究中,样本i(i=1,2...n)具有相同的特征(年龄,患病等)。在某一年龄段ti,样本i患病的条件概率:qi=λi(t,x)Σj=1nλj(t,x)=λ0(t)eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=1nλ0(t)eβ1Xj,1+β2Xj,2+...+βpXi,p=eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=1neβ1Xj,1+β2Xj,2+...+βpXj,p]]>在某一年龄段ti,所有样本均患病的概率:L=Πi=1nqi=Πi=1d(eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=1neβ1Xj,1+β2Xj,2+...+βpXj,p)δi]]>d表示患病样本数。lnL=Σi=1d(β1Xi,1+β2Xi,2+...+βpXi,p)-Σi=1dln(ΣjRiβ1Xi,1+β2Xi,2+...+βpXi,p)∂(lnL)∂βj=0,j=1,2,3]]>⇒βk(k=1,2,3)]]>的估计值参数的进行COX比例风险回归模型参数检验,本发明采用最大似然比检验,假设H0:所有的βk为0,H1:至少有一个βk不为0假设一个包含个协变量的模型,根据最大似然函数估计得到的似然函数值为ln(p),在上述模型中在增加一个协变量,建立一个新的模型,根据最大似然函数估计得到的似然函数值为ln(p+1),检验新增加协变量是否有统计学意义的统计量为χ2=2[lnL(p+1)-lnL(p)]服从自由度为1的χ2分布;m)进行COX比例风险回归模型性能评估:i.ROC曲线对应95%的AUC,与其他模型的结果做比较;ii.对于BRCA突变与无BRCA突变的样本,用T检验,比较两组样本的均值差异;P-value值;iii.对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异,用Pearsonχ2最优拟合;iv.对于BRCA突变的分类(小样本),用Fish检验每种突变的显著性差异;n)BRCA1和BRCA2突变位置分析:i.对乳腺癌患病是否有显著作用就是同过P值来判断;然后使用逐步回归决定是否剔除该变量;ii.通过步骤d的参数估计,可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HRk倍;突变位置的叠加影响,对于一元COX模型输出的相对危险度HRj,指的是每一个协变量Xj为1与为0时的比值:HRj=λ(t,Xj)λ0(t)=λ0(t)eβj×1λ0(t)eβj×0=eβj]]>同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为HR=λ(t,Xi)λ′(t,X1)=λ0(t)eβ1×1+β2×1λ0(t)eβ1×0+β2×0=HR1×HR2]]>对于个致病突变位置Xi(i=1,2,...,p)HR=HR1×HR2×…×HRp表示在这p个致病突变导致的患病风险性是这p个位置均不发生突变时的HR倍。o)个体患病风险:基准风险率λ0(t)为步骤11中所有位置均不突变时,各个年龄段对应的风险率。则对于BRCA1/2突变样本来说,对应的风险率函数如下:λ(t,x)=λ0(t)·HRp)个体患病风险的累积概率n年内的乳腺癌发病率Λ(t)=Σk=1niktkeβk]]>tk:第k个年龄段的长度;ik:第k个年龄段的发病率;βk:第k个年龄段的βk=ln(HR),eβk=HR;n年后的累计患病风险F(t)=1-e-Λ(t)95%CI为:1-e-Λ(t)±1.96var(A(t))]]>其中,var(Λ(t))=Σk=1nik2tk2var(βk)e2βk+2Σj<kk=1nikijtktj[var(βk)var(βj)]1/2eβk+βjcorr(βk,βj)]]>作为优选,所述一种基于BRCA1和BRCA2突变的乳腺癌患病风险评估算法还包括家族性乳腺癌的相对风险FRR,考虑样本的家族病对预测的样本患病风险进行修正,女儿患病风险修正值P(女儿t年龄患病|母亲t年龄患病)=FRR·P(女儿t年龄患病)。作为优选,所述家族性乳腺癌的相对风险包括样本的年龄、家族病史、绝经期、生育史、初次生育年龄、5年之内是否使用激素疗法、酗酒、抽烟以及初潮年龄,风险因素与赋值见下表:作为优选,所述拟合样本采用条件逻辑回归拟合。假设Pi表示第i层在一组危险作用下发病的概率,则Pi=11+e-(β0i+β1X1+...+βmXm)]]>Xit=(Xit1,Xit1,...,Xitm)表示第i层第t个观察对象危险因素的观察值。作为优选,所述参数估计方法为构造条件似然函数,将Pi带入,Li=11+Σt=1MeΣj=1mβj(xitj-xi0j)]]>综合n个匹配组的条件似然概率为L=Πi=1n11+Σt=1MeΣj=1mβj(xitj-xi0j)]]>对上述条件似然函数取对数,然后使用Newton-Raphson迭代方法求得参数对应的估计值β^j(j=1,2,...,m).]]>作为优选,所述高危突变列表如下:其中常见的BRCA1和BRCA2突变有SNPsMAFOR95%CI195%CI2rs8170171.261.171.35rs204621034.71.171.111.23rs93974357.11.281.181.4rs3803662281.091.031.16rs1338704252.21.111.011.21rs298158238.71.31.21.4rs3803662281.171.071.27rs889312291.11.011.19rs381719832.81.141.061.23rs1338704251.21.151.021.29rs497376849.21.11.031.18rs1094167923.41.091.011.19rs93975348.21.141.011.28rs1124943339.71.091.021.17本发明的有益效果:是根据中国人特异的乳腺癌致病相关突变库,定义BRCA1和BRCA2基因高危突变位置,设计算法,计算样本个体乳腺癌患病的绝对风险,并预测个体未来几年内患乳腺癌的概率。FRR表示与正常样本先比,乳腺癌高发人群患病的相对风险。以家族病史为例,说明危险因素对于步骤13预测的个体患乳腺癌概率的修正。假设一女性样本BRCA1和BRCA2突变,我们预测该样本在母亲有乳腺癌病史的情况下患乳腺癌的概率。如果不考虑母亲患病,直接分析检测到的突变位点,预测得到她在年龄t的患病概率为P(女儿t年龄患病);P(母亲t年龄患病)=1。则女儿患病风险修正值P(女儿t年龄患病|母亲t年龄患病)=FRR·P(女儿t年龄患病)。具体实施方式下面对本发明作进一步详细说明,但不应将此理解为本发明的上述主题的范围仅限于上述实施例。1.受检人血液样本收集。静脉血抽取3-5ml,EDTA/柠檬酸抗凝管,抽血后混匀,短时间(3天内)2-8度保存运输,长时间冻存(-20度)保存运输。2.易感基因BRCA1和BRCA2捕获。采用life公司的AmpliseqBRCA1和BRCA2捕获试剂盒通过PCR的方法对乳腺癌易感基因BRCA1和BRCA2进行全外显子区域的捕获。3.高通量测序获得样本外显子序列。4.中国人特异的乳腺癌致病相关突变库的构建。对检测到的突变的致病和有害程度的注释,主要通过筛查其中是否含有已发现的,较公认的高危突变。部分高危突变列表如下表1。表1.部分高危突变其中常见的BRCA1和BRCA2突变有SNPsMAFOR95%CI195%CI2rs8170171.261.171.35rs204621034.71.171.111.23rs93974357.11.281.181.4rs3803662281.091.031.16rs1338704252.21.111.011.21rs298158238.71.31.21.4rs3803662281.171.071.27rs889312291.11.011.19rs381719832.81.141.061.23rs1338704251.21.151.021.29rs497376849.21.11.031.18rs1094167923.41.091.011.19rs93975348.21.141.011.28rs1124943339.71.091.021.175.定义BRCA1和BRCA2突变。将样本中BRCA1和BRCA2基因平均分为30个区域,与乳腺癌致病相关突变库中BRCA1和BRCA2的高危突变位点进行比对,设定阈值,超过阈值的区域定义为该区域突变。6.COX比例风险回归模型的建立1)截尾值(censoredvalue)对于样本结局的处理:患病样本赋值为“0”;截尾值为“1”。以下情况也认为是截尾数据:a)卵巢癌;b)降低风险性输卵管卵巢切除术;c)降低风险性乳房切除术;d)死亡;e)截止随访时间都不患癌症。2)样本对应的生存曲线由于样本数据寻在截尾数据,可以考虑使用半参数模型-COX比例风险回归模型。首先需要进行比例风险假定。检查某协变量是否满足PH假定,最简单的方法是观察按该变量分组的生存曲线,即log(-log)图。若生存曲线交叉,提示不满足PH假定。3)突变位置根据步骤6中确立的高危突变位置,建立乳腺癌的突变位置与赋值表。4)建立评估模型COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系,而是用风险函数作为因变量λ(t,x)=λ0(t)eβ1X1+β2X2+...+βpXp]]>(t,x)是具有突变位置X的个体在年龄段t时的风险函数;λ0(t)是年龄段t对应的基准风险率;X=(X1,X2,...,Xp)′表示与乳腺癌患病相关的突变位置。7.参数估计模型右侧分为两部分:非参数部分λ0(t),以及参数部分βj(j=1,2,...,p)。COX模型中的参数是采用最大似然估计法估计的。在队列研究中,样本i(i=1,2...n)具有相同的特征(年龄,患病等)。在某一年龄段ti,样本i患病的条件概率:qi=λi(t,x)Σj=1nλj(t,x)=λ0(t)eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=1nλ0(t)eβ1Xj,1+β2Xj,2+...+βpXi,p=eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=1neβ1Xj,1+β2Xj,2+...+βpXj,p]]>在某一年龄段ti,所有样本均患病的概率:L=Πi=1nqi=Πi=1d(eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=1neβ1Xj,1+β2Xj,2βpXj,p)δi]]>d表示患病样本数。lnL=Σi=1d(β1Xi,1+β2Xi,2+...+βpXi,p)-Σi=1dln(ΣjRiβ1Xi,1+β2Xi,2+...+βpXi,p)∂(lnL)∂βj=0,j=1,2,3]]>⇒βk(k=1,2,3)]]>的估计值参数的95%CI:eβ^k±1.96Se(β^k)]]>8.模型的参数检验本发明采用最大似然比检验,假设H0:所有的βi为0,H1:至少有一个βi不为0假设一个包含p个协变量的模型,根据最大似然函数估计得到的似然函数值为ln(p),在上述模型中在增加一个协变量,建立一个新的模型,根据最大似然函数估计得到的似然函数值为ln(p+1),检验新增加协变量是否有统计学意义的统计量为χ2=2[lnL(p+1)-lnL(p)]服从自由度为1的χ2分布。9.模型性能评估1)ROC曲线对应95%的AUC,与其他模型的结果做比较;2)对于BRCA突变与无BRCA突变的样本,用T检验,比较两组样本的均值差异;P-value值;3)对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异,用Pearsonχ2最优拟合;4)对于BRCA突变的分类(小样本),用Fish检验每种突变的显著性差异。10.BRCA1和BRCA2突变位置分析1)参数对应的P值参数对乳腺癌患病是否有显著作用就是同过P值来判断;然后使用逐步回归决定是否剔除该变量。2)相对风险HRk通过步骤8的参数估计,可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HRk倍。3)突变位置的叠加影响对于一元COX模型输出的相对危险度HRj,指的是每一个协变量Xj为1与为0时的比值:HRj=λ(t,X1)λ0(t)=λ0(t)eβj×1λ0(t)eβj×0=eβj]]>同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为HR=λ(t,Xi)λ′(t,Xi)=λ0(t)eβ1×1+β2×1λ0(t)eβ1×0+β2×0=HR1×HR2]]>同理,对于p个致病突变位置Xi(i=1,2,...,p)HR=HR1×HR2×…×HRp表示在这p个致病突变导致的患病风险性是这p个位置均不发生突变时的HR倍。11.个体患病风险基准风险率0(t)为步骤11中所有位置均不突变时,各个年龄段对应的风险率。则对于BRCA1和BRCA2突变样本来说,对应的风险率函数如下:λ(t,x)=λ0(t)·HR12.个体患病风险的累积概率a)n年内的乳腺癌发病率Λ(t)=Σk=1niktkeβk]]>tk:第k个年龄段的长度;ik:第k个年龄段的发病率;βk:第k个年龄段的βk=ln(HR),eβk=HR;b)n年后的累计患病风险F(t)=1-e-Λ(t)95%CI为:1-e-Λ(t)±1.96var(Λ(t))]]>其中,var(Λ(t))=Σk=1nik2tk2var(βk)e2βk+2Σj<kk=1nikijtktj[var(βk)var(βj)]1/2eβk+βjcorr(βk,βj).]]>13.家族性乳腺癌的相对风险FRRFRR表示家族性相对风险,即考虑样本的家族病史(一级亲属)时,对预测的样本患病风险进行修正。在本发明中,我们主要考虑样本的年龄、家族病史、绝经期、生育史、初次生育年龄、5年之内是否使用激素疗法、酗酒、抽烟以及初潮年龄等风险因素信息,详见表2。表2.乳腺癌风险因素与赋值1)建立模型在本发明中,我们使用条件逻辑回归拟合样本的所有危险因素信息。假设Pi表示第i层在一组危险作用下发病的概率,则Pi=11+e-(β0i+β1X1+...+βmXm)]]>Xit=(Xit1,Xit1,...,Xitm)表示第i层第t个观察对象危险因素的观察值。2)参数估计构造条件似然函数,Li=P(X10|Y=1)Πt=1MP(Xit|Y=0)Σt=0M[P(Xit|Y=1)Πt=1,t≠tMP(Xit|Y=0)]]]>将Pi带入,Li=11+Σt=1MeΣj=1mβj(xitj-xi0j)]]>综合n个匹配组的条件似然概率为L=Πi=1n11+Σt=1MeΣj=1mβj(xitj-xi0j)]]>对上述条件似然函数取对数,然后使用Newton-Raphson迭代方法求得参数对应的估计值β^j(j=1,2,...,m).]]>3)优势比估计ORln(P1-P)=β0i+β1X1+...+βmXm]]>当Xj=c1与c0时,lnORj=ln[P1/(1-P1)P0/(1-P0)]=β1(c1-c0)]]>一般地,若取c1=1,c0=0,则ORj=eβj]]>4)FRRFRR表示与正常样本先比,乳腺癌高发人群患病的相对风险。以家族病史为例,说明危险因素对于步骤13预测的个体患乳腺癌概率的修正。假设一女性样本BRCA1和BRCA2突变,我们预测该样本在母亲有乳腺癌病史的情况下患乳腺癌的概率。如果不考虑母亲患病,直接分析检测到的突变位点,预测得到她在年龄t的患病概率为P(女儿t年龄患病);P(母亲t年龄患病)=1。则女儿患病风险修正值P(女儿t年龄患病|母亲t年龄患病)=FRR·P(女儿t年龄患病)。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1