1.一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法,包括以下步骤:
a)中国人特异的乳腺癌致病相关突变库的构建:对检测到的突变的致病和有害程度进行注释,通过筛查其中是否含有已发现的,较公认的高危突变;
b)将样本中BRCA 1和BRCA 2基因平均分为30个区域,与乳腺癌致病相关突变库中BRCA 1和BRCA 2的高危突变位点进行比对,设定阈值,超过阈值的区域定义为该区域突变;
c)建立COX比例风险回归模型,剔除不显著因素:
i.截尾值,对样本结局的处理:患乳腺癌样本赋值为“0”,截尾值为“1”,卵巢癌、降低风险性输卵管卵巢切除术、降低风险性乳房切除术、死亡、截止随访时间都不患癌症当做截尾数据;
ii样本对应的生存曲线:由于样本数据寻在截尾数据,可以考虑使用半参数模型-COX比例风险回归模型;首先需要进行比例风险假定,检查某协变量是否满足PH假定,最简单的方法是观察按该变量分组的生存曲线,即log(-log)图;若生存曲线交叉,提示不满足PH假定;
iii.根据步骤b中的确定的高危突变位置,建立乳腺癌的突变位置与赋值表;
iv.建立评估模型,COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系,而是用风险函数作为因变量λ(t,x)是具有突变位置X的个体在年龄段t时的风险函数;λ0(t)是年龄段t对应的基准风险率;X=(X1,X2,...,Xp)′表示BRCA 1和BRCA 2中与乳腺癌患病相关的突变位置;
d)进行COX比例风险回归模型参数估计,模型右侧分为两部分:非参数部分λ0(t),以及参数部分βj(j=1,2,...,p)。COX模型中的参数是采用最大似然估计法估计的,
在队列研究中,样本i(i=1,2…n)具有相同的特征(年龄,患病等);
在某一年龄段ti,样本i患病的条件概率:
在某一年龄段ti,所有样本均患病的概率:
d表示患病样本数。
参数的95%CI:
进行COX比例风险回归模型参数检验,本发明采用最大似然比检验,假设
H0:所有的βi为0,
H1:至少有一个βi不为0
假设一个包含个协变量的模型,根据最大似然函数估计得到的似然函数值为ln(p),在上述模型中在增加一个协变量,建立一个新的模型,根据最大似然函数估计得到的似然函数值为ln(p+1),检验新增加协变量是否有统计学意义的统计量为
χ2=2[lnL(p+1)-lnL(p)]
服从自由度为1的χ2分布;
e)进行Cox比例风险回归模型性能评估:
i.ROC曲线对应95%的AUC,与其他模型的结果做比较;
ii.对于BRCA突变与无BRCA突变的样本,用T检验,比较两组样本的均值差异;P-value值;
iii.对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异,用Pearson χ3最优拟合;
iv.对于BRCA突变的分类(小样本),用Fish检验每种突变的显著性差异;
f)BRCA 1和BRCA 2突变位置分析:
i.对乳腺癌患病是否有显著作用就是同过P值来判断;然后使用逐步回归决定是否剔除该变量;
ii.通过步骤d的参数估计,可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HRk倍;
突变位置的叠加影响,对于一元COX模型输出的相对危险度HRj,指的是每一个协变量Xj为1与为o时的比值:
同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为
对于p个致病突变位置Xi(i=1,2,...,p)
HR=HR1×HR2×…×HRp
表示在这p个致病突变导致的患病风险性是这p个位置均不发生突变时的HR倍
g)个体患病风险:基准风险率h0(t)为步骤11中所有位置均不突变时,各个年龄段对应的风险率。则对于BRCA 1和BRCA 2突变样本来说,对应的风险率函数如下:
λ(t,x)=λ0(t)·HR
h)个体患病风险的累积概率
n年内的乳腺癌发病率
tk:第k个年龄段的长度;
ik:第k个年龄段的发病率;
βk:第k个年龄段的βk=ln(HR),
n年后的累计患病风险
F(t)=1-e-Λ(t)
95%CI为:
其中,
2.如权利要求1所述的一种乳腺癌患病风险评估算法,其特征在于:还包括家族性乳腺癌的相对风险FRR,考虑样本的家族病对预测的样本患病风险进行修正,
女儿患病风险修正值
P(女儿t年龄患病|母亲t年龄患病)=FRR·P(女儿t年龄患病)。
3.如权利要求2所述的一种乳腺癌患病风险评估算法,其特征在于:所述家族性乳腺癌的相对风险包括样本的年龄、家族病史、绝经期、生育史、初次生育年龄、5年之内是否使用激素疗法、酗酒、抽烟以及初潮年龄,风险因素与赋值见下表:
4.如权利要求1所述的一种乳腺癌患病风险评估算法,其特征在于:所述拟合样本采用条件逻辑回归拟合。
5.如权利要求1所述的一种乳腺癌患病风险评估算法,其特征在于:所述参数估计方法为构造条件似然函数,
将Pi带入,
综合n个匹配组的条件似然概率为
对上述条件似然函数取对数,然后使用Newton-Raphson迭代方法求得参数对应的估计值
6.如权利要求1所述的一种乳腺癌患病风险评估算法,其特征在于:所述高危突变列表如下:
其中BRCA 1和BRCA 2突变有
。