一种基于基因表达谱的胃癌预后标志物筛选及分类方法与流程

文档序号:11134419阅读:来源:国知局

技术特征:

1.一种基于基因表达谱的胃癌预后标志物筛选及分类方法,其特征在于:包括以下步骤:

(1)从GEO数据库获取胃癌病人基因表达谱数据以及病人的临床随访信息数据,且数据样本的数目为N。

(2)根据步骤(1)中得到的基因表达谱数据构建病人的基因表达谱矩阵,若出现某个基因在某个样本中未检测到则使用该基因在其他样本中的表达平均值替代,若出现多次检测到则取平均值替代,最终构建无缺失值的矩阵如下表所列:

Sample 1Sample 2……Sample NGene 1Exp11Exp12Exp1…Exp1NGene 2Exp21Exp22Exp2…Exp2N……Exp…1Exp…2Exp……Exp…NGene MExpM1ExpM2ExpM…ExpMN

(3)根据步骤(2)所得矩阵计算每个基因(i=1,2,3……M)在各样本中的表达水平的中位数Mi,以及在各样本中表达水平的方差Vi,进一步的将所有基因的中位数Mi和方差Vi从大到小排序,分别选取在排序前80%的基因组成两个基因集合,进一步的选取两个基因集合取交集作为预选的有变化的基因。

(4)根据步骤(3)中筛选出来的基因的表达水平以及步骤(1)中的病人的临床随访信息数据建立Cox比例风险模型:

<mrow> <mi>h</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>h</mi> <mn>0</mn> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>*</mo> <msup> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>&beta;</mi> <mn>1</mn> </msub> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>&beta;</mi> <mn>2</mn> </msub> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>+</mo> <mo>...</mo> <mo>+</mo> <msub> <mi>&beta;</mi> <mi>p</mi> </msub> <msub> <mi>x</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> </msup> </mrow>

其中β1,β2,…,βp为偏回归系数,h0(t)为未知数,x1,x2,…,xp为基因的表达水平,h(t)表示t时刻病人死亡的风险率。

对Cox模型检验,采用似然比检验,步骤如下:

a、假设H0:所有的βi为0,H1:所有的βi不为0;

b、将H0和H1条件下的最大似然函数的对数值分别记为LLp(H0)和LLp(H1);

c、计算在原假设的条件下统计量χ2=-2[LLp(H1)-LLp(H0)]服从自由度为p的χ2分布的显著性p值;

最后根据上述a、b、c步骤对每一个基因单独代入Cox模型,分别计算最终的统计学显著性p值,最终筛选显著性p值小于0.05的基因作为种子基因。

(5)根据种子基因在病人中表达水平构建新的表达矩阵,结合步骤(1)中的病人的临床随访信息数据构建最大似然模型筛选预后关键基因,步骤如下:

Ⅰ、随机将样本分成三份,选择三倍交叉验证,随机选择其中两组作为训练集,另外一组作为检验集。根据训练集可以得到每个基因的参数的估计值,然后这个参数在检验集通过最大似然估计方法评价好坏。

Ⅱ、重复第Ⅰ步10次,得到每一个基因的最大似然估计的10个值,选择最大似然估计平均值最大的作为最好的基因;接着搜索下一个最好的基因,评估剩下的每个基因与上次最好的基因的组合模型。

Ⅲ、通过不断的向前选择基因的方法得到一系列模型。对每个模型通过Akaike信息论准则(AICs)进行模型的评估,最后选择AIC值最小的那个模型作为最优模型,筛选出最优的基因组合作为预后关键基因。

Ⅳ、计算基因i的风险比HR,公式如下:

<mrow> <mi>H</mi> <mi>R</mi> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>&beta;</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </msup> </mrow>

(6)根据步骤(5)中筛选出来的每个预后关键基因在病人中的风险比以及这些基因对应病人的表达谱构建新的表达矩阵,然后对矩阵进行离散化,离散方式如下:

当预后关键基因i对应风险系数大于1且该基因在样本j中的表达水平排在该基因在所有样本中的表达水平的中位数以上,则在矩阵中将表达水平替换成1。

当预后关键基因i对应风险系数小于1且该基因在样本j中的表达水平排在该基因在所有样本中的表达水平的中位数以下,则在矩阵中将表达水平替换成1。

不满足以上两个条件的则标记为0。

最后得到0-1矩阵。

(7)根据病人预后关键基因的0-1矩阵,统计每个病人在各预后关键基因中被标记为1的个数Ci,分别根据Ci≥1,Ci≥2.....Ci≥N(N=预后关键基因个数)对病人进行高风险预测归类。

(8)根据步骤(7)中N种归类方式,使用Kaplan-Meier生存函数估计预测为高风险病人与其他病人的生存差异,采用log-rank检验方式作为统计学检验特征,最终得到每个归类方式下的显著性p值,选择最显著的归类方式作为最终的归类方式对病人进行高风险预测。

2.根据权利要求1所述的一种基于基因表达谱的胃癌预后标志物筛选及分类方法,其特征在于:所述步骤(1)中的病人基因表达谱数据以及病人的临床随访信息数据的数据样本量N至少为11。

3.根据权利要求1所述的一种基于基因表达谱的胃癌预后标志物筛选及分类方法,其特征在于:从所述步骤(4)中筛选的显著性p值小于0.05的基因中筛选p值较小的部分基因作为种子基因。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1