基于基因表达预测FIGOIIIC期浆液性卵巢癌预后的方法与流程

文档序号:13821496阅读:408来源:国知局
基于基因表达预测FIGO IIIC期浆液性卵巢癌预后的方法与流程

本发明属于医学分子生物学技术领域,具体涉及多基因表达定量对预后的指导作用的处理方法,包括基因芯片技术,二代测序技术和实时定量pcr技术对卵巢癌预后的模型。



背景技术:

目前,figoiiic期浆液性卵巢癌用于临床的预后指标主要以传统临床病理特征为基础,依赖手术和治疗方式。其中包括病人的病理分级,年龄等信息(参见:bristowre,zahurakml,alexandercj,etal.figostageiiicendometrialcarcinoma:resectionofmacroscopicnodaldiseaseandotherdeterminantsofsurvival[j].internationaljournalofgynecologicalcancer,2003,13(5):664-672.)。临床信息能够反映出癌症的进展,却不能反映癌症本身的异质性,因而无法给出全面的预测效果(参见:bakkarr,gershensond,foxp,etal.stageiiicovarian/peritonealserouscarcinoma:aheterogeneousgroupofpatientswithdifferentprognoses.[j].internationaljournalofgynecologicalpathologyofficialjournaloftheinternationalsocietyofgynecologicalpathologists,2014,33(3):302-8.)。单分子标记物用于figoiiic期浆液性卵巢癌预后也有模型被开发出来(参见:corneydc,nikitinay.micrornaandovariancancer[j].histologyandhistopathology,2008,23(9):1161.),然而这种模型一般可靠性较差,在来自不同中心和机构的样本中表现查一下较大。针对高分化的浆液性卵巢癌的模型目前已有发现(参见:berchucka,iversenes,lancasterjm,etal.patternsofgeneexpressionthatcharacterizelong-termsurvivalinadvancedstageserousovariancancers[j].clinicalcancerresearch,2005,11(10):3686-3696.),但是针对figoiiic期的模型目前尚未报道。



技术实现要素:

本发明旨在克服临床实践中针对figoiiic期浆液性卵巢癌预后因子的不稳定性,提出一种操作简单、效率高、适用范围广的基于基因表达预测figoiiic期浆液性卵巢癌预后的方法,包括筛选和优化基因表达信息,构建预后模型,以便对figoiiic期浆液性卵巢癌预后提供有效的指导,帮助制定随访和治疗方案。

本发明提出的基于基因表达预测figoiiic期浆液性卵巢癌预后的方法,具体步骤为:

(1)对病人术后新鲜或冷冻组织样本抽提rna,然后对所需的七个靶基因进行定量分析;这里,所属定量分析方法,可以使用当前市场上标准化的芯片表达定量方法,rna测序方法或者qpcr定量方法;所述七个靶基因,是本发明从表达谱20000多个基因中优化组合选择出的,具体为il2rg,cxcl9,tspan13,cxcl13,gadd45g,rab36和cd3d;

(2)再通过对应的去背景和标准化的方法对数据进行进一步处理,随后用z-score转化的方法计算样本在样本集中的相对分布位置;这里,所述去背景是指根据已知的方法对芯片的噪声进行评估,所述标准化是指根据表达谱的固有特征去除样本之间的系统误差和批次效应,使用的方法是对数处理的稳健多芯片分析法(logscalerobustmulti-arrayanalysis),简称rma;z-score转化的方法计算样本在样本集中的相对分布位置,即为(基因a在某个样本的相对表达值-基因a在样本集中表达值的平均数)/基因a在样本集中的标准差;

(3)根据下述风险预测模型,预测该病人的风险系数:

风险系数值=(0.1074*cd3d)+(-0.2262*rab36)+(-0.1740*gadd45g)+(-0.1017*cxcl13)+(-0.1197*tspan13)+(-0.1933*cxcl9)+(-0.0706*il2rg)(1)。

在本步骤中,cd3d,rab36,gadd45g,cxcl13,tspan13,cxcl9,il2rg,7个因子代表该基因的相对表达量;系数是通过cox多因素回归的方法拟合tcga数据集中这几个基因的表达数值和总体生存情况得到。风险系数值计算方程式即是预后模型。

在本发明中,如风险系数大于样本集风险系数平中位数的病人/样本的,判断为高危组,如风险系数小于样本集危险系数中位数的病人/样本的,判断为低危组。在实际操作中,也可按照风险系数为正或者负值判断属于哪一组,即风险系数为正,判断为高危组,风险系数为负,判断为低危组。

本发明中,步骤(1)中对基因的定量分析包括rna测序技术和基因表达芯片技术等。作为优选,可通过反转录荧光定量聚合酶链式反应(qrt-pcr)技术对组织样本进行定量。

本发明中,步骤(2)采用标准化方法对数据进行进一步处理,也可用其他方法处理,如不经标准化处理直接按照方程式(1)计算危险系数。

相对于其他技术,本发明的优点在于:

将临床上使用最多的figoiiic期浆液性卵巢癌作为考虑的出发点,所涉及的方法易于实现,操作简单,所需时间短,效率高,应用范围广。本方法旨在考虑卵巢癌在发生和发展中的多态性,为后续的随访和治疗提供参考。

附图说明

图1为根据所计算的风险值,高危组和低危组两组病人的生存曲线图。其中,灰线代表高危组,黑线代表低危组,十字标注的部位为截尾数据。

图2为根据所计算的风险值,高危组和低危组两组病人的无病生存曲线图。其中,灰线代表高危组,黑线代表低危组,十字标注的部位为截尾数据。

图3为三年生存roc曲线。

图4为依据数据集gse32062的生存曲线图。其中,灰线代表高危组,黑线代表低危组;十字标注的部位为截尾数据。

图5为依据数据集gse63885的生存曲线图。其中,灰线代表高危组,黑线代表低危组;十字标注的部位为截尾数据。

图6为箱式图,纵坐标代表风险系数,横坐标是各个临床指标。

图7为cox对因素回归对应的临床指标和风险系数的p值和风险比。横坐标是风险比,点代表对应的指标的风险比,线为风险比的95%置信区间。

图8为实施例中高危险和低危险组的生存差异。其中,灰线代表高危组,黑线代表低危组;十字标注的部位为截尾数据。

具体实施方式

本发明使用公共数据集:

e-mtab386(https://www.ebi.ac.uk/arrayexpress/experiments/e-mtab-386/)为例,对该发明的使用方法进行举例。首先对原始数据进行rma标准化处理,再将所选的7个基因进行z-score的转化。根据上述算式,计算每个样本的风险系数。随后将样本根据风险系数的中位数分为高危险和低危险组,对比二者之间的生存差异。如图8所示。

根据所计算出的风险值,将来自tcga数据集的病人进行了分类,分为高危和低危病人组,对两组的病人的总体生存情况进行了分析。结果显示按照上述算式低危险组病人的生存情况显著优于低危险组病人。参见图1所示,此图为生存曲线图,横坐标代表生存时间,纵坐标代表总体生存率,红线代表高危险组,蓝线代表低危险组。十字标注的部位为截尾数据。

除此之外,对病人无复发生存进行了分析,发现低危组病人的无复发生存情况显著长于高危病人的无复发生存时间,如图2所示,此图为无病生存曲线图,横坐标代表无病生存时间,纵坐标代表总体生存率,红线代表高危险组,蓝线代表低危险组。十字标注的部位为截尾数据。

通过分析分化,年龄和肿瘤大小等因素,对比各个因素对三年生存期的贡献,发现风险值受试者三年生存曲线下面积显著高于其他临床指标。如图3所示,此图为三年生存roc曲线(receivingoperatingcharacteristiccurve)。横坐标为特异性,纵坐标是敏感性,auc代表曲线下面积(areaundercuurve,auc),用于评估指标的表现,auc越大,效果越好。四种曲线分别代表四种指标的roc分布及auc数值。

为进一步确定本发明的稳定性,我们筛选了来自于数个国家/中心的2个样本集验证。通过同样的计算方程,将每组的病人分为高低危组,对比两组之间的生存差异,如图4(数据集gse32062)、图5(gse63885)、所示。此图为生存曲线图,横坐标代表生存时间,纵坐标代表总体生存率,红线代表高危险组,蓝线代表低危险组。十字标注的部位为截尾数据。

除此之外,本指标和其他指标(淋巴侵袭,治疗效果,年龄,性别,分级等)无关,且对三年生存的贡献最大,如下图6、图7所示。图6横坐标代表各个临床指标,纵坐标为风险系数,表现为箱式图。图7为cox多因素回归结果,横坐标是风险比,红色点代表所列指标的风险比,直线代表风险比的95%置信区间。

图8为具体实施例。此图为生存曲线图,横坐标代表生存时间,纵坐标代表总体生存率,红线代表高危险组,蓝线代表低危险组。十字标注的部位为截尾数据。

本指标的预测效果和治疗所应用药物无关。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1