本发明属于生物技术和医学领域,具体地说,涉及一种基于多基因表达特征谱的胃癌个性化预后评估方法。
背景技术:
胃癌是全球排名前五的恶性肿瘤。据统计,胃癌在男性人群中的发病率和死亡率高于女性,在发展中国家的发病率和死亡率高于发达国家。全球疾病负担(globalburdenofdisease,gbd)数据显示,2016年全球患有胃癌的人数达到220万,其中中国患病人数高达98万。2016年全球胃癌患者的死亡人数为83万,占总死亡人数的1.53%。中国2016年死亡患者数超过33万,占总死亡人数的3.46%。统计结果显示,从1990年到2016年全球胃癌患病率持续增长,中国患病率也持续增长且增长趋势和全球增长趋势相对一致。但是中国和全球胃癌患者的死亡人数近十几年来没有较大变化。
目前国际上通用的的肿瘤分期方法是tnm分期系统,该系统是美国癌症联合委员会(americanjointcommitteeoncancer,ajcc)提出的一种恶性肿瘤分类方法。美国国家癌症研究所(nationalcancerinstitute,nci)对tnm分期的描述为:t指主要肿瘤的大小和范围,主要肿瘤通常被称为原发性肿瘤。n指患有癌症的附近淋巴结的数目。m指癌症是否已经转移,即从原发性肿瘤扩散到身体的其他部位。根据以上指标可将恶性肿瘤大致分为i期,ii期,iii期和iv期,其中分期越高表示肿瘤的恶性程度越高。tnm分期系统对肿瘤患者的治疗和预后评估有一定帮助。但是,由于不同个体中肿瘤的发生机制及体内微环境的不同,导致不同患者的生存时间差异巨大,tnm分期系统不能很好地反映出患者的预后状况。研究发现,对于某些诊断为i期的患者可能只有较短的生存期(1-2年),然而对于一些诊断为iv期的患者可能具有较长的生存期(5年及以上)。因此,tnm分期系统可能更倾向于描述一个癌症患者群体的平均水平,对个性化的诊断和治疗适用性较差。另一方面,对于诊断为晚期(iii期、iv期)的患者,会给患者及医务人员造成一定的治疗方案选择困难,导致很多本来可以长时间生存的肿瘤患者由于过度医疗或医疗失当而提前死亡;而另一些本应进行适当治疗可以延长生存的患者由于放弃治疗或治疗不当同样导致肿瘤患者提前死亡。
目前,有报道提出利用基因表达谱可以对肿瘤患者进行预后评估。但是,绝大多数报道只是使用单个或数个基因,只能对一个群体进行分类,对个体生存期只能进行定性的划分(如预后好、预后差两个指标)。因此,需要建立更精细的个性化肿瘤预后评估模型来评估患者的生存时间从而选择合适的治疗方案。
技术实现要素:
有鉴于此,本发明提供了一种基于多基因表达特征谱的胃癌个性化预后评估方法,能够准确预测胃癌患者每年的存活概率。
为了解决上述技术问题,本发明公开了一种基于多基因表达特征谱的胃癌个性化预后评估方法,
包括以下步骤:
步骤1、获取胃癌预后风险基因列表与基因权重;
步骤2、利用胃癌患者肿瘤组织转录组和生存数据构建预后评估模型;
步骤3、根据胃癌患者肿瘤组织的基因表达谱计算患者的风险得分;
步骤4、根据患者的风险得分计算患者每年的生存概率。
可选地,所述步骤1中的获取胃癌预后风险基因列表与基因权重具体为:
步骤1.1、从genomicdatacommonsdataportal数据库中下载胃癌患者肿瘤组织和癌旁组织转录组数据以及临床数据,获得胃癌患者肿瘤组织基因表达谱fpkm数值,进行对数转换;
步骤1.2、设总样本数为m,将所有样本根据其基因表达值的三分位数分为三组,其中,基因表达值是指步骤1.1中获得的fpkm数值,用v表示,对第i个基因记为vi,利用cox比例风险模型计算第三分组相比第一分组的生存风险,得出第i个基因的风险比hri和p值,即得出每一个基因的风险比,定义p值<0.05具有显著性,筛选具有显著性的生存风险基因,记为n1;此外,计算每个基因与患者生存天数的相关性,得出每个基因的相关系数r和p值;定义p值<0.05具有显著性,筛选具有显著性的生存相关基因,记为n2;将生存风险基因和生存相关基因的交集定义为预后风险基因,记为n,则有:
n=n1∩n2(1)
步骤1.3、根据第i个基因的风险比计算第i个基因的权重wi,计算公式为:
这样就计算得到每一个基因的权重,最终得到的胃癌预后风险基因列表与基因权重。
可选地,所述的胃癌预后风险基因列表与基因权重如下表:
可选地,所述步骤2中的利用胃癌患者肿瘤组织转录组和生存数据构建预后评估模型具体为:
步骤2.1、定义基因表达值为v,根据第i个基因在第j个样本中的表达值和权重计算第i个患者的风险得分sj;
其中,j表示样本编号,vij表示第i个基因在第j个样本中的表达值;
步骤2.2、将所有胃癌患者样本按照风险得分从低到高排序,使用滑动窗口模型对每50个样本计算平均风险得分
其中j+49表示从样本j开始计数的后50个样本;
步骤2.3、使用weibull分布对50个样本的生存数据进行曲线拟合,weibull分布的概率密度函数为:
其中k>0是形状(shape)参数,λ>0是分布的比例(scale)参数;
步骤2.4、对每50个样本计算出
其中,kj为第j个样本到第j+49个样本生存曲线weibull分布的形状参数;
比例参数λj的变化范围较大,定义λj与
其中,λj表示第j个样本到第j+49个样本生存曲线weibull分布的比例参数;
其中e为自然对数的底,α、β为函数的参数,对上式取对数可得:
其中logλj与
根据平均风险得分
将
可选地,所述步骤3中的根据胃癌患者肿瘤组织的基因表达谱计算患者的风险得分具体为:获取胃癌患者肿瘤组织的第i个基因表达谱的fpkm数值,记为:vi;表1中第i个基因对应的权重记为:wi;患者风险得分记为:s;计算公式为:
其中i为基因编号,n为表1中列出的基因个数。
可选地,所述步骤4中的根据患者的风险得分计算患者每年的生存概率具体为:将患者的风险得分s带入weibull分布的累积分布函数可以得出该患者的存活概率函数为:
其中t为时间,α、β、s、
与现有技术相比,本发明可以获得包括以下技术效果:
1)连续:本发明能预测肿瘤患者连续时间的生存概率。例如可以给出患者每个月的生存概率、患者每年的生存概率等。而目前临床采用的分型方法只能给出一个定性的判断。
2)更精确。本发明基于多基因表达特征谱的胃癌个性化预后评估方法相比传统tnm分期能够更精确地反映患者的生存状态。
3)个性化。对于每个肿瘤患者,本发明可以给出该患者特有的生存概率曲线,这是一般肿瘤预后评估模型所不具备的。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明预测平均每年生存概率与实际每年存活概率比较;
图2是本发明tnm肿瘤分期与患者生存时间的相关性;
图3是本发明平均风险得分与weibull分布参数scale的拟合曲线;
图4是本发明平均风险得分与weibull分布参数scale的拟合残差图;
图5是本发明个性化胃癌预后评估结果。
具体实施方式
以下将配合实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
本发明公开了一种基于多基因表达特征谱的胃癌个性化预后评估方法,包括以下步骤:
步骤1、获取胃癌预后风险基因列表与基因权重,具体为:
步骤1.1、从genomicdatacommonsdataportal数据库中下载胃癌患者肿瘤组织和癌旁组织转录组数据以及临床数据,获得胃癌患者肿瘤组织基因表达谱fpkm(fragmentsperkilobaseoftranscriptpermillionfragmentsmapped)数值,进行对数转换(log2)。
步骤1.2、设总样本数为m,将所有样本根据其基因表达值的三分位数分为三组,其中,基因表达值是指步骤1.1中获得的fpkm数值,用v表示,对第i个基因记为vi,利用cox比例风险模型计算第三分组相比第一分组的生存风险,得出第i个基因的风险比hri和p值,即可得出每一个基因的风险比。定义p值<0.05具有显著性,筛选具有显著性的生存风险基因,记为n1。此外,计算每个基因与患者生存天数的相关性,得出每个基因的相关系数r和p值。定义p值<0.05具有显著性,筛选具有显著性的生存相关基因,记为n2。将生存风险基因和生存相关基因的交集定义为预后风险基因,记为n,则有:
n=n1∩n2(1)
步骤1.3、根据第i个基因的风险比计算第i个基因的权重wi,计算公式为:
这样就计算得到每一个基因的权重,最终得到的胃癌预后风险基因列表与基因权重见表1。
表1基因名称和权重
步骤2、利用胃癌患者肿瘤组织转录组和生存数据构建预后评估模型,具体为:
步骤2.1、定义基因表达值为v,根据第i个基因在第j个样本中的表达值和权重计算第i个患者的风险得分sj;计算公式为:
其中,j表示样本编号,vij表示第i个基因在第j个样本中的表达值;
步骤2.2、将所有胃癌患者样本按照风险得分从低到高排序,使用滑动窗口模型(kanghjetal.spatio-temporaltranscriptomeofthehumanbrain.nature.2011;478(7370):483-489.)对每50个样本计算平均风险得分
其中j+49表示从样本j开始计数的后50个样本。
步骤2.3、使用weibull分布对50个样本的生存数据进行曲线拟合,weibull分布的概率密度函数为:
其中k>0是形状(shape)参数,λ>0是分布的比例(scale)参数。
步骤2.4、对每50个样本计算出
其中,kj为第j个样本到第j+49个样本生存曲线weibull分布的形状参数;
比例参数λj的变化范围较大,定义λj与
其中,λj表示第j个样本到第j+49个样本生存曲线weibull分布的比例参数;
其中e为自然对数的底,α、β为函数的参数,对上式取对数可得:
其中logλj与
如图3所示为平均风险得分
将
通过分析拟合残差图和q-q图(图4),表明该模型达到显著性,即平均风险得分
步骤3、根据胃癌患者肿瘤组织的基因表达谱计算患者的风险得分,具体为:获取胃癌患者肿瘤组织的第i个基因表达谱的fpkm数值(应包含全部或大部分表1中所列基因),记为:vi(i为基因编号);表1中第i个基因对应的权重记为:wi(i为基因编号);患者风险得分记为:s;计算公式为:
其中i为基因编号,n为表1中列出的基因个数。
步骤4、根据患者的风险得分计算患者每年的生存概率,具体为:将患者的风险得分s带入weibull分布的累积分布函数可以得出该患者的存活概率函数为:
其中t为时间,α、β、s、
如图5所示为一个患者的存活概率曲线,图中横坐标为天数,纵坐标为存活概率。患者每年的存活概率在曲线下方标出。右上角黑色方框中标出患者存活的实际天数,状态(status)1表示患者已经死亡。曲线上红色点(即death点)标出患者死亡时对应的天数和存活概率,图中患者死亡时对应的存活概率在0.30左右。
本发明利用tcga-stad转录组和临床数据,对所有胃癌患者进行了个性化的生存预测,并利用交叉验证的方法对得到的结果进行了验证。结果显示采用多基因表达特征谱的胃癌个性化预后评估方法得出的胃癌患者每年的生存概率与实际每年存活比率高度一致(线性相关r2=0.980,p值=1.62e-17,图1)。证实了该方法具有很高的预测准确性,与实际生存状态高度吻合。
如图2所示,tnm分期与胃癌患者的生存时间不具有相关性(p值大于0.05)。图1与图2相比较可以得出基于多基因表达特征谱的胃癌个性化预后评估方法相比传统tnm分期能够更精确地反映患者的生存状态。
如图5所示,本发明能预测肿瘤患者连续时间的生存概率。例如可以给出患者每个月的生存概率、患者每年的生存概率等。而目前临床采用的分型方法只能给出一个定性的判断。对于每个肿瘤患者,本发明可以给出该患者特有的生存概率曲线(图5),这是一般肿瘤预后评估模型所不具备的。
上述说明示出并描述了发明的若干优选实施例,但如前所述,应当理解发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离发明的精神和范围,则都应在发明所附权利要求的保护范围内。