弥漫型胃癌的分子分型、用于分型的蛋白标志物及其筛选方法和应用与流程

文档序号:15254524发布日期:2018-08-24 20:24阅读:1890来源:国知局

本发明属于医药生物领域,涉及新的肿瘤分子分型以及分型中生物标志物的筛选技术,特别涉及利用蛋白质组定量技术对胃癌患者的胃癌组织和配对的癌旁组织的蛋白质组进行定量检测,通过数据分析筛选获得lauren分型中弥漫型胃癌新的亚型及筛选分型相关的蛋白标志物的方法。



背景技术:

胃癌在全球肿瘤死亡原因中排名第三,我国是胃癌高发地区之一,每年新发病例接近全世界的一半左右。目前应用较广的胃癌分型有基于形态学的lauren分型。

lauren分型将胃癌分为仍保留腺腔结构的肠型,无腺腔结构、肿瘤细胞弥漫散在的弥漫型,以及介于两者之间的混合型。弥漫型胃癌约占胃癌总数的30%,预后最差。此外,应用较广的还有tnm分期(tumor-node-metastasis)。tnm分期按照肿瘤的大小、侵袭能力、淋巴结节个数以及是否发生近端或者远端转移,对胃癌病人进行分期。

lauren分型的预后能力有限,而tnm分期不能发现肿瘤的分子特征,对治疗的指导意义有限。tcga研究机构曾经根据胃癌基因组数据和转录组数据对胃癌进行分子分型,可分为4个亚型,分别为:ebv阳性、微卫星不稳定(msi)、基因组稳定和染色体不稳定型。其中75%的基因组稳定型是弥漫型胃癌。acrg研究机构将胃癌分为4个亚型,分别为:msi型、微卫星稳定/上皮细胞向间充质细胞转化型(mss/emt)、微卫星稳定/tp53阳性型和微卫星稳定/tp53阴性型。mss/emt型主要为弥漫型胃癌。tcga分型和acrg分型都是基于基因组和转录组数据进行的分型。而作为生命活动的最终执行者,蛋白质组数据进行分子分型并提出潜在有效的药物靶点具有重大的临床价值。目前尚未有采用蛋白质组学技术对胃癌进行分子分型的技术,针对胃癌分型中的弥漫型胃癌尚无进一步研究其亚型的手段。



技术实现要素:

本发明对弥漫型胃癌进行了进一步分型,得到三组临床特征和分子特征均有明显差异的亚型,并提供了筛选弥漫型胃癌分子分型的蛋白标志物的方法及其筛选得到的蛋白标志物,并提出了分子分型蛋白标志物的应用方法。

本发明提出lauren分型中的弥漫型胃癌可以进行进一步的分型。本发明提出,弥漫型胃癌可分为三类亚型:一类为细胞周期型(cellcyclesubtype)弥漫型胃癌px1,一类为上皮-间充质转化(epithelial-mesenchymaltransition,emt)型弥漫型胃癌px2,另一类为免疫富集型弥漫型胃癌px3。

三个亚型以其在临床特征或/和分子特征方面的明显差异做区分。

所述临床特征方面差异包括:(1)三个亚型的肿瘤原发部位差异显著(fisher’s精确检验p=0.000),一半以上的px3样本原发部位在胃窦区;(2)三个亚型的癌旁组织性质差异显著(fisher’s精确检验p=0.001),3/4以上的px2样本的癌旁只是有浅表性胃炎,不是慢性萎缩性胃炎或肠化生;(3)三个亚型的总生存时间差异显著(kaplan–meier分析p=0.038)。

所述分子特征方面差异包括:(1)px1和px2中癌和癌旁差异表达的蛋白富集在细胞周期和dna复制相关通路,而px3中癌和癌旁差异表达的蛋白未富集在细胞周期或dna复制相关通路中;(2)px1-3中癌和癌旁差异表达的蛋白均富集在e2f靶基因和myc靶基因的基因集中,但px1在这些通路中的富集程度更高;(3)px1中癌和癌旁差异表达的蛋白富集在rna处理和dna修复相关通路,而px2和px3中癌和癌旁差异表达的蛋白未富集在这些通路中;(4)px2和px3中癌和癌旁差异表达的蛋白富集在上皮-间充质转化过程、补体、细胞外基质和干扰素gamma响应的相关通路中,而px1中癌和癌旁差异表达的蛋白未富集在这些通路中;(5)px3中癌和癌旁差异表达的蛋白富集在nfkb介导的tnf-alpha信号通路、免疫响应和细胞粘附的相关通路中,而px1和px2中癌和癌旁差异表达的蛋白未富集在这些通路中。

通路富集分析均采用fisher’s精确检验。通路信息来自数据库msigdb(http://software.broadinstitute.org/gsea/msigdb)。

本发明另一目的是建立胃癌与癌旁的蛋白质组表达谱数据集的方法,包括:

(1)胃癌样本收集;

(2)胃癌蛋白样品制备;

(3)胃癌蛋白样品的质谱检测;

(4)胃癌蛋白样品的质谱数据分析;

(5)将所有样本对应的胃癌蛋白样品质谱数据归集,得到胃癌患者癌与癌旁的蛋白质组表达谱数据集。

步骤(1)胃癌样本收集为选取术前未接受新辅助放化疗的胃癌患者的癌组织与癌旁组织,要求癌组织样本中肿瘤细胞含量超过50%,癌旁组织样本中不含肿瘤细胞。

步骤(2)胃癌蛋白样品制备是将收集的组织样本裂解为全蛋白裂解液,再还原烷基化后用胰酶消化得到的肽即为胃癌蛋白样品。癌组织样本和癌旁组织样本分别制备并每一患者的两种样本配对。

步骤(3)胃癌蛋白样品的质谱检测包括对胃癌蛋白样品的肽进行srp液相分离为多个组分的肽段,对每个组分的肽段用液相色谱串联质谱系统进行检测,合并多个组分的检测结果得到该胃癌蛋白样品对应的全部蛋白质谱数据。

步骤(4)针对步骤(3)取得的胃癌蛋白样品的全部蛋白质谱数据在蛋白数据库中搜库、定量确定对应该胃癌蛋白样品中的蛋白种类、数量和各种蛋白的定量值fot。

以上所述方法得到的胃癌与癌旁的蛋白质组表达谱数据集也属于本发明。

所述数据集,包括全部样本归集的蛋白质的数量、种类以及各种蛋白的表达量(fot值)。

本发明进一步提供一种弥漫型胃癌分子分型蛋白标志物的筛选方法,包括:

1)采集数量为1/2s对来自弥漫型胃癌患者的癌与癌旁组织样本的蛋白表达谱数据,s为包括胃癌组织样本和胃癌旁组织样本全部样本的数量,s/2为患者人数,即样本人数;

2)对全部样本(s)对应的蛋白定量fot值(如所述胃癌与癌旁的蛋白质组表达谱数据集)进行筛查,要求定量的蛋白含有至少两条专属肽段(uniquepeptide),并且离子分值(ionscore)大于等于20,获得初筛数量q1的蛋白在全部样本中的fot值;

3)从q1数量的蛋白中选择在至少1/6×s个样本(占总样本数的六分之一)中fot值大于10-5的数量为q2的蛋白,并将fot值小于10-5的值用10-5替换;进一步从q2数量的蛋白中筛选在至少1/10×s/2个样本人数(占样本人数的十分之一)中t/n大于3倍,或者小于1/3倍的蛋白,共得到数量为q3个蛋白;

4)获取上述数量为q3蛋白fot的t/n的值,并对t/n的值取以10为底的对数变换;

5)采用一致性聚类(consensusclustering)对上述筛选得到的q3个蛋白在s样本中的log10(t/n)进行分子分型,得到蛋白质组学技术对弥漫型胃癌的3个亚型;

6)从初筛数量q1的蛋白中获取数量为q4弥漫型胃癌亚型的差异表达蛋白,根据差异表达的fdrpvalue和高表达3倍以上的频率与低表达1/3倍以上的频率的差值所占的比例两个指标来定义差异表达蛋白;

7)选取上一步骤中获得的数量q4的差异表达蛋白和用于一致性聚类的数量q3的蛋白的交集数量为q5的蛋白,采用pam进行分类器的构建分类器,选取分型平均错误率小于某一定值的数量为q6蛋白作为胃癌分子分型蛋白标志物,建立分型模型。

在本发明一个具体示例中,样本全部来自经lauren分型确定的弥漫型胃癌患者,利用以上方法步骤1)-步骤5)可以确定弥漫型胃癌的亚型,利用步骤1)-步骤5)结合步骤6)-7)得以确定弥漫型胃癌分子分型蛋白标志物。具体数据如下:

所述步骤1)弥漫型胃癌患者的癌与癌旁组织样本数量为84对,即1/2s样本人数为84,则全部样本s数量为168。

所述步骤2)初筛蛋白数量q1为9186个。

所述步骤3)蛋白数量q2为3619个,1/6×s个样本为28个,1/10×s/2个样本人数为8个。

所述步骤3)或步骤4)或步骤5)蛋白数量q3为2538个,步骤5)确定了弥漫型胃癌的3个亚型,分别命名为px1、px2和px3。

所述步骤6)差异表达蛋白数量q4为2264个。

所述步骤7)交集蛋白数量q5为875个,弥漫型胃癌的3个亚型的分型平均错误率为9.6%,确定的弥漫型胃癌分子分型蛋白标志物数量q6为199个。

以上方法筛选得到的弥漫型胃癌分子分型蛋白标志物也属于本发明。

本发明确定的所述弥漫型胃癌分子分型蛋白标志物,为以下199个用于对弥漫型胃癌进行分子分型的蛋白,其中蛋白rpl23、rpl21、rps15、rpl38、rpl27、rps27a、camp、rpl36、rpl27a、azu1、rpl7a、rpl30、mpo、rpl9、prtn3、rps20、sbds、elane、mmp9、rpl31、fkbp3、rpl24、rpl10、s100a8、snrpd2、rpl37a、rps18、ndufa6、ltf、rpl22、ndufs7、bccip、s100a9、atp5c1、hint2、rbbp9、srp14、atp5o、c4bpa、c1r、rpl8、isoc2可作为弥漫型胃癌px1亚型的标志物,蛋白slc4a2、atp4b、atp4a、dbt、clic6、vil1、ckm、gif、auh、nnt、idh2、glul、eci2、bckdha、pdia2、fabp1、c14orf159、echdc3、ckmt2、acss1、bckdhb、ndufb7、cyb5r1、mpc2、mfsd4、ndufb11、reg3a、apoo、slc25a4、mlycd、txnrd2、acat1、smim20、tmem126a、acadsb、serpinb5、pccb、c14orf2、got1、ca9、aldh4a1、chchd4、apool、fabp3、adck3、atp5f1、me3、dcxr、marc2、tpd52l1、ndufb5、aqp4、casp1、coa3、fam162a、ldhd、cox1、ndufa4、hip1r、cox4i1、crat、pdhx、coq10b、atp5l、ada、etfdh、bcat2、mtfp1、ndufb6、acads、tgfbi、gbas、nd4、fahd2a、ndufs7、tmem214、cth、coq9、ndufa11、nd1、ndufa3、aldh6a1、cox17、dlat、ndufa9、nudt19、ppif、sdhd、pcca、aldh5a1、nd5、fhl2、cox6c、atp5d、pdhb、aldh1l2、atpaf2、mccc2、bdh1、ndufs2、clca1、hint2、aco2、fbp2、ndufs4、ogdh、tppp3、mtx2、atp5a1、fgd4、carkd、pdlim1、rap1gap、cox3、suox、reg4、atp5b、mccc1、cox7a2l、cox2、ndufc2、oplah、ndufa7、l2hgdh、aifm1、pdlim3、vcan、oxct1、pc、cytb、pycard、nadk2、ndufab1、c21orf33、slc25a20、anpep、echdc2可作为弥漫型胃癌px2亚型的标志物,蛋白atp4a、atp4b、clic6、slc4a2、gif、glul、ckm、mpo、prtn3、nnt、azu1、idh2、mlycd、dbt、mmp9、c14orf2、camp、c14orf159、pdia2、ndufb11、atp5f1、ckmt2、auh、mpc2、aldh4a1、atp5l、ndufb5、fabp3、mfsd4、nd4、cox4i1、cyb5r1、nd1、slc25a4、bckdha、sdhd、mmp8、ca9、ndufb6、s100a12、apoo、bckdhb、coa3、txnrd2、tpd52l1、bpi、me3、hip1r、elane、mtfp1、cox1、itgam、pglyrp1、ndufa11、tmem126a、aqp4、vbp1、rpl27a、epcam、reg4、sf3a2、rpl22、gsdmb、rbp2、rpl30、srp14、snrpe、eif2ak2、rpl9、rps27a、sbds、acat2、me1、tppp3、dctpp1、rpl27、ugdh、fkbp3、cnn1、lsm4、otc、rbm39、reg3a、rbm14、rpl23、hsd17b2、serpinb5、fabp1、vil1可作为弥漫型胃癌px3亚型的标志物。

本发明进一步提供蛋白标志物对弥漫型胃癌(新样本)进行分子分型的方法,包括:

(a)采集弥漫型胃癌患者的癌与癌旁的蛋白表达谱数据;

(b)要求定量的蛋白含有至少两条专属肽段(uniquepeptide),并且离子分值(ionscore)大于等于20;

(c)将fot值小于10-5的值用10-5替换;

(d)获取每个蛋白fot的t/n的值,并做以10为底的log变换;

(e)将所述蛋白标志物的构成的模型,即199个蛋白分别在三个亚型中的重心值(表5)用于预测。计算新样本与三个亚型重心的秩相关系数(spearman’srankcorrelation),将这例样本归入秩相关系数最高的亚型。

本发明还提供弥漫型胃癌与癌旁的蛋白质组表达谱数据集,包括表1所列的9186个蛋白在84对样本中的表达值。

本发明还提供弥漫型胃癌分类器,包括表5所列的199个蛋白在三个亚型中的重心值。

本发明还包括84对弥漫型胃癌样本癌与癌旁的组织蛋白表达谱数据,基于蛋白表达谱数据对胃癌进行分型的方法、筛选用于分型的蛋白标志物的方法,筛选得到的199个蛋白标志物,以及蛋白标志物用于分型的方法。

一、84例弥漫型胃癌样本癌与癌旁的组织蛋白表达谱数据

1、收集弥漫型胃癌患者信息;采集符合条件的84例弥漫型胃癌患者的癌与癌旁组织;制备肿瘤组织的癌与癌旁的蛋白样品。

2、对癌与癌旁蛋白样品进行蛋白质组质谱测定、数据库搜索、肽段定量及蛋白拼接组装,确定每一个组织蛋白样品中的蛋白种类及各蛋白的定量,共鉴定到11340个基因产物。

二、基于蛋白表达谱数据对胃癌进行分型

基于蛋白表达谱数据对胃癌进行分型的流程图如图1所示。

1、基于肽段的专属性(uniquepeptide)和离子分值(ionscore)评分筛选蛋白,获得了9186个蛋白在84例样本的癌与癌旁组织中的表达值。

2、基于蛋白的表达水平和在样本中出现的频率和差异表达的频率,筛选得到表达水平较高(fot大于10-5),出现频率至少28(168/6)个样本,并且在至少8个样本中t/n大于3倍,或者小于1/3倍的2538个蛋白。

3、根据上述筛选得到的2538个蛋白,采用一致性聚类(consensusclustering)对84对样本的t/n的蛋白质组定量数据进行分子分型。最终得到了3个亚型(图2,图3,图4)。三个亚型之间的总生存时间存在差异(图5)。

三、筛选用于胃癌分型的199个蛋白标志物

1、采用sam软件计算三个亚型中每个亚型t与n的差异表达蛋白,初始数据集采用包含9186个蛋白,84对样本的数据集。我们选取samfdrq值<0.01,并且(高表达频率-低表达频率)/总检出频率>0.5的蛋白为显著高表达蛋白,而(高表达频率-低表达频率)/总检出频率<-0.5的蛋白为显著低表达蛋白。第一个亚型中获得了580个显著高表达的蛋白和8个显著低表达的蛋白;第二个亚型中获得了1016个显著高表达的蛋白和572个显著低表达的蛋白;第三个亚型中获得了457个显著高表达的蛋白和551个显著低表达的蛋白。共有2264个差异表达蛋白。

2、采用pam进行分类器的构建。初始蛋白集合采用上一步骤获得的2264个差异表达蛋白和2538个蛋白的交集共875个蛋白。将84对样本随机分为两个数据集。第一个数据集中包含随机抽取的62对样本(75%);剩下的22对样本(25%)作为第二个数据集。采用pam对第一个数据集中的样本进行分类,考虑到平均错误率和最终获得的蛋白集合的平衡,我们选取了平均错误率为9.6%的199个蛋白作为分型蛋白。将这199个蛋白的集合用于预测第二个数据集,错误率为4.5%(图7)。

四、应用199个蛋白标志物进行弥漫型胃癌的分子分型

应用199个蛋白标志物进行弥漫型胃癌的分子分型的流程图如图8所示。

1、采集成对的弥漫型胃癌的癌与癌旁的蛋白表达谱数据。

2、检测样本的蛋白质组表达谱。

3、要求定量的蛋白含有至少两条专属肽段(uniquepeptide),并且离子分值(ionscore)大于等于20。

4、将fot值小于10-5的值用10-5替换。获取199个蛋白中每个蛋白fot的t/n的值,并进行以10为底的log变换。

5、将之前用pam分析62例样本数据获得的模型,即199个蛋白分别在三个弥漫型胃癌亚型中的重心值(表5)用于预测新样本的分型:计算新样本与三个亚型重心的秩相关系数(spearman’srankcorrelation),将这例样本归入秩相关系数最高的亚型。

本发明提供弥漫型胃癌进一步分型获得的三个亚型,提供分子分型的蛋白标志物及其筛选方法和应用,包括84例弥漫型胃癌样本癌与癌旁的组织蛋白表达谱数据,基于蛋白表达谱数据对胃癌进行分型的方法以及用于胃癌分型的199个蛋白标志物。采用这种方法可以对lauren分型中的弥漫型胃癌进行进一步的分类。可分为三类:一类为细胞周期型(cellcyclesubtype)弥漫型胃癌,一类为上皮-间充质转化(epithelial-mesenchymaltransition,emt)型弥漫型胃癌,另一类为免疫富集型弥漫型胃癌。本发明为弥漫型胃癌的分类以及设计靶向药物奠定了基础。

附图说明

图1为流程图,显示本发明蛋白标志物的筛选流程。

图2为一致性聚类图,显示84对样本的t/n的蛋白质组定量数据进行分子分型

的一致性聚类图;类别1对应浅蓝色,类别2对应深蓝色,类别3对应绿色。

图3为累积分布函数曲线图(cdf),显示类别数为2至6时的累积分布函数曲线图,线条从左向右分别为类别数k=6、k=5、k=4、k=3和k=2。

图4为累计分布函数曲线下面积的折线图,显示图2的累积分布函数曲线(cdf)从k-1到k类增加的曲线下面积。

图5为三个亚型的生存曲线(kaplan-meieranalysis)图;线条由上向下分别对应px1、px2和px3。

图6为热图,具体为三个亚型中癌与癌旁差异表达的蛋白富集通路的热图。

图7为分型错误率曲线图,显示采用pam筛选蛋白标志物时采用的阈值及此阈值下的分型错误率。

图8为流程图,显示采用199个蛋白标志物进行分子分型的流程。

具体实施方式

本发明旨在提供一种获取胃癌、具体为弥漫型胃癌分子分型的方法,并进一步提出用于弥漫型胃癌分型的蛋白标志物。通过检测胃癌与癌旁的蛋白表达谱,可以发现癌与癌旁的差异表达蛋白,并进一步发现新的胃癌分子亚型,筛选新的蛋白标志物。

本发明具体通过收集弥漫型胃癌样本,对癌与癌旁组织进行蛋白质组定量,基于蛋白质组表达谱数据对弥漫型样本进行分子分型,筛选弥漫型胃癌亚型中的差异表达蛋白以及筛选用于分型的蛋白标志物。蛋白质组的概念是指细胞内、组织内、体液内或个体内全部种类蛋白的集合。本发明中,蛋白质组特指胃癌或癌旁组织样本中所包括的全部不同种类的蛋白。

为达成以上成果,本发明结合图1所示蛋白标志物的筛选流程和图8所示采用所确定的蛋白标志物进行分子分型的流程就以下几方面内容做出说明:

一、胃癌样本收集

胃癌样本收集是指选取术前未接受新辅助放化疗的胃癌患者的癌组织与癌旁组织,要求癌组织样本中肿瘤细胞含量超过50%,癌旁组织样本中不含肿瘤细胞。以下述描述为实例,其中弥漫型胃癌及其数据仅为示例,不作为限制:

2012年12月至2015年7月于北京肿瘤医院进行全胃切除术或胃大部切除术的胃癌患者共2451例,根据患者资料进行了初筛,排除了术前接受新辅助放化疗患者428例、病理诊断为胃间质瘤患者92例、lauren分型为肠型胃癌患者751例及混合型胃癌患者644例、保存的新鲜肿瘤组织或癌旁组织太小无法开展研究者390例,2例患者既往具有恶性肿瘤病史。剩余144例弥漫型胃癌进行后续深入筛选。分析上述144例弥漫型胃癌患者的新鲜肿瘤组织及配对癌旁正常组织的苏木精-伊红(hematoxylinandeosin,h&e)染色结果后,排除了肿瘤组织中肿瘤细胞含量不足50%者56例、癌旁正常组织中含有少量肿瘤细胞者3例、癌旁正常组织中含有大量肌纤维者1例,得到来自84例患者的癌组织与癌旁组织样本84对。

二、胃癌蛋白样品的制备

本发明中,“样本”特指收集的组织样本,用于检测的称为“样品”。

1、称取空ep管重量并做好标记。每一对癌组织(tumor,t)及配对的癌旁正常组织(nearbytissue,n)样本保证同时平行处理。组织样本由-80℃取出后,首先在ep管内称重并核对、记录,埋入冰盒。在ep管中加入约5倍体积8murea蛋白裂解液,同时加入pmsf,使用一次性研磨棒碾碎,随后进行一分钟超声裂解(3秒开始,3秒间歇,振幅25%),之后置于冰上裂解15分钟,期间不时弹动。

2、裂解液于14000g,15℃条件下离心10分钟,吸取上清至新ep管,记录上清体积,即为全蛋白裂解液。

3、考马斯亮蓝(bradford)法蛋白浓度测定,记录蛋白浓度。每例样本取相当于100μg全蛋白的裂解液,余下部分存于-80℃冰箱,登记入库。

4、在100μg全蛋白裂解液中,加入10mmdtt,在56℃摇床震荡30分钟,冷却至室温后加入10mmiaa,置于避光条件下30分钟,完成还原烷基化过程。

5、在完成还原烷基化的裂解液中加入5倍体积的ph8.2tris-hcl,终浓度1mm的cacl2,使溶液呈弱碱性。按照胰酶:蛋白为1:50的比例(质量比),确定用于消化蛋白的胰酶量,在裂解液中加入3/4胰酶的量,全部转入0.5ml离心管中,37℃旋转消化过夜。次日添加剩余1/4胰酶,消化4小时。消化完成后加入1/100体积甲酸终止消化,并离心取上清,于真空泵中抽干,得到消化后肽样品。每一个组织样本对应一个肽样品即胃癌蛋白样品。

三、胃癌蛋白样品的质谱检测

1、srp液相分离

肽样品首次分离,使用特别制作的用tip头填充的反向c18分离柱。该反向c18分离柱是在tip头底部制作c18筛板,将c18填料悬浮于乙腈并填充于tip头中,制作为分离柱。使用50%乙腈对该分离柱进行两次冲洗,ph=10的缓冲液(10mm碳酸氢铵)平衡分离柱,同时使用ph=10的缓冲液对步骤二中抽干的肽样品复溶,复溶后的肽样品重复四次载入分离柱,之后采用逐渐升高的梯度比例乙腈溶液进行肽样品洗脱,洗脱乙腈浓度依次为6%、9%、12%、15%、18%、21%、25%、30%和35%(体积浓度)。得到的9个浓度洗脱溶液合并(6%和25%合并,9%和30%合并,12%和35%合并)分为6组分的肽段,真空抽干后用于质谱检测。

2.肽样品质谱检测

每个组分的肽段使用orbitrapfusion串联easy-nlc1000液相色谱串联质谱系统进行检测,合并6个组分的检测结果得到该肽样品对应的全部蛋白的质谱数据。具体操作为:

抽干的肽段使用a液(0.1%甲酸)复溶,上样至trap柱(100μm×2cm,粒子大小,3μm;孔径大小,),后在分析柱上进行分离(150μm×12cm,粒子大小,1.9μm;孔径大小,),梯度为3%-30%的b液(0.1%甲酸溶于乙腈)洗脱,流速600nl/min,合计洗脱75分钟。

质谱检测参数设置如下,母离子使用orbitrap进行扫描,扫描范围为质荷比(m/z)300-1400,使用120000(200m/z)的分辨率。母离子使用top-speed模式,在quadrupole进行选择后(1.6m/z分离窗隔离窗口)的母离子使用hcd(higherenergycollisioninduceddissociation,高能碰撞诱导解离)进行碎裂,碎裂能量35%。子离子碎片在线性离子阱中进行检测,质谱参数设置如下:在一级全扫描时,离子阱中允许进入的最大离子数(automaticgaincontroltarget,agctarget)为5e5ions,最大注入时间50ms,ms/ms二级扫描agctarget为5e3,最大注入时间35ms,动态排除设定18秒。液相色谱串联质谱系统使用xcalibur软件控制进行数据采集。

四、胃癌蛋白样品的质谱数据分析

质谱鉴定得到的图谱,使用搭载mascot2.3的proteomediscover1.4搜库,数据库使用人源ncbi(humannationalcenterforbiotechnologyinformation)蛋白数据库(04-07-2013版本,共32015个蛋白种类)。

搜库参数设置如下:

fusion:母离子质量偏差范围质谱低限(masstolerances)为20个ppm,子离子为0.5da。

最大允许两个漏切位点,固定修饰为carbamidomethyl(c),动态修饰为proteinacetyl(proteinn-term),oxidation(m)。母离子电量限制在+2,+3,+4,+5和+6。同时使用正反库交叉搜索,肽段水平设定1%错误发现率(falsediscoveryrate,fdr)。

本发明采用无标定量,计算方法为无标记,基于强度的绝对定量方法(intensity-basedabsolutequantification,ibaq)。本研究多采用fot(fractionoftotal)来表示蛋白定量,即某一蛋白的ibaq值除以该实验样本整体ibaq总和的值。

通过该步骤获得每一胃癌蛋白样品(与每一组织样本匹配)对应的蛋白质组数据集,包括蛋白的种类、数量和各种蛋白的定量值。实例中84对样本得到配对的84对蛋白质组数据。

五、胃癌分子分型

对全部样本(实例84对168例样本)对应的蛋白定量fot值进行了筛查,要求定量的蛋白含有至少两条专属肽段(uniquepeptide),并且离子分值(ionscore)大于等于20。通过筛选,实例中获得了9186个蛋白在84对样本的癌与癌旁组织中的表达值(表1)。

表1:9186个蛋白在84对样本的癌(t)与癌旁(n)组织中的表达值(fot值,×10-5)

通过分析蛋白表达值的变异系数,发现当蛋白表达值为10-5时,蛋白的变异系数可降到30%左右。9186个蛋白中的6143个蛋白在至少1个组织表达谱中fot值大于10-5。为了采用有共性的蛋白进行分子分型,进一步筛选出3619个蛋白在至少28个样本(全部样本的六分之一)中fot值大于10-5,将fot值小于10-5的值用10-5替换,其中2538个蛋白在至少8个样本(全部样本的十分之一)中t/n大于3倍,或者小于1/3倍。t代表癌组织样本中的蛋白定量值,n代表癌旁组织样本中的蛋白定量值。

根据上述筛选得到的2538个蛋白,对t/n的值取以10为底的log变换(参见表2),采用一致性聚类(consensusclustering)对84对样本的t/n的蛋白质组定量数据进行分子分型。

表2:2538个蛋白在84对样本的癌(t)与癌旁(n)组织中蛋白fot值比值以10为底的对数(log10(t/n))

根据上述筛选得到的2538个蛋白在84对样本中的log10(t/n)(表2)进行分子分型。分型采用一致性聚类算法(consensusclustering),使用consensusclusterplus的r(https://www.r-project.org/)程序包(montis(2003)machinelearning52:91-118,wilkersonm.d.(2010)bioinformatics26(12):1572-3)。分型数目的选取如下:如果大部分样本对的一致性指数(consensusindex)在0附近(图3),那么cdf曲线下面积就会显著增加,而随着分类数目的增加,cdf曲线下面积增加越来越不明显(图4),部分是由于新的分类中样本数太少,或者样本分类不稳定。因此综合考虑选取分型数目k=3,一致性聚类图参见图2,因此,最终得到了弥漫型胃癌三个亚型px1、px2和px3(如图2中1/2/3所示)。

六、胃癌分型的临床特征和分子特征

根据蛋白质组表达谱数据获得的弥漫型胃癌三个亚型px1-px3与现有的tnm分期无关(p=0.266)。三个亚型与肿瘤原发部位有关(p=0.000),一半以上的px3样本原发部位在胃窦区。此外,三个亚型与癌旁组织性质有关(p=0.001),3/4以上的px2样本的癌旁只是有浅表性胃炎,不是慢性萎缩性胃炎或肠化生(见表3)。统计检验均采用fisher’sexacttest。三个亚型的总生存时间存在差异(见图5),统计检验采用kaplan-meieranalysis。

表3:亚型与临床指标的相关性

三个亚型的临床特征和分子特征均有明显差异。临床特征方面差异:(1)三个亚型的肿瘤原发部位差异显著(fisher’s精确检验p=0.000),一半以上的px3样本原发部位在胃窦区;(2)三个亚型的癌旁组织性质差异显著(fisher’s精确检验p=0.001),3/4以上的px2样本的癌旁只是有浅表性胃炎,不是慢性萎缩性胃炎或肠化生;(3)三个亚型的总生存时间差异显著(kaplan–meier分析p=0.038)。

三个亚型的分子特征方面的差异:(1)px1和px2中癌和癌旁差异表达的蛋白富集在细胞周期和dna复制相关通路,而px3中癌和癌旁差异表达的蛋白未富集在细胞周期或dna复制相关通路中;(2)px1-3中癌和癌旁差异表达的蛋白均富集在e2f靶基因和myc靶基因的基因集中,但px1在这些通路中的富集程度更高;(3)px1中癌和癌旁差异表达的蛋白富集在rna处理和dna修复相关通路,而px2和px3中癌和癌旁差异表达的蛋白未富集在这些通路中;(4)px2和px3中癌和癌旁差异表达的蛋白富集在上皮-间充质转化过程、补体、细胞外基质和干扰素gamma响应的相关通路中,而px1中癌和癌旁差异表达的蛋白未富集在这些通路中;(5)px3中癌和癌旁差异表达的蛋白富集在nfkb介导的tnf-alpha信号通路、免疫响应和细胞黏附的相关通路中,而px1和px2中癌和癌旁差异表达的蛋白未富集在这些通路中(图6)。通路富集分析均采用fisher’s精确检验,通路信息来自数据库msigdb(http://software.broadinstitute.org/gsea/msigdb)。

确定第一亚型为细胞周期型弥漫型胃癌px1,第二亚型为上皮-间充质转化型弥漫型胃癌px2,第三亚型为免疫富集型弥漫型胃癌px3。

七、胃癌分型的差异表达蛋白

根据差异表达的fdrpvalue和高表达3倍以上的频率与低表达1/3倍以上的频率的差值所占的比例两个指标来定义差异表达蛋白。

首先采用sam软件计算弥漫型胃癌三个亚型中每个亚型t与n组织表达谱中fdr<0.01的蛋白,其中(高表达3倍以上频率-低表达1/3以上频率)/总检出频率>0.5的蛋白为显著高表达蛋白,而(高表达3倍以上频率-低表达1/3以上频率)/总检出频率<-0.5的蛋白为显著低表达蛋白。结果第一个亚型px1中获得了580个显著高表达的蛋白和8个显著低表达的蛋白;第二个亚型px2中获得了1016个显著高表达的蛋白和572个显著低表达的蛋白;第三个亚型px3中获得了457个显著高表达的蛋白和551个显著低表达的蛋白。三个亚型共3184个显著高表达(上调)的蛋白或显著低表达(下调)的蛋白去冗余后得到2264个蛋白列于表4。

表4:弥漫型胃癌亚型的2264个差异表达蛋白

八、用于胃癌分子分型的标志物

用于胃癌分子分型的分类器的建立,包括发现、验证及测试三个阶段,即将样本fot的log10(t/n)数据(见表2)随机分成两个独立数据集,在第一个独立数据集中进行训练、验证获得分类器,得到用于弥漫型胃癌分子分型的蛋白标志物,然后采用第二个独立数据集进行测试。实施例中将弥漫型胃癌84对样本随机分为两个数据集,第一个数据集中包含随机抽取的62对样本(75%);剩下的22对样本(25%)作为第二个数据集。

对第一个数据集中的62对样本采用predictionanalysisofmicroarray(pam)算法(narashimanandchu(2002)pnas99:6567-6572)进行分类器的构建。pam采用重心邻近法(nearestcentroid),蛋白在每个亚型中的重心值=蛋白在每一个亚型中的平均值/蛋白的组内方差。用于新样本的分类时,先提取新样本的蛋白表达谱,然后计算这一例样本与三个亚型重心的秩相关系数(spearman’srankcorrelation),将这例样本归入秩相关系数最高的亚型。pam在估计错误率时采用10倍交叉验证法,首先将62对样本随机分为10等分,这10等分中的三个亚型基本也是平均分布的。用90%的样本进行建模,用剩下的10%样本进行测试,如此重复10次,计算测试10次的错误率的平均值。采用2264个差异蛋白(表4)和2538个ifot大于1的蛋白(表2)的交集共875个蛋白进行计算。软阈值(softthreshold)用于筛选蛋白集合,当阈值为0时,是初始的875个蛋白构成的集合。随着阈值的增大,蛋白集合中包含的蛋白越来越少,错误率逐渐增大(图7,采用pam筛选蛋白标志物时采用的阈值及此阈值下的平均分型错误率)。考虑到平均错误率和最终获得的蛋白集合的平衡,选取了平均错误率为9.6%(图7中三角形标识,见表6-1)的199个蛋白(表5)建立的模型作为分型模型。

将这199个蛋白的构成的模型用于预测第二个数据集,结果平均错误率为4.5%(见表6-2)。

表5:用于分类器的199个蛋白

表6-1:第一个数据集(62例样本)的分型错误率

表6-2:第二个数据集(22例样本)的分型错误率

因此可确定该199个蛋白作为用于弥漫型胃癌分子分型的标志物,其中:

蛋白rpl23、rpl21、rps15、rpl38、rpl27、rps27a、camp、rpl36、rpl27a、azu1、rpl7a、rpl30、mpo、rpl9、prtn3、rps20、sbds、elane、mmp9、rpl31、fkbp3、rpl24、rpl10、s100a8、snrpd2、rpl37a、rps18、ndufa6、ltf、rpl22、ndufs7、bccip、s100a9、atp5c1、hint2、rbbp9、srp14、atp5o、c4bpa、c1r、rpl8、isoc2可作为px1亚型的标志物;

蛋白slc4a2、atp4b、atp4a、dbt、clic6、vil1、ckm、gif、auh、nnt、idh2、glul、eci2、bckdha、pdia2、fabp1、c14orf159、echdc3、ckmt2、acss1、bckdhb、ndufb7、cyb5r1、mpc2、mfsd4、ndufb11、reg3a、apoo、slc25a4、mlycd、txnrd2、acat1、smim20、tmem126a、acadsb、serpinb5、pccb、c14orf2、got1、ca9、aldh4a1、chchd4、apool、fabp3、adck3、atp5f1、me3、dcxr、marc2、tpd52l1、ndufb5、aqp4、casp1、coa3、fam162a、ldhd、cox1、ndufa4、hip1r、cox4i1、crat、pdhx、coq10b、atp5l、ada、etfdh、bcat2、mtfp1、ndufb6、acads、tgfbi、gbas、nd4、fahd2a、ndufs7、tmem214、cth、coq9、ndufa11、nd1、ndufa3、aldh6a1、cox17、dlat、ndufa9、nudt19、ppif、sdhd、pcca、aldh5a1、nd5、fhl2、cox6c、atp5d、pdhb、aldh1l2、atpaf2、mccc2、bdh1、ndufs2、clca1、hint2、aco2、fbp2、ndufs4、ogdh、tppp3、mtx2、atp5a1、fgd4、carkd、pdlim1、rap1gap、cox3、suox、reg4、atp5b、mccc1、cox7a2l、cox2、ndufc2、oplah、ndufa7、l2hgdh、aifm1、pdlim3、vcan、oxct1、pc、cytb、pycard、nadk2、ndufab1、c21orf33、slc25a20、anpep、echdc2可作为px2亚型的标志物;

蛋白atp4a、atp4b、clic6、slc4a2、gif、glul、ckm、mpo、prtn3、nnt、azu1、idh2、mlycd、dbt、mmp9、c14orf2、camp、c14orf159、pdia2、ndufb11、atp5f1、ckmt2、auh、mpc2、aldh4a1、atp5l、ndufb5、fabp3、mfsd4、nd4、cox4i1、cyb5r1、nd1、slc25a4、bckdha、sdhd、mmp8、ca9、ndufb6、s100a12、apoo、bckdhb、coa3、txnrd2、tpd52l1、bpi、me3、hip1r、elane、mtfp1、cox1、itgam、pglyrp1、ndufa11、tmem126a、aqp4、vbp1、rpl27a、epcam、reg4、sf3a2、rpl22、gsdmb、rbp2、rpl30、srp14、snrpe、eif2ak2、rpl9、rps27a、sbds、acat2、me1、tppp3、dctpp1、rpl27、ugdh、fkbp3、cnn1、lsm4、otc、rbm39、reg3a、rbm14、rpl23、hsd17b2、serpinb5、fabp1、vil1可作为px3亚型的标志物。

以下结合实施例说明本发明。

实施例1:

本实施例说明建立胃癌患者癌与癌旁的蛋白质组表达谱数据集的过程。建立数据集的过程包括:

1、胃癌样本收集:选取术前未接受新辅助放化疗的弥漫型胃癌患者的癌与癌旁组织,要求肿瘤细胞含量超过50%并且癌旁组织中不含肿瘤细胞。收集的癌组织与癌旁组织统称胃癌样本。

2、胃癌蛋白样品制备。

(1)称取空ep管重量并做好标记。每一对癌组织(tumor,t)及配对的癌旁正常组织(nearbytissue,n)样本保证同时处理。组织样本由-80℃取出后,首先在ep管内称重并核对、记录,埋入冰盒。在ep管中加入约5倍体积8murea蛋白裂解液,同时加入pmsf,使用一次性研磨棒碾碎,随后进行一分钟超声裂解(3秒开始,3秒间歇,振幅25%),之后置于冰上裂解15分钟,期间不时弹动。

(2)裂解液于14000g,15℃条件下离心10分钟,吸取上清至新ep管,记录上清体积,即为全蛋白裂解液。

(3)考马斯亮蓝(bradford)法蛋白浓度测定,记录蛋白浓度。每例样本取相当于100μg全蛋白的裂解液,余下部分存于-80℃冰箱,登记入库。

(4)在100μg全蛋白裂解液中,加入10mmdtt,在56℃摇床震荡30分钟,冷却至室温后加入10mmiaa,置于避光条件下30分钟,完成还原烷基化过程。

(5)在完成还原烷基化的裂解液中加入5倍体积的ph8.2tris-hcl,终浓度1mm的cacl2,使溶液呈弱碱性。按照胰酶:蛋白为1:50的比例(质量比),确定用于消化蛋白的胰酶量,在裂解液中加入3/4胰酶的量,全部转入0.5ml离心管中,37℃旋转消化过夜。次日添加剩余1/4胰酶,消化4小时。消化完成后加入1/100体积甲酸终止消化,并离心取上清,于真空泵中抽干,得到消化后肽样品。每一组织样本对应一个肽样品。

3、胃癌蛋白样品的质谱检测。

(1)srp液相分离

肽样品首次分离,使用特别制作的用tip头填充的反向c18分离柱。该反向c18分离柱是在tip头底部制作c18筛板,将c18填料悬浮于乙腈并填充于tip头中,制作为分离柱。使用50%乙腈对该分离柱进行两次冲洗,ph=10的缓冲液(10mm碳酸氢铵)平衡分离柱,同时使用ph=10的缓冲液对步骤二中抽干的肽样品复溶,复溶后的肽样品重复四次载入分离柱,之后采用逐渐升高的梯度比例乙腈溶液进行肽样品洗脱,洗脱乙腈浓度依次为6%、9%、12%、15%、18%、21%、25%、30%和35%(体积浓度)。得到的9个浓度洗脱溶液合并为6组分的肽样品,真空抽干后用于质谱检测。

(2)肽样品质谱检测

每个组分的肽样品使用orbitrapfusion串联easy-nlc1000液相色谱串联质谱系统进行检测,并得到该肽样品对应的质谱数据。

抽干的肽样品使用a液(0.1%甲酸)复溶,上样至trap柱(100μm×2cm,粒子大小,3μm;孔径大小,),后在分析柱上进行分离(150μm×12cm,粒子大小,1.9μm;孔径大小,),梯度为3%-30%的b液(0.1%甲酸溶于乙腈)洗脱,流速600nl/min,合计洗脱75分钟。

质谱检测参数设置如下,母离子使用orbitrap进行扫描,扫描范围为质荷比(m/z)300-1400,使用120000(200m/z)的分辨率。母离子使用top-speed模式,在quadrupole进行选择后(1.6m/z分离窗隔离窗口)的母离子使用hcd(higherenergycollisioninduceddissociation,高能碰撞诱导解离)进行碎裂,碎裂能量35%。子离子碎片在线性离子阱中进行检测,质谱参数设置如下:在一级全扫描时,离子阱中允许进入的最大离子数(automaticgaincontroltarget,agctarget)为5e5ions,最大注入时间50ms,ms/ms二级扫描agctarget为5e3,最大注入时间35ms,动态排除设定18秒。液相色谱串联质谱系统使用xcalibur软件控制进行数据采集。

4、胃癌蛋白样品的质谱数据分析。

质谱鉴定得到的图谱,使用搭载mascot2.3的proteomediscover1.4搜库,数据库使用人源ncbi(humannationalcenterforbiotechnologyinformation)蛋白数据库(04-07-2013版本,共32015个蛋白种类)。

搜库参数设置如下:

fusion:母离子质量偏差范围质谱低限(masstolerances)为20个ppm,子离子为0.5da。

最大允许两个漏切位点,固定修饰为carbamidomethyl(c),动态修饰为proteinacetyl(proteinn-term),oxidation(m)。母离子电量限制在+2,+3,+4,+5和+6。同时使用正反库交叉搜索,肽段水平设定1%错误发现率(falsediscoveryrate,fdr)。

本发明采用无标定量,计算方法为无标记,基于强度的绝对定量方法(intensity-basedabsolutequantification,ibaq)。本研究多采用fot(fractionoftotal)来表示蛋白定量,即某一蛋白的ibaq值除以该实验样本整体ibaq总和的值。

通过该步骤获得每一蛋白样品(与每一组织样本匹配)对应的蛋白质组数据集,包括蛋白的种类、数量和各种蛋白的定量值。

实施例1的实施结果参见前述第一至第四部分。

实施例2:

本实施例说明如何采用分类器对弥漫型胃癌患者进行分子分型。

分子分型的过程包括:

1、采集弥漫型胃癌的癌与癌旁的蛋白表达谱数据。

2、对全部样本对应的蛋白定量fot值进行筛查,要求定量的蛋白含有至少两条专属肽段(uniquepeptide),并且离子分值(ionscore)大于等于20。

3、将fot值小于10-5的值用10-5替换。

4、获取每个蛋白fot的log10(t/n)的值。

5、将这199个蛋白的构成的模型,即199个蛋白分别在三个亚型中的重心值(表5)用于预测:计算新样本与三个亚型重心的秩相关系数(spearman’srankcorrelation),将这例样本归入秩相关系数最高的亚型。例如新样本与三个亚型重心的秩相关系数分别为:px1:0.2,px2:0.8和px3:0.1,则新样本归于px2。

实施例2的实施结果参见前述第五至第八部分。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1