表观基因组分析揭示了原发性胃腺癌的体细胞启动子局面的制作方法

文档序号:16362890发布日期:2018-12-22 08:16阅读:410来源:国知局
本申请要求2016年2月16日提交的新加坡申请第10201601142v号的优先权,为了所有目的,将该申请的全部内容通过引用并入本文。本发明涉及用于确定相对于非癌性生物样品,癌性生物样品中是否存在至少一种启动子的方法。
背景技术
:胃癌(gc)是全球癌症死亡率的第三大主要原因,在许多东亚国家中患病率很高。正如最近几项负面的ii期和iii期临床试验所例证的,gc患者经常呈晚期疾病,因此,临床管理仍然具有挑战性。在分子水平上,研究已经确定了gc的特征基因突变、拷贝数改变、基因融合和转录模式。然而,除her2阳性gc和曲妥珠单抗(traztuzumab)外,这些中几乎没有已在临床上转化为靶向疗法。因此,迫切需要对gc进行额外和更全面的探索,因为这些探索可能强调了用于疾病检测的新生物标志物、预测患者预后或对治疗的应答,以及新的治疗方式。启动子元件是顺式调节元件,其功能是将基因转录起始与上游调节刺激物相连,整合来自不同信号传导通路的输入。启动子代表了生物多样性、功能多样性和调节多样性的重要储存库,因为目前的估计表明人类基因组中30-50%的基因与多个启动子相关,这些启动子可以根据发育谱系和细胞状态而被选择性激活。替代启动子(alternativepromoter)的差异使用导致在转录物中生成不同的5'非翻译区(5'utr)和第一外显子,这转而可以通过5'编码结构域的增益和丧失影响mrna表达水平、翻译效率和不同蛋白同种型的生成。迄今为止,已经在逐个基因的基础上对癌症中的启动子改变进行了大量研究,并且关于gc和其他实体恶性肿瘤中启动子水平多样性的全局程度知之甚少。因此,需要分析癌症中启动子元件的方法。概述一方面,提供了用于确定相对于非癌性生物样品,癌性生物样品中是否存在至少一种启动子的方法,包括:使癌性生物样品与至少一种对组蛋白修饰h3k4me3和h3k4me1具有特异性的抗体接触;从癌性生物样品中分离h3k4me3相对于h3k4me1的信号比大于1的核酸,其中分离的核酸包含至少一个对所述组蛋白修饰具有特异性的区域;检测分离的核酸中的h3k4me3信号强度;以及基于h3k4me3信号强度相对于非癌性生物样品中h3k4me3信号强度的变化,确定癌性生物样品中是否存在至少一种启动子。另一方面,提供了一种用于确定个体中癌症的预后的方法,包括:使获得自个体的癌性生物样品与至少一种对组蛋白修饰h3k4me3和h3k4me1具有特异性的抗体接触;从癌性生物样品中分离h3k4me3相对于h3k4me1的信号比大于1的核酸,其中分离的核酸包含至少一个对所述组蛋白修饰具有特异性的区域;检测分离的核酸中的h3k4me3信号强度;和基于h3k4me3信号强度相对于参考核酸序列中h3k4me3信号强度的变化,确定癌性生物样品中是否存在至少一种癌症相关启动子,其中癌性生物样品中至少一种癌症相关启动子的存在与否指示个体中癌症的预后。另一方面,提供了用于检测个体中癌症的生物标志物,所述生物标志物包含至少一种相对于非癌性生物样品,在癌性生物样品中h3k4me3信号强度发生变化的启动子。另一方面,提供了调节细胞中至少一种癌症相关启动子活性的方法,包括向细胞施用ezh2的抑制剂。另一方面,提供了用于调节个体对癌症的免疫应答的方法,包括向个体施用ezh2的抑制剂,其中ezh2与个体中的至少一种癌症相关启动子相关。另一方面,提供了用于确定相对于非癌性生物样品,癌性生物样品中是否存在至少一种癌症相关启动子的方法,包括:使癌性生物样品与至少一种对组蛋白修饰h3k4me3和h3k4me1具有特异性的抗体接触;从癌性生物样品中分离h3k4me3相对于h3k4me1的信号比大于1的核酸,其中分离的核酸包含至少一个对所述组蛋白修饰具有特异性的区域;检测分离的核酸中的h3k4me3信号强度,读取深度为20m;和基于h3k4me3信号强度相对于非癌性生物样品中h3k4me3信号强度的变化,确定癌性生物样品中是否存在至少一种癌症相关启动子。一方面,提供了用于检测个体中的癌症、包含至少一种启动子的生物标志物,相对于非癌性生物样品,在癌性生物样品中所述启动子的h3k4me3信号强度发生变化。一方面,提供了包含至少一种启动子的生物标志物在制造用于检测个体中的癌症的药物中的用途,相对于非癌性生物样品,在癌性生物样品中所述启动子的h3k4me3信号强度发生变化。一方面,提供了用于调节细胞中至少一种癌症相关启动子活性的ezh2的抑制剂。一方面,提供了ezh2的抑制剂在制造用于调节细胞中至少一种癌症相关启动子活性的药物中的用途。一方面,提供了用于调节个体对癌症的免疫应答的ezh2的抑制剂,其中ezh2与个体中的至少一种癌症相关启动子相关。在一个方面,提供了ezh2的抑制剂在制造用于调节个体对癌症的免疫应答的药物中的用途,其中ezh2与个体中的至少一种癌症相关启动子相关。定义以下是可能有助于理解本发明的描述的一些定义。这些定义旨在作为一般性定义,并且绝不应将本发明的范围仅限于这些术语,而是为了更好地理解以下描述而提出的。如本文所用,术语“启动子”意指启动特定基因转录的dna区域。如本文所用,术语“癌性”涉及受以癌症为特征的异常影响或显示出以癌症为特征的异常。如本文所用,术语“生物样品”是指已从患者获得、移除或分离的患者的组织样品或细胞样品。本文所用的术语“获得自或源自”意在包括使用。也就是说,意图包括直接分离自生物样品的任何核苷酸序列或源自样品的任何核苷酸序列。如本文所用,本文所用的术语“一种/个抗体”或“多种/个抗体”是指具有免疫球蛋白样结构域的分子,并包括抗原结合片段、单克隆抗体、重组抗体、多克隆抗体、嵌合抗体、全人抗体、人源化抗体、双特异性抗体和异源共轭抗体(heteroconjugateantibody);单可变结构域、单链fv、结构域抗体、免疫有效片段和双抗体。本说明书中所用的与抗原结合蛋白相关的术语“特异性结合”是指,抗原结合蛋白与抗原上靶表位结合的亲和力大于结合非靶表位时的亲和力。在某些实施方案中,特异性结合是指与靶标结合的亲和力是对非靶表位的亲和力的至少10、50、100、250、500或1000倍。例如,结合亲和力可以通过常规方法来测量,例如通过竞争elisa或通过用biacoretm、kinexatm或proteontm测量kd。如本文所用,术语“分离的”指生物组分(例如核酸分子、蛋白或细胞器)已基本上与天然存在所述组分的生物体细胞中的其他生物组分即其他染色体和染色体外dna和rna、蛋白和细胞器分离或纯化。已经“分离”的核酸和蛋白包括通过标准纯化方法纯化的核酸和蛋白。该术语还包括通过在宿主细胞中重组表达制备的核酸和蛋白以及化学合成的核酸。如本文所用,术语“核酸”是指单链或双链形式的脱氧核糖核苷酸或核糖核苷酸聚合物,并且除非另有限制,否则包括已知的以与天然存在的核苷酸相似的方式与核酸杂交的天然核苷酸的类似物。“核苷酸”包括但不限于这样的单体,所述单体包括与糖连接的碱基,例如嘧啶、嘌呤或其合成类似物,或与氨基酸连接的碱基,如在肽核酸(pna)中。核苷酸是多核苷酸中的一个单体。核苷酸序列是指多核苷酸中碱基的序列。本文所用的术语“预后”或其语法变体是指对临床疾病状况或疾病的可能过程和后果的预测。通常通过评估指示疾病的有利或不利过程或后果的疾病的因子或症状来进行患者的预后。术语“预后”并不是指以100%准确度预测疾病状况的过程或后果的能力。相反,术语“预后”是指某一过程或后果将发生的概率增加;也就是说,当与没有表现出疾病状况的那些个体相比时,在表现出给定疾病状况的患者中更可能发生所述过程或后果。如本文所用,术语“调节”意指将免疫应答调整至所需水平。如本文所用,术语“注释的启动子”是指位置接近于已知的gencode转录起始位点(tss)(<500bp)的启动子。术语“未注释的启动子”是指定位于缺乏已知的gencodetss的基因组区域的启动子。如本文所用,在启动子的上下文中,术语“规范的(canonical)”是指表现出未改变的h3k4me3峰的启动子区域。如本文所用,术语“可检测标记”或“报告子(reporter)”是指可附着于核酸的可检测标志物或报告分子(reportermolecule)。典型的标记包括荧光团、放射性同位素、配体、化学发光剂、金属溶胶和胶体以及酶。用于标记的方法和选择用于各种目的的标记的指南讨论于例如sambrooketal.,molecularcloning:alaboratorymanual(分子克隆:实验室手册),coldspringharborlaboratorypress(1989)和ausubeletal.,currentprotocolsinmolecularbiology(现代分子生物学实验技术),greenepublishingassociatesandwiley-intersciences(1987)中。如本文所用,术语“低甲基化(hypomethylated)”是指dna的正常甲基化水平降低。如本文所用,术语“高甲基化”是指dna的正常甲基化水平增加。如本文所用,在制剂组分浓度的上下文中,术语“约”通常表示所述值的+/-5%,更通常为所述值的+/-4%,更通常为所述值的+/-3%,更通常为所述值的+/-2%,甚至更通常为所述值的+/-1%,以及甚至更通常为所述值的+/-0.5%。在整篇本公开中,某些实施方案可以以范围(range)的形式公开。应当理解,范围形式的描述仅仅是为了方便和简洁,并且不应当解释为对所公开范围的不可改变的限制。因此,应该认为范围的描述具体公开了所有可能的子范围(sub-range)以及所述范围内的各个数值。例如,应当认为对范围例如1-6的描述已经具体公开了诸如1-3、1-4、1-5、2-4、2-6、3-6等子范围,以及该子范围内的各个数字,例如,1、2、3、4、5和6。无论子范围的广度如何,这都适用。本文还广泛且一般性地描述了某些实施方案。落入上位公开中的每个狭义类别和亚群组也构成本公开的一部分。这包括具有从上位概念中排除任何主题的附带条件或否定性限制的实施方案的一般性描述,无论本文是否具体叙述了切除的材料。除非上下文另有要求或具有相反的具体陈述,否则在本文中作为单个整数、步骤或要素而叙述的整数、步骤或要素清楚地包含所述整数、步骤或元素的单数形式和复数形式。“基本上”一词不排除“完全”,例如“基本上不含”y的组合物可以完全不含y。必要时,可以从本发明的定义中省略“基本上”一词。本文说明性描述的本发明可以在缺少本文未具体公开的任何要素、限制的情况下适当地实施。因此,例如,术语“包含(comprising)”、“包括(including)”、“含有(containing)”等应当被广泛地理解而无限制。另外,本文所用的术语和表达已被用作描述的术语而非限制,并且在使用这些术语和表达时无意排除所示和所述特征的任何等同物或其部分,但应当认识到各种修改可能在所要求保护的本发明的范围内。因此,应当理解,尽管已经通过优选实施方案和可选特征具体公开了本发明,但是本领域技术人员可以采用本文公开的其中体现的本发明的修改和变化,并且这些修改和变化是视为在本发明的范围内。本文已广泛和一般性地描述了本发明。落入上位公开中的每个狭义类别和亚群组也构成本发明的一部分。这包括具有从上位概念中除去任何主题的附带条件或否定性限制的本发明的上位描述,无论本文是否具体叙述了切除的材料。其他实施方案在以下权利要求和非限制性实例内。另外,在根据马库什群组描述本发明的特征或方面的情况下,本领域技术人员应当认识到,也因此根据马库什群组的任何个体成员或成员亚群组的形式描述了本发明。附图的简要描述当结合非限制性实例和附图考虑时,参考详细描述会更好地理解本发明,其中图1:原发性胃腺癌中的体细胞启动子改变a)未改变的gc启动子的实例。rhoatss的ucsc基因组轨迹(track)(阴影框)突出显示了gc样品和匹配的正常样品中的相似h3k4me3信号。在gc系中观察到相似的信号。底部的两个轨迹显示了相同的gc样品和匹配的正常样品中相似的rna表达水平(rnaseq)。b)增益的体细胞启动子的实例。与匹配的正常样品相比,ceacam6tss的ucsc基因组轨迹(阴影框)突出显示了gc样品和gc系中h3k4me3信号的增益。相比之下,在相邻基因即ceacam5的tss上未观察到变化。在显示相同gc样品和匹配的正常样品的rna-seq谱的底部2个轨迹中示出了rna表达的一致性肿瘤特异性增益。c)丧失的体细胞启动子的实例。atp4atss的ucsc基因组轨迹(阴影框)突出显示了,与匹配的正常样品相比,gc样品和gc系中h3k4me3信号的丧失。在显示了相同gc样品和胃正常样品的rna-seq谱底部2个轨迹中示出了rna表达的一致性肿瘤特异性丧失。d)原发性gc样品和匹配的正常样品中体细胞启动子(行)的h3k4me3读取密度的热图(带有标度的行)。e)原发性胃样品中h3k4me3启动子信号与h3k27ac活性信号之间的相关性(r=0.91,p<0.001)。每个数据点对应于单个h3k4me3hi/h3k4me1lo区域。使用来自16个n/t对的数据进行分析(表4)。f)与规范的增益的和丧失的体细胞启动子相关的前5个基因集合(geneset)。重新发现了与gc中上调和下调的基因相关的基因集合。还要注意,与h3k27me3和suz12(即prc2组分)相关的基因集合被富集。图2:gc和其他肿瘤类型中体细胞启动子改变与基因表达的关联a)gc体细胞启动子的实例。实例仅用于说明目的。b)在体细胞启动子和所有启动子之间的发现样品(discoverysample)中rna-seq表达(顶部)和dna甲基化(底部)的变化。顶部-箱形图描绘了在显示出体细胞启动子(增益和丧失)的基因组区域上,9对原发性gc样品和胃正常样品之间rna-seq表达的变化(***p<0.001,wilcoxon检验)。底部-箱形图描绘了与所有启动子相比,在20对gc样品和胃正常样品之间,在显示出体细胞启动子的区域上dna甲基化的变化(β值)(***p<0.001,wilcoxon检验)c)独立验证队列(cohort)。箱形图描绘了在354个(321个gc,33个正常)tcga胃腺癌(stad)样品中,与所有启动子相比,在显示出体细胞启动子的基因组区域上rna-seq表达的变化(***p<0.001,wilcoxon检验)d)其他癌症类型中的体细胞启动子。箱形图描绘了在以下样品中,与所有启动子相比,在显示出gc体细胞启动子的基因组区域上rna-seq表达的变化:在326个tcga结肠腺癌(coad)样品(286个coad,40个正常;***p<0.001,wilcoxon检验)、170个tcga肾肾透明细胞癌(ccrcc)样品(98个ccrcc和72个正常;***p<0.001,wilcoxon检验)以及115个tcga肺腺癌(luad)样品(58个luad,57个正常;***p<0.001体细胞增益相比所有启动子和体细胞增益相比体细胞丧失,wilcoxon检验)中。图3:gc中的替代启动子a)hnf4α基因的ucsc浏览轨迹(ucscbrowsertrack)。gc样品和匹配的胃正常样品在规范hnf4α启动子上具有相同的h3k4me3信号。然而,与匹配的正常样品相比,可以在gc的下游tss处观察到通过h3k4me3增益看到的替代启动子。在rna水平上,与正常样品相比,内部样品和tcgastad样品也在交替启动子(alternatepromoter)tss上显示出基因表达的增益。b)epcam基因的ucsc浏览轨迹。在下游tss上使用替代启动子的另一实例。在规范启动子下游的tss上观察到h3k4me3的增益,而规范启动子在gc和胃正常样品中表现出相同的h3k4me3信号。在内部和tcgastad样品中,在替代启动子驱动的转录物上也能在gc中观察到rna-seq表达的增益。c)rasa3基因的ucsc浏览轨迹,证明h3k4me3和rna-seq信号突出显示了在对应于新的n-末端截短的rasa3转录物的未注释的tss(深灰色框)上启动子活性的增益。通过gc系中的5'race验证了该变异转录物的表达(底部)。d)翻译的rasa3规范同种型和交替同种型的功能结构域。预计交替转录物编码缺少rasgap结构域的rasa3蛋白。e)rasa3规范(cant)和交替(somt)同种型的过表达对snu1967(顶部)和ges1(底部)细胞迁移能力的影响。迁移试验(migrationassay)中rasa3-ctl(空载体)、rasa3-cant和rasa3-somt的代表性图像(n=3)。条形图显示了迁移的细胞相对于transwell膜面积的面积%。将数据显示为平均值±sd;n=3。(*p<0.05,**p<0.01,***p<0.001,student’s单侧t检验)图4:体细胞启动子改变显示出免疫编辑特征a)示意的概述性替代启动子使用导致替代转录物使用(转录物框)和n末端截短的蛋白同种型(蛋白框)。b)条形图显示了具有预测的结合mhci类的高亲和力的肽的平均%(hla-a、b和c,ic<=50nm)。与规范gc肽(p<0.01,fisher's检验)、来自人类蛋白质组的随机肽(p<0.001)和源自显示出n末端改变的相同基因的c-末端肽(p<0.01)相比,与复发性体细胞启动子(替代启动子)相关的n-末端肽显示出显著富集的预测mhci结合。规范肽是指源自gc中通过非替代启动子过表达的蛋白编码基因的肽。c)预测结合通过体细胞增益或丧失分类的不同hla-等位基因的高亲和性肽的百分比(%)。大多数等位基因具有更多的预测具有高结合亲和力的n-末端丧失的肽。d)利用nanostring分析(nanostringprofiling)量化体细胞启动子表达。顶部–设计不同的nanostring探针来测量交替和规范启动子驱动的转录物的表达。为每个基因设计了2个探针-由未改变的h3k4me3标记的5'转录物上的规范探针,以及在体细胞启动子的5'转录物上的交替探针。底部-来自95个gc样品和匹配的正常样品的替代启动子表达的热图。gc样品按其体细胞启动子使用水平从左到右排序。e)体细胞启动子和t细胞免疫相关因素之间的关联(新加坡(sg)队列)。左上-在高度或低度体细胞启动子使用的情况下,gc样品中t细胞标志物cd8a(p=0.1443)以及t细胞细胞溶解标志物gzma(p=0.0001)和prf1(p=0.00806)的表达。高度替代启动子使用的样品显示出免疫标志物的较低表达。所有p值均来自wilcoxon单侧检验。右-kaplan-meier分析比较了在高度体细胞启动子使用(前25%)和低度体细胞启动子使用(后25%)情况下验证样品之间的总生存曲线(hr=2.56,p=0.02)。f)tcga和acrg队列中体细胞启动子与t细胞相关因素的关联。(左)在高度或低度体细胞启动子使用情况下,tcgastad中t细胞标志物cd8a(p=0.02)、gzma(p=0.01)以及prf1(p=0.03)的表达。在高度或低度体细胞使用的情况下,通过acrggc样品中t细胞标志物cd8a(p=0.035)、gzma(p=0.001)以及prf1(p=0.025)的rna-seq(每百万读取的转录物(transcriptspermillion),右)表达评估t细胞标志物。所有p值来自wilcoxon单侧检验。g)针对9个供体的15个肽池的总细胞因子应答的epimax热图(相对于肌动蛋白的倍数变化)。h)针对两个个体供体(供体2和供体3)的15个肽的个体细胞因子应答表现出复合的细胞因子应答(fc≥2)。图5:体细胞启动子与ezh2占有相关a)在显示出体细胞启动子的基因组区域上remap定义的tfbs的结合富集。根据它们在所有h3k4me3定义的启动子区域的结合频率对tf进行分类。ezh2和suz12结合位点与表现出体细胞启动子的区域显著重叠(增益和丧失)(p<0.01,经验分布检验)。b)与未改变的启动子相关rna转录物相比,与im95细胞中gsk126处理后发生变化的体细胞启动子相关的rna转录物的比例。顶部体细胞启动子图仅用于说明目的。将未改变的启动子定义为除了体细胞启动子之外的所有基因启动子。还显示了在处理后发生改变的基因比例,作为所有基因的比例。相对于未改变的启动子(or1.46,p<0.001)或所有gsk126调节的基因(or9.21,p<0.001,fisher检验),体细胞启动子更有可能在gsk126处理后改变表达。c)slc9a9tss即丧失启动子活性的基因的ucsc浏览器轨迹。在第6天(d6)和第9天(d9)处理时,在im95细胞中利用gsk126抑制ezh2后,观察到表达增益。d)丧失启动子活性的pscatss的ucsc浏览轨迹。在第6天(d6)和第9天(d9)处理时,利用gsk126在im95细胞中抑制ezh2后,观察到表达增益。图6:体细胞启动子揭示了新的癌症相关转录物a)不同启动子类别的距离分布到最近的注释tss。(左)第一个条形图显示胃正常组织中存在的启动子的距离分布,第二个显示gc样品中存在的启动子的距离分布,第三个显示表现出体细胞改变的启动子(即相比于正常的,在肿瘤中不同)的距离分布。(右)条形图显示与丧失或增益的体细胞启动子相关的距离分布。大部分增益的体细胞启动子占据远离先前注释的tss的位置b)在7种不同组织中genoskyline预测的未注释启动子的中值功能评分。未注释的启动子表现出gi组织、胎儿组织和esc组织的高功能评分。c)箱形图描绘了cage验证的启动子的平均rna-seq读取,比较了所有启动子或体细胞启动子,并且也得到了cage数据的支持。(**p<0.001,wilcoxon单侧检验)。观察到体细胞启动子具有较低水平的rna-seq表达。d)卡通图(cartoon)描绘了检测低表达转录物时动态范围对nanochip-seq和rna-seq灵敏度的预估影响。由于更受限的动态范围,表观基因组分析可以检测到由于rnaseq对大量表达基因的随机取样致使rnaseqing遗漏的活性启动子。e)向下和向上取样分析。y轴描绘了以不同的rna测序深度检测到的与所有启动子或体细胞启动子重叠的转录物的数量。原始初级样品rna-seq数据以约106m读取测序,106m读取被向下采样至20m、40m和60m读取。另外以约139m读取深度产生深度rna-seq数据。f)以深度但非常规rna-seq深度检测的癌症相关转录物。abca13的ucsc基因组浏览轨迹显示了新转录物的实例,其是由nanochip-seq在20m的读取深度检测到的,但仅在约139m的读取深度下通过rna测序检测到(深度测序gc)。通过常规深度rna-seq(gc)未检测到该转录物。图7:原发性gc的染色质谱a)原发性gc、匹配的正常胃粘膜和gc细胞系的3个标志物(h3k4me3、h3k27ac和h3k4me1)的染色质谱。显示了gc驱动基因myc的ucsc基因组浏览轨迹,其突出显示了启动子位置的强h3k4me3和h3k27ac信号以及低h3k4me1信号。b)转录起始位点(tss)上的h3k4me3、h3k27ac和h3k4me1信号分布。线图显示了tss区域(+/-3kb)的h3k4me3hi/h3k4me1lo区域的染色质信号分布。使用ngs.plot(6)绘制前10,000个h3k4me3hi/h3k4me1lo区域的热图。c)在鉴定的h3k4me3区域上h3k4me3:h3k4me1比率的密度分布。选择h3k4me3/h3k4me1比>1的所有区域供进一步分析(73%)d)h3k4me3hi/h3k4me1lo区域对代表性基因体特征的分布(顶部)。箭头表示tss。e)h3k4me3hi/h3k4me1lo区域对来自epigenomeroadmap数据库(行)的不同胃肠组织中定义的15种染色质状态(列)的富集。每列的数值范围从0-1。f)h3k4me3hi/h3k4me1lo区域与fantom5cage数据重叠图8:gc启动子的上皮特征a)在所有h3k4me3hi/h3k4me1lo区域上,原发性gc、胃正常样品(红色类型,由红色箭头突出显示)和来自epigenomeroadmap数据库的各种组织类型的h3k4me3信号之间的spearman相关热图b)h3k4me3hi/h3k4me1lo区域与在gc细胞系(87%)、胃肠道成纤维细胞(61%)和结肠癌细胞系(74%)中鉴定的h3k4me3区域重叠图9:gc体细胞启动子特征a)由2个独立算法deseq2和edger鉴定的差异(体细胞)h3k4me3区域。根据deseq2中鉴定的96%的区域与使用edger鉴定的区域重叠。将各集合汇集,用于后续分析。b)16个gc样品和胃正常样品的基于体细胞启动子的主成分分析。c)在16个gc和胃正常样品中,在1959个体细胞启动子上h3k27ac读取密度的热图。d)在增益的体细胞启动子(左,r=0.78,p<0.001)和丧失的体细胞(右,r=0.82,p<0.001)启动子的原发性胃样品中,h3k4me3启动子信号和h3k27ac活性信号之间的相关性。每个数据点对应于单个h3k4me3hi/h3k4me1lo区域。使用来自16个n/t对的数据进行分析(表4)。e)体细胞启动子的火山图(顶部)突出强调了倍数变化差异的动态范围(x轴)和错误发现率(fdr)调整的显著性(-log10量表,y轴)。大多数体细胞启动子位于fc1和2.82之间,这可能反映了chip-seq的动态范围。表(底部)列出了在不同严格性水平下鉴定的体细胞启动子的数量。尽管fdr阈值不同,但仍保留了大部分差异峰(例如,q<0.01时为59%)。f)对于与增益的体细胞启动子(红色)和丧失的体细胞启动子(蓝色)相关的前5个基因集合(图1f),在不同的倍数变化和fdr(q值)体细胞启动子的富集分析。x轴反映了发现在体细胞启动子的子集中富集的基因集合的-log10p值。即使在更严格的倍数变化(fc2)和q值阈值(0.05、0.01和0.001)下,仍然观察到类似的gc特异性和prc2相关的特征。图10:gc和其他肿瘤类型中体细胞启动子与基因表达的关联a)gc体细胞启动子的实例。实例仅用于说明目的。b)在rna-seq表达样品(顶部)和dna甲基化(底部)发现样品中在体细胞启动子和未改变的启动子之间的变化。顶部-箱形图描绘了在显示体细胞启动子(增益和丢失)的基因组区域,9对原发性gc样品和胃正常样品之间rna-seq表达的变化(***p<0.001,wilcoxon检验)。底部-箱形图描绘了在20对gc和胃正常样品之间,在显示出体细胞启动子的区域,与未改变的启动子相比的dna甲基化(β值)的变化(***p<0.001,wilcoxon检验)c)独立验证队列。箱形图描绘了与未改变的启动子相比,在354个(321个gc,33个正常)tcga胃腺癌(stad)样品中,在显示出体细胞启动子的基因组区域,rna-seq表达的变化(***p<0.001,wilcoxon检验)d)其他癌症类型的体细胞启动子。箱形图描绘了在以下样品中,与未改变的启动子相比,在显示gc体细胞启动子的基因组区域,rna-seq表达的变化:在328个tcga结肠腺癌(coad)样品(286个coad,40个正常;***p<0.001,wilcoxon检验)、170个tcga肾肾透明细胞癌(ccrcc)样品(98个ccrcc和72个正常;***p<0.001,wilcoxon检验)和115个tcga肺腺癌(luad)样品(58个luad,57个正常;***p<0.001,体细胞增益相比未改变和体细胞增益相比体细胞丧失,*p<0.05体细胞丧失相比未改变,wilcoxon检验)中。图11:含有cpg岛的启动子上dna甲基化的变化a)箱形图描绘了与携带cpg岛的所有启动子相比,在20对gc样品和胃正常样品之间,在携带cpg岛的体细胞启动子上的dna甲基化(β值)变化(**p<0.001,wilcoxon检验)图12:替代和规范同种型的表达分布a)条形图显示了使用四种独立的定量技术,即cufflinks、miso、kallisto和nanostring,所有替代转录物(global-顶部)、hnf4α(中部)和epcam(底部)的规范和替代转录物同种型的t/n比的分布。在正文(maintext)的图4中介绍了nanostring平台。++nanostring分析仅限于查询探针。(*p<0.05,**p<0.01,***p<0.001,wilcoxon单侧检验)。b)箱形图显示了定位于规范启动子的n-末端读取与定位于替代启动子的n-末端读取相比的t/n比。替代启动子驱动的转录物表现出显著更高的t/n比(p=0.04,wilcoxon单侧检验)。图13:rasa3同种型的表征a)rasa3基因的ucsc浏览轨迹证明了体细胞和规范tss的h3k4me3和rna-seq信号。规范tss具有相同的信号,而体细胞tss则在对应于新的n末端截短的rasa3转录物的未注释的tss上显示了启动子活性增益。b)rasa3基因的ucsc浏览轨迹证明了在体细胞和规范tss上ncc24gc细胞系的rna-seq信号。ncc24仅表达rasa3somt(也参见c)。c)左-通过5'race鉴定ncc24和ncc59gc细胞中的rasa3somt和cant转录物。如凝胶图所示,第三(细胞)系(mkn1)对于rasa3somt而言是阴性的。运行无rna模板作为阴性对照。右-蛋白质印迹(westernblot)突出显示了ncc24细胞中rasa3somt蛋白的表达。d)rasgtp试验。(左)蛋白质印迹显示了用空载体(ev)、rasa3cant或rasa3somt(n=3)转染的ges1细胞中ras的水平。将ges1细胞血清饥饿过夜,然后在收获前进行血清刺激30分钟并进行ras-gtp下拉试验(pulldownassay)。在相应的全细胞蛋白裂解物中测量总ras。β-肌动蛋白用作加样对照。还显示了来自下拉试验的阳性(gtp)和阴性(gdp)对照。(右)条形图量化了三个独立的下拉试验的活性ras强度,所述下拉试验是在fbs暴露条件下,用空载体(ev)、rasa3cant或rasa3somt转染的ges1细胞中进行的。数据显示为平均值±sd;n=3。(*p<0.05,student’s双侧t检验)。e)用rasa3cant和somt转染后snu1967、ges1和ags细胞归一化至第0天的细胞增殖试验。(数据显示为平均值±sd,一式三份进行,代表3个独立实验)。f)rasa3cant和somt同种型过表达对ges1和snu1967细胞侵袭能力的影响。在侵袭试验中ev、rasa3-wt和rasa3-var的代表性图像(n=3)。条形图显示入侵细胞相比transwell膜面积的面积百分比。数据显示为平均值±sd;n=3时。(*p<0.05,**p<0.01,***p<0.001,student’s单侧t检验)。g)rasa3cant和somt蛋白同种型的过表达对高迁移性kras突变的ags细胞迁移能力的影响。条形图显示了迁移细胞相比transwell膜面积的面积%。数据显示为平均值±sd;n=3。(*p<0.05,**p<0.01,***p<0.001,student’s单侧t检验)。rasa3wt比rasa3var诱导更有效的迁移抑制,这表明rasa3wt是迁移抑制剂。h)ncc24细胞中sirna介导的rasa3somt敲低(knockdown)。用sc-sirna(对照)和2种rasa3sirna(sirna1-hs.ri.rasa3.13kitdsirna和sirna-3-selectpre-designedsirnas355)处理细胞。(左)条形图显示用sirna-1和sirna-3处理后rasa3somt的mrna表达的倍数变化差异。数据显示为平均值±sd;n=3时。(右)蛋白质印迹结果证实rasa3somt蛋白减少。收获细胞并在转染48小时后裂解。(***p<0.001,student’s单侧t检验)。i)rasa3somt同种型的来自两个独立sirna的sirna敲低对ncc24细胞的迁移(左)和侵袭(右)能力的影响。在迁移和侵袭试验中,sc-sirna(对照)、sirna-1和sirna-3的代表性图像(n=3)。条形图显示了迁移/侵入细胞相比transwell膜面积的面积%。数据显示为平均值±sd;n=3时。(*p<0.05,**p<0.01,***p<0.001,student’s单侧t检验)。图14:met同种型的表征a)met基因的ucsc浏览轨迹证明,h3k4me3和rna-seq信号突出显示了在替代下游基因座(深灰色框)的启动子活性增益。b)met规范(wt)和替代(var)同种型的功能结构域。预测替代同种型编码具有n末端截短的sema结构域的met蛋白。c)如通过5'race检测的,met(var)转录物在gc系中的表达。d)在hgf处理(100ng/ml)0、15和30分钟时,用空载体(ev)、met规范全长(met-wt)和截短的变体(met-var)转染的hek293细胞的蛋白质印迹(n=3)。gab1、stat3和erk1/2是已知的met信号传导的下游效应物。每个条带下面的数字是使用imagelab量化的强度。在未处理和hgf处理的条件下,met-var转染的细胞表现出较高水平的p-gab1(y627),p-gab1是met信号传导的关键介质(2.48-3.95倍,p=0.003(未处理),p<0.05(t15和t30)。在未处理的样品中,与met-wt相比(对于perk和p-stat3(y705)而言分别为p=0.023和p=0.026),用met-var转染的细胞也表现出较高的perk1/2水平(2.74倍)和较高的p-stat3(y705)水平(1.80倍)。e)条形图显示在t0、t15和t30时ev、met-wt和met-var的perk1/2增加,这反映了hgf处理的效果。数据显示为平均值±sd;n=3。(*p<0.05,**p<0.01,***p<0.001,student’s单侧t检验)f)条形图显示与ev和met-wt相比,用met-var转染的细胞中p-gab1(y627)、p-stat3(y705)和perk1/2增加。显示了所有3个时间点的图。数据显示为平均值±sd;n=3。(*p<0.05,**p<0.01,***p<0.001,student’s单侧t检验)图15:n-末端肽的免疫原性a)条形图显示具有预测的结合mhci类hla-a的高亲和力(ic<=50nm)的n-末端肽的平均%。作为比较,正文中的数字表示基于所有三种hla类别(hla-a、hla-b、hla-c)的平均%。与规范的gc肽、来自人蛋白质组的随机肽和源自表现出n末端改变的相同基因的c-末端肽(p<0.001,fisher检验)相比,与复发性体细胞替代启动子相关的n-末端肽显示出显著富集的预测的mhci结合(p<0.01)。b)仅使用通过rna-seq分析推断的n-末端肽的mhc结合预测。使用两种不同的rna-seq算法(dexseq(7)和voom-diffsplice(8))(fc>=2,fdr0.05)鉴定在gc中与正常相比显示出不同n-末端外显子的注释的转录物。该分析鉴定了具有潜在的替代n末端转录物的96个基因,其中预测46个(48%)基因导致不同的n末端肽(紫色条)。图16:免疫原性测定和nanostring分析a)来自相同样品的nanostring和rna-seq数据的交替和规范探针表达倍数变化(t相比n)的散点图。使用交替探针(alternateprobe)观察到改善的相关性b)左–如通过ascat估计的,在调整肿瘤纯度后,在高度或低度体细胞启动子使用情况下在sg系列(顶部)、tcgastad(中)和acrg队列(底部)中t细胞标志物cd8a、gzma和prf1的表达。p值(wilcoxon单侧检验)是:cd8a-p=0.09(sg),0.004(tcga),0.3(acrg);gzma-0.0001(sg),0.002(tcga),0.166(acrg),prf1-0.013(sg),0.006(tcga),0.3(acrg)。右-如通过estimate估计的,在调整肿瘤含量后,在高度或低度体细胞启动子使用情况下在sg系列(顶部)、tcgastad(中)和acrg队列(底部)中t细胞标志物cd8a、gzma和prf1的表达。p值(wilcoxon单侧检验)是:cd8a-p=0.28(sg),0.17(tcga),0.37(acrg),gzma-0.0005(sg),0.03(tcga),0.09(acrg),prf1-2.02(sg),0.22(tcga),0.17(acrg)。具有高度替代启动子使用的样品为红色,而具有低度使用的样品为蓝色。c)kaplan-meier分析比较高度体细胞启动子使用和低度体细胞启动子使用情况下验证样品之间的总存活曲线(按中值划分)(hr=1.81,p=0.04)d)左-在调整突变负荷后,在高度或低度体细胞启动子使用情况下,tcgastad中t细胞标志物cd8a、gzma和prf1的表达。p值(wilcoxon单侧检验)是:p=0.02(cd8a)、0.01(gzma)和0.03(prf1)。右-在调整突变负荷后,在高度或低度体细胞启动子使用情况下,acrg队列中t细胞标志物cd8a、gzma和prf1的表达。p值(wilcoxon单侧检验)为:p=0.167(cd8a)、0.009(gzma)和0.03(prf1)。e)所有增益的替代启动子的来自264个acrggc的替代启动子表达的热图。gc样品已按其体细胞启动子使用水平从左到右排序。图17:肽免疫原性的功能评估a)对于针对不同肽池测试的其他正常供体pbmc对15种肽的个体细胞因子应答。b)实验免疫原性测定。体外测定的实验设计-i)在成熟dc中分化由来自hla-a02:06供体的cd14+单核细胞培养的未成熟树突细胞(dc)(参见方法)。将成熟dc暴露于表达规范(cant)和体细胞(somt)rasa3同种型的同基因gc细胞裂解物(ags细胞)中。ii)抗原呈递和t细胞激活:将呈递can或somrasa3同种型的dc与hla匹配的t细胞共培养,产生针对cant或somtrasa3引发的t细胞。然后将引发的t细胞与表达rasa3cant或rasa3somt的gc细胞独立共培养两天,并评估t细胞激活的标志物。c)在抗原应激后,通过共培养用rasa3cant或somt同种型引发的t细胞来浓缩干扰素-γ(ifn-γ)分泌。与用rasa3somt引发并与表达rasa3somt的细胞共培养的t细胞相比,rasa3cant引发的t细胞当与表达rasa3cant的细胞共培养时明显释放更多的ifn-γ(p=0.02,代表n=3个实验)。通过elisa测定ifn-γ水平。图18:ezh2抑制a)条形图显示与所有启动子相比,在体细胞启动子处hfe-145细胞的ezh2结合位点的富集增加(p<0.01)。b)gsk126施用后im95gc细胞的生长曲线。将细胞增殖监控24-216小时,并相对于dmso对照处理的细胞表示(平均值±s.e.m(均值标准误差)表示来自三个实验的数据,一式两份进行每个实验)c)在启动子基因座处,经gsk126处理的相比dmso对照im95rna-seq数据的差异分析鉴定的基因集合的前5个富集的精选基因集合(c2)。d)启动子活性丧失的替代启动子esrrg(gc(红色)和正常胃组织(蓝色)h3k4me3)的ucsc浏览轨迹。在第6天(d6)和第9天(d9)处理时,在使用gsk126抑制ezh2后,在im95细胞中观察到表达增益。图19:未注释的体细胞启动子a)条形图显示了与所有启动子相比,未注释的启动子区域处的l1(fc=8.02,p<0.001)和erv1(fc=2.78,p<0.001)重复元件的倍数富集b)条形图比较了未注释的体细胞启动子的h3k27ac信号(rpm)与注释的体细胞启动子处的h3k27ac信号。未注释的体细胞启动子具有较低的h3k27ac信号。发明详述在第一方面,本发明涉及确定相对于非癌性生物样品,癌性生物样品中是否存在至少一种启动子的方法。所述方法包括使癌性生物样品与至少一种或多种对组蛋白修饰h3k4me3和h3k4me1具有特异性的抗体接触;从癌性生物样品中分离h3k4me3相对于h3k4me1的信号比大于1的核酸,其中分离的核酸包含至少一个或多个对所述组蛋白修饰具有特异性的区域;检测分离的核酸中的h3k4me3信号强度;以及基于h3k4me3信号强度相对于非癌性生物样品中h3k4me3信号强度的变化,确定癌性生物样品中是否存在至少一种启动子。在一个实施方案中,癌性和非癌性生物样品可包含单细胞、多细胞、细胞碎片、体液或组织。在一个实施方案中,可从同一个体获得癌性和非癌性生物样品。在一个实施方案中,各自从不同的个体获得癌性和非癌性生物样品。根据本文所述的方法,接触步骤可包括用对组蛋白修饰具有特异的抗体免疫沉淀染色质。组蛋白修饰的实例包括但不限于h3k27ac、h3k4me3、h3k4me1。在优选的实施方案中,组蛋白修饰是h3k4me3和/或h3k4me1。在另一个实施方案中,组蛋白修饰是h3k27ac。所述方法还可以包括将来自癌性生物样品的至少一种启动子针对至少一条参考核酸序列作图,以鉴定与至少一种启动子相关的基因转录物。在一些实施方案中,所述至少一条参考核酸序列可包含源自以下的核酸序列:i)注释的基因组序列;ii)新的转录组装配;和/或iii)非癌性核酸序列文库或数据库。在一个实施方案中,相对于非癌性生物样品中的h3k4me3信号强度,h3k4me3信号强度的变化可以是大于0.5倍,大于1倍,大于1.5倍,大于2倍,大于2.5倍或大于3倍的增加或减少。在优选的实施方案中,相对于非癌性生物样品中的h3k4me3信号强度,h3k4me3信号强度的变化可以是大于1.5倍的增加或减少。在另一个实施方案中,相对于非癌性生物样品中的h3k4me3信号强度,h3k4me3信号强度的变化大于0.5倍,大于1倍,大于1.5倍,大于2倍,大于2.5倍或大于3倍的增加,可与癌性生物样品中存在至少一种癌症相关启动子相关。在一个优选的实施方案中,相对于非癌性生物样品中h3k4me3的信号强度,h3k4me3信号强度的变化大于1.5倍可与癌性生物样品中存在至少一种癌症相关启动子相关。在一个实施方案中,至少一种癌症相关启动子的活性可以与suz12或ezh2结合位点相对于总启动子群体的增加相关。在一个实施方案中,suz12或ezh2结合位点的增加与至少一种癌症相关启动子的活性上调相关。在另一个实施方案中,suz12或ezh2结合位点的增加与至少一种癌症相关启动子的活性下调相关。在一个实施方案中,所述至少一种启动子可以是位置距已知的基因转录起始位点100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp或1000bp内的规范启动子。在一个优选的实施方案中,所述至少一种启动子可以是位置距已知的基因转录起始位点500bp内的规范启动子。基因转录起始位点可以与细胞类型特化基因(cell-typespecificationgene)、细胞粘附基因、细胞介导的免疫基因、胃癌相关或失调的基因、prc2靶基因或转录因子中的一种或多种相关。在一个实施方案中,基因转录起始位点可以与致癌基因相关。基因转录起始位点可以与选自由myc、met、ceacam6、cldn7、cldn3、hotair、pvt1、hnf4α、rasa3、grin2d、epcam及其组合组成的组中的基因相关。在一个实施方案中,癌症是胃肠癌、胃癌或结肠癌。在另一个实施方案中,所述至少一种启动子可以是可以与规范启动子相关的替代启动子,其中规范启动子可以存在于癌性生物样品和非癌性生物样品中,并且i)其中所述替代启动子可以仅存在于癌性生物样品中,或ii)其中所述替代启动子可以仅在癌性生物样品中不存在。在一些实施方案中,所述至少一种启动子是位置距基因转录起始位点超过100bp,超过200bp,超过300bp,超过400bp,超过500bp,超过600bp,超过700bp,超过800bp,超过900bp或超过1000bp的未注释的启动子。在一个优选的实施方案中,所述至少一种启动子是位置距基因转录物起始位点超过500bp的未注释的启动子。在一个实施方案中,本文所述的方法还包括测量癌性生物样品和非癌性生物样品中至少一种替代启动子的表达水平,其中测量包括报告子探针的数字分析(digitalprofiling);基于报告子探针的数字分析测定至少一种替代启动子相对于非癌性生物样品的差异表达水平,以验证相对于非癌症的生物样品,癌性生物样品中是否存在至少一种替代启动子。可以使用nanostringtm平台进行测量步骤。另一方面,本发明提供了用于确定个体中癌症预后的方法。所述方法包括使获得自个体的癌性生物样品与至少一种或多种对组蛋白修饰h3k4me3和h3k4me1具有特异性的抗体接触;从癌性生物样品中分离h3k4me3相对于h3k4me1的信号比大于1的核酸,其中分离的核酸包含至少一个或多个对所述组蛋白修饰具有特异性的区域;检测分离的核酸中的h3k4me3信号强度;和基于h3k4me3信号强度相对于参考核酸序列中h3k4me3信号强度的变化,确定癌性生物样品中是否存在至少一种癌症相关启动子,其中癌性生物样品中至少一种癌症相关启动子的存在与否指示个体中癌症的预后。在一个实施方案中,所述至少一种癌症相关启动子可以是与规范启动子相关的替代启动子,其中所述规范启动子可以存在于癌性生物样品和参考核酸序列中,并且i)其中替代启动子可以仅存在于癌性生物样品中,或ii)其中替代启动子可以仅在癌性生物样品中不存在。癌性样品中至少一种替代启动子的存在与否可指示个体中癌症存活的不良预后。在一个实施方案中,本文所述的方法还包括测量癌性生物样品和参考核酸序列中至少一种替代启动子的表达水平,其中测量包括报告子探针的数字分析;和基于报告子探针的数字分析,测定至少一种替代启动子相对于非癌性生物样品的差异表达水平,以验证相对于参考核酸序列,癌性生物样品中是否存在至少一种替代启动子。可以使用nanostringtm平台进行测量步骤。另一方面,本发明提供了用于检测个体中癌症的生物标志物,所述生物标志物包含至少一种启动子,所述的启动子的h3k4me3信号强度在癌性生物样品中相对于非癌性生物样品发生变化。在一个实施方案中,相对于总启动子群体,所述至少一种启动子包含的ezh2结合位点增加。在一个实施方案中,至少一种启动子可以是低甲基化的。在另一个实施方案中,至少一种启动子可以是高甲基化的。所述至少一种启动子可以是位置距基因转录起始位点小于500bp的规范启动子。在一个实施方案中,基因转录起始位点可以与细胞类型特化基因、细胞粘附基因、细胞介导的免疫基因、胃癌相关或失调的基因、prc2靶基因或转录因子中的一种或多种相关。在一个实施方案中,基因转录起始位点可以与致癌基因相关。在一个实施方案中,基因转录起始位点可以与选自由myc、met、ceacam6、cldn7、cldn3、hotair、pvt1、hnf4α、rasa3、grin2d、epcam或其组合组成的组中的基因相关。在一个实施方案中,所述至少一种启动子可以是可以与规范启动子相关的替代启动子,其中规范启动子可以存在于癌性样品和非癌性样品中,和i)其中替代启动子可以仅存在于癌性样品中,或ii)其中替代启动子可以仅在癌性样品中不存在。在一个实施方案中,所述至少一种启动子可以是位置可以距基因转录起始位点超过100bp、超过200bp、超过300bp、超过400bp、超过500bp、超过600bp、超过700bp、超过800bp、超过900bp或超过1000bp的未注释的启动子。在优选的实施方案中,所述至少一种启动子可以是位置可以距基因转录物起始位点超过500bp的未注释的启动子。另一方面,提供了用于调节细胞中至少一种癌症相关启动子活性的方法,包括向细胞施用ezh2的抑制剂。另一方面,提供了用于调节个体对癌症的免疫应答的方法,包括向个体施用ezh2的抑制剂,其中ezh2与个体中的至少一种癌症相关启动子相关。在一个实施方案中,ezh2的抑制剂可以调节免疫原性n-末端肽的表达。在一个实施方案中,所述至少一种癌症相关启动子可以是可以与规范启动子相关的替代启动子,其中所述规范启动子可以存在于癌性样品和非癌性样品中,并且i)其中替代启动子可以仅存在于癌性样品中,或ii)其中替代启动子可以仅在癌性样品中不存在。在一个实施方案中,替代启动子与转录物变体相关,并且其中转录物变体编码n-末端蛋白变体。在一个实施方案中,n-末端蛋白变体可以是n-末端截短的蛋白或n-末端延长的蛋白。在一个实施方案中,ezh2的抑制剂可以是sirna或小分子。在一个实施方案中,ezh2的抑制剂可以是gsk126。另一方面,提供了ezh2的抑制剂在制造用于调节细胞中至少一种癌症相关启动子活性的药物中的用途。另一方面,提供了ezh2的抑制剂在制造用于调节个体对癌症的免疫应答的药物中的用途,其中ezh2与个体中的至少一种癌症相关启动子相关。另一方面,提供了用于调节细胞中至少一种癌症相关启动子活性的ezh2的抑制剂。在另一方面,提供了用于调节个体对癌症的免疫应答的ezh2的抑制剂,其中ezh2与个体中的至少一种癌症相关启动子相关。在另一个方面,提供了用于确定相对于非癌性生物样品,癌性生物样品中是否存在至少一种癌症相关启动子的方法。所述方法包括:使癌性生物样品与对组蛋白修饰h3k4me3和h3k4me1具有特异性的多种抗体接触;从癌性生物样品中分离h3k4me3相对于h3k4me1的信号比大于1的核酸,其中分离的核酸包含对所述组蛋白修饰具有特异性的多个区域;检测分离的核酸中的h3k4me3信号强度,读取深度为20m;和基于h3k4me3信号强度相对于非癌性生物样品中h3k4me3信号强度的变化,确定癌性生物样品中是否存至少一种癌症相关启动子。实施例方法和材料原生组织样品和细胞系在获得机构研究伦理审查委员会的批准和签署的患者知情同意书后,从singhealth组织库(tissuerepository)获得原生患者样品。本研究所用的‘正常’(非恶性)样品指从胃即从远离肿瘤的位点收获且在外科手术评估后未表现出可视的肿瘤或肠上皮化生/异型增生的样品。通过冷冻切片确认肿瘤样品含有>60%的肿瘤细胞。fu97、im95、mkn7、ocum1和rerf-gc-1b细胞系获得自日本健康科学研究资源库(japanhealthscienceresearchresourcebank)。ags、katoiii和snu16、hs1.int和hs738.st/胃肠成纤维细胞获得自美国典型培养物保藏中心(americantypeculturecollection)。ncc-59、ncc-24和snu-1967以及snu-1750获自韩国细胞系库(koreancelllinebank)。ycc3、ycc7、ycc21、ycc22是来自韩国延世癌症中心(yonseicancercentre,southkorea)的礼物。hfe145细胞是霍华德大学(howarduniversity)hassanashktorab博士的礼物。ges-1细胞是香港中文大学alfredcheng博士的礼物。使用ansi/atccasn-0002-2011指南通过strdna分析确认细胞系鉴定。对于我们的研究,被iclac列为常见错误识别细胞系的mkn7细胞(http://iclac.org/databases/cross-contaminations/)表现出了与japanesecollectionofresearchbioresourcescellbank中mkn7参考文献的完美匹配(100%)。如同利用mycoalerttmmycoplasmadetectionkit(支原体检测试剂盒,lonza)和mycosensorqpcrassaykit(agilenttechnologies)所评估的,所有细胞系对支原体污染均为阴性。根据实验方案cirbrefno.2010/720/e,收集来自健康供体的pbmc。纳米chipseq(nano-chipseq)按下文所述进行纳米chip-seq。原生组织和细胞系固定使用剃须刀片在液氮中解剖新鲜冷冻的癌症组织和正常组织,以获得每个chip约5mg大小的块。将组织块在室温在1%甲醛/pbs缓冲液中固定10分钟。通过加入甘氨酸至终浓度为125mm终止固定。用tbse缓冲液将组织块洗涤3次。对于细胞系,将100个万新鲜收获的细胞在室温在1%甲醛/培养基缓冲液中固定10分钟(min)。通过加入甘氨酸至终浓度为125mm终止固定。用tbse缓冲液将固定的细胞洗涤3次,并离心(5,000r.p.m.,5min)。chip将成团的细胞和粉碎的组织在100μl1%sds裂解缓冲液中裂解,并使用bioruptor(diagenode)超声处理至300-500bp。使用以下抗体进行chip:h3k4me3(07-473,millipore);h3k4me1(ab8895,abcam);h3k27ac(ab4729,abcam)。wga在回收chip和输入dna后,使用wga4试剂盒(sigma-aldrich)和bpmi-wga引物进行全基因组扩增。使用pcr纯化柱(qiagen)纯化扩增的dna,并用bpmi(newenglandbiolabs)消化以除去wga连接物(adapter)。文库制备和测序将30ng扩增的dna用于每个测序文库制备(newenglandbiolabs)。将8个文库多路复用(newenglandbiolabs)并在hiseq2500测序仪(illumina)的2个泳道上测序至每个文库平均2-3千万个读数深度。使用burrows-wheeleraligner(bwa)(版本0.6.2)'aln'算法修剪测序读取(从前面和后面10bp)并针对人类基因组参考hg19进行作图。使用来自samtools的mapstat生成读取统计数据。我们根据它们的作图质量(mapq>=10)过滤读取,并使用独特的作图读取来使用ccatv3.0执行峰调用(peakcalling)。我们选择mapq值≥10,因为i)先前已报告mapq≥10为置信读取作图的可靠值,ii)bwa算法的开发人员已推荐mapq≥10作为置信作图的合适阈值,和iii)比较各种读取比对算法的独立研究表明,作图精度在10-12mapq阈值达到平衡。ezh2chip-seq在室温将细胞与1%甲醛交联10分钟,并通过加入甘氨酸至终浓度0.2m来终止。提取染色质并超声处理至约500bp的片段。ezh2抗体(目录号5246,cellsignaling)用于染色质免疫沉淀(chip)。每个测序文库制备物使用30ngchipeddna(newenglandbiolabs)。将所述文库在hiseq2500(illumina)上测序。在免疫沉淀之前来自细胞的输入dna用于归一化chip-seq峰调用。在测序之前,用qpcr验证阳性和阴性对照chip区域在线性范围内扩增。使用burrows-wheeleraligner(bwa)(版本0.7)'aln'算法针对人类基因组参考hg19对测序读数作图。使用来自samtools的mapstat生成读取统计数据。我们根据它们的作图质量(mapq>=10)过滤读取,并使用独特的作图读取来使用macs2执行峰调用。nano-chipseq数据的质量对照评估chip富集评估我们使用两种不同的方法评估了chip文库质量(h3k27ac、h3k4me3和h3k4me1)。首先,我们通过询问在蛋白编码基因的注释启动子上它们的富集水平来估计chip质量,特别是h3k27ac和h3k4me3。具体而言,我们计算了高表达蛋白编码基因的转录起始位点(tss,+/-500bp)周围的输入和输入校正的chip信号的中值读数密度。对于每个样品,我们然后比较chip相对于输入的读取密度比,作为数据质量的替代,仅保留chip/输入比大于2倍的那些样品。使用该标准,所有h3k4me3和h3k27ac样品(gc系和原生样品)表现出大于2倍的富集,表明成功富集。其次,我们使用指示chip库显示成功富集或弱富集的chance(chip-seqanalyticsandconfidenceestimation,chip-seq分析和置信评估),这是一个用于chip-seq质量控制和方案优化的软件。chance评估证实,我们研究中的绝大多数(81%)样品均表现出成功的富集。表1报告了通过两种方法评估的每个文库的质量状态。表1:纳米chip-seq文库的读取作图统计启动子分析通过计算正常和gc样品中合并的所有h3k4me3区域的h3k4me3:h3k4me1比,来鉴定启动子(h3k4me3hi/h3k4me1lo)区域。我们基于肿瘤样品和正常样品之间前100个差异启动子的平均信号估计实现80%的功效和10%的i型误差所需的样品大小(http://powerandsamplesize.com/)。该结果产生的推荐样品大小为11(平均值),这在我们的研究中得到满足(16n/t)。将正常样品和gc样品中h3k4me3:h3k4me1比率<1的区域排除在进一步分析之外。对于在本研究所进行的所有分析,启动子区域被定义为表现出h3k4me3hi/me1低信号的基因组位置,并且对于所有后续分析,仅在该预定义的h3k4me3hi/me1低子集内比较h3k4me3信号。h3k27ac数据用于相关分析。从公共数据库下载针对结肠癌细胞系的h3k4me3数据(fastqs)-hct116和caco2从encode下载,v503和v400从gse36204下载。为了比较gc样品和正常样品之间的启动子信号,我们使用deseq2和edger生物导体包(bioconductorpacakge),使用chipseq信号的读取计数矩阵,针对复制信息调整。选择倍数变化大于1.5(fdr0.1)的区域作为显著不同。fc1.5和q<0.1的标准基于以前的文献,其使用deseq2和edger,也使用类似的阈值比较chip-seq谱。由deseq2鉴定的显著改变的启动子几乎完全与edger发现的改变的启动子重叠。使用deseq2读数计数的正则化对数转换来绘制pca和热图。转录组分析rna-seq数据获自登录号为egas00001001128的europeangenome-phenomearchive。通过首先使用tophatv2.0.12与gencodev19转录物注释比对来处理数据。cufflinks2.2.0用于产生fpkm丰度测量值。为了鉴定新的转录物,使用cufflinks而不使用参考转录物注释。然后将转录物在所有gc和正常样品上合并,并与gencode注释进行比较,以使用cuffmerge2.2.0鉴定新的转录物。还对另外10个原生样品进行了深深度(deep-depth)链特异性rna测序。使用qiagenrneasymini试剂盒提取总rna,并使用illuminastrandedtotalrnasampleprepkitv2(illumina,sandiego,california,usa)ribo-zerogold选项(epicenter,madison,wisconsi,美国)和1μg总rna,根据制造商的说明构建rna-seq文库。使用配对末端101bp读取选项进行测序。以fastq文件的形式从tcgadataportal(数据门户)(https://tcga-data.nci.nih.gov/tcga)下载tcga数据集,然后使用tophatv2.0.12将其与gencodev19转录物注释比对。为了分析启动子相关的rna表达,将来自tcga样品(肿瘤和正常)的rna-seq读数针对发现样品中最初由表观基因组分析定义的启动子区域的基因组位置作图,包括所有启动子、增益的体细胞启动子和丧失的体细胞启动子(参见正文的图1)。然后量化定位到这些表观基因组定义的启动子区域的rna-seq读取,通过启动子长度(千碱基)和总文库大小进行归一化,并计算肿瘤和正常tcga样品组之间表达的倍数变化。启动子基因座的长度定义为由峰值调用程序ccatv3.0.(190)鉴定的h3k4me3区域的起始和终止基因组坐标之间的碱基对数(bps)。使用cufflinks(fpkm)、kallisto(tpm)和miso(同种型中心分析)进行替代启动子驱动的转录物的同种型水平量化。通过deseq2归一化每一同种型的分配计数。dna甲基化分析提取胃肿瘤和匹配的正常胃组织的基因组dna(qiagen),并使用illuminahumanmethylation450beadchips(hm450)处理,用于dna甲基化分析。使用methylumirbioconductor包计算甲基化β值并进行背景校正。利用bmiq方法(r中的watermelon包)进行归一化。从ucsc基因组浏览器下载cpg岛位置。使用bedtools交集(bedtoolsintersect)鉴定启动子基因座和cpg岛之间至少1bp的重叠。对于每个组(所有启动子、增益的体细胞启动子和丧失的体细胞启动子),我们鉴定了与预测的启动子区域重叠的探针并计算了平均β值差异。进行了双样本wilcoxon检验(two-samplewilcoxontest)。存活分析使用kaplan-meier存活分析,总体存活率作为结果度量。用对数秩检验评估kaplan-meier分析的显著性。基因集合富集分析使用msigdb,通过计算与体细胞启动子相关的基因与c2精选(curated)基因集合的重叠来进行基因集合富集分析。质谱分析和数据分析从由临床蛋白质组肿瘤分析协会(clinicalproteomictumoranalysisconsortium)(nci/nih)生成的cptac门户下载90个结肠癌和直肠癌(crc)样品和60个正常结肠上皮样品的肽水平质谱数据。(https://cptac-data-portal.georgetown.edu/cptac)。使用idpicker的idquery工具提取光谱计数。通过对分位数归一化的和log2转换的光谱计数拟合线性模型(limmar)来鉴定差异表达的肽。对于gc细胞系质谱分析,用补充有蛋白酶抑制剂的ripa缓冲液提取ags、ges-1、snu1750和mkn1细胞。在12%nupagenovelbis-tris预制凝胶(thermoscientific)上分离每种生物四平行样(即每个细胞系4个复制品)的150μg蛋白提取物。对于凝胶内消化,将样品分成两部分,并在10mmdtt中在56℃还原1小时,然后在55℃用55mm碘乙酰胺(sigma)避光烷基化45分钟。胰蛋白酶消化在含有2μg胰蛋白酶(promega)的50mm碳酸氢铵缓冲液中于37℃过夜进行。将肽在stagetips上脱盐并在与qexactivehf质谱仪(thermofisherscientific)偶联的easy-nlc1200系统上通过纳流(nanoflow)液相色谱(nanoflowliquidchromatograph)进行分析。在用rerosil-purc18-qaq1.9μm树脂(maisch博士)内部填充的c18反相柱(25cm长,75μm内径)上分离肽。将柱安装在easyflexnanosource上,并通过柱温箱(sonation)在40℃进行温度控制。使用0.5%甲酸中2-40%乙腈的225-min(分钟)梯度,流速为225nl/min。喷雾电压设定为2.4kv。在每次ms全扫描时使用top20ms/ms光谱采集方法操作qexactivehf。用60,000和ms/ms扫描以15,000分辨率进行ms扫描。对于数据分析,原始文件使用maxquant版本1.5.2.8针对uniprot注释的人类蛋白数据库进行处理。将脲基甲基化(carbamidomethylation)设定为固定修饰,而甲硫氨酸氧化和蛋白n-乙酰化认为是可变修饰。用以0.01的错误发现率过滤的maxquant处理搜索结果。激活了运行选项和lfq量化之间的匹配。针对潜在污染物、逆向蛋白和log2转换过滤lfq强度。然后使用开源软件perseus(0.5宽度,1.8降档)对它们进行输入,并使用线性模型(limmar)进行拟合。5′race和基因克隆使用用于cdna末端快速扩增的5'race系统,版本2(invitrogen,18374-058),进行cdna末端的5’快速扩增(5’rapidamplificationofcdnaend,5'race)。简而言之,对于每个基因的每个逆转录反应,使用2μg总rna以及superscripttmii逆转录酶和基因特异性引物1。cdna合成后,使用rnase(核糖核酸酶)混合物(rnaseh和rnaset1)降解rna。然后用s.n.a.p柱纯化第一链cdna,并用dctp和tdt加上尾巴。使用精简的锚定引物(abridgedanchorprimer)和巢式基因特异性引物2,通过hotstartpolymerase(promega,m5001)扩增dc有尾cdna。随后,用精简的通用扩增引物(auap)和基因特异性引物3再次扩增初级pcr产物。进行凝胶电泳。切下感兴趣的pcr条带并纯化,用于用ta克隆试剂盒(tacloningkit,invitrogen,k2020)进行克隆。分离出至少12个独立的克隆,并在abi3730dna分析仪(appliedbiosystems)上对纯化的质粒dna进行双向测序(表2)。通过对编码来自katoiii细胞的野生型和变异met的全长cdna进行pcr扩增,产生met转录物的构建体。从ncc59细胞pcr扩增野生型和变异rasa3全长转录物进行。将cdna片段克隆到pci-puro-ha载体(由promega的pci-neo载体修饰,其由新加坡分子与细胞生物学研究所(instituteofmolecularandcellbiology,singapore)的wanjinhong惠赠)中。使用lipofectamine3000(thermoscientific)将质粒瞬时转染到细胞系中。表2:race引物蛋白质印迹法(westernblotting)使用lipofectamine3000(thermoscientific)接种并转染3x105个hek293细胞。将细胞血清饥饿16小时,然后加入人hgf(r&d系统,100ng/ml)持续0、15和30分钟,并立即用具有蛋白酶和磷酸酶抑制剂(roche)的冷triton-x100裂解缓冲液(50mmtrisph8.0,150mmnacl,1%tritonx-100)在冰上收获。通过piercebca蛋白测定(thermoscientific)测量蛋白浓度。将细胞裂解物在sds样品缓冲液中于95℃加热10分钟,每孔加载20μg每种细胞裂解物。将蛋白转移到硝酸纤维素膜上。通过在室温将膜与下列抗体孵育4小时来进行蛋白质印迹法:met&β-肌动蛋白(santacruz)、p-met(y1234/1235&y1349)、pstat3(s727&y705)、stat3、erk、p-erk、gab1、pgab1(y627)(cellsignaling)。将膜在第二抗体中以1:3,000在室温温育1小时,并使用chemidoctmmp成像系统(bio-rad)用supersignalwestfemtomaximumsensitivity底物(thermoscientific)显色。使用imagelab软件(bio-rad)量化蛋白质印迹带。一式三份重复实验。细胞增殖试验将3x103个ges1、snu1967和ags细胞接种到96孔板上含有10%胎牛血清的培养基中,并放置过夜以附着。第二天(第0天),使用lipofectamine3000(thermoscientific),用野生型和变异rasa3构建体瞬时转染细胞。对于ags,构建体的量为40ng/孔,且对于ges1和snu1967细胞,构建体的量为100ng/孔。在转染后24-120小时通过wst-8测定(细胞计数试剂盒-8,dojindo)测量细胞增殖。每孔加入10μlwst-8溶液,在加湿培养箱中温育2小时后,在450nm处测量吸光度读数。用rasa3sirna转染使用两种rasa3sirna沉默ncc24细胞中的rasa3somt转录物(hs.ri.rasa3.13.1kitdsirnaduplex(integrateddnatechnologies)和selectpre-designedsirnas355(lifetechnologies))。用上述两种sirna或非靶向对照(on-targetplus非靶向池,dharmacon)以100nm的终浓度将ncc24细胞转染48小时,随后进行qpcr和western验证和迁移/侵袭试验。迁移和侵袭试验为了测定细胞迁移能力,使用具有8.0μm孔聚碳酸酯膜插入物的corningcostar6.5mmtranswell(3422,corning,ny,usa),测试rasa3野生型和变异转染的ags和ges1、snu1967和ags以及sirna处理的ncc24细胞。将2.5×104个ags细胞和2×104个ges1细胞、3×104个snu1967细胞和5×104个ncc24细胞悬浮于0.1ml无血清rpmi培养基中,并加入transwell插入物的顶部。将0.6ml含有10%fbs的rpmi作为化学引诱剂加入到底部孔中。在37℃、5%co2培养箱中温育24小时后,用3.7%甲醛固定细胞,并用100%甲醇透性化。用棉签从膜的上表面刮掉未迁移的细胞。用0.5%结晶紫使迁移的细胞染色。迁移细胞的数量表示为迁移细胞的总面积相比使用imagej软件计算的transwell膜的面积。对于细胞侵袭试验,在使用前将上述transwell插入物用0.1ml(300μg/ml)corningmatrigel基质(354234,corning,ny,usa)在37℃涂覆2-4小时。所有后续步骤与迁移试验方案相同。rasa3mrna水平的测量使用qiagenrnaeasy微型试剂盒根据制造商的说明从三个独立实验中提取总rna。使用improm-iitm逆转录酶(promega)逆转录rna。使用quantifastsybrgreenpcr试剂盒(qiagen)在appliedbiosystemsht7900realtimepcr系统上一式三份进行实时pcr。使用deltact方法计算倍数变化并归一化为β-肌动蛋白。引物序列如下。β-肌动蛋白:f–5’tccctggagaagagctacg3’(seqidno:1843),r-5’gtagtttcgtggatgccaca3’(seqidno:1844);rasa3somt:f–5’ttgtgagtggttcagcggta3’(seqidno:1845),r–5’tcaagcgaaaccatctcttct3’(seqidno:1846)。ras-gtp试验用rasa3cant、rasa3somt或空载体将ges1细胞转染48小时。在含有fbs的培养基中收获细胞蛋白,或者在收获前使细胞进行过夜血清饥饿,然后进行血清刺激30分钟。使用含有蛋白酶抑制剂混合物(nacalaitesque)的冰冷裂解缓冲液(活性ras下拉和检测试剂盒(activeraspull-downanddetectionkit))提取蛋白。根据制造商的说明,使用活性ras下拉和检测试剂盒(thermofisherscientific)获得活性ras级分。在相应的全细胞蛋白裂解物中测量总ras。β-肌动蛋白用作加样对照。使用piercebca蛋白测定(thermoscientific)测定蛋白浓度。将sds样品缓冲液加入裂解物中并在100℃煮沸5分钟。将样品加载到4-15%mini-proteantgx凝胶(biorad)的每个孔中,并使用半干印迹系统(biorad)转移到pvdf膜。用抗ras(1:200稀释,供应于活性ras下拉和检测试剂盒中)或b-肌动蛋白(1:5000稀释,sigmaa5316)在5%乳-pbst中在4℃过夜探测膜。抗小鼠二抗(lna931,amersham)在室温以1:2000的稀释度使用1小时。使用amershameclprimewesternblottingdetectionreagent使膜显影,并使用chemidoc成像系统(biorad)成像。改变的肽和抗原预测改变的肽被定义为在替代启动子使用中由体细胞改变引起的变异n-末端蛋白序列。应用以下过滤器来选择改变的肽池-i)交替rna-seq表达相对规范rna-seq表达,倍数变化至少为1.5,ii)每个基因座仅一个规范同种型和一个交替同种型,iii)注释的转录物被gencode确认为蛋白编码。规范启动子定义为表现出未改变的h3k4me3峰的区域。人蛋白质组的随机肽由gencode编码转录物的氨基酸序列生成。将n-末端肽增益鉴定为这样的情况,即与规范转录物相比,替代转录物与预测导致不同的翻译蛋白序列的不同5'区域相关的情况。对于每个n末端改变的蛋白,我们使用netmhcpan2.8,使用ic<=50nm的严格性阈值评估9-mer肽的结合,以鉴定强mhc结合物(binder)。将n末端增益的肽针对相同基因的蛋白装配数据进行作图,以评估蛋白质表达。对使用optitype预测的13个gc样品的hla类型进行抗原预测。使用默认参数运行optitype,除了bwamem用作预过滤与optitype提供的参考序列比对上的读取的对准器。从分析中省略了3个覆盖率差的样品和具有错配的不成对读数。从allelefrequencynetdatabase(http://www.allelefrequencies.net)获得11个在东南亚群体中患病率增加的hla-a、hla-b以及hla-c等位基因变体(hla-a*02:07/hla-a*11:01/hla-a*24:02/hla-a*33:03/hla-a*24:07、hla-b*13:01/hla-b*40:01/hla-b*46:01、hla-c*03:04/hla-c*07:02/hla-c*08:01)。细胞溶解标志物与替代启动子使用的关联使用颗粒酶a(granzymea,gzma)和穿孔素(perforin,prf1)的表达评估局部免疫细胞溶解活性。使用两种算法-ascat(79)(异常细胞级分)和estimate(肿瘤纯度)评估肿瘤含量。下载sg系列的表达数据(gse15460),并使用'affy'r包中的稳健多阵列平均算法进行归一化并进行log2转换。sg系列的affymetrixsnparray6.0数据从gse31168和gse85466下载。使用针对“错义”变体分类过滤的2级精选的maf文件(qcv5_blacklist_pass.aggregated.capture.tcga.uuid.curated.somatic.maf)从tcgastad出版数据(https://tcga-data.nci.nih.gov/docs/publications/stad_2014/)下载tcgastad样品的突变频率。使用kallisto算法计算tcgastad样品(tpm)的表达数据。针对tcga胃癌(stad)的rawsnparray6.0.cel文件从gdc数据门户(https://gdc-portal.nci.nih.gov/)下载。使用dbgap证书和eracommons发布的id获得对该数据集的访问。从http://bioinformatics.mdanderson.org/estimate/下载tcgastad的预先计算的estimate评分,并使用公式cos(0.6049872018+0.0001467884×estimate评分)转换成肿瘤纯度。从gse62254下载针对acrg系列的预处理表达数据,并从协作者(jl)获得预先计算的ascat评分。使用样条回归模型为错义突变和肿瘤纯度频率调整细胞溶解标志物的表达。用于细胞因子试验的肽和细胞用于15个代表性替代启动子的一组肽购自genscript(genscript)。表3描述了每一可选启动子的肽序列和肽池的组成。人肌动蛋白的对照肽池购自jpt(pm-acts,pepmixtmhuman(actin)jpt)。从9名健康志愿者获得外周血单核细胞(pbmcs),对其中8名健康志愿者的pbmc样品进行hla分型(表3)。表3:健康pbmc供体的hla类型epimax试验将pbmc用1μmcfse(lifetechnologies,thermofisherscientific)标记,并在完全培养基(包含crpmi的rpmi1640培养基(gibco,thermofisherscientific),15mmhepes(gibco),1%非必需氨基酸(gibco),1mm丙酮酸钠(gibco),1%青霉素/链霉素(gibco),2mml-谷氨酰胺(gibco),50μmβ2-巯基乙醇(sigma,merck),和10%热灭活的fcs(hyclone))中以每孔200,000个细胞的密度培养5天。在培养开始时,对于每种肽,以1μg/ml的浓度添加每一替代启动子的个体肽池。在第5天结束时,用live/可固定的近红外死细胞染色试剂盒(lifetechnologies)染色细胞,并用cd4-buv737(bd)、cd8-pacificblue(bd)、cd3-pe(biolegend)、cd19-pe/texasred(beckman)和cd56-apc(bd)标记。使用lsrii(bd)通过流式细胞术进行cfse稀释的t细胞增殖分析。此外,对细胞培养物上清液进行基于磁珠的细胞因子多重分析(人细胞因子组1,millipore,merck)以测量分泌的细胞因子水平。ifn-γ试验为了测试rasa3wt和变异蛋白序列的免疫原性,使用磁珠(miltenyi,germany)通过阳性选择从hla-a*02:06供体分离cd14+单核细胞。通过gm-csf(1000iu/ml)和il-4(400iu/ml)生成树突细胞,并用tnf(10ng/ml)、il-1b(10ng/ml)、il-6(10ng/ml)(miltenyi,germany)和pge2(1μg/ml)(stemcelltechnologies,canada)进一步成熟24小时。然后用表达wtrasa3或变异rasa3的ags细胞裂解物将dc引发24小时,然后与来自相同供体的t细胞以1:5的比例共培养。与dc共培养5天后,使用cd3磁珠(miltenyi,germany)通过阳性选择分离t细胞,并与表达wtrasa3或变异rasa3的ags细胞以20:1的比例共培养两天。收获上清液并利用elisa(r&d,usa)测量ifn-γ释放。nanostring分析nanostringncounterreportercodeset被针对sg系列样品上的95个基因(83个在gc中上调,11个下调)和5个管家基因(agpat1、cltc、b2m、pol2rl和tbp,覆盖宽泛的表达范围)涉及。对于每个基因,我们设计了3个探针,靶向a)交替启动子位置的5'末端,b)规范启动子的5'末端(由gc样品和正常样品中相同富集的启动子区域或最长蛋白编码转录物定义)和c)常见的下游探针。供应商提供的ncounter软件(nsolver)用于数据分析。使用每个codeset中包括的内部阳性对照探针的几何平均值对原始计数进行归一化。针对acrg队列上的88个基因设计单独的nanostring试验。对于每个基因,我们设计了3个探针,靶向a)交替启动子位置的5'末端,b)规范启动子的5'末端(由gc样品和正常样品中相同富集的启动子区域或最长蛋白编码转录物定义)。重复富集分析使用来自ucsctablebrowser(grch37/hg19)的repeatmasker注释鉴定在表现出体细胞启动子改变的区域过表达的重复元件家族。从重复集合中过滤“unknown(未知)”、“simple_repeat(简单_重复)”和“satellite(卫星)”注释。仅当重复元件与启动子重叠至少50%时才包括重复元件。使用benjamini-hochbergfdr校正的二项检验(binomialtest)评估重复元件家族的富集,并且使用所有启动子区域作为背景。功能预测分析分别从genocanyon(http://genocanyon.med.yale.edu/genocanyon_downloads.html,版本1.0.3)和genoskyline(http://genocanyon.med.yale.edu/genoskyline)下载全基因组和组织特异性功能评分。使用bedtoolsintersectbed计算重叠,并且计算每一未注释体细胞启动子的功能评分。转录因子富集从remap数据库即encode的公共数据库和其他公共chip-seqtfbs数据集获得237个tf的转录因子结合位点。计算重叠并针对体细胞启动子集合计数。将相对富集评分计算为(状态(state)和重叠特征中的碱基#)/(基因组中的碱基#)和[(重叠特征中的碱基#)/(基因组中的碱基#)x(状态中的碱基#)/(基因组中的碱基#)]的比率。ezh2抑制用选择性ezh2抑制剂gsk126(selleck,usa)以5μm的浓度处理im95。在用gsk126处理后,使用celltiter-luminescentcellviabilityassay(celltiter-发光细胞活力测定)(promega)在96孔板中监控细胞增殖,三次独立实验。对于rna-seq分析,使用qiagenrnaeasy微型试剂盒根据制造商的说明提取总rna。用gsk126(selleck,usa;溶于dmso中)以5μm的浓度处理细胞。用相同浓度的dmso(0.1%)处理对照细胞。针对启动子基因座的rnaseq差异分析使用edger在定位于使用featurecounts估计的h3k4me3区域的读数计数上进行。使用cuffdiff2.2.1进行rnaseq基因水平差异分析。其他信息保藏代码:用于本研究的基因组数据已经保藏于国家生物技术geo中心(nationalcenterforbiotechnologygeo)数据库中,保藏号为gse51776和gse75898.(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?token=kfoxqeamzfetpal&acc=gse75898)。结果鉴定gc中的表观基因组启动子改变我们使用nanochip-seq在17个gc、匹配的正常胃粘膜(34个样品)和13个gc细胞系中分析了三个组蛋白修饰标志物(h3k4me3、h3k27ac和h3k4me1),生成110个表观基因组谱(表1和表4提供了临床指标和测序指标)(图1a)。nano-chipseq数据的质量控制使用两个独立的方法进行:已知启动子处的chip富集,以及使用chip-seq质量控制和验证工具chance(chip-seq分析和置信评估(chip-seqanalyticsandconfidenceestimation))。与高度表达的蛋白编码基因相关的1,000个启动子处nano-chipseq读数密度的比较证实了在所有h3k27ac和h3k4me3文库中的成功富集。chance分析还揭示,大多数样品(81%)表现出成功富集(表1)。我们之前还证明,nano-chip信号显示出与正交chip-qpcr结果的良好的一致性。表4:所用样品的临床病理学参数为了实现准确的启动子鉴定,我们整合来自多个组蛋白修饰的数据,选择同时共耗尽h3k4me142的h3k4me3区域(“h3k4me3hi/h3k4me1lo区域”;图7,方法)。与来自外部来源的数据,包括gencode参考转录物、encode染色质状态模型和cage(cap分析基因表达)数据库的比较,验证了绝大多数h3k4me3hi/h3k4me1lo区域为真正的启动子元件(参见题目为“h3k4me3hi/h3k4me1lo区域作为真实启动子的验证”的部分和图7)。由于原生胃组织包括几种不同的组织类型,包括上皮细胞、免疫细胞和基质,我们通过与胃和非胃组织的表观基因组roadmap数据进行比较进一步证实我们的启动子谱反映了真实的胃上皮。胃肿瘤和匹配的正常启动子谱表现出与roadmap胃粘膜的最高相关性,并且与其他胃肠组织(小肠、结肠粘膜、结肠乙状结肠)、胃相关肌肉、皮肤和血液(cd14)不同(图8)。与胃肠道成纤维细胞系(58-69%)和结肠癌细胞系(59-74%)相比,原生组织启动子谱也显示与gc细胞系的启动子谱有显著重叠(87%),所述gc细胞系纯粹是上皮来源的(图8)。我们总共对nano-chipseq队列中约23,000个启动子元件进行了作图。这些启动子元件的可视探索确定了三个主要的启动子类别——未改变的启动子、在肿瘤中增益的启动子(增益的体细胞或肿瘤特异性启动子),以及存在于正常胃组织中但在gc中缺失或减少的启动子(丧失的体细胞或正常特异性启动子)(图1a-c)。未改变的启动子的代表性实例包括rhoa(图1a),而细胞内粘附基因ceacam6在肿瘤样品和细胞系中的ceacam6转录起始位点(tss)上表现出体细胞启动子增益(图1b)。相反,atp4a是在gc43中表达降低的壁细胞相关h+/k+atp酶,其表现出体细胞启动子丧失(图1c)。ceacam6和atp4a启动子改变分别与相同样品中ceacam6和atp4a基因表达的增加和降低相关(图1b和1c)。先前的研究已经建立了不同的gc分子亚型。然而,由于样品量有限,我们选择在目前停留期间(inthecurrentstay)鉴定相对于对照组织存在于多个gc组织中的启动子改变(“体细胞启动子”),而不管亚型如何。专注于复发性改变还有利于减少由于“私自”表观基因组变异或个体样品特定技术错误导致的潜在伪像(artefact)。我们使用通常用于分析chip-seq数据的基于两种互补读数计数的算法鉴定了约2000个高度复发性体细胞启动子,其中75%的启动子在gc中是增益的(fc1.5,q<0.1)。基于体细胞启动子的二维热图聚类和主成分分析(pca)图基于启动子改变证实了gc与正常样品的分离(图1d和图9)。体细胞启动子h3k4me3水平也与h3k27ac信号高度相关(r=0.91,p<0.001,图1e),h3k27ac信号通常被认为是积极调节活性的标志物。在所有体细胞启动子中观察到这种相关性(r=0.84,p<0.001,图1e),并且当分别分析增益的体细胞启动子和丧失的体细胞启动子(r=0.78,对于获得的体细胞,p<0.001;r=0.82,丧失的体细胞p<0.001,图9)时,也观察到这种相关性。通路分析揭示,增益的体细胞和丧失的体细胞启动子均与先前报道在gc中分别上调和下调的表达基因集合显著相关(图1f)。这些包括上调的致癌基因(met,abl2)、细胞粘附基因(ceacam6)和密封蛋白家族成员(cldn7,cldn3)。15-18%的体细胞启动子定位于以前与gc相关的非编码rna(ncrna),包括hotair和pvt1(表5)。在严格性阈值增加(fc从1.5-2和fdr从0.1-0.001)的额外分析产生类似的结果,支持该分析的稳健性(图9)。这些结果表明,可以基于表观基因组启动子谱来区分正常的胃上皮和gc。表5:与改变的启动子相关的非编码rnah3k4me3hi/h3k4me1lo区域作为真实启动子的验证四系列证据支持绝大多数h3k4me3hi/h3k4me1lo区域作为真实的启动子。首先,h3k4me3hi/h3k4me1lo区域在位于已知gencode转录起始位点(tss)上游1kb的基因组位置上强烈富集(图7)。其次,在tss区域,h3k4me3信号表现出经典的偏斜双峰强度模式,之前报道与启动子有关(图7)。第三,当与表观基因组roadmap(epird)15状态模型定义的区域重叠时,我们观察到相对于其他组织,在胃肠组织中的h3k4me3hi/h3k4me1lo区域在近端启动子状态(tss/位于转录位点侧翼的区域)显著富集(图7)。第四,cage(cap分析基因表达)是用于使用5'mrna数据为基因启动子作图的专门的转录组测序方法。与来自fantom5联盟(consortium)的cage数据整合揭示,h3k4me3hi/h3k4me1lo区域与稳健的cage标签簇重叠81%。(图7)。gc中的体细胞启动子在多种癌症类型中表现出下调为了探讨表观基因组启动子改变与基因表达之间的关系,我们分析来自相同发现队列的rna-seq数据(约1.06亿读数/样品),量化定位于表观基因组指导的启动子区域或直接下游的rna-seq转录物读取。通过对体细胞启动子区域进行检查(图2a提供了增益的体细胞启动子的说明性实例),我们观察到,与所有启动子(p<0.001,图2b)或未改变的启动子(p<0.001,图10)相比,在gc中增益的体细胞启动子处显著增加的表达,且在丧失的体细胞启动子处显著降低的表达。在其他类型的表观遗传修饰中,先前的研究还报道了活性调节区与dna甲基化之间的相互关系。我们使用infinium450kdna甲基化阵列鉴定了与体细胞启动子区域重叠的7,505个cpg位点(对于增益的体细胞启动子,5,213个位点;对于丧失的体细胞启动子,2,292个位点)。与所有启动子相比,在gc中增益的启动子是显著低甲基化的(p<0.001,wilcoxon检验),而在gc中丧失的启动子则是高甲基化的(p<0.001,wilcoxon检验)(图2b,下图)。由于dna甲基化通常发生在富含cpg的区域,(56)我们然后重复了仅专注于携带cpg岛的启动子的分析(方法和材料)。与原始结果相似,与所有携带cpg岛的启动子相比,在gc中增益的携带cpg岛的启动子是显著低甲基化的(p<0.001,wilcoxon检验),而在gc中丧失的携带cpg岛的启动子则高甲基化的(p<0.001,wilcoxon检验)(图11)。为了验证更大的独立gc队列中的体细胞启动子改变,并且还检查它们在其他癌症类型中的行为,我们继续查询来自tcga联盟的354个gc样品的rna-seq数据(n=321gc,n=33匹配的正常(normal))。为了进行该分析,将来自tcga样品的rna-seq读数针对由发现样品定义的表观基因组指导的体细胞启动子区域进行作图,并归一化以计算gc与正常在表达上的倍数变化差异(参见方法和材料)。与发现系列相似,我们观察到相对于所有启动子(p<0.001,图2c)或未改变的启动子(p<0.001,图10),tcgagc在增益的体细胞启动子也表现出表达显著增加,而丧失的体细胞启动子则表现出表达降低。我们通过查询来自其他肿瘤类型的rna-seq数据进一步测试了gc体细胞启动子的组织特异性,所述其他肿瘤类型包括结肠癌、肾肾透明细胞癌(ccrcc)和肺腺癌(luad)(图2d)。几乎三分之二(n=1231,63%,fc=1.5)的gc体细胞启动子也在tcga结肠癌样品中被差异调节,同样,相当大比例的gc体细胞启动子也与tcgaccrcc(n=939,48%,fc=1.5)和luad样品(n=1059,54%,fc=1.5)中的差异rna-seq表达相关(图2d)。该结果表明,许多gc体细胞启动子也可能与其他实体上皮恶性肿瘤中失调的启动子活性相关。替代启动子的作用通过比较体细胞启动子与参考gencode数据库(v19),我们发现替代启动子在gcs中的广泛使用(18%),定义为普通的未改变的启动子存在于正常组织和肿瘤(规范启动子)中,但是第二肿瘤特异性启动子参与后者(替代启动子)的情况。其余82%的体细胞启动子对应于单一主要同种型或未注释的转录物(见后文)。57%的替代启动子发生在规范启动子的下游。我们使用多种rna-seq分析方法证实,由替代启动子驱动的转录物同种型在gc中过表达的程度明显高于同一基因中的规范启动子(方法和材料,图12)。例如,在gc中过表达的转录因子hnf4α由两个启动子(p1和p2)驱动。在hnf4α规范启动子(“p2”)处,我们在gc组织和正常组织中观察到相同的启动子信号;然而,我们还在下游45kb的转录起始位点(“p1')进一步观察到gc中额外启动子的增益。在gc细胞系中也观察到类似的hnf4αp1启动子增益(图3a),rna-seq分析支持gc中的hnf4αp1同种型表达。在经常用于鉴定循环肿瘤细胞的epcam基因处也观察到替代启动子使用,从而引起epcam转录物enst00000263735.4的表达(图3b)。值得注意的是,与其规范同种型相比,hnf4α和epcam替代同种型均显示出显著更大的癌症过表达(图12)。与肿瘤特异性替代启动子相关的其他基因,许多都是首次报道,包括nkx6-3(fc1.83,q<0.05)和grin2d(fc1.9,q<0.001)。提供了gc肿瘤特异性启动子的完整列表(表6)。表6:替代启动子为了探索替代启动子对蛋白多样性的影响,我们鉴定了预测改变n-末端蛋白组成并且还受到h3k4me3和rna-seq数据支持的714个肿瘤特异性启动子改变。绝大多数这些改变(>95%)对规范蛋白的组成而言是符合读框的。其中,47%的改变(n=338)预计会导致肿瘤中新的n-末端肽增益(见方法)。为了证实这些n-末端肽在胃肠癌中的蛋白水平表达,我们查询了90个tcga结肠直肠癌(crc)样品和60个正常结肠样品的公众可获得的肽光谱数据。因为目前不能获得原发性gc的大规模蛋白质组数据,并且因为在crc中也观察到许多gc体细胞启动子(图2d),因此该分析使用crc数据。在预测在肿瘤中增益的n-末端肽中,我们在crc数据中证实了33%(112/338)的蛋白表达(表7),其中51.8%在crc样品中相对于正常结肠样品(fdr10%)过表达。在另一个实验中,我们进一步研究了这些n-末端肽是否也在来自3个gc细胞系和1个正常胃上皮细胞系(ges1)的蛋白质组数据中表现出肿瘤过表达(方法和材料)。与crc数据类似,相对于正常ges1胃细胞,48%的n-末端肽在gc系中过表达。总的来说,这些分析表明,替代启动子对胃肠癌中的蛋白质组多样性有显著贡献。表7:来自crc样品的预测在gc中增益的n末端肽的光谱计数为了检查体细胞启动子对癌症发展的可能功能,我们关注于rasa3,其是促分裂原活化蛋白激酶的gαi诱导抑制所需的rasgtp酶活化蛋白。在gc(50%)和gc系中,我们观察到在远离规范rasa3tss下游127kb的内含子区域启动子活性的增益(图3c,顶部,图10)。rna-seq和5'race分析证实了这种较短的rasa3同种型的表达(图3c,底部),并且在tcgarna-seq数据中也观察到这种较短的rasa3同种型的表达(图3c)。与规范的全长rasa3蛋白(cant)相比,预测较短的31kdarasa3体细胞同种型(somt)缺乏n末端rasgap结构域(图3d)。与这些预测一致,与空载体或rasa3somt转染的细胞相比,将rasa3cant横切成ges1正常胃上皮细胞诱导了较低水平的活性gtp结合的ras,这表明rasa3cant具有较高的rasgap活性(图13)。为了解决rasa3somt的功能,我们将rasa3cant和somt同种型转染到snu1967gc细胞中。与未转染的细胞相比,将rasa3somt转染到snu1967细胞中显著刺激迁移(p<0.01)和侵袭(p<0.01),而rasa3cant显着抑制侵袭(p<0.001)(图3e,图13)。同样,将rasa3somt转染到ges1细胞中显著刺激迁移(p<0.01,图3e)和侵袭(p<0.01,图13),而rasa3cant则不是如此。当在天然地高度迁移的kras突变的agsgc细胞上进行测试时,rasa3cant的表达有效地抑制迁移,而rasa3somt则表现出显著较小的衰减(p<0.01,图13)。这些结果表明,rasa3somt的肿瘤特异性使用可能会增加gc细胞的迁移和侵袭。值得注意的是,rasa3cant和somt转染不会改变snu1967、ges1或ags细胞增殖速率(图13)。为了证实这些观察结果不是由于非生理性体外表达水平所致,我们接着检查了ncc24gc细胞,其通常表达高内源水平的rasa3somt和最小rasa3cant(图13)。使用两种独立的sirna构建体沉默内源性rasa3somt显著抑制ncc24迁移和侵袭(p<0.01-0.001)(图13),这与rasa3somt在促进癌症迁移和侵袭中起作用一致。在早期的研究中,我们报道了met受体酪氨酸激酶的转录物同种型,其由内部替代启动子驱动,并且已在其他癌症类型中被独立确认。然而,这种met变体的功能意义仍不清楚。rna-seq和5'race分析证实了这种较短的同种型的转录物表达,预测其容纳截短的sema结构域(图14)。为了评估野生型(wt)met和变异(var)met之间的功能差异,我们将met(wt)和met(var)瞬时转染到hek293细胞中。在未处理和hgf处理的条件下,met-var转染细胞显示出显著更高的p-gab1(y627)水平,p-gab1(y627)是met信号传导的关键介质(例如,比较met-var与met-wt,2.48-3.95倍,p=0.003(未处理),p<0.05(t15和t30)。(66)此外,在hgf未处理的样品中,与met-wt相比(对于p-erk和p-stat3(y705)分别为p=0.023和p=0.026),用met-var转染的细胞也表现出更高的p-erk1/2水平(2.74倍)和更高的p-stat3(y705)(67-70)水平(1.80倍)。这些结果表明metvar同种型的表达可以以对gc肿瘤发生重要的方式促进met-下游信号传导动力学。体细胞启动子与肿瘤免疫相关癌症免疫编辑是发展中的肿瘤塑造其免疫原性和抗原谱以逃避宿主免疫监视的过程。癌症免疫编辑的机制是多种多样的,包括上调免疫检查点抑制剂如pd-l1。为了探讨体细胞启动子对肿瘤免疫的潜在贡献,我们鉴定了与gc特异性mhci类hla等位基因具有预测的高亲和力的体细胞启动子相关n-末端肽(表8和9),所述等位基因是抗原呈递给cd8+细胞毒性t细胞所必需的(ic50≤50nm,图4a)。与多种对照肽群(包括规范gc肽(平均36%相比24%;p<0.01)、随机选择的肽(p<0.001)和c-末端肽(p<0.01))相比,使用netmhcpan-2.8算法对复发性体细胞启动子相关肽进行的分析揭示了高亲和性mhci结合的显著富集(图4b显示组合的hla-a、b和c,图15a仅描绘hla-a的数据)。大多数高亲和性体细胞启动子相关肽对应于缺乏n-末端肽的体细胞转录物相对于正常组织在肿瘤中过表达的情况(78%丢失;76/97高亲和性肽,图4c)。尤其是,由于缺乏n末端的体细胞tss驱动的转录物也在肿瘤中过表达的程度,明显比规范tss驱动的转录本更高(p<0.05,wilcoxon单侧检验)(图12),预测这种情况会导致肿瘤中这些n-末端免疫原性肽的相对耗尽。有趣的是,单独使用rna-seq数据进行的类似n末端分析(在没有表观基因组数据的情况下)揭示,与仅rna-seq鉴定的肽相比,表观基因组指导的n-末端肽显示出显著更高的预测的免疫原性评分(对于mhc呈递,36.10%相比27%,p=0.02,fisher检验),这表明表观基因组指导的启动子鉴定能为仅rna-seq指导分析提供补充价值(图15)。表8:gc样品的hla预测样品a1a2b1b2c1c22000639a*33:03a*24:02b*58:01b*40:01c*03:02c*03:672000721a*11:01a*11:01b*46:01b*15:01c*01:02c*04:012000986a*24:02a*11:01b*40:01b*38:02c*07:02c*15:02980437a*33:03a*02:07b*40:01b*39:01c*07:02c*04:01990068a*02:03a*11:01b*51:01b*55:02c*08:01c*14:022000085a*24:07a*34:01b*15:21b*15:21c*04:03c*04:03980401a*33:03a*11:01b*58:01b*40:01c*03:02c*07:02980447a*11:01a*11:01b*38:02b*27:04c*12:02c*07:022001206a*02:07a*24:02b*46:01b*40:06c*01:02c*08:01980436a*02:03a*02:07b*46:01b*46:01c*01:02c*01:02980417a*33:03a*11:01b*58:01b*46:01c*03:02c*01:02980319a*33:03a*11:02b*58:01b*27:04c*03:02c*12:0220021007a*24:10a*24:02b*15:27b*40:01c*03:04c*04:01表9:对mhci类具有高亲和力的复发性n末端序列表10:替代启动子的肽池为了探讨体细胞启动子是否可能有助于降低体内肿瘤抗原负荷和免疫反应性,我们继续检验各种原发性gc队列中启动子改变与肿瘤内t细胞活性之间的相关性。首先,为了检测95个gc正常对的队列(sg队列)中的启动子改变,我们生成了靶向前95个复发性gc体细胞启动子的定制的nanostring组(nanostringpanel),测量与规范启动子或替代启动子相关的转录物。nanostring数据和rna-seq之间存在显著的相关性(图16,r=0.65,p<0.001),其中约35%的转录物由在超过一半的gc中上调的交替启动子驱动(图4d)。其次,为了检查这些相同gc样品中t细胞活性的标志物,我们分析了先前发表的微阵列数据以测量cd8a(cd8+肿瘤浸润淋巴细胞的量度)、颗粒酶a(gzma)和穿孔素(prf1),它们都是t细胞效应物和t细胞细胞溶解活性的有效标志物。我们证实这三种基因(cd8a、gzma和prf1)本身并不与体细胞启动子相关。比较顶部和底部四分位数,具有高度体细胞启动子使用的gc表现出显著较低的gzma和prf1水平(p<0.001和p=0.01,wilcoxon检验),表明较低的t细胞细胞溶解活性(图4e,左上),以及较低的cd8a水平的倾向(p=0.14,wilcoxon单侧检验)。我们使用两种不同的算法(ascat和estimate)进一步确认,gzma和prf1水平降低与gc间的肿瘤纯度差异无关(图16)。基于中值启动子使用评分,将gc样品分成不同部分时获得了类似的结果(gzma,p<0.001和prf1,p=0.03)。与患有体细胞启动子使用低的gc的患者(后25%)相比,患有表现出高度体细胞启动子使用的gc患者(前25%)也表现出较差的存活率(图4e右上,hr2.55,p=0.02)。再者,通过患者的中值体细胞启动子使用评分来划分患者也显示出相似的存活差异(图11,hr=1.81,p=0.04)。为了验证这些发现,我们接着分析了另外两个主要的gc队列-一个来自tcga,另一个来自亚洲癌症研究组织(asiancancerresearchgroup,acrg)。在tcga队列中,rna-seq数据的可用性使我们能够直接由下一代测序(ngs)数据推断体细胞启动子使用(图2c)。与新加坡队列相似,具有高度体细胞启动子使用的tcgagc(前25%)与具有低度体细胞启动子使用的gc(后25%)相比,以与肿瘤纯度无关的方式,表现出cd8a(p=0.002,wilcoxon单侧检验)、gzma(p=0.001,wilcoxon单侧检验)和prf1(p=0.005,wilcoxon单侧检验,图4e左下)水平降低(图16)。值得注意的是,由于先前的研究提出体细胞突变负荷也可能与肿瘤内t细胞细胞溶解反应相关,因此,我们在使用基于回归的方法调整每个样品中错义突变的总数后进一步重复了该分析。即使在校正体细胞突变负荷后,我们仍然在具有高度体细胞启动子使用的样品中观察到cd8a(p=0.02,wilcoxon单侧检验)、gzma(p=0.01,wilcoxon单侧检验)和prf1(p=0.03,wilcoxon单侧检验)表达降低(前25%对比后25%)(图11)。我们利用了来自acrg的第三独立队列的gc样品。我们使用nanostring靶向89个规范和替代启动子以及各种免疫标志物,分析了acrg队列的264个原发性gc样品。40%的替代启动子转录物在超过一半的样品中显示出肿瘤特异性表达(图11)。具有高度体细胞启动子使用的样品(前25%)再一次显示出显著较低的t细胞细胞溶解活性标志物表达,包括cd8a(p=0.035,wilcoxon单侧检验)、cd4a(p=0.005,wilcoxon单侧检验)、gzma(p=0.001,wilcoxon单侧检验)和prf1(p=0.025,wilcoxon单侧检验)(图4e,右下)(图16)。基于中值启动子使用评分将gc样品分成不同部分时获得了类似的结果(表11)。此外,在调整突变负荷后(对于可获得信息的情况),具有高度体细胞启动子使用的样品仍显示cd8a(p=0.167,wilcoxon单侧检验)、gzma(p=0.009,wilcoxon单侧检验)和prf1(p=0.03,wilcoxon单侧检验)表达降低(图11)。总的来说,这些在多个gc队列中观察到并使用多种技术(微阵列、rna-seq、nanostring)评估的结果都支持体细胞启动子使用和降低的肿瘤免疫水平之间的显著关联。重要的是,与体细胞启动子使用相关的t细胞细胞溶解活性水平降低可能与肿瘤纯度和突变负荷无关。表11:具有高度和低度体细胞启动子使用的acrg样品之间的wilcoxon检验的p值。免疫标志物前和后25pctl除以中值(50pctl)cd4a0.011510.06053cd8a0.078290.02482ctla40.20480.2952foxp30.10540.1673gzma0.0025930.005957ifng0.23760.8045il-100.83910.9311lag30.16720.2627pd10.11920.1506pdl10.56680.5869prf10.012720.05873tim30.5780.9424tnfa0.13940.7184*所有p值均来自wilcoxon双侧检验体细胞启动子相关肽在体外是免疫原性的为了功能性测试在gc中耗尽的n-末端肽引发免疫应答的能力,我们使用高通量epimax(epitopemaximum)平台进行体外测定,该平台允许对t细胞增殖和细胞因子的产生进行多表位测试。首先,我们鉴定了预测在健康pbmc(外周血单核细胞)供体池中表现出高hla结合亲和性的n末端肽。其次,选择15种替代启动子相关肽用于测试,我们为每种肽产生肽池(表9和10,方法),然后用所述肽池刺激来自9个健康供体的pbmc。测量t细胞增殖和细胞因子产生水平并基于对照肽进行基准测试(表12)。在所有135次暴露(9个供体的15种肽)中,我们观察到对79个肽池的、以供体依赖性方式诱导复合th1、th2和th17极化的强细胞因子应答(58%;相对于肌动蛋白肽fc≥2)(图4g)(图17)。表12:n末端肽的细胞因子应答为了在更多细胞环境中测试具体n-末端肽的免疫原性能力,我们接下来评估了当与分别表达改变的或野生型肽的hla匹配的同基因gc细胞共培养时,先前经引发而识别改变的或野生型肽的t细胞的应答(图12)。通过mhc-i亲和筛选,预测wtrasa3n末端的vmcdiffsl九聚体对hla-a02:01(ic50=6.93nm)和hla-a02:06(ic50=9.74nm)等位基因表现出高mhc-i亲和结合。使用与hla-a*02:01阳性ags细胞交叉反应的hla-a*02:06t细胞,我们测试了在暴露于表达rasa3cant或somt同种型的ags裂解物后从引发的t细胞释放干扰素γ(ifnγ)。elisa测定表明,经引发而识别rasa3cant的t细胞当与表达rasa3cant的ags细胞共培养时,明显比与表达rasa3somt的ags细胞共培养时释放更多的ifnγ。相反,当与表达rasa3somt的ags细胞共培养时,用rasa3somt引发的t细胞没有表现出明显的ifnγ释放,这表明rasa3somt免疫原性较低(图12)。总而言之,这些体外结果表明,预测通过体细胞启动子改变在gc中耗尽的肽能产生免疫原性应答,免疫应答的大小取决于肽序列和宿主免疫背景。体细胞启动子与ezh2占用有关为了确定驱动体细胞启动子改变的潜在致癌机制,我们将体细胞启动子的基因组位置与来自83种不同组织的237个转录因子的转录因子结合位点(tfbs)相交。表现出体细胞启动子的区域在与ezh2(p<0.01)和suz12(p<0.01)结合相关的区域中显著富集(图6a,表13),这证实较小队列中的早期发现。ezh2和suz12都是prc2表观遗传调节复合体的组分,所述复合体在包括gc在内的许多癌症类型中上调。为了验证这些发现,我们接着对hfe-145正常胃上皮细胞进行了ezh2芯片测序(方法和材料)。与先前的发现一致,我们观察到与所有启动子相比,ezh2结合位点在体细胞启动子中显著富集(富集评分27相比针对所有启动子的13,p<0.01),并且当分别分析增益的体细胞启动子(富集评分28,p<0.01)和丧失的体细胞启动子(富集评分24,p<0.01)时,这种ezh2富集仍然显著(图18)。表13:与ezh2/suz12结合位点重叠的体细胞启动子为了用实验测试抑制ezh2/prc2活性是否可以调节gc中的体细胞启动子使用,我们用gsk126处理im95gc细胞,gsk126是ezh2甲基转移酶活性的高选择性小分子抑制剂。这所以选择该系,是因为它先前已显示对ezh2耗尽敏感(图14)。在两个处理时间点(第6天和第9天)对gsk126处理的im95细胞进行rna-seq的分析确认,在ezh2抑制时上调的基因在先前鉴定的prc2靶基因集合中富集(图18)。gsk126处理导致总共2134个启动子失调(deregulation)。在原发性gc中表现出体细胞改变的1959个启动子中(图1d),gsk126处理导致im95细胞中251个体细胞启动子失调(12.8%)。该比例明显大于gsk126应激后表现出失调的未改变的启动子的比例(8.8%,or1.46p<0.001,fisher检验,图5b),这表明体细胞启动子对ezh2抑制的敏感性提高。在ezh2抑制后失调的体细胞启动子的比例也大于由gsk126调节的基因(由gencode定义)的总比例(1.5%,or9.21,p<0.001,图5b)。在那些表现出gsk126失调和同时定位于在原发性gc中丧失的体细胞启动子的启动子中,89.6%的启动子在gsk126施用后被重新激活(78/87,fc>=2,qval<0.1,方法和材料),这与ezh2抑制这些启动子的功能一致。例如,图5c和5d突出显示了两个在gsk126处理后表现出表达增益的丧失的体细胞启动子(slc9a9和psca)(图5)。因此,这些结果表明了ezh2在调节gc的表观基因组启动子改变中的一般性作用。体细胞启动子揭示了新的癌症相关转录物最后,当分析改变的体细胞启动子的与已知基因的接近度时,我们发现体细胞启动子可以分为注释的类别和未注释的类别。注释的启动子定义为位置接近于已知的gencode转录起始位点(tss)(<500bp)的启动子,而未注释的启动子是指那些定位于缺乏已知的gencodetss的基因组区域的启动子。大多数存在于非恶性组织中的启动子和在肿瘤和正常组织之间未改变的启动子,都紧密定位于先前注释的tss(72%-92%)。相比之下,只有41%的启动子定位于注释的启动子位置,而剩余的59%定位于“未注释的”位置,远离gencodetss,在许多情况下距离2-10kb(图6a)。为了测试这些未注释的启动子的功能相关性,我们使用了genocanyon,是整合多个水平的保守性和表观基因组信息的基因组功能潜力的核苷酸水平量化。我们观察到81%的未注释的启动子区域显示出大于0.9的最大全基因组功能评分(范围0-1),这表明高功能潜力。为了查明组织类型特异性,我们接着使用genoskyline应用组织特异性注释,genoskyline是整合roadmap表观基因组数据的genocanyon框架的扩展。我们观察到gi组织具有继esc和胎儿组织后的第三高的中值评分,这与我们的肿瘤在谱系上是胃的且还是去分化的一致(图5b)。在另一项分析中,最近的研究还表明,人类基因组中的内源性重复元件可能对调节元件变异有显著贡献,且重复元件的低甲基化可以诱导癌症相关转录。我们发现对于重复元件erv1(p<0.0001未注释相比所有)和l1(p<0.0001未注释相对所有,图13)而言,未注释的启动子也显著富集。与注释的启动子相比,未注释的启动子表现出较弱的h3k27ac信号,表明前者可能具有较低的活性和且基因表达水平降低(图13)。体细胞启动子,甚至那些由cage标签支持的体细胞启动子(表明真正的启动子)与cage标签支持的所有启动子相比,表现出显著较低的rna-seq表达水平(图5c),也支持这一观点。因此,我们假设未注释的启动子可能与低转录水平相关,鉴于细胞转录组的动态范围非常宽(对不同基因而言,每细胞10-10,000个转录物),从而使得通过常规深度转录组测序检测它们更具挑战性(图5d)。为了测试这种可能性,我们使用了下采样和上采样分析。毫不奇怪,降低rna-seq深度水平导致检测到的体细胞启动子转录物的伴随降低。例如,下采样至约40m读取导致约250个转录物(fpkm>0,图5e)在体细胞启动子处不可检测。更令人信服的是,在交互实验中,我们实验性地针对匹配的5个gc/正常对生成了深度rna-seq数据(与标准100m相比,平均读取深度140m),并确认额外检测了435个新的体细胞启动子相关转录物(fpkm>0)(图5e)。我们估计,深度rna测序数据的使用使我们能够发现22%未注释的启动子的额外转录物,而不是之前以常规深度rna-seq检测到的(图5f)。这些结果表明,尽管与真正的癌症相关转录物有关,但由表观基因组分析定义的许多体细胞启动子可能已被常规深度rna-seq遗漏。讨论鉴定体细胞改变的顺式调节元件并理解这些元件如何指导癌症相关基因表达,代表了重要的科学目标。在这里,我们定义了近2000个在gc中表现出活性改变的启动子,表明gc中的体细胞启动子是普遍存在的。启动子被规范定义为募集一般转录因子以启动转录的近端顺式调节元件。然而,rna聚合酶在核心启动子处对tss的选择和激活取决于多种因素。核心启动子在不同功能的基因之间差异分布,核心启动子区域的染色质分布和表观遗传局面也可以以组织特异性方式存在不同。在同一基因内存在多个转录起始位点可以生成具有不同5'utr的不同转录物同种型,不同5'utr可以作为调节基因表达的开关,并且替代5'utr的使用还能影响诸如brca1、tgf-β和erg等癌症相关基因的翻译和蛋白质稳定性。这些发现表明,特异性启动子元件活性是复杂的,并且依赖于细胞环境,同时对下游转录、翻译和功能过程有影响。显著比例(约18%)的体细胞启动子对应于替代启动子。在癌症中,替代启动子使用是主要相关的,因为现在证实越来越多的基因(例如lef1、tp53、tgfb3)表现出差异地影响恶性生长的不同替代启动子相关同种型。在本研究中,我们鉴定了gc生物学中已知的和新的基因的替代启动子,它们具有显著的临床和转化意义。例如,我们发现在胃肿瘤中,epcam基因座上的替代启动子特异性激活。在gc中,epcam编码已被提议作为循环肿瘤细胞的标志物的跨膜糖蛋白,并且epcam表达水平与gc患者预后相关。然而,有关gc中驱动高epcam表达的特定细胞机制知之甚少。我们发现在gc中epcam不是通过其规范启动子受到调节,而是通过癌症特异性替代启动子调节,这一发现可能为最近的报道增添了信任,最近的报道提出,除了作为实验上方便的表面标志物之外,epcam在刺激细胞增殖时实际上可以发挥更直接的前致癌作用(pro-oncogenicrole)。在我们的研究中首次鉴定的替代启动子相关基因的另一新实例是rasa3。虽然rasa3在癌症中的功能性作用尚未确定,但其他生物学领域的研究已经表明,rasa3可抑制rap1,而rap1又与各种癌症的侵袭和转移有关。rasa3耗尽可以增强整合素和促分裂原活化蛋白激酶的信号传导,并且最近还通过独立的跨物种癌症研究提出了rasa3可以作为肿瘤抑制因子的可能性。rasa3作为潜在肿瘤抑制因子的合理作用与我们自己的结果一致,其中野生型rasa3的表达有效抑制gc细胞系中的细胞迁移和侵袭,而n末端变异rasa3则增强正常胃上皮细胞中的迁移和侵袭。替代启动子驱动的基因的第三个实例是met,其作为癌症治疗的靶标已被广泛研究。虽然我们和其他人先前已经报道了癌症中n末端截短的met变体的表达,但是这种截短的met变体的功能意义仍然不清楚。在本研究中,met野生型和变体信号传导的实验评估揭示,与全长met同种型相比,截短的met变体可具有不同的下游信号传导效应。在所用的实验条件下,我们观察到erk、stat3和gab1的磷酸化模式以与met-var比met-var更具前致癌性一致的方式存在显著差异,因为已证明erk、stat3和gab1均促进met诱导的信号传导。已知met信号传导途径具有多个反馈环,特别复杂,并且了解n末端短met同种型的表达如何调节下游存活的信号传导将是未来研究的重要主题,特别是鉴于最近利用抗体靶向肺癌中的met的临床试验并未成功。我们的研究还揭示了体细胞启动子和肿瘤免疫之间的意外关系。具体而言,基于高亲和mhci类结合的计算预测和其他免疫学测定,我们发现,在gc中过表达的替代启动子同种型的预测具有潜在免疫原性的n-末端肽显著耗尽。我们认为这一发现与癌症免疫相关,因为它建立在以前文献的发现的基础上,该文献确立了自身反应性t细胞的存在、过表达肿瘤抗原的潜在免疫原性以及肿瘤免疫编辑过程。首先,虽然大多数自身反应性t细胞在早期发育过程中克隆缺失,但许多研究小组也证明了外周中自身反应性t细胞的持续存在。例如,对转基因小鼠进行的分析表明,即使存在缺失配体,25-40%的自身反应性t细胞也可能逃脱克隆缺失,并且在人类中,yu等人(yuetal)已经证明,克隆缺失减少了t细胞库(t-cellrepertoire)但未完全消除自身反应性t细胞克隆。重要的是,虽然这种自身反应性t细胞通常具有低亲和力且不能在正常生理条件下识别自身抗原,但它们仍能保留在适当刺激例如感染和抗肿瘤反应增加等条件下被激活并产生效应细胞和记忆细胞的能力。其次,在癌症中,一些研究已经表明,自身反应性t细胞可以对过表达的肿瘤抗原表现出免疫活性,即使这些抗原也在正常组织中以较低的水平表达。一个众所周知的实例是黑素细胞分化抗原melan-a/mart-1,其由正常黑素细胞表达并在恶性黑素瘤细胞中过表达。已经在50%的黑素瘤患者中检测到melan-a/mart-1的t细胞识别,已证明,甚至健康个体在外周血中表现出不成比例的高频率的melan-a/mart-1特异性t细胞。除了melan-a/mart-1之外,在健康个体和癌症患者中诱导免疫识别的肿瘤相关自身抗原的其他实例包括黑素瘤中的酪氨酸酶相关蛋白(trp-1和trp-2)和糖蛋白(gp)100,和肥大细胞瘤细胞中的p1a。这些实施例清楚地表明,在某些情况下,正常表达的蛋白在癌症中过表达时仍然可以变得具有免疫原性。第三,肿瘤免疫编辑-发展中的肿瘤逃避免疫控制的获得能力,是癌症的公认标志。肿瘤免疫逃逸可以通过不同的机制发生,例如通过上调免疫检查点抑制剂(例如pd-l1),以及改变抗原呈递基因或肿瘤特异性抗原的转录。例如,黑素瘤抗原(例如gp100、mart-1和p1a)的表达降低与黑素瘤发展至晚期疾病阶段有关。除了全长基因的明显下调之外,因此高度可信的是,影响剪接形式和启动子变体的转录变化也可有助于肿瘤免疫编辑。例如,最近在b细胞急性淋巴细胞白血病(b-all)中进行的工作已经描述了响应于cd19cart(嵌合抗原受体武装的t细胞)疗法产生n末端截短的cd19转录物变体,这清楚地显示了启动子转录物变体确实可以由于免疫压力的后果而出现。总的来说,我们认为,这些先前确定的发现都指出了替代启动子在降低肿瘤免疫原性潜力方面的合理作用。就此而言,我们观察到表现出体细胞启动子改变的区域显示出与多梳抑制复合体(prc2)表观遗传调节复合体(polycombrepressivecomplex2(prc2)epigeneticregulatorcomplex)的结合靶标的明显重叠,并且对ezh2抑制特别敏感,这表明重新唤醒体细胞启动子相关表位的药理学方法可能代表增加抗肿瘤t细胞免疫反应性和抗肿瘤活性的有吸引力的策略。总之,我们的研究表明体细胞启动子在gc中的重要作用。我们还注意到,相当一部分体细胞启动子(52%)定位于未注释的tss,这与最近的研究一致,表明存在数百个仍需要注释的转录物基因座。有趣的是,已经证明,大部分人转录组起源于可以表现出启动子活性和/或表达非编码rna的重复元件。发现在我们的gc研究中激活的未注释的启动子在erv-1和l1重复元件中富集,而已证明erv-1和l1重复元件与早期人胚胎细胞中的阶段特异性转录相关,这暗示了这些启动子的仍然未知的功能作用。对这些未注释的启动子的分析可能为新的和迄今为止未预料到的对gc发展和进展的机制的洞察提供肥沃的土壤。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1