确定体细胞突变原因的方法_5

文档序号:8926623阅读:来源:国知局
转录链相同的背景)。用于提取和分析C0SM和 ICENSEMBL数据库公开提供的这些cDNA转录物。用这些转录物,分析AID基序(GYW/ WRC),AP0BEC1基序(TG/CA)和AP0BEC3G基序(CG/CG),以及WA基序突变的背景,这代表 SHM过程第二阶段A :T碱基对突变的可能位点(因此与AID活性有关)。评估所述突变涉 及它们的突变密码子位点。 图1显示了分析定义的"感兴趣区域"的突变序列的一个例子。感兴趣区域包括包含突 变密码的9个核苷酸,侧翼5'(5')密码子和3'(3')密码子。侧翼5'的密码子核苷酸(N) 的位点分别标记为5'N1,5'N2和5'N3(5'至3')。同样,侧翼3'的密码子核苷酸的位点分 别注解为3' N1,3' N2和3' N3。所示A到C的点突变(A>C)的例子,点非转录链(NTS)MC-l 位的A突变为复制非转录链(NTS')的C。突变的密码子的A突变与5' -N3位点的G相关 联。这被注释为"S..A"(其中S是G或C)。此注解用于突变密码子内的突变位点。
[0121]汇集的乳腺癌数据集中的TP53基因的每个2514的体细胞突变的的频率和密码子 背景显示在表1中。如上所述,MC-l,MC-2和MC-3指的是突变密码子(MC)内的突变位点。 这些是从非转录链的5'到3'。以确定各突变型的密码子背景是否重要,卡方检验用于检验 在〈0. 01水平的截止统计学意义(2DF)。 表1:
据观察,转变(即A〈>G或C〈>T)比颠换(即A或G〈>C或T)多。其结果是,该突变模 式显示显著链偏差,其中A突变超过T突变(371/283 = 1. 3),和G突变超过C突变(1 1 10/750 = 1.5)。这与以前的工作一致示出了免疫球蛋白基因的VDJ地区SHM过程类似链 偏好模式以及在包括乳腺癌的非淋巴肿瘤整个基因组中的蛋白激酶基因突变数据(Steele and Lindley (2010) DNA R印air 9:600-603)。该链偏好模式也与B细胞慢性淋巴细胞白血 病患者的突变数据一致(Malcikova et al. (2008)Molecular Immunology 45:1525-9) 〇 在表1所示的合并数据集还揭示先前没有报道的显著突变的密码子偏好模式。最显 著的密码子背景的偏好是为转换C>T(P〈0. 001,2DF),G>A(P〈0. 001,2DF)和A>G(P〈0. 001, 2DF),已知这导致与SHM与进程相关联的标志链偏好模式。 结果发现所有C>T转换的397/593 (66. 9%)发生在MC-1位点,所有C突变的(即C>A/ G/T)的 397/750 (52. 9 % )发生在 MC-2 位点。所有 G 突变的 505/1 110 (45. 5 % )(即 G>A/ C/T)是MC-2位点的G>A转换。如果随机发生并独立于的密码子结构的突变,因此预计仅 特定核苷酸的突变的3种不同类型的突变1/9 (或约11. 1% )发生在一个特定的位点(即 MC-1,MC-2 或 MC-3)。 对于A>G转换,所有A>G转换的194/269 (72. 1 % )发生在MC-2位点,所有A突变(即 A>C/G/T)的 194/371 (52. 3% )是 MC-2 位点的 A>G 转换。 表1中的数据还支持在TP53错义突变选择的期望作为MC-3的突变的数目显著小于 RNA每个C>T,G>A和A>G转换的MC-1或MC-2位点,无义介导的mRNA降解(NMD)途径是一 种已知的依赖于密码子背景信息的细胞监视系统,使细胞识别和处置含"无义"突变基或可 能提前停止翻译的STOP信号(UAG,UGA和UAA)的缺陷基因产品。这是TP53错义突变选择 的结果。该数据也与另一个先前的研宄相一致,此研宄报告免疫球蛋白可变(V)区基因互 补决定区密码子位点的MC-1和MC-2的可变性趋势高于预期。 该分析还发现MC-1位点发生C>T转换(P〈0. 001,2DF)和MC-2位点发生G>A转换 (P〈0. 001,2DF)的非常显著的统计偏好。如开放"转录泡" ssDNA TS或NTS的胞苷都能够 进行脱氨,该数据支持涉及能够读取结构内并区分TS和NTS胞苷的分子机制结论。 表2示出了发生在AID、AP0BEC1和AP0BEC3G基序,以及WA基序TP 53乳腺癌数据集 2514体细胞突变的密码子背景。卡方检验来确定对截止于P0. 01水平的统计学意义(2DF)。 如果突变独立于5'-密码子结构发生,并且碱基组成无修正,然后,预计围绕每个突变 型的三分之一将位于MC-1,、MC-2或MC-3位点。.同样地,预期仅围绕单个核苷酸的所有 突变的九分之一(11. 1% )将位于MC-1,、MC-2或MC-3位点。对于在关键基序过渡密码子 背景偏好与AID、AP0BEC1和AP0BEC3G活性比表1中示出的合并数据集在统计上更加显著 相关。 表2.
因为GYW基序与AID活性相关,所有G>A转换的185/200 (92. 5 % )发生在MC-2位点,并 且GYW位点所有突变的106/132(80. 3% )发生在MC-1位点。相反,在WRC位点,,所有C>T 转换的106/132 (80. 3%)发生在MC-1位点,C所有突变(即OA/G/T)的106/168 (63. 1%) 是MC-1位点的C>T转换。 因为CG基序与APOBEC3G活性相关,所有G>A转换的358/407 (87. 7% )发生在MC-2位 点,并且CG位点所有突变的358/505 (70. 9% )是MC-2位点的G-到-A转换。相反,在CG 位点,,所有C>T转换的240/248 (96. 8% )发生在MC-1位点,C所有突变(即OA/G/T)的 240/288(83. 3% )是 MC-1 位点的 C>T 转换。 因为TG/CA基序与APOBEC 1的活性相关,密码子背景偏好没有统计显著,在CA位 点,C>T转换的93/160 (58. 1 % )发生在MC-1位点,并且C所有突变(即OA/G/T)的 93/188 (49. 5% )是MC-1位点的C>T转换。仅TG位点所有G>A转换的62/155 (40. 0% )发 生在MC-2位点,和所有C>T转换的240/248(96.8% )发生在MC-1位点,G所有突变(即 OA/G/T)的 62/136 (45. 6% )是 MC-2 位点的 G>A 转换。 表2中所示在关键基序观察到的密码子偏好模式的另一特征是AID,APOBEC 1和 AP0BEC3G每个基序多数的所有G突变为发生在MC-2位点。通过比较,每个基序多数的C突 变为发生在MC-1目标点。这表示符合读码框架的感测机制涉及转录起始的期间的DNA水 平,并且,它能够区分NTS的胞苷和开放的"转录泡"背景TS的胞苷。 因为WA位点的A>G转换,128/141 (90. 8% )发生在MC-2位点,并且WA位点的所有A 突变(g卩.A>C/G/T)的128/167 (76. 6% )是MC-2位点的G>A转换。认为WA位点的A>G突 变水平的提高是SHM活性的一个特征和RNA模板中间参与的诊断,这一发现支持内源性AID 引起的突变过程活跃在至少许多数据集中的样品的预测。 表3示出发生在在关键基序的突变的密码子背景与AID,APOBEC1和APOBEC3G相关并 且与强核苷酸(S = G/C)共同位于5'N3位点。标记'S. .M'(其中M是突变的核苷酸A,G,C 或T)用于表明侧翼突变密码子5' N3位点处"S"核苷酸的存在,以及在MC-1,MC-2或MC-3 位点的任一处突变的核苷酸靶标。如果突变独立地发生在5' -密码子结构,并且碱基组成 不进行校正,然后,预计仅每个所述基序的一半突变将和S共同位于5'N3位点。 表3.
*5'N3位点核苷酸是'S'和MC-1位点突变是M或是不可能的。同样,5'N3位点的 核苷酸不能是"S"并且MC-2位点WR£突变和MC-1位置C £位点所有的突变在5' N3位点有 "S"。 所述分析发现S-M位点和与AID,APOBEC3G活性相关的基序转换之间出乎意料地高联 系,并且在WA位点,但不在APOBEC1位点。因为GYW/WRC基序与AID活性相关,MC-2位点 所有G>A转换的184/185 (99. 5% )在5' N3位点有S出现,并且MC-1位点所有C>T转换的 102/106(96.2%)在5' H3位点有S出现。因为CG/CG基序与AP0BEC3G活性相关,MC-2 位点所有G>A转换的352/358 (98. 3% )在5' N3位点有S出现,并且MC-1位点所有C到T 转换的239/240 (99. 6% )在5' N3位点有S出现。因为TG/CA基序与APOBECT活性相关,所 述的结果没有统计学显著。仅MC-2位点G>A转换的36/62 (58. 1 % )在5' N3位点有S出 现,并且MC-1位点C到T转换的252/93 (55. 9 % )在5' N3位点有S出现。对于WA位点, MC-2位点A到G转换的121/127(95.3% )在5'N3位点有S出现。 表3中的数据也揭示了与S共同位于5' N3位点的选择基序的一些颠换的出乎意料的 高比例。特别是,GYW或CG靶向位点的G到T/C突变和S. . G位点之间有高于预期的结合。因 为G的所有转换和颠换发生在选择的AID,APOBEC3G和WA基序的MC-2目标位点,高度显著 778/799(97. 4% )和S在同一位点?。同样,CG的所有转换和颠换的375/382(98. 2% ) 发生在选择的AID和APOBEC3G基序的MC-1目标位点,和S. . £共存。 因此,和S. . M (M = A/G/C/T)在同一位点似乎是直接接触结合的一个组成部分和与AID 和APOBEC3G脱氨酶酶活性相关的密码子阅读框传感器机制,以及作用在WA位点的突变机 制⑶。 实施例2 预测AID, APOBEC1或APOBEC3G活件的诊断规则的发展 观测的AID, APOBEC 1,APOBEC3G和WA基序突变的密码子偏好模式(上述)用于产生 下面的"规则"或诊断标准,预测核苷酸体细胞突变是否是AID,APOBEC 1和/或APOBEC3G 活动的结果。 MC-2位点去除GYW (AID)基序的G>A突变的数量高于预期与转录链AID脱氨酶的活性 相关。 MC-1位点去除WRC(AID)基序的C>T突变的数量高于预期与非转录链AID脱氨酶的活 性相关。 MC-2位点去除CG(APOBEC3G)基序的G>A突变的数量高于预期与APOBEC3G的活性相 关。 MC-1位点去除CG(APOBEC3G)基序的突变C>T的数量高于预期与APOBEC3G的活性相 关。 MC-2位点去除WA基序的A>G突变的数量高于预期指示AID-关联的突变过程,从而指 示AID的活性。 当应用这些规则时,假定该组中的每个核苷酸的突变是彼此独立的,并且如果诱变剂 不存在,每个密码子位点的MC-1和MC-2的每个核苷酸的突变的分布将随机分配为A,G,C 或T突变。 图2示出如何用上述诊断标准确定偏好性突变分布的可能原因,偶然出现或由AID或 APOBEC3G引起的靶向体细胞突变引起。对于每一个上述选择的诊断类别,实测(0)和预期 (E)突变的数量列于表的形式。对于诊断类别,如果突变是随机的,预期(E)突变的数量用 可能出现在特定核苷酸每三个可能突变类型的MC-1和MC-2位点的突变总数量计算(当分 析TP53基因的突变,如在图2中,排除MC-3位点作为已选定绑定功能TP53基因的突变的 变体的比较。无义介导的信使RNA降解(NMCD)途径涉及一种已知的依赖于密码子背景信 息的细胞监控系统,使细胞识别和处置有缺陷的基因产物,该产物含无义突变或停止信号, 可能提前停止翻译)。例如,关于与WRC基序相关的AID活性可以导致非转录链的胞嘧啶 (C)突变,如果被随机分布突变C的数量,突变将均匀地分布在MC-1,MC-2位点和C>A,C>G 和C>T(C>A/G/T)。因此,在该示例中,MC-1位点的C>T突变的预期(E)数量是MC-1和MC-2 位点的OA/T/G突变的总数(即1+1+72+6+1+1),除以突变可能类型/位点的数量(即6), 这等于13. 67。然后用简单的卡方检验确定检测的随机分布的概率。图3所示的例子中,适 用于TET2基因突变组的诊断标准的选择集中MC-1 MC-2密码子偏好分布随即出现的可能 性是7.42E-128。这一结果有非常高的统计学意义(P〈1E-127)。 再次参照图3,MC-2位点GYW基序G>A突变的数量高于预期和MC-1位点WRC基序C>T 突变的数量高于预期表明AID脱氨酶活性,而MC-2位点CG基序G>A突变的数量高于预期 和MC-1位点CG基序C>T突变的数量高于预期表明AP0BEC3G活性。 实施例3 其他癌症中TP53体细朐突夺分析 为了确定乳腺癌样品TP53的AID、AP0BEC3G和WA基序突变的密码子偏好是否也发生 在其他癌症的TP53,从子宫颈癌(所有类型),宫颈腺癌,结肠腺癌,肝细胞癌,胰腺癌,前列 腺癌,以及恶性黑色素瘤的IARC TP53数据库中提取数据,并如上所述进行分析。 图4-11示出了 GYW/WRC位点(AID),CG/CG位点(AP0BEC3G)和WA位点突变密码子的 频率和位置。如这些图所示,检测每个这些癌症TP53中AID,AP0BEC3G和/或WA基序突变 密码子偏好模式,表明有TP53突变的多种癌症与AID/APOBEC脱氨酶的活性有关在统计学 上有非常高的可能性。 实施例4 归闵于PIK3CA和TET2中AID或AP0BEC3G体细朐突夺的分析 数据库中不同的患者群来源的总样本数据分析乳腺癌组织样品PIK3CA和造血和淋巴 组织样本TET2的AID、AP0BEC3G和WA基序体细胞突变密码子背景的缺失频率。如图12和 13所示,AID、AP0BEC3G和WA基序体细胞突变密码子背景的缺失频率表明AID和AP0BEC3G 在这些组织中有活性,和检测的体细胞突变显著数量的可能原因。 实施例5 腺样囊件癌#体样品的全外显子组分析 用上述的诊断标准评估AID和/或AP0BEC3G参与腺样囊性癌(ACC)患者组织细胞靶向 体细胞突变的可能性。在23预处理主要ACC标本和1局部区域淋巴结转移以及相应的配套 正常涎腺实质样品进行全外显子组测序的研宄中获得序列数据(St印hens et al. (2013) J Clin Invest. 123(7):2965-2968)。所述外显子组测序鉴定312个突变,,平均每外显子组 有13个突变,相对于其他实体瘤是比较少的。如上所述分析体细胞突变,以确定GYW/WRC 位点(AID)、CG/CG位点(APOBEC3G)和WA位点.突变的频率和密码子的位置 图14示出了两个患者样品中发现的突变的代表分析:PD3185a和H)3181a。诊断标准 的应用,本文发现H)3185a样品的核苷酸发生了靶向体细胞突变,和该样品细胞的AID和 APOBEC3G可能有活性并引起靶向体细胞突变。与此相反,试样中具有最高数目的体细胞突 变(PD3181a),没检测到靶向体细胞突变的证据,没有AID或APOBEC3G导致该样品核苷酸体 细胞突变的迹象。 总体而言,本文发现检测24个ACC样品只有9个样品AID和/或APOBEC3G活性引起的 靶向体细胞突变呈阳性(表4)。有突变的数量和靶向体细胞突变之间或MYB激活得分之间。 没有相关性。此派生MYB激活得分以指示特定样品是否有MYB-NFIB基因融合(Stephens et al. (2013) J Clin Invest. 123(7):2965-2968)。 表4
实施例6 前列腺癌#体样品的全外显子组分析
[0154] 从COSMIC数据库获得四个前列腺癌样本外显子组范围内的突变数据(Wellcome Trust Sanger Institute ;http://cancer.sanger.ac. uk/cancergenome/Droiects/ cosmic/'),并且如上所述进行分析,以确定所述样品核苷酸的革巴向体细胞突变是否由AID 和/或AP0BEC3G活动引起。两个样品来自尸检转移性去势抵抗前列腺癌病人(CRPC),另 两个样品分别来自pT2c病人和PT3A期前列腺癌病人。
[0155] 如表5中归纳,发现AID和/或AP0BEC3G活动导致三个样本靶向体细胞突变呈阳 性。有趣的是,低PSA样品受体检测到靶向体细胞突变,表明这种类型的分析可以用于在 PSA水平开始上升前检测早期前列腺癌。
[0156] 图15显示了四个患者样品中发现的突变的个体分析。除了指示AID和/或 AP0BEC3G活性,PR-09-3421样品MC-1位点G&g
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1