用于检测核苷酸修饰的方法

文档序号：511171阅读：1017来源：国知局

用于检测核苷酸修饰的方法
【专利摘要】本发明涉及修饰的胞嘧啶残基，如5-甲基胞嘧啶（5mC）、5-羟甲基胞嘧啶（5hmC）和5-甲酰基胞嘧啶（5fC）的识别，以与样品核苷酸序列中的胞嘧啶（C）区别开来。本方法可包括氧化或还原包括样品核苷酸序列的多核苷酸的第一部分；用重亚硫酸盐处理氧化的或还原的多核苷酸的第一部分和第二部分；在步骤ii）和iii）后，测序群体中第一和第二部分中的多核苷酸，以分别生成第一和第二核苷酸序列，以及；识别对应于样品核苷酸序列中胞嘧啶的第一和第二核苷酸序列中的残基。这些方法例如可用于基因组DNA和/或RNA的分析中。
【专利说明】用于检测核苷酸修饰的方法
[0001]本发明涉及修饰的胞嘧啶残基的检测，特别地，涉及包含修饰的胞嘧啶残基的核苷酸的测序。
[0002]5-甲基胞嘧啶(5mC)是充分研究的、在基因沉默和基因组稳定性中扮演着重要角色的表观遗传DNA标记，并发现其富含于CpG 二核苷酸中(I)。在后生动物中，5mC可通过10-11转位(TET)家族的酶氧化成5-羟甲基胞嘧啶(5hmC) (2，3)。5hmC的整体水平大概比5mC的整体水平低10倍，并在组织之间变化(4)。相对高数量的5hmC(~所有胞嘧啶的0.4%)存在于胚胎干(ES)细胞中，其中5hmC被认为在建立和/或维护多能性中发挥作用(2，3，5-9)。5hmC已被提议在活跃的DNA脱甲基中作为中间体，例如通过脱氨基或经由进一步的利用TET酶将5hmC氧化为5-甲酰基胞嘧啶(5fC)和5-羧基胞嘧啶(5cC)，随后是涉及胸苷嘧啶-DNA糖基酶(TDG)的碱基切除修复或在复制中未能保持标记(10)。然而，5hmC本身也可构成表观遗传标记。
[0003]在总基因组DNA中通过包括薄层色谱法和串联液相色谱-质谱法的分析方法检测和定量5hmC的水平是可能的(2，11，12)。因此，映射5hmC的基因组位置迄今为止通过富集法实现，该方法采用化学法或抗体用于DNA碎片的5hmC特异性沉淀，然后对DNA碎片进行测序(6-8、13-15)。这些拖下(pull-down)方法具有相对较差的分辨率(IOs-1OOs的核苷酸)，并且只给出相对的定量信息，这在富集中有可能受到分配偏置。可量化的5mC的单核苷酸序列已使用重亚硫酸盐测序(BS-Seq)完成，所述重亚硫酸盐测序利用重亚硫酸盐介导的胞嘧啶脱氨基为尿嘧啶，这样相应的5mC的转化是较慢的(16)。但是，人们已经认识到，5mC和5hmC在重亚硫酸盐反应中脱氨基都是很慢的，因此这两个碱基不能够被区别(17，18)。两个相对新的和简洁的单分子方法在以单核苷酸的分辨率检测5mC和5hmC中显示出希望。单分子实时测序(SMRT)已在基因组DNA中被示出以检测衍生的5hmC(19)。然而，包含5hmC的DNA碎片的富集是必需的，它将导致定量信息的损失(19)。5mC可通过SMRT被检测到，尽管具有较低的精确度(19)。此外，SMRT具有相对高的测序错误比率(20)，修饰的峰值呼叫(calling)是不精确的(19)，并且所述平台还不能测序整个基因组。蛋白质和固态纳米孔可以溶解5hmC中的5mC，并且，利用进一步的开发，有可能测序未扩增的DNA分子(21，22)。
[0004]本发明人已设计了允许修饰的胞嘧啶残基(如5-甲基胞嘧啶(5mC)、5_羟甲基胞嘧啶(5hmC)和5-甲酰基胞嘧啶(5fC))以单核苷酸的分辨率区别于胞嘧啶(C)的方法。这些方法适用于所有的测序平台，并且例如在基因组DNA和/或RNA的分析中可能是有用的。
[0005]本发明的一方面提供了一种在样品核苷酸序列中识别修饰的胞嘧啶残基的方法，包括:
[0006](i)提供包括样品核苷酸序列的多核苷酸群体，
[0007](ii)氧化或还原所述群体的第一部分，
[0008](iii)用重亚硫酸盐处理氧化或还原的所述群体的第一部分和所述群体的第二部分，
[0009](iv)在步骤ii)和iii)后，测序所述群体的第一和第二部分中的多核苷酸，以分别生成第一和第二核苷酸序列，以及；
[0010](V)识别对应于样品核苷酸序列中的胞嘧啶残基的第一和第二核苷酸序列中的残基。
[0011]在第一和第二核苷酸序列中识别对应于样品核苷酸序列中的胞嘧啶残基的残基，表明胞嘧啶残基的修饰。
[0012]例如，胞嘧啶残基可能存在于样品核苷酸序列中的一个或多个位置。在第一和第二核苷酸序列中的这些一个或多个位置上的残基可以被识别。在样品核苷酸序列的位置上修饰的胞嘧啶可从第一和第二核苷酸序列中分别在那位置上识别的残基的组合被识别(如C和C、U和U、C和U、或U和C)。通过不同组合表明胞嘧啶的修饰，如表1所示。
[0013]修饰的胞嘧啶残基可能包含在5位的修饰。适当修饰的胞嘧啶包括5-取代的胞嘧啶。
[0014]在胞嘧啶5位可被取代的基团包括:甲基(m);轻甲基(hm)或甲酰基(f)基团。
[0015]在本文中描述的方法可用于识别和/或区别样品核苷酸序列中的胞嘧啶(C)、5-甲基胞嘧啶(5mC)、5-羟甲基胞嘧啶(5hmC)和5-甲酰基胞嘧啶(5fC)。例如，本文中描述的方法可用于将由胞嘧啶(C)、5_甲基胞嘧啶(5mC)、5-羟甲基胞嘧啶(5hmC)和5-甲酰基胞嘧啶(5fC)组成的组中的一个残基区别于组中的其它残基。
[0016]优选的，修饰的胞嘧啶残基，如5-羟甲基胞嘧啶，在步骤ii)的氧化或还原之前，在所述群体的第一部分中并未标记，例如并未标记有取代基，如葡萄糖。
[0017]在本发明的一些实`施例中，所述群体中的多核苷酸的第一部分可以被氧化。例如，多核苷酸的第一部分中5-羟甲基胞嘧啶残基通过氧化可以被转化为5-甲酰基胞嘧啶(5fC)，之后多核苷酸的第一部分用重亚硫酸盐处理。
[0018]在样品核苷酸序列中识别修饰的胞嘧啶残基的方法可以包括:
[0019](i)提供包括样品核苷酸序列的多核苷酸群体，
[0020](ii)氧化所述群体的第一部分，
[0021](iii)用重亚硫酸盐处理氧化的所述群体的第一部分和所述群体的第二部分，
[0022](iv)在步骤ii)和iii)后，测序所述群体的第一和第二部分中的多核苷酸，以分别生成第一和第二核苷酸序列，以及；
[0023](V)识别对应于样品核苷酸序列中的胞嘧啶残基的第一和第二核苷酸序列中的残基。
[0024]在第一和第二核苷酸序列中的一个或两个位置上识别出的残基为第一和第二核苷酸序列中的一个或两个中的胞嘧啶，表明样品核苷酸序列中胞嘧啶残基为5-甲基胞嘧啶或5-羟甲基胞嘧啶。
[0025]在样品核苷酸序列中5-羟甲基胞嘧啶(5hmC)可被识别。第一核苷酸序列中的位置上的对应于样品核苷酸序列中的胞嘧啶的尿嘧啶残基和第二核苷酸序列中相同位置上的胞嘧啶，表明样品核苷酸序列中的胞嘧啶残基为5-羟甲基胞嘧啶(5hmC)。
[0026]例如，在样品核苷酸序列中识别5-羟甲基胞嘧啶(5hmC)残基或在样品核苷酸序列中将5-羟甲基胞嘧啶(5hmC)区别于胞嘧啶(C)、5_甲基胞嘧啶和5-甲酰基胞嘧啶(5fC)的方法可包括:
[0027](i)提供包括样品核苷酸序列的多核苷酸群体，[0028](ii)氧化所述群体的第一部分，
[0029](iii)用重亚硫酸盐处理氧化的所述群体的第一部分和所述群体的第二部分，
[0030](iv)在步骤ii)和iii)后，测序所述群体的第一和第二部分中的多核苷酸，以分别生成第一和第二核苷酸序列，以及；
[0031](V)识别对应于样品核苷酸序列中的胞嘧啶残基的第一和第二核苷酸序列中的残基;
[0032]其中，在第一核苷酸序列中存在尿嘧啶残基和在第二核苷酸序列中存在胞嘧啶，表明在样品核苷酸序列中的胞嘧啶残基为5-羟甲基胞嘧啶。
[0033]5-甲基胞嘧啶(5mC)在样品核苷酸序列中可被识别。在第一和第二两个核苷酸序列中位置上的对应于样品核苷酸序列中的胞嘧啶残基的胞嘧啶，表明样品核苷酸序列中的胞嘧啶残基为5-甲基胞嘧啶(5mC)。
[0034]例如，在样品核苷酸序列中识别5-甲基胞嘧啶或在样品核苷酸序列中将5-甲基胞嘧啶区别于胞嘧啶(C)、5-羟甲基胞嘧啶(5hmC)和5-甲酰基胞嘧啶(5fC)的方法可包括:
[0035](i)提供包括样品核苷酸序列的多核苷酸群体，
[0036](ii)氧化所述群体的第一部分，
[0037](iii)用重亚硫酸盐处理氧化的所述群体的第一部分和所述群体的第二部分，
[0038](iv)在步骤ii)和iii)后，测序所述群体的第一和第二部分中的多核苷酸，以分别生成第一和第二核苷酸序列，以及；
[0039](V)识别对应于样品核苷酸序列中的胞嘧啶残基的第一和第二核苷酸序列中的残基，
[0040]其中，在第一和第二两个核苷酸序列中存在胞嘧啶，表明样品核苷酸序列中的胞嘧啶残基为5-甲基胞嘧啶(5mC)。
[0041]在第一和第二两个核苷酸序列两者中的位置上的对应于样品核苷酸序列中的胞嘧啶的尿嘧啶残基，表明在样品核苷酸序列中的胞嘧啶残基不是5-甲基胞嘧啶，也不是5-羟甲基胞嘧啶，即，胞嘧啶残基为未修饰的胞嘧啶或5-甲酰基胞嘧啶。
[0042]表1示出了在样品核苷酸序列中的位置上的胞嘧啶修饰的总结,所述胞嘧啶的修饰通过在第一和第二核苷酸序列中的该位置上的胞嘧啶和尿嘧啶的具体组合表明。
[0043]所述多核苷酸群体的第一和第二部分可用重亚硫酸盐处理和/或同时的或相继的测序。
[0044]在一些实施例中，在步骤ii)中第一部分被氧化，可以不用处理第二部分来识别或区别样品核苷酸序列中修饰的胞嘧啶残基。例如，表1示`出，氧化及用重亚硫酸盐处理所述多核苷酸群体的第一部分足以在样品核苷酸序列中识别5-甲基胞嘧啶。在样品核苷酸序列中识别5-甲基胞嘧啶或将5-甲基胞嘧啶区别于胞嘧啶(C)、5-羟甲基胞嘧啶(5hmC)和5-甲酰基胞嘧啶(5fC)的方法可包括:
[0045](i)提供包括样品核苷酸序列的多核苷酸群体，
[0046](ii)氧化所述群体，
[0047](iii)用重亚硫酸盐处理氧化的所述群体，
[0048](iv)在步骤ii)和iii)后，测序所述群体的多核苷酸，以生成处理的核苷酸序列，以及；
[0049](V)识别处理的核苷酸序列中的、对应于样品核苷酸序列中的胞嘧啶残基的残基，其中，在处理的核苷酸序列中存在胞嘧啶表明样品核苷酸序列中的胞嘧啶残基为5-甲基胞嘧啶(5mC)。
[0050]在本发明的一些实施例中，所述群体的多核苷酸的第一部分可在步骤ii)中被还原。在样品核苷酸序列中识别修饰的胞嘧啶残基的方法可包括:
[0051](i)提供包括样品核苷酸序列的多核苷酸群体，
[0052](ii)还原所述群体的第一部分，
[0053](iii)用重亚硫酸盐处理还原的所述群体的第一部分和所述群体的第二部分，
[0054](iv)在步骤ii)和iii)后，测序所述群体的第一和第二部分的多核苷酸，以分别生成第一和第二核苷酸序列，以及；
[0055](V)识别对应于样品核苷酸序列中的胞嘧啶残基的第一和第二核苷酸序列中的残基。
[0056]该方法用于在样品核苷酸序列中识别和/或区别5-甲酰基胞嘧啶(5fC)。
[0057]在实施例中，第一部分被还原，第一核苷酸序列中的位置上的对应于样品核苷酸序列中的胞嘧啶的胞嘧啶和第二核苷酸序列中这个位置上的尿嘧啶残基表明样品核苷酸序列中的胞嘧啶残基为5-甲酰基胞嘧啶；在第一和第二核苷酸序列中位置上的对应于样品核苷酸序列中的胞嘧啶残基`的尿嘧啶表明样品核苷酸序列中的胞嘧啶残基为未修饰的胞嘧啶；并且在第一和第二两个核苷酸序列两者中的位置上的对应于样品核苷酸序列中的胞嘧啶残基的胞嘧啶表明样品核苷酸序列中的胞嘧啶残基为5-甲基胞嘧啶(5mC)或5-羟甲基胞嘧啶(5hmC)。
[0058]表1示出了在样品核苷酸序列中位置上的胞嘧啶修饰的总结,所述胞嘧啶修饰通过在第一和第二核苷酸序列中位置上的胞嘧啶和尿嘧啶的具体组合表明。
[0059]在一些实施例中，本发明的方法可包括测序已被氧化或用重亚硫酸盐处理的多核苷酸的第一部分；已用重亚硫酸盐处理的多核苷酸的第二部分；已被还原或用重亚硫酸盐处理的所述群体的多核苷酸的第三部分。例如，方法可包括:
[0060](i)提供包括样品核苷酸序列的多核苷酸群体，
[0061](ii)提供所述群体的第一、第二和第三部分，
[0062](iii)氧化所述群体的第一部分，
[0063](iv)还原所述群体的第三部分，
[0064](V)用重亚硫酸盐处理所述群体的第一、第二和第三部分，
[0065](vi)在步骤iii)、iv)和V)后，测序所述群体的第一、第二和第三部分中的多核苷酸，以分别生成第一、第二和第三核苷酸序列，以及；
[0066](vii)识别对应于样品核苷酸序列中的胞嘧啶残基的第一、第二和第三核苷酸序列中的残基。
[0067]例如，该方法可用于从胞嘧啶和/或其它修饰的胞嘧啶中识别和/或区别样品核苷酸序列中的5-甲酰基胞嘧啶(5fC)。
[0068]第一和第二核苷酸序列中位置上的、对应于样品核苷酸序列中的胞嘧啶残基的尿嘧啶和第三核苷酸序列中这个位置上的胞嘧啶表明样品核苷酸序列中的胞嘧啶残基为5-甲酰基胞嘧啶。
[0069]在第一、第二和第三核苷酸序列中位置上的、对应于样品核苷酸序列中的胞嘧啶残基的胞嘧啶表明样品核苷酸序列中的胞嘧啶残基为5-甲基胞嘧啶(5mC)。
[0070]在第二和第三核苷酸序列中位置上的、对应于样品核苷酸序列中的胞嘧啶的胞嘧啶和第一核苷酸序列中这个位置上的尿嘧啶残基表明样品核苷酸序列中的胞嘧啶残基为5-羟甲基胞嘧啶(5hmC)。
[0071]在第一、第二和第三核苷酸序列中位置上的、对应于样品核苷酸序列中的胞嘧啶残基的尿嘧啶表明样品核苷酸序列中的胞嘧啶残基为未修饰的胞嘧啶。
[0072]表1示出了，在样品核苷酸序列中位置上的胞嘧啶修饰的总结,所述胞嘧啶修饰通过在第一、第二和第三核苷酸序列中位置上的胞嘧啶和尿嘧啶的具体组合表明。
[0073]样品核苷酸序列可能已被认知或它可能已被确定。样品核苷酸序列为所述群体中未处理的多核苷酸的序列，即尚未被氧化、还原或用重亚硫酸盐处理的多核苷酸。在样品核苷酸序列中，修饰的胞嘧啶不能区别于胞嘧啶。5-甲基胞嘧啶、5-甲酰基胞嘧啶和5-羟甲基胞嘧啶的修饰的胞嘧啶均被表明是或确定为样品核苷酸序列中的胞嘧啶残基。例如，本文中描述的任意一种方法可进一步包括:
[0074]提供包括样品核苷酸序列的多核苷酸群体的第四部分；以及
[0075]测序第四部分中的所述多核苷酸以生成样品核苷酸序列。
[0076]第四部分中多核苷酸的序列可通过任意适合的测序技术确定。
[0077]在样品核苷酸序列中一个或多个胞嘧啶残基的位置可被确定。这可通过标准序列分析完成。由于修饰的胞嘧啶不区别于胞嘧啶，那么在样品核苷酸序列中的胞嘧啶残基可以是胞嘧啶、5-甲基胞嘧啶、5-甲酰基胞嘧啶或5-羟甲基胞嘧啶。
[0078]第一和第二核苷酸序列以及可选的第三核苷酸序列可与样品核苷酸序列相比较。例如，在第一和第二序列及可选的第三核苷酸序列中的位置上的、对应于样品核苷酸序列中一个或多个胞嘧啶残基的残基可被识别。
[0079]样品核苷酸序列中胞嘧啶残基的修饰可由第一和第二核苷酸序列以及可选的第三核苷酸序列中对应位置上的核苷酸的识别来确定。
[0080]所述群体中多核苷酸均包含相同的样品核苷酸序列，即，样品核苷酸序列与所述群体中所有的多核苷酸相同。
[0081]然后，如本文所描述的，可确定对样品核苷酸序列中胞嘧啶残基的不同处理效果。
[0082]样品核苷酸序列可以是基因组序列。例如，所述序列可包括基因序列的全部的或部分，包括外显子、内含子或上游或下游调控基因的基因序列，或所述序列可包括与基因无关的基因组序列。在一些实施例中，所述样品核苷酸序列可包括一个或多个CpG岛。
[0083]适合的多核苷酸包括DNA，优选为基因组DNA，和/或RNA，如基因组RNA (如哺乳动物、植物或病毒的基因组RNA)、mRNA、tRNA、rRNA和非编码RNA。
[0084]包括样品核苷酸序列的多核苷酸可以从细胞样品中得到或分离，所述细胞样品例如为哺乳动物细胞，优选为人类细胞。
[0085]适合的样品包括分离的细胞和组织样品，如活检。
[0086]已在包括胚胎干细胞(ESCS)和神经细胞的一系列细胞类型中检测到包括5hmC和5fC的修饰的胞嘧啶残基(2，3，11，37，38)。[0087]适合的细胞包括体细胞和生殖系细胞。
[0088]适合的细胞可处于培养的任意阶段，包括彻底或部分分化的细胞或未分化的细胞或多能细胞，包括干细胞，如成熟或成体干细胞、胎儿干细胞或胚胎干细胞。
[0089]适合的细胞还可包括诱导多能干细胞(iPSC)，所述诱导多能干细胞根据标准技术可来源于任意类型的体细胞。
[0090]例如，包括样品核苷酸序列的多核苷酸可从神经细胞中得到或分离，所述神经细胞包括神经元和神经胶质细胞、收缩肌肉细胞、平滑肌细胞、肝细胞、激素合成细胞、皮脂细胞、胰岛细胞、肾上腺皮质细胞、纤维母细胞、角质细胞、内皮和尿路上皮细胞、骨细胞和软骨细胞。
[0091]适合的细胞包括疾病相关的细胞，例如癌细胞，如癌、肉瘤、淋巴瘤、胚细胞瘤或生殖系肿瘤细胞。
[0092]适合的细胞包括具有遗传性疾病基因型的细胞，如亨丁顿舞蹈症、囊胞性纤维症、镰状细胞疾病、苯丙酮酸尿、唐氏综合症或马方综合征。
[0093]从细胞样品中提取和分离基因组DNA和RNA的方法是本领域公知的。例如，基因组DNA和RNA可使用任意适当的分离技术分离，如苯酚/氯仿提取和酒精沉淀法、氯化铯梯度离心、固相阴离子交换色谱法和以硅胶为基础的技术。
[0094]在一些实施例中，在分离后，从细胞中分离的全部基因组DNA和RNA可直接被用作如本文所描述的多核苷酸的群体。在其它实施例中，分离的基因组DNA和/或RNA或许要经受进一步的准备步骤。
[0095]基因组DNA和/或RNA可以是碎片的，例如通过超声波法、剪切或核酸内切酶消化以产生基因组DNA碎片。可如本文中所描述的，使用基因组DNA和/或RNA的碎片。适合的基因组DNA和/或RNA的碎片可基于尺寸或其它标准。在一些实施例中，可如本文中所描述的，使用富含CpG岛(CGI)的基因组DNA和/或RNA的碎片。
[0096]基因组DNA和/或RNA可以是变性的，例如通过加热或用变性剂处理。适用于基因组DNA和RNA变性的方法在本领域中是公知的。
[0097]在一些实施例中，在氧化或还原和用重亚硫酸盐处理、或单独用重亚硫酸盐处理之前，基因组DNA和/或RNA可被修改用于测序。修改的本质取决于所采用的测序方法。例如，对于一些测序方法，在分裂之后，引物可被结合到基因组DNA和/或RNA碎片的自由端。适合的引物可包含5mC，以防止引物序列在如本文所描述的氧化或还原和用重亚硫酸盐处理、或单独用重亚硫酸盐处理的过程中改变。在其它实施例中，在如本文所描述的氧化、还原和/或用重亚硫酸盐处理之后，基因组DNA和/或RNA可被修改用于测序。
[0098]在分馏、变性、修改和/或其它准备步骤之后，基因组DNA和/或RNA可通过任意适合的技术纯化。
[0099]在准备之后，多核苷酸群体可被提供为如本文所描述的适于进一步处理的形式。例如，多核苷酸群体在如本文所描述的处理之前可存在于没有缓冲液的水溶液中。
[0100]如本文所描述使用的多核苷酸可以是单链或双链。
[0101]多核苷酸群体可以被分为两个、三个、四个或多个单独的部分，它们中的每一个包含有包括样品核苷酸序列的多核苷酸。这些部分可如本文所描述的被分别处理或测序。
[0102]优选的，在氧化和/或还原之前，多核苷酸的这些部分不会被处理成添加标签或添加取代基团(如葡萄糖)至样品核苷酸序列中的5-羟甲基胞嘧啶残基。
[0103]包括样品核苷酸序列的多核苷酸群体的第一部分可被氧化。在样品核苷酸序列中氧化可转化任意的5-羟甲基胞嘧啶为5-甲酰基胞嘧啶。氧化可以是无酶介导的氧化，例如使用有机的或无机的化学氧化剂，优选地在变性的条件下。
[0104]所述第一部分可通过用氧化剂处理被氧化。所述氧化剂为任意适于使醇生成醛的试剂。所述氧化剂或氧化步骤采用的条件可被选择为使得任意的5-羟甲基胞嘧啶被选择性氧化。因此，在多核苷酸中实质上没有其它官能团在氧化步骤中被氧化。因此，氧化步骤不会引发其中存在的任意的胸腺嘧啶或5-甲基胞嘧啶残基反应。所述氧化剂或所述条件可被选择为最小化或防止所述多核苷酸的任何降解。
[0105]氧化剂的使用可导致一些对应的5-羧基胞嘧啶产物的形成。这类产物的形成对本文中描述的识别方法不会产生负面影响。在用于转化5-甲酰基胞嘧啶为尿嘧啶的重亚硫酸盐反应条件下，还可以观察到5-羧基胞嘧啶被转化为尿嘧啶。可以理解的是，通过氧化5-羟甲基胞嘧啶得到的5-甲酰基胞嘧啶的参考也可以是通过上述氧化得到的包括5-羧基胞嘧啶的产物的参考。
[0106]上述氧化剂可以是无酶氧化剂，例如，有机的或无机的化学化合物。
[0107]适合的氧化剂在本领域中是公知的，包括金属氧化物，如KRu04、MnO2和ΚΜη04。尤其有用的氧化剂是在水性条件下可使用的那些，因为这样操作所述多核苷酸是最为方便的。然而，适用于有机溶剂中的氧化剂也可以在可行时被使用。
[0108]在一些实施例中，所述氧化剂可包括过钌酸盐阴离子(Ru04_)。适合的过钌酸盐氧化剂包括有机的和无机的过钌酸盐，如过钌酸钾(KRuO4)和其它金属过钌酸盐；季铵阳离子过钌酸盐，如四丙基过钌酸铵(TPAP)和四丁基过钌酸铵(TBAP);聚合物负载的过钌酸盐(PSP)和四苯基膦钌。
`[0109]有利地，所述氧化剂或氧化条件还可在变性状态保存多核苷酸。
[0110]在用所述氧化剂处理之后，第一部分中的多核苷酸可被纯化。
[0111]可使用任意适合的核酸纯化技术进行纯化。适合的核酸纯化技术包括离心柱层析。
[0112]所述多核苷酸可能经受进一步、重复的氧化步骤。采取这种步骤以最大程度的转化5-羟甲基胞嘧啶为5-甲酰基胞嘧啶。多核苷酸具有足够的能够二次退火的二级结构可能是必要的。所述多核苷酸的任意退火部分可限制或防止氧化剂进入到具有保护5-羟甲基胞嘧啶不受氧化效果的所述结构的那个部分中。
[0113]在一些实施例中，多核苷酸群体的第一部分例如，可经受用氧化剂处理的多个循环后再纯化。例如，进行一个、两个、三个或多于三个的循环。
[0114]在一些实施例中，包括样品核苷酸序列的多核苷酸群体的第一部分可被还原。在其它实施例中，包括样品核苷酸序列的多核苷酸群体的第三部分可被还原。还原的多核苷酸的第一或第三部分转化样品核苷酸序列中的5-甲酰基胞嘧啶残基为5-羟甲基胞嘧啶。
[0115]多核苷酸的第一或第三部分可通过用还原剂处理被还原。所述还原剂为任意适于使醛生成醇的试剂。所述还原剂或还原步骤采用的条件可被选择为使得任意的5-甲酰基胞嘧啶被选择性还原(即对于5-甲酰基胞嘧啶，还原剂或还原条件是有选择性的)。因此，在多核苷酸中实质上没有其它官能团在还原步骤中被还原。所述还原剂或所述条件可被选择以最小化或防止所述多核苷酸的任何降解。
[0116]适合的还原剂在本领域中是公知的，并包括NaBH4、NaCNBH4和LiBH4。尤其有用的还原剂是在水性条件下可使用的那些，因为这样操作所述多核苷酸是最为方便的。然而，适用于有机溶剂中的还原剂也可以在可行时被使用。
[0117]在分别地氧化和还原之后，用重亚硫酸盐处理所述群体的第一部分以及可选的第三部分。没有被氧化或还原的所述群体的第二部分也用重亚硫酸盐处理。
[0118]用重亚硫酸盐处理将多核苷酸中的胞嘧啶和5-甲酰基胞嘧啶残基转化为尿嘧啶。如上面所看到的，在多核苷酸中存在有5-羧基胞嘧啶(如氧化步骤的产物)，这个5-羧基胞嘧啶在重亚硫酸盐处理中转化为尿嘧啶。不希望受到理论的束缚，我们认为，5-甲酰基胞嘧啶的反应通过损失甲酰基以得到胞嘧啶，然后进行后续的脱氨基以得到尿嘧啶。我们认为，5-羧基胞嘧啶是通过后续的脱羧和脱氨步骤得到尿嘧啶的。在如本文中所描述的将多核苷酸中的胞嘧啶和5-甲酰基胞嘧啶二者或5-羧基胞嘧啶残基转化为尿嘧啶的情况下，可以进行重亚硫酸盐处理。
[0119]所述群体的部分可通过与重亚硫酸盐阴离子(HS032_)培养来用重亚硫酸盐进行处理。
[0120]使用重亚硫酸盐阴离子(HSO32O转化核酸中未甲基化的胞嘧啶在本领域中是标准操作，适合的试剂和条件对于技术人员是公知的(39_42)。许多适合的方案和试剂也可市售可得(例如 EpiTect?, Qiagen NL; EZ DNA Methylation? 酶研究公司(Zymo Research Corp)CA;Cp基因组超快重亚硫酸盐修饰盒(CpGenome Turbo Bisulfite Modification Kit);密理博(Millipore))。
[0121]本文中所描述的方法的特征是转化未甲基化的胞嘧啶(可在5-甲酰基胞嘧啶或5-羧基胞嘧啶的原位产生)为尿嘧啶。这一反应典型的通过使用重亚硫酸盐实现。然后，在本发明的总体方面中，任意试剂或反应条件可被用于影响胞嘧啶到尿嘧啶的转化。这类试剂盒条件可被选择，以使5-甲基胞嘧啶很少反应或不反应，并且更具体的，以使5-甲基胞嘧啶很少反应或不反应以形成尿嘧啶。所述试剂、或可选的进一步的试剂也可影响5-甲酰基胞嘧啶或5-羧基胞嘧啶到胞嘧啶或尿嘧啶的转化。
[0122]在培养之后，多核苷酸的所述部分可被固定、洗涤、变性、洗脱和/或进行其它所
需的处理。
[0123]在一些实施例中，所述群体的多核苷酸的第一、第二和第三部分可在如本文中所描述的处理之后被扩增。这可有助于进一步的操作和/或测序。多核苷酸的第一、第二和第三部分的改变的序列可在扩增后备保存。适合的多核苷酸扩增技术在本领域是公知的，包括PCR。多核苷酸的第一、第二和第三部分中的位置上的尿嘧啶(U)残基的存在可通过扩增的多核苷酸相应的那个位置上的胸腺嘧啶(T)残基的存在被表明或识别。
[0124]如上面所描述的，多核苷酸在氧化、还原和/或重亚硫酸盐处理之后修改为兼容于测序技术或平台。修改的本质取决于测序技术或平台。例如，对于索来萨-启迪(Solexa-1llumina)测序,处理的多核苷酸可以是碎片的,例如通过超声法或限制性内切核酸酶处理，根据需要修复了多核苷酸的自由端，并将引物连结到自由端上。
[0125]多核苷酸可使用任意适合的低或高通量测序技术或平台测序，包括桑格(Sanger)测序(43)、索来萨-启迪(Solexa-1llumina)测序(44)、以结合为基础的(Ligation-based)测序(SOLiD?) (45)、焦磷酸测序(46);斯特罗布(strobe)测序(SMRT?)(47, 48);和半导体阵列(semiconductor array)测序(1n Torrent?) (49)。
[0126]适用于多核苷酸测序的方案、试剂和装置在本领域是公知的，并且是市售可得的。
[0127]对应于样品核苷酸序列中胞嘧啶的第一、第二和/或第三核苷酸序列中位置上的残基可以被识别。
[0128]样品核苷酸序列中位置上的胞嘧啶残基的修饰可从如本文中所描述的第一、第二以及可选的第三核苷酸序列中对应位置上的残基的识别来确定。
[0129]样品核苷酸序列中胞嘧啶修饰的程度和数量可被确定。例如，与未甲基化的胞嘧啶相比，样品核苷酸序列中的5-羟甲基胞嘧啶和/或5-甲基胞嘧啶的比例或数量可被确定。
[0130]如本文所描述的多核苷酸，例如，多核苷酸群体或所述群体的第一、第二、第三和第四的1、2、3或全部的4个部分可被固定在载体上。
[0131]实心载体是不可溶的、非凝胶状的呈现表面的主体，所述多核苷酸被固定在所述表面上。适合的载体的实例包括载玻片、微孔板、膜或微球。所述载体可以是颗粒或固体形式，包括例如盘、试管、珠、球、过滤器、织物、聚合物或膜。多核苷酸可以，例如，被固定到惰性聚合物、96孔板、其它在核酸测序中或在其它研究环境中使用的装置、设备或材料。固定多核苷酸到实心载体表面在本领域中是公知的。在一些实施例中，所述载体本身可以被固定。例如，微球可以固定在第二固体表面上。 [0132]在一些实施例中，多核苷酸群体的第一、第二、第三和/或第四部分在测序之前可被扩增。优选的，多核苷酸的部分在用重亚硫酸盐处理后被扩增。
[0133]适用于多核苷酸扩增的方法在本领域是公知的。
[0134]在扩增后，多核苷酸群体的扩增部分可被测序。
[0135]利用基于计算机的序列分析，核苷酸序列可被比较，并且第一、第二和/或第三核苷酸序列中位置上的、对应于样品核苷酸序列胞嘧啶的残基可被识别。
[0136]胞嘧啶修饰大于阈值的核苷酸序列(如CpG岛)可以被识别。例如，其中大于1%、大于2%、大于3%、大于4%、大于5%的胞嘧啶为羟甲基化的一个或多个核苷酸序列可以被识别。
[0137]利用任意适合的计算机系统和软件可进行基于计算机的序列分析。典型的计算机系统包括中央处理单元(CPU)、输入方式、输出方式和数据存储方式(如RAM)。优选的提供显示屏或其它图像显示。所述计算机可操作地连接到DNA和/或RNA测序仪。
[0138]例如，计算机系统可包括与本文所述的第一、第二和/或第三核苷酸序列相比，适合于识别样品核苷酸序列中修饰的胞嘧啶的处理器。例如，所述处理器可适合于；
[0139](a)识别样品核苷酸序列中胞嘧啶残基的位置，
[0140](b)识别样品核苷酸序列中该胞嘧啶残基位置上的第一、第二和/或第三核苷酸序列中的残基，
[0141](C)根据对所述残基的识别，确定样品核苷酸序列中该位置上存在或不存在修饰的胞嘧啶残基。
[0142]所述样品核苷酸序列和第一、第二和第三核苷酸序列可从DNA和/或RNA测序仪送入处理器。所述序列可被显示，例如在显示器上。[0143]所述计算机系统可进一步包括用于存储数据的存储设备。核苷酸序列如基因组序列，和5fC、5hmC和其它修饰的胞嘧啶残基的位置可被存储于另一或相同存储设备上，和/或被发送至输出设备或在显示器上显示。这可有助于修饰的胞嘧啶(如基因组DNA中的5hmC和5fC)的映射。
[0144]识别和映射胞嘧啶修饰(如基因组中的5fC和5hmC)可用于神经发育和功能及细胞分化、分裂和增殖的研究，以及疾病(如癌)的预知和诊断。
[0145]因此，利用本文所描述的方法来识别和/或映射修饰的胞嘧啶(如5fC和5hmC)也
可用于疾病中。
[0146]本发明的另一方面提供了用于如上所述的识别样品核苷酸序列中修饰的胞嘧啶残基的方法的试剂盒，所述试剂盒包括:
[0147]a.氧化剂和/或还原剂；和
[0148]b.重亚硫酸盐试剂。
[0149]适合的氧化剂、还原剂和重亚硫酸盐试剂已在前面进行了描述。
[0150]试剂盒可进一步包括对照多核苷酸群体，所述对照多核苷酸群体包括一个或多个修饰的胞嘧啶残基，例如胞嘧啶(C)、5-甲基胞嘧啶(5mC)、5_羟甲基胞嘧啶(5hmC)或5-甲酰基胞嘧啶(5fC)。在一些实施例中，对照多核苷酸群体可被分裂为一个或多个部分，每个部分都包括不同的修饰的胞嘧啶残基。
[0151]试剂盒可包括用于`如上所描述的识别修饰的胞嘧啶残基的方法的说明。
[0152]试剂盒可包括本方法所需的一个或多个其它试剂，如缓冲液、测序或其它试剂。用于识别修饰的胞嘧啶的试剂盒可包括一个或多个用于执行本方法的物品和/或试剂，如提供测试样品本身的、包括DNA和/或RNA分离和纯化试剂的装置，以及样品操作容器，这些部件通常是无菌的。
[0153]考虑到本发明公开的内容，本发明的多个进一步的方面和实施例对于本领域的那些技术人员将是显而易见的。
[0154]说明书提到的所有文件出于所有的目的通过引用它们的全部合并在此。
[0155]本文中使用的“和/或”被认为是具体公开了两个具体特征的每一个，或带有或不带有其它部件的部件。例如(A和/或B)被认为是具体公开了⑴A，(ii)B和(iii)A和B的每一个，正如在文中单独的列出每一个。
[0156]除非文中另有说明，上文列出的特征的描述和定义不应被限制为本发明的任何特殊方面或实施例，并且等同于被描述的所有方面和实施例而应用。
[0157]本发明的某些方面和实施例现将参照如下描述的附图以举例方式说明。
[0158]图1显示了 5hmC的单碱基分辨率测序方法。图1A示出了由氢氧化钠在不同时间点淬灭的2’ -脱氧-5-甲酰胞嘧啶核苷(d5fC)和NaHSO3的反应，之后通过高效液相色谱法(HPLC)分析。误差线是重复三次的标准偏差。图1B示出了重亚硫酸盐的氧化反应式:在5hmC氧化成5fC后，用重亚硫酸盐处理和NaOH以将5fC转化为尿嘧啶(U)。R基团为DNA。图1C示出了概括BS-Seq (重亚硫酸盐测序)和oxBS-Seq (氧化重亚硫酸盐测序)技术的图和表。BS-Seq包含了用重亚硫酸盐处理输入DNA，然后测序、紧随其后进行放大。oxBS-Seq包含了输入DNA的氧化，之后用重亚硫酸盐处理并放大，然后测序。通过比较输入、BS-Seq和oxBS-Seq输出，C、5mC和5hmC可被区分、映射和定量。[0159]图2A示出的2’脱氧-5-甲酰基胞嘧啶的重亚硫酸盐分布表明，整体的脱羰加上脱氨基为尿嘧啶。图2B示出的2’脱氧-5-羧基胞嘧啶的重亚硫酸盐分布表明，脱羧为胞嘧啶，之后脱氨基为尿嘧啶。
[0160]图3示出了通过质谱氧化作用的定量(图3A、3B、3D)和通过启迪(Illumina)测序氧化的重亚硫酸盐处理的定量(图3C)。图3A示出了在KRuO4氧化之前和之后，在15mer单链DNA寡核苷酸中5hmC和5fC的水平(归一化到T的峰面积)。图3B示出了在两个连续的KRuO4氧化的之前和之后，在135mer双链DNA碎片中5hmC和5fC的水平(归一化到引物序列中5mC的浓度)。图3C示出了如通过包含单一 5hmCpG (122mer)或多个5hmCpG (135mer)的两个双链DNA碎片在氧化的重亚硫酸盐处理后由Illumina(启迪)测序确定的胞嘧啶(C)到胸腺嘧啶(T)的转化水平(每个碱基得到至少950，000次读出片段(reads))。5mC还存在于比较转化率的这些链中。图3D示出了在KRuO4氧化之前和之后，测定的ES细胞DNA(Jl)中5hmC和5fC的水平(归一化到引物序列中5mC的浓度)。所有的误差线为标准偏差。
[0161]图4示出了通过用KRuO4氧化处理合成的含有胞嘧啶(C)的151^1"单链(88)0嫩(重复三次)(图4A)、合成的包含5mC的15mer单链DNA (重复三次)(图4B)和基因组ES细胞JlDNA (超声重复2次和非超声重复2次)(图4C)后测量核苷酸比率的变化确定氧化后胞嘧啶降解的程度。通过HPLC分析的氧化后核苷酸的峰面积除以氧化前核苷酸的峰面积测得百分比变化。误差线为标准偏差。
[0162]图5示出了由包含5hmC的140bp DNA分子在氧化前(图5A)和后(图5B)消化得到的核苷酸的HPLC迹线。
[0163]图6示出了由包含5fC的15bp DNA链在重亚硫酸盐处理前(图6A)和后(图6B)消化得到的核苷酸的HPLC迹线。
[0164]图7示出了由包含5fC的140bp DNA分子在还原前(图7A)和后(图7B)消化得到的核苷酸的HPLC迹线。
`[0165]图8示出了在oxBS处理后包含C、5mC或5hmC的具有ClaI位点(ATCGAT)的122merDNA链的桑格(Sanger)测序。色谱图示出了模板链的相对序列。在C DNA中，在相对链中C完全被转化为U，如色谱图中示出为A而不是G。5mC DNA不会被转化，如在色谱图中示出为G。5hmCDNA大部分被转化，在色谱图中示出为A，在该实验中具有少量的未转化的G。
[0166]图9示出了通过oxRRBS在CGI定量的5mC和5hmC的水平。图9A示出了在RRBS和oxRRBS数据集之间每个CGI的未转化的胞嘧啶的分数(fraction)的比较；在oxRRBS数据集中具有统计学显著较低分数的CGI (红色)为羟甲基化CGI ;利用相对模式使用CGI的数量(黑色)估计了 3.7%的错误发现率。图9B示出了在具有各自修饰显著水平的CGI中5mC和5hmC水平的分布。图9C示出了基因组RRBS和oxRRBS分布与(h)MeDIP-Seq分布重合的实施例(6)。CGI由绿条表示；为了清楚起见，CGI外部数据被掩蔽(灰色区域)。oxRRBS迹线中的每个条代表了单一的CpG (在DNA的任一链中)。在面板下部的区域中放大突出了本方法的单核苷酸分辨率。图9D示出了利用glucMS-qPCR验证的选定CGI的5mC和5hmC的水平。显示了 oxRRBS在单个MspI位点的值，其中误差线代表了 95%置信区间。重复进行GlucMS-qPCR，其中条形代表了平均值，黑点代表了单个重复。这两种技术显示出良好的相关性。
[0167]图10示出了在用KRuO4氧化前(图10A)和后(图10B)，RNA链(SEQ ID N0:7)消化为核苷酸的HPLC色谱图。相同的条件被用于DNA氧化。核苷酸的保留时间如下:C-1.2分钟、U-1.7分钟、G-3.5分钟、A-6.5分钟。
[0168]图11示出了包含5-甲酰基胞嘧啶(5fC)(部分序列所示_ACGGA5fCGTA)的合成的IOOmer DNA链在用NaBH4和重亚硫酸盐处理(redBS_Seq)还原后的Sanger (桑格)测序迹线。色谱图示出了部分序列(TACGTCCAT-其中黑体位置来自5fC或C)的反向互补序列。5fC和C的位置(括号中)示于图11中的模板链上。在重亚硫酸盐条件下5fC和C脱氨基。然而，5fC由还原步骤而不是脱氨基被转化为5hmC，尽管C脱氨基不受影响。这允许以单碱基分辨率区分5fC和C。
[0169]表1示出了胞嘧啶和修饰的胞嘧啶在经过各种处理后的测序结果。
[0170]表2示出了胞嘧啶(la)、5-甲基胞嘧啶(5mC ;lb)、5_羟甲基胞嘧啶(5hmC ;lc)和5-甲酰基胞嘧啶(5fC ；ld)的结构。
[0171]表3示出了一些水溶性氧化剂实例氧化DNA中5hmC的效率的概要。
[0172]表4和表5分别示出了 DNA (图4，图5和6)和RNA (图10)的HPLC迹线中峰的保留时间。
[0173]试骀
[0174]1、方法
[0175]1.1 用 MnO2 将 d5hmCTP 氣化成 d5fCTP 和 d5cCTP
[0176]于497.5μ L 水中的 2.5 μ L d5hmCTP (lOOmM, Bioline)和 51.6mg MnO2 (对于d5fCTP)或 500mg MnO2 (对于 d5cCTP)(阿尔法埃莎(Alpha Aeser))在 50°C振摇 2 小时 30分钟。然后，使用Amicon Ultra (超过滤器)0.5mL10kDa柱(密理博(Millipore))通过过滤除去MnO2，将样品冻干。将三磷酸核苷酸悬浮(5禮)，并用碱性磷酸酶(新英格兰生物实验室(New England Biolabs))在37°C下过夜脱去磷酸。
[0177]1.2d5fC和d5cC核苷的重亚硫酸氢盐时间过程
[0178]将9yL d5fC 或 d5cC (5mM),0.5μ L dA (0.1Μ，Roche)和 2.5 μ L 水混合，然后添加33 μ L4M NaHSO3 (MP生化制品)。将其分为三个15 μ L的反应，在50°C的暗处放置。在不同时间点取出0.5yL的部份，并加入2.5yL水和2yL NaOH (IM)0在室温下至少放置30分钟后，将它们注入HPLC。测量了峰面积，将其与d5fC、d5cC、dC或dU的校正曲线相关联，并标准化为色谱中dA的水平。
[0179]1.3用于HPLC分析的DNA消化
[0180]DNA如通过文献方案(30)消化，用Amicon Ultra0.5mL10kDa柱纯化，并利用AgilentllOO 在 Eclipse (伊克里斯)XDB_C183.5 μ m, 3.0x150mm 柱上以 lmL/min 通过 HPLC分析。柱温度保持在45 V。洗脱缓冲液为缓冲液A( 500mM醋酸铵(费舍尔(Fi sher ) )，pH5 )，缓冲液B (乙腈(Acetonitrile))和缓冲液C (H20)。缓冲液A在整个运行中保持为1%，对于剩余的缓冲液的梯度为O分钟-0.5% B，2分钟-1% B，8分钟-4% B, 10分钟-95% B。
[0181]2’ -脱氧核苷酸的保留时间如下:2’ -脱氧-5-羧基胞苷(1.0分钟)，2’ -脱氧胞苷(1.8分钟)，2’ -脱氧-5-羟甲基胞苷(2.1分钟)，2’ -脱氧尿苷(2.7分钟)，2’ -脱氧-5-甲基胞苷(4.0分钟)，2’ -脱氧鸟苷(4.5分钟)，2’ -脱氧-5-甲酰基胞苷(5.4分钟)，2’ -脱氧胸苷(5.7分钟)，2’ -脱氧腺苷(7.4分钟)。
[0182]使用相同的方案来消化用于HPLC分析的RNA。[0183]1.4单链和双链PNA序列
[0184]15mer寡核苷酸购于包含胞嘧啶、5-甲基胞嘧啶或5-羟甲基胞嘧啶的IBA15UZmer和135mer双链DNA模板和引物购于Biomers。引物中所有的C为5-甲基胞嘧啶。5-羟甲基胞嘧唳通过PCR利用d5hmCTP和Fermentas DreamTaq聚合酶加入到所有其他胞嘧唳位置的链中。
[0185]1.5 一般还原
[0186]DNA (约I μ g-10 μ L)与40 μ L NaBH4 (每微升10，000当量)在冰上培育5分钟。之后，将反应物在暗处在25°C用开口的盖子振摇I小时。该反应物用快速旋转寡核苷酸柱(罗氏(Roche))纯化。
[0187]1.6氣化反应
[0188]一般氧化
[0189]DNA用NaOH (0.05M最终浓度)在冰上形成了 24 μ L，之后加入I μ LKRuO4溶液(阿尔法埃莎(Alpha Aeser)) (0.05M NaOH中15mM)，将该反应置于冰上I小时，期间偶尔涡流。将反应物用小型快速旋转寡核苷酸柱(罗氏)纯化(在4次600 μ L H2O洗涤后)。
[0190]这些条件也被用于RNA的氧化。
[0191]单链DNA氧化
[0192]按照一般氧化方法氧化I μ gl5mer合成的单链DNA。
[0193]合成的双链DNA 双氧化
[0194]双链DNA用乙醇沉淀，然后通过小型快速旋转寡核苷酸柱过滤(在4次600 μ L H2O洗涤后)。合成的双链DNA需要双氧化反应，因为NaOH变性并不是100%的对单一同源DNA碎片的溶液有效(不同于基因组DNA)。
[0195]Iyg DNA在0.05Μ NaOH (总体积19 μ L)中在37°C下变性30分钟。然后将反应物快速在冰上冷却，并静置5分钟。随后根据一般氧化方法来氧化该反应物，但总体积为20 μ Lo该DNA在0.05Μ NaOH (总体积24 μ L)中在37°C下再次变性30分钟。然后再次将反应物快速在冰上冷却，静置5分钟，并根据一般氧化氧化。
[0196]基因组DNA的一般氧化
[0197]DNA (lug或更少)在氧化之前先用乙醇沉淀，然后通过小型快速旋转寡核苷酸柱过滤(在4次600 μ L水洗涤后)。DNA在0.05Μ NaOH (24 μ L或40 μ L总体积)中在37°C下变性30分钟。然后将反应物快速在冰上冷却，静置5分钟，并根据一般氧化氧化。
[0198]1.7氧,IK的重亚硫酸盐处理.的双.链DNA的Sanger (桑格)矛口 11 Iumina (启迪.)泖I座
[0199]对于Sanger测序，Iyg的包含C、5mC和5hmC的122mer DNA根据双链DNA双氧化被氧化，并根据制造商的FFPE样品的说明利用Qiagen Epitect试剂盒进行重亚硫酸盐处理，不同之处在于热循环被反复执行两次。然后将这些样品提供给桑格测序(源生物科学(Source BioScience))。
[0200]对于Illumina 测序，Iyg 的包含 5hmC 的 122mer 和 135mer DNA 用 DraI (2 μ L,新英格兰生物实验室(New England Biolabs))和SspL (I μ L,新英格兰生物实验室)消化过夜。将消化的条带用Fermentas GeneJET凝胶提取试剂盒凝胶纯化,并利用NEBNext DNA样品预控制混合设置I来结合甲基化的连接体(adaptor)(启迪(Illumina))。在如上述氧化和重亚硫酸盐处理后，利用Pfu Turbo Cx (安捷伦)和连接体特异性引物(Illumina)扩增(18个循环)连接的碎片，之后利用AMPure XP珠(Agencourt)纯化。
[0201]1.8 质谱
[0202]核苷来源于根据制造商的说明通过用DNA降解加(酶研究)消化的DNA，并通过在配有纳电喷雾离子源(Proxeon)的LTQ Orbitrap Velos质谱仪(热电科学(ThermoScientific))上的LC-MS/MS进行分析。在闻分辨率全扫描模式下(对于质子化准分子尚子R>40，000，对于伴随的质子化碱基碎片离子R>50，000)及在选择的反应监测(SRM)模式下获得了 5hmC、5fC以及与5mC和T相关的质谱数据，所述选择的反应监测(SRM)模式监测到了 258->142.0611 (5hmC)、256->140.0455 (5fC)、242_>126.0662 (5mC)和 243_>127.0502(T )的转换。母体离子被选定用于具有4个质量单位分离窗的SRM，并通过具有20 %的相对碰撞能量的HCD分裂，其中碎片离子的R>14，000。
[0203]从5hmC和5fC相关离子的离子色谱图中提取的峰面积被归一化为来自5mC(存在时)或T中的那些，并相对于三磷酸核苷酸或寡核苷酸的消化获得的标准，通过外部校正定量。
[0204]1.9ES (杯胎)干细朐培养和DNA提取
[0205]JlES 细胞(129S4/SvJae)购自 ATCC (目录(Cat.) SCRC-1010)，并在 37 °C 和 5 %CO2的条件下在完整的ES培养基(DMEM4500mg/L葡萄糖、4mM L-谷氨酰胺和110mg/L丙酮酸钠、15%胎牛血清、100ml培养基中100U青霉素/IOOyg链霉素、0.1mM非必需氨基酸、50μ M β-巯基乙醇、103U LIF ESGRO'?)中的Y -照射的pMEF培养层上培养。基因组
DNA利用Qiagen Allprep DN`A/RNA迷你试剂盒从传代14或20次的ES细胞中制备。
[0206]1.1OoxRRBS
[0207]根据先前公开的方案制备了氧化和非氧化的DNA的RRBS库(31)。简单地说，用MspI (Fermentas)消化2μ g的基因组DNA,然后用Klenow (Fermentas)进行末端修复和加A尾，并用T4DNA连接酶(NEB)连接甲基化的连接体(IIIumina)。连接体-连接的MspI消化的DNA在3%琼脂糖凝胶上进行并选择大小(110-380bp),随后用Qiagen QIAquick纯化凝胶快速和乙醇沉淀进行纯化。
[0208]在氧化之前，选择了大小的DNA通过小型快速旋转寡核苷酸柱(在4次600 μ L水洗涤后)过滤，以去除任何最后残留的缓冲液/盐，并调整最终体积到25 μ L。保留5 μ L该溶液用于产生非氧化库。根据基因组DNA的一般氧化方法氧化剩余的溶液。
[0209]根据制造商的FFPE样品的说明，使用Qiagen Epitect试剂盒对氧化和非氧化的DNA样品进行重亚硫酸盐处理，不同的是要运行热循环两次以上。利用Pfu Turbo Cx (安捷伦)和连接体特异性引物(Illumina)扩增(18个循环)完成最终的库扩增(18次循环)，在这之后用AMPure XP珠(Agencourt)纯化该库。
[0210]1.11测序和读取柃准
[0211]在Illumina GAIIx平台上执行测序(单端，40bp读出片段)。在对前三个碱基对应用无鞍处理之后，利用OLB版1.8通过再处理原始图像命名的为碱基(32)。利用俾斯麦(Bismark) ν0.6.4 (33)、使用选项-nl-140 -序列(phred) 64-品质(quals)—普通(vanilla)进行小鼠基因组(第NCBM37版)的重亚硫酸盐读取校正。执行单个的通道5’单体序列的俾斯麦校正更为严格(_n0);发布的用于读取校正的共有序列为LlA (34)、LlTf和LlGf (35)单体亚型。
[0212]根据3’ MspI位点的测序读出片段中Klenow填充处的未转化的胞嘧啶的数量估计重亚硫酸盐转化率，其中3’ MspI位点的测序读出片段足够短使得能够通过这些位点读出。读取序列的品质在3’端依然很闻。预计重亚硫酸盐的转化率在99.8%和99.9%之间变化。
[0213]1.12oxRRBS 数据处理
[0214]在CGI (25)中转化的和未转化的胞嘧啶的数量分别取自每个BS和oxBS数据集。对于每个CpG位置，将每个oxBS数据集中未转化的胞嘧啶的百分比作为5mC的数量，并且从BS数据集中未转化的胞嘧啶的百分比中减去这个值得到5hmC的数量。在每个CGI中通过来自所有的CpG涵盖的汇集数据计算了每个CGI的整体值。少于10次读取的CpG被排除在外，因为它们是从整体CGI5mC值中偏离超过20%的5mC估计值或从整体CGI5mC值中偏离超过10 %的5mC估计值的CpG。在这离群值筛选步骤之后，只有5个代表性的CpG或多个的CGI被分析。
[0215]为了测试包含5mC水平显著高于oxBS数据集的重亚硫酸盐转化错误的CGI，利用Benjamin1-Kochberg的0.01校正p值截止进行了二项式检验。类似地,二项式检验用于在BS数据集中选择具有显著未转化胞嘧啶值的CGI ;在这些中，BS和oxBS数据集之间的差异通过应用Fisher测试，并利用0.05的校正p值截止进行了测试。在oxBS数据集中具有显著较低的未转化胞嘧啶碎片的CGI被认为是羟甲基化的CGI。具有相反模式的CGI被假设为是伪像，并用于估计错误发现率。
[0216]1.13GlucMS~aPCR
[0217]如先前所述(6)，通过glucMS-qPCR在MspI位点定量5mC和5hmC水平。
`[0218]2、结果
[0219]我们追求的策略是在DNA中通过采用对5hmC具有选择性的化学反应将5mC区别于5hmC，特别是通过化学方法除去羟甲基基团，从而转化5hmC为C，然后可通过重亚硫酸盐介导的脱氨作用容易地将C转化为U。在我们关于5-甲酰基胞嘧啶(5fC)的化学反应研究过程中，我们在重亚硫酸盐的条件下观察到5-fC脱羰和脱氨后转化为尿嘧啶(U)，其中5mC保持不变(图1A)。这个以前未报告的转化表明，可通过选择性地氧化5hmC为5fC，然后在两步工艺中将5fC转化为U来进行5mC测序(图1B)。在传统的BS-Seq导致5mC和5hmC被检测为C时，这种“氧化的重亚硫酸盐”测序(oxBS-Seq)的方法仅在5mC位点上得到了 C，因此，允许我们通过比较BS-Seq和oxBS-Seq的读数来确定5hmC在特定核苷酸位点的数量(图 1C)。
[0220]确定了 2’脱氧-5-甲酰基胞嘧啶和2’脱氧-5-羧基胞嘧啶的重亚硫酸盐分布(图2A和2B)。用2.9M NaHSO4培养2’脱氧-5-甲酰基胞嘧啶和2’脱氧-5-羧基胞嘧啶。在不同的时间点取反应的小样，并与0.3M NaOH反应。将这些直接注射到HPLC中用于分析。HPLC分布分别于与整体的脱羰或脱羧相一致，以使胞嘧啶在快速脱氨后转化为尿嘧啶。
[0221]因此，我们需要利用温和的、与水介质兼容的、选择性的通过其他碱基和DNA骨架的氧化剂来具体氧化5hmC到5fC。测试了一系列的可能适合的水溶性氧化剂(表3),我们发现过钌酸钾(KRuO4)拥有我们所寻求的性能和转换效率。KRuO4基本上可以氧化醇类和碳-碳双键(23)。然而，在我们的反应中研究了包含5hmC的合成的15rner单链DNA(ssDNA)，我们在KRuO4反应下建立的条件对于5hmC的伯醇具有高度特异性(通过质谱定量转化5hmC到5fC，图3A)。包含C或5mC，而不是5hmC的15mer单链DNA并没有显示出与KRuO4的任何碱基特异性反应(图4A、B)。我们还意识到，KRuO4氧化剂可以继续反应为羧酸
(23)，但在DNA中5hmC在的情况下，我们仅观察到了醛(5fC)，即使用适度过量的氧化剂。在添加氧化剂之前的初始变性步骤中，KRuO4氧化剂还能够氧化样品中的5hmC为双链DNA(dsDNA);这导致了 5hmC到5fC的定量产率和通过质谱判断的一样(图3B)。
[0222]制备了 140bp DNA分子(SEQ ID NO:1)，所述DNA分子中通过PCR利用5_甲基胞嘧啶引物和hmCTP并入了 45个5hmC核苷。利用KRuO4氧化DNA。在氧化之前和之后，用核酸酶、磷酸二酯酶I和碱性磷酸酶将DNA消化为核苷。然后将该混合物注入到HPLC中以得到示于图5A (氧化前)和5B (氧化后)中的迹线。观察到了 5hmC到5fC几乎完整的转化，而未对其它核苷有活性。
[0223]含有3个5fC残基的单链15bp DNA分子(SEQ ID NO:2)用如上所描述的重亚硫酸盐处理。在用重亚硫酸盐处理之前和之后，用核酸酶、磷酸二酯酶I和碱性磷酸酶将DNA消化为核苷。然后将该混合物注入到HPLC中以得到示于图6A和6B中的迹线。
[0224]在重亚硫酸盐处理之后，只有5fC残留的非常小的峰，以及存在的可忽略不计的胞嘧啶。图6B中的尿嘧啶峰来源于5fC，以及未修饰的C的脱氨基。
[0225]制备了 140bp DNA分子(SEQ ID NO: 1)，所述DNA分子中通过PCR并入了 45个5hmC核苷。利用如上所描述的NaBH4还原DNA。在还原之前和之后，用核酸酶、磷酸二酯酶I和碱性磷酸酶将DNA样品消化为核苷。然后将核苷的混合物注入到HPLC中以得到示于图7A(还原前)和7B (还原后) 中的迹线。观察到了 5fC到5hmC完整的转化。
[0226]对122个碱基对的双链DNA (SEQ ID NO: 3)中ClaI位点(ATCGAT)氧化的重亚硫酸盐转化率进行了研究，以测试氧化重亚硫酸盐方法的效率和选择性。在中央具有单CpG的双链122个碱基对的DNA碎片(在ClaIATCGAT限制位点的情况下，SEQ ID N0:3)通过PCR利用5-甲基胞嘧啶引物和CTP、5mCTP或5hmCTP的任——种进行扩增。扩增的产物在引物区域中含有5-甲基胞嘧啶，在CpG中央含有CpG、5mCpG或5hmCpG。
[0227]如上所述，含有C、5mC或5hmC任——种的三个合成的122mer双链DNA的每一个用KRuO4氧化,然后进行常规的重亚硫酸盐转化方案。对每三个链的每一个进行Sanger测序(图8)。
[0228]含有C的链完全转化为U (图8左面板)，含有5mC的链并没有转化(图8中间面板)，含有5hmC的链大部分定量转化为U,并带着未转化的C的迹线(图8右面板)。这显示出主要的腺嘌呤峰来自转化的材料，残留的鸟嘌呤峰来自少数未转化的材料。
[0229]为了获得精确测量的5hmC到U的转化效率，在氧化重亚硫酸盐处理后对含有5hmC的合成链进行了 Illumina测序。观察到了 94.5%的整体5hmC到U的转化水平(图3C)。氧化重亚硫酸盐方案还被应用于在一系列不同情况下包含多个5hmC残基的第二链，并示出了类似的5hmC到U的高转化效率(94.7%)(图3C)。最后，对基因组DNA进行了 KRuO4氧化，并示出了通过质谱定量获得的5hmC到5fC的转化(图3D)，没有明显的C降解(图4C)。这些原理实验的证据表明，氧化重亚硫酸盐方案将具体地转化DNA中的5hmC到U，保持C和5mC不变，允许在宽泛使用的平台(oxBS-Seq)上进行定量、单核苷酸分辨率的测序。
[0230]之后，我们使用了氧化重亚硫酸盐原理以在小鼠ES细胞的基因组DNA中以高分辨率定量地映射5hmC。我们选择结合氧化重亚硫酸盐和还原表示的重亚硫酸盐测序(RRBS)
(24)，这允许用于高度富集CpG岛(CGI)的基因组的一部分的选择性序列，从而保证足够的测序深度以检测这种低丰度的标记。因此，我们创立了实现每CpG~120个读出片段的平均测序深度的RRBS和oxRRBS数据集，其中，当汇集时产生了每CpG平均约3，300个甲基呼口H。在应用深度和广度截止后(见材料和方法)，55% (12，660)的所有的CGI (25)被覆盖在我们的数据集中。我们的RRBS (即非氧化的)数据与已发布的RRBS和BS-Seq数据集有良好的相关性(24，26)。
[0231 ] 为了识别含有5hmC的CGI，我们利用严格的标准对RRBS和oxRRBS数据集之间的差异进行了测试(见材料和方法)。据预计，最显著的差异起源于在与RRBS设置相比时，在oxRRBS设置中具有较低比例的未转化的胞嘧啶的CGI。具有逆转趋势的CGI被用来估计
3.7%的错误发现率(图9A)。我们识别了 800个含有5hmC的CGI，其中平均3.3% (范围
0.2-18.5%)的CpG羟甲基化(图9A和B)。我们还识别了 4577个平均8.1%的CpG甲基化的含有5mC的CGI (图9B)。我们在相同的ES干细胞系、但通道数目不同的独立重复的生物样品中进行了测序，其中通过质谱法具有5hmC的还原水平(0.10%对所有C的0.16%),并一致发现更少的含有5hmC的CGI。重要的是，存在于两个样品中的含有5hmC的CGI表现出良好的定量重现性。
[0232]为了证实我们的方法，我们选择了 21个包含MspI限制位点的CGI，并通过glucMS-qPCR在这些CpG上量化了 5hmC和5mC水平(28 )(图9D )。我们在oxRRBS和glucMS-qPCR定量之间发现了良好的相关性(对于5mC和5hmC分别为r=0.86，p=5E_7和r=0.52, p=0.01 )。 [0233]研究了含有5-甲酰基胞嘧啶(5fC)的DNA链的还原重亚硫酸盐转化率(reBS-Seq)。
[0234]给含有序列ACGGA5fCGTA的合成的IOOmer DNA链(SEQ ID NO:8)通入NaBH4进行还原，然后进行常规的重亚硫酸盐转化方案。之后对该链进行Sanger测序(图11)。
[0235]图11显示的测序迹线代表了反向互补序列(TACGTCCAT)的一部分。5fC和C的位置为黑体，并在图11中的括号内示出了模板链。如前所示，5fC和C在重亚硫酸盐条件下脱氨基以形成U，如图11的反向互补序列中A所示的。然而，用似8比还原转化5fC到5hmC，这并不是脱氨基成U，如图11的反向互补序列中G所示的。因此，还原的重亚硫酸盐测序(redBS-Seq)允许在单碱基分辨率区别5fC和C。
[0236]总之，我们已表明，oxBS-Seq方法在单核苷酸水平可靠地映射和量化5mC和5hmC。氧化的重亚硫酸盐还可与非测序的下游方法(如在这里说明的Sequenom)兼容。因此，通过与重亚硫酸盐处理的和氧化的和重亚硫酸盐处理的基因组DNA的序列相比，确定5-甲基胞嘧啶、5-羟甲基胞嘧啶连同非修饰的胞嘧啶的存在是可能的。
[0237]例如，在重亚硫酸盐处理的和氧化的和重亚硫酸盐处理的基因组DNA序列的相同位置上尿嘧啶残基表明未修饰的胞嘧啶的存在。在重亚硫酸盐处理的和氧化的和重亚硫酸盐处理的基因组DNA序列的相同位置上的胞嘧啶残基表明5-甲基胞嘧啶的存在。在氧化的和重亚硫酸盐处理的基因组DNA序列中的胞嘧啶残基还表明5-甲基胞嘧啶的存在。在重亚硫酸盐处理的基因组DNA序列中的胞嘧啶残基以及在氧化的和重亚硫酸盐处理的基因组DNA序列中的相同位置上的尿嘧啶残基表明5-羟甲基胞嘧啶的存在。[0238]5-甲酰基胞嘧啶也可测序至单核苷酸分辨率。5fC可利用NaBH4 (如通过HPLC示出的)在基因组DNA中定量的还原为hmC。通过比较未处理的、重亚硫酸盐处理的、氧化和重亚硫酸盐处理的以及还原和重亚硫酸盐处理的基因组DNA，所有三个已知的哺乳动物胞嘧啶修饰物(5-甲基胞嘧啶、5-羟甲基胞嘧啶和5-甲酰基胞嘧啶)的存在连同非修饰的胞嘧啶可被确定。例如，在i)重亚硫酸盐处理的，ii)氧化的和重亚硫酸盐处理的和iii)还原的和重亚硫酸盐处理的基因组DNA (UUU)序列中的相同位置处的尿嘧啶残基表明未修饰的胞嘧啶的存在。
[0239]在i)重亚硫酸盐处理的，ii)氧化的和重亚硫酸盐处理的和iii)还原的和重亚硫酸盐处理的基因组DNA (CCC)序列中的相同位置处的胞嘧啶残基表明5-甲基胞嘧啶的存在。
[0240]在重亚硫酸盐处理的基因组DNA序列中的胞嘧啶；在氧化的和重亚硫酸盐处理的基因组DNA序列中相同位置处的尿嘧啶，可选的在还原的和重亚硫酸盐处理的基因组DNA(CUC)序列中的相同位置处的胞嘧啶表明5-羟甲基胞嘧啶的存在。
[0241]在重亚硫酸盐处理的基因组DNA序列中的尿嘧啶；在还原的和重亚硫酸盐处理的基因组DNA序列中相同位置处的胞嘧啶；以及可选的在氧化的和重亚硫酸盐处理的基因组DNA (UCU)序列中的相同位置处的尿嘧啶表明5-甲酰基胞嘧啶的存在。
[0242]当未处理的基因组DNA被测序时，修饰的和未修饰的胞嘧啶被读取为胞嘧啶。
[0243]在图10中所示的HPLC色谱图证实了在28核苷酸RNA链(SEQ ID N0:7)被氧化后没有观察到RNA的降解。这一结果意味着，氧化方法也可兼容的用于测序修饰的胞嘧啶残基，如本文中所描述的RNA中的5hmC。
[0244]参考文献`
[0245]1.A.M.Deaton et al Genes Dev.25, 1010 (Mayl5, 2011).[0246]2.M.Tahiliani et al.Science324, 930 (Mayl5, 2009).[0247]3.S.1to et al.Nature466, 1129(Aug26, 2010).[0248]4.A.Szwagierczak et al Nucleic Acids Res, (Aug4, 2010).[0249]5.K.P.Koh et al.Cell Stem Cell8, 200 (Feb4, 2011).[0250]6.G.Ficz et al., Nature473, 398 (Mayl9, 2011).[0251]7.K.Williams et al.Nature473, 343 (Mayl9, 2011).[0252]8.ff.A.Pastor et al.Nature473, 394 (Mayl9, 2011).[0253]9.Y.Xu et al.Mol.Cell42, 451 (May20, 2011).[0254]10.M.R.Branco et al Nat.Rev.Genet.13, 7 (Jan, 2012).[0255]11.S.Kriaucionis et al Science324, 929(Mayl5, 2009).[0256]12.M.Munzel et al.Angew.Chem.1nt.Ed.49, 5375 (Jul2010).[0257]13.H.Wu et al.Genes Dev.25, 679 (Aprl, 2011).[0258]14.S.G.Jin et al Nuc.Acids.Res.39, 5015 (Jul, 2011).[0259]15.C.X.Song et al..Nat.Biotechnol.29, 68 (Jan, 2011).[0260]16.M.Frommer et al.PNAS.U.S.A.89，1827 (Marl992).[0261]17.Y.Huang et al.PLoS 0ne5, e8888 (2010).[0262]18.C.Nestor et al Biotechniques48, 317(Apr, 2010).[0263]19.C.X.Song et al.Nat.Methods, (Nov20，2011).[0264]20.J.Eid et al.Science323，133 (Jan2，2009).[0265]21.E.V.Wallace et al.Chem.Comm.46，8195 (Nov21，2010).[0266]22.M.Wanunu et al.J.Am.Chem.Soc.，(Decl4，2010).[0267]23.G.Green, W et al J Chem Soc Perk Tl，681 (1984).[0268]24.A.Meissner et al.Nature454，766 (Aug7，2008).[0269]25.R.S.1llingworth et al.PLoS genetics6，(Sep, 2010).[0270]26.M.B.Stadler et al.Nature480，490 (Dec22，2011).[0271]27.J.Borgel et al et al Nat.Genet.42, 1093 (Dec, 2010).[0272]28.S.M.Kinney et al.J.Biol.Chem.286, 24685 (Jull5, 2011).[0273]29.N.Lane et al.Genesis35，88 (Feb，2003).[0274]30.E.P.Quinlivan et al3rd，Anal.Biochem.373，383 (Feb2008).[0275]31.H.Gu et al.Nat.Protoc.6, 468 (Apr, 2011).[0276]32.F.Krueger et al PLoS 0ne6, e 16607 (2011).[0277]33.F.Krueger et al Bioinformatics27, 1571 (Junl, 2011).[0278]34.S.A.Schichman et al Mol.Biol.Evol.10, 552 (May, 1993).[0279]35.J.L.Goodier et al.Genome researchll, 1677 (Oct, 2001).[0280]36.C.Qin et al.Mol.Carcinog.49，54 (Jan, 2010).[0281]37.Li et al Nucleic Acids (2011)Article ID870726
[0282]38.Pfaffenederj T.et al (2011) Angewandte.50.1-6
[0283]39.Lister, R.et al (2008) Cell.133.523-536
[0284]40.Wang et al(1980)Nucleic Acids Research.8 (20)，4777-4790
[0285]41.Hayatsu et al(2004)Nucleic Acids Symposium Series N0.48(I)，261-262
[0286]42.Lister et al (2009) Nature.462.315-22
[0287]43.Sanger, F.et al PNAS USA, 1977，74，5463
[0288]44.Bentley et al Nature，456，53-59 (2008) [0289]45.KJ McKernan et al Genome Res.(2009) 19:1527-1541
[0290]46.M Ronaghi et al Science (1998)2815375363-365
[0291]47.Eid et al Science (2009)3235910133-138
[0292]48.Korlach et al Methods in Enzymology472(2010)431-455)
[0293]49.Rothberg et al (2011)Nature475348_352).[0294]樽型序列
[0295]修饰的核苷酸为黑斜体
[0296]140个碱基对的双链DNA模型(SEQ ID N0:1):
[0297]CACATCCCACACTATACACTCATACATACCTGCTCACGACGACGCTGTACACCTACGTACTCGTGCACGCTCGTCACGTGATCGACCATGACTCTGACGCACTGAGGTATGGGAAGTAGTGAGTAGATTGTAGTAAGGAG
[0298]15个核苷酸长度的单链DNA模型(SEQ ID N0:2):
[0299]GAGACGACGTACAGG
[0300]122个碱基对的双链DNA模型(SEQ ID N0:3):[0301]CACATCCCACACTATACACTCATACATACCATTTAAATAAATTAAATAATATTAATATATCGATTAATAATAAATAATAATTAATTAATATTGGGAAGTAGTGAGTAGATTGTAGTAAGGAG
[0302]135个碱基对的双链DNA模型(SEQ ID N0:4):
[0303]CACATCCCACACTATACACTCATACATACCATTTAACGATAAATTACAATAACGTATCTAATCATATCGATTAACTAATCGAAATAATAATTACGCATTAATATTGGGAAGTAGTGAGTAGATTGTAGTAAGGAG
[0304]双链DNA 正向引物(SEQ ID N0:5):
[0305]CACATCCCACACTATACACTCATACATACC
[0306]双链DNA 反向引物(SEQ ID N0:6):
[0307]CTCCTTACTACAATCTACTCACTACTTCCC
[0308]28个核苷酸的RNA模型序列(SEQ ID NO: 7):
[0309]UGUGGGGAGGGCGGGGCGGGGUCUGGGG
[0310]含有序列的100个核苷酸5fC (SEQ ID N0:8)
[0311][5fC位置用黑斜体表明]
[0312]GACGGACGTACGATCGAGCGAGGTCTTGGGTCAGCAGGTGGCGACTGTTAGCTCAGATGGCTAGCAAGTGGGTATGTATGAGTGTATAGTGTGGGATGTG
[0313]
【权利要求】
1.一种在样品核苷酸序列中识别修饰的胞嘧啶残基的方法，包括； (i)提供包括所述样品核苷酸序列的多核苷酸群体， (ii)氧化或还原所述群体的第一部分， (iii)用重亚硫酸盐处理氧化或还原的所述群体的第一部分和所述群体的第二部分， (iv)在步骤ii)和iii)后，测序所述群体的所述第一和第二部分中的多核苷酸，以分别生成第一和第二核苷酸序列，以及； (v)识别对应于所述样品核苷酸序列中胞嘧啶残基的所述第一和第二核苷酸序列中的残基。
2.根据权利要求1所述的方法，其中，在所述第一和第二核苷酸序列中识别的残基表明在所述样品核苷酸序列中对应位置上的修饰的胞嘧啶。
3.根据前述权利要求中任一项所述的方法，其中，所述修饰的胞嘧啶为5-甲基胞嘧啶(5mC)、5-羟甲基胞嘧啶(5hmC)或5-甲酰基胞嘧啶(5fC)。
4.根据前述权利要求中任一项所述的方法，其中，所述群体的所述第一部分在步骤ii)中被氧化。
5.根据权利要求4所述的方法，其中，所述氧化剂选择性地氧化5-羟甲基胞嘧啶残基。
6.根据权利要求4或权利要求5所述的方法，其中，步骤ii)包括氧化和纯化所述多核苷酸的第一部分的多个步骤。`
7.根据权利要求4-6中任一项所述的方法，其中，所述第一部分使用化学氧化剂被氧化。
8.根据权利要求4-7中任一项所述的方法，其中，所述第一部分使用过钌酸盐氧化剂被氧化。
9.根据权利要求4-8中任一项所述的方法，其中，所述第一部分使用KRuO4被氧化。
10.根据权利要求4-9中任一项所述的方法，其中，在所述第一核苷酸序列中的位置上识别对应于所述样品核苷酸序列中的胞嘧啶残基的尿嘧啶和在所述第二核苷酸序列中相同位置上识别胞嘧啶，表明所述样品核苷酸序列中的胞嘧啶残基为5-羟甲基胞嘧啶(5hmC)。
11.根据权利要求4-9中任一项所述的方法，其中，在所述第一和第二核苷酸序列两者中的位置上识别对应于所述样品核苷酸序列中的胞嘧啶残基的胞嘧啶，表明所述样品核苷酸序列中的胞嘧啶残基为5-甲基胞嘧啶(5mC)。
12.根据权利要求4-9中任一项所述的方法，其中，在所述第一核苷酸序列中的位置上识别对应于所述所述样品核苷酸序列中的胞嘧啶残基的胞嘧啶，表明所述样品核苷酸序列中的胞嘧啶残基为5-甲基胞嘧啶(5mC)。
13.根据权利要求4-12中任一项所述的方法，包括； (vi)还原包括所述样品核苷酸序列的所述多核苷酸群体的第三部分， (vii)用重亚硫酸盐处理所述群体的所述还原的第三部分， (Viii)在步骤Vi)和Vii)后，测序所述第三部分中的多核苷酸，以生成第三核苷酸序列，以及； (ix)识别对应于所述样品核苷酸序列中胞嘧啶残基的所述第三核苷酸序列中的残基。
14.根据权利要求13所述的方法，其中，在所述第一、第二和第三核酸序列中识别的残基表明在所述样品核苷酸序列中对应位置上的修饰的胞嘧啶。
15.根据权利要求13或权利要求14所述的方法，其中，在所述第一和第二核苷酸序列中的位置上识别对应于所述样品核苷酸序列中的胞嘧啶残基的尿嘧啶和在所述第三核苷酸序列中同一位置上识别胞嘧啶，表明所述样品核苷酸序列中的胞嘧啶残基为5-甲酰基胞嘧啶。
16.根据权利要求1-3中任一项所述的方法，其中，所述群体的所述第一部分在步骤ii)中被还原。
17.根据权利要求16所述的方法，其中，所述群体的所述第一部分使用NaBH4被还原。
18.根据权利要求16或权利要求17所述的方法，其中，在所述第一核苷酸序列中的位置上识别对应于所述样品核苷酸序列中的胞嘧啶的胞嘧啶和在所述第二核苷酸序列中相同位置上识别尿嘧啶，表明所述样品核苷酸序列中的胞嘧啶残基为5-甲酰基胞嘧啶。
19.根据权利要求16-18中任一项所述的方法,其中,在所述第一和第二核苷酸序列中位置上识别对应于所述样品核苷酸序列中的胞嘧啶的尿嘧啶，表明所述样品核苷酸序列中的胞嘧啶残基为未修饰的胞嘧啶。
20.根据权利要求1-19中任一项所述的方法，包括；提供包括样品核苷酸序列的所述多核苷酸群体的第四部分；以及测序所述第四部分中的所述多核苷酸以生成所述样品核苷酸序列。
21.一种在样品核苷酸序列中识别5-甲基胞嘧啶的方法，包括； (i)提供包括所述样品核苷酸序列的多核苷酸群体， (?)氧化所述群体， (iii)用重亚硫酸盐处理所述氧化的群体， (iv)在步骤ii)和iii)后，测序所述群体中的多核苷酸，以生成处理的核苷酸序列，以及； (v)识别对应于所述样品核苷酸序列中胞嘧啶残基的所述处理的核苷酸序列中的残基，其中，在所述处理的核苷酸序列中存在胞嘧啶表明在所述样品核苷酸序列中的胞嘧啶残基为5-甲基胞嘧啶(5mC)。
22.根据权利要求1-21中任一项所述的方法，其中，所述多核苷酸为基因组DNA。
23.根据权利要求22所述的方法，其中，所述基因组DNA为哺乳动物基因组DNA。
24.根据权利要求1-21中任一项所述的方法，其中，所述多核苷酸为RNA。
25.根据权利要求24所述的方法，其中，所述RNA为基因组RNA、mRNA、tRNA、rRMA或非编码RNA。
26.根据权利要求25所述的方法，其中，所述基因组RNA为哺乳动物、植物或病毒的基因组RNA。
27.根据权利要求1-26中任一项所述的方法，其中，所述多核苷酸群体或所述群体的所述第一、第二、第三和第四部分中的一个或多个被固定。
28.根据权利要求1-27中任一项所述的方法，其中，所述群体的所述第一、第二、第三和第四部分中的一个或多个在测序之前被放大。
29.根据权利要求28所述的方法，其中，所述群体的所述第一、第二、第三部分中的一个或多个在用重亚硫酸盐处理后被放大。
30.一种在根据权利要求1-29中任一项所述的识别修饰的胞嘧啶残基的方法中使用的试剂盒，包括； (i)氧化剂和/或还原剂；以及， (ii)重亚硫酸盐试剂。
31.根据权利要求30所述的试剂盒，其中，所述氧化剂为过钌酸盐氧化剂。
32.根据权利要求31所述的试剂盒，其中，所述氧化剂为过钌酸铵钾(KRuO4)15
【文档编号】C12Q1/68GK103827321SQ201280046897
【公开日】2014年5月28日申请日期:2012年7月27日优先权日:2011年7月29日
【发明者】迈克尔·约翰·布思, 尚卡尔·巴拉苏不拉曼尼安申请人:剑桥表现遗传学有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：迈克尔·约翰·布思;尚卡尔·巴拉苏不拉曼尼安
技术所有人：剑桥表现遗传学有限公司
我是此专利的发明人

上一篇：细胞外核酸的稳定化和分离的制作方法
上一篇：植物中dha和其它lc-pufa的生成的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.食品功能因子基因工程菌种的构建、智能高通量进化筛选 2.发酵工艺优化
2、马老师：1.酶工程与生物催化 2.酿造技术与风味分析 3.生物质资源综合利用
3、林老师：1.酿造微生物育种及关键酿造工艺开发 2. 真菌基因功能及调控网络解析 3.精细化学品、蛋白真菌细胞底盘开发
4、张老师：1.发酵食品安全：危害物相关基因的筛选，危害物产生菌的快速检测，危害物的预警和发酵过程控制 2.真菌次级代谢与调控 3.酿造酒相关研究
5、郭老师：1.现代酿造技术与食品安全 2. 酵母生物学 3.生物基化学品与合成生物学
如您是高校老师，可以点此联系我们加入专家库。