基于高通量测序的基因组单倍型甲基化检测方法

文档序号:493030阅读:397来源:国知局
基于高通量测序的基因组单倍型甲基化检测方法
【专利摘要】本发明公开了基于高通量测序的基因组单倍型甲基化检测方法,对亚硫酸氢盐转化后的基因组DNA进行稀释、分隔、扩增后构建一组转化文库并测序获得基因组单倍型甲基化信息。本发明最大的优点是实现了高通量分析基因组单倍型甲基化信息,通过转化、稀释和分隔等步骤,利用较短读长的高通量测序实现长片段基因组单倍型甲基化信息的判读;本发明的方法简单,操作简易,不需要额外增加特殊的仪器设备,所述过程均可通过成熟技术实现;本发明适用面广,既适用于杂合度较低的双倍型的人类基因组的单倍型甲基化分析,又适用于其他杂合度高或者多倍型的基因组的单倍型甲基化分析。
【专利说明】基于高通量测序的基因组单倍型甲基化检测方法

【技术领域】
[0001]本发明属于生物【技术领域】,是一种实现对基因组甲基化情况进行单倍测定的高通量测序方法,具体涉及一种对基因组DNA进行亚硫酸氢盐转化后构建亚单倍型文库进行高通量测序的获取基因组DNA单倍型甲基化信息的方法。

【背景技术】
[0002]1939年,生物学家Waddington CH正式提出了 “表观遗传学”这一术语;1975年Holliday R对表观遗传学作了较为明确的定义:表观遗传的研究不仅包括发育过程中,而且还包括成体阶段可遗传基因的表达改变研究。表观遗传信息在细胞的亲代和子代之间传递,然而并不伴随着DNA序列的改变。DNA甲基化是最早发现且比较常见的表观遗传现象之一,是指在DNA甲基转移酶(DNMTs)的作用下,以S-腺苷硫氨酸(SAM)为甲基供体,将甲基添加到DNA分子中的碱基上。常见的DNA甲基化发生在DNA分子上的胞嘧啶的第5个碳原子上,胞嘧啶由此被修饰为5甲基胞嘧啶(5mC)。
[0003]研究发现,甲基化在基因表达过程中起到重要的作用,在对一些肿瘤的研究中发现,异常DNA甲基化总是出现在一些抑癌基因和癌基因中,以改变它们的表达水平,而发生在基因启动子区域的DNA甲基化通常会导致基因沉默。一般认为,DNA甲基化有两个途径调控基因的表达,一个途径是DNA的甲基化抑制转录基因因子和增强子封闭元件与DNA的结合,导致基因的下调和上调;另一个途径认为甲基化调控基因表达与甲基化结合域蛋白相关。已有的研究表明,DNA甲基化与包括癌症、白血病、糖尿病、阿尔茨海默综合征和系统性红斑狼疮等在内的众多人类疾病有着密切的关联,对DNA甲基化的研究在这些疾病的研究中占有重要的地位。
[0004]单倍体基因型,简称单倍型,指在同一染色体上进行共同遗传的多个基因座上等位基因的组合,单倍型有时可指同一条染色体上所有基因组上等位基因组的组合,单倍型是上述遗传差异的直接体现。由于大量的真核生物的基因组是双倍体或多倍体,在同一生物个体内存在两条或多条同源染色体,这些同源染色体间核苷酸链的长度、碱基的位置和排列顺序相近。同一个体的两条或多条染色体同源区域的甲基化情况往往并不一致,甚至同一个体不同组织、器官、细胞内的染色体同源区域的甲基化情况也不一致。然而,要精细分析同一个体同源染色体的单倍型甲基化情况,以及同一个体不同组织、器官、细胞内的染色体单倍型甲基化情况一直是一个技术难题。
[0005]在过去的若干年中,科学家们陆续开发出了多种的DNA甲基化检测方法。这些方法主要可以分为三类:第一类是基于亚硫酸氢盐转化的检测方法,亚硫酸氢盐在一定的条件下可以将核酸链上未甲基化的胞嘧啶(C)去氨基变成尿嘧啶(U),而甲基化的胞嘧啶(mC)则由于甲基的存在不能被去氨基而保持不变,这一方法一直以来被认为是最直接、最可靠的甲基化检测方法;第二类是基于甲基化敏感性酶切的检测方法,甲基化敏感性内切酶酶切方法是通过DNA能否被甲基化敏感性内切酶进行酶切来判断酶切位点的甲基化状态。如果位点能够被甲基化敏感性内切酶酶切,则该位点并未发生及计划,如果该位点能被对甲基化不敏感的同工酶酶切,而不能被甲基化敏感性酶酶切,则该位点发生甲基化;第三类是基于甲基化DNA免疫沉淀的检测方法,甲基化免疫沉淀法是通过能够识别甲基化DNA的蛋白或识别甲基化胞嘧啶的抗体,特异性的富集甲基化DNA片段,去除非甲基化的DNA片段,以便于后续的DNA甲基化的检测。以上述的方案为基础,陆续出现了多种进行基因组甲基化检测方案,这就包括HPLC技术、全基因组限制性酶切扫描、高密度基因芯片以及高通量DNA测序技术。HPLC是第一个在全基因组范围内检测甲基化的方法,该方法将基因组DNA裂解为碱基,通过色谱柱分离各种碱基后由紫外光测定各自的吸收峰并定量,从而计算出甲基化胞嘧啶在所有胞嘧啶中所占的比例。然而,HPLC仅仅只能评估基因组中甲基化胞嘧啶的含量水平,并不能分析各个基因位点甲基化的水平。之后出现的全基因组限制性酶切扫描技术,通过甲基化敏感限制性内切酶,获得基因组DNA甲基化敏感性的酶切图谱,这一方法的检测能力较HPLC有所提升,可以在基因组水平构建甲基化与酶切片段长度的关联体系,建立甲基化与基因的模糊关联。高密度基因芯片技术,通过不同的芯片方案设计,可以分析基因组一些区域或一些位点的甲基化水平,实现了甲基化与基因的直接关联,尽管芯片的密度越来越高,依然无法覆盖基因组中的所有位点。高通量DNA测序技术的出现,为全基因组甲基化水平分析提供了更为有力的手段,通过亚硫酸氢盐转化后的DNA序列和未经转化的DNA序列的测定,可以分析基因组中绝大多数区域的甲基化情况。然而,由于目前的高通量测序技术的测序读长较短,基因组甲基化测序仅仅能展示样本所包含的一系列同源染色体在各个位点的平均甲基化水平,并不能进行长片段的甲基化连锁分析,更无法实现单倍体甲基化分析的。


【发明内容】

[0006]发明目的:针对上述现有技术存在的问题,本发明的目的是提供一种对亚硫酸氢盐转化后的基因组DNA进行稀释、分隔和扩增操作构建亚单倍型的转化基因组,从而实现单倍体甲基化的高通量测序的方法。本发明有助于高通量测序在基因组甲基化单倍型研究中的应用,为单倍体甲基化的研究提供了一个新的方法,具有方法简单、效率高的优点。
[0007]本发明的目的就是通过对亚硫酸氢盐转化后的基因组DNA进行稀释、分隔和扩增操作构建亚单倍型的转化基因组,从而实现单倍体甲基化的高通量测序。本发明首先对基因组DNA进行亚硫酸氢盐的转化,实现对甲基化的胞嘧啶和非甲基化的胞嘧啶的区分。随后对转化后的基因组进行稀释,取包含亚单倍体DNA质量的转化DNA用于构建亚单倍型转化文库,所谓亚单倍体DNA质量是指DNA规模小于等于一个单倍体DNA总质量。构建的过程是首先对所取的DNA进行扩增以提高核酸的总量,随后进行常规的测序文库构建。分别独立构建一系列上述亚单倍型转化文库。每个文库包含的核酸总质量小于等于一个单倍体基因组,一系列亚单倍型转化文库的规模满足高通量测序对测序深度的要求。对所构建的一系列亚单倍型转化文库进行独立测序或者编码测序。根据本发明的设计,在同一亚单倍型转化文库内,因为原始的DNA规模小于等于一个单倍体基因组,所以多数转化后的DNA片段没有另外一条或多条含有相同等位基因的片段存在,因此每个独立文库内可以比对、拼接出含有多个SNP (单碱基多态性)位点的片段长度较长的单倍型转化片段,利用两条染色体中不同的SNP位点对单倍型转化片段进行拼接,获得长度更长的单倍型转化片段乃至完整的单条染色体转化序列。最后通过与未转化序列的比较,确定全基因组单倍型甲基化情况。
[0008]技术方案:为实现上述目的,本发明通过下述技术方案实现:基于高通量测序的基因组单倍型甲基化检测方法,对亚硫酸氢盐转化后的基因组DNA进行稀释、分隔、扩增后构建一组转化文库并测序获得基因组单倍型甲基化信息,具体步骤为:对提取的基因组DNA进行亚硫酸氢盐转化后构建一组转化片段文库并对每个文库进行扩增,每个转化片段文库独立构建高通量DNA测序文库并进行测序,测序结果首先在每个转化片段文库内进行序列比对或拼接,获得长转化核酸序列后进行跨转化片段文库的序列比对和拼接获得转化基因组单倍型信息,通过与未转化的序列信息进行比较实现利用高通量测序获得基因组单倍型甲基化信息。
[0009]所述的亚硫酸氢盐转化是指利用亚硫酸氢盐将核酸链上未甲基化的胞嘧啶去氨基变成尿嘧啶,而不改变甲基化的胞嘧啶。
[0010]所述的基因组DNA是由一个完整基因组构成,或者一个完整基因组的一部分构成,基因组DNA的含量是I个拷贝或者是多个拷贝。
[0011]所述的扩增是指在基因组水平进行的非特异性扩增,采用聚合酶链式反应扩增或采用聚合酶等温扩增。
[0012]所述的转化片段文库,每个转化片段文库中核酸片段的总长度小于单倍体基因组DNA全长,每个片段文库中一半以上的核酸片段彼此之间不包含等位区域。
[0013]所述的每个转化片段文库独立构建高通量DNA测序文库并进行测序,是每个转化片段库独立构建完全独立的文库并分别进行测序,或者使用条码技术基于多个转化片段库构建编码文库进行高通量测序。
[0014]所述的高通量测序是指通过核酸链的合成反应、核酸的连接反应、核酸的降解反应或核酸链通过纳米孔道大规模并行测定核酸序列信息。
[0015]所述的单倍型甲基化信息是一条完整的染色体或核酸链的单倍型甲基化信息,或者是一段较长的核酸链的单倍型甲基化信息。
[0016]所述的序列比对和拼接是在有参考序列的帮助下进行,或者在没有参考序列的帮助下进行。
[0017]本发明的一种对亚硫酸氢盐转化后的基因组DNA进行稀释、分隔和扩增等操作从而实现单倍体甲基化的高通量测序的方法,其技术原理可以表述如下:
[0018]提取来自多个拷贝的双倍型或多倍型生物的基因组DNA,根据提取基因组DNA采用的技术流程的不同,提取的过程会导致基因组DNA断成长度从数千碱基至数百兆碱基不等的核酸片段。随后使用亚硫酸氢盐对提取的基因组DNA进行操作,亚硫酸氢盐在适当的条件下可使核酸链上未甲基化的胞嘧啶(C)去氨基变成尿嘧啶(U),而甲基化的胞嘧啶(mC)则由于甲基的存在不能被去氨基而保持不变,从而实现了对甲基化的胞嘧啶和非甲基化的胞嘧啶的区分。随后将上述含有多个基因组拷贝的混合转化片段分为一组转化片段文库,每个转化片段文库内的核酸片段数量根据基因组倍型数量、基因组大小、核酸片段长度、等位基因片段出现概率确定,以保证在同一转化片段文库中,多数片段之间不含有等位基因或等位序列。每个转化片段文库中全部片段的碱基总和,小于等于该样本单倍型基因组碱基数的一半。由于每个转化片段文库中的碱基总数小于该样本单倍型碱基数的一半,即每个转化片段文库中全部核酸片段能够覆盖基因组的总区域小于等于基因组全部区域的一半,根据随机分布的原理,其中发生两个或多个片段重叠覆盖同一区域的概率较小,多数区域仅有唯一片段覆盖,对这些区域的测序即获得单倍体甲基化数据。这一分组过程将转化后双倍型或多倍型的基因组人工分隔成为一系列单倍型亚基因组规模文库的组合。上述一系列亚单倍型转化文库的规模满足高通量测序对测序深度的要求。之后对每一个转化片段文库进行扩增,提高文库中核酸序列总量,但不提高核酸序列覆盖的总区域的广度。对每一个扩增后的转化片段文库独立构建高通量测序文库,并进行高通量DNA测序。测序完成后,首先对每个转化片段文库内的测序阅读(reads)与参考基因组序列进行比对。由于每个转化片段文库内的测序阅读(reads)来源于一系列长核酸片段,因此比对后可以获得一组长度较长的转化单倍型片段。将不同的转化片段文库内比对得出的较长的单倍型片段进行组装,即可获得完整的转化单倍型基因组。最后通过与未转化序列的比较,确定全基因组单倍型甲基化情况。
[0019]有益效果:相比与现有技术,本发明的优点如下:
[0020]1、本发明最大的优点是实现了高通量分析基因组单倍型甲基化信息,通过转化、稀释和分隔等步骤,利用较短读长的高通量测序实现长片段基因组单倍型甲基化信息的判读;
[0021]2、本发明的方法简单,操作简易,不需要额外增加特殊的仪器设备,所述过程均可通过成熟技术实现;
[0022]3、本发明适用面广,既适用于杂合度较低的双倍型的人类基因组的单倍型甲基化分析,又适用于其他杂合度高或者多倍型的基因组的单倍型甲基化分析。

【专利附图】

【附图说明】
[0023]图1是本发明的总体流程示意图:提取获得的基因组DNA经过亚硫酸氢盐转化,未甲基化的胞嘧啶(C)去氨基变成尿嘧啶(U),甲基化的胞嘧啶保持不变。对来源于多个基因组拷贝的混合转化片段进行稀释和分隔,形成一组转化片段文库,由基因组倍型数量、基因组大小、核酸片段长度、等位基因片段出现概率等因素确定每个转化片段文库内的核酸片段数量,以保证在同一转化片段文库中,多数片段之间不含有等位基因或等位序列。每个转化片段文库独立构建测序文库并分别测序,首先在每个样本内部比对和拼接以获得较长的转化序列,再通过跨样本的比对和拼接获得转化的单倍型信息。最后通过与未转化序列的比较,确定全基因组单倍型甲基化情况;
[0024]图2是本发明的详细过程示意图:①本发明测序的样本为基因组DNA,基因组可以是双倍型,也可以是多倍型,基因组DNA的拷贝数量可以是I个,也可以是多个,图2中是3个拷贝的双倍型基因组,用白色和黑色分别表示一对同源染色体,以CG作为示例表示可能存在的甲基化位点基因组DNA在提取的过程中受外力的作用形成一系列长度较长的核酸片段,示意图中每条完整的核酸链被折断为4条长度较长的核酸片段,共24条片段;③对提取获得的基因组核酸长片段进行亚硫酸氢盐转化操作,其中未甲基化的胞嘧啶(C)去氨基变成尿嘧啶(U),甲基化的胞嘧啶保持不变,以区分甲基化的胞嘧啶和未甲基化的胞嘧啶;④对转化后的基因组核酸长片段进行分组,每个转化片段文库内的核酸片段总长度小于一个基因组的大小,步骤3中转化所得的转化核酸片段可以在本步骤被全部使用,也可以不被全部使用,示意图中将全部24条较长核酸片段分为12个转化片段文库,每个片段文库包含2条核酸片段。之后每个转化片段文库独立构建测序文库并分别测序,首先在每个样本内部比对和拼接以获得较长的转化序列,再通过跨样本的比对和拼接获得转化的单倍型信息。最后通过与未转化序列的比较,确定全基因组单倍型甲基化情况。

【具体实施方式】
[0025]以下结合实施例对本发明作进一步的详细说明。
[0026]实施例1:
[0027]基于高通量测序的基因组单倍型甲基化检测方法,对亚硫酸氢盐转化后的基因组DNA进行稀释、分隔、扩增后构建一组转化文库并测序获得基因组单倍型甲基化信息,具体步骤为:对提取的基因组DNA进行亚硫酸氢盐转化后构建一组转化片段文库并对每个文库进行扩增,每个转化片段文库独立构建高通量DNA测序文库并进行测序,测序结果首先在每个转化片段文库内进行序列比对或拼接,获得长转化核酸序列后进行跨转化片段文库的序列比对和拼接获得转化基因组单倍型信息,通过与未转化的序列信息进行比较实现利用高通量测序获得基因组单倍型甲基化信息。
[0028]所述的亚硫酸氢盐转化是指利用亚硫酸氢盐将核酸链上未甲基化的胞嘧啶去氨基变成尿嘧啶,而不改变甲基化的胞嘧啶。
[0029]所述的基因组DNA是由一个完整基因组构成,或者一个完整基因组的一部分构成,基因组DNA的含量是I个拷贝或者是多个拷贝。
[0030]所述的扩增是指在基因组水平进行的非特异性扩增,采用聚合酶链式反应扩增或采用聚合酶等温扩增。
[0031]所述的转化片段文库,每个转化片段文库中核酸片段的总长度小于单倍体基因组DNA全长,每个片段文库中一半以上的核酸片段彼此之间不包含等位区域。
[0032]所述的每个转化片段文库独立构建高通量DNA测序文库并进行测序,是每个转化片段库独立构建完全独立的文库并分别进行测序,或者使用条码技术基于多个转化片段库构建编码文库进行高通量测序。
[0033]所述的高通量测序是指通过核酸链的合成反应、核酸的连接反应、核酸的降解反应或核酸链通过纳米孔道大规模并行测定核酸序列信息。
[0034]所述的单倍型甲基化信息是一条完整的染色体或核酸链的单倍型甲基化信息,或者是一段较长的核酸链的单倍型甲基化信息。
[0035]所述的序列比对和拼接是在有参考序列的帮助下进行,或者在没有参考序列的帮助下进行。
[0036]实施例2:基于转化、稀释扩增文库构建方法进行人类全基因组单倍型甲基化分析:
[0037]采用酚-氯仿法提取人类全基因组DNA,由于酚-氯仿法自身的特性,人类基因组会断裂成为长度约为30Kbp的核酸片段。随后对提取的人类基因组DNA进行亚硫酸氢盐转化,亚硫酸氢盐可将核酸链上未甲基化的胞嘧啶(C)去氨基变成尿嘧啶(U),而甲基化的胞嘧啶(mC)则由于甲基的存在不能被去氨基而保持不变。
[0038]人类全基因组DNA的总长度约为3Gbp,因此一个拷贝的人类基因组(即一个单倍体)包含约10万个上述长约为30Kbp的核酸片段。每个碱基对的平均分子量为650,通过计算可知3Gbp核酸的绝对质量约为3.24皮克(I皮克=10_12克),每I万个30Kbp的片段的绝对质量为0.324皮克。转化之后的片段尽管在GC含量上较普通序列有所差异,依然可以采用上述方法近似计算。
[0039]利用紫外分光光度计对转化后的基因组DNA进行定量,定量后对基因组DNA进行梯度稀释,随后吸取100组转化核酸片段,每组核酸片段的质量为0.324皮克,由上述计算可知每组转化核酸片段包含I万个30Kbp的转化片段,这样一组转化核酸片段称为一个转化片段文库,共构建100个转化片段文库。利用基于phi 29DNA聚合酶及随机引物的多重链替换方法对每个片段文库进行独立全基因组扩增,以提高每个片段文库中DNA链的数量及核酸的总质量。之后,将每个片段文库中的扩增产物采用超声的方法打断成为长约500bp的短片段,构建配对末端(pair-end)文库,每个独立的转化片段文库至少获得4000万条长度150merX2的核酸序列。
[0040]将这4000万条长度为150merX2的核酸序列与人类基因组的参考序列进行甲基化特异性比对,比对过程对参考序列进行亚硫酸氢盐模拟处理,即在CpG位点容忍碱基C和碱基T的错配。由于这4000万条150merX2的序列来源于I万条30Kbp的转化片段,因此比对过程中在基因组的大约I万个区域出现密集匹配,平均每个区域的覆盖深度为40倍。经过这一轮比对,可以获得大约I万条30Kbp左右的转化核酸序列。尤为重要的是,I万条30Kbp转化序列仅覆盖人类基因组1/10的区域,虽然人是双倍体,建库时获得的I万条片段彼此之间包含等位基因的平均概率小于1/10。因此这I万条30Kbp左右的转化核酸序列中的90%的序列彼此之间不重叠,是单倍型转化片段。
[0041]随后将全部100个转化片段文库中的共1000万条30Kbp左右的转化核酸序列在人类参考基因组的帮助下进行转化后的单倍型拼接。人的基因组中平均约600-1000bp就会出现一个SNP,因此虽然一个个体的两套染色体相似程度很高,但来源于两套染色体的长度为30Kbp的同源片段之间,也会存在至少30个碱基的差异,加上两条染色体之间甲基化水平的不一致带来的转化序列差异,30Kbp的同源转化片段之间的差异超过30个碱基。因此拼接过程中可以基于两套染色体进行独立的转化单倍型拼接,100个片段文库中可覆盖整个单倍型基因组10倍,由此获得两套独立的转化基因组单倍型。通过与已知的未转化序列进行比较,即可获得基因组单倍型甲基化信息。
【权利要求】
1.基于高通量测序的基因组单倍型甲基化检测方法,其特征在于,对亚硫酸氢盐转化后的基因组DNA进行稀释、分隔、扩增后构建一组转化文库并测序获得基因组单倍型甲基化信息,具体步骤为:对提取的基因组DNA进行亚硫酸氢盐转化后构建一组转化片段文库并对每个文库进行扩增,每个转化片段文库独立构建高通量DNA测序文库并进行测序,测序结果首先在每个转化片段文库内进行序列比对或拼接,获得长转化核酸序列后进行跨转化片段文库的序列比对和拼接获得转化基因组单倍型信息,通过与未转化的序列信息进行比较实现利用高通量测序获得基因组单倍型甲基化信息。
2.根据权利要求1所述的基于高通量测序的基因组单倍型甲基化检测方法,其特征在于,所述的亚硫酸氢盐转化是指利用亚硫酸氢盐将核酸链上未甲基化的胞嘧啶去氨基变成尿嘧啶,而不改变甲基化的胞嘧啶。
3.根据权利要求1所述的基于高通量测序的基因组单倍型甲基化检测方法,其特征在于,所述的基因组DNA是由一个完整基因组构成,或者一个完整基因组的一部分构成,基因组DNA的含量是I个拷贝或者是多个拷贝。
4.根据权利要求1所述的基于高通量测序的基因组单倍型甲基化检测方法,其特征在于,所述的扩增是指在基因组水平进行的非特异性扩增,采用聚合酶链式反应扩增或采用聚合酶等温扩增。
5.根据权利要求1所述的基于高通量测序的基因组单倍型甲基化检测方法,其特征在于,所述的转化片段文库,每个转化片段文库中核酸片段的总长度小于单倍体基因组DNA全长,每个片段文库中一半以上的核酸片段彼此之间不包含等位区域。
6.根据权利要求1所述的基于高通量测序的基因组单倍型甲基化检测方法,其特征在于,所述的每个转化片段文库独立构建高通量DNA测序文库并进行测序,是每个转化片段库独立构建完全独立的文库并分别进行测序,或者使用条码技术基于多个转化片段库构建编码文库进行高通量测序。
7.根据权利要求1所述的基于高通量测序的基因组单倍型甲基化检测方法,其特征在于,所述的高通量测序是指通过核酸链的合成反应、核酸的连接反应、核酸的降解反应或核酸链通过纳米孔道大规模并行测定核酸序列信息。
8.根据权利要求1所述的基于高通量测序的基因组单倍型甲基化检测方法,其特征在于,所述的单倍型甲基化信息是一条完整的染色体或核酸链的单倍型甲基化信息,或者是一段较长的核酸链的单倍型甲基化信息。
【文档编号】C12Q1/68GK104328183SQ201410606032
【公开日】2015年2月4日 申请日期:2014年10月30日 优先权日:2014年10月30日
【发明者】涂景, 陆祖宏, 姚贝, 李俊吉, 郭靖, 高珅 申请人:东南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1