二次dna片段化的基因组单倍型高通量测序方法

文档序号:493063阅读:512来源:国知局
二次dna片段化的基因组单倍型高通量测序方法
【专利摘要】本发明公开了一种二次DNA片段化的基因组单倍型高通量测序方法,分两次对基因组DNA进行片段化后测序以获得单倍型信息:第一次DNA片段化将基因组DNA分割成为一系列较长的核酸片段,在较长的核酸片段中构建一组片段文库,对每个片段文库进行扩增;将扩增后的较长的核酸片段进行第二次DNA片段化,第二次DNA片段化后得到较短的核酸片段,每个片段文库独立构建测序文库并分别进行高通量测序,测序的结果首先在每个片段文库内部进行序列比对或拼接,获得较长的核酸序列后进行跨片段文库的序列比对和拼接,从而实现利用高通量测序获得基因组单倍型信息。本发明方法实现了利用高通量测序获得基因组单倍型信息,且简单、效率高。
【专利说明】二次DNA片段化的基因组单倍型高通量测序方法

【技术领域】
[0001]本发明属于生物【技术领域】,是一种实现对基因组进行单倍型测定的高通量测序方法,具体涉及一种对基因组DNA的两次片段化后编码、解码及核酸序列组装的测序方法。

【背景技术】
[0002]人类基因组计划和各种生物基因组计划的开展和完成,使人类步入了后基因组时代,对当代的生命科学研究产生了巨大而深远的影响,分子生物学等相关学科获得迅猛发展,从基因水平上认识生命的差异,疾病发生、发展的规律,药物与生命体的相互作用,不同物种之间的遗传差异以及同一物种内部不同个体间的遗传差异成为可能。就基因序列分析而言,后基因组时代的重点已由全基因组序列测定转移到了对基因组中个体遗传差异及物种间遗传差异的比较。
[0003]单倍体基因型,简称单倍型,指在同一染色体上进行共同遗传的多个基因座上等位基因的组合,单倍型有时可指同一条染色体上所有基因组上等位基因组的组合,单倍型是上述遗传差异的直接体现。由于大量的真核生物的基因组是双倍体或多倍体,在同一生物个体内存在两条或多条同源染色体,这些同源染色体间核苷酸链的长度、碱基的位置和排列顺序相近。根据物种的不同,这些同源染色体间平均数百至数千碱基存在一个碱基的差别。由于以上这些特点,尽管存在通量低和价格高的问题,传统的Sanger DNA测序法依然是进行单倍型研究的有用但并不高效的方法。Sanger DNA测序法进行单倍型研究时,首先需要利用各种克隆载体,比如BAC细菌人工染色体、YAC酵母人工染色体等,将所需研究的基因组分割成一定长度的片段并进行克隆,随后对逐段逐步地测定其中的核酸序列以获得较大长度的单倍型信息。第一个人类基因组序列测定即采用的这一方案,花费了大约为10亿美元,虽然目前这一费用已经有所降低,但单倍型的研究仍然受限于DNA测序技术。高通量DNA测序技术,具有通量高、速度快、成本低等特点,在近十年得到了飞速的发展,并成为国际上一个竞争十分激烈的研究领域,多家公司均有成熟的商品化仪器上市,如Roche公司的焦磷酸测序技术,Illumina公司的延伸测序技术,Life Technology公司的连接测序技术和PH敏感场效应管测序技术等。然而这些高通量DNA测序技术均无法高效地进行基因组单倍型的分析,其原因是高通量DNA测序之前需要将基因组DNA打断成一定长度的核酸片段,对每个片段进行并行测序后再与参考序列比较以确定每个片段在基因组的中位置,受制于高通量测序的测序读长,每条连续测序片段的长度一般为几十到几百个碱基,这一长度的核酸片段无法在两条或多条同源染色体之间定位。因此一种方法简单、效率高的高通量测定基因组单倍型序列信息的方法的开发很有必要。


【发明内容】

[0004]发明目的:本发明所要解决的技术问题是提供一种对基因组进行两次片段化以实现高通量测定基因组单倍型序列信息的方法,本发明的方法不仅有助于高通量测序在基因组单倍型研究中的应用,而且还能够大幅度降低基因组单倍型分析的成本,其具有方法简单、效率高的优点。
[0005]
【发明内容】
:为解决上述技术问题,本发明所采用的技术手段为:
[0006]一种二次DNA片段化的基因组单倍型高通量测序方法,分两次对基因组DNA进行片段化后测序以获得单倍型信息:第一次DNA片段化将基因组DNA分割成为一系列较长的核酸片段,在较长的核酸片段中构建一组片段文库,对每个片段文库进行扩增;将扩增后的较长的核酸片段进行第二次DNA片段化,第二次DNA片段化后得到较短的核酸片段,每个片段文库独立构建测序文库并分别进行高通量测序,测序的结果首先在每个片段文库内部进行序列比对或拼接,获得较长的核酸序列后进行跨片段文库的序列比对和拼接,从而实现利用高通量测序获得基因组单倍型信息。
[0007]其中,所述高通量测序是指通过核酸链的合成反应、核酸的连接反应、核酸的降解反应或核酸链通过纳米孔道大规模并行测定核酸序列信息。
[0008]其中,所述DNA片段化是指通过超声打断、机械拉断、剪切力拉断、核酸酶酶切、自然降解或化学降解方法使DNA由长片段断裂成为短片段。
[0009]其中,所述基因组DNA是由一个完整基因组构成或者一个完整基因组的一部分构成,所述基因组DNA的含量是I个拷贝或者是多个拷贝。
[0010]其中,所述单倍型信息是一条完整的染色体或核酸链的单倍型信息或者是一段较长的核酸链的单倍型信息。
[0011]其中,所述较长的核酸片段的长度在1000碱基到10亿碱基之间,所述较短的核酸片段的长度在35碱基到10万碱基之间。
[0012]其中,所述扩增是指在基因组水平进行的非特异性扩增,所述扩增为采用聚合酶链式反应扩增或采用聚合酶等温扩增。
[0013]其中,每个所述片段文库中核酸片段的总长度小于单倍体基因组DNA全长,每个所述片段文库中一半以上的核酸片段彼此之间不包含等位区域。
[0014]其中,所述每个片段文库独立构建测序文库并分别进行高通量测序是指每个片段文库独立构建完全独立的文库并分别进行测序或者使用条码技术基于多个片段文库构建编码文库进行高通量测序。
[0015]其中,所述序列比对和拼接是在有参考序列的帮助下进行或者在没有参考序列的帮助下进行。
[0016]本发明的技术原理如下:
[0017]来自多个拷贝的双倍型或多倍型生物的基因组在第一次片段化后,被打断成一组长度较长的核酸片段,根据研究需要和片段化方法的不同,片段的长度从数千碱基至数百兆碱基不等,但在同一次反应中所得到的核酸片段长度相当。随后将这一组含有多个基因组拷贝不同片段的混合片段分为一组片段文库,每个片段文库内的核酸片段数量根据基因组倍型数量、基因组大小、核酸片段长度、等位基因片段出现概率确定,以保证在同一片段文库中,多数片段之间不含有等位基因或等位序列。一个片段文库中片段数量与片段平均长度的乘积,即碱基数目总和,小于或等于该样本单倍型基因组碱基数的一半。通过这一分组,将双倍型或多倍型的基因组人工分隔成为一系列单倍型亚基因组规模文库的组合,即片段文库的组合。随后每个片段文库经扩增后独立构建测序文库,片段文库内的核酸片段被二次打断成几十至数百个碱基的小片段,用于构建测序文库,之后通过高通量测序平台中对各个小片段进行测序。测序完成后,每个片段文库内的小片段的测序结果与参考基因组序列进行比对。由于每个片段文库内的小片段来源于一系列长核酸片段文库,因此比对后可以获得一组长度较长的单倍型片段。将不同的片段文库内比对得出的较长的单倍型片段进行组装,即可获得完整的单倍型基因组。
[0018]有益效果:相比于现有技术,本发明的基因组单倍型高通量测序方法简单、效率高,大幅度降低了基因组单倍型分析的成本,并且实现了利用高通量测序获得基因组单倍型信息,即通过两次片段化的过程,利用较短片段的高通量测序实现长片段基因组单倍型信息的判读;另外,本发明的方法适用面广,既适用于杂合度较低的双倍型人类基因组的单倍型分析,又适用于其他杂合度高或者多倍型的基因组的单倍型分析。

【专利附图】

【附图说明】
[0019]图1是本发明的总体流程示意图,完整的基因组或者长的核酸链经过第一次片段化过程后,形成一组较长的核酸片段,随后将由一个或多个核酸链片段化得到的较长的核酸片段分为多个片段文库,每个片段文库内的较长的核酸片段经过二次片段化形成较短的核酸片段。每个片段文库内较短的核酸片段独立构建测序文库并分别测序,通过第一次比对和拼接获得较长的核酸片段,通过第二次比对和拼接获得单倍型信息;
[0020]图2是本发明的详细过程示意图:①是本发明测序的基因组DNA样本,为3个拷贝的双倍型基因组,用白色和黑色分别表示一对同源染色体基因组DNA被第一次片段化为长度较长的核酸片段,每条完整的核酸链被片段化为10条长度较长的核酸片段,共60条片段;③是将全部60条较长的核酸片段分为10个片段文库,每个片段文库包含6条核酸片段;④每个片段文库中的较长的核酸片段被再次打断成较短的核酸片段,构建高通量测序文库,每个片段文库中每个较长的核酸片段被再次打碎成5条较短的核酸片段,随后每个片段文库被独立的测序并进行生物信息分析,最终获得基因组单倍型信息。

【具体实施方式】
[0021]以下结合附图对本发明进行进一步说明。
[0022]本发明通过对基因组DNA的两次片段化实现单倍体基因组的高通量测序,第一次片段化过程,将基因组DNA打断成一组序列长度较长的核酸片段,分别吸取一定数量的核酸片段作为片段文库1、片段文库2……片段文库N,每个片段文库内的核酸片段数量根据基因组大小、片段长度、等位片段出现概率确定,N个片段文库总片段数量满足高通量测序深度的需要;对每个片段文库内较长的核酸片段进行二次打断,二次打断后的片段长度满足测序平台的要求,随后构建高通量测序文库进行独立测序或编码混合测序;如采用独立测序方式,在测序完成后,直接将测序片段与参考序列进行比对;如采用编码混合测序方式,在测序完成后首先进行条码的解码以确定每个测序片段的片段文库归属,再与参考序列比对;根据本发明的设计,在同一片段文库内,多数片段均没有另外一条或多条含有相同等位基因的片段存在,因此每个独立混合库内可以比对、拼接出含有多个SNP位点较长的单倍型片段;最后利用这些含有较长SNP位点的单倍型片段进行拼接,获得长度更长的单倍型乃至单条染色体的完整序列。
[0023]如图1?2所示,本发明的二次片段化的基因组单倍型高通量测序方法,步骤1,选取待测序的基因组DNA样本,基因组DNA可以是双倍型,也可以是多倍型,基因组DNA的拷贝数量可以是I个,也可以是多个;步骤2,将基因组DNA第一次片段化分割成为一系列较长的核酸片段;步骤3,在较长的核酸片段中构建一组片段文库(每个片段文库内的核酸片段总长小于一个基因组的大小,步骤2中第一次片段化所得较长的核酸片段可以在步骤3被全部使用,也可以不被全部使用);步骤4,对每个片段文库进行扩增,扩增后较长的核酸片段被再次片段化为较短的核酸片段,每个片段文库独立构建测序文库并分别进行高通量测序,测序的结果首先在每个片段文库内部进行序列比对或拼接,获得较长的核酸序列后进行跨片段文库的序列比对和拼接,从而实现利用高通量测序获得基因组单倍型信息。
[0024]实施例1:
[0025]一种二次DNA片段化的基因组单倍型高通量测序方法,分两次对基因组DNA进行片段化后测序以获得单倍型信息:第一次DNA片段化将基因组DNA分割成为一系列较长的核酸片段,在较长的核酸片段中构建一组片段文库,对每个片段文库进行扩增;将扩增后的较长的核酸片段进行第二次DNA片段化,第二次DNA片段化后得到较短的核酸片段,每个片段文库独立构建测序文库并分别进行高通量测序,测序的结果首先在每个片段文库内部进行序列比对或拼接,获得较长的核酸序列后进行跨片段文库的序列比对和拼接,从而实现利用高通量测序获得基因组单倍型信息。
[0026]其中,所述高通量测序是指通过核酸链的合成反应、核酸的连接反应、核酸的降解反应或核酸链通过纳米孔道大规模并行测定核酸序列信息。
[0027]其中,所述DNA片段化是指通过超声打断、机械拉断、剪切力拉断、核酸酶酶切、自然降解或化学降解方法使DNA由长片段断裂成为短片段。
[0028]其中,所述基因组DNA是由一个完整基因组构成或者一个完整基因组的一部分构成,所述基因组DNA的含量是I个拷贝或者是多个拷贝。
[0029]其中,所述单倍型信息是一条完整的染色体或核酸链的单倍型信息或者是一段较长的核酸链的单倍型信息。
[0030]其中,所述较长的核酸片段的长度在1000碱基到10亿碱基之间,所述较短的核酸片段的长度在35碱基到10万碱基之间。
[0031]其中,所述扩增是指在基因组水平进行的非特异性扩增,所述扩增为采用聚合酶链式反应扩增或采用聚合酶等温扩增。
[0032]其中,每个所述片段文库中核酸片段的总长度小于单倍体基因组DNA全长,每个所述片段文库中一半以上的核酸片段彼此之间不包含等位区域。
[0033]其中,所述每个片段文库独立构建测序文库并分别进行高通量测序是指每个片段文库独立构建完全独立的文库并分别进行测序或者使用条码技术基于多个片段文库构建编码文库进行高通量测序。
[0034]其中,所述序列比对和拼接是在有参考序列的帮助下进行或者在没有参考序列的帮助下进行。
[0035]实施例2:
[0036]二次片段化的基因组单倍型高通量测序方法进行人类全基因组单倍型分析:
[0037]采用酚氯仿法提取人类全基因组DNA,由于酚氯仿法自身的特性,人类基因组会断裂成为长度约为30Kbp的较长的核酸片段。
[0038]人类全基因组DNA的总长度约为3Gbp,因此一个拷贝的人类基因组包含约10万个上述长约为30Kbp的片段。每个碱基对的平均分子量为650,因此通过计算可知3Gbp核酸的绝对质量约为3.24皮克(I皮克=10_12克),每I万个30Kbp的片段的绝对质量为0.324皮克。
[0039]利用紫外分光光度计对提取的基因组DNA进行定量,定量进行梯度稀释,随后吸取100组核酸片段,每组核酸片段的质量为0.324皮克,由上述计算可知每组核酸片段包含I万个30Kbp的片段,这样一组核酸片段称为一个片段文库。100组核酸片段共构建100个片段文库。利用基于Phi 29DNA聚合酶及随机引物的多重链替换方法对每个片段文库进行独立全基因组扩增,以提高每个片段文库中DNA链的数量及核酸的总质量。之后,将每个片段文库中的扩增产物采用超声的办法打断成为长约200bp的短片段,在短片段两端连接上测序所需的通用接头,随后在高通量DNA测序仪上进行随机片段文库测序,每个独立的片段文库至少获得4000万条长度150bp的核酸序列。
[0040]将这4000万条长度为150bp的核酸序列与人类基因组的参考序列进行比对,由于这4000万条150bp的序列来源于I万条30Kbp的片段,因此比对过程中在基因组的大约I万个区域出现密集匹配,平均每个区域的覆盖深度为20倍。经过这一轮比对,可以获得大约I万条30Kbp左右的核酸序列。尤为重要的是,I万条30Kbp仅能覆盖人类基因组1/10的区域,虽然人是双倍体,在第一次片段化后取得的I万条片段彼此之间包含等位基因的平均概率小于1/10。因此这I万条30Kbp左右的核酸序列中的90%的序列彼此之间不重叠,是单倍型片段。
[0041]随后将全部100个片段文库中的共1000万条30Kbp左右的核酸序列在人类参考基因组的帮助下进行单倍型的拼接。人的基因组中平均约600-1000bp就会出现一个SNP,因此虽然一个个体的两套染色体相似程度很高,但来源于两套染色体的长度为30Kbp的同源片段之间,也会存在至少30个碱基的差异。因此拼接过程中可以基于两套染色体进行独立的单倍型拼接,100个片段文库中可覆盖整个单倍型基因组10倍,由此获得两套独立的基因组单倍型。
【权利要求】
1.二次DNA片段化的基因组单倍型高通量测序方法,其特征在于:分两次对基因组DNA进行片段化后测序以获得单倍型信息:第一次DNA片段化将基因组DNA分割成为一系列较长的核酸片段,在较长的核酸片段中构建一组片段文库,对每个片段文库进行扩增;将扩增后的较长的核酸片段进行第二次DNA片段化,第二次DNA片段化后得到较短的核酸片段,每个片段文库独立构建测序文库并分别进行高通量测序,测序的结果首先在每个片段文库内部进行序列比对或拼接,获得较长的核酸序列后进行跨片段文库的序列比对和拼接,从而实现利用高通量测序获得基因组单倍型信息。
2.根据权利要求1所述的二次DNA片段化的基因组单倍型高通量测序方法,其特征在于:所述高通量测序是指通过核酸链的合成反应、核酸的连接反应、核酸的降解反应或核酸链通过纳米孔道大规模并行测定核酸序列信息。
3.根据权利要求1所述的二次DNA片段化的基因组单倍型高通量测序方法,其特征在于:所述DNA片段化是指通过超声打断、机械拉断、剪切力拉断、核酸酶酶切、自然降解或化学降解方法使DNA由长片段断裂成为短片段。
4.根据权利要求1所述的二次DNA片段化的基因组单倍型高通量测序方法,其特征在于:所述基因组DNA是由一个完整基因组构成或者一个完整基因组的一部分构成,所述基因组DNA的含量是I个拷贝或者是多个拷贝。
5.根据权利要求1所述的二次DNA片段化的基因组单倍型高通量测序方法,其特征在于:所述单倍型信息是一条完整的染色体或核酸链的单倍型信息或者是一段较长的核酸链的单倍型信息。
6.根据权利要求1所述的二次DNA片段化的基因组单倍型高通量测序方法,其特征在于:所述较长的核酸片段的长度在1000碱基到10亿碱基之间,所述较短的核酸片段的长度在35碱基到10万碱基之间。
7.根据权利要求1所述的二次DNA片段化的基因组单倍型高通量测序方法,其特征在于:所述扩增是指在基因组水平进行的非特异性扩增,所述扩增为采用聚合酶链式反应扩增或采用聚合酶等温扩增。
8.根据权利要求1所述的二次DNA片段化的基因组单倍型高通量测序方法,其特征在于:每个所述片段文库中核酸片段的总长度小于单倍体基因组DNA全长,每个所述片段文库中一半以上的核酸片段彼此之间不包含等位区域。
9.根据权利要求1所述的二次DNA片段化的基因组单倍型高通量测序方法,其特征在于:所述每个片段文库独立构建测序文库并分别进行高通量测序是指每个片段文库独立构建完全独立的文库并分别进行测序或者使用条码技术基于多个片段文库构建编码文库进行高通量测序。
10.根据权利要求1所述的二次DNA片段化的基因组单倍型高通量测序方法,其特征在于:所述序列比对和拼接是在有参考序列的帮助下进行或者在没有参考序列的帮助下进行。
【文档编号】C12Q1/68GK104357563SQ201410606732
【公开日】2015年2月18日 申请日期:2014年10月30日 优先权日:2014年10月30日
【发明者】涂景, 陆祖宏, 高珅, 郭靖, 段梦沁, 乔祎 申请人:东南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1