测序文库的构建方法及用于测序文库构建的试剂盒的制作方法

文档序号:3322874阅读:816来源:国知局
测序文库的构建方法及用于测序文库构建的试剂盒的制作方法
【专利摘要】本发明提供了一种测序文库的构建方法及用于测序文库构建的试剂盒。构建方法包括:对待测样本的基因组DNA进行酶切,得到具有粘性末端的酶切片段;在酶切片段的两端加P1接头,得到带P1接头片段;对带P1接头片段进行片段化,得到目标大小片段;以及在目标大小片段的两端加P2接头,得到测序文库;其中,基因组DNA中包括能被酶识别的识别序列,识别序列包括由识别序列两端的碱基构成的回文序列以及位于回文序列中间的可变序列,可变序列包括一个或多个碱基,并且粘性末端包括可变序列中的一个或多个碱基。本发明通过识别序列中包括可变序列的酶进行酶切,使得固定接头碱基的类型和数量来实现不同捕获标记数量的效果,提高了灵活性。
【专利说明】测序文库的构建方法及用于测序文库构建的试剂盒

【技术领域】
[0001] 本发明涉及高通量测序领域,具体而言,涉及一种测序文库的构建方法及用于测 序文库构建的试剂盒。

【背景技术】
[0002] 基于限制性酶切位点相关 DNA (Restriction-site Associated DNA,RAD)的测序 技术,即RAD-seq技术是在二代测序基础上发展起来的一项基于全基因组酶切位点的简化 基因组测序技术。该方法技术流程简单,不受有无参考基因组的限制,可大大简化基因组的 复杂性,减少实验费用,通过一次测序就可以获得数以万计的多态性标记。目前,RAD-seq技 术已成功应用于超高密度遗传图谱的构建、重要性状的精细定位、辅助基因组序列组装、群 体基因组学以及系统发生学等基因组研究热点领域。
[0003] 利用限制性内切酶对基因组DNA样品进行酶切。一般情况下,八碱基酶在基因组 中出现的频率最低,其次是六碱基酶,出现频率最高的为四碱基酶。限制性内切酶的选择需 要对目标物种的参考基因组进行系统分析,根据基因组的GC含量、重复序列情况等信息选 择合适的酶。但是针对不同的酶我们需要设计不同的接头,来达到构建RAD文库的目的。
[0004] RAD-seq的主要实验流程如下:首先,对基因组进行酶切,然后在酶切后的基因组 片段两端加上Pl接头。然后将加好Pl接头的序列进行打断。通过琼脂糖胶检测,选择符 合大小的目的条带,一般选择目标条带在400?500bp。打断后的DNA片段连接上P2接头。 对加过接头的DNA进行PCR扩增。其中,Pl接头为带有酶切位点的粘性末端序列,且Pl接 头上还具有高通量测序所需的其他序列,比如P7序列、标签序列以及第二目的片段测序引 物序列;本领域常用的P2接头是P5接头序列以及第一目的片段测序引物序列。
[0005] 目前针对基于限制性酶切位点相关的DNA测序(RAD-seq)文库的构建方法中,酶 的选择有很多种,比如识别序列为6碱基的酶:PstI (CTGCAG)和EcoRI (GAATTC);还有识别 序列为8碱基的酶:SbfI (CCTGCAGG)等。根据基因组中每个位点都是A、T、C、G四种碱基中 的其中一种,每个位点出现固定一个碱基的几率为1/4,这样4碱基,6碱基,8碱基酶的酶切 位点在基因组上分布位点的间隔理论分别为:256bp,4096bp,65536bp。很显然,与八碱基酶 SbfI相比,通过6碱基酶EcoRI、PstI的酶切能够产生更高密度的RAD标记。
[0006] 在选择限制性内切酶时要根据物种基因组序列信息以及实验目的来选择,保证产 生的RAD标记能够在基因组上均匀分布,同时所获得的RAD标记数量能够达到实验所需的 饱和度。不同识别序列的酶在基因组上分布的密度也是不一样的,所得到的标记数目也是 不一样的。同样数目识别序列的酶在小的基因组中标记数比基因组大的物种中要少。大的 基因组比较适合识别序列多的酶,而在小的基因组中适合选识别序列少的酶。在大规模生 产中,针对不同大小基因组的物种,我们可能需要选择不同识别序列个数的酶,但是针对不 同的酶我们需要设计对应的接头,既浪费成本而且也不灵活。
[0007] 因此,仍需要对现有的文库构建方法进行改进,以克服现有方法灵活性不够以及 每次合成接头造成的成本浪费的缺陷。


【发明内容】

[0008] 本发明的主要目的在于提供一种测序文库的构建方法及用于测序文库构建的试 剂盒,以解决现有技术中在基于限制性酶切位点相关DNA的测序(RAD-Seq)文库构建时存 在灵活性差、成本浪费的问题。
[0009] 为了实现上述目的,根据本发明的一个方面,提供了一种高通量测序文库的构建 方法,该构建方法包括:对待测样本的基因组DNA进行酶切,得到具有粘性末端的酶切片 段;在酶切片段的两端加 Pl接头,得到带Pl接头片段;对带Pl接头片段进行片段化,得到 目标大小片段;以及在目标大小片段的两端加 P2接头,得到高通量测序文库;其中,基因组 DNA中包括能被酶识别的识别序列,识别序列包括由识别序列两端的碱基构成的回文序列 以及位于回文序列中间的可变序列,可变序列包括一个或多个碱基,并且粘性末端包括可 变序列中的一个或多个碱基。
[0010] 进一步地,粘性末端包括可变序列中的至少3个碱基。
[0011] 进一步地,上述酶为限制性内切酶AlwNI、DraIII、BglI、BstAPI或Pf IMI。
[0012] 进一步地,Pl接头与部分或全部酶切片段的粘性末端相适应。
[0013] 进一步地,在酶的识别序列中,构成所述回文序列的碱基数是2n,n为3 2的整数。
[0014] 进一步地,Pl接头中含有P7序列、标签序列和第二测序引物序列,且Pl接头的5' 端或3'端含有与粘性末端相适应的一个或多个碱基;P2接头中含有P5序列和第一测序引 物序列。
[0015] 根据本发明的另一方面,提供了一种用于高通量测序文库构建的试剂盒,该试剂 盒中包括:酶,酶在基因组DNA中的识别序列包括两端碱基构成的回文序列及位于回文序 列中间的可变序列,可变序列包括一个或多个碱基;且酶酶切所述基因组DNA后的酶切产 物具有粘性末端,粘性末端含有所述可变序列的一个或多个碱基;Pl接头序列,Pl接头中 含有P7序列、标签序列和第二测序引物序列,且所1接头的5'端或3'端含有与粘性末端 对应的一个或多个碱基;以及P2接头序列,P2接头中含有P5序列和第一测序引物序列。
[0016] 进一步地,上述粘性末端中包括可变序列中的至少3个碱基。
[0017] 进一步地,酶为限制性内切酶 AlwNI、DraIII、BglI、BstAPI 或 Pf IMI。
[0018] 进一步地,构成所述回文序列的碱基数是2η,η为3 2的整数。
[0019] 进一步地,Pl接头与部分或全部酶切产物的粘性末端相适应。
[0020] 应用本发明的技术方案,通过从酶切后的酶切片段的粘性末端所具有的特点的角 度来考虑,创造性地选择出具有以下特性的酶进行酶切,使得本发明的文库构建方法能够 通过固定Pl接头上可变序列中碱基的具体类型,来达到产生多种识别序列数目酶的捕获 标记数目的效果。本发明采用的酶所识别的识别序列是在基因组DNA中包括由识别序列两 端的碱基构成的回文序列以及位于回文序列中间的可变序列,可变序列包括一个或多个碱 基,并且粘性末端包括可变序列中的一个或多个碱基。而且,本发明的上述构建方法还可以 做到针对不同的物种类型和不同的标记密度要求,从所有符合条件的酶中选择酶切效率最 高的来进行后续的文库构建,并选择对应的一套接头,不用再重新合成新的接头,不仅提高 了灵活性,而且减少了单独合成新的接头的成本。

【专利附图】

【附图说明】
[0021] 构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示 意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0022] 图1示出了根据本发明一种典型的实施例所提供的测序文库的构建流程示意图; 以及
[0023] 图2示出了本发明的实施例所构建的文库中插入片段的大小。

【具体实施方式】
[0024] 需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本发明。
[0025] 本发明中所说的酶、内切酶或限制性内切酶均是指限制性内切酶。而且,本发明中 的酶在基因组DNA中的识别序列包括两端碱基构成的回文序列和位于中间的可变序列,而 可变序列是指:对酶识别其识别序列来说,仅可变区的碱基数目是特定的,而其碱基类型并 不是特定的,即在符合酶识别碱基数目的前提下,在基因组DNA中位于回文序列中间的所 有存在的序列均能被该酶识别。
[0026] 正如【背景技术】部分所提到的,现有技术中在构建基于限制性酶切位点相关DNA的 测序(RAD-Seq)文库时存在接头灵活性差且成本浪费的缺陷。为了改善这一状况,在本发 明一种典型的实施方式中,如图1所示,提供了一种高通量测序文库的构建方法,该构建方 法包括:对待测样本的基因组DNA进行酶切,得到具有粘性末端的酶切片段;在酶切片段的 两端加 Pl接头,得到带Pl接头片段;对带Pl接头片段进行片段化,得到目标大小片段;以 及在目标大小片段的两端加 P2接头,得到高通量测序文库;其中,基因组DNA中包括能被酶 识别的识别序列,识别序列包括由识别序列两端的碱基构成的回文序列以及位于回文序列 中间的可变序列,可变序列包括一个或多个碱基,并且粘性末端包括可变序列中的一个或 多个碱基。
[0027] 本发明的上述构建方法,通过从酶切后的酶切片段的粘性末端所具有的特点的角 度来考虑,创造性地选择出具有以下特性的酶进行酶切,使得本发明的文库构建方法能够 通过固定Pl接头上可变序列中碱基的具体类型,来达到产生多种识别序列数目酶的捕获 标记数目的效果。本发明采用的酶所识别的识别序列是在基因组DNA中包括由识别序列两 端的碱基构成的回文序列以及位于回文序列中间的可变序列,可变序列包括一个或多个碱 基,并且粘性末端包括可变序列中的一个或多个碱基。而且,本发明的上述构建方法还可以 做到针对不同的物种类型和不同的标记密度要求,从所有符合条件的酶中选择酶切效率最 高的来进行后续的文库构建,并选择对应的一套接头,不用再重新合成新的接头,不仅提高 了灵活性,而且减少了单独合成新的接头的成本。
[0028] 在本发明的上述构建方法中,上述酶的识别序列中只要含有可变序列,并且能够 使在酶切后产生的带有粘性末端的酶切片段中的粘性末端上含有可变序列中的碱基的酶 即可。由于本发明的酶的识别序列中包含了可变序列可以是A、T、C或G任意排列组合成 的序列,并且酶切片段的粘性末端中也含有包括A、T、C或G的任意排列组合成的序列中的 一种或多种,便可以通过固定该可变序列中碱基的类型来控制文库所捕获的酶切片段的数 量。
[0029] 包含上述可变序列的酶在酶切基因组DNA后,产生具有粘性末端的酶切片段,当 将粘性末端中的碱基固定为A时,文库只捕获具有A的粘性末端片段,占整个酶切片段总量 的1/4 ;同理,当将将粘性末端中的碱基固定为T、C或G时,文库所能捕获的分别是粘性末 端为T、C或G的酶切片段,这类酶切片段的数量也是各占酶切片段总量的1/4。
[0030] 上述构建方法中,当将粘性末端中的碱基固定为两种碱基类型时,如将粘性末端 中的喊基设计为R时,在含有A、T、C和G的粘性末端的酶切片段中,文库能够捕犹粘性末端 为A和G的酶切片段,占总酶切片段数量的1/2 ;同理,将粘性末端中的碱基设计为Y时,能 捕犹粘性末端为C和T的酶切片段;将粘性末端中的喊基设计为M时,能捕犹粘性末端为A 和C的酶切片段;将粘性末端中的碱基设计为Y时,能捕获粘性末端为G和T的酶切片段; 将粘性末端中的喊基设计为S时,能捕犹粘性末端为C和G的酶切片段;当粘性末端中的喊 基设计为W时,能捕获粘性末端为A和T酶切片段。
[0031] 上述构建方法中,当粘性末端中的碱基固定为三种碱基类型时,如将粘性末端中 的碱基确定为H时,能捕获粘性末端为A、C和T的片段;将粘性末端中的碱基确定为B时, 能捕犹粘性末端为C、G和T的片段;将粘性末端中的喊基确定为V时,能捕犹粘性末端为 A、C和G的片段;将粘性末端中的喊基确定为D时,能捕犹粘性末端为A、G和T的片段,所 捕获的具有三种不同类型的粘性末端的数量占中酶切片段数量的3/4。当然,在上述构建方 法中,当粘性末端中的碱基不限定碱基类型时,即所构建的文库能够捕获A、T、C、G四种粘 性末端的片度。
[0032] 而且,本发明的上述构建方法还可以通过控制可变序列中碱基的个数来调节酶的 识别序列的碱基数目,进而通过识别序列碱基数目的多少来实现调节酶切片段的大小和数 目,从而为不同物种选择合适数量的酶切位点标记提供便利。在本发明一种优选的实施例 中,上述可变序列中碱基的个数为多个,碱基数目越多,通过改变每个碱基的碱基类型,可 以模拟更多种识别序列数目的酶的酶切捕获效果,并且可以通过使多种能够产生包含可变 序列中多个碱基的酶的酶切片段在连接Pl接头时,通过固定每个粘性末端中的碱基的具 体类型而共用Pl接头,无需单独另行设计,为大规模的不同物种的文库构建提供了更大的 灵活性,实现"一酶一接头"为"多酶一接头",节省了很多接头合成的成本。
[0033] 在本发明另一种优选的实施例中,上述粘性末端上含有可变序列中的碱基数至少 为3个。当碱基的个数至少为3个时,可以通过每个碱基的碱基类型的确定,捕获多种可能 的不同数量的酶切位点相关DNA的片段。在已知的物种中,能够酶切产生的粘性末端中含 有可变序列中的至少含有3个的碱基的酶的活性相对较好,而且使用率也比较高。
[0034] 在本发明一种更优选的实施例中,提供了 5种可以产生含有至少3个碱基的可 变序列的酶:AlwNI,识别序列为CAGNNNCTG ;DraIII,识别序列为CACNNNGTG ;BglI,识别序 列为 GCCNNNGGC ;BstAPI,识别序列为 GCANNNNNTGC ;Pf IMI,识别序列为 CCANNNNNTGG。以 AlwNI、Drain、BglI为例,三种酶的识别序列中的三个N即为任意碱基。当所确定N的碱 基类型不同时,所识别的碱基位点的数目是可以变化的,只有当3个位置的N都只固定为一 种特定的碱基类型时,上述三种酶的识别序列才表示一个9个碱基的内切酶识别序列;当 不限定N的碱基类型时,上述三种酶的识别序列表示为一个6个碱基的内切酶识别序列。 因此,当限定一个N的碱基为一特定类型,而剩余2个N的碱基类型不限定时,上述三种酶 代表的是7个喊基的识别序列;当限定一个N的喊基为两种喊基类型,而剩余2个N的喊基 类型不限定时,该限定为2个碱基类型的N实际能够捕获该位置为4种碱基中的2种,相当 于筛选了 0. 5个碱基,加上两端的固定碱基6个,这种情形下,上述三种酶实际所能识别的 是类似于6. 5个碱基的识别序列。同理,当限定一个N为三种碱基类型时,该位置的N能捕 获该位置3/4的序列,因而,上述三种酶实际所能识别的是类似于6. 75个碱基的识别序列。 同理,根据所确定的N的碱基类型的不同以及所确定的N的数目不同,使上述酶能够显示出 碱基数目为6、6· 5、6· 75、7、7· 5、7· 75、8、8· 5、8· 75或9个的识别序列的酶切效果。
[0035] 在本发明的上述构建方法中,通过限定的可变序列中碱基的类型和数目的不同, 可以产生多种不同的粘性末端;同样本发明的接头Pl也可以设计成与所有酶切片段的粘 性末端相适应的序列或与部分酶切片段的粘性末端相适应。比如,可以设计成粘性末端中 每个位置的碱基能捕获1/4、1/2或3/4数量的酶切片段,这时所设计的Pl接头上的碱基类 型能够与部分酶切片段的粘性末端相适应,从而捕获相适应部分的酶切片段,而不适应部 分的酶切片段不捕获。
[0036] 在本发明的上述构建方法中,对本发明的酶的识别序列中对构成回文序列的碱基 数并无特定要求,只要能够用于对基因组DNA进行酶切,且能达到所需要的与酶切位点相 关的DNA片段的数量即可。在本发明中,优选上述构成回文序列的碱基数是2n,n为3 2的 整数。在本发明的教导下,在实际使用中,根据所要酶切的物种的基因组大小以及所需要产 生的与酶切位点相关的DNA片段的数量要求,合理选择合适数目的构成回文序列的碱基数 目和合适数目的可变序列中的碱基所组成的识别序列的酶。在本发明中,更优选构成回文 序列的碱基数中η为2或3,当η为2个或3个时,符合该要求的可用的酶相对较多。
[0037] 在本发明的上述构建方法中,Pl接头是在高通量测序领域通用的包含Ρ7序列、标 签序列和第二测序引物序列的Pl接头序列的基础上,根据所用的酶对待测基因组DNA进行 酶切后产生的带有粘性末端的酶切片段中粘性末端上可变序列中的碱基的数目和种类的 不同,本发明的Pl接头的5'端或3'端含有的与粘性末端相适应的碱基也不同。Ρ2接头是 高通量测序领域通用的接头,包含Ρ5序列和第一测序引物序列。
[0038] 在本发明一种更优选的实施例中,针对上述五种酶,本发明设计了更具灵活性的 Pl 接头,序列如 SEQ ID NO. 1 和 SEQ ID NO. 2 所示:SEQ ID NO. 1 :
[0039] 5-AGATCGGAAGAGCACACGTCTGAACTCCAGTCACTCCGTTATCTCGTATGCCGTCTTCTGCTTG-3 ; SEQ ID NO. 2 :
[0040] 3-NNNTCTAGCCTTCTCGTGTGCAGACTTGAGGTCAGTGAGGCAATAGAGCATACGGCAGAAGACGAA C-5,其中,N表示A、T、C、G中的任何一种碱基。
[0041] 本发明的上述Pl序列根据N所确定的碱基类型及数目的不同,能够捕获不同数量 的与酶切位点相关的DNA片段,从而可以适应不同基因组大小的物种对捕获合适数量的酶 切片段的需求,大大提高了操作的灵活性,而且还节约了引物合成的成本。
[0042] 在本发明另一种典型的实施方式中,提供了一种用于高通量测序文库构建的试剂 盒,该试剂盒中包括:酶,酶在基因组DNA中的识别序列包括两端碱基构成的回文序列及位 于回文序列中间的可变序列,可变序列包括一个或多个碱基;且酶酶切基因组DNA后的酶 切产物具有粘性末端,粘性末端含有可变序列的一个或多个碱基;Pl接头序列,Pl接头中 含有P7序列、标签序列和第二测序引物序列,且Pl接头的5'端或3'端含有粘性末端相适 应的一个或多个碱基;以及P2接头序列,P2接头中含有P5序列和第一测序引物序列。
[0043] 本发明的上述试剂盒,通过包含能够识别两端为回文序列,中间为可变序列的识 别序列,且酶切产物的粘性末端含有该可变序列中的碱基的酶,使得利用本发明的试剂盒 在用于构建高通量测序文库时,能够针对不同基因组大小的物种,根据需要灵活选择所适 合的酶进行建库,并可以通过调整Pl接头上与粘性末端相适应的碱基类型和碱基数目来 灵活调整不同基因组大小物种所需与酶切位点相关的片段的数目,以实现不同的分析目 的。此外,本发明的试剂盒克服了现有技术中,每选择一种酶都要合成对应的接头,并且在 需要调整密度时还需重新合成对应的引物的缺陷,不仅降低了成本,而且提高了操作灵活 性。
[0044] 在本发明的上述试剂盒中,Pl接头是在高通量测序领域通用的包含P7序列、标签 序列和第二测序引物序列的Pl接头序列的基础上,根据所用的酶对待测基因组DNA进行酶 切后产生的带有粘性末端的酶切片段中粘性末端上可变序列中的碱基的数目和种类的不 同,本发明的Pl接头的5'端或3'端含有的与粘性末端相适应的碱基也不同。P2接头是高 通量测序领域通用的接头,包含P5序列和第一测序引物序列。
[0045] 在本发明一种更优选的实施例中,针对上述五种酶,本发明的试剂盒设计了更具 灵活性的 Pl 接头,序列如 SEQ ID NO. 1 和 SEQ ID NO. 2 所示:SEQ ID NO. I :5-AGATCGGAAG AGCACACGTCTGAACTCCAGTCACTCCGTTATCTCGTATGCCGTCTTCTGCTTG-3 ;SEQ ID NO. 2 :3-NNNTCT AGCCTTCTCGTGTGCAGACTTGAGGTCAGTGAGGCAATAGAGCATACGGCAGAAGACGAAC-5,其中,N 表示 A、 T、C、G中的任何一种碱基。
[0046] 本发明的上述Pl序列根据N所确定的碱基类型数目的不同可以捕获不同数量的 与酶切位点相关的DNA片段。且可以根据不同文库构建目的需要选择可以产生合适数量的 酶切片段的酶及相应的Pl接头来进行,大大提高了操作的灵活性,还可以为高通量测序相 关企业降低引物合成的成本。
[0047] 在本发明的上述试剂盒中,上述酶的识别序列中只要含有可变序列,并且能够使 在酶切后产生的带有粘性末端的酶切片段中的粘性末端上含有该可变序列中的一个或多 个碱基的酶即可。由于本发明的酶的识别序列中包含了可变序列可以是A、T、C或G的任意 排列组合成的序列,并且酶切片段的粘性末端中也含有包括A、T、C或G的任意排列组合成 的序列中的一种或多种,便可以通过固定该可变序列中碱基的类型来控制文库所捕获的酶 切片段的数量。
[0048] 包含上述可变序列的酶在酶切基因组DNA后,产生具有粘性末端的酶切片段,当 将粘性末端中的碱基固定为A时,文库只捕获具有A的粘性末端片段,占整个酶切片段总量 的1/4 ;同理,当将粘性末端中的碱基固定为T、C或G时,文库所能捕获的分别是粘性末端 为T、C或G的酶切片段,这类酶切片段的数量也是各占酶切片段总量的1/4。具体情况与 方法部分描述相同,此处不再赘述。
[0049] 本发明的上述试剂盒中的酶,还可以通过控制可变序列中碱基的个数来调节酶的 识别序列的碱基数目,进而通过识别序列碱基数目的多少来实现调节文库所捕获的与酶切 位点相关的酶切片段的大小和数目。在本发明一种优选的实施例中,上述试剂盒中,酶酶切 基因组DNA后的酶切产物的粘性末端中包含可变序列中的碱基的数目至少为3个。当粘性 末端中包含可变序列中的碱基的个数至少为3个时,可以通过固定每个碱基的碱基类型, 捕获多种可能的不同数量的酶切位点相关DNA的片段。在已知的物种中,能够酶切产生至 少含有3个可变序列中的碱基的酶的活性相对较好,而且使用率也比较高。
[0050] 在本发明另一种优选的实施例中,本发明的试剂盒提供了 5种可以产生含有可变 序列中的至少3碱基的粘性末端的酶=AlwNI,识别序列为CAGNNNCTG ;DraIII,识别序列为 CACNNNGTG ;BglI,识别序列为 GCCNNNGGC ;BstAPI,识别序列为 GCANNNNNTGC ;PflMI,识别序 列为CCANNNNNTGG。以AlwNI、Drain、BglI为例,三种酶的识别序列中的三个N即为任意 碱基。当所确定N的碱基类型不同时,所识别的碱基位点的数目是可以变化的,只有当3个 位置的N都只固定为一种特定的碱基类型时,上述三种酶的识别序列才表示一个9个碱基 的内切酶识别序列;当不限定N的碱基类型时,上述三种酶的识别序列表示为一个6个碱基 的内切酶识别序列。
[0051] 在本发明所提供的上述酶中,当限定一个N的碱基为一特定类型,而剩余2个N的 碱基类型不限定时,上述三种酶代表的是7个碱基的识别序列;当限定一个N的碱基为两种 碱基类型,而剩余2个N的碱基类型不限定时,该限定为2个碱基类型的N实际能够捕获该 位置为4种碱基中的2种,相当于筛选了 0. 5个碱基,加上两端的固定碱基6个,这种情形 下,上述三种酶实际所能识别的是类似于6. 5个碱基的识别序列。同理,当限定一个N为三 种碱基类型时,该位置的N能捕获该位置3/4的序列,因而,上述三种酶实际所能识别的是 类似于6. 75个碱基的识别序列。同理,根据所确定的N的碱基类型的不同以及所确定的N 的数目不同,使上述酶能够显示出碱基数目为6、6. 5、6. 75、7、7. 5、7. 75、8、8. 5、8. 75或9个 的识别序列的酶切效果。
[0052] 在本发明的上述试剂盒中,通过限定的可变序列中的碱基的类型和数目的不同, 可以产生多种不同的粘性末端;同样本发明的接头Pl也可以设计成与所有酶切片段的粘 性末端相适应的序列或与部分酶切片段的粘性末端相适应。比如,可以设计成捕获率分别 为1/4、1/2或3/4数量的酶切片段,这时所设计的Pl接头上碱基能够与部分酶切片段的粘 性末端相适应,从而捕获相适应部分的酶切片段,而不适应部分的酶切片段不捕获。
[0053] 在本发明的上述试剂盒中,对本发明的酶的识别序列中对构成回文序列的碱基的 数目并无特定要求,只要能够用于对基因组DNA进行酶切,且能达到所需要的与酶切位点 相关的DNA片段的数量即可。在本发明中,优选上述构成回文序列的碱基数是2n,n为3 2 的整数。在本发明的教导下,在实际制备的试剂盒中,根据所要酶切的物种的基因组大小以 及所需要产生的与酶切位点相关的DNA片段的数量要求,合理选择合适数目的构成回文序 列的碱基数目和合适数目的可变序列中的碱基所组成的识别序列的酶。在本发明中,更优 选构成回文序列的碱基数中η为2或3,当η为2个或3个时,符合该要求的可用的酶相对 较多。
[0054] 下面将结合具体的实施例来进一步说明本发明的有益效果。
[0055] 下列实施例按照图1所示的流程进行建库,其中所用的酶,除有特殊标注外,都为 NEB公司提供,引物为Ilumina公司提供。
[0056] 一、基因组DNA酶切
[0057] 1)通过Qubit(荧光定量计,life technologies)对基因组DNA进行定量,确定 来源于水稻的20个样本的浓度分别为50ng/ul、77ng/ul、101ng/ul、120ng/ul、34ng/ul、 97ng/ul、105ng/ul、130ng/ul、110ng/ul、93ng/ul、132ng/ul、140ng/ul、45ng/ul、87ng/ul、 66ng/ul、56ng. ul、68ng/ul、79ng/ul、100ng/ul、140ng/ul ;
[0058] 2)采用DraIII对上述基因组DNA进行酶切,酶切体系如下表I :
[0059] 表 1
[0060]

【权利要求】
1. 一种测序文库的构建方法,其特征在于,所述构建方法包括: 对待测样本的基因组DNA进行酶切,得到具有粘性末端的酶切片段; 在所述酶切片段的两端加Pl接头,得到带Pl接头片段; 对所述带Pl接头片段进行片段化,得到目标大小片段;以及 在所述目标大小片段的两端加P2接头,得到所述测序文库; 其中,所述基因组DNA中包括能被酶识别的识别序列,所述识别序列包括由所述识别 序列两端的碱基构成的回文序列以及位于所述回文序列中间的可变序列,所述可变序列包 括一个或多个碱基,并且所述粘性末端包括所述可变序列中的一个或多个碱基。
2. 根据权利要求1所述的构建方法,其特征在于,所述粘性末端包括所述可变序列中 的至少3个碱基。
3. 根据权利要求1或2所述的构建方法,其特征在于,所述酶为限制性内切酶AlwNI、 DraIII、BglI、BstAPI 或 PflMI。
4. 根据权利要求1所述的构建方法,其特征在于,所述Pl接头与部分或全部所述酶切 片段的粘性末端相适应。
5. 根据权利要求1所述的构建方法,其特征在于,在所述酶的识别序列中,构成所述回 文序列的碱基数是2n,所述n为3 2的整数。
6. 根据权利要求1所述的构建方法,其特征在于, 所述Pl接头中含有P7序列、标签序列和第二测序引物序列,且所述Pl接头的5'端或 3'端含有与所述粘性末端相适应的一个或多个碱基; 所述P2接头中含有P5序列和第一测序引物序列。
7. -种用于测序文库构建的试剂盒,其特征在于,所述试剂盒中包括: 酶,所述酶在基因组DNA中的识别序列包括两端碱基构成的回文序列及位于所述回文 序列中间的可变序列,所述可变序列包括一个或多个碱基;且所述酶酶切所述基因组DNA 后的酶切产物具有粘性末端,所述粘性末端含有所述可变序列中的一个或多个碱基; Pl接头序列,所述Pl接头中含有P7序列、标签序列和第二测序引物序列,且所述Pl接 头的5'端或3'端含有与所述粘性末端相适应的一个或多个碱基;以及 P2接头序列,所述P2接头中含有P5序列和第一测序引物序列。
8. 根据权利要求7所述的试剂盒,其特征在于,所述粘性末端中包括所述可变序列中 的至少3个碱基。
9. 根据权利要求7或8所述的试剂盒,其特征在于,所述酶为限制性内切酶AlwNI、 DraIII、BglI、BstAPI 或 PflMI。
10. 根据权利要求7所述的试剂盒,其特征在于,构成所述回文序列的碱基数是2n,所 述n为兰2的整数。
11. 根据权利要求7所述的试剂盒,其特征在于,所述Pl接头与部分或全部所述酶切产 物的粘性末端相适应。
【文档编号】C40B50/06GK104313699SQ201410606175
【公开日】2015年1月28日 申请日期:2014年10月31日 优先权日:2014年10月31日
【发明者】曹志生, 王大伟, 蒋智, 李明洲, 刘运超, 朱海浩 申请人:天津诺禾致源生物信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1