一种配对双末端文库构建方法及用该文库进行基因组测序的方法

文档序号:394363阅读:1200来源:国知局
专利名称:一种配对双末端文库构建方法及用该文库进行基因组测序的方法
技术领域
发明涉及一种配对双末端文库构建方法及用该文库进行基因组测序的方法。
背景技术
基因文库的建立和使用是70年代早期重组DNA技术的一个发展。人们为了分离基因,特别是分离真核生物的基因,从1974年起相继建立了大肠杆菌、酵母菌、果蝇、鸡、兔、 小鼠、人、大豆等生物以及一些生物的线粒体和叶绿体DNA的基因文库。基因文库的建立使分子遗传学和遗传工程的研究进入了一个新时期。一个生物体的基因组DNA用限制性内切酶部分酶切后,将酶切片段插入到载体 DNA分子中,所有这些插入了基因组DNA片段的载体分子的集合体,将包含这个生物体的整个基因组,也就是构成了这个生物体的基因文库。将这些载体导入到受体细菌或细胞中,这样每个细胞就包含了一个基因组DNA片段与载体重组DNA分子,经过繁殖扩增,许多细胞一起包含了该生物全部基因组序列,我们将这一个集合体叫做基因文库。由于制备DNA片段的切点是随机的,所以每一克隆内所含的DNA片段既可能是一个或几个基因,也可能是一个基因的一部分或除完整基因外还包含着两侧的邻近DNA顺序。一个基因文库中应包含的克隆数目与该生物的基因组的大小和被克隆DNA片段的长度有关。原核生物的基因组较小,需要的克隆数也较少;真核生物的基因组较大,克隆数需相应增加,才能包含所有的基因。此外,载体容纳外源DNA片段的大小即载体容量越大,则所需总克隆数越少;反之则所需数越多。如果一个基因文库的总克隆数较少,则从中筛选基因虽然比较容易,但给以后的分析造成困难,因为片段的长度增加了。如果要使每一克隆中的DNA片段缩短,就须增加克隆数,所以在建立基因文库前应根据研究目的来确定 DNA片段的长度和克隆的数目。随着大规模测序与生物信息学技术的发展和广泛应用,越来越多的物种的基因组数据被人们所利用,而对基因组数据拼接的精确性对人们认识并有效地利用这些信息起着至关重要的作用。制备配对双末端文库(Paired-end library)是一种增加数据拼接精确性的有效方法,通过应用hired-end技术,可以对测序产生的邻接片段(contigs)进行排序, 并决定它们的相对位置。现在不同的测序公司均有推出不同的I^aired-end文库制备方法, 如Roche,Illumina,并且得到广泛应用,但其I^aired-end文库的跨度均在201Λ以内,主要因为现有的制备方法先要将提取到的基因组DNA用Hydrogenaiear打断到一定大小,片段长度越大,回收率越低,造成起始基因组量变大;同时片段长度越大,打断后均一性越差, 对后期的基因组拼接会有影响;再者,在文库制备中间有一步骤需要对片段进行自身环化, 片段越大,环化越难,成功率相对也降低。所以跨度更大的I^aired-end文库制备方法现阶段还未建立,研究这一方面新的方法进行研究探索将对基因组数据的拼接有着重要意义
发明内容
本发明提供一种利用已构建好的基因组DNA文库构建超长跨度的配对双末端文库的方法。本发明的配对双末端文库构建方法,包括以下步骤(a)提取基因组文库中的质粒;(b)使步骤(a)中的质粒片段化至具有预期尺寸的片段;(C)利用甲基转移酶使步骤 (b)得到的片段上特定的限制性内切酶位点甲基化;(d)补平步骤(C)得到的片段的末端, 并在补平的片段两端连接接头,所述接头具有步骤(C)中所述的特定的限制性内切酶位点, 用外切酶消化掉未连上接头的片段;(e)使用所述特定的限制性内切酶消化步骤(d)生成的片段,以产生粘性末端,随后环化,并用外切酶消化掉未环化的线性片段;以及(f)使用复合引物进行扩增环化后的产物,并对产物进行筛选,得到目的片段。本发明的配对双末端文库构建方法,优选地,步骤(b)中的预期尺寸为比基因组文库所用载体大100-1500bp的范围。本发明的配对双末端文库构建方法,优选地,步骤(C)中被甲基化的特定的限制性内切酶位点为EcoR I。本发明的配对双末端文库构建方法,优选地,步骤(d)中的所述接头为茎环结构。优选地,步骤(e)中使用特定的限制性内切酶消化片段之后,还包括PCR纯化以及进行片段大小筛选的步骤,然后再对基因片段进行环化。优选地可以使用PCR纯化磁珠进行片段大小筛选。优选地,本发明的配对双末端文库构建方法中,在步骤(e)的环化过程后还包括用外切酶消化步骤,以去掉未环化的基因片段。优选地,本发明的配对双末端文库构建方法中,步骤(f)中产物的筛选步骤包括先进行第一次PCR,之后用PCR纯化磁珠进行第一次片段大小筛选,再以第一次筛选后得到的片段为模板进行第二次PCR,随后用胶回收的方法进行第二次片段大小筛选,得到目的片段。本发明的配对双末端文库构建方法中,经过筛选得到的目的片段的大小是根据后续使用的测序仪器所允许的合适的片段大小确定,使用不同的测序仪可能需要不同的合适大小的目的片段。如有的测序仪优选300-500bp大小的片段,则就筛选300-500bp大小的目的片段。优选地,本发明的配对双末端文库构建方法中,步骤(f)中扩增所用引物为复合引物,其特征在于,该引物由两部分组成,包括5’端的测序引物以及3’端的与质粒载体末端互补的特异扩增引物。本发明的制备方法中的PCR扩增,所用的引物是同样的,其5’端为测序引物,序列由之后选择的测序仪及试剂决定,3’为与质粒载体末端互补的特异扩增引物,一般商业化的质粒载体会提供相应的扩增或测序引物,可以直接应用。引物结合的位置位于基因组文库中所用的质粒载体的线性化后的两端,啦邻插入片段的两端,这样扩增出来的产物主要为基因组插入片段的双末端,只有极小部分为质粒载体序列,可后期通过生物信息学方法去除。本发明的制备方法中使用的茎环结构的接头Hairpin Adaptor是商业化的产品, 其上的酶切位点的种类决定了步骤(c)中的被甲基化酶甲基化的酶切位点的种类。如在一个优选实施例中,Hairpin Adaptor带有EcoRl酶切位点,那么步骤(c)中则将片段中的EcoRl酶切位点甲基化,以保护片段中的该特定的酶切位点,以利于后期的制备过程的进行。若该茎环结构上带有的酶切位点为其他的种类的酶切位点,则相应地使用与之对应的甲基化酶甲基化基因片段上的该酶切位点。本发明还提供一种利用上述的配对双末端文库进行基因组文库配对双末端高通量测序的方法。包括以下步骤(i)按权利要求1的方法构建所述基因组文库的配对双末端文库;以及(ii)对配对双末端文库进行高通量测序。本发明构建的配对双末端文库是利用已制备好的基因组文库来构建的,巧妙地利用目标基因组文库的载体大小,将基因组质粒打断成比文库中载体本身大小大100-1500bp 的片段长度,再利用后续的筛选步骤,筛选出载体两端都含有一段插入基因的片段,构建配对双末端文库,这样载体两端的插入基因片段之间的跨度大小取决于基因组文库本身插入片段的大小,而非HydroShear打断的大小。不同的基因组文库已带有不同长度的基因组DNA片段,如cosmid文库的插入片段大小约为30-501Λ,PAC文库的插入大小 130-1501Λ,细菌人工染色体(BAC)文库中插入片段大小为100-3001Λ,对于不同的基因组文库,利用本发明的配对双末端文库的制备方法只需将片段打断到比基因组文库质粒载体稍大100-1500bp的片段便可得到插入的基因组片段双末端,而这些质粒载体大小通常为 7-15kb不等,由此避免了现有技术中存在的片段长度大、回收率低、环化困难的问题,所以用该方法构建超长跨度的配对双末端文库非常合适。利用本发明的配对双末端文库的制备方法,可以对不同跨度大小的基因组文库,以一种通用性的、简单的方法构建出其相应的配对双末端文库,从而进行高通量测序,减少传统基因组文库配对双末端测序的工作量及费用,提高效率,同时,可大大提高基因组数据拼接的精确性。


图1为本发明的配对双末端文库构建方法的流程图2为本发明的一个优选实施例中,配对双末端文库构建方法的流程图; 图3为实施例二的Agilent DNA 7500 Chip电泳图谱; 图4为实施例三的Agilent DNA 7500 Chip电泳图谱。
具体实施例方式下面将结合具体实施例详细介绍本发明的配对双末端文库构建方法及用该文库进行基因组测序的方法。如图1所示,本发明的配对双末端文库构建方法包括(a)提取基因组文库中的质粒;(b)使步骤(a)中的质粒片段化至具有预期尺寸的片段;(c)利用甲基转移酶使步骤 (b)得到的片段上特定的限制性内切酶位点甲基化;(d)补平步骤(c)得到的片段的末端, 并在补平的片段两端连接接头,所述接头具有步骤(c)中所述的特定的限制性内切酶位点, 用外切酶消化掉未连上接头的片段;(e)使用所述特定的限制性内切酶消化步骤(d)生成的片段,以产生粘性末端,随后环化,并用外切酶消化掉未环化的线性片段;以及(f)使用复合引物进行扩增环化后的产物,并对产物进行筛选,得到目的片段。利用上述建设的配对双末端文库进行高通量基因组测序。实施例一如图2所示,为在本发明的另一个实施例中,配对双末端文库构建的流程图,具体过程

(1)质粒DNA提取提取大片段质粒DNA;
(2)质粒片段化取不少于20ug步骤(1)中的质粒,用仪器对样品进行剪切,通过切胶回收的方法得到比基因组文库所用载体大100-1500bp的片段;
(3)EcoR I酶切位点甲基化在EcoR I甲基化酶的作用下,将片段上的EcoR I酶切位点进行甲基化保护;
(4)片段末端补平在T4DNA聚合酶及T4多聚核苷酸激酶的作用下将片段末端补平; 连接Hairpin Adaptor 在连接酶的作用下,在甲基化的片段两端加上Hairpin Adaptor接头,该接头为茎环结构,在靠近其环状结构的一端含有EcoR I酶切位点,用外切酶消化未加上接头的片段;
(5)EcoR I酶切消化及PicoGreen荧光定量用高浓度的EcoR I限制性内切酶对加了 Hairpin Adaptor后的片段进行消化;对消化后的片段进行PCR纯化,用PicoGreen荧光定量,总量应大于30ng;
(6)DNA自身环化取30ng EcoR I限制性内切酶消化并纯化后片段,用连接酶进行环化反应,用外切酶消化掉为环化的片段;
(7)hired-end扩增及大小选择取纯化后环化产物的一半为模板,用特定的复合引物对样品进行PCR扩增,此次扩增循环数为15-20cycles ;反应结束后用PCR纯化磁珠 (Ampure Beads)对样品进行大小选择,去掉小于300bp及大于700bp的片段;纯化后样品进行第二次PCR扩增,此次扩增循环数为10-15cycles,反应结束后跑8%PAGE胶回收 300-500bp 片段。(8)文库质量评估与定量用Agilent DNA 7500 Chip (芯片)对文库大小进行鉴定;用PicoGreen荧光定量试剂盒对文库进行定量。(9)基因组测序。上述方法中,所用引物均有两部分组成,其5’为测序引物ft~imer Α/Β, 3’端为基因组文库质粒载体上的特异引物。用此引物可以将含插入片段双末端的序列特异的扩增出来,并且可以直接用于高通量测序。实施例二
平均插入片段长度 801Λ的白氏文昌鱼单鱼细菌人工染色体(Bacterial Artificial Chromosome, BAC)文库配对双末端(Paired-End)高通量测序。1)白氏文昌鱼单鱼BAC库本实验中所采用的BAC库为中国白氏文昌鱼单鱼BAC 库,该库的载体为 CopyControl pCClBAC Vector (Epicentre),全长 8U8bp。该文库由 44,706个克隆组成,插入片段的平均长度约801Λ。2)试剂及仪器DNA 片段化采用 Digilab Genomic Solutions 公司的 HydroShear 基因组DNA剪切仪。实验中所用SAM,EcoR I甲基化酶,λ -外切酶,T7外切酶,核酸外切酶I均购自NEB;牛血清蛋白(BSA),ATP,PCR核酸混合物,Τ4 DNA聚合酶,Τ4聚核苷酸激酶(PNK),茎环结构接头(Hairpin Adaptor),快速连接酶,EcoRI (高浓度), GC-RICH PCR 体系,GS FLX Titanium Amplicon emPCR 试剂盒购自 Roche; Advantage 2 聚合酶购自 BD ;DNA 7500 LabChip 购自 Agilent ;AMPure 磁珠(AMPure Beads)购自Agencourt (Beckman);质粒中提试剂盒,MinElute PCR纯化试剂盒,Qiaquick PCR纯化试剂盒购自Qiagen ;D-(+)_海藻糖购自Sigma ;Quant-iT PicoGreen dsDNA分析试剂盒及扩增引物均购自invitrogen。3)实验方法
(1)摇菌及质粒提取BAC库中的所有克隆均培养于含LB Cl (12.5ng/ml)培养基的 96孔板中,37° C摇菌过夜,混合到一起提质粒。(2) DNA片段化及大小选择取40ug质粒用HydroShear进行片段化,速率15, 循环数15.片段后跑胶回收,切取8-101Λ的条带进行纯化,溶于50ul洗脱缓冲液(IOmM Tris-Cl ρΗ8·5)。(3) EcoR I酶切位点甲基化 甲基化反应体系如下表一
表一、甲基化体系
权利要求
1.一种配对双末端文库构建方法,其特征在于,包括以下步骤(a)提取基因组文库中的质粒;(b)使步骤(a)中的质粒片段化至具有预期尺寸的片段;(c)利用甲基转移酶使步骤(b)得到的片段上特定的限制性内切酶位点甲基化;(d)补平步骤(c)得到的片段的末端,并在补平的片段两端连接接头,所述接头具有步骤(c)中所述的特定的限制性内切酶位点,用外切酶消化掉未连上接头的片段;(e)使用所述特定的限制性内切酶消化步骤(d)生成的片段,以产生粘性末端,随后环化,并用外切酶消化掉未环化的线性片段;(f)使用复合引物扩增环化后的产物,并对产物进行筛选,得到目的片段。
2.如权利要求1所述的配对双末端文库构建方法,其特征在于,步骤(b)中的预期尺寸为比基因组文库所用载体大100_1500bp。
3.如权利要求1所述的配对双末端文库构建方法,其特征在于,步骤(c)中被甲基化的特定的限制性内切酶位点为EcoR I。
4.如权利要求1所述的配对双末端文库构建方法,其特征在于,步骤(d)中的所述接头为茎环结构。
5.如权利要求4所述的配对双末端文库构建方法,其特征在于,步骤(e)中使用特定的限制性内切酶消化片段之后,还包括PCR纯化以及进行片段大小筛选的步骤,然后再对基因片段进行环化。
6.如权利要求1所述的配对双末端文库构建方法,其特征在于,步骤(f)中扩增所用的复合引物,该引物由两部分组成,包括5’端的测序引物以及3’端的与质粒载体末端互补的特异扩增引物。
7.如权利要求1所述的配对双末端文库构建方法,其特征在于,步骤(f)中产物的筛选步骤包括先进行第一次PCR,之后用PCR纯化磁珠进行第一次片段大小筛选,再以第一次筛选后得到的片段为模板进行第二次PCR,随后用胶回收的方法进行第二次片段大小筛选, 得到目的片段。
8.一种基因组文库配对双末端高通量测序方法,其特征在于,包括以下步骤(i)按权利要求1的方法构建所述基因组文库的配对双末端文库;以及( )对配对双末端文库进行高通量测序。
全文摘要
本发明涉及一种配对双末端文库构建方法及用该文库进行基因组测序的方法。本发明的配对双末端文库的构建是利用已经构建好的基因组DNA文库,首先对文库中的克隆进行质粒提取,将提取的质粒DNA片段化,对片段化的DNA上限制性内切酶位点进行甲基化保护,接着加发夹型接头、酶切、环化,得到环状的DNA,然后通过一对复合引物将环化DNA中含基因组文库配对双末端的片段扩增出来,得到超长跨度的配对双末端序列,最后进行高通量测序。利用该方法得到的配对双末端序列可应用于新物种基因组序列的拼接,从而进一步提高拼接的质量。
文档编号C12N15/10GK102181943SQ20111004964
公开日2011年9月14日 申请日期2011年3月2日 优先权日2011年3月2日
发明者付永贵, 周思思, 徐安龙 申请人:中山大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1