Dna标签及其在构建和测序配对末端标签文库中的应用的制作方法

文档序号:3345118阅读:350来源:国知局
专利名称:Dna标签及其在构建和测序配对末端标签文库中的应用的制作方法
技术领域
本发明涉及第ニ代高通量测序,特别是对配对末端文库进行混合测序的领域。更具体地,本发明涉及DNA标签及其在构建和测序配对末端标签文库中的应用。
背景技术
配对末端文库(mate-paired library)测序是指通过构建大片段文库,获得较大跨度(2-10kb)片段两端的序列。这种从较大跨度两端所获得的序列对大基因组或者复杂基因组的组装和基因组结构变异的发掘具有非常重要的作用,特别适合于新基因组测序(De novo sequencing)项目。目前,ABI SOLiD测序平台提供的配对末端文库制备方法(Applied Biosystems SOLiD 4 System Library Preparation Guide P/N 4445673)如图I所示,其包括步骤(1)片段化大核酸分子,产生目标核酸;(2)对片段化的目标核酸进行纯化和精修(End-Polishing) ; (3)将帽接头(Cap Adaptor)连接至片段化的目标 核酸的两个末端,以形成连接物标记的目标核酸;(4)通过生物素化的中间接头(InternalAdaptor)将上述连接有帽接头的核酸片段环化连接,形成带有生物素标记的环形分子产物;(5)在目标核酸区片段化所述环形核酸分子,产生含目标核酸的两个末端区的DNA构建体;(6)通过生物素-链霉亲和素亲和作用,使用链霉亲和素磁珠富集目标核酸片段;(7)对富集的目标核酸片段进行精修,并用接头Pl和接头P2进行平末端连接,然后进行PCR扩增以形成配对末端文库。接着,对配对末端文库的测序包括使用乳液PCR(emPCR)法将文库模版扩增到I μ m的磁珠上,在单个磁珠上形成包含4-6万条分子模板的单克隆分子簇;对模板磁珠进行修饰,然后将其涂布在测序芯片上进行测序;其中第一个配对末端区(TAGl)利用和Pl接头特异配对的ー组测序引物进行测序,第二个配对末端区(TAG2)利用与中间接头和帽接头特异配对的ー组测序引物进行测序。图2显示的是SOLiD测序平台对 2 X 50 配对末端文库的测序流程(Applied Biosystems SOL iD 4 System LibraryPreparation Guide P/N 4445673)。DNA标签文库测序可最大化测序容量,减少样品制备流程,实现对多个DNA样品的混合测序。目前,在SOLiD系统中,在单分区芯片上对多个样品进行混合测序利用的是Barcode 技术(SOLiD System Barcoding)。图 3 为将 SOLiD Barcodes 整合到片段文库或配对末端文库的流程图。特别地,对于配对末端文库而言,文库构建的前期流程与图I相同,但在进行Pl和P2接头连接步骤时,对P2接头进行修饰,即,添加SOLiD-Barcode序列以用于区分和识别样品,从而实现多个DNA样品的混合测序。具体地,在P2接头的连接位置附近添加一段由5-10个特异碱基组成的Barcode序列,从而在文库制备过程中,随着P2接头的连接,Barcode序列相应地被引入到待测序列的3'端;不同的样品对应不同的Barcode序列,从而对未知DNA序列和已知的Barcode序列的测序,使得能够利用不同的Barcode序列来区分不同样品的数据(參见图3右侧)。目前,SOLiD Barcode s技术只在随机片段文库的混合测序中得到应用(SOLiD 4 System Library Preparation QuicK Reference Card P/N 4445674B, MultiplexSequencing on the SOLiD Platform withlO, 16, or 96 Barcodes),其中,通过 2 次独立的测序反应,分别测定目标序列(TAGl)和Barcode序列(參见图3左侧)。在理论上,也可将SOLiD Barcode技术应用于多个配对末端文库的混合测序,其中必须分别对两段目标序列(TAG1和TAG2)及Barcode进行3次独立的测序反应(參见图3右侧)。然而,一方面,3次独立的测序反应导致测序成本大大提高;另ー方面,在现有的SOLiD测序技术中,用于測定Barcode的引物序列和用于测定配对末端的TAG2区的引物序列是完全一致的,因此,不可能在同一个测序流程中既测定TAG2,又測定Barcode序列(相同的测序引物导致无法区分测序結果)。因此,到目前为止,SOLiD Barcoding技术还没有正式应用于多个配对末端文库的混合测序。相反地,目前通常将不同的配对末端文库样品的模板磁珠分别涂布在测序芯片的不同分区内,然后再进行测序,最后通过不同的分区来区分文库样品。然而,测序芯片的分区将占用芯片空间,減少单个芯片的利用率,从而导致数据产出量降低。表I显示不同规格的分区芯片的单芯片磁珠涂布总量和预期数据产出量的対比。此外,现有的SOLiD测序仪 第四版测序芯片最多可以分为8个区,S卩,每张测序芯片最多可以对8个配对末端文库样品进行测序,这远远不能满足测序通量日益增长的需要。表I :不同规格的分区芯片的单芯片磁珠涂布总量和预期数据产出量的对比
芯片类型全芯片4分区芯片8分区芯片
项目-^---
可涂布磁珠数(M)708512448
数据产出(Gb)70. 851.244. 8因此,迫切需要对现有的配对末端文库的构建及测序方法进行改迸,以提供更高效,且成本更低的配对末端文库混合测序方法。

发明内容
在本发明中,除非另有说明,否则本文中使用的科学和技术术语具有本领域技术人员所通常理解的含义。同吋,为了更好地理解本发明,下面提供相关术语的定义和解释。术语“标签(index) ”和“DNA标签(DNA index) ”在本文中可互換使用,其是指具有特定碱基序列的一段双链寡核苷酸。在本发明中,DNA标签为长度5bp的双链寡核苷酸,并且其一条链的序列选自SEQ ID NO :1_24。特别地,在本说明书中,当用序列标志符(SEQIDNO )表示标签时,其表示标签的一条链的序列为该序列标志符所示的序列。例如,当用SEQID NO :I描述标签时,其表示标签的一条链的序列为SEQ ID NO :I。另外,在本说明书中,所有DNA序列以5'至3'的方向给出。如本文中使用的,“标签帽接头(indexed-cap adaptor) ”是指带有标签的帽接头。如本文中使用的,“配对末端标签文库(mate-paired indexed library)”是指使用标签帽接头构建的配对末端文库。由于配对末端标签文库所使用的标签帽接头含有特异于样品的标签,因此,配对末端标签文库中的分子可以通过标签序列与样品一一对应。本发明基于目前ABI SOLiD测序平台提供的配对末端文库制备方法,提供了一组DNA标签(DNA index)及利用其构建和测序配对末端标签文库的方法,从而克服了 ABISOLiD测序平台利用Barcode技术对多个配对末端文库进行混合测序需要3次独立的测序反应并且还未能得到实际应用的缺陷。将DNA标签用于构建并测序配对末端文库时,为了保证测序仪流程运行正常,使信息分析流程足够简便,其序列必须满足如下原则①用于混合测序的各样品的标签序列等长;②进行混合测序的标签序列组合在同一 SOLiD测序循环中应保证4种荧光染料信号都可以被读出;③进行混合测序的标签序列两两之间应至少具有两个碱基的差异,以确保一个碱基的错读不至于混淆样品来源;④标签序列的最后一位必须为G。因此,在本发明的ー个方面,提供了ー组DNA标签,所述标签为长度5bp的寡核苷酸,并且其序列选自SEQ ID NO 1-24 (參见表2)。在本发明的一个优选实施方案中,任意两个所述标签的序列之间至少具有2个碱
基差异。
在本发明的一个优选实施方案中,一组标签包含选自SEQ ID NO :1-24的至少2种,优选地至少4种、或至少6种、或至少8种、或至少10种、或至少12种、或至少16种、或至少20种或24种标签;更优选地,ー组标签至少包括SEQ ID NO 1和2,或SEQ ID NO 3和 4,或 SEQ IDNO :5 和 6,或 SEQ ID NO :7 和 8,或 SEQ ID NO 9 和 10,或 SEQ ID NO : 11 和12,或 SEQ ID NO :13 和 14,或 SEQ ID NO :15 和 16,或 SEQ ID NO :17 和 18,或 SEQ ID NO 19和20,或SEQ ID NO :21和22,或SEQ ID NO :23和24所示的标签,或者其任何两个或者多个的组合。在一个优选实施方案中,本发明的标签用于标记帽接头,所述帽接头的两条链的序列分别为 SEQ ID NO 25 和 SEQ ID NO :26。在本发明的另ー个方面,提供了本发明的DNA标签的用途,其可用于制备标签帽接头和/或用于构建和测序配对末端标签文库。优选地,本发明的标签用于标记其两条链的序列分别为SEQ ID NO 25和SEQ ID NO 26的帽接头,从而制备本发明的标签帽接头。本发明的DNA标签还可以用于制备试剂盒,所述试剂盒用于制备标签帽接头和/或用于构建和测序配对末端标签文库。在本发明的另ー个方面,提供了一种标签帽接头,其具有下式的结构5' -ACAGCAG(N)55' -phos-ACAGCAG(N)55' -phos-(N/ )5CTGCTGTAC 或 5' -phos-(N/ )5CTGCTGTAC其中,(N)5表示选自SEQ ID NO 1-24的标签序列,(N' )5表示所述标签序列的互补序列。可用于构建配对末端文库的帽接头有两种,其分别为EcoP15I帽接头和LMP帽接头,其中EcoP15I帽接头的两条链的5'端都被磷酸化,而LMP帽接头只有一条链的5'端被磷酸化。在本发明的另ー个方面,提供了本发明的标签帽接头的用途,其可以用于构建和测序配对末端标签文库。本发明的标签帽接头还可以用于制备试剂盒,所述试剂盒用于构建和测序配对末端标签文库。在本发明的另ー个方面,提供了ー种试剂盒,其包含本发明的一组标签,或本发明的标签帽接头。在本发明的一个优选实施方案中,本发明的试剂盒还包含其他试剂,例如,其两条链的序列分别为SEQ IDNO 25和SEQ ID NO 26的帽接头。
在本发明的另ー个方面,提供了本发明的试剂盒的用途,其可以用于构建和测序配对末端标签文库。在本发明的另ー个方面,提供了一种构建和测序DNA样品的配对末端标签文库的方法,其包括以下步骤I)片段化样品DNA,其中,优选地,片段化后的DNA片段长度为1000_4000bp ;优选地,片段化方法选自雾化法,超声法和Hydroshear法;2)通过下列步骤构建DNA样品的配对末端标签文库a.使用本发明的标签制备标签帽接头并将所得的标签帽接头连接至片段化后的DNA片段的两个末端,或者将本发明的标签帽接头连接至片段化后的DNA片段的两个末端,从而形成带有标签帽接头的DNA片段,其中,每ー种DNA样品使用一种标签帽接头; b.利用生物素化的中间接头环化连接带有标签帽接头的DNA片段;任选地,对环化连接产物进行片段大小的选择,优选的选择方法选自脉冲凝胶电泳、蔗糖或氯化铯梯度沉降和分子排阻层祈;优选地,所述中间接头的两条链的序列分别为SEQ ID N0:27和SEQID NO 28 ;c.断裂所得的环化连接产物,优选地,使用超声断裂法和酶切法,例如限制性内切酶法和缺刻平移-外切酶法;d.使用链霉亲和素磁珠富集步骤c)所得的DNA片段,并将Pl接头和P2接头分别连接到富集所得的DNA片段的5'端和3'端;e.根据Pl接头和P2接头的序列设计引物,并扩增步骤d)所得的DNA片段,形成配对末端标签文库文库;3)任选地,将使用不同标签帽接头的样品的配对末端标签文库等摩尔量混合,从而获得混合的配对末端标签文库;4)使用乳液PCR法将步骤2)的配对末端标签文库或步骤3)的混合的配对末端标签文库扩增到Pi磁珠上,所述磁珠上固定有Pi接头引物;5)利用高通量测序技术例如用ABI SOLiD测序平台对步骤4)的产物进行测序,其中一个配对末端区(TAGl)利用和Pl接头特异配对的ー组测序引物进行测序,另ー个配对末端区(TAG2)利用和由中间接头及部分标签帽接头组成的序列特异配对的ー组测序引物进行测序,从而获得片段化后的DNA片段的两个末端的序列;6)对步骤5)获得的测序数据进行处理,其中,利用标签序列将不同的测序读段对应到不同的DNA样品,然后通过序列重叠和连锁关系,从来自同一样品的DNA片段的两个末端的序列拼接出样品的完整DNA序列。 在本发明的一个优选实施方案中,所述DNA样品是原核生物或真核生物DNA样品。在本发明的一个优选实施方案中,使用酶切法断裂所得的环化连接产物。优选地,所述酶切法包括限制性内切酶法和缺刻平移-外切酶法;其中限制性内切酶法利用的是III型限制性内切酶,例如ECOP15I。在本发明的一个优选实施方案中,由中间接头及部分标签帽接头组成的中间测序接头的两条链分别为5' -CTGCTGTACCGTACATCCGCCTTGGCCGTACAGCAG-3' (SEQ ID NO :29),5' -CTGCTGTACGGCCAAGGCGGATGTACGGTACAGCAG-3' (SEQ ID NO :30)。
在本发明的一个优选实施方案中,在将不同的测序读段对应到不同的DNA样品后,剔除测序读段中的标签序列。本发明的另一方面提供了一种配对末端标签文库,其使用本发明提供的方法制得。利用本发明的DNA标签对文库样品进行测序,只需2次独立的测序反应,即可实现在一个芯片分区上对多个配对末端文库进行混合测序。特別地,对于50+50bp的配对末端测序类型来说,测序后得到的结果是第二个配对末端(TAG2)的前5个碱基序列为标签序列,其用于确定序列的样品来源;TAG2的剩余序列及第一个配对末端(TAGl)的全部序列则来自样品,可用于进一歩的信息分析。对短片段测序技术的深入研究表明,25_30bp的读长可满足重测序研究中的生物信息学分析要求;当读长达到IOObp或以上时,即可进行基因组的从头组装和测序工作(Whiteford N,Haslam N,Weber G,et al. An analysis of the feasibility of shortread sequencing. Nucleic Acids Res,2005,33 :el71)。因此,将 TAG2 的前 5 个减基序列 用作标签序列以标记样品来源,不会妨碍进ー步的信息分析。表2 DNA标签序列
权利要求
1.一组标签,其包含选自SEQ ID NO :1-24的至少2种,优选地至少4种、或至少6种、或至少8种、或至少10种、或至少12种、或至少16种、或至少20种或24种标签;更优选地,其包括至少 SEQ ID NO :1 和 2,或 SEQ ID NO :3 和 4,或 SEQ ID NO :5 和 6,或 SEQ ID NO 7和 8,或 SEQ ID NO :9 和 10,或 SEQ ID NO 11 和 12,或 SEQ ID NO :13 和 14,或 SEQ ID NO 15 和 16,或 SEQ ID NO : 17 和 18,或 SEQ ID NO : 19 和 20,或 SEQ ID NO :21 和 22,或 SEQ IDNO :23和24所示的标签,或者其任何两个或者多个的组合;优选地,所述标签用于标记帽接头,所述帽接头的两条链的序列分别为SEQ ID NO:25和SEQ ID NO :26。
2.权利要求I的一组标签的用途,其用于制备标签帽接头和/或用于构建和测序配对末立而标签文库。
3.权利要求I的一组标签在制备试剂盒中的用途,所述试剂盒用于制备标签帽接头和/或用于构建和测序配对末端标签文库。
4.一种标签帽接头,其具有下式的结构5' -ACAGCAG(N) 55' -phos-(N' ) gCTGCTGTAC,或5' -Phos-ACAGCAG(N)55' -phos-(N' )5CTGCTGTAC, 其中,(N)5表示选自SEQ ID NO 1-24的标签序列,(N' ) 5表示所述标签序列的互补序列。
5.权利要求4的标签帽接头的用途,其用于构建和测序配对末端标签文库或者制备试剂盒,所述试剂盒用于构建和测序配对末端标签文库。
6.ー种试剂盒,其包含权利要求I的一组标签,或权利要求5的标签帽接头,优选其还包含其他试剂,例如,其两条链的序列分别为SEQ ID NO 25和SEQ ID NO 26的帽接头。
7.权利要求6的试剂盒用于构建和测序配对末端标签文库的用途。
8.构建和测序DNA样品的配对末端标签文库的方法,其包括以下步骤 1)片段化样品DNA,其中,优选片段化后的DNA片段为1000-4000bp;优选片段化方法选自雾化法,超声法和Hydroshear法; 2)通过下列步骤构建DNA样品的配对末端标签文库 a.使用权利要求I的标签制备标签帽接头并将所得的标签帽接头连接至片段化后的DNA片段的两个末端,或者将权利要求4的标签帽接头连接至片段化后的DNA片段的两个末端,从而形成带有标签帽接头的DNA片段,其中,每ー种DNA样品使用一种标签帽接头; b.利用生物素化的中间接头环化连接带有标签帽接头的DNA片段;任选地,对环化连接产物进行片段大小的选择,优选选择方法选自脉冲凝胶电泳、蔗糖或氯化铯梯度沉降和分子排阻层析;优选地,所述中间接头的两条链的序列分别为SEQ ID N0:27和SEQ ID NO.28 ; c.断裂所得的环化连接产物,优选使用超声断裂法和酶切法,例如限制性内切酶法和缺刻平移_外切酶法; d.使用链霉亲和素磁珠富集步骤C)所得的DNA片段,并将Pl接头和P2接头分别连接到富集所得的DNA片段的5'端和3'端; e.根据Pl接头和P2接头的序列设计引物,并扩增步骤d)所得的DNA片段,形成配对末端标签文库文库; 3)任选地,将使用不同标签帽接头的样品的配对末端标签文库等摩尔量混合,从而获得混合的配对末端标签文库; 4)使用乳液PCR法将步骤2)的配对末端标签文库或步骤3)的混合的配对末端标签文库扩增到Pl磁珠上,所述磁珠上固定有Pl接头引物; 5)利用高通量测序技术例如用ABISOLiD测序平台对步骤4)的产物进行测序,其中一个配对末端区(TAGl)利用和Pl接头特异配对的ー组测序引物进行测序,另ー个配对末端区(TAG2)利用和由中间接头及部分标签帽接头组成的序列特异配对的ー组测序引物进行测序,从而获得片段化后的DNA片段的两个末端的序列; 6)对步骤5)获得的测序数据进行处理,其中,利用标签序列将不同的测序读段对应到不同的DNA样品,然后通过序列重叠和连锁关系,从来自同一样品的DNA片段的两个末端的序列拼接出样品的完整DNA序列; 其中,所述DNA样品优选是原核生物或真核生物DNA样品。
9.一种配对末端标签文库,其根据权利要求8所述的方法制得。
全文摘要
本发明提供了一组DNA标签及其在构建和测序配对末端标签文库中的应用,所述DNA标签具有选自SEQ ID NO1-24的序列。本发明还提供了构建和测序配对末端标签文库的方法,其只需通过2次独立测序反应,即可实现在单个测序芯片分区中对多个配对末端文库进行混合测序,从而加速了高通量测序,降低了时间和试剂花费,降低了单位数据产出的成本。
文档编号C40B50/06GK102690809SQ20111007117
公开日2012年9月26日 申请日期2011年3月24日 优先权日2011年3月24日
发明者程磊 申请人:深圳华大基因研究院, 深圳华大基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1