使用受控的链置换的DNA序列测定的制作方法

文档序号:11331793阅读:273来源:国知局
使用受控的链置换的DNA 序列测定的制造方法与工艺
相关申请的交叉引用本申请要求美国临时申请no.62/117,391(2015年2月17日提交)和no.62/194,741(2015年7月20日提交)的优先权。上述每个临时申请的全部内容通过引用并入本文。本发明涉及dna测序、基因组学和分子生物学领域。
背景技术
:对于低成本、高吞吐量的用于核酸测序和重测序的方法的需求导致了开发“大规模并行测序”(mps)技术。这种测序方法的改进在科学、医学和农业方面具有重要价值。技术实现要素:本发明涉及核酸测序(例如,基因组dna测序)。在一个方面,提供了单链dna(例如dna多联体(例如dna纳米球或dnb))的双端测序的方法。通常,被测序的dna包括靶序列和至少一个衔接子序列。本发明提供了一种制备与固定在基底(substrate)上的模板dna多核苷酸互补的dna链的方法,所述模板dna包含插入第一衔接子3'到第一靶dna序列之间的第一靶dna序列。该方法包括将第一引物与第一衔接子中的第一引物结合序列杂交;使用第一dna聚合酶延伸第一引物以产生第二链,第二链包含与第一靶dna序列互补的序列和与第二衔接子的至少一部分互补的序列;将第二引物与第二引物结合序列杂交;以及使用具有链置换活性的dna聚合酶延伸第二引物以产生第三链。所述第三链部分置换所述第二链并产生部分杂交的第二链,包括:1)与模板dna多核苷酸杂交的杂交部分;和2)未杂交悬伸部分,其含有与所述第一靶dna序列互补的序列和与所述第二衔接子的至少一部分互补的序列。在一些实施方案中,dna模板多核苷酸包含额外的衔接子,即第三衔接子,其是3'到第一衔接子;以及插入在第一衔接子和第三衔接子之间的另外的靶dna序列,即第二靶dna序列。在一个实施方案中,模板dna多核苷酸包含第三衔接子,并且第二引物结合序列在第三衔接子中。在另一个实施方案中,第二引物结合序列在第一衔接子中,相同的衔接子也包含第一引物。在一个实施方案中,用于产生第二链的第一dna聚合酶和用于产生第三链的具有链置换活性的dna聚合酶是相同的聚合酶。在一个实施方案中,第一引物和第二引物与其各自的引物结合序列杂交或在相同的反应中延伸。在一个实施方案中,所述方法还包括将测序寡核苷酸与与第二衔接子的至少一部分互补的序列杂交,以及确定与第一靶dna序列互补的序列的至少一部分的核苷酸序列。在一个实施方案中,第一衔接子、第二衔接子和第三衔接子(如果存在的话)具有相同的核苷酸序列。在一个实施方案中,模板dna多核苷酸包含dna多联体,并且第一靶dna序列和第二靶dna序列具有相同的核苷酸序列。在一个实施方案中,模板dna多核苷酸包含dna多联体,并且第一引物和第二引物具有相同的核苷酸序列。在一个实施方案中,通过将包含可延伸和不可延伸引物的多个第二引物与多个第二引物结合序列杂交来产生多个第三链。在一个实施方案中,第二引物延伸以产生第三链是以5分钟、10分钟、20分钟、30分钟、40分钟或60分钟的固定时间间隔终止。在一个实施方案中,通过化学终止,即通过添加化学品来实现终止。在一个实施方案中,用于终止反应的化学品是含有1.5mnacl的tris缓冲液。在另一个实施方案中,通过掺入链终止核苷酸类似物(例如ddntp)来实现终止。在一些实施方案中,在加入化学终止剂后加入ddntp。在一个实施方案中,通过选择温度、酶浓度和引物浓度来控制延伸第二引物的反应,使得可以避免第二链的互补物置换。附图说明图1示出了在用于产生用于测序的dna链的方法中使用的步骤。图2示出了在用于产生用于测序的dna链的相关方法中使用的步骤。图3示出了在确定来自dna链的序列中使用的步骤。图4示出了使用延伸引物以使用dna聚合酶的链置换活性在dnb上产生互补链(一系列后续片段)的示例性方法。图5显示用于产生和测序与dnb互补的dna链的示例性衔接子和引物序列。图6是用于产生与固定的衔接子的dna互补的dna链的示例性方法的图示。具体实施方式1.概述在某些第一方面,本发明提供了制备用于测序的dna链的方法,以及使用根据这些方法制备的dna链的遗传构建体、文库和阵列。在某些第二方面,本发明提供了使用根据第一方面制备的dna链、遗传构建体、文库和阵列进行测序的方法。制备用于测序的dna链在一种方法中,用于测序的dna链通过以下步骤产生:a)提供模板dna多核苷酸,模板dna多核苷酸包含插入在第一衔接子3'到第一靶dna序列和第二衔接子5'到第一靶dna序列之间的第一靶dna序列,并且任选地包含第三衔接子3'到第一衔接子和插入在第一衔接子和第三衔接子之间的第二靶dna序列,其中模板dna多核苷酸被固定在基底上,b)将第一引物与固定的模板dna多核苷酸组合,并将第一引物与第一衔接子中的第一引物结合序列杂交,其中当第一引物与固定模板dna多核苷酸组合时,第一引物不固定在基底上;c)使用第一dna聚合酶延伸第一引物以产生第二链,其中第二链包含与第一靶dna序列互补的序列和与第二衔接子的至少一部分互补的序列;d)将第二引物与固定的模板dna多核苷酸组合,将第二引物与第二引物结合序列杂交,其中第二引物结合序列是3'到第一引物结合序列,其中当第二引物与固定的模板dna多核苷酸组合时,第二引物不固定在基底上;e)使用具有链置换活性的dna聚合酶延伸第二引物以产生第三链,其中使第二引物延伸以产生第三链,部分地置换第二链,从而产生部分杂交的第二链,其具有:(i)与模板dna多核苷酸杂交的杂交部分,和(ii)未杂交悬伸部分,其含有与第一靶dna序列互补的序列和与第二衔接子的至少一部分互补的序列,其中未杂交部分是在第二链中的3'到杂交部分。图1示出了上述步骤(a)-(e)。面板1.1(panel1.1)示出了模板dna多核苷酸,其包含插入在第一衔接子3'到第一靶dna序列和第二衔接子5'到第一靶dna序列之间的第一靶dna序列。面板1.2显示了与第一衔接子中的第一引物结合序列①杂交的第一引物。面板1.3显示使用第一dna聚合酶延伸第一引物以产生第二链,其中第二链包含(i)与第一靶dna序列互补的序列②和(ii)与第二衔接子的至少一部分互补的序列③。面板1.4显示了将第二引物与第二引物结合序列④杂交,其中第二引物结合序列是3'到第一引物结合序列。在图1所示的实施例中,第二引物结合序列包含在第一衔接子3'(到第一引物结合序列)中。(与图2相比,面板2.4,其中第二引物结合序列在第三衔接子中。)面板1.5显示了使用具有链置换活性的dna聚合酶延伸第二引物以产生第三链。如面板1.5所示。第三链的延伸部分地置换第二链。这种部分置换导致与模板dna多核苷酸(或“第一链”)部分杂交的第二链。部分杂交的第二链具有与模板dna多核苷酸杂交的杂交部分⑤和未杂交悬伸部分⑥,未杂交悬伸部分⑥含有与第一靶dna序列互补的序列②和与第二衔接子的至少一部分互补的序列⑦。图2示出了说明上述步骤(a)-(e)的第二方案。面板2.1显示了模板dna多核苷酸,其包含(i)插入在第一衔接子3'到第一靶dna序列和第二衔接子5'到第一靶dna序列之间的第一靶dna序列,以及(ii)第三衔接子3'到第一衔接子和插入在第一衔接子和第三衔接子之间的第二靶dna序列。面板2.2显示了与第一衔接子中的第一引物结合序列①杂交的第一引物。面板2.3显示了使用第一dna聚合酶延伸第一引物以产生第二链,其中第二链包含(i)与第一靶dna序列互补的序列②和(ii)与第二衔接子的至少一部分互补的序列③。面板2.4显示了将第二引物与第二引物结合序列④杂交,其中第二引物结合序列是3'到第一引物结合序列。如图2所示,第二引物结合序列包含在第三衔接子中。面板2.5显示了使用具有链置换活性的dna聚合酶延伸第二引物以产生第三链。如图2.5所示,第三链的延伸部分地置换第二链。这种部分置换导致与模板dna多核苷酸(或“第一链”)部分杂交的第二链。部分杂交的第二链具有与模板dna多核苷酸杂交的杂交部分⑤和未杂交悬伸部分⑥,所述未杂交悬伸部分⑥含有与第一靶dna序列互补的序列②以及与第二衔接子的至少一部分互补的序列⑦。测序dna链可以使用部分杂交的第二链作为测序模板来应用dna测序方法。因为第二链包含与第一靶dna序列互补的序列,所以该方法可用于测定第一靶dna序列的核苷酸序列。在一种方法中,测序步骤包括:f)将测序寡核苷酸与第三链中的与第二衔接子的至少一部分互补的序列杂交,以及g)确定与第一靶dna序列互补的序列的至少一部分。序列确定的方法可以包括例如但不限于通过合成(包括延伸测序寡核苷酸)进行测序和/或通过连接(包括将探针连接到测序寡核苷酸)进行测序,或者可以包括其它方法。图3示出了说明上述步骤(f)-(g)的方案。面板3.1显示了测序寡核苷酸⑧与第二链中的与第二衔接子的至少一部分互补的序列杂交。面板3.2显示了延伸所述测序寡核苷酸以使用通过合成方法测序来确定与第一靶dna序列互补的序列的至少一部分(并从而确定第一个靶序列),在合成方法中所述测序寡核苷酸用作引物用于引物延伸以产生延伸产物⑨。面板3.3显示了将探针⑩连接到测序寡核苷酸,从而产生包含与第二链序列互补的序列的连接产物,由此使用通过连接测序方法确定第二链的序列(从而确定第一靶序列)。这更详细地描述些元件和步骤中的每一个。应当理解,尽管参考具体实施方式或说明描述了本发明的方面,但是对于本领域技术人员而言在阅读本公开之后,其他实施方式将是显而易见的,并且这些其他实施方式被认为在本发明的方法内。2.模板dna多核苷酸如本说明书中所使用的,“模板dna多核苷酸”是dna构建体,其包含插入在两个衔接子序列之间的靶dna序列,衔接子序列在本文称为“第一衔接子”(3'到所述靶dna序列)和“第二衔接子”(5'到所述靶dna序列)。如本文所用,“插入”是指靶dna序列在衔接子序列之间。在一些实施方案中,靶dna序列与衔接子序列邻接,并且不存在其它碱基或序列(例如,存在于靶dna序列和衔接子序列之间),但是这在所有实施方案中不是必需的。插入在衔接子之间的序列也可以称为侧翼为衔接子的序列。使用本发明的方法,确定靶dna序列的至少一部分。靶dna可以来自任何数量的来源,如下所述。可以使用用于将感兴趣的靶dna序列与侧翼衔接子联接的任何方法产生模板dna多核苷酸。例如,可以从生物来源(例如细胞、组织、生物体或细胞或生物群体)获得感兴趣的靶dna序列,并且可以通过连接、扩增、转位、插入等加入侧翼衔接子。参见,例如美国专利no.8445194(描述包含衔接子和靶序列的dna纳米球),国际专利公开no.wo00/18957(描述了侧翼为衔接子的测序靶序列)和美国专利公开no.us2010/0120098(描述片段化),上述专利公开中的每一个并入本文用于所有目的。3.模板dna多核苷酸文库在许多大规模并行测序(mps)技术中,生成测序模板文库,并且并行测序文库中的各个物种。例如,在由drmanac等开发的dna纳米球方法中,基因组dna被片段化,并且单个片段用于产生环状dna,其中平台特异性寡核苷酸衔接子分离基因组dna序列(分离的基因组dna序列在基因组中可以是相邻的)。环状dna被扩增以产生可以固定在基底上的单链多联体(“dna纳米球”)。在“solexa”型测序中,将基因组dna片段化,然后将dna片段连接至平台特异性寡核苷酸衔接子。衔接子用于将单个片段固定在基底上,在其上原位扩增它们以产生用于测序的克隆聚簇扩增子。许多其他mps测序方法是公知的。因此,应当认识到,尽管本发明有时关于靶dna(例如,单个dnb模板dna)进行描述,但使用通常在构建体的阵列(例如,包含dna多联体或模板dna多核苷酸的克隆拷贝的阵列)上的大量序列文库进行mps测序,构建体包含许多不同的靶序列(例如,不同的基因组dna片段)但共享共同的衔接子序列。用于制备mps测序文库的方法以及使用这种文库进行测序的方法是本领域公知的,并且假定读者熟悉这些方法。参见,例如,shendure,j.和h.ji.“next-generationdnasequencing.”naturebiotechnology26.10(2008):1135-1145;shendure,j.,等人“advancedsequencingtechnologies:methodsandgoals”nat.rev.genet.5,335–344(2004);metzker,michaell."sequencingtechnologies—thenextgeneration."naturereviewsgenetics11.1(2010):31-46;drmanac,r.等人"accuratewholegenomesequencingastheultimategenetictest."clinicalchemistry61.1(2015):305-306;drmanac,r.等人"humangenomesequencingusingunchainedbasereadsonself-assemblingdnananoarrays."science327.5961(2010):78-81;drmanac,s.等人“accuratesequencingbyhybridizationfordnadiagnosticsandindividualgenomics.”nat.biotechnol.16,54–58(1998);margulies,m.等人"genomesequencinginmicrofabricatedhigh-densitypicolitrereactors."nature437.7057(2005):376-380;ng,s.等人"targetedcaptureandmassivelyparallelsequencingof12humanexomes."nature461.7261(2009):272-276;meng,h-m等人"dnadendrimer:anefficientnanocarrieroffunctionalnucleicacidsforintracellularmolecularsensing."acsnano8.6(2014):6171-6181;head,s.等人"practicalguide";head,s.等人"practicalguide.";shendure,j.等人accuratemultiplexpolonysequencingofanevolvedbacterialgenome.science309,1728–1732(2005);brenner,s.等人“geneexpressionanalysisbymassivelyparallelsignaturesequencing(mpss)onmicrobeadarrays”nat.biotechnol.18,630–634(2000);ronaghi等人“real-timednasequencingusingdetectionofpyrophosphaterelease”anal.biochem.242,84–89(1996);mckernan,k.等人“reagents,methods,andlibrariesforbead-basedsequencing,”美国专利公开号20080003571(2006);adessi,c.等人“solidphasednaamplification:characterisationofprimerattachmentandamplificationmechanisms”nucleicacidsres.28,e87(2000),其中每个全部内容都并入本文用于所有目的,包括用于教导dna测序文库的制备和mps测序平台和技术。4.靶dna序列模板dna多核苷酸的靶dna部分可以来自任何来源,包括天然存在的序列(例如基因组dna、cdna、线粒体dna、游离dna等),人工序列(例如合成序列、基因改组或分子进化的产物等)或其组合。靶dna可以来自诸如(例如,来自植物、动物、病毒、细菌、真菌、人类、哺乳动物、昆虫的)生物体或细胞、法医来源等来源。靶dna序列可以来自生物群体,如肠道细菌群体。靶dna序列可以直接从样品中获得,或者可以是扩增反应,片段化反应等的产物。靶dna可以具有特定大小范围内的长度,例如50至600个核苷酸的长度。其他示例性的大小范围包括25至2000、50至1000、100至600、50-100、50-300、100-300和100-400个核苷酸的长度。在具有两个或更多个不同靶dna的模板dna多核苷酸中,靶dna可以具有相同的长度或不同的长度。在模板dna多核苷酸的文库中,文库的成员在一些实施方案中可以具有相似的长度(例如,全部在25至2000个核苷酸的范围中或另一范围内)。在一种方法中,靶dna可以通过将较大的源dna(例如基因组dna)片段化以产生所需大小范围内的片段来制备。在一些方法中,使用大小选择步骤来获得特定大小范围内的片段池。5.衔接子本文方法公开中使用的模板dna或模板dna多核苷酸包括两个或更多个衔接子。衔接子可以包含用于将模板dna多核苷酸固定在基底上的元件,用于结合在序列测定中使用的寡核苷酸的元件(例如,用于在通过合成方法测序中延伸的引物的结合位点和/或用于cpal的探针或其他基于连接的测序方法的结合位点等)或用于固定和测序两者的元件。衔接子可以包括附加特征,例如但不限于限制性内切核酸酶识别位点、延伸引物杂交位点(用于分析)、条形码序列、独特的分子标识符序列和聚合酶识别序列。衔接子序列可以具有适用于特定测序平台和预期用途的长度、结构和其它特性。例如,衔接子可以是单链、双链或部分双链,并且可以具有适合于预期用途的长度。例如,衔接子的长度可以在10-200个核苷酸、20-100个核苷酸、40-100个核苷酸或50-80个核苷酸的范围内。在一些实施方案中,衔接子可以包含含有对碱基、糖和/或磷酸酯部分的修饰的一个或多个修饰的核苷酸。本领域技术人员会理解,库的不同成员通常将包含公共衔接子序列,尽管库中的不同种类或子类别可具有独特特征,例如子属特异性条形码。单独的衔接子序列可以包括多个功能不同的子序列。例如,如在本公开中详细讨论的,单个衔接子序列可以包含两个以上引物结合序列(其可被不同的互补引物或探针识别)。衔接子内的功能不同的序列可以是重叠的或不重叠的。为了说明,给定40个碱基长的衔接子,在一个实施方案中,碱基1-20是第一引物结合位点,碱基21-40是第二引物结合位点。在不同的实施方案中,碱基1-15是第一引物结合位点,碱基21-40是第二引物结合位点。在不同的实施方案中,碱基5-25是第一引物结合位点,碱基15-35是第二引物结合位点。同样,给定40个碱基长的衔接子,碱基1-20可以是固定化序列,碱基21-40可以是引物结合位点。衔接子(或模板dna多核苷酸的不同衔接子)中不同的引物结合序列可具有相同或不同的长度。衔接子(例如,第一衔接子、第二衔接子、第三衔接子等)可以包含一个、两个或两个以上引物结合序列。引物结合序列在功能上定义为引物(或寡核苷酸)特异性结合的位点或序列。例如,具有两个引物结合序列的衔接子可以被两个不同的引物特异性结合。在一种方法中,相同衔接子中的两个引物结合序列是重叠的,即共享核苷酸序列的一部分。在一些实施方案中,重叠区域不超过两个重叠引物结合序列中的任一个的50%、或40%、或30%、或20%、或10%或5%。在一种方法中,多于一个引物结合序列是不重叠的。在一些实施方案中,非重叠引物结合序列彼此紧邻;在一些其它实施方案中,非重叠引物结合序列由1-10、10-20、30-40或40-50个核苷酸分开。引物结合序列将具有足够的长度以允许引物杂交,其中精确的长度和序列取决于引物的预期功能(例如延伸引物、连接基底、索引序列等)。引物结合序列的长度通常为至少10个,至少12个,至少15个或至少18个碱基。很明显,在给定的模板dna多核苷酸中,不同的衔接子可以具有相同的序列或不同的序列,并且可以具有相同的引物结合序列或不同的引物结合序列。参见,例如下面第7节。虽然提供了某些附图来说明本发明,但是使用类似交叉影线等对衔接子的表示不应被构造为指示序列的同一性。6.引物术语“引物”和“探针”可互换使用,并且是指具有与dna的引物或探针结合位点互补的序列的寡核苷酸。这些引物可以是“延伸引物”或“测序寡核苷酸”。“延伸引物”用于引物延伸反应以产生上述“第二”和“第三”[dna]链。因此,延伸引物是通过添加核苷酸而可延伸的dna聚合酶的底物。本领域普通技术人员能很好地选择或设计用于本发明的引物和探针(例如,在测序测定条件下能够延伸或连接的引物)。不限制本发明,延伸引物通常具有在10-100个核苷酸、通常12-80个核苷酸、通常15-80个核苷酸的范围内的长度。应当理解,引物和探针可以与其杂交的衔接子中的结合序列完全或部分互补。例如,引物可以具有与其杂交的序列至少85%,90%,95%或100%的同一性。引物还可以在引物的5'端含有与衔接子中的引物结合序列不互补的另外的序列。引物的非互补部分可以是不干扰引物与其引物结合序列之间的杂交的长度。通常,非互补部分为1至100个核苷酸长。在一些实施方案中,非互补部分为4至8个核苷酸长。引物可以包含dna和/或rna部分,并且在一些方法中,本发明中使用的引物也可以具有含有对碱基、糖和/或磷酸酯部分的修饰的一个或多个修饰的核苷酸。“测序寡核苷酸”可以是用于通过合成测序反应(也称为“通过延伸测序”)的延伸引物。“测序寡核苷酸”可以是在诸如美国专利公开号20140213461(其通过引用并入本文用于所有目的)中所述的“组合探针-锚定连接反应”(cpal)(包括单重、双重和多重cpal)的通过连接测序方法中使用的寡核苷酸。简言之,cpal包括以下步骤的循环:首先,将“测序寡核苷酸”(或“锚定物”)与上述第三dna链的衔接子中的互补序列杂交。然后进行酶连接反应,其中锚定物连接至(例如用荧光染料)标记的例如8聚体探针的完全简并探针群。探针可以包括例如约6至约20个碱基的长度,约7至约12个碱基的长度。在任何给定的循环中,使用的8聚体探针的群体被构建成使得其位置中的一个或多个的同一性与附着于其上的荧光团(例如8聚体探针)的同一性相关。在本领域公知的基本cpal的变型中,诸如多重cpal,部分或全部简并的二次锚定物被用于增加可读序列。7.靶序列与衔接子序列的关系如上所述,模板dna多核苷酸包含插入在第一衔接子3'到第一靶dna序列和第二衔接子5'到第一靶dna序列之间的第一靶dna序列。模板dna多核苷酸可以包含多个靶dna序列(例如,多于25个或多于50个;有时在2至1000、50-800或300-600个拷贝的范围内),其中每个可以是侧翼有一对衔接子。因此,在一个实施方案中,模板dna多核苷酸包含第三衔接子3'到第一衔接子和插入在第一衔接子和第三衔接子之间的第二靶dna序列。在一些情况下,靶dna序列包含在单链dna纳米球中。例如参见第7.1节以及图2和图4。模板dna多核苷酸可以包含侧翼为两个衔接子(有时称为“有衔接子的靶序列”)的单个靶dna序列。例如参见第7.2节以及图1和图6。7.1.模板dna多核苷酸:多联体和dnb在一些实施方案中,本发明中使用的模板dna多核苷酸是dna多联体。如本文中所用,术语“多联体”是指包含相同dna序列的多个拷贝(串联连接的“单体”或“单体序列”)的长连续dna分子。“dna多联体”可以包含至少2个单体、至少3个单体、至少4个单体、至少10个单体、至少25个单体、至少50个单体、至少200个单体或至少500个单体。在一些实施方案中,dna多联体包含25-1000个单体,例如50-800个单体或300-600个单体。每个单体包含至少一个靶dna序列。在本发明的方法中使用的dna多联体可以是dna纳米球或“dnb”。不意图以任何方式限制本发明,dna纳米球描述于drmanac等人,2010,humangenomesequencingusingunchainedbasereadsonself-assemblingdnananoarrays."science327:5961:78-81;dahletal."methodsandoligonucleotidedesignsforinsertionofmultipleadaptorsintolibraryconstructs."美国专利号7,897,344(march1,2011);drmanac等人.“singlemoleculearraysforgeneticandchemicalanalysis”美国专利号8,445,194(2013年5月21日);以及drmanacetal.“methodsandcompositionsforlongfragmentreadsequencing”美国专利no.8,592,150(2013年11月26日),其各自通过引用并入本文,以及本文所述的其它参考文献。“dna纳米球”或“dnb”是具有足够长度以形成在溶液(例如室温下的ssc缓冲液)中填充大致球形体积的无规卷曲的单链dna多联体。在一些实施方案中,dna纳米球通常具有约100至300nm的直径。dnb中的模板dna可以称为“dnb模板链”。在一个实施方案中,所述多联体的单体包含一个衔接子序列和一个靶dna序列。由于单体串联连接,靶dna序列将侧接(flankedby)两个衔接子序列。在一些方法中,单体中的靶dna序列侧接两个“半衔接子”序列,使得在多联体中串联连接的每个靶序列侧接两个衔接子。在一些方法中,单体单元包括一个、两个、三个或四个或更多个衔接子。在一些实施方案中,单体(和多联体)的所有衔接子具有相同的序列。在其他实施方案中,衔接子可以具有不同的序列,例如两个、三个或四个不同的序列。将认识到单个单体可以包含一个以上的模板dna序列。例如,单体可以包含结构a1-t1-a2-t2,其中t1和t2是具有相同或不同序列的模板dna,a1和a2是具有相同或不同序列的衔接子。相应的多联体将具有结构a1-t1-a2-t2-a1-t1-a2-t2-a1-t1-a2-t2....。在相关实施方案中,单体可以包含结构a1-t1-a2-t2-a3,其中t1和t2是具有相同或不同序列的模板dna,a2是衔接子,a1和a3是“半衔接子”。对应的多联体将包括结构a2-t2-a3a1-t1-a2-t2-a3a1-t1-a2-t2-a3a1...其中a3a1半衔接子一起用作衔接子。为了说明而非限制,表1示出了示例性多联体结构。在表1中,n大于1。通常n为至少3个,通常至少4个,至少10个,至少25个单体,至少50个单体,至少200个单体或至少500个单体。在一些实施方案中,n在25-1000,例如50-800或300-600的范围内。在模板dna多核苷酸是dna纳米球的情况下,n为至少25,通常为至少50,通常为50-800或300-600。表1多联体结构可以通过任何合适的方法制备dna多联体(包括dna纳米球)。在一种方法中,单个基因组片段用于产生具有插入到基因组中邻近或靠近在一起的靶序列之间的衔接子的单链环状dna。环状dna构建体可以通过酶促(例如通过滚环复制,或通过将单体连接到彼此)扩增。为了说明而不是限制,可以根据美国专利no.8,445,194和美国专利no.8,592,150中描述的方法制备dna纳米球。7.2模板dna多核苷酸:有衔接子的靶序列替代地,模板dna多核苷酸可以包含侧翼为两个衔接子的单个靶dna序列。具有单个靶dna序列和一对侧翼衔接子的模板dna多核苷酸可能在solexa型测序中特别有用。参见例如图6。在一些实施方案中,模板dna是包含至少一个靶dna序列和至少两个衔接子的非多联体dna构建体。在一些实施方案中,构建体包含两个以上衔接子和/或一个以上靶dna序列。在一些实施方案中,互补链首先由包含一个或多个衔接子和一个或多个靶dna序列的单个dna链合成以形成双链dna。双链dna的两条链中的一条或两条可用作模板dna。在一些实施方案中,非多联体的克隆拷贝被产生并用作根据本发明的模板dna。制备包括非多联体的dna序列的克隆拷贝的方法是本领域公知的。参见上文第3节引用的参考文献。8.基底和隔区在一些应用中,将模板dna多核苷酸固定在基底上。通常,固定化在合成上述“第二”链和“第三”链之前进行。在某些情况下,固定化在合成上述“第三”链前进行。示例性基底(substrate)可以是基本上平坦的(例如,载玻片)或非平坦且单一的或由多个不同单元(例如,珠)形成。示例性材料包括玻璃、陶瓷、二氧化硅、硅、金属、弹性体(例如硅氧烷)、聚丙烯酰胺(例如,聚丙烯酰胺水凝胶;参见wo2005/065814)。在一些实施方案中,基底包含固定位点或孔的有序或无序阵列。在一些方法中,靶dna多核苷酸被固定在基本上平坦的基底上,例如包含固定位点或孔的有序或无序阵列的基底。在一些方法中,将靶dna多核苷酸固定在珠上。多核苷酸可以通过包括共价和非共价连接的多种技术固定在基底上。多核苷酸可以通过各种技术固定在基底上。在一个实施方案中,表面可以包括与多核苷酸分子的组件(如衔接子寡核苷酸)形成复合物(例如双链的双链体)的捕获探针。在另一个实施方案中,表面可以具有与多核苷酸分子上的互补官能团反应以形成共价键的反应性官能团。长dna分子(诸如几个核苷酸或更长的核苷酸)也可以有效地连接到疏水性表面(例如具有低浓度的各种反应性官能团(例如-oh基团)的干净的玻璃表面)。在另一个实施方案中,多核苷酸分子可以通过与表面的非特异性相互作用或通过非共价相互作用(例如氢键、范德华力等)吸附到表面。例如,dna纳米球可以固定到离散的间隔开的区域,如drmanac等人的美国专利no.8,609,335所述。在一种方法中,通过与固定的探针序列杂交将有衔接子的dna固定在基底上,并且使用固相核酸扩增方法来产生包含dna模板多核苷酸的克隆簇。参见例如wo98/44151和wo00/18957。在一些实施方案中,在引物延伸步骤之前,dna模板多核苷酸在乳液、液滴、珠粒和/或微孔中区隔(margulies等人,“genomesequencinginmicrofabricatedhigh-densitypicolitrereactors."nature437:7057(2005);shendure等人,“accuratemultiplexpolonysequencingofanevolvedbacterialgenome”science309,1728–1732(2005))。9.dna聚合酶本发明的方法可以使用分子生物学和mps测序领域中的普通技术人员熟知的方法、工具和试剂进行,试剂包括核酸聚合酶(rna聚合酶、dna聚合酶、逆转录酶)、磷酸酶和磷酸化酶、dna连接酶等。特别地,可以使用一种或多种dna聚合酶进行某些引物延伸步骤。使用具有链置换活性的dna聚合酶进行某些延伸步骤。本文公开的方法使用聚合酶和dna聚合酶的链置换活性来产生与模板dna互补的dna链。在一种方法中,本发明使用具有强的5'→3'链置换活性的dna聚合酶。聚合酶优选不具有5'→3'核酸外切酶活性。然而,当活性不阻止实施本发明的方法时,例如通过使用抑制核酸外切酶活性的反应条件,可以使用具有5'-3'外切核酸酶活性的dna聚合酶。术语“链置换活性”描述了置换在合成过程中遇到的下游dna的能力。链置换活性描述于美国专利公开no.20120115145(其通过引用并入本文),如下:“链置换活性”表示生物、化学或物理试剂(例如dna聚合酶)引起成对核酸在从5到3的方向从其互补链中解离,结合并接近于模板依赖性核酸合成的现象。链置换开始于配对核酸序列的5'末端,因此酶在置换位点的5'中立即进行核酸合成。新合成的核酸和置换的核酸通常具有相同的与模板核酸链互补的核苷酸序列。链置换活性可以位于与赋予核酸合成(特别是dna合成)的活性的分子相同的分子上,或者它可以是单独和独立的活性。dna聚合酶,如大肠杆菌dna聚合酶i、dna聚合酶i的klenow片段、t7或t5噬菌体dna聚合酶和hiv病毒逆转录酶,是具有聚合酶活性和链置换活性两者的酶。诸如解旋酶之类的试剂可以与不具有链置换活性的诱导剂结合使用以产生链置换效应,也就是说,核酸的置换与相同序列的核酸的合成偶联。同样,与其他诱导剂一起,蛋白质(如来自大肠杆菌或来自另一生物体的reca或单链结合蛋白)可用于产生或促进链置换(kornberg和baker,1992,dnareplication,第二版本,pp113-225,freeman,ny)。在一种方法中,聚合酶是phi29聚合酶。phi29聚合酶在中等温度(例如20-37℃)下具有很强的置换活性。在一种方法中,使用bstdna聚合酶,大片段(neb#m0275)。bstdna聚合酶在升高的温度(约65℃)下有活性。在一种方法中,聚合酶是deep-ventrdna聚合酶(neb#m0258)(hommelsheim等人,scientificreports4:5052(2014))。10.制备互补链本节描述制备第二dna链和第三dna链的步骤的某些方面。与模板dna或靶dna序列(“第一链”)互补的dna链的产生开始于将第一引物与模板dna中的第一衔接子中的第一引物结合序列杂交。参见图1、面板1.2和图2,面板2.2。然后通过第一dna聚合酶延伸第一引物以产生第二链。参见图1,面板1.3和图2,面板2.3。第一dna聚合酶可以是具有链置换活性的聚合酶或不具有链置换活性的聚合酶。通过将杂交到第二引物结合序列(3'到模板dna中的第一引物结合序列)以延伸的第二引物延伸来产生第三链。第二引物结合序列可以在(如果存在)第三衔接子中。见图2,面板2.4。第二引物结合序列也可以是与第一引物结合序列一样地在相同的衔接子中,且在3'至第一引物结合序列中。见图1,面板1.4。使用具有链置换活性的dna聚合酶进行第二引物的延伸以产生第三链。参见图1,面板1.5和图2,面板2.5。在延伸处理期间,第三链置换其遇到的第二链的5'部分,并使第二链部分地从模板dna解离并形成悬伸部。参见图1,面板1.5和图2,面板2.5。控制延伸-置换反应,使得第二链不是完全置换,而是与模板dna部分杂交并且部分未杂交。未杂交部分(“悬伸部”)包含与第一靶dna序列互补的第一序列,与第一衔接子的至少一部分互补的序列,以及与第二衔接子的至少一部分互补的第三序列,其中第一序列侧接第二序列和第三序列。因此,在一个实施方案中,悬伸部侧接有衔接子序列(或其互补序列)或其部分。插入在第一衔接子和第二衔接子之间的第一靶dna序列的实例在图1中示出。插入在第一衔接子和第二衔接子之间的第一靶dna序列的另一示例在图2中示出。图2中的实施方案示出了插入在第一衔接子和第三衔接子之间的第二靶dna序列。在这种情况下,第一靶dna序列和第二靶dna序列可以相同,可以不同,可以在基因组中连接等,如下所述。在一些实施方案中,如表1的项目3、5、6和7和图2所示,模板dna包含附加衔接子(例如,第三衔接子),3'到第一衔接子,和插入在第一衔接子和第三衔接子之间的第二靶dna序列。在该实施方案中,第一衔接子包含可结合第一引物的第一引物结合序列;并且第三衔接子包含能结合第二引物的第二引物结合序列。在一些实施方案中,第一靶dna和第二靶dna具有相同的核苷酸序列。在一些实施方案中,第一靶dna和第二靶dna具有不同的核苷酸序列。第一衔接子、第二衔接子和第三衔接子可具有相同或不同的核苷酸序列。在一个实施方案中,如图1所示,第一衔接子包含能结合第一引物的第一引物结合序列和能结合第二引物的第二引物结合序列两者。第二引物结合序列是3'到第一引物结合序列。第一衔接子和第二衔接子可具有相同或不同的核苷酸序列。在一个具体实施方案中,第一衔接子和第二衔接子具有相同的核苷酸序列,并且每个衔接子包含分别用于第一引物和第二引物的两个结合序列。在一些实施方案中,模板dna中的第二衔接子包含用于一个或多个测序寡核苷酸的一个或多个引物结合序列。见图3。10.1使用dnb引物的说明性实例在一种方法中,模板dna多核苷酸是dna多联体,例如dnb,其包含具有图1或图2所示结构的dna序列的单体单元。图4示出了从这种dnb产生互补链的实例。在该具体实例中,模板dna多核苷酸可以是包含如图2,面板2.1所示的dna结构的单体单元的dnb。dnb包括多个具有相同核苷酸序列的衔接子。在(a)中,将dnb(包含衔接子序列和插入的基因组dna序列的每个单体单元)与互补引物杂交。在一种方法中,引物与模板dna链上的衔接子(与例如,衔接子序列的全部或部分)杂交。在(b)中,进行聚合以产生两个或两个以上互补链或后续片段。在(c)中,当新合成的链(第三链)的3'端到达下游后续链(第二链)的5'端时,所述后续(following)dna链(第二链)的5'部分被dna聚合酶置换,产生悬伸部。每个多联体的一个或多个单体单元可以以这种方式置换。控制延伸-置换反应条件以产生具有针对互补链测序优化的总长度和悬伸长度的第二链。在一种方法中,通过在确定提供所需产物的时间引入ddntp(或本领域普通技术人员已知的其它手段)终止反应。见下文第12节。在(d)中,在产生悬伸片段之后,测序寡核苷酸可以杂交至(悬伸于)在每个悬伸片段中的衔接子(即模板的衔接子序列的互补物)。将会认识到,在一个实施方案中,除了与延伸引物结合的衔接子序列外,后续片段还包含长度足够长以包括至少一个衔接子序列的悬伸部分,以及具有足够长度以保持后续片段退火到dnb模板链上的杂交(双链体)部分。随后进行测序化学过程,其可以是通过合成测序(sbs)或其他测序化学过程。产生的序列将是与衔接子相邻并在衔接子上游的插入(例如,基因组)dna。该序列信息可以与从测序模板链产生的序列配对。通常测序模板链提供衔接子下游的序列。图5例示了根据本发明的方法可用于产生互补链的引物。将衔接子“ad141-2”与基因组dna片段(未显示)连接并用于产生单链dna环。产生的dna环包含衔接子“ad141-2”(以5'到3'方向显示)的顶链的序列和短的靶dna序列(例如基因组dna)的序列。然后通过滚环扩增从所述dna环产生dnb。因此如此生成的dnb包含“ad141-2”的底链序列(以3'到5'方向显示),并可用作模板dna多核苷酸(第一链)。包含67个碱基的衔接子具有分别结合cx117(第二引物)和ad120_3t_21b(第一引物)的两个引物结合序列。cx117和ad120_3t-21b在图5中也称为dnb引物。ad120_3t的延伸产生第二链,cx117引物的延伸产生第三链。如第b部分所述,第三链的延伸置换第二链,从而产生第二链的悬伸部分。互补链引物(“ad041_5t”和“ad041_helper”)是测序寡核苷酸,其可用于在第二链的悬伸部分上进行通过合成测序(sbs)。10.2制备与有衔接子的dna片段互补的链在一种方法中,模板dna多核苷酸是非多联体dna(例如单体的)。非多联体dna可以具有如图1,面板1.1所示的结构。图6示出了一种方法。在图6(a)中,显示了四种固定的单链多核苷酸。空心圆表示靶序列,实心圆表示3'和5'衔接子序列(其可能是相同或不同的)。四个固定的单链多核苷酸可以是不同的,或者可以是包含模板dna多核苷酸的克隆拷贝的簇。图6中示出了一个例子,其中将单链单体dna(模板dna)的克隆拷贝固定在基底上。每个模板dna包含靶dna,所述靶dna侧接5'处的第一衔接子和3'处的第二衔接子。图6(a):将第一引物(由具有空心箭头的箭头指示)与第一衔接子上的第一引物结合序列杂交。图6(b):第一引物用dna聚合酶延伸以产生第二链。如此制备的第二链包含与靶dna序列互补的序列和与第二衔接子互补的序列。图6(c):将第二引物(由具有实心箭头的箭头表示)与为3'到在第一衔接子中的第一引物结合序列的第二引物结合序列杂交。用具有链置换活性的dna聚合酶延伸第二引物以产生第三链。图6(d):控制第三链的延伸使得第二链部分置换,即通过与第二衔接子的杂交而保持与模板dna连接。11.加入引物的顺序延伸引物(例如,第一引物、第二引物)的添加顺序可以变化。例如,在一些实施方案中,加入第一引物和聚合酶,并且在加入第二引物之前进行第二链的(至少部分)合成。在另一种方法中,第一引物和第二引物大约在同一时间加入(参见例如下文的实施例)。例如,它们可以一起在相同的组合物中被加入,或者可以在彼此约1分钟内或彼此约5分钟内分开加入。第一延伸引物和第二延伸引物可以以任何顺序加入。在第二链使用不具有链置换活性的dna聚合酶来产生,而第三链将使用具有链置换活性的dna聚合酶产生的方法中,引物的顺序加入可能是必需的。将认识到,单个寡核苷酸可用作产生第二链和/或第三链两者的延伸引物。将进一步认识到,在相同的测序反应中可以使用多个不同的第一引物和/或多个不同的第二引物和/或多个不同的测序寡核苷酸。通常在使用本文公开的方法终止第二链的延伸-置换后加入第二链的测序寡核苷酸。参见下文“控制延伸-置换反应以控制链长度并避免完全置换”节。测序寡核苷酸与第二链的悬伸部分杂交。在一些实施方案中,测序寡核苷酸具有与第一靶序列内的已知序列互补并因此杂交的序列。在一些实施方案中,测序寡核苷酸与第二链中的与第二衔接子的至少一部分互补的序列杂交。在一些实施方案中,测序寡核苷酸与第一引物或第二引物部分互补或完全互补。12.控制延伸-置换反应以控制链长度并避免完全置换为了产生具有连接到模板dna多核苷酸(例如,dnbdna链)的悬伸部和双链体部分两者的部分置换的第二链(后续片段),可以控制产生第三链的延伸反应以避免第二链的完全置换(即,“后续链”或“后续片段”)并产生具有适合于测序的长度的第二链和第三链。这可以通过选择具有适当的聚合速率或其他性质的聚合酶来控制反应的进程,并且通过使用多种反应参数(包括(但不限于)反应温度、反应持续时间、引物组成、dna聚合酶、引物和dent浓度、添加剂和缓冲液组成)来实现。按照经验可以确定最佳条件。12.1dna聚合酶的选择控制延伸-置换反应的一种方法是使用具有合适的链置换活性的dna聚合酶来产生第三链。具有链置换活性的dna聚合酶包括但不限于phi29、bstdna聚合酶、dna聚合酶i的klenow片段和deep-ventrdna聚合酶(neb#m0258)。已知这些dna聚合酶具有不同强度的链置换活性。参见kornberg和baker(1992,dnareplication,第二版本,113-225页,freeman,n.y.)。本领域普通技术人员可以选择适合本发明的dna聚合酶。12.2聚合酶、引物和dntp浓度控制延伸-置换反应的另一种方法是使用合适浓度的具有链置换活性的dna聚合酶或dntp或第二引物。12.3添加剂在一些实施方案中,延伸反应通过在反应缓冲液中包含影响延伸引物和模板dna之间的双链体形成的试剂(例如dmso(例如1%-2%),甜菜碱(例如0.5m),甘油(例如,10%-20%),t4g32ssb(例如10-20ng/ul)和体积排阻剂。12.4温度还可以控制反应温度以允许适当的聚合和链置换的速度。较高的温度通常导致较大程度的链置换。在一些实施方案中,反应温度保持在20℃-37℃的范围内,例如32℃、33℃、34℃、35℃、36℃或37℃,以避免完全置换。在一些方法中,通过使用常规(可延伸)引物和不可延伸引物(即3'端封闭引物)的混合物来控制延伸反应。不可延伸的引物通过例如防止dna聚合酶聚合的化学封闭基来封闭延伸。通过以不同的比例混合这两种不同的引物,可以控制新合成的互补dna链(后续片段)的双链(杂交)部分的长度。例如,在一种方法中,使用第一引物的混合物,其中50-70%是不可延伸的(“封闭”),30-50%可以延伸(“未封闭”)。许多类型的不可延伸的引物是本领域已知的,并且适用于本发明。12.5反应时间在一些实施方案中,通过在获得所需长度的第二链期间的一段时间之后终止反应来控制延伸-置换反应。在一些实施方案中,反应在起始5分钟、10分钟、20分钟、30分钟、40分钟或60分钟后终止。反应终止的方法是本领域公知的,例如通过掺入ddntp或通过加入化学溶液(例如含有1.5mnacl的tris缓冲液)。在一个优选实施方案中,通过在向反应中加入含有1.5mnacl的tris缓冲液之后掺入ddntp而实现终止。13.序列确定在一些实施方案中,要求保护的发明提供了确定如上所述产生的第二链的序列的方法。该方法包括将测序寡核苷酸与第二链中的与第二衔接子的至少一部分互补的序列杂交(参见图3,面板3.1),以及确定与第一靶dna序列互补的序列的至少一部分的核苷酸序列。序列测定可以使用通过合成测序方法(图3,面板3.2)或使用通过连接测序方法(图3,图3.3)或两者进行。在一个实施方案中,产生的与模板dna互补的dna链用于靶dna的序列测定。通过延伸与第二衔接子的互补序列杂交的引物来对第二链的悬伸部进行测序,例如,如图3所示。在另一个实施方案中,也使用与第一衔接子杂交的引物对模板dna链进行测序。来自互补链的序列信息与从对模板dna测序产生的序列配对以确定整个靶dna序列。对读者来说显而易见的是,可以使用本文概述的具体实施方案的变体。在一种方法中,延伸引物和测序寡核苷酸结合至衔接子序列的不同部分。在一种方法中,延伸引物和测序寡核苷酸结合至衔接子序列的相同部分(例如,用于延伸的衔接子序列的部分和用于测序的衔接子序列的相同部分的互补物)。可以使用任何合适的序列确定方法来确定悬伸部的序列,方法例如sbs、焦磷酸测序、通过连接进行测序等。在一些实施方案中,使用一种以上测序方法。例如,可以使用一种方法(例如,cpal)对模板dna链进行测序,并且使用不同的方法(例如,sbs)对第三链进行测序。通过合成测序(sbs)可以依赖于dna聚合酶活性来在测序反应步骤期间进行链延伸。sbs是本领域是公知的。参见例如美国专利no.6,210,891;no.6,828,100,no.6,833,246;no.6,911,345;no.6,969,488;no.6,897,023;no.6,833,246;和no.6,787,308;专利公开no.20040106130;no.20030064398;和no.20030022207;margulies等人,2005,nature437:376-380;ronaghi等人,1996,anal.biochem.242:84-89;constans,a,2003,thescientist17(13):36;以及bentley等人,2008,nature456(7218):53–59。其他测序方法(例如通过杂交进行测序)是本领域公知的并且可以使用。确定核苷酸序列的其他方法也可用于本发明。例如,通过连接进行测序(例如wo1999019341,wo2005082098,wo2006073504和shendure等人,2005,science,309:1728-1739),焦磷酸测序(参见例如ronaghi等人,1996,anal.biochem.242:84-89)。14.dna复合物的组成和阵列14.1dnb在一个方面,本发明包括dna复合物的阵列。在一个方面,所述阵列是包括离散区域的阵列的载体,其中多个区域包括:(a)单链dna多联体,每个多联体包含多个单体,每个单体包含靶序列和衔接子序列;(b)其中(a)中所述dna多联体的至少一个子集的多个单体中的每一个包含,(i)与其部分杂交的第二dna链,其中每个第二链dna包含与所述靶序列互补的部分和与所述衔接子序列的至少一部分互补的部分,并且其中所述第二链的一部分不与所述多联体杂交并且与所述衔接子的至少一部分互补的所述第二链的一部分与所述衔接子杂交,以及(ii)第三dna链,其包含与所述靶序列互补并与所述靶序列杂交的部分;以及(c)其中(b)的所述多个单体的至少一个子集中的每一个包含在杂交位点与第三dna链杂交的第四dna链,其中所述第四dna链包含所述衔接子的所述序列的至少一部分并且所述杂交位点与所述第二衔接子序列的至少一部分互补。如上所述的阵列,其中单链dna多联体通过以下固定在所述离散的间隔区域上:(i)有吸引力的非共价相互作用,其可以与捕获寡核苷酸进行碱基配对,或(ii)与离散间隔开的区域共价相互作用。应当理解,阵列的dna复合物可以包含本文描述的或根据本文所述的方法制备的复合物的任何性质。另外,复合物可以具有以下特征中的一个或多个的任何组合:(i)阵列包含至少106个离散区域,(ii)所述多联体包含至少50个,更经常至少100个,更经常至少500个单体,(iii)其中单链dna多联体通过原位变性双链多联体产生,(iv)其中第四dna链包含衔接子序列的至少10个碱基,优选至少12个碱基,并且任选地至少15个碱基,(v)第四dna链与与其杂交的第二dna链完全互补。在一些实施方案中,第四dna链是能够活化为用于引物延伸(例如,通过合成反应测序)的引物的寡核苷酸,或者是这种引物的延伸产物,或者是能够活化为用于通过连接进行测序的锚定物的寡核苷酸,或者是这种寡核苷酸和标记探针(例如,标记的cpal探针)的连接产物。在一种方法中,第四dna链包含与衔接子序列互补的部分和与靶序列互补的部分。14.2簇在一方面,本发明包括dna复合物的阵列。在一个方面,该阵列是包括离散区域的阵列的载体,其中多个区域包括:(a)双链或单链dna的克隆簇,每个dna包含侧翼为第一衔接子和第二衔接子的靶序列;(b)其中(a)中的所述簇的至少一个子集的多个dna中的每一个包含,(i)与其部分杂交的第二dna链,其中每个第二链dna包含与所述靶序列互补的部分和与所述第一衔接子序列的至少一部分互补的部分,并且其中与所述靶序列互补的所述第二链的一部分不与所述dna杂交,并且与所述第一衔接子的至少一部分互补的所述第二链的一部分与所述dna杂交,以及(ii)第三dna链,其包含与所述靶序列互补并与所述靶序列杂交的部分以及与所述第二衔接子序列互补并与所述第二衔接子序列杂交的部分;以及(c)其中(b)的多个dna的至少一个子集中的每一个包含在杂交位点处与所述第三dna链杂交的第四dna链,其中所述第四dna链包含所述第二衔接子的所述序列的至少一部分并且所述杂交位点与所述第二衔接子序列的至少一部分互补。应当理解,阵列的dna复合物可以包含本文描述的或根据本文所述的方法制备的复合物的任何性质。另外,复合物可以具有以下特征中的一个或多个的任何组合:(i)阵列包含至少106个离散区域,(ii)其中dna是单链,(iii)其中第四dna链包含衔接子的序列的至少10个碱基,优选至少12个碱基和任选至少15个碱基,(iv)第四dna链与与其杂交的第二dna链完全互补。在一些实施方案中,第四dna链是能够活化为用于引物延伸的引物(例如,通过合成反应测序)的寡核苷酸,或者是这种引物的延伸产物,或者是能够活化为用于通过连接进行测序的锚定物的寡核苷酸,或者是这种寡核苷酸和标记探针(例如,标记的cpal探针)的连接产物。在一种方法中,第四dna链包含与衔接子序列互补的部分和与靶序列互补的部分。14.3组合物在一个方面,本发明提供包含如第14.1或14.2节所述的阵列和选自dna连接酶和dna聚合酶的酶的组合物,其中所述dna聚合酶具有链置换活性。在一个实施方案中,组合物还包含荧光标记的dntp(例如dntp类似物)和/或标记的寡核苷酸探针池。15实施例15.1实施例1:在dnb上产生互补悬伸部用于双端测序在该实施例中,使用completegenomics(cgi)的dnb阵列芯片(dnbnanoballtmarray)进行已知衔接子序列的通过合成进行测序。通过使用包含人基因组dna片段和衔接子ad141-2的单链环的文库进行滚环扩增产生dnb。ad141-25’-aagtcggaggccaagcggtcttaggaagacaagctcgagctcgagcgatcgggcttcgactggagac-3’(seqidno:1;参见图5)。1um延伸引物ad120_3t_21bp:5'-gatcgggcttcgactggagac-3'(seqidno:2;“第一延伸引物”)和1μm延伸引物cx117:5'-aagtcggaggccaag-3'(seqidno:3;“第二延伸引物”)与dnb阵列在35℃下杂交30分钟,参见图5。在该实验中,选择引物,使得衔接子序列的21个碱基被确定(因此,阵列中的所有dnb都给出相同的序列读出)。然后在35℃下使引物在含有phi29聚合酶1.0u/ul的1×phi29缓冲液,0.1mg/mlbsa,20%甘油,2%dmso,25umdntp的延伸混合物中延伸(第二链和第三链合成)20分钟,以合成互补链(“后续片段”)。然后通过加入250μmddntp终止延伸。然后将测序寡核苷酸(4um)ad041_helper或ad041_5t(图5)与后续片段(第三链)的单链悬伸部分杂交。然后在35℃下用cicada,并用hotmychem#2进行sbs,25个循环,持续30分钟。在测序反应中使用4种不同荧光染料标记的可逆终止子核苷酸(rt)。txr代表德州红;fit代表荧光素;cy5代表花菁5;cy3代表花菁3。表2中所示信号的平均值表示阵列上掺入具有鉴定的碱基特异性染料的碱基的所有dnb的平均值。最高值表示为所述碱基被命名用于所述特定位置。例如:在位置1,具有最高的信号平均值的与碱基a相关的cy3染料称为a。结果:所有21个碱基被正确地命名,因为测序区域是agaccgcttggcctccgactt,其是与衔接子区域cx117的互补序列。不同的延伸时间产生不同的信号强度(数据未显示)。测定来自与衔接子区域cx117互补的互补物的21个碱基的信号。见表2。表2对与衔接子区域cx117互补的互补物的21个碱基进行测序15.2实施例2:基因组序列的序列测定已经使用本文所述的本发明对含有基因组序列的多个dnb进行了测序。该表表示已经完全唯一地映射到基因组的在completegenomics(cgi)的dnb阵列芯片(dnbnanoballtm阵列)上的dnb的存在(标记为正好1次/0次或>1次);l01&l08:首先代表第一链的映射;l02:衔接子测序(无基因组测序)和l03-l07:第二链基因组测序。线l03-l07具有甚至更高的完全唯一映射的dnb与基因组的比率(恰好一次)。百分比通过使用阵列上排列的所有dnb来计算。表3通过sbs测序的25个碱基基因组序列的映射结果#对准到参考l01l02l03l04l05l06l07l080次25.91%99.90%15.67%21.36%15.27%15.35%15.95%26.19%正好1次54.03%0.09%63.11%58.94%63.72%63.48%62.64%53.49%>1次20.06%0.01%21.22%19.71%21.01%21.17%21.41%20.33%本申请涉及于2015年2月17日提交的美国临时申请no.62/117,391,其全部内容通过引用并入本文。本文引用的所有公开和专利文献通过引用并入本文,如同每个这样的公开或文献被具体和单独地指明为通过引用并入本文。虽然主要参考具体实施方案描述了本发明,但是也可以设想,对于本领域技术人员而言,在阅读本公开内容之后,其他实施方式将变得显而易见,并且它意图是在本发明的方法中包含这样的实施方案。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1