通过数字化转座子的单倍体组测定的制作方法

文档序号:11528775阅读:606来源:国知局
通过数字化转座子的单倍体组测定的制造方法与工艺

相关申请的交叉引用

本申请要求于2014年5月23日提交的第62/002,733号美国临时申请的权益,该临时申请通过引用整体并入本文。

关于对联邦资助的研究与开发下作出的发明享有权利的声明

不适用。

本发明总体上涉及利用转座子确定单倍体组(haploidome)的领域。在特定的实施方案中,本发明涉及利用数字化的转座子由单细胞高分辨率地确定完整单倍体组的方法和组合物。



背景技术:

已经充分证明,通过基于pcr的扩增或通过等温扩增进行的全基因组扩增通常导致有偏差的扩增,从而致使一些区域扩增过度,而另一些区域扩增不足。这种偏差使得拷贝数变异(cnv)难以确定,并且使单核苷酸多态性(snp)或单核苷酸变异(snv;即突变)的鉴定或“判定”具有挑战性。

已经采用多种计算机程序来帮助解决这些问题。然而,由于扩增的无序性,常常难以确定观察到的cnv是真实的还是扩增的假象。此外,大多数计算机程序基于每个基因组由44条常染色体和两条性染色体组成的假设而运行,但并非所有细胞均如此,而且对于癌细胞来说肯定不是这样,癌细胞可在癌细胞系内和癌组织内的细胞之间在拷贝数方面表现出巨大差异。

具体而言,核型分析研究已发现,一些正常的哺乳动物细胞具有高倍性。单细胞可含有4、6、8条或多达数百条全套染色体。这些细胞在整个基因组中具有一致的拷贝数变化。因此,利用常规测序方法或pcr无法确定这些细胞的绝对拷贝数,原因在于这些方法全部依赖于染色体上的至少一个参考点,该参考点可能是基因或区段或整个染色体。

肿瘤组织中或已确立的肿瘤细胞系中的肿瘤细胞的核型倾向于甚至更加复杂且不均匀。染色体数目常常从少于46条(亚倍体)至92条(四倍体)不等。在已确立的肿瘤细胞系内或肿瘤组织内的肿瘤细胞由具有不同染色体数目的细胞集合组成,并且特定染色体,例如染色体1,可在一个细胞中以1个拷贝,或2个拷贝,或5个拷贝,或6个拷贝,或7个拷贝存在,但在另一个细胞中可能缺失,这都增加了复杂性。因此,对于此类肿瘤细胞系,染色体1的平均拷贝数可以为分数。因为七个染色体1之一上的一个突变将由14%的读序(reads)来表示,所以对于类似于此的情况,突变“判定”极具挑战性。

此外,在癌症研究中的罕见突变检测中,即使在“深度测序”的帮助下,测序中约1%的典型错误率也常常导致数以亿计的测序错误。这些分散的错误在一些应用中可以被容忍,但如果在次要等位基因中出现罕见突变,则在鉴定细胞群体以及单细胞中的超罕见突变时会变得非常成问题。



技术实现要素:

在各个方面,本文预期的发明可包括但不必限于以下实施方案中的任一个或多个:

实施方案1:一种试剂盒,其包含一组两个或更多个转座子,其中每个转座子包含不同的第一转座子条形码序列和位于填充序列侧翼的转座子末端,其中所述转座子各自在所述填充序列中包含相同的第一引物结合位点并且能够被转座酶插入核酸中。

实施方案2:根据实施方案1所述的试剂盒,其中所述第一转座子条形码序列位于转座子末端内或邻近转座子末端。

实施方案3:根据实施方案1或2所述的试剂盒,其中每个转座子另外包含第二转座子条形码序列。

实施方案4:根据实施方案3所述的试剂盒,其中所述第二转座子条形码序列位于一个转座子末端内或邻近一个转座子末端,并且其中所述第一转座子条形码序列位于另一个转座子末端内或邻近另一个转座子末端。

实施方案5:根据实施方案1-4所述的试剂盒,其中所述转座子另外包含第一索引序列,并且其中所述试剂盒包含多组两个或更多个转座子,其中该组内的每个转座子包含不同的第一转座子条形码序列,并且每组转座子的特征在于不同的索引序列。

实施方案6:根据实施方案1-5所述的试剂盒,其中所述第一索引序列邻近第一条形码或转座子末端。

实施方案7:根据实施方案5和6所述的试剂盒,其中每个转座子另外包含第二索引序列。

实施方案8:根据实施方案7所述的试剂盒,其中每个转座子包含:位于一个转座子末端内或邻近一个转座子末端的第一转座子条形码序列,以及位于另一个转座子末端内或邻近另一个转座子末端的第二转座子条形码序列;其中所述第一索引序列邻近第一条形码序列,并且所述第二索引序列邻近第二条形码序列。

实施方案9:根据实施方案1-8中任一项所述的试剂盒,其中所述第一引物结合位点位于所述填充序列中,并且包含适于引发全基因组扩增(wga)的位点。

实施方案10:根据实施方案1-9所述的试剂盒,其中每个转座子另外包含第二引物结合位点。

实施方案11:根据实施方案10所述的试剂盒,其中所述第二引物结合位点(如果存在)位于所述第一转座子条形码序列和所述第一索引序列的内侧,其中所述第二引物结合位点包含适于引发dna测序的位点。

实施方案12:根据实施方案4所述的试剂盒,其中每个转座子另外包含第三引物结合位点。

实施方案13:根据实施方案12所述的试剂盒,其中所述第三引物结合位点位于所述第二转座子条形码序列和第二索引序列的内侧,其中所述第三引物结合位点包含适于引发dna测序的位点。

实施方案14:根据实施方案12所述的试剂盒,其中每个转座子包含:位于一个转座子末端内或邻近一个转座子末端的第一转座子条形码序列,以及位于另一个转座子末端内或邻近另一个转座子末端的第二转座子条形码序列;其中:第一索引序列邻近所述第一条形码序列;第二索引序列邻近所述第二条形码序列;所述第一引物结合位点位于所述填充序列中;所述第二引物结合位点位于所述第一条形码序列和所述第一索引序列的内侧;并且所述第三引物结合位点位于所述第二条形码序列和所述第二索引序列的内侧。

实施方案15:根据实施方案12-14所述的试剂盒,其中所述第二引物结合位点与第三引物结合位点相同。

实施方案16:根据实施方案1-15所述的试剂盒,其中所述填充序列是双链的。

实施方案17:根据实施方案16所述的试剂盒,其中所述填充序列为至少400个核苷酸长。

实施方案18:根据实施方案1-15所述的试剂盒,其中所述填充序列是单链的。

实施方案19:根据实施方案18所述的试剂盒,其中所述填充序列为至少45个核苷酸长。

实施方案20:根据实施方案1-19所述的试剂盒,其中所述两个或更多个转座子是单链转座子。

实施方案21:一种标记样品核酸的方法,该方法包括:使来源于10个或更少细胞的样品核酸与能够将转座子并入所述样品核酸中的负载的转座酶接触;从而形成核酸分子,其中特定的转座子与特定的核酸区段相关联;以及检测包含至少一个基因座的不同转座子-核酸区段组合的数目。

实施方案22:根据实施方案21所述的方法,其中所述不同转座子-核酸区段组合包含在不同位点插入的相同的转座子序列。

实施方案23:根据实施方案21所述的方法,其中所述不同转座子-核酸区段组合包含通过不同的转座酶插入的不同的转座子序列。

实施方案24:根据实施方案21所述的方法,其中所述转座子包括一组两个或更多个转座子,其中:每个转座子包含不同的第一转座子条形码序列;所述接触形成条形编码的(barcoded)核酸分子,其中特定的转座子条形码与特定的核酸区段相关联;并且所述检测包括检测包含至少一个基因座的不同条形码-核酸区段组合的数目。

实施方案25:根据实施方案21-24所述的方法,其中所述转座子包括单链转座子。

实施方案26:根据实施方案24所述的方法,其中所述转座子包括来自实施方案1-20所述的试剂盒的转座子。

实施方案27:根据实施方案24或26所述的方法,其中所述方法包括将至少10个不同的条形码并入所述样品核酸中。

实施方案28:根据实施方案21-27所述的方法,其中所述样品核酸包含来源于不多于单个细胞的基因组dna。

实施方案29:根据实施方案21-28所述的方法,其中所述方法包括每500个基因组dna碱基对平均并入一个转座子。

实施方案30:根据实施方案21-29所述的方法,其中所述样品核酸的子组对于允许转座的负载的转座酶是充分可及(suffiicentlyaccessible)的,而另一个子组对于允许转座的负载的转座酶不是充分可及的。

实施方案31:根据实施方案30所述的方法,其中所述样品核酸包含染色质,并且所述对于允许转座的负载的转座酶充分可及的样品核酸的子组包括在所述染色质中处于开放构型的核酸。

实施方案32:根据实施方案30所述的方法,其中所述样品核酸包含具有关联的甲基-cpg结合域(mbd)蛋白的染色质,并且所述对于允许转座的负载的转座酶不是充分可及的样品核酸的子组包括在cpg岛中的核酸。

实施方案33:根据实施方案21-32所述的方法,其中所述方法另外包括进行所述核酸分子的全基因组扩增。

实施方案34:根据实施方案21-33所述的方法,其中所述检测包括dna测序。

实施方案35:根据实施方案21-34所述的方法,其中所述样品核酸包含基因组dna,并且所述方法包括检测包含至少一个基因座的不同转座子-核酸区段组合的数目,以确定该基因座的拷贝数。

实施方案36:根据实施方案35所述的方法,其中当检测到的不同转座子-核酸区段组合的数目大于所述基因座的等位基因的预期正常数目时,将所述样品鉴别为其中所述基因座的数目高于所述细胞中预期的拷贝数的样品。

实施方案37:根据实施方案35所述的方法,其中当检测到的不同转座子-核酸区段组合的数目小于所述基因座的等位基因的预期正常数目时,将所述样品鉴别为其中所述基因座的数目小于所述细胞中预期的拷贝数或可能已在扩增和/或测序期间发生等位基因脱扣(allele-dropout)的样品。

实施方案38:根据实施方案35所述的方法,其中当检测到的转座子-核酸区段组合包含两个不同的组合并且其中在所述基因座处包含相同核酸序列的核酸区段与在不同插入位点处的一个或多个转座子、一个或多个不同的转座子序列和/或一个或多个不同的条形码、其组合相关联时,将所述样品鉴别为二倍体并且对于所述基因座是纯合的。

实施方案39:根据实施方案35所述的方法,其中当检测到的转座子-核酸区段组合包含两个不同的转座子-核酸区段组合并且其中在所述基因座处包含不同核酸序列的核酸区段各自与在不同插入位点处的一个或多个转座子、一个或多个不同的转座子序列和/或一个或多个不同的条形码、其组合相关联时,将所述样品鉴别为二倍体并且对于所述基因座是杂合的。

实施方案40:根据实施方案34所述的方法,其中当检测到的转座子-核酸区段组合包含两个不同的转座子-核酸区段组合并且其中在所述基因座处包含不同核酸序列的核酸区段各自与在相同插入位点处的相同转座子或条形码相关联时,将所述样品鉴别为在扩增或测序期间可能已将错误引入所述样品核酸序列的样品。

实施方案41:根据实施方案34所述的方法,其中当检测到的转座子-核酸区段组合包含两个或更多个不同的转座子-核酸区段组合并且其中在所述基因座处包含不同核酸序列的核酸区段各自与在不同插入位点处的一个或多个转座子、一个或多个不同的转座子序列和/或一个或多个不同的条形码、其组合相关联时,将所述样品鉴别为在所述基因座处包含序列差异的样品。

实施方案42:根据实施方案36-41中任一项所述的方法,其中所述转座子包含条形码,并且所述检测转座子-核酸区段组合包括检测条形码-核酸区段组合。

实施方案43:根据实施方案35所述的方法,其中所述方法包括平均以小于10千碱基的分辨率测定全基因组拷贝数变异。

实施方案44:根据实施方案43所述的方法,其中所述方法包括平均以大约500个碱基的分辨率测定全基因组拷贝数变异。

实施方案45:根据实施方案21-34所述的方法,其中所述方法另外包括确定两个分离的基因座是否存在于相同染色体上,其中将一个或多个转座子并入间插(intervening)样品核酸序列中以产生转座子-核酸区段组合,并且所述方法另外包括分析所述基因座以确定这两个基因座是否与相同的转座子-核酸区段组合相连接,其中所述基因座与相同转座子-核酸区段组合相连接的确定指示所述基因座存在于相同染色体上。

实施方案46:根据实施方案45所述的方法,所述方法另外包括检测与两个基因座连接的不同转座子-核酸区段组合的数目,以确定含有这两个基因座的基因组dna区段的拷贝数。

实施方案47:根据实施方案21-34所述的方法,其中:所述接触包括在第一轮转座中使在第一条件下的样品核酸与负载的转座酶接触以形成第一组核酸分子,其中特定的第一转座子与特定的核酸区段相关联;并且所述方法另外包括:使所述第一组核酸分子在第二条件下经受第二轮转座以形成第二组核酸分子,其中特定的第二转座子与特定的核酸区段相关联,所述第二转座子不同于所述第一转座子;并且对于至少一个基因座,检测:包含第一转座子的不同转座子-核酸区段组合的数目;以及包含第二转座子的不同转座子-核酸区段组合的数目。

实施方案48:根据实施方案47所述的方法,其中:在所述第一条件下的样品核酸包含染色质;在所述第二条件下的第一组核酸分子包含纯化的dna;包含第一转座子的不同转座子-核酸区段组合鉴别在所述染色质中具有开放构型的不同等位基因;并且包含第二转座子的不同转座子-核酸区段组合鉴别在所述染色质中具有开放构型的不同等位基因。

实施方案49:根据实施方案48所述的方法,其中所述样品核酸包含针对所述基因座而言的野生型等位基因和突变型等位基因,并进行分析以确定所述野生型等位基因是否在所述染色质中具有开放构型。

实施方案50:根据实施方案48或49所述的方法,其中所述方法另外包括,对于至少第二基因座,检测:包含第一转座子的不同转座子-核酸区段组合的数目;以及包含第二转座子的不同转座子-核酸区段组合的数目。

实施方案51:根据实施方案50所述的方法,其中所述方法另外包括确定所述两个基因座是否存在于相同染色体上,其中将多个第一和/或第二转座子并入间插样品核酸序列中,并且所述方法另外包括分析所述基因座以确定它们是否与相同的多个转座子相连接,其中所述基因座与相同的多个转座子相连接的确定指示所述基因座存在于相同染色体上。

实施方案52:根据实施方案50或51所述的方法,其中所述第一基因座包含结构基因,而所述第二基因座包含该结构基因的调节基因。

实施方案53:根据实施方案49-52所述的方法,其中所述至少一个基因座或所述第一基因座包含肿瘤抑制基因。

实施方案54:一种人工转座子末端,其包含其中相应野生型转座子末端序列的至少2个核苷酸分别被不同核苷酸取代的序列。

实施方案55:根据实施方案54所述的人工转座子末端,其中所述野生型转座子末端序列包括单链转座子末端序列。

实施方案56:一种试剂盒,其包含一组两个或更多个不同的第一人工转座子末端,每个第一人工转座子末端包含其中相应野生型转座子末端序列的至少2个核苷酸分别被不同核苷酸取代的序列,所述取代限定条形码,其中不同的第一人工转座子末端包含不同的条形码。

实施方案57:根据实施方案56所述的试剂盒,其中所述野生型转座子末端序列包括单链转座子末端序列。

实施方案58:根据实施方案56所述的试剂盒,其中不同的人工转座子末端彼此分开包装。

实施方案59:根据实施方案56或57所述的试剂盒,其中所述试剂盒另外包含能够将所述第一人工转座子末端并入样品核酸中的转座酶。

实施方案60:根据实施方案59所述的试剂盒,其中不同的第一人工转座子末端彼此分开包装,并且所述转座酶与每个不同的人工转座子末端包装在一起。

实施方案61:根据实施方案56-60中任一项所述的试剂盒,其中所述试剂盒另外包含第二转座子末端,其中所述转座酶另外能够将所述第二转座子末端并入所述样品核酸中,从而形成标记的核酸分子,其中所述第一转座子末端和第二转座子末端在样品核酸序列侧翼并被样品核酸序列分开。

实施方案62:根据实施方案61所述的试剂盒,其中所述第二转座子末端包含与任何所述第一人工转座子末端的核苷酸序列不同的核苷酸序列。

实施方案63:根据实施方案61或62所述的试剂盒,其中所述第二转座子末端包括第二人工转座子末端,该第二人工转座子末端包含其中相应野生型转座子末端序列的至少2个核苷酸分别被不同核苷酸取代的序列,所述取代限定条形码。

实施方案64:根据实施方案63所述的试剂盒,其中所述试剂盒包含一组第二人工转座子末端,其中不同的第二人工转座子末端具有不同的条形码。

实施方案65:根据实施方案56-60所述的试剂盒,其中所述试剂盒另外包含在所述人工转座子末端内结合并引发包含所述条形码的核苷酸序列的聚合的引物,其中多个不同的人工转座子末端包含相同的引物结合位点。

实施方案66:根据实施方案56-65所述的试剂盒,其中所述条形码包含至少3个核苷酸。

实施方案67:根据实施方案56-66所述的试剂盒,其中所述条形码核苷酸彼此相邻。

实施方案68:根据实施方案67所述的试剂盒,其中试剂盒包含在邻近所述条形码的位点处在人工转座子末端内结合并引发包含所述条形码的核苷酸序列的聚合的引物,该条形码邻近与所述样品核酸序列相邻的任何不变的转座子末端核苷酸。

实施方案69:一种产生标记的核酸分子的方法,该方法包括:使样品核酸与负载的转座酶接触,其中所述转座酶负载有第一人工转座子末端,该第一人工转座子末端包含其中相应野生型转座子末端序列的至少2个核苷酸分别被不同的核苷酸取代的序列,所述取代限定条形码,其中负载的转座酶能够将所述第一人工转座子末端并入所述样品核酸中;以及从而形成包含位于样品核酸区段侧翼的第一人工转座子末端的标记的核酸分子。

实施方案70:根据实施方案69所述的方法,其中所述野生型转座子末端包括单链转座子末端,并且所述转座酶包括单链转座酶。

实施方案71:根据实施方案69所述的方法,其中所述方法另外包括:使所述样品核酸与第二转座子末端接触,其中所述转座酶另外能够将所述第二转座子末端并入所述样品核酸中;以及从而形成标记的核酸分子,其中所述第一转座子末端和第二转座子末端位于所述样品核酸区段侧翼并被所述样品核酸区段分开。

实施方案72:根据实施方案71所述的方法,其中所述第二转座子末端包含与所述第一人工转座子末端的核苷酸序列不同的核苷酸序列。

实施方案73:根据实施方案71或72所述的方法,其中所述第二转座子末端包括第二人工转座子末端,该第二人工转座子末端包含其中相应野生型转座子末端序列的至少2个核苷酸分别被不同的核苷酸取代的序列,所述取代限定条形码。

实施方案74:根据实施方案69-73所述的方法,其中所述方法包括使样品核酸与一组第一人工转座子末端接触,其中不同的第一人工转座子末端具有不同的条形码。

实施方案75:根据实施方案73或74所述的方法,其中所述方法包括使样品核酸与一组第二人工转座子末端接触,其中不同的第二人工转座子末端具有不同的条形码。

实施方案76:根据实施方案73-75所述的方法,其中使用不同的条形码鉴别来自不同样品的核酸区段。

实施方案77:根据实施方案69-76所述的方法,其中所述方法另外包括使用在所述人工转座子末端内结合并引发包含所述条形码的核苷酸序列的聚合的引物对标记的核酸分子进行测序。

实施方案78:根据实施方案69-77所述的方法,其中所述条形码包含至少3个核苷酸。

实施方案79:根据实施方案69-78所述的方法,其中所述条形码核苷酸彼此相邻。

实施方案80:根据实施方案79所述的方法,其中所述方法另外包括使用在邻近所述条形码的位点处在人工转座子末端内结合并引发包含所述条形码的核苷酸序列的聚合的引物对标记的核酸分子进行测序,该条形码邻近与所述样品核酸区段相邻的任何不变的转座子末端核苷酸。

附图说明

图1显示了用于根据本文所述方法将条形码并入核酸中的说明性转座子的结构。

图2a-2b说明了转座子介导的条形编码(barcoding)在拷贝数确定中的应用。(2a)基因a和基因b各自仅产生一个转座子条形码-核酸区段组合,表明其各自以一个拷贝存在;虽然这些基因被不同程度地扩增,但可以使用转座子介导的条形编码得出以下结论:他们实际上具有相同的拷贝数。(2b)基因c产生三种不同的转座子条形码-核酸区段组合,表明其以三个拷贝存在。

图3a-3c说明了转座子介导的条形编码用于促进杂合子相对于纯合子的正确判定的应用。(3a)左图显示dna测序产生大量具有相同单核苷酸多态性(snp)的读序,其可以表明对于snp而言的纯合子或不同等位基因的丢失(“等位基因脱扣”)。右图显示转座子介导的条形编码仅产生一个条形码-核酸区段组合,表明一个等位基因上仅有一个转座事件;因此,存在高概率的等位基因脱扣,这意味着无法可靠地确定样品对于snp而言是杂合的还是纯合的。(3b)左图显示dna测序产生大量在一个基因座处具有snpa的读序,和一个具有snpg的读序;这可反映杂合子或测序错误。(注意:序列以两种不同的颜色显示,以表明它们源自两条不同的染色体;然而,除snp外,它们在测序读序中似乎是相同的)。右图显示转座子介导的条形编码产生两种不同的条形码-核酸区段组合,表明该核酸区段以对于snp而言具有不同序列的两个拷贝存在,即,样品对于该snp是杂合的。(3c)左图显示dna测序产生在基因座处具有snpa的一些读序和具有snpg的一些读序;这可反映杂合子或测序错误。(如上所述,序列以两种不同的颜色显示,以表明它们来源于两条不同的染色体;然而,除snp外,它们在测序读序中似乎是相同的)。右图显示转座子介导的条形编码产生两种不同的条形码-核酸区段组合(上组读序和下组读序),表明核酸区段以两个拷贝存在;因为一个组合(下组读序)在snp位点处具有两个不同的碱基,所以可以得出以下结论:扩增或测序错误导致这些碱基中的一种。

图4说明了转座子介导的条形编码用于确定两个远距离分开的特征(在这种情况下为snp)位于同一染色体上的应用。更具体地,在snp之间引入转座子条形码,并且每个snp与这些间插的条形码中的一个或多个相关联的确定表明这两个snp是连接的。

图5显示了说明性单链转座子(is408)的结构。le通常以三个部分从5'到3'排列:le连接体、gl和ipl。该le连接体位于右侧切割位点cl的3'侧。tnpa在cl与该连接体之间切割。ipl为近末端的二级结构,gl充当le的指导序列;gl与cl相互作用以获得适当的转座酶活性。re也由3个部分组成,以三个部分从5'到3'排列:ipr、re连接体和cr。gr充当re的指导序列,gr与cr相互作用以获得适当的转座酶活性。cl和cr分别限定右侧切割位点和左侧切割位点。

图6显示了准备在illuminadna测序平台上测序的片段的结构。测序引物与标记为p5或p7的位点退火,并且在它们开始读取靶序列之前通过条形码(index1或index2)和转座子末端(rd1sp或rd2sp)引发测序。

图7显示了针对双链转座子的说明性体外转座反应。

图8a-f说明了各种可能的转座体(transpososome)复合物。如图所示,填充序列可以是双链的(a)、不连续的(b)或单链的(c和e),任选地具有3'-3'连接(d)或5'-5'连接(f)。

图9a-b显示了从实施例3所述的研究中获得的序列的比对。(a)染色体dna序列;(b)线粒体dna序列。

图10显示了从实施例3所述的研究中获得的另外的染色体dna序列的比对。共有序列以大写字母表示,而非共有序列以小写字母表示。箭头突出显示了条形码用于辨别真实变体与可能的测序错误的潜在用途。

具体实施方式

在某些实施方案中,本发明提供了在进一步分析之前通过使用转座酶将差异条形编码的转座子插入例如来源于单细胞或限定数目的相同细胞的基因组dna中而“数字化地”标记不同染色体的不同等位基因的方式。根据该方法,每个等位基因变得标记有独特的转座子条形码模式。因为每种独特的转座子条形码模式标识出特定的等位基因,所以该方法有利于确定倍性和拷贝数变异,提高辨别纯合子、杂合子和由测序错误产生的模式的能力,并允许将由不提供信息的dna段隔开的基因座鉴别为连锁基因座(linkedloci),从而有利于单倍型确定。先前已使用包含特定序列及其被检测到的次数(即,特定序列的“读序”的数目)的高通量dna测序结果进行了此类确定。然而,由于扩增效率及测序错误的差异,这些结果通常难以解释。本文所述的方法通过可以清楚地鉴别不同等位基因的存在而克服了这些问题。因为与感兴趣的特定核酸区段相关联的独特转座子条形码模式的数目等于存在的等位基因的数目,所以,例如,可以明确地鉴别拷贝数变异(cnv)。因此,该方法允许轻松地区分对于该等位基因为三倍体的细胞(产生三种独特模式)与为二倍体但其中一个等位基因在分析期间被过度扩增的细胞(但仅具有两种独特模式)。

定义

除非另有说明,否则权利要求书和说明书中使用的术语定义如下。

术语“核酸”是指核苷酸聚合物,并且除非另有限定,其包括可以以与天然存在的核苷酸类似的方式起作用(例如,杂交)的天然核苷酸的已知类似物。

术语核酸包括任何形式的dna或rna,包括例如基因组dna;互补dna(cdna),其为mrna的dna表现形式,通常通过信使rna(mrna)的逆转录或通过扩增获得;合成或通过扩增产生的dna分子;以及mrna。

术语核酸包括双链或三链核酸,以及单链分子。在双链或三链核酸中,核酸链不一定共同延伸(即,双链核酸不一定沿两条链的整个长度均是双链的)。

术语核酸还包括其任何化学修饰,如通过甲基化和/或通过加帽的化学修饰。核酸修饰可包括化学基团的添加,该化学基团向单个核酸碱基或整个核酸上引入额外的电荷、极化率、氢键键合、静电相互作用及官能性。此类修饰可包括碱基修饰如2'-位糖修饰、5-位嘧啶修饰、8-位嘌呤修饰、胞嘧啶环外胺处的修饰、5-溴尿嘧啶置换、骨架修饰、异常碱基配对组合如异碱基(isobase)异胞苷与异胍,等等。

更具体地,在某些实施方案中,核酸可包括多脱氧核糖核苷酸(含2-脱氧-d-核糖)、多核糖核苷酸(含d-核糖),和为嘌呤或嘧啶碱基的n-糖苷或c-糖苷的任何其他类型的核酸,以及含有非核苷酸骨架的其他聚合物,例如,聚酰胺(例如,肽核酸(pna))和多吗啉基聚合物(可作为neugene从anti-virals,inc.,corvallis,oregon处商购),以及其他合成的序列特异性核酸聚合物,只要该聚合物含有允许碱基配对和碱基堆叠的构型的核碱基,如在dna和rna中所发现的。术语核酸还包括锁定核酸(lna),其在第6,794,499号、第6,670,461号、第6,262,490号及第6,770,748号美国专利中描述,这些专利由于其lna的公开内容而通过引用整体并入本文。

核酸可来源于完全化学的合成过程如固相介导的化学合成,来源于生物来源如通过从产生核酸的任何物质中分离,或来源于涉及通过分子生物学工具操作核酸的方法如dna复制、pcr扩增、逆转录,或来源于这些方法的组合。

如本文所用的,术语“互补”是指两个核苷酸之间精确配对的能力。即,如果在核酸的给定位置处的核苷酸能够与另一核酸的核苷酸形成标准的氢键,则认为这两个核酸在该位置处彼此互补。两个单链核酸分子之间的互补性可以是“部分的”,其中只有一些核苷酸结合,或者当在单链分子之间存在全部互补性时该互补性可以是完全的。核酸链之间的互补性程度对核酸链之间杂交的效率和强度具有显著影响。如果第一核苷酸序列与第二核苷酸序列互补,则称第一核苷酸序列为第二序列的“互补序列”。如果第一核苷酸序列与为第二序列的反向序列(即,核苷酸的顺序颠倒)的序列互补,则称第一核苷酸序列为第二序列的“反向互补序列”。

“特异性杂交”是指在所限定的严格性条件下,在不存在核酸与杂交混合物中存在的其他核苷酸序列显著结合的情况下,核酸与靶核苷酸序列的结合。本领域技术人员认识到,放宽杂交条件的严格性将使序列错配变得可以容忍。

在特定实施方案中,杂交在严格杂交条件下进行。短语“严格杂交条件”通常是指在限定的离子强度和ph下,比特定序列的解链温度(tm)低约5℃至约20℃或25℃的范围内的温度。如本文所用的,tm为双链核酸分子群体将半解离成单链时的温度。用于计算核酸tm的方法是本领域公知的(参见例如berger和kimmel(1987)methodsinenzymology,vol.152:guidetomolecularcloningtechniques,sandiego:academicpress,inc.,和sambrook等人(1989)molecularcloning:alaboratorymanual,第二版,vols.1-3,coldspringharborlaboratory),二者通过引用并入本文。如标准参考文献所述,当核酸处于1mnacl的水溶液中时,可以通过等式tm=81.5+0.41(%g+c)计算tm值的简单估计值(参见例如anderson和young,quantitativefilterhybridizationinnucleicacidhybridization(1985))。杂合体的解链温度(因此严格杂交的条件)受到各种因素的影响,如引物或探针的长度和性质(dna、rna、碱基组成)和靶核酸的性质(dna、rna、碱基组成、存在于溶液中或固定化,等等),以及盐和其他组分的浓度(例如,甲酰胺、硫酸葡聚糖、聚乙二醇的存在或不存在)。这些因素的影响是公知的,并且在本领域的标准参考文献中讨论。适于实现大多数序列的特异性杂交的说明性严格条件为:在ph7下至少约60℃的温度和约0.2摩尔的盐浓度。

术语“寡核苷酸”用于指相对较短,通常少于200个核苷酸,更特别地少于100个核苷酸,最特别地少于50个核苷酸的核酸。寡核苷酸可以是单链或双链dna分子。

术语“引物”是指能够与核酸杂交(也称为“退火”),并在合适的缓冲液中及在合适的温度下于合适的条件下(即,在四种不同的核苷三磷酸和用于聚合的试剂如dna或rna聚合酶或逆转录酶的存在下)充当核苷酸(rna或dna)聚合的起始位点的寡核苷酸。合适的引物长度取决于引物的预期用途,但引物的长度典型地为至少7个核苷酸长,更典型地在10至30个核苷酸的范围内,或甚至更典型地为15至30个核苷酸。其他引物可以稍长,例如30至50个核苷酸长。在该语境下,“引物长度”是指与互补靶序列杂交并引发核苷酸合成的寡核苷酸或核酸的部分。短引物分子通常需要更冷的温度来与模板形成足够稳定的杂合复合物。引物不必反映模板的精确序列,但必须足够互补以与模板杂交。术语“引物位点”或“引物结合位点”是指与引物杂交的模板的区段。

如果引物或其一部分与核酸内的核苷酸序列杂交,则称该引物与另一核酸退火。引物与特定核苷酸序列杂交的陈述并非意在暗示该引物与该核苷酸序列完全地或排他性地杂交。

引物可以与靶核酸序列完全互补或可以不完全互补。在某些实施方案中,引物与靶核酸序列的互补序列在至少7个核苷酸的序列上,更通常在10-30个核苷酸范围内的序列上,并且通常在至少14-25个核苷酸的序列上具有至少65%的同一性,并且更通常具有至少75%的同一性,至少85%的同一性,至少90%的同一性,或至少95%、96%、97%、98%或99%的同一性。应当理解,某些碱基(例如,引物的3'碱基)通常与靶核酸序列的相应碱基理想地完全互补。引物和探针通常在严格杂交条件下与靶序列退火。

术语“转座子”是指能够被转座酶并入核酸中的核酸分子。转座子包含通过足够长以在转座酶存在下形成环的序列连接的两个转座子末端(也称为“臂”)。转座子可以是双链的、单链的或混合的,含有单链和双链区,这取决于用于插入该转座子的转座酶。对于mu、tn3、tn5、tn7或tn10转座酶,转座子末端是双链的,但连接序列不必是双链的。在转座事件中,将这些转座子插入双链dna中。

术语“转座子末端”是指与转座酶相互作用的序列区。对于转座酶mu、tn3、tn5、tn7、tn10等,转座子末端是双链的。对于转座酶is200/is605和israd2,转座子末端是单链的,但是其形成二级结构,就像双链区一样。在转座事件中,通过转座酶将单链转座子插入单链dna中。

术语“人工转座子末端”是指其中野生型转座子末端中的一个或多个位置已被一个或多个不同的核苷酸取代的转座子末端。

术语“转座酶”是指与转座子末端结合并催化该转座子末端与其他双链或单链核酸如基因组dna的连接的酶。转座酶通常包含偶数个亚基并结合两个转座子末端。该两个转座子末端可具有相同的序列或不同的序列。

如本文所用的,术语“条形码序列”和“索引序列”用于指编码信息的核苷酸序列。例如,“转座子条形码序列”可鉴别特定的转座子。“索引序列”可鉴别例如分析中的样品核酸(如来自特定样品或特定反应的核酸)的来源。可使用条形码区分不同的细胞、不同的处理、不同的时间点、不同的空间位置等。

“umi”是“独特分子索引”的首字母缩写,也被称为“分子索引”。umi是一组索引中的一个,该组中每个索引(或条形码)具有不同于该组中的任何其他索引的索引序列。实现这种“独特性”的一种方法是使用核苷酸串。例如,如果该串的长度为10个碱基,则存在多于1百万个独特序列;如果其为20个碱基长,则将会存在1012个独特序列。

当在本文中用于指核酸中的两个核苷酸序列时,术语“邻近(相邻的)”可以指被0至约20个核苷酸(更具体地,在约1至约10个核苷酸的范围内,甚至更具体地,在约1至约5个核苷酸的范围内)隔开的核苷酸序列,或者指彼此直接邻接的序列。

在本文中用于指转座子内的核苷酸序列的位置时,术语“内侧”表示更接近转座子中心的位置。因此,如果引物结合位点比条形码序列更接近转座子的中心,则称该引物结合位点在条形码序列的内侧。

如本文所用的,术语“与...相关联”在本文中用于描述与感兴趣的核酸序列物理连接并足够接近以通过诸如扩增和dna测序等方法一起被检测的核酸元件(例如,条形码、转座子等)。与基因或其他核酸区段相关联的条形码被并入该基因或区段中并与该基因或区段物理连接。可将条形码插入基因或区段中或附加至该基因或区段的末端。与单核苷酸多态性(snp)相关联的条形码与该snp物理连接。

根据本发明教导的“扩增”包括通常以模板依赖性方式使至少一种靶核酸的至少一部分再生的任何手段,包括但不限于用于以线性或指数方式扩增核酸序列的多种技术。用于进行扩增步骤的说明性手段包括连接酶链反应(lcr)、连接酶检测反应(ldr)、连接后q-复制酶扩增、pcr、引物延伸、链置换扩增(sda)、超支化链置换扩增、多重置换扩增(mda)、基于核酸链的扩增(nasba)、两步多重扩增、滚环扩增(rca)等,包括其多重化形式及组合,例如但不限于ola/pcr、pcr/ola、ldr/pcr、pcr/pcr/ldr、pcr/ldr、lcr/pcr、pcr/lcr(也称为组合的链反应——称为组)等。这类技术的描述可在以下及其他来源中找到:ausbel等人;pcrprimer:alaboratorymanual,diffenbach编著,coldspringharborpress(1995);theelectronicprotocolbook,changbioscience(2002);msuih等人,j.clin.micro.34:501-07(1996);thenucleicacidprotocolshandbook,r.rapley编著,humanapress,totowa,n.j.(2002);abramson等人,curropinbiotechnol.1993年2月;4(l):41-7,美国专利号6,027,998;美国专利号6,605,451,barany等人,pct公开号wo97/31256;wenz等人,pct公开号wo01/92579;day等人,genomics,29(1):152-162(1995),ehrlich等人,science252:1643-50(1991);innis等人,pcrprotocols:aguidetomethodsandapplications,academicpress(1990);favis等人,naturebiotechnology18:561-64(2000);以及rabenau等人,infection28:97-102(2000);belgrader,barany和lubin,developmentofamultiplexligationdetectionreactiondnatypingassay,sixthinternationalsymposiumonhumanidentification,1995(可在万维网promega.com/geneticidproc/ussymp6proc/blegrad.html-获得);lcrkitinstructionmanual,cat.#200520,rev.#050002,stratagene,2002;barany,proc.natl.acad.sci.usa88:188-93(1991);bi和sambrook,nucl.acidsres.25:2924-2951(1997);zirvi等人,nucl.acidres.27:e40i-viii(1999);dean等人,procnatlacadsciusa99:5261-66(2002);barany和gelfand,gene109:1-11(1991);walker等人,nucl.acidres.20:1691-96(1992);polstra等人,bmcinf.dis.2:18-(2002);lage等人,genomeres.2003年2月;13(2):294-307,以及landegren等人,science241:1077-80(1988),demidov,v.,expertrevmoldiagn.2002年11月;2(6):542-8,cook等人,jmicrobiolmethods.2003年5月;53(2):165-74,schweitzer等人,curropinbiotechnol.2001年2月;12(l):21-7,美国专利号5,830,711,美国专利号6,027,889,美国专利号5,686,243,pct公开号wo0056927a3,以及pct公开号wo9803673a1。

在一些实施方案中,扩增包括以下连续程序的至少一个循环:使至少一种引物与至少一种靶核酸中的互补或基本互补的序列退火;使用聚合酶以模板依赖性方式合成至少一条核苷酸链;以及使新形成的核酸双链体变性以分离各条链。可以重复或可以不重复该循环。扩增可包括热循环或可以等温地进行。

“全基因组扩增”(“wga”)是指旨在产生代表扩增出扩增产物的基因组的扩增产物的任何扩增方法。说明性wga方法包括引物延伸pcr(pep)和改进的pep(i-pep)、简并寡核苷酸引物pcr(dop-pcr),连接介导的pcr(lmp)、基于t7的dna线性扩增(tlad)、多重置换扩增(mda)。

术语“基于扩增的检测”是指其中可以仅通过检测扩增子的存在来检测感兴趣的核酸序列的任何检测方法,其通常通过检测染料或标记物而使用,无需分析扩增子的大小或序列。

术语“qpcr”在本文中用于指定量实时聚合酶链反应(pcr),其也被称为“实时pcr”或“动力学聚合酶链反应”。

如本文关于确定全基因组拷贝数变异所使用的,分析的分辨率以其拷贝数被确定的基因座之间的平均距离表示。因此,“平均小于x千碱基的分辨率”是指拷贝数是针对整个基因组中被小于x千碱基的平均距离隔开的基因座确定的。

当关于细胞使用时,术语“二倍体”是指具有两组未配对的染色体。当关于遗传基因座或区段使用时,术语“二倍体”是指该基因座或区段以两个拷贝存在。

当关于细胞使用时,术语“单倍体”是指具有单组未配对染色体。当关于遗传基因座或区段使用时,术语“单倍体”指该基因座或区段仅以一个拷贝存在。

生物或细胞可具有超过单倍体数目或超过物种特有的单倍体数目的确切倍数的一个或多个染色体。结果是不平衡的一组或多组染色体,根据它们含有的单倍体数目的倍数,其被称为“超二倍体”、“超三倍体”、“超四倍体”等。

生物或细胞可具有少于单倍体数目或少于物种特有的染色体的单倍体数目的确切倍数。这些不平衡的一组或多组染色体被称为“亚二倍体”、“亚三倍体”、“亚四倍体”等,取决于它们含有的单倍体染色体的倍数。

“三体性”——超倍性的一个实例,是在每个体细胞中具有给定染色体或染色体区段的三个拷贝而非正常数目两个拷贝的情况。

与染色体的单倍体数目的确切倍数的任何偏差,无论更少或更多,均被称为“非整倍性”。在几乎所有癌症中一致观察到非整倍性。体细胞嵌合在几乎所有癌细胞中发生,包括慢性淋巴细胞性白血病(cll)中的三体性12和急性髓样白血病(aml)中的三体性8。非整倍体癌细胞可具有一些染色体的亚倍性,同时具有其他染色体的超倍性。

如本文所用的,术语“单倍型”是指在染色体上的相邻位置处通过脱氧核糖核酸骨架物理连接在一起的基因座的组合。易位或染色体碎裂(chromothripsis)产生在该事件之前不存在的新单倍型。

如本文所使用的,术语“变异”用于指任何差异。变异可以指个体或群体之间的差异。变异包括与常见或正常情况的差异。因此,“拷贝数变异”或“突变”可以指与常见或正常的拷贝数或核苷酸序列的差异。其他类型的变异包括由染色体结构的变化引起的那些变异,如在易位或染色体碎裂(chromothrepsis)以及两者组合的情况下的那些变异。“表达水平变化”或“剪接变体”可以指与特定细胞或组织、发育阶段、状况等的常见或正常表达水平或rna或蛋白质不同的表达水平或rna或蛋白质。

“单倍体组”是指细胞内的完整遗传信息,其包括关于单倍型、snp和拷贝数变异(包括染色体数目变异)的信息。对于具有拷贝数变异的基因,单倍体组确定不仅可提供关于拷贝数的信息,还可提供关于变体拷贝的位置、朝向和相邻基因的信息。据报道,单细胞可含有4、6、8个或多达数百个全套染色体。这些细胞具有在整个基因组中一致地变化的拷贝数。这些单细胞的单倍体组捕获数目变化信息。

肿瘤组织或已确立的肿瘤细胞系中的肿瘤细胞倾向于甚至更加复杂且不均匀。完整的单倍体组确定提供了低至单核苷酸水平的遗传信息的完整描述。

“染色体碎裂”是指在一个或几个染色体中的局部和限制的基因组区中,在单次事件中发生多达数千个聚集的染色体重排的现象,并且已知该现象与癌症和先天性疾病均有关。

“多态性标记物”或“多态性位点”是发生核苷酸序列趋异的基因座。说明性标记物具有至少两个等位基因,每个等位基因以大于选定人群的1%,并且更通常大于10%或20%的频率出现。多态性位点可以小至一个碱基对。多态性标记物包括限制性片段长度多态性(rflp)、可变数目的串联重复(vntr)、高变区、小卫星、二核苷酸重复、三核苷酸重复、四核苷酸重复、简单序列重复、缺失和插入元件如alu。将第一个鉴别的等位基因形式任意地指定为参考形式,并将其他等位基因形式指定为替代或变异等位基因。在所选群体中最频繁出现的等位基因形式有时被称为“野生型”形式或称为“主要等位基因”。在所选群体中最不频繁出现的等位基因形式可被称为“次要等位基因”。应当强调,“主要等位基因”和“次要等位基因”是群体遗传学中使用的术语;这些术语通常不用于描述缺少关于更大群体中的等位基因的信息的单细胞中的等位基因。术语“突变等位基因”用于描述不同于主要等位基因的等位基因形式,并且在一些情况下,其编码具有改变的功能的蛋白质。对于等位基因形式,二倍体生物可以是纯合的(即二倍体)或是杂合的。双等位基因多态性具有两种形式。三等位基因多态性具有三种形式。

“单核苷酸多态性”(snp)在由单个核苷酸占据的多态性位点处发生,该位点是等位基因序列之间的变异位点。该位点通常在等位基因的高度保守序列(例如,在少于1/100或1/1000的群体成员中变化的序列)之后和之前。snp通常由于在多态性位点处用一个核苷酸取代另一个核苷酸而产生。转换是一个嘌呤被另一个嘌呤替换或一个嘧啶被另一个嘧啶替换。颠换是嘌呤被嘧啶替换,反之亦然。snp还可以源自于相对于参考等位基因的核苷酸缺失或核苷酸插入。

“单核苷酸变异”(snv)是指在不是等位基因序列之间的典型变异位点的位点处相对于标准参考序列的单核苷酸差异。snv反映个体突变,而不是等位基因差异。

如本文所用的,术语“相同的细胞”是指彼此为克隆的一组细胞。因此,预期任何遗传变异是足够小的,使得下文描述的方法产生可以以与分析单个细胞时基本相同的方式解释的条形码模式。

“结构基因”是编码除调节因子(即调节蛋白)之外的任何rna或蛋白质产物的基因。

“调节基因”是参与控制一种或多种其他基因的表达的基因。调节基因可以编码蛋白质,或者其可以在rna水平上起作用,如在编码微rna的基因的情况下起作用。

使用转座子条形码标记核酸的方法

概述

在某些实施方案中,本发明提供了用于标记样品核酸以鉴别等位基因的方法,从而促进包括连锁测定在内的多种测定,以及提高正确鉴别拷贝数变异(cnv)、单核苷酸多态性(snp)、单核苷酸变异(snv)和测序错误的能力。该方法需要使样品核酸与能够将转座子并入样品核酸中的负载的转座酶接触。所述接触在适合于将转座子并入样品核酸中的条件下进行,从而形成核酸分子,其中特定的转座子条形码与特定的核酸区段相关联。对于任何感兴趣的基因座,检测不同转座子-核酸区段组合的数目并给出样品核酸中该基因座的等位基因的数目。根据使用的转座子,该方法将产生不同类型的转座子-核酸区段组合。

例如,如果使用的转座子是全部相同的,则可根据插入位点区分不同的组合。特别地,转座子插入位点基本上是随机的(至少在纯化的dna中)。因此,每平均约300个碱基至约1kb一个插入事件的插入密度意指在约300个碱基至约1kb范围内存在转座子可能插入其中的约300至约1000个可能位点。换言之,在相同位点发生两个插入的可能性为约300至约1000分之一。这些几率通常足以区分来自正常细胞的两个等位基因。如果区域扩大至10kb,则多个插入事件的组合将会增加分析的分辨率。那么对于相同的转座子,可能的不同转座子-核酸区段组合包括:(1)没有转座子的核酸区段,(2)在不同插入位点具有至少一个转座子的核酸区段,和(3)具有不同数目的转座子的核酸区段,以及上述的组合。大多数结构基因具有足够的序列复杂性以使每个插入位点是唯一的。在这种情况下,观察到的每种模式来源于存在于样品核酸中的一个等位基因。然而,这种特定的方法对高度重复的区域也将不起作用。对于这样的区域,优选以下描述的方法之一(例如,使用条形编码的转座子)。

在某些实施方案中,可以使用不相同的转座子。例如,具有不同末端序列的不同转座子是已知的并且可用于体外转座反应。不同的野生型转座子末端序列如来自tn3、tn5、tnl0或mu的那些可用作用于标记等位基因的“条形码”。在本文所述方法中使用这样的转座子产生了另一种可能的不同转座子-核酸区段组合,即,具有不同转座子末端序列的核酸区段或其组合,其可见于不同的插入位点中。

除了彼此不同的野生型转座子之外,不相同的转座子还包括被工程化为具有不同序列的转座子。可将不同的核苷酸或序列并入与相应转座酶结合所需的转座子末端序列之间的填充序列中。如图1所示,任何所需的条形码/索引可被工程化至除转座子末端之外的任何区域中。可替代地或此外,可将不同的核苷酸或序列并入转座子末端的非关键性碱基中。条形码并入转座子末端的可能性更加受到限制,取决于与转座酶结合的序列要求。在一些实施方案中,各自具有不同的条形码序列的多个转座子用来形成条形编码的核酸分子,其中特定的转座子条形码与特定的核酸区段相关联。在这种情况下,可以针对任何感兴趣的基因座检测不同的条形码-核酸区段组合的数目,并给出该基因座处等位基因的数目。

任何以上讨论的方法都可以组合使用。例如,在大多数实施方案中,不同的组合将根据不同的插入位点而至少部分地得以区分。此外,在一些实施方案中,使用几种不同类型的条形编码的转座子(例如,tn3、tn5、tnl0或mu)可能是有利的。例如,可以使用10个具有tn3末端的条形编码的转座子将染色质中可获得的dna条形编码,然后进行dna的纯化以及使用10个具有mu末端的条形编码的转座子进行第二轮转座。tn3标记的序列将指示处于“开放”构型(以下进一步描述的)的染色质,其与转录(常染色质)相关联。对tn3/条形编码模式的检测将允许基因组的转录区中等位基因的鉴别;而对mu/条形编码模式的检测将允许非转录区中等位基因的鉴别。

为了方便讨论,关于包含条形码的转座子的使用对所述方法进行描述。然而,本领域技术人员将容易理解,以下讨论的考虑因素同样适用于非条形编码的转座子。

在某些实施方案中,例如,在需要全基因组分析的实施方案中,可进行条形编码的核酸分子的全基因组扩增以产生用于鉴别不同条形码-核酸区段组合的核酸。在其他实施方案中,可以扩增一个或多个感兴趣的特定基因组区以用于如本文所述的进一步分析。在任一种情况下,可进行条形编码的核酸分子的扩增以产生扩增子,每一个扩增子都包括一个或多个条形码和一个或多个相关联的核酸区段的组合。通过允许测定条形码-核酸区段组合即与给定核酸区段相关联的条形码的模式的任何方法检测所述扩增子。可以通过任何方便的方法如dna测序进行该分析。

在一些实施方案中,所述方法用于对基因组dna进行条形编码,该基因组dna可从一个或限定的小数目的细胞中获得。在各个实施方案中,细胞的数目可以为1,或2、3、4、5、6、7、8、9或10个,例如,如果它们相同或可以落在这些值中的任一个所界定的范围,例如,1-5、1-4、1-3和1-2个内。通常,用于样品核酸的细胞的数目越小,条形码-核酸区段组合的解释就越简单。因此,来源于单个细胞的样品核酸优选用作该方法中的样品核酸。

这种方法的说明性工作流程可能需要:(1)从单个细胞中分离dna,(2)将转座子条形码引入基因组dna中,(3)全基因组扩增,以及(4)下一代测序(ngs)。

所述方法可用于将任何所需数目的不同条形码并入样品核酸中。在各个实施方案中,该方法需要将1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50个或更多个不同的条形码并入样品核酸中。在一些实施方案中,并入的条形码的数目可以落在这些值中的任一个所界定的范围,例如,5-25或10-15个内。

通过调节条件,如转座子、转座酶和样品核酸的相对浓度,可以调节转座子并入的频率以产生所需的条形码密度。在各个实施方案中,平均每100、200、300、400、500、600、700、800、900个碱基对(bp)或1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10千碱基(kb)或更多千碱基并入一个转座子。在一些实施方案中,转座子并入的平均频率可以落在由任意这些值所界定的任何范围内,例如,每200bp至10kb,每500bp至5kb,或每500bp至1.5kb。在全基因组分析中,转座子并入的频率,即条形码密度,决定该分析的分辨率。因此,每500个碱基一个条形码的条形码密度提供500-碱基分辨率,这意指可以容易地鉴别大约这种大小的基因组区段的拷贝数差异,甚至在不存在任何关于该区段的先验信息(例如,序列信息)的情况下。因此,通过调节条形码密度,可以达到几乎任何所需程度的分辨率,例如,约100、200、300、400、500、600、700、800、900bp,或1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10kb的分辨率。在各个实施方案中,全基因组分析的分辨率的程度可以落在这些值中的任一个所界定的任何范围,例如,200bp至10kb、500bp至5kb、或500bp至1.5kb内。

转座子并入的频率将根据所使用的转座酶而变化,并且本领域技术人员可以凭借经验确定合适的条件,包括转座子和样品核酸的相对浓度,以达到所需的条形码密度。

在一些实施方案中,转座子并入基本上是随机的,例如,当纯化样品核酸以去除组蛋白以及可能阻断转座的其他组分时。在其他实施方案中,转座子并入可靶向dna的某些区域,这取决于该区域的功能或状态。在一个实施方案中,例如,当温和地裂解细胞时,在不破坏组蛋白结合的情况下,仅开放染色质区域暴露于转座。在另一个说明性实施方案中,如果在转座前使样品核酸与甲基-cpg-结合域(mbd)蛋白相互作用,则转座可优先从cpg岛中排除。

应用

转座子介导的条形编码可用于其中可利用产生的转座子条形码进一步分析条形编码的核酸分子的任何应用。对于多种全基因组分析,调节条件使得相同模式的条形码将极不可能出现在任何两个等位基因中。例如,可在平均每1000bp插入一个转座子的反应中使用十个不同的转座子条形码(例如,bc1、bc2、bc3...bc10)。10kb区将平均含有十个转座子,其中转座子在该区中的布置具有1010个可能的排列。插入位点基本上是随机的,尽管存在热点,但该热点将在转座过程中被转座子“填充”,以使剩下的转座子自由地随机插入。假定基本上随机插入,则转座子条形码的模式的总的可能数目是巨大的,从而确保该区域的两个等位基因具有并入相同位点的相同条形码的几率微乎其微。只要这是真实的,可以检测包括感兴趣的基因座的全部或一部分的不同条形码-核酸区段组合的数目,以确定该基因座的拷贝数。检测到一个这样的组合表明该基因座是单倍体(例如,在y染色体上的基因座)或可能表明在分析的过程中发生了等位基因脱扣。检测到两个这样的不同组合表明该基因座是二倍体。在二倍体基因座的情况下通常观察到许多类型的差异。

首先,可以检测到两种形式的核酸区段,每一种均以不同的条形码为特征。例如,特定的核酸区段可以以下面的方式以ngs读序覆盖5次(“参考”是该区段的非条形编码序列):

这里,x和y是指两个不同的条形码序列。如果x和y为10个碱基长,则读序1和读序2来源于两个单独的转座事件的可能性为百万分之一。类似地,读序3和读序4,读序3和读序5,以及读序4和读序5来源于单独的转座事件的可能性为百万分之一。由于读序1和读序2在一个方面而读序3-5在另一个方面清楚地反映了两个不同的转座事件,因此可以确定该单个细胞具有该区段的两个拷贝(而非多于两个拷贝)。

第二,核酸区段可以仅具有一个条形码,但它可见于该区段中的两个不同的位置。例如,如果得到的五个读序如下:

因为具有相同条形码x的转座子并入两个不同的位置中,所以可以得出以下结论:读序1和读序2在一个方面而读序3-5在另一个方面必定来自两个单独的事件。因此,该细胞具有该区段的两个拷贝(而非多于两个拷贝)。

第三,可以检测到两种形式的核酸区段:一种与条形码相关联而另一种不含有任何条形码。一个实例如下所示:

在读序1和读序2中条形码x存在于相同的位置表明这些读序来源于该区段的第一拷贝中的一个转座事件,而读序3-5中不存在条形码表明存在没有发生转座的第二区段。因此,该细胞具有该区段的两个拷贝(而非多于两个拷贝)。

尽管大多数正常的哺乳动物体细胞为二倍体(其由22对常染色体和两条性染色体组成),但一些正常细胞以多倍体形式存在。例如,心肌细胞通常是三倍体,肝细胞也是,而胚胎中的滋养层细胞具有1000套染色体。此外,一些癌细胞具有小于46至多于92个的不同数目的染色体。例如,来自一个时间点的一个细胞系的hela细胞具有总计76至82条染色体。其中,在核型分析研究中一个细胞具有染色体5的六个拷贝和染色体9的五个拷贝。这样的细胞还以导致镶嵌结构的许多染色体易位为特征。已报道了导致单个细胞中多于两套染色体的其他现象。例如,胞中胞(cell-in-cell)形成由胞侵(entosis)引起。本文所述方法可以用于表征与典型二倍体情形相比的所有这样的偏差。

在一些实施方案中,转座子介导的条形编码用于鉴别拷贝数的一个或多个增加。更具体地,当检测到的条形码-核酸区段组合的数目大于该基因座的等位基因的预期正常数目时,将该样品鉴别为其中所述基因座的数目大于细胞中的预期拷贝数的样品。可分析多个基因座以区分特定基因座、染色体子区域、染色体臂或整个染色体的增加与具有改变的倍性的细胞(例如,四倍体而非二倍体的细胞)。例如,高分辨率全基因组分析可用于鉴别整个基因组的小的增加,而低分辨率全基因组分析可用于鉴别例如染色体臂或整个染色体的较大的增加。

通常不能单独通过这种方法最终鉴别拷贝数损失,因为该方法不能区分不存在于初始样品核酸(例如,来源于单个细胞的核酸)中的等位基因与在扩增期间脱扣的等位基因的情况。因此,当检测到的条形码-核酸区段组合的数目小于该基因座的等位基因的预期正常数目时,将该样品鉴别为其中所述基因座的数目低于细胞中的预期拷贝数或可能已在扩增期间发生等位基因脱扣的样品。在这种情况下,可以进行进一步的分析以试图区分这两种可能性,如重复所述分析或使用不同方法检测条形码-核酸区段组合。

在一些实施方案中,转座子介导的条形编码用于鉴别对于一个或多个基因座而言的纯合性或杂合性。更具体地,当检测到的条形码-核酸区段组合包括两个不同组合并且其中在该基因座处包含相同核酸序列的核酸区段与不同的条形码相关联时,将该样品鉴别为二倍体并且对于该基因座是纯合的。相反,当检测到的条形码-核酸区段组合包括两个不同条形码-核酸区段组合并且其中在该基因座处包含不同核酸序列的核酸区段各自与不同的条形码相关联时,将该样品鉴别为二倍体并且对于该基因座是杂合的。值得注意的是,使用本文所述方法很容易将真正的杂合性与由测序错误产生的序列差异区分开。特别地,测序错误产生了两个不同的条形码-核酸区段组合,其中当在该基因座处包含不同核酸序列的核酸区段各自与相同的条形码关联时,将该样品鉴别为在扩增或测序期间可能已将错误引入样品核酸序列中的样品。其原因为,在适当的条件(参见上文)下每组条形码鉴别单一的等位基因,这意指关联的核酸区段中的任何序列差异代表该分析的假象。

在其他实施方案中,转座子介导的条形编码用于确定彼此隔开的两个基因座是否实际相连接,即,是否存在于相同的染色体上。在两个基因座被在其所在的染色体上相同的不提供信息的dna段隔开的情况下,这特别有用。在这种情况下,可进行转座子介导的条形编码以将一个或多个转座子并入间插样品核酸序列中,以产生转座子-核酸区段组合。通过分析所述基因座确定两个基因座是否与相同的转座子-核酸区段组合相连接,可以确定所述基因座是否在相同的染色体上。例如,如图4所示,可进行转座子介导的条形编码,以便在测序运行中,最方便地在允许检测多个条形码的范围内,将多个条形码与snp中的一个一起引入间插序列中。所述条件使得不同组的条形码被引入每条染色体上的间插序列中。因此,例如,确定snp中的每一个都与图4所示的对应于“单倍体2”的三个条形码,而非对应于“单倍体1”的四个条形码中的任一个相连接。如图4所提出的,初步确定可能为:最左边的snp与第一和第二条形码(从左至右读取)相关联,而最右边的snp与第二和第三条形码相关联。与每一个snp相关联的共同第二条形码的存在导致得出以下结论:snp存在于相同的染色体上,并且因此为相同单倍型的一部分。实际上,可以设想更复杂的条形码模式。必要时,对整个间插序列的多个测序运行可以提供能够组装起来跨越该间插序列的序列信息,并排列(order)该区域中的条形码。因此,不需要初始分析产生具有至少一个共同条形码的snp-条形码组合,如图4所提出的。

这种方法的优点是可以确定含有两个基因座的基因组dna的区段的具体单倍型以及该区段的拷贝数。在一些实施方案中,在获得后一种信息的同时,通过对与两个基因座相连接的不同转座子-核酸区段组合的数目进行计数来确定连锁和单倍型。因此,例如,如果该分析表明snp1和snp2均与相同的转座子-核酸区段组合相连接,但存在三个不同的这类组合,则可能针对存在于样品核酸中的dna区段的三个拷贝中的每一个,已经确定了snp1和snp2处的单倍型。

转座子

除了第一转座子条形码序列之外,在诸如本文所述的那些方法的方法中有用的转座子还包括在填充序列侧翼的转座子末端。转座子任选地包含第一引物结合位点。除了这些元件之外,对转座子结构唯一真正的约束是转座子必须能够被合适的转座酶插入双链或单链核酸中。在特定实施方案中,本文所述的方法采用成组的转座子,其中不同的转座子具有不同的条形码序列,但具有可位于填充序列中或转座子末端内的相同的第一引物结合位点。这些组可以在用于进行本文所述的任何方法的试剂盒中提供。

在一些实施方案中,第一转座子条形码序列位于填充序列中,例如邻近转座子末端。在一些实施方案中,如下文更详细描述的,第一转座子条形码序列位于一个转座子末端内。如果需要,每个转座子可以包含第二转座子条形码序列,该第二转座子条形码序列可以与第一转座子条形码序列相同或不同。第二转座子条形码序列可位于填充序列中,例如邻近转座子末端或位于一个转座子末端内。例如,第二转座子条形码序列可位于转座子末端内或与之相邻,而第一转座子条形码序列则位于另一转座子末端内或与之相邻。参见,例如,图1。

转座子条形码序列将具有足以编码所需数目的不同条形码的长度。例如,如果条形码序列包含三个核苷酸,则可能的不同条形码的数目为43=64。说明性条形码序列长度为:2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50个核苷酸或更多,并且可以落在由任意这些值限定的任何范围内,例如10-15个核苷酸。条形码序列可以但不必是连续的。因此,例如,条形码序列的特征可以在于两个相邻核苷酸,其中第三核苷酸被几个间插的非条形码核苷酸分隔开。例如,非连续条形码序列可用于位于转座子末端内的条形码(见下文)。

在特定实施方案中,在转座子中包含一种或多种其他类型的条形码/索引序列可能是有利的。此类其他序列在本文中被称为“索引序列”,仅仅是为了将其与本文所讨论的转座子条形码序列相区分。例如,可使用索引序列编码关于条形编码的核酸分子的任何所需种类的信息,如衍生出该条形编码的核酸分子的一个或多个细胞或反应。如果需要,每个转座子可包含可与第一索引序列相同或不同的第二索引序列。例如,一个索引序列可以用于鉴别衍生出核酸的细胞,而另一个索引序列则可用于鉴别该核酸经历的具体反应(例如,wga的具体类型)。在图1所示的说明性实施方案中,转座子可包含位于一个转座子末端内或邻近该转座子末端的第一转座子条形码序列,和位于另一个转座子末端内或邻近该转座子末端的第二转座子条形码序列,其中第一索引序列邻近第一条形码序列,而第二索引序列邻近第二条形码序列。

关于条形码的上述陈述也适用于可位于填充序列中(例如邻近转座子末端或位于一个转座子末端之内)的索引序列。在某些实施方案中,第一索引序列与第一条形码序列足够靠近,从而确保两个序列将被包含在一个测序读序中。例如,这些序列中的一个可位于转座子末端中,而一个位于与该转座子末端相邻的填充序列中,或者两个序列可均位于转座子末端或均位于填充序列中,并且/或者索引序列可以直接邻近条形码序列。索引序列可以是任何合适的长度并且可以是连续或不连续的。说明性的条形码序列长度为:2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50个核苷酸或更多,并且可落在由任意这些值限定的任何范围内,例如10-15个核苷酸。

可用于例如分析来自多个单独细胞的核酸的成组转座子可在试剂盒中提供(参见下文)。这样的试剂盒可包含两组或更多组转座子,每组针对每种待分析的细胞。组内的每个转座子均包含不同的第一转座子条形码序列,每组转座子的特征在于用来鉴定分析中的细胞的不同索引序列。

第一引物结合位点可以是可与引物退火以用于引发核苷酸聚合的目的的任何核苷酸序列。第一引物结合位点可位于填充序列中,例如邻近转座子末端或位于一个转座子末端内。引物结合位点的长度通常在约6至约50个核苷酸或更多的范围内,例如,约6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45或50个核苷酸,或在由任意这些值限定的任何范围内,例如10-30或15-25个核苷酸。在特定实施方案中,第一引物结合位点用于引发wga。值得注意的是,每个转座子仅需要具有一个这样的wga引物位点,因为可进行转座以便平均地并入转座子,使得它们足够靠近(例如,约500bp至300kb),以允许在相邻转座子中引发,从而扩增样品核酸(例如,基因组dna)的间插区。在一些实施方案中,适合于wga的第一引物结合位点将具有在样品核酸中未发现或以低拷贝数存在的序列,使得引发主要在第一引物结合位点处发生。

为了便于分析转座(任选地随后进行wga)后产生的条形编码的核酸,可使转座子中包含一个或多个另外的引物结合位点。此类另外的引物位点可包括例如适合于扩增条形编码的核酸和/或使其经历dna测序的那些引物位点。在具体实施方案中,如果存在的话,可以定位这些引物使得条形码序列和索引序列与其相关联的核酸区段(即,邻近转座子插入位置的样品核酸区段)一起被扩增和/或测序。因此,例如,每个转座子可另外包含第二引物结合位点,该第二引物结合位点如果存在的话,可位于例如第一转座子条形码序列和第一索引序列的内侧。这种取向如图1所示。

在一些实施方案中,每个转座子中均包含第三引物结合位点将是有利的。例如,在每个转座子均包含位于转座子末端内或与邻近该转座子末端的第一转座子条形码序列和位于另一转座子末端内或邻近该转座子末端的第二转座子条形码序列的实施方案中,可以包含第二和第三引物结合位点以促进对这两种条形码的检测。图1示出了一种可能的构型,其中转座子包含:

与第一条形码序列相邻的第一索引序列;

与第二条形码序列相邻的第二索引序列;

位于填充序列中的第一引物结合位点;

位于第一条形码序列和第一索引序列的内侧的第二引物结合位点;以及

位于第二条形码序列和第二索引序列的内侧的第三引物结合位点。

在一些实施方案中,第二和第三引物结合位点是相同的;在其他实施方案中,第二和第三引物结合位点是不同的。

在某些实施方案中,转座子末端是双链的。在这样的实施方案中,填充序列可以是双链的(图8a)、不连续的(图8b)或单链的(图8c和8e),其任选具有3'-3'连接(图8d)或5'-5'连接(图8f)。当转座子末端与合适的转座酶复合时,填充序列必须足够长以形成环。因为单链dna比双链dna更加灵活,所以单链填充序列可以比双链填充序列(例如,约500个核苷酸)短得多(例如,约50个核苷酸)。因此,说明性的填充序列可在约45至约1000个核苷酸或更多个的范围内,例如,约45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475、500、600、650、700、725、750、800、850、900、950、1000个核苷酸,或者可落在由任意这些值限定的任何范围内,例如,50-550个核苷酸。

转座子末端必须包含与在体外转座反应中起作用的转座酶或整合酶形成复合物所需的核苷酸序列(“转座子末端序列”)。转座子末端与识别并结合该转座子末端的转座酶或整合酶形成“复合物”或“突触复合物”或“转座体复合物”或“转座体组合物”,并且该复合物能够将转座子末端插入或转座至与之在体外转座反应中一起温育的靶dna中。双链转座子末端表现出由“转移的转座子末端序列”或“转移链”和“非转移的转座子末端序列”或“非转移链”组成的两个互补序列。例如,与在体外转座反应中具有活性的超活性tn5转座酶(例如,ez-tn5tm转座酶,epicentrebiotechnologies,madison,wis.,usa)形成复合物的一种转座子末端包含具有如下“转移的转座子末端序列”的转移链:5'agatgtgtataagagacag3'(seqidno:19),和具有如下“非转移的转座子末端序列”的非转移链:5'ctgtctcttatacacatct3'(seqidno:20)。不同的转座酶采用长度和序列不同的转座子末端。例如,tn5末端需要约17个核苷酸,mu末端需要约30个核苷酸,而tn7末端则需要约50个核苷酸。如下文进一步描述的,尽管长度对于功能而言似乎是重要的,但碱基组成将容许一些变化(goldhaber-gordon等人j.biol.chem.2002,277:7703-7712,通过引用其对可变位置的描述而并入本文)。

在特定实施方案中,转座子末端是形成发夹结构的单链。单链转座子的结构与双链转座子的结构不同,双链转座子具有两个双链dna区作为转录子末端(te)。在大多数情况下,双链转座子的两个末端的序列相同,但可以略有不同。相比之下,如图5所示,单链转座子具有不同序列的单链左侧末端(le)和单链右侧末端(re)。le和re的序列采用其自身的二级结构,其中le具有两个茎-环,而re则具有一个茎-环。

le通常以三个部分从5'到3'排列:le连接体、gl和ipl。对于le连接体,其既没有一级序列要求,也没有二级结构要求;is408的长度为19个碱基。它位于右侧切割位点cl的3'侧。tnpa在cl与连接体之间切割。ipl为近末端的二级结构,gl充当le的指导序列;gl与cl相互作用以获得适当的转座酶活性。

re也由3个部分组成,并以三个部分从5'到3'排列:ipr、re连接体和cr。对于re连接体,其既没有一级序列要求,也没有二级结构要求;is408的长度为10个碱基。gr充当re的指导序列,gr与cr相互作用以获得适当的转座酶活性。cl和cr分别限定右侧切割位点和左侧切割位点。这些序列对于每种转座酶均是特异性的。对于is408,它们分别为ttac和tcaa,但是对于其他单链转座酶,其为具有不同序列的五聚体。

如果将单链转座子末端用于转座,则该末端通常在单链填充序列的侧翼。

转座酶与转座

“转座反应”或“转座”是这样的反应,其中一个或多个转座子末端在随机位点或几乎随机的位点处插入到样品核酸中。转座反应中的基本组分是转座酶和表现出转座子末端的核苷酸序列的dna寡核苷酸,包括转移的转座子末端序列及其互补序列、非转移的转座子末端序列,以及形成功能性转座复合物(即,负载的转座酶)所需的其他组分。用于本文所述方法的合适的转座复合物包括例如由超活性的tn5转座酶和tn5型转座子末端形成的转座复合物(goryshin,i.和reznikoff,w.s.,j.biol.chem.,273:7367,1998,通过引用此描述而并入本文),或通过mua转座酶和包含r1和r2末端序列的mu转座子末端形成的转座复合物(mizuuchi,k.,cell,35:785,1983;savilahti,h等人,emboj.,14:4893,1995,通过引用此描述而并入本文)。然而,能够以随机或几乎随机的方式以足够的效率插入转座子末端从而标记如本文所述的样品核酸的任何转座系统均可用于本发明。

本领域已知的转座系统的实例包括但不限于金黄色葡萄球菌(staphylococcusaureus)、tn552(colegioor等人j.bacterial,183:2384-8,2001;kirbyc等人,mol.microbial,43:173-86,2002)、tyl(devinese和boekejd.,nucleicacidsres.,22:3765-72,1994和第wo95/23875号国际专利申请)、转座子tn7(craig,nl,science.271:1512,1996;craig,nl,reviewin:currtopmicrobialimmunol.,204:27-48,1996)、tn/o和isio(klecknern等人,currtopmicrobiolimmunol,204:49-82,1996)、mariner转座酶(lampedj,等人,emboj.,15:5470-9,1996)、tel(plasterkrh,currtopmicrobialimmunol,204:125-43,1996)、pelement(gloor,gb,methodsmol.biol,260:97-114,2004)、tn3(ichikawah和ohtsuboe.,jbiol.chem.265:18829-32,1990)、细菌插入序列(ohtsubo,f和sekine,y,curr.top.microbial.immunol.204:1-26,1996)、逆转录病毒(brownpo等人,procnatlacadsciusa,86:2525-9,1989),以及酵母的逆转录转座子(boekejd和corcesvg,annurevmicrobial.43:403-34,1989)。

最近,发现一组转座酶能够将单链dna转座至单链靶标中。这些转座酶由来自is200、is605、is608和israd的tnpa基因编码,其中is代表插入序列。单链转座酶tnpa与公知且被最好表征的双链转座酶无关,但其为大huh(组氨酸-疏水-组氨酸)内切核酸酶家族的成员,该家族包括病毒rep蛋白、接合质粒松弛酶和滚环复制起始子蛋白。huh核酸酶采用催化性酪氨酸残基攻击目标磷酸二酯键,产生共价的5'磷酸酪氨酸酶-底物中间体。可用于本发明的单链转座系统在例如he,s.等人,nucleicacidsres.,41(5):3302-13(2013年3月1日;epub2013年1月23日);he,s.等人,nucleicacidsres.,39(19):8503-12(2011年10月;epub2011年7月10日);ton-hoang,b.等人,cell,142(3):398-408(2010年8月6日);guynet,c等人,molcell,29(3):302-12(2008年2月15日);barabas,o.等人,cell,132(2):208-20(2008年1月25日);ton-hoang,b.等人,emboj.,24(18):3325-38(2005年9月21日;epub2005年9月15日);ronning,d.r.等人,molcell,20(l):143-54(2005年10月7日);以及ton-hoang,b.等人,emboj.,17(4):1169-81(1998年2月16日)中描述。

通常,用于本文所述方法的合适的体外转座系统需要具有足够纯度、足够浓度和足够的体外转座活性的转座酶,以及与转座酶形成功能性复合物的转座子末端。可用于本发明的合适的转座酶转座子末端序列包括但不限于与野生型或突变型转座酶形成复合物的野生型或人工转座子末端序列(参见下文)。说明性转座酶包括tn5转座酶和mua转座酶的野生型或突变型形式(尽管ez-tn5转座酶比等蛋白质量的mua转座酶明显更加有效),但是本发明的方法中可以使用其中用于所限定转座子末端的有效体外转座的组成和条件已知或者随后得到开发的任何其他转座酶。

在一些实施方案中,转座子末端序列具有针对预期目的而起到良好作用的最小的可能大小,但其足够大,使得在样品核酸中仅极少存在或优选地根本不存在相同的序列。可用于将转座子末端插入样品核酸中的合适的体外转座系统包括但不限于使用可从epicentretechnologies,madison,wis.获得的ez-tn5tm超活性tn5转座酶的体外转座系统,或使用来自epicentre的hypermutm超活性mua转座酶或另一种mua转座酶如可从finnzymesoy,espoo,finlan获得的mua转座酶的体外转座系统。

具有相应转座子末端的序列的转座子末端寡核苷酸可以利用寡核苷酸合成仪来合成,或者基于可从相应供应商获得的信息或使用本领域公知的信息从商业来源购买。例如,ez-tn5tm转座酶的超活性转座子嵌合末端的核苷酸序列在美国专利公开第2010/0120098号中示出(通过引用其对转座系统的描述而并入本文),并且与ez-tn5tm转座酶有关的其他信息可从已公开的文献和来自epicentrebiotechnologies,madison,wis.,usa.的www.epibio.com处在线获得。

在一些实施方案中,转座子末端向样品核酸中的插入还可以在体内进行。如果在体内进行转座,则优选通过将转座酶与适当转座子末端组合物的突触复合物电穿孔到宿主细胞中来实现向样品核酸中的转座,如第6,159,736号美国专利所述(通过引用此描述而并入本文)。这种转座方法的示例是,使用利用与goryshin,i.和reznikoff,w.s.(j.biol.chem.,273:7367,1998)描述的方法相似的方法通过超活性tn5转座酶和适当tn5型转座子末端组合物形成的转座复合物,或通过hypermutm超活性mua转座酶(epicentre,madison,wis.)和表现出被该转座酶识别的r1和r2末端序列的适当mua转座子末端组合物形成的转座复合物。转座子末端组合物与转座酶之间的合适的突触复合物或transposometm复合物(epicentre)可如goryshin和reznikoff的第6,159,736号美国专利及相关专利所述制备,或如关于tn5型ez-tn5tmtransposometm复合物或关于来自epicentretechnologies,madison,wis.的hypermutmmuatransposometm复合物的产物文献所述制备。

转座反应可以在任何合适的反应容器中进行,例如,在微量滴定板的孔中或在微流体装置的区室中进行,如下文描述的那些。

图7中示意性地示出了说明性的体外转座反应,其中双链转座子插入至双链靶dna中。首先,负载的转座酶通过在dna的相对链上制作两个交错的切口来攻击靶dna。两个切口之间的距离是转座酶依赖性的。例如,对于mua,该距离为5个碱基,而对于tn5,该距离为7个碱基。然后,相同的负载的转座酶将转座子dna的3'端连接至靶dna的5'端,从而在另一条链上的每个接合点处留下5个碱基(对于mu)或7个碱基(对于tn5)的缺口。在一些实施方案中,使用本领域技术人员已知的常见分子生物学技术填充并封住该缺口。例如,如图7的步骤3所示,该缺口可采用dntp通过聚合酶填充,并通过连接酶封住。这两个缺口是两个相同的重复序列,其可以用作条形码。

样品核酸

样品核酸的制剂可以从任何来源获得,并使用本领域已知的常规方法进行制备,具体方法的选择取决于核酸的来源、性质和类似的因素。样品核酸不必是纯的形式,但通常足够纯以允许进行感兴趣的反应。

特别地,可用于本文所述方法的核酸可以从任何来源(包括细菌、原生动物、真菌、病毒、细胞器以及高等生物如植物或动物,特别是哺乳动物,更特别地为人)提取和/或扩增。核酸可通过多种标准技术中的任一种从细胞、体液(例如,血液、血液组分、尿等)或组织样品中提取或扩增。说明性样品包括血浆、血清、脊髓液、淋巴液、腹膜液、胸膜液、口腔液和皮肤的外部部分的样品;来自呼吸道、肠道、生殖道和泌尿道的样品;泪液、唾液、血细胞、干细胞或肿瘤的样品。例如,胎儿dna的样品可以从胚胎或从母血中获得。样品可以从活的或死亡的生物或从体外培养物中获得。说明性样品可以包括单细胞、福尔马林固定的和/或石蜡包埋的组织样品以及针活检物。可用于本文所述方法的核酸还可以来源于一个或多个核酸文库,包括cdna、粘粒、yac、bac、p1、pac文库等。可用于本文所述方法的核酸还可以是单链dna,如病毒dna,由病毒rna逆转录的cdna,或细胞rna。

在某些实施方案中,上述方法在分析单细胞的情况下使用,并且在一些实施方案中,在细胞的群体中进行单细胞分析。

可以使用任何方法进行单细胞分析,单细胞的核酸可借此分别从任何其他细胞经历转座子介导的条形编码;即,在足以与针对任何其他细胞的反应位点分离的反应位点处/中。在一些实施方案中,单细胞分析需要将群体中的细胞捕获在单独的反应体积中以产生各自仅含有一个细胞的多个单独的反应体积。含细胞的单独的反应体积可以在液滴、乳液、容器、微量滴定板的孔或矩阵型微流体装置的隔室中形成。在说明性实施方案中,单独的反应体积存在于微流体装置的单独隔室内,例如,在2013年5月12日公布的anderson等人的美国专利公开号2013/0323732(通过引用其关于单细胞分析方法和系统的描述而并入于此)中所述的那些中的任一个。可获自fluidigmcorporation(southsanfrancisco,ca)的c1tmsingle-cellautoprepsystem提供了在“集成流体通路(ifc)”或“芯片”中关于来自单细胞的核酸的多重分离、裂解和反应的台式自动化,并因此非常适合于进行来自单细胞的核酸的转座子介导的条形编码。特别地,c1single-cellautopreparraytmifc是有利于96个单独细胞的捕获和高度并行制备的矩阵型微流体装置。当恰当地使用时,芯片内每个捕获位点捕获一个单细胞。有时,一个位点可以捕获零个、两个或更多个细胞;然而,c1芯片的每个捕获位点中捕获的细胞的确切数目很容易以高置信度证实并且很容易记录在显微图像中。在某些实施方案中,捕获细胞并在每个单独的反应体积中进行转座子介导的条形编码以产生条形编码的核酸分子,该核酸分子任选地在wga之后最方便地通过dna测序(无论是sanger测序、下一代测序还是第三代测序)进行分析。

在一些实施方案中,在具有约2nl至约500nl范围内的反应室的微流体装置中进行转座子介导的条形编码和/或任何后续步骤如wga或其他扩增。反应室体积越小,任何靶核酸的有效浓度越高且可运行的单独测定的数目越大(使用不同的探针和引物组,或作为相同探针和引物组的复制品,或多个复制品和多个不同测定的任意排列)。在一个实施方案中,反应室为约2nl至约50nl,优选2nl至约25nl,更优选约4nl至约15nl。在一些实施方案中,反应室体积为5nl、6、nl、7nl、8nl、9nl、10nl、11nl或12nl,或落在由任意这些值所界定的任何范围内。

在各个实施方案中,具有约5至约96个单独反应位点或反应室的微流体装置用于进行一个或多个本文所述反应,特别地为约5至约48个反应室,更特别地为约8至约48个反应室,并且甚至更特别地为约10至约48个反应室。在一些实施方案中,微流体装置可以具有多于10、多于12、多于15、多于17、多于20、多于23、多于25、多于28、多于30、多于33、多于35、多于37、多于40、多于45、多于48、多于50、多于53、多于55、多于58、多于60、多于63、多于65、多于68、多于70、多于73、多于75、多于78、多于80、多于83、多于85、多于88、多于90、多于93或多于96个位点/反应室,或多于1000个位点/反应室。

在一些实施方案中,可在进行转座子介导的条形编码的相同反应体积中进行条形编码的核酸的分析。然而,在特定的实施方案中,在条形编码之后回收单独反应体积的内容物以用于后续分析是有利的。例如,如果在单独反应体积中进行核酸扩增,则可能需要回收内容物以用于例如通过dna测序的后续分析。单独反应体积的内容物可以分别进行分析,并且结果与存在于最初反应体积中的细胞有关。在单独反应体积可含有多于一个细胞的实施方案中,单细胞分析可通过鉴别只含有单细胞的反应体积和仅分析这些反应体积的内容物来实现。

在特定的实施方案中,可使用一个或多个(例如,组合的)转座子索引将细胞/反应体积特性(identity)编码在反应产物中,例如,如上所讨论的。随后可一起测定细胞/反应索引以及与其连接的条形编码的核酸分子,以将这些分子与它们所来源于的细胞/反应体积相关联。在某些实施方案中,对成组的单独反应体积进行编码,使得该组内每个反应体积是唯一可鉴别的,并且随后对该组进行合并,其中每个合并池(pool)随后与任何其他合并池分开进行分析。当需要单细胞分析而反应体积可能含有多于一个单细胞时,这样的实施方案可能还需要确定哪一个反应体积只含有一个单细胞。由于每个反应体积的相应细胞/反应索引是已知的,因此来自单细胞反应体积的结果可与多细胞反应体积相区别。

本文所述方法可用于分析来自任何类型的细胞的核酸,例如,任何自我复制、膜结合的生物实体或其任何非复制、膜结合的后代。非复制后代可以是衰老细胞、终末分化细胞、细胞嵌合体、血清饥饿细胞、感染的细胞、非复制突变体、无核细胞等。本文所述方法中使用的细胞可以具有任何来源、遗传背景、健康状态、固定状态、膜通透性、预处理和/或群体纯度以及其他特征。合适的细胞可以为真核细胞、原核细胞、古细菌等,并且可以来自动物、植物、真菌、原生生物、细菌等。在说明性实施方案中,分析人类细胞。细胞可以来自生物发育的任何阶段,例如,在哺乳动物细胞(例如,人类细胞)的情况下,可以分析胚细胞、胎儿细胞或成年细胞。在某些实施方案中,细胞为干细胞。细胞可以为野生型;天然、化学或病毒突变体;工程化突变体(如转基因)等。此外,细胞可以为生长、静止、衰老、转化和/或永生化的以及其他状态。此外,细胞可以为单培养物,通常作为克隆群体而衍生自单细胞或一小组非常类似的细胞;可以通过任何合适的机制如亲和结合、facs、药物选择等进行预分选;和/或可以为不同细胞类型的混合的或异质的群体。可将细胞部分地破坏(例如,透化)以允许摄取转座子,或完全破坏(例如,裂解)以释放内部组分。

本文所述方法的一个优点是其可用于分析几乎任何数目的单细胞。在各个实施方案中,分析的单细胞的数目可以为约10、约50、约100、约500、约1000、约2000、约3000、约4000、约5000、约6000、约7,000、约8000、约9,000、约10,000、约15,000、约20,000、约25,000、约30,000、约35,000、约40,000、约45,000、约50,000、约75,000或约100,000个或更多个。在具体的实施方案中,分析的细胞的数目可以落在以上所列的任何两个值所界定的范围内。

全基因组扩增

在一些实施方案中,条形编码的核酸分子经历全基因组扩增(wga)程序以产生更多的dna以供后续分析。任何可用的wga程序均可以用于扩增条形编码的核酸分子。合适的wga程序包括但不限于:

引物延伸pcr(pep)和改进的pep(i-pep)-pep通常使用taq聚合酶和在低严格性温度下退火的15-碱基随机引物。taq聚合酶的使用意味着最大产物长度为约3kb。

简并寡核苷酸引物pcr(dop-pcr)-dop-pcr是完善的、广泛接受且技术上简单的方法。dop-pcr使用taq聚合酶和在低退火温度下在人类基因组中的约一百万个位点处结合的半简并寡核苷酸。首次循环之后是采用更高退火温度的大量循环,从而只允许在第一步中标记的片段扩增。虽然已描述了能产生高达10kb的片段的dop-pcr方法,但dop-pcr如pep一样产生平均400-500bp的片段,最大的大小为3kb。

连接介导的pcr(lmp)-lmp使用对基因组dna样品进行片段化的内切核酸酶或化学裂解和连接体以及供其扩增的引物。lmp由ludecke和同事首次描述,随后经修改用于小量gdna和单细胞的wga。rubicongenomics使允许扩增rna、dna和甲基化dna序列的不同试剂盒(omniplex)商业化。优点包括该方法能够扩增降解的dna以及所有步骤均在相同的管中进行。一个限制是该方法产生仅最多2kb的片段。

基于t7的dna线性扩增(tlad)-tlad是最初被设计用来扩增mrna的方案的变化形式,其已经修改用于wga。其使用alui限制性内切核酸酶消化和末端转移酶在3'末端上添加聚t尾。随后将引物与5't7启动子和3'聚a段(tract)一起使用,并且使用taq聚合酶合成第二链。随后对该样品进行体外转录反应和其后的逆转录。主要优点是tlad没有引入序列和长度依赖性偏差。

多重置换扩增(mda)-mda是非基于pcr的等温方法,其基于随机六聚体与变性dna的退火以及随后在恒温下的链置换合成。该方法已经应用于小基因组dna样品,导致高分子量dna的合成,具有有限的序列表示偏差。由于通过链置换合成dna,因此发生了数目逐渐增加的引发事件,从而形成了超支化dna结构的网络。该反应可由phi29dna聚合酶或由bstdna聚合酶的大片段进行催化。phi29dna聚合酶具有链置换活性和校正活性,其导致错误率比taq聚合酶低100倍。

rapisometmpwga(蛋白质引发的wga)是由biohelix(biohelixcorporation,一家quidel公司.500cummings,suite5550.beverly,ma01915)销售的全基因组扩增方法。代替使用引物,该试剂盒使用引发酶就地合成引物,产生了用于随机全基因组扩增的多个起始位点。

用于wga的试剂盒可商购自例如,qiagen,inc.(valencia,causa),sigma-aldrich(rubicongenomics;例如,sigmasinglecellwholegenomeamplificationkit,pnwga4-50rxn)。可以根据制造商的说明使用任何可用试剂盒执行本文所述方法的wga步骤。

在特定的实施方案中,wga步骤是受限的wga,即,wga在达到反应稳定期之前停止。通常,wga进行多于两个扩增循环。在某些实施方案中,wga进行少于约10个扩增循环,例如,四(含)至八(含)个循环。然而,wga可以进行3、4、5、6、7、8或9个循环,或落在由任意这些值所限定的范围内的数目的循环。

在wga引物结合位点包含在转座子中例如在填充序列中或在转座子末端内的实施方案中,可使用与该位点结合的引物进行wga。对于许多应用,使用全部包含相同的引物结合位点来促进仅使用一个引物的wga的转座子是最常见的。然而,如果需要,不同转座子可以携带不同的引物结合位点,在这种情况下可以在wga中使用多个相应的引物。如果使用多个引物,则可以用存在于反应混合物中的所有引物进行wga,或可以使用不同引物进行多个单独的反应。当从转座子中的位点引发wga时,平均转座子密度应当足以使所用的特定wga程序有效地进行。在各个实施方案中,以上给出的条形码密度的值和范围定义了用于从转座子填充序列中的位点引发wga的合适的转座子密度。

在引发酶识别序列包含在转座子填充序列中的实施方案中,可使用与这些通过转座而被引入基因组的位点结合的引发酶来进行pwga。

wga可以在相同的反应混合物中进行,因为可回收转座子条形编码或条形编码的核酸分子,随后将其添加至新的wga反应混合物中。在一些实施方案中,当wga在相同的反应混合物中进行时,使用例如edta和/或热变性来灭活转座酶。在任一种情况下,均可以使用微流体装置(如以上所述的任何一种)进行wga。

条形编码的核酸分子的分析

在一些实施方案中,任选地在wga后对条形编码的核酸分子进行分析,以确定与给定核酸区段相关联的条形码的模式。可采用能够进行该确定过程的任何可用的方法;然而对于该分析,下一代dna测序目前最为方便。

在某些实施方案中,任选地在wga后对条形编码的核酸分子进行测序,以确定哪些转座子条形码与哪些核酸区段相关联。尽管可采用任何可用的dna测序技术,但对于许多应用,高通量(“下一代”或“第三代”)测序技术是优选的。

下一代测序技术使测序过程平行进行,同时产生上千或上百万个序列。说明性的下一代技术包括但不限于大规模平行签名测序(mpss)、聚合酶克隆测序、454焦磷酸测序、illumina(solexa)测序、solid测序、iontorrent半导体测序、dna纳米球测序以及heliscope单分子测序。

许多下一代测序技术包括在dna测序之前的扩增步骤。例如,可进行乳液扩增或桥式扩增。乳液pcr(empcr)在油相内的水性液滴中将单个dna分子连同引物包覆的珠子一起分离。pcr产生与珠子上的引物结合的该dna分子的拷贝,随后固定以供之后的测序。empcr由marguilis等人(由454lifesciences,branford,ct商业化)、shendure和porreca等人(本文中称为“454测序”;也称为“聚合酶克隆测序”)在其方法中使用,以及用于solid测序(lifetechnologies,fostercity,ca)。参见m.margulies等人(2005)"genomesequencinginmicrofabricatedhigh-densitypicolitrereactors"nature437:376-380;j.shendure等人(2005)"accuratemultiplexpolonysequencingofanevolvedbacterialgenome"science309(5741):1728-1732。体外克隆扩增也可通过“桥式pcr”进行,其中片段在引物附接至固体表面后进行扩增。braslavsky等人开发了省略该扩增步骤的单分子方法(由helicosbiosciencescorp.,cambridge,ma商业化),其直接将dna分子固定至表面。i.braslavsky等人(2003)"sequenceinformationcanbeobtainedfromsinglednamolecules"proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica100:3960-3964。

可对物理结合至表面的dna分子进行平行测序。“合成测序”,如染料终止电泳测序,使用dna聚合酶来确定碱基序列。“焦磷酸测序”利用dna聚合,每次添加一个核苷酸,并通过由所附接的焦磷酸的释放发射的光来检测和定量添加至给定位置的核苷酸的数目(由454lifesciences,branford,ct商业化)。参见m.ronaghi等人(1996)."real-timednasequencingusingdetectionofpyrophosphaterelease"analyticalbiochemistry242:84-89。可逆终止子法(由illumina,inc.,sandiego,ca和helicosbiosciencescorp.,cambridge,ma商业化)采用染料终止子的可逆形式,每次添加一个核苷酸,并通过反复去除封闭基团以允许另一核苷酸的聚合来实时检测每个位置处的荧光。

在可以方便地在454测序平台上进行的通过引物检测(detection-by-primer)的延伸方法的一个实施方案中,第一和第二引物延伸反应在引物延伸的至少两个循环中顺序进行。特别地,采用与第一核苷酸标签退火的第一引物进行引物延伸的第一循环,并采用与第二核苷酸标签退火的第二引物进行引物延伸的第二循环。在引物延伸的每个循环中提供所有的脱氧核苷三磷酸(dntp)。任何dntp向dna分子内的并入均产生可检测的信号。在第一循环中检测到的信号指示核酸样品中第一靶核酸的存在,而在第二循环中检测到的信号则指示核酸样品中第二靶核酸的存在。因此,仅通过测序平台的单个循环即可检测每个靶核酸(例如,突变)。

所谓的“第三代”测序技术旨在通过直接从单dna分子读取序列来增加通量并减少完成时间及成本,因此消除了在桥式pcr或乳液pcr的情况下对于模板扩增的需要。说明性的第三代技术包括纳米孔dna测序、隧道电流dna测序、杂交测序、质谱法测序、微流体sanger测序、基于显微术的技术、rna聚合酶(rnap)测序、体外病毒高通量测序。

与高通量测序技术相关的大量劳动在于dna测序文库的制备。可利用被称为“标签化(tagmentation)”的基于转座酶的体外鸟枪法来简化文库构建,其中待测序的dna被同时片段化并用转座子末端标记,以引入有利于后续测序的序列。

在一些实施方案中,根据上述方法,可以利用“标签化”文库构建方法对核酸如单细胞的dna进行条形编码。

含有用于标记靶dna序列的成组转座子的试剂盒

根据本发明的试剂盒可包含对实施本文所述的一种或多种测定方法有用的一种或多种试剂。试剂盒通常包含具有一个或多个容纳试剂的容器的包装,该试剂作为一种或多种单独的组合物,或任选地在试剂的相容性允许的情况下作为混合物。该试剂盒还可包含从用户角度来看可能期望的其他物质(如缓冲液、稀释剂、标准物)和/或对于样品处理、洗涤或进行测定的任何其他步骤有用的任何其他物质。在具体实施方案中,该试剂盒包含一个或多个上述基质型微流体装置。

在特定实施方案中,根据本发明的试剂盒可包含一组两个或更多个功能性转座子(即,每个均能够被转座酶插入核酸中),其中每个转座子包含不同的第一转座子条形码序列和位于具有引物结合位点的填充序列的侧翼的转座子末端。在某些实施方案中,转座子各自在填充序列中包含相同的第一引物结合位点。在各种实施方案中,该组中的转座子的数目为:2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50个或更多个,每个转座子均包含独特的条形码序列。在一些实施方案中,试剂盒中的转座子数目落入由任意这些值所限定的范围内,例如5-25个或10-15个。

在某些实施方案中,试剂盒包含至少两组两个或更多个转座子,其中一组内的每个转座子均包含与该组中所有其他条形码不同的条形码序列,但是其中每组转座子均包含与其他组转座子相同的一组条形码序列。一组内的每个转座子均可具有对于组内的所有转座子来说相同但与其他组转座子不同的索引序列。在各种实施方案中,如上所述,每组均可包含任何数目的转座子,并且该试剂盒可包含任意数目的组,例如2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100个或更多个。在一些实施方案中,试剂盒中的转座子组的数目落在由任意这些值所限定的范围内,例如10-100个或40-50个。在一些实施方案中,每组转座子在单个容器中以混合物形式提供。

此类试剂盒还可任选地包含能够将转座子并入样品核酸中的一种或多种转座酶。在一些实施方案中,将转座酶与其对应的转座子一起包装。在特定实施方案中,转座酶负载有与其相应的转座子。

含有条形码的转座子末端

在某些实施方案中,本发明还提供了在用于将条形码/索引引入样品核酸中的上述和其他方法中有用的人工转座子末端。已经发现,转座子末端内具有可容忍一定程度的变异的位置。可通过用不同的核苷酸取代相应野生型转座子末端序列的至少两个核苷酸中的每一个以产生转座子条形码来将转座子条形码引入此类位置。

包含条形码的转座子末端的一个应用是采用转座子制备dna测序文库中的应用,如标签化,其中待测序的dna被同时片段化并用转座子末端予以标记从而引入有利于后续测序的序列。对于illumina测序平台,常规执行该技术的方式产生具有图6所示结构的标记的片段。在这种结构中,测序引物(在这种情况下,例如p5或p7)在其开始读取靶序列之前通过条形码(在这种情况下,例如index1或index2)和转座子末端(在这种情况下,例如rd1sp或rd2spin)来引发测序。因此,极高质量的读序被浪费在已知序列上,而非用于未知序列。通过将条形码置于转座子末端的非必需位置,可使浪费的测序能力降至最低。

具体地,在mu转座子的情况下,例如,可用于取代的可能的非必需位置如下列出(采用与goldhaber-gordon等人j.biol.chem.2002,277:7703-7712相同的编号):

其中n=任何碱基;y=嘧啶;r=嘌呤

因此,mu转座子末端可容纳具有2、3或4个连续碱基的条形码,或者如果使用非连续位置进行条形编码,则条形码可具有5、6、7、8、9、10、11、12、13或14个碱基,产生非常多不同的可能条形码。其他转座子末端的可变位置是已知的或可凭经验确定的,并且可变位置的个数可多于或少于就mu转座子而言的个数。

值得注意的是,一些位置可容忍任何碱基取代,而其他位置则要求取代的碱基应当为嘧啶或嘌呤。条形码所需的位置数将取决于应用(参见上面关于与条形码相关的考虑因素的讨论)。例如,如果将位置3、4和5用于条形码,则测序引物的3'末端可在位置6处结束。此引物将引发在到达未知序列之前,对条形码的碱基和两个已知碱基(位置1和位置2)的测序。在到达未知序列之前必须读取17个已知碱基。此外,在上述构型中,一个引物可读取条形码和样品核酸序列二者。在许多应用中,后者的非常短的读序(例如20-30个碱基)足以独特地鉴别插入位点。相比之下,在常规illumina模板结构中,需要两种引物来检测条形码-样品核酸区段组合,一种用来读取样品核酸区段,一种则用来读取条形码。然后,两个读序必须与坐标相链接,这导致了两个读序可能被误链接的风险,从而使分析变得混乱。

通常,具有不同条形码的许多不同转座子将用于大多数应用。因此,在一些实施方案中,本发明提供了一种包含一组两个或更多个不同的第一人工转座子末端的试剂盒,其中不同的第一人工转座子末端包含不同的条形码。在各种实施方案中,该组中人工转座子末端的数目为:2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45个或50个或更多个,每个均包含独特的条形码序列。在特定实施方案中,试剂盒中人工转座子末端的数目落在由任意这些值所界定的范围内,例如5-25个或10-15个。

在一些实施方案中,其中试剂盒另外包含第二转座子末端,其中对于第一人工转座子末端相同的转座酶可将该第二转座子末端并入样品核酸中,由此形成标记的核酸分子,其中第一和第二转座子末端位于样品核酸序列侧翼并且被样品核酸序列隔开。第二转座子末端可具有任何核苷酸序列,只要该第二转座子末端保留被转座酶并入的能力。在特定实施方案中,第二转座子末端的序列不同于任何第一人工转座子末端的序列。第二转座子末端可为如上所述的人工转座子末端,其可具有与配对的第一转座子末端相同的条形码,或者可具有不同的条形码。

在一些实施方案中,不同的人工转座子末端被包装在一起,而在其他实施方案中,它们彼此分开包装。

此类试剂盒还可任选地包含能够将转座子末端并入样品核酸中的一种或多种转座酶。在一些实施方案中,转座酶与它们相应的转座子末端包装在一起。在特定实施方案中,转座酶与它们相应的转座子末端负载在一起。

在某些实施方案中,所述试剂盒另外包含在人工转座子末端内结合并引发包含条形码的核苷酸序列的聚合的引物,其中多个不同的人工转座子末端包含相同的引物结合位点。此类实施方案例如在dna测序中是有用的。对于测序,优选地定位引物结合位点以便使引物结合位点与待测序的模板之间的碱基数降至最低,只要该引物引发包含该条形码的核苷酸序列的聚合。在说明性实施方案中,引物结合位点与该条形码的末端相邻,优选直接相邻(即,没有中间碱基),该条形码与任何不变的转座子末端核苷酸相邻,优选直接相邻,该不变的转座子末端核苷酸与待测序的模板相邻,优选直接相邻。

采用含条形码的转座子末端的方法

可以如本文所述或本领域已知的,使用含有条形码的转座子末端将条形码引入样品核酸中。在一些实施方案中,利用诸如由grunenwald等人于2010年5月13日公开的美国专利公开号2010/0120098;2013年1月16日授予jendrisak等人的第2376517号欧洲专利;以及kavanagh等人于2013年1月24日公开的美国专利公开号2013/0023423中描述的那些方法,使用这些转座子末端生成条形编码的dna文库。

通常,在一些实施方案中,通过使样品核酸与合适的转座酶接触来产生条形码标记的核酸分子,该转座酶负载有包含序列的第一人工转座子末端,其中相应野生型转座子末端序列的至少2个核苷酸已各自被不同的核苷酸取代,所述取代限定条形码;从而形成包含位于样品核酸区段侧翼的第一人工转座子末端的标记的核酸分子。

在某些实施方案中,转座酶负载有第二转座子末端。第二转座子末端是转座酶能够将其与第一转座子末端一起并入样品核酸的转座子末端。结果产生标记的核酸分子,其中第一和第二转座子末端位于样品核酸区段的侧翼并被样品核酸区段隔开。在特定实施方案中,第二转座子末端的序列与任何第一人工转座子末端的序列不同。第二转座子末端可为如上所述的人工转座子末端,其可具有与配对的第一转座子末端相同的条形码,或者可具有不同的条形码。

在特定实施方案中,所述方法包括使样品核酸与负载有一组第一人工转座子末端的转座酶接触,其中不同的第一人工转座子末端具有不同的条形码。转座酶可负载有具有任何核苷酸序列的第二转座子末端,只要其保留被转座酶并入的能力。在一些实施方案中,使用一组第二人工转座子末端,其中不同的第二人工转座子末端具有与该组中的其他条形码不同的条形码。可产生负载的转座酶,使得每个转座酶包含携带相同条形码的第一和第二人工转座子末端。或者,每个转座酶可包含携带不同条形码的第一和第二转座子末端。

在一些实施方案中,所述方法另外还需要采用在人工转座子末端内结合并引发包含条形码的核苷酸序列的聚合的引物对标记的核酸分子进行测序。

实施例

实施例1:利用数字化转座子确定单倍体组的类型

该实施例描述了用来(1)准确计数来自单细胞的染色体的绝对拷贝数、(2)提高判定snp或snv的准确度以及(3)单倍体(hyploid)分型的方法。具体地,使用一组转座子来“标记”dna,这组转座子含有充当转座子的条形码的核苷酸序列的区域。例如,一组转座子可以共用一个共同条形码,第二组转座子可以共用不同的共同条形码,而第三组转座子可以共用第三个共同条形码。或者,每个转座子可以具有其独特的条形码或独特的条形码组合。尽管该实施例是针对包含条形码的转座子来撰写的,但亦可通过采用在可用测序予以区分的独特位点处插入的非条形编码的转座子获得相同的结果。

图1显示了说明性转座子的分子结构。在两端存在转座子末端(也称为“臂”),转座酶与之结合,随后转座子插入dna中。在两端内侧是针对转座子条形码的两个区域(在图1中称为“转座子索引”)。任选地,在针对转座子索引的区域的内侧是针对“细胞索引”的区域,后者是鉴定该细胞是所分析的核酸的来源的核苷酸序列。任选地,在针对细胞索引的区域的内侧是用于dna测序的一个或多个引物序列。在测序引物之间是用于其他用途(例如,全基因组扩增(wga),蛋白质-引发的wga(pwga)等)的填充序列(staffersequence)。

i.拷贝数测定

可在细胞裂解以及染色体dna暴露之后使用转座子。可以调节转座子相对于染色体dna的量,使得可以获得所需的转座子插入密度,该密度将根据分析的所需分辨率而变化。随后,转座子标记的基因组可通过wga扩增。通常,一些区域将扩增过度,而另一些区域将扩增不足,并且扩增过度或扩增不足将被记录在存在于该区域中的转座子中。由于每个转座子可单独地进行条形编码,所以与该转座子相关联的基因组序列也得到条形编码。可对基因组序列进行归一化,以考虑扩增中的差异,如图2a所示。更具体地,不同转座子条形码-基因模式的数目给出了该基因的拷贝数。基因a仅有一个转座子条形码-基因模式,并且基因b仅有一个转座子条形码-基因模式,因此每个基因以一个拷贝存在。尽管事实上扩增产物含有的基因a是基因b的1.5倍,但转座子模式表明样品核酸(扩增前)中,即基因组中,每个基因的拷贝数是相等的。

如例如图2b所示检测真实的cnv。由于基因c与三个不同的条形编码的转座子相关联,因此可推断基因c在基因组中以三个拷贝存在。

因此,可以在分子水平上数字化地标记基因组dna,并且通过对基因组序列的特定区域中转座子条形码的独特组合进行计数,能够准确地计算整个基因组中的基因座的拷贝数。更重要的是,可以采用极精细分辨率,低至10kb、5kb、2kb或甚至500bp或更低,来准确地确定拷贝数变异。已经报道,人类基因组具有比单核苷酸变异(snv)更多的拷贝数变异(cnv)。癌细胞具有升高的cnv和snv。因此,以极精细的分辨率鉴别cnv的能力对于理解和诊断癌症和其他疾病是有意义的。

ii.杂合性和纯合性的准确确定

在对大基因组或wga扩增的基因组进行测序时,如图3a所示,难以确定snp位点真正是纯合子还是杂合子,因为等位基因脱扣(ado)可导致错误的纯合子判定。利用本文所述的方法,由二倍体细胞的测序运行得到的单个转座子条形码-snp模式表明ado,原因在于否则应观察到两个不同的转座子条形码-snp模式。

更具体地,在不存在ado的情况下,真正的纯合子应产生与相同snp序列(即,图3a中的“a”)相关联的两组不同的转座子条形码,原因在于,在一个“a”等位基因中,特定的一组转座子将随机并入,而在另一个“a”等位基因中,随机并入可能将产生一组不同的转座子。

或者,在不存在ado的情况下,杂合子应产生两组不同的转座子条形码,每一组与不同的snp序列相关联,原因是每一个不同的等位基因应具有两组不同的随机并入的转座子。这种情形示于图3b中。在不存在本文所述方法的情况下,可能得出以下结论:因为g等位基因的覆盖范围远低于a等位基因的覆盖范围,所以“g”等位基因表示dna中的测序错误,应为纯合子“a”。

iii.a.区分测序错误与真正的突变

由于测序错误将产生与同组转座子条形码相关联的不同snp序列,所以可将测序错误与真正的突变区分开。这是因为每组转座子条形码标记单个等位基因,并且一个等位基因不能在同一位点处具有两个不同的序列的事实表明已发生测序错误。图3c示出了在杂合子的一个等位基因中已发生测序错误的情形。如对于杂合子所预期的,观察到两种不同的转座子条形码模式。然而,一种模式与两个不同的snp序列即“a”或“g”相关联,这表明这些核苷酸之一代表测序错误。

iii.b.提高癌细胞中突变判定的准确度

癌细胞可以具有一条染色体的1、2、3、4、5、6个或甚至更多个拷贝,这种现象被称为非整倍性。例如,如果六分之一的染色体具有突变,并且测序覆盖范围为20x,则含有该突变的读序由于不平衡的wga或不平衡的测序文库构建而可以为1、2或3。因此,在传统测序中判定该突变的置信度不太高。相反,如果进行转座子介导的条形编码,突变将与一个特定的条形码或条形码模式(例如,插入位点)或条形码组合相关联,而其他野生型读序与五个其他的条形码或条形码模式或条形码组合相关联。在这种情况下,可以以更高的置信度判定突变。

iii.c.提高区分基因与假基因的准确度

nanog是在癌细胞中表达的一种逆癌基因(retro-oncongene)。它具有另一个未加工的假基因和其他十个已加工的假基因。一些假基因在癌细胞中表达。由于已知的假基因在一段长序列内在一级序列上高度类似,并且存在未鉴定出的假基因的可能性很高,因此尤其当存在突变时,将一个与另一个进行区分是极具挑战性的。关于任何特定的基因组区域,对于该区域的一个拷贝应仅有一个条形码/条形码模式/条形码组合,转座子介导的条形编码将促进一个(假)基因与另一个相区分,从而允许准确确定任何突变的位置(其可以如以上iii.b.所述进行鉴定)。

iv.数字单倍体分型

本文所述方法还可以用来关联来自相同的基因组dna分子的snp。当两个snp相隔很远并且在它们所位于的染色体中被相同的序列(即,不提供信息的序列)隔开时,现有的鸟枪法测序方法无法确定snp的相位(连接)。需要其他的劳动密集型方法来解决该问题。如图4所示,本文所述方法将独特的标记(转座子条形码)插入不提供信息的区域中以连接相隔很远的snp。连接的snp限定了单倍型。单倍型分析是重要的,例如,因为已报道与单独hla基因座处的等位基因匹配而单倍型不匹配的组织供者和受者相比,hla单倍型匹配的组织供者和受者具有较好的临床结果。

v.a.鉴别开放和封闭的等位基因

当温和地裂解细胞时,染色质结构不会被打乱,并且仅开放区域可进行转座。这种用于探询开放染色质的基于转座酶的技术被称为atac-seq,由buenrostrojd等人(natmethods.2013年12月;10(12):1213-8.doi:10.1038/nmeth.2688.epub2013年10月6日,transpositionofnativechromatinforfastandsensitiveepigenomicprofilingofopenchromatin,dna-bindingproteinsandnucleosomeposition)首次报道,该文献通过引用其对于该方法的描述而并入于此。

该技术可与本文所述的转座子介导的条形编码组合以鉴别开放等位基因和封闭等位基因。首先,温和地裂解细胞以使染色质保持在与细胞内相同的状态。随后,采用具有一组条形码的转座子对开放染色质进行标记。接着,完全除去该染色质的组蛋白以暴露曾封闭的染色质。然后,采用具有第二组条形码的转座子对先前封闭的染色质区域中的等位基因进行标记。随后可利用条形码来区分开放和封闭染色质中的等位基因。这对于确定特定基因座的两个等位基因是均开放的还是均封闭的还是一个开放而另一个封闭的是特别有用的。

v.b.关联开放染色质与基因型

肿瘤抑制基因对于抑制肿瘤发生是重要的。肿瘤抑制基因中的突变可促进癌症的发展。对于具有一个突变型和一个野生型等位基因的杂合子,野生型等位基因的表达可以是保护性的。因此,确定该野生型等位基因是处于开放状态还是处于封闭状态以预测癌症风险可能是重要的。

可以采用方法v.a.和iv.的组合来确定野生型等位基因是处于开放状态还是处于封闭状态,以及野生型等位基因是与开放或封闭增强子相关联,还是与开放或封闭阻抑物相关联,两者均可位于距离等位基因数千碱基处。更具体地,v.a.可用来确定每个区域中的开放/封闭状态,而iv.可用来确定野生型等位基因与增强子或阻抑物之间的关联。

v.c.在同一染色体上关联染色质状态

v.a.和iv.的组合对于确定两个染色体区域之间的连接以及确定它们的状态是有用的。例如,结构基因可以在其调节基因在特定条件下可能开放或封闭的同时开放或封闭。这导致四种不同的组合:开放结构基因-开放调节基因(开放-开放),开放结构基因-封闭调节基因(开放-封闭),封闭结构基因-封闭调节基因(封闭-封闭),封闭结构基因-开放调节基因(封闭-开放)。对于具有两套基因的正常细胞,将会有九种情形:(1)开放-开放+开放-开放,(2)封闭-封闭+封闭-封闭,(3)开放-封闭+开放-封闭,(4)封闭-开放+封闭-开放,(5)开放-开放+开放-封闭,(6)开放-开放+封闭-开放,(7)开放-封闭+封闭-封闭,(8)封闭-开放+开放-封闭,(9)封闭-封闭+封闭-开放。如果结构基因和调节基因都不具有区分各等位基因的任何snp位点,(1)、(5)、(6)、(8)将在传统测序时给出相同测序结果,显示为开放-开放。然而,这四种情形可给出不同的表达水平。类似地,在传统测序时(3)和(7)将显示与开放-封闭相同的结果,并且(4)和(9)将显示与封闭-开放相同的结果。利用本文所述方法,具有条形码的转座子将根据开放/封闭状态差异化标记不同等位基因,并且使得如iv.所示的单倍体重建中的关联成为可能,以便可以辨别全部情形。

vi.通过将转座子条形码插入整个基因组的连续链中进行单倍型分析

将多个等位基因分配至同一染色体(“单倍型分析”)的能力是强大的,因为这可以例如通过提供关于基因组中重组事件的信息而提供临床相关性的信息。此类信息对于定位导致疾病的突变可能是重要的,并且可以在全基因组疾病关联研究中帮助确定连锁不平衡或两种多态性的存在之间的统计学相关性。例如,如果两个多态性之间的相关性(即,连锁不平衡)很高,则已知一种多态性(例如,snp)处的基因型可以帮助预测另一多态性(例如,snp)的基因型。

通过确定其单倍型来更完全地匹配人类白细胞抗原(hla)的能力将会极大地改善例如移植受者的临床结果(crawford和nickerson,2004,ann.rev.med.56:303-320,通过引用其全文并入本文)。例如,通过实施本文所述方法(特别参见下文),移植受者和潜在供者可在沿着主要组织相容性复合物的多个标记物进行基因分型,并且可以由所生成的数据来确定单倍型。可在以下实施例中找到这类比对的实例。这类比对可以提供移植受者与供者之间高度准确的hla匹配,从而带来比不太匹配的患者和供者更好的移植结果。

此外,存在这样一些疾病,其中特定基因座处的单倍型而非基因型可以预测疾病的风险和/或严重性,从而帮助确定诊断和/或预后。此外,准确的单倍型将不仅对于确定特定患者的疾病的风险和/或严重性,而且对于为临床医生提供在根据诊断和/或预后确定潜在治疗选项(因为不同的治疗选项可能与不同的疾病状态和/或严重性的水平相关)方面有用的信息具有广泛的实用性。例如,特异性的镰状细胞贫血β-球蛋白基因座单倍型与不太严重的镰状细胞贫血相关,并且il-10启动子区域的单倍型与接受细胞移植的患者的移植物抗宿主病和死亡的较低发生率相关。因此,改进的单倍型分析方法将对例如疾病相关性、疾病诊断和预后措施的研究以及治疗方案的施用具有很大影响。然而,单倍型分析还对农业和其他园艺领域具有重大意义,特别是家畜和作物的培育,其中疾病或优良特性可能与动物或植物中的特定单倍型有关。

此外,由于染色体非常复杂,通过传统方法对癌细胞进行单倍型分析是极具挑战性的。除了复杂性之外,癌组织或细胞系中单独的癌细胞是异质性的。

存在许多方法来确定杂合的等位基因是否在染色体上分组集合在一起。当两个等位基因相隔不远时,它们可容易地通过pcr、sanger测序或微阵列或ngs来确定。然而,当两个等位基因相隔很远时,单倍型分析变得具有挑战性。核型分析、原位杂交、大插入片段克隆是大范围单倍型分析的经典技术。然而,它们具有低通量和劳动密集的缺点。较新的技术具有一种或多种缺点,即它们并非普遍适用于任何感兴趣的样品,并且可能在技术上执行困难和/或费力,不提供单独细胞的遗传组成的准确描述或一组细胞的异质性的呈现,不能提供许多癌细胞的准确单倍型,以及不能用于单细胞单倍型分析。

在某些实施方案中,本发明提供了克服所有这些问题的单倍型分析方法。该方法需要使用转座子介导的条形编码来用条形码标记基因组dna,该条形码随后可用来确定拷贝数及鉴别等位基因之间的连接(例如,如以上部分i和iv所述)。说明性的实施方案采用条形编码的单片式(single-piece)转座子(两个转座子末端被连接并且连续),如图1所示。优选的靶dna来自完整的单细胞。条形编码的转座子的转座产生用条形码以分布式方式标记的全基因组,其中在切口补平之后,染色体保持完整并且连续。例如,随后可使用由fluidigm,inc.销售的c1tmsingle-cellautoprepreagentkitfordnaseq(kitpartno.100-7357)以全基因组扩增方式扩增染色体dna。随后可对扩增的、条形编码的基因组进行片段化以制作用于ngs例如illumina测序的文库。与现有技术单倍型分析方法相比,测序文库的产生可与条形编码相分离,以便单细胞的遗传组成(可以是独特的)在测序中具有更高的覆盖可能性。通过使用条形码得到拷贝数信息和等位基因与等位基因的连接,可容易地实现准确的单倍体分型。

实施例2:条形码向mu转座子末端中的并入

本实施例说明了将条形码并入mu转座子末端中以产生可用于各种条形编码应用的人工转座子末端。野生型mu转座子末端具有如下所示的结构,随后是在位置3-5处包含条形码的一组人工转座子末端(仅示出顶链)。条形码末端被标记为tpbc1(“转座子条形码1”)至tpbc10:

对于dna测序,测序引物,例如5'-ctttcgcgttttttcgtgcgccg-3'(seqidno:33),将从右向左引发测序,首先读取三个条形码碱基,然后在到达第六个碱基处的靶序列之前读取转座子的两个共有序列碱基(5'-ca-3')。

如果希望有其他条形码,则可将下面示出的一个或多个额外的下划线标出的可变位置用作在mu转座子末端中进一步取代的位点。

其中n=任何碱基;y=嘧啶;r=嘌呤。

实施例3:由通过标签化插入的转座子条形码确定的开放染色质区中的基因的拷贝数测定

根据制造商说明书(www.fluidigm.com)在4.5nlc1捕获位点捕获单独的k562细胞。用针对哺乳动物细胞的活力/细胞毒性试剂盒(目录号l3224,lifetechnologies,carlsbad,ca,usa)对细胞进行染色,以在显微镜下将其鉴别为活的或死的,并且同时确定每个捕获位点的细胞数(0、1或2)。然后将细胞用1xpbs缓冲液洗涤,在该缓冲液中浸泡,之后递送9nl1.5xtd缓冲液(illumina)、1.5xtde1(illumina)(来自目录号fc-121-1030,illumina,sandiego,ca,usa的组分)、1.5%np40及1.5xc1加载试剂(fluidigm)并在捕获室和反应室#1中混合。使这些裂解及标签化反应在37℃进行30分钟。图8b呈现了在本实施例中使用的转座子。通过递送9nl50mmedta在组合捕获室(反应室#1和反应室#2)中终止标签化反应。将组合的室加热至50℃持续30分钟。将9nl50mmmgcl2递送至组合捕获室(反应室#1、#2和#3)中的反应混合物并与之混合。最后,将具有含有转座子末端序列的引物的pcr主混合物(biorad)添加至组合捕获室(反应室#1、#2、#3、#4和#5)中的反应中。反应温度最初为70℃持续10分钟,随后是95℃持续15秒、50℃持续15秒和72℃持续2分钟的10个循环。从c1芯片上洗脱下扩增的片段并按照illumina的方案对扩增片段进行测序。

对于一个细胞,以低覆盖度从illumina测序获得总共约13000个76碱基长的、可映射至参考基因组的正链的读序。在这些读序中,10%映射至染色体dna,而90%映射至线粒体dna。可映射至基因组dna的10%的读序包括约30%的以下读序,其为pcr复制物的读序且特征在于相同的起始点。在基因组读序中,>99%的等位基因被覆盖一次。图9a显示了从染色体dna区域获得的总共三个读序。然而,读序2和3是相同的,表明有两种不同的转座模式,两个等位基因各有一种。图9b显示了从线粒体dna区域获得的总共21个读序。这21个读序包括至少7种不同的转座模式,表明线粒体dna中存在该区域的至少7个拷贝。即使在有限的覆盖度下,也可以看出转座模式与可用靶标成比例。

来自另一个细胞的结果显示在图10中。对于染色体dna的区域,获得了四种不同的转座模式(seq1-seq4),表明在此区域存在基因的至少四个拷贝。在这四个序列中,seq1、seq2和seq3在重叠区中具有不同的snp位点以使彼此相区分,从而验证了不同的转座模式指示基因的不同拷贝。在图10中,共有序列以大写字母表示,而非共有序列则以小写字母表示。箭头突出显示了条形码用于辨别真实变体与可能的测序错误的潜在用途,其已经在ii和iiia中详细阐述。

实施例4:利用通过标签化插入的转座子条形码的拷贝数测定

根据制造商说明书(www.fluidigm.com)在4.5nlc1捕获位点捕获单独的单k562细胞。用针对哺乳动物细胞的活力/细胞毒性试剂盒(目录号l3224,lifetechnologies,carlsbad,ca,usa)对细胞进行染色,以在显微镜下将其鉴别为活的或死的。然后将细胞用1xpbs缓冲液洗涤,并在该缓冲液中浸泡,之后递送9nl1.5xtd缓冲液(来自目录号fc-121-1030,illumina,sandiego,ca,usa的组分)、0.1ug/ul、1.5%np40及1.5xc1加载试剂并在捕获室和反应室#1中混合。使这些裂解和消化反应在37℃进行30分钟,随后在75℃持续30分钟。递送具有2.5xtde1(图8b)的9nl1xtd并在组合捕获室(反应室#1和#2)中混合。使标签化在55℃下进行5分钟。通过向组合的捕获室(反应室#1、#2和#3)递送9nl50mmedta并升温至50℃持续30分钟来终止转座。最后,将具有含有转座子末端序列的引物的phusionpcr主混合物添加至组合捕获室(反应室#1、#2、#3、#4和#5)中的反应中。反应温度先升高至70℃持续10分钟,随后是95℃持续15秒、50℃持续15秒及72℃持续2分钟的10个循环。从c1芯片上洗脱下扩增的片段并根据illumina的方案对扩增的片段进行测序。

片段的起始点用于提取条形编码信息。与参考基因组的相同区域匹配的不同起始点的片段的数目表示该基因的区域的最小拷贝数。

实施例5:条形编码的单片式转座子向基因组中的插入

根据制造商说明书(www.fluidigm.com)在4.5nlc1捕获位点捕获单独的单k562细胞。用针对哺乳动物细胞的活力/细胞毒性试剂盒(目录号l3224,lifetechnologies,carlsbad,ca,usa)对细胞进行染色,以在显微镜下将其鉴别为活的或死的。然后将细胞用1xpbs缓冲液洗涤,并在该缓冲液中浸泡,之后递送9nl1.5xtd缓冲液(来自目录号fc-121-1030,illumina,sandiego,ca,usa的组分)、0.1ug/ul1.5%np40及1.5xc1加载试剂并在捕获室和反应室#1中混合。使这些裂解和消化反应在37℃下进行30分钟以及在75℃持续30分钟。递送具有2.5x条形编码的1-片式转座子(图8a)的9nl1xtd缓冲液并在组合捕获室(反应室#1和#2)中混合。使转座反应在55℃下进行5分钟。通过向组合捕获室(反应室#1、#2和#3)递送9nl50mmedta并升温至50℃持续30分钟来终止转座。接下来,递送135nl含有klenow片段(0.1单位/1000nl)、t4dna连接酶(0.1单位/1000nl)和10mmatp的1.23xdnaseq(fluidigm)缓冲液,并在组合的捕获室(反应室#1、#2、#3和#4)中与终止的转座反应混合。延伸和切口补平在25℃下进行1小时。最后,递送135nl的1xdnaseq缓冲液和2.23xphi29(fluidigm方案中的dnaseq酶)并在组合捕获室(反应室#1、#2、#3和#4)中混合。在38℃下2小时后,根据fluidigm方案从c1芯片上洗脱下全基因组扩增产物,然后根据illumina方案对该产物进行标签化并测序。

将利用来自读序1测序引物和读序2测序引物中的引物获得测序。此外,条形编码的1-片式转座子携带用于对靶向基因组及条形码进行测序的引物位点。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1