制备用于核酸测序的配对标签文库的方法

文档序号:580258阅读:218来源:国知局
专利名称:制备用于核酸测序的配对标签文库的方法
技术领域
本公开内容涉及用于制备和使用序列配对标签和配对标签文库的方法和组合 物。
背景技术
“末端配对(paired-end)“、“配对(pairwise)〃、或“配对标签〃测序技术在 分子生物学领域,特别是在全基因组鸟枪法测序(Siegel A.F.等人,Genomics.2000,68: 237-246 ; Roach J.C.等人,Genomics.1995,26 345-353)的背景下是普遍已知的。配 对标签测序允许在单条多核苷酸双链体上从两个位置确定序列的两个"读数"。在一些 情况下,与通过以随机的方式从两个独立的核酸序列中每个测序"η"个碱基相比,末 端配对方式通过测序核酸序列的两个区段(每个长度为"η"个碱基)而允许获得更多的 信息。例如,通过使用适当的软件工具用来组装序列信息(Millikin S.C.等人,Genome Res.2003,13: 81-90 ; Kent, W.J.等人,Genome Res.2001,11: 1541-8),可能利用下 述知识,即"配对标签"序列并非完全随机的,而是已知在单条双链体上出现的,且因 此在基因组中是连接的或配对的。这一信息可帮助将全基因组序列组装成一致序列。

发明内容
在一些实施方案中,本教导提供协助制备配对标签和配对标签文库的方法和产 品。在一些实施方案中,这些可用于增加所产生的配对标签的大小以及用于降低成本。 这种延长的大小可协助序列组装并提高下一代DNA测序应用如微生物鉴定和遗传性变异 的发现的精确度。在一些实施方案中,提供了形成配对标签的方法,该配对标签包含第一标签序 列和第二标签序列。该方法包括将双链目标多核苷酸的第一末端和第二末端连接到衔接 头由此形成环状核酸分子,其中环状核酸分子包含第一切口,其位于双链目标多核苷酸 的第一末端和衔接头之间,以及第二切口,其位于双链目标多核苷酸的第二末端和衔接 头之间,其中第一切口和第二切口与第二切口相比位于环状核酸分子的不同链上;以及 进行切口平移反应,其中至少一个切口被平移到目标多核苷酸中。在一些实施方案中,提供了形成来自于目标DNA片段的释放的配对标签的方 法。该方法包括连接第一衔接头到目标DNA片段的第一末端,且连接第二衔接头到目标 DNA片段的第二末端,由此产生衔接头修饰的片段,通过附着第三衔接头到衔接头修饰 的片段来环化衔接头修饰的片段,由此形成环状核酸分子,其中第一切口存在于第三衔 接头和第一衔接头之间,且第二切口存在于第二衔接头和第三衔接头之间,其中环状核酸分子包含DNA的第一条链和第二条链,且其中第一切口和第二切口不存在于环状核酸 分子的同一条链上;进行切口平移反应,其中环状核酸分子的每条链上的切口被平移到 目标DNA片段中,以及在被平移的切口的位置切割环状核酸分子,由此形成释放的配对 标签。在一些实施方案中,提供了释放的配对标签文库。释放的配对标签文库包含两 个或更多释放的配对标签,该释放的配对标签通过下述方法制备,该方法包括连接第一 衔接头到目标多核苷酸的第一末端,且连接第二衔接头到目标多核苷酸的第二末端,由 此产生衔接头修饰的目标多核苷酸,通过附着第三衔接头到衔接头修饰的目标多核苷酸 来环化衔接头修饰的目标多核苷酸,由此形成环状核酸分子,其中第一切口存在于第三 衔接头和第一衔接头之间,且第二切口存在于第二衔接头和第三衔接头之间,其中环状 核酸分子包含第一条链和第二条链,且其中第一切口和第二切口不存在于环状核酸分子 的同一条链上;进行切口平移反应,其中环状核酸分子一条链上的切口被平移到目标多 核苷酸中,以及在被平移的切口的位置切割环状核酸分子,由此形成释放的配对标签。在一些实施方案中提供了释放的配对标签。释放的配对标签包含第一标签序 列,其中第一标签序列包含目标多核苷酸的第一末端,其中第一标签序列的长度在27 个核苷酸以上;第一衔接头,其共价结合到第一标签序列,其中第一衔接头包含结合部 分;和第二标签序列,其共价结合到第一衔接头,其中第二标签序列包含目标多核苷酸 的第二末端,且其中第二标签序列的长度在27个核苷酸以上。在一些实施方案中提供了溶液。该溶液包含环状核酸分子,环状核酸分子包 含双链目标多核苷酸,其包含第一末端和第二末端;以及至少一个衔接头。至少一 个衔接头可共价结合到双链目标多核苷酸的第一末端和第二末端,由此形成环化的核酸 分子。环状核酸分子还包含第一切口,其位于双链目标多核苷酸的第一末端和衔接头之 间,以及第二切口,其位于双链目标多核苷酸的第二末端和衔接头之间。第一切口与第 二切口或缺口相比位于环状核酸分子的不同链上。该溶液也可包含切口平移酶。在一些 实施方案中,该溶液还包含第二环状核酸分子,第二环状核酸分子包含双链目标多核苷 酸,该双链目标多核苷酸包含第一末端和第二末端和至少一个衔接头,该衔接头共价结 合到双链目标多核苷酸的第一末端和第二末端,由此形成第二环化的核酸分子。第二环 状核酸分子包含第三切口,其中第三切口距离双链目标多核苷酸的第一末端和衔接头之 间的部位在27个核苷酸以上,以及第四切口,其中第四切口距离双链目标多核苷酸的第 二末端和衔接头之间的部位在27个核苷酸以上,且其中第三切口与第四切口相比位于环 状核酸分子的不同链上。在一些实施方案中,提供了形成配对标签的方法。该配对标签包含第一标签序 列和第二标签序列,第一标签序列和第二标签序列在一起包含目标多核苷酸的至少一部 分。该方法包括连接双链目标多核苷酸的第一末端到至少一个衔接头,以及连接双链目 标多核苷酸的第二末端到至少一个衔接头。该方法进一步包括形成环状核酸分子,该环 状核酸分子包含双链目标多核苷酸、第一切口和第二切口,第一切口包含环状核酸分子 第一条链上的第一 3’末端,第二切口包含环状核酸分子第二条链上的第二 3’末端。第 一切口和第二切口在环状核酸分子的不同链上。该方法进一步包括延伸环状核酸分子第 一条链的第一 3’末端到双链目标多核苷酸的序列中,以及延伸环状核酸分子第二条链的第二 3’末端到双链目标多核苷酸的序列中。在一些实施方案中,提供了带切口的连接多核苷酸。带切口的连接多核苷酸包 含第一衔接头,该第一衔接头包含与第二衔接头链杂交的第一衔接头链。第一衔接头链 在其5’末端上缺少磷酸基团。带切口的连接多核苷酸还包含第二衔接头,该第二衔接 头包含与第四衔接头链杂交的第三衔接头链。第三衔接头链在其5’末端上缺少磷酸基 团。带切口的多核苷酸进一步包含连接多核苷酸,该连接多核苷酸包含与第二连接链杂 交的第一连接链。该连接多核苷酸包含第一末端和第二末端。第一衔接头附着到连接多 核苷酸的第一末端,从而第一衔接头链在其5’末端上缺少磷酸基团的地方存在切口。第 二连接链附着到第二衔接头链。第二衔接头附着到连接多核苷酸的第二末端,从而第二 衔接头的第三衔接头链在其5’末端上缺少磷酸基团的地方存在切口。连接多核苷酸的 第二条链附着到第四衔接头链。在一些实施方案中,提供了带切口的连接多核苷酸。带切口的连接多核苷酸 包含第一双链衔接头、双链连接多核苷酸和第二双链衔接头,该第二双链衔接头附着到 双链连接多核苷酸的第二末端。第一双链衔接头附着到双链连接多核苷酸的第一末端。 存在第一切口和第二切口,第一切口将第一衔接头的第一条链和双链载体的第一条链分 开,第二切口将第二衔接头的第二条链和双链载体的第一条链分开。第一切口和第二切 口在带切口的载体的不同链上。在一些实施方案中,提供了制备配对标签的方法。该方法包括提供带切口的连 接多核苷酸,该带切口的连接多核苷酸包含第一衔接头,该第一衔接头包含与第二衔接 头链杂交的第一衔接头链,其中第一衔接头链在其5’末端上缺少磷酸基团;第二衔接 头,该第二衔接头包含与第四衔接头链杂交的第三衔接头链,其中第三衔接头链在其5’ 末端上缺少磷酸基团;以及连接多核苷酸,其包含与第二连接链杂交的第一连接链。该 连接多核苷酸包含第一末端和第二末端。第一衔接头附着到连接多核苷酸的第一末端, 从而第一衔接头链在其5’末端上缺少磷酸基团的地方存在切口。第二连接链附着到第 二衔接头链。第二衔接头附着到连接多核苷酸的第二末端,从而第二衔接头的第三衔接 头链在其5’末端上缺少磷酸基团的地方存在切口。连接多核苷酸的第二条链附着到第 四衔接头链。该方法进一步包括连接双链目标多核苷酸的第一末端到第一衔接头,连接 双链目标多核苷酸的第二末端到第二衔接头,以及将第一和第二切口移动到双链目标多 核苷酸中。在一些实施方案中,提供了制备配对标签的方法,和配对标签本身。在一些实 施方案中,该方法允许产生大小不受限制的配对标签。在一些实施方案中,本发明包括 线性配对标签。线性配对标签可包含第一标签序列。第一标签序列包含目标多核苷酸的 第一末端。线性配对标签可进一步包含共价结合到第一标签序列的第一衔接头和共价结 合到第一衔接头的第二标签序列。第二标签序列包含目标多核苷酸的第二末端。线性配 对标签缺少IIs型限制位点和缺少III型限制位点。在一些实施方案中,提供了形成配对标签的方法,该配对标签包含第一标签序 列和第二标签序列,第一标签序列和第二标签序列在一起包含目标多核苷酸的至少一部 分。该方法可包括连接双链目标多核苷酸的第一末端和第二末端到衔接头,由此形成环 状核酸分子,其中环状核酸分子包含第一切口,其位于双链目标多核苷酸的第一末端和
10衔接头之间,以及第二切口,其位于双链目标多核苷酸的第二末端和衔接头之间,其中 第一切口和第二切口与第二切口相比位于环状核酸分子的不同链上,以及进行切口平移 反应,其中至少一个切口被平移到目标多核苷酸中。在一些实施方案中,该方法可进一 步包括允许切口平移反应持续进行一段特定的时间;以及终止切口平移反应。在一些实 施方案中,双链目标多核苷酸的第一末端和第二末端缺少5’磷酸残基。在一些实施方案 中,该方法进一步包括在第一切口和第二切口的平移互相越过之前终止切口平移反应。 在一些实施方案中,第一切口和第二切口被平移10个碱基以上。在一些实施方案中,该 方法进一步包括在第一切口和第二切口切割环状核酸分子的步骤。在一些实施方案中, 第一切口和第二切口被平移500个碱基以下。在一些实施方案中,第一切口和第二切口 被平移200个碱基以下。在一些实施方案中,第一切口和第二切口被平移100个碱基以 下。在一些实施方案中,第一切口和第二切口被平移大约20个碱基至大约50个碱基。 在一些实施方案中,至少一个切口被平移500个碱基以下。在一些实施方案中,至少一 个切口被平移27个碱基以上并在500个碱基以下。在一些实施方案中,至少一个切口被 平移200个碱基以下。在一些实施方案中,至少一个切口被平移28个碱基至大约50个碱 基。在一些实施方案中,环状核酸分子包含第一缺口,其位于双链目标多核苷酸的第一 末端和衔接头之间。在一些实施方案中,环状核酸分子包含第二缺口,其位于双链目标 多核苷酸的第二末端和衔接头之间。在一些实施方案中,环状核酸序列包含缺口,该缺 口在切口平移反应进行时被核苷酸填充,由此产生切口。在一些实施方案中,目标多核 苷酸包含50至2500个核苷酸。在一些实施方案中,目标多核苷酸在连接步骤前经过大小 选择技术以选择包含50至2500个核苷酸的多核苷酸。在一些实施方案中,衔接头包含 结合部分。在一些实施方案中,使用选自下列的酶进行切口平移反应大肠杆菌(E.coli) DNA 聚合酶 I、Taq DNA 聚合酶、Vent DNA 聚合酶、Klenow DNA 聚合酶 I、phi29 DNA 聚合酶及其任何组合。在一些实施方案中,使用具有5’至3’外切核酸酶活性的DNA 聚合酶进行切口平移反应。在一些实施方案中,切口平移反应包括通过5’至3’外切核 酸酶活性除去核苷酸。在一些实施方案中,通过链置换发生切口平移反应。在一些实施 方案中,该方法进一步包括在第一被平移的切口处切割环状核酸分子,由此形成线性多 核苷酸,该线性多核苷酸包含被衔接头分开的第一标签序列和第二标签序列,其中第一 标签序列和第二标签序列来源于目标多核苷酸。在一些实施方案中,该方法进一步包括 在第二被平移的切口处切割环状核酸分子。在一些实施方案中,通过选自下列的酶切割 环状核酸分子Sl核酸酶、绿豆核酸酶、核酸酶P1、核酸酶BAL-31、及其任何组合。 在一些实施方案中,该方法进一步包括扩增线性多核苷酸。在一些实施方案中,衔接头 包含结合部分,该结合部分包含生物素。在一些实施方案中,该方法进一步包括使用链 霉抗生物素蛋白纯化配对标签的步骤。在一些实施方案中,该方法进一步包括在连接前 用碱性磷酸酶处理目标多核苷酸,其中从目标多核苷酸的第一末端和第二末端中都除去 5’磷酸。在一些实施方案中,碱性磷酸酶选自小牛小肠碱性磷酸酶、细菌碱性磷酸 酶、虾碱性磷酸酶、及其一些组合。在一些实施方案中,环状核酸分子还包含第二衔接 头,其中第二衔接头放置在第一衔接头附近。在一些实施方案中,第一衔接头的一条链 和第二衔接头的一条链缺少5’磷酸。在一些实施方案中,每个步骤通过所列的顺序进
在一些实施方案中,提供了形成来自于目标DNA片段的释放的配对标签的方 法。该方法可包括连接第一衔接头到目标DNA片段的第一末端和连接第二衔接头到目标 DNA片段的第二末端,由此产生衔接头修饰的片段,通过附着第三衔接头到衔接头修饰 的片段来环化衔接头修饰的片段,由此形成环状核酸分子,其中第一切口存在于第三衔 接头和第一衔接头之间,且第二切口存在于第二衔接头和第三衔接头之间,其中环状核 酸分子包含DNA的第一条链和第二条链,且其中第一切口和第二切口不存在于环状核酸 分子的同一条链上;进行切口平移反应,其中环状核酸分子的每条链上的切口被平移到 目标DNA片段中,以及在被平移的切口的位置切割环状核酸分子,由此形成释放的配对 标签。在一些实施方案中,该方法进一步包括允许切口平移反应持续进行一段特定的时 间,以及终止切口平移反应。在一些实施方案中,该方法进一步包括在每个被平移的切 口的位置切割多核苷酸链之前,终止切口平移反应。在一些实施方案中,该方法进一步 包括附着引物衔接头到配对标签的末端。在一些实施方案中,该方法进一步包括用针对 引物衔接头的引物扩增配对标签。在一些实施方案中,扩增是克隆扩增。在一些实施方 案中,克隆扩增包括乳剂聚合酶链反应(乳剂PCR)。在一些实施方案中,克隆扩增包括 桥式聚合酶链反应(桥式PCR)。在一些实施方案中,第三衔接头包含结合部分,并进一 步包括将该结合部分结合到固体支持物。在一些实施方案中,固体支持物是阵列。在一 些实施方案中,该方法进一步包括测序配对标签的一部分。在一些实施方案中,提供了释放的配对标签文库,该释放的配对标签文库包含 两个或更多释放的配对标签,所述释放的配对标签通过下述方法制备。该方法可包括 连接第一衔接头到目标多核苷酸的第一末端和连接第二衔接头到目标多核苷酸的第二末 端,由此产生衔接头修饰的目标多核苷酸,通过附着第三衔接头到衔接头修饰的目标多 核苷酸来环化衔接头修饰的目标多核苷酸,由此形成环状核酸分子,其中第一切口存在 于第三衔接头和第一衔接头之间,且第二切口存在于第二衔接头和第三衔接头之间,其 中环状核酸分子包含第一条链和第二条链,且其中第一切口和第二切口不存在于环状核 酸分子的同一条链上;进行切口平移反应,其中环状核酸分子一条链上的切口被平移到 目标多核苷酸中,以及在被平移的切口的位置切割环状核酸分子,由此形成释放的配对 标签。在一些实施方案中,目标多核苷酸从生物制备,该生物选自质粒、病毒、原核 细胞、古细菌细胞、细菌人工染色体、真核细胞、细胞系、原生动物、植物、藻类、细 菌、真菌、昆虫、爬行动物、鱼、两栖动物、鸟类和哺乳动物。在一些实施方案中,目 标多核苷酸经历大小选择技术。在一些实施方案中,在连接步骤前使用大小选择技术来 选择包含2000至3000个核苷酸的多核苷酸。在一些实施方案中,提供了释放的配对标签。释放的配对标签包含第一标签序 列,其中第一标签序列包含目标多核苷酸的第一末端,且其中第一标签序列的长度为至 少27个核苷酸;第一衔接头,其共价结合到第一标签序列;以及第二标签序列,其共价 结合到第一衔接头,其中第二标签序列包含目标多核苷酸的第二末端,且其中第二标签 序列的长度为至少27个核苷酸。在一些实施方案中,第一衔接头进一步包含结合部分。 在一些实施方案中,第一标签序列的长度为至少40个核苷酸。在一些实施方案中,第二 标签序列的长度为至少40个核苷酸。在一些实施方案中,提供了溶液。该溶液可包含环状核酸分子,所述环状核酸分子包含双链目标多核苷酸,其包含第一末端和第二末端;以及至少一个衔接头,其 中至少一个衔接头共价结合到双链目标多核苷酸的第一末端和第二末端,由此形成环化 的核酸分子,其中环状核酸分子还包含第一切口,其位于双链目标多核苷酸的第一末端 和衔接头之间,以及第二切口,其位于双链目标多核苷酸的第二末端和衔接头之间,且 其中第一切口与第二切口或缺口相比位于环状核酸分子的不同链上;以及切口平移酶。 在一些实施方案中,切口平移酶包括DNA聚合酶I。在一些实施方案中,该溶液进一步 包含切口切割酶,并且其中切口平移酶通过热灭活。在一些实施方案中,该溶液进一步 包含第二环状核酸分子,所述第二环状核酸分子包含双链目标多核苷酸,其包含第一 末端和第二末端;以及至少一个衔接头,其共价结合到双链目标多核苷酸的第一末端和 第二末端,由此形成第二环化的核酸分子,其中第二环状核酸分子包含第三切口,其中 第三切口距离双链目标多核苷酸的第一末端和衔接头之间的部位在27个核苷酸以上,以 及第四切口,其中第四切口距离双链目标多核苷酸的第二末端和衔接头之间的部位在27 个核苷酸以上,且其中第三切口与第四切口相比位于环状核酸分子的不同链上。在一些 实施方案中,第三切口距离双链目标多核苷酸的第一末端和衔接头之间的部位至少50个 核苷酸。在一些实施方案中,第四切口距离双链目标多核苷酸的第二末端和衔接头之间 的部位至少50个核苷酸。在一些实施方案中,该溶液还包含切口切割酶,其中切口平移 酶通过热灭活。 在一些实施方案中,提供了形成配对标签的方法,该配对标签包含第一标签序 列和第二标签序列,第一标签序列和第二标签序列在一起包含目标多核苷酸的至少一部 分。该方法可包括连接双链目标多核苷酸的第一末端到至少一个衔接头;连接双链目标 多核苷酸的第二末端到至少一个衔接头;形成环状核酸分子,该环状核酸分子包含双链 目标多核苷酸、第一切口和第二切口,第一切口包含环状核酸分子第一条链上的第一 3’ 末端,第二切口包含环状核酸分子第二条链上的第二 3’末端,其中第一切口和第二切口 在环状核酸分子的不同链上;延伸环状核酸分子第一条链的第一 3’末端到双链目标多 核苷酸的序列中;以及延伸环状核酸分子第二条链的第二 3’末端到双链目标多核苷酸 的序列中。在一些实施方案中,在延伸第一 3’末端之前,第一切口位于双链目标多核 苷酸的第一末端和至少一个衔接头之间,且第二切口位于双链目标多核苷酸的第二末端 和至少一个衔接头之间。在一些实施方案中,双链目标多核苷酸的第一和第二末端连接 到同一衔接头。在一些实施方案中,衔接头包括第一和第二衔接头,其中在形成环状核 酸分子后,第一衔接头位于双链目标多核苷酸的第一末端上,并且第二衔接头位于双链 目标多核苷酸的第二末端上。在一些实施方案中,第一衔接头通过连接多核苷酸连接到 第二衔接头。在一些实施方案中,在环状核酸分子形成后,第一切口位于第一衔接头的 末端,该第一衔接头的末端处于连接到双链目标多核苷酸的第一衔接头的末端的远端, 且第二切口位于第二衔接头的末端,该第二衔接头的末端处于连接到双链目标多核苷酸 的第二衔接头的末端的远端。在一些实施方案中,在衔接头连接到双链目标多核苷酸之 前,将衔接头连接到连接多核苷酸。在一些实施方案中,该方法进一步包括消化环状核 酸分子第一条链的至少一部分和消化环状核酸分子第二条链的至少一部分,其中消化导 致双链目标多核苷酸的至少一部分变成单链,其中消化在延伸第一和第二 3’末端之前发 生。在一些实施方案中,5’至3’外切核酸酶用于消化所述的带切口的环状核酸分子。在一些实施方案中,在双链目标多核苷酸全部变成单链之前停止消化。在一些实施方案 中,全部双链目标多核苷酸消化成单链目标多核苷酸。在一些实施方案中,DNA聚合酶 用于延伸所述的带切口的环状核酸分子。在一些实施方案中,该方法进一步包括消化环 状核酸分子第一条链的至少一部分和消化环状核酸分子第二条链的至少一部分,其中消 化导致至少一部分双链目标多核苷酸变成单链,其中消化在延伸第一和第二 3’末端的同 时发生。在一些实施方案中,消化和延伸在同一反应管中发生。在一些实施方案中,通 过切口平移来完成延伸环状核酸分子第一条链的第一 3’末端到双链目标多核苷酸的序列 中。在一些实施方案中,通过切口平移来完成延伸环状核酸分子第二条链的第二 3’末 端到双链目标多核苷酸的序列中。在一些实施方案中,第一和第二切口分别扩展成第一 缺口和第二缺口。在一些实施方案中,外切核酸酶用于将第一和第二切口分别扩展成第 一缺口和第二缺口。在一些实施方案中,外切核酸酶包括T7外切核酸酶。在一些实施 方案中,该方法进一步包括进行单链依赖性消化以释放配对的DNA标签。在一些实施方案中,提供了带切口的连接多核苷酸。带切口的连接多核苷酸可 包含第一衔接头,该第一衔接头包含与第二衔接头链杂交的第一衔接头链,其中第一衔 接头链在其5’末端上缺少磷酸基团;第二衔接头,该第二衔接头包含与第四衔接头链 杂交的第三衔接头链,其中第三衔接头链在其5’末端上缺少磷酸基团;以及连接多核 苷酸,该连接多核苷酸包含与第二连接链杂交的第一连接链,其中连接多核苷酸包含第 一末端和第二末端,其中第一衔接头附着到连接多核苷酸的第一末端,从而第一衔接头 链在其5’末端上缺少磷酸基团的地方存在切口,其中第二连接链附着到第二衔接头链, 其中第二衔接头附着到连接多核苷酸的第二末端,从而第二衔接头的第三衔接头链在其 5’末端上缺少磷酸基团的地方存在切口,其中连接多核苷酸的第二条链附着到第四衔接 头链。在一些实施方案中,带切口的连接多核苷酸在第二衔接头链的5’末端进一步包 含磷酸基团。在一些实施方案中,带切口的连接多核苷酸在第四衔接头链的5’末端进 一步包括磷酸基团。在一些实施方案中,在第二衔接头链的3’末端进一步包含磷酸基 团时没有磷酸基团。在一些实施方案中,提供了带切口的连接多核苷酸。带切口的连接多核苷酸 可包含第一双链衔接头;双链连接多核苷酸,其中第一双链衔接头附着到双链连接多核 苷酸的第一末端;以及第二双链衔接头,其附着到双链连接多核苷酸的第二末端,其中 存在第一切口和第二切口,第一切口将第一衔接头的第一条链和双链载体的第一条链分 开,第二切口将第二衔接头的第二条链和双链载体的第一条链分开,其中第一切口和第 二切口在带切口的载体的不同链上。在一些实施方案中,提供了制备配对标签的方法。该方法可包括提供带切口的 连接多核苷酸,该带切口的连接多核苷酸包含第一衔接头,该第一衔接头包含与第二 衔接头链杂交的第一衔接头链,其中第一衔接头链在其5’末端上缺少磷酸基团;第二 衔接头,其包含与第四衔接头链杂交的第三衔接头链,其中第三衔接头链在其5’末端上 缺少磷酸基团;以及连接多核苷酸,其包含与第二连接链杂交的第一连接链,其中连接 多核苷酸包含第一末端和第二末端,其中第一衔接头附着到连接多核苷酸的第一末端, 从而第一衔接头链在其5’末端上缺少磷酸基团的地方存在切口,其中第二连接链附着到 第二衔接头链,其中第二衔接头附着到连接多核苷酸的第二末端,从而第二衔接头的第
14三衔接头链在其5’末端上缺少磷酸基团的地方存在切口,其中连接多核苷酸的第二条链 附着到第四衔接头链。该方法可进一步包括连接双链目标多核苷酸的第一末端到第一衔 接头和连接双链目标多核苷酸的第二末端到第二衔接头;以及将第一和第二切口移动到 双链目标多核苷酸中。在一些实施方案中,该方法进一步包括单链依赖性消化以使带切 口的连接多核苷酸线性化。在一些实施方案中,该方法进一步包括连接内部衔接头到线 性化带切口的连接多核苷酸中。在一些实施方案中,该方法进一步包括扩增双链目标多 核苷酸的至少一条链。在一些实施方案中,扩增是基于PCR的扩增。在一些实施方案中,提供了线性配对标签。线性配对标签可包含第一标签序 列,其中第一标签序列包含目标多核苷酸的第一末端;第一衔接头,其共价结合到第一 标签序列;以及第二标签序列,其共价结合到第一衔接头,其中第二标签序列包含目标 多核苷酸的第二末端,且其中所述的线性配对标签缺少IIs型限制位点并缺少III型限制位 点O


本领域技术人员将理解下面描述的附图仅为示例说明的目的。附图无意于以任 何方式限制本教导的范围。图1描述了形成带切口的环状核酸分子的实施方案。图2描述了实施切口平移步骤的实施方案。图3描述了形成带切口的环状核酸的实施方案。图4描述了实施本发明的实施方案的步骤的实施方案。图5描述了线性化环状核酸分子的实施方案。图6描述了将引物衔接头附着到配对标签以用于进行测序的实施方案。图7描述了形成带缺口的环状核酸分子的实施方案。图8描述了形成环状核酸分子的实施方案。图9描述了形成带切口的环状核酸分子的实施方案。图10描述了形成具有拓扑异构酶I结合位点和切口的衔接头的实施方案。三角 形表示拓扑异构酶I识别位点的部位。图11描述了形成拓扑异构酶I-衔接头复合物的实施方案。图12描述了形成带切口的环状核酸分子的实施方案。图13描述了带切口的环状核酸分子的实施方案。图14描述了涉及切口平移步骤的实施方案。图15描述了通过形成缺口来形成配对标签的一些实施方案。图16描述了形成配对标签的替代实施方案。图17描述了形成配对标签的替代实施方案(续图16)。图18描述了形成配对标签的替代实施方案(续图17)。图19描述了形成配对标签的替代实施方案。图20描述了形成配对标签的替代实施方案(续图19)。图21描述了形成配对标签的替代实施方案(续图20)。图22描述了带切口的连接多核苷酸的实施方案。
15
图23描述了带切口的连接多核苷酸的实施方案,其中衔接头连接到连接多核苷 酸上。图24A描述了衔接头和连接多核苷酸之间的切口构型的实施方案。图24B描述了衔接头和连接多核苷酸之间的切口构型的实施方案。图25A-25C描述了衔接头末端的各种构型的三个实施方案。图26描述了使用图25B中的带切口的连接多核苷酸的方法的实施方案。图27描述了图26中实施方案的继续。图28描述了内部衔接头连接的替代实施方案。图29A描述了带切口的连接多核苷酸一些实施方案如何使所有的带切口的连接 多核苷酸都是有用的。图29B描述了不太优选的带切口的连接多核苷酸的许多可能排列以及它们中的 一些如何导致较不有用的产物。
具体实施例方式本文公开的各种实施方案一般涉及制备配对标签和配对标签文库的组合物和方 法。DNA"配对标签"是一段核酸序列,其包括从目标多核苷酸产生的两个标签(核酸 序列)。一般而言,每个标签都是目标多核苷酸的单独的部分,从而允许(但不限于)在 该单独的标签上使用短读数测序技术,但也允许人们在以后的序列分析过程中将两个标 签的序列结合在一起,这是因为该标签最终来源于相同的多核苷酸片段。目前,制备配对标签和配对标签文库的技术的数量是有限的。不同技术常常具 有导致序列读数短以及成本高的问题。迄今为止,下一代测序策略一般使用III型限制 酶,如 EcoP15I(AB SOLiD 测序)以及MmeI (454 Life Sciences)来产生DNA配对标签。 这些策略限制了标签的长度,这是因为EcoP15I和MmeI分别仅产生27bp和18bp的序列 标签。本文描述的一些实施方案克服了这种以及其他限制。本申请的一些实施方案涉及产生配对标签克隆的方法。在图1和2中一般地 概括描述了一种这样的实施方案。在图1中,在双链目标多核苷酸DNA片段(标注 为"DNA")的两个末端都连接上衔接头以形成环状核酸分子。在所描述的实施方案 中,双链目标多核苷酸DNA片段在5’末端和3’末端都缺少5’磷酸残基。所产生的 环状核酸分子在双链目标多核苷酸DNA片段的5’末端和衔接头之间具有切口,以及在 双链目标多核苷酸DNA片段的第二末端和衔接头之间具有切口。如图1中示意图示的, 切口可在环状核酸分子的不同链上。然后,如图2所示,进行切口平移反应。如图2中 示意图示的,将切口以5’到3’的方向在环状核酸分子的每一条链上移动到双链目标多 核苷酸DNA片段的内部的位置。在这一点上,可通过在切口对面的位置切割多核苷酸链 来释放配对标签克隆,如图5中示意图示的。切口平移反应产物的长度,即切口移动的距离,取决于反应条件,如反应时 间、反应温度、所使用的聚合酶等等。如本领域技术人员将理解的,可以改变反应条件 以控制切口平移产物的长度。因此。在一些实施方案中,人们可以控制所产生的序列标 签的长度。此外。在一些实施方案中,可将结合部分偶联到衔接头上,从而允许人们将 配对标签克隆附着到,例如固体支持物上。进一步而言,如图6所示意图示的,在一些实施方案中,引物衔接头可以附着到配对标签克隆的末端。引物衔接头可用于扩增配对 标签克隆,例如可以使用克隆扩增法。引物衔接头也可用于测序反应以用来对配对标签 克隆的一部分进行测序。除了上述内容以外,本文中也公开了简单地将3’末端延伸到目标多核苷酸中的 替代技术。因此,还可以使用3’延伸,且不需要切口平移本身。此外,本文也公开了 各种有切口的连接多核苷酸,其简化了向目标多核苷酸的外部和内部添加切口。如本领域技术人员将理解的,制备具有较长序列标签的配对标签的能力十分有 利,特别是对于大的测序工程,如基因组测序。下面,在对本说明书中使用的一些术语的定义进行简单讨论后,对上述和其他 实施方案进行更详细的讨论。定义和实施方案本文中使用的章节标题仅为了组织的目的,且不可解释为以任何方式限制所描 述的主题。为任何目的,所有在本申请中引用的文献和类似材料,包括但不限于专利、 专利申请、文章、书籍、论文和因特网页面的全文都明确地引入作为参考。当所引入的 参考文献中对术语的定义似乎与本教导提供的定义不同时,以本教导提供的定义为准。 应当理解在本教导中讨论的温度、浓度、时间等等之前暗含了"大约",从而轻微和非 实质性的偏差属于本文中本教导的范围内。在本申请中,使用的单数中包括了复数,除 非另有明确说明。同样,使用的“包含”(〃 comprise")、“包含”(〃 comprises")、
“包含”(〃 comprising")、“含有”(〃 contain")、“含有”(〃 contains")、“含 有,,(〃 containing")、“包括”(〃 include")、“包括”(〃 includes")和“包 括”("including")没有限制的意图。应当理解前述的一般描述和随后的具体描述都只 是示例性和解释性的,并不限制本发明。除非另有定义,否则与本文中描述的发明有关的科学和技术术语应具有本领域 普通技术人员一般理解的含义。另外,除非文中另有需要,单数术语应包括复数,且复 数术语应包括单数。一般而言,本文中描述的细胞和组织培养、分子生物学、蛋白质和 寡核苷酸或多核苷酸化学和杂交中使用的命名法及其技术是本领域熟知并普遍使用的。 例如,使用标准技术进行核酸纯化和制备、化学分析、重组核酸和寡核苷酸合成。酶促 反应和纯化技术根据制造商的说明书或本领域普遍做法或如本文中描述的进行。本文中 描述的技术和程序一般根据本领域熟知的常规方法和在贯穿本说明书全文中所引用和讨 论的各种一般或更具体的参考文献中描述的进行。参见例如Sambrook等人,Molecular Cloning A Laboratory Manual (Third ed..Cold Spring HarborLaboratory Press, Cold Spring Harbor, N.Y.2000)。所使用的有关名称和本文中描述的实验程序和技术是本领域熟知并 普遍使用的。如根据本文中提供的实施方案中所使用的,除非另有说明,下述术语应当理解 为具有下述含义“核苷酸”是指核苷的磷酸酯,作为单体单位或位于核酸中。"核苷酸5’_三 磷酸〃是指在5’位置有三磷酸酯基团的核苷酸,且有时标注为〃 NTP",或〃 dNTP" 和"ddNTP"以特别指明核糖的结构特征。三磷酸酯基团可包括对各个氧的硫取代,例 如α-硫代-核苷酸5,-三磷酸。核酸化学的综述参见Shabarova,Ζ.和Bogdanov,A.Advanced Organic Chemistryof Nucleic Acids,VCH, New York, 1994。术语"核酸"是指天然核酸、人工核酸、其类似物、或其组合。如本文中所使用的,术语"多核苷酸"和"寡核苷酸"可互换地使用,且意思 是单链和双链的核苷酸单体的聚合物(核酸),包括但不限于通过核苷酸间的磷酸二酯键 连接(例如3’ -5’和2’ -5’)、反向连接(例如3’ -3’和5’ -5’)的2’ -脱氧 核糖核苷酸(核酸)和核糖核苷酸(RNA)、分支结构或核酸类似物。多核苷酸具有结合 的反荷离子,如H+、NH4+、三烷基铵、Mg2+、Na+等等。多核苷酸可以完全由脱氧核糖 核苷酸,完全由核糖核苷酸或其嵌合混合物构成。多核苷酸可包括核碱基(nucleobase) 和糖的类似物。多核苷酸一般的大小范围是数个单体单位(例如5-40个,此时一般在本 领域更常常被称作寡核苷酸)至几千个单体核苷酸单位。除非另有标注,无论何时,在 表示多核苷酸序列时,应当理解核苷酸从左到右是5’到3’的顺序,并且"A"表示脱 氧腺苷,“C"表示脱氧胞苷,“G"表示脱氧鸟苷,‘ "表示胸苷。多核苷酸被称作具有"5’末端"和"3’末端"是因为使单核苷酸通过这样的 方式反应来制备寡核苷酸,从而使得在一个方向上一个单核苷酸戊糖环的5’磷酸通过磷 酸二酯键附着到其相邻单核苷酸戊糖环的3’氧上。因此,寡核苷酸或多核苷酸的末端被 称为"5’末端"(如果其5’磷酸未连接到单核苷酸戊糖环的3’氧上的话)以及"3’ 末端"(如果其3’氧未连接到随后的单核苷酸戊糖环的5’磷酸上的话)。如本文中所 使用的,即使在更大的寡核苷酸内部,核酸序列也可被称作具有5’和3’末端。多核苷酸的"第一末端"和"第二末端"是指多核苷酸的5’末端或3’末端。 多核苷酸的第一末端或第二末端中任一个都可以是多核苷酸的5’末端或3’末端;术 语"第一"和"第二"的意思并非是指该末端具体被指明是5’末端或3’末端。如本文中所使用的,术语"末端区域"是指位于5’末端或3’末端的多核苷酸 区域。“目标DNA片段〃、“目标多核苷酸〃、“靶多核苷酸〃、“DNA模 板"或"模板多核苷酸"表示人们有兴趣进行鉴定、表征或操作的DNA片段或多核苷 酸。如本文中所使用的,术语"模板"和"目标多核苷酸"是指被操作的核酸,例如, 如,将要与聚合酶混合的核酸。在一些实施方案中,目标多核苷酸是双链目标多核苷酸 (〃 DSPI 〃)。如本文中使用的,短语"多核苷酸的不同链"和"核酸分子的不同链"是指与 双链体多核苷酸的另一条链不同侧的双链体多核苷酸的核酸链。如本文中使用的,“标签"“序列标签"或"标签序列"是指目标多核苷酸的 子序列。丨‘配对标签〃,也称为“PT〃、 〃标签匹配对〃、〃匹配对(mate pair) “、“ MP"或"末端配对",含有两个标签(每个都是一条核酸序列),它们来自 于目标多核苷酸的每个末端区域。因此,配对标签包括来自于多核苷酸的两个部分的序 列片段信息。在一些实施方案中,这一信息可与多核苷酸大小相关的信息结合,从而至 少可以大致上得知两个测序的片段之间的间隔。这一信息可用于确定序列标签来源的作 图中。当配对标签是线性的时,配对标签是"释放的"或是"释放的配对标签"的一部分。这样的例子显示于图5中。如本领域技术人员将理解的,可在切口平移后通过切 割一个或两个切口而形成释放的配对标签。在一些实施方案中,当允许切口平移进行直 至完成时(两个切口在环状核酸分子上相遇),可发生线性化(即配对标签释放)而不需 要额外的酶。如本领域技术人员将理解的,“配对标签"在其被释放前可以是更大结构 (如环化核酸分子)的一部分。“配对标签克隆"是指含有配对标签的克隆的多核苷酸。这简单的表示配对标 签来源于对初始多核苷酸的一些操作。在一些实施方案中,配对标签克隆包含第一标签 序列和第二标签序列,它们被衔接头分开。在一些实施方案中,克隆来源于单个初始多 核苷酸分子。如本文中使用的,术语"配对标签文库"是指配对标签克隆的集合,其包括生 物遗传材料的全部或一部分。“环状核酸分子"是指处于环中的核酸分子。在一些实施方案中,环可包含一 个或更多个切口或缺口。在优选的实施方案中,环可在双链体多核苷酸的每条链上包含 切口或缺口。如本文中所使用的,“初始多核苷酸"表示可从中获得目标多核苷酸的原始多 核苷酸。例如,来自于细胞的样品,其中初始多核苷酸被片段化成可接受的大小以用作 目标多核苷酸。当然,初始多核苷酸的选择和变化至少与目标多核苷酸的选择一样广 泛。如本文中所使用的,术语"切口"是指双链多核苷酸中的点,其中多核苷酸的 一条链中相邻核苷酸间没有磷酸二酯键。术语〃切口〃包括切口和缺口两者。切口和/ 或缺口可描述为包含3’末端和5’末端和/或侧。这些侧或末端包括一条多核苷酸的 3’最末端上的核苷酸和第二多核苷酸5’最末端上的核苷酸。如上所述,这两个核苷酸 之间没有磷酸二酯键。第二条链(其与上面描述的两条多核苷酸杂交)在第一条链上缺少 磷酸二酯的相应的核苷酸之间的确包含一个或更多磷酸二酯键和0个或更多个核苷酸。如本文中所使用的,短语"在第一平移的切口切割环状核酸分子"表示在基于 切口出现的位置切割与含切口的链杂交的核酸链。在一些实施方案中,在切口对面的位 置切割与含切口的链杂交的核酸链。如本文中所使用的,术语"缺口"是指双链多核苷酸的区域,其中一条链缺失 一个或更多核苷酸残基。在一些实施方案中,位于缺口 3’末端的核苷酸残基可缺少5’ 磷酸残基。如本文中所使用的,术语"切口平移"是指偶联的聚合/降解或链置换过程, 其特征在于协调的5’至3’ DNA聚合酶活性和5’至3外切’核酸酶活性或5’至3’ 链置换。如本领域技术人员将理解的,本文所使用的术语"切口平移"可发生在切口或 缺口上。如本领域技术人员将理解的,在一些实施方案中,缺口的〃切口平移〃需要插 入适当的核苷酸以形成仅缺少磷酸二酯键的传统切口,然后其被平移。如本文中所使用的,短语"切口平移到目标DNA片段中"和"切口平移到目标 多核苷酸中"是指切口移位到链中的位置,该链包含处在目标DNA片段或多核苷酸中的 切口。如本文中所使用的,短语"延伸环状核酸分子的第一条链的第一 3’末端"或"
19移动第一和第二切口"到双链目标多核苷酸的序列中表示延伸3’末端至少到其序列与目 标多核苷酸的一条链互补的点上。延伸3’末端的例子显示于图14、图17和图20中。 将3’末端移动或延伸到序列中的简单切口平移(从而所产生的序列具有与目标多核苷酸 互补的序列)也属于被移动或延伸。如本文中所使用的,短语"到双链目标多核苷酸的序列中"或"到双链目标多 核苷酸的序列中"表示末端或切口被移动或延伸从而所延伸的部分与目标多核苷酸的一 条链的区段互补。如本领域技术人员将理解的,就是在3’末端被移动或延伸到其中之 前,“双链"目标多核苷酸不必是双链的(即使使用了短语"到双链目标多核苷酸的序 列中")。在一些实施方案中,例如,当使用切口平移时,目标多核苷酸将主要保持为双 链,尽管切口有效地将核苷酸从与双链目标多核苷酸相结合转移到与衔接头共价连接的 链上。“含切口的连接多核苷酸"表示包含切口和至少一个衔接头的连接多核苷酸。 在一些实施方案中,连接多核苷酸是或来源于载体或质粒;然而,这并非必需的。如本文中所使用的,术语"衔接头"表示可用于操作目标多核苷酸的分子。在 一些实施方案中,衔接头可用于环化核酸。在一些实施方案中,衔接头可用于引入切 口。在一些实施方案中,衔接头可用于扩增配对标签克隆。在一些实施方案中,衔接头 可用于测序配对标签克隆的一部分的测序反应中。在一些实施方案中,衔接头可具有一 个或更多缺少5’磷酸残基的末端。在一些实施方案中,衔接头包括核酸。在一些实施 方案中,衔接头可包括至少一个引发位点、由至少一个引发位点组成或基本上由至少一 个引发位点组成。在一些实施方案中,引发位点可用于PCR过程中。在一些实施方案 中,将衔接头称为"Pl"或"P2"表示可包含引发位点的衔接头。此外,这样的衔接头 可称为"引物"衔接头。当然,不是所有衔接头都需要引发位点。如本领域技术人员将 理解的,也可使用一般衔接头实施本文中公开的涉及"引物衔接头"的实施方案。即在 一些实施方案中,引物衔接头可被不需要包含引发位点的简单衔接头替换。“条码序列"和"验证码序列"表示足以允许鉴定衔接头、基因或目标序列的 核酸序列。条码序列可以是但不需要是原始核酸序列的小区段,根据它可进行鉴定。在 一些实施方案中条码为5-30个核酸长。在一些实施方案中,条码包括核苷酸类似物,如 L-DNA、LNA、PNA 等等。具有"相容性末端"的核酸序列、片段或配对标签克隆意思是末端与连接到本 文中提供的另一核酸序列、片段或配对标签克隆是相容的。相容性末端可以是具有5’ 和/或3’突出端的“粘性末端",或可替代地,相容性末端可以是没有5’和/或3’ 突出端的"平端"。一般而言,粘性末端允许依赖于序列的连接,而平端允许不依赖于 序列的连接。可以通过本领域标准的任何已知的方法产生相容性末端。例如,可以通过 限制性内切核酸酶消化5’和/或3’末端产生核酸序列的相容性末端。如本文中所使用的,术语"限制性内切核酸酶"和"限制酶"是指细菌酶,其 中每个都在特异性核苷酸序列上或其附近切开双链DNA。如本文中所使用的,“切口切割酶"是指能够在切口上或其附近切断剩余核酸 链的酶。这样的酶的例子包括但不限于Sl核酸酶、绿豆核酸酶、核酸酶Pl和核酸酶 BAL-31。由于术语切口也包括缺口,所以切割单链多核苷酸的酶也属于切口切割酶的类型。例如,单链特异性内切核酸酶也包含于这一组中。此外,在目标多核苷酸的末端是 单链的实施方案中(例如,图21),这一术语也包括单链特异性外切核酸酶。术语IIs型和III型限制性内切核酸酶包括在其识别序列外侧切割的限制性内切核 酸酶。因此,该术语包括可能在技术上不被归类到III型或IIs型的限制性内切核酸酶, 例如,IV型酶(例如,Acul)。如本文中使用的,“3’加尾"是指向多核苷酸的3’末端添加一个或更多核苷酸。术语"固定"是本领域所知的,且当与核酸相关使用时,是指一种状态,其中 核酸附着到表面上,其吸引力强于所使用表面预期的环境中存在的吸引力,和作用于该 种类上的吸引力。如本文中所使用的,术语"核酸序列"或"核碱基序列"是包含含有核碱基亚 单位的聚合物的任何区段。适当的聚合物或聚合物区段的非限制性例子包括寡核苷酸、 寡核糖核苷酸、肽核酸及其类似物和嵌合体。核酸"类似物"是在宿主(该核酸被加入其中)或被检测样品中非正常发现的核 酸。例如,靶序列将不包括核酸类似物。这包括人工的、合成的(或其组合)核酸。因 此,例如,在一个实施方案中,PNA为核酸类似物,同样L-DNA和LNA(锁定核酸)、 iso-C/iso-G、L-RNA、0_甲基RNA或其他这样的核酸也为核酸类似物。在一个实施 方案中,任何修饰的核酸将包含于术语核酸类似物中。在另一个实施方案中,核酸类似 物可以是在系统中基本上不与天然核酸杂交但将与其他核酸类似物杂交的核酸;因此, PNA不是核酸类似物,但L-DNA是核酸类似物。例如,尽管L-DNA可以有效与PNA 杂交,但L-DNA不能以类似有效的方式与D-DNA或D-RNA杂交。因此。在一些实 施方案中,能够与探针或靶序列杂交但缺少至少一个天然核苷酸特性(如受到核酸酶的 降解的易感性或结合到D-DNA或D-RNA上)的核苷酸是核苷酸类似物。当然,核苷酸 类似物不需具有每个差别。本文中使用的术语"生物"表示任何活体或非活体实体,其包含能够被复制并 且对于进行序列确定重要的核酸。其包括但不限于质粒、病毒、原核的、古细菌的和真 核的细胞、细胞系、真菌、原生动物、植物、动物等等。如本文中所使用的,术语"引物"是指寡核苷酸,无论是天然产生的如处于纯 化的限制酶切消化物中的,还是合成产生的,当放置在诱导合成与核酸链互补的引物延 伸产物的条件下时(即在核苷酸和诱导试剂如DNA聚合酶存在以及适当的温度和pH 时),其能够作为合成的起始点。为了最大的扩增效率,引物优选为单链,但可替代地可 以为双链。如果是双链,在用来制备延伸产物前,首先将引物进行处理以将其链分开。 优选地,引物是寡脱氧核糖核苷酸。引物必须足够长以在诱导试剂存在时引发延伸产物 的合成。引物的确切长度将取决于许多因素,包括温度、引物来源和使用的方法。如本文中所使用的,术语"核酸测序化学"是指用来测序多核苷酸以产生测 序结果的一种类型的化学和相关方法。本领域已知很多种测序化学。在本文中公开 的各种实施方案中有用的各种类型的测序化学的例子包括但不限于Maxam-Gilbert测 序、链终止法、染料标记的终止法、使用可逆终止子的测序、通过焦磷酸检测的核酸 测序(“焦磷酸测序"或"焦磷酸测序(pyrosequencing)“)和通过连接的测序。这样的测序化学和相关测序试剂在下述文件中描述例如,美国专利号7,057,026、 5,763,594, 5,808,045, 6,232,465, 5,990,300, 5,872,244, 6,613,523, 6,664,079, 5,302,509, 6,255,475, 6,309,836, 6,613,513, 6,841,128, 6,210,891, 6,258,568, 5,750,341、6,306,597、PCT
发明者B·李, L·奚, S·S·拉纳德, Y·王 申请人:生命科技公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1