DNA序列的靶标特异性RNA转录方法与流程

文档序号:16378639发布日期:2018-12-22 09:17阅读:1130来源:国知局
DNA序列的靶标特异性RNA转录方法与流程

本申请要求于2016年2月12日提交的美国临时申请序列号62/294,875的权益,该临时申请的内容通过引用以其全文并入于此。

背景技术

本文的公开内容涉及分子生物学领域,如核酸样品中与重复序列相邻的核酸序列的扩增和鉴定。

pcr或pcr技术的变型以及杂交捕获是靶向测序的主要方法。虽然广泛使用,但二者均对长读取测序仪具有限制。杂交捕获使用带有生物素的短rna或dna探针与靶dna杂交并“拉下”感兴趣的序列。对于长靶序列,这种方法是低效的,这既是因为需要许多寡核苷酸探针,又是因为该过程往往导致在拉下过程中长dna分子的物理剪切。这些缺陷限制了使用单分子技术的连续测序仪读取的长度。

长距离pcr已被用作备选方案,但也提出了挑战。长距离pcr难以多路化(multiplex)。通常,由于在目标区域之外的相反链上需要相反的pcr引物,因而失去了检测大染色体事件如易位的能力。另外,pcr的克隆扩增限制了检测非均相样品如肿瘤中的低频率体细胞变异的灵敏度,并且可能从反应的早期循环开始传播聚合酶错误,如点突变或易位。此外,长距离pcr有时展现出模板转换,从而在扩增产物中产生错误。



技术实现要素:

基因组测序技术的进步极大地增加了我们对人类遗传变异及其对疾病的贡献的理解。短读取dna测序技术(illumina,thermofisher,qiagen)产生了数十亿个短读取,导致单核苷酸多态性以及小插入和缺失的常规鉴定。这些短读取测序技术未显示出检测更复杂变异的灵敏度,如大规模染色体重排、易位和可动元件重排。长读取测序技术(pacificbiosciences,oxfordnanopore)已显示出生成超过10,000个碱基对的单分子读取长度的能力,但没有测序和组装完整的人类基因组的能力。本文公开的靶向策略利用了这些更长的读取长度。

在这里,我们描述了长距离靶标特异性扩增的方法,其中仅对原始模板进行扩增,以便相对于样品dna序列产生原始靶序列的增加的拷贝。扩增的产物直接来源于样品模板,而不是来源于合成的扩增中间体或先前合成的样品模板的拷贝。因此,合成的拷贝不包含来自先前合成反应的错误。这显著降低了早期错误在反应过程中差异放大的可能性。因为合成产物不用作模板,所以合成中的任何错误均独立地导出,并且不可能从一个分子匹配至下一个分子。因此,通过比较所合成的产物,人们可以容易地识别合成中的错误,并且更容易地导出样品序列。

所公开的主题在伴随本公开内容的权利要求列表中部分地进行了总结。

本文提供了确定与核酸分子的已知序列的区域相邻的序列的方法。一些这样的方法包括a)将包含启动子序列的核酸片段附接至所述核酸分子的已知区域;b)使所述核酸片段与由所述启动子引导的rna聚合酶接触;以及c)合成多个rna分子;其中所述多个rna分子的共有序列表示与核酸分子的所述已知区域相邻的序列。任选地,所述共有序列的长度至少为10千碱基。有时,该方法包括在合成所述多个rna分子之后使用dna酶处理所述核酸分子。备选地或组合地,该方法包括对所述多个rna分子进行逆转录。该方法有时包括确定所述多个rna分子的核酸序列。任选地,所述多个rna分子的共有序列包含直接从所述核酸分子合成的分子的序列。备选地或组合地,所述附接包括将所述包含启动子序列的核酸片段插入所述核酸分子的已知区域。在一些情况下,所述附接包括将所述包含启动子序列的核酸片段插入所述核酸分子的已知序列的区域。任选地,所述附接包括所述核酸分子的已知序列区域的序列特异性切割。备选地或组合地,所述附接包括使所述核酸分子的已知区域与crispr核酸-蛋白质复合物接触。任选地,所述crispr核酸-蛋白质复合物包含含有seqidno:3的指导rna。在一些情况下,所述附接包括连接包含启动子序列的核酸片段。有时,所述包含启动子序列的核酸片段包含病毒启动子。任选地,所述病毒启动子结合病毒rna聚合酶,并且为选自t7、t3、t7lac、sp6、pl、cmv、sv40和camv35s的至少一种启动子。备选地或组合地,所述包含启动子序列的核酸片段包含细菌启动子。在一些情况下,所述细菌启动子结合细菌rna聚合酶,并且为选自arabad、trp、lac和ptac的至少一种启动子。有时,所述包含启动子序列的核酸片段包含真核启动子。任选地,所述真核启动子结合真核rna聚合酶,并且为选自ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、alb、gal1、gal10、tef1、gds、adh1、ubi、h1和u6的至少一种启动子。备选地或组合地,所述真核启动子为选自rnapoli启动子、rnapolii启动子和rnapoliii启动子的至少一种启动子。任选地,所述核酸分子的已知区域包含重复元件。在一些情况下,所述重复元件包含可动插入元件。有时,所述重复元件包含line元件、sine元件、alu重复序列、转座子、反转录转座子、着丝粒重复序列和端粒重复序列中的至少一种。备选地或组合地,所述line元件包含seqidno:1。

在另外的实施方案中,提供了确定核酸样品中元件的多个基因座相邻序列的方法,该方法包括以下步骤:a)将包含启动子的核酸插入所述元件中,b)生成由所述启动子引导的多个核酸分子,以及c)确定所述多个核酸分子的序列,其中所述核酸分子直接从所述核酸样品合成,并且其中所述多个核酸分子跨越基因座相邻序列。任选地,所述核酸分子包含rna。在一些情况下,所述核酸分子不能引发核酸合成。有时,所述核酸样品包含癌细胞核酸。在一些情况下,所述核酸样品包含单个核基因组。通常,所述核酸样品获自单个细胞。任选地,该方法包括在合成所述多个rna分子之后使用dna酶处理所述核酸样品。有时,该方法包括对所述多个rna分子进行逆转录。在一些情况下,所述多个核酸分子为rna分子。有时,所述多个rna分子的共有序列包含直接从所述核酸分子合成的分子的序列。在一些情况下,所述附接包括将所述包含启动子序列的核酸片段插入所述核酸分子的已知区域。任选地,所述附接包括将所述包含启动子序列的核酸片段插入所述核酸分子的已知区域。有时,所述附接包括所述核酸分子的已知区域的序列特异性切割。任选地,所述附接包括使所述核酸分子的已知区域与crispr核酸-蛋白质复合物接触。在一些情况下,所述crispr核酸-蛋白质复合物包含含有seqidno:3的指导rna。有时,所述附接包括连接所述包含启动子序列的核酸片段。在一些情况下,所述包含启动子序列的核酸片段包含病毒启动子。病毒启动子为不同地选自t7、t3、t7lac、sp6、pl、cmv、sv40和camv35s的至少一种启动子。有时,所述包含启动子序列的核酸片段包含细菌启动子。任选地,所述细菌启动子为选自arabad、trp、lac和ptac的至少一种启动子。在一些情况下,所述包含启动子序列的核酸片段包含真核启动子。例如,有时,所述真核启动子为选自ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、alb、gal1、gal10、tef1、gds、adh1、ubi、h1和u6的至少一种启动子。任选地,所述真核启动子为选自rnapoli启动子、rnapolii启动子和rnapoliii启动子的至少一种启动子。有时,所述核酸分子的已知区域包含重复元件。一些重复元件包含可动插入元件。在一些情况下,所述重复元件包含line元件、sine元件、alu重复序列、转座子、反转录转座子、着丝粒重复序列和端粒重复序列中的至少一种。任选地,所述line元件包含seqidno:1。

在一些实施方案中,本文还提供了核酸文库,其包含编码核酸样品中至少90%的重复可动元件边界的边界相邻序列的核酸。有时,文库组分与所述核酸样品之间的差异独立地导出。任选地,至少50%的所述重复元件的边界以至少100个拷贝存在。在一些情况下,文库组分直接来源于所述核酸样品。备选地或组合地,文库组分在测序之前不进行克隆扩增。任选地,所述核酸样品来源于单个细胞。有时,所述核酸文库从rna中间体逆转录。在一些情况下,所述核酸文库包含rna。任选地,核酸文库组分包含启动子序列。任选地,所述rna启动子序列包含t7、t3、t7lac、sp6、pl、cmv、sv40、camv35s、arabad、trp、lac、ptac、ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、alb、gal1、gal10、tef1、gds、adh1、ubi、h1和u6中的至少一种。任选地,至少一个边界相邻序列表示与细胞周期调节、dna修复和生长调节中的至少一种相关的基因缺陷。在一些情况下,所述核酸文库包含编码核酸样品中至少95%的重复可动元件边界的边界相邻序列的核酸。在一些情况下,所述核酸文库包含编码核酸样品中至少99%的重复可动元件边界的边界相邻序列的核酸。备选地或组合地,至少50%的所述文库组分核酸位于可动元件边界的20kb内的核酸上。在一些情况下,至少75%的所述文库组分核酸位于与可动元件边界邻近的可动元件边界的20kb内的核酸上。任选地,至少90%的所述文库组分核酸位于可动元件边界的20kb内的核酸上。有时,至少50%的所述文库组分核酸位于可动元件边界的10kb内的核酸上。在一些情况下,至少75%的所述文库组分核酸位于与可动元件边界邻近的可动元件边界的10kb内的核酸上。在一些情况下,至少90%的所述文库组分核酸位于可动元件边界的10kb内的核酸上。任选地,至少50%的所述文库组分核酸位于可动元件边界的5kb内的核酸上。有时,至少75%的所述文库组分核酸位于与可动元件边界邻近的可动元件边界的5kb内的核酸上。在一些情况下,至少90%的所述文库组分核酸位于可动元件边界的5kb内的核酸上。任选地,至少50%的所述文库组分核酸位于可动元件边界的1kb内的核酸上。在一些情况下,至少75%的所述文库组分核酸位于与可动元件边界邻近的可动元件边界的1kb内的核酸上。任选地,至少90%的所述文库组分核酸位于可动元件边界的1kb内的核酸上。有时,平均片段长度为约500个碱基。在一些情况下,平均片段长度为约1000个碱基。任选地,中值片段长度为约500个碱基。任选地,中值片段长度为约1000个碱基。

在进一步的实施方案中,提供了包含靶向序列和启动子的组合物,其中所述靶向序列包含指导将该组合物插入核酸序列中一个或多个特定位置的核酸序列,并且所述启动子包含指导从与所述启动子的插入相邻的样品序列合成核酸的核酸序列。任选地,所述靶向序列包含与所述特定位置同源的核酸序列。有时,所述靶向序列包含与所述特定位置碱基配对的核酸序列。在一些情况下,所述靶向序列包含与所述特定位置杂交的核酸序列。在一些情况下,所述靶向序列包含成簇的规律间隔的短回文重复(crispr)序列、锌指核酸酶(zfn)序列和转录激活因子样效应物核酸酶(talen)序列中的至少一种。在一些情况下,所述crispr序列包含具有包含seqidno:3的序列的指导rna。通常,所述启动子包含细菌启动子、病毒启动子和真核启动子中的至少一种。在一些情况下,所述细菌启动子包含arabad、trp、lac和ptac中的至少一种。有时,所述病毒启动子包含t7、t7lac、sp6、pl、cmv、sv40和camv35s中的至少一种。所述真核启动子通常包含ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、alb、gal1、gal10、tef1、gds、adh1、ubi、h1和u6中的至少一种。任选地,所述核酸序列中的特定位置包含低复杂性核酸序列。通常,所述核酸序列中的特定位置包含重复核酸序列。任选地,所述低复杂性核酸序列或所述重复核酸序列包含三核苷酸重复序列、串联重复序列和人白细胞抗原基因中的至少一种。在一些情况下,所述核酸序列中的特定位置包含可动遗传元件。任选地,所述可动遗传元件包含转座子、反转录转座子、dna转座子、插入序列、质粒、噬菌体、ii组内含子、i组内含子、alu元件、mir元件、内质网池内a粒子(iap)、etn、病毒及其片段中的至少一种。所述反转录转座子通常包含转座因子、line、sine及其片段中的至少一种。任选地,所述line包含seqidno:1。备选地或组合地,所述病毒包含逆转录病毒或其片段。有时,所述核酸合成包括rna转录和dna合成中的至少一种。

本文还提供了确定与感兴趣的核酸序列相邻的核酸序列的方法,该方法包括:(a)将包含靶向序列和启动子的靶向核酸序列插入所述感兴趣的核酸序列中的一个或多个特定位置,(b)指导从所述启动子合成核酸,以及(c)对所合成的核酸进行测序。一些靶向序列包含成簇的规律间隔的短回文重复(crispr)序列、锌指核酸酶(zfn)序列和转录激活因子样效应物核酸酶(talen)序列中的至少一种。任选地,所述crispr序列包含具有包含seqidno:3的序列的指导rna。在一些情况下,所述启动子包含细菌启动子、病毒启动子和真核启动子中的至少一种。任选地,所述细菌启动子包含arabad、trp、lac和ptac中的至少一种。任选地,所述病毒启动子包含t7、t7lac、sp6、pl、cmv、sv40和camv35s中的至少一种。任选地,所述真核启动子包含ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、gal1、gal10、tef1、gds、adh1、ubi、h1和u6中的至少一种。在一些情况下,所述感兴趣的序列包含低复杂性核酸序列。所述感兴趣的序列通常包含重复核酸序列。任选地,所述感兴趣的序列包含三核苷酸重复序列、串联重复序列和人白细胞抗原基因中的至少一种。备选地或组合地,所述感兴趣的序列包含可动遗传元件。任选地,所述可动遗传元件包含转座子、反转录转座子、dna转座子、插入序列、质粒、噬菌体、ii组内含子、i组内含子、alu元件、mir元件、内质网池内a粒子(iap)、etn、病毒或其片段。有时,所述反转录转座子包含转座因子、line、sine及其片段中的至少一种。任选地,所述line包含seqidno:1。所述病毒通常包含逆转录病毒及其片段中的至少一种。任选地,核酸合成包括rna转录和dna合成中的至少一种。在一些情况下,rna转录包括使用rna聚合酶。任选地,所述rna聚合酶包含t7rna聚合酶、t3rna聚合酶、sp6rna聚合酶、rna聚合酶i、rna聚合酶ii、rna聚合酶iii、rna聚合酶iv、rna聚合酶v和单亚基rna聚合酶中的至少一种。在一些情况下,dna合成包括使用dna聚合酶。任选地,所述dna聚合酶包含t7dna聚合酶、t3dna聚合酶、sp6dna聚合酶、dna聚合酶i、dna聚合酶ii、dna聚合酶iii、taqdna聚合酶和pfudna聚合酶中的至少一种。任选地,所述核酸合成需要引物。通常,所述合成的核酸直接由所述感兴趣的核酸序列合成。在一些情况下,在不引入突变的情况下合成所述核酸。任选地,所述突变为点突变、缺失、插入和嵌合体中的至少一种。任选地,所述合成的核酸包含dna。在一些情况下,所述合成的核酸包含cdna。任选地,用rna酶处理所述合成的核酸。有时,所述合成的核酸为rna。任选地,用dna酶处理所述合成的核酸。在一些情况下,所述测序包括sanger测序、下一代测序、焦磷酸测序、大规模平行签名测序、单分子实时测序、iontorrent测序、合成测序和连接测序中的至少一种。在一些情况下,所述方法检测受试者中的突变。任选地,该方法检测从受试者获得的组织样品中的突变。所述组织样品通常包含肿瘤、血液、唾液、痰液、皮肤和上皮组织中的至少一种。

在另外的实施方案中,本文提供了对来自受试者的核酸样品中dna元件的插入位点进行测绘(mapping)的方法,该方法包括:i)通过使基因组dna与靶向序列和足以将所述靶向序列插入所述dna元件中的一种或多种试剂接触来插入包含所述靶向序列和启动子的靶向核酸序列;ii)通过使所插入的靶向序列与催化从所述启动子开始核酸合成,从而产生扩增核酸的一种或多种酶接触来直接从所述基因组dna产生扩增的核酸;iii)对所述扩增的核酸进行测序。任选地,所述靶向序列包含成簇的规律间隔的短回文重复(crispr)序列、锌指核酸酶(zfn)序列和转录激活因子样效应物核酸酶(talen)序列中的至少一种。有时,所述crispr序列包含具有包含seqidno:3的序列的指导rna。任选地,所述启动子包含细菌启动子、病毒启动子和真核启动子中的至少一种。在一些情况下,所述细菌启动子包含arabad、trp、lac和ptac中的至少一种。备选地或组合地,所述病毒启动子包含t7、t7lac、sp6、pl、cmv、sv40和camv35s中的至少一种。任选地,所述真核启动子包含ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、gal1、gal10、tef1、gds、adh1、ubi、h1和u6中的至少一种。有时,所述dna元件包含低复杂性核酸序列。在一些情况下,所述dna元件包含重复核酸序列。在一些情况下,所述dna元件包含三核苷酸重复序列和串联重复序列中的至少一种。任选地,所述dna元件包含可动遗传元件。任选地,所述可动遗传元件包括转座子、反转录转座子、dna转座子、插入序列、质粒、噬菌体、ii组内含子、i组内含子、alu元件、mir元件、内质网池内a粒子(iap)、etn、病毒及其片段中的至少一种。任选地,所述反转录转座子包含转座因子、line、sine及其片段中的至少一种。任选地,所述line包含seqidno:1。任选地,所述病毒包含逆转录病毒或其片段。有时,所述酶包含rna聚合酶。在一些情况下,所述rna聚合酶包含t7rna聚合酶、t3rna聚合酶、sp6rna聚合酶、rna聚合酶i、rna聚合酶ii、rna聚合酶iii、rna聚合酶iv、rna聚合酶v和单亚基rna聚合酶中的至少一种。任选地,所述酶包含dna聚合酶。备选地或组合地,所述dna聚合酶包含t7dna聚合酶、t3dna聚合酶、sp6dna聚合酶、dna聚合酶i、dna聚合酶ii、dna聚合酶iii、taqdna聚合酶和pfudna聚合酶中的至少一种。有时,所述核酸合成需要引物。任选地,所述合成的核酸直接由所述感兴趣的核酸序列合成。在一些情况下,在不引入突变的情况下合成所述核酸。在一些情况下,所述突变为点突变、缺失、插入和嵌合体中的至少一种。任选地,所述合成的核酸为dna。或者,所述合成的核酸为cdna。任选地,用rna酶处理所述合成的核酸。任选地,所述合成的核酸为rna。在一些情况下,用dna酶处理所述合成的核酸。任选地,所述测序包括sanger测序、下一代测序、焦磷酸测序、大规模平行签名测序、单分子实时测序、iontorrent测序、合成测序和连接测序中的至少一种。任选地,所述方法检测受试者中的突变。备选地或组合地,该方法检测从受试者获得的组织样品中的突变。任选地,所述组织样品包含肿瘤、血液、唾液、痰液、皮肤和上皮组织中的至少一种。

本文进一步提供了对重复基因组区域进行测序的方法,该方法包括:i)通过使基因组dna与靶向序列和足以将所述靶向序列插入所述重复基因组区域中的一种或多种试剂接触来插入包含所述靶向序列和启动子的靶向核酸序列;ii)通过使所述插入的靶向序列与催化从所述启动子开始核酸合成,从而产生扩增核酸的一种或多种酶接触来直接从所述基因组dna产生扩增的核酸;iii)对所述扩增的核酸进行测序。任选地,所述靶向序列包含成簇的规律间隔的短回文重复(crispr)序列、锌指核酸酶(zfn)序列和转录激活因子样效应物核酸酶(talen)序列中的至少一种。任选地,所述crispr序列包含具有包含seqidno:3的序列的指导rna。任选地,所述启动子包含细菌启动子、病毒启动子和真核启动子中的至少一种。通常,所述细菌启动子包含arabad、trp、lac和ptac中的至少一种。任选地,所述病毒启动子包含t7、t7lac、sp6、pl、cmv、sv40和camv35s中的至少一种。所述真核启动子包含ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、gal1、gal10、tef1、gds、adh1、ubi、h1和u6中的至少一种。在一些情况下,所述重复基因组区域包含低复杂性核酸序列。任选地,所述重复基因组区域包含重复核酸序列。在一些情况下,所述重复基因组区域包含三核苷酸重复序列和串联重复序列中的至少一种。有时,所述重复基因组区域包含可动遗传元件。任选地,所述可动遗传元件包括转座子、反转录转座子、dna转座子、插入序列、质粒、噬菌体、ii组内含子、i组内含子、alu元件、mir元件、内质网池内a粒子(iap)、etn、病毒及其片段中的至少一种。在一些情况下,所述反转录转座子包含转座因子、line、sine及其片段中的至少一种。任选地,所述line包含seqidno:1。任选地,所述病毒包含逆转录病毒或其片段。任选地,所述酶包含rna聚合酶。任选地,所述rna聚合酶包含t7rna聚合酶、t3rna聚合酶、sp6rna聚合酶、rna聚合酶i、rna聚合酶ii、rna聚合酶iii、rna聚合酶iv、rna聚合酶v和单亚基rna聚合酶中的至少一种。任选地,所述酶包含dna聚合酶。任选地,所述dna聚合酶包含t7dna聚合酶、t3dna聚合酶、sp6dna聚合酶、dna聚合酶i、dna聚合酶ii、dna聚合酶iii、taqdna聚合酶和pfudna聚合酶中的至少一种。在一些情况下,所述核酸合成需要引物。所述合成的核酸通常直接由所述感兴趣的核酸序列合成。在一些情况下,在不引入突变的情况下合成所述核酸。在一些情况下,所述突变为点突变、缺失、插入和嵌合体中的至少一种。任选地,所述合成的核酸为dna,如基因组dna或cdna。在一些情况下,用rna酶处理所述合成的核酸。任选地,所述合成的核酸为rna。在一些情况下,用dna酶处理所述合成的核酸。任选地,所述测序包括sanger测序、下一代测序、焦磷酸测序、大规模平行签名测序、单分子实时测序、iontorrent测序、合成测序和连接测序中的至少一种。任选地,所述方法检测受试者中的突变。备选地或组合地,该方法检测从受试者获得的组织样品中的突变。任选地,所述组织样品包含肿瘤、血液、唾液、痰液、皮肤和上皮组织中的至少一种。

附图说明

参考以下对利用本发明原理的说明性实施方案加以阐述的详细描述和附图,在这些附图中:

图1示出了示例性人line1(l1.4)重复元件dna序列(seqidno:1)。

图2示出了l1ha的示例性共有序列:line-1元件的3’端的诊断序列(seqidno:2)。

图3示出了示例性指导rna序列(seqidno:3)。

图4示出了示例性alu-y序列(seqidno:4)。

图5示出了靶标特异性t7启动子序列的crispr诱导插入。

图6示出了靶dna的体外转录,生成靶模板的扩增rna拷贝。

图7示出了特异性插入靶序列上游和下游的t7启动子。

图8示出了备选的供体dna构建体。

图9示出了样品中与插入的t7rna聚合酶位点相邻的基因组序列的线性扩增的结果。

具体实施方式

本文公开的方法涉及核酸编辑技术(crispr、talens、锌指、转座酶和本领域技术人员已知的其他方法),以插入能够进行dna指导的rna转录的细菌或噬菌体启动子(如t7、t3或sp6,尽管多种启动子与本文的公开内容相容,并且本文的列表并不是详尽的)。在从插入的启动子转录rna分子后,以直接来源于样品的rna分子群体作为模板的形式,进行相邻序列的有效线性扩增。通过许多方法将rna分子转化为短读取或长读取dna测序文库。

使用crispr作为说明性实施方案,所述方法包括序列特异性指导rna分子的第一种设计,该序列特异性指导rna分子靶向感兴趣的序列上游的保守和局部独特的序列。优选地,该特异性指导rna分子与重复元件特有的核酸序列结合,并且可在样品如基因组样品中多次出现,但其中每次出现均对应于重复元件的出现。任选地,该特异性指导rna分子与待测序的特定基因组区域所特有的核酸序列结合。将序列特异性分子添加至高分子量样品dna、crispr/cas系统组分(当使用crispr技术时)和含有t7启动子序列的供体dna分子的混合物中。在一些情况下,crispr/cas分子在与样品接触之前与其相关的核酸一起组装。

在通过cas将rna启动子如t7启动子插入特定基因组基因座后,将相容的rna聚合酶如t7聚合酶与必需的核糖核苷酸和缓冲液一起添加至样品中。利用体外转录通过rna中间体生成靶dna序列的大约1,000倍扩增。然后将由体外转录生成的rna用作dna文库生成的模板,如通过合成进行片段化,并转化成短读取序列文库。或者,对由体外转录反应生成的rna进行聚-a加尾或多腺苷酸化,并且随后使用寡聚dt引物和逆转录酶进行逆转录以生成rna模板的全长逆转录dna拷贝。任选地在该步骤中连接衔接子,以供使用单分子测序技术对全长逆转录dna分子进行后续测序。

本文描述的一些方法的目的是生成适合于长读取测序的长靶向模板。首先从来源(例如,血液、血清、细胞、细胞培养物、唾液、肿瘤、毛发、皮肤、上皮组织、尿液、粪便、羊水、痰液、脑脊液、粘液)获得高分子量样品dna,如基因组dna。任选地使用标准dna纯化技术进行高分子量样品dna的分离。随后的反应通常在细胞外进行,尽管在一些实施方案中,细胞材料可保留在反应室中。在许多兼容的实施方案中,在反应中不使用完整细胞。或者,靶向模板位于完整细胞的基因组中。本文方法使用的样品dna获自任何生物体。或者,样品dna是合成的。制备高分子量样品dna的方法是本领域常规且已知的。在一些情况下,样品dna包含基因组dna。包含基因组dna的样品dna任选地选自真核基因组、原核基因组、真细菌基因组、古菌基因组、病毒基因组或合成核酸来源。在一些情况下,该样品为肿瘤细胞或循环癌细胞。或者,样品dna包含无细胞dna、质粒dna、病毒dna、合成dna或从受试者获得的其他高分子量dna样品。

在一些方法中,指导rna被设计为具有靶标特异性基序。靶标可以与感兴趣的基因相邻或在感兴趣的基因内,与感兴趣的启动子相邻或在感兴趣的启动子内,或在基因、外显子、内含子或基因间区域内。指导rna使用在其序列内与样品具有反向互补性的序列,以与可能完全或不完全反向互补的样品dna结合。指导rna可被设计为靶向在靶序列内或位于靶序列侧翼的多个位置,其中在靶序列的任一端并在供体序列的任一或两个插入方向上插入编码供体序列的核酸。指导rna设计是邻近基序的光间隔区(photospacer)或包含ngg核苷酸序列的pam序列的上游。一些cas9突变体不需要指导rna分子的位于靶序列侧翼的pam序列,并且在本文中的一些情况下,pam序列不存在。使用单个指导rna。或者,设计多种指导rna并在单一反应中同时使用。在示例性实施方案中,指导rna靶序列以跨越靶序列的间隔进行设计。指导rna被设计为在沿着双链靶dna分子的相反方向上。任选地,指导rna被设计为在双链靶dna分子的相反链上。所述方法可以将多个t7供体序列插入感兴趣的靶基因组dna基因座中。

所述供体序列包含扩增位点,在一些情况下特别是t7聚合酶的启动子位点。t3聚合酶和sp6启动子序列是备选的供体序列,本领域技术人员可用的其他序列也是备选的供体序列。或者,使用其他dna依赖性rna聚合酶启动子。在一个示例性实施方案中,使用t7启动子。合适的t7启动子序列为5’-taatacgactcactatag-3’(seqidno:5),并且t7转录起始于3’g。rna转录以5’-3’发生,也以5’-3’方向生成rna分子,使其成为用于逆转录和转化为cdna的有用模板。rna聚合酶具有极低的错误率,为0.5×10-4,或者每10-30kb转录物具有一个错误掺入。rna拷贝仅由双链模板dna分子生成。rna聚合酶片段长度的范围为几百个碱基对至数千碱基,并且报道的转录物长度最高30千碱基(t7ribomax,promega)。在rna聚合酶扩增的缓冲液中需要镁。

温育时间根据所使用的启动子和聚合酶而变化。使用t7聚合酶,温育时间的范围为几分钟至2小时。更长的温育时间通常导致更好的产量和整体表现。对由体外转录反应产生的rna进行纯化,或任选地通过使用dna酶或内切核酸酶的dna降解将其从dna样品中分离出。

或者,所述dna样品不予降解。任选地,对rna片段进行大小选择。任选地对由体外转录反应生成的rna模板的下游处理进行片段化,例如通过温和的镁处理、物理或酶促方式。任选地通过标准的小rna文库制备技术将短rna片段转化为测序仪文库。或者,通过聚-a聚合酶对长rna分子进行多腺苷酸化。通过本领域已知的标准技术逆转录多腺苷酸化的长rna分子。逆转录酶如superscripttm与寡聚(d)t引物组合能够从长聚a加尾的rna分子有效地生成全长cdna。任选地通过rna的消化从逆转录的dna输出中去除rna。然后可通过标准衔接子连接将单链全长逆转录dna分子转化为长读取测序仪文库。

考虑了与本文公开内容一致的反应中多个步骤的变化。在一些变化形式中,crispr/cas反应中的供体dna分子任选地包括(除了t7启动子序列之外)用于第二链cdna合成的引物位点。在这些实施方案中,指导rna加crispr/cas系统在pam序列上游的靶位点处生成双链切口。然后供体dna分子包括t7启动子,其下游具有通用引物位点。例如,在一些情况下,通用引物序列是适用于选择的测序仪平台的测序引物。crispr/cas反应中供体分子的构建体包含或是5’-t7启动子-通用引物序列-3’。用t7聚合酶进行的体外转录始于t7启动子序列的3’g,并在下游和通过靶dna序列转录通用引物序列。添加聚a后,当产生第一链cdna时,寡聚(d)t引发的逆转录将通过通用引物序列进行转录。使用针对通用引物序列的反向互补引物通过引物延伸实现第二链cdna合成。因此,进入ngs文库转换的cdna分子的最终构建体是5’-通用引物-靶dna-聚a-3’。

在本文考虑的备选方法中,所述crispr/cas系统在靶位点处生成双链切口。用外切核酸酶处理该双链切口,该外切核酸酶在切口位点产生单链dna的粘端,具有互补序列和转录启动子的衔接子与该粘端退火。将退火的衔接子连接至样品dna,从而产生启动子-靶dna杂合体以备样品dna的体外转录。在该备选方法中,在crispr/cas序列特异性靶向双链dna切割和衔接子在外切核酸酶产生的粘端处退火时引入两个水平的特异性。任选地,该衔接子为包含折叠到自身上的部分和具有与靶向序列互补的序列的第二部分的发夹。发夹衔接子可具有诸如提高的连接效率和动力学的优点。

在一些情况下,在供体dna分子中t7启动子序列(以及可选的通用引物序列)上游添加分子条码。该实例中供体dna序列的构建体为5’-t7启动子-通用引物-n-聚体-3’。在一些情况下,需要pcr扩增来增加用于测序仪文库生成的材料的量,并且添加分子条码使得能够从克隆扩增的长pcr产物中鉴定独特的分子。对于通过微滴或微流体技术使用大规模平行区室化的单细胞应用,分子条码任选地被区室特定条码替代。这允许对crispr/cas靶标插入后的样品中的所有细胞进行批量处理,并且允许从给定的单个细胞中对测序的分子进行独特鉴定。

本文提供的方法通常允许靶向扩增多个重复序列相邻的核酸序列。因此,能够确定例如整个核酸样品如基因组中插入位点的整体分布。特别地,通过选择基因组可动元件,确定其中插入可动元件的多个区域,最高并包括基因组中感兴趣的重复元件的插入位点总数的10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、99%或甚至100%。在一些情况下,将这些插入位点的一部分扩增10x、100x、1000x、10000x、100000x、1000000x或更大。在一些情况下,扩增至该水平的该部分包含最高(且包括)插入位点总数的10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、99%或甚至100%。

因此,通过实施本文公开的方法和组合物的使用,人们能够在感兴趣的细胞或细胞群体(如癌细胞或癌细胞群体)的整个基因组中确定可动重复元件的整体插入模式。此外,通过实现高水平的扩增,人们能够研究单细胞或极小的细胞群体。最后,因为扩增在许多情况下是直接从样品模板生成的线性扩增,而不是使用pcr的指数扩增的产物,所以扩增是在没有任何伴随的错误(如根据文库生成过程发生的点突变或易位)放大的情况下完成的。错误可能会发生,但很容易被识别,因为它们很可能是单个产物特有的。此外,因为通过rna中间体发生扩增,因此不存在合成产物与样品或另一种扩增产物退火并引发进一步延伸的风险,这一现象难以与样品本身中的易位事件区分开。

本文公开的方法和组合物的使用允许人们确定基因组中任何靶向位点的序列,包括重复元件以及平均复杂性dna序列,例如mrna编码序列。因此,本文中的方法不限于对重复和低复杂性基因组区域进行测序,而是可以应用于基因组中任何期望的位置。

作为实施本文公开的方法的结果,获得了高度扩增、高度代表可动元件的总分布位点和高度抵抗合成过程中的错误传播的文库。

提供了用于产生多插入核酸的方法、组合物和试剂盒。这些方法、组合物和试剂盒可用于许多应用,如全基因组测序。在阅读下文更全面描述的组合物和方法的细节后,本发明的这些和其他目的、优点和特征对于本领域技术人员将变得显而易见。

标签的靶向插入

本文公开了通过将标签插入所需基因组位置而从所需基因组位置获得序列的方法。在一些情况下,使用基因靶向技术,例如crispr、talens、锌指、转座酶和本领域技术人员已知的其他方法,将标签插入所需的基因组位置。该标签被设计为含有允许从所需基因组位置扩增的序列。根据所需的扩增方法选择标签。在一些情况下,通过转录对所需的基因组位置进行扩增。如果通过转录扩增所需的基因组位置,则将标签设计为含有启动子序列,例如噬菌体启动子如t7、t3、sp6或其他噬菌体启动子。在一些情况下,该启动子序列为病毒启动子,如pl、cmv、sv40、camv35s或其他病毒启动子。在一些情况下,希望使用哺乳动物启动子序列,如ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、alb、gal1、gal10、tef1、gds、adh1、ubi、h1、u6或其他哺乳动物启动子。在一些情况下,该启动子为rna聚合酶i启动子。在一些情况下,该启动子为rna聚合酶ii启动子。在一些情况下,该启动子为rna聚合酶iii启动子。在一些情况下,该启动子为rna聚合酶iv启动子。在一些情况下,该启动子为rna聚合酶v启动子。在一些情况下,该启动子是单亚基rna聚合酶启动子。

包含crispr靶向序列的标签包括但不限于actagaaaatctagaagaaa(seqidno:5)、ttgtagtatagtttgaagtc(seqidno:6)、aaaaccctagaagaaaacct(seqidno:7)、tctttaagaatgttgaatat(seqidno:8)、acagccaatatcatactgaa(seqidno:9)、tcacatagtcccatatttct(seqidno:10)、ctacagtaaccaaaacagca(seqidno:11)、agcaacttcagcaaagtctc(seqidno:12)、tgacttcaaactatactaca(seqidno:13)、taagctttttgatgtgctgc(seqidno:14)、cctccctaactcattttatg(seqidno:15)、gaagcattccctttgaaaac(seqidno:16)、acctgctcctgaatgactac(seqidno:17)、tgaagttgcttatcagctta(seqidno:18)、gagttctgtagatgtctatt(seqidno:19)、tattcacaatagcaaagact(seqidno:20)、ttgtctcttttgatctttgt(seqidno:21)、ttgaaccagccttgcatccc(seqidno:22)、aggattccctatttaataaa(seqidno:23)、ttgcccattcagtatgatat(seqidno:24)、gttcttttaattgtgatgtt(seqidno:25)、aagatcaaaagagacaaaga(seqidno:26)、ttcacttatgaagcttagtt(seqidno:27)、aaactaagcttcataagtga(seqidno:28)、aaaaatcctcaataaaatac(seqidno:29)、catctattgagataatcatg(seqidno:30)、cccagcaccatttattaaat(seqidno:31)、tcctgaatacagcacactga(seqidno:32)、tgtcttgtgccagttttcaa(seqidno:33)、tttgatttgcatttctctga(seqidno:34)、atccctttaccattatgtaa(seqidno:35)、tgagagattttgtcaccacc(seqidno:36)、aatctgacaattatgtgtct(seqidno:37)、cagtttcagctttctacata(seqidno:38)、catatgtagaaagctgaaac(seqidno:39)、aatatatatgcacccaatac(seqidno:40)、gatggtagtttgtatttctg(seqidno:41)、agtctgttttatcagagact(seqidno:42)、gccagtctgtgtcttttaat(seqidno:43)、cttccaacactatgttgaat(seqidno:44)、aaactactttaaagttcata(seqidno:45)、aatgtggcacatatacacca(seqidno:46)、cacattcaaaagctagcaga(seqidno:47)、cccatcagtgtgctgtattc(seqidno:48)、atctttcctgctttctcttg(seqidno:49)、ctaagccaaaagaacaaagc(seqidno:50)、tcatccctgggatgcaaggc(seqidno:51)、ctctttgaagcaattgtgaa(seqidno:52)、gcccatgcctatgtcctgaa(seqidno:53)、tgcctccagctttgttcttt(seqidno:54)、tttttccttcatttcaactt(seqidno:55)、aaactaccatcagagtgaac(seqidno:56)、aggaaaactaacaaacagaa(seqidno:57)、tcaaagagaataaaatacct(seqidno:58)、aaatgcccacaagagaaagc(seqidno:59)、aatgactttcttcacagaat(seqidno:60)、attcaccaaagttgaaatga(seqidno:61)、aattctgtgaagaaagtcat(seqidno:62)、attccaatcaatagaaaaag(seqidno:63)、cctgtcattatgatgttagc(seqidno:64)、ccagctaacatcataatgac(seqidno:65)、tgacccagccatcccattac(seqidno:66)、taccattcaggacataggca(seqidno:67)、ctgttcttttacatttgctg(seqidno:68)、gatctgtctaatgttgacag(seqidno:69)、gttctagtttgattgcactg(seqidno:70)、ttccctctttttctattgat(seqidno:71)、ttaaaaagtcaggaaacaac(seqidno:72)、acacaacataccagaatctc(seqidno:73)、aggaagatctaccaagcaaa(seqidno:74)、gtaaactagttcaaccattg(seqidno:75)、gtgcaatcaaactagaactc(seqidno:76)、actcctattcaacatagtgt(seqidno:77)、gcagagctgagttcaattcc(seqidno:78)、ccatctcacaccagttagaa(seqidno:79)、ccttcacatcccttgtaagt(seqidno:80)、tatctcaatagatgcagaaa(seqidno:81)、ttaagggcagccagagagaa(seqidno:82)、ctaaaaactctcaataaatt(seqidno:83)、tatgtacccagtagtcattc(seqidno:84)、gcttatccaccatgatcaag(seqidno:85)、tggagaggatgtggagaaat(seqidno:86)、ctgcagagtgttttccaact(seqidno:87)、tcagagattcaacttcttcc(seqidno:88)、tctctgaatagaccaataac(seqidno:89)、gaatctgggtgctcctgtat(seqidno:90)、caagttggaaaacactctgc(seqidno:91)、tagatcccatttgtcaattt(seqidno:92)、tgaagcccacttgatcatgg(seqidno:93)、tccaattaaaagacacagac(seqidno:94)、caaaagccaaaattgacaaa(seqidno:95)、gtatatacccagtaatggga(seqidno:96)、gaaataaagggtattcaatt(seqidno:97)、accctcagctgcaggtctgt(seqidno:98)、ccaacttacaagggatgtga(seqidno:99)、attgagagtttttagcatga(seqidno:100)、ttttttgttttccatttgct(seqidno:101)、tctcttcaaagctgtcagac(seqidno:102)、attcttcctacccatgagca(seqidno:103)、aacacttttacactgttggt(seqidno:104)、ctgttttttccccatctttg(seqidno:105)、caaacaaccccatcaaaaag(seqidno:106)、tttctagttctagatccctg(seqidno:107)、agaacttccccaatctagca(seqidno:108)、tgtgagatggtatctcattg(seqidno:109)、tttgagttcattgtagattc(seqidno:110)、ccatgtttagtgcttccttc(seqidno:111)、cagtctgagatcaaactgca(seqidno:112)、tcagtttccatgtagttgag(seqidno:113)、ttaatccagtctatcattgt(seqidno:114)、gtctaaaacaccaaaagcaa(seqidno:115)、tgccctaaaagagctcctga(seqidno:116)、tcacagccgaattctaccag(seqidno:117)、aatgtccaacaatgatagac(seqidno:118)、ctagattggggaagttctcc(seqidno:119)、ttctttattagtcttgctag(seqidno:120)、cctcataaaatgagttaggg(seqidno:121)、gaaaaaatgctcatcatcac(seqidno:122)、aagaatcaatatcgtgaaaa(seqidno:123)、ggtttgccagtattttattg(seqidno:124)、cttctcgaggagtatctttg(seqidno:125)、ttaatgattgccattctaac(seqidno:126)、ggtaacccgacctttctctc(seqidno:127)、aacaaagcctccaagaaata(seqidno:128)、tagccctttgtcagatgagt(seqidno:129)、taaacatggaaaggaacaac(seqidno:130)、ctccaacagacctgcagctg(seqidno:131)、gatgagttcatgtcctttgt(seqidno:132)、caatcatgtcatctgcaaac(seqidno:133)、ctcttttagggcaggcctgg(seqidno:134)、ttttgcatcaatgttcatca(seqidno:135)、catgaactcatcatttttta(seqidno:136)、attttggaataggtgtggtg(seqidno:137)、aagttctggccagggcaatc(seqidno:138)、aattcggctgtgaatccatc(seqidno:139)、gtggagcccaccacagctca(seqidno:140)、tttcatccatgtccctacaa(seqidno:141)、aaaacagagatatagatcaa(seqidno:142)、attgatctatatctctgttt(seqidno:143)、taaaatcagagcagaactga(seqidno:144)、agtagataaaaccacaaaga(seqidno:145)、gaactacaaaccactgctca(seqidno:146)、attgaatctataaattacct(seqidno:147)、agtcagtgtggcgattcctc(seqidno:148)、tgtctgtgccctgcccccag(seqidno:149)、cgccacactgacttccacaa(seqidno:150)、tagttttccttctaacagac(seqidno:151)、aaatgtatattctgttgatt(seqidno:152)、ctacttttggtctttgatga(seqidno:153)、agactcccacacaataataa(seqidno:154)、gaagcccatcagactaacag(seqidno:155)、gcctctgtaggctccacctc(seqidno:156)、tggagcctacagaggcaggc(seqidno:157)、tccaaaattgaccacatagt(seqidno:158)、gatttctgcatttccatctg(seqidno:159)、aacctgagaaaaacaagcaa(seqidno:160)、tatttcctgaatttgaatgt(seqidno:161)、gaactcagctctgcaccaag(seqidno:162)、caatacagagaagtgcttaa(seqidno:163)、ccccattgcttgtttttctc(seqidno:164)、ttaccaaccaaaaagagtcc(seqidno:165)、atgcacacgtatgtttattg(seqidno:166)、cctttcaaaaaaccagctcc(seqidno:167)、agaccaaatctacgtctgat(seqidno:168)、ctttaagcacttctctgtat(seqidno:169)、agtctcccattattattgtg(seqidno:170)、atacaaaaattaattcaaga(seqidno:171)、gcaacctactcatctgacaa(seqidno:172)、taatgcctaggttttcttct(seqidno:173)、tggtctaaaattctcttttt(seqidno:174)、agtctctttgtaggtcactc(seqidno:175)、ctctacaagccagaagagag(seqidno:176)、acaccaatcagacgtagatt(seqidno:177)、gtgaagaatgcagaagcctc(seqidno:178)、cttgaattaatttttgtata(seqidno:179)、tattgcctaggttttcttct(seqidno:180)、gacagctttgaagagagcag(seqidno:181)、aaaattttctcccattctgt(seqidno:182)、ccagttcctccttgtacctc(seqidno:183)、ggaagaacattccatgctca(seqidno:184)、gaatgtatattctgttgatt(seqidno:185)、atcagatagttgtagatatg(seqidno:186)、taagatcagagcagaactga(seqidno:187)、atattaactttaaatgtaaa(seqidno:188)、gcattttttcatgtgttttt(seqidno:189)、ttcaaaaaatcaatgaatcc(seqidno:190)、caccctcccaagactaaacc(seqidno:191)、agattttgggctgagacaat(seqidno:192)、cactctcccaagactaaacc(seqidno:193)、gttttcaacttctttgcctt(seqidno:194)、tatgtatacatgtgccatgc(seqidno:195)、cactagggagtgccagacag(seqidno:196)、atcatcctgataccaaagcc(seqidno:197)、gtgtgtctctgcacgtgaga(seqidno:198)、tttctagtttatttgcgtag(seqidno:199)、gatttctgcatttccaactg(seqidno:200)、tcttttatttccttgagcag(seqidno:201)、tcacgtgcagagacacacat(seqidno:202)、cactccagaccctgtttgcc(seqidno:203)、atattaaccttaaatgtaaa(seqidno:204)、cagcatttgcttgtctgtaa(seqidno:205)、gagatccgctgttagtctga(seqidno:206)、cagcatgatttatagtcctt(seqidno:207)、ccctacaagccagaagagag(seqidno:208)、atacaaaaatcaattcaaga(seqidno:209)、atttagcccatttacattta(seqidno:210)、ttttttgttgtgtctctgcc(seqidno:211)、aggggtcagggacccacttg(seqidno:212)、tttctagtttatttgcatag(seqidno:213)、cttgaattgatttttgtata(seqidno:214)、tgaatgtgtcccagagattc(seqidno:215)、aaaattttctcccattttgt(seqidno:216)、tgttgtgtctttgttctcgt(seqidno:217)、agcaaagcctccaagaaata(seqidno:218)、aagttctggccagggcaatt(seqidno:219)、attgaatctgtaaattacct(seqidno:220)、agactcccacacattaataa(seqidno:221)、ccattctccccatcactttc(seqidno:222)、gctctctgtttgtctgttat(seqidno:223)、agtctcccattattaatgtg(seqidno:224)、gtacagatgggtttttggtg(seqidno:225)、tgcctcccagttaggctgct(seqidno:226)、cccactctcttctggcttgt(seqidno:227)、gctgatggagctgaaaacca(seqidno:228)、actccctagtgagatgaacc(seqidno:229)、ttcaaaaaattaatgaatcc(seqidno:230)、cacctatgagtgagaatatg(seqidno:231)、acattcaaagcagtgtgtag(seqidno:232)、aacattccatgctcatgggt(seqidno:233)、cttctcctgcctaattgccc(seqidno:234)、tttgtttacctaagcaagcc(seqidno:235)、tcttttatttcattgagcag(seqidno:236)、actgctcaatgaaataaaag(seqidno:237)、cctgaaagtgatggggagaa(seqidno:238)、tagttttccttctaacagtc(seqidno:239)、attttggcatgattttgcag(seqidno:240)、ctttggttctgtttatatgc(seqidno:241)、gacacaataaaaaatgataa(seqidno:242)、tttcttccagttgatcgcat(seqidno:243)、cttttcaaaaaaccagctcc(seqidno:244)、ttcacgtagttctcgagcct(seqidno:245)、gagcgcctctcctcctccaa(seqidno:246)、tcagatctccagctgcgtgc(seqidno:247)、aattgaacaatgagaacaca(seqidno:248)、atgaatgaaatgaagcgaga(seqidno:249)、cagtttcttcctagtctcga(seqidno:250)、caccgcatattctcactcat(seqidno:251)、ctcaaaaccgctcaactaca(seqidno:252)、tccacccagttcgagcttcc(seqidno:253)、tgttgtgtctttgttctcat(seqidno:254)、gatgcgatcaactggaagaa(seqidno:255)、gtaccagtaccatgctgttt(seqidno:256)、aaaaaacagagcagaaaaac(seqidno:257)、ctttggtatcaggatgatgc(seqidno:258)、aaaaaacagaacagaaaaac(seqidno:259)、gtgctttacttccaactatg(seqidno:260)、tagataaaaccacaaagatg(seqidno:261)、tgacccccgagcagcctaac(seqidno:262)、aatttggcatgtttttgcag(seqidno:263)、taaaagaggatacaaacaaa(seqidno:264)、gcattcaaagcagtgtgtag(seqidno:265)、gaggaactgcgttcctttgg(seqidno:266)、tttgacgagctgagagaaga(seqidno:267)、ctttggtatcagaatgatgc(seqidno:268)、attcttcctatccatgagca(seqidno:269)、tccctttcctagtcaaagaa(seqidno:270)、aaaacagagatatagaccaa(seqidno:271)、cttctcctgcctgattgccc(seqidno:272)、tgggagtgacccgattttcc(seqidno:273)、atgtaaagaccatcgagact(seqidno:274)、ccattctccccgtcactttc(seqidno:275)、tcaccatcatcaaagaccaa(seqidno:276)、attattatactttaagtttt(seqidno:277)、tcaatttcagagcctgttat(seqidno:278)、gctctctgtttgtctgttgt(seqidno:279)、aacgagacagaaagtcaaca(seqidno:280)、cagcatgatttataatcctt(seqidno:281)、gatcaaattactctgagcta(seqidno:282)、gatgcaataaaaaatgataa(seqidno:283)、ctttggctctgtttatatgc(seqidno:284)、tgtcacccctttctttgact(seqidno:285)、ggtcagggacccacttgagg(seqidno:286)、ctctgagacaaaacttccag(seqidno:287)、ctggcctcataaaatgagtt(seqidno:288)、cttcatccatgtccctacaa(seqidno:289)、cctgaaagtgacggggagaa(seqidno:290)、cacctatgagtgagaacatg(seqidno:291)、tatttcctgaatctgaacgt(seqidno:292)、aggagccaagatggccgaat(seqidno:293)、aagaatcaatatcatgaaaa(seqidno:294)、gccattgcccaggcttgctt(seqidno:295)、cgcagctggagatctgagaa(seqidno:296)、aattgaacaatgagatcaca(seqidno:297)、caatcatgtcgtctgcaaac(seqidno:298)、agaccggagctgttcctatt(seqidno:299)、tatttcctgaatctgaatgt(seqidno:300)、tgccttacaagagctcctga(seqidno:301)、ttgggagagtgtatgtgtcg(seqidno:302)、ggaaggggaacatcacactc(seqidno:303)、taaatgtgtcccagagattc(seqidno:304)、aggtgtcagtgtgcccctgc(seqidno:305)、ttaggattgacttggcgatg(seqidno:306)、ttccaacagacctgcagctg(seqidno:307)、aacctgacaaaaacaagcaa(seqidno:308)、tatgtatacatgtgccatgt(seqidno:309)、aacctgacaaaaacaagaaa(seqidno:310)、ttaatgatcgccattctaac(seqidno:311)、gtccttcgcccactttttga(seqidno:312)、tccaaaattgaccacatact(seqidno:313)、agattttgggctgagacgat(seqidno:314)、tgaatgcgtcccagagattc(seqidno:315)、agactggagctgttcctatt(seqidno:316)、atactatgcagccataaaaa(seqidno:317)、gggcagactgacacctcaca(seqidno:318)、atcctttgcccactttttga(seqidno:319)、ggaaggggaatatcacactc(seqidno:320)、acgcagttcctcaccagcaa(seqidno:321)、aatgctagatgacgagttag(seqidno:322)、gacagctttgaagagagtag(seqidno:323)、gagctttacttccaactatg(seqidno:324)、catgaactcatcctttttta(seqidno:325)、ctaactcgtcatctagcatt(seqidno:326)、atccagctttgttccgttgc(seqidno:327)、agtctctttgtaggtctcta(seqidno:328)、ccatgtttagcgcttccttc(seqidno:329)、ccccattgcttgtttttgtc(seqidno:330)、gagctttacttccaagtatg(seqidno:331)、gacgcaataaaaaatgataa(seqidno:332)、ctaggttggggaagttctcc(seqidno:333)、atcagatggttgtagatgtg(seqidno:334)、ccccatttcttgtttttgtc(seqidno:335)、gggcacactgacacctcaca(seqidno:336)、ctacctttggtctttgatga(seqidno:337)、gactaaaacaccaaaagcaa(seqidno:338)、tttctagttctagatccttg(seqidno:339)、gaaaaaatgctcaccatcac(seqidno:340)、ttaggattgacttggcaatg(seqidno:341)、ttttgtctcagaggagtacc(seqidno:342)、acatttaaagcagtgtgtag(seqidno:343)、ccagctcctccttgtacctc(seqidno:344)、ctcttgtaaggcaggcctgg(seqidno:345)、gagatctgctgttagtctga(seqidno:346)、gagatcagctgttagtctga(seqidno:347)、agggctctgttctgttccat(seqidno:348)、aacgagacagaaagttaaca(seqidno:349)、ctaagcaaaaagaacaaagc(seqidno:350)、tttttccttcatttcaacct(seqidno:351)、ccagctcctctttgtacctc(seqidno:352)、gttctaatttgattgcactg(seqidno:353)、aagaatcaatattgtgaaaa(seqidno:354)、gtgcaatcaaattagaactc(seqidno:355)、agcgtgagcgacgcagaaga(seqidno:356)、tttgacgagttgagagaaga(seqidno:357)、caaaagacaaaattgacaaa(seqidno:358)、catcattctgataccaaagc(seqidno:359)、cagctttgttctttttgctt(seqidno:360)、tcttttgttgccattgcttt(seqidno:361)、gactgttgtggggtgggggg(seqidno:362)、gtgtgtctctgcatgtgaga(seqidno:363)、tatttacccagtagtcattc(seqidno:364)、tcacagccaaattctaccag(seqidno:365)、gtcttctgcgtcgctcacgc(seqidno:366)、ctcaaaaccactcaactaca(seqidno:367)、tttctcttgcctgattgccc(seqidno:368)、acaatttcagctcctgttat(seqidno:369)、agtttgccagtattttattg(seqidno:370)、ctaaaaactctcaataaact(seqidno:371)、agaacttccccaacctagca(seqidno:372)、tttctagtttatttgtgtag(seqidno:373)、ttgggagggtgtatgtgtcc(seqidno:374)、caatgcagagaagtccttaa(seqidno:375)、acctactcaagcctcagcaa(seqidno:376)、tcacatgcagagacacacat(seqidno:377)、gagcacctctcctcctccaa(seqidno:378)、tccctttccgagtcaaagaa(seqidno:379)、cggcagcgaggctgggggag(seqidno:380)、gtccaaaacaccaaaagcaa(seqidno:381)、gcattttttcatgtgtctgt(seqidno:382)、catcatcctgataccaaagc(seqidno:383)、cccaattaaaagacacagac(seqidno:384)、acaatttcagatcctgttat(seqidno:385)、tcacagctgaattctaccag(seqidno:386)、ttaccaaccaaaaaaagtcc(seqidno:387)、gtgtgtctctgcacatgaga(seqidno:388)、gcctctgtagactccacctc(seqidno:389)、aggtgtcagtctgcccctac(seqidno:390)、actgacctgcgcccactgtc(seqidno:391)、tcatgtgcagagacacacat(seqidno:392)、ggtaacctgacctttctctc(seqidno:393)、gcaatctactcatctgacaa(seqidno:394)、caccgcatgttctcactcat(seqidno:395)、tagcaatcagcgagactccg(seqidno:396)、aaatgaaggaaaaaatgtta(seqidno:397)、acaaagagaataaaatacct(seqidno:398)、ttaatccagtctatcattga(seqidno:399)、gtaaattagttcaaccattg(seqidno:400)、aggaccctccgagccaggtg(seqidno:401)、cgtcacccctttctttgact(seqidno:402)、atgagttcatgtcctttgta(seqidno:403)、acaatttcagagcctgttat(seqidno:404)、ccattctccctgtcactttc(seqidno:405)、gatctgtctaatattgacag(seqidno:406)、aatgtccatcaatgatagac(seqidno:407)、ctcggagggtcctacgccca(seqidno:408)、tttaagttctttgtagattc(seqidno:409)、caccagcaacagaacaaagc(seqidno:410)、tcatctcacaccagttagaa(seqidno:411)、agaccaaatctacatctgat(seqidno:412)、gagatccactgttagtctga(seqidno:413)、tgacccagcaatcccattac(seqidno:414)、atccagctttgttccattgc(seqidno:415)、ggaaggggaacatcacacac(seqidno:416)、gcattttttcatgtgtcttt(seqidno:417)、ctcaaaactgctcaactaca(seqidno:418)、tgcctcccagttaggctact(seqidno:419)、tttattatactttaagtttt(seqidno:420)、cctgatggagctgaaaacca(seqidno:421)、gtccagctttgttccattgc(seqidno:422)、gtcctttgcccactttttga(seqidno:423)、acaccaatcagatgtagatt(seqidno:424)、cagctccatcaggtccttta(seqidno:425)、gagtgcctctcctcctccaa(seqidno:426)、agattttgggctgagatgat(seqidno:427)、aattcagctgtgaatccatc(seqidno:428)、tattgggtgcatatatattt(seqidno:429)、cctgaaagtgacagggagaa(seqidno:430)、aaaacaaccccatcaaaaag(seqidno:431)、ttaatgatcaccattctaac(seqidno:432)、ctaccaaccaaaaaaagtcc(seqidno:433)、ctgaagagtgttttccaact(seqidno:434)、cttctcaaggagtatctttg(seqidno:435)、cagactaacagctgatctct(seqidno:436)、caccgtgcgcgagccgaagc(seqidno:437)、cttcatccatgtccctgcaa(seqidno:438)、ggcaatgcctcgccctgctt(seqidno:439)、attgaatctataaattactt(seqidno:440)、ctctttgtagcaattgtgaa(seqidno:441)、cttcttgaggagtatctttg(seqidno:442)、tttttgcatcgatgttcatc(seqidno:443)、cagctccatcaggtcattta(seqidno:444)、gagtgagaacatgcagtgtt(seqidno:445)、agtcaggaaacaacagatgc(seqidno:446)、cgatagtttgctgagaatga(seqidno:447)、aattttcagcttttctgctc(seqidno:448)、atacccagtaatgggattgc(seqidno:449)、gaggagctgcgttcctttgg(seqidno:450)、aattgaacaatgagaacact(seqidno:451)、aatgctaaatgacgagttaa(seqidno:452)、ttttttgctttccatttgct(seqidno:453)、atgaatgaaatgaagtgaga(seqidno:454)、attctcagcaaactatcgca(seqidno:455)、caagttggaaaacactcttc(seqidno:456)、atcattctgataccaaagcc(seqidno:457)、acaacctactcatctgacaa(seqidno:458)、tagcatcaacatcaacaaaa(seqidno:459)、cagtttcttcctagccttga(seqidno:460)、aatttggctgtgaatccatc(seqidno:461)、tttgtggttttatctacctt(seqidno:462)、gctgatggagctgaaagcca(seqidno:463)、ttaactcgtcatttagcatt(seqidno:464)、tgatagtttgctgagaatga(seqidno:465)、gttttgccagtattttattg(seqidno:466)、atccagctttgttctgttgc(seqidno:467)、aagaacttgctttatgaatc(seqidno:468)、cctgaccccttgcgcttccc(seqidno:469)、ttgggagggtgtatgtgtcg(seqidno:470)、cagactaacagcagatctct(seqidno:471)、ttgctgcctgatccttcctc(seqidno:472)、tctaaaattgaccacataat(seqidno:473)、ctcaaagccgctcaactaca(seqidno:474)、atacaaaaattaactcaaga(seqidno:475)、acagacggcacctggaaaat(seqidno:476)、tcaccaacatcaaagaccaa(seqidno:477)、gtccagctttgttccgttgc(seqidno:478)、atacccaggcaaacagggtc(seqidno:479)、cgccacactgtcttccacaa(seqidno:480)、cttccaatactatgttgaat(seqidno:481)、agcagccgggaagctcgaac(seqidno:482)、actcctattcaacatagtat(seqidno:483)、gtgttttacttccaattatg(seqidno:484)、aaagggatcaattcaacaag(seqidno:485)、aatgagacagaaagttaaca(seqidno:486)、gacggacgcacctggaaaat(seqidno:487)、cttgagttaatttttgtata(seqidno:488)、aaaattttctcccatgttgt(seqidno:489)、gaaaatcctcaataaaatac(seqidno:490)、tttctcctgcctgattgccc(seqidno:491)、atattagccctttgtcagat(seqidno:492)、ggtaacccaacctttctctc(seqidno:493)、aaactatcatcagagtgaac(seqidno:494)、aaaacagatatatagaccaa(seqidno:495)、tgcctcacctgggaagcgca(seqidno:496)、tgccattgcttttggtgttt(seqidno:497)、aggaagatctaccaagccaa(seqidno:498)、tgcctttttttgttttccat(seqidno:499)、attctcagcaaactatcaca(seqidno:500)、ctggactttttttggttggt(seqidno:501)、cagtttcttcctagcctcga(seqidno:502)、taggaacacttttacactgt(seqidno:503)、acgagactatatcccacacc(seqidno:504)、gaatattgcgcttttcagac(seqidno:505)、tttgagttctttgtagattc(seqidno:506)、atgcacatgtatgtttattg(seqidno:507)、tcagggattcaacttcttcc(seqidno:508)、atgcacacatatgtttattg(seqidno:509)、gcagggcatagctgaacaaa(seqidno:510)、tcagatctccagctgcatgc(seqidno:511)、aataacaagttctgaaattg(seqidno:512)、tgtgagatgatatctcatag(seqidno:513)、atcatcctgataccaaaacc(seqidno:514)、aggcctctgttctgttccat(seqidno:515)、tgacccccgagtagcctaac(seqidno:516)、gcccacgcctatgtcctgaa(seqidno:517)、tcaatttcagaacttgttat(seqidno:518)、taccattcaggacataggcg(seqidno:519)、caccacatgttctcactcat(seqidno:520)、aggaccctctgagccaggtg(seqidno:521)、cataattgtcagattcacca(seqidno:522)以及gaagaccttaaatgacctga(seqidno:523)。序列从5’至3’呈现。

本文提供了从所需位置如line元件获得序列的方法。在一些情况下,该line元件包含具有seqidno:1的多核苷酸核苷酸。在一些情况下,靶向该line元件的一部分,该部分具有包含seqidno:2的序列。在一些情况下,使用具有包含seqidno:3的序列的指导rna靶向该line元件。

本文提供了获得与所需位置如alu元件相邻的序列的方法。在一些情况下,该alu元件包含具有包含seqidno:4的序列的alu-y元件。

在一些情况下,所需的基因组位置通过dna聚合酶(例如,链置换dna聚合酶)扩增。在一些情况下,使用dna聚合酶扩增所需的基因组位置。在一些情况下,dna聚合酶需要在标签中包括引物序列,例如dna引物或rna引物。

通过本领域技术人员已知的基因组编辑或基因靶向方法将标签插入基因组dna样品中。在一些情况下,将标签插入细胞(如从患者或培养细胞分离出来的细胞)的基因组dna中。在一些情况下,将标签插入已经从细胞或组织(如来自患者的细胞或组织样品)分离的基因组dna中。

本领域技术人员理解基因组编辑或基因靶向技术,其包括诸如同源重组、成簇的规律间隔的短回文重复序列(crispr)、转录激活因子样效应物核酸酶(talens)、锌指核酸酶、转座子和其他方法等方法。任何这些方法的结果均是特异性地插入包含至少一个启动子序列的一个或多个核酸标签的基因组中。

在本文所述的方法中,待插入所需基因组位置中的标签为核酸。根据基因组靶向的确切机制,核酸标签为rna或dna。在一些情况下,核酸标签为rna/dna杂合体。通过本领域技术人员已知的方法制备用于基因靶向反应的核酸标签。在一些情况下,通过核酸合成仪合成标签。在一些情况下,通过重组dna技术制备标签。在一些情况下,rna核酸标签从质粒转录。根据插入方法,与所需基因组位置互补的序列将为了适应该方法而变化。在一些情况下,crispr需要必须位于待靶向的基因组位置的pam序列。

在一些情况下,使用crispr将标记的核酸序列插入基因组dna样品中的特定位置。crispr通常使用两种组分:指导rna(grna)和非特异性crispr相关内切核酸酶(cas9)。在一些情况下,crisprgrna需要用于cas9结合的支架序列以及含有标签和待修饰的基因组dna序列的约20个核苷酸的靶向序列。

本文还公开了包括将标记的核酸序列插入dna样品中的crispr靶向位点的方法。在这些方法中,crispr/cas核酸酶在基因组中的靶向位点处产生双链断裂。然后将外切核酸酶添加至反应混合物中,该外切核酸酶降解该双链断裂的一条链,产生具有特定核酸序列的粘端。或者,使用第二靶向crispr/cas核酸酶来代替外切核酸酶产生粘端。标记的核酸多核苷酸包含单链核酸,该单链核酸具有包含转录启动子如t7启动子的部分和包含与粘端互补的核酸序列的部分。任选地,标记的核酸多核苷酸包含允许标记的核酸形成发夹的自身互补的部分。

核酸的线性扩增

本文提供的方法允许从具有本领域技术人员已知难以测序的序列的核酸分子获得精确且准确的序列信息。本文的方法使用直接从起始基因组dna模板以线性方式扩增的靶向核酸序列。如本领域技术人员所理解的,难以测序的基因组区域具有已知由dna聚合酶如taq聚合酶引起的复制错误(如插入、缺失和置换)率增加的特征。在诸如pcr的扩增方法中,这些错误随着每一轮扩增而传递,从而产生不反映原始模板的扩增特异性测序错误。

本文公开的方法包括线性扩增,即产生直接从原始模板合成的、与原始基因组dna模板相同的另外的核酸分子。在一些情况下,使用转录实现线性扩增,例如,从特定基因组dna位置体外转录rna,该特定基因组dna位置已被特异性标记为含有如本文所述的启动子序列。合适的rna聚合酶包括但不限于t7rna聚合酶、t3rna聚合酶、sp6rna聚合酶、rna聚合酶i、rna聚合酶ii、rna聚合酶iii、rna聚合酶iv。在一些情况下,rna由rna聚合酶v、单亚基rna聚合酶转录。在一些情况下,体外转录反应需要一种或多种核糖核苷酸(atp、gtp、utp和ctp)和适合于该rna聚合酶的缓冲液。

线性扩增的核酸的纯化

本文公开的方法提供了从基因组dna模板纯化线性扩增的核酸。在一些情况下,该纯化方法为酶促方法,由此使用一种或多种dna酶消化基因组dna模板。或者,该纯化方法为基于亲和力的纯化,由此标记所得到的扩增核酸,并且诸如抗体的试剂与标记的扩增核酸结合,并且未结合的基因组dna模板从结合的扩增核酸中洗掉。该纯化方法也被设想为基于荧光的分选纯化,由此将荧光标记的扩增核酸从未标记的基因组dna模板中分选出来。进一步的纯化方法包括其中在每一轮扩增后从扩增反应中纯化经扩增的核酸。在进一步的方法中,在扩增反应完成后纯化经扩增的核酸。

本文公开的方法提供了扩增的核酸,该扩增的核酸为rna。在期望将dna样品用于方法中的下游步骤的情况下,使用一种或多种逆转录酶从rna制备dna拷贝。任选地,在使用逆转录酶处理之前对rna进行多腺苷酸化。或者,逆转录酶使用寡聚dt来引发逆转录酶反应。也设想逆转录酶使用基因特异性引物来引发逆转录酶反应。逆转录酶任选地使用随机六聚体引物来引发逆转录酶反应。还设想逆转录酶使用缓冲液和脱氧核糖核苷酸。

边界相邻文库和序列数据库

本文公开了核酸文库,其包含含有可动元件边缘或边界和可动元件相邻基因组序列或其他不可动元件序列的分子,它们在核酸分子中配对,使得文库组成分子具有可动元件边界和可动元件相邻序列,以便鉴别基因组或其他核酸来源内的可动元件位置。

如本公开内容其他地方所讨论的,与本公开内容一致的文库包含通过直接从样品模板对产物进行迭代线性扩增而生成的分子。因此,这类文库不会受到由基于链反应的扩增方法产生的差异扩增伪迹的不良影响,该扩增方法涉及早期的扩增轮次以产生在后续扩增反应中用作模板的产物,从而导致早期扩增错误在后来的产物中传播。通过线性扩增,特别是但不仅仅通过rna中间体,扩增产物独特且明显地直接衍生自模板。生成特定扩增产物过程中的任何错误均不会在后续反应中传播,因为扩增产物不用作文库生成中链反应扩增的模板。扩增中发生错误,但是这些错误彼此独立,单独地是罕见的,并且通过与相同模板的相关扩增产物进行比较而容易识别。

通常,与本文公开内容一致的文库衍生自基因组dna,但也考虑其他核酸来源。与本文公开内容一致的文库通常共有以下共同要素:相对于衍生出该文库的基因组样品或其他核酸样品,富含包含可动元件边界和边界相邻序列的分子。即,相对于基因组样品,更多数目的核酸分子包含可动元件边界和边界相邻序列二者,或者更大比例的文库的总体序列与可动元件边界邻近。

本文的文库包含至少100、200、500、1000、5000、10,000、20,000、50,000、100,000或多于1,000,000个核酸分子。本文公开的一些文库包含核酸样品染色体的单倍体互补体中染色体数目的至少10x、20x、50x、100x、200x、500x、1,000x、2,000x、5,000x、10,000x、20,000x、50,000x、100,000x或大于100,000x。

在一些情况下,10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%,如99.5%、99.6%、99.7%、99.8%、99.9%、约100%或100%的文库组分包含可动元件边界和边界相邻序列二者。

‘与可动元件边界邻近的序列’被不同地理解为指代这样的序列:可动元件边界位于距该序列不超过20kb、15kb、10kb、9kb、8kb、7kb、6kb、5kb、4kb、3kb、2kb、1kb、900个碱基、800个碱基、700个碱基、600个碱基、500个碱基、400个碱基、300个碱基、200个碱基、100个碱基或小于100个碱基处(在给定碱基位置处所测量的)。

在与本文公开内容一致的文库中,与可动元件边界邻近的序列表示比相关样品(如生成该文库的基因组样品)更大比例的文库的总体序列。在一些情况下,10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%,如99.5%、99.6%、99.7%、99.8%、99.9%、约100%或100%的文库组分包含与可动元件边界邻近的序列。

本文还公开了核酸文库,其包含含有重复区域边缘或边界和重复区域相邻基因组序列或其他非重复区域序列的分子,它们在核酸分子中配对,使得文库组成分子具有重复区域边界和重复区域相邻序列二者,以便鉴别基因组或其他核酸来源内的重复区域位置。

通常,与本文公开内容一致的文库衍生自基因组dna,但是也考虑其他核酸来源。与本文公开内容一致的文库通常共有以下共同要素:相对于衍生出该文库的基因组样品或其他核酸样品,富含包含重复区域边界和边界相邻序列的分子。即,相对于基因组样品,更多数目的核酸分子包含重复区域边界和边界相邻序列二者,或者更大比例的文库的总体序列与重复区域边界邻近。

在一些情况下,10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%,如99.5%、99.6%、99.7%、99.8%、99.9%、约100%或100%的文库组分包含重复区域边界和边界相邻序列二者。

‘与重复区域边界邻近的序列’被不同地理解为指代这样的序列:重复区域边界位于距该序列不超过20kb、15kb、10kb、9kb、8kb、7kb、6kb、5kb、4kb、3kb、2kb、1kb、900个碱基、800个碱基、700个碱基、600个碱基、500个碱基、400个碱基、300个碱基、200个碱基、100个碱基或小于100个碱基处(在给定碱基位置处所测量的)。

在与本文公开内容一致的文库中,与重复区域边界邻近的序列表示比有关样品(如生成该文库的基因组样品)更大比例的文库的总体序列。在一些情况下,10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%,如99.5%、99.6%、99.7%、99.8%、99.9%、约100%或100%的文库组分包含与重复区域边界邻近的序列。

与本公开内容一致的文库包含片段,该片段包含重复区域边界和边界相邻序列二者,且跨越至少50、100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000个或多于20,000个碱基。与本文公开内容一致的一些文库包含多个片段,该多个片段包含重复区域边界和边界相邻序列二者,使得所述多个片段展现出50、100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000个或多于20,000个碱基的平均片段大小。与本文公开内容一致的一些文库包含多个片段,该多个片段包含重复区域边界和边界相邻序列二者,使得所述多个片段展现出50、100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000个或多于20,000个碱基的中值片段大小。

本文公开的文库包含rna或dna。一些文库由rna聚合酶启动子引导的rna转录产生,该rna聚合酶启动子被插入(如选择性插入)核酸样品如基因组dna样品中的可动元件或其他重复区域中。一些文库包含由该转录生成的分子,包括任选地包含rna聚合酶启动子序列、重复区域如可动元件序列和可动元件或其他重复区域相邻序列如相邻基因组序列的分子。一些文库包含由插入的rna聚合酶启动子引导的rna转录产生的所述rna。或者,许多文库包含通过如上所述生成的rna分子群体的逆转录而生成的dna。

如本文所公开的文库由模板如基因组核酸样品生成,并且反映样品中与重复区域相邻的基因组序列。在一些实施方案中,重复元件包含可动元件如alu重复序列或转座子,该可动元件被观察到重新定位到整个基因组中的不同位置。这种重新定位或转座通常对于衍生出基因组样品的生物体中的细胞或细胞群体是特异性的。或者,文库反映与所选择的基因组区域相邻的基因组序列。文库来源于样品,如来自诸如肿瘤细胞或健康细胞等细胞群体的基因组dna样品。在一些情况下,文库由衍生自单个细胞的基因组dna生成。

特别地,一些可动元件插入事件或转座事件与谱系特异性细胞缺陷(如细胞周期或细胞生长调节缺陷)有关,如通常与癌细胞系有关。为了便于鉴别与癌症有关的可动元件插入事件,单独地由模板如从癌症或肿瘤细胞或组织获得的基因组核酸样品生成文库,或者与由非癌细胞或组织生成文库相组合。

任选地对与本文公开内容一致的文库进行测序,以便确定与重复区域相邻的序列,如重复基因座(如hla基因座)的可动元件边界或重复相邻序列。或者,任选地对与本文公开内容一致的文库进行测序,以便确定与所选择的基因组区域相邻的序列。使用本文其他地方公开的或以其他方式为本领域技术人员所知的任何数目的测序方法,如鸟枪法测序、下一代合成测序方法、长分子测序如pacbio、bionano或oxfordnanopore测序,对文库组分进行测序。

由此生成的序列数据库包含与本文公开内容一致的文库的核酸序列或与本文公开内容一致的方法的实践。在一些情况下,10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%,如99.5%、99.6%、99.7%、99.8%、99.9%、约100%或100%的数据库组分包含重复元件如可动元件序列和边界相邻序列二者。

在与本文公开内容一致的数据库中,与可动元件边界邻近的序列表示比相关样品(如生成该文库的基因组样品)更大比例的文库的总体序列。在一些情况下,10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%,如99.5%、99.6%、99.7%、99.8%、99.9%、约100%或100%的数据库组分包含与重复元件如可动元件边界邻近的序列。

与本公开内容一致的数据库包含序列,该序列包含重复区域边界和边界相邻序列二者,且跨越至少50、100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000个或多于20,000个碱基。与本文公开内容一致的一些数据库包含多个序列,该多个序列包含重复区域边界和边界相邻序列二者,使得所述多个序列展现出50、100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000个或多于20,000个碱基的平均序列长度。与本文公开内容一致的一些数据库包含多个序列,该多个序列包含重复区域边界和边界相邻序列二者,使得所述多个片段展现出50、100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000个或多于20,000个碱基的中值片段大小。

在一些情况下,对如本文公开的数据库进行完全测序,使得数据库条目包含生成它们的文库分子的端到端序列信息。或者,在一些情况下,数据库的一些或全部条目包含成对读取,使得成对读取的一个成员包含重复元件序列如可动元件序列,而成对读取的另一成员包含重复相邻序列,使得在一些情况下,推断出可动元件边界位置,而不需要跨可动元件的边界进行实际测序。

线性扩增的核酸的测序

本文公开的方法任选地包括对线性扩增的核酸(如根据本文公开的文库的产生而生成的核酸)进行测序。在一些情况下,该方法包括使测序所需的寡核苷酸与线性扩增的核酸进行退火。在一些情况下,该测序包括将测序所需的寡核苷酸连接至线性扩增的核酸。在一些情况下,该方法包括利用衔接子序列或其部分对线性扩增的核酸进行测序。

各种核酸测序方法是众所周知的,并在本领域中有所描述。本文公开的方法与多种测序技术一致。

本文预期使用选自多种测序方法的测序方法进行线性扩增的核酸序列的确定,该测序方法包括但不限于离子检测技术、dna纳米球技术、基于纳米孔的测序技术、杂交测序(sbh)、连接测序(sbl)、定量增量荧光核苷酸添加测序(qifnas)、逐步连接和切割、荧光共振能量转移(fret)、分子信标、taqman报告探针消化、焦磷酸测序、荧光原位测序(fisseq)、fisseq珠子、摆动测序、多重测序、聚合集落(polony)测序;纳米格滚环测序(rolony)、等位基因特异性寡核苷酸连接测定(例如,寡核苷酸连接测定(ola)、使用连接的线性探针和滚环扩增(rca)读出的单模板分子ola、连接的扣锁探针(ligatedpadlockprobes),和/或使用连接的圆形扣锁探针和滚环扩增(rca)读出的单模板分子ola)等。任选地,使用高通量测序方法,例如使用诸如roche454、illuminasolexa、abi-solid、iontorrents、completegenomics、pacificbioscience、helicos、polonator平台等平台的循环阵列测序。

任选地预期通过下一代测序(ngs)方法进行线性扩增的核酸序列的确定。ngs适用于基因组测序、基因组重新测序、转录物组概况分析(rna-seq)、dna-蛋白质相互作用(chip-测序)和表观基因组表征。本文公开的预期方法包括选自但不限于大规模平行签名测序(mpss)、polony测序、454焦磷酸测序、iontorrent半导体测序、heliscope单分子测序、单分子实时(smrt)测序和微流体sanger测序的ngs方法。

基因组元件的定位

本文公开的方法任选地预期包括使用从本文提供的方法获得的序列定位基因组元件,例如可动遗传元件。或者,该方法包括使用基因组dna编辑技术如crispr将包含启动子如t7启动子的标签如核酸标签插入基因组元件中。从插入的标签转录rna分子,从而允许线性扩增与同基因组元件相邻的dna具有相同序列的rna。从线性扩增的核酸获得的序列允许人们通过将获得的序列与基因组中可用于参考基因组的序列如人类基因组序列进行比较来找到相应的位置,并由此定位基因组元件的插入。任选地,基因组元件的插入定位至基因的编码序列。或者,基因组元件的插入定位至基因的内含子。也预期基因组元件的插入定位至基因的启动子或增强子序列。任选地,基因组元件的插入定位至基因的5’或3’非翻译区。

将基因组元件(例如可动遗传元件)插入基因附近或基因中,例如编码序列中、内含子中,插入启动子或增强子内,或插入5’或3’非翻译区内,通常导致基因功能的破坏。通过插入遗传元件(例如可动遗传元件)破坏基因功能可通过本领域技术人员已知的许多机制中的任何一种进行。通常,通过插入编码序列中,由此破坏或以其他方式改变基因的氨基酸序列,来破坏基因功能。或者,通过插入内含子或5’或3’非翻译区中,由此影响转录下游的基因表达,例如rna剪接、rna转运和rna翻译,来破坏基因功能。任选地,通过插入启动子或增强子元件中,从而影响基因调节蛋白向染色质上的组装和基因转录,来破坏基因功能。

插入基因组元件并由此破坏一个或多个基因的功能,通常是疾病的原因。任选地,该疾病为癌症。或者,该疾病为老化。本文预期,定位基因组元件的插入向医疗保健提供者提供信息,例如诊断信息,该信息帮助医疗保健提供者作出关于个体治疗的决定。任选地,定位遗传元件的插入提供了对癌症的诊断。或者,定位基因组元件的插入提供了对老化的诊断。

在一些情况下,本文提供了诊断受试者中的癌症的方法,该方法包括从受试者获得样品,从样品中分离基因组dna,使基因组dna与将包含t7启动子的标签多核苷酸插入基因组dna样品的基因组元件中的组合物接触,用t7rna聚合酶进行体外转录以获得已经从基因组dna线性扩增的rna样品,用dna酶处理样品以从样品中去除基因组dna,对rna样品进行多腺苷酸化并逆转录以获得cdna,用rna酶h处理样品以从样品中去除rna,以及使用下一代测序方法使得到的cdna样品经历dna测序,从而产生与基因组元件相邻的序列。在生物信息学数据库如blast中搜索与基因组元件相邻的序列,以确定基因组元件的插入位置并由此确定该插入附近的任何基因的身份。

具有挑战性的基因组区域的测序

本文提供了对在使用常规测序方法测序时具有困难或挑战的基因组区域(即难以测序的多核苷酸)进行测序的方法。在一些情况下,难以测序的多核苷酸包含低复杂性多核苷酸、重复多核苷酸、二核苷酸重复多核苷酸、三核苷酸重复多核苷酸、富含gc的多核苷酸、具有二级结构的多核苷酸、具有5'-ygn1-2ar基序的多核苷酸及其组合。在一些情况下,该难以测序的多核苷酸包含三核苷酸重复序列,如cag重复序列、cgg重复序列、gcc重复序列、gaa重复序列或ctg重复序列。在一些情况下,该难以测序的多核苷酸包含难以测序的基因,如hla基因,包括hla-a基因、hla-b基因、hla-c基因、hla-e基因、hla-f基因、hla-g基因、hla-dp基因、hla-dq基因或hla-dr基因。

在一些情况下,获得难以测序的基因(如hla基因)的序列允许医疗保健提供者获得患者在该基因组基因座处的基因型,例如hla基因型或hla类型。在一些情况下,hla类型有助于确定器官或组织移植的相容性,例如骨髓移植、心脏移植、肺移植、肝移植、肾移植、胰腺移植、肠移植、胸腺移植、角膜移植、皮肤移植、心脏瓣膜移植、神经移植或静脉移植。

或者,具有测序挑战的核酸分子包括cyp2d6基因及其同源物。另外,免疫球蛋白基因的vdj区域具有测序挑战。本文的方法有助于对这些基因和基因组区域进行测序。

定义

相关定义的部分列表如下。

“扩增的核酸”或“扩增的多核苷酸”包括任何核酸或多核苷酸分子,其量通过体外进行的任何核酸扩增或复制方法与其起始量相比有所增加。例如,扩增的核酸任选地从聚合酶链反应(pcr)获得,在一些情况下,聚合酶链反应可以以指数方式扩增dna(例如,在n个循环内扩增至2n个拷贝),其中大多数产物由中间体模板生成,而不是直接从样品模板生成。或者,从线性扩增获得扩增的核酸,其中其量随时间线性增加,并且在一些情况下,产生直接从样品合成的产物。

“扩增产物”是指由扩增反应如聚合酶链反应或线性扩增产生的产物。

“扩增子”是作为天然或人工扩增或复制事件的来源和/或产物的多核苷酸或核酸。

术语“生物样品”或“样品”通常是指从生物实体分离的样品或部分。在一些情况下,生物样品显示整个生物实体的性质,并且实例包括但不限于体液、分离的肿瘤样本、培养的细胞及其任何组合。生物样品来自一个或多个个体。一个或多个生物样品来自同一个体。在一个非限制性实例中,第一样品获自个体的血液,而第二样品获自个体的肿瘤活检。生物样品的实例包括但不限于血液、血清、血浆、鼻拭子或鼻咽洗液、唾液、尿液、胃液、脊髓液、泪液、粪便、粘液、汗液、耳垢、油、腺体分泌物、脑脊液、组织、精液、阴道分泌物、间质液,包括来源于肿瘤组织的间质液,眼液、脊髓液、咽喉拭子、呼吸物、毛发、指甲、皮肤、活检物、胎盘液、羊水、脐带血、淋巴液(emphaticfluid)、体腔液、痰液、脓液、微生物群、胎粪、母乳和/或其他排泄物。在一些情况下,血液样品包含循环肿瘤细胞或无细胞dna,如肿瘤dna或胎儿dna。样品包括鼻咽洗液。受试者的组织样品的实例包括但不限于结缔组织、肌肉组织、神经组织、上皮组织、软骨、癌或肿瘤样品,或骨骼。样品获自人或动物。样品获自哺乳动物,包括脊椎动物,如鼠、猿、人、农场动物、运动动物或宠物。样品获自活的受试者或死的受试者。样品是从受试者中新鲜获得的,或者已经经历某种形式的预处理、储存或运输。

如本文所用的核酸样品是指待确定序列信息的核酸样品。在一些情况下,从上述生物样品中提取核酸样品。或者,在一些情况下,人工合成、合成或从头合成核酸样品。在一些情况下,dna样品是基因组样品,而在其他情况下,dna样品来源于逆转录的rna样品。

“体液”通常描述源自受试者身体的液体或分泌物。在一些情况下,体液是超过一种类型的体液混合在一起的混合物。体液的一些非限制性实例包括但不限于:血液、尿液、骨髓、脊髓液、胸膜液、淋巴液、羊水、腹水、痰液或其组合。

“互补”或“互补性”,或在一些情况下更准确地是“反向互补性”,是指通过碱基配对相关的核酸分子。通常,互补核苷酸是a和t(或a和u),或c和g(或g和u)。在功能上,两个单链rna或dna分子在通过氢键介导的碱基配对形成双链分子时是互补的。当最佳比对并具有适当核苷酸插入或缺失的一条链的核苷酸以至少约90%至约95%或更高的互补性,更优选约98%至约100%的互补性,甚至更优选100%的互补性配对时,两个单链rna或dna分子被称为是基本上互补的。或者,当rna或dna链在选择性杂交条件下将与其互补体杂交时,存在基本的互补性。选择性杂交条件包括但不限于严格杂交条件和非严格杂交条件。杂交温度通常比解链温度(tm)低至少约2℃至约6℃。

“条码”或“分子条码”包括用于标记的材料。条码标记分子,如核酸或多肽。用于标记的材料与信息相关联。在一些情况下,条码被称为序列标识符(例如,基于序列的条码或序列索引)。在一些情况下,条码包含特定的核苷酸序列。条码用作标识符。或者,条码是不同大小的分子或同一分子的不同终点。条码包括分子内的特定序列和不同的终止序列。例如,从相同引物扩增并具有25个核苷酸位置的分子与扩增并具有27个核苷酸位置的分子不同。27-聚体序列中的另外的位置任选地被认为是条码。或者,将条码掺入多核苷酸中。在一些情况下,通过许多方法将条码掺入多核苷酸中。用于掺入条码的一些非限制性方法包括分子生物学方法。用于掺入条码的分子生物学方法的一些非限制性实例是通过引物(例如,加尾引物延伸)、探针(即,通过与探针连接的延伸)或连接(即,已知序列与分子的连接)。在一些情况下,条码是生物素化的。生物素化的条码任选地用作纯化手段。生物素化分子的纯化通过包括但不限于免疫沉淀的方法来完成。在一些情况下,在靶位点处添加生物素,并且例如通过内切核酸酶剪切或以其他方式切割样品dna,从而产生任选地至少10千碱基长度的样品序列。

将条码不同地掺入指导rna或多核苷酸的任何区域中。在一些情况下,掺入条码的区域是已知的。或者,该区域是未知的。预期将条码添加至沿着指导rna的任何位置。在一些情况下,将条码添加至指导rna的5’端。或者,将条码添加至指导rna的3’端。在一些情况下,将条码添加至指导rna的5’和3’端之间。预期条码与一个或多个其他已知序列一起添加。一个非限制性实例是添加条码与序列衔接子。

预期条码与信息相关联。条码与信息相关联的信息类型的一些非限制性实例包括:样品的来源;样品的方向;在其中处理样品的区域或容器;相邻的多核苷酸;或其任何组合。

在一些情况下,条码由序列的组合制成(不同于组合条码化),并用于鉴别样品或基因组坐标和不同的模板分子或单链(从其获得分子标记物和该链的拷贝)。在一些情况下,将每种生物分子的样品标识符、基因组坐标和特定标签一起扩增。从代码的序列背景(允许错误或错误纠正)、代码的长度、代码的方向、代码在分子内的位置以及与其他天然或合成代码组合获得条码、合成代码或标记信息。

在一些情况下,条码掺入核酸分子中指示该核酸在给定时间段内存在于给定样品中。在一些情况下,推断共有共同条码或共同条码对的连续相邻核酸序列来源于共同分子,特别是如果在条码引入之前将样品稀释至小于平均2x、1.5x、1x、0.7x、0.5x或0.3x单倍体基因组的话。

本文预期在合并样品之前添加条码。当确定合并样品的序列时,条码与多核苷酸的其余部分一起测序。条码任选地用于将测序的片段与样品的来源相关联。

或者,条码用于鉴别链型(strandedness)样品。在一些情况下,一个或多个条码一起使用。或者,两个或更多个条码彼此相邻、彼此不相邻或其任何组合。衔接子方向通常用于确定链型。例如,如果“a”衔接子在第一引物延伸反应中始终处于5’-3’方向,则推断从a衔接子开始的读取将是最初引发的链的互补体。

本文预期条码用于组合标记。

如本文所示,本领域已知的标准单字母氨基酸残基缩写用来指参与细胞核糖体驱动的多肽合成的二十种氨基酸。

“组合标记”是本文中使用两个或更多个条码来标记分子的方法。所述两个或更多个条码标记多核苷酸。所述条码各自(在一些情况下单独地)与信息相关联。或者,条码组合在一起与信息相关联。在一些情况下,条码的组合一起用于在随机扩增的分子中确定扩增是从原始样品模板发生的,而不是从该模板的合成拷贝发生的。在一些情况下,一个条码的长度与另一个条码的序列组合用于标记多核苷酸。在一些情况下,一个条码的长度与另一个条码的方向组合用于标记多核苷酸。在其他情况下,一个条码的序列与另一个条码的方向一起用于标记多核苷酸。在一些情况下,第一和第二条码的序列与它们之间的核苷酸距离组合用于标记或标识多核苷酸。在一些情况下,第一和第二条码的序列与它们之间的核苷酸距离和它们之间的核苷酸的同一性组合用于标记或标识多核苷酸。

“简并”是指由随机碱基组成的核酸或核酸区域。当提及核酸序列时,术语“简并”和“随机”可互换使用(例如,“简并引物”或“随机引物”,或“简并探针”或“随机探针”)。简并区域具有可变长度。在一些情况下,简并区域包含整个核酸的某个部分(例如,半简并引物)。或者,简并区域包含完整核酸(例如,“简并引物”)。简并核酸混合物或半简并核酸混合物包含碱基对的每种可能的组合、碱基对的少于每种可能的组合,或碱基对的一些组合、碱基对的几种组合,或单碱基对组合。简并引物混合物或半简并引物混合物包含相似但不相同的引物的混合物。

在一些情况下,“双链”是指通过互补碱基配对而退火(如以反向互补方向)的两条多核苷酸链。

“已知寡核苷酸序列”或“已知寡核苷酸”或“已知序列”是指已知的多核苷酸序列。在一些情况下,已知寡核苷酸序列对应于已设计的寡核苷酸,例如用于下一代测序平台(例如,illumina,454)的通用引物、探针、衔接子、标签、引物、分子条码序列和标识符。已知序列任选地包含引物的一部分。在一些情况下,已知寡核苷酸序列实际上不为特定用户所知,而是推定已知的,例如,通过存储为计算机可访问的数据。已知序列任选地是实际上未知的商业秘密或一个或多个用户的秘密,但被已经设计了用户正在使用的实验、套件、设备或软件的特定组件的实体所知。

在一些情况下,“文库”是指核酸的集合。文库任选地含有一个或多个靶片段。在一些情况下,该靶片段包含扩增的核酸。在其他情况下,该靶片段包含未扩增的核酸。文库任选地含有核酸,该核酸具有添加至3’端、5’端或3’端和5’端二者的一个或多个已知寡核苷酸序列。任选地制备文库,使得片段含有标识文库来源的已知寡核苷酸序列(例如,标识患者或dna来源的分子标识条码)。在一些情况下,将两个或更多个文库合并以创建文库池。任选地用其他试剂盒和技术(如转座子介导的标记,或本领域已知的“标签化(tagmentation)”)生成文库。试剂盒是商业可获得的。试剂盒的一个非限制性实例是illuminanextera试剂盒(illumina,sandiego,ca)。

在一些情况下,“座位特异性”或“基因座特异性”是指一个或多个基因座对应于核酸分子中的位置(例如,染色体或基因组内的位置)。在一些情况下,基因座与基因型相关联。在一些情况下,直接从样品中分离和富集基因座,例如,基于杂交和/或其他基于序列的技术,或者备选地,可以在检测序列之前使用样品作为模板选择性地对基因座进行扩增。在一些情况下,基于个体之间的dna水平变化、基于对特定染色体的特异性、基于所选基因座的cg含量和/或所需扩增条件,或者本领域技术人员在阅读本公开内容后将会明白的其他特征选择基因座。基因座任选地是指基因组中如通过该基因组的参考序列所表示的特定基因组坐标或位置。

在一些情况下,“长核酸”是指长度超过1、2、3、4、5、6、7、8、9或10千碱基的多核苷酸。

术语“解链温度”或“tm”通常是指双链核酸分子群体半解离成单链时的温度。计算核酸tm的方程式是本领域周知的。给出tm值的简单估计值的一个方程如下:tm=81.5+16.6(log10[na+])0.41(%[g+c])-675/n-1.0m,当核酸在阳离子浓度为0.5m或更低的水溶液中时,(g+c)含量为30%至70%,n是碱基数,并且m是碱基对错配的百分比(参见,例如,sambrookj等人,molecularcloning,alaboratorymanual,第3版,coldspringharborlaboratorypress(2001))。其他参考文献包括更复杂的计算,其将结构以及序列特征考虑在内以用于计算tm。

“核苷酸”是指碱基-糖-磷酸组合。核苷酸是核酸序列(例如,dna和rna)的单体单元。术语核苷酸包括天然存在的和非天然存在的核糖核苷三磷酸,例如atp、ttp、utp、ctg、gtp和itp,以及脱氧核糖核苷三磷酸,如datp、dctp、ditp、dutp、dgtp、dttp,或它们的衍生物。这些衍生物包括,例如,[as]datp、7-脱氮-dgtp和7-脱氮-datp,以及,例如赋予含有它们的核酸分子核酸酶抗性的核苷酸衍生物。如本文所用的术语核苷酸还指双脱氧核糖核苷三磷酸(ddntp)及其衍生物。例如,双脱氧核糖核苷三磷酸的说明性实例包括ddatp、ddctp、ddgtp、dditp、ddutp和ddttp。

“聚合酶”是指使用另一条链作为模板将各个核苷酸一起连接成链的酶。

“聚合酶链反应”或“pcr”是指即使在过量的非特异性dna的存在下,也能在体外复制所选择的dna的特定片段的技术。将引物添加至所选择的dna中,其中引物使用核苷酸和(通常)taq聚合酶等启动所选择的dna的复制。通过使温度循环,对所选择的dna进行反复变性和复制。在一些情况下,所选择的dna的单个拷贝,即使与其他随机dna混合,也得以扩增,以获得数千、数百万或数十亿的复制物。聚合酶链反应用于检测和测量极少量的dna,并创建定制的dna片段。

术语“多核苷酸”或“核酸”包括但不限于各种dna、rna分子、其衍生物或组合。这些包括诸如dntp、ddntp、dna、rna、肽核酸、cdna、dsdna、ssdna、质粒dna、粘粒dna、染色体dna、基因组dna、病毒dna、细菌dna、mtdna(线粒体dna)、mrna、rrna、trna、nrna、sirna、snrna、snorna、scarna、微小rna、dsrna、核酶、核糖开关和病毒rna等种类。

“引物”通常是指用于例如引发核苷酸延伸、连接和/或合成的寡核苷酸,例如在聚合酶链反应的合成步骤中或在某些测序反应中使用的引物延伸技术中。引物备选地用于杂交技术,作为提供基因座与捕获寡核苷酸的互补性以检测特定核酸区域的手段。

“引物延伸产物”是指由使用连续多核苷酸作为模板,以及与连续序列互补或部分互补的引物的引物延伸反应产生的产物。

“测序”、“序列确定”等通常是指可用于确定核酸中核苷酸碱基的顺序的任何和所有生物化学方法。

“叠连群”是指由两个或更多个组成核苷酸序列组装的核苷酸序列,这些组成核苷酸序列共有具有序列同源性的共同或重叠区域。例如,比较和比对两个或更多个核酸片段的核苷酸序列,以鉴定共同或重叠序列。在两个或更多个核酸片段之间存在共同或重叠序列的情况下,将序列(以及因此它们相应的核酸片段)组装成单个连续的核苷酸序列。

如本文所用的术语“生物素”旨在指生物素(5-[(3as,4s,6ar)-2-氧代六氢-1h-噻吩并[3,4-d]咪唑-4-基]戊酸)和任何生物素衍生物和类似物。这类衍生物和类似物是与天然或经修饰的链霉亲和素或亲和素的生物素结合口袋形成复合物的物质。这类化合物包括,例如,亚氨基生物素、脱硫生物素和链霉亲和素亲和肽,并且还包括生物素-ε-n-赖氨酸、生物胞素酰肼、2-亚氨基生物素的氨基或巯基衍生物和生物素基-ε-氨基己酸-n-羟基琥珀酰亚胺酯、磺基-琥珀酰亚胺-亚氨基生物素、生物素-溴乙酰肼、对-重氮苯甲酰基生物胞素、3-(n-马来酰亚胺基丙酰基)生物胞素。“链霉亲和素”是指与生物素结合的蛋白质或肽,并且包括但不限于天然蛋清亲和素、重组亲和素、亲和素的去糖基化形式、细菌链霉亲和素、重组链霉亲和素、截短型链霉亲和素和/或其任何衍生物。

如本文所用的“受试者”是核酸的来源,并且在一些情况下是指当前存活的生物体或曾经存活的生物体或实体(任选地具有复制的基因组)。本公开内容的方法、试剂盒和/或组合物在本文中考虑应用于一种或多种单细胞或多细胞受试者,包括但不限于微生物,如细菌和酵母;以及动物,包括但不限于:人类;实验动物,如小鼠、大鼠、猴子和黑猩猩;家养动物,如狗和猫,以及农业动物,如牛、马、猪、绵羊和山羊。在一些情况下,本公开内容的方法应用于细菌或致病原,如病毒或病毒颗粒或已被一种或多种病毒感染的一种或多种细胞。在一些情况下,受试者是完全合成的生物体。

本文考虑的“支持物”为固体、半固体、珠子、表面。支持物任选地在溶液中移动或被固定化。

术语“独特标识符”包括但不限于分子条码,或混合物中核酸如dutp的百分比。

如本文所用的“重复序列”是指核酸序列数据集中不唯一地定位至单个位置的序列。一些重复序列任选地被概念化为给定大小和精确或近似序列的重复单元的整数或分数倍。

如本文所用的“回文”或“回文序列”是指无论在一条链上以5'至3'读取还是在与其形成双螺旋的互补链上以5'至3'读取均相同的核酸序列。

如本文所用的“反向序列”是指相对于另一序列是反向序列或反向互补序列的序列。如果在(概念上)将发现它的分子旋转180度时,在相同方向上读取的序列是相同的序列,则该序列是反向的。

如本文所用的“单元型”是指染色体上紧密连锁的基因簇中可能一起遗传的特定等位基因的集合。

如本文所用的“亚单元型”是指基因的子集或单元型的一部分。

如本文中关于数字所使用的术语“约”是指该数字加或减10%。

如本文使用的术语“包含”是包括性的,使得在至少一个要素的上下文中,它表示还可以包括其他未列举的要素。

如本文所用的,重复区域是指在给定基因座处局部递归或分散在整个核酸样品(如基因组样品)中的不同的基因组或其他核酸区段。示例性重复区段包括hla基因座内的区域、cyp2d6、vdj区域和可动元件如alu重复序列和line元件。

在对本发明方法、组合物和试剂盒更详细地描述之前,应当理解,本发明不限于所述的特定方法、组合物或试剂盒,因此当然可以改变。还应当理解,本文使用的术语仅是为了描述特定实施方案的目的,而不是限制性的,因为本发明的范围将仅受本文所解释的所附权利要求的限制。提出实施例以便为本领域普通技术人员提供如何制造和使用本发明的更完整的公开和描述,而非旨在限制发明人视为他们的发明的范围,也并非旨在表示以下实验是全部或唯一进行的实验。已经作出努力来确保关于所使用的数字(例如,量、温度等)的准确性,但是应该考虑一些实验误差和偏差。除非另有说明,否则份数是重量份,分子量是平均分子量,温度是摄氏度,压力是大气压或接近大气压。

在提供数值范围的情况下,应当理解,除非上下文另有明确规定,否则还具体公开了该范围的上限与下限之间的每个居间值,精确到下限单位的十分之一。在所述范围内的任何规定值或中间值与所述范围内的任何其他规定或中间值之间的每个较小范围包含在本发明内。这些较小范围的上限和下限可以独立地包括在该范围内或排除在该范围外,并且在较小范围内包括任一极限值、两个极限值均不限制或两个极限值均限制的情况下的每个范围也包括在本发明内,经受所述范围中任何特别排除的限制。在所述范围包括一个或两个极限值的情况下,本发明还包括排除那些所包括的极限值中的任一或两者的范围。

除非另外定义,否则本文使用的所有技术和科学术语均具有与本发明所属领域的普通技术人员通常理解的含义相同的含义。尽管任何与本文所述相似或等同的方法和材料任选地用于本发明的实践或测试,但现在描述了一些潜在和优选的方法和材料。本文提及的所有出版物均通过引用并入本文,以公开和描述与所引用的出版物相关的方法和/或材料。应当理解,在有矛盾的情况下,本公开内容取代所合并的出版物的任何公开内容。

本领域技术人员在阅读本公开内容后将显而易见的是,本文描述和例示的每个单独的实施方案具有离散的部分和特征,其可以容易地在不脱离本发明的范围或精神的情况下与任何其他几个实施方案的特征分离或组合。考虑任何列举的方法以所述事件的顺序或以逻辑上可能的任何其他顺序进行。

必须注意的是,如本文和所附权利要求中所使用的,除非上下文另有明确说明,否则单数形式“一个”、“一种”和“该”包括复数指示物。因此,例如,提及“一个细胞”包括多个这样的细胞,并且提及“该肽”包括提及一种或多种肽及其等同物,例如,本领域技术人员已知的多肽等。

转至附图,可以看到以下内容:

图1示出了示例性人line1(l1.4)重复元件dna序列(seqidno:1)。图1中的pam序列5’-3’加下划线。

图2示出了l1ha的示例性共有序列:line-1元件的3’端的诊断序列(seqidno:2)。pam序列加下划线。示例性指导rna互补序列以粗体显示。

图3示出了示例性指导rna序列(seqidno:3)。

图4示出了示例性alu-y序列(seqidno:4)。pam序列在该图中加下划线。

图5示出了靶标特异性t7启动子序列的示例性crispr诱导插入。高分子量双链基因组dna与crispr/cas组分组合,该crispr/cas组分包括靶标特异性指导rna、cas9蛋白、供体dna(包括t7启动子)和连接酶。该图示出了t7启动子被特异性地插入靶dna序列中。

图6显示靶dna的示例性体外转录生成靶模板的扩增rna拷贝。任选地对rna分子进行片段化并转化成短读取测序仪文库或者聚a加尾并反转录成全长cdna。该图例示了全长cdna分子被转换成长读取测序仪文库。

图7示出了特异性插入靶序列上游和下游的示例性t7启动子。体外转录将在两个方向上发生,覆盖超过10kb的靶基因座。

图8示出了备选的供体dna构建体。这些构建体可包含启动子序列如t7启动子、衔接子/引物互补序列和随机序列。

图9示出了与样品中插入的t7rna聚合酶位点相邻的基因组序列的线性扩增的结果。示出了两种酶的结果,在1ng稀释至2ng/ul的模板上运行2、4、6或12小时。对于每个结果,y轴表示荧光单位,范围为0.0至最高1.0或甚至在一些情况下2.0。x轴表示核苷酸中的文库组分长度,在对数标度上,其标记为25nt、500nt和4000nt。结果表明,具有500个碱基与2kb之间的中值组分大小的文库通常通过由插入样品核酸中的rna启动子引导的线性扩增来制备。使用megascript和ampliscribet7rna聚合酶试剂盒以四个单独的时间点间隔进行体外转录。反应以2、4、6或12小时的间隔运行。每次反应使用1ngdna。在转录后,用dna酶将反应温育1小时。使用qubit高灵敏度rna检测试剂盒对rna进行定量。使用高灵敏度picomrna生物分析仪进行rna分析。

转至图10,可以看到以下内容。呈现了针对大小选择的rna体外转录样品的生物分析仪踪迹。x轴表示对数标度的核苷酸长度[nt],其中指示了25、500和4000个核苷酸。y轴表示荧光单位[fu],范围为间隔为10的0-20(顶部和中心文件)、间隔为20的0-40(中心文件,在右边)或间隔为2的0-4(底部左侧)或间隔为1的0-3(底部右侧)。显示了ampliscribe和megascriptrna聚合酶的结果。将样品稀释至2ng/μl并在第2天运行。结果表明体外转录的样品容易进行大小选择以排除较小的组分。

转至图11,可以看到图10的rna在变性琼脂糖凝胶上运行。右边的梯级表示0.5、1、1.5、2、2.5、3、4、5、6和9kb的大小。样品泳道从左侧开始为megascript对照、megascript17nt排除、megascript200nt排除、megascript65c温育加17nt排除、随后的ampliscribe对照、ampliscribe17nt排除、ampliscribe200nt排除和ampliscribe65c温育加17nt排除。结果表明,体外转录的样品容易进行大小选择以排除较小的组分。

编号实施方案的部分列表

参考如下编号实施方案的部分列表来进一步阐明本文的公开内容。1.一种确定与核酸分子的已知序列的区域相邻的序列的方法,该方法包括a)将包含启动子序列的核酸片段附接至所述核酸分子的已知区域;b)使所述核酸片段与由所述启动子引导的rna聚合酶接触;以及c)合成多个rna分子;其中所述多个rna分子的共有序列表示与核酸分子的所述已知区域相邻的序列。2.实施方案1所述的方法,其中所述共有序列的长度至少为10千碱基。3.实施方案1或2中任一项所述的方法,该方法包括在合成所述多个rna分子之后使用dna酶处理所述核酸分子。4.实施方案1至3中任一项所述的方法,该方法包括对所述多个rna分子进行逆转录。5.实施方案1至4中任一项所述的方法,该方法包括确定所述多个rna分子的核酸序列。6.实施方案1至5中任一项所述的方法,其中所述多个rna分子的共有序列包含直接从所述核酸分子合成的分子的序列。7.实施方案1至6中任一项所述的方法,其中所述附接包括将所述包含启动子序列的核酸片段插入所述核酸分子的已知区域。8.实施方案1至7中任一项所述的方法,其中所述附接包括将所述包含启动子序列的核酸片段插入所述核酸分子的已知序列的区域。9.实施方案1至8中任一项所述的方法,其中所述附接包括所述核酸分子的已知序列区域的序列特异性切割。10.实施方案1至9中任一项所述的方法,其中所述附接包括使所述核酸分子的已知区域与crispr核酸-蛋白质复合物接触。11.实施方案10所述的方法,其中所述crispr核酸-蛋白质复合物包含含有seqidno:3的指导rna。12.实施方案1至11中任一项所述的方法,其中所述附接包括连接包含启动子序列的核酸片段。13.实施方案1至12中任一项所述的方法,其中所述包含启动子序列的核酸片段包含病毒启动子。14.实施方案13所述的方法,其中所述病毒启动子结合病毒rna聚合酶,并且为选自t7、t3、t7lac、sp6、pl、cmv、sv40和camv35s的至少一种启动子。15.实施方案1至12中任一项所述的方法,其中所述包含启动子序列的核酸片段包含细菌启动子。16.实施方案15所述的方法,其中所述细菌启动子结合细菌rna聚合酶,并且为选自arabad、trp、lac和ptac的至少一种启动子。17.实施方案1至12中任一项所述的方法,其中所述包含启动子序列的核酸片段包含真核启动子。18.实施方案17所述的方法,其中所述真核启动子结合真核rna聚合酶,并且为选自ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、alb、gal1、gal10、tef1、gds、adh1、ubi、h1和u6的至少一种启动子。19.实施方案17所述的方法,其中所述真核启动子为选自rnapoli启动子、rnapolii启动子和rnapoliii启动子的至少一种启动子。20.实施方案1至19中任一项所述的方法,其中所述核酸分子的已知区域包含重复元件。21.实施方案20所述的方法,其中所述重复元件包含可动插入元件。22.实施方案20所述的方法,其中所述重复元件包含line元件、sine元件、alu重复序列、转座子、反转录转座子、着丝粒重复序列和端粒重复序列中的至少一种。23.实施方案20所述的方法,其中所述line元件包含seqidno:1。24.一种确定核酸样品中元件的多个基因座相邻序列的方法,该方法包括以下步骤:a)将包含启动子的核酸插入所述元件中,b)生成由所述启动子引导的多个核酸分子,以及c)确定所述多个核酸分子的序列,其中所述核酸分子直接从所述核酸样品合成,并且其中所述多个核酸分子跨越基因座相邻序列。25.实施方案24所述的方法,其中所述核酸分子包含rna。26.实施方案24所述的方法,其中所述核酸分子不能引发核酸合成。27.实施方案24所述的方法,其中所述核酸样品包含癌细胞核酸。28.实施方案24所述的方法,其中所述核酸样品包含单个核基因组。29.实施方案24所述的方法,其中所述核酸样品获自单个细胞。30.实施方案24所述的方法,该方法包括在合成所述多个rna分子之后使用dna酶处理所述核酸样品。31.实施方案24所述的方法,该方法包括对所述多个rna分子进行逆转录。32.实施方案24所述的方法,其中所述多个核酸分子为rna分子。33.实施方案24所述的方法,其中所述多个rna分子的共有序列包含直接从所述核酸分子合成的分子的序列。34.实施方案24所述的方法,其中所述附接包括将所述包含启动子序列的核酸片段插入所述核酸分子的已知区域。35.实施方案24所述的方法,其中所述附接包括将所述包含启动子序列的核酸片段插入所述核酸分子的已知区域。36.实施方案24所述的方法,其中所述附接包括所述核酸分子的已知区域的序列特异性切割。37.实施方案24所述的方法,其中所述附接包括使所述核酸分子的已知区域与crispr核酸-蛋白质复合物接触。38.实施方案24所述的方法,其中所述crispr核酸-蛋白质复合物包含含有seqidno:3的指导rna。39.实施方案24所述的方法,其中所述附接包括连接所述包含启动子序列的核酸片段。40.实施方案24所述的方法,其中所述包含启动子序列的核酸片段包含病毒启动子。41.实施方案40所述的方法,其中所述病毒启动子为选自t7、t3、t7lac、sp6、pl、cmv、sv40和camv35s的至少一种启动子。42.实施方案24所述的方法,其中所述包含启动子序列的核酸片段包含细菌启动子。43.实施方案42所述的方法,其中所述细菌启动子为选自arabad、trp、lac和ptac的至少一种启动子。44.实施方案24所述的方法,其中所述包含启动子序列的核酸片段包含真核启动子。45.实施方案44所述的方法,其中所述真核启动子为选自ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、alb、gal1、gal10、tef1、gds、adh1、ubi、h1和u6的至少一种启动子。46.实施方案44所述的方法,其中所述真核启动子为选自rnapoli启动子、rnapolii启动子和rnapoliii启动子的至少一种启动子。47.实施方案24所述的方法,其中所述核酸分子的已知区域包含重复元件。48.实施方案47所述的方法,其中所述重复元件包含可动插入元件。49.实施方案47所述的方法,其中所述重复元件包含line元件、sine元件、alu重复序列、转座子、反转录转座子、着丝粒重复序列和端粒重复序列中的至少一种。50.实施方案47所述的方法,其中所述line元件包含seqidno:1。51.一种核酸文库,其包含编码核酸样品中至少90%的重复可动元件边界的边界相邻序列的核酸。52.实施方案51所述的核酸文库,其中文库组分与所述核酸样品之间的差异独立地导出。53.实施方案51所述的核酸文库,其中至少50%的所述重复元件的边界以至少100个拷贝存在。54.实施方案51所述的核酸文库,其中文库组分直接来源于所述核酸样品。55.实施方案51所述的核酸文库,其中文库组分在测序之前不进行克隆扩增。56.实施方案51所述的核酸文库,其中所述核酸样品来源于单个细胞。57.实施方案51所述的核酸文库,其中所述核酸文库从rna中间体逆转录。58.实施方案51所述的核酸文库,其中所述核酸文库包含rna。59.实施方案51所述的核酸文库,其中核酸文库组分包含启动子序列。60.实施方案59所述的核酸文库,其中所述rna启动子序列包含t7、t3、t7lac、sp6、pl、cmv、sv40、camv35s、arabad、trp、lac、ptac、ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、alb、gal1、gal10、tef1、gds、adh1、ubi、h1和u6中的至少一种。61.实施方案51所述的核酸文库,其中至少一个边界相邻序列表示与细胞周期调节、dna修复和生长调节中的至少一种相关的基因缺陷。62.实施方案51所述的核酸文库,其中核酸文库包含编码核酸样品中至少95%的重复可动元件边界的边界相邻序列的核酸。63.实施方案62所述的核酸文库,其中核酸文库包含编码核酸样品中至少99%的重复可动元件边界的边界相邻序列的核酸。64.实施方案51所述的核酸文库,其中至少50%的所述文库组分核酸位于可动元件边界的20kb内的核酸上。65.实施方案51所述的核酸文库,其中至少75%的所述文库组分核酸位于与可动元件边界邻近的可动元件边界的20kb内的核酸上。66.实施方案51所述的核酸文库,其中至少90%的所述文库组分核酸位于可动元件边界的20kb内的核酸上。67.实施方案51所述的核酸文库,其中至少50%的所述文库组分核酸位于可动元件边界的10kb内的核酸上。68.实施方案51所述的核酸文库,其中至少75%的所述文库组分核酸位于与可动元件边界邻近的可动元件边界的10kb内的核酸上。69.实施方案51所述的核酸文库,其中至少90%的所述文库组分核酸位于可动元件边界的10kb内的核酸上。70.实施方案51所述的核酸文库,其中至少50%的所述文库组分核酸位于可动元件边界的5kb内的核酸上。71.实施方案51所述的核酸文库,其中至少75%的所述文库组分核酸位于与可动元件边界邻近的可动元件边界的5kb内的核酸上。72.实施方案51所述的核酸文库,其中至少90%的所述文库组分核酸位于可动元件边界的5kb内的核酸上。73.实施方案51所述的核酸文库,其中至少50%的所述文库组分核酸位于可动元件边界的1kb内的核酸上。74.实施方案51所述的核酸文库,其中至少75%的所述文库组分核酸位于与可动元件边界邻近的可动元件边界的1kb内的核酸上。75.实施方案51所述的核酸文库,其中至少90%的所述文库组分核酸位于可动元件边界的1kb内的核酸上。76.实施方案51至75中任一项所述的核酸文库,其中平均片段长度为约500个碱基。77.实施方案51至75中任一项所述的核酸文库,其中平均片段长度为约1000个碱基。78.实施方案51至75中任一项所述的核酸文库,其中中值片段长度为约500个碱基。79.实施方案51至75中任一项所述的核酸文库,其中中值片段长度为约1000个碱基。80.一种包含靶向序列和启动子的组合物,其中所述靶向序列包含指导将该组合物插入核酸序列中一个或多个特定位置的核酸序列,并且所述启动子包含指导从与所述启动子的插入相邻的样品序列合成核酸的核酸序列。81.实施方案80所述的组合物,其中所述靶向序列包含与所述特定位置同源的核酸序列。82.实施方案80所述的组合物,其中所述靶向序列包含与所述特定位置碱基配对的核酸序列。83.实施方案80所述的组合物,其中所述靶向序列包含与所述特定位置杂交的核酸序列。84.实施方案80至83中任一项所述的组合物,其中所述靶向序列包含成簇的规律间隔的短回文重复(crispr)序列、锌指核酸酶(zfn)序列和转录激活因子样效应物核酸酶(talen)序列中的至少一种。85.实施方案84所述的组合物,其中所述crispr序列包含具有包含seqidno:3的序列的指导rna。86.实施方案80至85中任一项所述的组合物,其中所述启动子包含细菌启动子、病毒启动子和真核启动子中的至少一种。87.实施方案86所述的组合物,其中所述细菌启动子包含arabad、trp、lac和ptac中的至少一种。88.实施方案86所述的组合物,其中所述病毒启动子包含t7、t7lac、sp6、pl、cmv、sv40和camv35s中的至少一种。89.实施方案86所述的组合物,其中所述真核启动子包含ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、alb、gal1、gal10、tef1、gds、adh1、ubi、h1和u6中的至少一种。90.实施方案80至89中任一项所述的组合物,其中所述核酸序列中的特定位置包含低复杂性核酸序列。91.实施方案80至90中任一项所述的组合物,其中所述核酸序列中的特定位置包含重复核酸序列。92.实施方案80至91中任一项所述的组合物,其中所述低复杂性核酸序列或所述重复核酸序列包含三核苷酸重复序列、串联重复序列和人白细胞抗原基因中的至少一种。93.实施方案80至91中任一项所述的组合物,其中所述核酸序列中的特定位置包含可动遗传元件。94.实施方案93所述的组合物,其中所述可动遗传元件包含转座子、反转录转座子、dna转座子、插入序列、质粒、噬菌体、ii组内含子、i组内含子、alu元件、mir元件、内质网池内a粒子(iap)、etn、病毒及其片段中的至少一种。95.实施方案94所述的组合物,其中所述反转录转座子包含转座因子、line、sine及其片段中的至少一种。96.实施方案94所述的组合物,其中所述line包含seqidno:1。97.实施方案94所述的组合物,其中所述病毒包含逆转录病毒或其片段。98.实施方案80至97中任一项所述的组合物,其中所述核酸合成包括rna转录和dna合成中的至少一种。99.一种确定与感兴趣的核酸序列相邻的核酸序列的方法,该方法包括:(a)将包含靶向序列和启动子的靶向核酸序列插入所述感兴趣的核酸序列中的一个或多个特定位置,(b)指导从所述启动子合成核酸,以及(c)对所合成的核酸进行测序。100.实施方案99所述的方法,其中所述靶向序列包含成簇的规律间隔的短回文重复(crispr)序列、锌指核酸酶(zfn)序列和转录激活因子样效应物核酸酶(talen)序列中的至少一种。101.实施方案100所述的组合物,其中所述crispr序列包含具有包含seqidno:3的序列的指导rna。102.实施方案99或101中任一项所述的方法,其中所述启动子包含细菌启动子、病毒启动子和真核启动子中的至少一种。103.实施方案102所述的方法,其中所述细菌启动子包含arabad、trp、lac和ptac中的至少一种。104.实施方案102所述的方法,其中所述病毒启动子包含t7、t7lac、sp6、pl、cmv、sv40和camv35s中的至少一种。105.实施方案102所述的方法,其中真核启动子包含ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、gal1、gal10、tef1、gds、adh1、ubi、h1和u6中的至少一种。106.实施方案99至105中任一项所述的方法,其中所述感兴趣的序列包含低复杂性核酸序列。107.实施方案99至106中任一项所述的方法,其中所述感兴趣的序列包含重复核酸序列。108.实施方案99至107中任一项所述的方法,其中所述感兴趣的序列包含三核苷酸重复序列、串联重复序列和人白细胞抗原基因中的至少一种。109.实施方案99至108中任一项所述的方法,其中所述感兴趣的序列包含可动遗传元件。110.实施方案109所述的方法,其中所述可动遗传元件包含转座子、反转录转座子、dna转座子、插入序列、质粒、噬菌体、ii组内含子、i组内含子、alu元件、mir元件、内质网池内a粒子(iap)、etn、病毒或其片段。111.实施方案110所述的方法,其中所述反转录转座子包含转座因子、line、sine及其片段中的至少一种。112.实施方案111所述的方法,其中所述line包含seqidno:1。113.实施方案110所述的方法,其中所述病毒包含逆转录病毒及其片段中的至少一种。114.实施方案99至113中任一项所述的方法,其中核酸合成包括rna转录和dna合成中的至少一种。115.实施方案114所述的方法,其中rna转录包括使用rna聚合酶。116.实施方案115所述的方法,其中所述rna聚合酶包含t7rna聚合酶、t3rna聚合酶、sp6rna聚合酶、rna聚合酶i、rna聚合酶ii、rna聚合酶iii、rna聚合酶iv、rna聚合酶v和单亚基rna聚合酶中的至少一种。117.实施方案99至114中任一项所述的方法,其中dna合成包括使用dna聚合酶。118.实施方案117所述的方法,其中所述dna聚合酶包含t7dna聚合酶、t3dna聚合酶、sp6dna聚合酶、dna聚合酶i、dna聚合酶ii、dna聚合酶iii、taqdna聚合酶和pfudna聚合酶中的至少一种。119.实施方案99至118中任一项所述的方法,其中所述核酸合成需要引物。120.实施方案99至119中任一项所述的方法,其中所述合成的核酸直接由所述感兴趣的核酸序列合成。121.实施方案99至120中任一项所述的方法,其中在不引入突变的情况下合成所述核酸。122.实施方案121所述的方法,其中所述突变为点突变、缺失、插入和嵌合体中的至少一种。123.实施方案99至122中任一项所述的方法,其中所述合成的核酸包含dna。124.实施方案99至122中任一项所述的方法,其中所述合成的核酸包含cdna。125.实施方案123或实施方案124所述的方法,其中用rna酶处理所述合成的核酸。126.实施方案99至122中任一项所述的方法,其中所述合成的核酸为rna。127.实施方案126所述的方法,其中用dna酶处理所述合成的核酸。128.实施方案99至127中任一项所述的方法,其中所述测序包括sanger测序、下一代测序、焦磷酸测序、大规模平行签名测序、单分子实时测序、iontorrent测序、合成测序和连接测序中的至少一种。129.实施方案99至128中任一项所述的方法,其中该方法检测受试者中的突变。130.实施方案99至128中任一项所述的方法,其中该方法检测从受试者获得的组织样品中的突变。131.实施方案130所述的方法,其中所述组织样品包含肿瘤、血液、唾液、痰液、皮肤和上皮组织中的至少一种。132.一种对来自受试者的核酸样品中dna元件的插入位点进行定位的方法,该方法包括:i)通过使基因组dna与靶向序列和足以将所述靶向序列插入所述dna元件中的一种或多种试剂接触来插入包含所述靶向序列和启动子的靶向核酸序列;ii)通过使所插入的靶向序列与催化从所述启动子开始核酸合成,从而产生扩增核酸的一种或多种酶接触来直接从所述基因组dna产生扩增的核酸;iii)对所述扩增的核酸进行测序。133.实施方案132所述的方法,其中所述靶向序列包含成簇的规律间隔的短回文重复(crispr)序列、锌指核酸酶(zfn)序列和转录激活因子样效应物核酸酶(talen)序列中的至少一种。134.实施方案133所述的组合物,其中所述crispr序列包含具有包含seqidno:3的序列的指导rna。135.实施方案132至134中任一项所述的方法,其中所述启动子包含细菌启动子、病毒启动子和真核启动子中的至少一种。136.实施方案135所述的方法,其中所述细菌启动子包含arabad、trp、lac和ptac中的至少一种。137.实施方案135所述的方法,其中所述病毒启动子包含t7、t7lac、sp6、pl、cmv、sv40和camv35s中的至少一种。138.实施方案135所述的方法,其中真核启动子包含ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、gal1、gal10、tef1、gds、adh1、ubi、h1和u6中的至少一种。139.实施方案132至138中任一项所述的方法,其中所述dna元件包含低复杂性核酸序列。140.实施方案132至139中任一项所述的方法,其中所述dna元件包含重复核酸序列。141.实施方案132至140中任一项所述的方法,其中所述dna元件包含三核苷酸重复序列和串联重复序列中的至少一种。142.实施方案132至141中任一项所述的方法,其中所述dna元件包含可动遗传元件。143.实施方案142所述的方法,其中所述可动遗传元件包括转座子、反转录转座子、dna转座子、插入序列、质粒、噬菌体、ii组内含子、i组内含子、alu元件、mir元件、内质网池内a粒子(iap)、etn、病毒及其片段中的至少一种。144.实施方案143所述的方法,其中所述反转录转座子包含转座因子、line、sine及其片段中的至少一种。145.实施方案144所述的方法,其中所述line包含seqidno:1。146.实施方案143所述的方法,其中所述病毒包含逆转录病毒或其片段。147.实施方案132至146所述的方法,其中所述酶包含rna聚合酶。148.实施方案147所述的方法,其中所述rna聚合酶包含t7rna聚合酶、t3rna聚合酶、sp6rna聚合酶、rna聚合酶i、rna聚合酶ii、rna聚合酶iii、rna聚合酶iv、rna聚合酶v和单亚基rna聚合酶中的至少一种。149.实施方案132至148中任一项所述的方法,其中所述酶包含dna聚合酶。150.实施方案149所述的方法,其中所述dna聚合酶包含t7dna聚合酶、t3dna聚合酶、sp6dna聚合酶、dna聚合酶i、dna聚合酶ii、dna聚合酶iii、taqdna聚合酶和pfudna聚合酶中的至少一种。151.实施方案132至150中任一项所述的方法,其中所述核酸合成需要引物。152.实施方案132至151中任一项所述的方法,其中所述合成的核酸直接由所述感兴趣的核酸序列合成。153.实施方案132至152中任一项所述的方法,其中在不引入突变的情况下合成所述核酸。154.实施方案153所述的方法,其中所述突变为点突变、缺失、插入和嵌合体中的至少一种。155.实施方案132至154中任一项所述的方法,其中所述合成的核酸为dna。156.实施方案132至154中任一项所述的方法,其中所述合成的核酸为cdna。157.实施方案155或实施方案156所述的方法,其中用rna酶处理所述合成的核酸。158.实施方案132至154中任一项所述的方法,其中所述合成的核酸为rna。159.实施方案158所述的方法,其中用dna酶处理所述合成的核酸。160.实施方案132至159中任一项所述的方法,其中所述测序包括sanger测序、下一代测序、焦磷酸测序、大规模平行签名测序、单分子实时测序、iontorrent测序、合成测序和连接测序中的至少一种。161.实施方案132至160中任一项所述的方法,其中该方法检测受试者中的突变。162.实施方案132至160中任一项所述的方法,其中该方法检测从受试者获得的组织样品中的突变。163.实施方案162所述的方法,其中所述组织样品包含肿瘤、血液、唾液、痰液、皮肤和上皮组织中的至少一种。164.一种对重复基因组区域进行测序的方法,该方法包括:i)通过使基因组dna与靶向序列和足以将所述靶向序列插入所述重复基因组区域中的一种或多种试剂接触来插入包含所述靶向序列和启动子的靶向核酸序列;ii)通过使所述插入的靶向序列与催化从所述启动子开始核酸合成,从而产生扩增核酸的一种或多种酶接触来直接从所述基因组dna产生扩增的核酸;iii)对所述扩增的核酸进行测序。165.实施方案164所述的方法,其中所述靶向序列包含成簇的规律间隔的短回文重复(crispr)序列、锌指核酸酶(zfn)序列和转录激活因子样效应物核酸酶(talen)序列中的至少一种。166.实施方案165所述的组合物,其中所述crispr序列包含具有包含seqidno:3的序列的指导rna。167.实施方案164至166中任一项所述的方法,其中所述启动子包含细菌启动子、病毒启动子和真核启动子中的至少一种。168.实施方案167所述的方法,其中所述细菌启动子包含arabad、trp、lac和ptac中的至少一种。实施方案167所述的方法,其中所述病毒启动子包含t7、t7lac、sp6、pl、cmv、sv40和camv35s中的至少一种。170.实施方案167所述的方法,其中真核启动子包含ef1a、pgk1、ubc、β肌动蛋白、cag、tre、uas、ac5、多角体蛋白、camkiia、gal1、gal10、tef1、gds、adh1、ubi、h1和u6中的至少一种。171.实施方案164至170中任一项所述的方法,其中所述重复基因组区域包含低复杂性核酸序列。172.实施方案164至171中任一项所述的方法,其中所述重复基因组区域包含重复核酸序列。173.实施方案164至172中任一项所述的方法,其中所述重复基因组区域包含三核苷酸重复序列和串联重复序列中的至少一种。174.实施方案164至173中任一项所述的方法,其中所述重复基因组区域包含可动遗传元件。175.实施方案174所述的方法,其中所述可动遗传元件包括转座子、反转录转座子、dna转座子、插入序列、质粒、噬菌体、ii组内含子、i组内含子、alu元件、mir元件、内质网池内a粒子(iap)、etn、病毒及其片段中的至少一种。176.实施方案175所述的方法,其中所述反转录转座子包含转座因子、line、sine及其片段中的至少一种。177.实施方案176所述的方法,其中所述line包含seqidno:1。178.实施方案175所述的方法,其中所述病毒包含逆转录病毒或其片段。179.实施方案164至178所述的方法,其中所述酶包含rna聚合酶。180.实施方案179所述的方法,其中所述rna聚合酶包含t7rna聚合酶、t3rna聚合酶、sp6rna聚合酶、rna聚合酶i、rna聚合酶ii、rna聚合酶iii、rna聚合酶iv、rna聚合酶v和单亚基rna聚合酶中的至少一种。181.实施方案164至178中任一项所述的方法,其中所述酶包含dna聚合酶。182.实施方案181所述的方法,其中所述dna聚合酶包含t7dna聚合酶、t3dna聚合酶、sp6dna聚合酶、dna聚合酶i、dna聚合酶ii、dna聚合酶iii、taqdna聚合酶和pfudna聚合酶中的至少一种。183.实施方案164至182中任一项所述的方法,其中所述核酸合成需要引物。184.实施方案164至183中任一项所述的方法,其中所述合成的核酸直接由所述感兴趣的核酸序列合成。185.实施方案164至184中任一项所述的方法,其中在不引入突变的情况下合成所述核酸。186.实施方案185所述的方法,其中所述突变为点突变、缺失、插入和嵌合体中的至少一种。187.实施方案164至186中任一项所述的方法,其中所述合成的核酸为dna。188.实施方案164至186中任一项所述的方法,其中所述合成的核酸为cdna。189.实施方案187或实施方案188所述的方法,其中用rna酶处理所述合成的核酸。190.实施方案164至186中任一项所述的方法,其中所述合成的核酸为rna。191.实施方案190所述的方法,其中用dna酶处理所述合成的核酸。192.实施方案164至191中任一项所述的方法,其中所述测序包括sanger测序、下一代测序、焦磷酸测序、大规模平行签名测序、单分子实时测序、iontorrent测序、合成测序和连接测序中的至少一种。193.实施方案164至192中任一项所述的方法,其中该方法检测受试者中的突变。194.实施方案164至192中任一项所述的方法,其中该方法检测从受试者获得的组织样品中的突变。195.实施方案194所述的方法,其中所述组织样品包含肿瘤、血液、唾液、痰液、皮肤和上皮组织中的至少一种。

本文讨论的出版物仅因为它们的公开内容在本申请的提交日之前而被提供。本文中的任何内容均不被解释为承认本发明无权凭借在先发明而先于这样的出版物。此外,所提供的公布日期可能与实际公布日期不同,这可能需要独立确认。

实施例

以下实施例是为了说明本发明的各个实施方案的目的而给出的,并不意味着以任何方式限制本发明。本发明的实施例以及目前代表优选实施方案的本文所述的方法,均为示例性的,并非旨在限制本发明的范围。本领域技术人员将会想到包含在由权利要求范围限定的本发明的精神内的变化以及其他用途。

实施例1:hla基因的靶标特异性扩增。

众所周知,hla区域难以与短读取测序仪一起组装。它们均具有高度多态性和高度重复性。在示例坐标chr6:29,940,000-29,942,000中于hla-a基因启动子上游设计的指导rna将具有在约5kb序列处生成跨越整个hla基因的t7转录rna产物的潜力。

为了对hla基因进行测序,将质粒设计为包括来自插入了t7启动子的hla启动子的靶向序列。选择靶向序列以在crispr系统中与cas9最有效地起作用。一旦设计并制备了含有靶序列和t7启动子的质粒,就对指导rna进行转录,并将得到的指导rna与基因组dna样品和分离的cas9酶一起温育。或者,由双链线性模板合成或生成指导rna。然后将得到的产物,即具有插入hla-a基因启动子区域的t7启动子的标记的基因组dna样品进行纯化。将标记的基因组dna样品与核苷酸和t7rna聚合酶一起温育,该t7rna聚合酶从hla-a基因产生rna转录物。每个转录物直接由标记的基因组dna样品制备,并且没有诸如插入、缺失或点突变的错误。然后从标记的基因组dna样品中纯化rna样品并进行多腺苷酸化。由逆转录酶反应中的rna样品和寡聚-dt制备cdna。使用rna酶h从cdna中去除rna,并将cdna用于测序反应,以在该方法中可以以高精度确定hla-a基因的序列。hla-a基因的序列提供了关于从中获取基因组dna样品的受试者的信息,从而在hla-a基因上提供了准确的hla分型。

实施例2:体细胞可动元件如肿瘤中的line-1重排的鉴定。

估计line-1重排在每20个细胞分裂中重排基因组材料一次。转座背后的机制可包括在规范的line-1元件序列之外复制和粘贴基因组dna序列,并将该序列插入新的位置。在一些情况下,这种“追随”(tagalong)基因组材料的公布的实例长达10千碱基。短读取序列不具有定位这些事件的能力,因为基于定位的组装不会将对应于改组基因组材料的短读取定位在与用于短读取组装的参考基因组冲突的新位置。通过长度大于10千碱基的连续分子向侧翼基因组序列内进行测序的能力具有鉴别和量化这些事件的能力。具有与人line-1元件的保守区域互补的靶序列的指导rna使得能够从保守的line-1诊断序列向外朝向侧翼序列进行基于t7的转录。肿瘤与产物正常测序的比较以无与伦比的准确性揭示了体细胞line-1重排。沿着3’和5’端以及整个保守的line-1元件序列的多个t7插入增加了鉴别肿瘤中全长体细胞l1转座的能力。据估计,60%的肿瘤具有体细胞l1事件。

为了定位肿瘤中line-1重排的位点,将质粒构建为含有与line-1元件中的序列互补的靶向序列和t7启动子。选择靶向序列以在crispr系统中与cas9最有效地起作用。由该质粒制备指导rna,该指导rna含有靶向序列和t7启动子。将指导rna与来自肿瘤的基因组dna样品和分离的cas9酶一起温育。将得到的产物(具有插入靶向line-1序列中的t7启动子的标记的基因组dna样品)进行纯化。将标记的基因组dna样品与核苷酸和t7rna聚合酶一起温育,该t7rna聚合酶从line-1元件产生rna转录物。每个转录物直接由标记的基因组dna样品制备,并且没有诸如插入、缺失或点突变的错误。然后从标记的基因组dna样品中纯化rna样品并进行多腺苷酸化。由逆转录酶反应中的rna样品和寡聚-dt制备cdna。使用rna酶h从cdna中去除rna,并将cdna用于测序反应以确定与line-1元件相邻的基因组dna的序列,从而确定line-1元件的位置。肿瘤样品中元件和任何其他line-1元件的位置为医师提供了诊断信息,如可能有助于治愈肿瘤的特定治疗。

实施例3:确定亨廷顿病中三核苷酸重复长度的长度

亨廷顿病(huntington’sdisease)是一种影响肌肉协调、认知能力和行为的神经退行性遗传病症。亨廷顿基因中存在被充分证明的突变是该疾病的病因,该疾病以常染色体显性遗传方式进行遗传。该突变是从基因编码序列中发现的cag三核苷酸重复段的一个家族的一代到下一代的扩展。该cag三核苷酸编码氨基酸谷氨酰胺,因此cag重复的扩展导致所得蛋白质中多聚谷氨酰胺段的扩展。获得扩展的多核苷酸区域的确切序列存在挑战。由于重复区域的大小影响患者的疾病状态,因此需要确定序列并因此确定重复区域的大小。

为了确定cag重复的大小,将质粒构建为含有与亨廷顿基因中的序列互补的靶向序列和t7启动子。选择靶向序列以在crispr系统中与cas9最有效地起作用。由该质粒制备指导rna,该指导rna含有靶向序列和t7启动子。将指导rna与来自肿瘤的基因组dna样品和分离的cas9酶一起温育。将得到的产物(具有插入靶向亨廷顿序列中的t7启动子的标记的基因组dna样品)进行纯化。将标记的基因组dna样品与核苷酸和t7rna聚合酶一起温育,该t7rna聚合酶从亨廷顿基因产生rna转录物。每个转录物直接由标记的基因组dna样品制备,并且没有诸如插入、缺失或点突变的错误。然后从标记的基因组dna样品中纯化rna样品并进行多腺苷酸化。由逆转录酶反应中的rna样品和寡聚-dt制备cdna。使用rna酶h从cdna中去除rna,并将cdna用于测序反应以确定亨廷顿基因中cag重复的序列。亨廷顿基因中cag重复的数目为医师和患者提供了关于疾病预期严重程度的诊断信息。

实施例4:使用crispr/cas将发夹标签插入基因组中

选择cyp2d6基因以用于使用crispr/cas进行测序,以在基因的基因组基因座处的基因组中的靶位点处产生双链断裂。通过用暴露靶位点的一条链的外切核酸酶处理dna样品,使双链断裂成为粘端。标记的核酸具有拥有与暴露的链互补的核酸序列的部分、t7启动子和自身互补并形成发夹的部分。dna连接酶将标记的核酸连接至靶位点,从而在cyp2d6基因附近掺入t7启动子。发夹标签有效地将标签连接至靶位点,并且该位点准备用于cyp2d6基因的靶向rna转录。该标签使cyp2d6基因被唯一标记以用于测序,从而与cyp2d6假基因区分开。

实施例5:体外转录的rna的大小选择

对包含插入t7启动子的dna的1ngdna样品进行体外转录。反应运行12小时。megascriptt7和ampliscribet7二者均用于驱动转录。在转录后,用dna酶将反应温育1小时。使用qubit高灵敏度rna检测试剂盒对rna进行定量。使用高灵敏度picomrna生物分析仪进行rna分析。

大小排除包括低于17nt的大小排除;低于200nt的大小排除在65℃下温育10分钟随后进行低于17nt的大小排除;以及未排除的对照。产物用在甲醛(变性)琼脂糖凝胶上运行。

结果描述于如下表1中。

结果以图形方式呈现于图10中。

还完成了基于珠子的大小选择。对包含插入t7启动子的dna的1ngdna样品进行体外转录。反应运行12小时。megascriptt7和ampliscribet7二者均用于驱动转录。在转录后,用dna酶将反应温育1小时。反应温育如下:50ul起始体积,2ngrna输出,在0.5x、0.6x、0.8x、1x、2x、3x和对照(未选择)的情况下。使用qubit高灵敏度rna检测试剂盒对rna进行定量。使用高灵敏度picomrna生物分析仪进行rna分析。

尽管本文中已经示出并描述了本发明的优选实施方案,但对于本领域技术人员显而易见的是,这些实施方案仅以示例的方式提供。本领域技术人员在不脱离本发明的情况下现将会想到多种变化、改变和替代。应该理解,本文中所述的本发明实施方案的各种替代方案可用于实施本发明。旨在由以下述权利要求限定本发明的范围,并由此涵盖这些权利要求范围内的方法和结构及其等同项。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1