从含有少量靶标dna的样品富集dna测序文库的制作方法

文档序号:9602128阅读:256来源:国知局
从含有少量靶标dna的样品富集dna测序文库的制作方法
【专利说明】从含有少量靶标DNA的样品富集DNA测序文库
[0001] 政府I持
[0002] 本发明是受政府支持在美国国立卫生研究院(NIH)授予的基金号HG005715和 HG003220的下完成的。政府具有本发明的某些权利。
[0003] 夺叉参考
[0004] 本申请要求2013年5月4日提交的美国临时申请系列号61/819,564的权益,该 申请通过引用整体并入本文。
[0005] 发明背景
[0006] 由于成本原因,在最古老的样本中残留的极低水平的内源性DNA已妨碍了许多目 标样品的鸟枪法测序。例如,源自骨和牙的古DNA(aDNA)文库常常含有〈1%的内源性DNA, 这意味着环境DNA占去了大部分的测序能力。因此,与对低内源性DNA样品进行测序有关 的大部分成本没有提供人基因组数据。其结果是,许多古DNA样品被认为不适合进行测序, 因为与所需的资源相比数据产率低。因此,本领域存在在低内源性DNA样品中提高内源性 DNA产率的需要,并且特别地存在当对低内源性DNA样品进行测序时提高待测序的内源性 DNA的百分比的需要。
[0007] DNA提取的最近发展已提供了成本较低的下一代测序技术,使得古遗传学领域已 从专注于PCR扩增的线粒体DNA和Y染色体标志物转换至全基因组的鸟枪法测序。但是, 由于在总样品材料中内源性DNA的低百分比,当对低内源性DNA样品进行测序时,鸟枪法测 序可能得到低于期望的结果。
[0008] 相反,利用常染色体DNA序列对于种群遗传分析可以是优越的,因为它提供来自 两个谱系(即母系和父系)的信息。因此,本领域存在提供常染色体DNA测序技术用于古 DNA分析以获得针对种群遗传分析的改善的分辨率的特定需要。例如,单个古基因组(包 括尼安德特人、丹尼索瓦人、古爱斯基摩人、提洛尔冰人和澳大利亚土著人)的全基因组测 序已转变了我们对人类迀徙的理解并且揭示了之前未知的古代种群之间的混合。然而,大 多数这些样本的防腐水平是罕见的:在洞穴中发现的尼安德特人和丹尼索瓦人的骨分别含 有~1-5%和70%的内源性DNA,而古爱斯基摩人和澳大利亚土著人的基因组则获取自毛 发样本,其通常含有较低水平的污染但在大多数考古环境下是无法获得的。
[0009] 与此相反,源自来自温带环境的骨和牙的测序文库通常含有〈1 %的内源性DNA。 虽然具有1-2%的内源性DNA的样品在充分测序的情况下仍然能够产生足够的信息用于种 群遗传分析,但具有较少DNA的样本的测序所需的量是昂贵的,并因此对于许多研究者是 无法承担的。古DNA研究者已开始通过使用靶向捕获以仅富集mtDNA或单个染色体来解决 这一问题。但是,由于古DNA的高度片段化的性质,理想的富集技术会尽可能提取足够多的 内源性基因组以便不会丢掉任何潜在提供信息的序列。在法医学中存在类似的问题。
[0010] 发明概沐
[0011] 本文提供了用于在溶液中捕获DNA分子的方法。在某些实施方案中,该方法包括: a)从包含内源性DNA和环境DNA的样品提取DNA以产生提取的DNA,其中所提取的DNA包 含比内源性DNA更多的环境DNA;b)将通用衔接子连接至所提取的DNA;c)在溶液中将所提 取的DNA与亲和标记的RNA探针杂交,所述亲和标记的RNA探针由以下步骤产生:在亲和标 记的核糖核苷酸的存在下,体外转录包含已被连接至RNA启动子衔接子的片段化的参考基 因组DNA的文库;d)在与所述衔接子互补的RNA寡核苷酸的存在下,将步骤c)的产物与针 对亲和标记的被系到基底的捕获剂结合,从而将杂交的DNA分子捕获在所述基底上;e)洗 涤所述基底以去除任何未结合的DNA分子;以及f)释放所捕获的DNA分子。还提供了用于 执行该方法的试剂盒。
[0012] 本教导内容的这些和其它特征示于本文中。
[0013] 附图简沐
[0014] 本领域技术人员将理解的是,下文所描绘的附图仅用于举例说明的目的。附图不 旨在以任何方式限制本教导内容的范围。
[0015] 图1示意性说明了全基因组溶液中捕获方法。为了产生RNA"诱饵"文库,通过含 有T7RNA聚合酶启动子的衔接子(绿色盒)建立人基因组文库。该文库通过T7RNA聚合酶 和生物素-16-UTP(星形符号)进行体外转录,从而建立生物素化的诱饵文库。同时,通过 标准索引Illumina衔接子(紫色盒)制备古DNA文库(aDNA"池")。这些aDNA文库通常 含有〈1 %的内源性DNA,其余为环境来源的。在杂交过程中,在封闭衔接子的RNA寡核苷酸 (蓝色折线)(其与索引Illumina衔接子互补并因而阻止aDNA文库中衔接子之间的非特异 性杂交)的存在下合并诱饵和池。杂交之后,用链霉抗生物素蛋白包被的磁珠拉下生物素 化的诱饵和结合的aDNA,并洗掉任何未结合的DNA。最后,将DNA洗脱并扩增用于测序。
[0016] 图2显示了样品M4和NA40的增加的测序的结果。⑷使用增加的测序量的M4(青 铜器时代毛发)捕获前(蓝色)和捕获后(红色)文库的独特片段的产率。使用增加的测 序量的独特读数量的富集倍数以绿色进行作图,其值在第二y轴上。(B)使用增加的测序 量的NA40(秘鲁人的骨)捕获前(蓝色)和捕获后(红色)文库的独特片段的产率。使用 增加的测序量的独特读数量的富集倍数以绿色进行作图,其值在第二y轴上。(C)维恩图 显示基于1.23X107个读数的测序,在NA40捕获前和捕获后文库之间的重叠。(D)分别基 于1. 86X107和1. 23X10 7个读数的测序的M4和NA40文库的覆盖度图。显示的是1号染 色体的随机10兆碱基区段。覆盖度以跨该区域的lkb窗口进行计算。(E)NA40捕获前和捕 获后文库的插入片段大小分布。(F)NA40捕获前和捕获后文库的读数的百分比GC含量。
[0017] 图3显示基于各自1X106个读数的测序的捕获前和捕获后样品的主成分分析的 结果。在千人基因组参考小组和每个古代个体之间重叠的SNP的主成分分析,其中(E)和 (F)中还包括美洲土著人个体。主成分仅用现代个体进行计算,然后将古代个体投射到图 上。显示的是(A)V2(保加利亚人的牙)捕获前和⑶捕获后;(C)M4(青铜器时代的毛发) 捕获前和(D)捕获后;以及(E)NA40(秘鲁人的骨)捕获前和(F)捕获后。种群图例:ASW,美 国西南部的非洲血统的美洲人;AYM,来自秘鲁的安第斯山脉的艾马拉人;CEU,具有北欧和 西欧血统的犹他居民(CEPH) ;CHB,中国北京的中国汉族人;CHS,南方的中国汉族人;CLM, 来自哥伦比亚麦德林的哥伦比亚人;FIN,芬兰的芬兰人;GBR,英格兰和苏格兰的英国人; IBS,西班牙的伊比亚人群JPT,日本东京的日本人;KAR来自巴西亚马逊的Karitiana人; LWK,肯尼亚韦布耶的卢希亚人;MAY,来自墨西哥的玛雅人;MXL,来自美国洛杉矶的墨西哥 祖先;PUR,来自波多黎各的波多黎各人;TSI,意大利的托斯卡尼人;YRI,尼日利亚伊巴丹 的约鲁巴人。
[0018] 图4显示的是获取自不同测序实验的数据。
[0019]
[0020] 除非本文另有定义,否则本文所用的所有技术和科学术语都具有与本发明所属领 域的普通技术人员通常所理解的相同含义。虽然类似于或等同于本文所述的方法和材料的 任何方法和材料可用于实践或测试本发明,但将描述优选的方法和材料。
[0021] 本文提及的所有专利和出版物,包括这样的专利和出版物内公开的所有序列,以 引用方式明确并入。
[0022] 数值范围包括定义该范围的数值。除非另外指明,否则核酸均以5'至3'方向从 左向右书写;氨基酸序列均以氨基至羧基方向从左向右书写。
[0023] 本文提供的标题不限制本发明的各方面或实施方案。因此,紧接下文定义的术语 通过参考整个本说明书而更全面地定义。
[0024] 除非另有定义,否则本文所用的所有技术和科学术语具有与本发明所属领域的普 通技术人员通常所理解的相同含义。Singleton等人,DICTIONARYOFMICROBIOLOGYAND MOLECULARBIOLOGY,第 2 版,JohnWileyandSons,NewYork(1994)以及Hale&Markham, THEHARPERCOLLINSDICTIONARYOFBIOLOGY,HarperPerennial,N.Y. (1991)为技术人员 提供了本文所用的许多术语的一般含义。另外,为了清楚起见和方便参考,下文将定义某些 术语。
[0025] 本文使用的术语"样品"涉及包含一种或多种目标分析物的材料或材料的混合物, 其通常但非必需地为液体形式。
[0026] 本文使用的术语"核酸样品"表示含有核酸的样品。本文使用的核酸样品可以是复 杂样品,因为它们包含多种不同的含有序列的分子。来自哺乳动物(例如小鼠或人)的基 因组0嫩是复杂样品的类型。复杂样品可具有多于10 4、105、106或107个不同的核酸分子。 DNA靶标可源于任何来源,诸如基因组DNA或人工DNA构建体。含有核酸(例如由组织培养 细胞或组织的样品制备的基因组DNA)的任何样品可用于本文。核酸样品可以由任何合适 的来源(包括牙、骨、毛发或骨骼等的样品)制备。
[0027] 术语"核苷酸"旨在包括那些不仅含有已知的嘌呤和嘧啶碱基还含有其它经修饰 的杂环碱基的部分。这样的修饰包括甲基化嘌呤或嘧啶、酰化嘌呤或嘧啶、烷基化核糖或其 它杂环化合物。此外,术语"核苷酸"包括那些含有半抗原或荧光标记并且可不仅含有常规 的核糖和脱氧核糖还含有其它糖的部分。修饰的核苷或核苷酸还在糖部分上包含修饰,例 如,其中一个或多个羟基被卤素原子或脂族基团取代,或被官能化为醚、胺等。
[0028] 术语"核酸"和"多核苷酸"在本文可互换使用以描述包含核苷酸(例如脱氧核糖 核苷酸或核糖核苷酸)并可通过酶法或合成方法产生(例如,如美国专利号5, 948, 902以 及其中引用的参考文献中所述的PNA)的任何长度的聚合物,例如,大于约2个碱基,大于约 10个碱基,大于约100个碱基,大于约500个碱基,大于1000个碱基,多达约10, 000个或更 多个碱基的聚合物,其可以与天然存在的核酸以与两个天然存在的核酸相似的序列特异性 方式杂交,例如可以参与沃森-克里克碱基配对相互作用。天然存在的核苷酸包括鸟嘌呤、 胞嘧啶、腺嘌呤和胸腺嘧啶(分别为G、C、A和T)。DNA和RNA分别具有脱氧核糖和核糖主 链,而PNA的主链包括通过肽键连接的重复的N-(2-氨基乙基)-甘氨酸单元。在PNA中, 各种嘌呤和嘧啶碱基由亚甲基羰基键连接至主链。锁核酸(LNA)(常常被称为不可接近的 RNA)是经修饰的RNA核苷酸。LNA核苷酸的核糖部分由连接2'氧和4'碳的额外的桥修饰。 该桥将核糖"锁"在3'-内型(北)构象中,其通常被发现于A型双链体中。当需要时,LNA 核苷酸可以与寡核苷酸中的DNA或RNA残基混合。术语"非结构化核酸"或"UNA"是含有 以降低的稳定性彼此结合的非天然核苷酸的核酸。例如,非结构化核酸可以含有G'残基和 C'残基,其中这些残基分别对应于G和C的非天然存在的形式(即类似物),其以降低的稳 定性彼此碱基配对,但保留与天然存在的C和G残基碱基配对的能力。非结构化核酸描述 于US20050233340中,其因UNA的公开内容而通过引用并入本文。ZNA(即拉链核酸)也包 括在此定义中。
[0029] 本文使用的术语"寡核苷酸"表示长度为约2至200个核苷酸、多至500个核苷酸 的单链核苷酸多聚体。寡核苷酸可以是合成的或可以通过酶法制备,并在一些实施方案中 为30至150个核苷酸长。寡核苷酸可包含核糖核苷酸单体(即,可以是寡核糖核苷酸)和 /或脱氧核糖核苷酸单体。寡核苷酸可以例如为10至20、21至30、31至40、41至50、51至 60、61至70、71至80、80至100、100至150或150至200个核苷酸长。
[0030] 术语"杂交"是指核酸链通过本领域已知的碱基配对与互补链结合的过程。如 果两个序列在中等至高严格杂交和洗涤条件下彼此特异性杂交,则将核酸视为"选择性杂 交"至参考核酸序列。中等和高严格杂交条件是已知的(参见例如Ausubel等人,Short ProtocolsinMolecularBiology,第 3 版,Wiley&Sonsl995 和Sambrook等人,Molecul
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1