从生物样品中选择性捕获和扩增外显子或靶标基因组区域的方法

文档序号:584191阅读:459来源:国知局
专利名称:从生物样品中选择性捕获和扩增外显子或靶标基因组区域的方法
技术领域
本发明主要涉及靶标基因组DNA(gDNA)区域的捕获和扩增,更特别地,本发明涉 及使用从模板DNA克隆产生的杂交DNA和/或RNA探针选择性捕获并扩增来自任意生物物 种(包括动物、植物、真菌、原生动物、古生菌和真细菌)的基因组、线粒体和其它形式的DNA 的所有外显子、外显子的任意子集、或任意其它目标区域的方法。
背景技术
目前的技术发展已经能够实现每次实验进行数百万至数十亿碱基对(bps)规模 的脱氧核糖核酸(DNA)测序(Margulies等人,2005)。现在至少有三个公司可以提供商业 化的大规模并行测序系统(例如,Roche提供的454系统;Illumina提供的Illumina系统; Applied BioSystems提供的SOLiD系统)。目前这些系统的测序能力有的已经足以对很多 生物物种(包括人类和小鼠)的基因组进行常规的从头测序(de novo sequencing)并对 其重要部分进行再测序(Stephens等人,2006)。但是,在广泛应用的新技术的成功使用中 存在一个主要瓶颈即如何能以有效的方式在头尾步骤中从散落于基因组、线粒体和其它 形式的DNA中选择性捕获并富集靶标外显子或靶标内含子区域。选择性捕获并富集来自生 物物种的基因组、线粒体和其它形式的DNA的特定区域具有广泛的应用。传统的捕获并扩增靶标基因组DNA片段的方法如下(1)从包含核酸的生物样品中提取DNA ;(2)通过各种方式(包括通过机械、超声或酶学方法)将提取的DNA片段化;(3)通过DNA片段与互补性DNA和/或RNA探针的杂交选择性捕获靶标DNA片段;(4)首先洗掉未与杂交探针结合的DNA片段。然后在下一个步骤中在合适的条件 下洗脱与杂交探针结合的DNA片段;(5)将捕获的DNA用于下游应用。如果需要更大数量的捕获的DNA,可以使用通用 引物对通过聚合酶链反应(PCR)扩增捕获的DNA片段。具有特异性设计的序列的通用DNA 引物在步骤(2)或步骤(4)之后连接到所有DNA片段的5’和3’末端。任何旨在成功捕获DNA片段的有商业价值的操作来讲,整个过程中关键的技术是 产生杂交DNA和/或RNA探针并将其置于固体支持材料上或混合于液体溶液中的方法(用 于上述方法的步骤3)。捕获的特异性是由杂交探针的DNA或RNA序列决定的。选择性捕获 来自任意生物物种的基因组和线粒体DNA的任何目标区域需要低成本和灵活的方式以可 靠地产生并验证大量的杂交探针。这些DNA和/或RNA探针的序列必须与目标生物物种的 基因组和线粒体DNA中的目标区域精确互补。捕获能力是由可用于杂交的不同探针的数目 和长度的组合决定的。捕获的灵活性是由探针产生的方式以及将其置于固体支持材料上或 混合于液体溶液中的方式决定的。这些杂交DNA和/或RNA探针应该具备选择性捕获来自 任意生物物种的基因组、线粒体和其它形式的DNA的所有外显子、外显子的任意子集、或任 意其它目标区域的总体能力和灵活性。必须以低成本的方式达到特异性、能力和灵活性以便在市场上竞争。因此,如果可以获得有效解决所有这些问题的方法的话,则可以得到巨大 的技术和商业相关性。因此本领域中存在尚未满足的需要以解决上述缺陷和不足。

发明内容
在一个方面,本发明涉及从生物样品中选择性捕获和/或扩增外显子或靶标基因 组区域的方法。特别地,本发明要求保护从DNA克隆制备DNA和/或RNA杂交探针的新方 法。在一个具体实施方式
中,该方法包括以下步骤获得针对靶标基因组区域的DNA模板, 将DNA模板克隆进入克隆载体以形成模板DNA克隆,构建至少包括靶标基因组区域的模板 DNA克隆库,从库中的DNA模板克隆产生杂交DNA和/或RNA探针,通过靶标基因组DNA区 域与所产生的杂交探针的杂交捕获靶标基因组DNA区域,以及通过使用将结合的DNA从杂 交探针上释放的条件洗脱捕获的基因组DNA。洗脱条件可以包括温度的变化,盐溶液的变化 或溶液PH的变化。在一个具体实施方式
中,从来自生物样品的总RNA或mRNA通过逆转录获得DNA模 板。在另一个具体实施方式
中,通过进行多重聚合酶链反应(PCR)或通过含有DNA的靶标 遗传区域的基因合成获得DNA模板。在另一个具体实施方式
中,DNA模板对应于预先确定 的线粒体DNA片段或全长的线粒体DNA。在一个具体实施方式
中,克隆步骤包括将DNA模板连接进入克隆载体或质粒的步 骤。克隆DNA模板的目的是为了容易地存储、扩增、复制和繁殖模板DNA材料以备将来之用。在一个具体实施方式
中,取决于起始RNA材料,库中的模板DNA克隆包含生物样品 表达的基因的全长mRNA、mRNA的开放读码框或部分长度的cDNA。在另一个具体实施方式
中,当通过多重PCR或基因合成扩增内含子区域时,模板DNA克隆库代表目标内含子区域。在一个具体实施方式
中,通过逆转录或PCR反应从cDNA制备的库中的模板DNA克 隆用于捕获生物样品的外显子。在另一个具体实施方式
中,通过多重PCR扩增内含子区域 制备的库中的模板DNA克隆用于捕获生物样品的内含子区域。在另一个具体实施方式
中, 从线粒体DNA制备的库中的模板DNA克隆用于捕获生物样品的线粒体DNA。克隆中的模板 DNA可直接用作杂交探针,或者可以通过酶式消化或PCR扩增将模板本身从质粒中释放出 来以用作杂交探针。在一个具体实施方式
中,库中的模板DNA克隆按照自动化系统可以操作的形式进 行组织。模板DNA克隆的信息储存在计算机化数据库中,该信息至少包括身份、产生日期、 制备克隆的人员和每个克隆的位置。在一个具体实施方式
中,构建步骤包括以下步骤检验库中的模板DNA克隆的质 量和完整性,以及监视并保持库中的模板DNA克隆的质量以长期使用。检验步骤包括以下 步骤确认库中每个克隆的DNA序列,以及将克隆的DNA序列与生物样品的靶标基因或靶标 基因组区域的参考DNA序列进行比较从而检测库中的克隆的完整性和序列准确性。在一个具体实施方式
中,使用限制性酶将模板DNA片段从克隆载体或质粒中消化 出来,从而释放克隆载体或质粒中携带的DNA片段,由此产生杂交探针。在另一个具体实施 方式中,使用克隆载体或质粒的多个克隆位点上包含的通用引物对序列通过PCR扩增产生 杂交探针。在另一个具体实施方式
中,克隆载体或质粒直接用作杂交探针而不将模板探针通过酶式方法切割出来或通过PCR扩增DNA模板。在另一个具体实施方式
中,从库中的DNA 模板克隆通过体外转录产生杂交探针。在替代的具体实施方式
中,通过库中的DNA模板的 体外逆转录获得基因的cDNA或cRNA,从而产生杂交探针。在一个具体实施方式
中,捕获步骤包括将杂交探针固定于固体支持材料的表面或 将杂交探针混合于液体溶液中的步骤。在另一个方面,本发明涉及从生物样品中选择性捕获和/或扩增靶标基因组区域 的方法。靶标基因组区域包括来自生物样品(包括动物、植物、真菌、原生动物、古生菌和/ 或真细菌)的基因组、线粒体和其它形式的DNA的外显子、外显子的子集、或目标区域。在一个具体实施方式
中,该方法包括以下步骤提供至少包括靶标基因组区域的 模板DNA克隆库,从库中的DNA模板克隆产生杂交探针,通过靶标基因组DNA区域与所产生 的杂交探针的杂交捕获靶标基因组DNA区域。在一个具体实施方式
中,提供步骤包括以下步骤获得针对靶标基因组区域的 DNA模板,将DNA模板克隆进入克隆载体以形成模板DNA克隆,构建至少包括靶标基因组区 域的模板DNA克隆库,以及检验库中的模板DNA克隆的质量和完整性。另外,该方法可以包括以下步骤通过使用将结合的DNA从杂交探针上释放的条 件洗脱捕获的基因组区域。在另一个方面,本发明涉及从生物样品中捕获和/或扩增靶标基因组区域的试剂 盒。在一个具体实施方式
中,试剂盒具有至少包括靶标基因组区域的模板DNA克隆库,其 中模板DNA克隆通过将从靶标基因组区域获得的DNA模板克隆进入克隆载体而形成;从库 中的DNA模板克隆产生的杂交探针;以及将靶标基因组DNA区域与所产生的杂交探针杂交 从而捕获靶标基因组DNA区域的工具。在一个具体实施方式
中,杂交工具包含具有一个或多个表面的固体支持材料,其 中杂交探针置于这些表面上以用于杂交探针与基因组DNA片段的杂交,或者包含溶液,杂 交探针混合于该溶液中以用于杂交探针与基因组DNA片段的杂交。在一个具体实施方式
中,模板DNA克隆库储存于计算机化数据库中并由其管理。另外,试剂盒具有用于洗脱捕获的基因组区域的工具和/或用于检测洗脱的基因 组片段/区域的工具。本发明的这些方面和其它方面将通过以下优选的具体实施方式
的描述以及以下 的附图变得明显,虽然可以不脱离本公开的新概念的精神和范围做出各种变化和修饰。


附图举例说明了本发明的一个或多个具体实施方式
,与说明书一起解释本发明的 原理。在所有附图中尽可能以相同的指代编号指代具体实施方式
的相同或相似元素,其 中图1显示了根据本发明的一个具体实施方式
从生物样品中选择性捕获和/或扩增 外显子或靶标基因组区域的方法的流程图。图2显示了根据本发明的方法捕获gDNA片段之后洗脱的gDNA的确认,其中图板 A)和B)分别是设计为捕获GJB2&MY07A的捕获实验结果。每个电泳凝胶泳道中加入的DNA 样品为泳道1 鲑鱼精DNA(作为阴性对照);泳道2 人类gDNA片段,使用检测Cx26基因的引物通过PCR扩增;泳道3 以第二个人类gDNA样品重复,与泳道2相似;泳道4 水,作为 Cx26PCR引物的PCR扩增的阴性对照;泳道5 未经过片段化处理和DNA捕获处理的gDNA, 用作实验中以Cx26PCR引物进行的PCR扩增的阳性对照;泳道6 洗脱的鲑鱼精DNA,使用了 针对MY07A的引物(另一个阴性对照);泳道7 洗脱的人类gDNA,使用了针对MY07A的引 物(另一个阴性对照);泳道8 第二个洗脱的人类gDNA样品,PCR扩增中使用了针对MY07A 的引物(另一个阴性对照);泳道9 直接来自水的PCR扩增的阴性对照;泳道10 使用未经 消化的人类gDNA (未经过DNA捕获处理)的阳性对照;泳道A 通过我们的方法捕获之后洗 脱的人类gDNA,PCR扩增中使用了针对MY07A的引物;泳道B 通过我们的方法捕获之后洗 脱的鲑鱼精DNA,PCR中使用了针对MY07A的引物(用作阴性对照);泳道C 水,阴性对照; 泳道D 未经过片段化处理和DNA捕获处理的gDNA,用作以MY07A引物进行的PCR扩增的阳 性对照。在图像顶端的图标中显示了实验中使用的PCR弓丨物的相对位置。图3显示了根据本发明的方法捕获的洗脱的gDNA的另一个确认测试。通过 Southern印迹检测了捕获前(总量的大约10% )和洗脱后(90%的DNA样品经我们的方法 处理)的经过Bsu36I消化的人类gDNA。结果显示出捕获前和捕获后的样品都在预计的大 约2400bp大小的地方有单一的带(箭头指示)。通过比较Southern印迹中带的深度给出 通过本发明的方法捕获gDNA的效率的评估值为大约56%。图4显示了根据本发明的方法捕获到的gDNA的另一组确认数据。这次我们用的 是Illumina Genome高通量测序仪。在测序中我们测了单边52个碱基并加上解样品的分 子编码的过程。图4A中显示的是四个独立的样本。捕捉到的DNA小片段和MY015A的基因 序列作了比对。比对的结果用颜色编码。我们挑了 MY015A基因的原因是因为这个基因的 结构是所有耳聋基因中最复杂的。所有样本的颜色编码的结果均显示捕捉到的DNA小片段 的富集模式完全和MY015A的基因结构重合。因为捕捉探针的目标针对的是MY015A的外显 子区域,这些结果说明我们的基因捕捉方法具有很好的特异性。图4B显示MY015A外显子 的目标区域中的每个碱基被覆盖了 20到1106次。平均的覆盖次数是476次。这种覆盖的 均一性至少可以对同一个突变测20次。这样对任意一个碱基用下一带高通量测序仪测错 的概率就可以下降到每42°中有一个,这是相当相当的小。
具体实施例方式以下实施例更详细地描述了本发明,这些实施例仅为示例性的,因为其中的多种 修饰和变化对于本领域技术人员来说是显而易见的。现在更详细地描述本发明的各种具体 实施方式。当提及附图时,同一个数字通篇代表同一个成分。除非上下文另有特别指明,否 则本说明书和权利要求书通篇所用的“一个(a)”、“一个(an)”和“the”包括复数。同样, 除非上下文另有特别指明,本说明书和权利要求书通篇所用的“in”包括“in”和“on”。另 外,下文对本说明书中使用的一些术语进行了更具体的定义。在本发明上下文和使用某术语的特定上下文中,本说明书中使用的术语一般具有 本领域通用的含义。在下文中或本说明书中其它地方描述了某些术语以提供实施本发明的 说明书的额外指导。本说明书其它地方使用的实施例(包括本文讨论的任何术语的例子) 仅为示例性的,不以任何方式限制本发明或任何例举的术语的范围和涵义。同样,本发明不 局限于本说明书提供的各种具体实施方式

本文使用的“约”、“大约”或“大概” 一般包括给定数值或范围的20%以内,优选 10 %以内,更优选5 %以内。本文给出的数值数量是大约的,意思是术语“约”、“大约”或“大 概”如果没有明文指出也可以推断出来。本文使用的术语“包含”、“包括(including)”、“具有”、“含有”、“包括 (involving) ”等等应理解为开放式的,即意思是包括但不限于。根据本发明的目的,如本文所包括并详细描述的那样,本发明的一个方面涉及选 择性捕获和/或扩增来自任意生物物种的基因组、线粒体和其它形式的DNA的所有外显子、 外显子的任意子集、或任意其它目标区域的方法。生物物种包括动物、植物、真菌、原生动 物、古生菌、真细菌等。一个具体实施方式
中的方法通过产生并使用杂交DNA和RNA探针实 现。参见图1,其中显示了根据本发明的一个具体实施方式
从生物样品中选择性捕获 和/或扩增外显子或靶标基因组区域的方法的流程图。在步骤110中,获取了针对靶标基因组DNA区域的DNA模板。在一个具体实施方 式中,从特定的目标生物物种的总RNA或mRNA通过逆转录获得这些针对外显子的模板。为 了获得含有靶标外显子的特定生物物种表达的总RNA或mRNA完整集合,应该从该特定生物 物种的不同器官和组织获取样品。同样,为了表达的RNA的集合的完整性,应该在不同的发 育阶段收集样品。作为替代性的产生模板(特别是非编码内含子区域中的那些)的方法,还可以通 过多重聚合酶链反应(PCR)选择性扩增所需的外显子DNA,或对于所选的任何DNA序列可以 使用基因合成的方法。如果内含子是需要捕获的靶标基因组DNA区域,则需要通过多重PCR从基因组DNA 或从含有靶标内含子区域的细菌人工染色体(BAC)扩增这些内含子区域。由于线粒体DNA的长度相对较短,所以全长线粒体DNA或其大片段可直接用作通 过多重PCR或通过基因合成方法产生探针的模板。在步骤120中,将用于产生杂交探针的DNA模板克隆进入克隆载体以用于储存、繁 殖和其它分子操作的目的。将步骤110中获得的DNA模板连接进入克隆载体或质粒。克隆 载体或质粒可以是用于分子克隆目的的任意克隆载体或质粒,例如构建cDNA库。一旦连接进入特定的克隆载体或质粒之后,通过典型的分子克隆技术处理步骤 110中获得的DNA模板,这是为了储存、繁殖和进一步操作(例如亚克隆)和制备数量更大 的克隆以及其它目的。根据本发明,为了产生杂交捕获探针的目的,不需要获得可表达的cDNA克隆(可 以转染进入细胞系以产生特定基因的全长蛋白的那些),也不需要100%无误差的克隆序 列。预计这种低要求能够极大地提高捕获gDNA片段整个过程所需的收集DNA探针模板和 DNA克隆的效率。在步骤130中,组建了包括所有的靶标基因和/或基因组区域的模板DNA克隆库。 在一个具体实施方式
中,取决于起始RNA材料,获得了代表目标生物物种表达的基因的全 长RNA、开放读码框RNA或部分长度的cDNA的cDNA克隆库。例如,在步骤110中通过多重 PCR扩增内含子的例子中,获得了代表目标内含子区域的克隆库。根据本发明的具体实施方式
,通过逆转录或通过基因合成方法从cDNA制备的库
8中的克隆用于捕获外显子。通过多重PCR扩增内含子区域或通过基因合成方法制备的库中 的克隆用于捕获内含子区域。从线粒体DNA制备的库中的克隆用于捕获特定生物物种的线 粒体DNA。为了长期和一致性管理的目的,大量的DNA克隆按照自动化系统可以操作的形式 进行组织。例如(但不限于这些形式),克隆可以储存于多孔板中,例如96孔或384孔板, 或具有更多数目的孔的其它的板。在一个具体实施方式
中,使用计算机化数据库辅助管理 DNA克隆中的探针集合。在步骤140中,检验库中的模板DNA克隆的质量和完整性需要通过测序确认库中 每个克隆的DNA序列。丢弃那些含有太短、太多错误或不是来源于想要的靶标的DNA序列 的克隆。在一个具体实施方式
中,经确认的DNA克隆被转移至新的板中以备将来之用。储 存板中的克隆的身份、位置和克隆的其它信息储存于计算机化数据库中并由其管理。将获得的克隆的DNA序列与特定生物物种的靶标基因或靶标基因组区域的参考 DNA序列进行比较从而检测库中的克隆的精确性和完整性。可以从公开渠道或者通过该特 定生物物种的从头测序(如果它们已经不可获得的话)获得针对任意生物物种的参考DNA 序列。在一个具体实施方式
中,重复步骤110至140直至获得代表所选的所有靶标基因 或含有特定生物物种表达的所有基因的cDNA克隆的完整集合,或者获得目标内含子区域。对于重复步骤110-140多次之后仍然缺失的那些基因,使用替代性的步骤通过 PCR反应或通过使用基因合成方法直接扩增目标DNA区域。另外,现在可以在公开市场通过 商业渠道获得一些物种的很多基因(全长的或开放读码框)的DNA克隆,这也可以用作获 得DNA克隆的替代性渠道。在步骤150中,监视并保持库中的模板DNA克隆的数量和质量以长期使用。在一 个具体实施方式
中,可以按照需要通过自动方式或人工方式复制DNA库。通过正确的维护, 定期质量监测并解决问题,库中含有针对任何想要的靶标基因和基因组区域的特定生物物 种的外显子和/或内含子的克隆可用作无限产生杂交探针的稳定来源。在步骤160中,从库中的DNA模板克隆产生杂交探针使DNA库中的克隆生长至需 要的数量。从DNA模板产生的、连接进入克隆载体和/或质粒中的杂交DNA或RNA探针用 于捕获基因组和线粒体DNA片段。在一个具体实施方式
中,使用限制性酶将模板DNA片段从克隆载体和/或质粒中 消化出来,从而释放克隆载体和/或质粒中携带的DNA片段,由此产生杂交探针。在另一个具体实施方式
中,使用克隆载体和/或质粒中包含的(通常包含于多克 隆位点中)通用引物对序列通过PCR扩增产生杂交探针。通过人工方式设置这些反应,或 者,如果需要产生的杂交探针的数目太多而不能通过人工操作有效进行的话,则通过自动 化方式设置这些反应。在多孔板的每个孔中设定并进行PCR反应。在一个具体实施方式
中, 对于库中的很多克隆,在同一个热循环仪中同时进行多个板的PCR反应。在另一个具体实施方式
中,克隆载体/或质粒中携带的杂交探针这样产生直接 使用这些载体或质粒而不通过酶式方法将探针切割出来或通过PCR扩增DNA片段。携带DNA 探针的载体或质粒可以生长至需要的数量并且被纯化。将纯化的载体或质粒置于使其变成 单链的条件中,然后直接固定于固体支持材料上或混合于液体溶液中,从而用作杂交探针。
在替代的实施方式中,通过体外转录从库中包含的DNA模板克隆产生RNA杂交探 针。这些可以是常规RNA探针或增强后续步骤可操作性的引入了生物素化核苷酸的RNA探 针。在实践中,在探针用于杂交之前,这些探针(从克隆载体或质粒通过酶式方法切 割下来的DNA片段,或每个孔中的PCR扩增子,或载体或质粒)需要经过纯化。对应于每个 靶标的经纯化的DNA探针的数量需要被定量。在一个具体实施方式
中,通过体外逆转录从以上获得的包含于库中的模板DNA获 得基因的cDNA或cRNA,从而产生杂交探针。cDNA或cRNA (长度为基因的部分长度至全长) 可用于这些目的。如果cDNA或cRNA只含有基因的部分长度(特别是对于那些长基因来 讲),需要使用多个cDNA或cRNA以确保这些cDNA探针的组合覆盖横越基因的全长。使用 单一全长cDNA或跨越基因的全部外显子区域的多个部分长度的cDNA确保捕获针对该特定 基因的全部外显子集合。在实践中,这些cDNA或cRNA可以含有少数的序列误差,只要这些误差的效应不累 积至足以严重破坏用于捕获的杂交步骤的结合特异性和效率的程度。这种低于100%无误 差的要求将降低产生探针的步骤的成本。在步骤170中,通过杂交捕获靶标基因组DNA区域并洗脱。根据本发明,通过以上任何一种方法获得的合适数量的DNA/RNA探针可用作捕获 靶标gDNA区域的杂交探针。原则是使用饱和浓度的杂交DNA/RNA探针以确保有效捕获。在 将双链探针置于固体支持材料上或混合于液体溶液中的过程之前和/或之中,将双链探针 置于使其变成单链的条件。通过体外转录产生的单链RNA探针直接用于杂交。通常通过以下方法或其组合将DNA杂交探针置于固体支持材料上(a)使用任何 常规基因芯片阵列点样机(genechip arrayer)或基因芯片打印机(genechip printer)将 探针点印于玻璃片上;和(b)通过人工方式将探针置于固体支持材料上。固体支持材料包括但不限于,玻璃片,以亲和素、链霉亲和素或其它任何适合于 DNA结合或排斥的包被物包被的玻璃片,无任何包被物的玻璃珠,以亲和素、链霉亲和素或 其它任何用于DNA结合或排斥的包被物包被的玻璃珠,Southern或Northern或Western 印迹杂交中通常使用的任何薄膜,以亲和素、链霉亲和素或其它任何包被物包被的在 Southern或Northern或Western印迹杂交中通常使用的任何薄膜,以亲和素或链霉亲和素 包被或不包被的多孔板。另一种使用克隆载体/质粒中携带的杂交探针的方式是直接使用这些载体/质粒 而不将探针通过酶式方法切割出来或通过PCR扩增DNA片段。携带DNA探针的载体/质粒 可以生长至需要的数量并且被纯化。将含有针对靶标基因组区域的DNA探针的载体/质粒 直接固定于固体支持材料上作为单链DNA,从而用作杂交探针。在一个具体实施方式
中,为了使DNA探针与固体支持材料结合得更紧密,可以在 将其放置之后使用烘焙(baking)和/或UV交联。在一个具体实施方式
中,可以不先将杂交探针固定于固体材料上,而是混合于杂 交溶液中以用于液相中的捕获反应。杂交之后,在步骤180中,通过使用合适的使结合的DNA从探针上释放的条件洗脱 所捕获的基因组区域。所述条件包括但不限于,温度的变化,盐浓度的变化和/或溶液PH的变化。将释放的DNA收集起来(如果需要的话进行扩增)以备将来之用。本发明的一个方面提供了从生物样品中捕获和/或扩增靶标基因组区域的试剂 盒。在一个具体实施方式
中,在一个具体实施方式
中,试剂盒具有包括感兴趣的靶标基因 组区域的含有模板DNA探针的克隆库,其中模板DNA克隆通过将从靶标基因组区域获得的 DNA模板克隆进入克隆载体而形成;从库中的DNA模板克隆产生的杂交探针;以及将靶标基 因组DNA区域与所产生的杂交探针杂交从而捕获靶标基因组DNA区域的工具。此外,试剂盒具有洗脱捕获的基因组片段(将其从杂交探针上释放并分离)的工 具和用于检测洗脱的基因组片段的身份的工具。在一个具体实施方式
中,杂交工具包括具有一个或多个表面的固体支持材料,其 中杂交探针置于这些表面上以用于杂交探针与靶标基因组DNA区域的杂交,或者包含溶 液,杂交探针混合于该溶液中以用于杂交探针与基因组和/或线粒体DNA片段的杂交。在一个具体实施方式
中,模板DNA克隆库储存于计算机化数据库并由其管理。以下提供了根据本发明的具体实施方式
的示例性方法及其相关结果,这不是为了 限制本发明的范围。注意为了读者方便,可以在实施例中使用标题或小标题,这不是为了 以任何方式限制本发明的范围。此外,本文提出并公开了一些理论;但是,不论这些理论是 对是错,均不是以任何方式限制本发明的范围。以下示例性实验数据证明本发明的方法以高效率选择性捕获靶标基因组 DNA(gDNA)。主要想法是使用基于cDNA探针的方式作为高密度基于寡聚体的基因芯片方法 的低成本替代方式。为了测试根据本发明的方法捕获gDNA片段的特异性,以限制性内切酶 (HindIII)消化人类gDNA(50 μ g)。然后通过本发明的方法捕获gDNA片段并进行鉴定。在这个示例性的实验中,测试了两个cDNA捕获探针。一个是捕获GJB2的编码序 列(其编码连接蛋白26(Cx26)蛋白)的cDNA探针,其结果显示于图2A。另一个设计为捕 获编码人类肌球蛋白7a蛋白的MY07A的一部分(外显子5至7),其结果显示于图2B。经 HindIII消化的gDNA被捕获并被洗脱。以引物对(其设计显示于图2中的图的顶端)进 行的第一个特异性PCR扩增用于测试捕获的特异性。阳性样品来自经本发明的方法捕获的 人类gDNA,显示于图2A中的泳道2和3,阳性对照显示于图2A中的泳道5。泳道5中使用 的人类gDNA未经任何处理。所有的样品均产生预期大小的清晰的带。从阴性对照洗脱的 DNA(来自鲑鱼精的DNA样品或直接从水进行PCR,分别显示于图2A中的泳道1和4)未产 生任何带。为了测试gDNA捕获的特异性,使用针对MY07A的外显子5至7设计的引物对通 过PCR扩增捕获并洗脱的DNA,结果均为阴性的,如图2A中泳道6_8所示。泳道9是另一 个直接从水进行PCR的阴性对照。使用未经消化的人类gDNA(未经过本发明的方法处理) 的阳性对照产生了清晰的带,如图2A中泳道10所示,其具有预期大小。这些结果提示通 过本发明的方法针对GJB2 (编码Cx26蛋白)捕获的gDNA富集了 gDNA片段中想要的靶标 (其特异性包含GJB2),但没有富集不在靶标中的其它区域(例如MY07A)。为了测试设计用于从gDNA扩增MY07A的引物对(如图2A顶端图所示)是否能够 产生阳性结果,通过本发明的方法从HindIII消化的gDNA片段中捕获了 MY07A的外显子5 至外显子7。捕获并洗脱的人类gDNA片段(图2B中的泳道A)和阳性对照(图2B中的泳 道D,其为通过PCR从未经消化的人类gDNA直接扩增)均产生预期大小的清晰的带。相反, 捕获之后来自鲑鱼精DNA的PCR扩增物(图2B中的泳道B)和直接来自水的(图2B中的泳道C)产生了阴性结果。为了确定本发明的方法的捕获效率,首先以Bsu36I消化gDNA。经消化的gDNA的总 量的10%用作捕获前对照样品。其余的90%的gDNA样品经过本发明的方法捕获GJB2(Cx26 的外显子2)。通过Southern印迹检测捕获前和洗脱后的DNA,捕获前和捕获后样品均在预 期的 2400bp大小处显示出单一的带,如图3中箭头所示。比较这两条带的相对强度可以 得到本发明的方法对人类gDNA样品的捕获效率为 56%。因此,本文呈现的数据证明本发 明的方法能够从人类基因组DNA捕获靶标外显子,其具有高度特异性和有效性。图4显示了对根据本发明的方法捕获到的gDNA用另一种方法作的确认。这次我 们用的是Illumina Genome高通量测序仪。在测序中我们测了单边52个碱基并加上解样 品的分子编码的过程。图4A中显示的是四个独立的样本。捕捉到的DNA小片段和MY015A 的基因序列作了比对。比对的结果用颜色编码。我们挑了 MY015A基因的原因是因为这个 基因的结构是所有耳聋基因中最复杂的。所有样本的颜色编码的结果均显示捕捉到的DNA 小片段的富集模式完全和MY015A的基因结构重合。因为捕捉探针的目标针对的是MY015A 的外显子区域,这些结果说明我们的基因捕捉方法具有很好的特异性。图4B显示MY015A 外显子的目标区域中的每个碱基被覆盖了 20到1106次。平均的覆盖次数是476次。这种 覆盖的均一性至少可以对同一个突变测20次。这样对任意一个碱基用下一带高通量测序 仪测错的概率就可以下降到每42°中有一个,这是相当相当的小。本发明的优点迄今为止,旨在选择性同时捕获上千个外显子或其它数目的靶标外显子和基因 组区域的最成功的方法是将基因组DNA(gDNA)片段与高密度寡聚体基因芯片杂交,然后 通过洗脱释放捕获的DNA片段(Albert等人,2007 ;Okou等人,2007 ;Porreca等人,2007 ; Gnirke等人,2009)。在现有技术中,捕获基因组DNA所需的饵探针是在高密度基因芯片上 原位合成的DNA寡聚体。相反,根据本发明,用于捕获基因组DNA的靶标区域的饵探针是从 cDNA库或其它类型的DNA模板产生的。现有技术中使用的方法与本发明相比具有以下缺占.(1)生产高密度寡聚体基因芯片需要非常昂贵和专业的基因芯片生产机器。但是, 本发明的方法不需要这样的专业机器,因此显著降低了操作成本,这能够使捕获的DNA片 段获得广泛应用,例如下一代的测序系统。目前,只有少数几个公司具有生产高密度寡聚体基因芯片的核心技术。为了在高 密度微阵列基因芯片上原位合成大量的寡聚体探针,需要大量的资金和操作规模以运行寡 聚体合成机器。但是,根据本发明的方法使世界上大量的具有常规设备的小规模实验室、公 司、医院和其它使用者能够进行大规模的基因捕获和/或选择性靶标基因系列(或基因组 区域)的捕获以用于遗传、诊断和其它分析。该方法尤其适合于选择性捕获高度选择性的 靶标基因系列,例如与特定疾病相关的基因,或相关疾病的特定系列,或可能产生对疾病的 易感性的遗传标记物。在这样的应用中,通常要靶向数百个基因的系列,这使得使用cDNA 模板库的方法尤其适合于实际操作。(2)在高密度微阵列中使用短探针限制捕获DNA片段的有效性和特异性。但是,根 据本发明,使用长cDNA模板以产生饵探针的方法增加了捕获DNA片段的特异性和有效性。通过照相平版印刷法原位合成的寡聚体杂交探针用于产生置于高密度微阵列基因芯片上的杂交饵探针(Albert等人,2007 ;Okou等人,2007 ;Porreca等人,2007 ;Gnirke 等人,2009)。为了捕获靶标基因组DNA片段的目的,故意将寡聚体探针的长度增加至大约 80个碱基对(bp)甚至更长(Gnirke等人,2009),以确保更有效地捕获(Albert等人,2007 ; Okou等人,2007 ;Porreca等人,2007)。合成更长的探针是技术上的挑战,并且基因芯片的
生产会更加昂贵。已经知道高密度寡聚体微阵列捕获物含有大约一半的不是来自想要的靶标的DNA 片段(Albert等人,2007 ;Okou等人,2007 ;Porreca等人,2007)。短的寡聚体DNA探针的使 用是引起污染问题的部分原因。相反,根据本发明,使用了比现有技术中使用的DNA寡聚体探针(Albert等人, 2007 ;Okou等人,2007 ;Porreca等人,2007)长得多的全长cDNA探针或长的DNA探针缓解 了上述问题。通过使用典型长度为2,OOObp的饵探针,通过使用更严谨的杂交条件,改进了 杂交步骤中捕获的特异性。本发明的方法使用的长的DNA探针还确保了可以使用高度严谨 杂交条件,在该条件下靶标DNA片段仍然能够与探针结合。这些高度严谨杂交条件应该能 够减少非特异性结合,从而减少非靶标基因组区域的非特异性捕获。由于捕获基因组和线粒体DNA片段时不需要可表达的和100%无误差的DNA克隆, 所以显著减少了获得代表任意特定生物物种所表达的完整基因系列的DNA库所需的工作 量。另外,现在已经可以在公开市场通过商业渠道获得一些物种的很多基因的全长cDNA或 开放读码框cDNA克隆。通过从商业渠道直接购买这些克隆,更大的缩短了完成构建DNA探 针库所需的时间。(3)现有技术中使用的高密度微阵列基因芯片上的小的斑点尺寸显著限制了捕获 的能力和完整性。但是,根据本发明的方法能够使尺寸大得多的斑点置于固体表面上,甚至 使用cRNA探针在溶液中进行杂交。对于500k-探针高密度微阵列基因芯片来讲,每个部件的典型斑点尺寸是大约 15x18 μ m (或270 μ m2) (Cutler等人,2001)。更高的密度和更大的斑点尺寸是两个不可兼得 的要求。对于目前市场上最先进的微阵列基因芯片来讲,一个基因芯片上组装了 2,100, 000 个探针,对于每个部件来说斑点更小。这些超高密度基因芯片的价格也更加昂贵。小的斑 点尺寸会降低捕获能力,特别是需要使用更大量的基因组和线粒体DNA作为下游应用的材 料的时候。在本发明中,DNA探针斑点以低得多的密度被固定于玻璃片上,或者被固定于玻璃 珠的表面上,或者这些探针被固定于多孔板的孔的表面。通过常规阵列点样机点印的探针 将具有大得多的表面积(对于玻璃片上的每个探针来讲),因为探针斑点的密度低得多。通 过常规阵列点样机产生的斑点尺寸是可以调节的,通常比500k微阵列基因芯片上产生的 斑点大50倍。通过使用玻璃珠、薄膜和多孔板可以为杂交探针提供更大的表面积。所有这 些因素均有助于获得更高的DNA捕获能力。如果RNA杂交探针用于捕获基因组DNA片段,则可以在液体溶液中直接使用这些 探针而不首先将其固定在固体材料上。在液相中进行的DNA捕获的能力将会更高。当成本是一个重要的考虑因素时(任何成功的商业操作一向如此),每个基因芯 片能够捕获的DNA片段的饱和量成为重要问题。例如,两个商业渠道可获得的大规模并行 DNA测序系统(SOLiD系统和Illumina系统)的最低起始DNA数量为0. 1 μ g。人类的外显子大约为总基因组的2%。对于从2毫升人类唾液或血液样品中通常可以获得的40-100 μ g 基因组DNA来讲,其中0. 8-2 μ g应该是外显子区域。这至少比用于下游遗传分析的基因组 DNA的最低数量高8倍。因此,如何在尽可能少的机器操作轮次中尽可能完全地捕获所有的 基因组DNA和线粒体片段对于成功进行所有外显子系列的分析是至关重要的。由于每次机 器运行的成本是大约$8,000-10,000,所以更少的机器运行将显著降低操作成本。由于本发明的方法可以捕获更多的靶标基因组DNA,所以在很多情况下可能不需 要在将样品送去进行大规模并行测序之前进行PCR扩增。避免过多的PCR步骤对于测序应 用是至关重要的,因为PCR扩增之后不同基因之间的相对量的差异通常为至少100倍。这 为基于克隆单一分子测序方法的下一代测序(以覆盖所有需要的靶标)提供了取样偏向。(4)现有技术使用的高密度微阵列基因芯片的能力不足以在单一基因芯片上捕获 人类外显子的完整集合(人类外显子组)。但是,根据本发明的方法提供了捕获人类外显子 的完整集合的能力,因为使用了从cDNA模板产生的长的饵探针。这显著降低了操作成本。在现有技术中,叠瓦式(tiling)探针或非叠瓦式探针跨越覆盖整个基因,通常具 有不超过IObp的缝隙间隔。这是因为探针之间的更大的间隔或针对给定区域的单一探针 将降低捕获全部基因的机会。假设寡聚体探针的间隔为10bp,则500k-探针阵列最大可以 捕获5,000,OOObp的长度。通过相同的分析可以得知,2,000,000-探针高密度微阵列基因 芯片可以捕获20,000,OOObp0这对于捕获人类外显子的全部集合所需的60,000,OOObp仍 然是不足的。所以,要么是降低对间隔的要求,要么通过使用多个寡聚体高密度微阵列完成 全部外显子组的捕获。这些方案要么降低有效捕获的机会,要么显著增加操作成本。对于 目前市场上最流行的500k微阵列来讲,需要10-12个基因芯片以捕获人类外显子的全部集
I=I O相反,典型的基因芯片点样机(例如,Genomics Solutions生产的OmniGrid Arrayer 0GR-03)能够将至少80,000个斑点点印在常规玻璃片上。平均来讲,每个人类基 因将在玻璃片上具有一个以上的斑点,因为估计人类基因的总数时大约30,000。因此,本发 明实现了使用点印于单一玻璃片上的单一杂交阵列捕获所有人类外显子的能力。这个覆盖 能力不是通过使用更多的探针实现的,而是通过使用更长的和/或全长的DNA探针实现的。(5)已知点印于高密度微阵列上的寡聚体探针产生不一致的捕获。但是,根据本发 明的方法提供了解决这个问题的灵活性。最近发表的论文均承认捕获中的不均一性是有效利用下一代测序平台的重大阻 碍(Porreca等人,2007)和(Albert等人,2007 ;Porreca等人,2007)。但是,根据本发明, 可以调整相对捕获效率从而确保在所有基因靶标上的一致性捕获。这是通过调整放置于阵 列设计中的基因的相对比例实现的。通过增加那些始终表现出较低捕获效率的针对外显子 和基因组区域的探针的数目,可以调节并改进捕获的一致性。总之,本发明提供了使用从模板DNA克隆产生的杂交DNA和RNA探针选择性捕获 并扩增来自任意生物物种(包括动物、植物、真菌、原生动物、古生菌和真细菌)的基因组、 线粒体和其它形式的DNA的所有外显子、外显子的任意子集、或任意其它目标区域的方法。以上的本发明的示例性具体实施方式
的描述仅是为了解释和描述本发明的目的, 不是为了穷举或将本发明限制在所公开的确切形式上。根据以上教导可进行很多修饰和改 变。
具体实施方式
的选择和描述是为了解释本发明的原理及其实际应用,从而使本领 域其它技术人员应用本发明和各种具体实施方式
并进行适合于所考虑的特定用途的各种 修饰。不脱离本发明的精神和范围,替代性的具体实施方式
对于本发明所属领域技术人员 将是显而易见的。因此,本发明的范围由随附的权利要求限定,而不是由以上的说明书和其 中描述的示例性具体实施方式
所限定。参考文献Albert TJ, Molla MN, Muzny DM, Nazareth L, Wheeler D, SongX, Richmond TA, Middle CM,Rodesch MJ,Packard CJ, WeinstockGM, Gibbs RA(2007)Direct selection of human genomic loci bymicroarray hybridization. Nat Methods 4 :903-905.Cutler DJ, Zwick ME, Carrasquillo MM, Yohn CT, Tobin KP, Kashuk C, Mathews DJ, Shah NA, Eichler EE, Warrington JA, Chakravarti A(2001)High-throughput variation detection andgenotyping using microarrays. Genome research 11: 1913-1925.Gnirke A, Melnikov A, Maguire J, Rogov P, LeProust EM, Brockman W,Fennell T, Giannoukos G, Fisher S, Russ C, Gabriel S, Jaffe DB, Lander ES, Nusbaum C(2009) Solution hybrid selection withultra-long oligonucleotides for massively parallel targeted sequencing. Nature biotechnology 27:182—189.Margulies EH,Vinson JP,Miller W,Jaffe DB,Lindblad-Toh K,Chang JL,Green ED, Lander ES, Mullikin JC, Clamp M(2005)Aninitial strategy for the systematic identification of functional elementsin the human genome by low-redundancy comparative sequencing. Proceedings of the National Academy of Sciences of the United Statesot America 102 :4795_4800.Okou DT, Steinberg KM, Middle C, Cutler DJ, Albert TJ, ZwickME(2007) Microarray—based genomic selection for high-throughputresequencing. Nat Methods 4 -.907-909.Porreca GJ,Zhang K,Li JB, Xie B, Austin D, Vassallo SL, Leproust EM,Peck BJ, Emig CJ, Dahl F, Gao Y, Church GM, Shendure J(2007)Multiplex amplification of large sets of human exons. Nat Methods.Stephens M,Sloan JS,Robertson PD,Scheet P,Nickerson DA(2006)Automating sequence-based detection and genotyping of SNPsfrom diploid samples. Nature genetics 38 :375_381.
1权利要求
一种从生物样品中选择性捕获和/或扩增外显子或靶标基因组区域的方法,包括以下步骤a)获得针对靶标基因组区域的DNA模板;b)将DNA模板克隆进入克隆载体以形成模板DNA克隆;c)构建至少包括靶标基因组区域的模板DNA克隆库;d)从库中的DNA模板克隆产生杂交探针;e)通过靶标基因组DNA片段与所产生的杂交探针的杂交捕获靶标基因组DNA区域;和f)通过使用将结合的DNA从杂交探针上释放的条件洗脱捕获的基因组区域。
2.根据权利要求1所述的方法,其中从来自生物样品的总RNA或mRNA通过逆转录获得 DNA模板。
3.根据权利要求1所述的方法,其中通过进行多重聚合酶链反应(PCR)或通过基因合 成获得DNA模板。
4.根据权利要求1所述的方法,其中针对预先确定的线粒体DNA片段或全长的线粒体 DNA产生DNA模板。
5.根据权利要求1所述的方法,其中克隆步骤包括将DNA模板连接进入克隆载体或质 粒的步骤。
6.根据权利要求1所述的方法,其中取决于起始RNA材料,模板DNA探针的克隆库代表 生物样品表达的基因的全长RNA、开放读码框RNA或部分长度的cDNA。
7.根据权利要求1所述的方法,其中当通过多重PCR或基因合成扩增内含子区域时,模 板DNA克隆库代表目标内含子区域。
8.根据权利要求1所述的方法,其中通过cDNA逆转录或PCR反应制备的库中的模板 DNA克隆用于捕获生物样品的外显子;其中通过多重PCR扩增内含子区域制备的库中的模 板DNA克隆用于捕获生物样品的内含子区域;其中从线粒体DNA制备的库中的模板DNA克 隆用于捕获生物样品的线粒体DNA
9.根据权利要求1所述的方法,其中库中的模板DNA克隆按照自动化系统可以操作的 形式进行组织。
10.根据权利要求1所述的方法,其中模板DNA克隆的信息储存在计算机化数据库中, 该信息至少包括身份、序列构象、产生日期和每个克隆的位置。
11.根据权利要求1所述的方法,其中构建步骤包括以下步骤a)检验库中的模板DNA克隆的质量和完整性;和b)监视并保持库中的模板DNA克隆的质量以长期使用。
12.根据权利要求11所述的方法,其中检验步骤包括以下步骤a)确认库中每个克隆的DNA序列;和b)将克隆的DNA序列与生物样品的靶标基因或靶标基因组区域的参考DNA序列进行比 较从而检测库中的克隆的完整性。
13.根据权利要求1所述的方法,其中使用限制性酶将模板DNA片段/探针从克隆载体 或质粒中消化出来,从而释放克隆载体或质粒中携带的DNA片段,由此产生杂交探针。
14.根据权利要求1所述的方法,其中使用克隆载体或质粒的多个克隆位点上包含的 通用引物对序列通过PCR扩增产生杂交探针。
15.根据权利要求1所述的方法,其中通过直接使用克隆载体或质粒产生杂交探针而 不将模板探针通过酶式方法切割出来或通过PCR扩增DNA片段。
16.根据权利要求1所述的方法,其中从模板DNA克隆通过体外转录产生探针。
17.根据权利要求1所述的方法,其中通过库中的模板DNA的体外逆转录获得基因的 cDNA或cRNA,从而产生杂交探针。
18.根据权利要求1所述的方法,其中捕获步骤包括将杂交探针固定于固体支持材料 的表面或将杂交探针混合于溶液中的步骤。
19.根据权利要求18所述的方法,其中条件包括温度的变化,盐溶液的变化或溶液pH 的变化。
20.一种从生物样品中选择性捕获和/或扩增靶标基因组区域的方法,包括以下步骤a)提供至少包括靶标基因组区域的模板DNA克隆库;b)从库中的DNA模板克隆产生杂交探针;和c)通过靶标基因组DNA区域与所产生的杂交探针的杂交捕获靶标基因组DNA区域。
21.根据权利要求20所述的方法,其中提供步骤包括以下步骤a)获得针对靶标基因组区域的DNA模板;b)将DNA模板克隆进入克隆载体以形成模板DNA克隆;c)构建至少包括靶标基因组区域的模板DNA克隆库;和d)检验库中的模板DNA克隆的质量和完整性。
22.根据权利要求20所述的方法,还包括以下步骤a)通过使用将结合的DNA从杂交探针上释放的条件洗脱捕获的基因组区域。
23.根据权利要求20所述的方法,其中靶标基因组区域包括来自生物样品的基因组、 线粒体和其它形式的DNA的外显子、外显子的子集或目标区域,所述生物样品包括动物、植 物、真菌、原生动物、古生菌和/或真细菌。
24.一种用于从生物样品中捕获和/或扩增靶标基因组区域的试剂盒,包括a)至少包括靶标基因组区域的模板DNA克隆库,其中模板DNA克隆通过将从靶标基因 组区域获得的DNA模板克隆进入克隆载体而形成;b)从库中的DNA模板克隆产生的杂交探针;和c)将靶标基因组DNA区域与所产生的杂交探针杂交从而捕获靶标基因组DNA区域的工具。
25.根据权利要求24所述的试剂盒,其中杂交工具包含a)具有一个或多个表面的固体支持材料,其中杂交探针置于这些表面上以用于杂交探 针与靶标基因组DNA区域的杂交;或b)溶液,杂交探针混合于该溶液中以用于杂交探针与基因组DNA区域的杂交。
26.根据权利要求24所述的试剂盒,其中模板DNA克隆库通过人工管理,或通过电子数 据表程序管理,或储存于计算机化数据库中。
27.根据权利要求24所述的试剂盒,还包含用于洗脱捕获的基因组区域的工具。
28.根据权利要求27所述的试剂盒,还包含用于检测洗脱的基因组片段/区域的工具。
全文摘要
在一个方面,本发明涉及从生物样品中选择性捕获和扩增外显子或靶标基因组区域的方法。在一个具体实施方式
中,该方法包括以下步骤获得针对靶标基因组区域的DNA模板,将DNA模板克隆进入克隆载体以形成模板DNA克隆,构建至少包括靶标基因组区域的模板DNA克隆库,从库中的DNA模板克隆产生杂交探针,通过靶标基因组DNA样品(通过机械方法或酶学方法片段化)与所产生的杂交探针的杂交而捕获靶标基因组DNA区域,以及通过使用将结合的DNA从杂交探针上释放并分离的条件洗脱捕获的基因组片段。
文档编号C12Q1/68GK101942431SQ20101020557
公开日2011年1月12日 申请日期2010年6月10日 优先权日2009年6月18日
发明者李玉华, 林曦, 汤文学 申请人:林曦;汤文学;李玉华
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1