用于核酸作图和鉴定核酸中的精细结构变化的方法

文档序号:9838525阅读:479来源:国知局
用于核酸作图和鉴定核酸中的精细结构变化的方法
【专利说明】用于核酸作图和鉴定核酸中的精细结构变化的方法
[0001 ] 本申请为分案申请,原申请的申请日为2009年7月9日,申请号为200980135935.8(PCT/CN2009/000777),发明名称为“用于核酸作图和鉴定核酸中的精细结构变化的方法”。
[0002]相关申请的交叉引用
[0003]本申请要求基于以下申请的优先权:提交于2006年I月4日的美国专利申请号60/756,417;提交于2006年4月17日的美国专利申请号60/792,926;提交于2006年6月15日的美国专利申请号60/814,378;提交于2008年7月10日的美国专利申请号61/129,660;提交于2008年12月I日的美国专利申请号61/193,442;提交于2007年I月3日的美国专利申请号11/649,587;以及提交于2007年12月12日的美国专利申请号11/954,947,所述申请都通过引用以其整体结合于本文中。
发明领域
[0004]总体而言,本发明涉及用于高通量分析核酸中的精细结构变化的方法。具体而言,本发明涉及产生连接的核酸标签对的新策略、载体和其它组分,其中连接的核酸标签对的组成成员具有用户定义的间隔距离和/或为核酸位置的标记,其沿着靶核酸分子的长度划分一种或多种不同限制性内切核酸酶的相邻切割位点。在一个优选的实施方案中,将本发明用于鉴定可与表型相关的基因组改变或标记物。在另一个优选的实施方案中,将本发明用于产生高分辨率的基因组图谱以有助于从鸟枪DNA测序中进行基因组组装。
[0005]发明背景
[0006]尽管最丰富且研究最深入的人类基因组变体类型是单核苷酸多态性(3即),但日益清楚的是,包括拷贝数(插入、缺失和重复)改变、倒位、易位和其它序列重排在内的所谓“精细结构变化”为人类基因组和其它基因组的整体特征。这些类型的变化似乎比原先认为的更频繁地存在于一般群体中。建立的证据表明,结构变体可在各个个体中包含上百万具有异质性的核苷酸。理解精细结构变化在基因组进化、与环境的相互作用、表型多样性和疾病中的作用是当前基因组研究中最活跃的研究领域之一。关于综述,参见Feuk等(2006)、Redon等(2006)、Check(2005)、Cheng等(2005)和Bailey等(2002)。
[0007]与SNP分析相比,用于分析精细结构变化的有效高通量方法还没有被充分开发。重要的第一步是阵列比较基因组杂交(阵列CGH)技术(Pinkel等,1998;Pinkel等,美国专利第5,830,645号和第6,159,685号),该技术能够定量靶DNA与参比DNA之间的相对拷贝数。阵列CGH允许以单个排列的细菌人工染色体(BAC)克隆水平的分辨率,可靠地检测DNA样品之间的脱氧核糖核酸(DNA)拷贝数差异(Sni jders等,2001; Albert son等,2000 ; Pinke I等,1998 )。针对cDNA(Heiskanen等,2000; Pol lack等,1999)和高密度寡核苷酸阵列平台(Bignel I等,2004 ; Brennan 等,2004 ; Hung 等,2004 ; Luci to 等,2003)修改阵列CGH 进一步扩展了该方法的分辨率和应用性。通过其应用,阵列CGH已实现鉴定与肿瘤(Pinkel和Albertson, 2005 ; Inazawa 等,2004; Albert son和Pinke 1,2003; Po I lack 等,2002)和疾病进展(Gonzalez等,2005)相关的基因拷贝数变化。
[0008]1.F粘粒配对末端作图
[0009]尽管可用于拷贝数测定,但阵列CGH并不适合确定其它类型的基因组结构变化,最显著地,不适于倒位、易位和其它类型的核酸重排。Tuzun等(2005)尝试用称为“F粘粒(fosmid)配对末端作图”的方法解决这些限制。该方法依靠F粘粒包装的头部完整(head-full) 机制 ,以从测试者中产生具有相当均一的约 40 千碱基对 (kb) 大小的基因组插入物的基因组DNA文库。根据实验,实际片段范围为32kb至48kb,平均值标准差〈3,39.9+/-2.76-kb。随机选择的约40kb文库插入物的末端终止测序产生成对的短序列标签,其中每个标签对标记两个基因组位置,这两个基因组位置沿着靶DNA长度间隔约40kb。然后将标签对与参比基因组组件用计算机比对,在它们的预期方向或它们的约40kb间隔距离方面的任何不一致都表示在跨越该区域的靶和参比核酸之间存在至少一个结构差异。图谱位置间隔超过40kb的标签对表示相对于参比在靶DNA上存在缺失;间隔低于40kb的图谱位置表示在靶标中有DNA插入。已作图的标签对在方向上的不一致表示潜在的DNA倒位或其它复合染色体重排。标签对被分配至参比序列上的两个不同染色体表示染色体易位。通过常规DNA测序对超过百万个单独纯化的F粘粒克隆插入物进行分析,使得Tuzun等(2005)能够在测试者和参比基因组组件之间鉴定出接近300个结构变化位置。
[0010]该作者并没有教导或公开其它产生标签对、产生不同间隔的标签对以改变分析的空间分辨率、改进在它们文库中的插入长度的均一性、通过使用改进型DNA序列分析仪(generat1n DNA sequencer)提高经济性的方法,也没有公开产生其它类型的序列标签对的方法,例如可根据成对相邻内切核酸酶切割位点之间的位置和/或间隔距离划分基因组位置的本发明序列标签对。
[0011 ]许多类型的精细结构变化并不被由F粘粒配对末端作图法所固定的约40kb分辨率窗所分辨。F粘粒配对末端作图具有其它的限制。F粘粒载体以极低拷贝数在宿主细胞中增殖,该特性用于使在某些基因组序列在微生物宿主中增殖期间所遇到的潜在重组、重排和其它人为产物(artifact)最少。尽管目前应用可扩增形式的F粘粒载体(Szybalski,美国专利第5,874,259号),但是由于低DNA收率(与常规质粒相比),末端测序F粘粒克隆以产生序列标签仍具有极差的经济性,使得难以维持高通量自动化模板产生和测序。此外,需要两个独立的序列反应以从单个F粘粒DNA模板中产生标签对序列,因而进一步降低了经济性。
[0012]尽管F粘粒配对末端作图是鉴定人类基因组中的精细结构变化的有用开始,但对于每个测试者,都需要巨大的成本和后勤工作来纯化和测序上百万的F粘粒插入末端,这阻碍了其在广泛群体和人群调查中鉴定基因组变化的应用,所述基因组变化可能与复杂疾病有关或响应环境因素等。此外,F粘粒载体及其变体一般以非常低的拷贝数在宿主细胞中增殖,使得难以维持可靠的自动化DNA产生和测序。因此,需要用于基因组和相关研究中的有效、稳定高通量且低成本的鉴定精细结构变化的方法,以将这些遗传元件与疾病、疾病进展和疾病易感性联系起来。
[0013]2.用于产生基因组标签的现有方法
[0014]多种基于DNA的指纹法在本领域中已描述用于表征和比较基因组(Wimmer等,2002;Kozdro j和van Elsas, 2001; Roui I lard等,2001 ; Schloter等,2000)。所有这些方法都使用靶DNA的限制性内切核酸酶消化、PCR扩增或凝胶电泳分离的某些组合。通常,需要繁琐地从凝胶中提取候选DNA片段用于DNA测序阻碍了这些方法。Dunn等(2002)的工作取得进步,其中他们描述了一种使用IIS型/IIG型限制性内切核酸酶Mme I产生用于分析基因组DNA的“基因组识别标识标签(Genomic Signature Tag)”(GST)的方法。通过将具有Mme I识别位点的连接物连接至基因组DNA片段产生GST,所述基因组DNA片段最初如下产生:通过用11型限制性内切核酸酶初始消化靶基因组D N A,接着用频繁切割的标签酶(f r e q u e n tcutting tagging enzyme)进行第二次消化。用Mme I消化连接物(adaptor)连接的DNA,产生21bp的标签(GST),该标签具有在DNA中相对于初始限制酶消化所识别的位点固定的位置。在通过PCR扩增后,寡聚纯化的GST,用于克隆和DNA测序。将所述标签的同一性及其相对丰度用于建立基因组DNA的高分辨率“GST序列概况”,其可用于鉴定和定量既定的复杂DNA分离物中的最初基因组。使用鼠疫耶尔森氏菌(Yersinia pestis)作为模型系统,Dunn等(2002)能够界定相对简单的基因组中可能已经经历添加或缺失限制性位点的改变的区域。然而,Dunn等(2002)的方法在复杂的基因组如人基因组中的效用有限,在复杂的基因组中,大多数结构变化不能通过简单的获得或失去研究中的少量限制性内切核酸酶位点来揭示。此外,对于即便I个限制性位点,覆盖大基因组或分析多个样品所需的GST数量也是非常高的。与此相反,本发明的GVT对对分析复杂基因组概况或扩展分析多个DNA样品提供经济性和分析能力。
[0015]一种首先由 Velculescu 等(1995)和 Kinzler 等(1995)(美国专利第 5,695,937 号)描述的、称为基因表达的连续分析(Serial Analysis ofGene Express1n ,SAGE)的方法的多种形式,也利用IIS型或IIG型限制性内切核酸酶来产生DNA标签(Ng等,2005; Wei等,2004 ; Saha等,2002)。所谓的“SAGE标签”由cDNA模板产生,以提供对生物样品中cDNA种类的复杂性和相对丰度的评价。新近形式的SAGE称为“LongSAGE”,其利用Mme I消化,产生21bp的序列标签,以标记mRNA转录物(Saha等,2002)。最新的改进形式称为“SuperSAGE”,其利用III型限制性内切核酸酶EcoP15 I产生25bp至27bp的较长标签,用于改善mRNA对基因组的分配(Matsumura等,2003)。尽管本发明也利用IIS型、IIG型或III型限制性内切核酸酶以产生序列标签,但就制备方法和改善的信息内容而言,所得的本发明GVT对与前述SAGE和GST标签根本不同。就产生尤其可用于表征新基因组或注释(annotate)基因组和DNA样品的精细结构变化的高分辨率物理图谱而言,相对于使用单个未连接标签,本发明空间连接的标签对显著改善效率和分析能力。
[0016]Ng等(2005)的近期工作描述了SAGE法的进一步发展。研究者利用Collins和Weissman(1984)首创的方法,在该方法中利用DNA片段环化(也称为分子内DNA连接),以将远端DNA区段一起连接入载体中,产生所谓的“基因组跳跃文库(genomi c jump inglibraries)”(Collins等,1987)。哚等环化单个cDNA,以将其5’和3’来源的SAGE标签连接在一起,产生“配对末端双标签”(PET),然后将其寡聚化,以利于有效测序。通过鉴定转录单元的转录起始位点和聚腺苷酸化位点,以划分基因边界和帮助鉴定它们的侧翼调节序列,可将PET用于基因组注释。尽管本发明GVT对和PET均依靠分子内连接来实现DNA标记连接,但只有本发明GVT对整合了物理距离和其它有用信息例如相邻限制位点的连接,由此使GVT对唯一并可用于详细的基因组结构分析。Ng等(2005)没有教导产生空间上限定的标签或基于如本公开内容所述的其它标准的标签的方法,他们也没有揭示可如何使用他们的PET法获得基因组的精细结构变化或揭示不通过唯一使用IIS型限制性内切核酸酶Mme I产生序列标签的其它方法。最后,Ng等(2005)没有预见能够有效使用下一代短读取(short read)DNA序列分析仪的方法。
[0017]Berka 等(2006)(美国专利申请 2006/0292611)和Kobel 等(2007)最近描述了DNA成对末端作图法,其在功能上类似于本发明,但他们的方法在最终标记的DNA产物的空间方向上根本不同,并且具有某些重要的缺点。在Kobel等(2007)和Berka等(2006)的方法中,工作者将生物素化发夹连接物连接至靶DNA插入物的各个末端,在此之后,通过将连接物序列连接在一起来使分子环化,以使最初的靶DNA末端相互紧密接近,位于新并列的生物素化连接物对的任一侧。然后将环状分子随机切割,以产生具有离最初靶DNA插入物末端的随机距离的暴露的末端。将由此产生的线状DNA片段通过抗生物素蛋白亲和色谱回收,并沿着其全长测序。
[0018]Kobel等(2007)利用下一代DNA序列分析仪GENOME SEQUENCER FLX(RocheDiagnostics, Indianapolis , IN;454 Life Science Corp ,Bradford,CT)(常称为“454-序列分析仪”),得到靶DNA插入物的最初末端序列。然而,如所述产生的所得产物不能有效地在SOLEXA GENOME ANALYZER( 11 Iumina1San 0丨680,04)(常称为“501^乂4序列分析仪”)或产生“短序列读出”的任何下一代测序平台的SOLiD序列分析仪(Applied B1systems,FosterCity, CA)上探询(interrogate) 1bel等(2007)和Berka等(2006)产生的DNA产物采取所谓的“由外向内(outside-1n)”拓补,由此靶DNA插入物的最初末端(“外侧”)以反向位置(“向内”)定向,所述反向位置被新并列的生物素化连接物对所间隔开,所述连接物对随机位于所得DNA片段的长度之内。由于与最初的靶DNA末端相比采取“由外向内”拓补,所以为了确定最初靶DNA片段的末端序列,对于跨过生物素化连接物对并通过DNA产物的另一侧的序列而言,序列测定数百个碱基或以上是必要的。如此产生的大部分产物在454-序列分析仪的400bp读取长度之内。短读取DNA序列分析仪例如SOLEXA的操作成本为454-序列分析仪的十分之一或更低,但通常支持50个碱基的读取长度,该长度不足以绝对精确地探询由Berka等(2006)和Kobel等(2007)的方法所产生的产物。Berka等(2006)描述了他们方法的变体,其中将IIS型限制性内切核酸酶Mme I用于产生对应于最初DNA插入物末端序列的约20个碱基的标签。通过该方法,工作者将标签的长度固定在SOLEXA型DNA序列分析仪的DNA测序能力范围之内。然而,所述标签仍呈“由外向内”拓补,并且由Mme I消化产生的固定的约20个碱基的标签实在太短以致于不能清楚地对复杂基因组作图,以用作基因组工具或辅助序列组装。此外,固定的20个碱基的标签并不能受惠于下一代短读取DNA序列分析仪在读取长度上的最新改进。目前SOLEXA支持的读取长度为来自DNA模板各个末端的50个碱基,预期稍后在2009年增加至76个碱基。
[0019]本发明通过以下几项克服了前述限制:I)产生GVT对的能力,由此可将靶DNA上的标签对成员的间距由Ikb以下改造至数百kb以上,以使检测分辨率适于分析不同类型的核酸和适于任何既定的实验设计;(2)标签对成员之间明显更精确和均一的间距,用于更高的分析精度;(3)基于除了间隔距离之外的其它标准产生基因组标签对的能力,例如基于相邻可切割的内切核酸酶位点的位置和/或相对间隔距离,产生用于改善靶核酸样品的探询的标签对;和(4)为了更高的经济性,使本发明方法适合用于下一代大规模并行DNA序列分析仪中。通过采用所谓的“外向外(outside-out)”拓补学,由此并列的末端序列标签(GVT对)保留与最初靶DNA插入物末端相同的空间方向,并且通过使用频繁切割的II型限制性内切核酸酶以产生平均长度100-200bp的GVT,可将SOLEXA “成对-末端-读取”平台直接译成甚至更长的GVT序列,其仅由该设备的实际读取长度限制。
[0020]发明简述
[0021]本发明涉及产生连接基因组序列的标签对和快速产生高分辨率基因组图谱的系统、方法、组合物、载体、载体组分和试剂盒。本发明产生短并列序列标签(称为基因组变化标签(Genomic Variat1n Tag,GVT))对,其中GVT对的组成成员具有用户定义的间隔距离,和/或为位置的标记,其沿着研究中的核酸分子长度划分一种或多种不同限制性内切核酸酶的可切割的相邻位点。
[0022]当用计算机比对GVT对的各个GVT与参比序列时,它们的预期同一性、间隔距离和/或方向与参比序列的任何不一致都表示靶与参比核酸之间在GVT对跨越的区域中存在一个或多个精细结构差异。以此方式,GVT对的综合文库表示可用于产生高分辨率结构图谱以鉴定核酸群之间的精细结构变化的高分辨率基因组概况。本发明的另一方面使用户能够定义和改变由GVT对标记的核酸群的间隔距离,因此允许产生适合以不同的空间分辨率和物理覆盖率检测精细结构变化的GVT对文库。本发明的另一方面产生为位置标记的GVT对,所述位置沿着研究中核酸群长度紧邻一种或多种不同限制性内切核酸酶的相邻且可切割的识别位点对。因此,可通过产生由使用甲基化敏感的限制性内切核酸酶差异消化产生的序列标签,将本发明用于研究DNA群体的甲基化状态。本发明的另一方面产生以下GVT对,其为一种或多种不同限制性内切核酸酶的相邻且可切割的识别位点对的标记,且在沿着研究中核酸群的长度上被用户定义的距离间隔开。本发明的另一个方面提供用于在靶DNA上产生高达约50kb以上间隔距离的GVT对的方法、载体和DNA骨架。本发明的另一个方面提供产生可在下一代大规模并行DNA序列分析仪上有效测序的GVT对的方法。关于下一代DNA序列分析仪的综述参见Morozova和Marra(2008)以及Mardis(2008)。
[0023]按照本发明的一个方面,将用于分析的目标群DNA随机片段化或在限定位置片段化。将片段化的靶DNA插入物连接至合适的载体或DNA骨架中,由此将连接的靶插入物用一种或多种频繁切割的II型限制性内切核酸酶消化,所述核酸酶在离各个末端有用的距离上切割所述插入物引起间插序列的释放,得到依然连接至未消化载体或DNA骨架的GVT对。通常,用具有4个碱基识别位点的频繁切割的II型限制性内切核酸酶消化产生100-200bp长度的GVT,该长度对应于靶DNA插入物的末端与第一个切割位点的位置之间的平均距离。通过将GVT连接在一起产生GVT对将新产生的载体-GVT复合体重新环化,所述GVT对表示处于与最初的靶DNA插入物相同的相对方向的并列末端区。通过在GVT对侧翼的限制性内切核酸酶位点消化或者通过利用用GVT对侧翼的合适引物的PCR,将GVT对从载体或DNA骨架中释放出来。当将GVT对的单个GVT序列用计算机与参比序列比对时,它们的预期同一性、间隔距离或方向与所述参比上排列的那些的任何不一致都表示靶与参比核酸之间在GVT对跨越的区域中存在一个或多个精细结构差异。因此,多个GVT对列成表格的序列(tabulated sequence)构成靶核酸群相对于参比序列的详细基因组概况。
[0024]按照本发明的另一个方面,将片段化的靶DNA克隆至新型粘粒载体PSLGVT-28、pSLGVT-35、pSLGVT-36、pSLGVT-37或pSLGVT-38中,用于产生用于使用下一代S0LEXA、S0LiD或454-DNA序列分析仪的序列测定中的45-50kb间隔距离的GVT对。本发明的这些和其它方面在参考以下详述时将变得显而易见。此外,将各种参考文献(包括专利、专利申请和期刊文章)标识如下并通过引用结合到本文中。
[0025]本发明或其衍生产物(derivedproduct)提供的有用应用包括但不限于高分辨率基因组图谱的快速构建,所述图谱可用于:(1)鉴定基因组的精细尺度变化(fine-structural-variant) ,该精细尺度变化促成人类多样性,并可能引起疾病、疾病进展或疾病易感性以及用作诊断学或治疗干预靶的其它所观察到的性状;(2)使得能够设计和建立用于快速和大规模并行探询DNA样品中的精细结构变体的寡核苷酸微阵列或其它测定方法,用于医学诊断、基因分型和其它这样的有用用途;(3)促进由完整基因组或鸟枪DNA测序法精确并快速地进行DNA组装;(4)鉴定由差异RNA加工产生的RNA转录物的精细结构变化,以有助于基因组注释、功能基因组研究和潜在疾病诊断;(5)建立基因组概况,以促进比较基因组学和系统发生研究和有助于差异鉴定密切相关的生物;和(6)建立相关品系、品种(race)、生物型、变体、品种(breed)或物种的基因组概况,以鉴定可能引起任何可观察到的理论、医学或商业目标表型的基因组元件。
[0026]发明详述
[0027]本发明提供新型改进的高通量方法、载体和载体组分,以筛选和鉴定核酸群中的精细结构变化。本发明包括产生并列序列标签(GVT)的体外和体内方法,所述并列序列标签中标签对(GVT对)的两个组成成员为限定间隔距离的独特位置标记和/或为核酸位置的标记,其沿着多个革G核酸分子的长度划分一种或多种不同限制性内切核酸酶的相邻切割位点。所述方法包括:将靶核酸分子片段化以形成靶DNA插入物;将靶DNA插入物与DNA载体或骨架连接,以产生环状分子;用一种或多种核酸酶优选频繁切割的II型限制性内切核酸酶消化靶DNA插入物,以在离靶DNA插入物各个末端的一定距离上切割靶DNA插入物,从而产生两个序列标签(GVT),其包含
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1