用于核酸作图和鉴定核酸的精细结构变化的方法以及用途的制作方法

文档序号:594901阅读:653来源:国知局
专利名称:用于核酸作图和鉴定核酸的精细结构变化的方法以及用途的制作方法
用于核酸作图和鉴定核酸的精细结构变化的方法以及用途 相关申请的交叉参考
本申请要求保护基于2006年1月4日申请的美国临时专 利申请美国序号60/756,417、 2006年4月17日申请的美国临时专利 申请美国序号60/792,926和2006年6月15日申请的美国临时专利申 请美国序号60/814,378的优先权。前述临时申请的完整内容通过引用 结合到本文中。发明领域
—般地讲,本发明涉及高通量分析核酸的精细结构变化的 方法。具体地说,本发明涉及产生:连接核酸的标签对的新策略、载体 和载体组分,其中连接的核酸标签对的组成成员处于用户限定的分隔 距离,和/或为沿着靶核酸分子长度分界一个或多个不同限制性内切核 酸酶的邻近切割位点的核酸位置的标记。发明背景
尽管最丰富且研究最深入的人类基因组变体类型是单核苷 酸多态性(SNP),但日益清楚的是,含有拷贝数(插入、缺失和复制) 改变、倒位、易位和其它序列重排的所谓"精细结构变化"为人类基 因组和其它基因组的整体特征。这些类型的变化似乎以比最初设想高 得多的频率存在于一般人群中。建立的证据表明,结构变化可在每个 基因组中包含上百万的核苦酸异质性。理解精细结构变化在基因组进 化、与环境的相互作用、表型多样性和疾病或疾病易感性中的作用是 当前基因组研究中最活跃的研究领域之一。关于综述,参见Bailey等 (&,e"ce "7:1001 (2002》,Check (A^w,e W7:1094 (2005》,Cheng等 (M ft^e 437:88 (2Q05》和Feuk等(W加i ev/ews 7:85 (2006), Redon等
猪(2006》。
与SNP分析相比,用于分析精细结构变化的有效高通量方 法还没有被充分开发。重要的第一步是阵列比较基因组杂交(阵列 CGH)技术(Pinkel等,20:207 (1998); Pinkel等,美国专利第 5,S邓,"5号和第6,759,6S5号),该技术能够定量革巴DNA和参比DNA 之间的相对拷贝数。阵列CGH允许以单个排列的细菌人工染色体 (BAC)克隆水平的分辨率可靠地检测DNA或基因组样品之间的脱氧 核糖核酸(DNA)拷贝数差异(Pinkel等,7Vaf 20: 207 (1998);Albertson等,淑G匿f 25:144 (2000); Snijders等,胸":263 (2001))。针对cDNA (Heiskanen等,Ca"cw i^s 60:799 (2000); Pollack 等,23:41 (1999》和高密度寡核苷酸阵列平台(Brennan等, Ca"cer Wm (5(4744 (2004); Lucito等,Ge"ome ":2291 (2003); Bignell等,":287 (2004); Hung等,Hww Ge"om/" /:287 (2004))修改阵列CGH进一步扩展了该方法的分辨率和应用性。通过 其应用,阵列CGH已能够鉴定与肿瘤(Inazawa等,Ca"cer 7:559 (2004); Pinkel和Albertson, A^Gew" 37增刊:Sll (2005); Pollack等, Proc 爿cad Sc/ [/&4 99:12963 (2002); Albertson和Pinkel, /fwm Mo/ " Spec A^o 2: R145 (2003》和疾病发展(Gonzalez等,Sdewce 307:5714 (2005》相关的基因拷贝数变化。
尽管对拷贝数测定有用,但阵列CGH不适合于解决其它 类型的基因组结构变化,最显著地,不适于倒位、易位和其它类型的 核酸重排。Tuzun等(A^ 37:727 (2005))尝试用称为"fosmid配对末端作图"的方法解决这些限制。该方法依靠fosmid包装的头部满 装(head-fiill)机制,产生具有相当均一的约40 kb大小的测试者基因组 插入片段的基因组DNA文库。随机选择的约40 kb文库插入片段的末 端终止测序产生成对的短序列标签,其中每个标签-对标记两个基因组 位置,这两个基因组位置沿着靶DNA长度间隔约40kb。然后用计算 机比对标签-对和参比基因组组装,在它们的预期方向或它们的约40kb间隔距离方面的任何不一致性都应表明在靶和参比核酸之间跨越 该区域存在至少 一 个结构差异。作图位置间隔4 0 kb以上的的标签-对 表示相比于参比在靶DNA上存在缺失;间隔低于40 kb的作图位置表 示在耙中有DNA插入片段。已作图的标签对方向的不一致性表示潜 在的DNA倒位或其它复杂的染色体重排。标签-对分配给参比序列上 的两个不同染色体表示染色体易位。Tuzun等(iVW 37:727 (2005》 分析超过1.1><106个fosmid克隆插入片段,能够在测试者和参比基因 组组装之间鉴定出接近300个结构变化位置。
尽管fosmid配对末端作图是鉴定人类基因组中的精细结 构变化的有用开始,但对于每个测试者,都需要巨大的成本和后勤工 作来纯化和测序百万以上的fosmid插入片段末端,这阻碍了其在广泛 人群和队列调查中鉴定基因组变化的应用,所述基因组变化可能与复 杂疾病有关或响应于环境因素等。此外,fosmid载体及其变体一般以 非常低的拷贝数在宿主细胞中增殖,使得难以保持可靠的自动化DNA 生产和测序。因此,需要用于基因组和相关研究的有效的、高通量的 且低成本的鉴定精细结构变化的方法,从而将这些遗传元件与疾病、 疾病发展和疾病易感性联系起来。本发明提供这些和其它的基本利 益。发明概述
本发明提供篩选和鉴定核酸群的精细结构变化的改进的 高通量方法、载体和载体组分。本发明创造了称为基因组变化标签 (GVT)的短并列序列标签对,其中GVT-对的组成成员处于用户限定的 间隔距离,和/或为沿着所研究的核酸分子长度分界一个或多个不同限 制性内切核酸酶的邻近位点的位置的标记。
当用计算机比对GVT-对的单个GVT和参比序列时,在 它们的预期同 一性、间隔距离和/或方向方面与参比序列的任何不一致 性都表示靶和参比核酸之间在GVT-对跨越的区域中存在一个或多个
精细结构差异。以此方式,GVT-对综合文库提供了可用于产生高分辨 率结构作图的基因组分析,以鉴定核酸群之间的精细结构变化。本发 明的另 一方面能使用户确定和改变以GVT-对做标签的核酸群上的间 隔距离,使得可以产生GVT-对文库,这些文库适合于以不同的空间 分辨率和覆盖率检测精细结构变化。本发明的另一方面产生为GVT-对的位置标记,所迷位置紧邻沿着所研究核酸长度的一个或多个不同 限制性内切核酸酶的邻近识别位点'对'。本发明的另一方面产生为位置 标记的GVT-对,所述位置紧邻沿着核酸长度的一个或多个不同限制 性内切核酸酶的邻近识别位点对,所述标记沿着所研究核酸的长度间 隔用户限定的距离。本发明的又一方面提供有效寡聚化产生的GVT-对并在优化的载体和宿主系统中稳定增殖所获寡聚物的方法,以利于 GVT-对的有效的高通量序列测定。
按照本发明,待分析的目标群的DNA净皮随机地或在限定 位点被片段化。在某些实施方案中,纯化片段化的DNA样品至预定 大小,该大小限定了设置用于分析的分辨率水平的空间窗。片段化 DNA的末端连接短的合成DNA连接物,该连接物含有合适的粘性突 出端,有利于将连接物所连接的样品DNA克隆入适宜的载体中。连 接物以某一方向掺入合适的IIS型、IIG型或III型限制性内切核酸酶 (例如Mmel、 NmeAIII、 CstMI、 EcoP15 I、 PstII、 Hpy790545P或 它们的优选功能等效物)的识别位点,使得用前述限制性内切核酸酶消 化带有插入片段的质粒的文库以距离每个插入末端有用和限定的距 离切割DNA插入片段,引起间插序列释放,产生与载体连接的基因 组变异标签(GVT)对。通过将GVT连接在一起,产生代表原始靶DNA 插入片段的两个末端区的GVT-对,再环化新的线性化载体-GVT复合 物。将环化重组质粒转染入宿主细胞中,产生含有各自携带GVT-对 的单个质粒克隆的初始GVT-对文库。扩增初始文库,用第二个限制 性内切核酸酶消化纯化的质粒,该第二个内切核酸酶在GVT对側翼 的位点切割,以将GVT对由质粒载体中释放出来。纯化释放的GVT-对,寡聚化至适宜的大小,并亚克隆入适宜的载体中,用于寡聚GVT-对的有效的高通量DNA序列测定。当用计算机比对GVT对的单个 GVT序列和参比序列时,在它们的预期同一性、间隔距离或方向方面 与和它们进行比对的参比的任何不一致性都标志着靶和参比核酸之 间在GVT-对跨越的区域中存在一个或多个精细结构差异。因此,相 对于参比序列,多种GVT对的列表序列构成了目标核酸群的详细基 因组分析。本发明的这些和其它方面在参考以下的详述时将变得显而 易见。另外,以下标示了多个参考文献(包括专利、专利申请和期刊文 章),这些参考文献通过引用结合到本文中。
本发明提供的有用用途包括但不限于快速建立高分辨率 基因图,该图可用于(l)鉴定基因组的精细尺度变化,该精细尺度变 化促成人类多样性,可引起疾病、'疾'病发展或疾病易感性以及所观察 到的用作诊断剂或治疗干预靶的其它性状;(2)能设计和建立寡核苷酸 微阵列或其它测定方法,用于快速和大量地平行探询DNA样品的精 细结构变化,该变化用于医学诊断、基因分型和其它这样的有用用途; (3)有利于由完整基因组或乌枪DNA测序法精确并快速地进行DNA 组装;(4)鉴定由差异RNA加工产生的RNA转录物的精细结构变化, 以帮助基因组注释、功能基因组研究和潜在疾病诊断;(5)建立基因组 分析,以利于比较基因组和系统发生研究,帮助差异鉴定密切相关的 生物;和(6)建立相关品系、种族、生物型、变体、品种或物种的基因 组分析,以鉴定可能引起任何可观察到的理论、医学或商业目标表型 的基因组元件。优选实施方案的详述
以下方法提供了实施本发明的背景,并扩展和组合了先有 技术的若干方面,以产生所述的并用于所示用途的改进新方法。1. FOSMID配对-末端作图
Tuzun等(Ato 37:727 (2005》描述了 fosmid配对末端 作图法,其中短序列标签对间隔约40 kb,通过对来源于人类fosmid 基因组文库的约40 kb随机基因组插入片段进行末端终止测序产生。 在比对标签-对和参比基因组组装后,以预期的标记间隔距离和/或方 向与和它们比对的参比序列的不一致性鉴定标签-对跨越的靶DNA中 的结构变异。Tuzan等概述的方法依靠fosmid包装,产生在基因组 DNA上间隔距离约40 kb的标签对(根据试验,实际上片段在32-48 kb 的范围内, <平均值的3个标准偏差,39.9 ± 2.76 kb)。作者没有讲述 或公开建立标签-对、建立不同间距以改变分析的空间分辨率的标签-对、改善插入片段长度在它们的文库中的均一性的其它方法,他们也 没有讲述或公开生产其它类型的序列标签-对的方法,所述其它类型的 .序列标签-对例如为本发明的那些可基于邻近内切核酸酶切割位点对 之间的位置和/或间隔距离而分界基因组位置的标签-对。许多类型的精细结构变化不能由以fosmid配对末端作图 法固定的约40kb分辨率窗来分辨。Fosmid配对末端作图具有其它限 制。Fosmid栽体在宿主细胞中以非常低的拷贝数增殖,该特性用于使 某些基因组序列在细菌宿主中增殖的过程中遇到的潜在重組、重排和 其它人为构造最少。尽管目前应用可扩增形式的fosmid载体 (Szybalski,美国专利第5,S74,25P号),但是末端测序fosmid克隆来产 生标签的经济性仍非常差,原因在于与常规质粒相比DNA产量低, 使得难以保持高通量的自动化才莫板生产和测序。此外,由单个fosmid DNA才莫板产生标签-对序列需要两个单独的测序反应,由此进一步降 低了经济性。本发明通过以下几项克服了这些限制(l)生产GVT-对 的能力,由此可将靶DNA上的标签-对成员的间隔由50 bp以下工程 至几百千碱基对以上,以使检测分辨率适于分析不同类型的核酸和适 于任何给定的实验设计;(2)标签-对成员之间明显更精确和均一的间 隔,用于更高的分析精度;(3)基于除了间隔距离之外的其它标准生产 基因组标签-对的能力,例如建立基于标签-对的邻近内切核酸酶位点 的位置和/或相对间隔距离,用于改善靶核酸样品的探询;和(4)寡聚 GVT-对,并将GVT-对寡聚物亚克隆入载体中,载体针对高通量DNA 测序进行了优化,以降低操作成本,由此使本发明可用于广泛的群体 和队列研究。2.用于产生基因组标签的方法
本领域已描述了多种基于DNA的、表征和对比基因组的 指紋图谱法(Schloter等,M/cn 6,'o/ 2(647, (2000); Kozdroj和van Elsas, / A/z'cT06/0/ Mef/j 43:197, (2001); Bouillard等,Gewome i^es ":1453, (2001); Wimmer等,C7 ra脂so附e51 Ca"cer 33:285, (2002))。所有这些方法都使用靶DNA的限制性消化、PCR扩增或凝 胶电泳分离的某些组合。通常,需要.由用于DNA测序的凝胶提取4夷 选DNA片段严重阻碍了这些方法。Dunn等的近期工作取得进步,其 中,他们描述了一种使用IIS型/IIG型限制性内切核酸酶Mme I的方 法,以产生用于分析基因组DNA的"基因组信号标签"(GST)(Dunn 等,i^yewcA, 72:1756 (2002))。通过将具有Mme I识别位点的 连接物连接至基因组DNA片段产生GST,所述基囚組DNA片段最 初如下产生通过用II型限制性酶初始消化靶DNA, 4妾着用屡次切 割的标签酶进行第二次消化。用Mme I消化连接物连接的DNA,产 生21 bp的标签(GST),该标签在DNA中的位置相对于初始限制性酶 消化识别的位点固定。在通过PC&f增后,寡聚纯化的GST,用于 克隆和测序。所述标签及其相对丰度的鉴定用于建立基因组DNA的 高分辨率"GST序列分析",其可用于鉴定和定量给定的复杂DNA 分离物中的初始基因组。使用鼠疫耶尔森氏菌(yera"/a / e幼力作为冲莫 型系统,Dunn等能够确定相对简单的基因组中可经受添加或缺失限 制性位点的改变的区域。然而,Dunn等的方法在复杂的基因组如人 基因组中的用途有限,在复杂的基因组中,许多结构变化不能通过简 单的获得或失去所研究的少量限制性内切核酸酶位点来揭示。此外,
对于即便1个限制性位点,跨越大基因组或分析多个样品所需要的GST的数量也是非常高的。相比于Dunn等的方法,本发明的GVT-对具备经济性,提供了分析复杂基因組或扩展分析多个DNA样品的 分析能力。
—种称为基因表达的连续分析(SAGE)的方法的多种形式 首先由Velculesu等(Sc/ewce 270:484 (1995)和Kinzler等(美国专利第 5,^5,_937号)描述,也使用IIS型或IIG型限制性内切核酸酶来产生 DNA标签(Saha等,说ofec/mo/ 20:508 (2002); Ng等,MeAod 2:105 (2005); Wei等,Prac A^/爿cadSc/ 7W:11701 (2004》。所谓 的"SAGE标签"由cDNA模板产生,以提供对生物样品中的cDNA 种类的复杂性和相对丰度的评价。最新形式的SAGE方法称为 "LongSAGE",其利用Mme I消化,产生长21bp的标签,以标记 mRNA转录物(Saha等,J5zofec/wo/ 20:508, (2002))。最新的精修称 为"SuperSAGE",其利用III型限制性内切核酸酶EcoP15 I,产生 26 bp的较长标签,用于改善mRNA对基因组的分配(Matsumura等, 尸rac A:a"c/ "&4層:15718-15723, (2003》。尽管本发明也利用IIS 型、IIG型或III型限制性内切核酸酶产生序列标签,但就生产方法和 改善的信息内容而言,产生的本发明的GVT-对与前述SAGE和GST 标签根本不同。就产生尤其可用于表征新基因组或注释基因组和DNA 样品的精细结构变化的高分辨率物理图谱而言,相对于使用未连接标 签,使用连接的标签对提供了显著的效力和分析能力的改善。
Ng等(A^^fe/2oA 2:105 (2005))的近期工作描述了 SAGE 法的进一步发展。研究者利用Collins和Weissman(尸rociVaf/JcadSd J7&4 S7:6812 (1984))倡导的方法,在该方法中,使用DNA片段环化(也 称为分子内DNA连接)将远端DNA区段一起连接入载体中,产生所 谓的"基因组跳跃文库"(Collins等,5We"ce "5:2046 (1987))。 Ng等 环化单个cDNA,将其5,和3'来源的SAGE标签连4矣在一起,产生"配 对末端双标签"(PET),然后将PET寡聚化,以利于有效测序。通过 鉴定转录单元的转录起始位点和聚腺苷酸化位点,以确定基因边界和帮助鉴定它们的侧翼调节序列,PET可用于基因组注释。尽管生产本 发明的GVT-对和通过Ng等的方法生产PET均依靠分子内连接来实 现DNA标记连接,但只有本发明的GVT-对整合了 DNA标记之间的 精确物理距离和其它有用信息,由此使GVT-对可用于详细的基因组 结构分析。Ng等没有讲述产生限定的空间间隔或其它标准的标签-对 的方法,他们也没有描述如何使用他们的方法获得例如由mRNA加工 或基因组的精细结构变化产生的结构变化。3.多重测序载体
本文使用的术语多重测序载体是指为用于高通量桑格双 脱氧测序而进行了优化的质粒载体,其具有携带两个或更多个独立插 入片段的能力,导致由单个模板产生多个测序读数,由此通过经济性 使用材料而节约成本。
—般实施的技术是一个质粒载体增殖一个DNA插入片 段。此构型的代表性质粒坤莫板可由DNA插入片段侧翼的两个载体引 物结合位点的每一个产生两个测序读数。Mead和Godiska (美国专利 第6,7W,S<57号)描述了 "多重克隆载体",借此将DNA插入片段克 隆入克隆载体的分散位点中,从而允许随后在单个DNA测序反应中 同时测序插入序列,或者在平行反应冲使用同一才莫板制备物测序插入 序列。
Mead和Godiska描述的多重克隆载体可以pLEXX-AK (Lucigen Corporation, Middleton, WI)商购,其为CLONEPLEXTM文库 构建系统的主要组分。质粒载体pLEXX-AK作为两个去磷酸化的平端 载体DNA区段由销售商提供。每个载体区段都具有单独的药物选择 标记和用于DNA测序的测序引物结合位点对。提升载体系统,以降 低用于高通量测序应用的 是特别适合。原则上,将磷酸化的平端DNA插入片段加入含两个去 磷酸化pLEXX-AK载体区段的连接反应应产生这样的构型其中 DNA插入片段连接在两个栽体区段的每一个之间,以产生功能性环形 分子。在实践中,实际上产生了复杂背景的连接产物,其中只有少量 产物含有期望的环形分子,由此单个DNA插入片段连接在两个不同 载体区段之间。尽管两个载体区段的每一个上的药物抗性标记都允许 由背景中选择生产性物质,但系统先天低效,原因是组成载体和插入 片段的无方向的随机平端连接。大量的输出DNA插入片段在非生产 性连接事件中扩增,需要相对大量的起始DNA来弥补损失。最关键 的是,绝对要求将磷酸化平端DNA插入片段克隆到pLEXX-AK的两 个位点中为应用设置了严重限制,其中原始DNA插入片段的序列连 续性例如对构建用于乌枪法测序的基因组DNA文库是关键。对于该 应用,在文库构建过程中连接至其它基因组插入片段的任何基因组插 入片段(所谓的嵌合插入片段)会严童破坏随后由序列数据建立的基因 组组装。此外,尽管研究者要求保护的是他们的方法可被扩展至在载 体上的3个以上分^:位点具有独立插入片段的载体构建,以进一步增 加效力,但对平端连接的依赖以及为保留每个载体区段而需要多个选 择标记使该权利要求在实际执行时不切实际。
本发明克服了 Mead和Godiska(美国专利第6,709,SW号) 所述用于构建多重测序载体的方法的前述局限,并提供用于直接组装 更复杂的DNA分子、载体和载体组分的改进材料、方法和策略,以 促进有效的多重DNA测序和其它应用。具体地说,本发明描述了组 件载体系统,由此单个载体组分位于独特的IIS型限制酶位点侧翼, 产生不对称粘性末端,以引导有序的载体组件组装,并以高效间插 DNA元件至任何需要的构型,获得新功能性。由本发明获得的质粒 pSLGVT-3是高拷贝数的质粒,为进行高通量DNA测序进行了优化, 并可以携带至少两个独立插入片段,以能够由单个才莫板获得4个独立 的测序读数。第二个质粒pSLGVT-2是pSLGVT-3的低拷贝数质粒变
体,其为增殖长DNA区段或在不重排或重组的情况下在微生物宿主 中可能难以增殖的那些插入片段进行了优化。pSLGVT-2和pSLGVT-3 上的两个独立的克隆位点利用独特的非不对称互补粘性末端组,用于 在两个克隆位点有序和特异性连接独立的插入片^R,由此解除对平端 克隆的需要和对磷酸化DNA插入片段的需求,磷酸化DNA插入片段 是在文库构建过程中产生插入片段嵌合体的主因。来自Mead和 Godiska (美国专利第6,7W,S6/号)的pLEXX-AK的pSLGVT系列-质 粒的另一个分辨性特征是质粒复制子作为正确质粒组装的生物选择 的应用,由此降低载体的材料大小,以增加携带插入片段大小的能力。 如有需要,pSLGVT载体的组件构建和载体组件之间的不对称粘性末 端的应用允许快速重构载体系统,以携带3个或更多个独立的DNA 插入片段。1.用于生产GVT-对的核酸的制备和片段化
如本文所述,本发明提供产生高分辨率基因组图谱的方 法,该图语可用于表征未知基因组或鉴定耙核酸群和参比序列之间的 精细结构变化。适于分析的靶核酸包括但不限于真核生物和原核生 物的基因组DNA、微生物DNA、质体DNA、质粒和噬菌粒DNA、 病毒DNA和RNA、来源于核糖核酸(RNA)的互补DNA (cDNA),以 及通过体外扩增如尤其通过PCR产生的DNA。用于由前述来源分离 DNA、由RNA合成cDNA和用于扩增核酸的方法是本领域技术人员 已知的。
对于本发明的某些实施方案,GVT-对跨越的基因组距离 决定了分析的分辨率水平。GVT之间的间隔越小,所获得的用于作图 和用于检测靶核酸群的精细结构变化的空间分辨率就越高。大GVT 间隔需要较少的GVT-对,以涵盖给定复杂性的DNA样品,但空间分 辨率伴随下降。对于mRNA加工变体的鉴定,50或100 bp的GVT 间隔提供了足以检测cDNA群中的大部分可变剪切产物的分辨率水
平。对于人类全基因组勘测,10、 25、 50或lOOkb的GVT间隔在分 辨率和经济性之间提供了生产力妥协。GVT间隔、检测不同类型的 DNA结构变化所需要的分辨率水平和涵盖给定序列复杂性至需要的 深度需要的GVT-对数量之间的功能性折衷可用计算机建才莫,以得到 对给定应用最佳的实验设计。
如上所述,用于构建GVT-对的靶DNA插入片段的材料 长度控制GVT-对的残余GVT之间的间隔距离,由此设定用于分析的 分辨率水平。产生和纯化接近均一大小的片段化核酸群的方法在本领域已有描述。片段化靶DNA至需要的长度可在用多种限制性内切核 酸酶部分或完全消化的条件下酶促完成。使用具有6个以上石威基对的 识别位点的限制性内切核酸酶对生产更长的DNA片段有用。屡次切 割的II型内切核酸酶如Mbo I、 Hae III等平均每256 bp切割DNA — 次,这些酶在本领域已知通过部分消化生产可变大小的DNA片段。 在放宽的条件下使用限制性内切核酸酶CviJ I于GC 二核普酸位置切 割DNA (Fitzgerald等,A^c/ezc ac/di^s 20:3753 (1992)), il^在部分消 化条件下生产DNA片段大小的有用连续体特别有用。在某些实施方 案中,随机产生的DNA片段有用。用于随机生产DNA片段的方法包 括(l)用牛胰腺脱氧核糖核酸核酸酶I (DNA酶I)消化,该酶在镁离 子存在下在DNA中进行随机双链切割(Melgar和GoldwaitJ说o/ C&w 2^3:4409 (1968); Heffron等,Prac A^/爿cat/Sc/ [/&4 75:6012 (1978》; (2)物理剪切(Shriefer等,M/c/e/c ac/d i^ 7S:7455 (1990》;和(3)超声 (Deininger爿"a/ Aoc/7ew /29:216 (1983》。期望长度的随机片段化DNA 片段还可以通过在cDNA合成过程中使用随机引物或者通过使用单独 的或与描述的其它片段化方法组合的PCR产生。
用于部分酶促消化的条件凭经验确定,改变反应体积、酶 浓度以及酶对底物的比率、温育时间或温度的一个或多个参数。对于 需要约5 kb以下的GVT间隔的高分辨率分析,优选非序列依赖性的 片段化方法。牛胰腺DNA酶I在镁离子存在下在DNA中进行随机双
链切割(Melgar和Goldwait J Biol Chem 243:4409 (1968); Heffron等, Proc Natl Acad Sci USA 75:6012)),可用于该用途。同样,还可以使用 通过机械手段如超声进行的DNA片段化或剪切力的选择性用途。 HydroShear设备(Genomic Solutions Inc, Ann Arbor, MI)尤其可用于产 生限定大小范围的随机DNA片段。还可以通过在cDNA合成过程中 使用随机引物或通过使用单独的或与描述的其它片段化方法组合的 PCR产生随机DNA片段。通过凝胶电泳最容易监测产生期望长度的 产物的片段化的发展。在产生适宜的DNA大小分布后,使用T4DNA 聚合酶修复或制造DNA平端,以准备平端连接GVT-连接物,用于生 产本发明的GVT-对。对于用一种或多种内切核酸酶部分或完全消化 片段化DNA而留下粘性末端的情况,修复不是必需的,但需要设计 GVT-连接物来适应片段化酶产生的粘性末端。因为插入片段与其它插 入片段的连接破坏了靶DNA的共线性,并破坏了基因组图谱的建立, 所以通过磷酸酶去除插入DNA的5'磷酸基团,以防止插入DNA在与 GVT-连接物连接的过程中与其它插入DNA连接。2.选定大小的DNA的大小分级分离和纯化
对于某些实施方案,iit凝胶电泳分级分离去磷酸化的 DNA插入片I殳,并纯化,以产生目标大小的DNA插入片段。丙烯酰 胺凝胶最好用于分级分离50 bp至1 kb的DNA。对于约250 bp至20 kb 的片段大小,0.4%至3%琼脂糖凝胶是适宜的。脉沖场凝胶电泳适于 分级分离约10 kb至几百kb大小的DNA。这些方法描述于其中的参 考文献(Rickwood和Hames (编辑),Gel electrophoresis of nucleid acid: A practical approach (Oxford University Press, New York, 1990);Hamelin和Yelle Appl Theor Electrophor 1:225 (1990); Birren和Lai, Pulse field electrophoresis: a practical guide (Academic Press, San Diego: 1993))。 DNA使用与样品平行电泳的适宜尺寸标志物确定大小,并通 过染色显现。用手术刀切下含有期望大小的DNA的凝胶切片,其后 通过电洗脱或通过酶促或化学降低凝胶基质由凝胶基质回收DNA。用 于分析的回收DNA片段应接近均一大小。用于最大化分离分辨率的 凝胶系统和电泳条件是本领域已知的。使用两轮以上的凝胶电泳获得 更高的样品大小均一性。大小与平均长度偏差2.5%以上的样品可能导 致对本发明使用不可接受的噪音。3. GVT-连接物的设计和与靶DNA的连接
本领域技术人员会认识到,存在多种适用于本发明的 GVT-连接物设计。总之,适宜的GVT-连接物包含以下材料特性(1) 不等长度的5,磷酸化寡核苷酸的短上链(top strand)和短下链(bottom strand),其能够稳定互补碱基配对;产生双链结构;(2) GVT-连接物 的一条链具有短非回文单链突出,其可与具有互补序列的载体连4^; (3)另一连接物末端具有平端结构或其它适宜的末端结构,使得能够与 去磷酸化的輩巴DNA片段有效连接;(4)位于靶DNA侧翼的连接物末 端带有适宜的IIS型、IIG型或m型限制性内切核酸酶识别位点,其 方向使得该位点引导在耙DNA上以固定和有用的距离切割,以产生 GVT;和(5)邻近的或重叠的IIS型、IIG型或III型酶识别位点是第二 个限制性内切核酸酶位点,用于由载体切下产生的GVT-对。适宜的 GVT连接物的说明性实例如下所示(实施例1-4)。实施例1:用于平端连接去磷酸化靶DNA的GVT(MmeI)-连接物。 5,-pGACACAGAGGA TCCAAC (Seq ED No: 1)GTCTCCTAGGTTGp-5' (Seq ID No: 2) Mme I
说明性实施例1 (Seq ID No l)的序列5,pGACA-3,为粘性 末端,用于将连接物连接的DNA插入片段亚克隆入具有一对突出的 5'-TGTC-3,序列的载体中。粘性末端是非回文的,以防止形成连接物 二聚体和带有连接的连接物的DNA多聚体,并防止产生没有插入片 段的载体。Seq ID No 1的5,-CAGAGGA-3,序列及其在Seq ID No 2 的反向互补物5'-TCCTCTG-3'描述了能够稳定互补磁羞配对以帮助 形成功能性双链连接物的短序列。Seq ID No 1的5,-TCCAAC-3 '序列 及其Seq ID No 2的反向互补物5'-GTTGGA-3'为IIS型内切核酸酶 Mme I的识别位点(Boyd等,M/c/e,W Am 7(5255 (1986))。 Mme I 切割其5'-TCCAAC-3,识别位点下游('即为5,至3'方向)20 bp的DNA 和在相对链上其反向互补物上游(即为3,至5'方向)18 bp的DNA,以 产生具有2bp的突出3'突出端的20bp GVT。与Mme I识别位点重叠 的是BamH I的识别位点5,-GGATTC-3,。 BamH I切割用于由载体释 放产生的GVT-对。BamHI位点重叠MmeI位点,以便最小化外来的 连接物序列,使寡聚化GVT-对序列测定过程中的经济性更强。为在 其它连接物设计中获得相同末端,重叠的BspT I位点可用于切除通过 CstMI消化产生的GVT-对。同样,Kasl可用于切除通过用NmeAIII 消化产生的GVT-对。实施例2: GVT (Mme I)-连接物连接Xba I消化的去磷酸化耙DNA。 5,-pGACACAGAGGA TCCAAG (Seq ID No: 1)GTCTCCTGGTTGGATCp-5,(Seq ID No: 3) Mme I说明性实施例2的GVT (Mme I)-连接物的显著特征与说明性实 施例1的连接物特征相同,额外掺入5,-pCTAG-3,突出端(Seq ID No 3),以引导连接物与Xba I消化的去磷酸化靶DNA片段连接。本领域 技术人员会认识到,实施例2的连接物只是一个变体。存在通过掺入 适宜的突出端产生的其它功能性连接物变体,这些变体与用其它限制 性内切核酸酶消化的靶DNA连接,以适于不同的实验设计。实施例3:用于平端连接去;寿酸化靶DNA的GVT (EcoP15 I)-连接物。 5'-pGACACAGACTGCAGCAG (Seq ID No: 4)GTCTGACGTCGTCp-5' (Seq ID No: 5)EcoP15I
实施例4:用于粘性末端连接用Xba I消化的去磷酸化靶DNA的 GVT(EcoP15I)-连接物。5'-pGACACAGACTG CAGCAG (Seq ED No: 4)GTCTGACGTCGTCGATCp画5' (Seq ID No: 6) EcoP15 I说明性实施例3和4描述了使用III型限制性内切核酸酶EcoP15 I产生27 bp GVT的连接物设计。用于切除GVT-对的Pst I的限制性 内切核酸酶位点(5,-CTGCAG-3,)重叠EcoP15I位点(5,-CAGCAG-3')。 Pstl位点与EcoP15 I位点重叠使GVT-对中的外来连接物序列最小, 使测序过程中的经济性更强。说明性实施例4的连接物掺入Xba I粘 性末端,以引导连接物与Xba I消化的去磷酸化靶DNA片段连接。本 领域技术人员会认识到,实施例4的连接物仅是一个变体。存在通过 掺入适宜的突出端产生的其它功能性连接物变体,这些变体与用其它 限制性内切核酸酶消化的耙DNA连接,以适于不同的实验i殳计。
说明性实施例1和2的说明性GVT-连接物通过用Mme I 消化可以产生18 bp或20 bp的长GVT。用T4 DNA聚合酶去除由Mme I切割产生的3,-突出端,之后平端连接所连接的GVT,产生36bp的 GVT-对,此时产生18 bp的GVT。使用具有16倍变性5,-突出端(与 由Mme I消化产生的所有可能的2碱基3'突出端相适)的连接物将 GVT连接在一起,产生GVT-对,此时产生20bp的GVT。与Mme I 相比,EcoP15I切割产生2bp的3,凹缺末端,该末端由DNA聚合酶 延伸,以产生27 bp的平端GVT,通过平端连接由该平端GVT产生 54 bp的GVT对。
识别不间断的核苦酸序列并切割距其识别位点至少10个 碱基距离的任何IIS型或IIG型限制性内切核酸酶均适用于产生GVT。 这些酶包括BceAI、 Bpml、 BpuEI、 Bsgl、 BsmF I、 BstVU、 Eco57 I、 Eco57MI、 Gsul、 CstM I、 NmeA III和Mme I。其中,本发明优 选使用Mme I 、 NmeA III或CstM I,因为它们的切割位点在迄今为止描述的IIS型内切核酸酶中距离其DNA识别位点最远,由此产生最长 长度的GVT。预期在以后将发现距离其识别位点具有更长的限定切割 距离的其它IIS型或IIG型内切核酸酶,本发明可使用这些酶。关于 IIS型和IIG型限制性内切核酸酶的综述,参见Sistla和Rao (OWca/ B/oc/^ot 39:1, (2004))禾口 Bujnick (Zcto 5z'oc/n'm/ccr尸o/om'ca 银935, (2001》。
最初将m型限制性内切核酸酶描述为需要两个反向的不 对称识别位点,体内切割发生在随机选定的两对反向识别位点中的仅—对的远端。关于综述,参见Sistla和Rao, 07'"'ca/ Aev说oc/zem 39:1, (2004))和Bujnick (」cto说0c/2/mZca Po/omca 48:935, (2001))。这些 特性对本发明没用。然而,表征原型m型酶EcoP15 I表明,重组或 纯化的天然酶在钾离子存在下以2倍至3倍高的浓度使用时能够在体 外于单个位点混杂切割(Mucke等,说o/ 3/2:287, (2001); Peakman 等,《/A/o/ 6/0/ 333:321, (2003); R^gl^avendra和Rao, A^c/e/d ac/d i &y 32:5703, (2004); Sistla和Rao, Ov"ca/ 伤0c/2ew说o/ 39:1, (2004))。 开发EcoP15 I的该新描述的特性,以由cDNA生产SAGE标签 (Matsumura等,尸rac4cadM^/ [/&4 ^0:15718, (2003》。EcoP15 I 酶可商购(New England Biolabs, Ipswich, MA),本发明使用其生产27 bp的GVT和随后的54 bp的GVT-对。本发明可^f吏用在距其识别位点 有用的距离切割DNA的其它III型内切核酸酶。
本领域技术人员已知用于连接连接物与DNA插入片段和 用于核酸分子的通用连接的方法。参见例如Ausubel等,(编辑),幼oW 尸ratoco/s M /ecw/or说o/ogy,第3版,(John Wiley & Sons 1995)。 用 于将连接物与DNA插入片段平端连接的典型连接条件需要对耙DNA 约50至500倍摩尔过量的连接物、高T4连接酶浓度或包含诸如聚乙 二醇的体积排阻剂(Pheiffer和Zimmerman, A^c/ezd //:7853 (1983); Zimmerman和Pheiffer, _Proc 爿cad"&4 S(9:5852 (1983); Harrison和Zimmerman,她c/e/d a"'<i i es 72:8235 (1984); Hayahi等, M/c/eWadd"^ /(7617 (1986》。连接物与粘性末端耙DNA的连接需 要约5倍摩尔过量。使连接GVT-连接物的DNA插入片段通过 ChromoSpin柱(Clontech, Mountain View, CA),以去除过量的连4矣物, 然后通过凝胶电泳纯化和选择大小。为通过分子内连接产生GVT-对, 将纯化的产物连接入下述几种质粒载体中的一种。4.用于GVT-对产生的栽体构建体
本发明的一个方面提供生产克隆载体的通用方法,所述方法通过用ns型、nG型或m型内切'核酸酶消化插入片段,接着进行分子内连接,能够产生GVT-对。使用含有下述材料特征的GVT-DNA 克隆表达盒,通过将表达盒连接入适宜的位点,修饰既有克隆载体。实施例5: GVT-DNA克隆表达盒的说明性实例5' AATTGGACAA (GAGACG)GAATAT(TCTAGA)ACGATA(CGTCTC)CTGTCC Seq ID:7CCTGTT (CTCTGC) CGTATA (AGATCT)TGCTAT (GCAGAG)GACAGGTTAA5' Seq ID:8 EcoRI Esp31 Xbal Esp31 EcoRI
GVT-DNA表达盒由两个互补寡核苷酸(Seq ID No 7和Seq IDNo8)合成生产,这两个互补寡核苦酸退火形成双链结构,该双链 结构具有适于连接入既有载体中的末端粘性末端。作为说明性实例, 以上的DNA表达盒显示出具有EcoR I的突出粘性末端,用于置换 pSMART VC或pSMART-cDNA的多克隆位点区(Lucigen, Middleton, WI),以使这些质粒载体能够产生GVT-对连同先前描述的连接GVT-连接物的靶DNA。 DNA克隆表达盒的材料特征为反向的IIS型或IIG 型内切核酸酶位点对;在说明性实施例中的Esp3 I。用Esp3 I消化修 饰载体在载体上产生一对非回文突出端(5'-TGTC-3'),该突出端特异 性连接互补突出端(5'-GACA-3'),该互补突出端由GVT-连接物连接 的靶DNA插入片段伸出。载体和插入片段突出端的非旋转对称性基 本上消除了没有插入片段的质粒和带有多个拷贝的连接物连接的靶 DNA的质粒的产生,这些质粒会损害靶DNA插入片段的共线性和随 后的基因组分析的建立。DNA表达盒还掺入限制性内切核酸酶位点 Xbal,其位于反向的Esp3I位点对之间。在XbaI位点克隆的适宜大 小的"填充DNA"片段能够监测载体制备过程中的Esp3 I消化。选 择填充DNA片段的长度,使得可容易地通过凝胶电泳分离Esp3 I单 一消化的、双重消化的和未消化的载体物质,仅纯化双重消化的片賴 待用。
本领域技术人员会认识到,如同先前描述的适宜的GVT-连接物的实施例一样,上述DNA克隆表达盒仅是多种功能等效设计 中的一个。例如,DNA表达盒中的Esp3 I位点可;f皮其它IIS型或IIG 型内切核酸酶的Esp3 I位点取代,其中DNA切割远离连续的识别位 点。适宜的IIS型或IIG型酶包括Alwl、 Alw261、 AsuHPI、 Bbvl、 Bccl、 BseGI、 BseMiI、 BsmAI、 BsmF I、 BsoMAI、 BspCNI、 BspM I、 BspPI、 BspTNI、 BstF5 1、 BstVl I、 Faul、 Fokl、 Hgal、 Hphl、 Lwel、 Plel、 Ppsl、 Sfal、 SmuL TspDTI、 TspGWI、 Bbsl、 BciV I、 Bfil、 Bfii,I、 Bmrl、 Bpil、 Bpml、 BpuAI、 BpuEI、 Bsal、 Bse3D I、 BseMI、 BseRI、 BseXI、 Bsgl、 BsmF I、 Bso31 I、 BsrDI、 Eco31 I、 Esp3 1、 BstV21、 Bvel、 Eaml1041、 Ecil、 Eco57 I、 Eco57M I、 Faql、 Gsul、 Ksp6321、 CstMI、 Mmel、 NmeAIII、 TaqII、 Sapl、 它们的同切点酶和Szybalski等(Ge"e 7卵:13 (1991))描述的其它实例。 优选的酶具有6个磁羞对或更长的识别位点,(例如BspM I、 Eco31 I、 Esp31、 Sapl及其同切点酶),因为这些酶的位点不大可能存在于载体 骨架中,降低了在载体构建过程中进行定点诱变以消除这些位点的需 要。对本领域技术人员还显而易见的是,可改变通过前述酶产生的粘 性末端的精确序列,只要它们可与它们预期的连接配偶体形成功能性 和特异性的碱基对。DNA表达盒上^末端结构可被修饰,以使表达盒 适于连接入先存载体上的期望位点或连接至分离的载体组分,产生本 发明可以使用的新载体。
在宿主细胞中稳定增殖DNA区段的能力对基因组分析是 非常重要的。含有富AT或GC区、重复序列、发夹、强启动子、毒
性基因和其它问题序列的DNA区段在宿主细胞中增殖时的重排或丟 失是精细基因组变化研究的重要考虑因素。DNA重排和其它克隆人为 构造可^皮错认为是耙核酸的结构变化。而且,克隆偏好可限制插入片 段的大小,并可能未足够地反映所研究基因组的重要区域。最近通过 用条件扩增系统开发fosmid和BAC载体解决了该问题(Szybalski,美 国专利第5,S7《25P号),其中DNA的增殖保持在每个宿主细月包1-2个 拷贝,直至为进行分析而被诱导至较高水平。报告了 15kb至100kb 以上的基因组插入片段的改善的稳定性,条件化扩增载体现在常规用 于基因组研究。条件化扩增fosmid/BAC载体,如pCClFOS (Epicentre, Madison, WI)和pSMART VC (Lucigen, Middleton, WI)以及它们的变 体,适用于10kb至200kbGVT-间隔的GST-对生产。然而,常规低 拷贝质粒载体的使用似乎足以稳定维持大DNA片段,而不需要BAC、 PAC或fosmid型栽体(Feng等,说orec/mz々w^ 32:992, (2002); Tao和 Zhang, A^c/e^ac^^M 26:4901, (1998》。pSMART系列载体提供低拷 贝数增殖,并具有在载体上具有转录终止子的额外特征,以降低转录 干扰的潜在作用,这可能进一步改善DNA稳定性(Mead和Godiska,美 国专利第6,709,861号)。对于50 bp至10 kb以上GVT-间隔的GVT-对生产,多种已建立并广泛使用的低拷贝质粒型载体适于进行修饰, 以生产GVT-对,这些载体包括pBR322 (Bolivar等,2:95, (1977)) 和pACYC177 (Chang和Cohen, /Ba"mo/ "4:1141, (1978))。
通过将GVT-DNA表达盒于合适的克隆位点插入合适的 载体骨架中生产用于GVT-对生产的载体。用于连接核酸分子的通用 方法是本领域技术人员已知的。参见例如Ausubel等(编辑),幼wt 尸rotoco/s Z" A/o/ecw/ar S/o/ogy,第3片反,(John Wiley & Sons, New York, 1995)。为了使用,必须使载体骨架没有以下几类酶的识别位点(l)II 型、IIS型或IIG型限制性内切核酸酶,这些酶用于产生DNA克隆表 达盒上的粘性末端,这些末端用于定向克隆靶DNA或连4妄物连4矣的 輩巴DNA; (2)1IS型、IIG型或III型内切核酸酶,这些酶用于由克隆的耙DNA插入片段产生GVT;和(3)用于切除质粒中新产生的GVT-对 的酶。对于GVT-DNA表达盒和GVT-连接物的说明性实例,载体骨 架需要没有Esp3 I、 Eco31 I、 CstM I、 Mme I、 NmeA III、 Pst II、 EcoP15 I、 BamHI、 Pstl、 BspT I或Kas I位点的特定组合,实际需要取决于 所用GVT-DNA表达盒和连接物的精确构型。如有需要,可通过4吏用 标准方法的定点诱变使载体骨架没有前述那些位点。参见例如 McPherson (编辑),D^cfed m虚gewe愈X / rac"ca/ ap/ raac/2 (Oxford University Press, New York, 1991)和Lok(美国专利第6,730,500号)。通 常,可通过单碱基对变化改变大部分载体DNA,以消除不需要的限制 性内切核酸酶识别位点,而对载体功能性没有不适当影响。在蛋白编 码序列中,将单核苷酸变化靶向密玛子摇摆位置,以保持天然蛋白编 码。在载体骨架上的它处实施的改变应需要在使用前进行功能验证。5. GVT-对生产载体pSLGVT-l和t)SLGVT-2
本发明的质粒pSLGVT-l和pSLGVT-2分别是专门设计用 于使用Mme I或EcoP15 I生产GVT和GVT-对的优化通用载体。 pSLGVT-l和pSLGVT-2也没有CstM I和NmeA III位点,可用于按 照本发明的方法使用这两种酶生产GVT和GVT-对。基础载体含有两 种化学合成的DNA组件,以分别提供药物选择和质粒复制的基本维 持功能。连接两个DNA组件产生的环形分子为DNA表达盒,其为基 础质粒骨架提供特定实用功能。载体组件带有末端独特的IIS型限制 性内切核酸酶位点,其产生独特的不对称粘性末端,以允"i午在以后快 速重构载体组分,从而加入或取代针'对新功能的组件或DNA表达盒。
第一个载体组件含有修饰的P15A复制起点。带有P15A 复制子的质粒以每个宿主细胞约15个拷贝的低数目增殖(Sambrook等: A^o/ecw/ar C7owz力g: X丄(36orato 7 A/awwa/,第2版,CSH Laboratory Press, Cold Spring Harbor, NY, (1989》,由此优化克隆的基因组插入片 段的稳定性。相比之下,高拷贝数质粒,例如pUC或pBluescript,可达到每个细胞几千个拷贝。P15A复制子中的两个Mme I位点各自通 过单核苷酸改变而被消除,产生用于构建质粒pSLGVT-l的"P15A-m 复制子组件,,。预期这两个位点的突变不改变二级结构或调节质^1=立复 制所需的RNA II或RNA I的转录。以相同方式消除在P15A复制子 中的单EcoP15 I位点,以产生用于构建质粒pSLGVT-2的"P15A-e 组件"。两种形式的pl5A组件在所述组件的RNAII启动子末端侧4妄 独特的BpiI位点,产生5, GTGA-突出端,以利于DNA表达盒的连 接。出于相同目的,复制组件的复制叉末端侧接Faq I位点,产生5, TCTC-突出端。
第二个载体组件包含来自转座子Tn903的修饰形式的Kan 基因,该基因赋予针对抗生素卡那霉素的抗性(Grindley等,Prac iVaf/ 爿o^Scz' V&4 77:7176, (1980)),利用摇摆位置并无论何时都尽可能与 大肠杆菌中的优化密码子选择一致,去除Kan基因编码区中的4个 Mme I位点连同2个Nci I和Nsi I位点以及针对Esp3 I、Pst II和Hind III的单个位点,以产生"Kan组件"。Kan组件在组件的Kan启动子 末端侧接独特的Sap I位点,产生:5,,TTG-突出端,用于DNA表达盒 连接。在Kan组件的另一端的独特BspMI产生5, ACTG-突出端,用 于相同目的。 一般公认,卡那霉素药物选择为维持带有特别长的和/ 或难的插入片段的质粒提供最佳稳定性,在许多情况下,其应用还会 允许在液体培养物中有限但便利的扩增质粒文库,而没有可使质粒文 库的组成失真的不适当克隆选择。
pSLGVT系列质粒的核心组分是两个DNA克隆表达盒, 其提供特定插入片段克隆功能性,用于将Kan组件和复制子组件连接 在一起,产生环形质粒。质粒pSLGVT-l、 -2和-3具有通用结构,该 结构在顺时针方向的环形图上包含以下材料特征(l)复制子组件;(2) DNA克隆表达盒1; (S)Kan组件;和(4) DNA克隆表达盒2。 Kan基 因的质粒复制和转录以顺时针方向进行。以下显示了 DNA克隆表达 盒1和2的结构
实施例6: DNA克隆表达盒1和2 DNA克隆表达盒1Esp3 I Xba I Esp3 IDNA克隆表达盒2Eco31I Sail Eeo311T7测序引物5,画TAA TAC GAC TCA CTA TAG GG-3, T3测序引物5,-ATTAACCCTCACTAA AGG GA-3, M13 F测序引物5,-CAC GAC GTT GTA AAA CGA C-3, M13 R测序引物5'誦GGA TAA CAA TTT CAC ACA GG醫3,
DNA克隆表达盒1由两个化学合成的互补寡核苷酸产生, 这两个寡核苷酸退火形成双链结构,具有两个末端不对称的5'突出粘 性末端5'-GAGA-3,和5,-AAC-3,,用于将表达盒分别定向连接至复制 子组件(P15A-m或P15-e)的5,-TCTC-3,突出端和Kan组件的5,-GTT-3, 突出端。显示了 DNA克隆表达盒1和2上针对T7、 T3、 M13正向和 M13反向测序引物的结合位点。本领域技术人员会知晓,其它测序引 物结合位点也适用于本发明。DNA克隆表达盒1上的反向Esp3 I位 点对在载体上产生5,-TGTC-3,突出端对,以接受连接GVT-连接物的 耙DNA,以便生产GVT-对产物。Xba I位点位于Esp3 I位点组之间, 用于克隆填充DNA片段,以在制备载体时帮助监测Esp3 I消化进展, 以接受连接GVT-连接物的靶DNA。 Esp3 I位点侧翼是T7和T3测序 引物的引物结合位点。这些引物位点用于测序部分靶DNA插入片段, 以便对文库构建进行质量控制。如本文公开内容的以下和以后章节所 述,pSLGVT-质粒系列的变体pSLGVT-3利用这些引物位点对寡聚化 的GVT-对进行高通量的多重DNA测序。
DNA克隆表达盒2由两个化学合成的互补寡核苷酸产生, 这两个寡核苷酸退火形成双链结构,具有两个末端不对称5'突出粘性
末端5,-GAGT-3,和5,-TCAC-3,,用于将表达盒分别定向连接至Kan 组件的5,-ACTC-3,突出端和复制子组件(P15A-m或P15-e)的 5,-GTGA-3,突出端。DNA克隆表达盒2上的反向Eco31 I位点对在载 体上产生5,-TCAG-3,突出端对,并提供可替代位点,以接受连接GVT-连接物的靶DNA,以便生产GVT-对。Sal I位点位于Eco31 I位点组 之间,用于克隆填充DNA片段,以在制备载体时帮助监测Eco31 I 消化进展,以接受耙DNA。 Eco31 I位点侧翼是M13正向和M13反 向测序引物的引物结合位点。这些引物位点用于测序部分耙DNA插 入片段,以便对文库构建进行质量控制。如以下和本文公开内容的以 后章节所述,pSLGVT-质粒系列的变体pSLGVT-3利用这些引物位点 对寡聚化的GVT-对进行高通量的多重DNA测序。
质粒pSLGVT-l通过两步连接策略构建。P15A-m复制子 组件与DNA克隆表达盒1温育。在单独的连接反应中,Kan组件与 DNA克隆表达盒2温育。在l小时温育后,合并两个连接反应,以组 装需要的环形产物。质粒pSLGVTV2i通过类似方式生产,但在初始连 接反应中用P15A-e复制子组件取代P15A-m复制子组件。
构建pSLGVT系列质粒的替代途径是通过化学合成,借 此由一系列化学合成的寡核苷酸组装质粒。
本发明的质粒pSLGVT-3代表用于有效构建多重DNA测 序载体家族的新方法,所述载体用于测序寡聚的GVT-对和其它DNA 区段。通过用含有来源于pUC质粒的复制子的那些位点终止的片段替 代pSLGVT-2的Bpi I-Fag I片段上的P15A复制子組件,构建质粒 pSLGVT-3。 pUC复制子来源于低拷贝数的Co正l复制子,其中在与 缺失rop调节物组合的中的单碱基突变导致质粒拷贝数由每个细 胞约20个拷贝增加至超过1000个拷贝(Vieira和Messing, 79:259, (1982))。高拷贝数的pSLGVT-3应有利于寡聚化GVT-对的高通量 DNA测序的模板制备。显著特征'li乌pSLGVT-3为位于DNA表达盒 1和2中的前述反向IIS型限制性酶位点对。用Esp3 I和Eco31 I消化pSLOVT-3产生两个DNA载体区段,其具有不对称粘性末端,用于2 个独立的寡聚GVT-对区段组的靶向和定向的连接,这允许由存在于 DNA表达盒1和2中的4个引物结合位点的每一个获得4个独立的测 序读数。常规测序载体通常携带1个插入片段,并可以支持仅2个测 序读数。6. GVT-对生产
本文使用的fosmid、 BAC和其它游离型元件净皮统称为质 粒,以下描述的用于产生GVT-对的方法基于先前描述的GVT-DNA 表达盒和GVT-连接物的说明性实施例。在某些实施方案中,通过机 械或酶促方法随机片段化用于生产GVT-对的靶DNA,产生需要大小 的片段,用于GVT-对生产。在其它实施方案中,以单独的反应或与 在特定位点切割靶DNA组合,用一种或多种限制性内切核酸酶完全 消化靶DNA,产生DNA片段群,用于生产如本文7>开内容所述的 GVT-对。对于用产生粘性末端的酶消化的靶DNA,可直接将去磷酸 化的插入片段DNA克隆入适当修饰的载体的IIS型或IIG型位点对之 间的位点,无需连接物。在又一个实施方案中,用一种或多种限制性 内切核酸酶完全消化靶DNA,并分级分离至需要的大小,用于生产 GVT-对。
使用T4DNA聚合酶修复用于生产GVT的、具有"不齐" 末端的靶DNA,并去磷酸化,以防i在插入片段与GVT-连接物连接 的过程中出现插入片段的自连接。同样,带有粘性末端的靶DNA被 去磷酸化,之后与带有互补末端的适宜GVT-连接物连接。使连4秦 GVT画连4妻物的DNA通过适宜的Chroma Spin柱(Clontech, Mountain View,CA),以去除未连接的连接物,之后将连接连接物的靶DNA连 接至GVT生产载体。在某些实施方案中,通过凝胶电泳或其它方法 选择为期望长度的靶DNA大小,之后将插入片段与GVT-连接物连接, 随后连接入GVT-生产载体,例如在本发明中描述的pSLGVT-1和pSLGVT画2。
针对在一定片段长度范围内的DNA区段,已描述了用于 优化载体与插入片段的分子间连接继之以分子内连接以产生环形分 子的连接条件(Wang和Davidson, JMo/说o/ /9:469 (1966); Dugaiczyk 等,《/Mo/说o/ 96:171 (1975); Collins和Weissman,爿cad Sc,' L/S4 W:6812 (1984))。用于连#~核酸分子、转染入宿主细胞中和构建 基于质粒的文库的通用方法是本领域技术人员已知的。参见例如 Sambrook等,Mo/ecw/ar C7om力g:爿/a6orato^y画咖a/第2版,(CSH press, New York, 1989); Ausubel等(编辑),幼oW /Votoco/s Zw Mo/ecw/ar 祝o/ogy,第3版,(John Wiley & Sons, New York 1995); Birren等,m朋wa/ (CSH Press, New York, 1999)。通过电穿孔或转染将连接的 DNA导入宿主细胞中。甲基化的靶DNA的增殖需要具有失活的wct 和mrr等位基因的宿主细胞菌林,戶;f述甲基化的靶DNA例如为基因 组DNA或cDNA,通过某些利用曱基化核苷酸类似物的方法合成。 适宜的宿主菌4朱包括川G (Lucigen, Middleton, WI); Mi 和^YL25/we MKF' (Stmtagene, La Jolla, CA)。将电穿孔或转染的细胞以约 20,000个菌落/板的密度铺板在处于适宜药物选择下的10 cm直径琼脂 板上,以产生初始文库。替代方法是在液体培养基中培养转染细胞, 同时小心使细胞不过度生长,从而促进克隆选择。处于培养中的克隆 总数应反映出研究设计所需要的GVT-对数。收获细胞,并分离质粒, 用于下述的后续步骤。
作为通用步骤,用MmeI、 CstMI、 NmeA III或EcoP15 I (New England Biolabs, Ipswich, MA)消化带有靶DNA插入片段的纯化 质粒,以产生符合实验设计的GVT。新产生的GVT的末端用T4DNA 聚合酶修复,以使消化的末端平端。通过凝胶电泳将连接新产生的 GVT的线性化质粒与切离的间插插入片段残余部分纯化开来,纯化的 产物通过平端连接环化,产生初始GVT-对文库。用于再环化质粒的
替代方法避免了对DNA末端修复的需要,利用携带所有16倍双^5tt 对变性的3,-突出端或5'-突出端的连接物,所述突出端分别通过Mme I、 CstM I、 NmeA III或EcoP15 I消化产生。所述方法应将通过Mme I 消化产生的GVT长度由18 bp增加至20 bp,但不应增加EcoP15 I产 生的GVT长度,因为EcoP15 I消化产生2bp的3'-凹缺末端,该凹缺 末端在修复过程中被T4 DNA聚合酶补平,之后质粒再环化,产生 GVT-对。使用连接物再环化质粒舍嶒加所获的具有外来序列的GVT-对的总体单位长度,对寡聚GVT-对的测序经济性产生负面影响。
将环化质粒导入到宿主细胞中,并以约20,000个菌落/10 cm板的密度铺板,或在液体培养基中在选择下培养,以产生初始GVT-对文库。用切割GVT-对两侧的酶消化初始GVT-对文库的纯化质粒, 以将GVT-对切离质粒。在用于文库构建的GVT-连接物的说明性实施 例中,分别使用BamH I或Pst I由Mme I或EcoP15 I产生的GVT-对 文库中切下GVT-对。使用类似的连接物设计,酶BspT I或Kas I分 别可用于由CstMI或NmeA III产生的GVT对文库中切下GVT-对。 以下显示了通过Mme I或EcoP15 I消化后平端末端连接产生的切离 GVT-对的一般性结构实施例7:通过Mme I消化、分子^连接和经BamH I消化切除产生 的GVT-对单体的结构5,pGATCCAAC-麵-薩画GTTGGTTG-18N画18N國CAACCTAGpMme I Mme I"18N-麵"代表GVT隱对的2个并列的18 bp GVT,由用Mme I 消化的靶DNA产生。单体上的Mme I识别位点对标以下划线。余下 的52bp单体部分,包括标有下划线的Mmel位点,包^it用"构架"。 52 bp的GVT-对单体在5%聚丙烯酰胺凝胶上通过电泳分离,并纯化 和寡聚化,用于测序。
实施例8: EcoP15 I消化、分子内连'接 经Pstl消化切除产生的GVT-对单体的结构5' pGCAG-27N國27N-CTGCTGCA ACGTCGTC-27N曙27N画GACGp 5'EcoP15 1 EcoP15 1"27N-27N"代表GVT-对的2个并列的27 bp GVT,由用EcoP15 I消化的把DNA产生。单体上的EcoP15I识别位点对标以下划线。余 下的70bp单体部分,包括标有下划线的EcoP15I位点,包含通用"构 架"。70 bp GVT-对单体在5%聚丙烯酰胺凝胶上通过电泳分离,并 纯化和寡聚化,用于测序。7.用于有效DNA测序的寡聚化GVT-对单体的产生
为经济性使用DNA测序资源,DNA序列标签通常被寡聚 化,并作为延长的寡聚物克隆入序列载体中。本发明提供有效的方法 来产生DNA标签的寡聚物,并将寡聚化的DNA区段组装成改进的测 序载体。通常,构建具有末端携带对称粘性末端(例如在所示实施例中 的BamHI或PstI)的DNA序列标签单体。然而,通常用于生产和克 隆寡聚化序列标签单体的方法先天低效,原因是在寡聚反应当中和插 入片段连接入载体的过程中产生非生产性的环形产物。如本文所述, 以下概述了生产和克隆寡聚序列标签的新的和优选的方法。改进的方 法利用"启动连接物",其可启动单体的寡聚化,并允许将寡聚产物 克隆入载体中,但同时防止寡聚DNA环化。以下显示了适宜的启动 连接物的4个说明性实施例实施例9:用于BamH I寡聚物的启动连4妄物GACA-Bam 5, pGACACACGTGCTAGTCCGGTGCACGATCAGGCCTAG曙5'实施例10:用于Pst I寡聚物的启动连接物GACA-Pst
5, pGACACACGTGCTAGTCCCTGCA GTGCACGATCAGGG-5,实例ll:用于BamHI寡聚物的启动连接物CTGA-Bam 5, pCTGACACGTGCTAGTCCGGTGCACGATCAGGCCTAG誦5,实施例12:用于Pst I寡聚物的启动连接物CTGA-Pst:5, pCTGACACGTGCTAGTCCCTGCA GTGCACGATCAGGG画5,
启动连接物由2个化学合成的互补寡核苦酸产生,这2个 寡核苦酸退火形成说明性的双链连接物。在一个末端,连接物具有回 文粘性互补末端,用于连接BamHI或PstI产生的序列标签单体,并 启动寡聚物形成。非不对称粘性末端(5,-GACA-3,或5,-CTGA-3,)存在 于另一个连接物末端,用于特异性连接入多重测序载体pSLGVT-3上 的一个或另一个克隆位点中。pSLGVT-3和pSLGVT系列的其它质粒 的独特设计具有携带两个独立DNA插入片段的能力。
在启动连接物的仅1 "个末端处针对单体的互补粘性末端 将单体的连接和寡聚物的增长限制在一个方向,由此使形成的非生产性环形分子最少。启动连接物的下链未^皮磷酸化,以防止形成连接物 二聚体。在连接反应中,在对启动连接物过量的GVT-对单体存在下 进行寡聚物形成,这允许反应进行到完成。产生的主产物为在两个末 端被启动连接物"加帽"的寡聚单体的集合。DNA单体与启动连接物 的比率表明最终寡聚化产物的总体大小范围。使用一4分启动连接物对 N份单体作为起点通过滴定获得生产性比率;其中N等于(在终产物 中需要的单体平均数+2)/2。如有需要,可合并使用一系列启动连接物 对单体比率的若干连接反应,通过凝胶电泳纯化期望长度的产物。对条件进行选择,以由GAGC启动连接物和GTGA启动连接物产生寡 聚物质,该寡聚物质含有约25-3(h个拷贝(约长1.6至2 kb),在1.5% 琼脂糖凝胶上纯化,并克隆入测序载体pSLGVT-3的两个位点中。8,将寡聚化GVT-对单体克隆入多重测序栽体dSLGVT-3中
本文使用的术语多重测序载体指为进行高通量桑格双脱 氧测序而进行了优化的质粒载体,具有在两个DNA克隆表达盒的每 一个中携带独立插入片段的能力,由4个引物结合位点的每一个都获 得4个测序读数。
用Eco31 I和Esp3 I消化pSLGVT-3 (或其低拷贝数变体 pSLGVT-2),以产生两个载体区段,所述区段通过凝胶电泳纯化待用。 载体区段1含有质粒复制子组件,并具有5,TCAG-3,和5'-TGTC-3, 粘性末端。载体区段2含有Kan组件,并具有5,-TGTC-3,和5,-TCAG-3, 突出端。载体区段1与通过启动连接物GACA-产生的等摩尔当量的寡 聚GVT-对连接。在独立的反应中,载体区段2与通过启动连接物 CTGA-产生的等摩尔当量的寡聚GVT-对连接。在l小时温育后,合 并两个连接反应,并再温育,以组装需要的环形产物,该产物含有两 个独立获得的寡聚GVT-对的插入片段,连接在两个载体区段之间。
600-800 bp的典型序列读取长度足以确定至少10个GVT-对的序列。基于对每个测序读数10个GVT-对和单个才莫々反的4个测序 读数的测定结果,本发明的单个质粒才莫板应产生40个以上GVT-对的 序列。采用40 kb的末端配对间隔的Fosmid配对末端作图需务假定末 端至末端间隔75,000个fosmid末端配7十,以75,000个fosmid模板制 备物和150,000个测序读数的成本支付人类基因组的费用。相比之下, 本发明使用的GVT之间以类似的40 kb间隔1倍覆盖人类基因应需要 75,000个GVT-对,其以仅7,500个测序读数和1,875个质粒才莫板制备 物的成本产生。对于类似的基因组覆盖和分辨率水平,与Tuzun等(A^ Ge"e"7:727 (2005))的fosmid配对末端方法相比,本发明的方法4吏用 降低20倍以上的测序读数和降低40倍以上的模板制备物。
本发明的优选实施方案
证据表明,遗传结构变化在人中^^有成百万的石咸基配对异 质性,是我们的遗传多样性的主要组分,其中一些几乎肯定牵涉我们 与环境的相互作用,并在疾病、疾病易感性或发展中起作用。本发明 涉及产生连锁基因组序列标签对的系'统、方法、组合物、栽体、载体 组分和试剂盒,所述标签对用于快速产生高分辨率遗传图谱,以鉴定 这些基因组变化。
在一个优选实施方案中,本发明通过产生多种GVT-对鉴 定耙基因组中的精细结构变化,所述GVT-对为限定的空间距离和方 向的独特基因组位置鉴定物。GVT-对共同地代表受试者的基因组分 析,然后将该基因组分析与参比序列对比,或与类似产生的其它耙基 因组的基因组分析对比,表明在核酸群之间存在精细结构差异。本发 明可检测的基因组精细结构变化包括缺失和插入、复制、翻转、易 位和其它染色体重排。本发明提供以用户限定的、取决于实验设计的 分辨率水平鉴定这些基因组特征的方法。
假定4个碱基均一分布,本发明的18 bp或27 bp的GVT 应碰巧分别平均每418和427个磁基出现1次,并应代表在人和其它复 杂基因组中的独特序列标识符(unique sequence identifiers)。在考虑 GVT之间的间隔距离时,GVT对基因组的明确分配变好。例如,由 大小分级分离的靶DNA群产生的、含有两个空间连接的18 bp GVT 的GVT-对是有效的36 bp序列标签。同样,连接的27 bp GVT对的功 能是54bp序列标签。不管标签长度,应当不可能将非常小的GVT或 GVT-对组分配至独特的基因组位置,例如完全处于重复元件中的那些 位置。预期本发明可撤销分析的基因组区域很小,可通过本领域已知 的计算机方法建模。
在每个GVT-对单体上存在的通用构架序列允许由高通量 测序数据明确的提取GVT-对序列、使用MEGABLAST (Zhang等,《/ Cow; W历o/ 7:203 (2000))或类似的计算机程序通过比对揭示GVT-对
与一个或多个参比序列之间的不一致性。在阈值水平内GVT-对间隔 距离或方向与参比的不一致性预示在粑和参比DNA之间存在结构差 异。阈值水平由实-验i^计确定,相对于平均GVT间隔足巨离的两个标 准偏差为合理的默认值。在与参比序列相比时,靶DNA中的缺失可 由2个或更多个GVT-对限定,所迷GVT-对跨越平均间隔距离的2个 标准偏差以上。因此,靶DNA中的插入片段可被限定为这样的位点 其中在与参比序列相比时,两个或更多个GVT-对跨越平均间隔的两 个标准偏差以下。在靶DNA中的翻转被定义为这样的位点其中二 个或更多个GVT-对的GVT方向不一致。人工维护(curate)和评价不一 致的GVT-对,之后继续通过PCR、 DNA印迹杂交分析或通过插入片 段分离和测序来验证。
本发明的耙基因组核酸可来源于任何来源,包括真核生 物、原核生物、微生物、质体和病毒的基因组DNA。本发明的耙基因 组核酸还可以来源于生物的RNA基因组,例如通过逆转录过程将 RNA转变为DNA的RNA病毒。用于研究的靶核酸的选择可受到在 科学文献中描述的特定染色体或染色体区域与某些病症相关的先有 知识影响。本发明可利用来自分离的染色体或染色体区域的靶DNA。 本发明可以适于研究设计的分辨率范围用于广泛的全基因组范围的 患者队列扫描。纯化染色体、染色体区段、基因组DNA和RNA的方 法是本领域已知的。本领域还已知通过PCR或通过其它方法扩增核酸 的方法,以产生经由本发明进行分析的靶DNA。
在本文公开内容的较早部分描述了切割靶DNA和分级分 离靶DNA至需要大小的方法,用于确定GVT-对的GVT之间的空间 距离。用屡次切割的酶动力学剪切或部分酶促消化DNA可用于产生 具有高度重叠片段的DNA片段群,用于最大化覆盖靶DNA的每个区。 或者,可用几种限制性内切核酸酶在单独的切割反应中完全消化靶 DNA,然后大小分级分离至用于GVT-对生产所需要的大小类别。由 用单一限制性内切核酸酶完全消化制备的、选择过大小的靶DNA产 生的GVT-对是不重叠的,仅覆盖了一部分靶DNA复杂性。用其它限 制性内切核酸酶完全酶促消化获得的、选择过大小的DNA片段可用 于覆盖空位。随机地或与完全酶促消化组合切割靶DNA,以覆盖给定 复杂性的基因组,此切割可由本领域技术人员通过计算机方法建才莫, 以取得使资源得到最佳利用的研究设计。诸如BamH I、 HindIII、 Pst I、 Spe I和Xba I的酶对CpG甲基化不敏感,并应在每个位点切割哺乳 动物基因组DNA,以产生精确地代表那些酶的邻近识别位点对的 GVT-对。对CpG甲基化、重叠CpG甲基化或可影响本发明的核酸分 析的其它种类的DNA修饰的作用不敏感的其它适宜的酶已由文献 (May等,J 6滤"0/ /":768, (1975); Hattman等, /胁/編汲367, (1978); Buryanov等,i^^S丄e"era朋:251, (1978); Geier等,J伤o/ C/zem 25(1408, (1979); Kan等,JMo/ 5zo/ /邓:191, (1979); McClelland等, 7Vwc/eW Am ":3640, (1994))和主要的限制性内切核酸酶供应商 (Fermentas, Hanover, MD; New Englapd Biolabs, Ispwich, MA)描述。在 某些实施方案中,其靶DNA的切割对DNA修饰敏感的酶可用于分界 靶DNA中的修饰位点。例如,本发明可鉴定已知调节基因表达的DNA 曱基化位点。对于该应用,用甲基化敏感的限制性酶完全消化靶DNA, 并由消化的DNA产生GVT-对。通过所获GVT-对在与参比序列上的 邻近限制性位点相比时的不一致性鉴定曱基化位点。
首先人工维护不一致的GVT-对,之后进行一系列的分级 过滤,以便检验。在其中不一致的GVT-对由来源于完全限制性内切 核酸酶消化的、选择过大小的DNA产生的情况下,采用相同限制性 内切核酸酶消化的耙DNA和参比DNA的DNA印迹分析可用于验证 靶DNA和参比DNA之间的标记距离的差异。GVT的长度足以用作 PCR引物,以便分离间插基因组序列进行鸟枪法测序,以确定结构变 化的精确性质。
—般认为,结构变化的研究将进一步阐明复杂疾病,例如 肥胖和糖尿病,这些疾病的发展由基因、基因元件和环境的相互作用 触发。本发明分析的核酸的选择可受到在科学文献中描述的特定染色 体或染色体区域与某些病症相关的先有知识的影响。本发明可以高分辨率针对来自分离的染色体或染色体区域或组织样品的DNA。或者, 本发明可以适于研究设计的分辨率范围用于广泛的全基因组范围的 患者队列扫描。现行的fosmid配对末端测序技术需要成百万的序列读 数来以中等的分辨率和覆盖率水平分析每个个体,由此限制了其作为 平台扫描大群体的应用,所述大群体用于关联研究,以发现对疾病结 果为诊断性或预后性的生物标记以及为用于药物干预的潜在药物靶 的生物标记。本发明提供了这些限制的解决方法,因此,本发明具有 产生新的药物诊断方法和帮助药物发现的潜力。
在另一个优选实施方案中,本发明鉴定的精细结构变化用 于设计寡核苦酸阵列测定、微阵列测定、基于PCR的测定和本领域中 的其它诊断测定,以检测核酸群之间的差异。本发明的微阵列和寡核 苷酸阵列是用于检测核酸拷贝数改变以及单个或少数核苦酸多态性 的有效平台,但不适于检测可能导致或引起疾病的其它基因组改变。 本发明的鉴定产物能够设计寡核苷酸和微阵列测定和本领域的其它 诊断测定,以筛选分界本发明鉴定的精细结构变化的易位、插入、缺 失和翻转接合处。这些测定然后可用于筛选一般群体和大的患者队 列,以确定精细结构变化在复杂疾病,的作用,所述疾病例如为肥胖、 糖尿病和许多癌症,这些疾病的发展由多种遗传和环境因素的相互作 用触发。这些测定的其它应用包括但不限于诊断或区分在医学诊断和 工业微生物领域中使用的微生物的密切相关的物种、品系、种族或生 物型。
在另一个优选实施方案中,本发明用于产生高分辨率基因 组图谱,以帮助由鸟枪法DNA测序进行基因组组装。限定间隔距离 或邻近限制性内切核酸酶位点的广泛的独特遗传标记组通过提供用 于基因组组装的骨架应极大促进全基因组测序工作。预期本发明产生 的与人类基因组组装的当前版本(35版,2004年5月)不一致的大量 GVT-对实际上可能不代表乾DNA.的'精细结构变化,而是反映了当前 人类基因组组装中的错误或空位。使问题更复杂的是现行的基因组组 装来源于合并的多个供体的DNA。需要来源于单个个体的、代表人类 多样性范围的参比序列,以推动基因组领域前进。本发明提供的用途 提供了实施此工作的方法。
在另一个优选的实施方案中,本发明用于产生高分辨率的 基因组图谱,以利于系统发生研究和测定密切相关的生物之间的遗传 和功能关联。本发明的一个方面尤其适于该用途,这方面利用由靶 DNA产生的GVT-对,所述靶DNA用单独的或者在用于GVT-对生产 的有用组合中的一种或多种限制性内切核酸酶完全消化,没有DNA 大小分级步骤。基本上,如此产生的GVT-对构成了含有位置标记对 的基因组分析,所述位置标记沿着靶DNA长度分界邻近的限制性内 切核酸酶位点。GVT-对的鉴定及其相"对丰度可用于产生高分辨率基因 组分析,该基因组分析可用于鉴定、区分和定量复杂医学或环境DNA 分离物中的原始基因组。如此产生的GVT-对还可用于工业微生物领 域,用于鉴定引起期望性状的基因组差异,例如在密切相关的品系、 生物型或种族或遗传修饰的生物中有利的生长速率和生产有用的次 级代谢物和重组蛋白。因此,本发明可用作工具,以在^:生物来源产 物的工业化生产中帮助改良菌株。本发明产生的高分辨率基因组图谱 还提供了低成本和有效的方法来研究密切相关的病原体核酸,以鉴定 变化区域,以这些区域为目标进行详细的序列分析,以鉴定可用于诊 断和作为医学千预的药物靶的病原决定因素。
在另一个优选实施方案中,本发明可用于遗传解剖家畜和 农业作物的表型多样性,以利于标记辅助性育种。家畜特别令人有兴 趣进行复杂遗传元件的鉴定,所述遗传元件有助于控制生长、能量代 谢、发育、机体组成、生育和行为以及通过经典育种研究的其它性状。 关于综述参见Andersson (W加i ev 2:130 (2001))。大部分目标农业性状是多因素的,经常受未知数量的数量性状基因座(QTL)控制。
基因组扫描的微卫星图谱已被开发用于大部分家畜。使用这些标记的相关研究和候选基因方法是用于鉴定QTL的两种主要策略。QTL的 克隆具有挑战性,因为基因型和表型之间的关联^皮认为比单基因性状 更复杂。然而,有可能通过后代测验间接确定QTL,其中QTL的分 离使用由子代之间的遗传标记和表型变化获得的数据来推断。目前, 大部分QTL的分子基础仍是未知的。果蝇中的QTL作图提示,QTL 经常与非编码区中的序列变化相关(MacKay iVW i ev 2:11 (2001))。如在人中一样,预期家畜和作物基因组中的精细结构变化在 表型表达以及基因组与环境的相互作用方面可能起重要作用。本发明 提供以低成本将家畜和作物中的广泛范围的基因组结构多样性制表 的方法。然后,制表的信息应能够产生寡核苷酸微阵列和其它诊断平 台,用于关联和连锁研究,以鉴定和表征导致标记辅助育种的实际 QTL。
作为主要的传粉者,蜜蜂在农业当中和世界上的许多地区 起关键作用。养蜂是由本发明获益的另一个领域。蜜蜂是一种在经济 上重要的物种,适于在育种发育中使用遗传技术。蜜蜂传代时间短, 产生大量子代。家系还容易通过人工授精增殖。蜜蜂品系在生育、抗 病性和行为性状方面表现出广泛的表型变化,其中许多处于复杂的遗 传控制之下。处于遗传控制之下的重要行为性状包括以许多非洲品 系为代表的攻击、苋食习性、产蜜量和所谓的"卫生"行为。"卫生,, 性状由至少7个至今还没确定的基因座调节,这些基因座合在一起导 致蜂房成员去除死亡或患病群体的清洁行为,作为抵御fonal和小虫 侵袭的主要防御,fonal和小虫是两种主要的经济性蜜蜂病原体。主要 目标是开发可信赖的诊断分子标记,这些标记可用于标记辅助育种, 以快速有效地鉴定需要的子代品系,而不需要复杂且耗时的育种试验 和大田试验。本发明可使用意大利蜂04;^ we仏/era)品系DH4的200 兆碱基大小基因组的遗传图谱和参比序列(The Honeybee Genome Sequencing Consortium A^w^ 443:931, (2006))来提供有岁文且低成本的 方法,以高分辨率研究多个蜜蜂品系基因组的精细结构变化,从而关 联期望的表型和基因型。成本有效地研究多个品系的能力是本发明提供的关键优势。例如,以10 kb分辨率窗5倍覆盖200兆碱基的蜜蜂 基因组应仅需要10,000轮测序和2,500个测序模板制备物。成本估计 基于每轮测序IO个寡聚化的GVT-对的序列测定结果以及每个栽体才莫 板支持4个独立的测序反应。
在另一个优选实施方案中,本发明可用于鉴定神经疾病和 性状的基础性遗传病因。 一般认为,许多神经障碍(如孤独症、双相型 障碍和精神分裂症)的至少一种组分具有复杂的非孟德尔遗传组分(Holzman和Matthysse, /^yc/ o/o/og^ ScZ /:270 (1990); Owen和 Cmddock, M /7: 21 (1996); Craddock和 Jones, & / 尸矽c&"^y /7S:sl28 (2001))。互补连锁和相关性研究目前用于鉴定基因 组组分,本发明提供了评价基因组精细结构变化在神经疾病中的促进 性作用的方法,并可以产生用于诊断、预后和患者管理的新方法。
在另一个优选实施方案中,本发明可用于鉴定癌症的基础 性遗传病因,由此产生用于诊断、预后和治疗干预的方法。实际上, 所有的癌症都是缘于DNA序列的异常性,这些异常性或者是固有的, 或者是通过生命当中的体细胞突变获得的。肿瘤生成的主要原则在 于,累积的DNA突变与环境因素一起改变了基因表达,或者基因功 能越过了允许克隆扩增、细胞侵入周围组织和启动转移的关键功能 阈。在西方国家有1/3的人将出现癌症,1/5将死亡,这使癌症称为最 常见的遗传疾病。在历史上,该 以鉴定有效的癌症或肿瘤抑制基 因开始,其中由于基因座的少量核普酸改变而简单失去或获得功能是 癌症的主要促成因素。该领域后来扩展到基因剂量,其中导致基因拷 贝数改变的DNA区段的复制或缺失是癌症发生的推测病因。应用阵 列CGH对检测DNA拷贝数的改变以及癌细胞系和原发性肿瘤的杂合 性的丧失特别有用。癌症中的拷贝数分析的全面综述和癌症中的体细 胞突变目录以及其中的参考文献可见于桑格研究所的"癌症基因组计划"(http:〃www.sanger.ac.uk/genetics/CGP/)。
最近,知晓了基因组精细结构变化在癌症发生中的重要作 用。在癌症发生过程中,肿瘤基因组累积了大量重排,包括扩增、缺 失、易位、翻转等,其中许多直接促成肿瘤发展(Gray和Collins, Cara'"og匿5^ ": 443 (2000》。Voljk等(Gewowe toearc/i 76: 394 (2006))利用fosmid配对末端作图的功能变化,以检测发展中的肿瘤的 基因组结构的所有改变,尤其是不能通过阵列CGH检测的易位和翻 转事件。他们的解析乳癌基因组的方法是最多信息的,但^皮研究者公认受限于获得每个样品的大量BAC克隆的末端终止序列所需要的费 用和资源。本发明提供低成本的、高分辨率的方法来克服这些缺陷, 鉴定不适于通过阵列CGH检测的基因组精细结构变化。本发明具有 足够低的成本,能够用于广泛的癌症患者队列研究,能够用于跟踪个 体患者的肿瘤发展中的基因组变化累积。跟踪肿瘤发生过程中的基因 组变化的能力在临床结果上应具有意义深远的预测价值,提供了患者 管理的显著改善。
在又一个优选实施气案中,本文所述方法可用于鉴定 mRNA加工变体。 一个基因编码一个蛋白的概念被一个基因编码多个 蛋白取代,其中一些蛋白具有在医学上相关的不同功能。该过程似乎 是高度可调的,部分通过mRNA的可变加工以及启动子、转录终止子 和翻译后加工的不同用途来介导。其中两个不同mRNA转录物重组的 反式剪接的过程又增加了转录组复杂性。所用靶mRNA的选择可受到 其中某些mRNA变体可能很重要的某些疾病情形、细胞类型、器官或 发育阶段的先有知识的影响。
本领域技术人员熟知用于mRNA分离和将mRNA转变为 cDNA的方法。在本发明的一方面中,通过逆转录或逆转录与PCR偶 联将分离的RNA转变为cDNA,所述PCR利用的方法包括使用随机 引物,所随机述引物含有限制性内切核酸酶,例如MmeI、 CstMI、 NmeAIII或EcoP151。限制性位点位于引物上,使得用所述内切核酸 酶消化所获的双链cDNA去除了 cDNA中的引物序列。调节引物浓度, 以产生300-500bp平均大小的产物,或符合实验设计大小的产物。在 使用T4 DNA聚合酶修复cDNA末端后,cDNA被去磷酸化,连接至 合适的GVT-连接物,并在5%丙烯酰胺凝胶上选择大小,用于生产 GVT-对。鉴定mRNA加工变体的GVT-对与NCBI参比序列(RefSeq) 或其它数据库的不一致性。加工变体通过使用来源于不一致的GVT-对的引物的PCR证实。
权利要求
1. 一种并列序列标签(GVT)的方法,其中标签对(GVT-对)的两个组成成员是靶核酸分子中限定间隔距离的独特位置标记,所述方法包括将具有一个或多个限制性内切核酸酶识别位点的DNA连接物连接至片段化的靶DNA插入片段的两个末端;使用限制性内切核酸酶在识别位点消化所述连接物,以在距靶DNA插入片段的每个末端的限定距离切割靶DNA插入片段,产生两个序列标签(GVT),这两个序列标签含有靶DNA插入片段的末端序列,所述末端序列与质粒载体连接;和再环化连接GVT的质粒载体,以获得含有具有两个并列GVT的GVT对的环化质粒。
2. —种并列序列标签(GVT)的方法,其中标签对的两个组成成员 为沿着耙核酸分子群长度侧接一个或多个给定限制性内切核酸酶的 两个邻近并可切割的限制性内切核酸酶位点的独特位置标签,所述方 法包括将消化的靶DNA插入片段连接入载体中侧4妻针对IIS型、IIG型 或III型限制性内切核酸酶的位点对的位置;在距耙DNA插入片段的每个末端的限定距离切割插入DNA,由 此产生两个序列标签(GVT),这两个序列标签含有耙DNA插入片段的 末端序列,所述末端序列与载体骨架连接;和再环化连接GVT的载体骨架,以形成环形质粒,每个环形质粒 均携带含有两个并列GVT的GVT-对。
3. —种通过受控且有序的短DNA单体连接产生DNA寡聚物的 方法,所述短DNA单体具有旋转等同的回文粘性末端,以产生以启 动连接物的两个末端为边界的寡聚产物,所述方法包括以下步骤形成由启动连接物启动的DNA单体的寡聚物,其中一个连接物 末端具有不能自连接但可以粘附载体的非回文粘性末端,而另 一个连接物末端具有这样的粘性末端其未被磷酸化,从而防止形成连接物 二聚体,并与DNA单体的粘性末端互补,用于连接单体,以启动寡 聚物形成;和在游离启动连接物与通过加入DNA单体形成的寡聚物连4矣时或 通过与由启动连接物启动的另一个寡聚物连接终止寡聚物生长;其中如此形成的寡聚物具有的平均长度受寡聚物开始形成时才企 测到的DNA单体与启动连接物的摩尔比率调节。
4. 一种用于制备环形组件载体的方法,所述环形组件载体能够生 产连接的序列标签、增殖一个或多个独立的DNA插入片段和启动至 少4种测序反应,所述方法包括提供两个组件载体区段或组件,第一个组件包含药物选择标记, 笫二个组件包含用于质粒复制的复制子,每个组件的末端部分都具有 IIS型内切核酸酶切割位点,该末端部分产生独特的非回文粘性末端, 用于载体组件的切离和靶向置换,以产生新的载体功能性;将第 一个和第二个组件的一个末端连接在含有识别位点的DNA 表达盒中,所述识别位点在用内切核酸酶切割时在用于连接DNA插 入片段的载体上产生非回文粘性末端对;和连接第一个和第二个组件的另一个末端,以在第二个DNA表达 盒中产生环形分子,所述第二个DNA表达盒含有第二个克隆位点, 该克隆位点含有另一对限制性内切核酸酶识别位点,该识别位点在用 内切核酸酶消化时在与第一个克隆位点不同的载体上产生非回文粘 性末端对,用于连接第二个且不同的受体插入片段,该克隆位点两侧 侧接不同DNA测序引物结合位点,以启动受体DNA插入片段中的桑 格双脱氧测序反应;其中所述载体没有Mwe I、 CWM I、 iVmeA III、 五coP15 I、尸W II、 SamH I、尸对I、万5pT I或^aw I的识别4立点,所述 载体插入片段克隆位点包含五co31 I和五^3 I识别位点。
5. 权利要求1的方法,其中所述标签对的两个组成成员在把核酸 分子中位于一个或多个限制性内切核酸酶的两个邻接并可切割的限 制性内切核酸酶位点的側翼。
6. 权利要求l的方法,其中所述靶DNA插入片段选自基因组 DNA、 cDNA、病毒DNA、微生物DNA、质体DNA、化学合成的 DNA、核酸扩增的DNA产物和由k^fA转录的DNA。
7. 权利要求l的方法,其中所述靶DNA通过施加机械力或用一 种或多种酶部分消化而被随机片段化。
8. 权利要求1和2的方法,其中所述靶DNA通过使用 一种或多 种单独的或组合的限制性内切核酸酶完全消化而被片段化。
9. 权利要求1和2的方法,其中所述片段化的靶DNA被大小分 级分离。
10. 权利要求1和2的方法,其中所述片段化的靶DNA没有萍皮 大小分级分离。
11. 权利要求l和2的方法,其中产生GVT的限制性内切核酸酶 为选自以下的IIS型或IIG型限制性内切核酸酶A/me I 、 MweA III 、 C对MI、 5ceAI、 B/w I、 5pwEI、 5sgl、万swFI、 RsfVl I、 fico57 I、 肠57M I和Gsw I。
12. 权利要求1和2的方法,其中所迷IIS型或IIG型限制性内 切核酸酶为A/wel。
13. 权利要求1和2的方法,其中所述IIS型或IIG型限制性内 切核酸酶为C对MI。
14. 权利要求1和2的方法,其中所述IIS型或IIG型限制性内 切核酸酶为iVmeAIII。
15. 权利要求1和2的方法,其中所述产生GVT的限制性内切核 酸酶为选自以下的m型限制性内切核酸酶EcoP15I、ficoPl 1、尸wn、 ///"dfll1、 S(yLTI、丄/aF I、 5ceS I、 /fz"e I、尸/ "B I、 H/^790545P、 //"790639 I和斷AXIP。
16. 权利要求1和2的方法,其中所述III型限制性内切核酸酶为 肠P15 I。
17. 权利要求i和2的方法,其中所述m型限制性内切核酸酶为
18. 权利要求1和2的方法,其中所述产生GVT的IIS型或IIG 型限制性内切核酸酶识别6个以上石威基对的不间断识别序列。
19. 权利要求1和2的方法,其中所述产生GVT的III型限制性 内切核酸酶识别6个以上碱基对的不间断识别序列。
20. 权利要求2的方法,其中靶DNA插入片段选自基因组DNA、 cDNA、病毒DNA、微生物DNA、质体DNA、化学合成的DNA、核 酸扩增的DNA产物和由RNA转录 DNA。
21. 权利要求4的组合物,其中所述选择标记没有Mme 1、CstM I、 NmeAIII、 EcoP15I、PstII、 BamHI、 Pstl、 BspT I或KasI限制性内 切核酸酶位点。
22. 权利要求4的组合物,其中所述选择标记为Kan基因。
23. 权利要求4的组合物,其中所述选择标记为Amp基因。
24. 权利要求4的组合物,其中所述质粒复制子没有Mme 1、CstM I、 NmeAIII、 EcoP15I、PstII、 BamHI、 Pstl、 BspT I或KasI限制 性内切核酸酶位点。
25. 权利要求4的组合物,其中所述质粒复制子为Pl5A.
26. 权利要求4的组合物,其中所述质粒复制子为ColEl。
27. 权利要求4的组合物,其中所述质粒复制子为;PUC的ColEl彩亍生物。
28. 权利要求4的组合物,其中所述质粒掺入片段克隆位点通过 用识别6个以上威基对的不间断序列的II型、IIS型或IIG型限制性 内切核酸酶消化产生。
全文摘要
一般地讲,本发明涉及用于高通量分析核酸精细结构变化的方法。具体地说,本发明涉及生产连接核酸的标签对的新策略、载体和载体组分,其中连接核酸的标签-对的组成成员处于用户限定的间隔距离,和/或为沿着靶核酸分子的长度分界一个或多个不同限制性内切核酸酶的邻近切割位点的核酸位置标记。
文档编号C12Q1/68GK101395281SQ200780007408
公开日2009年3月25日 申请日期2007年1月4日 优先权日2006年1月4日
发明者骆树恩 申请人:骆树恩
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1