用于核酸测序的组合物和方法_4

文档序号:8539300阅读:来源:国知局
/连接,再用第 二种限制性内切酶处理,随后与第二裂解位点/突出部互补的不同大小的第二发卡接头退 火/连接。
[0104] V.链置换
[0105] 如上所述,模板的互补片段可以双链的形式提供,如图2B所示。应当理解的是, 在这种情况下,优选在进行模板依赖的测序过程前或期间影响链的分离。例如,在通过掺 入过程测序时,优选通过选择和使用链置换聚合酶来完成链的分离。现在已有多种链置 换聚合酶,例如Φ29聚合酶和Φ29型聚合酶(参见,例如,美国专利系列号5, 001,050, 5, 576, 204,本文已完整纳入作为参考)、Bst聚合酶(新英格兰生物实验室公司(New England Biolabs)有售)以及同一申请人的国际专利申请系列号WO 2007/075987、WO 2007/075873、WO 2007/076057所描述的那些聚合酶,本文已完整纳入作为参考。
[0106] 图5以示意图的形式描述了利用这种模板和链置换酶的合成过程。如图所示,完 全毗连模板500与引物序列502和链置换聚合酶504形成复合体并与4种核苷酸506接触, 或者在某些优选方面与荧光标记的核苷酸类似物接触。当合成进行时,聚合酶自身的活性 可以从另一条链510置换一条互补链508,新生链512的合成继续进行下去。合成一旦结束, 例如,绕着模板的一个完整循环,就可以得到一个双链环状序列,由原来的模板500和新合 成的或新生的链512组成。由于链置换酶能够继续置换杂合链,例如,新合成的链512,因此 说明测序过程可以继续进行,通过模板的多个位点,产生出多个序列用于确定共有序列,通 常会得到一个长的连体分子,其中包含与毗连模板500互补的重复区。
[0107] 另外,在合成前或合成过程中也可以通过其他机制来影响链的分离。例如,可以通 过提高反应混合物的温度使模板的双链部分解链,允许引物延伸通过该区域。应当理解的 是,对于这种应用来说,比较理想的是使用热稳定的聚合酶,这种酶更能适应解链和继续合 成所需的温度。许多热稳定的聚合酶都是本领域熟知的,可用于这种类型的应用,其中包括 Taq聚合酶及其变体。
[0108] 利用热调节起始的合成过程显示在图6的示意图中。如图所示,引物602与模板 结构600结合并与非链置换聚合酶604接触。由于模板存在于双链构型中,聚合酶无法置 换互补链,因此合成不容易进行。在理想的位点上,双链区段分离使新生链606的合成通过 模板600的上述双链部分,例如,通过加热足以使双链区段解链而又不使引物脱离(如AC 所示)。应当理解的是,引物序列以及连接寡核苷酸的其他部分也可以使用相对较高的解链 温度,例如,GC富含序列,这种序列的解链温度高于天然氨基酸平均分布的核酸序列。双链 区段一旦形成双螺旋就能阻止原始模板从新杂交,由于有新生链的存在,因而不再需要变 性步骤或添加剂。
[0109] 应当理解的是,在使用非链置换酶时,通常需要在沿模板完成一个完整循环后添 加另外的链分离步骤,因为新生链处在阻挡合成继续进行的位置上。引物延伸开始以后,需 要另一种激发事件使不同模板测序步骤达到同步。另外,起始激发事件以后,可以将合成反 应的温度控制在较高水平以确保合成和测序继续进行而不被打断。
[0110] VI.序列比对
[0111] 如上所述,本发明的另一个优势是模板构型本身就有确定相同或一致模板的共有 序列的比对潜能。具体地说,由于连接寡核苷酸是已知的或可知的,在比对这种模板来源的 长链序列数据时可以很容易地利用这种预知的序列,例如,作为地标或注册序列。另外,即 使不知道连接寡核苷酸的序列,人们也能够通过观察完整序列中不具有序列数据其他位置 所有的互补部分的部分推导出其序列。具体地说,作为双链区段的模板的靶序列部分在同 一序列数据内包含内部互补,即,既包含正义链又包含反义链。但是,根据靶片段和连接寡 核苷酸长度的不同,与靶片段内连接寡核苷酸完全互补的可能性可能低到0.因此,人们可 以扫描一个给定模板构建物来源的序列数据,找到不包含序列其他位置所具有的内部互补 的部分,假设这就是连接寡核苷酸,从而利用它作为比对标志物。
[0112] 完整这种比对的一个典型算法是按照如下步骤操作的。首先,利用史密斯-沃特 曼(Smith-Waterman)比对方法将完整序列与其自身反向互补序列比对。采用比对质量阈 值,这样可以根据与反向互补序列对准的区域和没有对准的区域来注释序列。鉴定序列的 重复单位,例如,利用本领域熟知的傅立叶变换方法(Fourier transform methods)或者利 用同一种史密斯-沃特曼算法将序列与其自身而不是反向互补序列进行比对。第一步得到 的注释压缩成单个重复单位并对其进行汇总。然后对所有重复单位进行统计以进一步确定 序列插入片段。例如,在10个重复单位中,对反向补体的命中率为1或更低的区域被称为 "标记序列",而命中率为2或更高的区域被称为"基因组区域"。精确的阈值可根据需要而 定。
[0113] 但是,如上所述,可选择或制备包含具有有利于其鉴定的可鉴定序列特征的序列 的连接寡核苷酸,这既和与其相连的毗连模板序列有关,也和同一样品混合物中存在的其 他模板序列相关。具体地说,人们可以利用包含序列标志物如条形码的模板构建物内的连 接寡核苷酸来指示一个给定模板样品的复制起点。然后将包含可区别连接寡核苷酸标签的 不同模板样品混合在一起,利用一个测序过程进行分析。通过鉴定寡核苷酸标签将不同模 板来源的序列数据归于其原始样品制备过程。
[0114] 具体地说,可对包含不同核酸的样品进行多种不连续样品制备过程。这些不连续 样品制备过程用不同的起始材料完成,例如,不同样品(细胞,细胞培养物,患者等)、同一 起始材料的不同部分,即根据大小不同而选择出的部分等,或者同一群、细胞培养物等的不 同部分。每一个不连续过程得到的模板用模板构建物内独特的、可鉴定的不连续连接寡核 苷酸序列进行条形编码。
[0115] 然后将不同样品混合起来,在统一的测序反应中测序。由于每一轮的测序输出结 果都是基于各个分子的,因此可以利用模板分子内包含的编码序列按照其起源来分析测序 数据。具体地说,由于一个序列读数来源于一个分子,因此模板插入部分的序列无疑会连接 到其附着的接头序列的序列上,该接头序列内包含条形编码序列。相应的,每一个模板序列 都可以追溯到其起源,例如,特定的样品、患者等。
[0116] VII.毗连模板制备
[0117] 本发明的模板结构可用多种不同的方法制备。在第一个典型方法中,双链靶片段 的一个或两个末端与独立的发卡环相连形成了本发明的模板结构。这种方法是一种简化的 模板制备过程,能够减少不希望有的片段的连体化,并且能够轻易地从制备物中清除随机 核酸区段。例如,完全互补的双链核酸区段可通过平端与发卡接头序列连接起来。在这种 情况下,即使控制哪一个接头与双链区段不同末端连接的能力有所降低,但是使用一种类 型的接头依然是比较理想的。这种完全互补的双链区段可利用平端切割酶制备,或者通过 使用能产生突出端的限制性内切酶然后填满突出的单链,例如,利用克列诺片段等来制备。
[0118] 在本文所述的其他方法中,连接过程被用于将一种给定类型的接头可控地连接到 双链区段的一个给定末端,这样就可以在连接寡核苷酸内使用可鉴定序列以便于区别模板 的两个末端。
[0119] 图7以示意图的形式描述了这类方法中的一种。图中显示了双链核酸区段,如双 链区段700。双链区段可来源于较大靶核酸如基因组DNA、cDNA、DNA连体的片段化和/或 扩增产物,如PCR或LCR扩增产物等。然后将发卡接头710连接到双链区段700的两个末 端。如图所示,发卡接头710的连接依赖于双链区段700两条链3'末端独特的突出端720 的存在。在发卡接头上提供互补突出端722以便于发卡接头710与双链区段700发生特异 性的退火和连接。如图所示,突出端是双链区段发生腺苷酸加尾反应的产物,该反应能将一 系列腺苷酸添加到每一条链的3'末端。发卡接头两条链的3'末端有一组互补的胸腺嘧啶 核苷酸,用于进行特异性退火。但是,在双链区段的末端可以提供多种不同的特异性突出 端。例如,可以利用限制性内切酶片段化较大的双链DNA片段,在每一个裂解点留下一个特 征性的突出端。然后在发卡接头上提供这个特征性序列的互补序列以便于特异性退火和连 接。另外,特异性突出端可分别连接到每一条链的3'端或5'端,用作突出端。除了提供发 卡退火的特异性之外,突出端还可以在发卡接头退火和连接前阻止片段的连体化。退火以 后,利用标准连接方法将发卡接头连接到片段上。
[0120] 如上所述,虽然平端连接由于缺少额外的特异性和其他优势而不是优选方案,但 是也可用于将发卡接头连接到双链区段的末端。在这种情况下,通过使用过量的发卡接头 可以避免模板片段连体化或其他非特异性的连接。另外,以乳化液为基础的反应也可以防 止连体化,乳化液内的单个液滴可以制备成只能容纳单个分子的尺寸。
[0121] 在另一种方法中,模板序列可利用另一种连接方法制备以形成本文所述的模板构 型。在某些例子中,这种连接方法可以掺入外源连接片段,例如,不是原始靶序列的一部分, 而在其他例子中,原始靶核酸的一部分可用于形成连接寡核苷酸。在利用内部序列作为连 接寡核苷酸的例子中,这种序列可来源于单链突出端,或者来源于平端片段的双链部分。
[0122] 在任何一个事件中,双链核酸区段相邻3'和5'末端的共价连接,无论是来自于原 来的靶片段还是产生于附着的或连接的外源连接寡核苷酸,都可以利用如模板非依赖性的 dsDNA末端(TIDE)连接过程完成,例如,利用环化连接酶系统。一般来说,这个过程需要每 一个片段的5'末端存在磷酸基团以便于环化连接酶起作用。可以通过酶催化反应在片段 上添加5'磷酸,例如,使用T4多聚核苷酸激酶等。另外,如果双链区段是合成的或者是从 另一个模板制备的,而不是来自于较大核酸的片段化,那么磷酸化的5'末端可在合成过程 中产生,例如,在用于扩增原始靶序列的引物序列上,作为固相合成的起始建筑单元等。
[0123] 图8以示意图的形式描述了连接双链区段3'和5'末端的典型过程。如图所示,靶 序列的双链区段800是由链802和804组成的。在双链区段802和804上分别含有突出端 806和808。这种突出端可通过多种方法添加到片段上,例如,利用标准的加尾技术,如用末 端转移酶处理添加多聚腺苷酸尾巴、将接头序列连接到包含这种突出端的靶片段上等。另 外,虽然图中显示的是将序列添加到双链区段上,但是应当理解的是,这种突出端也可以在 片段化过程中提供,例如,作为限制性内切酶消化大片段核酸而产生的突出端。
[0124] 如图所示,5'磷酸基团810被连接到每一条链上以便于TIDE连接和闭合两条 相邻的链。用具有合适闭合活性的连接酶如环化连接酶ssDNA连接酶(震源生物技术 (Epicentre Biotechnologies),麦迪逊,威斯康辛州)、T4RNA连接酶等处理以后,双链的两 个末端闭合形成了本发明的完全毗连模板序列812。
[0125] 虽然利用商品化的环化连接酶系统可以成功地将含5'核酸的核苷酸连接到双链 核酸区段的3'羟基上,但是也可以对这个方法进行其他修饰(添加5'磷酸,存在MnCl 2、 ATP,以及在60°C的反应温度持续1小时以上)。通过PAGE监测发现,得到的分子耐受外切 酶的消化(外切酶I和外切酶III),说明得到的分子两端是闭合的。
[0126] 为上述过程提供突出端的另一种方法是在扩增过程中使用阻断引物对来制备保 留突出端的双链核酸区段。具体地说,利用扩增引物对扩增双链DNA的一个片段,例如,它 们可以在靶片段互补链的相对末端启动合成进行反向平行的扩增。引物对的构型与靶片段 部分互补,在其序列内包含一个或多个非天然核苷酸(在本文中被称为"第五碱基")。引 物序列内包含第五碱基将会阻止靶序列延引物序列延伸,因为扩增混合物中没有其互补核 苷酸,因此在得到的双链产物中包含单链突出端。同样,扩增重复多个循环就可以得到大量 的扩增产物,大多数或者几乎所有的扩增产物都是相同的,双链产物的两条链都保留了突 出端。然后这些双链区段可用于本文所述的模板制备过程。
[0127] 图9的示意图描述了上述过程的一个例子。如图所示,双链靶核酸区段900被引 物902和904反向平行启动(I区)。如图所示,每个引物都包含与靶序列900的链互补的 第一部分906、包含一个或多个非天然核苷酸或底物碱基的第二部分908以及与靶片段900 不互补的第三部分910。虽然图中显示的是非互补的,但这不是该方法是否具有可操作性的 关键。在某些情况下,例如,使用互补的第三部分910可以使引物与靶片段具有更高的亲和 力,因为引物中有两个片段是与待测片段互补的,这样与非靶区结合的可能性就会降低,第 五碱基部分不会对第一和第三部分与靶片段的杂交产生过度干扰。在缺少第五碱基的互补 核苷酸的标准扩增程序如PCR中使引物延伸。
[0128] 如II区中的箭头所示,引物沿每一个扩增产物的延伸都会终止在相同位置,即, 互补链上与第五碱基互补的位置。经过多轮扩增以后(III区),扩增产物基本上由包含突 出端的互补链组成,这个突出端包含含有第五碱基的部分(第二部分908)和引物的第三部 分(910),这些产物能退火形成双链核酸912。
[0129] 双链核酸912的每一个片段其5'端都有突出端,利用上述连接过程(以及IV区 所示)处理双链核酸912以制备本发明的毗连模板914。
[0130] 应当理解的是,引物序列可分别合成,其构型中可包含连接过程所需的和/或理 想的那些功能基团。例如,可以合成这种引物使其包含TIDE连接过程所用的5'磷酸基 团。另外,也可以合成这种引物使其包含,例如,在第三部分910内,测序启动位点,例如, 不同于906部分的扩增启动位点的启动位点,或者其他功能序列,如本文其他地方所述的。 另外,存在第五碱基部分,例如,所产生的模板构建物的连接寡核苷酸部分内的一个或多个 非天然碱基,可以在靶序列的双链区段之外提供另一种指示序列和/或控制序列或序列事 件。另外,910区还可以是部分自身互补的,形成干-环结构,5'末端靠近被阻断的延伸链 的3'末端。这有可能用作多种T4连接酶介导的标准方法的底物,例如,如上所述。
[0131] 例如,在缺乏第五碱基的互补核苷酸的情况下可以启动测序反应。由于这是非天 然碱基,因此其缺乏不会对序列靶部分的整体测序结果产生影响。但是,如果在反应中不添 加这个互补核苷酸,那么合成就会被抑制,测序过程也会中止,直到混合物中添加了第五碱 基的互补碱基,这为系统提供了一种热启动能力。另外,作为非天然碱基,完整模板构建物 的这一部分可以为测序过程和进程提供一个内部检查点,只要其结构不会干扰对模板内天 然碱基的序列分析就可以。例如,可以在序列混合物中添加第五碱基的互补核苷酸而不是 序列中四种添加碱基的互补核苷酸,第五碱基的这种互补核苷酸可携带完全不同的可检测 标记物。与这种标记物相关的因碱基掺入而产生的信号出现时则说明过程已经接近开始处 理靶核酸的一条链。同样,它还可以起到时钟功能,用于确定测序过程沿完全毗连模板前进 的时程。虽然是以"第五碱基"为术语进行描述的,但是应当理解的是,这个术语包含一组能 在模板结构提供多个控制元件的非天然碱基。例如,模板结构内可包含两个不同的非天然 碱基或第五碱基以调节测序过程,只是它们处于不同的位点,例如,使测序过程具有可控的 启动和可控的终止/起始,例如在测定反义链的序列前。例如,可以添加第一非天然碱基的 互补核苷酸以启动测序过程。一旦遇到第二非天然碱基,例如在第一发卡结构转弯处,所有 反应内的测序过程都会停止,直到向反应混合物中添加该第二碱基的互补核苷酸以后。这 将使各种测序反应再次同步,和/或提供控制对侧链的测序的能力,提供本文其他地方所 述的配对末端测序构型。
[0132] 图10描述了一个制备部分或完全毗连模板构建物的相似或相关过程。具体地说, 如图所示,第一扩增引物序列1000包含第一和第二互补片段1002和1004,二者由连接寡 核苷酸1006相连,如本文其他地方所述。另外,在完整扩增引物的3'末端有单链靶启动 片段1008。在某些例子中,靶启动片段1008可以是经过特殊选择的以便于在临近待测序 列位置处或其内启动。在其他优选的方面,靶启动片段可在一个给定基因组或其他大片段 DNA序列内随机启动以确保在制备用于测序的模板文库时能够达到最佳覆盖。例如,在随机 启动的情况下,靶启动片段1008可由相对较小的寡核苷酸组成,如六聚体、七聚体、八聚体 等。为了能够更特异地启动,靶启动片段通常包含较大的片段
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1