无凝胶珠基测序的试剂、方法和文库的制作方法

文档序号:438614阅读:441来源:国知局
专利名称:无凝胶珠基测序的试剂、方法和文库的制作方法
无凝胶珠基测序的试剂、方法和文库
政府支持
本发明是在政府支持(NIH授予的资助号R01-HG-003570)下进行的。政
府享有本发明的某些权利。
相关申请的交叉参考 本申请要求2006年4月19日提交的共待审美国临时申请60/793,702的 权利和优先权,将其全文以引入的方式纳入本文。本申请要求涉及2005年 2月1日提交的临时申请USSN 60/649,294;2005年2月25日提交的USSN 60/656,599; 2005年4月21日提交的USSN 60/673,749, 、 2005年7月15 日提交的USSN 60/699,541和、2005年9月30日提交的USSN 60/722,526 和USSN 11/345,979的优先权和权益,所有这些文献以引入的方式纳入本 文。
背景技术
核酸测序技术在从基础研究到临床诊断的各种领域中都非常重要。从 这种技术获得的结果可包括不同程度的特异性信息。例如,有用信息可包 括确定具体多核苷酸的序列与参比多核苷酸是否不同,确认样品中是否 存在特定多核苷酸序列,确定部分序列信息如鉴定多核苷酸内的一个或多 个核苷酸,测定多核苷酸内核苷酸的种类和顺序等。
DNA链一般是由四种类型的亚基组成的聚合物,这些亚基即含有腺嘌 呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)碱基的脱氧核苷酸。这些亚基 通过共价磷酸二酯键互相连接,该键将一个脱氧核糖基团的5'碳与下一个 基团的3'碳连接起来。大多数天然产生的DNA由两条这种链组成,这两条 链以反平行取向排列,通过互补碱基,即A和T以及G和C之间形成的氢 键连接在一起。随着链终止或双脱氧核苷酸法(Sanger等,Proc. Natl. Acad. Sci. 74:5463-5467, 1977)和化学降解法(Maxam和Gilbert, Proc. Natl. Acad. Sci. 74:560-564, 1977)的发展,可以进行大规模DNA测序,其中前者已被广泛 应用、改进和自动化。具体说,在开发自动DNA测序仪中使用荧光标记的 链终止物非常重要。上述两种方法的共同之处在于产生了大小不同的标记 DNA片段的一种或多种聚集体,其必须随后根据长度进行分离以鉴定所述 片段3'端的核苷酸(链终止法)或最近从所述片段上切下的核苷酸(化学降解 法)。
虽然目前可用的测序技术已经实现了重大进展,如对许多完整基因组 进行测序,但这些技术有许多缺点,并在许多方面还非常需要对其进行改 进。 一般用聚丙烯酰胺凝胶电泳分离标记的DNA片段。然而,已证明此步 骤在许多情况下是限制测序的速度和准确性的主要瓶颈。虽然证明毛细管 电泳(CAE)是能够完成人类基因组计划的突破口(Venter等,Science, 291:1304-1351, 2001; Lander等,Nature, 409:860-921, 2001),但仍然有 显著的缺点。例如,CAE仍然需要耗时的分离步骤,并且仍然涉及根据大 小来区分,这可能是不准确的。
已经提出了链终止法的各种替代方法。在一种通常称为"通过合成测 序"的方法中,寡核苷酸引物首先与靶模板杂交。然后通过聚合酶-催化加 入不同标记的核苷酸的连续循环延伸引物,对所述核苷酸在生长的链中掺 入了进行检测。对标记的鉴定用作对模板中互补核苷酸的鉴定。或者,可 用每种核苷酸平行进行多项反应,并在使用一种具体核苷酸的反应中所标 记核苷酸的掺入鉴定模板中的互补核苷酸。(参见例如,Melamede,美国专 利4,863,849; Cheeseman,美国专利5,302,509, Tsien等,国际申请WO 91/06678; Rosenthal等,国际申请WO 93/21340; Canard等,Gene, 148: 1-6 (1994); Metzker等,Nucleic Acids Research, 22: 4259-4267 (1994))。
为了对任何显著长度的多核苷酸进行有效测序,需要聚合酶在每个循 环中准确地掺入一个核苷酸。因此,通常需要采用用作链终止物的核苷酸, 即其掺入防止聚合酶的进一步延伸。然后,必须用酶学或化学方法修饰掺 入的核苷酸,以使聚合酶掺入下一个核苷酸。提出了可用作链终止物、但在其掺入后可被修饰从而使其在后续步骤中继续延伸的各种核苷酸类似
物,。例如在美国专利5,302,509; 6,255,475; 6,309,836; 6,613,513中已经 对这样的"可逆终止物"进行了描述,。然而,己证明难以鉴定可由聚合 酶高效掺入的可逆终止物,这可能是由于鉴于核苷酸很小,影响核苷酸用 作终止物的修饰也会影响其掺入生长的多核苷酸链。
其它测序方法包括焦磷酸盐测序(pyrosequencing),该方法基于检测 DNA聚合期间释放的焦磷酸盐(PPi)(参见例如,美国专利6,210,891和 6,258,568)。虽然不需要电泳分离,但焦磷酸盐测序有大量仍然限制其广泛 应用的缺点(Franca等,Quarterly Reviews of Biophysics, 35(2): 169-200, 2002)。也提出了杂交测序作为替代方法(美国专利5,202,231; WO 99/60170; WO 00/56937; Drmanac等,Advances in Biochemical
Engineering/Biotechnology, 11:16-101, 2002),但也有许多缺点,包括在区 分高度相似序列时可能出错。理论上,通过外切核酸酶的单分子测序是快 速测定长DNA分子序列的非常有效的方法,该方法包括标记一条链上的每 个碱基,然后检测样品流中依次切下的3,末端核苷酸(Stephan等,J BioteehnoL, 86:255-267, 2001)。然而,在实现这种可能方法之前还有许多 技术障碍等待克服(Stephan等,2001)。
基于具体序列变化的诊断测试已可用于各种不同疾病。人们普遍认为,
人类基因组的测序开创了个性化用药的时代,其中治疗(包括预防性治疗) 会适应患者的具体遗传组成或或根据具体等位基因或突变的鉴定结果进行 选择。对快速和准确测定病原体如HIV的序列变体的需要逐步增加。因此, 在不远的将来肯定更加需要准确和快速的序列测定。因此,需要所有类型 的序列测定的改进方法。
发明概述
本发明提供了不需要进行片段分离,并在某些实施方式中也不需要采 用聚合酶的新型改进测序方法。Macevicz的美国专利5,740,341和6,306,597 描述了发明背景中讨论的方法的替代方法。该方法基于沿单链模板进行双 链体延伸的重复循环。在这些方法的优选实施方式中,在每个循环中鉴定一个核苷酸。本发明改进了这些方法。这些改进能有效实施该方法,并且特别适合高通量测序。此外,本发明提供了用于序列测定的方法,该方法包括沿单链模板进行双链体延伸的重复循环但不包括在各循环中鉴定任何单个核苷酸。
在一个方面,本发明提供了基于沿单链模板进行双链体延伸、连接标记的延伸探针和检测标记的连续循环进行测序的改进方法。通常,从通过起始寡核苷酸和模板形成的双链体开始延伸。通过将寡核苷酸连接于起始寡核苷酸末端形成延伸的双链体延伸起始寡核苷酸,然后延伸的双链体通过连续连接循环重复延伸。各循环期间,通过鉴定顺利连接在寡核苷酸探针上或与其相连的标记鉴定模板中一个或多个核苷酸。也可在连接前,或者、此外,也可在连接后检测新加探针的标记。通常优选在连接后检测该标记。
在优选实施方式中,探针的末端位置(探针上与生长的双链体核酸链连接的核苷酸的相对末端)中具有不可延伸部分,以便在单个循环中仅发生延伸双链体的单个延伸。"不可延伸"指该部分未经修饰不可用作连接酶底
物。例如,该部分可以是缺少5'磷酸或3'羟基的核苷酸残基。该部分可以是连接有防止连接的封端基团的核苷酸。在本发明优选实施方式中,连接后去除不可延伸的部分以再生可延伸末端,以便使双链体可在后续循环中进一步延伸。
为了能够去除不可延伸部分,在本发明的某些实施方式中,探针含有至少一个可在基本不切割磷酸二酯键的条件下切割的核苷间连接。本文中
将这种连接称为"易切割的核苷间连接"或"易切连接"。切割易切割的核苷间连接能去除不可延伸部分,并再生可延伸的探针末端或留下修饰形成可延伸探针末端的末端残基。易切割的核苷间连接可位于探针中任意两个核苷之间。优选地,易切连接与新形成键相距至少几个核苷酸(即远端)。延伸探针中连接于可延伸末端的末端核苷酸和易切连接之间的核苷酸不需要与模板完全杂交。这些核苷酸可用作"间隔物"并用于鉴定位于模板间隔处的核苷酸,而不对该间隔内的每个核苷酸进行一个循环。
优选地,易切割的核苷间连接和标记的定位应使得易切割的核苷间连接的切割能够将延伸探针分离成标记部分和保持为生长的核酸链一部分的部分,从而使得标记部分扩散开(如通过提高温度)。例如,该标记可在连接核苷酸的相对末端连接于延伸探针的末端核苷酸。或者,可用任何其它方法去除该标记。
本发明者发现,磷酸二酯键中桥接氧原子之一被硫原子取代的硫代磷酸酯连接是特别有利的易切割的核苷间连接。硫代磷酸酯连接中的硫原子可连接于一个核苷的3'碳或相邻核苷的5'碳。
在上述方法的某些实施方式中,进行了许多测序反应。这些反应使用与模板的不同序列杂交的起始寡核苷酸,从而使得最初连接所发生的末端位于模板的不同位置上。例如,发生最初连接的位置可以通过增加1个核苷酸而移位,或互相"移相"。因此,用相同长度的寡核苷酸探针延伸的每个循环之后,不同模板上起始寡核苷酸的末端之间存在相同的相对相。可在各自含有相同模板的拷贝的独立容器中平行进行反应,或连续进行反应,即用初始起始寡核苷酸获得序列信息后去除模板上的延伸双链体,然后用杂交于该模板的不同序列的起始寡核苷酸进行其它反应。在另一方面,本发明提供了可用于各种核酸操作的溶液。在一种实施
方式中,本发明提供了含有或主要由1.0-3.0% SDS、 100-300 mMNaCl和5-15 mM硫酸氢钠(NaHS04)的水溶液组成的溶液。该溶液可含有或主要由约2。/。SDS、约200mMNaCl和约10 mM硫酸氢钠(NaHSO4)的水溶液组成。例如,在一种实施方式中,该溶液含有2。/。SDS、 200mMNaCl和10mM硫酸氢钠(NaHS04)的水溶液。在另一实施方式中,该溶液主要由2n/。SDS、200 mMNaCl和10 mM硫酸氢钠(NaHS04)的水溶液组成。在某些实施方式中,该溶液的pH为2.0-3.0,如2.5。该溶液可用于将双链核酸,如双链DNA分离成单链,即使双链核酸变性(解链)。在某些实施方式中,两条链都是DNA。在其它实施方式中,两条链都是RNA。在其它实施方式中, 一条链是DNA,另一条链是RNA。在其它实施方式中, 一或两条链同时含有RNA和DNA。在其它实施方式中, 一或两条链含有至少一个除A、 G、 C或T以外的核苷酸。在一些实施方式中, 一或两条链含有非天然产生的核苷酸。在其它实施方式中, 一个或两个残基是引发残基,如脱碱基残基或损坏的碱基。在一些实施方式中, 一个或多个残基含有通用碱基。在一些实施方式中, 一或两条链含有易切连接。
双链核酸可以是完全或部分双链。它们可以是溶液中的游离分子,或者一或两条链可以与固体或半固体支持物或基材物理相连(如共价或非共价连接)。特别注意的是,在这些溶液中孵育的双链核酸在不用加热或不存在强变性剂的情况下有效分离成单链,加热或强变性剂会引起凝胶分层(如核酸位于或连接于半固体支持物如聚丙烯酰胺凝胶时)或可破坏非共价连接如链霉亲和素(SA)-生物素连接(如核酸通过SA-生物素连接连接于支持
物或基材时)。在一种实施方式中,用该溶液分离其中一条核酸通过SA-生
物素连接与小珠连接的双链核酸。
本发明也提供了分离双链核酸的链的方法,所述方法包括以下步骤
将双链核酸与任何上述溶液接触,如含有约1.0-3.0% SDS、约100-300 mMNaCl和约5-15 mM硫酸氢钠(NaHS04),如含有1.0-3.0% SDS、 100-300 mMNaCl和5-15mM硫酸氢钠(NaHS(X0的水溶液。在一种实施方式中,该溶液含有约2%SDS、 200 mM NaCl和10 mM硫酸氢钠(NaHS04),如2% SDS、200 mM NaCl和10 mM硫酸氢钠(NaHS04)。在另一实施方式中,该溶液主要由2%SDS、 200mMNaCl和10 mM硫酸氢钠(NaHS04)的水溶液组成。在某些实施方式中,该溶液的pH为2.0-3.0,如2.5。在一些实施方式中,在该溶液中孵育双链核酸。在其它实施方式中,用该溶液洗涤双链核酸(优选连接于支持物或基材的核酸)。在一些实施方式中,将双链核酸与该溶液接触足够时间以将至少10%双链核酸分子分离成单链。在一些实施方式中,将双链核酸与该溶液接触足够时间以将至少20%、 30%、 40%、 50%、 60%、70%、 80%、 90%、 95%、 98%、 99%或更多的双链核酸分离成单链。在示范性实施方式中,将双链核酸与该溶液接触15秒-3小时。在另一实施方式中,将双链核酸与该溶液接触l分钟-l小时。在某些实施方式中,将双链核酸与该溶液接触约1、 2、 3、 4、 5、 10、 15、 20、 25、 30、 35、 40、 45、50、 55或60分钟。该方法还可包括孵育一段时间后去除溶液或从溶液中去除一些或全部核酸的步骤。
该溶液可用于本文所述许多测序方法的一个或多个步骤,并可用于这些方法中的任何一种。例如,可用该溶液从模板上分离延伸的双链体。可在切割易切连接后用该溶液去除不再连接于延伸双链体的延伸探针部分。也可用该溶液分离三链核酸的链或分离含有互相杂交的自身互补部分的单链核酸的双链区。
在另一方面,本发明提供了使用至少两种可区分标记的寡核苷酸探针
家族的集合用于获得序列信息的方法。探针家族中的探针含有不限定部分
和限定部分。如上述方法中所述,从起始寡核苷酸和模板形成的双链体开
始延伸。通过将寡核苷酸探针与其末端连接形成延伸双链体延伸起始寡核
苷酸,然后通过连续连接循环重复延伸。该探针的末端位置(探针上连接于
双链体的生长的核酸链的核苷酸的相对末端)中含有不可延伸的部分,以便在单个循环中延伸双链体仅发生一次延伸。每个循环期间,检测顺利连接
的探针上或与其连接的标记,去除或修饰不可延伸部分以产生可延伸末端。该标记对应于该探针所属的探针家族。
连续的延伸、连接和检测循环产生连续顺利连接的探针所属探针家族的有序列表。用探针家族的有序列表获得序列信息。然而,了解新连接的探针属于哪个探针家族本身不足以确定模板中的核苷酸种类。相反,了解新连接的探针属于哪个探针家族能排除某些序列成为该探针限定部分序列的可能,但各位置上至少留下两种可能的核苷酸种类。因此,模板中位于新连接探针的限定部分的核苷酸的相对位置上的核苷酸种类至少有两种可能性(即与探针限定部分的核苷酸互补的核苷酸)。
在某些实施方式中,进行所需循环数之后,用探针家族种类的有序列表产生一组候选序列。这组候选序列可为达到目标提供足够的信息。在本发明的优选实施方式中,进行一个或多个额外步骤,以从候选序列中选择正确序列。例如,可将该序列与已知序列的数据库进行比较,与数据库中序列之一最接近的候选序列被选作正确序列。在其它实施方式中,用探针家族的差异编码组通过连续的延伸、连接、检测和切割循环对该模板进行另一轮测序,并用第二轮获得的信息选择正确的序列。在其它实施方式中,将至少一项信息与获自探针家族的有序列表的信息合并,以确定该序列。
本发明也提供了用探针家族进行测序时进行差错检查的方法。某些方法能区分单核苷酸多态性(SNP)和测序差错。
本发明也提供了含有至少两个感兴趣节段(如至少两个标签)和至少三
个引物结合区(PBR)的核酸片段(如DNA片段),以便从各片段扩增出至少
两种不同模板,各自对应于一个感兴趣节段。"引物结合区"是寡核苷酸可杂交的核酸部分,从而使得该寡核苷酸可用作扩增引物、测序引物、起始寡核苷酸等。因此,引物结合区应具有已知序列,以选择适当的互补寡核苷酸。如本文和附图所用,用于本发明方法的核酸链的一部分可称为引物结合区,无论在本发明方法实施中引物确实结合于该区域或是结合于核酸链的互补链的对应部分。因此,在用于本发明所述方法中时,核酸的一部分可称为引物结合区,无论引物确实结合于该区域(在这种情况下引物的序列与该区域的序列互补或基本互补)或是结合于该区域的互补区(在这种情况下引物的序列与该区域的序列相同或基本相同)。感兴趣节段是需要其序列信息的任何核酸节段。例如,感兴趣序列可以是标签,出于本公开目的,可假定感兴趣节段是标签(本文中和其它地方也称为"末端标签")。然而应理解,本发明不限于作为标签的感兴趣节段。在某些实施方式中,至少两个标签是成对标签。核酸片段可含有一对或多对标签,如一对或多对
成对标签,如2、 3、 4、 5或更多对成对标签。本发明还提供了含有这种核酸片段的文库,以及制备模板和文库的方法。
本发明还提供了微粒,如连接有至少两种不同的核酸群的珠,其中所述至少两种核酸群各自由多种基本相同的核酸组成,并且其中所述核酸群通过扩增(如PCR扩增)单个核酸片段产生。在一些实施方式中,所述单个核酸片段含有5,标签和3'标签,其中5'和3'标签是成对标签。在其中所述单个核酸片段含有一对5'标签和3'标签的一些实施方式中,连接于所述微粒的核酸群之一包括5'标签的至少一部分,并且连接于所述微粒的核酸群之一包括3'标签的至少一部分。在优选实施方式中,核酸群之一包括完整的5'标签,并且核酸群之一包括完整的3'标签。
核酸片段含有多个PBR,其中至少一个位于标签之间,并且其中至少两个侧接于含有标签的核酸片段部分,从而使得能够对含有5'标签的至少一部分的区域进行扩增,并能够对含有3'标签的至少一部分的区域进行扩增,以产生两种不同的核酸群。在优选实施方式中,可扩增完整的5,标签和完整的3'标签。例如,所述核酸片段可含有侧接于5,标签的第一和第二
引物结合位点,以及侧接于3,标签的第三和第四引物结合位点。用结合于第一和第二引物结合位点的引物进行PCR扩增扩增5'标签。用结合于第三和第四引物结合位点的引物进行PCR扩增扩增3'标签。应理解,应选择引物,以便从各引物向含有待扩增标签的DNA片段区域进行延伸。或者,第一引物结合位点可位于所述标签之一的上游,并且第二引物结合位点可位于另一标签的下游,并且第三引物结合位点可位于所述两标签之间。第三引物结合位点用作PCR扩增的正向引物的结合位点,以扩增一个标签,并用作PCR扩增的逆向引物的结合位点,以扩增另一标签。因此,在本发明一种实施方式中提供了微粒,如连接有至少两种不同的核酸群的珠,其中所述至少两种核酸群各自由多种基本相同的核酸组成,并且其中第一种不同的核酸群包括5'标签,第二种不同的核酸群包括3'标签。
本发明还提供了微粒群,如其中各个微粒连接有至少两种不同的核酸群的珠,其中所述至少两种核酸群各自由多种基本相同的核酸组成,其中所述核酸群通过扩增(如PCR扩增)单个核酸片段产生。基本相同的核酸群可以是(例如)5,标签和3,标签。本发明还提供了这种微粒的阵列和测序方法,该方法包括对基本相同的核酸群进行测序。例如,在一种实施方式中,连接于单个微粒的这两种基本相同的核酸群各自包括不同引物结合区(PBR),从而通过使用不同的测序引物,可在没有其它群体干扰的情况下对一个群体进行测序。如果将基本相同的核酸的两种以上基本相同的群体连接于一个微粒,每个群体可具有独特(即不同)的PBR,从而使得结合特定PBR的引物不结合连接于该微粒的其它基本相同核酸群中存在的PBR。因此,本发明方法能够产生连接有至少两种不同的基本相同的核酸群的微粒(如含有5'标签的模板的多个拷贝和含有3'标签的模板的多个拷贝),其中所述标签是成对标签。按照本发明方法,所述模板含有不同PBR,它们为测序引物提供结合位点。因此,通过选择与含有5,标签的模板中PBR互补的测序引物,可从5,标签获得序列信息,而不受含有3'标签的模板的干扰,即使同一微粒上也存在含有3'标签的模板。通过选择与含有3'标签的模板中PBR互补的测序引物,可从3'标签获得序列信息,而不受含有5,标签的
模板的干扰,即使同一微粒上也存在含有5'标签的模板。两个成对标签存在于同一微粒上时,意味着5'和3,成对标签的序列可互相连接,正如它们
存在于单个模板时那样。
也提供了连接于基材的微粒阵列。在一个实施方式中,微粒通过单链模板系链连接于基材,即该单链模板一端连接于微粒,另一端连接于基材。某一端或两端的连接方式可以是共价或非共价连接。在某些实施方式中,任一连接方式或两个连接方式是生物素结合部分和生物素。
也提供了含有核酸集落的阵列,该核酸集落是通过拷贝连接于微粒的模板和任选地扩增该拷贝的模板产生的。也提供了封闭寡核苷酸和其使用方法,以及含有封闭寡核苷酸的组合物。
本发明也提供了可用于(例如)对在基本平坦的支持物中或上排列的模板进行测序的自动化测序系统。本发明还提供了一种图像处理方法,它们
可储存于计算机可读介质如硬盘、CD、 zip盘、闪存等中。在某些优选实施方式中,该系统每秒实现40,000个或更多核苷酸的鉴定。在某些优选实施方式中,该系统每天(24小时)产生8.6千兆(Gb)序列数据或更多。在某些实施方式中,该系统每天产生48 Gb序列信息(核苷酸鉴定)或更多。
本发明也提供了储存应用本发明测序方法产生的信息的计算机可读介质。所述信息可以储存于数据库中。
本申请书参考了各种专利、专利申请、期刊文献和其它发表物,它们都以引入的方式纳入本文。此外,将以下标准参考书以引入的方式纳入本文《新编分子生物学实验指南》(Current Protocols in Molecular Biology),John Wiley & Sons,纽约,2002年7月编;Sambrook, Russell,和Sambrook,《分子克隆实验室手册》(Molecular Cloning: A Laboratory Manual),第三版,Cold Spring Harbor Laboratory Press, Cold Spring Harbor, 2001。在本说明书与纳入作参考的任何文献有矛盾时,应以本说明书为准,应理解,本发明者能够在任何时间判断是否存在矛盾或不一致。
附图简要说明请注意,

图1-35中许多附图在USSN 11/345,979中是彩色附图,将这些附图以引入的方式纳入本文,并可用于替换本文提供的附图。
图1A是启动后接两个延伸、连接和鉴定循环的示意图。
图1B是从模板的游离端向支持物的向内延伸的实施方式中启动后接两个延伸、连接和鉴定循环的示意图。
图2显示了寡核苷酸探针的颜色分配方案,其中通过鉴定荧光团的颜色确定探针的3'碱基种类。
图3A显示了起始寡核苷酸杂交于模板结合区的不同位置上然后连接延伸探针形成延伸双链体的示意图。
图3B显示了用设计在模板分子上每6个碱基读出一次的延伸探针以延伸、连接和切割法组装连续序列的示意图。
图4A显示了 5,-S-硫代磷酸酯连接(3,-0-P-S-5')。
图4B显示了 3'-S-硫代磷酸酯连接(3,-S-P-0-5,)。
图5A显示了用含有3'-0-P-S-5'硫代磷酸酯连接的延伸探针用于5'—3'方向测序的一个延伸、连接和切割循环的示意图。
图5B显示了用含有3,-0-P-S-5'硫代磷酸酯连接的延伸探针用于3'—5'方向测序的一个延伸、连接和切割循环的示意图。
图6A-6F是在单个模板上进行几个测序反应的更详细的示意图。这些反应利用结合于模板不同部分的起始寡核苷酸。
图7是显示了 dA和dG的3'-亚磷酰胺的合成方案示意图。
图8A-8E是显示顺利连接和切割含有硫代磷酸酯连接的延伸探针的两个循环的凝胶移位试验结果。
图8F显示了 DNA连接酶的连接机制的示意图。
图9是显示含肌苷的简并寡核苷酸探针的连接效率的凝胶移位试验结果。
图10是显示含肌苷的简并寡核苷酸探针在多种底物上的连接效率的凝胶移位试验结果。
图11显示了评价两种DNA连接酶(T4 DNA连接酶和Tag DNA连接酶)各自在3,—5,延伸上的保守性的分析结果。图12是用于评价T4 DNA连接酶在连接寡核苷酸探针中保守性的显示含肌苷的简并寡核苷酸探针的连接效率的凝胶移位试验结果(A)和连接反应的直接测序分析结果(B)。将结果制表形成图C-F。
图13A-13C显示了当基于珠的模板包埋在玻片上聚丙烯酰胺凝胶中时在凝胶中进行连接的实验结果。图13A显示了连接反应方案。在存在(B)和不存在(C)T4 DNA连接酶时在凝胶中进行连接反应。
图14A显示了用荧光标记的第二扩增引物和过量模板在连接有第一扩增引物的珠上进行乳液PCR反应的图像。
图14B(上)显示了连有与Cy3-标记寡核苷酸杂交的模板的珠固定在聚丙烯酰胺凝胶内的部分玻片的荧光图像。(此玻片用于不同实验,但本文所用玻片具有代表性)。图14B(下)显示了装有Teflon掩模以封闭聚丙烯酰胺溶液的玻片的示意图。
图15显示了经设计能解决探针特异性和选择性问题的三组标记的寡核苷酸探针,也显示了一组四种可光谱分辨的标记的激发和发射值。
图16显示了确认寡核苷酸探针的4色光谱特性的实验结果。用含有四种独特荧光团探针的寡核苷酸探针混合物在含有四种独特的单链模板群(A)的玻片上进行杂交和连接反应,在连接前和连接后在亮光下成像(B),并用四种带通滤光片荧光激发成像。单个群体显示假色(C)。在(D)中对显示最小信号重叠的光谱特性作图。
图17显示了确认寡核苷酸延伸探针的连接特异性的实验。图17(A)显示了连接的示意图。图17(B)是亮光图像,图17(C)是包埋在聚丙烯酰胺凝胶中的珠群连接后的相应荧光图像。图17(D)显示了在连接前或连接后从各标记检测到的荧光。
图18显示了确认寡核苷酸延伸探针的连接特异性和选择性的另一实验。图18(A)显示了连接的示意图。图18(B)是亮光图像,图18(C)是包埋在聚丙烯酰胺凝胶中的珠群连接后的相应荧光图像。图18(D)显示了预计与观察到的连接频率,显示出根据具体延伸探针在群体中的比例预测的频率和观察到的频率高度相关。
图19显示了确认含有简并和通用碱基的寡核苷酸延伸探针库可用于在凝胶中提供特异性和选择性连接的实验。图19(A)显示了连接实验的示意 图,说明了连接后四种差别标记的含肌苷的简并探针库。图19(B)是亮光图
像,图19(C)是包埋在聚丙烯酰胺凝胶中的珠群连接后的相应荧光图像。图 19(D)显示了预计与观察到的连接频率,显示出根据具体延伸探针在群体中 的比例预测的频率和观察到的频率高度相关。图19(E)显示了原始未处理数 据和代表前90%珠信号值的过滤数据的散点图。
图20是显示起始寡核苷酸(引物)与模板的连续杂交剥离循环中检测的 信号的柱状图。如图所示,超过IO个循环发生少量信号损失。
图21是可用于(例如)从排列于基本平坦的支持物中或之上的模板中收 集序列信息的自动化测序系统的照片。也显示了控制该系统各组件运行、 处理和储存收集的图像数据、提供用户界面等的专用计算机。图的下半部 分显示了用于实现比重气泡置换的流动室的放大图。
图22显示了高通量自动测序装置示意图,该装置可用于测定排列于基 本平坦的支持物中或之上的模板序列。
图23显示了不一致比对的散点图,它说明30帧中不一致的很少。
图24A-I显示了本发明流动室或其部分的各种不同视图的示意图。
图25A显示了优选探针家族集合的示范性编码,该集合包括含有长度 为2个核苷酸的限定部分的部分限定探针。
图25B显示了优选的探针家族集合(上图)和连接、检测和切割循环(下图)。
图26显示了另一优选探针家族集合的示范性编码,该集合包括含有长 度为2个核苷酸的限定部分的部分限定探针。
图27A-27C代表了以图解确定表1定义的24个优选探针家族集合的另 一方法。
图28显示了较不优选的探针家族集合,其中探针含有长度为2个核苷 酸的限定部分。
图29A显示了可用于产生探针家族集合的限定部分的图表,所述集合 包括含有长度为3个核苷酸的限定部分的探针。
图29B显示了可用于从24个优选探针家族集合中产生探针家族集合的限定部分的作图方案图表,所述集合包括含有长度为3个核苷酸的限定部 分的探针。
图30显示了用探针家族集合进行序列测定的方法。描述了采用优选探 针家族组的一种实施方式。
图31A-31C显示用第一探针家族集合产生候选序列、并用第二探针家 族集合解码,从而进行序列测定的方法。
图32显示用较不优选的探针家族组合进行序列测定的方法。
图33A显示连接有珠的玻片的示意图。DNA模板连接于珠。
图33B显示连接于玻片的珠群。下图显示白光(左)和荧光显微镜下的 相同玻片区域。上图显示珠密度范围。
图34A-34C显示了核酸片段(模板)中存在的成对标签的两个标签以单 个核酸群体的方式进行扩增和通过扩增方法将它们捕获到微粒上的方案。
图35A和35B显示了图35方案的引物设计和扩增的详细情况。出于 清晰目的显示了核酸片段(模板)的两条链。以同一颜色表示具有相同序列的 引物和引物结合区。例如,用深蓝色表示P1,表示微粒上和溶液中存在的 引物P1的序列与所示模板链的相应彩色部分相同。模板的深蓝色区域(标 记的P1)可称为引物结合区,尽管对应的引物(P1)实际上结合于另一条链 的互补部分并与引物P1序列相同。
图35C和35D分别显示了连接于用图35A和35B所示方法产生的微 粒的第一和第二标签的测序。
图36A显示了来自配对末端文库的模板分子,显示封闭寡核苷酸能与 该模板的正向衔接子、逆向衔接子和内部衔接子部分杂交,这些部分是该 文库成员共有的。该图下方显示衔接子和封闭寡核苷酸的示范性序列。图 36A-36C的"ddBase"表示双脱氧核苷。"独特DNA序列"代表待测序靶区域。
图36B显示了来自片段文库的模板分子,显示封闭寡核苷酸能与该模 板分子的正向衔接子、逆向衔接子和内部衔接子部分杂交,这些部分是该 文库成员共有的。该图下方显示衔接子和互补封闭寡核苷酸的示范性序列。
图36C显示了来自模板分子进行滚环扩增(RCA)的文库的分子。RCA 产生多个拷贝的模板分子独特部分(2)以及衔接子区(1)和扣锁区(3)。该图显示与模板的衔接子和扣锁部分杂交的封闭寡核苷酸,这些部分是该文库成 员共有的。
图37显示几个扣锁探针序列和用RCA合成模板分子后将封闭该扣锁 区的寡核苷酸的示范性序列。
图38显示不用半固体介质在基材上产生的微粒阵列(无凝胶微粒阵列)。
图39显示用无凝胶微粒阵列进行基于连接的测序的结果。 图40显示位于表面的微粒的示意图,并说明接触片(contactpatch)和模 板延伸产生的核酸集落的预计大小。
定义
为了易于理解本说明书,提供以下定义。应理解,通常,没有特别定 义的术语被赋予通常含义或本领域通常接受的含义。
本文所用的"脱碱基残基"是具有去除含氮碱基或去除含氮碱基的重 要部分以使得到的分子不再参与核苷或核苷酸的氢键特征后,保留的核苷 或核苷酸部分结构的残基。可通过从核苷或核苷酸去除含氮碱基产生脱碱 基残基。然而,术语"脱碱基"用于指残基的结构特征,不依赖产生残基 的方式。本文所用术语"脱碱基残基"和"脱碱基位点"指核酸中缺少嘌 呤或嘧啶碱基的残基。
本文所用的"脱嘌呤/脱嘧啶(AP)核酸内切酶"指在多核苷酸中切割脱 碱基残基的5,侧、3'侧或5'和3'侧的键的酶。在本发明的某些实施方式中, AP核酸内切酶是AP裂解酶。AP核酸内切酶的例子包括但不限于大肠杆 菌(£. co/z)核酸内切酶vm及其同源物,大肠杆菌核酸内切酶III及其同源 物。应理解,提到特定酶,如核酸内切酶如大肠杆菌Endo VIII、 EndoV等 时,也旨在包括本领域认为是同源物并且在去除损伤碱基和/或切割含有脱 碱基残基或其它引发残基的DNA方面具有相似生化活性的得自其它物种 的同源物。
本文所用术语"阵列"指分布于支持物基材上或之中的实体集合;单 个实体之间优选间隔足够距离,以用各种技术鉴定该阵列的离散特征。实体可以是(例如)核酸分子,核酸分子克隆群,微粒(任选地连接有核酸分子 克隆群体)等。用作动词时,术语"阵列"和其变化形式指形成阵列的任何 方法,如将实体分布到支持物基材上或之中。
"损伤碱基"是与A、 G、 C或T不同的嘌呤或嘧啶碱基,使其成为通
过DNA糖基化酶从DNA上去除的底物。尿嘧啶被认为是可用于本发明的 损伤碱基。在本发明的一些实施方式中,损伤碱基是次黄嘌呤。
提到多核苷酸群体的一个多核苷酸中的某位置时,"简并"指在群体 的不同成员之间形成占据该位置的核苷部分的碱基种类不同。因此,该群 体含有在简并位置上序列不同的单个成员。术语"位置"指通常相对于5,
或3'端、分配给多核苷酸中各核苷的数值。例如,可将延伸探针3'端的核 苷指定为位置l。因此,在3'-XXXNXXXX-5'结构的延伸探针库中,N位 于位置4。如果在该库的不同成员中,N的种类可以变化,则位置4被认为 是简并位置。也称延伸探针库在位置N上简并。如果一个位置可被k种不 同种类的核苷占据,则称该位置为k倍简并。例如,可由含两种不同碱基 的核苷占据的位置是2倍简并。
"测定序列信息"包括"序列测定",也包括其它水平的信息,如消 除序列的一种或多种可能性。应注意,对多核苷酸进行序列测定通常产生 对于完全互补(100%互补)的多核苷酸的等价信息,因此等效于直接对完全 互补多核苷酸进行的序列测定。
提到多种元件,如寡核苷酸探针分子或其部分中的核苷时,"独立" 指各元件的种类不限制或受限于任何其它元件的种类,如各元件种类的选 择与任何其它元件的种类无关。因此,了解一种或多种元件的种类不能提 供关于任何其它元件种类的任何信息。例如,如果各N的种类可以是A、 G、 C或T,与其它N的种类无关,那么序列NNNN中的核苷是独立的。
"连接"指在模板驱动的反应中在两个或多个核酸如寡核苷酸和/或多 核苷酸的末端之间形成共价键或连接。键或连接的本质可以大不相同,并 且连接可以以酶学或化学方式进行。
本文所用术语"微粒"指具有最小截面尺寸为50微米或更小,优选 IO微米或更小的颗粒。在某些实施方式中,最小截面尺寸约为3微米或更小,约为l微米或更小,约为0.5微米或更小,如约O.l、 0.2、 0.3或0.4
微米。微粒可由各种无机或有机物制成,包括但不限于玻璃(如孔径控制 玻璃)、二氧化硅、氧化锆、交联的聚苯乙烯、聚丙烯酸、聚甲基甲基丙烯 酸、二氧化钛、胶乳、聚苯乙烯等。各种合适的材料和其它考虑参见例如, 美国专利6,406,848。获自Dynal,挪威奥斯陆的Dyna珠是可用于本发明的 市售微粒的例子。可采用磁性反应微粒。某种优选微粒的磁性反应性有利 于在扩增后收集和浓縮连接微粒的模板,并有利于其它步骤(如洗涤、去除 试剂等)。在本发明的某些实施方式中,采用具有不同形状(如有些是球形且 其他是非球形的)的微粒群。
本文所用术语"微球"或"珠"指直径为50微米或更小、优选10微 米或更小的基本呈球形的微粒。在某些实施方式中,直径约为3微米或更 小,约为l微米或更小,约为0.5微米或更小,如约为O.l、 0.2、 0.3或0.4 微米。在本发明的某些实施方式中,采用单分散性微球群体,即微球的大 小基本一致。例如,微粒直径的变异系数可小于5%,如2%或更小,1%或 更小等。然而,在其它实施方式中,微粒群体的变异系数为5%或更大,如 5%、 5%-10%(包含性)、10%-25%(包含性)等。在某些实施方式中,采用混 合的微粒群体。例如,可采用各自变异系数小于5%的两个群体的混合物, 产生不具单分散性的混合群体。例如,可采用直径为l微米和3微米的微 球混合物。在本发明的某些实施方式中,用连接于不具单分散性的微球群 体的模板进行测序时,通过微球大小提供其它信息。例如,可将不同的模 板文库连接于不同大小的微球。同时,由于小颗粒上可以连接较少的模板 分子,所以信号强度可改变,这可以有助于进行多重测序。
本文所用术语"核酸序列"可以指核酸物质本身,并且不限于表征特 定核酸,如DNA或RNA分子的生化特征的序列信息(即选自五个碱基字母 A、 G、 C、 T或U的字母的连续组合)。本文所述核酸以5'—3'取向表示, 除非另有说明。
"核苷"包括连接于糖分子的含氮碱基。本文所用的该术语包括如 Kornberg和Baker,《DNA复制》(DNA Replication)第2版(Freeman,旧金 山,1992)所述的2'-脱氧和2'-羟基形式的天然核苷和核苷类似物。例如,天然核苷包括腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱 氧鸟苷和脱氧胞苷。核苷"类似物"指含有修饰碱基部分和/或修饰糖部分
的合成核苷,通常如Scheit,《核苷酸类似物》(Nucleotide Analogs)(John Wiley,纽约,1980)所述。这种类似物包括经设计提高了结合特性、降低了 简并性、提高了特异性等的合成核苷。核苷类似物包括2-氨基腺苷、2-硫 代胸苷、吡咯并-嘧啶、3-甲基腺苷、C5-丙炔基胞苷、C5-丙炔基尿苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-甲基胞苷、7-脱氮腺苷、7-脱氮鸟苷、 8-氧腺苷、8-氧鸟苷、0(6)-甲基鸟嘌呤、2-硫代胞苷等。核苷类似物可包括 本文所述的任何通用碱基。
本文所用术语"有机体"指任何包含能够复制并且其序列测定令人感 兴趣的核酸的有生命或无生命的实体。它包括质粒;病毒;原核生物、古 细菌和真核细胞、细胞系、真菌、原生动物、植物、动物等。
提到探针和模板多核苷酸的突出链时,"完全匹配双链体"指一条链 的突出链与另一条链形成双链体结构,从而使得双链结构中的每个核苷都 与相对链上的一个核苷发生Watson-Crick碱基配对。该术语也包括可用于 降低探针简并性的核苷类似物,如脱氧肌苷、具有2-氨基嘌呤碱基的核苷 等的配对,而不管这种配对是否包括氢键形成。
术语"多种"指一种以上。
术语"多态性"具有本领域的普通含义,指同种个体之间的基因组序 列差异。"单核苷酸多态性"(SNP)指单个位置上的多态性。
"多核苷酸"、"核酸"或"寡核苷酸"指通过核苷间连接相连的核 苷(包括脱氧核糖核苷、核糖核苷或其类似物)的线性聚合物。 一般地,多核 苷酸包括至少三个核苷。在本发明的某些实施方式中,延伸探针中的一个 或多个核苷包含通用碱基。通常,寡核苷酸的大小范围从几个如3-4个单 体单元到几百个单体单元。用字母序列如"ATGCCTG"代表多核苷酸如寡 核苷酸时,应理解,核苷酸从左至右是5'—3'顺序,"A"指脱氧腺苷, "C"指脱氧胞苷,"G"指脱氧鸟苷,"T"指胸苷,除非另有说明。在 本领域中,字母A、 C、 G和T一般可用于指代碱基本身、包含该碱基的核 苷或核苷酸。在天然产生的多核苷酸中,核苷间连接一般是磷酸二酯键,亚基称为 "核苷酸"。然而,在本发明的某些实施方式中采用含有其它核苷间连接, 如硫代磷酸酯连接的寡核苷酸探针。应理解,构成具有非磷酸二酯连接的 寡核苷酸探针的一个或多个亚基可能不包括磷酸基团。认为这种核苷酸类 似物属于本文所用术语"核苷酸"的范围,含有非磷酸二酯键连接的一个 或多个核苷间连接的核酸仍然称为"多核苷酸"、"寡核苷酸"等。在其 它实施方式中,多核苷酸如寡核苷酸探针包括含有AP核酸内切酶敏感位点 的连接。例如,寡核苷酸探针可含有脱碱基残基、含有作为DNA糖基化酶 去除底物的损伤碱基的残基,或者作为AP核酸内切酶切割底物的另一残基 或连接。在另一实施方式中,寡核苷酸探针含有二糖核苷。
术语"引物"指长度一般约为10-100个核苷酸的短多核苷酸,通过与
靶点杂交结合于靶多核苷酸或"模板"。引物优选为模板指导的与靶点互 补的多核苷酸合成提供一个启动点,可以在合适的酶,辅因子,底物如核 苷酸、寡核苷酸等存在下进行合成。引物一般提供可从其发生延伸的末端。
就用于聚合酶如DNA聚合酶催化合成(如"通过合成测序"、聚合酶链反 应(PCR)扩增等)的引物而言,引物一般含有、或可经修饰含有游离的3,OH 基团。PCR反应一般采用一对引物(第一和第二扩增引物),包括"上游"(或 "正向")引物和"下游"(或"反向")引物,这对引物划定扩增区域的界 限。就用于连续的延伸、连接(任选切割)循环进行合成的引物而言,引物一 般含有、或可经修饰含有用作DNA连接酶的底物的游离的5'磷酸基团或 3'OH基团。
本文所用"探针家族"指各自含有相同标记的一群探针。 提到多核苷酸时,本文所用"序列测定"、"测定核苷酸序列"、"测 序"等术语包括测定多核苷酸中一部分和全部的序列信息。即,该术语包 括关于靶多核苷酸的序列比较、指纹分析等水平的信息,以及感兴趣区域 内靶多核苷酸的各核苷的快速鉴定和排序。在本发明的某些实施方式中, "序列测定"包括鉴定单个核苷酸,而在其它实施方式中,鉴定一个以上 核苷酸。在本发明的某些实施方式中,收集单个循环中本身不足以鉴定任 何核苷酸的序列信息。在本文中认为核苷、核苷酸和/或碱基的鉴定等效。应注意,对多核苷酸进行序列测定一般产生等价的完全互补(100%互补)多 核苷酸的序列信息,因此等效于直接对完全互补多核苷酸进行的序列测定。
本文所用"测序反应"指一组延伸、连接和检测循环。去除模板上的 延伸双链体并对模板进行第二组循环时,各组循环被认为是单独的测序反 应,但可将得到的序列信息合并产生一个序列。
本文所用"半固体"指含有固体和液体组分的可压縮基质,其中液体 占据了固体基质组分间的孔隙、空间或其它间隙。示范性半固体基质包括 由聚丙烯酰胺、纤维素、聚酰胺(尼龙)和交联的琼脂糖、右旋糖苷和聚乙二 醇制成的基质。可以在第二支持物,如基本平坦的刚性支持物上提供半固 体支持物,第二支持物也称作基材,它能支持所述半固体支持物。
本文所用"支持物"指可将核酸分子、微粒等固定在其上或其中的基 质,即它们可共价或非共价连接于该支持物,或者可将它们部分或完全包 埋在该支持物中或之上,从而使得基本或完全防止它们自由扩散或相对移 动。
"引发残基"是当其存在于核酸中时,相对于不包含引发残基的其他 方面相同的核酸,使该核酸更易于被切割剂(如酶、硝酸银等)或切割剂组合 切割(如切割核酸主链)的残基,和/或易于被修饰产生使该核酸更易受这种 切割的残基。因此,核酸中存在引发残基可导致核酸中存在易切连接。例 如,脱碱基残基是引发残基,因为核酸中存在脱碱基残基使该核酸易于被 酶如AP核酸内切酶切割。含有损伤碱基的核苷是引发残基,因为核酸中存
在包含损伤碱基的核苷也使该核酸更易被酶如AP核酸内切酶切割,如通过 DNA糖基化酶去除损伤碱基后。切割位点可以是引发残基和相邻残基之间 的键,或者可以是从引发残基移动一个或多个残基的键。例如,脱氧肌苷 是引发残基,因为核酸中存在脱氧肌苷使该核酸更易被大肠杆菌核酸内切 酶V及其同源物切割。这种酶能切割脱氧肌苷3'端的第二个磷酸二酯键。 本文公开的任何探针可含有一个或多个引发残基。引发残基可以(但不一定) 包含核糖或脱氧核糖部分。切割剂优选在没有引发残基时基本不切割核酸、 但在相同条件下对含有引发残基的核酸有显著的切割活性的切割剂,所述 条件可包括存在核酸修饰剂,以使其对切割剂更敏感。例如,优选地,如果含有长度相同的核酸的组合物中存在切割剂,该组合物中一种核酸含有 引发残基、并且其他核酸不含所述引发残基,切割含有引发残基的核酸的 概率至少是切割不含引发残基的核酸的10; 25; 50; 100; 250; 500; 1000; 2500; 5000; 10,000; 25,000; 50,000; 100,000; 250,000; 500,000; 1,000,000 或更多倍,切割含有引发残基的核酸的概率与切割不含引发残基但其它情 况相同的核酸的概率之比为10-106,或者其中的任何整数子范围。应理解,
此比率可因具体核酸以及引发残基的位置和核苷酸环境而不同。
优选地,如果含有引发残基的核酸需要修饰以使核酸易于被切割剂切 割,不难在合适修饰剂的存在下进行这种修饰,例如,以合理的产量和合
理的时间进行修饰。例如,在本发明的某些实施方式中,在(如)24小时内、 优选12小时内、更优选不足1分钟至4小时内修饰至少50%、至少60%、 至少70%、优选至少80%、至少90%或更优选至少95%的含有引发残基的 核酸。
本文列举了各种合适的引发残基和对应的切割试剂。可采用与本文所 述活性相似的任何引发残基和切割试剂。本领域普通技术人员能够确定具 体引发残基和切割试剂组合是否适用于本发明,如切割效率和速度、切割 剂对含有引发残基的核酸的选择性等是否适用于本发明方法。需要注意的 是,"引发残基"与仅形成限制性酶切位点的部分的核苷酸的不同之处在 于,引发残基提高切割易感性的能力通常不显著取决于发现引发残基的具 体序列内容,但如上所述,序列内容可能对修饰和/或切割的易感性有些影 响。当然,根据周围的核苷酸,引发残基可能形成限制性位点的一部分。 因此,在大多数情况下,所述切割剂不是限制性酶,但不排除采用既是限 制性酶、又具有非序列特异性切割能力的酶。
本文所用的"通用碱基"是可与天然产生的核酸中发现的一种以上碱 基"配对"的碱基,因此它可以取代双链体中天然产生的碱基。该碱基不 需要能与每种天然产生的碱基配对。例如,某些碱基仅与嘌呤选择性配对, 或仅与嘧啶选择性配对。某些优选的通用碱基(完全通用碱基)可与一般在天 然产生的核酸中发现的任何碱基配对,因此可取代双链体中的任何这些碱 基。该碱基与各种天然产生的碱基配对的能力不必相同。如果探针混合物含有包含不与所有天然产生核苷酸配对的通用碱基的探针(一个或多个位 置),具体探针的这个位置上可能需要利用两种或多种通用碱基,以便至少 有一种通用碱基与A配对,至少有一种通用碱基与G配对,至少有一种通 用碱基与C配对,至少有一种通用碱基与T配对。
本领域已知多种通用碱基,包括但不限于次黄嘌呤、3-硝基吡咯、
4-硝基吲哚、5-硝基吲哚、4-硝基苯并咪唑、5-硝基吲唑、8-氮杂-7-脱氮腺 嘌呤、6H,8H-3,4-二氢嘧啶并[4,5-c][l,2]嗯嗪-7-酮(P. Kong Thoo Lin.和D.M. Brown, Nucleic Acids Res., 1989, 17, 10373-10383)、 2-氨基-6-甲氧基氨 基嘌呤(D.M. Brown和P. Kong Thoo Un, Carbohydrate Research, 1991, 216, 129-139)等。次黄嘌呤是一种优选的完全通用碱基。含有次黄嘌呤的核苷包 括但不限于肌苷、异肌苷、2'-脱氧肌苷和7-脱氮-2'-脱氧肌苷、2-氮杂-2' 脱氧肌苷。
本领域已知其它通用碱基,如以下文献的相关部分所述Loakes, D. 和Brown, D.M., A^c/. 22:4039-4043, 1994; Ohtsuka, E.等,
所o/. C/zem. 260(5):2605陽2608, 1985; Lin, P.K.T.和Brown, D.M., Wwc/e/c 爿c〖^7 " 20(19):5149-5152, 1992; Nichols, R.等,7Va^" 369(6480): 492-493, 1994; Rahmon, M.S.和Humayun, N.Z., M廳/o" i e扁rc/z 377 (2): 263-8, 1997; Berger, M.等,肠/e,d^W, 28(15):2911-2914, 2000; Amosova, O.等,M/c/e/c Jc/& 25 (10): 1930-1934, 1997;禾口 Loakes, D., L 29(12):2437-47, 2001。通用碱基可以、但
不一定与相对位置的碱基形成氢键。通用碱基可通过Watson-Crick或非 Watson-Crick相互作用(如Hoogsteen相互作用)形成氢键。
在本发明的某些实施方式中采用包含脱碱基残基的寡核苷酸探针,而 非采用包含通用碱基的寡核苷酸探针。脱碱基残基可占据四种天然产生核 苷酸的相对位置,因此可起到与含有通用碱基的核苷酸相同的作用。在本 发明的一些实施方式中,由AP核酸内切酶切割与脱碱基残基相邻的连接, 但在存在其它易切连接(如硫代磷酸酯)并采用其它切割试剂的本发明实施 方式中也可采用脱碱基残基(即起到通用碱基的作用)。本发明某些优选实施方式的详述
A.通过连续的延伸、连接和切割循环测序
图1A用图解法显示了本发明一个方面的总体方案,总体类似颁发给 Macevicz的美国专利5,740,341和6,306,597所述的方法。出于方便目的, 在本文中将这些专利总称为"Macevicz"。具体说,Macevicz描述了鉴定 多核苷酸中核苷酸序列的方法,所述方法包括以下步骤(a)通过连接寡核 苷酸探针形成延伸双链体沿该多核苷酸延伸起始寡核苷酸;(b)鉴定该多核 苷酸的一种或多种核苷酸;和(c)重复步骤(a)和(b),直到测定出核苷酸序列。
Macevicz还描述了一种测定模板多核苷酸的核苷酸序列的方法,所述 方法包括以下步骤(a)提供起始寡核苷酸探针与模板多核苷酸杂交形成的 探针-模板双链体,所述探针具有可延伸探针末端;(b)将延伸寡核苷酸探针 连接于所述可延伸探针末端,形成含有延伸的寡核苷酸探针的延伸双链体; (c)鉴定所述延伸双链体中(l)与刚刚连接的延伸探针互补的模板多核苷酸中 的至少一个核苷酸或(2)紧接在延伸的寡核苷酸探针下游的模板多核苷酸中 的核苷酸残基;(d)如果可延伸末端还不存在,在延伸的探针上产生可延伸 探针末端,从而使得产生的末端不同于连接最后一个延伸探针的末端;和 (e)重复步骤(b)、 (c)和(d),直到测定出所述靶多核苷酸的核苷酸序列。在这 些方法的某些实施方式中,各延伸探针在起始寡核苷酸探针的远端上含有 链终止部分。在某些实施方式中,再生步骤包括用化学方法切割延伸的寡 核苷酸探针中易切割的核苷间连接。
在图1A中,含有未知序列的多核苷酸区50和结合区40的多核苷酸模 板20连接于支持物10。结合区40远端的核苷酸41和多核苷酸区50近端 的核苷酸51相邻。提供了在结合区40的位置上与结合区40杂交形成双链 体的起始寡核苷酸30。本文中起始寡核苷酸30也称为"引物",结合区 40可称为"引物结合区"。该双链体可以、但不一定是完全匹配的双链体。 起始寡核苷酸具有可延伸末端31。在图1A中,起始寡核苷酸结合于结合 区,以使可延伸末端31位于核苷酸41对面。然而,起始寡核苷酸可结合 于结合区的其它地方,如以下所述。长度为N的延伸寡核苷酸探针60与起 始寡核苷酸相邻的模板杂交。延伸寡核苷酸探针的末端核苷酸61连接于可延伸末端31。
末端核苷酸61与多核苷酸区50中的第一个未知核苷酸互补。因此, 末端核苷酸61的种类确定了核苷酸51的种类。优选地,通过检测与已知 末端核苷酸61是A、 G、 C或T的延伸探针连接的标记(未显示)鉴定核苷 酸51。检测后去除该标记。图2显示了给具有不同3'末端核苷酸的延伸探 针分配不同标记,如颜色不同的荧光团的方案。
连接和检测后,如果探针60没有这种末端,则在延伸探针60上产生 可延伸探针末端。优选长度也是N的第二延伸探针70退火到与延伸探针 60相邻的模板上,并连接于探针60的可延伸末端。延伸探针70的末端核 苷酸71的种类指定了多核苷酸50中相对位置上的核苷酸52的种类。因此, 末端核苷酸71构成了延伸探针的"序列测定部分",这意谓着探针部分的 杂交特异性用作测定模板中一个或多个核苷酸种类的基础。应理解,延伸 探针中其它核苷酸一般能与模板杂交,但仅有其种类与具体标记相关的探 针中的那些核苷酸用于鉴定模板中的核苷酸。
在本发明优选实施方式中,产生可延伸末端包括如下所述切割核苷间 连接。优选地,切割也去除该标记。切割去除了延伸探针中多个核苷酸M(未 显示)。因此,该双链体在每个循环中延伸N-M个核苷酸,并对位于模板中 N-M之间的核苷酸进行鉴定。应理解, 一般将给定模板的多个拷贝连接于 一种支持物,并在这些模板上同时进行测序反应。
Macevicz说明,寡核苷酸探针通常应该能够连接于起始寡核苷酸或延 伸双链体,以产生下一个延伸循环的延伸双链体;该连接应该是模板驱动 的,因为探针应在连接前与模板形成双链体;该探针应具有封端部分,以 防止在一个延伸循环中在同一模板上连接多个探针;该探针应能够在连接 后经处理或修饰再生出可延伸末端;该探针应具有信号部分(即可检测部 分),以便在顺利连接后获得有关模板的序列信息。
Macevicz描述了某些合适起始寡核苷酸、延伸寡核苷酸探针、模板、 结合位点和用于合成、设计、产生或获得这些组分的各种方法的特征。 Macevicz还描述了某些合适的连接酶、连接条件和各种合适标记。Macevicz 也描述了用于鉴定的通过聚合酶延伸将标记的链终止核苷酸加入新连接的延伸探针的另选方法。所加入核苷酸的种类确定模板相对位置上的核苷酸。 如本领域普通技术人员所理解,提到模板、起始寡核苷酸、延伸探针、 引物等时,通常指相关区域内基本相同的核酸分子的群体或库,而非单个 分子。因此,例如,"模板"通常指多个基本相同的模板分子;"探针" 通常指多个基本相同的探针分子等。在一个或多个位置上简并的探针中, 应理解,包含具体探针的探针分子的序列在简并位置上不同,即构成特定 探针的探针分子序列可以仅在非简并位置上基本相同。出于说明目的,应 理解单数形式包括单个分子和基本相同的分子群。需要表示单个核酸分子 (即一个分子)时,采用术语"模板分子"、"探针分子"、"引物分子"等。 在某些情况下,明确说明基本相同的核酸分子群体的复数本质。
可用各种已知方法获得或产生基本相同的核酸分子群体,这些方法包 括化学合成、在细胞中生物合成、在体外从一个或多个起始核酸分子进行 酶学扩增等。例如,采用本领域熟知方法,可通过插入合适的表达载体如 DNA或RNA质粒、然后引入能够在其中复制的细胞如细菌细胞,克隆感 兴趣核酸。然后,从细胞中分离含有感兴趣核酸拷贝的质粒DNA或RNA。 分离自病毒、细胞等的基因组DNA,或通过逆转录mRNA产生的cDNA 无需克隆或体外扩增等中间步骤也可成为基本相同的核酸分子群体的来源 (如序列待测的模板多核苷酸),但通常优选对其进行中间步骤处理。
应理解,群体成员不一定100%相同,如合成过程中可能产生一定数量 的"错误"。优选地,至少50%群体成员与参比核酸分子(即用作序列比较 基础的序列确定的分子)至少90%,或更优选至少95%相同。更优选地,至 少60%、至少70%、至少80°/。、至少90°/。、至少95°/。、至少99%或更多群 体成员与参比核酸分子至少卯%、或更优选至少95%、或更优选至少99% 相同。优选地,与参比核酸分子的相同性百分数为至少95%或更优选至少 99%的群体成员至少占98%、 99%、 99.9%或更多。可通过以下方法计算相 同性百分数比较两个最佳比对序列,测定两个序列中核酸碱基(如A、 T、 C、 G、 U或I)相同的位置的数量产生匹配位置数量,将匹配位置数量除以 位置总数再乘以100,得到序列相同性百分数。应理解,在某些情况下核酸 分子如模板、探针、引物等可以是还含有不作为模板、探针或引物的部分的较大核酸分子的一部分。在这种情况下,群体中单个成员的这些部分不 一定基本相同。
Macevicz描述了将模板连接于支持物(如珠)并向位于支持物远端的模 板末端进行延伸的方法,如图1A所示。因此,相对于未知序列,结合区与
支持物的距离更近,延伸双链体在离开支持物的方向上生长。然而,本发 明人出人意料地发现,宜用另选方法实施该方法,在该方法中结合区位于
支持物远端的模板末端,向支持物方向进行向内延伸。图1B描述了这种实 施方式,其中各种元件的编号如图1A所示。本发明人确定从模板远端向支 持物进行"向内"测序能提供更好的结果。具体说,从模板远端向支持物 如珠进行测序比从支持物向外测序产生更高的连接效率。
如Macevicz进一步所述,优选将寡核苷酸探针作为含有预定长度的所 有可能序列的寡核苷酸混合物加入模板中。例如,含有具有NNNNNN(也 可表示为(N)k,其中1^6)结构、长度为6个核苷酸(六聚体)的所有可能序列 的探针混合物含有46(4096)个探针种类。通常,探针的结构是X(N)kN、其 中N代表任何核苷酸,k是1-100, *代表标记,X代表其种类对应于标记 的核苷酸。在某些实施方式中,k为1-100、 1-50、 1-30、 1-20,如4-10。 一个或多个核苷酸可以包含通用碱基。在N代表的位置上,探针通常为4-倍简并,或在N代表的一个或多个位置上含有简并性降低的核苷酸。如果 需要,可将该混合物分成探针亚组("严格性类别"),其与互补序列的完全 匹配双链体具有相似的稳定性或结合自由能。如Macevicz所述,这些亚组 可用于不同的杂交反应。
可通过许多方法降低探针混合物的复杂性(即不同序列的数量),这些方 法包括采用所谓的简并性降低的核苷酸或核苷酸类似物。例如,含有8个 核苷酸的所有可能序列的探针文库含有48个探针。通过在两个位置上采用 通用碱基可将探针数量降低到46,同时保持八聚体文库的各种所需特性, 如长度。本发明包括采用上述或上面引用的参考文献所述的任何通用碱基。
根据该实施方式,可用寡核苷酸探针在5,—3'方向或3'—5,方向上延 伸延伸双链体或起始寡核苷酸,如下所述。通常,寡核苷酸探针不一定与 模板形成完全匹配的双链体,但可优选这种结合。在每个延伸循环鉴定模板中一个核苷酸的实施方式中,鉴定该具体核苷酸需要完全碱基配对。例 如,在用酶学方法将寡核苷酸探针连接于延伸双链体的实施方式中,需要 连接探针的末端核苷酸与其模板互补物之间进行完全碱基配对,即适当的
Watson-Crick碱基配对。通常,在这种实施方式中,探针的其余核苷酸用 作"间隔物",以保证在预定位点或沿模板移动一定数量的碱基处发生下 一次连接。即,它们配对或不配对不能提供进一步的序列信息。同样,在 依赖聚合酶延伸进行碱基鉴定的实施方式中,探针主要用作间隔物,因此 与模板的特异性杂交不重要。
上述方法能部分测定序列,即鉴定模板中互相隔开的单个核苷酸。在 本发明优选实施方式中,为了收集更完整的信息,进行多个反应,其中每 个反应利用不同的起始寡核苷酸i。起始寡核苷酸i结合于结合区的不同部 分。优选地,起始寡核苷酸结合的位置应使不同起始寡核苷酸的可延伸末 端杂交于结合区时互相偏移1个核苷酸。例如,如图3所示,进行测序反 应l...N。起始寡核苷酸h...in长度相同,与结合区40结合后其末端核苷酸 31、 32、 33等杂交于结合区40中的连续相邻位置41、 42、 43等。因此, 延伸探针e卜.en结合于模板的连续相邻区域并连接于起始寡核苷酸的可延 伸末端。连接于in的探针en的末端核苷酸61与多核苷酸区50的核苷酸55, 即模板中第一个未知多核苷酸互补。在第二个延伸、连接和检测循环中, 探针en的末端核苷酸71与多核苷酸区50的核苷酸56,即未知序列的第二 个核苷酸互补。同样,连接于双链体的延伸探针的末端核苷酸从起始寡核 苷酸i2、 i3、 i4等开始,与未知序列50的第三个、第四个和第五个核苷酸互 补。应理解,起始寡核苷酸可结合于逐渐远离多核苷酸区50,而非逐渐靠 近它的区域。
延伸探针的非末端核苷酸的间隔功能使得不需要对任何给定模板进行 相应许多个循环,就能获得从起始寡核苷酸结合的位置开始相隔一定数量 核苷酸的模板位置上的序列信息。例如,通过连接长度为N的探针、然后 切割去除延伸探针上的单个末端核苷酸的连续循环,可在连续循环中鉴定 间隔为N-1个核苷酸的核苷酸。例如,可用6个循环鉴定模板中位置1、 N、 2N-1、 3N-2、 4N-3和5N-4上的核苷酸,其中模板位置1上的核苷酸对应于连接于通过起始寡核苷酸与模板结合形成的双链体中可延伸探针末端的 核苷酸。相似地,如果切割去除长度为N的延伸探针的两个核苷酸,可在 连续轮次中鉴定相互间隔N-2个核苷酸的位置上的核苷酸。例如,可用6
个循环鉴定模板中位置l、 N-l、 2N-3、 3N-5、 4N-7的核苷酸。因此,如果 探针的长度为8个核苷酸,并且每个循环去除2个核苷酸,则鉴定位置l、 7、 13、 19和25上的核苷酸。因此,鉴定与模板中第一个核苷酸距离为X 的核苷酸所需的循环数约为X/M,其中M是切割后保留的延伸探针的长度, 而非约为X。
例如,图3B所示方案显示采用延伸、连接和切割循环法与经设计每6 个碱基阅读一次模板的延伸探针的最终结果。用结合于结合区的偏移位置 的6种起始核苷酸对模板进行连续剥离和测序,并合并结果,可阐明确定 长度上的所有模板碱基。例如,如果6次反应各自进行IO次连续连接,得 到的阅读长度为60个连续碱基对,而如果各反应进行15次连续连接,得 到的阅读长度为90个连续碱基对。
虽然不希望受限于任何理论,但本发明人提出,与这种方法相反,用 合成法进行的大多数连续测序伴随有差错累积的弊端,这最终会限制长阅 读长度的可能。本文所述某些方法的有利特征是它们能每n个碱基鉴定一 次(取决于探针中可切割部分的位置),以便在给定数量的循环(y)后,达到 第Wy-(n-l)个碱基(如上述例子中15个循环后达到第71个碱基,或在切割 位点的3'侧用6个碱基的探针进行20个循环后达到第115个碱基)。在n-1 、 n-2等位置上"重启动"起始寡核苷酸的能力大大降低了给定长度上的连续 差错累积(通过移相或损耗),因为从模板上剥离延伸链和杂交新起始寡核苷 酸的的过程有效地将背景信号再设定为零。例如,比较基于聚合酶合成的 测序方法和本文所述基于连接的方法,如果各延伸循环的信噪比为99:1, 那么IOO个基于聚合酶的方法循环后,信噪比为37:63,基于连接酶的方法 为85:15。基于连接酶的方法的最终结果是阅读长度比基于聚合酶的方法大 大增加。
鉴于多种原因,用少于如果模板中每个在前核苷酸都需要进行一个循 环所需的循环数鉴定核苷酸的能力很重要。具体说,该方法的各步骤的效率不可能达到100%。例如, 一些模板可能无法顺利连接于延伸探针; 一些 延伸探针可能无法被切割等。因此,各循环中,在不同拷贝的模板上发生 的反应逐渐变得有相位差,可获得有用的准确信息的模板数量减少。因此, 特别需要最大程度减少阅读距起始寡核苷酸可延伸末端较远位置的核苷酸 所需的循环数。然而,增加延伸探针长度可能导致探针混合物的复杂性增 加,这会降低各探针序列的有效浓度。如本文所述,可用简并性降低的核 苷酸降低复杂性,但这可能导致杂交强度降低和/或连接效率降低。本发明 者认识到,需要平衡这些竞争因素,以优化结果。因此,在本发明的优选 实施方式中,采用长度为8个核苷酸的延伸探针,在所选位置上采用简并 性降低的核苷酸。此外,本发明者认识到,选择合适的易切连接以及切割 条件和时间以优化切割步骤效率(即各切割步骤中顺利切割的连接的百分 数)和对合适连接的特异性的重要性。 B.寡核苷酸延伸探针设计
虽然Macevicz提到,简并性降低的核苷类似物可用于寡核苷酸延伸探 针,但他没有说明特别需要在延伸探针中包含这种残基的特定位置,也没 有说明掺入简并性降低的核苷的各种具体探针结构(即序列)。本发明者认识 到,在寡核苷酸延伸探针的特定位置上采用特定数量的简并性降低的核苷 (如含有通用碱基的核苷)可能特别有利。例如,在本发明的某些实施方式中, 位置6或更远位置上(从X开始)的大多数或全部核苷酸含有通用碱基。例 如,位置6或更远位置上的至少50%、至少60%、至少70%、至少80%、 至少90%或至少100%核苷酸可含有通用碱基。这些核苷酸不一定都含有相 同的通用碱基。在本发明的某些实施方式中,次黄嘌呤和/或硝基吲哚用作 通用碱基。例如,可采用核苷如肌苷。
本发明者认识到,可用长度大于6个核苷酸的延伸探针获得优异结果, 其中从连接于可延伸探针末端的核苷酸开始数,从探针近端起位置6或更 远位置上的一个或多个核苷酸是简并性降低的核苷酸,如含有通用碱基(即 如果最近端核苷酸被认为是位置1,那么位置6或更远位置上的一个或多个 核苷酸含有通用碱基),如8聚体探针中位置6或更远位置上的1、 2或3 个核苷酸含有通用碱基。例如,在3'—5'测序中,可采用结构为3'-XNNNNsINI-5'的探针,其中X和N代表任何核苷酸,"s"代表易切 连接,以便在从3'端数第五个和第六个残基之间发生切割,并优选易切连 接和5'端之间至少一个残基具有对应于X种类的标记。另一种设计是 3'-XNNNNsNII-5'。又一种探针设计是3,-XNNNNsIII-5,。这种设计产生含 有1024种不同探针的具有适度复杂性的探针混合物,其长度足以防止形成 显著的腺苷酸化产物(参见实施例1),并且具有切割后得到的延伸产物由未 修饰DNA组成的优点。 一个缺点是此探针每次仅延伸引物5个碱基。由于 阅读长度是延伸长度乘以循环数的函数,延伸长度每增加一个碱基可使阅 读长度增加lx循环数个碱基(例如,如果采用20个循环则是20个碱基)。 另一种探针设计切割后在延伸探针末端留下一个或多个肌苷(或其它通用 碱基),以产生6个碱基或更长的延伸双链体。例如,采用探针 3,-XNNNNIsII-5'时,双链体每次延伸6个碱基,在连接处留下5'肌苷。在 这些设计中,优选易切连接和5'端之间至少一个残基具有对应于X种类的 标记。在本发明的某些实施方式中,从连接于可延伸探针末端核苷酸的相 对末端开始数,从探针远端起第三个核苷酸含有通用碱基(即,如果远端被 认为是位置K,那么位置K-2上的核苷酸含有通用碱基)。
在本发明的某些实施方式中,在起始寡核苷酸探针、延伸探针或二者 的一个或多个位置上采用锁定核酸(LNA)碱基。例如,美国专利6,268,490; Koshkin, AA等,Tetrahedron, 54:3607-3630, 1998; Singh, SK等,Chem. Comm., 4:455-456, 1998中描述了锁定核酸。可用自动DNA合成仪和标 准的亚磷酰胺化学合成LNA, LNA可掺入也含有天然产生的核苷酸和/或 核苷酸类似物的寡核苷酸中。也可用标记如下述标记合成它们。
C.模板、文库、支持物、封闭物及其制备方法和应用
本发明提供各种制备核酸模板和支持物的方法。本发明也提供用于基于连 接的测序或其它目的的文库。本发明也提供封闭寡核苷酸和其在测序或其它目 的中的使用方法,测序是通过寡核苷酸连接、检测和切割的连续循环进行的。
Macevicz描述了首先合成含有多种基本相同模板分子的模板的方法, 如在试管或其它容器中用常规聚合酶链反应(PCR)法扩增。Macevicz指出, 扩增的模板分子在合成后优选连接于支持物如磁性微粒(如珠)。本发明者认识到,宜在支持物本身上或之中合成待测序模板,例如, 采用在进行PCR反应之前与一对扩增引物之一连接的支持物如微粒或各种 半固体支持物,如凝胶基质。这种方法在合成后不需要单独步骤将模板分 子连接于支持物。因此,可方便地平行扩增序列不同的多种模板。例如, 按照下述方法,在微粒上合成产生一群单个微粒,各自连接有多个拷贝的 特定模板分子(或其互补物),其中连接于各微粒的模板分子与连接于其它微 粒的模板分子的序列不同。因此,各支持物连接有克隆的模板群,如支持 物A连接有多个拷贝的模板X;支持物B连接有多个拷贝的模板Y;支持 物C连接有多个拷贝的模板Z等。"克隆的模板群"、"克隆的核酸群" 等指基本相同的模板分子的群体,优选通过从感兴趣的单一模板分子(起始 模板)开始的连续扩增轮次产生。基本相同的模板分子可能与起始模板或其 互补物基本相同。
一般用PCR进行扩增,但也可采用其它扩增方法(见下)。应理解,克 隆群体成员不一定100%相同,例如,在合成如扩增过程中,可能发生一定 数量的"差错"。优选地,至少50%克隆群体成员与起始模板分子(或其互 补物)至少90%、或更优选至少95%相同。更优选地,至少60%、至少70%、 至少80%、至少90%、至少95%、至少99%、或更多的群体成员与起始模 板分子(或其互补物)至少90%、或更优选至少95%相同,或更优选至少99% 相同。优选地,至少95%或更优选至少99%的群体成员与起始模板分子(或 其互补物)的相同性百分数为至少98%、 99%、 99.9%或更高。
可用各种技术将扩增引物连接于支持物。例如,可用结合对的一个成 员(如生物素)使引物一端(5,端)官能化,用结合对的另一个成员(如链霉亲和 素)使支持物官能化。可采用任何相似的结合对。例如,可将确定序列的核 酸标签连接于支持物,含有互补核酸标签的引物可杂交于连接于支持物的 核酸标签。也可釆用各种接头和交联剂。
本领域熟知进行PCR的方法,参见例如美国专利4,683,195、 4,683,202 和4,965,188,以及Dieffenbach, C.和Dveksler, GS,《PCR引物实验室 手册》(PCR Primer: A Laboratory Manual),第2版,Cold Spring Harbor Laboratory Press, Cold Spring Harbor, 2003。本领域熟知且描述了扩增微粒上的核酸的方法,例如,可在微量滴定板孔或试管中对连接有引物的珠 进行标准PCR(如实施例12制备的珠)。虽然PCR是方便的扩增方法,但也 可采用本领域已知的许多其它方法。例如,可采用多链置换扩增、解旋酶
置换扩增(HDA)、缺口平移、Q(3复制酶扩增、滚环扩增和其它等温扩增方 法等。
模板分子可获自任何来源。例如,DNA可分离自样品,该样品可能获 自或衍生自某对象。从广义上说,术语"样品"指对其进行序列测定的任 何模板来源。用术语"衍生自"表示直接获自对象的样品和/或样品中的核 酸经过进一步加工获得模板分子。样品来源可以是任何病毒、真核生物、 古细菌或真核物种。在本发明的某些实施方式中,来源是人。样品可以是(例
如)血液或含有细胞的其它体液;精液;活检样品等。可对来自任何感兴趣
有机体的基因组或线粒体DNA进行测序。可测序cDNA。也可测序RNA, 例如,首先用本领域熟知的方法如RT-PCR逆转录产生cDNA。可合并来 自不同样品和/或对象的DNA混合物。可用各种方式加工样品。可用已知 方法从样品分离、纯化和/或扩增核酸。当然,也可测序不衍生自有机体的 完全人造的合成核酸、重组核酸。
可以双链或单链形式提供模板。 一般地,最初以双链形式提供模板时, 随后分离两条链(如使DNA变性),仅扩增两条链中的一条以产生定位的模 板分子克隆群体,所述克隆群体(如)连接于微粒、固定在半固体支持物中或 之上等。
可用各种其它方式选择或加工模板。例如,可采用用甲基敏感性限制 性酶(如Mspl)处理的DNA获得的模板。可在扩增前进行这种产生DNA片 段的处理。含有甲基化碱基的片段不扩增。可比较获自超甲基化模板的序 列信息与获自未进行超甲基化选择的相同来源的模板的序列信息。
可将模板插入文库,或者可在文库中提供模板,或者模板可衍生自文 库。例如,本领域已知超甲基化文库。将模板插入文库能够方便地将额外 核苷酸序列与模板末端连接起来,如标签、引物结合位点或起始寡核苷酸 等。例如,某些方案允许加入具有多个结合位点,如扩增引物结合位点、 起始寡核苷酸结合位点、捕获剂结合位点等的标签。本领域已知各种合适的文库。例如,USSN 10/978,224, PCT公开 WO2005042781和WO2005082098以及Shendure, J.等,Science, 309(5741):1728-32, 2005, Sciencexp腦,2005年8月4日 (www.sciencexpress.org)描述了特别感兴趣的文库及其构建方法。当然应理 解,也可采用产生这种文库的其它方法。某些特别感兴趣的文库含有多种 核酸片段(一般是DNA),各片段含有两个感兴趣的核酸节段,它们被用于 测序步骤的扩增和/或测序引物互补的序列分隔开,即这些序列用作引物结 合区(PBR)。在特别感兴趣的实施方式中,核酸节段是天然产生的DNA的 一段连续部分。例如,节段可来自基因组DNA的连续部分的5'和3'端, 如上述参考文献所述。与上述文献一致,在本文中将这种核酸节段称为"标 签"或"末端标签"。衍生自一段连续核酸如其5'和3'端的两个标签称为 "成对标签"、"成对标签"或"双标签"。应理解,"成对标签"包括 两个标签,即使用单数形式表示。通过选择预定大小限度内的产生成对标 签的DNA连续部分,限制分隔开两个标签的距离。
除了被与测序和/或扩增引物互补的序列分隔开以外,该文库的核酸片 段一般也含有与侧接标签的测序和/或扩增引物互补的序列,即第一个这种 序列可位于与该片段5'端较近的标签的5'端,第二个这种序列可位于与该 片段3'端较近的标签的3'端。应理解,在各种实施方式中产生标签的连续 核酸中存在的两个标签的位置可以,但不一定对应于标签在文库DNA片段 中的位置。
核酸片段和标签可具有不同的大小范围。核酸片段的长度一般可以是 (例如)80-300个核苷酸,如100-200个、100-150个、约150个核苷酸、约 200个核苷酸等。标签的长度可以是(如)15-25个核苷酸,如约17-18个核 苷酸等。应注意,这些长度是示范性,而不是限制性。可采用较短或较长 的片段和/或标签。
也应注意,虽然从单个连续核酸获得成对标签提供了方便的方法进行 文库构建,但成对标签的重要之处在于在最初产生它们的核酸中它们互相 相隔一段距离("间隔距离"),其中间隔距离属于预定的距离范围。标签被 属于预定范围的间隔距离分隔开使得能够将标签序列与参比序列(如参比基因组序列)进行比对。不希望受限于任何理论,这可能有利于某些应用如 基因组再测序,其中它使得能够采用较短的阅读长度,同时仍然能够将序 列准确地定位于参比基因组上。成对标签的5'和3'标签代表较大核酸片段
如基因组DNA的节段(即它们具有以上序列),在天然产生的DNA片段如 基因组DNA片段中这些节段互相间隔在预定距离内。例如,在本发明的某 些实施方式中,在天然产生的DNA片段中,成对标签的5,和3,标签代表 互相相隔500个核苷酸内、互相相隔lkB内、互相相隔2kB内、互相相 隔5kB内、互相相隔10kB内、互相相隔20kB内的DNA节段。在某些 实施方式中,在天然产生的DNA片段中,成对标签的5'和3'标签相隔500 个核苷酸-2kB,如700个核苷酸-1.2kB,约lkB等。应注意,成对标签的 两个标签的准确间隔距离并不重要并且一般未知。此外,虽然标签最初获 自较大核酸片段,但术语"标签"用于含有标签序列的任何核酸节段,无 论其存在于原始序列内容或文库片段、文库片段的扩增产物、待测序模板 等中。
核酸片段(如文库分子)可能具有以下结构 接头1-标签1-接头3-标签1-接头2
标签1和接头2可以是成对标签的5,和3'标签。任一标签都可以是5' 标签或3'标签。接头l和接头2含有一种或多种引物的引物结合区。在某 些实施方式中,接头1和2各自含有扩增引物的PBR和测序引物的PBR。 各接头中的引物可以是巢式引物,以使测序引物PBR位于扩增引物PBR内 部。接头3可含有一种或多种测序引物的PBR,以便测序标签1和标签2。 术语"接头"用于核酸片段文库时,指在文库的多种核酸片段,如文库的 基本上所有片段中存在的核酸序列。在文库构建期间,接头可以具有或不 具有实际上的连接功能,接头仅可被认为是给定文库的大多数或所有成员 所共有的确定序列。这种序列也称为"通用序列"。因此,与接头或其一 部分互补的核酸与文库的多个成员杂交,并可用作文库中大多数或所有分 子的扩增引物或测序引物。
在本发明某些实施方式中,核酸片段具有以下结构
接头1-标签1-内部衔接子-标签2-接头2标签l和标签2和接头1和接头2含有上述PBR。内部衔接子含有两 个引物结合区,它们可称为IA和IB,如下所述。这些PBR可用于产生连 接有两个独立的基本相同的核酸群体的微粒,其中一个核酸群体包含标签 1,另一个核酸群体包含标签2。两个独立的核酸群体含有至少部分不同的 序列,如它们的标签区序列不同。内部衔接子的两个引物结合区之间可含 有间隔区。间隔区可含有脱碱基残基,这种脱碱基残基能防止聚合酶延伸 通过该间隔物。当然,可采用含有能防止聚合酶延伸通过该间隔物的任何 其它封闭基团的间隔区。
在其它实施方式中,核酸片段包括一个或多个(如2、 4、 6个等)其他标 签和一个或多个其它内部衔接子。例如,核酸片段可具有以下结构
接头1-标签1-内部衔接子1-标签2-接头2-标签3-内部衔接子2-标签 4-接头3
应注意,除了本文所述的基于连接的测序方法,本发明的核酸片段以 及这种片段的文库、含有两种或多种基本相同的核酸群体的微粒和这种微 粒的阵列还可用于各种测序方法。例如,可采用测序方法如FISSEQ、焦磷 酸盐测序等。参见例如,WO2005082098。当然,也可有利地利用基于连接 的方法。应理解,在本文所述基于连接的方法中,术语"测序引物"可理 解为"起始寡核苷酸"。
在本发明的某些实施方式中,在单独的水性乳液室(也称为"反应器") 中进行PCR以合成待测序模板。优选地,各室含有颗粒支持物如连接有合 适的第一扩增引物的珠、模板的第一个拷贝、第二扩增引物和进行PCR反 应必需的组分(如核苷酸、聚合酶、辅因子等)。制备乳液的方法参见例如美 国专利6,489,103(Griffiths); 5,830,663 (Embleton);和美国
发明者A·布兰查德, G·科斯塔, K·麦柯南 申请人:阿普里拉股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1