锚定前清洗的制作方法

文档序号:467501阅读:403来源:国知局
锚定前清洗的制作方法
【专利摘要】本发明针对包括酸和/或阳离子表面活性剂的水洗溶液及其使用用于提高核酸测序反应中的不一致率和映射产率的方法。
【专利说明】锚定前清洗 相关申请的交叉引用
[0001] 本申请要求2012年4月23日提交的美国临时专利申请第61/637, 240号的优先 权,该专利申请的全部内容以参考的方式并入本文中用于所有目的。

【背景技术】
[0002] 对核酸分子实施生物化学检测,诸如DNA测序,例如可以使DNA分子经历影响从这 种检测中所获得数据的恶劣环境。例如,在对被布置在固体基质上的DNA分子实施多次循 环的DNA测序反应之后,会存在不一致率的增加和映射率(mappingyield)的下降。


【发明内容】

[0003] 本发明涉及用于改善不一致率、可映射率和核酸测序反应的其它指标的方法和组 合物。具体地,根据本发明的一个实施方式,使用"锚定前清洗液",该清洗液是包含有效量 的弱酸或阳离子表面活性剂的水洗溶液。在下面对本发明的描述中,清洗步骤被描述为在 将核酸连接到固体基质表面之后、和在各循环或在随后的循环中执行测序反应之前发生。 然而,该清洗步骤也可以在测序循环中的其它点发生。
[0004] 根据一个方面,本发明提供一种对核酸分子的靶序列进行测序的方法,该方法包 括(a)提供包含核酸分子的表面,该核酸分子包括(i)包含第一锚位点的第一衔接物和 (ii)靶序列;(b)将包含有效量的酸、阳离子表面活性剂、或者酸和阳离子表面活性剂两者 的水洗溶液涂覆于所述表面上;(c)将锚定分子杂交到第一锚位点;(d)延伸锚定分子以产 生锚定延伸产物;(e)检测该延伸产物,由此鉴定靶序列的碱基;和(f)重复步骤(b)至(e) 直到靶序列的序列被确定。根据一个实施方式,包含核酸分子的表面是包含一个表面和连 接到该表面的多个核酸分子的核酸阵列。根据另一个实施方式,核酸分子是包含多个单体 单元的多联体,各单体单元包含第一衔接物和靶序列。根据另一个实施方式,这种方法包括 在将锚定分子杂交到第一锚位点之前将水洗溶液涂覆于表面,然而该水洗溶液可以用于测 序循环中的其它步骤。
[0005] 这种方法可以结合一些测序技术共同使用。根据另一个实施方式,这种方法包括 通过将核苷酸添加到锚定分子或者锚定分子的先前延伸的产物(例如,正如利用合成的测 序)而延伸锚定分子。根据另一个实施方式,这种方法包括通过将测序探针连接到锚定分 子或者锚定分子的先前延伸的产物而延伸锚定分子。根据一个实施方式,CPAL测序生物化 学的领域中所采使用的这种方法包括双cPAL。因此,根据一个实施方式,这种方法包括:通 过(i)将一个或多个延伸锚定分子连接到锚定分子和(ii)将序列探针连接到所述的一个 或多个延伸锚定分子而使锚定分子延伸。
[0006] 根据另一个实施方式,这种方法包括在重复步骤(b)和(e)之前从核酸分子中除 去延伸产物。
[0007] 锚定前清洗试剂可以包含例如各种弱酸和阳离子表面活性剂。根据一个实施 方式,酸是柠檬酸。根据另一个实施方式,阳离子表面活性剂是十六烷基三甲基溴化铵 (CTAB)〇
[0008] 根据另一个方面,水洗溶液包含一定量的酸或阳离子表面活性剂,该酸或阳离子 表面活性剂与合适的对照品相比有效地降低不一致性达5%或5%以上或者提高可映射率 达0. 5%或0. 5%以上,或者两者。
[0009] 根据另一个方面,提供一种用于对连接到表面的核酸分子进行测序的水洗溶液, 该清洗溶液包含酸、阳离子表面活性剂或者两者,其中当与合适的对照品比较时该清洗 溶液有效地可检测地降低不一致性例如达5%以上,或者可检测地提高可映射率例如达 0. 5%或0. 5%以上,或者两者。

【专利附图】

【附图说明】
[0010] 图1是组合探针锚定连接方法的一个实施方式的示意图。
[0011] 图2是组合探针锚定连接方法的一个实施方式的示意图。
[0012] 图3是组合探针锚定连接方法的一个实施方式的示意图。
[0013] 图4是组合探针锚定连接方法的一个实施方式的示意图。
[0014] 图5示出了用0.ImMCTAB或10mM柠檬酸进行锚定前清洗所获得的结果。

【具体实施方式】
[0015] 除非另有说明,本发明的实施可采用有机化学、聚合物技术、分子生物学(包括重 组技术)、细胞生物学、生物化学、和免疫学中的常规技术和描述,这些技术是在本领域的技 术范围内的。这种常规技术包括聚合物阵列合成、杂交、连接、和使用标记的杂交的检测。 可以通过参考下文中的实例而获得合适技术的具体说明。然而,当然也可以采用其它等效 的常规程序。这种常规技术和描述可以查阅标准实验室手册,例如《基因组分析:实验室 手册序列(GenomeAnalysis:ALaboratoryManualSeries)(第I-IV卷)、《使用抗体: 实验室手册(UsingAntibodies:ALaboratoryManual)》、《细胞:实验室手册(Cells:A LaboratoryManual)》、《PCR引物:实验室手册(PCRPrimer:ALaboratoryManual)》和《分 子克隆:实验室手册(MolecularCloning:ALaboratoryManual)》(均来自于ColdSpring HarborLaboratory出版社),Stryer,L?的(I995)《生物化学(Biochemistry)》(第 4 版)Freeman,NewYork,Gait,《寡核苷酸合成:实用方法(OligonucleotideSynthesis:A PracticalApproach)》1984 年,IRL出版社,London,Nelson和Cox(2000),Lehninger的 《生物化学原理(PrinciplesofBiochemistry)》第 3 版,W.H.Freeman出版社,NewYork, N.Y?和Berg等人的(2002)《生物化学(Biochemistry)》第5版,W.H.Freeman出版社,New York,N.Y.,以上出版物的全部内容以参考的方式并入本文中用于所有目的。
[0016] 应注意,除非上下文中明确指出,本文中和所附权利要求中使用的单数形式" 一"、 " 一个"和"该"包括复数所指对象。因此,例如"聚合酶"是指一个试剂或者这种试剂的混 合物,"方法"包括本领域技术人员已知的等效步骤和方法,等等。
[0017] 除非另有规定,本文中使用的所有科学技术术语具有与本发明所属领域普通技术 人员通常所理解的相同的含义。本文中提及的所有出版物以参考的方式并入本文中用于描 述和公开装置、组合物、制剂和方法的目的,这些装置、组合物、制剂和方法描述于出版物中 并且可以与本文中描述的发明结合使用。
[0018] 在提供一系列值的情况下,应当理解的是,除非上下文明确指出,在该范围的上限 和下限之间到下限的十分之一的各中间值和在该指定范围中的任何其它陈述值或中间值 均包含在本发明中。可独立地包含在较小范围中的上限和下限也包含在本发明中,并受到 指定范围中的任何具体排除的限值的制约。在指定范围包括限值中的一个或两个的情况 下,排除两个限值中的任一个限值的范围也包括在本发明中。
[0019] 在下面的描述中陈述了许多具体细节,以便提供对本发明的更详尽理解。然而,本 领域技术人员应理解的是,可以在没有这些具体细节中的一个或多个细节的情况下实施本 发明。在其它情况下,对本领域技术人员众所周知的特征和构成并未作描述,以避免使本发 明变得难以理解。
[0020] 尽管主要地参考【具体实施方式】来描述本发明,但也可以设想当阅读本公开时其它 实施方式对于本领域技术人员将变得显见,意图是将这种实施方式包含在本发明的方法 中。 概沭
[0021] 本发明涉及用于改善不一致性、可映射率和核酸测序反应的其它指标的方法和组 合物。具体地,根据一个实施方式,将"锚定前清洗液",包含有效量的弱酸或阳离子表面活 性剂的水洗溶液,使用于各循环。在下面对本发明的描述中,该清洗步骤被描述成在将核酸 连接到固体基质的表面之后和在各循环中或者在随后的循环中实施测序反之前发生。然 而,该清洗步骤也可以在测序循环中的其它点发生。 用于测序核酸复合物的方法 概沭
[0022] 根据一个实施方式,本发明应用于如本文中所描述的对靶核酸进行测序的方法的 上下文中,例如在美国专利申请公开2010/0105052和 US2007099208,以及美国专利申请 11/679, 124(在US2009/0264299 中公布); 11/981, 761(US2009/0155781) ;11/981, 661 (US2009/0005252); 11/981, 605 (US2009/0011943) ; 11/981, 793(US2009-0118488); 11/451, 691(US2007/0099208) ;11/981, 607(US2008/0234136); 11/981, 767(US2009/0137404) ; 11/982,467 (US2009/0137414); 11/451,692 (US2007/0072208) ;11/541, 225(US2010/0081128); 11/927, 356(US2008/0318796) ; 11/927,388 (US2009/0143235); 11/938,096 (US2008/0213771) ;11/938,106 (US2008/0171331); 10/547,214 (US2007/0037152) ; 11/981,730 (US2009/0005259); 11/981, 685(US2009/0036316) ;11/981,797(US2009/0011416); 11/934,695(US2009/0075343) ; 11/934, 697(US2009/0111705); 11/934, 703(US2009/0111706) ; 12/265,593 (US2009/0203551); 11/938, 213 (US2009/0105961) ;11/938,221 (US2008/0221832); 12/325,922 (US2009/0318304) ; 12/252,280 (US2009/0111115); 12/266, 385(US2009/0176652) ;12/335, 168(US2009/0311691); 12/335, 188(US2009/0176234) ; 12/361,507(US2009/0263802), 11/981,804 (US2011/0004413);和 12/329, 365 ;公布的国际专利申请 W02007120208、W02006073504、和W02007133831中所描述的,以上所有专利文件的全 部内容以参考的方式并入本文中用于所有目的。用于识别与参考多核苷酸序列比较的多核 苷酸序列中的变异、和用于多核苷酸序列装配(或者重新装配)的示例性方法,例如,被描 述于美国专利申请2011-0004413(申请号12/770,089);该专利申请的全部内容以参考的 方式并入本文中用于所有目的。也参见Drmanac等人,Science327, 78-81,2010。
[0023] 此方法包括从样品中提取和裂解靶核酸。裂解的核酸被用于制作文库构建体,该 文库构建体通常包含一个或多个衔接物。将文库构建体扩增以形成扩增子,包括在一个实 施方式中被布置在表面上的多联体扩增子,多联体扩增子在本文中被称"DNA纳米球"或 "DNB"。在扩增子上实施核酸测序,例如使用所谓组合探针锚定连接(cPAL)的利用连接的 测序方法。通过对所获得的序列信息与参考序列进行比较而确定序列突变,该序列突变包 括但不限于单核苷酸多态性(SNP)、插入和缺失(插入缺失)、结构变异(SV)、拷贝数变异 (CNV)等。
[0024] 本文中使用的术语"核酸复合物"是指一大群的不全相同的核酸或多核苷酸。在 某些实施方式中,靶核酸是基因组DNA;外显子组DNA(富含含有在基因组中的一组外显子 的转录序列的全基因组DNA的亚组);转录组(S卩,在细胞或细胞群中产生的所有mRNA转录 体的组、或者由这种mRNA产生的cDNA)、甲基化组(S卩,在基因组中甲基化位点和甲基化图 案的群);微生物体;不同生物体的基因组的混合物,是生物体的不同细胞类型的基因组的 混合物;和包含大量不同核酸分子(例子包括但不限于微生物体、异种移植物、包含正常细 胞和肿瘤细胞两者的实体肿瘤活组织检查等)的其它核酸复合物混合物,包括前述类型的 核酸复合物的亚组。在一个实施方式中,这种核酸复合物具有包含至少一个十亿碱基(Gb) (包含大约6Gb序列的双倍体人基因组)的完整序列。
[0025] 核酸复合物的非限制性例包括"循环核酸"(CNA),该循环核酸是在人血液或其 它体液(包括但不限于淋巴液、液体、腹水、乳汁、尿液、粪便和支气管灌洗液)中循环的 核酸,例如可以被辨别为无细胞核酸(CF)或者与细胞相关的核酸(综述于Pinzani等人 的,Methods50:302-307, 2010),例如,在怀孕母亲的血流中循环的胚胎细胞(参见例如, Kavanagh等人,J.Chromatol.B878:1905-1911,2010)或者来自癌症患者血流的循环的肿 瘤细胞(CTC)(参见,例如Allard等人,Clin.CancerRes. 10:6897-6904,2004)。另一个例 子是来源于单细胞或者少量细胞的基因组DNA,例如来自活组织检查(例如,从胚泡的滋养 外胚层中取出的胚胎细胞;来自实体肿瘤的针吸的癌细胞等)。另一个例子是病原体,例如 在组织、血液或其它体液等中的细菌细胞、病毒或其它病原体。
[0026] 本文中使用的术语"靶核酸"(或多核苷酸)或者"感兴趣的核酸"是指适合于利 用本文中所描述方法进行处理和测序的任何核酸(或多核苷酸)。核酸可以是单链或双链 的,并且可包括DNA、RNA或者其它已知的核酸。靶核酸可以是任何生物体的核酸,该生物体 包括但不限于病毒、细菌、酵母菌、植物、鱼类、爬行动物、两牺动物、鸟类、和哺乳动物(包 括但不限于小鼠、大鼠、狗、猫、山羊、绵羊、牛、马、猪、兔、猴和其它非人灵长类动物、和人)。 靶核酸可以从一个个体或多个个体(即,群)中获得。从其中获取核酸的样品可含有来自 于细胞混合物或者甚至生物体(诸如包括人细胞和细菌细胞的人唾液样品、包括小鼠细胞 的小鼠异种移植物、和来自移植的人肿瘤的细胞等)的核酸。
[0027] 靶核酸可以是未扩增的,或者可以利用本领域中已知的任何合适的核酸扩增方法 将靶核酸扩增;核酸扩增方法包括但不限于:利用聚合酶链反应(PCR)(包括例如二维PCR或者桥式扩增)产生的扩增子、链置换扩增(SDA)、多重置换扩增(MDA)、滚环扩增(RCA)、滚 环复制(RCR),或者其它众所周知的扩增方法。可以根据本领域中已知的方法将靶核酸纯化 以除去细胞和亚细胞污染物(脂类、蛋白质类、碳水化合物、除被测序核酸以外的核酸等), 或者它们可以是未纯化的,即,包含至少一些细胞和亚细胞污染物,包括但不限于被破裂以 释放它们的核酸进行处理和测序的完整细胞。可以利用本领域中已知的方法从任何合适样 品中获取靶核酸。这种样品包括但不限于:组织、分离的细胞或细胞培养物、体液(包括但 不限于血液、尿液、血清、淋巴液、唾液、肛门和阴道分泌物、汗液和精液);空气、农业、水和 土壤样品等。在一个方面,本发明的核酸构建体是由基因组DNA构成的。
[0028] 在鸟枪法测序中高覆盖率是理想的,因为它可以克服碱基识别和装配中的错误。 本文中使用的用于在装配序列中的任何给定位置的、术语"序列覆盖冗余性"、"序列覆盖 率"或者简单地"覆盖率"表示代表该位置的阅读数量。它可以以NXL/G的计算式从初始 基因组的长度(G)、阅读数量(N)、和平均阅读长度(L)计算出。覆盖率也可以通过直接地 将各参考位置的全部碱基统计而计算出。就全基因组序列而言,覆盖率是以装配序列中的 所有碱基的平均值来表示的。序列覆盖率是阅读碱基的次数的平均数(如上所述)。它经 常被表不为"彳首数覆盖率",例如在"40X覆盖率"中表不在最终装配序列中各喊基是用在 40次阅读中的平均值来表示的。
[0029] 本文中使用的术语"检出率"表示被完全识别的核酸复合物的碱基%通常参照合 适的参考序列(例如参考基因组)的比较。因此,就全人基因组而言,"基因组检出率"(或 简称为"检出率")是参照全人基因组而完全识别的人基因组的碱基%。"外显子组检出率" 是参照外显子组参考而完全识别的外显子组的碱基%。可以通过对利用各种已知方法增强 的部分的基因组进行测序而获得外显子组序列,所述已知方法在测序之前选择性地从DNA 样品中捕获感兴趣的基因组区域。可替代地,可通过对包含外显子组序列的全人基因组进 行测序而获得外显子组序列。因此,全人基因组序列可具有"基因组检出率"和"外显子组 检出率"两者。也存在反映与尝试碱基总数区别的获得A/C/G/T标示的碱基数量的"原始 阅读检出率"。(偶尔,使用术语"覆盖率"来代替"检出率",但将从上下文中理解其含义)。
[0030] 在均匀温度的溶液相反应中利用滚环复制以高模板浓度(>20十亿每ml)形成 DNB。此方法避免明显的选择瓶颈和非克隆扩增子以及用于在乳液中的原位克隆扩增或者 桥式PCR的要求准确滴定模板浓度的方法的随机低效率。这些特征也能够实现在标准96 孔板中每天数百个基因组的自动化DNB生产。
[0031] 本发明的阵列适合于相对低成本和高效率的成像技术。高占用率和高密度纳米阵 列在光照蚀刻图案化的固相基质上通过溶液相DNB的静电吸附而自我装配。与随机位置 DNA阵列相比,这种图案化阵列获得高比例的可提供信息的像素。在紧凑的(在一些实施方 式中直径约为300nm)DNB中的数百个反应位点产生可用于快速成像的亮信号。这种点密度 和所形成的图像效率和降低的试剂消耗能够实现每台仪器的高测序通量,该高测序通量对 于用于研宄和临床应用的大规模人基因组测序而言会是重要的。
[0032] 本发明的"未链接"cPAL测序生物化学能够实现低成本和准确的碱基阅读。一般 来说,除本发明外,将两种不同的测序化学用于目前的测序平台:利用合成的测序(SBS)和 利用连接的测序(SBL)。这两种测序都采用"链接"的阅读,其中用于N+1次循环的基质取 决于N次循环的产物;因此在多次循环中错误可累积,并且数据质量会受在以前循环中所 发生的错误的影响(特别是不完全延伸)。因此,需要用高浓度的昂贵的高纯度标记的基质 分子和酶来驱动这些链接的测序反应到接近完成。因此,cPAL的独立的未链接的性质避免 错误累积并且容许高质量阅读中的低质量碱基,由此降低试剂成本。
[0033] 利用本发明的方法和组合物所生成的测序数据获得针对完整基因组相关研宄、与 疾病或治疗性处理相关的潜在罕见的突变的鉴定、和对体细胞突变的鉴定的足够高的质量 和精确度。消耗品的低成本和高效率的成像能够实现对数百个个体的研宄。临床诊断用途 所要求的较高的精确度和完备性激励了该技术和其它技术的持续改进。 制各基闵组核酸的片段 核酸分离
[0034] 利用常规技术分离革E基因组DNA,例如所上所述的Sambrook和Russell的《分子克 隆:实验室手册(MolecularCloning:ALaboratoryManual)》中所揭不。在一些情况下, 尤其是如果将少量的DNA使用于特定步骤中,那么有利的是提供载体DNA,例如不相关的圆 形合成双链DNA,将其混合并且用于样品DNA,每当仅可提供少量的样品DNA并且存在由于 非特异性结合到例如容器壁等所造成损失的危险性。
[0035] 术语"靶核酸"是指感兴趣的核酸。在一个方面,本发明的靶核酸是基因组核酸, 但可以使用其它靶核酸,包括mRNA(和相应的cDNA,等)。靶核酸包括天然存在的或者基因 工程改造的或合成方法制备的核酸(例如来自哺乳动物疾病模型的基因组DNA)。实际上 可以从任何来源获得靶核酸并且可以利用本领域已知的方法制备靶核酸。例如,可以在不 扩增的情况下直接地分离靶核酸,通过利用本领域中已知的方法进行扩增而分离;已知方 法包括但不限于:聚合酶链反应(PCR)、链置换扩增(SDA)、多重置换扩增(MDA)、滚环扩增 (RCA)、滚环式复制(RCR)和其它扩增方法。可以通过克隆获得靶核酸,包括但不限于克隆 到载体(诸如质粒、酵母菌、和细菌人工染色体)。
[0036] 在一些方面,靶核酸包括mRNA或cDNA。在某些实施方式中,利用从生物样品中所 分离的转录体而形成靶DNA。可以利用常规技术将分离的mRNA逆转录到cDNA中,再次如 《基因组分析:实验室手册系列(GenomeAnalysis:ALaboratoryManualSeries)(第I-IV 卷)》或《分子克隆:实验室手册(MolecularCloning:ALaboratoryManual)》中所描述 的。
[0037] 按照规定,靶核酸可以是单链的或双链的,或者含有双链或单链序列两者中的一 部分。根据用途,核酸可以是DNA(包括基因组和cDNA)、RNA(包括mRNA和rRNA)、或者杂 交体,其中核酸含有脱氧核糖核苷酸和核糖核苷酸的任意组合、和碱基的任意组合,碱基包 括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤、次黄嘌呤、异胞嘧啶、异鸟嘌呤 等。
[0038] 本文中的"核酸"或者"寡核苷酸"或"多核苷酸"或者语法等同物表示以共价键连 接在一起的至少两个核苷酸。本发明的核酸通常将含有磷酸二酯键,但在一些情况下,如下 面的概述的(例如,在锚定、引物和探针的构建中),所包含核酸类似物可具有替代的骨架, 包括例如磷酰胺(Beaucage等人,Tetrahedron49(10) :1925(1993)和其中的参考文献); Letsinger,J.Org.Chem. 35:3800 (1970);Sprinzl等人,Eur.J.Biochem. 81:579 (1977); Letsinger等人,Nucl.AcidsRes. 14:3487(1986);Sawai等人,Chem.Lett. 805 (1984), Letsinger等人,J.Am.Chem.Soc. 110:4470(1988);和Pauwels等人,Chemica Scripta26:14191986))、硫代磷酸酯(Mag等人,NucleicAcidsRes. 19:1437(1991);和美 国专利 5, 644, 048)、二硫代磷酸酯(Briu等人,J.Am.Chem.Soc.Ill: 2321 (1989)、0-甲基亚 磷酰胺键(参见Eckstein的《寡核苷酸和类似物:实用方法》,牛津大学出版社)、和肽核酸 (本文中也被称为"PNA")骨架和键(参见Egholm,J.Am.Chem.Soc. 114:1895(1992);Meier 等人,Chem.Int.Ed.Engl. 31:1008 (1992) ;Nielsen,Nature, 365: 566 (1993);Carlsson 等人,Nature380:207(1996),以上所有文献的内容以参考的方式并入本文中)。其它核 酸类似物包括具有二环结构的核酸,包括锁核酸(本文中也被称为"LNA"),Koshkin等 人,J.Am.Chem.Soc. 120:132523 (1998);正骨架(Denpcy等人,Proc.Natl.Acad.Sci.USA 92:6097(1995);非离子骨架(美国专利 5, 386, 023、5, 637, 684、5, 602, 240、5, 216, 141 和 4,469,863;Kiedrowshi等人,Angew.Chem.Intl.Ed.English30:423(1991);Letsinger 等人,J.Am.Chem.Soc. 110:4470(1988);Letsinger等人,Nucleoside&Nucleotide 13:1597(1994);第2和第3章,ASCSymposiumSeries580,"反义研宄中的碳水化合 物修饰",由Y.S.Sanghui和P.DanCook编著;Mesmaeker等人,Bioorganic&Medicinal Chem.Lett. 4:395(1994);Jeffs等人,J.BiomoleculeNMR34:17(1994);Tetrahedron Lett. 37:743 (1996))和非核糖骨架,包括美国专利5, 235, 033和5, 034, 506,和由 Y.S.Sanghui和P.DanCook编著的ASCSymposium系列580 "反义研宄中的碳水化合物修 饰"的第6和7章中所描述的。含有一个或多个碳环糖的核酸也包含在核酸的定义中(参见 Jenkins等人,Chem.Soc.Rev. (1995)第 169-176 页)。数种核酸类似物描述于Rawls,C&E News,Jun. 2, 1997第35页。"锁核酸"(LNA?)也包含在核酸类似物的定义中。LNA是一类 核酸类似物,其中核糖环被将2' -0原子与4' -C原子连接的亚甲基桥锁定。所有的这些参 考文献的全部内容以参考的方式并入本文中用于所有目的,并且尤其是用于与核酸相关的 所有教导。可以通过实施对核糖-磷酸酯骨架的这些修饰而提高这种分子在生理环境中的 稳定性和半衰期。例如,PNA:DNA和LNA-DNA杂交能显示较高的稳定性,因此可以使用于一 些实施方式。
[0039] 根据本发明的一些实施方式,在进行纯化或不进行纯化的情况下从单个细胞或者 少量的细胞中获取基因组DNA或者其它核酸复合物。
[0040] 例如,对于LFR而言长片段是理想的。可以利用一些不同方法从细胞中分离出基 因组核酸的长片段。在一个实施方式中,使细胞溶解并且用温和离心步骤将完整核形成颗 粒。然后通过使用蛋白酶K和核糖核酸酶消化达数小时而释放出基因组DNA。可以对该材 料进行处理,以降低剩余细胞废物的浓度,例如通过透析持续一个时间段(即,2至16小 时)和/或稀释。因为这种方法无需采用许多破坏性步骤(诸如乙醇沉淀、离心、和涡旋), 基因组核酸大体保持完整,产生具有超过150千碱基长度的大部分的片段。在一些实施方 式中,这些片段的长度为大约5至大约750千碱基。在其它实施方式中,这些片段的长度为 大约150至大约600、大约200至大约500、大约250至大约400、大约300至大约350千碱 基。可以用于LFR的最小片段是含有至少两个螺旋(het)(大约2-5kb)的片段,并且没有 最大理论尺寸,但是可以利用处理起始核酸制备所产生的剪切来限制片段长度。产生较大 片段的技术导致需要较少的等分部分(aliquot),并且导致较短片段的技术会需要更多的 等分部分。以使DNA对容器的剪切或吸附最小化的方式,对长DNA片段进行分离和处理,包 括例如在琼脂糖凝胶块或油中的琼脂糖中隔离细胞或者通过使用特别涂覆的管和平板。
[0041] 根据采用等分取样的本发明的实施方式,一旦将DNA分离并且在将其等分取样入 单独的孔中之前,将DNA仔细地裂解以避免物质的损失,尤其是来自各片段的末端的序列, 因为这种物质损失会导致最终基因组装配中的空缺。在一个实施方式中,通过使用罕见的 切口酶来避免序列损失,该切口酶在彼此距离大约l〇〇kb处形成用于聚合酶(例如phi29 聚合酶)的起始位点。当聚合酶形成新DNA链时,该新链替换老链,从而在聚合酶起始的位 点附近形成重叠的序列。因此,存在非常少的序列缺失。
[0042] 5'核酸外切酶的受控制使用(在扩增(例如利用MDA)之前或者期间)可以促进 来自单细胞的初始DNA的多次复制,因此通过拷贝的复制使早期错误的传播最小化。
[0043] 在一些实施方式中,通过将衔接物与单链引发突出端连接并且用衔接物特异性引 物和phi29聚合酶由各长片段制作两个拷贝,而实现在等分取样之前从单细胞中进一步复 制裂解的DNA。这可以由单细胞产生相当于4个细胞的DNA。 裂解
[0044] 然后利用常规技术(包括酶消化、剪切、或超声处理)将靶基因组DNA分解或裂解 成期望的尺寸,后两种技术被发现特殊使用于本发明。
[0045] 靶核酸的片段大小可以根据所使用的源靶核酸和文库构建方法而变化,但就标准 全基因组测序而言,这种片段的长度通常是在50至600个核苷酸的范围内。在另一个实 施方式中,这些片段的长度为300至600或者200至2000个核苷酸。在又一个实施方式 中,这片段的长度为 10-100、50_100、50-300、100-200、200-300、50-400、100-400、200-400、 300-400, 400-500、400-600、500-600、50-1000、100-1000、200-1000、300-1000、400-1000、 500-1000、600-1000, 700-1000、700-900、700-800、800-1000、900-1000、1500-2000、 1750-2000、和50-2000个核苷酸。较长的片段用于LFR。
[0046] 在另一个实施方式中,将特定尺寸的片段或在特定尺寸范围内的片段加以分离。 这种方法在本领域是众所周知的。例如,可以利用凝胶分离来形成在一系列碱基对中的具 有特定尺寸的一群片段,例如针对500个碱基对+50个碱基对。
[0047] 在许多情况下,对提取的DNA进行酶消化是不要求的,因为在溶胞和提取期间产 生的剪切力将产生在期望范围内的片段。在又一个实施方式中,可以通过使用限制性核酸 内切酶的酶裂解产生较短的片段(l_5kb)。在再一个实施方式中,大约10至大约1,000, 000 基因组当量的DNA确保该群的片段覆盖完全基因组。因此,含有由这种群的重叠片段所产 生核酸模板的文库将包含靶核酸,其序列一旦被确定和装配将提供大部分或全部的完全基 因组的序列。
[0048] 在本发明的一些实施方式中,将受控制的随机酶("Core")裂解方法用于制备片 段。Core裂解是酶端点检测,并且具有酶裂解的优点(诸如将它使用于小量和/或小体积 的DNA的能力),而不具有许多的酶裂解的缺陷(包括对基质或酶浓度变化的敏感性和对消 化时间的敏感性)。
[0049] 在一个方面,本发明提供一种裂解的方法,在本文中被称为受控制的随机酶 (Core)裂解,该方法可以单独使用或者结合本领域中已知的其它机械裂解和酶裂解方法而 使用。Core裂解包括一系列的三个酶的步骤。首先,对核酸实施扩增方法,也就是说在参杂 有一部分脱氧尿苷("dU")或尿嘧啶("U")的dNTPs的存在下执行从而导致在扩增产物 的两条链中在规定和可控制比例的T位置处的dUTP或UTP的置换。任何合适的扩增方法 均可以用于本发明的此步骤。在某些实施方式中,在以对dTTP成规定比率参杂有dUTP或 UTP的dNTPs的存在下,利用多重置换扩增(MDA)形成扩增产物,其中将dUTP或UTP置换在 两条链上的某些点。
[0050] 在将尿嘧啶基团扩增和插入后,将尿嘧啶切除(通常利用UDG、EndoVIII、和T4PNK 的组合),以形成具有5'磷酸酯和3'羟基末端官能团的单碱基空缺。将以由MDA产物中 U的频率所确定的平均间距,形成单碱基空缺。也就是说,dUTP的量越高,所形成片段就越 短。正如本领域技术人员将理解的,将用修饰核苷酸选择性地置换核苷酸的其它技术可以 类似地导致切断,诸如化学敏感或其它酶敏感的核苷酸。
[0051] 用具有核酸外切酶活性的聚合酶来处理空缺的核酸,导致切口沿核酸长度的"平 移"或"易位"直到在相反链上的切口汇合,由此形成双链断裂,从而形成相对均匀的尺寸的 双链片段的群。聚合酶(诸如Taq聚合酶)的核酸外切酶活性将切除该短DNA链,该短DNA 链紧靠切口同时聚合酶活性将"填充"该切口和该链中的后继核苷酸(基本上,Taq沿该链 移动,利用核酸外切酶活性切除碱基并且添加相同的碱基,结果是切口沿该链易位直到酶 到达末端)。
[0052] 因为双链片段的尺寸分布是MDA反应中所使用的dTTP与dUTP或UTP的量的结果, 而不是利用酶处理的持续时间和程度,此CoRE裂解方法获得高程度的裂解再现性,从而形 成都具有相似尺寸的一群的双链核酸片段。 片段末端的修复和修饰
[0053] 在某些实施方式中,根据本发明的方法,在裂解后对靶核酸作进一步修饰,以制备 用于多个衔接物的插入的靶核酸。
[0054] 在物理裂解后,靶核酸常常具有钝性末端和突出末端的组合、以及在末端的磷酸 酯与羟基化学基团的组合。在此实施方式中,用数种酶对靶核酸进行处理以形成具有特定 化学基团的钝性末端。在一个实施方式中,将聚合酶和dNTPs用于填充突出端的任何5'单 链以形成钝性末端。将具有3'核酸外切酶活性的聚合酶(通常但不总是与5'活性聚合酶 相同的酶,诸如T4聚合酶)用于除去3'突出端。合适的聚合酶包括但不限于T4聚合酶、 Taq聚合酶、大肠杆菌DNA聚合酶1、Klenow片段、逆转录酶、phi29相关的聚合酶(包括野 生型phi29聚合酶和这种聚合酶的衍生物)、T7DNA聚合酶、TOTNA聚合酶、RNA聚合酶。这 些技术可以用于形成钝性末端,这些钝性末端可用于多种用途。
[0055] 在其它任选的实施方式中,改变在末端的化学基团以避免靶核酸彼此连接。例如, 除了聚合酶外,也可以将蛋白激酶使用于通过利用其3'磷酸酶活性将3'磷酸基转化成羟 基而形成钝性末端的步骤。这种激酶可以包括但不限于市售的激酶诸如T4激酶、以及不市 售但具有期望活性的激酶。
[0056] 类似地,可使用磷酸酶将末端磷酸基转化成羟基。合适的磷酸酶包括但不限于碱 性磷酸酶(包括小牛肠碱性磷酸酶)、热敏磷酸酶、三磷酸腺苷双磷酸酶、焦磷酸酶、无机 (酵母菌)热稳定的无机焦磷酸酶等,这些磷酸酶在本领域中是已知的。
[0057] 这些修饰防止在本发明方法的随后步骤中靶核酸彼此连接,因此确保在将衔接物 (和/或衔接物臂)连接到靶核酸末端的步骤期间,将靶核酸连接到衔接物但不连接到其它 靶核酸。靶核酸可以在期望的方向上连接到衔接物。修饰末端避免了其中靶核酸彼此连接 并且/或者衔接物彼此连接的不期望的构造。也可以通过控制衔接物和靶核酸两者的末端 化学基团而控制各衔接物-靶核酸连接的方向。这种修饰可以防止含有以未知构象连接的 不同片段的核酸模板的形成,因此减少并且/或者除去由这种不期望的模板所造成的序列 鉴定和装配中的错误。
[0058] 在通过裂解而形成单链的片段之后,可以将DNA变性。 扩增
[0059] 在一个实施方式中,在裂解后(实际上在本文中概述的步骤之前或之后)可以对 一群的裂解核酸实施扩增步骤,以确保足够高的浓度的所有片段可用于后继的步骤。根据 本发明的一个实施方式,提供用于对少量核酸复合物(包括高级生物体的)进行测序的方 法,其中将这种核酸复合物扩增以便产生足够的用于利用本文中所描述方法进行测序的核 酸。本文中描述的测序方法以高检出率提供高度准确的序列,甚至将一部分的基因组当量 作为具有充分扩增的起始材料。应注意,细胞含有大约6.6皮克(pg)的基因组DNA。来自 单个细胞或小数量生物体(包括高级生物体,例如人)的细胞的全基因组或者其它核酸复 合物可以用本发明的方法进行实施。可以使用让8、5口8、1(^8、3(^8、5(^8、10(^8或者1叩 的核酸复合物作为起始材料来完成高级生物体的核酸复合物的测序,利用本领域中已知的 任何核酸扩增方法将该起始材料扩增以产生例如200ng、400ng、600ng、800ng、1yg、2yg、 3yg、4yg、5yg、10yg或更多量的核酸复合物。我们也公开了使GC偏向性最小化的核酸 扩增方案。然而,可以通过进一步分离一个细胞或者少量的细胞,在本领域中已知的合适培 养条件下将它们培养达充分的时间,并且使用起始细胞的后代或用于测序的细胞的后代, 而减少对扩增和后继的GC偏向性的需求。
[0060] 这种扩增方法包括但不限于:多重置换扩增(MDA)、聚合酶链反应(PCR)、连接链 反应(有时被称为寡核苷酸连接酶扩增OLA)、循环探针技术(CPT)、链置换检测(SDA)、转录 介导的扩增(TMA)、基于核酸序列的扩增(NASBA)、滚环扩增(RCA)(用于圆形化片段)、和侵 入裂解技术。
[0061] 可以在裂解之后或者在任何步骤之前或之后实施本文中概述的扩增。 具有减小的GC偏向件的MDA扩增方案
[0062] 在一个方面,本发明提供制备样品的方法,其中在文库构建和测序之前如实地进 行每等分部分约l〇Mb的DNA的扩增,例如根据起始DNA的量大约30, 000倍。
[0063] 根据本发明的LFR方法的一个实施方式,LFR开始于用5'核酸外切酶对基因组核 酸(通常是基因组DNA)进行处理,以形成3'单链的突出端。这种单链突出端用作MDA起 始位点。核酸外切酶的使用也消除了在扩增之前加热或碱变性步骤的需求,并且不将偏向 性引入该群的片段。在另一个实施方式中,将碱变性与5'核酸外切酶处理相结合,导致比 在任何单独处理中所看到偏向性的减小更多的偏向性的减小。如上所述,然后,将用5'核 酸外切酶且任选地用碱变性处理的DNA稀释到亚基因组浓度并且分散在一些等分试样上。 在分离成等分部分(例如在多个孔中)之后,将各等分部分中的片段扩增。
[0064] 在一个实施方式中,采用phi29_碱基多重置换扩增(MDA)。许多研宄已检查了不 受欢迎的扩增偏向性、背景产物形成、和由于基于phi29的MDA所产生的嵌合假象的范围, 但许多的这些缺点在扩增的极端条件下(大于1百万倍)已发生。通常,LFR采用基本上 较低水平的扩增并且开始于长DNA片段(例如,约100kb),从而实现高效率的MDA和更加可 接受水平的扩增偏向性和其它与扩增有关的问题。
[0065] 我们已开发出了一种改进的MDA方案来克服与使用各种添加剂(例如,DNA修饰 酶、糖类、和/或化学剂如DMSO)的MDA相关的问题,并且/或者减少、增加或置换MDA的反 应条件的不同组分,以进一步改进该方案。为了使嵌合体最小化,也可以使用试剂来减小替 换的单链DNA用作用于延伸DNA链的错误模板的可利用性,这是嵌合体形成的常见机制。 由于MDA所造成的覆盖率偏向性的主要来源是由富含GC的区域与富含AT的区域的扩增的 差异所导致的。这可以通过在MDA反应中使用不同试剂并且/或者通过调整引物浓度以形 成用于甚至启动在基因组的所有GCg%域的环境而加以纠正。在一些实施方式中,在启动 MDA中使用随机六聚体。在其它实施方式中,将其它引物设计用于降低偏向性。在其它实施 方式中,在MDA之前或期间使用5'核酸外切酶的使用可以有助于低偏向性的成功启动,尤 其是用于对特征是长片段复制(即,在一些癌细胞中)和复合物重复的区域进行测序的较 长(即,200kb至1Mb)片段。
[0066] 在一些实施方式中,采用经改进的更高效率的裂解和连接步骤减小制备样品所需 的MDA扩增的回合数量达高达10, 000倍,由此进一步减小偏向性和来自MDA的嵌合体形 成。
[0067] 在一些实施方式中,MDA反应被设计成在用于CoRE裂解的制备中将尿嘧啶导入扩 增产物中。在一些实施方式中,将采用随机六聚体的标准MDA反应用于在各孔中的片段扩 增;可替代地,可以将随机8单体单元的引物用于减小片段的群中的扩增偏向性(例如,GC 偏向性)。在其它实施方式中,也可以将数种不同的酶添加到MDA反应中以减小扩增的偏向 性。例如,可以将低浓度的非行进性5'核酸外切酶和/或单链结合蛋白质用于形成用于8 单体单元的结合位点。也可以将诸如甜菜碱、DMS0和海藻糖的化学试剂用于减小偏向性。
[0068] 在将各等分部分中的片段扩增后,任选地可以使扩增产物经历另一轮的裂解。在 一些实施方式中,将CoRE方法用于在扩增后在各等分部分中将片段进一步裂解。在这种实 施方式中,在各等分部分中的片段的MDA扩增被设计成将尿嘧啶并入MDA产物。用尿嘧啶 DNA糖苷酶(UDG)、DNA糖苷酶裂解酶核酸内切酶VIII、和T4多核苷酸激酶的混合物对含有 MDA产物的各等分部分进行处理,以切除尿嘧啶碱基并且形成具有5'磷酸酯基和3'羟基官 能团的单碱基空缺。通过使用诸如Taq聚合酶的聚合酶的切口平移导致双链的钝性末端断 裂,从而形成具有取决于在MDA反应中添加dUTP的浓度的尺寸范围的可连接片段。在一些 实施方式中,所采用的CoRE方法包括通过使用phi29的聚合和链置换而除去尿嘧啶。也可 以利用超声处理或酶处理来实现MDA产物的裂解。此实施方式中可以使用的酶处理包括但 不限于:DNase1、17核酸内切酶I、微球菌核酸酶等。
[0069] 在MDA产物的裂解之后,可以对所形成片段的末端进行修复。许多裂解技术可以 形成具有突出端的末端和具有不用于随后连接反应的官能团(诸如3'和5'羟基和/或3' 和5'磷酸酯基)的末端。有用的是具有被修复以具有钝性末端的片段。也理想的是,对末 端进行修饰以便添加或除去磷酸基和羟基以防止靶序列的"聚合"。例如,可以使用磷酸酶 来消除磷酸基,使得所有的末端都含有羟基。然后,可以选择性地改变各末端,以便允许在 期望的组件之间形成连接。然后,可以通过使用碱磷酸酶的处理,而将这些片段的一端"活 化"。然后,可以用衔接物来标记这些片段以鉴定在LFR方法中来自相同等分部分的片段。 各等分部分中的片段的标iP,
[0070] 根据一个实施方式,在扩增后,对各等分部分中的DNA进行标记从而鉴定其中产 生各片段的等分部分。在其它实施方式中,在用衔接物进行标记之前,将各等分部分中的 扩增DNA进一步裂解,使得来自相同等分部分的片段都将含有相同的标记;参见例如US 2007/0072208,该专利的内容以参考的方式并入本文中。
[0071] 根据一个实施方式,衔接物被设计在两个片段中,一个片段对于所有的孔是共有 的,并且钝性末端利用本文中进一步描述的方法直接连接到这些片段。以两个衔接物臂的 形式添加"共有的"衔接物,一个臂连接到片段的5'端的钝性末端,另一个臂连接到片段的 3'端的钝性末端。标记衔接物的第二片段对各孔是唯一的"条形码"片段。此条形码通常 是核苷酸的唯一序列,并且向特定孔中的各片段给予相同的条形码。因此,当来自所有孔的 标记片段重新组合以便用于测序用途时,可以通过对条形码衔接物的鉴定而确定来自相同 孔的片段。将条形码连接到共有的衔接物臂的5'端。共有衔接物和条形码衔接物可以顺 序地或同时地连接到该片段。正如将在本文中更详细的描述,可以对共有衔接物的末端和 条形码衔接物进行修饰,使得各衔接物片段将在正确方向上连接到适当的分子。这种修饰 通过确保这些片段不能彼此连接并且衔接物片段仅能够在图示的方向上连接而防止衔接 物片段或片段的"聚合"。
[0072] 在其它实施方式中,将三片段设计应用于用来标记各孔中的片段的衔接物。除了 将条形码衔接物片段分裂成两个片段外,该实施方式类似于上述条形码衔接物设计。通过 允许通过将不同的条形码片段连接在一起以形成全条形码片段而产生组合条形码衔接物 片段,此设计允许更宽范围的合适条形码。此组合设计提供合适条形码衔接物的较大所有 组成成分,同时减少需要产生的全尺寸条形码衔接物的数量。在其它实施方式中,用8-12 个碱基对错误纠正条形码来实现各等分部分的唯一鉴定。在一些实施方式中,使用与孔 (在上述非限制性实例中为384个和1536个)相同数量的衔接物。在其它实施方式中,通 过基于两组的40个半条形码衔接物的新型组合标记方法,来降低与形成衔接物相关的成 本。
[0073] 在一个实施方式中,文库构建包括使用两个不同的衔接物。容易地对A和B衔接 物进行修饰以便各自含有不同的半条形码序列,从而产生数千种组合。在另一个实施方式 中,将条形码序列并入在相同的衔接物上。这可以通过将B衔接物断裂成两个部分而实现, 各部分具有被用于连接的共有重叠序列所分离的半条形码序列。这两个标记组件各自具有 4-6个碱基。8碱基(2X4碱基)标记组能够唯一地标记65, 000个等分部分。一个额外的 碱基(2X5碱基)将允许错误检测和12碱基标记(2X6碱基,12百万个唯一的条形码序 列)可以被设计成允许在采用Reed-Solomon设计的10, 000或10, 000以上等分部分中的 大量错误检测和纠正(美国专利申请12/697,995,在US2010/0199155中公布,该专利申 请的内容以参考的方式并入本文中)。2X5碱基和2X6碱基标记两者均可包含简并碱基 (即,"通配符(wild-card)")的使用以实现最佳解码效率。
[0074] 在将各孔中的片段进行标记后,将所有片段合并或汇集以形成单群。然后,可以将 这些片段用于形成用于测序的核酸模板或文库构建体。通过连接到各片段的条形码标记衔 接物,这些标志片段所形成的核酸模板将是可辨认的,因为属于一个特定的孔。 f库构律体 概沭
[0075] 本发明提供包含靶核酸和多个散在衔接物的文库构建体。这些构建体是通过在各 靶核酸中的多种位点处插入衔接物分子而形成的。散在衔接物允许从靶核酸中的多个位点 连续地或同时地获得序列信息。
[0076] 本发明的核酸模板(本文中也被称为"核酸构建体"和"文库构建体")包含靶核 酸和衔接物。本文中使用的术语"衔接物"是指已知序列的寡核苷酸。本发明中使用的衔接 物可包含一些元件。衔接物中所包含元件的类型和数量(本文中也被称为"特征")将取决 于衔接物的预期用途。本发明中使用的衔接物通常将包括但不限于:用于限制性核酸内切 酶识别和/或切割的位点;尤其是允许在衔接物内部的一个识别位点处的核酸内切酶结合 以及在衔接物外部切割的如下所述的IIs型识别位点;用于引物结合(用于扩增核酸构建 体)或者锚定结合(用于对核酸构建体中的靶核酸进行测序)的位点;切口酶位点等。在 一些实施方式中,衔接物将包含用于限制性核酸内切酶的单个识别位点,而在其它实施方 式中,衔接物将包含用于一个或多个限制性核酸内切酶的2个或2个以上识别位点。如本 文中的概述,常常(但不排他地)在衔接物末端发现识别位点,以便允许在距离衔接物末端 的最远合适位置处将双链构建体切断。
[0077] 在一些实施方式中,根据衔接物中所包含特征的数量和大小,本发明的衔接物具 有大约10至大约250个核苷酸的长度。在某些实施方式中,本发明的衔接物具有大约50 个核苷酸的长度。在其它实施方式中,本发明中使用的衔接物具有大约20至大约225、大 约30至大约200、大约40至大约175、大约50至大约150、大约60至大约125、大约70至 大约100、和大约80至大约90个核苷酸的长度。
[0078] 在其它实施方式中,衔接物可任选地包含元件,使得它们可以以两个"臂"的形式 连接到靶核酸。这些臂中的一个或两个臂可包含用于限制性核酸内切酶的一个完整的识别 位点,或者两个臂均可包含用于限制性核酸内切酶的部分的识别位点。在后者的情况下,含 有利用衔接物臂而结合在各末端的靶核酸的构建体的圆形化,将重新构建整个识别位点。
[0079] 在其它实施方式中,本发明中使用的衔接物将包含在它们衔接物的5'和3'端 的不同的锚定结合位点。如本文中的进一步描述,这种锚定结合位点可以用于测序用途, 包括测序的组合探针锚定连接(cPAL)法,描述于本文中和美国专利申请60/992, 485、 61/026, 337、61/035, 914、61/061,134、61/116, 193、61/102, 586、12/265, 593、和 12/266, 385、11/938, 106、11/938, 096、11/982, 467、11/981,804、11/981,797、11/981,793、 11/981,767、11/981,761、11/981,730、11/981,685、11/981,661、11/981,607、11/981,605、 11/927, 388、11/927, 356、11/679, 124、11/541,225、10/547, 214、和 11/451,691 ;以上所有 专利文件的全部内容以参考的方式并入本文中,尤其是用于与利用连接进行测序有关的公 开内容。
[0080] 在一个方面,本发明的衔接物是散在衔接物。本文中的"散在衔接物"表示在靶核 酸内部区域中的间隔位置插入的寡核苷酸。在一个方面,有关于靶核酸的"内部"表示在处 理(诸如圆形化和切断)之前在靶核酸内部的位点,所述处理会引入序列倒位、或者类似的 转型,这破坏在靶核酸内部的核苷酸的有序化。
[0081] 本发明的核酸模板构建体含有在特定方向上插入靶核酸中的多个散在衔接物。如 本文中进一步的论述,由从一个或多个细胞(包括1至数百万个细胞)中分离出的核酸而 形成靶核酸。然后,利用机械方法或酶方法将这些核酸裂解。
[0082] 成为本发明核酸模板构建体的部分的靶核酸可具有在预定位置以在靶核酸相邻 区域中的间隔而插入的散在衔接物。这些间隔可以相同的或者可以是不相同的。在一些方 面,散在衔接物之间的间距的精确度可以仅对一些核苷酸中的一个核苷酸的精确度是已知 的。在其它方面,衔接物的间距是未知的,并且各衔接物相对于文库构建体中的其它衔接物 的方向是已知的。也就是说,在许多实施方式中,在已知的距离处将衔接物插入,使得在天 然产生的基因组序列中的一个末端上的靶序列与在其它末端上的靶序列是相邻的。例如, 在从位于进入衔接物3个碱基的识别位点中切割出16个碱基的IIs型限制性核酸内切酶 的情况下,核酸内切酶从衔接物的末端顶部切割出13个碱基。在第二衔接物插入时,在初 始靶序列中衔接物的靶序列"上游"和衔接物的靶序列"下游"实际上是相邻的序列。这些 "配对"序列从构建体中话延伸相邻阅读的数量,并且尤其可用于在基因组中的重复元件中 的阅读。
[0083] 尽管本文中描述的本发明实施方式通常是用圆形核酸模板构建体来描述的,但应 当理解的是核酸模板构建体也可以是线形的。此外,本发明的核酸模板构建体可以是单链 或双链的,在一些实施方式中后者是优选的。
[0084] 本发明提供包括含有一个或多个散在衔接物的靶核酸的核酸模板。在另一个实施 方式中,由多个基因组片段所构成的核酸模板可以用于形成核酸模板的文库。在一些实施 方式中,这种核酸模板的文库将包含共同地包含所有或部分的完全基因组的靶核酸。也就 是说,通过使用足够数量的起始基因组(例如细胞),连同随机裂解,将所形成的特定尺寸 的靶核酸用于形成充分"覆盖"基因组的本发明的圆形模板,但能理解的是,偶尔可以非故 意地导入偏向性以防止呈现完全基因组。
[0085] 本发明的核酸模板构建体包含多个散在衔接物,在一些方面,这些散在衔接物包 含用于限制性核酸内切酶的一个或多个识别位点。在其它方面,衔接物包含用于IIs型核 酸内切酶的识别位点。IIs型核酸内切酶通常是市售的并且在本领域中是众所周知的。如 同它们的IIs型对应物,IIs型核酸内切酶识别在双链多核苷酸序列中的核苷酸碱基对的 特定序列。当识别该序列时,核酸内切酶将多核苷酸序列切断,通常留下序列的一个链的突 出端,或者"粘性末端"。IIs型核酸内切酶也通常在它们的识别位点的外部切断;根据特定 的核酸内切酶,距离可以是距离识别位点大约2至30个核苷酸的任意距离。一些IIs型核 酸内切酶是从它们的识别位点切割出已知数量碱基的"精确切割酶"。在一些实施方式中, 使用并非"精确切割酶"而是在特定范围(例如6至8个核苷酸)内切割的IIs型核酸内切 酶。通常,使用于本发明的IIs型限制性核酸内切酶具有距离它们的识别位点至少达6个 核苷酸(即,在识别位点的端点与最近的切断点之间的核苷酸的数量)的切断位点。示例 性的IIs型限制性核酸内切酶包括但不限于:Eco57MI、MmeI、AcuI、BpmI、BceAI、Bbv I、BciVI、BpuEI、BseMII、BseRI、BsgI、BsmFI、BtgZI、EciI、EcoP15I、Eco57MI、FokI、HgaI、HphI、MboII、MnlI、SfaNI、TspDTI、TspDWI、TaqII等。在一些示例 性实施方式中,用于本发明的IIs型限制性核酸内切酶是Acul,该酶具有大约16个碱基的 切割长度并且具有2-碱基3'突出端;和EcoP15,其具有大约25个碱基的切割长度并且具 有2-碱基5'突出端。正如将在下面进一步的论述,通过将IIs型位点包括在本发明核酸 模板构建体的衔接物中,而提供用于在限定位置将多个衔接物插入靶核酸的工具。
[0086] 正如将会理解的,衔接物也可包含其它元件,包括用于其它(非IIs型)限制性核 酸内切酶的识别位点、用于扩增的引物结合位点、以及用于在本文中进一步描述的测序反 应中使用的锚定物的结合位点。
[0087] 在一个方面,本发明中使用的衔接物可以包含多个功能特征,包括用于IIs型限 制性核酸内切酶的识别位点、用于切口核酸内切酶的位点、能影响二级特性的序列(诸如 破坏发夹的碱基);等。另外,用于本发明的衔接物可含有回文序列,一旦将包含这种衔接 物的核酸模板用于产生多联体,该回文序列可以用于促进分子内结合。 本发明的核酸樽板的制各
[0088] 用于制备文库构建体的方法详细描述于例如美国专利申请公开 2010/0105052 和US2007099208,以及美国专利申请 11/679, 124(在US2009/0264299 中公开);ll/981,761(US2009/0155781);ll/981,661(US2009/0005252); 1 1/98 1, 605 (US2009/00 1 1943) ; 1 1/981, 793 (US2009-01 18488); 1 1/45 1, 69 1 (US2007/0099208) ; 1 1 /98 1 , 60 7 (US2008/0 2 34 1 36); 1 1 /98 1, 76 7 (US2009/0 1 3 7404) ; 1 1 /98 2, 46 7 (US2009/0 1 3 74 1 4); 11/451,692(US2007/0072208) ;11/541,225(US2010/0081128 ; 1 1/927, 356 (US2008/03 18796) ; 1 1/927, 388 (US2009/0 143235); 1 1 /9 38, 096(US2 0 0 8 /0 2 1 3 7 7 1 ) ; 1 1 /9 38, 1 06 (US2008/0 1 7 1 3 3 1 ); 1 0/547, 2 1 4(US2 0 0 7 /0 0 3 7 1 5 2 ) ; 1 1 /98 1 , 7 30 (US2009/000 5 2 59); 1 1 /98 1, 68 5 (US2009/00 36 3 1 6) ; 1 1/981, 797 (US2009/001 1416); 1 1 /9 34, 69 5 (US2009/00 7 5 343) ; 1 1/934, 697 (US2009/01 1 1705); 1 1/934, 703 (US2009/01 1 1706) ; 1 2 / 2 6 5, 5 9 3 (US2009/0 20 3 5 5 1 ); 1 1 /9 3 8, 2 1 3 (US2009/0 1 0 596 1 ) ; 1 1/938, 22 1 (US2008/022 1832); 1 2 / 3 2 5, 9 2 2 (US2009/0 3 1 8 304) ; 1 2 / 2 5 2, 2 8 0 (US2009/0 1 1 1 1 1 5); 1 2/266, 385 (US2009/0 1 76652) ; 12/335, 168 (US2009/031 1691); 12/335, 188 (US2009/0176234) ; 12/361, 507 (US2009/0263802)、 11/981, 804 (US2011/0004413);和 12/329, 365 ;公布的国际专利申请TO2007120208、 W02006073504和W02007133831,以上所有专利文件的全部内容以参考的方式并入本文中 用于所有目的。也参见Drmanac等人,Science327,78-81,2010。下面提供对这种方法的 实例的总结。圆形模板的形成的概述
[0089] 本发明涉及用于核酸鉴定和检测的组合物和方法,这些组合物和方法可用于如本 文中所述的种类广泛的用途,包括多种测序和基因分型用途。本文中描述的方法允许用于 扩增反应的圆形核酸模板的构建,该扩增反应利用这种圆形模板形成单体圆形模板的串联 体,从而形成下述的"DNA纳米球",该纳米球可用于多种测序和基因分型用途。本发明的圆 形或线形构建体包含靶核酸序列,通常是基因组DNA的片段(尽管如本文中的描述,但也可 以使用其它模板诸如cDNA)具有散在的外源性核酸衔接物。本发明提供用于制造核酸模板 构建体的方法,其中在规定位置并且也任选地在相对于一个或多个以前插入的衔接物的规 定方向上添加各后继的衔接物。这些核酸模板构建体通常是圆形核酸(尽管在某些实施方 式中构建体可以是线形的),该圆形核酸包含具有多个散在衔接物的靶核酸。这些衔接物, 如下所述,是用于测序和基因分型用途的外源性序列,并且通常含有限制性核酸内切酶位 点,尤其是用于诸如在它们的识别位点的外部切割的IIs型酶的酶。为了便于分析,本发明 的反应优选地采用其中在特定方向上而不是随机地插入衔接物的实施方式。因此,本发明 提供用于制造在特定方向上以规定的间距含有多个衔接物的核酸构建体的方法。
[0090] 在包含多个衔接物的核酸模板构建体中,至少一个衔接物将被插入靶核酸的相邻 核苷酸,以便来自这些插入(本文中也被称为"散在的")的衔接物的各末端的阅读导致对 相邻碱基的阅读。例如,来自散在衔接物的各末端的10个碱基阅读提供对靶核酸的20个 相邻碱基的阅读。
[0091 ] 对各后继的衔接物的插入的间距和方向的控制提供相对于散在衔接物的随机插 入的一些优点。具体地,本文中描述的方法提高衔接物插入步骤的效率,因此减小当插入 各后继衔接物时引入扩增步骤的需要。另外,控制各添加衔接物的间距和方向确保通常包 含在各衔接物中的限制性核酸内切酶识别位点被映射成允许后继的切断和连接步骤在核 酸构建体中的适当点处发生,因此通过减少或消除在不适当的位置或方向上具有衔接物的 核酸模板的形成而进一步提高步骤的效率。另外,对各后继添加衔接物的位置和方向的控 制对于所形成核酸构建体的某些用途会是有利的,因为测序用途中这些衔接物提供多种功 能,包括用作已知序列的参考点,以帮助鉴定在靶核酸内部某些位置确定的碱基的相对空 间位置。本文中将对这种衔接物在测序用途中的使用作进一步描述。
[0092] 基因组核酸,通常是双链DNA,是从一个或多个细胞(通常是大约5个、100个、或 者1000个或1000个以上的细胞)中获得。利用诸如结合尺寸分离的物理分离或酶分离的 标准技术,将基因组核酸分离成适当的尺寸。
[0093] 另外,视需要,可以任选地利用种类广泛的已知技术执行扩增,以增加基因组片段 的数量以便进一步的操作,但在许多实施方式中,在此步骤中扩增步骤是不需要的。 第一衔接物的添加
[0094] 作为在形成本发明的核酸模板中的第一步骤,将第一衔接物连接到靶核酸。可将 整个第一衔接物添加到一个末端,或者可以将第一衔接物的两个部分(在本文中被称为 "衔接物臂")连接到靶核酸的各末端。第一衔接物臂被设计成使得当连接时它们重新构建 整个第一衔接物。如上所述,第一衔接物通常将包含用于IIs型限制性核酸内切酶的一个 或多个识别位点。在一些实施方式中,IIs型限制性核酸内切酶识别位点将在两个衔接物 臂之间被分裂,因此当将两个衔接物臂连接时该位点仅可用于结合到限制性核酸内切酶。
[0095] 根据用于装配衔接物/靶核酸模板的一种方法(本文中也被称为"靶文库构建 体"、"文库构建体"和所有的语法同等物),利用如上所述的标准技术将DNA(诸如基因组 DNA)分离并裂解成靶核酸。然后修复裂解的靶核酸,使得各链的5'和3'端是平齐(flush) 或钝性的末端。在此反应后,用利用非校读聚合酶添加到裂解靶核酸的各链的3'端的单个 A对各片段进行"A-加尾"。A-加尾通常是通过使用聚合酶(诸如Taq聚合酶)而完成并 且仅提供腺苷核苷酸,以便驱使聚合酶以模板-序列-不依赖方式将一个或多个A'添加到 革巴核酸的末端。
[0096] 在一个示例性方法中,然后将第一衔接物的第一臂和第二臂连接到各靶核酸,从 而形成具有连接到各端的衔接物臂的靶核酸。在一个实施方式中,对衔接物臂进行"T-加 尾","T-加尾"与靶核酸的A加尾是互补的,从而通过提供使衔接物臂首先退火到靶核酸然 后加入连接酶以便将衔接物臂连接到靶核酸的方法而有助于衔接物臂与靶核酸的连接。
[0097] 在另一个实施方式中,本发明以使分子内或分子间连接假象的形成最小化的方式 将衔接物连接到各片段。这是理想的,因为彼此构成连接假象的靶核酸的随机片段在靶核 酸片段之间形成虚假的近端基因组关系,从而使序列联配步骤复杂化。利用A加尾和T加 尾两者将衔接物连接到DNA片段,防止衔接物与片段的随机分子内或分子间缔合,这减少 将会由于自我连接、衔接物-衔接物连接或片段-片段连接所形成的假象。
[0098] 作为A/T加尾(或G/C加尾)的替代,可以执行各种其它方法以防止靶核酸与衔 接物的连接假象的形成,以及相对于靶核酸确定衔接物臂的方位,包括使用在靶核酸和衔 接物臂中的互补的NN突出端,或者以适当的靶核酸与衔接物的比率使用钝性末端连接从 而优化单片段核酸/衔接物臂连接比率。
[0099] 在形成包含靶核酸并且具有在各末端上的衔接物臂的线形构建体之后,将线形靶 核酸圆形化(这是将在本文中作进一步论述的步骤),从而形成包含靶核酸和衔接物的圆 形构建体。应注意,圆形化步骤导致将第一衔接物的第一臂与第二臂连接到一起,从而在圆 形构建体中形成相邻的第一衔接物。在一些实施方式中,例如通过使用例如随机六聚体和 phi29或螺旋酶的循环依赖性扩增,而将圆形构建体扩增。可替代地,靶核酸/衔接物结构 可以仍然保持线形,可以利用从衔接物臂中的位点中引发的PCR而完成扩增。扩增优选地 是受控制的扩增过程,并且使用高保真度校读聚合酶,从而形成扩增的靶核酸/衔接物构 建体的序列准确的文库,其中存在被询问的基因组的一个或多个部分或者基因组的充分的 表现。 添加多个衔接物
[0100] 根据一种用于装配衔接物/靶核酸模板的方法(本文中也被称为"靶文库构建 体"、"文库构建体"和所有的语法等同物)。利用标准技术将DNA(诸如基因组DNA)加以分 离并裂解成靶核酸。在一些实施方式中,然后将裂解的靶核酸修复使得各链的5'和3'端 是平齐的或钝性的。
[0101] 在一个方法中,将第一衔接物的第一臂和第二臂连接到各靶核酸,从而产生具有 连接到各末端的衔接物臂的靶核酸。
[0102] 在形成包含一个靶核酸和在各末端的一个衔接物臂的线形构建体之后,将线形靶 核酸圆形化,步骤将在本文中作更详细论述,该步骤导致形成包含靶核酸和衔接物的圆形 构建体。应注意,圆形化步骤导致将第一衔接物的第一臂与第二臂连接在一起以在圆形构 建体中形成相邻的第一衔接物。在一些实施方式中,例如通过使用例如随机六聚体和phi29 或螺旋酶的循环依赖性扩增,而将圆形构建体扩增。可替代地,靶核酸/衔接物结构可仍然 保持线形,并且可以利用从衔接物臂中的位点中引发的PCR完成扩增。扩增优选地是受控 制的扩增步骤并且使用高保真度校读聚合酶,从而导致扩增的靶核酸/衔接物构建体的序 列准确的文库,在靶核酸/衔接物构建体中存在被询问的基因组或者基因组的一个或多个 部分的充分的表;
[0103] 类似于用于添加第一衔接物的步骤,可以将第二组的衔接物臂添加到线形分子的 各末端然后连接以形成全衔接物和圆形分子。此外,可以通过使用IIS型核酸内切酶而将 第三衔接物添加到衔接物的其它侧,该IIs型核酸内切酶在衔接物的其它侧切断,然后将 第三组的衔接物臂连接到线形化分子的各末端。最后,通过再次切断圆形构建体并且将第 四组的衔接物臂添加到线形化的构建体中,可以添加第四衔接物。在一个方法中,施加具有 衔接物中的识别位点的IIs型核酸内切酶以切断圆形构建体。衔接物中的识别位点可以是 相同的或不同的。类似地,所有衔接物中的识别位点可以是相同或不同的。
[0104]包含第一衔接物的圆形构建体可含有在衔接物中的两个IIs型限制性核酸内切 酶识别位点,该衔接物被定位成使得在识别序列外部的靶核酸(和衔接物的外部)被切割。 在一个步骤中,将EC〇P15(IIs型限制性核酸内切酶)用于切割圆形构建体。映射到靶核酸 中的一部分的各文库构建体中的一部分将被从构建体中切割掉。在步骤中具有EcoP15的 文库构建体的限制形成含有第一衔接物的线形构建体的文库,其中第一衔接物是在线形构 建体的末端的"内部"。所形成的线形文库构建体将具有由核酸内切酶识别位点与核酸内切 酶限制位点之间的距离外加衔接物尺寸所确定的尺寸。在此步骤中,利用常规方法对线形 构建体(如裂解的靶核酸)进行处理,从而变成钝性或平齐末端,利用非校读聚合酶将包含 单个A的A尾添加到线形文库构建体的3'端,并且通过A-T加尾和连接将第二衔接物的第 一和第二臂连接到线形化文库构建体的末端。所形成的文库构建体包含以下结构:第一衔 接物在线形构建体端部的内部,其中在一端部靶核酸与第一衔接物侧面相接,并且在另一 端部靶核酸与第二衔接物的第一臂或第二臂侧面相接。
[0105]在一个步骤中,对双链线形文库构建体进行处理从而变成单链的,然后将单链文 库构建体连接从而形成散在地具有两个衔接物的靶核酸的单链循环。在使分子内连接最优 化的条件下,执行连接/圆形化步骤。在某些浓度和反应条件下,各核酸构建体末端的局部 分子内连接有利于分子之间的连接。
[0106]在一些实施方式中,2、3、4、5、6、7、8、9或10个衔接物包含在本发明的核酸模板 中,并且独立地选择各衔接物使得它们都可以是相同的、都是不同的、或者具有成组的相同 的衔接物(例如,具有相同序列的两个衔接物、具有不同序列的两个衔接物,以及如本文中 描述的所有可能组合)。如本文中的描述,可以使用任意数量的限制性核酸内切酶,根据该 系统的格式它们可以是相同或不同的。各定向插入的衔接物除了cPAL外显著地延伸SBS 或SBL的阅读长度。 DNB的制作
[0107]在一个方面,将本发明的核酸模板用于形成核酸纳米球,该纳米球在本文中也被 称为"DNA纳米球"、"DNB"、和"扩增子"。这些核酸纳米球通常是包含多个拷贝的单体单元 的多联体,该单体单元是由圆形文库构建体的序列所构成的。一般来说,在单反应室中的溶 液中实施此扩增过程,从而允许较高的密度和较低的试剂使用。另外,因为DNB制作产生无 性系扩增子,所以此扩增方法通常不经历由于在其它方法中所固有的限制性稀释造成的随 机变异。根据本发明产生DNB的方法可以在1毫升的反应体积中产生超过100亿个DNB,这 些DNB足够对整个人基因组进行测序。
[0108] 在一个方面,将滚环式复制(RCR)用于形成本发明的多联体。RCR步骤已证明产 生M13基因组的多个连续拷贝(Blanco等人(1989),JBiolChem264:8935-8940)。在这种 方法中,利用线形多联(linearconcatemerization)复制核酸。对选择用于RCR反应的条 件和试剂的指导可查阅本领域技术人员可获得的许多参考文献,包括美国专利5, 426, 180、 5, 854, 033、6, 143, 495和5, 871,921,以上各专利的全部内容以参考的方式并入本文中用 于所有目的,并且具体地与利用RCR或其它方法产生多联体有关的所有教导。
[0109] 通常,RCR反应组件包括单链DNA环、退火成DNA环的一个或多个引物、具有延伸 退火成DNA环的引物的3'端的链置换活性的DNA聚合酶、核苷三磷酸酯、和常规的聚合酶 反应缓冲液。在允许引物退火成DNA环的条件下,将这种组件加以组合。使用DNA聚合酶 的这些引物延伸形成DNA环补体的多联体。在一些实施方式中,本发明的核酸模板是双链 的环,将该环变性以形成可以用于RCR反应的单链的环。
[0110] 在一些实施方式中,圆形核酸的扩增可以通过短寡核苷酸(例如6单体单元)的 连续连接而实施,短寡核苷酸来自含有所有可能序列的混合物,或者如果环是合成的,短寡 核苷酸来自具有用于环复制的选择序列的这些短寡核苷酸的限制混合物,这是被称为"循 环依赖性扩增"(CDA)的步骤。"循环依赖性扩增"或者"CDA"是指使用退火到圆形模板的 两条链的引物以产生代表模板的两个链的产物,从而形成一系列多次杂交、引物延伸和链 置换事件的双链圆形模板的多重置换扩增。这导致引物结合位点数量的指数升高,并且随 时间推移所产生产物的量呈指数地升高。所使用的引物可以是随机序列(例如,随机六聚 体)或者可具有用于对期望产物的扩增进行选择的特定序列。CDA导致形成成组的多联体 双链的片段。
[0111] 也可以在与靶分子的开始端和末端两者是互补的桥接模板DNA的存在下,通过靶 DNA的连接而形成多联体。可以在多联体中利用相应的桥接模板的混合物将一群不同的靶 DNA加以转化。
[0112] 在一些实施方式中,可以基于特定特征(诸如期望数量或类型的衔接物)来分离 成群核酸模板的的亚组。可以利用常规技术(例如常规的离心柱(spincolumn)等)对此 群进行分离或处理(例如,选择的尺寸),以形成成群的核酸模板,可以利用例如RCR的技术 从该核酸模板形成成群的多联体。
[0113] 本发明的用于形成DNB的方法描述于公布的专利申请W02007120208、 恥2006073504、102007133831、和旧2007099208,和美国专利申请 60/992,485; 61/026,337 ;61/035,914 ;61/061, 134 ;61/116, 193 ;61/102,586 ; 12/265,593 ; 12/266, 385 ; 11/938, 096 ; 11/981, 804 ;11/981, 797 ;11/981, 793 ;11/981, 767 ; 11/981, 761 ;2007 年 10 月 31 日提交的 11/981, 730 ;11/981, 685 ;11/981, 661 ; 11/981, 607 ; 11/981, 605 ;11/927, 388 ;11/927, 356 ;11/679, 124 ; 11/541,225 ; 10/547,214 ;11/451,692 ;和11/451,691,以上所有专利的全部内容以参考的方式并入本 文中用于所有目的,尤其是用于与形成DNB相关的所有教导。 制作DNB的阵列
[0114] 在一个方面,将本发明的DNB布置在表面上,以形成单分子的随机阵列。可以利用 多种技术(包括共价键连接和非共价键连接)将DNB固定到表面。在一个实施方式中,表面 可包含与多核苷酸分子的组件(诸如衔接物寡核苷酸)形成复合物(例如双链的双链体) 的捕获性探针。在其它实施方式中,捕获性探针可包含与衔接物形成三聚体的寡核苷酸夹 板或类似结构,正如Gryaznov等人的美国专利5, 473, 060中所描述的,该专利的全部内容 并入本文中。
[0115] 本发明的用于形成DNB的阵列的方法描述于公布的专利申请W02007120208、 W02006073504、W02007133831 和US2007099208,和美国专利申请 60/992, 485 ;61/026, 337 ; 61/035, 914 ;61/061, 134 ;61/116, 193 ;61/102, 586 ;12/265, 593 ;12/266, 385 ; 11/938, 096 ; 11/981, 804 ;11/981, 797 ;11/981, 793 ; 11/981,767 ; 11/981,761 ; 11/981, 730 ; 11/981, 685 ; 11/981, 661 ; 11/981, 607 ; 11/981, 605 ; 11/927, 388 ; 11/927, 356 ;11/679, 124 ;11/541,225 ;10/547, 214 ;11/451,692 ;和 11/451,691 中,以上 所有专利文件的全部内容以参考的方式并入本文中用于所有目的,尤其是用于与DNB的阵 列形成有关的所有教导。
[0116] 在一些实施方式中,将具有二维点阵列的图案化基质用于形成DNB的阵列。将这 些点活化以捕获并保持DNB,同时DNB不停留在各点之间的区域中。一般来说,点上的DNB将 排斥其它DNB,从而形成每个点一个DNB。因为DNB是三维的(即,不是DNA的线形短片), 所以本发明的阵列比传统的DNA阵列获得更多的每平方纳米结合表面的DNA拷贝。此三维 质量进一步减小所需测序试剂的量,从而形成更亮的点和更高效率的成像。DNB阵列的占用 率通常超过90%,但也可以在50%至100%的范围内。
[0117] 在其它实施方式中,利用标准硅处理技术形成图案化表面。这种图案化的阵列获 得比未图案化阵列更高密度的DNB,从而获得每碱基阅读中较少的像素、更快的处理、和提 高的试剂使用效率。在其它实施方式中,图案化基质是25mmX75mm(r'X3")的标准显微 镜用载玻片,各自具有容纳大约10亿个可以结合DNB的单独点的容量。正如将理解的,本 发明也涵盖具有甚至较高密度的载玻片。因为在这些实施方式中将DNB布置在表面上然后 粘附到活化点,所以高密度DNB阵列基本上是从溶液中的DNB"自我装配",从而消除了制作 传统图案化寡核苷酸或DNA阵列的最昂贵的方面中的一个方面。
[0118] 在一些实施方式中,表面可具有与多核苷酸分子上的互补官能团发生反应以 形成共价键的反应性官能团,例如利用用于将cDNAs连接到微阵列的相同技术,例如 Smirnov等人(2004),基因、染色体和癌症(Genes,Chromosomes&Cancer),40:72-77 ; Beaucage(2001),CurrentMedicinalChemistry,8 :1213-1244,这些参考文献的内容以参 考的方式并入本文中。DNB也可高效率地连接到疏水性表面,例如具有低浓度的各种反应性 官能团(诸如0H基)的清洁玻璃表面。通过在多核苷酸分子与表面上反应性官能团之间 所形成共价键而实现的连接,在本文中也被称为"化学连接(chemicalattachment)"。
[0119] 在其它实施方式中,多核苷酸分子可以吸附到表面。在这种实施方式中,通过与表 面的非特异性相互作用、或者通过非共价键相互作用(诸如氢键、范德华力等)将多核苷酸 分子加以固定。
[0120] 连接也可包括不同严格度的清洗步骤,该清洗步骤是用于除去不完全连接的单分 子或者从较早制备步骤中存在或者非特异性地结合到表面的其它试剂,这些试剂的存在是 不受欢迎的。
[0121] 在一个方面,表面上的DNB被局限在散在区的区域。可利用本领域已知的和本文 中进一步描述的方法将散在区结合入表面。在示例性实施方式中,散在区含有可以用于将 多核苷酸分子固定的反应性官能团或者捕获性探针。
[0122] 散在区可具有呈规则阵列的规定位置,这些位置可对应于直线图案、六边形图案 等。这种区域的规则阵列对于在分析期间从阵列中所采集信号的检测和数据分析是有利 的。另外,被局限在散在区的受限制区域的第一和/或第二阶段扩增子提供更集中或更强 的信号,尤其是将荧光探针用于分析操作时,由此提供较高的信噪比值。在一些实施方式 中,将DNB随机地分布在散在区上,使得给定区域同样有可能接收任何的不同的单个分子。 换句话说,在制造时所形成阵列是不能立即空间寻址的,但可以通过执行鉴定、测序和/或 解码操作而寻址。因此,布置在表面上的本发明多核苷酸分子的特性(identity)是可辨别 的,但在最初将它们布置在表面上时是未知的。在一些实施方式中,对散在区域进行选择, 连同连接的化学键、所使用的大分子结构等,以便对应于本发明的单分子的尺寸,从而当把 单分子施加到表面上时基本上每个区被不多于1个的单个分子所占据。在一些实施方式 中,以图案化方式将DNB布置在包含散在区的表面上,以便将特定的DNB(在一个示例性实 施方式中,利用标记衔接物或其它标记加以鉴定)布置在特定的散在区或者成组的散在区 上。
[0123] 在一些实施方式中,散在区的面积小于1 ym2;在一些实施方式中,散在区的面积 是在0.04ym2至lym2的范围内;在一些实施方式中,散在区的面积是在0.2ym2至lym2 的范围内。在其中散在区的形状大致是圆形或正方形以便可以用单线形尺寸来表示它们的 尺寸的实施方式中,这种区域的尺寸是在125nm至250nm的范围内、或者在200nm至500nm 的范围内。在一些实施方式中,最近的相邻散在区的中心-中心距离是在0. 25ym至20ym 的范围内;在一些实施方式中,这种距离是在1Um至10ym的范围内、或者在50至lOOOnm 的范围内。通常,散在区被设计成使得表面上的大部分散在区是可光学分解的。在一些实 施方式中,可以将区域布置在表面上,实际上该表面上各区的任何图案具有规定的位置。
[0124] 在其它实施方式中,将分子引导至表面的散在区,因为在散在区之间的区域(在 本文中被称为"区间区域")是惰性的,所以在某种程度上多联体或其它大分子结构并不结 合到这种区域。在一些实施方式中,可以用封闭剂(例如与多联体DNA无关的DNAs、其它聚 合物等)对这种区间区域进行处理。
[0125] 本发明组合物和方法可以使用种类广泛的基质来形成随机阵列。在一个方面,基 质是具有表面的刚性固体,优选地基本上是平面型的表面,因此被询问的单个分子是在同 一平面中的。例如,后者的特征允许通过检测光学信号而高效率地采集信号。在另一个方 面,基质包含磁珠,其中磁珠的表面包含可以用于固定多核苷酸分子的反应性官能团或捕 获性探针。
[0126] 在另一个方面,本发明的固体基质是无孔的,尤其是当利用要求小体积的杂交反 应对单分子的随机阵列进行分析时。合适的固体基质材料包括诸如玻璃、涂覆聚丙烯酰胺 的玻璃、陶瓷、二氧化硅、硅、石英、各种塑料等材料。在一个方面,平坦表面的面积可以在 0. 5至4cm2的范围内。在一个方面,固体基质是玻璃或石英,例如具有被均匀地硅烷化的 表面的显微镜用载玻片。这可以利用常规方案而完成,例如进行酸处理接着在80°C下浸 泡于3-环氧丙氧基丙基三甲氧基硅烷、N,N-二异丙基胺、和无水二甲苯(8:1:24v/v)的 溶液中,由此形成环氧娃烧化表面,例如Beattie等人(1995),分子生物技术(Molecular Biotechnology),4:213。可容易地对这种表面进行处理以便实现捕获性寡核苷酸的末端连 接,例如通过在涂覆到表面之前提供具有3'或5'三乙二醇磷酰基间隔物的捕获性寡核苷 酸(参见Beattie等人,上述)。用于官能化和进一步制备用于本发明的表面的其它实施方 式描述于例如美国专利申请序列Nos. 60/992, 485 ;61/026, 337 ;61/035, 914 ;61/061,134 ; 61/116, 193 ;61/102, 586 ; 12/265, 593 ;12/266, 385 ;11/938, 096 ; 11/981,804 ; 11/981,797 ; 11/981,793 ; 11/981,767 ; 11/981,761 ; 11/981,730 ; 11/981,685 ; 11/981, 661 ; 11/981, 607 ; 11/981, 605 ;11/927, 388 ;11/927, 356 ;11/679, 124 ; 11/541,225 ;10/547, 214 ;11/451,692 ;和11/451,691中,以上各专利文件的全部内容以参 考的方式并入本文用于所有目的,尤其是用于与用于形成阵列的表面的制备相关的所有教 导以及与阵列尤其是与DNB的阵列的形成相关的所有教导。
[0127] 在其中需要散在区的图案的本发明实施方式中,可以利用光刻、电子束光刻、纳 米压印光刻、和纳米印刷以在种类广泛的表面上生成这种图案,例如Pirrung等人的美国 专利5,143,854 丨〇(1〇1'等人的美国专利 5,774,305;611〇(2004)了〇111'仙1(^?1^81。8 0: AppliedPhysics,37 :R123-141 ;这些文献的内容以参考的方式并入本文中。
[0128] 正如将理解的,可以将本发明的大范围密度的DNB和/或核酸模板放置在包含散 在区的表面上,以形成阵列。在一些实施方式中,各散在区可包含大约1至大约1000个分 子。在其它实施方式中,各散在区域可包含大约10至大约900、大约20至大约800、大约30 至大约700、大约40至大约600、大约50至大约500、大约60至大约400、大约70至大约 300、大约80至大约200、和大约90至大约100个分子。
[0129] 在一些实施方式中,以每平方毫米至少0.5、1、2、3、4、5、6、7、8、9或10百万个分子 的密度提供核酸模板和/或DNB的阵列。 伸用DNB的方法
[0130] 根据上述方法制作的DNB提供鉴定靶核酸中的序列的优点,因为包含在DNB中的 衔接物提供已知序列的点,这些点允许当与使用锚定和测序探针的方法结合时确定空间方 向和序列。另外,因为靶序列的多个拷贝存在于单个DNB中,所以DNB避免了依赖于由单分 子测序系统所采用的单荧光团测量的成本和问题。
[0131] 根据本发明的使用DNB的方法包括对靶核酸中的特定序列进行测序和检测(例 如,对特定靶序列(例如特定的基因)进行检测、和/或对SNPs进行鉴定和/或检测)。本 文中描述的方法也可以用于检测核酸重排和拷贝数量变异。也可以利用本文中描述的方法 来完成核酸定量,例如数字基因表达(即,对整个转录组(存在于样品中的全部mRNA)的分 析)和对样品中的特定序列或各组序列的数量的检测。尽管大部分的本文中论述涉及对 DNB的序列的鉴定,但应当理解的是本文中所描述的实施方式中也可使用包含衔接物的其 它非多联体核酸构建体。 cPAL测序的概沭
[0132] 根据本发明的对DNB序列的鉴定,通常是利用在本文中被称为组合探针-锚定连 接("cPAL")及其变体的方法,如下所述。简言之,cPAL包括通过检测由至少一个锚定和 测序探针的连接所形成的连接产物而鉴定在靶核酸中特定检测位置的核苷酸,所述至少一 个锚定杂交到所有或部分的衔接物,所述测序探针含有在对应于(例如将杂交到)检测位 置的"询问位置"的特定核苷酸。测序探针含有唯一的鉴定标记。如果在询问位置的核苷酸 与在检测位置的核苷酸是互补的,那么连接可以发生,从而形成含有唯一标记的连接产物, 然后对该唯一标记进行检测。下面提供对cPAL方法的不同示例性实施方式的描述。应当 理解的是,下面的描述并非意图是限制性的,以下实施方式的变体也包含在本发明中。
[0133] 本发明的cPAL方法具有采用本领域中已知杂交方法进行测序的许多优点,包括 DNA阵列并行性、独立和非迭代的碱基阅读、和每次反应阅读多个碱基的能力。另外,cPAL 解决了通过杂交进行测序方法的两个限制:不能阅读简单的重复,和需要密集的计算。
[0134] "互补的"或者"大致互补的"是指在核苷酸或核酸之间杂交或碱基配或者双链的 形成,例如在双链DNA分子的两条链之间、或者在寡核苷酸引物与单链核酸上的引物结合 位点之间。互补的核苷酸通常是A和T(或A和U)、或者C和G。据说,当核苷酸的一个链 (最佳地对准并且与适当的核苷酸插入或缺失比较时)与其它链中的至少大约80%配对 (通常为至少大约90 %至大约95 %、甚至大约98 %至大约100% )时,两个单链RNA或DNA 分子是基本上互补的。
[0135] 本文中使用的"杂交"是指其中两个单链多核苷酸以非共价键形式结合而形成稳 定的双链多核苷酸的步骤。所形成的(通常)双链多核苷酸是"杂交的"或"双链的"。"杂 交条件"通常将包括小于大约1M、更通常小于大约500mM并且可以是小于大约200mM的盐 浓度。"杂交缓冲液"是缓冲的盐溶液诸如5%SSPE、或者本领域中已知的其它的这种缓冲 液。杂交温度可以低至5°C,但通常高于22°C、更通常高于约30°C、通常超过37°C。杂交通 常是在严格条件下实施的,即,在探针会杂交到其靶亚序列但不杂交到其它不互补序列的 条件下。严格的条件是序列依赖性的并且在不同的情况下是不同的。例如,与短片段相比, 较长的片段会需要较高的针对特定杂交的杂交温度。由于其它因素会影响杂交的严格度, 包括碱基组成和互补链的长度、有机溶剂的存在、和碱基错配的程度,因此参数的组合比任 何一个单独的参数的绝对测量更重要。通常将严格的条件选择成在规定的离子强度和pH 下比用于特定序列的Tm低大约5°C。示例性的严格条件包括在大约7. 0至大约8. 3的pH 值和至少25°C的温度下至少0. 01M至不大于1M钠离子浓度(或其它盐)的盐浓度。例如, 5XSSPE(750mMNaCl、50mM磷酸钠、5mMEDTA(pH= 7.4))和30°C温度的条件适合于等位基 因特异性探针杂交。严格条件的其它例子在本领域中是众所周知的,参见例如SambrookJ 等人(2001),分子克隆,实验室手册(第三版,ColdSpringHarborLaboratory出版社)。
[0136] 本文中使用的术语"Tm"通常是指有一半群的双链核酸分子变为分离成单链的温 度。用于计算核酸的Tm的方程式在本领域是众所周知的。如标准参考文献中所指出的, 可利用方程式计算!"值的简单估计值:Tm= 81. 5+16. 6(loglO[Na+]) 0? 41 (% [G+C])-675/ n-1. 0m;当核酸是在具有0. 5M以下阳离子浓度的水溶液中时,(G+C)含量是在30%和70% 之间,n为碱基的数量,m是碱基对错配的百分比(参见例如,SambrookJ等人(2001),分 子克隆,实验室手册(MolecularCloning,ALaboratoryManual)(第三版,ColdSpring HarborLaboratory出版社)。其它参考文献包括更复杂的计算,这些计算将结构以及序列 特性考虑入^的计算中(也参见Anderson和Young(1985),定量过滤杂交(Quantitative FilterHybridization),NucleicAcidHybridization,及Allawi和SantaLucia(1997), 生物化学(Biochemistry) 36 :10581-94)。
[0137] 在cPAL方法的一个实例中,在本文中被称为"单cPAL",如图1中所示,锚定2302 杂交到在DNB2301的衔接物2308上的互补区域。锚定2302杂交到与靶核酸2309紧邻的 衔接物区,但在一些情况下,锚定可以被设计成通过在锚定的末端引入期望数量的简并碱 基而"进入"靶核酸,如图2中的示意性说明和下面进一步所描述的。区别标记的测序探针 2305的库将杂交到靶核酸的互补区域,并且将与锚定相邻杂交的测序探针连接到锚定以形 成探针连接产物,通常通过使用连接酶。测序探针通常是成组或成库的包含两个部分(在 询问位置的不同的核苷酸,以及在其它位置的所有可能碱基(或者通用的碱基))的寡核苷 酸;因此,各探针代表在特别映射置的各碱基类型。用可检测标记物对测序探针进行标记, 将各测序探针与在该位置具有其它核苷酸的测序探针区分。因此,在图1中所示的实例中, 与锚定2302相邻杂交并且连接到锚定的测序探针2310将使在靶核酸中距离衔接物5个碱 基的位置的碱基鉴定为"G"。图1示出了其中询问碱基是距离连接位点5个碱基的情况,但 正如下面更完全的描述的,询问碱基也可以"更接近"连接位点,并且在一些情况下在连接 的点处。一旦被连接,将未连接的锚定和测序探针清洗掉,利用标记物检测连接产物是否存 在于阵列上。锚定和测序探针杂交和连接的多次循环可以用于在DNB中鉴定期望数量的在 各衔接物各侧的靶核酸的碱基。锚定与测序探针的杂交可顺序地或者同时地发生。碱基识 别的保真度部分地依赖于连接酶的保真度,如果存在接近连接位点的错配该连接酶通常将 不连接。
[0138] 本发明还提供其中在每个杂交-连接循环中使用2个或2个以上锚定的方法。图 3示出了"具有突出端的双cPAL"方法的另一个实例,其中第一锚定2502和第二锚定2505 各自杂交到衔接物的互补区域。在图3中所示的实例中,第一锚定2502与衔接物2511的 第一区是完全互补的,第二锚定2505与和第一锚定的杂交位置相邻的第二衔接物区是互 补的。第二锚定还包含在不与第一锚定相邻的末端的简并碱基。因此,第二锚定能够杂交 到靶核酸2512与衔接物2511相邻的区域("突出端"部分)。第二锚定通常是太短难以单 独维持在其双链杂交状态,但当连接到第一锚定时它形成较长的锚定,该锚定稳定地杂交 用以后继的方法。如上所述,就"单cPAL"方法而言,将测序探针2508的库杂交2509到衔 接物-锚定双链并且连接到锚定的末端5'或3'碱基,测序探针2508的库代表在靶核酸的 检测位置的各碱基型并且用可检测标记物进行标记,该可检测标记物将各测序探针与在该 位置具有其它核苷酸的测序探针加以区分。在图3中所示的实例中,测序探针被设计成对 在测序探针2514和连接的锚定2513之间的连接点的5个位置5'的碱基进行询问。因为 第二(或"延伸")锚定2505具有在其5'端的5个简并碱基,所以它使5个碱基进入靶核 酸2512,从而允许在距离靶核酸2512与衔接物2511之间的界面的完整1个碱基处用测序 探针进行询问。
[0139] 在双cPAL方法中,将利用单个锚定(即,没有一个或多个延伸锚定)进行测序的 与衔接物紧邻的碱基称为"内部位置"。利用锚定和延伸锚定两者对进一步距离"内部位 置"5个碱基(被称为"外部位置"或"外部5个")的碱基进行测序。2、3或更多的延伸锚 定可以用于对进一步与衔接物相邻的序列进行测序。延伸锚定通常是完全简并的(并且杂 交到与衔接物相邻的靶序列中的未知序列);由于该原因,可将它们称为"简并锚定"。因 此,根据一个实施方式,"延伸锚定"实际上是成库的规定长度的随机低聚物。
[0140] 在双cPAL方法的上述实例的变形中,如果第一锚定在更接近衔接物的末端终止, 那么简并锚定将成比例地更加简并,因此将具有更大的可能性不仅连接到第一锚定的末端 而且连接到在DNB上的多个位点的其它简并锚定。为防止这种连接假象,可以选择性地活 化简并锚定以便参与连接到第一锚定或者连接到测序探针。下面更详细地描述这种活化方 法,并且包括方法,诸如选择性地修饰锚定的末端使得它们能够在相对于衔接物的特定方 向上只连接到特定锚定或测序探针。
[0141] 类似于上述双cPAL方法,应当理解的是使用3个或3个以上锚定(即,1个第一锚 定和2个或2个以上的简并锚定)的cPAL方法也包含在本发明中。
[0142] 另外,可以在各衔接物的一个或两个末端执行测序反应,例如,测序反应可以是 "未定向的"并且检测发生在衔接物的3'或5'或其它位置,或者反应可以是"双向的",其 中在衔接物的检测位置3'和5'对碱基进行检测。双向测序反应可以同时地发生,S卩,在相 同时间或者顺序地以任意顺序对在衔接物两侧上的碱基进行检测。
[0143] cPAL(不论单、双、三等)的多次循环将鉴定在与衔接物相邻的靶核酸的区域中的 多个碱基。简言之,重复cPAL方法,以便通过使用被设计成检测在从衔接物与靶核酸之间 的界面除去的不同位置的核苷酸的测序探针库循环执行锚定杂交和酶连接反应而询问靶 核酸组合物中的多个相邻的碱基。在任何给定的循环中,所使用的测序探针被设计成使得 一个或多个位置的一个或多个碱基的特性与连接到测序探针的标记的特性相关。一旦连接 的测序探针(因此在询问位置的碱基)被检测,则将连接的复合物从DNB除去并且执行衔 接物与测序探针杂交和连接的新循环。
[0144] 正如将理解的,本发明的DNB可以用于除上述cPAL方法以外的其它测序方法,包 括其它利用连接的测序方法以及其它测序方法,包括但不限于利用杂交的测序、利用合成 的测序(包括通过引物延伸进行测序)、通过可切断探针的连接的链接测序,等。
[0145] 类似于上述用于测序方法的方法也可以用于检测靶核酸中的特定序列,包括单核 苷酸多态性(SNPs)的检测。在这种方法中,将使用杂交到特定序列(例如含有SNP的序 列)的测序探针。这种测序探针可以区别地标记以便鉴定哪个SNP存在于靶核酸中。锚定 也可以结合这种测序探针而使用,以提供进一步的稳定性和特异性。 将DNB加载到流动载玻片上以及加载后处理
[0146] 根据一个实施方式,将DNB制品加载入流动载玻片,如Drmanac等人,Science 327:78-81,2010中的描述。简略地,通过将DNB移液到载玻片上而加载载玻片。例如,可 以将比结合位点多2至3倍的DNB移液到载玻片上。在封闭室中将加载的载玻片在23°C下 保温培养2小时,冲洗到中性pH值,除去未结合的DNB。
[0147] 根据另一个实施方式,在将这种核酸分子加载到核酸阵列上之后,通过布置后处 理而使核酸分子在生物化学分析(包括但不限于核酸测序)期间对化学和物理降解是稳定 的。
[0148] 为了使布置的DNB在测序步骤期间对化学和物理降解是稳定的,可以在接触阵列 和连接到(即,加载到)阵列之前对DNB进行处理。根据一个实施方式,将DNB用一层部分 变性蛋白涂覆以提高DNB阵列的稳定性,这相应地提高从cPAL测序反应(下述)获得信号 的强度和特异性。各种蛋白质,包括但不限于血清白蛋白诸如牛血清白蛋白(BSA)和人血 清白蛋白,具有有助于检测中的保护作用和非干扰的性能,因此它们不与核酸发生强相互 作用而是不可逆地结合到阵列结合基质。这些性能取决于稳定涂层分子的一些理化性质, 包括带电性能(例如等电点)、分子量、与核酸非反应性和不能插入核酸。如果没有此涂层, 那么在cPAL测序步骤期间,在少于30次的探针循环中探针DNB信号强度的质量和特异性 会完全地降低。在具有此涂层的情况下,我们已使用DNB阵列达多于100次的循环并且通 常在70次循环中看到很少的降解或者没有降解。
[0149] 已观察到,如果在初始加载后直接地暴露于涂覆步骤,则阵列的单独DNB经历某 种程度的在表面上的铺展。在涂覆之前吹洗步骤和后继的导致DNB缩合的清洗步骤的加 入,减小铺展的量和相邻核酸分子之间的物理相互作用(例如,DNB的搀和),由此提高生物 化学分析(例如探测DNB或执行测序反应)中所生成数据的质量。因此,根据一个实施方 式,将核酸分子涂覆一层部分变性蛋白质以提高核酸分子阵列的稳定性,这相应地提高生 物化学分析(例如包含荧光染料的测序反应)中所产生信号的强度和特异性。
[0150] 尽管从以DNB形式的基因组DNA的测序的方面进行描述,但根据本发明的加载后 处理也可用于提高稳定性并且降低一系列生物分子的铺展,这些生物分子包括但不限于连 接到或结合到用于大范围生物化学反应的任意类型的固体载体的核酸(单链和双链DNA、 RNA等),所述生物化学反应包括例如核酸杂交、酶反应(例如,使用核酸内切酶[包括限制 性核酸内切酶]、核酸外切酶、激酶、磷酸酶、连接酶等)、核酸合成、核酸扩增(例如,通过聚 合酶链反应、滚环复制、全基因组扩增、多重置换扩增等)、和本领域中已知的任何其它形式 的生物化学分析。 锚宙前清洗
[0151]已发现某些试剂可以提高测序过程中的数据质量。具体地,根据一个实施方式,在 将核酸连接到固体基质的表面之后(包括但不限于,如本文中描述的DNB阵列)和在各循 环中或者在随后的循环中实施测序反应之前,或者在测序循环中的任何其它时间使用"锚 定前清洗液",这是包含有效量的弱酸或稀释酸或阳离子表面活性剂的水洗溶液。可以将在 后继的测序步骤中改善这种指标且不干扰酶反应的任何物质使用于锚定前清洗液。这种锚 定前清洗改善不一致性、可映射率和核酸测序反应的其它指标。尽管在本文中被称为"锚定 前清洗",但此清洗步骤可发生在测序循环的任何阶段,包括但不限于在除去试剂之后、在 锚定杂交或连接之后、在激酶前清洗之后、或者在激酶步骤之后。
[0152]对各种处理液进行测试以便减小从经过70次循环的cPAL测序反应中所获得数据 质量的下降,该数据是大约在循环30至40次时开始观察的。在标准测序方案中,在内部位 置之后对内部位置进行测序。本文中使用的术语"双cPAL"、术语"内部位置"是指与衔接 物紧邻的5个碱基;因此,可以利用锚定和探针对内部位置进行测序。术语"外部位置"是 指可以利用锚定、简并锚定(允许实施更远离衔接物的测序)和探针进行测序的后5个碱 基。
[0153]阳离子表面活性剂包括但不限于:苯扎氯按、节索氯按、Bronidox(5_溴-5-硝 基-1,3-二氧杂环己烷)、溴化十六烷基三甲铵(CTAB)、十六烷基三甲基氯化铵、二甲 基双十八烧基氯化按、月桂基甲基葡糖醇聚醚轻丙基二甲基氯化按(Laurylmethyl gluceth-lOhydroxypropyldimoniumchloride)、和四甲基氢氧化按。
[0154] 弱酸包括但不限于柠檬酸〇(3=1.7\10,、硝酸〇(3=4.6\10,、氢氟酸〇( 3 = 3.5\10_4)、甲酸〇^=1.8\10_4)、苯甲酸〇^=6.5\10_ 5)、醋酸〇^=1.8\10_5)等。柠 檬酸已证明在采用cPAL测序方法进行测序经过全部70次循环中有效地提高数据质量,虽 然酸性条件可以导致DNA模板的脱嘌呤作用(使用0. 25N盐酸的部分脱嘌呤作用通常被 用于印迹杂交(Sourthernblotting)以促进DNA转移)。除了弱酸外,可使用任何强度的 (即,可使用Ka)的稀酸。具有较高Ka值的酸,包括但不限于在低浓度下的强酸(例如,小 于5毫摩尔),也可有效地形成可以促进质量提高的低pH环境。
[0155]在实施例中描述的测试中,当使用于内部位置上时,发现锚定前清洗降低不一致 性超过40%且提高可映射率达5%,当使用于外部位置上时,锚定前清洗降低不一致性达 超过15 %且提高可映射率达超过2%。在这些实例中,锚定前清洗仅用于内部位置或者外 部位置,尽管它可以用于各循环中,也就是说同时用于内部位置和外部位置。根据一个实施 方式,将锚定前清洗用于所有的循环,但它可以用于亚组的循环,例如单独的内部位置或者 外部位置或者仅在所选数量的循环之后(用于内部位置、外部位置,或者两者),例如在10、 20、30、40、50或60次循环之后。
[0156] 酸或阳离子表面活性剂的有效量是降低不一致性或者提高可映射产率达可检测 水平的量。根据一个实施方式,锚定前清洗液包含一定量的酸或阳离子表面活性剂,与合适 的对照品相比在至少一个位置降低不一致性达5、10、15、20、25、30、35、或40%或更大,或 者在至少一个位置提高可映射率达0. 5、1. 0、1. 5、2、3、4或5%或更大,或者同时减小不一 致性且提高可映射率。 测序
[0157] 在一个方面,本发明提供用于鉴定DNB的序列的方法,通过采用利用连接进行测 序的方法。在一个方面,本发明提供采用组合探针-锚定连接(cPAL)方法的用于鉴定DNB 的序列的方法。通常,cPAL包括通过检测由于将锚定与测序探针连接所形成的探针连接产 物而鉴定在靶核酸中的检测位置的核苷酸。本发明的方法可以用于对DNB中所含有的靶核 酸的一部分或整个的序列以及代表一部分或全部的基因组的许多DNB进行测序。
[0158] 在一些方面,根据本发明的cPAL方法中的连接反应仅驱动到大约20%完成度。本 文中使用的"驱动到"特定水平的完成度是指DNB中的必须显现连接事件个体DNB或单体 的百分比。因为cPAL方法中的各碱基阅读是独立的事件,所以每个DNB的每个单体中的 每个碱基不必支持连接反应,从而能够在后续的杂交连接周期中阅读沿该序列的下一个碱 基。结果,本发明的cPAL方法要求显著较少量的试剂和时间,从而导致显著的成本降低和 效率提高。在一些实施方式中,将根据本发明的cPAL方法中的连接反应驱动至大约20%、 25%、30%、35%、40%、45%、50%、60%、70%、80%、90%或100%完成度。在其它实施方 式中,将根据本发明的cPAL方法中的连接反应驱动至大约10%至大约100%完成度。在其 它实施方式中,将根据本发明的连接反应驱动至大约20% -95%、30 % -90%、40 % -85%、 50 %-80 %和60 %-75 %完成度。在一些实施方式中,通过改变试剂浓度、温度、和允许进行 的反应时间的长度来影响反应的完成度百分比。在其它实施方式中,可以通过对来自cPAL 连接反应中的各DNB中获得的信号进行比较,并且将这些信号与来自直接杂交到DNB中的 衔接物的标记的探针的信号进行比较,而估计cPAL连接反应的完成度百分比。来自直接杂 交到衔接物的可标记探针的信号将会提供对具有可利用杂交位点的DNB的数量的估计,然 后可以将此信号用作对来自cPAL反应中的连接探针的信号进行比较以便确定连接反应的 完成度百分比的基线。在一些实施方式中,可以根据信息的最终用途来改变连接反应的完 成度,其中一些用途比其它用途需要更高水平的完成度。
[0159] 如本文中进一步的论述,每个DNB包括重复的单体单元,各单体单元包含一个或 多个衔接物和靶核酸。靶核酸包括多个检测位置。术语"检测位置"是指期望获得序列信 息的靶序列中的位置。正如本领域技术人员将理解的,通常一个靶序列具有用于获得序列 信息的多个检测位置,例如在全基因组的测序中,如本文中的描述。在一些情况下,例如在 SNP分析中,理想的是仅阅读在特定区域中的单个SNP。
[0160] 本发明提供应用锚定与测序探针的组合的测序方法。本文中使用的"测序探针" 表示被设计成提供在靶核酸特定检测位置的核苷酸的特性的寡核苷酸。杂交到在靶序列中 的结构域的测序探针,例如第一测序探针可杂交到第一靶结构域,并且第二测序探针可杂 交到第二靶结构域。本文中术语"第一靶结构域"和"第二靶结构域"或者语法等同物表示 正在检查中的核酸内部的靶序列的两个部分。第一靶结构域可以直接地与第二靶结构域相 邻,或者第一靶结构域与第二靶结构域可以由中间序列(例如衔接物)隔离。术语"第一" 和"第二"不表示给予相对于靶序列的5'-3'方向的序列的方向。例如,假设互补靶序列是 5' _3'方向,那么第一靶结构域可以位于第二结构域的5',或者位于第二结构域的3'。测序 探针可以重叠,例如第一测序探针可以杂交到与衔接物一个末端相邻的前6个碱基,第二 测序探针可以杂交到距离衔接物末端的第4-第9个碱基(例如当锚定具有3个简并碱基 时)。可替代地,第一测序探针可以杂交到与衔接物"上游"末端相邻的第6碱基,第二测序 探针可以杂交到与衔接物的"下游"末端相邻的第6碱基。
[0161]测序探针通常将包含一些简并碱基和在探针内部的特定位置的特定的核苷酸,用 于询问检测位置(本文中也被称为"询问位置")。
[0162] -般来说,当使用简并碱基时,使用测序探针的库。也就是说,具有序列"NNNANN" 的探针实际上是具有在5个位置处的4个核苷酸碱基(即,1024个序列)与在第6位置的 腺嘌呤核苷的所有可能组合的成组的探针。(如本文中所指出,此术语也适用于简并锚定: 例如当简并锚定具有"3个简并碱基"时,例如它实际上是包含与衔接物序列互补的序列外 加在3个位置处的所有可能组合的成组的寡核苷酸,因此它是64个探针的库)。
[0163] 在一些实施方式中,就各询问位置而言,可以将4个不同标记的库组合在单库中 并且使用于测序步骤中。因此,在任何的特定测序步骤中,使用4个库,各库具有在询问位 置的不同的特定碱基并且具有对应于在询问位置的碱基的不同标记。也就是说,也通常对 测序探针进行标记,使得在特定询问位置的特定核苷酸与具有在相同询问位置所具有的不 同核苷酸的测序探针的标记所不同的标记相结合。例如,在单个步骤中可以使用4个库: NNNANN-染料1、NNNTNN-染料2、NNNCNN-染料3和NNNGNN-染料4,只要这些染料是可光学 重构的。在一些实施方式中,例如就SNP检测而言,它仅必须包括2个库,因为SNP识别将是 C或A等。类似地,一些SNP具有三种可能性。可替代地,在一些实施方式中,如果反应是顺 序地而不是同时地进行的,那么可以使用相同的染料,仅在不同的步骤中:例如NNNANN-染 料1探针可以单独地用于反应,并且对信号进行检测或不进行检测,并且将探针清洗掉;然 后,可以导入第二库,NNNTNN-染料1。
[0164] 在本文中描述的任何测序方法中,测序探针可具有大范围的长度,包括大约3至 大约25个碱基。在其它实施方式中,测序探针可具有在大约5至大约20、大约6至大约18、 大约7至大约16、大约8至大约14、大约9至大约12、大约10至大约11个碱基的长度。
[0165] 本发明的测序探针被设计成与靶序列的序列是互补的并且一般来说是完全互补 的,以便本发明的一部分的靶序列与探针发生杂交。具体地,重要的是询问位置碱基与检测 位置碱基是完全互补的,并且本发明的方法不产生信号,除非这是真的。
[0166] 在许多实施方式中,测序探针与它们所杂交的靶序列是完全互补的;也就是说,正 如本领域中已知的,在有利于完全碱基配对形成的条件下进行这些实验。正如本领域技术 人员将理解的,与靶序列第一结构域是完全互补的测序探针可以仅与相同靶序列的第二结 构域是大致互补的;也就是说,在许多情况下本发明依赖于探针组的使用,例如六聚体的 组,该探针组与一些靶序列将是完全互补的而与其它靶序列是不完全互补的。
[0167] 在一些实施方式中,根据用途,测序探针与靶之间的互补性无需是完全的;可存在 任意数量的碱基对错配,这将干扰本发明的靶序列与单链核酸之间的杂交。然而,如果错配 的数量是如此之大以致不发生杂交甚至在最不严格的杂交条件下也不发生杂交,那么序列 不是互补的靶序列。因此,本文中的"大致互补的"表示测序在正常反应条件下探针与杂交 的靶序列是充分互补的。然而,就大部分的用途而言,将这些条件设定为仅当存在完全互补 性时有利于探针杂交。可替代地,需要充分的互补性以便允许发生连接酶反应;也就是说, 在序列的一些部分中可以存在错配,但只当在该位置发生完全互补性时询问位置碱基应当 允许连接。
[0168] 在一些情况下,除了或者代替在本发明的探针中使用简并碱基,可以使用杂交到 多于1个碱基的通用碱基。例如,可以使用肌苷。可以使用这些系统和探针组件的任意组 合。
[0169] 通常,可检测地标记本发明方法中所使用的测序探针。本文中的"标记"或"标记 的"表示化合物具有连接的至少一种元素、同位素或化合物从而能够对该化合物进行检测。 一般来说,本发明中使用的标记包括但不限于同位素标记(该同位素可以是放射性的或者 是重同位素)、磁性标记、电标记、热标记、着色和发光染料、以及酶和磁性颗粒。本发明中使 用的染料可以是发色基团、荧光粉或荧光染料,这些染料由于它们具有强信号因而提供良 好的用于解码的信-噪比。也可用量子点、荧光纳米珠或者包含多于一个分子的相同荧光 团的其他构建体,对测序探针进行标记。包含多个分子的相同荧光团的标记通常将提供较 强的信号并且与包含单个分子的荧光团的标记相比将对淬灭较不敏感。理当理解的是,本 文中对包含焚光团的标记的任何论述将适用于包含单个和多个焚光团分子的标记。
[0170] 本发明的许多实施方式包括荧光标记的使用。用于本发明的合适的染料包 括但不限于:荧光镧系元素(包括铕和铽)复合物、荧光素、罗丹明、四甲基罗丹明、 曙红、赤藓红、香豆素、甲基香豆素、花、孔雀石绿、芪、焚光黄、级联蓝?、德克萨斯红、 和RichardP.Haugland编著的第6版分子探针手册中描述的其它染料,该手册的全 部内容以参考的方式并入本文中用于所有目的,具体地用于有关于根据本发明所使用 标记的教导。用于结合入核酸的任何核苷酸的市售的荧光染料包括但不限于:Cy3、 Cy5(AmershamBiosciences,美国,新泽西州,皮斯卡塔韦)、焚光素、四甲基罗丹明、德克 萨斯红' 级联蓝ir、bodipy'^fl-ilbodtpyI、bodipy'k)tr-i4、罗丹明 绿TM、俄勒同绿? 488、BODIPY?630/650,BODIPY?650/665、AlexaFluor?488、 AlexaFluor? 532、AlexaFluor? 568、AlexaFlu〇r?:594、AlexaFlu〇r?: 546(Molecular Probes,Inc.,美国,俄勒闪州,尤金)、Quasar570、Quasar670、CalRed610(BioSearch Technologies,加利福尼亚州,诺瓦托)。可用于合成后连接的其它荧光团尤其包括: Alexa Fluor? 350、Alex£l Fluor? 532、Alexa Flu〇r?546、Alexa Fluor? 568、Alexa Fluor?, 594、AlexaFluor?647、B0DIPY493/503、B0DIPYFL、B0DIPYR6G、B0DIPY530/550、B0DIPY TMR、BODIPY558/568、B0DIPY558/568、B0DIPY564/570、B0DIPY576/589、B0DIPY581/591、 BODIPY630/650、B0DIPY650/665、级联蓝、级联黄、丹磺酰、丽丝胺罗丹明B、Marina蓝、 俄勒冈绿488、俄勒冈绿514、Pacific蓝、罗丹明6G、罗丹明绿、罗丹明红、四甲基罗丹明、 德克萨斯红(MolecularProbes,Inc.,美国,俄勒闪州,尤金),和Cy2、Cy3. 5、Cy5. 5、和 Cy7(AmershamBiosciences,美国新泽西州皮斯卡塔韦,和其它)。在一些实施方式中,本发 明方法中所使用的标记包括荧光素、Cy3、德克萨斯红、Cy5、Quasar570、Quasar670和Cal Red610。
[0171] 可以利用本领域中已知方法将标记连接到核酸以形成本发明的标记的测序探针, 并且连接到核苷的多种位置。例如,连接可以在核酸的任一末端和两个末端处,或者在内部 位置,或者两者。例如,标记的连接可以是在2'或3'位置(后者用于末端标记)的核糖-磷 酸酯骨架的核糖进行,在一个实施方式中利用酰胺键或胺键。连接也可利用核糖_磷酸酯 骨架的磷酸酯进行,或者连接到核苷酸的碱基。标记可以连接到探针的一端或两端或者连 接到沿探针长度的任何一个核苷酸。
[0172] 根据期望的询问位置,测序探针在结构上是不同的。例如,在用荧光团标记的测序 探针的情况下,各测序探针内部的单个位置将与用来进行标记的荧光团的特性相关。通常, 荧光团分子将连接到与用于连接到锚定的靶向末端相反的测序探针的末端。
[0173] 本文中使用的"锚定"表示被设计成与至少一部分衔接物是互补的寡核苷酸,在本 文中被称为"锚位点"。根据下文,"锚定"可起引物的作用,例如在利用合成的测序反应中, 其中利用聚合酶或其它酶将一个或多个核苷酸碱基添加到引物的末端。衔接物可以含有用 于与多个锚定进行杂交的多个锚位点,如本文中的描述。如本文中进一步的论述,用于本发 明的锚定可以被设计成杂交到衔接物,使得锚定的至少一端与衔接物的一个末端("上游" 或"下游"或者两者)平齐。在进一步的实施方式中,锚定可以被设计成杂交到至少一部分 的衔接物(第一衔接物位点)并且也具有与衔接物相邻的靶核酸的至少一个核苷酸("突 出端")。如图2中所示,锚定2402包含与一部分衔接物是互补的序列。锚定2402也包含 在1个末端处的4个简并碱基。此简并允许一部分的锚定群完全或部分地与衔接物相邻的 靶核酸的序列配对,并且允许锚定分子杂交到衔接物并进入与衔接物相邻的靶核酸,不论 与衔接物相邻的靶核酸的核苷酸的特性如何。这种将锚定的末端碱基移位入靶核酸将被识 别碱基的位置移位到更靠近连接点,因此允许保持连接酶的保真度(fidelity)。一般来说, 如果探针与它们所杂交的靶核酸的区域是完全互补的,则连接酶以较高的效率连接探针, 但连接酶的保真度随着与连接点距离的增加而降低。因此,为了最小化并且/或者防止由 于测序探针与靶核酸之间的错误配对所导致的错误,可以有用的是保持被检测核苷酸与测 序和锚定的连接点之间的距离。通过将锚定设计成进入靶核酸,而维持连接酶的保真度同 时仍然允许更大数量核苷酸与被鉴定的各衔接物是相邻的。尽管图2中图示说明的实施方 式是其中测序探针杂交到在靶核酸的衔接物的一侧的区域,但应当理解的是其中测序探针 杂交到衔接物另一侧的实施方式也包含在本发明中。在图2中,N"代表简并碱基,"B"代表 未确定序列的核苷酸。正如将理解的,在一些实施方式中,除了简并碱基外,也可使用通用 的喊基。
[0174] 本发明的锚定可包含允许锚定分子杂交到DNB、通常杂交到DNB的衔接物的任何 序列。这种锚定可包括序列,使得当把锚定分子杂交到衔接物时整个长度的锚定被包含在 衔接物中。在一些实施方式中,锚定可包含与至少一部分的衔接物是互补的并且也包含能 够杂交到与衔接物相邻的靶核酸区域的简并碱基的序列。在一些示例性实施方式中,锚定 是包含与衔接物互补的3个碱基和3个简并碱基的六聚体。在一些示例性实施方式中,锚 定是包含与衔接物互补的3个碱基和5个简并碱基的8单体单元。在进一步的示例性实施 方式中,具体地当使用多个锚定时,第一锚定包含与衔接物互补的在一端的一些碱基和在 另一端的简并碱基,而第二锚定包含所有的简并碱基并且被设计成连接到包含简并碱基的 第一锚定的末端。应当理解的是,这些是示例性实施方式,并且已知碱基与简并碱基的大范 围组合可以用于制作根据本发明所使用的锚定。
[0175] 本发明提供利用用于鉴定DNB的序列的连接方法而进行测序。在某些方面,利用 本发明的通过连接进行测序的方法包括提供锚定与测序探针的不同组合,测序探针当杂交 到DNB上的相邻区域可以被连接以形成探针连接产物。然后检测这些探针连接产物,这提 供靶核酸中的一个或多个核苷酸的特性。本文中使用的"连接"表示将2个或2个以上的 核苷酸彼此连接的任何方法。连接可以包括化学连接以及酶连接。一般来说,本文中论述 的利用连接进行测序的方法采用利用连接酶的酶连接。本发明的这种连接酶可以与用于形 成核酸模板的上述连接酶是相同或者不同的。这种连接酶包括但不限于DNA连接酶I、DNA 连接酶II、DNA连接酶III、DNA连接酶IV、大肠杆菌DNA连接酶、T4DNA连接酶、T4RNA连接 酶1、T4RNA连接酶2、17连接酶、T3DNA连接酶、和热稳定的连接酶(包括但不限于Taq连 接酶)等。如上所述,利用连接进行测序的方法经常依赖于连接酶的保真度,从而仅连接与 它们杂交的核酸是完全互补的探针。此保真度将随着在探针中特映射置的碱基与两个探针 间的连接点之间的距离增加而下降。因此,利用连接常规测序方法会受到可以确定的碱基 数量的限制。本发明提高可以通过使用多个探针库所确定碱基的数量,如本文中进一步的 描述。
[0176] 多种杂交条件可以用于测序的利用连接的测序方法以及本文中所描述的其它测 序方法。这些条件包括高、中等和低严格度条件;参见例如Maniatis等人,分子克隆:实验 室手册(MolecularCloning:ALaboratoryManual),第 2 版,1989,和分子生物学中的短 方案(ShortProtocolsinMolecularBiology),Ausubel等人编著,这些文献的内容以参 考的方式并入本文中。严格的条件是序列依赖性的,并且在不同情况下将是不同的。较长 的序列在较高的温度下特异性地杂交。核酸杂交的广泛指导可参见Tijssen的《杂交原理 和核酸检测策略的概述》(Overviewofprinciplesofhybridizationandthestrategy ofnucleicacidassays) (1993)中的"生物化学和分子生物学中的技术一使用核酸探 针的杂交(BiochemistryandMolecularBiology-HybridizationwithNucleicAcid Probes) "。通常,将严格的条件选择成在规定的离子强度和pH下比特定序列的热熔点(Tm) 低大约5-10°C。Tm是(在规定的离子强度、pH和核酸浓度下)对杂交到靶序列的靶是互 补的50%的探针处于平衡状态(当靶序列过量存在时,在Tm下,50%的探针处于平衡)的 温度。严格的条件可以是其中盐浓度小于大约1. 0M钠离子,通常大约0. 01至1. 0M的钠离 子浓度(或者其它的盐)在pH7. 0至8. 3下,并且针对短探针(例如10至50个核苷酸) 的温度为至少大约30°C和针对长探针(例如,大于50个核苷酸)的温度为至少大约60°C。 也可通过添加螺旋去稳定剂(例如甲酰胺)而实现严格的条件。当使用非离子骨架即PNA 时,杂交条件也可变化,正如本领域中已知的。另外,可在靶结合之后添加交联剂以将杂交 复合物的两条链交联(即共价连接)。
[0177] 尽管从本发明的核酸模板方面提供许多对测序方法的描述,但应当理解的是这些 测序方法还包括对由这种核酸模板所形成DNB中的序列进行鉴定,如本文所描述的。
[0178] 就使用本发明的核酸模板的本【技术领域】中已知的和本文中描述的任何测序方法 而言,本发明提供用于确定靶核酸中至少大约10至大约200个碱基的方法。在其它实施方 式中,本发明提供用于确定靶核酸中至少大约20至大约180、大约30至大约160、大约40 至大约140、大约50至大约120、大约60至大约100、以及大约70至大约80个碱基的方法。 在其它实施方式中,将测序方法用于鉴定在本发明的核酸模板中与各衔接物的一端和两端 相邻的至少5、10、15、20、25、30或更多的碱基。
[0179] 本文中描述和本领域中已知的任何测序方法可以用于在溶液中的本发明的核酸 模板和/或DNB或者用于被布置在表面上和/或阵列中的核酸模板和/或DNB。 单cPAL
[0180] 在一个方面,本发明提供通过使用测序与杂交到DNB的相邻区域并且连接(通常 是通过使用连接酶)的锚定的组合而鉴定DNB的序列的方法。这种方法通常在本文中被称 为cPAL(组合探针锚定连接)方法。在一个方面,本发明的cPAL方法形成包含单个锚定和 单个测序探针的探针连接产物。其中仅使用单个锚定的这种cPAL方法在本文中被称为"单 cPAL"。
[0181] 图1中示出了单cPAL的一种实施方式。DNB的单体单元2301包括靶核酸2309 和衔接物2308。锚定2302杂交到衔接物2308上的互补区域。在图1所示的实例中,锚定 2302杂交到与靶核酸2309紧邻的衔接物区,尽管如本文中的进一步的论述,锚定也可以被 设计成通过在锚定的末端结合入期望数量的简并碱基而进入与衔接物相邻的靶核酸。区别 标记的测序探针2306的库将杂交到靶核酸的互补区域。杂交到与锚定2302相邻区域的靶 核酸2309的测序探针2310将连接到锚定,从而形成探针连接产物。当探针的询问位置中的 碱基与靶核酸的检测位置中的未知碱基是互补时,提高杂交和连接的效率。此提高的效率 有利于将完全互补的测序探针连接到在错配测序探针上的锚定。如上所述,连接通常是通 过使用连接酶的酶法而完成的,但也可以采用根据本发明的其它连接方法。在图1中,"N" 代表简并碱基,"B"代表未确定序列的核苷酸。正如将理解的,在一些实施方式中,可使用 通用的碱基来代替简并碱基。
[0182] 亦如上所述,测序探针可以是代表在特映射置的各碱基型、并且用将各测序探针 与具有在该位置的其它核苷酸的测序探针加以区分的可检测标记进行标记的寡核苷酸。因 此,在图1中所示的实例中,与锚定2302相邻杂交并且连接到锚定的测序探针2310将在 靶核酸中的距离衔接物5碱基的位置处的碱基鉴定为"G"。多循环的锚定和测序探针杂交 和连接可以用于对在DNB中的各衔接物的各侧上的靶核酸的期望数量的碱基进行鉴定。
[0183] 正如将理解的,在本文中所描述的cPAL方法中的任何一种中,锚定与测序探针的 杂交可以是相继的或者同时的。
[0184] 在图1所示的实施方式中,测序探针2310杂交到衔接物的区域"上游",然而应当 理解的是测序探针可杂交到衔接物的"上游"或"下游"以便鉴定在衔接物两侧上的核酸中 的位置的核苷酸。这种实施方式允许从针对单cPAL方法的各杂交-连接-检测循环的各 衔接物中生成多个数据点。根据系统的方向,术语"上游"和"下游"是指衔接物的5'区和 3'区。一般来说,"上游"和"下游"是相对的术语,并非意图是限制性的;相反,它们是用于 便于理解。
[0185] 在一些实施方式中,单cPAL方法中使用的探针可具有对应于衔接物的大约3个至 大约20个碱基、和大约1至大约20个简并碱基(即,在锚定的库中)。这种锚定也可包含 通用的碱基、以及简并的碱基与通用的碱基的组合。
[0186] 在一些实施方式中,具有简并碱基的锚定相对于衔接物序列可具有大约1-5个错 配,以提高在简并碱基处的完全匹配杂交的稳定性。这种设计提供控制连接的锚定和测序 探针的稳定性从而有利于完全匹配到靶(未知的)序列的探针的另一种方法。在其它实施 方式中,在锚定的简并部分中的一些碱基可以用基本位点(即,不具有在糖上的碱基的位 点)或其它核苷酸类似物加以替换,以便影响杂交的探针的稳定性从而有利于在将与测序 探针参与到连接反应中的锚定的简并部分的远端的完全匹配杂交,如本文中的描述。这种 修饰可以例如在内部碱基处并入,尤其是用于包含大数量(即,大于5)简并碱基的锚定。另 夕卜,在锚定远端的部分简并碱基或通用碱基可以被设计成在杂交(例如,通过尿嘧啶的并 入)后是可切断的以便形成与测序探针或第二锚定的连接位点,如下面进一步的描述。
[0187]在其它实施方式中,可以通过反应条件的操控(例如杂交的严格度)来控制锚定 的杂交。在一个示例性实施方式中,锚定杂交步骤可开始于高严格度(较高的温度、较低的 盐、较高的pH值、较高浓度的甲酰胺等)的条件,并且这些条件可以逐渐地或逐步地放松。 这会要求连续的杂交循环,其中将不同库的锚定除去然后在后继的循环中添加。这种方法 提供较高百分比的被完全互补的锚定占据的靶核酸,尤其是在将被连接到测序探针的远端 的位置是完全互补的锚定。也可在各严格度条件下控制杂交时间,以获得更大数量的完全 匹配杂交。 双cPAL(和轺讨)
[0188]在其它实施方式中,本发明提供在每个杂交-连接周期中使用两个连接锚定的cPAL方法。参见例如美国专利申请序列No. 60/992, 485 ;No. 61/026, 337 ;No. 61/035, 914 和 No. 61/061,134,它们的全部内容以参考的方式并入本文中,特别是实施例和权利要求。图 3示出了"双cPAL"方法的实例,其中第一锚定2502和第二锚定2505杂交到衔接物的互补 区域;也就是说,第一锚定杂交到第一锚位点并且第二锚定杂交到第二衔接物位点。在图3 所示的实例中,第一锚定2502与衔接物2511的区域(第一锚位点)是完全互补的,第二锚 定2505与相邻于第一锚定的杂交位置(第二锚位点)的衔接物区是互补的。一般来说,第 一锚位点与第二锚位点是相邻的。
[0189]第二锚定也可任选地在不与第一锚定相邻的末端包含简并碱基使得它将杂交到 靶核酸2512与衔接物2511相邻的区域。这允许产生用于更加远离衔接物/靶界面的靶核 酸碱基的序列信息。此外,如本文中所概述,当探针被称为具有"简并碱基"时,它表示探针 实际上包含成组的探针,该探针具有在简并位置的序列的所有可能组合。例如,如果锚定长 度为9个碱基,其中6个是已知的碱基且3个是简并碱基,那么锚定实际上是64个探针的 库。
[0190]第二锚定通常过短以致难以单独地维持在其双链杂交状态,但当连接到第一锚定 时它形成较长的锚定,也就是说对于后继方法是稳定的。在一些实施方式中,第二锚定具有 对于衔接物是互补的大约1至大约5个碱基、和大约5至大约10个碱基的简并序列。如上 面在"单cPAL"方法中所述,将代表在靶核酸检测位置的各碱基型并且用将各测序探针与在 该位置具有其它核苷酸测序探针加以区分可检测标记进行标记的测序探针2508的库杂交 2509到衔接物-锚定双链并且连接到连接的锚定的末端5'或3'碱基。在图3中图示说明 的实例中,测序探针被设计成询问测序探针2514与连接锚定2513之间的连接点的5个位 置5'的碱基。因为第二锚定2505具有其5'端的5个简并碱基,所以它进入靶核酸2512 达5个碱基,从而允许用测序探针在距离靶核酸2512与衔接物2511之间的界面的完全10 个碱基处进行询问。在图3中,"N"代表简并碱基,"B"代表未确定序列的核苷酸。正如将 理解的,在一些实施方式中,可使用通用的碱基来代替简并碱基。
[0191] 在一些实施方式中,第二锚定可具有对应于衔接物的大约5-10个碱基、和通常是 简并的且对应于靶核酸的大约5-15个碱基。可以首先在最佳条件下将此第二锚定杂交,以 便有利于高百分比的靶在两个锚定之间的连接点附近的一些碱基处占据有完全匹配。可以 在单步骤中或者顺序地将第一锚定和/或测序探针杂交并且连接到第二简并锚定。在一些 实施方式中,第一锚定和第二锚定可在它们的连接点具有与衔接物不是互补的大约5至大 约50个互补碱基,由此形成"分枝"杂交。此设计允许杂交第二锚定的衔接物特异性稳定 化。在一些实施方式中,在第一锚的杂交之前将第二锚定连接到测序探针;在一些实施方式 中,在测序探针的杂交之前将第二锚定连接到第一锚定;在一些实施方式中,第一和第二锚 定和测序探针同时地杂交并且在第一锚定与第二锚定之间和在第二锚定与测序探针之间 同时或者基本上同时地发生连接,而在其它实施方式中第一锚定与第二锚定之间和第二锚 定与测序探针之间的连接是顺序地按任意顺序发生的。可以利用严格的清洗条件除去未连 接的探针(例如,利用温度、pH值、盐、含有最佳浓度甲酰胺的缓冲液,并且利用本领域已知 的方法来确定最佳条件和/或浓度)。这种方法尤其可以用于使用具有大量在锚定与靶核 酸之间的相应连接点的外部杂交的简并碱基的第二锚定的方法。
[0192] 在某些实施方式中,双cPAL方法采用两个锚定的连接,其中一个锚定与衔接物是 完全互补的,第二锚定是完全简并的(另外,实际上成库的探针)。图4示出了这种双cPAL 方法的实例,其中第一锚定2602杂交到DNB2601的衔接物2611。第二锚定2605是完全简 并的,因此能够杂交到靶核酸2612的与衔接物2611相邻的区域的未知核苷酸。第二锚定 被设计成过短以致难以单独维持在其双链杂交状态,但当连接到第一锚定时,较长连接锚 定构建体的形成提供cPAL过程的后继步骤所需的稳定性。在一些实施方式中,第二完全简 并的锚定的长度可以是大约5至大约20个碱基。就较长的长度(即,超过10个碱基)而 言,可以在杂交和连接条件中引入变更以降低简并锚定的有效Tm。较短的第二锚定通常将 非特异性地结合到靶核酸和衔接物,但其较短的长度将影响杂交动力学,因此一般来说仅 这些与衔接物相邻的区域是完全互补的第二锚定和第一锚定将具有稳定性从而允许连接 酶将第一锚定与第二锚定连接,从而产生较长的连接的锚定构建体。非特异性杂交的第二 锚定将不具有稳定性以便保持杂交到DNB足够长的时间以便随后连接到任何相邻杂交的 测序探针。在一些实施方式中,在第二锚定与第一锚定的连接之后,通常利用清洗步骤将任 何未连接的锚定除去。在图4中,"N"代表简并碱基,"B"代表未确定序列的核苷酸。正如 将理解的,在一些实施方式中,可使用通用的碱基来代替简并碱基。
[0193] 在其它示例性实施方式中,第一锚定将是包含与衔接物是互补的3个碱基和3个 简并碱基的六聚体,而第二锚定仅包含简并碱基并且第一和第二锚定被设计成使得仅具有 简并碱基的第一锚定的末端将连接到第二锚定。在其它示例性实施方式中,第一锚定是包 含与衔接物是互补的3个碱基的和5个简并碱基的8单体单元,再次第一和第二锚定被设 计成使得具有简并碱基的第一锚定的仅末端将连接到第二锚定。应当理解的是,这些是示 例性的实施方式并且已知碱基与简并碱基的大范围组合可以用于第一和第二(在一些实 施方式中是第三和/或第四)锚定两者的设计。
[0194] 在双cPAL方法的上述实例的变体中,如果第一锚定终止于更靠近衔接物末端的 位置,则第二锚定将成比例地更加简并,因此将具有更大可能性不仅连接到第一锚定的末 端而且也连接到在DNB上的多个位点处的其它第二锚定。为了防止这种连接假象,可以选 择性地将第二锚定活化以便参与连接到第一锚定或者连接到测序探针。这种活化包括选择 性地修饰锚定的末端,使得它们能够在相对于衔接物的特定方向上仅连接到特定锚定或测 序探针。例如,可将5'和3'磷酸基引入第二锚定,因此修饰的第二锚定将能够连接到杂交 到衔接物的第一锚定的3'端,但两个第二锚定将不能彼此连接(因为3'端被磷酸化,由 此将会防止酶连接)。一旦将第一锚定与第二锚定连接,可以通过除去3'磷酸基而将第二 锚定的3'端活化(例如T4多核苷酸激酶或磷酸酶,诸如虾碱性磷酸酶和小牛肠碱性磷酸 酶)。
[0195] 如果期望在第二锚定的3'端与第一锚定的5'端之间发生连接,则第一锚定可以 被设计和/或修饰成在其5'端被磷酸化,且第二锚定可以被设计和/或修饰成不具有5' 或3'磷酸化修饰。此外,第二锚定将能够连接到第一锚定,但不连接到其它第二锚定。在 第一锚定与第二锚定的连接之后,可以在第二锚定的自由末端形成5'磷酸基(例如,通过 使用T4多核苷酸激酶)从而使它在cPAL步骤的后继步骤中能够连接到测序探针。
[0196] 在一些实施方式中,将两个锚定同时地施加到DNB。在一些实施方式中,顺序地将 两个锚定施加到DNB,从而允许一个锚定在另一个锚定之前杂交到DNB。在一些实施方式 中,在将第二衔接物连接到测序探针之前,将这两个锚定彼此连接。在一些实施方式中,在 单步骤中将锚定与测序探针连接。在其中在单个步骤中将两个锚定和测序探针连接的实 施方式中,第二衔接物可以被设计成具有足够的稳定性以保持其位置直到所有的3个探针 (两个锚定和测序探针)位于用于连接的位置。例如,可以使用含与衔接物互补的5个碱基 和用于杂交到靶核酸的与衔接物相邻的区域的5个简并碱基的第二锚定。这种第二锚定可 具有充分的稳定性以便用低严格度的清洗而维持,因此在第二锚定的杂交与测序探针的杂 交的步骤之间连接步骤将不是必需的。在后继的将测序探针连接到第二锚定中,第二锚定 也将会连接到第一锚定,从而在任何的单独锚定或测序探针上方形成稳定性提高的双链。
[0197] 类似于上述的双cPAL方法,应当理解的是具有三个或三个以上锚定的cPAL也包 含在本发明中。可以根据本文中描述和本领域中已知的的方法来设计这种锚定,以便杂交 到衔接物的区域,从而使得锚定中的一个的一个末端可用于连接到与末端锚定相邻杂交的 测序探针。在一个示例性实施方式中,提供三个锚定,2个锚定与衔接物中的不同序列是互 补的并且第三个锚定包含杂交到靶核酸中的序列的简并碱基。在另一个实施方式中,与衔 接物中的序列是互补的两个锚定中的一个也可包含在末端上的一个或多个简并碱基,从而 允许该锚定进入靶核酸以便与第三锚定连接。在其它实施方式中,锚定中的一个与衔接物 可以是完全或部分地互补的,第二和第三锚定将是完全简并的以便杂交到靶核酸。在其它 实施方式中,可以将4个或更多的完全简并锚定顺序地连接到3个连接的锚定,以实现阅读 进一步延伸入靶核酸序列。在一个示例性实施方式中,包含与衔接物互补的12个碱基的第 一锚定可以与第二六聚体锚定连接,第二六聚体中所有的6个碱基是简并的。第三锚定,也 是完全简并的六聚体,也可以连接到第二锚定从而进一步延伸入靶核酸的未知序列。也可 添加第四、第五、第六等锚定以便甚至进一步延伸入未知的序列。在其它实施方式中并且根 据本文中描述的cPAL方法中的任何一种,一个或多个的锚定可包含一个或多个标记,该标 记是用于"标记"锚定并且/或者鉴定杂交到DNB的衔接物的特定锚定。 检侧丨W光记白勺侧丨序针
[0198] 如上所述,根据本发明所使用的测序探针可以用种类广泛的标记可检测地进行标 记。尽管下面的描述主要涉及其中用荧光团将测序探针进行标记的实施方式,但应当理解 的是采用包含其它类型标记的测序探针的类似实施方式也包含在本发明中。
[0199]多次循环的cPAL(不论是单、双、三等)将鉴定在靶核酸的与衔接物相邻的区域中 的多个碱基。简言之,利用循环锚定杂交以及与被设计成在不同的位置检测从衔接物与靶 核酸之间的界面除去的核苷酸的测序探针库的酶连接反应重复cPAL方法用于对靶核酸中 的多个碱基进行询问。在任何给定的循环中,所使用的测序探针被设计成使得在一个或多 个位置的一个或多个碱基的特性与连接到该测序探针的标记的特性相关。一旦连接的测序 探针被检测(因此在询问位置的碱基被检测),将连接的复合物从DNB中除去并且执行衔接 物和测序探针杂交和连接的新循环。
[0200] 一般来说,通常利用四个荧光团来鉴定在测序探针中的询问位置的碱基,并且在 每个杂交-连接-检测循环中询问单个碱基。然而,正如将理解的,使用8、16、20和24个 或更多个荧光团的实施方式也包含在本发明中。增加荧光团的数量增加可以在任一次循环 期间中所确定碱基的数量。
[0201] 在一个示例性实施方式中,采用具有以下结构的一组7单体单元的测序探针库: 3' -Fl-NNNNNNAp 3' -F2-NNNNNNGp3' -F3-NNNNNNCp 3' -F4-NNNN剛Tp
[0202] "p"代表用于连接的磷酸酯,"N"代表简并碱基。F1-F4代表四个不同的荧光团, 因此各荧光团与特定的碱基相关。此示例性组的探针将会允许当把把测序探针连接到杂交 到衔接物的锚定时对与衔接物近邻的碱基进行检测。因此,将测序探针连接到锚定的连接 酶区别在探针询问位置的碱基与在靶核酸检测位置的碱基之间的互补性,当测序探针的杂 交和连接提供在靶核酸检测位置的碱基的特性时将会对荧光信号进行检测。
[0203] 在一些实施方式中,一组测序探针将包含3个区别标记的测序探针,其中第4可选 的测序探针仍然是未标记的。
[0204] 在实施杂交-连接-检测循环之后,将锚定-测序探针连接产物除去并且开始新 的循环。在一些实施方式中,可以获得6个碱基或更多来自锚定与测序探针之间的连接点、 和12个碱基或更多的来自靶核酸与衔接物之间的界面的准确序列信息。可以利用本文中 描述的方法来提高可以确定的碱基数量,所述方法包括具有能够进一步进入靶核酸的简并 端的锚定的使用。
[0205] 可以实施利用本领域中已知的方法图像采集,包括商业成像软件包诸如 Metamorph(MolecularDevices,Sunnyvale,CA)的使用。可以利用用例如C/C++编写的一 系列二进制数据来实施数据抽取,并且可以利用一系列的Matlab和Perlscripts来实施 碱基识别和阅读映射。
[0206] 在一个示例性实施方式中,布置在表面上的DNB经历如本文中描述的cPAL的循 环,其中用4个不同的荧光团(各自对应于在探针内部询问位置的特定碱基)对所使用的 测序探针进行标记。为了确定布置在表面上的各DNB的碱基的特性,用对应于4个荧光标 记的测序探针的4个不同波长对各视野("框架")进行成像。将来自各循环的所有图像保 存在循环目录中,其中图像的数量是框架四倍的数量(当使用四个荧光团时)。然后,可以 将循环图像数据保存入用于下游处理的目录结构。
[0207] 在一些实施方式中,数据抽取将依赖于两种类型的图像数据:区分表面上的所有 DNB位置的亮场图像、和在各测序循环中所需的各组荧光图像。数据抽取软件可以用于鉴定 亮场图像中所有物体然后用于每个这种物体,可以利用该软件计算各测序循环的平均荧光 值。就任何给定的循环而言,存在四个数据点,对应于在不同波长处获取的4个图像,用于 询问该碱基是否是A、G、C或T。这些原始数据点(本文中也被称为"碱基识别")是经过处 理的,获得各DNB的不连续的测序阅读。
[0208] 然后,可以装配该成群的确定的碱基,以便提供用于靶核酸的序列信息和/或鉴 定靶核酸中特定序列的存在。在一些实施方式中,通过从在多个DNB中实施的多个测序循 环中获得的重叠的序列联配将确定的碱基装配入完整序列。本文中使用的术语"完整序列" 是指部分或全基因组的序列以及部分或全靶核酸。在其它实施方式中,装配方法应用可以 用于"拼凑"重叠的序列的算法以便提供完整序列。在其它实施方式中,参考表是用于帮助 将确定的序列装配入完整序列。可以利用所选择生物体中的现有测序数据来编辑参考表。 例如,可以利用在ftp. ncbi. nih. gov/refseq/release的国家生物技术信息中心、或者通 过在http ://www. jcvi. org/researchhuref/中的J. Craig Venter研宄所访问人基因组数 据。所有或亚组的人基因组信息可以用于形成用于特定的测序询问的参考表。另外,可以 由从特定群中获得的经验数据来建立特定的参考表,包括来自具有特定种族、地理继承、宗 教或文化规定的群的人的基因序列,根据包含在其中的信息的来源人基因组中差异可使参 考数据产生偏差。
[0209] 在任何的本文中描述的本发明实施方式中,成群的核酸模板和/或DNB可包含一 些靶核酸,以便大致地覆盖全基因组或者全靶多核苷酸。本文中使用的"基本上覆盖"表示 被分析的核苷酸(即,靶序列)的量,含有1当量的靶多核苷酸的至少2个拷贝,或者在另一 方面,至少10个拷贝,或者在另一个方面,至少12个拷贝,或者在另一方面,至少100拷贝。 靶多核苷酸可包含DNA片段,包括基因组DNA片段和cDNA片段、和RNA片段。用于重新构 建靶多核苷酸序列的步骤的指导可以在以下的参考文献中看到,这些参考文献的内容以参 考的方式并入本文中:Lander等人,基因组(Genomics),2:231_239(1988) ;Vingron等人, J.Mol.Biol. ,235:1-12(1994)等。 探针的组
[0210] 正如将理解的,可以根据上述各种cPAL方法使用不同组合的测序与锚定。下面对 使用于本发明的各组探针(本文中也被称为"探针的库")的描述是示例性的实施方式,应 当理解的是本发明并不局限于这些组合。
[0211] 在一个方面,探针的组被设计成用于在距离衔接物特定距离的位置处鉴定核苷 酸。例如,某些组的探针可以用于在远离衔接物的碱基多达3、4、5、6、7、8、9、10、11、12、13、 14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30 和更多的位置处进行鉴定。如上 所述,具有在一个末端的简并碱基的锚定可以被设计成进入与衔接物相邻的靶核酸,从而 允许测序探针连接从而进一步远离衔接物,因此提供进一步远离衔接物的碱基的特性。
[0212] 在一个示例性实施方式中,成组的探针包含被设计成杂交到衔接物的相邻区域的 至少两个锚定。在一个实施方式中,第一锚定与衔接物的区域是完全互补的,同时第二锚 定与衔接物的相邻区域是互补的。在一些实施方式中,第二锚定将包含一个或多个简并核 苷酸,该简并核苷酸延伸入并杂交到与衔接物相邻的靶核酸的核苷酸。在一个示例性实施 方式中,第二锚定包含至少1-10个简并碱基。在另一个示例性实施方式中,第二锚定包含 2-9、3-8、4-7、和5-6个简并碱基。在再一个示例性实施方式中,第二锚定包含在一个或两 个末端处和/或在其序列的内部区域中的一个或多个简并碱基。
[0213] 在另一个实施方式中,成组探针也将包含用于在一个或多个检测位置中用靶核酸 确定碱基的一组或多组的测序探针。在一个实施方式中,该组包含足够的不同组的测序探 针,用于鉴定靶核酸中的大约1至大约20个位置。在另一个示例性实施方式中,该组包含 足够组的测序探针,用于鉴定靶核酸中的大约2至大约18、大约3至大约16、大约4至大约 14、 大约5至大约12、大约6至大约10、和大约7至大约8个位置。
[0214] 在其它示例性实施方式中,根据本发明将使用10个库的标记或标记的探针。在其 它实施方式中,探针的组将包含具有不同序列的2个或2个以上的锚定。在其它实施方式 中,探针的组将包含3、4、5、6、7、8、9、10、11、12、13、14、15或更多的具有不同序列的锚定。
[0215] 在又一个示例性实施方式中,提供包含一组或多组的测序探针和三个锚定的成组 探针。第一锚定与衔接物的第一区是互补的,第二锚定与衔接物的第二区域是互补的,并且 第二区域与第一区彼此是相邻的。第三锚定包含三个或三个以上的简并核苷酸并且能够杂 交到与衔接物相邻的靶核酸中的核苷酸。在一些实施方式中,第三锚定也可与衔接物的第 三区域是互补的,并且第三区域可与第二区域相邻,使得第二锚映射于第一和第三锚定的 侧面。
[0216] 在一些实施方式中,成组锚定和/或测序探针将包含可变浓度的各类型探针,并 且可变浓度可部分地取决于可以是包含在锚定中的简并碱基。例如,将具有较低的杂交稳 定性的探针,诸如具有较大的A的数量和/或T的数量的探针,可以以较高的相对浓度而存 在,这作为抵消它们的较低稳定性的方法。在其它实施方式中,通过独立地制备较小的探针 的库,然后独立地将它们混合而以适当的量产生探针的库而建立相对浓度中的这些差异。 连接反应的特异件和保直度的提高
[0217] 在一些方面,本发明cPAL方法中所采用的连接反应被修饰成包含用于提高相邻 地杂交到靶核酸的两个核酸的连接的保真度的元件。在一些实施方式中,这种方法包括添 加优先地提高双链核酸的稳定性的物质,通常通过优先地结合到双链核酸("双链结合基 团")。在一些实施方式中,使用嵌入剂并且添加到连接反应混合物中。本文中使用的"嵌 入剂"或者"嵌入物"是指能够在核酸双链中的相邻碱基对之间插入的物质,例如相比单链 核酸优先地结合到双链核酸的物质。类似地,正如本领域技术人员将会理解的,也可以使用 小沟和大沟结合基团。
[0218] 在具体方面,嵌入剂包括但不限于:溴化乙锭、二氢乙啶、乙锭均二聚物-1、乙 锭均二聚物-2、叮啶、碘化丙啶、YOYO-1或TOTO-1、原黄素、柔红霉素、阿霉素、POPO-1、 POPO-3、BOBO-1、BOBO-3、Psoralen、放线菌素D、SYBR绿或者沙利度胺(thalidomide),并 且可以是荧光或者非荧光的。在一个具体方面,嵌入剂是溴化乙锭。本发明中使用的溴化 乙锭的优选范围包括从0.lng/y1至大约20.Ong/y1、更优选地从大约2. 5ng/y1至大约 15. Ong/y1、甚至更优选地从大约5.Ong/y1至大约10.Ong/y1。
[0219] 在另一个实施方式中,本发明提供一种用于确定在靶核酸中的位置的碱基的特性 的方法,该方法包括:提供包含靶核酸和至少一个衔接物的文库构建体,其中靶核酸具有 被询问的位置;将锚定分子杂交到在文库构建体中的衔接物;将测序探针的库杂交到靶核 酸;在双链结合基团(诸如嵌入剂)存在下将测序探针连接到锚定,其中与靶核酸是互补的 测序探针将高效率地连接到锚定;并且确定哪个测序探针被连接到锚定从而确定靶核酸的 序列。在具体的方面,在序列确定之前将未连接的测序探针丢弃。在一个优选的方面,重复 这些步骤直到期望数量的碱基已被确定。
[0220] 在又一个实施方式中,本发明提供一种用于合成核酸文库构建体的方法,其包括: 获得靶核酸;将第一衔接物连接到靶核酸以制作第一文库构建体,其中第一衔接物包含用 于在衔接物中结合但在靶核酸中切断的酶的限制性核酸内切酶识别位点;扩增第一文库构 建体;将第一文库构建体圆形化;用识别限制性核酸内切酶识别位点第一衔接物的限制性 核酸内切酶消化文库构建体;以及将第二衔接物连接到文库构建体以制作第二文库构建 体,其中这些步骤的一个或多个步骤包含在反应混合物中的嵌入剂。在一个具体方面,可以 重复这些步骤直到期望数量的散在衔接物已连接到靶核酸。
[0221] 在再一个实施方式中,本发明提供一种用于增加组合的聚合酶反应与连接反应的 选择性的方法,其包括:将核酸杂交到引物;通过用聚合酶使延伸引物以形成引物延伸产 物,并且将延伸的引物产物的一端连接到双链核酸而对所述的杂交的核酸执行延伸反应, 其中在嵌入剂存在下实施延伸反应和连接反应。在一个具体方面,引物延伸产物所连接的 双链核酸是延伸的引物产物的相反端。在其它方面,将引物延伸产物连接到单独的核酸。在 一个具体方面,分离的核酸是衔接物。这种方法可用于制造核酸文库,如上所述。
[0222] 如本文中更详细的描述,在一些实施方式中,将布置的靶与锚定杂交,接着清洗并 丢弃掉过量的锚定。然后,将阵列与T4DNA连接酶和在3'端或者5'端标记的9个单体单 元荧光测序探针的混合物进行杂交。9个单体单元测序探针在T4连接酶的存在下参与和 锚定寡核苷酸连接,从而形成稳定杂交以及以序列特异性方式形成荧光团与锚定和靶核酸 的缔合。任选地包含在这种连接反应中的是双链的结合基团,诸如溴化乙锭,其可以以变化 的浓度而存在,包括大约lng/ul至lOng/ul的浓度。替代的嵌入剂包括但不限于:二氢乙 啶、乙锭均二聚物-1、乙锭均二聚物-2、吖啶、碘化丙啶、Y0Y0-1或T0T0-1、原黄素、柔红霉 素、阿霉素、和沙利度胺。
[0223] 信号强度受到存在于反应物中的嵌入剂的浓度的影响。例如,将连接反应中的溴 化乙锭浓度从lng/ul增加到lOng/ul导致全部4个荧光探针总信号强度的降低。信号强 度的降低可反应溴化乙锭对双链DNA的去稳定化的作用并且提示用于提高色纯度的机制。 当向双链施加去稳定化力时,错配的加入具有产生比将错配添加到非去稳定化双链中更大 的去稳定化的作用。降低的信号强度自身不是不利的,并且可以用测量仪器的适当的敏感 性加以补偿。 其灾测序方法
[0224] 在一个方面,本发明的方法和组合物结合使用,例如W02007120208, W02006073504、TO2007133831 和US2007099208,以及美国专利申请 60/992,485 ; 61/026,337 ;61/035,914 ;61/061, 134 ;61/116, 193 ;61/102,586 ; 12/265,593 ; 12/266, 385 ; 11/938, 096 ; 11/981, 804 ;11/981, 797 ;11/981, 793 ;11/981, 767 ; 11/981,761 ; 11/981,730 ; 11/981,685 ; 11/981,661 ; 11/981,607 ; 11/981,605 ; 11/927, 388 ;11/927, 356 ;11/679, 124 ;11/541,225 ;10/547, 214 ;11/451,692;和 11/451,691中所描述的技术,以上所有专利文件的全部内容以参考的方式并入本文中用于 所有目的,并且具体地用于与测序有关的所有揭示,尤其是多联体的测序。
[0225] 在另一个方面,利用本领域中已知的测序方法鉴定DNB的序列,包括但不限 于基于杂交的方法,例如诸如公开于Drmanac的美国专利6, 864, 052 ;6, 309, 824 ;和 6, 401,267 ;和Drmanac等人的美国专利公开2005/0191656,和利用合成的测序方法, 例如Nyren等人的美国专利6, 210,891 ;Ronaghi的美国专利6,828, 100 ;Ronaghi等人 (1998),Science,281:363-365;Balasubramanian的美国专利 6, 833, 246;Quake的美国专 利 6, 911,345;Li等人,Proc.Natl.Acad.Sci.,100 :414-419(2003);Smith等人的PCT公 布TO2006/074351;Bowers等人,Nat.Methods6:593-595(2009);和Thompson等人,Curr. Protoc.Mol.Biol.,第 7 章:Unit7. 10 (2010);和基于连接的方法,例如Shendure等人 (2005),Science, 309:1728-1739,和Macevicz的美国专利 6, 306, 597 ;其中这些参考文献 的全部内容以参考的方式并入本文中用于所有目的,并且尤其是关于描述组合物、使用该 组合物的方法和制造该组合物的方法的图示、图例和附属文本的教导,尤其是有关于测序 的教导。
[0226] 在一些实施方式中,将本发明的核酸模板、以及由这些模版产生的DNB用于利用 合成的测序方法。与不包括多个散在衔接物的常规的使用核酸的利用合成的测序方法相 比,利用使用本发明核酸模板的利用合成测序的方法的效率得到提高。不是单个长阅读,本 发明的核酸模板允许各自在模板中的一个衔接物处开始的多个短阅读。这种短阅读消耗较 少的标记的dNTP,因此节约试剂的成本。另外,可以在DNB阵列上实施利用合成反应的测 序,提供高密度的测序靶以及多个拷贝的单体单元。这种阵列以单个分子水平提供可检测 信号,同时提供增加量的序列信息,因为大部分或所有的DNB单体单元将在不损失测序相 的情况下被延伸。在一些实施方式中高密度的阵列也降低试剂成本,与常规的利用合成的 测序方法相比试剂成本的降低可以为大约30至大约40 %。在一些实施方式中,本发明的核 酸模板的散在的衔接物提供一种将大约2至大约10个标准的阅读组合的方法,如果在彼此 相距大约30至大约100个碱基的距离处插入。在这种实施方式中,新合成的链将无需除去 用于进一步的测序循环,因此允许在利用合成循环进行大约100至大约400次的测序中使 用单个DNB阵列。
[0227] 在本发明的一些实施方式中,将未链接的cPAL测序方法扩展以包括使用测序探 针的2个或2个以上的连接事件。例如,在检测到包含连接到含有一个或多个锚定的构建 体的第一测序探针的第一连接产物之后,可以在第一连接产物相邻的位置将第二测序探针 杂交到核酸靶并且连接到第一测序探针。然后,可以对第二测序探针进行检测。正如将会 理解的,多个测序探针可经历这种杂交-连接循环。然后可以将所得连接产物从靶中除去 并且可以执行如本文中描述的另一回合的cPAL测序。在这种实施方式中,将未链接的cPAL 测序方法部分地与使用一个或多个额外的测序探针的链接方法组合。正如将理解的,可以 利用本【技术领域】中已知的方法检测各新测序探针。例如,如果用荧光团标记测序探针,在检 测各连接的测序探针之后,可以将附接的荧光团切断,从而允许第二测序探针添加到被检 测的"链"中并且没有来自在第一测序探针上的标记的干扰。 两相测丨序
[0228] 在一个方面,本发明提供用于"两相"测序的方法,该测序在本文中也被称为"鸟枪 法测序"。这种方法描述于2008年12月1日提交的美国专利申请12/325, 922中,该专利 申请的全部内容以参考的方式并入本文中用于所有目的,尤其是用于与两相或鸟枪法测序 相关的所有教导。
[0229] 通常,本发明中采用的两相测序方法包括以下步骤:(a)对靶核酸进行测序以形 成包含一个或多个感兴趣序列的初级靶核酸序列;(b)合成多个靶特异性寡核苷酸,其中 所述多个靶特异性寡核苷酸中的每个对应于感兴趣序列中的至少一个;(c)提供杂交到多 个靶特异性寡核苷酸靶核酸的片段的文库(或者包含还可包含例如衔接物和其它序列的 这种片段的构建体,如本文中的描述);和(d)对片段的文库(或者包含这种片段的构建 体)进行测序以便形成次极靶核酸序列。为了封闭由于缺失的序列所造成的空缺或者解决 低基因组DNA的初级序列中的可信度碱基识别,诸如人基因组DNA,用于这些方法被合成的 靶特异性寡核苷酸的数量可以是大约1万至大约1百万;因此本发明预期至少大约10, 〇〇〇 个靶特异性寡核苷酸、或者大约25, 000、或者大约50, 000、或者大约100, 000、或者大约 20, 000、或者大约50, 000、或者大约100, 000、或者大约200, 000或200, 000以上的使用。
[0230] 说到多个靶特异性寡核苷酸"对应于"感兴趣序列中的至少一个,它表示这种靶特 异性寡核苷酸被设计成杂交到与(包括但不限于)感兴趣的序列接近的相邻的靶核酸,使 得杂交到这种寡核苷酸的靶核酸的片段将包括感兴趣的序列存在较高可能性。因此,可将 这种靶特异性寡核苷酸用于杂交捕获性方法,以形成富含这种感兴趣序列的片段的文库, 作为对感兴趣序列进行测序的测序引物,作为用于扩增感兴趣序列的扩增引物,或者为了 其它目的。
[0231] 在根据本发明的鸟枪法测序和其它测序方法中,在测序阅读的装配之后,本领域 技术人员将了解装配的序列存在空缺或者一个或多个碱基或在序列中特位点的碱基伸展 中存在低可信度。感兴趣的序列,可包括这种空缺、低可信度序列,或者简单地在特映射置 的不同序列(即,靶序列中的一个或多个核苷酸的变化),也可以通过将初级靶核酸序列与 参考序列进行比较而确定。
[0232] 根据这种方法的一个实施方式,对靶核酸进行测序以形成包含序列阅读的计算输 入和序列阅读的计算装配的初级靶核酸序列从而形成初级靶核酸序列。另外,可以计算靶 特异性寡核苷酸的设计,并且可以将靶特异性寡核苷酸的这种计算的合成与序列阅读的计 算的输入和装配以及靶特异性寡核苷酸设计相结合。这是特别有用的,因为被合成的靶特 异性寡核苷酸的数量例如可以是高级生物体诸如人的基因组的数万个或数十万个。因此, 本发明提供由确定序列形成寡核苷酸库与用于进一步处理的确定的区域的步骤的自动化 集成。在一些实施方式中,计算机驱动程序使用靠近或者与这种确定的区域相邻的确定的 区域和确定的序列来设计寡核苷酸以便分离并且/或者形成覆盖这些区域的新片段。然 后,可以如本文中的描述将寡核苷酸用于从第一测序文库或者从第一测序文库的前体中分 离片段,或者从由相同的靶核酸形成相同的测序文库中分离片段,或者直接地从靶核酸中 分离片段,等。在其它实施方式中,此自动化集成的进一步分析鉴定区域和分离/形成第二 文库限定寡核苷酸库中的寡核苷酸的序列的并且指导这些寡核苷酸的合成。
[0233] 在本发明的两相测序方法的一些实施方式中,在杂交捕获步骤后执行释放步骤, 在该技术的其它方面,在第二测序步骤之前执行扩增步骤。
[0234] 在其它实施方式中,在鉴定步骤中通过将确定的序列与参考序列进行比较而确定 部分或全部的区域。在一些方面,基于参考序列利用包含寡核苷酸的寡核苷酸的库将第二 鸟枪法测序文库分离。另外,在一些方面,寡核苷酸的库包含至少1000个不同序列的寡核 苷酸,在其它方面,寡核苷酸的库包含至少10, 〇〇〇、25, 000、50, 000、75, 000或100, 000或更 多的不同序列的寡核苷酸。
[0235] 在本发明的一些方面,此两相测序方法中使用的测序步骤中的一个或多个通过利 用连接的测序来实施,并且在其它方面,通过利用杂交的测序或者利用合成的测序来执行 测序步骤中的一个或多个。
[0236] 在本发明的某些方面,确定在大约1至大约30%之间的靶核酸复合物要被执行方 法的PhaseII中的重新测序,并且在其它方面,确定在大约1至大约10%之间的靶核酸复 合物要被执行方法的PhaseII中的重新测序。在一些方面,确定的靶核酸复合物的覆盖率 是在大约25x至大约100x之间。
[0237] 在其它方面,确定和合成用于在方法的PhaseII中重新测序的各靶核酸区域的1 至大约10个祀特异性选择寡核苷酸;在其它方面,确认用于在方法的PhaseII中的重新测 序的各靶核酸区域的大约3至大约6个靶特异性选择寡核苷酸,以便执行。
[0238] 在该技术的其它方面,利用自动化步骤确认并合成靶特异性选择寡核苷酸,其中 鉴定核酸复合物缺失核酸序列或者具有低可信度核酸序列的区域和鉴定用于特异性选择 寡核苷酸的序列的步骤与寡核苷酸合成软件和硬件相互通信从而合成靶特异性选择寡核 苷酸。在该技术的其它方面,靶特异性选择寡核苷酸的长度是在大约20和大约30个碱基 之间,并且在一些方面是未修饰的。
[0239] 不是所有确定进一步分析的区域可以实际上存在于靶核酸复合物中。在预测区 域中缺乏覆盖率的一个原因可以是预计在靶核酸复合物中的区域实际上可以是不存在的 (例如,可以被删除或者重新布置在靶核酸中的区域),因此并非所有的由库所形成的寡核 苷酸可将包含在第二鸟枪法测序文库中的片段加以分离。在一些实施方式中,至少一个寡 核苷酸将被设计成和形成用于确定进一步分析的各区域。在其它实施方式中,平均3个或3 个以上的寡核苷酸将被提供用于进一步分析的被确认各区域。本发明的一个特征是,寡核 苷酸的库可以用于通过使用来源于靶核酸的模板将寡核苷酸聚合酶延伸而直接地形成第 二鸟枪法测序文库。本发明的另一个特征是,寡核苷酸的库可以用于通过使用寡核苷酸库 的循环依赖性复制和循环依赖性复制而直接地形成扩增子。本发明的另一个特征是所述方 法将提供测序信息以鉴定感兴趣区域是否存在,例如确认用于分析的预测的区域不存在, 例如由于缺失或者重排。
[0240] 两相测序方法的上述实施方式可以结合本文中描述和本领域中已知的任何核酸 构建体和测序方法而使用。 SNP检测
[0241] 在其它实施方式中上述的方法和组合物可以用于检测核酸构建体中的特定序列 诸如DNB。具体地,采用测序和锚定的cPAL方法可以用于检测与遗传突变相关的多态性或 序列,包括单核苷酸多态性(SNP)。例如,为了检测SNP的存在,可以使用两组的区别标记的 测序探针,使得对一个探针与其他探针相比的检测表示多态性是否存在于样品中。这种测 序探针可以结合在类似于上述cPAL方法的方法中的锚定使用以便进一步提高SNP检测的 特异性和效率。 长片段阅读抟术 概沭
[0242] 单独的人基因组在本质上是双倍体,其中一半的同源染色体来源于各双亲。在每 个个体染色体上发生变异的情况对基因表达和调节以及基因组的其它转录区域具有深远 的影响。此外,确认如果在基因的一个或两个等位基因中发生2个潜在有害突变具有至高 的临床重要性。
[0243] 用于全基因组测序的目前方法缺乏以成本效益的方式单独地装配双亲染色体的 能力,并且描述其中同时发生变异的上下文(单体型)。模拟实验表明染色体-水平单体型 分析需要跨过至少70-100kb的范围的等位基因连接信息。这不能用使用扩增的DNA的现 有技术来实现,由于长DNA分子难以均匀扩增以及测序中连接信息损失,因而局限于阅读 少于1000个碱基。配对技术可以提供延伸的阅读长度的等同物,但由于制作这种DNA文库 的低效率(由于圆形化的DNA长度长于数kb的困难)因而局限于小于10kb。此方法也需 要最大程度的阅读覆盖率以连接所有杂合子。
[0244] 如果处理这种长分子是可行的,如果单分子测序的精确度高,并且检测/仪器成 本低,则大于l〇〇kbDNA片段的单分子测序将可用于单体型分析。这非常难以在短分子上 以高产率实现,更不用说在l〇〇kb片段上。
[0245] 最近的人基因组测序已经在短阅读长度(<200bp)、高度平行化的系统中实施,以 数百纳克的DNA开始。这些技术非常优越于快速并经济地生成大容量的数据。遗憾地,经 常与小配对-空缺尺寸(500bp-10kb)配对的短阅读消除了超过数千碱基的大部分的SNP 相信息(McKernan等人,GenomeRes. 19 :1527, 2009)。此外,由于剪切,在多处理步骤中在 无裂解段的情况下维持长DNA片段是非常困难的。]
[0246] 目前,三个个人基因组:J.CraigVenter的个人基因组(Levy等人,PLoS Biol. 5:e254, 2007),GujaratiIndian(HapMap样品NA20847;Kitzman等人,Nat. Biotechnol. 29:59, 2011),和两个欧洲的(MaxPlanckOne[MPl];Suk等人,Genme Res.,2011 ;genome.cshlp.org/content/early/2011/09/02/gr. 125047. 111.full,pdf; 以及HapMap样品NA12878;Duitama等人,Nucl.AcidsRes. 40:2041-2053,2012)已被 测序和装配为双倍体。所有的均涉及在类似于在人参考基因组的构建期间所采用的细 菌人工染色体(BAC)测序的步骤中将长DNA片段克隆入构建体(Venter等人,Science 291:1304, 2001 ;Lander等人,Nature409 :860, 2001)。虽然这些步骤产生长的分阶段重 叠群(N50s具有 350kb[Levy等人,PLoSBiol. 5 :e254, 2007]、386kb[Kitzman等人,恥七 Biotechnol. 29 :59-63,2011]和lMb[Suk等人,基因组Res. 21 :1672-1685, 2011]),但它们 需要大量的初始DNA,密集的文库处理,因而过于昂贵而难以在常规的临床环境中使用。
[0247] 另外,已在中期染色体的直接分离中揭示全染色体单体型分析(Zhang等人, Nat.Genet. 38:382-387, 2006;Ma等人,Nat.Methods7 :299_301,2010;Fan等人,Nat. Biotechnol. 29 :51-57, 2011;Yang等人,Proc.Natl.Acad.Sci.USA108 :12-17, 2011)。这 些方法非常适用于长范围单体型分析但尚未用于全基因组测序,这些方法要求全中期染色 体的制备和分离,这对于一些临床样品是困难的。
[0248] LFR方法克服了这些限制。LFR包括DNA制备和标记,连同相关的算法和软件,从 而能够在双倍体基因组中准确地装配亲代染色体的单独序列(即,完全的单体型分析)从 而显著地降低实验和计算成本。
[0249] LFR是基于跨过许多不同的等分部分的基因组DNA(或其它核酸)的长片段的物 理分离,因此使得基因组的任何给定区域在相同的等分部分中呈现母源和亲代组件两者存 在低可能性。通过将唯一的标识符置于各等分部分中并分析集合中的许多等分部分,可以 将DNA序列数据装配入双倍体基因组,例如,可以确定各亲代染色体的序列。LFR不要求将 核酸复合物的片段克隆入载体,正如在使用大片段(例如BAC)文库的单体型分析方法中。 LFR也不需要生物体的单独染色体的直接分离。最后,可以在单独生物体中实施LFR并且不 需要成群的生物体从而完成单倍型分阶段。
[0250] 本文中使用的术语"载体"表示其中插入外源DNA片段的质粒或病毒载体。利用 载体将外源DNA导入合适的宿主细胞,其中载体和插入的外源DNA由于载体的存在而复制, 例如,复制的功能源或者主动复制序列的载体。本文中使用的术语"克隆"是指将DNA的片 段插入载体并且在合适的宿主细胞中复制插入的外源DNA。
[0251]LFR可以结合本文中详细论述的测序方法使用,更通常,作为结合本领域中已知的 任何测序技术(包括短阅读和较长阅读方法两者)的预处理方法。LFR也可以结合各种类型 的分析(包括例如转录组、甲基化组等)的分析使用。因为它需要非常少的输入DNA,所以 LFR可以用于对一个细胞或者少量的细胞测序和单体型分析,这对于癌症、产前诊断和个体 化医疗是尤其重要的。这可以便于家族遗传性疾病等的鉴定,等。由于能够识别双倍体样 品中的两组染色体,LFR也允许以低覆盖率以较高可信度识别突变和非突变位置。LFR的其 它用途包括在癌症基因组广泛的重新布置的解析度和可替代地切除转录体的全长度测序。
[0252]LFR可以用于处理和分析核酸复合物,包括但不限于基因组DNA,也就是说纯化的 或未纯化的,包括在不剪切和过度地裂解这种核酸复合物的情况下轻柔地分裂以释放这种 核酸复合物的细胞和组织。
[0253] 在一个方面,LFR形成长度约为100-1000kb的虚拟阅读长度。
[0254] 另外,LFR也可以显著地降低任何短阅读技术的计算需求和相关的成本。重要地, 如果减小总产率,LFR除去对延伸测序阅读长度的需要。LFR的另一个益处是显著降低由目 前测序技术造成的错误或可疑碱基识别(10至1000倍),通常每l〇〇kbl个,或者每个人基 因组30, 000假阳性识别,以及每个人基因组类似数量的未检测突变。该错误的显著减小使 对随后对检测的突变的确认的需求最小化并且便于将人基因组测序用于诊断用途。
[0255] 除了适用于所有的测序平台外,基于LFR的测序也可以用于任何用途,包括但不 限于:癌症基因组中的结构重排的研宄、包括甲基化位点的单倍型的全甲基化组分析,和巨 大基因组或新基因组测序的重新装配应用,新基因组甚至是如在植物中发现的复合物多倍 体基因组。
[0256] LFR提供获得个体染色体的实际序列的能力,实际序列与双亲或相关的染色体的 一致序列相反(虽然它们具有高相似性以及长重复和片段复制的存在)。为了生成此类型 的数据,通常是在长DNA范围(例如100kb至1Mb)内建立序列的连续性。
[0257] 本发明的另一个方面包括用于高效率地将LFR数据用于全染色体单倍型和结构 变异映射、和假阳性/阴性错误纠正至每个人基因组小于300个误差的软件和算法。
[0258] 在再一个方面,根据等分部分和使用细胞的数量,本发明的LFR技术降低各等分 部分中的DNA复杂度达100-1000倍。复合度降低和>100kb长DNA的单倍型分离可以有助 于更高效率且成本效益地(高达100倍的成本降低)装配和检测人和其它双倍体基因组中 的所有变异。
[0259] 本文中描述的LFR方法可以用作利用本【技术领域】已知的任何测序方法测序双 倍体基因组的预处理步骤。在其它实施方式中本文中描述的LFR方法可用于任意数量 的测序平台,包括例如但不限于:基于聚合酶的利用合成的测序(例如,HiSeq2500系 统,Illumina,加州圣地亚哥),基于连接的测序(例如,S0LiD5500,LifeTechnologies 公司,加州卡尔斯巴德)、离子半导体测序(例如,离子PGM或者离子质子测序仪,Life Technologies公司,加州卡尔斯巴德)、零模式波导(例如,PacBioRS测序仪,Pacific Biosciences,加州门洛帕克)、纳米孔测序(例如,OxfordNanoporeTechnologied有限公 司,英国牛津)、pyro测序(例如,454LifeSciences,布兰福德,CT),或者其它测序技术。这 些测序技术中的一些是短阅读技术,但其它技术则形成较长的阅读,例如GSFLX+ (454Life Sciences;多达 1000bp)、PacBioRS(PacificBiosciences;大约 1000bp)和纳米孔测序 (OxfordNanoporeTechnologied有限公司;100kb)。就单倍型分阶段而言,较长的阅读是 有利的,从而需要少得多的计算,丹它们往往具有较高的错误率,并且需要按照本文中所陈 述的方法在单倍型分阶段之前对这种长阅读中的错误进行确认和纠正。
[0260] 根据本发明的一个实施方式,LFR的基本步骤包括:1)将核酸复合物(例如,基因 组DNA)的长片段分离成等分部分,各等分部分含有一部分的基因组当量的DNA; (2)扩增各 等分部分中的基因组片段;(3)裂解扩增的基因组片段以形成具有适合于文库构建的大小 的短片段(例如,在一个实施方式中长度约为500个碱基);(4)标记短片段从而允许短片 段所起源的等分部分的鉴定;(5)汇集标记的片段;(6)对汇集的标记的片段进行测序;和 (7)对所形成的序列数据进行分析以便映射和装配数据并且获得单倍型信息。根据一个实 施方式,LFR使用具有在各孔中的10-20%的单倍体基因组的384孔板,获得各片段的母源 和亲代等位基因的理论的19-38x物理覆盖率。19-38x的初始DNA冗余性确保全基因组覆 盖率和较高的突变识别和分阶段精确度。LFR避免将核酸复合物的片段亚克隆入载体或者 分离单独的染色体的需要(例如,中期染色体)并且它可以是完全自动化的,使得它适合于 高吞吐量、成本效益的应用。
[0261] 我们也已开发出了将LFR用于错误减小和其它目的的技术,如本文中的详细说明。 LFR方法描述于美国专利申请12/329, 365和13/447, 087、美国专利公开US2011-0033854 和 2009-0176234,和美国专利 7, 901,890、7, 897, 344、7, 906, 285、7, 901,891 和 7, 709, 197 中,以上所有专利的全部内容以参考的方式并入本文中。
[0262] 本文中使用的术语"单倍型"表示传输到一起的染色体上相邻位置(基因座)的 等位基因的组合,或者可替代地,在是统计学相关的染色体对的单个染色体上的成组序列 突变。每个人个体具有两组染色体,一组是是亲代的另一组是母源的。通常,DNA测序仅产 生基因型信息,沿DNA的片段的无序等位基因的序列。推断基因型的单倍型将在各无序配 对中的等位基因分离成两个单独的序列,每个识别单倍型。单倍型信息对于许多不同类型 的遗传分析是必需的,包括疾病关联研宄并且做出关于群系谱的推论。
[0263] 本文中使用的术语"分阶段"(或者分解)表示将序列数据分类为两组的亲代染色 体或者单倍型。单倍型分阶段是指如下问题:以用于1个个体或1个群的成组基因型作为 输入接收(即,多于1个的个体)并且输用于每个个体的成对单倍型,一个是亲代而另一个 是母源的。分阶段可以包括在基因组的区域或者少至在阅读或重叠群中的2个序列突变上 解析序列数据,这可以被称为局部分阶段,或者微分阶段。它也可以包括较长重叠群的分阶 段,通常包括大于大约10个序列突变,或者甚至全基因组序列,这可以被称为"通用的分阶 段"。任选地,在基因组装配期间发生分阶段序列突变。 基闵组当量的核酸复合物的等分部分
[0264] LFR步骤是基于将长片段的基因组随机物理分离成许多等分部分,使得各等分部 分含有一部分的单倍体基因组。当各库中的基因组的比例减小时,具有来自相同库中的亲 代染色体的相应片段的统计学可能性显著地减小。
[0265] 在一些实施方式中,将10%基因组当量等分入多孔板的各孔。在其它实施方式中, 将1%至50%的基因组当量的核酸复合物等分入各孔。如上所述,等分部分和基因组当量 的数量可以取决于等分部分的数量、初始片段大小、或者其它因素。任选地,在等分之前将 双链核酸(例如,人基因组)变性;因此可以将单链补体分成不同的等分部分。
[0266] 例如,在每个等分部分0? 1基因组当量(大约0? 66picogram或pg的DNA,在每个 人基因组大约6. 6pg)下,存在10%几率的两个片段将重叠和,50%的几率片段这些将来源 于单独的亲代染色体;产生95%的几率在等分部分中碱基对是非重叠的,S卩,5%总几率特 定等分部分将不能提供用于给定片段的信息,因为等分部分含有来源于母源染色体和亲代 染色体两者的片段。可以确定不可提供信息的等分部分,因为来源于这种等分部分的序列 数据含有增加量的"噪音",也就是说,成对的螺旋之间的连接矩阵中的杂质。模糊干扰系统 (FIS)允许针对某种程度杂质的稳健性,S卩,不管杂质(高达某种程度)它可以纠正连接。 甚至可以使用较小量的基因组DNA,尤其是在微米或纳米液滴或乳液的情况下,其中各液滴 可以包含一个DNA片段(例如,单个50kb片段的基因组DNA或者大约1. 5X10_5基因组当 量)。甚至在50%的基因组当量下,大部分的等分部分将会是可提供信息的。在较高的水 平下,例如70%的基因组当量,可以确定和使用可提供信息的孔。根据本发明的一个方面, 0? 000015、0. 0001、0. 001、0. 01、0. 1、1、5、10、15、20、25、40、50、60 或 70% 的基因组当量的 核酸复合物存在于各等分部分中。
[0267] 应当理解的是,稀释因子以取决于片段的初始大小。也就是说,使用温和技术来分 离基因组DNA,可以获得大约100kb的片段,然后进行等分。允许较大片段的技术导致需要 较少的等分部分,导致较短的片段会需要更多的稀释。
[0268] 我们已成功地在不进行DNA纯化的情况下实施在相同反应中的全部六个酶步骤, 这便于小型化和自动化并且能够使LFR适用于种类广泛的平台和样品制备方法。
[0269] 根据一个实施方式,将各等分部分容纳在多孔板(例如,384孔板)的单独的孔中。 然而,本领域中已知的任何合适类型的容器或系统均可以用于容纳等分部分,或者可以使 用微液滴或乳液来实施LFR步骤,如本文中的描述。根据本发明的一个实施方式,将体积减 小到亚微升水平。在一个实施方式中,可以将自动移液方法用于1536孔规格。
[0270] 一般来说,当等分部分的数量增加,例如增加到1536,基因组%减小至大约1%的 单倍体基因组,用于单倍型的统计基质显著地提高,因为在相同孔中母源和亲代单倍型两 者的分散存在减小。因此,具有每个等分部分可忽略频率的混合的单倍型的大量小等分部 分允许使用较少的细胞。类似地,较长的片段(例如,300kb或更长)有助于在缺乏杂合位 点的片段上桥接。
[0271] 提供50-100nl非接触移液的纳升(nl)分配工具(例如,Hamilton机械手纳升移 液头,TTPLabTechMosquito,和其它)可以用于快速和低成本的移液以并行地制作数十个 基因组文库。等分部分数量的增加(与384孔板相比)导致各孔中基因组的复杂度的大幅 降低,降低总计算成本超过10倍并且提高数据质量。此外,此步骤的自动化增加吞吐量并 且降低制造文库的处理成本。 伸用较小等分部分体积(包括微液滴和乳液)的LFR
[0272]使用微液滴甚至可以实现进一步的成本降低和其它优点。在一些实施方式中,在 乳液或微流控器件中用组合标记实施LFR。在10, 000个等分部分中体积减小到皮升水平, 由于较低的试剂和计算成本可以实现甚至更大的成本降低。
[0273]在一个实施方式中,在384孔规格LFR使用每个孔10微升(yl)体积的试剂。 例如,在1536孔规格可以通过使用市售的自动化移液装置而减小这种体积。利用提供 50-100nl的非接触移液的纳升(nl)分配工具(例如,HamiltonRoboticsNano移液头, TTPLabTechMosquito,和其它)可以实现进一步的体积减小,这可以用于快速和低成本的 移液以并行地制作数十个基因组库。增加等分部分的数量导致各孔内基因组复杂度的大幅 降低,从而降低总计算成本并且提高数据质量。此外,此步骤的自动化增加吞吐量并且降低 制作文库的成本。
[0274]在其它实施方式中,实现各等分部分的唯一的鉴定有8-12碱基对错误纠正的条 形码。在一些实施方式中,也可使用相同数量的衔接物。
[0275] 在其它实施方式中,基于两组的40个半条形码衔接物使用新型组合标记方法。在 一个实施方式中,文库构建包括使用两个不同的衔接物。A和B衔接物容易地被修饰以各自 含有不同的半条形码序列从而产生数千种组合。在另一个实施方式中,将条形码序列并入 在相同的衔接物上。这可以通过将B衔接物断裂成各自具有由用于连接的共有的重叠的序 列隔离的半条形码序列的两个部分而实现。这两个标记组件各自具有4-6个碱基。8碱基 (2X4碱基)标记组能够唯一地标记65, 000个等分部分。1个额外的碱基(2X5碱基)将 允许错误检测和12碱基标记(2X6碱基,12百万个唯一的条形码序列)可以被设计成允 许利用Reed-Solomon设计在10, 000或10, 000以上的等分部分中进行大量的错误检测和 纠正。在示例性实施方式中,将2X5碱基和2X6碱基标记两者,包括简并碱基(即,"通配 符")用于实现最佳解码效率。
[0276]将体积降低到皮升水平(例如,在10,000个等分部分中)可以实现甚至更大的试 剂和计算成本的降低。在一些实施方式中,通过使用组合标记的LFR步骤与乳液或微流体 类型装置的组合,而实现该水平的成本降低和密集的等分。在物DNA纯化的情况下实施所 有酶步骤在相同的反应中能力便于能力使此步骤小型化和自动化的能力并且导致对种类 广泛的平台和样品制备方法的适应性。
[0277]在一个实施方式中,结合乳液型装置而使用LFR方法。使LFR适应乳液型装置的第 一步骤是制备组合条形码标记的衔接物的乳液试剂,其中每个液滴具有单个唯一条形码。 两组100个半条形码对于唯一地鉴定10, 000个等分部分是充分的。然而,将半条形码衔接 物的数量增加超过300可以允许将条形码液滴的随机添加与样品DNA结合,并且具有任何 两个等分部分含有相同的组合条形码的低可能性。可以制作组合条形码衔接物液滴并且储 存在单个管中,作为用于数千个LFR文库的试剂。
[0278] 在一个实施方式中,将本发明从10, 000放大到100, 000或100, 000以上的等分部 分文库。在另一个实施方式中,通过增加初始半条形码衔接物的数量,将LFR方法适用于这 种放大。然后,将这些组合衔接物液滴逐一地与含有代表小于1 %的单倍体基因组的连接阅 读DNA的液滴融合。使用lnl每个液滴和10, 000滴的保守估计,这表示用于整个LFR文库 的10y1的总体积。
[0279] 近来的研宄也表明通过将反应体积减小到纳升程度改善了扩增(例如,by MDA) 后GC偏向性并减小背景扩增。
[0280]目前有数种类型的具有皮升/纳升液滴制备、融合(3000/第二)和采集功能并且 可以用于LFR的这种实施方式的微流体装置(例如,由AdvancedLiquidLogic公司销售 的装置,Morrisville,NC)或者皮升/纳升液滴器(例如,RainDanceTechnologie,麻省列 克星敦)。在其它实施方式中,使用改进的纳移液或声学液滴喷射技术(例如,LabCyte有 限公司,加州森尼维耳)或者使用能够处理多达9216的单独反应孔的微流控器件(例如, Fluidigm,加州南旧金山)将约10-20纳升的液滴沉积在3072-6144或者更高的规格的板 中或者玻璃载玻片上(仍具有成本效益的60y1的总MDA体积,并且不损失计算成本节约 或者从少量细胞对基因组DNA进行测序的能力)。增加等分部分的数量导致各孔中基因组 的复杂度的大幅降低、计算总成本的降低和数据质量的增加。此外,此步骤的自动化增加吞 吐量并且降低制造文库的成本。 扩增
[0281] 根据一个实施方式,LFR步骤开始于使用5'核酸外切酶对基因组DNA的短处理, 以形成用作MDA起始位点的3'单链突出端。核酸外切酶的使用消除了在扩增前加热变性 或碱变性步骤的需要,并且不将偏向性导入该群的片段。碱变性可以与5'核酸外切酶处理 结合,由此导致偏向性的进一步减小。然后将DNA稀释到亚基因组浓度并且等分。在将片 段在各孔中等分之后例如利用MDA方法进行扩增。在某些实施方式中,MDA反应是改进的 基于phi29聚合酶的扩增反应,但可以采用其他已知的扩增方法。
[0282] 在一些实施方式中,MDA反应被设计成将尿嘧啶导入扩增产物。在一些实施方式 中,将采用随机六聚体的标准MDA反应用于在各孔中扩增片段。在许多实施方式中,使用随 机8单体单元引物代替随机六聚体以减小在片段群中的扩增偏向性。在其它实施方式中, 也可以将数种不同的酶添加到MDA反应中以减小扩增的偏向性。例如,可利用低浓度的非 进行性5'核酸外切酶和/或单链结合蛋白形成用于8单体单元的结合位点。通过类似的 机制也可以将诸如甜菜碱、DMS0和海藻糖的化学试剂用于减小偏向性。 裂解
[0283] 根据一个实施方式,在各孔中扩增DNA后,对扩增产物实施一回合的裂解。在一些 实施方式中,利用上述c〇re方法在扩增之后进一步将在各孔的片段裂解。为了采用c〇re 方法,用于扩增各孔中的片段的MDA反应被设计成将尿嘧啶结合入MDA产物。也可以利用 超声处理或者酶处理而实现MDA产物的裂解。
[0284] 如果将CoRE方法用于MDA产物的裂解,则将含有扩增的DNA的各孔用尿嘧啶DNA 糖苷酶(UDG)、DNA糖苷酶-裂解酶核酸内切酶VIII、以及T4多核苷酸激酶的混合物进行 处理,以切除尿嘧啶碱基并形成具有5'磷酸酯和3'羟基官能团的单碱基空缺。通过使用 聚合酶(诸如Taq聚合酶)的切口平移导致双链钝性末端断裂,从而形成取决于在MDA反 应中所添加dUTP的浓度的尺寸范围的可连接片段。在一些实施方式中,所采用的CoRE方 法包括通过使用phi29的链置换和聚合而除去尿嘧啶。
[0285] 在MDA产物的裂解之后,可以将所形成片段的末端修复。这种修复会是必要的,因 为许多裂解技术可以导致具有突出端部的末端和具有不用于后继连接反应的官能团的末 端,例如3'和5'羟基和/或3'和5'磷酸基。在本发明的许多方面,具有被修复而具有钝 性末端的片段是有用的,并且在一些情况下,理想的是改变末端的化学性质使得磷酸酯和 羟基的正确取向不存在,因此防止靶序列的"聚合"。可以利用本【技术领域】已知的方法实现 对末端的化学性质的控制。例如,在一些情况下,磷酸酶的使用消除了所有的磷酸基,使得 所有的末端含有羟基。然后可以选择性地改变各末端以允许期望的组件之间的连接。然后, 在一些实施方式中,可以通过用碱性磷酸酶进行处理而"活化"片段的一端。
[0286] 在裂解后任选地在末端修复后,将片段用衔接物进行标记。 MB
[0287] 通常,标记衔接物臂被设计在两个片段中,一个片段对所有的孔是共有的,并且利 用本文中进一步描述的方法将钝性末端直接地连接到片段。第二片段对各孔是唯一的并且 含有"条形码"序列,使得当把各孔的内容物混合时可以确定来自各孔的片段。
[0288] 根据一个实施方式,以两个衔接物臂的形式添加"共有的"衔接物,一个臂是连接 到该片段的5'端的钝性末端,另一个臂是连接到该片段的3'端的钝性末端。标记衔接物 的第二片段是对各孔是唯一的"条形码"片段。此条形码通常是核苷酸的唯一序列,向特定 孔中的各片段给予相同的条形码。因此,当将来自所有孔的标记片段重新组合用于测序用 途时,可以通过对条形码衔接物的鉴定而确定来自相同孔的片段。将条形码连接到共有的 衔接物臂的5'端。共有的衔接物和条形码衔接物可以顺序地或者同时地连接到片段。可 以对共有衔接物的末端和条形码衔接物进行修饰,使得各衔接物片段将在正确的方向上连 接到适当的分子。这种修饰通过确保这些片段不能彼此连接并且这些衔接物片段仅能够在 图示的方向上连接而防止衔接物片段或片段的"聚合"。
[0289] 在其它实施方式中,将三片段设计应用于用于标记各孔中的片段的衔接物。除了 将条形码衔接物片段分裂成两个片段以外,此实施方式类似于上述的条形码衔接物设计。 通过允许通过将不同的条形码片段连接在一起以形成全条形码片段而产生组合条形码衔 接物片段,此设计允许更宽范围的可能条形码。此组合设计提供可能条形码衔接物的较大 指令表同时减小需要产生的全尺寸条形码衔接物的数量。
[0290] 根据一个实施方式,在将各孔中的片段标记后,将所有的片段合并以形成单群。然 后可以将这些片段用于产生本发明的用于测序的核酸模板。由这些标记的片段来源于特定 孔的利用连接到各片段的条形码标记衔接物所产生的核酸模板是可辨认的。类似地,在对 标记进行测序时,也可辨认所连接的来源于孔的基因组序列。
[0291] 在一些实施方式中,本文中描述的LFR方法不包括多水平或等级的裂解/等分,如 2006年6月13日提交的美国专利申请11/451,692中所描述,该专利申请的全部内容以参 考的方式并入本文中用于所有目的。也就是说,一些实施方式仅采用单回合的等分,并且也 允许用于单阵列的等分部分的重新汇集,而不是使用用于各等分部分的单独的阵列。 伸用1个细朐或小量细朐作为核酸复合物的来源的LFR
[0292] 根据一个实施方式,将LFR方法用于分析单个细胞或少量细胞的基因组。在这种 情况下用于分离DNA的步骤类似于上述方法,但可在较小的体积中发生。
[0293] 如上所述,从细胞中分离基因组核酸的长片段可以通过一些不同方法来实现。在 一个实施方式中,将细胞溶解并且利用温和的离心步骤将完整的核形成颗粒。然后,通过蛋 白酶K和核糖核酸酶消化达数小时而释放基因组DNA。然后,可以在一些实施方式中对物质 进行处理,以降低剩余的细胞废物的浓度,这种处理在本领域中是众所周知的并且可以包 括但不限于一时间段(例如2-16小时)的透析和/或稀释。因为这种分离核酸的方法不 包括许多破坏性的过程(诸如乙醇沉淀、离心、和涡旋),基因组核酸仍然保持大体完整,获 得具有超过150千碱基的长度的大部分的片段。在一些实施方式中,片段长度为大约100 至大约750千碱基。在其它实施方式中,这些片段的长度为大约150至大约600、大约200 至大约500、大约250至大约400、和大约300至大约350千碱基。
[0294] -旦在将其等分入单独的孔中之前将DNA分离,则必须仔细地将基因组DNA裂解 以避免物质的损失,尤其避免从各片段末端的序列损失,因为这种物质的损失将导致最后 基因组装配中的空缺。在一些情况下,通过使用罕见的切口酶而避免序列损失,其在彼此相 距大约100kb处形成用于聚合酶(例如29聚合酶)的起始位点。当聚合酶形成新的DNA 链时,它替换老的链,最终结果是在聚合酶起始位点附近存在重叠的序列,从而导致非常少 的序列缺失。
[0295] 在一些实施方式中,核酸外切酶5'的受控使用(在MDA反应之前或者期间)可以 促进从单细胞的初始DNA的多次复制,因此使由于拷贝的复制所造成的早期错误的扩展最 小化。
[0296] 在一个方面,本发明的方法从单个细胞形成质量基因组数据。假设没有DNA的损 失,则存在用少量的细胞(10个以下)开始而不是使用来自大制备品的同等量的DNA的优 势。用小于10个细胞开始和如实地等分基本上所有的DNA确保在基因组的任何给定区域的 长片段中的均匀覆盖率。用5个或5个以下的细胞起始允许在各等分部分每各个100kbDNA 片段的4倍或更大的覆盖率,而不将阅读的总数增加到超过120Gb(6Gb双倍体基因组的20 倍覆盖率)。然而,大量的等分部分(10, 〇〇〇或10, 〇〇〇以上)和较长的DNA片段(>200kb) 对于来自一些细胞的测序是甚至更重要的,因为就任何给定的序列而言,重叠的片段仅与 起始细胞的数量一样多并且来自等分部分中的亲代染色体的重叠片段的发生会是可怕的 f目息损失。
[0297]LFR非常适合于此问题,因为仅用价值为起始输入基因组DNA的大约10个细胞开 始产生优异的结果,甚至一个单细胞将会提供用于实施LFR的足够的DNA。LFR中的第一步 骤通常在全基因组扩增低偏向性,这在单细胞基因组分析中可以具有特定用途。由于在处 理中的DNA链断裂和DNA损失,甚至单分子测序方法将会有可能需要一些水平的来自单个 细胞的DNA扩增。单个细胞进行测序的困难是由于试图扩增完全基因组。使用MDA在细菌 中实施的研宄在最终装配的序列中具有大约一半的基因组的损失,并且覆盖率中相当大量 的差异发生在测序的区域中。这可以部分地被解释成是具有切口和链断裂的初始基因组 DNA不能在末端被复制因此在MDA步骤期间丢失的结果。LFR通过在MDA前形成基因组的 长重叠的片段而提供针对此问题的解决方法。根据本发明的一个实施方式,为了实现该解 决方法,将温和的步骤用于从细胞中分离出基因组DNA。然后,对大体完整的基因组DNA进 行频繁的切口酶处理,从而形成半随机切口的基因组。然后,将Phi29的链置换能力用于从 形成非常长的(>200kb)的重叠的片段的切口中聚合。然后,将这些片段用作用于LFR的起 始模板。 碱基识别、映射和装配
[0298] 可以利用本领域中已知的方法对利用本文中描述的任何测序方法生成的数据进 行分析和装配。
[0299] 在一些实施方式中,对于询问的基因组位置产生四个图像,各颜色的染料各一个。 通过调整染料与背景强度之间的串扰,而确定图像中各点的位置和4种颜色中的各颜色所 形成的强度。可以将定量模型拟合到所形成的四维数据组。识别针对给定的点的碱基,和 反映4强度如何拟合该模型的质量计分。
[0300] 在其它实施方式中,以紧凑的二进制格式对阅读数据进行编码并且阅读数据包括 识别的碱基和质量计分两者。质量计分与碱基精确度相关。分析软件(包括序列装配软 件)可以利用计分来确定利用阅读的个体碱基中的证据的贡献率。
[0301] 由于DNB结构阅读通常是"空缺的"。由于酶消化中固有的变化性空缺尺寸发生变 化(通常+/-1碱基)。由于PAL的随机访问性质,在高质量DNB中阅读偶尔会具有未阅读 碱基("无识别")。将阅读对进行配对,如本文中更详细的描述。
[0302] 能够将阅读数据与参考序列对齐的映射软件可以用于利用本文中描述的测序方 法来生成映射数据。这种映射软件通常将容许与自参考序列之间的小差异,诸如由于个体 基因组变异、阅读错误、或者未阅读碱基所引起的差异。此实应用性允许SNP的直接重新构 建。为了支持包括大规模结构变化或者区域致密变化的较大变异的装配,可以单独地映射 DNB的各臂,其中在联配后应用配对的约束。
[0303] 在一些实施方式中,序列阅读的装配可以采用支持DNB阅读结构的软件(用未识 别碱基配对的,有空缺的阅读)以形成双倍体基因组装配,可以在一些实施方式中调整本 发明的用于分阶段杂合子位点的序列信息生成LFR方法。
[0304] 本发明的方法可用于重新构建在参考序列中不存在的新片段。在一些实施方式中 可以采用基于证据(Bayesian)的推理和基于deBruijin图形的算法的组合。在一些实施 方式中,可以使用经验性地校准到各数据组的统计学模型,允许在不进行预过滤或数据修 整的情况下使用所有的阅读数据。也可以通过杠杆配对阅读来检测大规模结构变异(包括 但不限于缺失、易位等)和拷贝数变异。 实施例 实施例1 :制作DNB
[0305] 以下是由本发明的核酸模板制作DNB(本文中也被称为"扩增子")的示例性方案, 本发明的核酸模板包含具有一个或多个散在衔接物的靶核酸。首先,用磷酸化5'引物和生 物素化的3'引物对单链线形核酸模板实施扩增,从而形成用生物素标记的双链线形核酸 模板。
[0306] 首先,通过在无核酸酶微量离心管中将MagPrep-链霉亲合素磁珠(Novagen Part.No. 70716-3)再悬浮于lx磁珠结合缓冲液(150mMNaCl和 20mMTris,pH= 7. 5,在无 核酸酶的水)而制备链霉亲合素磁珠。将这些管置于磁性管架中,让磁性颗粒变澄清,取出 并丢弃上清液。然后,将磁珠在800y1的lx磁珠结合缓冲液中清洗2次,再悬浮于80y1 的lx磁珠结合缓冲液中。将来自PCR反应的扩增的核酸模板(本文中也被称为"文库构建 体")调整到多达60y1的体积,将20y1的4x磁珠结合缓冲液添加到管中。然后将核酸 模板添加到含有MagPrep磁珠的管中,轻柔地混合,在室温下保温培养10分钟,让MagPrep 磁珠变澄清。取出并丢弃上清液。然后将MagPr印磁珠(与扩增的文库构建体混合)在 800y1的lx磁珠结合缓冲液中清洗2次。在清洗后,将MagPr印磁珠再悬浮于80y1的 0.INNaOH中,轻柔地混合,在室温下保温培养并使其变澄清。取出上清液,添加到新准备的 无核酸酶的管中。将4y1的3M醋酸钠(pH= 5. 2)添加到各上清液并轻柔地混合。
[0307]接着,将 420y1 的PBI缓冲液(由QIApr印PCRPurificationKits提供)添 加到各管中,将样品混合,然后施加到2ml收集管中的QIAprepMiniprep柱(QiagenPart No. 28106)并且以14,OOOrpm离心1分钟。将溢流丢弃,将0? 75ml的PE缓冲液(由QIApr印 PCRPurifcicationKits提供)添加到各柱中,将柱再离心1分钟。再次将溢流丢弃。将 柱转移到新准的管中,添加50y1的EB缓冲液(由QIAprepPCRPurificationKits提 供)。将这些柱以14, 000旋转1分钟以洗脱单链核酸模板。然后,测量各样品的量。
[0308]使用CircLigase的单链樽板的圆形化:首先,将lOpmol的单链线形核酸模板转移 带无核酸酶的PCR管中。添加无核酸酶的水将反应物体积调整到30yl,将样品保持在冰 上。接着,将 4y1 的 10xCircLiagase反应缓冲液(EpicentrePart.No.CL4155K)、2y1 的 ImMATP、2yl的 50mMMnCl2、和 2yl的CircLiagase(100U/yl)(全体地,4xCircLiagase Mix)添加到各管中,将这些样品在60°C下保温培养5分钟。将另一 10y1的4xCircLiagase Mix添加到各管中并且将样品在60°C下保温培养2小时,在80°C下保温培养20分钟,然后 在4°C下保温培养。然后测量各样品的量。
[0309]禾丨J用核酸夕卜切酶消仆,从CircLiagase反.应、液中除去歹矣余的线形DNA:首先, 30yl的各CircLiagase样品添加到无核酸酶的PCR管中,然后将3yl的水、4y1的10x 核酸外切酶反应缓冲液(NewEnglandBiolabsPartNo.B0293S)、1.5yl的核酸外切酶 I(20U/y1,NewEnglandBiolabsPartNo.M0293L)、和 1. 5y1 的核酸外切酶III(100U/ yl,NewEnglandBiolabsPartNo.M0206L)添加到各样品中。将这些样品在37°C下保温 培养45分钟。接着,将75mMEDTA(pH= 8. 0)添加到各样品中,将这些样品在85°C下保温 培养5分钟,然后冷却至4°C。然后将样品转移到清洁的无核酸酶的管中。接着,将500y1 的PN缓冲液(由QIAprepPCRPurificationKits提供)添加到各管中,混合,将样品施 加在 2ml收集管中的QIAprepMiniprep柱(QiagenPartNo. 28106),以 14,OOOrpm离心 1 分钟。将溢流丢弃,将0.75ml的PE缓冲液(由QIApr印PCRPurificationKits提供) 添加到各柱中,将这些柱再离心1分钟。再次将溢流丢弃。将柱转移到新管中,添加40yl 的EB缓冲液(由QIApr印PCRPurificationKits提供)。将柱以14, 000旋转1分钟,以 洗脱单链的文库构建体。然后测定各样品的量。
[0310]用于DNB制各的循环依赖件复制:对核酸樽板实施循环依赖件复制,以形成包含 靶核酸与衔接物序列的串联体的DNB。将40fmol的核酸外切酶-处理的单链循环添加到无 核酸酶的PCR除去管中,添加水将最终体积调整到10. 0y1。接着,将10y1的2x引物混合 物(7y1 水、2y1 的 10xphi29 反应缓冲液(NewEnglandBiolabsPartNo.B0269S)、和 lul的引物(2yM))添加到各管中,将这些管在室温下保温培养30分钟。接着,将20yl 的phi29 混合物(14y1 水、2y1 的 10xphi29 反应缓冲液(NewEnglandBiolabsPart No.B0269S)、3. 2dNTP混合物(2. 5mM的各dATP、dCTP、dGTP和dTTP)、和 0? 8y1 的phi29DNA聚合酶(l〇U/yl,NewEnglandBiolabsPartNo.M0269S))添加到各管中。然后,将这些 管在30°C下保温培养120分钟。然后取出这些管,将75mMEDTA(pH= 8. 0)添加到各样品 中。然后,测量循环依赖性复制产物的量。
[0311]确宙DNB质量:一曰.DNB的数量被确定,通过观察色纯度而对DNB的质量进行评 估。将DNB悬浮于扩增子稀释缓冲液(0.8xphi29反应缓冲液(NewEnglandBiolabsPart No.B0269S)和lOmMEDTA,pH= 8. 0)中,将各种稀释液添加到流动载玻片(flowslide)中 的道,在30°C下保温培养30分钟。然后,将流动载玻片用缓冲液清洗,将含有四个不同的 用Cy5、德克萨斯红,FITC或Cy3标记的随机12单体单元探针的探针溶液添加到各道中。 将流动载玻片转移到预热至30°C的热块上,在30°C下保温培养30分钟。然后利用Imager 3. 2. 1. 0软件将流动载玻片成像。然后,测量循环依赖性复制产物的量。 实施例2 :单c-PAL和双c-PAL
[0312] 在二锚定探针检测系统中对不同长度的完全地简并第二锚定探针进行测试。所使 用的组合是:(1)使用结合到与靶核酸相邻的衔接物的锚定和9单体单元测序探针的标准 的一锚定连接,在离开衔接物的位置4处阅读;(2)使用包含简并的5单体单元和9单体单 元测序探针的相同第一锚定和第二锚定的二锚定连接,在离开衔接物的位置9处阅读;(3) 使用包含简并的6单体单元和9单体单元测序探针的相同的第一锚定和第二锚定的二锚定 连接,在离开衔接物的位置10处阅读;和(4)使用包含简并8单体单元和9单体单元测序 探针的相同的第一锚定和第二锚定的二锚定连接,在离开衔接物的位置12处阅读。lyM的 第一锚定探针和6yM的简并第二锚定探针与T4DNA连接酶在连接酶反应缓冲液中混合并 且涂覆于反应载玻片表面达30分钟,然后将未反应的探针和试剂从载玻片上清洗掉。将含 有连接酶和型 5'F1-NNNNNBNNN或者 5'F1-NNBNNNNNN5'F1-NNNBNNNNN5'F1-NNNNBNNNN 的荧光探针的第二反应混合物导入。F1代表四个荧光团中的一个,N代表随机引入的四个 碱基A、G、C或T中的任一个,B代表四个碱基A、G、C或T中尤其与荧光团相关的一个。在 连接1小时后,将未反应的探针和试剂从载玻片上清洗掉,检测与各DNA靶相关的荧光。
[0313] 我们检查了与系统中不同长度的简并第二锚定探针相关的信号强度,随着第二锚 定探针长度的增加强度下降。这种强度的拟合计分也随着简并第二锚定的长度增加而减 小,但仍然通过碱基10阅读而产生合理的拟合计分。
[0314] 然后我们检查了采用一锚定探针方法和二锚定探针方法的作用时间。均使用具有 9单体单元测序探针的标准锚定和简并5单体单元分别在离开衔接物的位置4和9处阅读。 尽管强度水平在两锚定探针方法中有更大的差异,但标准的一锚定方法和两锚定探针方法 在这两次均显示相当的拟合计分,各自超过0. 8。
[0315]简并第二锚宙探针长度对强度和拟合计分的影晌:当用于鉴宙衔接物的碱基5' 时,将具有不同的第二锚定探针长度和组成的第一锚定探针和第二锚定探针的不同组合用 于比较简并锚定探针对信号强度和拟合计分的作用。利用二锚定探针方法将标准的一锚 定方法与信号强度和拟合计分进行比较,具有与衔接物的互补性的一些区域的部分简并探 针,或者完全地简并第二锚定探针。在一个浓度下使用5个单体单元到9个单体单元的简 并第二锚定探针,对这些6单体单元和7单体单元中的两个也在4X浓度下进行测试。也在 第一浓度下,对包含具有衔接物互补性的两个核苷酸和在它们的3'端的不同长度的简并核 苷酸的第二锚定探针进行了测试。各反应使用相同组的4个测序探针,对存在于靶核酸中 的阅读位置的核苷酸进行鉴定。
[0316] 实验中所使用的各组合如下: 反应1 :1UM的12碱基第一锚定探针 无第二锚定探针 阅读位置:距离衔接物端的第2碱基 反应2 :1yM的12碱基第一锚定探针 20yM的5个简并碱基第二锚定探针 阅读位置:距离衔接物端第7碱基 反应3 :1yM的12碱基第一锚定探针 20yM的6个简并碱基第二锚定探针 阅读位置:距离衔接物端的第8碱基 反应4 :1yM的12喊基第一销定探针 20yM的7个简并碱基第二锚定探针 阅读位置:距离衔接物端的第9碱基 反应5 :1yM的12碱基第一锚定探针 20yM的8个简并碱基第二锚定探针 阅读位置:距离衔接物端的第10碱基 反应6 :1yM的12碱基第一锚定探针 20yM的9个简并碱基第二锚定探针 阅读位置:距离衔接物端的第11碱基 反应7 :1yM的12碱基第一锚定探针 80yM的6个简并碱基第二锚定探针 阅读位置:距离衔接物端的第8碱基 反应8 :1yM的12喊基第一销定探针 80yM的7个简并碱基第二锚定探针 阅读位置:距离衔接物端的第9碱基 反应9 :1yM的12碱基第一锚定探针 20yM的第6第二锚定探针(4个简并碱基-2个未知碱基) 阅读位置:距离衔接物端的第6个碱基 反应10 :1yM的12碱基第一锚定探针 20yM的第7第二锚定探针(5个简并碱基-2个未知碱基) 阅读位置:距离衔接物端的第7碱基 反应11 :1yM的12碱基第一锚定探针 20yM的第8第二锚定探针(6个简并碱基-2个未知碱基) 阅读位置:距离衔接物端的第8碱基
[0317] 在使用锚定探针与测序探针的不同组合的研宄中,使用6单体单元的简并第二锚 定探针的长度被显示出是最好的,不论它是完全简并或者部分简并的。使用完全简并的6 单体单元的信号强度在较高的浓度下显示了类似于部分简并的6单体单元的信号强度。所 有的数据具有相当好的拟合计分,除了使用最长的第二锚定的一个反应,它也显示出实施 的反应的最低的强度计分。
[0318]第一锚宙探针长度对强度和拟合计分的作用: 当被用于鉴定衔接物的碱基3'时,将具有不同的第一锚定探针长度的第一锚定探针 与第二锚定探针的组合用于第一锚定探针长度对信号强度和拟合计分的作用的比较。对标 准的一锚定方法与使用二锚定探针方法的信号强度和拟合计分进行比较,与衔接物有互补 性的一些区域的部分简并的探针,或者完全简并的第二锚定探针。每个反应使用相同组的 四个测序探针用于存在于靶核酸中的阅读位置的核苷酸的鉴定。实验中所使用的各组合如 下: 反应1 :1yM的12碱基第一锚定探针 无第二锚定探针 阅读位置:距离衔接物端的第5碱基 反应2 :1yM的12碱基第一锚定探针 20yM的5个简并碱基第二锚定探针 阅读位置:距离衔接物端的第10碱基 反应3 :1yM的10碱基第一锚定探针 20yM的7nt第二锚定探针(5个简并碱基-2个未知碱基) 阅读位置:距离衔接物端的第10碱基 反应4 :1yM的13碱基第一锚定探针 20yM的7个简并碱基第二锚定探针 阅读位置:距离衔接物端的第12碱基 反应5 :1yM的12碱基第一锚定探针 20yM的7个简并碱基第二锚定探针 阅读位置:距离衔接物端的第12碱基 反应6 :1yM的11碱基第一锚定探针 20yM的7个简并碱基第二锚定探针 阅读位置:距离衔接物端的第12碱基 反应7 :1yM的10碱基第一锚定探针 20yM的7个简并碱基第二锚定探针 阅读位置:距离衔接物端的第12碱基 反应8 :1yM的9喊基第一销定探针 80yM的7个简并碱基第二锚定探针 阅读位置:距离衔接物端的第12碱基
[0319] 观察的信号强度和拟合计分显示由于使用较长的第一锚定探针所造成的最佳强 度,部分可以是由于熔点越高提供至组合的锚定探针的探针越长。
[0320]采用二锚宙引物方法的激酶保淵培养对强度和拟合计分的作用:在不同的淵度 下使用1yM的10碱基第一锚定探针、20yM的7单体单元第二锚定探针,以及具有结构 Fluor-NNNNBNNNN的测序探针阅读距离衔接物的位置10,在以1单位/ml激酶的存在下达 4天的时间段执行如上所述的反应。用15个单体单元的第一锚定的反应并且将测序探针 用作阳性对照品。尽管与对照品相比激酶确实对信号强度具有作用,但范围并不从4°C变 化到37°C,并且拟合计分仍然与对照品是相当的。确实具有影响的激酶保温培养的温度为 42°C,这也显示差的与数据的拟合。
[0321] 然后利用如上所述的相同的探针和条件对激酶所需的最小时间进行检查。5分钟 或5分钟以上的激酶保温培养导致有效地当量信号强度和拟合计分。 实施例3 :在自组装的DNA利用未链接的碱基阅读的人基闵组测序
[0322] 对3个人基因组进行了测序,获得每个基因组平均45至87倍的覆盖率并且鉴定 出每个基因组3. 2-4. 5百万个序列突变。一个基因组数据组的确认显示每100千碱基大约 1个错误突变的序列精确度。 樽板测序基质的产牛
[0323] 通过基因组DNA裂解并且用IIS型限制酶回归切割和定向衔接物插入,而产生测 序基质,如本文中的描述。四衔接物文库构建步骤导致:(i)高产率衔接物连接和DNA圆形 化并且形成最小的嵌合体,(ii)定向衔接物插入,具有最少形成的大部分含有不期望的衔 接物拓扑结构的结构的,(iii)利用PCR对具有期望的衔接物拓扑结构的构建体进行迭代 选择,(iv)高效率地形成链特异性ssDNA环,和(v)ssDNA环的单管溶液相扩增以产生高浓 度散在的(非缠绕的)DNA纳米球(DNB)。尽管步骤包括许多独立的酶步骤,但主要在本质 上是回归的并且经历96样品批次的处理的自动化。
[0324] 利用超声处理将基因组DNA( "gDNA")裂解成500个碱基对("bp")的平均长度, 将在100bp范围变动的片段(例如,约400至约500bp针对NA19240)从聚丙烯酰胺凝胶分 离,并且利用QiaQuick柱纯化(Qiagen,Valencia,CA)加以回收。在37°C下将大约1yg(约 3pmol)的裂解的gDNA用 10 单位FastAP(Fermentas,Burlington,ON,CA)处理 60 分钟,用 AMPure磁珠(AgencourtBioscience,Beverly,MA)进行纯化,用 40 单位的T4DNA聚合酶 (NewEnglandBiolabs(NEB),Ipswich,MA)在 12°C下保温培养 1 小时,再次进行AMPure纯 化,以上均按照生产商的建议,以形成非磷酸化的钝性末端。然后,按照如本文中描述的切 口平移连接步骤将末端修复的gDNA片段连接到合成的衔接物1 (Adi)臂,由此形成具有最 小片段_片段和衔接物_衔接物连接的高效率的衔接物-片段连接。根据本发明的在衔接 物构建和插入中所使用的寡核苷酸是从IDT公司购得的。利用14个碱基分子内杂交包括 回文以加强紧凑DNB的形成。
[0325] 在14°C下,将大约1. 5pmol的末端修复的gDNA片段在含有50mMTris-HCl(pH= 7.8)、5%PEG8000、10mMMgCl2、lmMrATP、10倍摩尔数过量的5' -磷酸化和3'双脱氧封 端的Adi臂和4, 000单位的T4DNA连接酶(Enzymes,Beverly,MA)的反应液中保温培养120 分钟。5'P04Adl臂末端与3'OHgDNA末端的T4DNA连接形成带切口的中间结构,其中切口 是由双脱氧(因此是不可连接的)3'Adi臂末端和非磷酸化(因此是不可连接的)5'gDNA 末端构成的。在AMPure纯化以除去未并入的Adi臂之后,将DNA在60°C下在含有200yM AdlPCRl引物、10mMTris-HCl(pH=7.3)、50mMKCl、1.5mMMgCl2、lmMrATP、100yMdNTPs 的反应液中保温培养15分钟,从而将3'双脱氧封端的Adi寡核苷酸与3'0H封端的AdlPCRl 引物进行交换。然后将反应物冷却到37°C,在添加50单位的TaqDNA聚合酶(NEB)和 2000单位的T4DNA连接酶之后,在37°C下再保温培养30分钟,利用Taq催化的切口平移从 AdlPCRl引物3' 0H末端形成5'P04gDNA末端,并且利用T4DNA连接将所形成的修复的切口 密封。
[0326]在由 40单位的PfuTurboCx(Stratagene,LaJolla,CA)IXPfuTurboCx缓冲液、 3禮1%504、300 11]\1(1阶1^、5%01^0、1]\1甜菜碱、和 50011]\1每个六(11?〇?1引物构成的 800 1^ 反应液中,对大约700pmo1的AMPure纯化的Adi连接的材料实施PCR(6-8次循环,95°C达30 秒,56°C达30秒,72°C达4分钟)。此步骤导致约350fmol的含有左和右Adi臂两者的模板 的选择性扩增,以形成大约30pmol的在Adi臂内部的特定位置并入dU基团的PCR产物。在 37°C下将大约24pmol的AMPure-纯化产物用10单位的UDG/EndoVIII混合物(USER;NEB) 处理60分钟,以形成具有互补的3'突出端的Adi臂并且使右Adi臂-编码的Acul位点部 分地单链。将此DNA在 37°C下在含有 10mMTris-HCl(pH= 7.5)、50mMNaCl、lmMEDTA、 50yMs_ 腺苷基-L-蛋氨酸、和 50 单位的Eco57I(Fermentas,GlenBurnie,MD)的反应液 中保温培养12小时,从而将左Adi臂Acul位点以及基因组Acul位点甲基化。在由16. 5mM Tris-〇Ac(pH= 7. 8)、33mMK0Ac、5mMMgOAc、和ImMATP组成的反应液中将大约 18pmol的 AMPure纯化的甲基化DNA稀释到3nM的浓度,加热到55°C维持10分钟,冷却到14°C并维持 10分钟,以利于分子内杂交(圆形化)。
[0327] 然后,在180nM的非磷酸化桥接寡核苷酸的存在下将反应物与3600单位的T4DNA 连接酶在14°C下保温培养2小时,以形成含有顶-链-切口的Adi和双链的未甲基化右 AdlAcul位点的单体dsDNA环。按照生产商的说明书,通过AMPure纯化将Adi环浓缩,在 37°C下与lOOUPlasmidSafe核酸外切酶(Epicentre,Madison,WI)保温培养60分钟,以消 除残余的线形DNA。
[0328] 按照生产商的说明书将大约12pmol的Adi循环用30单位的Acul(NEB)在37°C下 消化1小时,以形成含有侧面是两个片段的Adi的插入DNA的线形dsDNA结构。在AMPure 纯化后,在60°C下将大约5pmol的线形化DNA在含有10mMTris-HCl(pH8. 3)、50mMKC1、 1. 5mMMgCl2、0. 163mMdNTP、0. 66mMdGTP、和 40 单位的TaqDNA聚合酶(NEB)的反应液保 温培养1小时,以利用Adi顶部链切口的平移将活性(右)AdlAcul位点近端的3'突出端转 化成 3'G突出端。在 14°C下将所得DNA在含有 50mMTris-HCl(pH= 7. 8)、5%PEG8000、 10mMMgCl2、lmMrATP、4000单位的T4DNA连接酶、和25倍摩尔数过量的对称的Ad2臂的反 应液中保温培养2小时,其中一个臂被设计成连接到3'G突出端,另一臂被设计成连接到 3'NN突出端,由此获得定向性(相对于Adl)Ad2臂连接。将大约2pmol的Ad2-连接的材 料用AMPure磁珠进行纯化,用PfuTurboCx和含有dU的Ad2特异性引物进行PCR扩增,进 行AMPure纯化,用USER处理,用T4DNA连接酶圆形化,用AMPure浓缩并且用PlasmidSafe 进行处理,均如上所述,以形成含有Adl+2的dsDNA环。
[0329] 用含有AdlPCR2dU的引物对大约lpmol的Adl+2循环进行PCR扩增,进行AMPure 纯化,进行USER消化,均如上所述,以形成侧面是Adi臂具有互补的3'突出端的片段,以使 左AdlAcul位点是部分单链的。将所形成的片段甲基化以灭活右AdlAcul位点以及基因组 Acul位点,进行AMPure纯化和圆形化,如上所述,以形成含有底部链-切口Adi和双链的未 甲基化的左AdlAcul位点的dsDNA环。这些环浓缩利用AMPure纯化,Acul消化,AMPure纯 化的G-加尾并连接到不对称的Ad3臂,均如上所述,由此实现定向Ad3臂连接。对Ad3-连 接的材料进行AMPure纯化,用含有dU的Ad3特异性引物进行PCR扩增,进行AMPure纯化, USER消化,圆形化并浓缩,均如上所述,以形成含有Adl+2+3的循环,其中Ad2和Ad3的侧面 是Adi并且在它们的远端末端含有EcoP15识别位点。
[0330] 根据生产商的说明书,在37°C下用100单位的EcoP15(NEB)将大约lOpmol的 Adl+2+3环消化4小时,以释放出含有散在于四个gDNA片段之间的3个衔接物的片段。在 AMPure纯化后,用如上所述的T4DNA聚合酶对消化的DNA进行末端修复,以如上方式进 行AMPure纯化,在 37°C下在含有 50mMNaCl、10mMTris-HCl(pH7.9)、10mMMgCl2、0.5mM dATP、和16单位的Klenowexo-(NEB)的反应液中保温培养1小时,以添加3'A突出端, 并且连接到T-加尾的Ad4臂,如上所述。在聚丙烯酰胺凝胶上执行连接反应,将含有 Adl+2+3+Ad4-臂的片段从凝胶中洗脱出,利用QiaQuick纯化可以回收。将大约2pmol的回 收的DNA扩增,如上所述,用PfuTurboCx(Stratagene)外加对1个Ad4臂特异性的5'-生 物素化引物和对于其它Ad4臂是特异性的a5'P04引物。
[0331] 按照生产商的说明书。将大约25pmol的生物素化PCR产物捕获在涂覆链霉亲 合素的Dynal顺磁性的磁珠(Invitrogen,Carlsbad,CA)上,利用使用0?INNaOH的变 性将非生物素化的链回收,包含一个5'Ad4臂和一个3'Ad4臂。在中和后,在期望的相 对于Ad4臂的方向上将含有Adl+2+3的链纯化杂交到3倍过量的Adi顶链特异性生物素 化捕获性寡核苷酸,接着在链霉亲合素磁珠上进行捕获和〇.INNaOH洗脱,以上均按照生 产商的说明书。按照生产商的说明书在60 °C下将大约3pmol回收的DNA与200单位的 CircLiagase(Epicentre)保温培养1小时,以形成含有单链(ss)DNAAdl+2+3+4的环,然后 按照生产商的说明书用100单位的Exol和300单位的ExoIII(两者均来自Epicenter)在 37°C下保温培养30分钟,以消除非圆形的DNA。
[0332] 为了确定在循环构建期间的代表性偏向性,利用具有StepOne平台(App1ied Biosystems,FosterCity,CA)的定量PCR(QPCR)和基于SYBRGreen的QPCR检测(Quanta Biosciences,存在和浓度Gaithersburg,MD)用于代表一系列基因座GC含量的一组 96dbSTS标记的存在和浓度,对文库构建步骤中基因组DNA和中间步骤进行检测。从dbSTS 中选择的标记的长度小于l〇〇bp,以使用长度为20碱基并且具有45-55%的GC含量的引 物,并且代表一系列基因座GC含量。开始和停止的坐标是来自于NCBIBuild36。扩增子 GC内容物是扩增的PCR产物,并且基于扩增子上lkb间隔为中心计算lkbGC含量。在各样 品中采集用于各标记的原始循环阈值(Ct)值。接着,将各样品的平均Ct减去其各自的原 始Ct值以产生一组归一化Ct值,使得各样品的平均归一化Ct值为零。最后,将gDNA中的 各标记的平均(来自4此复制)归一化Ct减去其各自的归一化Ct值,以形成用于各样品 中的各标记的一组deltaCt值。此分析表明较高GC含量标记的浓度增加但在Adl、Ad2、 和Ad3循环中相对于基因组DNA有较高的AT含量标记。平均地,在基因座的浓度中存在 1. 4Ct(2. 5倍)差异并且lkbGC含量为30-35%相对于50-55%。此偏向性类似于在映射 的cPAL数据中所观察的片段和碱基水平覆盖率偏向性。
[0333] 为了确定文库构建体结构,进行4Ad杂交捕获,用TaqDNA聚合酶(NEB)和Ad4_特 异性PCR引物对单链的文库DNA进行PCR扩增。用TopoTA克隆试剂盒(Invitrogen)将 这些PCR产物克隆,将菌落PCR用于从192单菌落中产生PCR扩增子。将这些PCR产物用 AMPure磁珠进行纯化,和利用Sanger双脱氧测序(MCLAB,SouthSanFrancisco,CA)从两 条链中采集序列信息。将所形成的痕量物过滤以获得高质量数据,将具有至少1个良好阅 读的含有文库插入物的克隆包括在分析中。表1示出了用于确定衔接物结构的来自文库的 Sanger测序的中间数据。192个文库克隆中的147个含有至少一个高质量Sanger阅读。 这些147克隆中的143个(>97% )在预计的方向和顺序含有所有的4个衔接物。此外,在 RCR反应期间将4个克隆中的具有异常衔接物结构3个(*)从用于产生DNB的文库中消除, 这意味着预计大约99%的DNB具有正确的衔接物结构。数据来源于NA07022。 表1

【权利要求】
1. 一种对核酸分子的靶序列进行测序的方法,所述方法包括: (a) 提供包含所述核酸分子的表面,所述核酸分子包含:(i)包括第一锚位点的第一衔 接物、和(ii)所述靶序列; (b) 将包含有效量的酸、阳离子表面活性剂、或者酸和阳离子表面活性剂两者的水洗溶 液涂覆于所述表面上; (c) 将锚定杂交到所述第一锚位点; (d) 延伸所述销定以产生销定延伸产物; (e) 检测所述延伸产物,由此鉴定所述靶序列的碱基;和 (f) 重复步骤(b)至(e)直到所述靶序列的序列被确定。
2. 如权利要求1所述的方法,其中包含所述核酸分子的所述表面是包含表面和连接到 所述表面的多个所述核酸分子的核酸阵列。
3. 如权利要求1或权利要求2所述的方法,其中所述核酸分子是包含多个单体单元的 多联体,各单体单元包括所述第一衔接物和所述靶序列。
4. 如前述权利要求中任一项所述的方法,其包括:通过将核苷酸添加到所述锚定或者 先前的所述锚定的延伸的产物中,而延伸所述锚定。
5. 如前述权利要求中任一项所述的方法,其包括:通过将测序探针连接到所述锚定或 者先前的所述锚定的延伸的产物,而延伸所述锚定。
6. 如权利要求5所述的方法,其包括:通过(i)将一个或多个延伸锚定连接到所述锚 定和(ii)将所述序列探针连接到所述的一个或多个延伸销定,而延伸所述销定。
7. 如权利要求5所述的方法,其包括:在重复步骤(b)至(e)之前,从所述核酸分子中 除去所述延伸产物。
8. 如前述权利要求中任一项所述的方法,其中所述水洗溶液包含柠檬酸。
9. 如前述权利要求中任一项所述的方法,其中所述水洗溶液包含溴化十六烷基三甲铵 (CTAB)〇
10. 如前述权利要求中任一项所述的方法,其中所述水洗溶液包含一定量的弱酸或阳 离子表面活性剂,与合适的对照品相比所述弱酸或阳离子表面活性剂有效地降低不一致性 达5 %或5%以上或者提高可映射率达0. 5 %或0. 5%以上或有效地降低不一致性达5 %或 5%以上且提高可映射率达0. 5%或0. 5%以上。
11. 如前述权利要求中任一项所述的方法,其包括:在将所述锚定杂交到所述第一锚 位点之前,将水洗溶液涂覆于所述表面。
12. -种用于对连接到表面的核酸分子进行测序的水洗溶液,所述水洗溶液包含酸、阳 离子表面活性剂或者两者,其中与合适的对照品相比所述水洗溶液有效地可检测地降低不 一致性或者提高可映射率达0. 5%或0. 5%以上或有效地可检测地降低不一致性且提高可 映射率达0. 5%或0. 5%以上。
13. 如权利要求12所述的水洗溶液,其中与合适的对照品相比,所述水洗溶液有效地 降低不一致性达5%或5%以上。
14. 如权利要求12或权利要求13所述的水洗溶液,其中与合适的对照品相比,所述水 洗溶液有效地提高可映射率达〇. 5%或0. 5%以上。
15. 如权利要求1至9中任一项所述的方法,其中在步骤(b)中涂覆的水洗溶液是如权 利要求12至14所述的清洗溶液。
【文档编号】C12Q1/68GK104508145SQ201380033351
【公开日】2015年4月8日 申请日期:2013年4月23日 优先权日:2012年4月23日
【发明者】马修·卡洛, 陈林苏, 丹尼斯·G·巴林格 申请人:考利达基因组股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1