用于核酸测序的方法和工具的制作方法

文档序号:5015402阅读:434来源:国知局
专利名称:用于核酸测序的方法和工具的制作方法
技术领域
本发明涉及核酸测序。本发明尤其涉及“经由合成的测序”(SBS),其中具有游离3’端的核酸链与含有需要其序列信息的模板的核酸退火,并用于引发第二链合成,其中核苷酸掺入的确定提供了序列信息。本发明部分地是基于这样一个精致的概念,其允许在所谓的“色度测序(chroma sequencing)”中使用非封闭的核苷酸,从而克服现有测序技术所具有的多种问题,并允许使用标准试剂和设备在单个工作日中获得极为大量的序列。优选的实施方案允许获得另外的益处。本发明也涉及用于序列分析的算法和技术,以及用于测序的设备和系统。本发明允许大量测序工作的自动化,而仅使用本领域很容易获得的标准台式设备。
本发明涉及在重复的步骤组中互补于模板链的第二链的引发合成,每一步骤包括提供提供一种或多种但任选地少于所有可能的核苷酸互补性类型,用于掺入到合成链中,并且每一组步骤包括提供所有四种可能的核苷酸互补性类型,任选地是在两个或更多个步骤中,其中至少一个步骤包括添加超过一种核苷酸互补性类型。优选地,这包括首先提供四种可能的核苷酸互补性类型中的三种,用于掺入到合成链中,然后单独地仅提供第四种核苷酸互补性类型。链延伸随着最后一个步骤的核苷酸掺入而终止,如在提供第四种核苷酸时,这是因为不存在其他核苷酸。确定终止之间核苷酸的数目和任选地其种类,允许快速地确定有关模板碱基组成和/或序列的信息。当每次使用单个“终止核苷酸”时,利用四种不同核苷酸中的每一种进行四轮以终止延伸,可提供能够用于极为快速且容易地确定全部模板序列的信息。
尽管在基因组研究中使用许多不同的方法,但直接测序是迄今最有价值的。事实上,如果能够使得测序足够有效,则基因组学中的所有三个主要科学问题(序列测定、基因型分析和基因表达分析)就都能够解决了。可对模式物种测序,可通过全基因组测序对个体进行基因型分析,并且可通过转化为cDNA及测序详尽地分析RNA群体(直接计数每一种mRNA的拷贝数)。
可通过测序解决的科学及医学问题的其他实例包括表观基因组学(epigenomics)(基因组中甲基化胞嘧啶的研究-通过将非甲基化的胞嘧啶亚硫酸氢盐转化为尿嘧啶,然后将所得的序列与未转化的模板序列进行比较)、蛋白-蛋白相互作用(通过对在酵母双杂交实验中所获得的命中目标进行测序)、蛋白-DNA相互作用(通过对在染色体免疫沉淀后所获得的DNA片段进行测序)等等。从而,需要高度有效的用于DNA测序的方法。
但是为了取代辅助方法如微阵列和PCR片段分析,需要极高的测序通量。例如,活细胞含有大约300,000拷贝的信使RNA,平均每一拷贝长约2,000个碱基。因此为了完全测序即使是单个细胞中的RNA,也必须探测6亿个核苷酸。在由许多不同细胞类型组成的复杂组织中,该任务变得甚至更加困难,因为细胞类型特异性转录物被进一步稀释。将需要每日千兆碱基的通量以满足这些需求。下表显示了对于每种实验所需通量的一些估计(人,除非另行指出)
本发明使得以上全部均能够以合理的花费实现。
用于DNA测序的方法利用荧光双脱氧核苷酸的Sanger测序(Sanger等PNAS 74 no.125463-5467,1977)是最为广泛使用的方法,并业已在96和甚至384毛细管测序仪中成功地自动化。然而,该方法依赖于对应于模板每个碱基位置的大量片段的物理分离,因而不容易提高为超高通量的测序(当前最好的仪器每天产生~2百万核苷酸的序列)。
序列也可以通过用从一组探针中选择的探针探测靶多核苷酸而间接获得。
经由杂交的测序使用代表了所有可能的最长为一定长度的序列(即一组所有的k聚体,其中k受限于能够装到微阵列表面上的探针的数目;对于100万探针,可使用k=10)的一组探针,并且与模板杂交。由该组探针重建模板序列很复杂,并且由于杂交动力学固有的不可预知的性质以及测序较大模板所需探针数目的组合激增,使之变得更为困难。即使这些问题能够克服,但通量将必然地低,因为每一个模板都需要携带数百万探针的微阵列,且阵列通常不可以再度使用。
毫微孔(nanopore)测序(US Genomics,美国专利6,355,420)利用了这样的事实,即当使长DNA分子强行穿过分隔两反应室的毫微孔时,结合的探针可作为所述反应室之间电导的变化检测出。通过用所有可能k聚体的亚群修饰DNA,有可能推断出部分的序列。迄今为止,尚未提出过可行的策略,以通过毫微孔途径获得全长序列,尽管如果有可能的话,原则上能够获得惊人的通量(30分钟一个人基因组的量级)。
业已设计了多种途径用于经由合成的测序(SBS)。
为了提高测序通量,将期望能够显现并行的大量模板上每个碱基的掺入,如,位于玻璃表面或类似反应室上的。这是通过SBS实现的(参见如Malamede等US4863849、Kumar US5908755)。存在两种通往SBS的途径或者检测由每个掺入的核苷酸所释放的副产物,或者检测永久性地附着的标记。
焦磷酸测序(pyrosequencing)(如WO9323564)通过检测无机二磷酸(PPi)形式的每个掺入单体的副产物来测定模板序列。为了保持所有模板分子反应的同步化,每次添加一种单体,且未掺入的单体在下次添加前被降解。然而,同聚亚序列(成串的相同单体)造成了问题,因为不能防止多重掺入。同步化最终被破坏(因为小部分模板上没有掺入或错误掺入的总数最终压倒了真实的信号),且当前最好的系统只能读取大约20-30个碱基,其联合通量大约为200,000个碱基/天。
虽然Sanger测序对每个模板都需要精致的仪器(即毛细管),但焦磷酸测序很容易地在单个反应室中进行并行化处理。US6274320描述了滚环扩增用来生产串联重复的线性单链DNA分子的用途,所述DNA分子附着于光学纤维,在焦磷酸测序反应中进行分析,所述反应随之可并行地进行。原则上,此种系统的通量仅仅受限于表面积(模板分子的数目)、反应速度和成像设备(分辨率)。然而,防止PPi在转化为可检测的信号之前从检测器扩散开来的需要意味着实际上必须限制反应位点的数目。在US6274320中,限制每个反应在位于光学纤维尖端的微型反应容器中进行,从而将序列数目限于每个光学纤维一个序列。
甚至更为受限的是焦磷酸测序所实现的短的读取长度(<30bp)。此类短序列在全基因组测序中并非直接可用,且平衡反应的复杂设置使得难以进一步延长读取长度。仅仅是偶尔地并且是对于特定的模板,曾经报道过最长为100bp的读取长度。
US6255083中描述了检测释放标记的类似方案。WO01/23610中描述了顺序添加核苷酸、并检测随即由外切核酸酶切割下来的标记的方案。
检测释放的标记或副产物的原理上的优势在于模板在后续步骤中保持不含标记。然而,由于信号从模板扩散开来,所以可能难以在固体表面如微阵列上并行此类测序方案。
代替检测释放的副产物,人们可在每一个掺入的核苷酸被添加到生长中的聚合物中时检测所述核苷酸。原则上,此种方案将如焦磷酸测序(每次添加一种碱基,在四种天然核苷酸之间循环)一样进行,但是相反,将使用标记的核苷酸类似物(即荧光)。作为实例,Polony测序(Mitra RD,Church GM.,Nucleic Acids Res 1999 Dec 15;27(24)e34“In situ localized amplification and contactreplication of many individual DNA molecules”)是建立在顺序添加荧光标记的核苷酸的基础上的。
检测附着于每一个所掺入的核苷酸的标记提出了另外的困难,其在于必须去除、计算扣除或物理猝灭每一步骤中所产生的信号,以为下一步作准备。此类去除可例如通过光漂白或者通过在核苷酸和标记之间使用可切割接头来完成。例如,Polony测序使用特异性设计的荧光核苷酸,其在核苷酸和荧光染料之间携带二硫酚接头。根据未发表的观察资料,使用还原剂如二硫苏糖醇可有效切割该接头,得到至少99.8%纯的核苷酸。
因为SBS法中的读取长度主要地受限于每一步骤中发生的同步性的丧失,所以将期望能够向测序反应中添加所有四种核苷酸,而又保留在每一次碱基掺入之间停止反应的能力。那样,所有四种核苷酸将总是可以利用(从而限制错误掺入率),而又将有可能监控每一个掺入碱基。
许多研究者已独立地设想了有时被称为碱基添加测序策略(BASS)的解决方案。通过使用3’-封闭的单体,可防止反应每次进行超过一个步骤,但所述封闭部分是不稳定的(如可光致断裂的或化学可降解的),从而可暴露3’-OH基团,以为下一个合成步骤作准备。
BASS包括1.提供单链模板和退火的引物;2.添加3’-OH封闭的荧光核苷酸;3.添加聚合酶,掺入单个核苷酸;4.读取荧光;5.去除封闭基团,例如通过光致断裂;6.重复步骤2-5。
这种方案的变形使用永久性3’-OH封闭的核苷酸,其利用外切核酸酶去除(WO1/23610、WO93/21340),或者使用不稳定的3’-OH封闭的核苷酸,其可恢复为功能性的3’-OH基团(US5302509、WO00/50642、WO91/06678、WO93/05183)。
所有的BASS方案都具有如下共性·使用封闭或终止核苷酸,以防止每次合成进行超过一个步骤。
·每一步骤掺入的核苷酸也被标记,通常是用荧光染料。
·在每一循环的结尾,去除封闭部分(或整个末端核苷酸),以为下一个循环作准备。
合起来,这些需求对BASS中所用的酶提出了难以克服的要求·它们必须接受同时在其3’封闭(其中修饰通常并不为酶所耐受)且被荧光标记的核苷酸。
·它们必须足够有效地掺入此类核苷酸,从而在每一个循环中所有模板仅有可忽略不计的一部分脱离同步化。
·它们必须能够严格地辨别此类核苷酸的碱基配对。
·它们必须不要过早地去除封闭基团或终止核苷酸。
迄今尚无人能够使得BASS运作的事实提示这些困难是不可克服的。例如,在(Metzker等“Termination of DNA synthesis by novel3’-modified-deoxyribonucleoside 5’-triphosphates”,NucleicAcids Res 199422(20)4259-67)中,所研究的8个酶中没有酶能够耐受3’-封闭的dUTP和3’-封闭的dCTP两者的,即使没有荧光标记所添加的复杂化。从而寻找能够接受3’-封闭的且被荧光标记形式的所有四种核苷酸的酶看起来几乎是没有希望的。
总之,若能够使得经由掺入的测序方法运作,则人们能够令人信服地对附着在表面上的数百万模板进行并行测序。检测掺入的而非释放的标记的主要吸引力在于反应能够在表面上并行。例如,在10×10cm的表面上,此种系统将能够对例如三千七百万个模板以约600000bp/s进行测序,每个循环60s(假定为1个模板/10μm的泊松分布),从而实现50Gb/24小时。原则上,在此种系统上每天可测序十个人的基因组。该系统的成本将与荧光扫描仪相当,而运行成本将与目前的Sanger测序仪的成本相当。
剩余的实现所述目标的主要障碍在于首先,在SBS中读取长度太短,以至于在大基因组的测序中不可用,以及第二点,尚未开发出以足够高密度将模板安置在表面上的可靠方式。
本发明在多个方面巧妙地解决了现有技术的问题。
附图简述

图1图解说明了利用每一种天然核苷酸(示于左侧)作为终止核苷酸,由色度测序法测序的模板(顶行,显示测序链)。每一种色度序列表示为一系列破折号(测量插入碱基的数目)和字母(测量连续的终止核苷酸的数目)。由该图看来,显然通过排列读数,可由读数栏获取原始序列。
图2在实施例II的核苷酸掺入测定中,该图显示了在有和无DNA聚合酶(克列诺(Klenow))下尝试掺入dTTP(以Cy3标记)、dATP和dGTP之后的荧光(任意单位)。预期结果是两个掺入的dTTP,而该图清晰地证明,由此种掺入事件产生了足够的信号,以至于能可靠地检测高于背景噪音的掺入。
图3图解说明了适合在规则的微阵列扫描仪中用于固相色度测序的反应室的实施方案。该图解显示了使用规则的25×75mm玻璃载玻片(1)的反应室组件,所述载玻片上可点样或随机附着模板。反应期间,橡胶垫圈(2)将玻璃密封于反应室。进口(3)和出口(4)由连接器(5)连于如图4中所图解说明的试剂分配系统。
图4图解说明了适合在图3的反应室中用于实施色度测序的试剂分配系统的实施方案。10-端口阀(1)使得试剂能够进出室(2)和废料管(6)进行分配,且最多八个的试剂容器(3)可容纳如任一给定的色度测序方案所需的不同试剂和洗涤缓冲液。注射器泵(4)和阀(1)可连同扫描仪(5,显示了载玻片架的部分视图)一起被容易地机动化和计算机控制,以用于完全自动化的系统。
本发明是建立在新型测序策略的开发的基础上的,所述策略改进了先前描述的经由合成的测序方法,同时使得其多数困难得以避免。它是这样的策略,即易于并行化、直接显现每个单体的掺入(即无需大小分级分离)且提供了长读取长度的可能性。
本发明基于这样的认识,即在SBS法中,与曾经假定的相反,并非必须在每个位置上停止(如在焦磷酸测序或WO1/23610的方法中是每次添加一种碱基,或者如BASS中那样使用封闭的核苷酸)。
相反,测序能够跳跃进行,从每个出现的特定“终止”核苷酸跳跃至下一个。可以标记插入核苷酸。可以标记终止核苷酸。这提供了改进,其可能是两种方案之间理想的折衷,即使用封闭基团的方案(其中每一步骤都是生产性的,但是解除封闭成问题)和通过以每次添加一种碱基实现同步化的方案(其中,以使得更多步骤是非生产性的、加剧了同步性丧失问题的成本避免了解除封闭)。同样,与BASS的情况相比,本发明消除了将标记置于同样的核苷酸上作为封闭基团的需要。
本发明的一个方面提供了经由合成的测序法,其特征在于以逐步的方式掺入核苷酸,其中一个步骤潜在地允许掺入超过一种核苷酸。
在优选的实施方案中,一个步骤潜在地允许掺入四种可能的核苷酸中的三种,这依赖于潜在的模板序列。优选地,不同的步骤允许掺入第四种可能的核苷酸,即不同于在第一步骤中能够潜在地掺入的三种的剩余的那种。
在其他实施方案中,实施不同的步骤,以允许在一组步骤中掺入所有四种核苷酸,其中至少一个步骤允许掺入超过一种但是少于所有可能的核苷酸。正如下文进一步讨论的那样,现有技术的方法可以概括为或者具有能够循环的一组四个不同的重复步骤,每个步骤原则上允许仅仅掺入四种核苷酸中的一种(掺入的核苷酸的实际数目依赖于潜在的模板序列),或者具有包括所有四种封闭的核苷酸的单个重复步骤,再次地在每一步骤中允许仅仅掺入四种核苷酸中的一种,这两者都可以概括为“1-1-1-1”的方法。原则上允许掺入所有四种核苷酸的单个步骤不可用于测序,其可概括为“4”的方法,这是因为测序的链将会立即与模板末端聚合。本发明在不同的实施方案中允许实施经由合成测序的方法,其特征在于在遵照不同于“4”或“1-1-1-1”模式的步骤中掺入核苷酸。从而,在优选的实施方案中,在遵照“3-1”的一组步骤中掺入核苷酸,如早已提及的那样。在其他实施方案中,一组步骤遵照“2-2”或“1-2-1”,或遵照不规则模式,其中在一组步骤内核苷酸可能重复(如“2-2-3”)。使步骤组按需进行循环。此外,可对具有不同模式的步骤组进行组合。
根据本发明的一个方面,提供了确定核酸序列和/或碱基组成信息的方法,所述方法包括(i)提供包含第一链的核酸,所述第一链包含核酸模板,其中与所述核酸模板第一链退火的核酸链的游离3’端允许互补于核酸模板的核酸链延伸,这是由模板依赖性的核酸聚合酶,通过模板序列依赖性地将核苷酸掺入到互补于核酸模板的核酸链中实现的;(ii)实施一组的一个或多个步骤,以期望的次数循环该组一个或多个步骤,或与其他组的一个或多个步骤联合实施,以延伸互补于核酸模板的核酸链,从而允许获得表示所述核酸碱基组成或序列的信息,其中一个步骤包括(a)在存在下述时包含第一链的核酸,所述第一链包含核酸模板,与所述核酸模板的第一链退火的核酸链的游离3’端,和模板依赖性核酸聚合酶;提供选自一种、两种、三种或四种核苷酸互补性类型的核苷酸,以用于由所述核酸聚合酶将所述核苷酸模板依赖性地掺入到互补于核酸模板的核酸链中,其中每一种所述核苷酸是天然核苷酸或核苷酸类似物,它们能够在核酸链的游离3’端由核酸聚合酶模板依赖性地掺入到DNA链中,且在每一种核苷酸互补性类型内,所述核苷酸和核苷酸类似物与腺苷(A)、胞嘧啶(C)、胸腺嘧啶(T)和鸟嘌呤(G)之一互补;和(b)除去或灭活未掺入的核苷酸;且其中在一组步骤内提供选自所有四种核苷酸互补性类型的核苷酸,并且其可用于进行模板依赖性的掺入,在至少一个步骤中,提供选自超过一种、任选两种、三种或四种核苷酸互补性类型的核苷酸,并且其可用于进行模板依赖性的掺入,且至少一种核苷酸互补性类型中的核苷酸,若掺入到互补于核酸模板的核酸链中,则允许互补于核酸模板的核酸链进一步延伸,和任选地在超过一个步骤中不提供核苷酸互补性类型,或者在该组步骤内不超过一个步骤中提供每一种核苷酸互补性类型;和其中,若在一个步骤中提供选自所有四种互补性类型的核苷酸,则一种、两种或三种核苷酸互补性类型中的核苷酸,若掺入到互补于核酸模板的核酸链中,则防止互补于核酸模板和存在的所有拷贝的核酸链进一步延伸,如果存在多拷贝的话;(iii)实施多组所述步骤,循环所述的步骤组和/或与不同的步骤组联合实施所述的步骤组;(iv)确定至少一组步骤中掺入到互补于核酸模板的核酸链中的核苷酸的性质和/或量,这是通过确定每一组的至少一个步骤中掺入到互补于核酸模板的核酸链中的核苷酸的性质和/或量实现的,对所述组要确定所掺入的核苷酸的性质和/或量。
正如所指出的那样,本发明允许进行测序而无需进行大小分级分离。
与位于核酸(如DNA)模板(关于它的序列信息和/或碱基组成信息是所期望的)5’的第一链退火的核酸的游离3’端,可以由与第一链退火的引物(如寡核苷酸引物)提供,可以由与第一链退火的第二链中的缺口提供(在此情况下,在延伸期间,第二链中最初与核酸模板退火的部分被置换或降解),或者可以通过自身的环提供,即允许自身引发的向后成环的第一链的延长物。
核苷酸或核苷酸类似物可由其碱基配对性质定义。从而互补于天然腺苷而掺入的所有核苷酸或核苷酸类似物属于胸腺嘧啶的核苷酸互补性类型,互补于天然鸟嘌呤而掺入的那些属于胞嘧啶的核苷酸互补性类型,互补于天然胸腺嘧啶而掺入的那些属于腺苷的核苷酸互补性类型,而互补于天然胞嘧啶而掺入的那些属于鸟嘌呤的核苷酸互补性类型。从而核苷酸互补性类型描述和定义了核苷酸或核苷酸类似物就模板指导的聚合而言的逻辑性质。
通过在反应介质中提供核苷酸,用以通过模板依赖性的聚合酶掺入,而潜在地允许其掺入核苷酸。
核酸模板可以是脱氧核糖核酸(DNA),核酸聚合酶可以是DNA依赖性的DNA聚合酶,而核苷酸可以是脱氧核糖核苷酸或脱氧核糖核苷酸类似物。
核酸模板可以是脱氧核糖核酸(DNA),核酸聚合酶可以是DNA依赖性的核糖核酸(RNA)聚合酶,而核苷酸可以是核糖核苷酸或核糖核苷酸类似物。
核酸模板可以是核糖核酸(RNA),核酸聚合酶可以是反转录酶,而核苷酸可以是脱氧核糖核苷酸或脱氧核糖核苷酸类似物。
在本发明各个方面的优选实施方案中,其中潜在地掺入超过一种不同的核苷酸的步骤中所用的核苷酸选自标准核苷酸。
在本发明各个方面的一些优选实施方案中,其中潜在地仅仅掺入不同核苷酸中的一种的步骤中所用的核苷酸是选自标准核苷酸的核苷酸。
在其他实施方案中,可采用修饰的核苷酸或类似物,如文中别处所进一步讨论的那样。
本发明所采用的核苷酸可被标记,且标记可包括荧光标记。不同的核苷酸(如A、C、G和T的互补性类型之间那样)可由不同的标记来标记,例如,可能为不同颜色的不同荧光标记。
正如所指出的那样,本发明提供了经由合成的测序方法,其特征在于以不同于4或1-1-1-1的方案掺入核苷酸。
从而,优选掺入方案首先允许潜在地掺入2个或3个核苷酸,然后,一般是继洗涤步骤以除去未掺入的核苷酸之后,在不同的步骤中,该掺入方案允许潜在地掺入2个核苷酸或1个核苷酸。可进行步骤组的组合,以提供总的反应方案。
当然,要依照本领域可利用的知识和技术,在反应介质中提供适当的条件,以用于在DNA链的3’端实施模板依赖性的核苷酸掺入。
在一个实施方案中,本发明提出了这样的方法,其包括一个循环的步骤或步骤组提供DNA模板,其中与位于DNA模板5’的第一链退火的核酸链(如退火引物)的游离3’端允许合成互补于DNA模板的DNA链,在第一步中在聚合酶的存在下、在将核苷酸掺入到互补于模板的延长链的条件下,添加一组标记的核苷酸(称为“插入”核苷酸),紧接着洗涤以除去未掺入的核苷酸,然后在第二步中在聚合酶的存在下、在基于引物地将核苷酸掺入到延长链的条件下,添加第二组标记的核苷酸(“终止”核苷酸),紧接着洗涤以除去未掺入的核苷酸,并确定掺入核苷酸的标记。该组步骤可重复所需要的循环或次数。
从而在每一步骤中确定掺入核苷酸的数目(但非次序)。如果针对不同核苷酸的标记是可区分的,则每一个掺入的核苷酸种类的数目(但非次序)将会得以确定。
以这种方式,即通过确定标记所获得的关于掺入核苷酸的信息被称为色度。色度并非标准的DNA序列,但是·它可用作为签名(signature)序列,并与已知的DNA序列进行比对;·一组四个(通常地)这样的序列能够重新组装成为正常的DNA序列(如文中进一步所阐释的那样)。
本发明的实施方案,以及色度的概念,可通过参照使用dA、dC和dG作为插入核苷酸而使用dT作为终止核苷酸所获得的一般序列来举例说明,例如,记做如下dT[1A,2C,1G,1T]-[2A,2C,1G,3T]-[2A,2C,1G,1T]-
其中,括弧中的数字给出了在每次出现dT之间的每个插入核苷酸的丰度,如通过其标记强度所测量的那样,并加上连续dT的数目。
若干个DNA序列能够产生该数据,例如
ACCGTGCACATTTACAGCTCTCAGCTCCAAGTTTCACGATCT等…下文提供了碱基引入(base-calling)策略,其使用由四种这样的序列读数(相继使用四种核苷酸中的每一种作为终止核苷酸)所获得的信息或色度以明确地确定原始序列。
在一个方面,本发明优选的实施方案提供了这样的方法(方案I),其包括1.为单链模板提供具有3’端的退火DNA链,以作为引物起作用。
2.添加一组一种或多种标记的核苷酸(称为“插入核苷酸”),如此选择它们,从而至少一种互补于模板的核苷酸(称为“终止核苷酸”)被排除在该组标记核苷酸之外。通常,添加携带可区分标记的三种核苷酸(第四种天然核苷酸为终止核苷酸)。
3.任选地,添加一种或多种封闭核苷酸(不同于标记核苷酸)。这些也是“终止核苷酸”。实例包括3’-O-修饰的核苷酸,其可以携带可光致断裂的基团,当照射时留下3’-OH,或者其他修饰,即无环核苷酸和双脱氧核苷酸。
4.任选地,添加一种或多种非掺入的抑制剂核苷酸(不同于标记核苷酸和封闭的核苷酸),它们可以发挥防止在所述标记或封闭核苷酸组中没有互补物的模板位置上的错误掺入的作用。实例包括5’-双-和单-磷酸核苷酸,5’-(α-β-亚甲基)三磷酸核苷酸。
5.与适当的聚合酶在导致核苷酸添加到生长链的条件下温育。
6.洗去未掺入的核苷酸。
7.如果在步骤3中添加了任何封闭核苷酸,则a.除去封闭部分,如通过光致断裂、酶促转化或化学反应。
b.备选地,通过外切核酸酶处理且随后掺入非封闭的核苷酸来取代全部核苷酸(例如参见WO1/23610、WO93/21340)。
8.添加剩余的核苷酸(“终止核苷酸”),它们是确保存在于模板中的所有核苷酸都添加了互补物所必需的,并与聚合酶(并非必须和步骤5中的相同)在导致核苷酸添加到生长链的条件下温育。该终止核苷酸可任选地被标记,和/或3’-封闭(如在BASS中那样)。
9.洗去未掺入的核苷酸。
10.检测每一个标记核苷酸的存在和/或量。
11.任选地,除去所述标记和/或3’-封闭基团或使其失效。例如,荧光标记可被光漂白。
12.重复步骤2-11,直至所需的循环数得以完成。
此种测序方法尤其适合于在固相上并行化,这既是因为其简单易行,又是因为它提供了稳健的同步化方法。该方案可通过在步骤1由新鲜引物重新启动而重复多次。
在步骤3和8中所添加的核苷酸被称为终止核苷酸,因为它们在步骤5中防止(通过被封闭或通过不存在)聚合继续越过其互补物。所述终止核苷酸组可有变化。例如,如果反应自步骤1起进行四次,则四种天然核苷酸中的每一种都可用作为终止核苷酸。
引物通过碱基互补性与模板退火,留下游离的3’端,其上可通过模板依赖性的DNA聚合酶逐个地添加核苷酸。正如所指出的那样,游离3’端可通过使双链DNA分子的一条链产生缺口,或者通过允许单链的游离3’端向后成环用于自我引发而产生。
注意“标记的”分子应当理解为包括纯的标记分子以及标记和未标记分子的混合物。例如,标记的dTTP可以是纯的荧光素标记的dTTP,或者荧光素标记的dTTP和常规未标记dTTP的混合物。标记与未标记的最佳比率是由若干因素决定的·获得足够信号以克服设备噪音的需要。例如,在PerkinElmerScanArray上,2.5的荧光染料/象素产生三倍于噪音水平的信号。
·避免多个荧光染料紧邻的需要,以避免荧光共振能量转移(FRET,这导致一种荧光染料猝灭另一种)。FRET随着距离的六次幂而衰减,但在几个核苷酸的范围内仍然可以是重要的。
·避免多个荧光染料紧邻的需要,以避免抑制随后由聚合酶掺入核苷酸(其可能受大体积荧光染料空间效应的抑制)。
·作为另一种选择,人们可强制标记的核苷酸级分用于终止生长链,例如,通过使用标记的无环或双脱氧核苷酸,或通过将标记置于3’-OH上或其附近。只要标记的核苷酸仅占全部核苷酸的一小部分,则由终止所导致的信号的丧失依然无关紧要,而同时由于酶对修饰核苷酸更低的亲和力所致的同步性的丧失可完全避免。
发明人实验室的工作发现~2.5%或更少的标记核苷酸可良好地起作用(见下文实施例)。假设模板为100bp序列的1000个串联重复拷贝,则对于每个掺入的核苷酸,获得每个模板至少25个荧光染料(即,在PerkinElmer ScanArra上,若每一个模板都在象素内,则高于噪音水平10倍以上)。假设在一个平均的循环中掺入了四个核苷酸,则标记间距平均为1000个碱基,避免了猝灭和聚合酶抑制两者。
在本发明另外的实施方案中,方案I(举例来说)允许了缓和对聚合酶的一些制约的BASS变形。如果插入核苷酸组被标记但未被封闭,同时终止核苷酸未被标记但被封闭,则可在单个步骤中作为混合物添加所有四种核苷酸,然后如上文那样洗涤和扫描。可使用接受封闭核苷酸和标记核苷酸两者的聚合酶,或者可以使用不同的聚合酶,在第一步骤中添加标记的插入核苷酸,而在第二步骤中添加封闭的终止核苷酸。此种修饰的方案的色度差异在于同聚物作为没有掺入的邻近循环而被检出;它们各自随着掺入的单个终止核苷酸而终止,从而逐步地扫描同聚物,而非在单次运行中填充它。在这样的方案中,可能期望使用可光致断裂的荧光染料(见下文)以及可光致断裂的3’-封闭基团。备选地,可以使用通过温和的化学处理可除去的封闭基团,例如,Kamal等(Tetrahedron Letters 1999,vol.40,pp.371-372)中描述的烯丙基基团。
在特别简单的实施方案中,本发明的一方面提供了这样的方法(方案II),其包括1.为单链模板提供退火DNA链上的游离3’端,以作为引物发挥功能。
2.添加携带可区分标记的三种核苷酸,如可区分的荧光标记。
3.任选地,添加一种或多种非掺入的抑制剂核苷酸(不同于标记核苷酸)。实例包括5’-双-和单-磷酸核苷酸,5’-(α-β-亚甲基)三磷酸核苷酸。
4.与适当的聚合酶在导致核苷酸添加到生长链的条件下温育。
5.洗去未掺入的核苷酸。
6.添加剩余的核苷酸(标记的,例如荧光地),并与聚合酶(并非必须和步骤5中的相同)在导致核苷酸添加到生长链的条件下温育。
7.洗去未掺入的核苷酸。
8.检测每一个标记核苷酸的存在和量。
9.使标记失效(例如,通过光漂白,并非每个循环都必需,或者,通过用例如二硫苏糖醇进行化学处理以切割二硫键)。
10.重复步骤2-7,直至所需的循环数得以完成。
例如,人们可在步骤2中使用dA/dG/dC(如标记为红色/绿色/蓝色),然后在步骤6中添加dT(如标记为黄色)。步骤4将添加任何数目的dA、dG和dC,直至模板中首次出现dA,然后因为没有互补的核苷酸而终止。步骤8中dA/dG/dC(如红色/绿色/蓝色)的荧光读数将与每一个dT之间dA、dG和dC的数目成比例,而掺入的dA(如黄色)的荧光将与连续dT的数目成比例,并且在光谱分离后,可定量各种贡献。获得的序列一般可记做为四种成员的序列,给出了每一个dT之间dA、dG和dC的数目(但非次序)。
例如,序列ACGCTACGCATCAGACTTC(即模板TGCGATGCGTAGTCTGAAG)可记做为[1A,2C,1G,1T]-[2A,2C,1G,1T]-[2A,2C,1G,2T]-

通过根据方案II实施四种不同的反应,在四种可能性之间改变终止核苷酸,人们能够确保在四种反应之一中在每一个不同碱基处终止。
尽管荧光染料便于使用,但并非所有的荧光染料都易于漂白。在上述操作中可使用其他类型的标记,只要对每个循环而言,它们能够去除、灭活或计算扣除即可。不过,在另外的实施方案中,为了允许更宽的标记选择,去除(如荧光染料的光漂白)可任选地替换为完全重新开始,例如如下首先,用标记的如荧光核苷酸进行一个循环。除去新近合成的DNA链,如通过甲酰胺处理,并使新鲜引物退火,以重新开始该过程。这次,用未标记的核苷酸进行一个循环,接着用标记的核苷酸进行一个循环。重复该过程,每一次用渐增循环的未标记核苷酸。以这种方式,仅仅每次重新开始的末次循环被标记,消除了去除在前循环的标记(如漂白荧光染料)的需要。
也可利用相同的途径越过非目的区,有点像移动磁带录音机的读磁头。
作为光漂白的备选方案,可使用在核苷酸和荧光染料之间携带可切割接头的修饰的荧光核苷酸。例如,业已描述过携带二硫键的此类核苷酸,其可由还原剂如二硫苏糖醇有效地切割(见Rob Mitra和George Church关于用来测序和基因型分析的polony技术的工作,关于包括化学结构在内的细节,可利用浏览器在因特网上找到,如http//cbcg.lbl.gov/Genome9/Talks/mitra.pdf。类似地,Li等(PNAS 2003,vol.100 no.2,pp.414-419)描述了包含光不稳定的2-硝基苄基接头的可光致断裂的荧光核苷酸。
根据方案II的方法允许实现许多优点·与当前多数循环是非生产性的SBS法(因为在此法中,人们每次添加单个碱基,在该位置上互补的几率<50%)相比,由于四种反应之一在每一个模板位置上终止(忽略同聚物),所以测序n个碱基所需的循环数为n。
·由于对四种反应中的每一种而言,合成是由引物重新开始的,所以主要地依赖于循环数的因素将以4倍低的程度有问题。特别是,在许多循环后将会发生同步性的丧失,但是对于四种反应的每一种,由于所有模板都被有效地重新同步化,所以与SBI或焦磷酸测序法相比,在相似条件下,能够读取四倍之多的碱基(见下实施例)。
·不需要完整序列的应用(即用于基因表达的签名测序,用于表现基因组学的甲基-胞嘧啶测序,以及用于特定SNP的SNP分析)可使用只从四种反应之一中所获得的部分序列。所获得的序列包含等价于每个循环1个碱基对的信息。见下文的方案III。还见图1关于由不同反应中每一种dA、dC、dG和dT的组成可获得的数据的图解。那些数据的任何一种都足以用于所需的目的,例如,确定若干可能的序列(如在dA核苷酸中存在差异)中的哪一个存在于测试样品之中。
·同聚物链总是测量四次,使得它们比在SBI或焦磷酸测序法中更易于正确地碱基引入。见下文的碱基引入算法II。
碱基引入算法I(基本策略)这部分公开内容列举了本发明以下方面的例示性的实施方案,这些方面涉及根据通过包括使用所公开的终止和插入核苷酸的方法所获得的信息鉴定序列。
通过根据方案II实施四种不同的反应,在四种可能性之间改变终止核苷酸,人们能够确保在四种反应之一中在每一个不同的碱基处终止。下文的表显示了在使用四种终止核苷酸中的每一种的四个循环中将会由序列ACGCTACGCATCAGACTC(模板TGCGATGCGTAGTCTGAG)获得的结果或色度
自左向右读,人们能够容易地看出第一个核苷酸一定是A(因为有关A的第一步骤没有产生任何其他碱基的荧光,因此一定是终止的而不含任何掺入核苷酸)。除去相应的条目,并记录A,可以产生
序列A现在左侧唯一相符的条目是有关C的,因为其表明了只有1个A的存在。除去相应的条目,并记录C,我们得到
序列AC现在左侧唯一相符的条目是有关G的
序列ACG现在左侧唯一相符的条目是有关C的,因为其表明了在这个和之前的C之间只有1个G,与我们迄今所得的序列一致。
照此继续,最终提供完整的序列ACGCTACGCATCAGACTC。
事实上,容易看出由每一步骤的插入核苷酸所获得的荧光总数度量每一个终止核苷酸之间的总距离,而来自终止核苷酸的荧光度量连续的终止核苷酸的数目,并且,人们因此总是能够由一组四种反应来确定序列。这个事实进一步参照图1举例说明。
扫视图1中的四行,便使得能够“读取”序列。有可能这样获得序列,即通过简单地确定每一个循环中所掺入的终止核苷酸的数目(通过所测标记如荧光的量级),以及每一个循环中所掺入的插入核苷酸的数目(再一次地通过所测标记的量级),并将使用四种不同核苷酸中的每一种作为终止核苷酸的四次运行中的每一次运行的结果进行排列。不过,优选地,确定每一次运行中插入核苷酸的性质(这可能意味着特性),从而提供允许极快和准确确定序列的信息简并性,允许标记量级测量中的误差,例如如本文进一步所讨论的那样。
碱基引入算法II可使用例如动态程序设计、最小二乘方最优化和/或正则表达式执行更为复杂的碱基引入算法,以在面对测量误差时找寻最佳序列。此类算法也可以更好地利用可获得信息的冗余性。换言之,与仅使用每次出现的相同核苷酸之间的测量长度相反,此类算法将找寻最佳序列,其使所预期的和所观察到的三种插入核苷酸中的每一种的丰度之间的差异最小化。
本发明人提供了可运行的动态程序设计算法,尽管有20-25%的噪声,其也运行良好。其首先使用动态程序设计进行四个系列测量的多重比对,从而在每一步使所预期的和所观察到的三种插入核苷酸中的每一种的丰度之间的差异最小化。然后,基于四种可获得的距离测量,利用最小二乘方最优化找寻每一种同聚物链最可能的长度。
术语和定义同聚物是一种特定核苷酸的连续序列。同聚物序列是其中同聚物记做为数字而非重复的字母的DNA序列,即ACCGGT记做为ACGT,并具有同聚物长度1,2,2,1。
设色度为利用四种天然核苷酸中的每一种作为终止核苷酸,通过将本发明的方法如方案I重复四次所获得的一组测量值。从而色度为由循环、终止核苷酸和所测核苷酸索引的测量值的三维数组。例如,如果对每一个终止核苷酸进行10个循环,则色度将包含10(循环数)乘以4(终止核苷酸的数目)乘以4(所测核苷酸的数目)个成员,且位置{4,‘A’,‘C’}上的数字将是在循环数为4时当腺苷用作为终止核苷酸时所测的胞嘧啶的荧光。为方便起见,设x的色度为全部色度中包含由x作为终止核苷酸所获得的测量值的亚组。从而A的色度是全部色度的四分之一。
设N为在每一次重复中所进行的循环数。因此色度为由标记测量值推断出的4*4*N个成员。
设引入序列为核苷酸序列S0,S1,...Sk(其中每一个S为[A,C,G,T]之一)。碱基引入的目的是在给定色度时找寻最佳引入序列。为方便起见,我们将同聚物链表示为量而不是重复相同的碱基,换言之,我们使引入序列中的每一个位置i与一个量qi相关,它给出了碱基Si估计的重复数。为保持一致,我们如此限定序列,从而对于所有的n,Sn+1≠Sn。
碱基引入阶段I,动态程序设计碱基引入的目的是在给定色度时找寻最佳引入序列。然而,存在4*3k-1个可能的长度为k的引入序列,即使是对于相当小的k,也是极大的数目(k=20时,存在超过40亿个可能的引入序列)。为了找寻可用的碱基引入算法,简化此问题的复杂性。
引入序列可通过每一种核苷酸的出现次数归类。例如,碱基计数{1,2,0,4}对应于任一含有1A、2C、无G和4T的序列。此种序列的一个实例是TCTATCT。
根据本发明提供的算法利用了这样的事实,即在一些简单的情况下,我们能够容易地得出最佳的引入序列,且通过递归,更为困难的情况能够由较为简单的情况推断出来。
一些简单的情况容易解决。碱基计数{0,0,0,0}对应于空的引入序列。计数{1,0,0,0}仅能够对应于引入序列‘A’,并且对于C、G和T也是类似的。
然而,碱基计数{1,1,1,1}可对应于‘ACGT’、‘TCGA’等等。在此类情况下,色度可用于找寻最佳的引入序列。
注意具有碱基计数{i,j,k,l}的任何引入序列必须精确地对应于特定亚组的色度,也就是说,包括i个循环A的色度、j个循环C的色度、k个循环G的色度以及l个循环T的色度的亚组。因此可将引入序列预测的色度与实际所测量的色度进行比较。{i,j,k,l}的最佳引入序列将是其预测色度与相应亚组的实际测量色度最为相似的那一个。相似性可由多种方式测量,例如,作为差分和(sum ofdifferences)、方差和(sum of square differences)、Pearson相关系数等。相似性可报告为得分,即作为待进行最小化的误差得分或待进行最大化的相似性得分。
所述一般情况{i,j,k,l}不能直接解决。但{i,j,k,l}的最佳引入序列可由最多四种不同的方式由较短的序列产生通过向{i-1,j,k,l}的最佳序列中添加‘A’,通过向{i,j-1,k,l}的最佳序列中添加‘C’,通过向{i,j,k-1,l}的最佳序列中添加‘G’,或者通过向{i,j,k,l-1}的最佳序列中添加‘T’。
通过计算得分(如上所述,通过比较预测色度与实际色度)并选择最小值(或最大值,视所用的措施而定),人们能够找出(最多)四种延伸中的哪一个是最佳的一个。在下文显示了这是如何进行的,但暂时假定已经得到了这样的得分。
我们将q设置为由色度所获得的实际测量的量的新近引入的碱基。例如,当考虑使用‘A’的延伸(即由{i-1,j,k,l}到{i,j,k,l})时,则将会由位置{i,‘A’,‘A’}处的色度获得q,即在循环i中使用腺苷作为终止核苷酸时所测得的标记腺苷的量。
从而,{i,j,k,l}的最佳引入序列总是能够通过找出少含一个引入碱基之一的序列的最佳延伸而得到。然后该操作可对每一个更短的情况进行重复,直至达到全部为零的解的情况如{1,0,0,0}。因此通过递归性地应用同样的简单操作,总是有可能得到任何长度的最佳引入序列。作为副产物,获得了如在色度中所测量的同聚物长度qi。
应用的少数限制·序列不能含有少于零的任何碱基。因而我们不能通过用‘T’延伸{i,j,k,-1}而得到{i,j,k,0}的最佳引入序列。由于这个限制,所有的递归必须最后终止于
、[tac g]和[acg t]重新启动并重复...
总序列88bp+27bp部分序列总而言之,色度测序规避了同步性丧失问题,实现了超过四倍的更长的读取长度。
固相色度测序为了使所述方法自动化和并行,根据本发明的实施方案提供了两种主要的途径。
第一种途径使用阵列或以其他方式排列的模板,并且适合在必须对大量模板在保留其特性情况下进行测序时。
第二种途径使用对固体支持物的随机附着,并且可用在必须由文库随机获得大量序列的时候。
根据本发明用于测序阵列模板的一个方面的实施方案的方法提供了这样的方法(方案V),其包括1.提供固体支持物,其提供了许多活性区域或活性表面,每一个都能够结合模板分子,其中结合是a.直接地,或者b.间接地,通过结合引物或接头,所述引物或接头与模板杂交或以其他方式与模板具有亲和力。
2.向每一个活性区域或向活性表面添加单链模板,跟踪每一位置上安置哪一个模板。则每一个区域将由大量同样的ssDNA模板组成,如在斑点微阵列中那样。
3.任选地,添加引物(或者利用来自固体支持物的接头)。
4.根据本发明并行地测序所有的模板,如根据方案I-IV的任一种。
5.获得关于每一鉴定模板的序列。
在所有活性区域中,接头(步骤1b)并不是必须相同。可使用不同的接头以从复杂的混合物中钓出特定的模板,从而提供了测序亚组文库的可能性。
方案V的通量受限于用于添加模板的装置的分辨率。利用标准的微阵列仪器,每平方厘米数千个模板的密度是可能的。
当需要更高的通量且模板密度并不重要时,可以使用另一种途径。
本发明一方面的另一实施方案是作为这样的方法(方案VI)提供的,其包括
1.提供固体支持物,其携带有在随机位置上附着的至少是部分单链的模板分子(优选是以适合于检测仪器的密度),任选地扩增每一个模板,以容纳多拷贝的靶序列,它们或者附着于或者极其邻近于原始模板(至少比任何其他模板分子更为靠近)。
2.利用本发明并行地测序模板,例如方案I-IV的任一种,并行地检测标记的核苷酸。
存在许多途径高密度地提供扩增模板。例如,可如下使用滚环扩增a.为表面(如玻璃)提供附着的引物,优选介由共价键附着,或者与共价键相反,可使用极强的非共价键(如生物素/链霉抗生物素蛋白)。
b.添加环状模板,优选以适合于检测仪器的密度添加。
c.使模板与引物退火。
d.利用滚环扩增进行扩增,以产生在每一位置上附着于表面的长的单链串联重复模板。
Lizardi等描述了“Mutation detection and single-moleculecounting using isothermal rolling circle amplification”Nature Genetics vol 19,p.225。
对此方法的修饰包括提供反向引物以产生附加的复制叉,从而提高产物得率。RCA的备选方法包括固相PCR(Adessi等“Solid phaseDNA Amplificationcharacterization of primer attachment andamdlification mechanisms”Nucleic Acids Research 200028(20)87e)以及凝胶内(in-gel)PCR(‘polonies’,US6485944和MitraRD,Church GM,-In situ localized amplification and contactreplication of many individual DNA molecules”,Nucleic AcidsResearch 199927(24)e 34)。
“合适的密度”优选为使通量最大化的密度,例如,确保尽可能多的检测器(或检测器中的象素)检测单个模板分子的有限稀释。在任何常规阵列上,完美的有限稀释将使得37%的所有位置持有单个的模板(由于泊松分布的形式);其余位置将不持有或者持有超过一个模板。
例如,在具有25μm象素大小的Typhoon 9200上,35×43cm的反应室持有二亿四千万象素。通过有限稀释(泊松分布),其中37%将持有单个的模板,即8900万个模板。对每个模板上的50个碱基进行测序在50个循环中产生1.7Gb的序列。扫描时间为45分钟,日通量约为3Gbp,等价于人类基因组的全部序列。
适合用于固相RCA的模板应当最优化得率(就模板序列的拷贝数而言),同时提供适合于下游应用的序列。一般而言,优选小模板。特别是,模板可由20-25bp的引物结合序列和40-150bp的插入片段组成。引物结合序列既可用于起始RCA,又可用于引发测序反应,或者模板可包含单独的测序引物结合位点。插入片段应当尽可能地小,同时保持足够长以容纳所需序列。例如,如果利用单个终止核苷酸进行10个循环的测序,则平均将探测40个碱基,因而模板必须至少比40个碱基长足够多,以防止测序引物结合序列。
为了增大由滚环扩增的模板所产生的信号,可能有必要浓缩它们。因为RCA产物基本上是单链DNA分子,其由多至1000或者甚至是10000个原始环状模板的串联复制物组成,所述分子将非常长。例如,利用RCA扩增了1000倍的100bp模板将在30μm的量级,因而将其信号将延伸跨越几个不同的象素(假定为5μm的象素分辨率)。利用低分辨率仪器可能无助于事,因为稀少的ssDNA产物仅占据30μm象素区域内非常小的一部分,因此可能不可检测。从而,期望能够将信号浓缩至更小的区域。
在(Lizardi等,上文所引述的)中,RCA产物是通过使用表位标记的核苷酸和多价抗体作为交联剂浓缩的。在另一方面,本发明提供了简单的备选方案,其在测序原始双链DNA时特别方便。
关于用于根据本发明的方法的模板制备,并且作为本发明的另一方面,将dsDNA模板(其可能是短的,如80bp)连接于携带发夹环的接头寡核苷酸,以形成假双链的环结构或哑铃形。在此种结构中,可将用于RCA和随后的测序反应两者的引物结合位点置于发夹环中。为了避免同时测序两条链,通过使用用于RCA扩增的以及用于测序的不同引物,人们可确保将仅仅测序在其两端具有不同发夹环的模板。从而,将仅仅扩增具有至少一个RCA引物结合位点的模板,并且将仅仅测序具有至少一个测序引物结合位点的那些模板。
由于此种模板的RCA产物在各处将是部分双链的,所以它将向回折叠成Z字形结构,浓缩至更小的区域。但是由于引物结合位点在各处是作为单链DNA暴露的,所以引物接近不成问题。下文的实施例显示在RCA后此类模板形成~5-10μm的产物。
为了将寡核苷酸固定在表面上,业已描述了许多不同的途径(参见如Lindroos等“Minisequencing on oligonucleotide arrayscomparison of immobilisation chemistries”,Nucleic AcidsResearch 200129(13)e69)。例如,可将生物素化的寡核苷酸(oligo)附着于链霉抗生物素蛋白涂覆的阵列;可将NH2-修饰的寡核苷酸共价附着于环氧硅烷衍生化或异硫氰酸酯涂覆的玻璃载玻片,可通过肽键将琥珀酰化的寡核苷酸偶联于氨基苯基-或氨丙基衍生化的玻璃,并且可通过硫醇/二硫化物交换反应将二硫化物修饰的寡核苷酸固定在巯基硅烷化(mercaptosilanised)的玻璃上。更多业已在文献中描述。
用于自动化高通量测序的装置根据本发明的方法尤其适合于自动化,这是因为它们可简单地通过经过置于检测器之上或其中的反应室循环许多试剂溶液而进行,任选地带有热控制。
在一个实例中,检测器为荧光扫描仪,例如,它可能是通过激光激发、带通滤波和光电倍增管检测而运转的。例如,ScanArrayExpress(PerkinElmer)是这样的一种仪器;它以5μm/象素的分辨率扫描显微镜载玻片,能够检测少至每象素2个荧光染料,并具有~20分钟的扫描时间(以四种颜色)。在这样的仪器上的日测序通量最高将为1.7Gbp。
反应室提供了·对扫描头(scan head)的容易接近。
·密闭的反应室。
·用于注射和从反应室中移取试剂的进口。
·允许空气和试剂进入和排出反应室的出口。
反应室可构建为如图3所示的标准微阵列载玻片形式,适合于插入到标准微阵列扫描仪如ScanArray Express中。反应室可被插入到扫描仪中,并在整个测序反应期间保持在那里。泵和试剂瓶(例如,如图4所示)根据固定的方案供应试剂,且计算机控制着泵和扫描仪两者,在反应和扫描之间交替。任选地,反应室可以是温控的。
可将分配器单元连接于机动化的出口,以指导试剂的流动,整个系统在计算机的控制下运行。集成系统将由扫描仪、分配器、出口和贮液器,以及控制的计算机组成。
根据本发明的另一方面,提供了用于实施本发明方法的仪器,该仪器包括能够检测掺入或释放的标记的成像元件,用于盛装一个或多个附着模板的反应室,从而每组步骤至少有一次它们能够接近成像元件,用于为反应室提供试剂的试剂分配系统。
反应室可以提供,且成像元件可能能够分辨,密度至少为100/cm2,任选地至少1000/cm2、至少10 000/cm2或至少100 000/cm2的附着的模板。
成像元件可采用选自下组的系统或装置光电倍增管、光电二极管、电荷耦合的装置、CMOS成像芯片、近场扫描显微镜、远场共焦显微镜、广视野表面照明(epi-illumination)显微镜和全内反射显微镜。
成像元件可检测荧光标记。
成像元件可检测激光诱发的荧光。
在根据本发明的仪器的一个实施方案中,反应室是密闭结构,包括透明表面、盖以及用于使反应室与试剂分配系统附着的端口,其中透明表面在其内表面盛装模板分子,而成像元件能够穿过透明表面成像。
实施例I-原位模板扩增通过退火4μl 100pmol/μl的两个5’-磷酸化的寡核苷酸(TGGTCATCAGCCTTCATGCAACCAAAGTATGAAATAACCAGCGTAATACGACTCACTATAGGGCGTGGTTATTTCATACT和TTGGTTGCATGAAGGCTGATGACCATCCTTTTCCTTACTAGCGTAATACGACTCACTATAGGGCGTAGTAAGGAAAAGGA),并添加2μl T4连接缓冲液、0.3μl T4DNA连接酶(1.5 Weiss单位;Fermentas)和7μl水,并在37℃温育1小时来制备环状单链模板。然后通过在65℃温育10分钟来灭活连接酶。
引物A50T7RC(AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGCCCTATAGTGAGTCGTATTACGC)携带5’末端氨基(-NH)部分,通过在100μl MOPS(0.2M,其中醋酸钠和EDTA根据Sambrook等‘Molecular Cloning’,third edition,Cold Spring Harbor Laboratory Press 2001制备)中温育10μM引物5分钟,而附着于Greiner甲硅烷基化的微阵列载玻片上,在1ml PBS/乙醇(3∶1)中用2.5mg NaBH4还原5分钟,然后在0.2%十二烷基硫酸钠中冲洗,接着用蒸馏水冲洗。
然后温育干燥的载玻片,用于使用2μl dUTP-Cy3(100μM的终浓度,PerkinElmer)、各2μl的dTTP、dATP、dCTP和dGTP(全部1mM的终浓度,NEB)、4μl测序酶缓冲液、1μl测序酶(13u,AmershamBiosciences)、4μl水和1μl模板进行滚环扩增。从而标记核苷酸约为全部核苷酸的2.5%。在于37℃温育两小时后,在水中冲洗载玻片,并在PerkinElmer ScanArray Express上扫描。结果为大量的亮斑,分别代表了扩增的模板。该结果也显示以这种形式能够容易地检测出2.5%的标记频率(事实上,许多斑点使检测器饱和)。
部分载玻片的放大显示,在5μm图像的象素大小下,大多数扩增的模板占据一个或小数目的象素。在这种大小下,扫描仪上非常大比例的象素可用于不同的模板分子,从而确保了最大通量。白色象素完全饱和了检测器,表明少于2.5%的标记已足够可检测的了。假设模板为160bp,则2.5%的标记代表了每个模板拷贝大约4个掺入的核苷酸,在预期的色度测序反应的范围中。
实施例II-单步测序反应通过在10pmol/μl的Dynal结合/洗涤缓冲液(Dynal,挪威)中温育,将生物素化的T7引物(GCGTAATACGACTCACTATAGGGCG)附着于Greiner链霉抗生物素蛋白涂覆的微阵列载玻片上。在载玻片上通过粘贴含有5mm宽孔洞阵列的橡胶膜进行造孔。将TOPO2.1质粒(Clontech)煮沸,冰上冷却,然后以20fmol/μl添加至各孔中。于室温下温育15分钟之后,将载玻片在结合/洗涤缓冲液中洗涤15分钟。
向两个孔中添加含4μl EcoPol缓冲液、各0.4μl的dATP、dTTP和dGTP(100μM的终浓度,NEB)、0.4μl dUTP-Cy3(10μM的终浓度,PerkinElmer)、2μl克列诺外切DNA聚合酶(NEB)并加水至40ul的反应混合物,并向另外的两个孔中添加以水代替克列诺的相同的混合物。在温育10分钟并在结合/洗涤缓冲液中洗涤两次15分钟之后,将载玻片在Typhoon 9200上扫描。
给定模板的情况下(Clontech TOPO2.1),预期的结果是掺入2个dTTP。图2显示了该结果,清楚地表明掺入了标记的dTTP,且所获得的信号显著高于背景(如由省略克列诺的反应中的荧光所给出的那样)。
权利要求
1.确定核酸的序列和/或碱基组成信息的方法,所述方法包括(i)提供包含第一链的核酸,所述第一链包含核酸模板,其中与所述第一链退火的核酸链的游离3’端允许互补于核酸模板的核酸链延伸,这是由模板依赖性的核酸聚合酶,通过模板序列依赖性地将核苷酸掺入到互补于核酸模板的核酸链中实现的;(ii)实施一组的一个或多个步骤,以期望的次数循环该组一个或多个步骤,或与其他组的一个或多个步骤联合实施,以延伸互补于核酸模板的核酸链,从而允许获得表示所述核酸的碱基组成或序列的信息,其中一个步骤包括(a)在存在下述时包含第一链的核酸,所述第一链包含核酸模板,与所述核酸模板的第一链退火的核酸链的游离3’端,和模板依赖性核酸聚合酶;提供选自一种、两种、三种或四种核苷酸互补性类型的核苷酸,以用于由所述核酸聚合酶将所述核苷酸模板依赖性地掺入到互补于核酸模板的核酸链中,其中每一种所述核苷酸是天然核苷酸或核苷酸类似物,它们能够在核酸链的游离3’端由核酸聚合酶模板依赖性地掺入到核酸链中,且在每一种核苷酸互补性类型内,所述核苷酸和核苷酸类似物与腺苷(A)、胞嘧啶(C)、胸腺嘧啶(T)和鸟嘌呤(G)之一互补;和(b)除去或灭活未掺入的核苷酸;且其中在一组步骤内提供选自所有四种核苷酸互补性类型的核苷酸,并且其可用于进行模板依赖性的掺入,在至少一个步骤中,提供选自超过一种、任选两种、三种或四种核苷酸互补性类型的核苷酸,并且其可用于进行模板依赖性的掺入,且至少一种核苷酸互补性类型中的核苷酸,若掺入到互补于核酸模板的核酸链中,则允许互补于核酸模板的核酸链进一步延伸,和任选地在超过一个步骤中不提供核苷酸互补性类型;和其中,若在一个步骤中提供选自所有四种互补性类型的核苷酸,则一种、两种或三种核苷酸互补性类型中的核苷酸,若掺入到互补于核酸模板的核酸链中,则防止互补于核酸模板和存在的所有拷贝的核酸链进一步延伸,如果存在多拷贝的话;(iii)实施多组所述步骤,循环所述的步骤组和/或与不同的步骤组联合实施所述的步骤组;(iv)确定至少一组步骤中掺入到互补于核酸模板的核酸链中的核苷酸的性质和/或量,这是通过确定每一组的至少一个步骤中掺入到互补于核酸模板的核酸链中的核苷酸的性质和/或量实现的,对所述组要确定所掺入的核苷酸的性质和/或量。
2.根据权利要求1的方法,其中在一组步骤内,在第一步骤中提供选自三种或两种核苷酸互补性类型的核苷酸,而在第二步骤中提供从剩余的一种或两种核苷酸互补性类型中选取的核苷酸。
3.根据权利要求2的方法,包括确定步骤组的第一或第二步骤中所掺入的核苷酸或多种核苷酸的量,对所述步骤组要确定所掺入的核苷酸的性质和/或量。
4.根据权利要求3的方法,包括确定组的每一步骤中所掺入的核苷酸的量,对所述组要确定所掺入的核苷酸的量。
5.根据权利要求4的方法,其中在一组步骤内,在第一步骤中提供三种核苷酸,而在第二步骤中提供一种核苷酸。
6.根据权利要求5的方法,包括确定第一步骤中所掺入的核苷酸的性质和量。
7.根据权利要求2至6中任一项的方法,其中在第一步骤中所提供的核苷酸各自被不同地进行标记。
8.根据权利要求2至7中任一项的方法,其中在第二步骤中所提供的核苷酸被标记。
9.根据权利要求1至8中任一项的方法,其中互补于A、C、T和G的四种核苷酸各自被不同地进行标记。
10.根据权利要求7、权利要求8或权利要求9的方法,其中核苷酸被荧光标记。
11.根据权利要求7、权利要求8、权利要求9或权利要求10的方法,其中当核苷酸掺入到互补于核酸模板的核酸链中时,所述核苷酸的标记失效。
12.根据权利要求7、权利要求8、权利要求9或权利要求10的方法,其中当核苷酸掺入到互补于核酸模板的核酸链中时,所述核苷酸的标记从所述核苷酸切割或释放。
13.根据权利要求12的方法,包括确定从掺入到互补于核酸模板的核酸链中的一个或多个核苷酸切割或释放的标记的性质和/或量。
14.根据权利要求5至13中任一项的方法,包括实施一个循环的步骤组,其中在该循环的每组步骤内,在第一步骤中提供三种核苷酸,而在第二步骤中提供一种核苷酸。
15.根据权利要求14的方法,包括对所述核酸实施四个循环的步骤组,其中在每一个循环内,在所有步骤组的所有第二步骤中所提供的一种核苷酸是相同的,并且其中在每一个循环中所有步骤组的所有第二步骤中所提供的一种核苷酸不同于在其他三个循环的所有步骤组的所有第二步骤中所提供的一种核苷酸。
16.根据权利要求1至15中任一项的方法,其中一组步骤额外包括提供一种或多种封闭核苷酸,其终止向互补于核酸模板的核酸链中掺入核苷酸。
17.根据权利要求1至16中任一项的方法,其中一组步骤额外包括提供一种或多种非掺入性的抑制剂核苷酸,其抑制向互补于核酸模板的核酸链中错误掺入核苷酸。
18.根据权利要求1至17中任一项的方法,其中核酸模板是脱氧核糖核酸(DNA),核酸聚合酶是DNA依赖性的DNA聚合酶,而核苷酸为脱氧核糖核苷酸或脱氧核糖核苷酸类似物。
19.根据权利要求1至17中任一项的方法,其中核酸模板是脱氧核糖核酸(DNA),核酸聚合酶是DNA依赖性的核糖核酸(RNA)聚合酶,而核苷酸为核糖核苷酸或核糖核苷酸类似物。
20.根据权利要求1至17中任一项的方法,其中核酸模板是核糖核酸(RNA),核酸聚合酶是反转录酶,而核苷酸为脱氧核糖核苷酸或脱氧核糖核苷酸类似物。
21.根据权利要求1至20中任一项的方法,其中核酸模板以多拷贝提供。
22.根据权利要求21的方法,包括通过核酸扩增反应提供多拷贝的核酸模板。
23.根据权利要求22的方法,其中核酸扩增反应包括滚环扩增。
24.根据权利要求23的方法,包括提供由茎部及第一和第二环部组成的DNA分子,其中所述茎部由第一链和第二链组成,其中所述第一链和第二链长度相等、互补且退火在一起,并且包含需要其序列和/或碱基组成信息的区域,其中所述第一环部将所述第一链的3’端连于所述第二链的5’端,而所述第二环部将所述第二链的3’端连于所述第一链的5’端,从而所述DNA分子没有游离的5’或3’端,其中一个环部包含用于滚环扩增的引物结合位点而一个环部包含用于测序的引物结合位点;实施滚环扩增,以提供多拷贝的核酸作为所述核酸模板。
25.根据权利要求1至24中任一项的方法,其中核酸模板附着在固体支持物上。
26.根据权利要求25的方法,其中多个不同的核酸模板以阵列的形式附着在固体支持物上。
27.根据权利要求25或权利要求26的方法,其中核酸模板介由与附着在固体支持物上的引物退火而附着在固体支持物上。
28.根据权利要求1至27中任一项的方法,包括通过对掺入到互补于核酸模板的核酸链中的核苷酸的性质和/或量进行确定的分析来确定核酸序列。
29.经由合成的核酸测序方法,特征在于以逐步的方式掺入核苷酸,其中一个步骤允许模板依赖性地掺入超过一种不同的核苷酸。
30.根据权利要求29的方法,其中一个步骤允许模板依赖性地掺入三种不同的核苷酸,所述核苷酸选自互补于腺苷(A)、胞嘧啶(C)、胸腺嘧啶(T)和鸟嘌呤(G)的核苷酸,而不同的步骤允许模板依赖性地掺入该组剩余的核苷酸。
31.经程序设计以控制根据权利要求1至30中任一项的方法的计算机处理器。
32.携带用于根据权利要求31的计算机处理器的程序的计算机可读装置。
33.经程序设计以通过实施根据权利要求1至30中任一项的方法提供核酸的序列和/或碱基组成信息的计算机处理器。
34.携带用于根据权利要求33的计算机处理器的程序的计算机可读装置。
35.适合于实施根据权利要求1至30中任一项的方法的试剂盒,所述试剂盒在一个或多个试剂容器中包括一组或多组预先混合的试剂,其中每一组预先混合的试剂包括从所有四种互补性类型中选取的核苷酸,至少一个容器含有从超过一种、任选两种、三种或四种互补性类型中选取的核苷酸,且至少一种核苷酸互补性类型中的核苷酸若掺入到互补于核酸模板的核酸链中,则允许互补于核酸模板的核酸链进一步延伸,并且其中,若在单个容器中提供选自所有四种互补性类型的核苷酸,则一种、两种或三种互补性类型中的核苷酸,若掺入到互补于核酸模板的核酸链中,则防止互补于核酸模板的核酸链进一步延伸。
36.用于实施根据权利要求1至30中任一项的方法的仪器,包括能够检测掺入或释放的标记的成像元件,用于盛装一个或多个附着的模板的反应室,从而每组步骤至少有一次它们能够接近成像元件,用于为反应室提供试剂的试剂分配系统。
37.根据权利要求36的仪器,其中反应室提供,且成像元件能够分辨,密度至少为100/cm2,任选地至少1000/cm2、至少10 000/cm2或至少100 000/cm2的附着的模板。
38.根据权利要求35或权利要求36的仪器,其中成像元件采用选自下组的系统或装置光电倍增管、光电二极管、电荷耦合的装置、CMOS成像芯片、近场扫描显微镜、远场共焦显微镜、广视野表面照明显微镜和全内反射显微镜。
39.根据权利要求35或权利要求36的仪器,其中成像元件检测荧光标记。
40.根据权利要求39的仪器,其中成像元件检测激光诱发的荧光。
41.根据权利要求35至40中任一项的仪器,其中反应室是密闭结构,其包括透明表面、盖以及用于使反应室与试剂分配系统附着的端口,其中透明表面在其内表面盛装模板分子,而成像元件能够穿过透明表面成像。
42.由茎部及第一和第二环部组成的DNA分子,其中所述茎部由第一链和第二链组成,其中所述第一链和第二链长度相等、互补且退火在一起,其中所述第一环部将所述第一链的3’端连于所述第二链的5’端,而所述第二环部将所述第二链的3’端连于所述第一链的5’端,从而所述DNA分子没有游离的5’或3’端。
43.根据权利要求42的DNA分子,其中一个环部包含用于滚环扩增的引物结合位点。
44.根据权利要求42或权利要求43的DNA分子,其中一个环部包含用于测序的引物结合位点。
45.附着在固体支持物上的根据权利要求42、权利要求43或权利要求44的多个不同DNA分子的阵列,任选地介由与附着在固体支持物上的引物退火进行附着。
46.制备根据权利要求42、权利要求43或权利要求44的DNA分子的方法,所述方法包括提供由具有5’端和3’端的第一链及具有5’端和3’端的第二链组成的双链DNA分子;且连接第一接头,以将第一链的3’端连于第二链的5’端,且连接第二接头,以将第二链3’的端连于第一链的5’端,其中所述接头为发夹结构。
47.生产多拷贝DNA模板的方法,所述方法包括对根据权利要求43或权利要求44的DNA分子实施滚环扩增,以生产包含多拷贝DNA模板的延伸的DNA分子。
48.生产多拷贝的多个DNA模板的方法,所述方法包括对根据权利要求43或权利要求34的多个DNA分子实施滚环扩增,以生产包含多拷贝DNA模板的多个延伸的IDNA分子。
49.根据权利要求47或权利要求48的方法,其中滚环扩增引物或DNA分子附着在固体支持物上。
50.根据权利要求47或权利要求48的方法,进一步包括通过所延伸的DNA分子内多拷贝的DNA模板内互补链之间的退火来浓缩所述延伸的DNA分子。
51.根据权利要求50的方法,其中延伸的DNA分子被浓缩在固体支持物上。
52.根据权利要求47至51中任一项的方法,进一步包括对所延伸的DNA分子内多拷贝的DNA模板或多个DNA模板进行测序。
全文摘要
经由合成的核酸测序。在重复的步骤组中引发互补于模板链的第二链的合成,每一步骤包括提供一种或多种可能的核苷酸互补性类型以用以掺入到合成链中,且每一步骤组包括提供所有四种可能的核苷酸互补性类型。可以首先提供四种可能的核苷酸互补性类型中的三种,以用以掺入到合成链中,然后单独地仅提供第四种核苷酸互补性类型。同样,由茎部及第一和第二环部组成的DNA分子及其用途,特别是在测序中的用途,其中所述茎部由第一链和第二链组成,其中所述第一链和第二链长度相等、互补且退火在一起,其中所述第一环部将所述第一链的3’端连于所述第二链的5’端,而所述第二环部将所述第二链的3’端连于所述第一链的5’端,从而所述DNA分子没有游离的5’或3’端。
文档编号B01J19/00GK1771336SQ200480009714
公开日2006年5月10日 申请日期2004年2月9日 优先权日2003年2月12日
发明者S·林纳松 申请人:金尼松斯文斯卡股份公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1