一种用于分析多核苷酸的方法

文档序号:3551718阅读:890来源:国知局
专利名称:一种用于分析多核苷酸的方法
技术领域
本发明主要与有机化学、分析化学、生物化学、分子生物学、遗传学、诊断学及医学有关。尤其与分析多核苷酸的方法有关,即决定一多核苷酸的全部核苷酸序列,以检测相关多核苷酸之间的核苷酸序列差异,并用于DNA基因分型。与本发明相关的
背景技术
以下内容仅作为背景资料,无意也不认为是本发明的在先技术。
DNA是所有活的细胞中遗传信息的载体。一个生物体地遗传和物理特性,即其基因型和表现型,是由该生物体中DNA的精确核酸序列所控制的。存在于一个生物体的DNA中的所有序列信息的总和,称为该生物体的“基因组”。DNA分子的核酸序列含有由4种核苷酸组成的线性聚合体。4种核苷酸各自为三部分组成的分子,每一部分包含(1)4种杂环碱基中的一种,即腺嘌呤(简写为A),胞嘧啶(C),鸟嘌呤(G),和胸腺嘧啶(T);(2)戊糖衍生物2-脱氧核糖,通过其1-碳原子与杂环碱基的环氮原子结合;(3)一个在磷酸分子和糖组分的5’-羟基基团之间形成的单磷酸单酯。核苷酸通过在一个核苷酸的5’-磷酸和另一核苷酸的3’-羟基基团间形成二酯而加以聚合,以形成DNA的单链。在自然状态下,这些单链中的两条链通过互补核苷酸之间的氢键发生相互作用,A与T互补,C与G互补,以形成“碱基对”,从而导致著名的Watson与Crick的DNA双螺旋的形成。RNA与DNA类似,例外的是,碱基胸腺嘧啶被尿嘧啶(U)所取代,戊糖是核糖本身,而不是脱氧核糖。此外,RNA在自然状态下主要以单链存在,也就是说,两条链通常不结合形成双螺旋。
当提到多核苷酸中的核苷酸序列时,习惯上使用碱基的缩写,即A、C、G、和T(或U),以代表含有该碱基的整个核苷酸。例如,一个以“ACG”命名的多核苷酸序列,它的意思是,一个腺嘌呤核苷酸通过磷酸酯键与一胞嘧啶核苷酸连接,后者又通过另一磷酸酯键与一鸟嘌呤核苷酸连接。如果所描述的多核苷酸是DNA,则人们会认为,“A”代表含有脱氧核糖糖基的腺嘌呤核苷酸。如果有混淆的可能,则DNA分子中的“A”可写作“脱氧A(deoxyA)”或简单写作“dA”。由于T只存在于DNA而非RNA中,不会引起混淆,因此不用写作脱氧T或dT。
作为一种粗略的估计,可以说,一个生物体中的基因数与该生物体表现型的复杂性——即复制该生物体并使其行使功能所需要的基因组产物的数目——成正比。人类基因组目前被认为是最复杂的基因组之一,该基因组含有大约6-10万个基因,约含33亿个碱基对。每一个基因为一个RNA编码,后者则大多数为一个特定蛋白质编码,该蛋白质行使特定的生化或结构功能。这些基因中的任一个在遗传编码上的差异(也称为多型性或突变)将导致生化活性发生改变或根本没有生化活性的蛋白质或RNA的产生。这可由含有一特殊基因的DNA中的单一核苷酸的微小变化,如添加、删除、或替换(转变或转换)所引起,该现象有时被称为“单核苷酸多型性”或“SNP”。遗传密码中带有此类突变,其结果可能无害,但也可能使人衰弱,甚至致命。目前,有超过6,700种人类疾病据信带有遗传成分。例如,血友病、阿尔茨海默氏症、亨廷顿氏症、Duchernne肌营养不良、及囊性纤维化已知都与包含特定基因的DNA中核苷酸序列的差异有关。此外,有越来越多的证据显示,某些DNA序列的变化可能使一个人偏向于发生某些异常情况,如肥胖、糖尿病、心血管疾病、中枢神经系统异常、自身免疫疾病以及癌症等。特定基因的DNA序列的差异已经显示与病人对,例如,药物、放射性治疗、营养状态、以及其他医学干涉上所观察到的不同反应有关。因此,检测一个生物体基因组中DNA序列差异的能力是探索差异性、医学病症与对医学干涉的反应三者关系中的一个重要内容。一旦建立起某种联系,在一个病人的基因组中检测差异性的能力就能够成为一个极其有用的诊断手段。甚至可能使用早期差异性诊断,在一种症状具有身体表现之前,对该症状进行诊断,有可能还进行治疗,甚至加以预防。此外,差异性诊断还可能成为一种有价值的研究手段,因为它可以导致对疾病的遗传基础的发现,这些疾病的原因或者不为人知,或者被认为是非遗传性的。当病人对所建议的一种或多种治疗方法的反应有所不同时,差异检测也有利于指导选择最佳治疗方法。
尽管对遗传密码的差异性进行检测的好处十分明显,但在实际应用方面却存在困难在比较了50至100个个体后发现,据估计,人类DNA序列差异性的发生频率大约为每100个核苷酸中有一个。Nickerson,D.A.,《自然遗传学》(Nature Genetics),1998,223-240。这相当于在人类基因组中有多达3千万个差异。并非所有的、事实上只有相当少量的差异能够对人类的身体健康带来可以测量到的影响。对这3,000万个差异进行检测、然后决定他们中的哪些与人类健康有关,这确实是一项相当艰巨的任务。
除了差异性检测之外,对一个生物体基因组核苷酸序列的了解将对理解该生物体的整体生物学作出无法估量的贡献,也就是说,它将导致对每一基因产物、基因产物在该生物体基因组中的组织和排列、控制基因表达(即每一基因产物的产生)及基因复制所需要的序列的认识。事实上,对此类知识和认识的探求正是人类基因组计划存在的原因,该计划是一项国际化的努力,目标在于对整个人类基因组进行测序。不管是何种生物体,一旦获得单一基因组的序列,便有利于获得该种属其他生物体的部份或全部序列,尤其是种属内表现出不同特征的生物体,从而确定与不同特征相关的DNA序列的差异。对微生物来说,这些不同的特征可能包括,在坏的方面是致病性,而在好的方面则是制造一特殊的多聚体或改善污染的能力。生长速度、营养成分或抗病虫害的能力上的不同,这些都是可能在植物中间观察到的差异。即使在人类,对疾病敏感性的差异以及对一特殊治疗的反应上的不同都可能与遗传,即DNA序列上的差异性有关。由于DNA序列信息、尤其是确认同一种属不同个体之间的DNA序列的差异性具有非常广阔的用途,在未来对快速、廉价的DNA自动测序及差异检测方法的需求预计将迅猛增长。
一旦一段DNA片段(如基因,cDNA,或在更大规模上的一个染色体或一整个基因组)序列被测定出来,则同一种属不同成员之间存在的该DNA片段的序列差异性就能够被加以研究。完整DNA测序便是完成这一工作的明确方法。因此,有可能确定从种属中不同成员身上获得的DNA片段拷贝的完整序列,而只需将这一完整序列与从前所得到的序列相比较。然而,目前所使用的DNA测序技术价格昂贵、耗时,并且为了获得高度准确性,DNA必须过量。大多数大的测序项目对每个核苷酸需要5-10倍的覆盖率,这样才能达到2,000至10,000个碱基中有1个错误这样可接受的错误率。此外,对于检测差异性来说,DNA测序是一种效率非常低的方法。例如,一个基因的两个拷贝之间的差异(例如当将两个染色体进行比较时),其发生频率可能低至1000个或更多的碱基才发生一次。因此,序列中只有少部分是需要的,也就是说存在差异的。然而,如果使用全部测序,则需要测序庞大数量的核苷酸,才能获得所需要的与前面所说的那一小部分相关的信息。例如,假设我们需要比较一段3,000个核苷酸的DNA序列的10个不同版本,目的是为了检测它们中间的4处差异。即使我们让DNA过量两倍(取自每一个体的3,000个核苷酸的双链DNA片段中的每一链都测序一次),则需要对60,000个核苷酸进行测序(10×3,000×2)。此外,很可能测序中间遇到的问题区域需要用新的引物进行新一轮测序;因此,为了确定4个差异,需要对多达100,000个核苷酸进行测序。在过去的15年中,已经发展出若干种方法,以确定序列的差异以及为差异位点的位置提供一些信息(表1)。使用这样的方法,只需要对3000nt(核苷酸)的序列中的4个相对短的部分进行测序。此外,在每一区域中,只需要对几个样品进行测序,因为每个差异产生一种特征性的变化(表1);这样的话,如果,假设50个样品中的22个通过差异检测方法表现出特征性的变化,则只需要对22个样品中的4个进行测序,就可以为其余的18个样品提供信息。依照所使用的不同差异检测方法,需要进行测序的片段长度可能短至500-100nt。因此,测序计划的规模可以缩减为4(个位点)×50(nt/位点)×2(取自每一个体的DNA链)×2(每位点的个体),即只需约800个核苷酸。这只相当于没有此前的差异检测步骤时所需要的测序量的1%。
正如现在人们正在进行的那样,测定一个多核苷酸全部核苷酸序列的技术同在相关多核苷酸中检测从前未知的差异性或突变的技术,两者最终的结果是一样的;也就是说,即使我们讨论的问题是在相关多核苷酸中是否存在一个单一核苷酸差异,仍然要测定相关多核苷酸的至少一个片段的全部序列,然后进行比较。唯一不同的是,在检测未知差异时,能够使用如表1中所描述的差异检测方法,作为第一步,来减少所需要的全部测序量。
进行完整核苷酸序列测定的两种经典方法分别为Maxam与Gilbert化学方法(《美国国家科学学会学报》(Proc.Nat.Acad.Sci.USA)74,560-564(1977))和Sanger等人的链终止法(《美国国家科学学会学报》(Proc.Nat.Acad.Sci.USA)74,5463-5467(1977))。
Maxam与Gilbert的完整核苷酸测序方法使用一末端标记(例如,用32P标记)的DNA分子,随后进行两个独立的反应程序中的一个,每个涉及两个反应。也就是说,一共有4个反应。其中的一个反应程序涉及将所研究的多核苷酸(在大多数情况下,是一经分离的、自然存在的多核苷酸,例如DNA)中的嘌呤核苷酸鸟嘌呤(G)和腺嘌呤(A)选择性甲基化。鸟嘌呤N7位的甲基化速度约为腺嘌呤N3位的5倍。当在碱的水溶液中进行加热时,甲基化的碱基丢失,多核苷酸链出现断裂。甲基化的鸟嘌呤比甲基化的腺嘌呤反应更有效,因此当反应产物在聚丙烯酰胺凝胶板上进行电泳时,G发生断裂的阶梯很明显。而在另一方面,在酸性条件下,两种甲基化的碱基都可以有效去除。用哌啶进行处理,可将DNA在这些无碱基的部位切断,从而产生与A+G对应的序列阶梯。
因此,通过这四种化学反应,并对所产生的末端标记的切割产物阶梯进行电泳分析,可以揭示出一个DNA分子的精确核苷酸序列。Maxam-Gilbert测序法的关键在于,每一敏感部位只出现部分——即1-2%的切割。这是因为电泳按照片段大小进行分离。也就是说,平均而言,所产生的片段应该代表每一分子中的单一修饰和切割。随后,将所有四个反应的片段按照长短连接起来,便可以确定靶DNA的精确序列。
用Sanger法确定全部核苷酸序列,其步骤包含用酶聚合方法制备四个系列的碱基特异性链终止的标记DNA片段。和Maxam-Gilbert程序一样,要进行四个独立的反应。在Sanger法中,四个反应混合物中的每一个都包含如下成分相同的寡核苷酸模板(或者为单链、或者为双链DNA),4种核苷酸,A、G、C、T(其中一个是标记的),聚合酶和引物,其中聚合酶和引物的作用是使核苷酸聚合成寡核苷酸模板的互补链。向四种反应混合物中的一种中加入其中一种核苷酸的双脱氧衍生物,其量由经验决定。再向第二种反应混合物中加入余下三种核苷酸中的一种核苷酸的少量双脱氧衍生物,以此类推,这样四个反应混合物中每个都包含一种不同的双脱氧核苷酸。双脱氧衍生物在结构上缺乏3’-羟基,因此可以通过结合入新生成的寡核苷酸链而终止酶促聚合反应。因此,假设在一个反应混合物中包含双脱氧腺苷三磷酸(ddATP),则可产生一系列寡核苷酸片段,所有都是以ddA结尾,经电泳分离后产生一系列电泳带,与具有链终止效应的ddA结合入多聚反应的点所形成的片段长短相对应。从其他每个反应混合物中都可以得到对应的片段阶梯,反应混合物中的寡核苷酸片段分别以C、G、T结尾。四组片段形成一个“序列阶梯”,每一行代表组成目的DNA的碱基序列中的下一个核苷酸。因此,DNA的精确核苷酸序列只需要在放射自显影或对色谱进行计算机分析(当使用自动DNA测序装置时)之后便可以从电泳胶板上读出来。如前面所提到的,使用经染料标记的、具有链终止作用的双脱氧核苷酸以及使用可以有效结合修饰核苷酸的修饰聚合酶的方法,是用于链终止测序的一种改进方法。
Maxam-Gilbert和Sanger法都有其缺点。它们都很耗时,劳动强度大(尤其是Maxam-Gilbert法,尚未如Sanger法那样可自动化),价格昂贵(例如,Sanger法的最优化版本需要非常昂贵的试剂),同时需要相当高的专业技术才能保证有适宜的操作和可靠的结果。此外,Maxam-Gilbert法还缺乏修饰化学的特异性,从而导致人工片段的形成,这样在胶板上就会读出错误的序列阶梯。在另一方面,Sanger法容易形成模板二级结构,从而在聚合反应中引起干扰。一旦出现二级结构,便会导致聚合反应的终止(称为“停止点”),从而在序列阶梯中出现错误片段;虽然使用染料标记的双脱氧终止物可以改善这个问题,但仍使得一部分序列无法阅读。此外,这两种测序方法都对“压缩”敏感,这是DNA二级结构的另一结果,可以在电泳过程中影响片段的运动,从而导致序列阶梯无法阅读或在二级结构附近容易产生错误识别。此外,两种方法都受阶梯强度的不均一以及非特异性背景干扰的困扰。当我们要进行差异检测时,这些问题就更显得重要了。为了辨别单一核苷酸的差异,所使用的过程必需极度精确,一个核苷酸的阅读错误便会导致假阳性的检测结果,即不存在差异的时候指示有差异存在。Maxam-Gilbert和Sanger法都无法只经过一次试验就达到如此高的精确度。事实上,一轮测序试验中的错误频率大于或等于1%,这相当于当将一个序列的两个版本进行比较时,实际DNA差异发生频率的10倍。通过对进行比较的每个多核苷酸进行多次测序(通常是在“霰弹枪”测序方法的前提之下),这个问题可以得到稍许改善,然而这只是在设备、试剂、人力和时间上又白白增加了成本。如果我们考虑到以下问题,则测序过程的高成本就变得更加难以接受当我们在相关多核苷酸中寻找核苷酸序列的差异性时,通常不需要检测目的多核苷酸的全部序列,甚至连差异的确切性质都不用知道(虽然在某些情况下,使用本发明所述的方法,连这个都可以辨别出来;这我们在后面将会看到);只需要检测差异性就足够了。
目前人们已经设计出了几种技术,虽然不能避免Maxam-Gilbert和Sanger法中涉及到的全部问题,但至少使得这个或那个方法变得更加有效。策略之一便是设法绕过平板胶电泳,而该步骤是测序方法中最耗时的步骤之一。例如,在美国专利5,003,059和5,174,962中,使用了Sanger法;然而,用于终止聚合反应的每一核苷酸的双脱氧衍生物全都用硫的同位素进行标记,这些硫的同位素包括32S,33S,34S,或36S。一旦聚合反应完成,链终止的序列用毛细管区域电泳进行分离,而后者与平板胶电泳相比,分辨率提高,电泳时间缩短,还可以分析非常小的样品。然后将分离后的链终止序列进行燃烧,将参入的同位素硫转化成同位素二氧化硫(32SO2,33SO2,34SO2,与36SO2)。然后将同位素二氧化硫进行质量光谱测定。由于硫的每个同位素与四组碱基特异的链终止片段中的一组特异相关,所以,目的DNA的核苷酸序列可以通过质量光谱图而确定下来。
美国专利号5,580,733中揭示的方法也使用了Sanger技术,但根本放弃使用胶电泳。这一方法使用了Sanger反应中碱基特异性链终止的四组寡核苷酸中的每一组,与一可见激光吸收基质如3-羟吡啶羧酸(3-hydroxypicolinic acid)形成混合物。混合物继而用可见激光进行照射并蒸发,该过程并不使链终止的核酸片段发生进一步断裂。带电荷的蒸发的分子继而在电场中加速,电离分子的质量与电荷比(m/z)用飞行时间质量光谱测定(TOF-MS)加以测量。然后将分子量加以排列,以确定目的DNA的精确序列。通过测量每一混合物中连续片段的质量差异,可以推测出以A、G、C或T终止的片段长度。当前MS仪器的一个显著缺陷在于,在常规使用中,长度大于100个核苷酸(对许多仪器来说是50个核苷酸)的多核苷酸片段便无法被有效检测,尤其当片段是一个复杂混合物的一部分时。对可分析的片段长度的严格限制,限制了MS多核苷酸分析方法的发展。因而,需要一种方法,能够将大片段的多核苷酸,如DNA,与当前|MS仪器的能力相适应。本发明便提供了这样一种方法。
美国专利号5,547,835中揭示了另一种核苷酸测序的方法。其起点仍然是Sanger测序策略。4种碱基特异的链终止的片段序列被加以“条件化”,条件化的方式为,例如,纯化、阳离子交换和/或质量修饰。条件化的片段的分子量继而用质量光谱法进行测定,然后按照分子量将碱基特异性终止片段排列起来,以确定起始核酸的序列。
上述的方法中的每一个都涉及在进行质量光谱分析之前对多核苷酸进行完整的Sanger测序。为了检测遗传突变即差异性,可以将完整序列与一已知核苷酸序列进行对比。如果序列未知,则可在相同的生物体(该生物体并未表现出异常症状)中分离相同的DNA,将其核苷酸序列与目的序列进行比较,同样也可以揭示出突变。当然,这种方法需要进行两次Sanger过程,也就是说,8个独立的反应。此外,如果检测出一种可能的变异,在大多数情况下,整个过程需要再次重复,使用不同引物对相对链进行测序,从而确定得到的并非假阳性。在与一种特殊疾病相关的特异核苷酸差异和突变已知的情况下,目前有许多已知的方法用来检测差异性,而不需要进行完整测序。例如,在美国专利号5,605,798中,就描述了这样一种方法。在该方法中,先从一生物样本中获取包含靶目的序列的核酸分子,将靶序列进行随意扩增,然后将靶序列与一寡核苷酸检测子杂交,该检测子经过特殊设计,能够与靶序列互补。在杂交之前,用质量修饰的方法或者将检测子寡核苷酸、或者将靶序列进行条件化。除去未杂交的检测子寡核苷酸,将剩余的反应产物进行挥发和电离。用质量光谱测定的方法对检测子寡核苷酸进行检测显示,生物样品中存在有靶核苷酸序列,从而证实了对与差异有关的疾病的诊断。
差异检测方法能够被分成两大类,尽管它们之间有相当程度的重叠。一大类是差异发现方法,用于在DNA片段中检测新差异的存在、位置、和特性。为了达到这一点,差异发现方法可以与DNA测序结合进行。
第二类方法为差异分型(有时也叫基因分型),用于在一DNA片段中的特殊位点重复测定一个或多个核苷酸,而此前已对一种差异或多种差异的位置进行了确定和描述。在这类分析方法中,通常可以设计出一种非常敏感的检测方法,对一特殊核苷酸或多个核苷酸的地位进行检测。当然,这一技术并不太适于发现新的差异。
如上面所提到的,表1中列举了若干现有的技术,用于核苷酸检测。这些技术中的大部分主要用于新差异的确定。还有许多其他方法在此没有表现出来,以用于基因分型。和Maxam-Gilbert和Sanger测序方法一样,这些技术通常很耗时、单调,并需要相对高的技术水平才能从每一方法中获得可能的最大程度的准确度。即便如此,上面所列举的某些技术即使在最佳状态下仍然由于其本身的原因无法得到所需要的准确度。
表1中的方法虽然主要被设计用来发现差异,但在一个差异核苷酸已经被确定出来、而且目的是在一个或多个未知DNA样品中确定其地位时(差异分型和基因分型),仍可以使用这些方法。目前已被发展出来的、特异性用于基因分型的方法包括(1)引物延伸方法。在该方法中,双脱氧核苷酸对引物延伸反应的终止发生在差异部位,从而产生不同长度、或带有不同末端核苷酸的延伸产物,而该产物可用电泳、质量光谱测定、或平板读数仪中的荧光测定来进行确定;(2)杂交方法。在该方法中,首先将与一个差异位点的两种可能序列相对应的寡核苷酸附着在一固态基质表面,然后与来自未知样品的探针进行杂交;(3)限制片段长度多型性分析。而其中的限制性内切酶识别位点包括多型性核苷酸,而其识别方式为位点是一种差异核苷酸时可以切割,位点是另一种时则不可切割;(4)例如“TagMan”等方法涉及使用区别性杂交,并继而对标记寡核苷酸探针进行区别性的内切酶消化,探针上的两个萤光体之间存在荧光共振能量传递(FRET),而该能量传递由于核酸酶对探针的消化而被消除;(5)其他以FRET为基础的方法。这些方法涉及使用称为“分子信标”的标记寡核苷酸探针,利用等位基因特异的杂交;(6)依靠连接的方法。该方法需要将两个寡核苷酸经过一个多型位点用酶连接起来,而该多型位点只与两个寡核苷酸中的一个完全吻合;以及(7)聚合酶链式反应(PCR)中等位基因特异的寡核苷酸引物形成。(U.Landegren等.,1998,“遗传信息的位点阅读单核苷酸多型性分析的方法”(Reading Bits of Genetic InformationMethods for Single-nucleotide Polymorphism Analysis)《基因组研究》(Genome Research)8(8)769-76.)
当我们需要对大模板——这些大模板包括病毒、细菌、或真核细胞(例如,高等生物,包括人)的完整基因组——进行测序,或者是为了进行比较而对某一种属的不同,或个体中的较大DNA区域或多个区域进行重复测序时,便需要实施为DNA测序建造模板库的策略。这是因为,传统的链终止测序法(即Sanger法)受到分析过程(即用来产生目的多核苷酸中核苷酸阶梯的过程)的分辨率的限制。对胶来说,这一分辨率约为每次500至800个核苷酸。对质量光谱分析来说,其限度是在仪器检测前可被有效蒸发的多核苷酸的长度。即使较大片段可以用高度特异的方法和仪器进行分析,目前这一限度约为50-60nt。然而,在大规模测序计划如人类基因组计划中,目前,“标记物”(存在于已知染色体位点中的DNA片段,它的存在可以通过聚合酶链式反应(PCR)技术而被相对容易地确定,这些片段可被用作参考点,以确定基因组中的新的区域)之间的距离为100Kb。相隔100Kb的标记物必须用有效的测序策略来连接起来。如果所用的分析方法为胶电泳,则对100Kb的DNA长度进行测序需要几百个测序反应。必须面对的一个根本问题是,怎样将100Kb长的片段(或不管多长的片段)进行分割,以使过程最优化;也就是说,将测序反应的数目和以适当的精确度制造一个完整序列所需要的序列装配工作减少到最小。这方面的一个关键问题是,在一开始,怎样将DNA切成片段,以使得片段一旦被测序,便能够被正确地再次组装,以重新获得完整长度的靶DNA。目前,两种常规的方法既可以提供直接用于测序的片段,又可以提供将序列重组成完整长度的靶DNA所需要的信息霰弹枪测序法(见,例如,Verner,J.C.,等《科学》(Science)1998,2801540-1542;Weber,J.L.和Myers,E.W.,《基因组研究》(Genome Research)1997,7401-409;Andersson,B.等《DNA测序》(DNA Sequence)1997,763-70)及“经指导的DNA测序(directed DNA sequencing)”(见,例如,Voss,H.等《生物技术》(Biotechniques)1993,15714-721;Kaczorowski,T.,等,《生物化学年报》(Anal.Biochem),1995,221127-135;Lodhi,M.A.等《基因组研究》(Genome Research),1996,6;10-18)。
在霰弹枪测序法中,需要在一个可进行测序的载体(如质粒或噬菌体粒)中构建一个随机片段或“克隆”的大的文库。为了使最初序列的所有部分都在文库中获得相对平等的表现,将进行霰弹枪测序的DNA通常用物理方法加以断裂,其中就有声纳法,该方法已被证实可产生近乎随机的片段。然后从霰弹枪文库中随机挑选克隆,用于测序。然后通过在短的(约为500nt)霰弹枪序列中识别重叠序列而将DNA的完整序列组装起来。为了保证DNA的整个靶序列区域都在随机挑选的克隆中得到表现,并降低错误(非正确指定的重叠区域)发生的频率,测序内容必须高度过量;例如,7-10倍的过量。即便有这样高度过量,通常仍需进行额外测序,以填补覆盖面中的缺口。即使这样,象Alu(一个300个碱基的序列,每单倍体基因组中有500,000至1,000,000个拷贝)和LINES(即“长而分散的DNA序列元素”,可有7,000个碱基长,每单倍体基因组中可有多达100,000个拷贝)这样的重复序列,他们中的每一个都可以出现在多个克隆的不同部位,他们的出现仍可使DNA序列的再组装变得很麻烦。例如,这些系列家族中的不同成员可能在90%以上都是相同的,因此有时很难确定这些重复序列的相反面上的序列关系。图X显示了在一假想的、根据Martin-Gallardo等的报告(《自然遗传学》(Nature Genetics),1992,134-39)中的序列所构建起的10Kb序列中使用霰弹枪法所遇到的困难。
第二种常规方法为经指导的测序,该方法也涉及制造一个克隆文库,并通常带有大的插入部分(例如,装配型质粒,P1,PAC,或BAC文库)。在该方法中,将克隆在被测试区域中的位置加以确定,以得到一套克隆,这套克隆组成一个重叠量最低的铺垫通路,跨越将被测序的区域。随后用诸如“引物行走”(见,例如,Voss,见上)等方法对来自这一最小套中的克隆进行测序。在这一方法中,一个序列的末端被用于挑选一个新的测序引物,用这一新的测序引物开始下一个测序反应,第二个序列的末端被用于挑选下一个引物,依此类推。通过直接测序,完整DNA的装配变得更容易,过量测序的需要量也较少,因为克隆的次序以及覆盖的完整性都从克隆图中已知。在另一方面,装配克隆图本身需要花费极大的力气。而且,新测序引物的合成速度以及这样做的成本对于引物行走来说通常都是限制因素。即使有很多方法可以简化新引物构建步骤,并对该过程提供帮助(见,例如,Kaczorowski,等和Lodhi,等,见上),经指导的DNA测序仍然是一有价值、但通常是昂贵而缓慢的方法。
大多数大规模的测序计划都既使用霰弹枪测序法的某些方面,也使用经指导测序的某些方面。例如,一个详细的图谱可能由大的插入文库(例如,BACs)构成,以确认最小的一套将靶区域完全覆盖的克隆,但是随后用霰弹枪法对大的插入序列的每一个进行测序;例如,将大的插入序列打碎,然后将片段重新克隆在一个更适宜的测序载体中(见,例如,Chen,C.N.,《核酸研究》(Nucleic AcidsResearch),1996,244034-4041)。霰弹枪法和经指导测序法也以互补的方式被使用,其中未被一开始所进行的霰弹枪试验所覆盖的特殊区域可继而用经指导的测序法进行确定。
因此,霰弹枪和经指导的测序法在对大分子进行完整测序方面(例如基因组测序计划中要求的)受到严重限制。然而,如果邻近DNA的可使用阅读长度能够从目前的500-800nt(这一长度可用Sanger法有效测序出来)扩展开来,则两种方法都会受益。例如,通过降低对高分辨图谱的需求,可以显著改善经指导的测序方法,而这可以通过较长的阅读长度而达到,而这反过来又会允许在标记之间存在更长的距离。
当前测序方法的主要缺陷在于高错误率(Kristensen,T.等,《DNA测序》(DNA Sequencing)2243-346,1992;Kurshid,F.和Beck,S.,《分析生物化学》(Analyticai Biochemistry),208138-143,1993;Fichant,G.A.和Quentin,Y.,《核酸研究》(Nucleic AcidResearch),232900-2908,1995)。人们早已认识到,许多与Maxam-Gilbert和Sanger法相关的错误都是系统性的;也就是说,错误不是随机的;相反,它们会重复出现。为了避免这一点,可以使用在机械上不同的两种测序方法,这样可以在一个方法中检测系统误差,然后通过第二个加以矫正,反之亦然。由于目前测序方法的成本的一个重要方面与需要高度过量以减少测序误差有关,使用两种方法可以减少获得高度精确的DNA序列所需要的总体成本。
包含核糖核苷酸和脱氧核糖核苷酸的多核苷酸的产生和/或化学切割从前已有描述。尤其已经描述了突变型聚合酶,该聚合酶可以将核糖核苷酸和脱氧核糖核苷酸都加入到多核苷酸中;通过聚合反应得到的含有核糖和脱氧核糖的多核苷酸的产生也已述及;利用已为人们所熟知的核糖至化学碱基的不稳定性,依靠这些混合多核苷酸而产生序列阶梯,这一过程也已有所描述。
然而,这一过程的使用被限制在(1)多核苷酸,其中参入了1种核糖核苷酸和3种脱氧核糖核苷酸;(2)用化学碱进行对核糖核苷酸的切割;(3)对含有多核苷酸的核糖核苷酸仅进行部分切割,而且(4)方法的使用被限制在序列阶梯的产生,后者用电泳的方法加以分辨。
此外,也已报道了含有一个核糖核苷酸的多核苷酸引物的化学合成,在随后的步骤中,可用化学碱将该引物充分而完全地切割。引物延伸产物的大小继而用质量光谱或其他方法加以测定。发明简述
从前述已经可以很清楚地得知,需要一种简单、低成本、快速、然而敏感和精确的方法,用于分析多核苷酸(例如,但不限于,DNA),以确定完整的核苷酸序列及差异的存在。此外,还需要一种方法,能够将非常长的DNA序列跨越重复密集区域而组装起来。本发明的方法就满足这些需要。总的来说,本发明提供新的方法,用于基因分型、DNA测序、差异检测,而这些过程是以特异切割DNA和其他多核苷酸(这些多核苷酸通过将化学修饰的核苷酸用酶法参入而得到修饰)为基础的。
因此,从一个方面说,本发明与切割多核苷酸的方法有关,方法包括
a.将一多核苷酸中事实上每一发生位点的天然核苷酸都用一修饰核苷酸替代,以形成一修饰多核苷酸,而上述修饰核苷酸并非核糖核苷酸;
b.将上述修饰多核苷酸与一试剂或多个试剂接触,这些试剂在上述实际上每一发生位点都可以对修饰多核苷酸进行切割;
在另一方面,本发明通过如下额外步骤,与上面所述的用于在多核苷酸中检测核苷酸序列的差异性的方法有关
c.确定从步骤b中获得的该片段的质量;并且
d.将该片段的质量与对已知序列的相关多核苷酸进行切割后获得的片段质量进行对比,或者
e.用未知序列的一个或多个相关多核苷酸重复步骤a-c,并将上述多核苷酸的上述片段的质量与从相关多核苷酸中获得的片段质量进行对比。
本发明的另一个方面为使用上述的第一个方法,而多核苷酸中的核苷酸序列是通过如下额外步骤确定的
c.确定从步骤1b中获得的该片段的质量;
d.重复步骤1a,1b,和1c,每次将该多核苷酸中的一个不同的天然核苷酸用一修饰核苷酸替代,直到该多核苷酸中的每一天然核苷酸都用一修饰多核苷酸替代,每一修饰多核苷酸都被切割,而切割片段的质量都被测定;而且,
e.从上述第一个片段的上述质量中构建上述多核苷酸的上述核苷酸序列。
本发明的另一个方面是使用上面所提到的第一个方法,而已知包含多型性或突变的核苷酸被基因分型,方法为
将一已知涉及到上述的多型性或突变的核苷酸象将要被替代的天然核苷酸那样使用;
通过使用一修饰核苷酸以形成修饰多核苷酸、将多核苷酸中的一部分进行扩增而替代天然核苷酸;
将修饰多核苷酸在修饰核苷酸的每一发生位点上切割成片段;
对片段进行分析,以确定基因型。
在上面刚刚提到的方法中,通过电泳、质量光谱测定或FRET检测对片段进行分析,是本发明的一个方面。
本发明的另一个方面是将一多核苷酸进行切割的方法,方法包括:
a.在一多核苷酸中,将第一个天然核苷酸在事实上每一发生位点都用一修饰核苷酸代替,以形成被一次修饰的多核苷酸;
b.将被一次修饰的核苷酸中的第二个天然核苷酸在事实上每一发生位点上都用第二个修饰核苷酸替代,以形成一个二次修饰的核苷酸;而且,
c.将上述的二次修饰的多核苷酸与一种试剂或多个试剂相接触,该试剂将二次修饰的多核苷酸在上述二次修饰的多核苷酸的事实上每一发生位点上都进行切割,而上述的第一个修饰核苷酸立刻与上述第二个修饰核苷酸连接,连接是通过磷酸二酯键或经修饰的磷酸二酯键进行的。
本发明的一个方面为,在上面刚刚提到的方法中,相关多核苷酸中核苷酸序列的差异是通过如下额外步骤检测的
d.测定从步骤c中获得的该片段的质量;
e.将该片段的质量与已知序列中相关多核苷酸切割后获得的片段质量进行对比,或者
f.用未知序列的一个或多个相关多核苷酸重复步骤a-d,并将上述片段的质量与从相关多核苷酸中获得的片段质量进行对比。
本发明的另一个方面是一种方法,用于在相关多核苷酸中检测差异性,方法包括:
在多核苷酸中的事实上所有发生位点将四种天然核苷酸中的三种用三种具有稳定性的修饰核苷酸代替,以形成一种修饰的多核苷酸,该多核苷酸还剩余一个天然核苷酸;
a.将上述修饰的多核苷酸在上述剩余的一个天然核苷酸的事实上所有发生位点切割成片段;
b.测定上述片段的质量;并且,
c.将该片段的质量与已知序列中相关多核苷酸切割后获得的片段质量进行对比,或
d.用未知序列的一个或多个相关多核苷酸重复步骤a-c,并将上述片段的质量与从相关多核苷酸中获得的片段质量进行对比。
本发明的另一个方面为,在刚刚提到的方法中,将剩余的天然核苷酸用一个具有不稳定性的修饰核苷酸代替。
本发明的另外一个方面是一种方法,用于在相关多核苷酸的核苷酸序列中检测差异性,方法包括
a.将两个或多个天然核苷酸在多核苷酸的事实上所有发生位点上用两种或多个修饰核苷酸代替,而上述修饰核苷酸中的每一个与上述修饰核苷酸中的其他核苷酸相比都具有不同的切割特性,以此形成一个修饰的多核苷酸;
b.在上述两个或多个修饰核苷酸中的第一个核苷酸的事实上所有发生位点将上述修饰多核苷酸切成第一个片段;
c.在上述第一个片段的两个或多个修饰核苷酸中的第二个核苷酸的事实上所有发生位点将上述第一个片段切成第二个片段;
d.测定上述第一个片段和上述第二个片段的质量;并且,
e.将上述第一个片段和上述第二个片段的质量与已知序列中相关多核苷酸切割后获得的第一个和第二个片段质量进行对比,或者
f.用未知序列的一种或多种相关多核苷酸重复步骤a-d,将上述第一个和第二个片段的质量与相关多核苷酸切割后所获得的质量相比较。
本发明的一个方面为,在上述方法中,使用一修饰的核苷酸重复方法中的步骤,该修饰的核苷酸通过将不同对的天然核苷酸用修饰核苷酸替代而得到;也就是说,假设有4种天然核苷酸,分别为1、2、3、4,在一个实验中用修饰核苷酸替换1和3,在另一个实验中替换2和4,在另一个实验中替换1和4,在另一个实验中替换2和3,而在最后实验中替换3和4。
本发明的一个方面为,通过刚刚所描述的方法得到的修饰多核苷酸可以在质量光谱仪中进行切割,尤其是在串联质量光谱仪中进行切割。
本发明的另一方面是一种方法,用于在多核苷酸中测定核苷酸序列,方法包括
a.将一多核苷酸中的天然核苷酸在其发生位点中的一定比率的位点上用一修饰核苷酸替代,以形成一修饰的多核苷酸,而上述的修饰多核苷酸不是核糖核苷酸;
b.将上述修饰的多核苷酸在上述修饰核苷酸的事实上每个发生位点上切割成片段;
c.重复步骤a和b,每次将上述多核苷酸中的一种不同天然核苷酸用一修饰的核苷酸替代,并且,
d.测定从每次切割中获得的上述片段的质量;并且,
e.从上述质量构建出上述多核苷酸的上述序列,或者
f.对步骤c中得到的片段的序列阶梯进行分析。
本发明的另一个方面为一种方法,用于在多核苷酸中测定核苷酸序列,方法包括
a.将占多核苷酸中第一个百分率的发生位点中的天然核苷酸用一修饰核苷酸替代,以形成一修饰的多核苷酸,而上述修饰核苷酸不是核糖核苷酸;
b.在上述修饰核苷酸中第二个百分率的上述发生位点将上述修饰多核苷酸切割成片段,使得上述第一个百分率和上述第二个百分率的组合能够导致对上述修饰多核苷酸的部分切割;
c.重复步骤a和b,每次将上述多核苷酸中的一个不同的天然核苷酸用一个修饰的核苷酸代替;
d.测定从每次切割反应中获得的上述片段的质量;并且,
e.从上述质量中建构上述多核苷酸的上述序列;或者,
f.对从步骤a和b中获得的上述片段的序列阶梯进行分析。
本发明的一个方面为一种方法,用于在多核苷酸中测定核苷酸序列,方法包括
a.将一多核苷酸中的两个或多个天然核苷酸在事实上所有发生位点上用两个或多个修饰核苷酸替代,以形成一个修饰的多核苷酸;
b.将上述修饰的多核苷酸分成两个或多个小部分,上述小部分的数目与步骤a中所代替的天然核苷酸的数目相同;而且,
c.将上述每一小部分中的上述修饰多核苷酸在每一个不同的上述修饰核苷酸的事实上所有发生位点割成片段,这样,与其他上述小部分相比,上述的每一小部份都包含在不同修饰核苷酸部位切割获得的片段;
d.测定上述片段的质量;并且,
e.从上述质量中建构上述核苷酸序列;或者,
f.将上述每一小部分的上述修饰多核苷酸在不同修饰核苷酸的某一比率的发生位点切割成片段,以便与其它上述小部分相比,上述每一小部分都包含在不同修饰核苷酸部位进行切割所得到的片段;而且,
g.对从步骤f中的上述片段中获得的序列阶梯进行分析。
此外,本发明的另一个方面是一种方法,用于在多核苷酸中测定核苷酸序列,方法包括
a.将一多核苷酸中的第一个天然核苷酸在某一百分率的参入位点中用第一个修饰核苷酸替代,以形成第一个部分修饰的多核苷酸,其中上述第一个修饰的核苷酸不是脱氧核苷酸;
b.将上述第一个部分修饰的核苷酸切割成片段,使用具有已知切割效率的上述切割方法,以形成第一套核苷酸特异的切割产物;
c.重复步骤a和b,将第二、第三、和第四个天然核苷酸用第二、第三、和第四个修饰核苷酸替代,以形成第二、第三、和第四个部分修饰的多核苷酸,后者在切割以后,可以形成第二、第三、和第四套核苷酸特异的切割产物;
d.对上述第一、第二、第三、和第四套核苷酸特异的切割产物进行胶电泳,以形成一个序列阶梯;而且,
e.从上述序列阶梯中阅读上述多核苷酸的上述序列。
本发明的一个方面是一种方法,用于在聚合反应中切割一多核苷酸,方法包括
将4种不同的核苷酸混合在一起,它们中的一种或两种是修饰的核苷酸;还有,
两种或多种聚合酶,它们中的至少一种可以在上述修饰核苷酸被参入的点产生或增强切割;或者,如果使用两种修饰核苷酸,产生或增强切割的点是上述相邻对的修饰核苷酸被参入并具有合适的空间关系的点;而条件为如果只使用一个修饰核苷酸,它不包含核糖作为它唯一的修饰特性。
在上述方法中,当使用两种修饰核苷酸时,本发明的一个方面是,两种修饰核苷酸的其中一种是核糖核苷酸,其中一种是5’-氨基-2’,5’-双脱氧核苷酸。
此外,在刚刚所提到的使用特异修饰的核苷酸的方法中,本发明的一个方面为,使用两种聚合酶,其中一种是Klenow(外-)聚合酶,另一种是变异型E710A Klenow(外-)聚合酶。
在上述任一方法中,本发明的一个方面是,所有未被修饰核苷酸替代的天然核苷酸都可以用质量修饰的核苷酸替代。
本发明中所有方法的另一个方面是,被修饰的多核苷酸选自包含DNA和RNA的组中。
上述所有方法的另一个方面是,通过质量光谱测定检测上述片段的上述质量。目前较适宜类型的质量光谱测定为电喷射电离质量光谱测定和基质辅助的解吸附/电离质量光谱测定(MALDI)。
在上述需要产生序列阶梯的方法中,产生序列阶梯可以通过胶电泳来完成。
此外,在上述与使用修饰核苷酸来部分替代天然核苷酸以确定一个多核苷酸序列相关的方法中,本发明的另一个方面是,在进行步骤“b”之前,将步骤“a”中得到的所述的第一、第二、第三、和第四个部分修饰的核苷酸用一种或多种限制酶进行切割,将得到的限制片段末端进行标记,并纯化限制片段。
本发明的一个方面是一种方法,用于切割多核苷酸,以使切割后获得的事实上所有片段都带有标记,方法包括
a.将一多核苷酸中的天然核苷酸用一修饰核苷酸部分或在事实上每个发生位点进行替代,以形成一修饰的多核苷酸;
b.在有与一标记物共价结合的磷化氢存在的条件下,将上述修饰多核苷酸与一种或多种试剂进行接触,该试剂可将修饰多核苷酸部分或事实上上述每个出现位点进行切割。
在本发明的一个当前优选实施例中,上述方法中的磷化氢是tris(羧乙基)磷化氢(TCEP)。
同样也是在上述方法中,本发明的另一个方面是,标记物为荧光标记或放射性标记。
本发明的一个方面是,上述方法可用于对与遗传相关的疾病进行诊断。这些方法也可以用作获得与遗传相关的疾病或症状的预后的手段。它们也可以被用来确定一个病人是否符合条件,可接受医学治疗,而其所使用的方法是适用于与遗传相关的疾病或症状的方法。
本发明的一个方面是在多核苷酸中检测核苷酸序列差异的方法,用于对多核苷酸进行测序,或用于对已知包含多型性或突变的多核苷酸进行基因分型。
a.将上述的一种或多种天然核苷酸用一种或多种修饰核苷酸替代,这些修饰核苷酸中的一种或多种包含一个修饰碱基;
b.将上述修饰的多核苷酸与一种或多种试剂进行接触,该试剂可将修饰多核苷酸切割成片段,切割部位为上述修饰核苷酸的参入位点;
c.将上述片段进行分析,从而检测上述差异、建构上述序列,或对上述多核苷酸进行基因分型。
在本发明的另一个方面中,上述方法中的修饰碱基可为腺嘌呤。它也可为7-去氮杂-7-硝基腺嘌呤(7-deaza-7-nitroadenine)。
在本发明的另一个方面中,经上述方法修饰的多核苷酸可以通过与化学碱进行接触而切割成片段。
在本发明的另一个方面中,在上述方法中,将上述修饰多核苷酸切割成片段,这一步骤包含将上述修饰多核苷酸与磷化氢进行接触。
在上述方法中使用TCEP作为磷化氢,是本发明的另一方面。
上述方法中的修饰碱基也可以为修饰的胞嘧啶,例如(但不限于)氮杂胞嘧啶,或者是胞嘧啶在5-位上用一电子接收基团进行取代,而其中的电子接收基团是(但不限于)硝基或卤素基。
用上述方法修饰的多核苷酸可再次用化学碱进行切割。
将TCEP包含在刚刚所提到的切割反应中是本发明的另一方面。
上述方法中的修饰碱基也可以为修饰的鸟嘌呤,例如(但不限于)7-甲基-鸟嘌呤,而可以用化学碱进行切割。
本发明的另一个方面为,修饰的鸟嘌呤为N2-烯丙基鸟嘌呤。本发明的另一个方面为,通过将上述修饰多核苷酸与一亲电子试剂(例如,但不限于,碘)进行接触,从而将该修饰鸟嘌呤进行切割。
在本发明的另一方面中,上述方法中的修饰碱基也可以为修饰的胸腺嘧啶和修饰的尿嘧啶。本发明目前一个比较适宜的表现形式是,在胸腺嘧啶或尿嘧啶的位置使用5-羟尿嘧啶。当使用5-羟尿嘧啶时,通过下列方法进行切割
a.将上述多核苷酸与一化学氧化剂进行接触;并且,然后
b.将上述多核苷酸与化学碱进行接触。
本发明的另一方面是一种方法,用于在多核苷酸中检测核苷酸序列的差异性、对多核苷酸进行测序、或者对多核苷酸进行基因分型,方法包含,将上述多核苷酸中的一个或多个天然核苷酸用一个或多个修饰核苷酸替代,修饰核苷酸中的一个或多个包含修饰糖基,而附带条件为,当只有一个核苷酸被替代时,上述修饰糖基不是核糖。
本发明的另一个方面为,修饰糖基为2-酮糖(2-ketosugar)。酮糖可以用化学碱进行切割。
修饰糖基也可以为阿拉伯糖(arabinose),该糖也对化学碱敏感。
修饰糖基也可以为用4-羟甲基取代的糖类,该糖类可使多核苷酸对化学碱切割敏感。
另一方面,修饰糖基可以为羟环戊烷,尤其是1-羟或2-羟环戊烷。羟环戊烷也可用化学碱进行切割。
修饰糖基可为叠氮糖,例如(但不限于)2’-叠氮,4’-叠氮或4’-叠氮甲基糖。对叠氮糖的切割可以在有TCEP存在的条件下进行。
糖基也可用能够进行光分解以形成自由基的基团取代,例如(但不限于)苯氧硒基或t-丁羧基。这些基团使得多核苷酸对紫外光切割敏感。
糖基也可为氰基糖。在目前较适宜的一个具体表现形式中,氰基糖是2’-氰基糖或2″-氰基糖。氰基糖修饰的多核苷酸可以用化学碱进行切割。
本发明的另一个方面为用电子接收基团取代的糖基,这些电子接收基团如(但不限于)氟、叠氮基、甲氧基或硝基,位于修饰糖基的2’,2″,或4’位置上。这些修饰糖基使得修饰多核苷酸对化学碱切割敏感。
在另一方面,糖基可通过在糖环中加入电子接收元素而获得修饰。氮便是这类基团的一个例子。氮可以替代糖中的环氧或环碳,而所产生的修饰糖可被化学碱切割。
在本发明的另一个方面中,修饰糖可为含有巯基基团的糖。糖的2’位置是目前较适宜的表现形式,这样的糖可被化学碱切割。
特别的是,修饰糖可为5’-亚甲基-糖,5’-酮糖,或5’,5’-二氟糖,而所有这些糖都被化学碱切割。
本发明的另一方面是一种方法,用于在多核苷酸中检测核苷酸序列的差异性、对多核苷酸进行测序、或对多核苷酸进行基因分型,而该多核苷酸已知包含多型性或突变;方法包括将上述多核苷酸中的一个或多个天然核苷酸用一个或多个修饰核苷酸替代,而修饰核苷酸中的一个或多个包含一个修饰的磷酸酯。
修饰的磷酸酯可以为硫逐磷酸酯。
在一个具体表现形式中,硫逐磷酸酯中的硫并不与糖环共价结合。在这种情况下,将上述修饰的多核苷酸切割成片段的过程包含如下步骤
a.将上述硫逐磷酸酯中的硫与一烷化剂进行接触;而且,
b.再将上述修饰的多核苷酸与化学碱进行接触。
在本发明目前一个较适宜的表现形式中,烷化剂为甲基碘。
在本发明的另一个方面中,含有硫逐磷酸酯的修饰多核苷酸可以被切割成片段,方法为将上述硫逐磷酸酯中的硫与一化学碱中的β-巯基乙醇接触,化学碱的例子可为(但不限于)甲醇中的甲氧基钠。
在另一方面,在本发明的另一具体表现形式中,可将上述硫逐磷酸酯中的硫原子与糖环共价结合。通过这种形式修饰的多核苷酸可用化学碱进行切割。
修饰的磷酸酯也可为氨基磷酸酯。含有氨基磷酸酯的多核苷酸可以用酸进行切割。
本发明的一个方面为,修饰的磷酸酯包含一个基团,该基团选自由烷基膦酸酯和烷基磷酸三酯组成的组中,而其中的烷基基团最好为甲基。这类修饰多核苷酸也可以用酸切割。
本发明的另一方面是一种方法,用于在多核苷酸中检测核苷酸序列的差异性、对多核苷酸进行测序、或对已知包含多型性或突变的多核苷酸进行基因分型;方法包括将上述多核苷酸中的第一个和第二个天然核苷酸用第一个和第二个修饰核苷酸进行替代,这样上述多核苷酸就可被特异切割,而切割位点为在修饰多核苷酸序列中,第一个修饰核苷酸后面紧接着便是上述第二个修饰核苷酸。
在上述方法中,第一个修饰核苷酸在其5’位置与一硫逐磷酸酯基团中的硫原子共价结合;而上述第二个修饰核苷酸(它被一2’-羟基基团修饰)与上述第一个修饰核苷酸相邻,并位于后者的5’端。这一双核苷酸对可用化学碱切割。
也是在上述方法中,第一个修饰核苷酸可在其3’位置与一硫逐磷酸酯基团中的硫原子共价结合,而上述第二个修饰核苷酸(它被一2’-羟基基团修饰)与上述第一个修饰核苷酸相邻,并位于后者的3’端。这一双核苷酸对也可用化学碱切割。
本发明的另一个方法为,在上述方法中,上述第一个修饰核苷酸在其5’位置与一硫逐磷酸酯基团中的第一个氧原子共价结合,上述第二个修饰核苷酸在其2’位置被一活泼基团取代,而上述第二个修饰核苷酸在其3’位置与上述硫逐磷酸酯基团中的第二个氧共价结合。可以使用任何活泼基团,氟、氯、溴、碘即为活泼基团的例子。用这种方法修饰的多核苷酸可以用化学碱进行切割。甲氧基钠便是有用的化学碱的一个例子(当然化学碱并不限于甲氧基钠)。
在本发明的另一个具体表现形式中,上述第一个修饰核苷酸在其5’位置与一硫逐磷酸酯基团中的第一个氧原子共价结合,上述第二个修饰核苷酸在其4’位置被一活泼基团取代,而上述第二个修饰核苷酸在其3’位置与上述硫逐磷酸酯基团中的第二个氧共价结合。在此,可以再次使用任何好的活泼基团,其中氟、氯、溴、碘都是活泼基团的例子(但不限于这几种基团)。这些基团使得修饰多核苷酸对化学碱(例如,但不限于,甲氧基钠)切割敏感。
在本发明的另一个具体表现形式中,上述第一个修饰核苷酸在其5’位置与一硫逐磷酸酯基团中的第一个氧原子共价结合,上述第二个修饰核苷酸在其2’位置被一个或两个氟原子取代,而上述第二个修饰核苷酸在其3’位置与上述硫逐磷酸酯基团中的第二个氧共价结合。这样的修饰多核苷酸可以被切割,切割方式为
a.将上述修饰多核苷酸与乙烯基硫化物或β-巯基乙醇接触;而且然后,
b.将上述修饰多核苷酸与一化学碱(例如,但不限于,甲氧基钠)相接触。
在本发明的另一具体表现形式中,上述第一个修饰核苷酸在其5’位置与一硫逐磷酸酯基团中的第一个氧原子共价结合,上述第二个修饰核苷酸在其2’位置被一个羟基取代,而上述第二个修饰核苷酸在其3’位置与上述硫逐磷酸酯基团中的第二个氧共价结合。在此,切割是通过下列步骤完成的
a.将上述修饰多核苷酸与一金属氧化剂相接触;而且,然后,
b.将上述修饰多核苷酸与一化学碱进行接触。
金属氧化剂的例子(但不限于这些)为CuII和FeIII,而有用的碱的例子(同样不限于这些例子)为稀释的氢氧化物、哌啶、和稀释的氢氧化胺。
本发明的另一个具体表现形式为,上述第一个修饰核苷酸在其5’位置与一硫逐磷酸酯基团中的氮原子共价结合,上述第二个修饰核苷酸(它被一2’-羟基基团修饰)与上述第一个修饰核苷酸相邻,并位于其5’端。这种类型的修饰使得修饰多核苷酸对酸切割敏感。
本发明的另一个具体表现形式是,在这个具体表现形式中,上述第一个修饰多核苷酸在其3’位置与一氨基磷酸酯基团中的氮原子共价结合,上述第二个修饰核苷酸(它被一2’-羟基基团修饰)与上述第一个修饰核苷酸相邻,并位于其3’端。这样一种取代方式也可以用酸切割。
上述第一个修饰核苷酸也可以在其5’位置与磷酸烷基酯或磷酸烷基三酯基团中的氧原子共价结合,而上述第二个修饰核苷酸(它被一2’-羟基基团修饰)与上述第一个修饰核苷酸相邻。这样一种双核苷酸组也可以用酸切割。
另外一种可切割的双核苷酸分组方法为,上述第一个修饰核苷酸在其4’位置有一电子接收基团,而上述第二个修饰核苷酸(它被一2’-羟基基团修饰)与上述第一个修饰核苷酸相邻,并位于其5’端。通过与酸进行接触,也可以进行切割。
本发明的另一方面是一种方法,用于在多核苷酸中检测核苷酸序列的差异性、对多核苷酸进行测序、或对已知包含多型性或突变的多核苷酸进行基因分型;方法包括
a.将上述多核苷酸中的一个或多个天然核苷酸用一个或多个修饰核苷酸替代,而其中的每个修饰核苷酸都用一种或多种修饰成分进行修饰,这些修饰成分选自由修饰碱基、修饰糖、及修饰磷酸酯组成的组中,条件为如果只使用一种修饰核苷酸,则该修饰核苷酸不是核糖核苷酸;
b.将该修饰核苷酸与一种或多种试剂进行接触,这些试剂可将修饰多核苷酸切割成片段,切割位点为该修饰核苷酸参入的位置;
c.将上述片段进行分析,以检测上述差异、建构上述序列、或对上述多核苷酸进行基因分型。
本发明的一个方面为有如下化学结构的化合物
结构
R1选自由下列基团组成的组中
一种具有如下化学结构的化合物
而其中所说的“碱基”选自由胞嘧啶、鸟嘌呤、次黄嘌呤和尿嘧啶组成的组中。
本发明的另一方面是一种具有如下化学结构的化合物
而其中所说的“碱基”选自由腺嘌呤、胞嘧啶、鸟嘌呤、次黄嘌呤和尿嘧啶组成的组中。
本发明的另一方面是一种具有如下化学结构的化合物

而其中所说的“碱基”选自由腺嘌呤、胞嘧啶、鸟嘌呤、次黄嘌呤、胸腺嘧啶和尿嘧啶组成的组中。
本发明的另一方面为一种多核苷酸,该多核苷酸包含一个双核苷酸序列,而后者选自由下列结构组成的组中
而其中的每个“碱基”都独立选自由腺嘌呤、胞嘧啶、鸟嘌呤、和胸腺嘧啶组成的组中;W是一个电子接收基团;X是一个活泼基团,R是一个烷基(最好为小分子烷基)基团。本发明的另一个方面为,电子接收基团选自由F,Cl,Br,I,NO2,C≡N,-C(O)OH和OH组成的组中;而且,在另一方面,活泼基团选自由Cl,Br,I,和OTs组成的组中。
本发明的一个方面为合成一种多核苷酸的方法,方法包括在有一种或多种聚合酶存在的条件下,将具有如下结构的化合物
其中R1选自由下列结构组成的组中
与三磷酸腺苷、三磷酸鸟苷、以及三磷酸胸苷或尿苷混合。
本发明的另一方面为一种合成多核苷酸的方法,方法包括在有一种或多种聚合酶存在的条件下,将具有如下结构的化合物
其中R1选自由下列结构组成的组中

本发明的另一方面为一种合成多核苷酸的方法,方法包括在有一种或多种聚合酶存在的条件下,将具有如下结构的化合物
其中R1选自由下列结构组成的组中

与三磷酸胞苷、三磷酸鸟苷、和三磷酸胸苷混合。
本发明的另一方面为一种合成多核苷酸的方法,方法包括在有一种或多种聚合酶存在的条件下,将具有如下结构的化合物
其中R1选自由下列结构组成的组中

与三磷酸腺苷、三磷酸胞苷、和三磷酸胸苷混合。
本发明的另一方面为一种合成多核苷酸的方法,方法包括在有一种或多种聚合酶存在的条件下,将选自下列组中的化合物——这些组包括
具有如下化学结构的化合物
其中所说的“碱基”选自由胞嘧啶、鸟嘌呤、次黄嘌呤和尿嘧啶组成的组中;
具有如下化学结构的化合物
其中所说的“碱基”选自由腺嘌呤、胞嘧啶、鸟嘌呤、次黄嘌呤和尿嘧啶组成的组中;还有
具有如下化学结构的化合物

其中的碱基选自由腺嘌呤、胞嘧啶、鸟嘌呤或次黄嘌呤、和胸腺嘧啶或尿嘧啶组成的组中——与四种三磷酸核苷中的任何三种进行混合,四种三磷酸核苷为三磷酸腺苷、三磷酸胞苷、三磷酸鸟苷和三磷酸胸苷,但不包含上述碱基(或其取代物)。
本发明的另一方面为合成多核苷酸的方法,方法包含在有一种或多种聚合酶存在的条件下,将下列成对化合物中的一对——这些化合物对包括
































































其中碱基1选自由腺嘌呤、胞嘧啶、鸟嘌呤或次黄嘌呤、和胸腺嘧啶或尿嘧啶组成的组中;
碱基2选自由包含剩余三种不是碱基1的碱基组成的组中;
R3为O--P(=O)(O-)-O-P(=O)(O-)-O-P(=O)(O-)-O-;并且,
W为一电子接收基团;
X是活泼基团;
相同碳原子上括号内所显示的第二个W或X的意思是一个单独的W或X基团可以位于糖的任一位置上,或者,两个W或两个X基团可以同时出现;另外,
R是一个小分子烷基;
在一种或多种聚合酶中——与四种三磷酸核苷中的任何两种进行混合,这四种三磷酸核苷为三磷酸腺苷、三磷酸胞苷、三磷酸鸟苷和三磷酸胸苷,但不包含碱基1和碱基2(或其取代物)。
本发明的另一方面为一变异型的聚合酶,它能催化将一修饰核苷酸参入到多核苷酸中的反应,而该修饰核苷酸不是核糖核苷酸,而上述聚合酶通过在本发明的另一方面中包含DNA穿梭的过程而得到。
包含DNA穿梭的过程可由下列步骤组成
a.选择一种或多种已知的聚合酶;
b.进行DNA穿梭;
c.将穿梭的DNA转化入宿主细胞;
d.培育宿主细胞集落;
e.从上述宿主细胞集落中获得溶菌液;
f.加入DNA模板,模板中含有一个可检测的报告子序列、修饰的一个或多个核苷酸(我们希望其能参入到多核苷酸中)、以及没有被上述修饰核苷酸替代的天然核苷酸;并且,
g.检测溶菌液中可检测的报告子的存在。包含DNA穿梭的过程也可以包括
a.选择一种已知的聚合酶,或者两种或多种具有不同序列或不同生化特性或两者都具备的已知聚合酶;
b.进行DNA穿梭;
c.将上述穿梭DNA转化入宿主细胞,以在宿主细胞集落中形成转化株文库;
d.通过将上述宿主细胞集落铺板,制备上述转化株的第一个独立库;
e.从上述宿主细胞集落的每一第一个独立库中,获得溶菌液;
f.从每一个上述溶菌液中,除去所有天然核苷酸;
g.将每一上述溶菌液与下列成分混合
i.一个单链DNA模板,模板包含一序列,序列对应于一个
RNA聚合酶启动子,后面接一个报告子序列;
ii.一个单链DNA引物,该引物与上述模板的一端互补;
iii.修饰的一个核苷酸或多个核苷酸,我们希望它们可以参入
到上述多核苷酸中;
iv.没有被上述修饰的一个核苷酸或多个核苷酸替代的每个
天然核苷酸;
h.向每一上述混合溶菌液中加入RNA聚合酶;
i.对每一上述混合溶菌液进行检测,以检测上述报告子序列的存在;
j.从检测到上述报告子存在的上述宿主细胞集落的每一第一个独立库,建立宿主细胞集落转化株的第二个独立库;
k.从上述宿主细胞集落的每一第二个独立库中,获得溶菌液;
l.重复步骤g,h,I,j,k和l,以在宿主细胞集落中形成转化株的独立库,直到只有一个包含上述聚合酶的宿主细胞集落剩余下来;而且,
m.将上述聚合酶从上述的一个宿主细胞集落中再次克隆入一个蛋白质表达载体。
本发明的另一方面为一种聚合酶,该酶能够催化将一个修饰核苷酸参入到多核苷酸中的反应,而上述修饰核苷酸不是从包含细胞衰老选择的过程中获得的核糖核苷酸。
细胞衰老选择过程可包含下列步骤
a.对一已知聚合酶进行诱变,以形成突变型聚合酶文库;
b.将上述文库克隆入一个载体;
c.将上述载体转化入宿主细胞,宿主细胞是这样选择的只有当上述细胞处于活跃生长时,才容易被一种经选择的化学药品杀死;
d.加入一种修饰核苷酸;
e.培育上述宿主细胞;
f.将上述宿主细胞用上述经选择的化学药品处理;
g.将活细胞与死细胞分离开来;并且,
h.分离上述聚合酶或来自上述活细胞的聚合酶。
本发明的另一个方面为,上述方法中步骤d-h可被重复一次或数次,以使对聚合酶的选择更为精细。
为了获得聚合酶而进行的细胞衰老过程也可包含下列步骤
a.对一已知聚合酶进行诱变,以形成突变型聚合酶文库;
b.将上述突变聚合酶文库克隆入一个质粒载体;
c.用上述质粒载体转化细菌细胞,而该细胞在生长时,对抗菌素敏感;
d.用上述抗菌素选择转染株;
e.将一修饰核苷酸作为对应的三磷酸核苷引入细菌细胞;
f.培育细胞;
g.加入抗菌素;该抗菌素在细菌细胞活跃生长时,将杀死该细胞;
h.分离上述细菌细胞;
i.在不含抗菌素的新鲜培养基中培育该细菌细胞;
j.从生长集落中分离活细胞;
k.从上述活细胞中分离上述质粒载体;
l.分离上述聚合酶;而且,
m.检测上述聚合酶。
本发明的另一个方面为,在进入到步骤l之前,将上述过程中的步骤c-k重复一次或更多次。
聚合酶也可由包含噬菌体展示的过程而得到。
噬菌体展示过程可包含下列步骤
a.选择一个DNA聚合酶;
b.将上述聚合酶在细菌噬菌体载体中表达,融合入细菌噬菌体包被蛋白中。
c.将一寡核苷酸附着在噬菌体表面;
d.形成一引物模板复合物,方法为或者加入一个与c中的寡核苷酸互补的第二个寡核苷酸,或者利用c中寡核苷酸的分子内互补性,形成一个自引导复合物;
e.进行引物延伸;条件为有修饰的一个或多个核苷酸存在(我们希望它们能参入到多核苷酸中),以及有天然核苷酸存在(在有可检测的报告子序列存在时,这些天然核苷酸没有被成功的引物延伸所导致的上述修饰核苷酸所替代);
f.将带有可检测的报告子的噬菌体和不带有可检测的报告子的噬菌体区别并拣选开;
本发明的另一个方面为,通过将一个或多个染料标记的天然或修饰核苷酸参入到引物延伸反应中,而形成可检测的报告子序列。
在本发明的另一个方面中,所指示的拣选过程可能包含使用荧光活化细胞拣选仪。
本发明的一个方面为,上述方法中的可检测的报告子为一限制性内切酶切割位点,而拣选过程需要限制性内切酶消化。
本发明的另一方面为,通过上述方法获得的聚合酶为一热稳定的聚合酶。
通过上述任何方法获得的聚合酶,而其中被参入的修饰核苷酸选自由下列成分组成的组中
一种具有如下结构的化合物
而其中的R1选自由下列成分组成的组中

一种具有如下结构的化合物
而其中所说的“碱基”选自由胞嘧啶、鸟嘌呤、次黄嘌呤、尿嘧啶组成的组中,
一种具有如下结构的化合物
而其中所说的“碱基”选自由腺嘌呤、胞嘧啶、鸟嘌呤、次黄嘌呤、尿嘧啶组成的组中;
一种具有如下结构的化合物

而其中所说的“碱基”选自由腺嘌呤、胞嘧啶、鸟嘌呤、次黄嘌呤、胸腺嘧啶和尿嘧啶组成的组中;而且,

其中,
碱基1选自由腺嘌呤、胞嘧啶、鸟嘌呤或次黄嘌呤、与胸腺嘧啶或尿嘧啶组成的组中;
碱基2选自由包含余下三种非碱基1的碱基组成的组中;
R3为O--P(=O)(O-)-O-P(=O)(O-)-O-P(=O)(O-)-O-;并且,
W为一电子接收基团;
X为活泼基团;
相同碳原子上括号内所显示的第二个W或X的意思是一个单独的W或X基团可以位于糖的任一位置上,或者,两个W或两个X基团可以同时出现;另外,
R是一个小分子烷基;
本发明的最后一个方面为一个试剂盒,该试剂盒包含
一个或多个修饰核苷酸;
一个或多个聚合酶,该酶能将上述一个或多个修饰核苷酸参入到多核苷酸中,形成修饰多核苷酸;还有,
一个或多个试剂,该试剂能够在上述多核苷酸中上述一个或多个修饰核苷酸的每一发生位点上对上述修饰多核苷酸进行切割。
在此,一种“化学方法”指的是一种或多种修饰核苷酸和一种或多种试剂的结合,当用对一个天然核苷酸进行部分或全部取代的方法,将修饰核苷酸参入到多核苷酸中,并用此试剂对修饰核苷酸进行处理时,可导致在修饰核苷酸的参入位点对修饰核苷酸的选择性切割。
“分析”的意思或者为在两个或多个相关多核苷酸中检测核苷酸序列的差异性,或者为确定一个多核苷酸的全部核苷酸序列。
“试剂”的意思为一种化学或物理力,该力可导致在一修饰核苷酸对天然核苷酸发生取代的参入位点上对修饰多核苷酸的切割;这样一种试剂可以为(但不限于)一种化学药品或化学药品的联合、正常或连贯(激光)可见或紫外光、热、高能离子轰击和照射。此外,一种试剂也可以由(但不限于)一种聚合酶组成。
“相关”多核苷酸是从遗传上相似的来源获得的多核苷酸,以至在没有差异的情况下,多核苷酸的核苷酸序列应该完全相同;或者,应该有一段重叠区域,当重叠的区域多于35个核苷酸时,在没有差异的情况下,该重叠区域应该完全相同。
“差异”指的是相关多核苷酸中核苷酸序列的不同。这种“不同”可以为与相关多核苷酸序列相比,一个或多个核苷酸从多核苷酸序列中的删除;一个或多个核苷酸的添加;或者为,一个核苷酸对另一个核苷酸的取代。在此,“突变”、“多型性”、和“差异”几个词交互使用。在此,单数形式的“差异”一词可被理解为包括多种差异,也就是说,同一多核苷酸中的两种或多种核苷酸的添加、删除、和/或替代。一个“点突变”指的是一个核苷酸对另一个核苷酸的单一取代。
一个“序列”或“核苷酸”序列指的是核酸中的核苷酸残基排序。
正如上面所提到的,本发明的化学方法中的一个方面包含修饰核苷酸,该修饰核苷酸能取代天然核苷酸的位置,而被参入到多核苷酸中。
一个“核苷酸”指的是一个碱基与一个糖基相连。碱基可以为腺嘌呤(A)、鸟嘌呤(G)(或其取代物,次黄嘌呤(I)),胞嘧啶(C)、或胸腺嘧啶(T)(或其取代物,尿嘧啶(U))。糖可以为核糖(RNA中天然核苷酸中的糖)或2-脱氧核糖(DNA中天然核苷酸中的糖)。
一个“三磷酸核苷”指的是一个核苷与一个三磷酸基团(O--P(=O)(O-)-O-P(=O)(O-)-O-P(=O)(O-)-O-核苷)相连。三磷酸基团带有四个整齐均匀的负电荷,而负电荷需要反离子,即正电荷。任何带正电的离子都可以使用,例如(但不限于)Na+,K+,NH4+,Mg2+,Ca2+,等等。Na+是最常用的反离子之一。一般在表示三磷酸核苷的时候,习惯上都忽略反离子,但反离子实际上仍然存在;本文中仍然沿用这一惯例。
在此,除非另加说明,“三磷酸核苷”一词或提及任何特殊的三磷酸核苷,如三磷酸腺苷、三磷酸鸟苷、或三磷酸胞苷,指的都是或者用核糖核苷、或者用2’-脱氧核糖核苷形成的三磷酸。
一种“核苷酸”指的是与一个单一磷酸基团连接的核苷,或者,按照惯例,当提及对一个多核苷酸的参入时,用作三磷酸核苷的缩写,而后者是在有聚合酶存在时实际发生聚合的物质。
一种“天然核苷酸”指的是当提及RNA时,为A、C、G、U核苷酸,而当提及DNA时,为dA、dC、dG(“d”指的是糖为脱氧核糖)和dT。一种天然核苷酸也指一种核苷酸,该核苷酸具有与上述不同的结构,但却被作为多核苷酸来源的生物体经过自然方式参入到多核苷酸序列中。
在此,次黄嘌呤核苷(I)指的是含有碱基次黄嘌呤的嘌呤核苷酸。
在此,对三磷酸核苷的“取代物”指的是一个不同核苷中的分子,它可以经自然过程对A、C、G或T发生取代。因此,次黄苷是鸟苷的天然取代物,尿苷是胸苷的自然取代物。
在此,判断一种“修饰核苷酸”需具备两个标准。首先,一个修饰核苷酸是一个“非天然”的核苷酸。一方面,一种“非天然”核苷酸可为一种天然核苷酸,放置在非天然环境中。例如,在一种天然由脱氧核糖核酸构成的多核苷酸中,一个核糖核苷酸在被参入到该多核苷酸中时便构成了一个“非天然”核苷酸。相反,在一种天然由核糖核酸构成的多核苷酸中,一个参入到多核苷酸中的脱氧核糖核苷酸便构成了一个非天然核苷酸。此外,一种“非天然核苷酸”可为一种经化学改变的天然核苷酸,例如(但不限于)向核苷酸分子中添加一个或多个化学取代基团,从分子中删除一个或多个化学取代基团,或者用核苷酸中一个或多个原子或化学取代物替代其它原子或化学取代物。最后,一种“修饰”核苷酸可为一分子,该分子即便与天然核苷酸有类似但也类似得很少,但却可以通过聚合酶参入到多核苷酸中,代替一个天然核苷酸。
在此所使用的“修饰”核苷酸一词,其第二个特征为它可改变它所参入进去的多核苷酸的切割特性。例如(但不限于)将一核糖核苷酸参入到主要由脱氧核糖核苷酸组成的多核苷酸中,便使得该多核苷酸具备了对碱切割的敏感性,而该性质在天然脱氧核糖核苷酸中是不存在的。“修饰”核苷酸的第二个标准可以通过下列方法达到用一单一的非天然核苷酸取代一单一的天然核苷酸(例如,上述的核糖核苷酸对脱氧核糖核苷酸的取代),或者将两种或多种非天然核苷酸进行结合;在经选择的反应条件下,这些非天然核苷酸本身并不影响多核苷酸的切割特性,但却可以彼此作用,从而改变多核苷酸的切割特性(称为“双核苷酸切割”)。
当在此提到将一个单一的修饰核苷酸参入到多核苷酸中,以及随后对修饰多核苷酸的切割时,修饰核苷酸不能为核糖核苷酸。
当提到一种修饰核苷酸“具有不同切割特性”时,我们指的是,参入到相同修饰多核苷酸中的修饰核苷酸能够在使修饰多核苷酸中每一其它修饰核苷酸的参入位点保持不变的反应条件下被切割。
在此,一种“具有稳定性的修饰核苷酸”指的是一种修饰核苷酸,该修饰核苷酸可以增加对这一修饰核苷酸的参入位点的切割的抵抗。在此所描述的大多数修饰核苷酸在参入到一个修饰多核苷酸中时都可使对切割的不稳定性增加。然而,修饰核苷酸相对于修饰多核苷酸中天然核苷酸的有区别的不稳定性并不总足以允许在避免对天然核苷酸进行任何切割的同时,对修饰核苷酸部位进行完全切割。因此,修饰核苷酸具有一种有用的用途,能够降低不稳定性(对核苷酸具有稳定作用);这样,当在包含可增加对一特殊切割过程的敏感性的核苷酸(不稳定核苷酸)的多核苷酸中存在有稳定核苷酸时,便能在切割过程中增加对切割和非切割核苷酸的分辨能力。在一个多核苷酸中使用具有稳定性的核苷酸的较适宜的方法为用具有稳定性的核苷酸替代所有不具有不稳定性的核苷酸。在进行单核苷酸切割时,这就意味着需要使用三种具有稳定性的核苷酸和一种具有不稳定性的核苷酸;在进行双核苷酸切割时,这就意味着需要使用两种具有稳定性的核苷酸和两种(不同的)具有不稳定性的核苷酸。在此,“具有稳定性的核苷酸”指的是一种修饰核苷酸,当其被参入到一个多核苷酸中并处于切割条件下时,相对于多核苷酸中其他(非稳定)核苷酸中发生的单或双核苷酸切割,可减少对具有稳定性的核苷酸的切割,而不管上述其他核苷酸是天然核苷酸还是不稳定核苷酸。
在此,一种“动摇的修饰多核苷酸”或者一种“不稳定的修饰多核苷酸”指的是一种修饰多核苷酸,在不稳定的修饰核苷酸向多核苷酸的参入位点上,与天然核苷酸相比,给予对切割更大的亲和性。
在此,“质量测定”指的是使用质量光谱仪,对一个分子的质量进行测定。质量光谱仪一般用于测量分析离子的质量电荷比(m/z),然后从中推算质量。当分析多核苷酸的质量状态为+1或-1时,在对质子质量进行矫正之后(向正离子上加上一个额外质子,而从负离子上减去一个质子),m/z比值和质量在数量上是相等的;不过,当电荷大于+1或小于-1时,m/z比值通常要小于实际质量。在某些情况下,质量光谱仪所配备的软件可将m/z比值换算成质量,这样使用者就不需要意识到这其中有什么差别了。
在此,一个“标记”或“标签”指的是一个分子,当通过例如(但不限于)共价结合或杂交的方式附着在另一个分子(例如,但不限于,一个多核苷酸或多核苷酸片段)上时,可提供或增强一种检测其它分子的方法。一种荧光或荧光标记或标签在用另外一个波长进行激发时,可在一个特定波长下发出可检测到的光。一种放射性标记或放射性标签可以发出放射性粒子,后者可以用例如(但不限于)液闪计数仪等仪器进行检测。
一个“质量修饰”的核苷酸是一核苷酸,其中的一个原子或化学取代物已经被添加、删除或取代,然而这种添加、删除或取代在本文的定义中并不在核苷酸中产生修饰的核苷酸特性,也就是说,添加、删除或取代的唯一结果是对核苷酸质量的修饰。
一个“多核苷酸”指的是核苷酸的一条直链,该直链通过一个核苷的3’-羟基基团和第二个核苷的5’-羟基基团之间的磷酸二酯键相连,第二个核苷继而通过其3’-羟基与第三个核苷的5’-羟基相连,如此下去,形成一个由核苷组成的多聚体,核苷由磷酸二酯键骨架相连。多核苷酸可以为(但不限于)单链或双链DNA或RNA,或本工艺中任何已知的其它结构。
一种“修饰多核苷酸”指的是一种多核苷酸,其中一个或多个天然核苷酸已经部分或基本上完全被修饰核苷酸所取代。
一个“修饰DNA片段”指的是一个DNA片段,正如在此所说明的,是通过在Sanger双脱氧终止条件下、将天然核苷酸中的一种(此核苷酸并不是那个部分被其双脱氧类似物取代的核苷酸)用一修饰核苷酸替代所合成的。其结果是一套Sanger片段;也就是说,一套以ddA,ddC,ddG或ddT结尾的片段,而到底以哪个成分结尾取决于每一个这样的片段(该片段也包含修饰核苷酸)所使用的双脱氧核苷酸(当然,条件是与修饰核苷酸对应的天然核苷酸存在于该特定的Sanger片段中)。
在此,“改变一个多核苷酸的切割特性”的意思为使得多核苷酸具有区别性地可切割或不可切割;也就是说,相对于由其他非天然或天然核苷酸组成的位点来说,在修饰核苷酸的参入点,产生对切割的抵抗。目前,为了能够“改变切割特性”,相较于分子上的其它位点来说,比较倾向于在修饰核苷酸的参入位点上使多核苷酸对切割敏感。
在此,当提到核苷酸取代时,如果使用单数形式,除非另加说明,应该被理解为包括天然核苷酸的每一个发生位点。
在此,一个“模板”指的是一个靶多核苷酸链,例如(但不限于),一个非修饰的天然存在的DNA链,在聚合酶聚合天然发生的DNA链的互补链时,被聚合酶当作识别方式,以识别下一步应该向新增长的链中参入哪个核苷酸。这种DNA链可以为单链,也可以为双链DNA模板的一部分。如果在本发明的应用中需要重复进行聚合反应,例如在聚合酶链式反应(PCR)中,模板链本身可以通过参入修饰核苷酸的方法加以修饰,但仍然可以作为聚合酶的模板,以合成余下的多核苷酸。
“引物”是一段短寡核苷酸,其序列与被复制模板的一段互补,聚合酶以其作为复制过程的起始点。“互补”的意思为引物的核苷酸序列是这样这样,以至引物可以与模板形成稳定的氢键复合物;也就是说,引物可通过在至少十个碱基对的长度上形成碱基对而与模板杂交。
在此,“聚合酶”指的是(但不限于)DNA或RNA聚合酶、逆转录酶、突变型DNA或RNA聚合酶(通过核苷酸添加、核苷酸删除、一个或多个点突变、或者是被对工艺熟悉的人们称为“DNA穿梭”(见内文)的技术来致突变)、或者通过将不同聚合酶的部分连接起来以形成的嵌合聚合酶等分子。这些诱突变技术也可以联合起来使用。聚合酶催化核苷酸的聚合以形成多核苷酸。在此透露了制造、识别和使用聚合酶的方法,这些方法也是本发明的一个方面;这些聚合酶能够有效地将修饰核苷酸与天然核苷酸一起参入到多核苷酸中。聚合酶可以用于一次或重复地将一引物进行延长,或者通过使用两个引物、对两个互补链进行重复引导而对一多核苷酸进行扩增。扩增的方法包括(但不限于)聚合酶链式反应(PCR)、NASBR,SDA,3SR,TSA和滚动周期复制。人们普遍认为,在任何一种制造包含已知修饰核苷酸的多核苷酸的方法中,都会使用一种或几种聚合酶或扩增方法。“热稳定的聚合酶”或“热稳聚合酶”指的是一种聚合酶,它能够在温度提高(比如到达使双链核酸变性所需要的温度)以后仍保留足够的活性,以进行引物延伸反应。
最佳聚合条件的选择需视用途而定。一般来说,一种形式的引物延伸可能最适合于依赖双核苷酸切割和质量光谱分析的测序或差异检测方法,而引物延伸或扩增(如PCR)则适合于依赖电泳分析的测序方法。基因分型的方法最适合于用扩增的方法制造多核苷酸。任一类型的聚合都适合于本发明中的差异检测方法。
“限制酶”指的是一种内切酶(一种可以在多核苷酸链内部对磷酸二酯键进行切割的酶),该酶可依照DNA上的识别位点而对DNA进行切割。识别位点(限制位点)由一个特殊的核苷酸序列组成,通常约为4-8个核苷酸长。
在此,“电泳”指的是被本行业的人们称为胶电泳的技术;例如,平板胶电泳、毛细管胶电泳、以及用自动控制方法进行的上述电泳,如使用自动DNA测序仪或同时多通道自动毛细管DNA测序仪,或者在用玻璃或其它材料制成的蚀刻槽中进行的电泳等等。
“质量光谱测定”指的是本行业中的人们所知道的一种质量分析技术,包括(但不限于)基质辅助的激光解吸附电离(MALDI)和电喷射电离(ESI)质量光谱测定,而后者最好使用(但不限于)飞行时间、四极、或福里叶转化检测技术。虽然质量光谱测定的使用构成了本发明的一种较为适宜的表现形式,但是很显然,其它使用仪器方法的技术也可以用于(或可能用于)质量检测,或者将寡核苷酸的质量进行对比。本发明的一个方面为对质量进行测定和比较,而任何能够进行这类测定和比较的使用仪器方法的过程都应该包含在本发明的范围和精神之内。
在此,“FRET”指的是荧光共振能量传递,这是一种发生在两个染料分子的电子激发态之间的、距离依赖的相互作用,其中,激发态从一个染料(供体)传递到另一个染料(受体),而没有质子的释放。已经发展出一系列产生荧光团的方法,以对FRET加以利用。在本发明中,两种染料分子一般位于一个可切割的修饰核苷酸的相对面上,这样,切割可以改变染料之间的接近性,从而改变多核苷酸上染料的荧光输出。
在此,“构建一个基因序列”指的是,通过对从切割反应中得到的目的多核苷酸片段的质量进行分析,从而推断目的多核苷酸DNA序列的部分或全部信息的过程。构建一个基因序列的过程一般需要将一套通过实验方法测知的切割质量与从目的多核苷酸得到的所有可能的多核苷酸的已知或预期质量进行对比,而只需要知道参入到多核苷酸中的可修饰核苷酸的限制以及所使用的化学反应机制即可,而二者都会影响可能的组成质量的范围。随后可以使用各种分析推算方法,从而从切割片段的质量中获得最大量的序列信息。当目的多核苷酸在另外的反应中通过两种或更多种修饰核苷酸、或成套的修饰核苷酸而被修饰和切割时,通常便可以推测出更多的序列信息,因为从对几套切割片段的分析中获得的推算范围要更大。
在此,“序列阶梯”指的是制备自单一DNA或RNA模板的一组重叠的多核苷酸,这些多核苷酸有共同的末端,通常为5’端,但长度却不同,因为它们终止在相对端的不同位点上。终止位点与模板中四个核苷酸A、G、C、T/U中的一个的发生位点相一致。因此,多核苷酸的长度从总体上指示了四种核苷酸中的一种在模板DNA片段上发生的间隔。四个这样的序列阶梯、每一个指示了四种核苷酸中的一种,这样的一组阶梯指示了所有四种核苷酸发生的间隔,因此提供了模板DNA片段的完整序列。在此,“序列阶梯”一词也指用于测定完整DNA序列的四个序列阶梯。获得四个序列阶梯、以测定完整DNA序列的过程也称为“产生一个序列阶梯”。
在此,“细胞衰老选择”指的是一个过程,通过该过程,只有当细胞处于活跃生长时,才容易被一特殊化学药品杀死;例如(但不限于),只有在生长时才会被抗生素杀死的细菌可被用于发现一种聚合酶,该酶会将一修饰核苷酸整合入多核苷酸中。这一方法需要当被引入细胞系中的一个特殊聚合酶将一修饰核苷酸进行参入时,参入过程可在细胞中引起变化,该变化导致细胞衰老,也就是说,停止生长。当细胞集落中的某些成员含有可将修饰核苷酸进行参入的聚合酶,而有些成员不含有这类聚合酶时,将细胞集落用化学药品处理,只有那些不包含聚合酶的细胞被杀死。然后将细胞放入可再次启动细胞生长的培养基中,也就是说,该培养基不含有化学药品或修饰核苷酸;然后将能够生长的细胞分离出来,并从中分离出聚合酶。
在此,一种“化学氧化剂”指的是一种试剂,该试剂能够提高分子上一个基团的氧化态。例如(但不限于),羟基(-OH)可以被氧化成酮基。例如(但不限于),高锰酸钾、t-丁基次氯酸、m-chloroperbenzoic acid、过氧化氢、次氯酸钠、臭氧、过乙酸、过硫酸钾以及次溴酸钠都是化学氧化剂。
在此,“化学碱”指的是在水媒介中pK值大于7.0的化学药品。化学碱的例子为(但不限于)碱(钠,钾,锂)和碱土(钙、镁、钡)氢氧化物,碳酸钠,碳酸二氢钠,磷酸钠,氢氧化胺,以及含氮的有机化合物,如嘧啶、苯胺、喹啉、吗啉、哌啶、及吡咯。这些可用作弱(通常由于稀释)或强(浓缩溶液)水溶液。一种化学碱也可以指一种强的非水性有机碱,这种碱的例子包括(但不限于)甲醇钠、乙醇钠和t-丁醇钾。
在此,“酸”一词指的是一种物质,能够溶解在水溶液中,产生一个或多个氢离子。酸可为无机的或有机的。酸可为强酸(一般认为是高浓度的),也可为弱酸(一般认为是稀释的)。当然,人们知道,酸本来就有不同的强度;例如,硫酸比醋酸强很多,而在选择合适的酸以和上述方法联合使用时,这个因素也可以被考虑进去。从本文的说明中,对此工艺了解的人们已经明了了选择合适的酸的必要性。在本发明中所使用的酸最好是弱酸。无机酸的例子为(但不限于)盐酸、硫酸、磷酸、硝酸、和硼酸。有机酸的例子为(但不限于)蚁酸、醋酸、安息香酸、p-甲苯磺酰酸、三氟醋酸、萘酸、尿酸、以及苯酚。
“电子接收基团”指的是一个化学基团,由于它具有较大的电负性,能够诱导性地将电子密度从临近基团向它本身吸引,从而使电负性较小的基团带有部分的正电荷。这一部分正电荷继而可以稳定相邻基团上的负电荷,从而促进相邻基团上正式或处于转换态的负电荷所参与的反应。电子接收基团的例子包括(但不限于)氰基(C≡N)、叠氮基(-N≡N)、硝基(NO2)、卤素基(F,Cl,Br,I)、羟基(-OH)、巯基(-SH)和氨基(-NH3+)。
在此,“电子接收元素”指的是一个原子,它比碳原子具有更大的电负性,因此当放在一个环中时,该原子将电子吸引过来,因此,就如电子接收基团一样,导致临近原子带有部分正电荷。这使得临近电子容易受到亲核攻击。它也倾向于稳定附着于带正电荷原子上的其它原子上的负电荷,并促进这些负电荷的形成。
一个“亲电子”或“亲电子基团”指的是一个基团,当它与一个分子发生反应时,从这个分子上夺取一对电子。常用的亲电子基团的例子为(但不限于)碘和芳香族氮阳离子。
在此,烷基指的是1-20个碳原子的、直链或分枝的、无取代基的基团。较适宜的条件为基团由1-10个碳原子的链组成。最适宜的条件为基团是1-4个碳原子的链。在此,“1-20”等等碳原子指的是链中的1、2、3、4......一直到20个碳原子。
“巯基”指的是-SH基团。
“烷化剂”指的是能够将一个烷基引入到分子中的分子。烷基的例子包括(但不限于)甲基碘、二甲基硫、二乙基硫、乙基溴和丁基碘。
在此,“选择的”、“选择地”、“事实上”、“基本上”、“一致地”以及诸如此类的用词,指的是所指示的事件在一特定程度上发生。特别是,一种修饰核苷酸的参入百分率大于90%,较好的情况是大于95%,最好的情况是大于99%;或者,一种修饰核苷酸的切割选择性与其它天然或修饰核苷酸相比大于10X,较好的情况是大于25X,最好的情况是大于100X;或者,修饰核苷酸的切割百分率大于90%,较好的情况是大于95%,最好的情况是大于99%。
在此,“诊断”指的是确定一种疾病或失调的性质。本发明的方法可以用于任何形式的诊断,包括(但不限于)临床诊断(当一种疾病或失调的体征或症状是一种差异性的存在时,经由对这种体征和症状的研究所得到的诊断)、鉴别诊断(确定具有相似症状的两种或多种疾病中的何种是病人正在罹患的疾病)等等。
在此,“预后”指的是对疾病的可能进程和/或结果的预测。在本发明的上下文中,在此所描述的方法可以被用来跟踪一种或多种遗传差异对疾病进展或治疗反应的影响。应该强调的是,使用本发明的方法作为判断预后的工具,并不需要对一种差异的生物学效果有所了解。只需要对罹患某一特殊疾病的人进行差异检测,或者对疾病与差异之间的统计学关系进行检测就足够了。带有某一特殊差异的病人,其进展或对治疗的反应可随后在疾病进程中加以跟踪,从而对治疗或其它疾病管理决策进行指导。
“带有一种遗传成分”的意思为一种特殊的疾病、失调、或对治疗的反应,已知或被怀疑与罹患这一疾病或失调的个体的遗传密码中的一个或多个差异有关。
在此,一个“个体”指的是包括爬行类、哺乳类,尤其是人类在内的任何高等生物形式。然而,本发明的方法也用于任何生物有机体的核酸分析。表格简述
表1目前所使用的若干检测DNA差异的方法。
表2四种DNA单磷酸核苷酸的分子量,以及每对核苷酸之间的质量差异。
表3表2中DNA核苷酸的所有可能的二聚体、三聚体、四聚体和五聚体的质量。
表4对四种核苷酸中的一种进行切割所产生的所有可能的二聚体、三聚体、四聚体和五聚体的质量,以及相邻寡核苷酸之间的质量差异。
表5对所有可能的点突变(用一个核苷酸代替另一核苷酸)来说所发生的质量变化,以及一个多核苷酸在理论上的最大规模,在此规模下,一个点突变应该可以用各种分辨率的质量光谱测定仪、通过质量光谱测定的方法检测出来。
表6使用本发明的方法,在一个寡核苷酸中观察到的实际分子量的差别;差别显示了寡核苷酸中至今尚不知道的差异。
表7在四个独立的反应中通过对一个用作示范的20聚体进行切割而获得的所有质量,每个反应针对核苷酸中的一种;也就是说,针对A、C、G、T。附图简要描述


图1 在通过PCR获得的66个碱基对的片段中检测单一碱基的改变。
图2 通过将修饰核苷酸7-甲基鸟嘌呤参入到G的位置而对一多核苷酸进行修饰。该图显示了对此多核苷酸进行切割后获得的主要片段的分子量。
图3 带有修饰G的多核苷酸在切割前和切割后的聚丙烯酰胺胶电泳分析。在此分析中,两个多核苷酸只有一个核苷酸的差别(RFC与RFC mut)。
图4 在有RFC存在时,经过PCR扩增的66个碱基对片段的质量光谱图,并带有放大插图。
图5 将66个碱基的多核苷酸中的G用7-甲基G完全取代,继而在G处切割,所产生的切割产物的质量光谱图,并带有放大插图。
图6 为一质量光谱图,图中的两个寡核苷酸只存在一个核苷酸的差别;也就是说,G只存在于较大的寡核苷酸中。
图7 线性、单链M13模板的测序胶。模板在有5’-氨基dTTP存在的条件下,使用外-Klenow聚合酶,延伸至87个核苷酸,然后用醋酸部分切割。
图8 图7中片段在化学切割前和化学切割后的纯化的、全长延伸产物。
图9 图7和8中完全延伸的引物/模板复合物的限制性内切酶消化结果,以及在5’-氨基T存在时的引物延伸,以形成一个7.2Kb的多核苷酸。
图10 Hae III切割的PhiX174 DNA,用高表现液相层析(HPLC)分离所获得的分辨率。
图11 在一个多核苷酸中,用5-氨基T代替T,随后用醋酸切割,进行变性聚丙烯酰胺胶电泳,得到的序列阶梯。
图12 双核苷酸切割的例子,其中核糖核苷酸位于起桥连作用的硫醇酯的5’端。
图13 该图显示了完全单核苷酸切割或完全双核苷酸切割在50,100,150,200和250个核苷酸的多核苷酸中差异检测的效率。
图14-18显示了使用可化学切割的修饰核苷酸进行的长范围DNA测序的各个方面。
图14 显示了对一个10Kb的克隆进行的假想的霰弹枪测序分析,并阐明了通过对聚合酶参入的单核苷酸进行化学切割而进行的长范围DNA测序的原理和优点。
图15 显示了对一个2.7Kb的质粒进行测序的情况,方法为在有4种dNTP和1种5’-氨基-dNTP存在的条件下,进行引物延伸,随后进行限制性内切酶消化,末端标记,化学切割,并对所产生的序列阶梯进行电泳分析。
图16 用HPLC对部分5’-氨基T取代的Hinc II限制性内切酶片段进行分离。
图17 对比5’-氨基核苷酸部分取代的引物延伸产物在用双脱氧终止和用酸切割所获得的不同序列阶梯。化学切割过程导致标记产物在超过4000个核苷酸长度上的均一分布。
图18 对比用放射自显影观察到的、5’-氨基核苷酸部分取代的引物延伸产物在用双脱氧终止和用酸切割所获得的不同序列阶梯。
图19 一个700nt的DNA片段用限制性内切酶切割后所产生的DNA片段,与用双核苷酸化学切割所得到的片段进行对比。
图20 使用核糖核苷酸和5’-氨基-核苷酸,在5’至3’方向上进行的双核苷酸切割。
图21 将核苷酸进行碱基切割获得的切割产物和5’-氨基核苷酸取代的DNA片段与用酸切割获得的切割产物进行对比。
图22 显示了用核糖-G和5’-氨基-TTP取代的DNA片段的切割结果。放射自显影显示在GT处的完全切割,而在G或T处没有骨架切割。
图23 显示了参入核糖-A和5’-氨基-TTP的DNA片段的切割结果。放射自显影再次显示了完全切割和完全位点特异性的切割。
图24 为图23中DNA片段的切割产物的质量光谱图。除了2nt的片段以外,所有片段都可以观察到。
图25 将核糖-A和5’-氨基-TTP参入到一个257nt的引物延伸产物中,该图显示了双核苷酸切割的结果。
图26 图25中引物延伸产物的AT双核苷酸切割产物的MALDI-TOF质量光谱图。
图27-33显示了通过质量光谱测定、毛细管电泳和FRET的方法,将单核苷酸切割运用于基因分型。
图27 为一基因分型(在一已知差异位点的差异检测)的示意图。
图28 显示了对铁传递蛋白受体中的dA与dG差异进行基因分型的结果,方法为在有修饰ddA存在的条件下进行PCR扩增,随后在修饰核苷酸处进行化学切割。
图29 基因分型的例子,方法为使用修饰核苷酸参入/化学切割,随后对所得片段进行质量光谱分析。
图30 显示了对含有铁传递蛋白受体的修饰核苷酸进行基因分型的过程,方法为化学切割,随后进行MALDI-TOF。
图31 显示了MALDI-TOF基因分型方法的独特特征。
图32 显示了对铁传递蛋白受体多形性的基因分型,方法为对一修饰核苷酸铁传递蛋白受体进行化学切割,随后进行平板胶或毛细管电泳。
图33 示意性地显示了在对一修饰多核苷酸进行化学切割后对差异多核苷酸进行的FRET检测。发明详述
在一方面,本发明与一种方法有关,该方法用于在相关多核苷酸中检测核苷酸序列的差异,方法为在多核苷酸中天然核苷酸的事实上每一个发生位点上用修饰核苷酸代替天然核苷酸,测定所获得的片段的质量,并将质量与已知序列的相关多核苷酸的质量进行对比,或者,如果相关多核苷酸的序列未知,则用第二个相关多核苷酸重复上述步骤,然后将从两个相关多核苷酸中获得的片段质量进行对比。当然,我们认为,本发明的方法并不限于任何特殊数量的相关多核苷酸;所需要或者希望使用的任何数量都可以使用。
在另一方面,本发明与一种方法有关,该方法用于在相关多核苷酸中检测核苷酸序列的差异,方法为将多核苷酸中的两种天然核苷酸用两种修饰核苷酸代替,修饰核苷酸经过选择,以便在所使用的反应条件下,修饰核苷酸本身并不给修饰多核苷酸带来选择性的切割特性。相反,当两种修饰核苷酸相邻时;也就是说,所替代的天然核苷酸在非修饰多核苷酸中是相邻的,则它们可以协同作用,给修饰多核苷酸带来选择性的切割特性。除了仅仅在位置上接近以外,依照所选用的修饰核苷酸和反应条件的不同,也可能需要修饰核苷酸处于合适的空间关系。例如(但不限于),5’A-3’G可能对切割敏感,而5’G-3’A则否。如上所述,一旦用修饰核苷酸取代天然核苷酸的过程完成,便将修饰核苷酸对切割,测定片段的质量,然后将质量或者与已知序列的相关多核苷酸的质量进行对比,或者,如果至少一个相关多核苷酸的序列未知,则与用其他相关多核苷酸重复上述步骤所得到的质量进行对比。
在另一方面,本发明与一些方法有关,用于通过电泳或荧光共振能量转移(FRET)的方法检测单核苷酸或双核苷酸切割产物。在以FRET为基础的检测中,在某一特定波长范围内的荧光的存在与否被监测出来。这两种方法都非常适用于在其中的差异已经被确认的多核苷酸中检测单一位点的差异。对这一特殊差异进行认识,便可以设计出特别适于确定差异核苷酸性质的快速、低成本、可自动控制的电泳或FRET试剂和方法。对切割产物进行电泳和FRET检测的例子见下述和附图。
本发明的另一方面为,使用本发明中的差异检测方法,用于研发诊断和预后手段,并对这些手段加以使用,从而检测对特定疾病和失调的倾向性。
在诊断手段的研发过程中,可以使用本发明的方法,将一受测试主体的DNA(该主体表现出一种特殊的疾病或失调的症状,这一特殊疾病或失调已知或被怀疑与遗传相关;或者,该主体表现出一种有利的特征,例如,促进健康或者在经济上有价值的特征,如生长速度、抵抗病虫害、作物产量等等)与同一人群中健康成员的DNA进行比较,并/或者与人群中表现出相同疾病、失调或特征的成员进行比较。受测试主体可以为(但不限于)人,任何其他哺乳动物例如大鼠、小鼠、狗、猫、马、牛、猪、羊、山羊等,冷血动物如鱼,或者在农业上重要等作物的如小麦、玉米、棉花、和大豆。在一个人群的健康成员和人群中患有疾病或失调的成员之间检测具有统计学意义的差异性,这可以作为测试有效性的确凿证据,从而确认出患有或者将会患有该疾病或失调的主体。由此可以产生非常有用的诊断检测。
在使用本发明的方法作为诊断或预后手段时,完全不需要了解所探究的差异的任何内容;即它的确切位置,是否是添加、删除或取代,或者哪个核苷酸被添加、删除、或取代。只需要对差异的存在进行检测就可以完成所需要的任务,从而在受测试主体中诊断或预测出一种疾病或失调的发生。然而,在大多数情况下,最好能够创造出一种具有诊断和预后用途的特殊基因分型检测,用于某一特殊的差异。
在此所描述的基因分型方法的特别有用的方面为实验设计的简易性,试剂的低成本,以及切割产物对检测的适用性,这些检测可用若干方法进行,这些方法包括(但不限于)电泳、质量光谱测定和荧光检测。
在本发明的另一个方面中,可以通过重复上述方法而测定多核苷酸的完整序列,其中涉及将天然核苷酸的每一个发生位点上的天然核苷酸用修饰核苷酸代替,随后进行切割和质量测定。在这一具体表现形式中,针对于每一个天然核苷酸,这个过程都要重复四次;也就是说,举DNA的例子(举例,但不限于),dA、dC、dG、T中的每一个在四个独立实验中都用修饰核苷酸代替。然后可以使用从四个切割反应中得到的质量,以确定多核苷酸的完整序列。这个方法适用于通过引物延伸或扩增(如PCR)而制备的多核苷酸;在后者的情况下,两条链都进行修饰核苷酸替代。
一旦前述过程使得序列中的任何核苷酸位置不明确,则需要进行额外试验(见,例如,例子部分,见内文)。如果方法涉及引物延伸,则额外试验可能为用所研究的DNA的互补链来重复上述过程。额外试验也可以为使用上述方法,将两种天然核苷酸用两种修饰核苷酸代替,在与修饰核苷酸邻近的地方进行切割,然后确定所得到的片段的质量。倘若知道靶多核苷酸中相邻核苷酸的位置,则可以将此不明确加以解决。也可以使用另一试验,以解决可能在主要试验中出现的不明确问题。这一试验为“一次通过”(one-pass)Sanger测序,随后进行胶电泳;这一方法快速简便,但单独使用并不能提供高精确度的测序。因此,如果将本行业中人们所知道的另一种测序方法与本发明的方法结合使用,则可以在出现特殊不确定性的情况下提供必要的信息,以解决不确定性的问题。也可以将这些方法联合起来使用。使用不同方法的价值在于,人们普遍认为,每种测试方法都有某些与之相关的假象,这些假象会影响测试方法的性能,不过对于不同方法来说想象也不同。因此,如果我们的目标是高精确度的测序,则使用两种或多种能够抵消彼此的假象的测序技术将会非常有用。基于在此所做的说明以及所面临的特殊的序列不明确性,对于那些能够解决不明确性的其他额外的实验方法,对工艺熟悉的对此人已经相当明了了;因此,这些额外试验也应该包含在本发明的范围之内。
本发明的另一个方面为,在此所描述的修饰核苷酸切割反应可以导致其中一个切割片段和另一个分子之间的共价键形成。该分子可以具有若干种用途。它可以包含一个可直接检测的标记或成分,该标记或成分可以在质量光谱测定、电泳、或荧光分析中增强对切割产物的检测。例如(但不限于),这一成分可以为一种染料,一种放射性同位素,一种用于增强电离效率的离子阱,一个能够增强解吸附效率的可激活基团,或者仅仅是一个能够在整体上改变解吸附和/或电离特性的大分子。标记反应可以为部分反应或完全反应。均匀标记的、可控制大小的DNA片段的使用的例子如杂交探针,以用于检测如DNA芯片之类的高密度组合上的DNA。
本发明的另一个方面为用修饰核苷酸代替天然核苷酸,而这种替代只发生在多核苷酸中天然核苷酸的一定比例的发生位点上。这一比率可以为大约0.01%至大约95%,适宜的情况是从大约0.01%至大约50%,较适宜的情况是从大约0.01%至大约10%,最适宜的情况是从大约0.01%至大约1%。替代比例的选择是为了对所选的切割反应的效率加以补充。也就是说,如果选择了低效率的切割反应,那么便允许选用高百分率的替代反应;如果选择了高效率的切割反应,那么最好选用一个低的替换比例。所希望看到的结果为,平均起来说,多核苷酸的每一条链都被切割一次,这样象Maxam-Gilbert和Sanger方法中所描述的序列阶梯便可以建立起来。由于在此所描述的切割反应具有相对较高的效率,最好使用低分辨率的替代反应,以达到所希望的每一多核苷酸链上只有一次切割的目的。使用已有的聚合酶也可以更容易地达到低代替百分率的目的。然而,基于在此所做的说明,对此工艺熟悉的人应该会明了其他具有各种不同程度的效率的切割反应,而这些反应也应该包含在本发明的范围之内。事实上,本发明的一个方面为,使用具有足够低效率的切割反应,而这种低效率如果用修饰多核苷酸中修饰核苷酸的参入位点的切割百分比来说,可以为大约0.01%至大约50%,适宜的情况为大约0.01%至大约10%,最适宜的情况为大约0.01%至大约1%;在此情况下,仍然可以使用一多核苷酸——该多核苷酸中的天然核苷酸已经在事实上每一个发生位点上被修饰核苷酸代替——以制造序列阶梯。在最适宜的效率水平(大约为0.01%至1%),完全修饰的多核苷酸的每一链应该平均只被切割一次。
在另一方面,本发明涉及用来制造和确认具有新特性的聚合酶的方法,这些新特性涉及修饰核苷酸的参入和切割。A.核苷酸修饰和切割(1)碱基修饰和切割
一个修饰核苷酸可以含有修饰碱基、修饰糖基、修饰磷酸酯键、或这些结构的组合。
碱基修饰是一个核苷酸中的腺嘌呤、胞嘧啶、鸟嘌呤、或胸腺嘧啶(在RNA的情况下则是尿嘧啶)成分的化学修饰,所产生的化学结构使得修饰核苷酸比含有未修饰碱基的核苷酸更容易被一种试剂所攻击。以下是碱基修饰的例子(但不限于此)。依照在这里所作的说明,对此工艺熟悉的人很容易便可以了解其它类似的碱基修饰,因而这些其他方法也应该属于本发明的范围。(例如,使用双氟甲苯;Liu,D.,et al.,《化学生物学》(Chem.Biol.),4919-929,1997;Moran,S.Et al,《美国国家科学院学报》,(Proc.Natl.Acad.Sci.USA.)9410506-10511,1997)。
下面描述了这类修饰碱基的一些实施例(但不限于此)。
1.腺嘌呤(1)可以用7-去氮杂-7-氮腺嘌呤(2)代替。7-去氮杂-7-氮腺嘌呤可以通过酶促聚合很容易地参入到多核苷酸中。7-氮基激活C-8,从而被化学碱攻击,化学碱的例子包括(但不限于)氢氧化钠水溶液或哌啶水溶液,而化学碱可逐步导致特异性的链剪切。(Verdine,et al.,《美国化学会会志》(JACS,)1996,1186116-6120)
我们发现,用哌啶进行切割并不总能够达到完全,而我们所期望的结果是完全切割。然而,当切割反应是在有磷化氢衍生物——磷化氢衍生物的例子为(但不限于)tris(2-羧乙基)磷化氢(TCEP)和一种碱——存在的条件下进行时,就可以获得完全切割。这类切割反应的例子如下通过参入7-氮-7-去氮杂-2’-脱氧腺嘌呤而对DNA进行修饰,将此DNA用0.2M TCEP/1M哌啶/0.5M Tris基在95℃处理1小时。变性聚丙烯酰胺胶(20%)电泳分析显示完全切割。也可以使用其它碱(例如,但不限于,NH4OH),以代替哌啶和Tris基。这一过程,也就是说,将磷化氢与一种碱结合使用,应该适用于任何符合下列条件的切割反应切割反应中的靶核苷酸已经被对哌啶不稳定的修饰核苷酸取代。
用TCEP和碱切割所产生的产物是独特的。质量光谱分析与下图的结构相一致,该结构在3’端带有磷酸-核糖-TCEP加合物,在5’端带有磷酸成分,即下面结构3。
目前尚不清楚TCEP如何参与修饰核苷酸的碎裂;然而,我们相信可能是通过如下机制(我们并不倾向于任何一种特殊的理论)
将TCEP(或其它磷化氢)参入到切割产物中应该是一种非常有用的方法,用于在进行切割的同时对已经成为片段的多核苷酸进行标记。通过使用一种经过适当功能化的磷化氢(这种磷化氢仍保留有在3’末端核糖形成加合物的能力,如上述),这些功能成分(例如,但不限于,质量标签,荧光标签,放射性标签和离子肼标签)能够被参入到碎裂的多核苷酸中。含有一个或多个标签、并能与一个切割片段共价结合的磷化氢组成了本发明的另一个方面。同样,使用这种带标签的磷化氢作为标记多核苷酸片段的方法是本发明的另一个方面。
尽管由于基于在此所作的说明,对本工艺已经非常了解的人已经很清楚,其它磷化氢也可以被用来制备标记磷化氢,从而参入到核苷酸片段中,然而对于标记来说,TCEP仍然是一个特别好的选择。例如,羟基(-C(O)OH)基团可以通过若干技术直接加以修饰,例如(但不限于),在有二亚胺碳存在的条件下,与胺、乙醇、或硫醇进行反应,从而形成氨基化合物、酯或硫醇酯,如下面的反应示意图所示
当在没有亲核剂(在这里为胺)的情况下羟基与二亚胺碳进行反应时,二亚胺碳和羟基之间的加合物可以重组,以形成稳定的N-酰基尿素。如果二亚胺碳包含荧光团,则所产生的磷化氢将携带这个荧光团,如下面的反应示意图所示
其中,M1和M2可独立地为O,NH,NR,S。
R1和R2为质量标签、荧光标签、放射性标签、离子阱标签或其组合。
可以使用包含氨基的荧光团,例如荧光甘氨酸氨基化合物(5-(氨基乙酰氨)荧光素),7-氨基-4-甲基香豆素,2-氨基吖啶铜,5-氨基荧光素,1-芘甲胺,和5-氨基曙红等,以制备本方法中的标记磷化氢。同样可以使用魔鬼黄和瀑布兰的氨基衍生物,也可以使用生物素的氨基衍生物。此外,肼的衍生物如若丹明和得克萨斯红肼也可用于本方法。
也可使用荧光重氮链烷,例如(但不限于)1-芘重氮甲烷,以与TCEP形成酯。
荧光烷基卤化物也可与羟基,即C(O)O-基团的阴离子反应,以形成酯。可以被使用的卤化物为(但不限于)泛酰基溴化物,3-溴乙酰-7-二乙基氨基香豆素,6-溴乙酰-2-二乙基氨基萘,5-溴甲基荧光素,BODIPY 493/503甲基溴化物,monobromobimane,碘代乙酰胺如香豆素碘代乙酰胺等,都可用作有效的标记携带成分,而与TCEP共价结合。
萘亚甲基酰亚胺磺酸酯可与乙腈中羧酸的阴离子快速反应,产生加合物,该加合物可以在259nm吸收波长时被检测,最低限度为100fmol;也可被394nm荧光检测,最低限度为4fmol。
此外,还有无数具有氨基反应性的荧光探针可供使用,并可能通过下列反应将TCEP转化成主要胺
随后可以使用氨基磷化氢,以形成含有标记的氨基磷化氢,用于在此所描述的切割/标记方法。
上述染料以及将它们共价结合到TCEP上的方法只是可能形成的加合物的为数不多的几个例子。能够提供其它这类试剂和方法的一个有价值的来源为分子探针公司的目录。基于在此所作的说明、以及像分子探针公司目录这样的资源,熟悉此工艺的人将会对许多其它的修饰磷化氢的方法、尤其是TCEP的方法非常明了。那些其它的修饰磷化氢的方法,用于在对多核苷酸的化学切割过程中将标记参入到多核苷酸片段中,这些方法也包含在本发明的范围之内。
2.胞嘧啶(4)能够用5-氮杂胞嘧啶(5)代替。5-氮杂胞嘧啶也可以通过酶促聚合有效地参入到多核苷酸中。5-氮杂胞嘧啶对化学碱切割敏感,尤其是碱的水溶液,如哌啶水溶液或氢氧化钠水溶液。(Verdine,等《生物化学》(Biochemistry),1992,3111265-11273;)
3(a).鸟嘌呤(6)可以用7-甲基鸟嘌呤(7)代替,而7-甲基鸟嘌呤同样可以很容易地通过聚合酶参入到多核苷酸中(Verdine,等《美国化学会会志》(JACS)1991,1135104-5106),而且容易被化学碱攻击,化学碱例如(但不限于)哌啶水溶液(Siebanlist,等《美国国家科学院学报》(Proc.Natl.Acad.Sci.USA.),1980,77122);或者,
3(b).Gupta与Kool(《化学交流》(Chem.Commun.)1997,pp1425-26)已经证实,当N6-烯丙基-双脱氧腺嘌呤被参入到一个DNA链中时,在用一个温和的亲电子试剂E+(在他们的例子中,是碘)处理时会断裂。他们所提出的机制见示意图1
示意图1
类似方法也可以用于鸟嘌呤,即使用从前没有报道过的2-烯丙基氨基鸟嘌呤衍生物8,而后者可以用示意图(2)中的方法制备
基于在此所说明的方法,其它用于合成化合物8的方法将会非常明显了;这些合成方法应该包含在本发明的精神和范围内。
将所得到的N2-烯丙基鸟苷三磷酸参入到多核苷酸链中,这种参入方法应该对切割敏感,而这种敏感应该是与Gupta方法中的N6-烯丙基腺嘌呤核苷酸相似的方式,也就是说,通过示意图3中所显示的机制
示意图3
4.胸腺嘧啶(9)或尿嘧啶(10)可以用5-羟尿嘧啶(11)取代(Verdine,等,《美国化学会会志》(JACS)1991,1135104)。与上面所用的修饰碱基一样,用5-羟尿嘧啶制备的核苷酸也可以通过酶促聚合的方法参入到多核苷酸中。(Verdine,等《美国化学会会志》(JACS)1993,115374-375)为了能完成特异性切割,首先将5-羟尿嘧啶用氧化剂(例如,高锰酸水溶液)处理,然后用一种化学碱(例如,但不限于,哌啶水溶液)处理。(Verdine,同上)
5.在5位上用一电子接收基团(例如,但不限于,氮,卤素或氰基)取代的嘧啶应该对如下处理敏感在6位上进行亲核攻击,随后进行碱催化的环打开,继而发生磷酸酯键的降解。示意图4显示了一个例子,使用的是5-取代的胞嘧啶,而这一例子不应该被解释为以任何方式对本技术范围的限制。如果切割是在有tris(羧乙基)磷化氢(TCEP)存在的条件下进行的,则可以得到加合物10;而且,如果TCEP用一种合适的成分(见内文)功能化,则可以得到标记的多核苷酸片段。
示意图4
(2)糖的修饰和切割
将核苷酸中的糖成分进行修饰,也可以产生一种多核苷酸,该多核苷酸对修饰所参入的位点上的选择性切割敏感。一般来说,对糖进行修饰的目的是将一种或多种功能基团包括进来,从而使得与天然核苷酸的3’和/或5’磷酸酯键相比,其3’和/或5’磷酸酯键更不稳定;也就是说,更容易被切割。下面是这类糖修饰的例子(但不限于这些例子)。根据在此所作的说明,对工艺熟悉的人便很容易了解其它糖修饰的方法,而这也应该包含在本发明的范围之内。在随后的公式中,B和B’可以指任何碱基,它们可以相同,也可以不同。
1.在以脱氧核糖为基础的多核苷酸中,将脱氧核糖核苷中的一个或多个用一核糖类似物代替;(例如,但不限于,用腺苷(12)代替脱氧腺苷(13)),会导致所得到的修饰多核苷酸容易被化学碱在修饰多核苷酸中腺苷的每一个发生位点上选择性切割;化学碱的例子包括(但不限于)氢氧化钠水溶液或浓缩氢氧化氨(示意图5)。
2.可以用一个2’-酮糖(14,其合成见《美国化学会会志》(JACS)1967,892697)取代脱氧核苷酸中的糖;在用化学碱(例如,但不限于,氢氧化物水溶液)处理时,酮基与其酮缩醇形式(15)达到平衡,酮缩醇形式继而攻击磷酸酯键,导致切割。(示意图6)
示意图6
3.脱氧核糖核苷酸可以被其阿拉伯糖类似物代替,即带有一个2″-羟基的糖(16)。用弱化学碱(稀释的水溶液)处理也可以影响磷酸酯键内的分子内置换,从而导致多核苷酸的切割。(示意图7)
示意图7
4.脱氧核糖核苷酸可以被其4’-羟甲基类似物(17,其合成见Helv.Chim.Acta,1966,791980)代替,而后者在用弱化学碱(例如,但不限于,稀释的氢氧化物水溶液)处理时,同样也可以置换磷酸酯键,导致多核苷酸的切割,如示意图8所示
5.脱氧核糖核苷酸可被其4’-羟碳环类似物即4-羟甲基cyclopenane衍生物(18)代替,而后者在用碱的水溶液进行处理时,可导致多核苷酸在磷酸酯键处的切割,如示意图9所示
示意图9
6.糖环可以用其碳环类似物代替,后者又可以进一步被一个羟基(19)取代。依照羟基在环上的立体化学位置的不同,在用弱化学碱进行处理时,或者是3’、或者是5’磷酸酯键可以被选择性切割(示意图10)。
示意图10
7.在上述1,3,4,5,6的每一个例子中,对磷酸酯切割进行攻击的羟基都可以用一个氨基(-NH2)代替。氨基可以从对应的叠氮糖原位产生,方法为在叠氮化合物修饰的多核苷酸已经形成以后,用tris(2-羧乙基)-磷化氢(TCEP)进行处理(示意图11)。氨基基团一旦形成,便可以自发地攻击磷酸酯键,导致切割。
示意图11
8.糖可以用一功能基团取代,该功能基团能够产生一自由基,例如,但不限于,一个苯氧硒基(PhSe-)或t-丁基酯基(tBuC(=O)-)(Angew.Chem.Int.Ed.Engl.1993,321742-43)。在厌氧条件下将修饰糖用紫外光处理,导致C4’自由基的形成,其片段导致修饰核苷酸的切除,从而引起多核苷酸在修饰核苷酸处的切割(示意图12)。自由基可以在MALDI质量分析中的激光解吸附/电离过程之前或过程中产生。也可以使用带有其它光不稳定性的4’取代物(例如,但不限于,2-硝基苄基基团,或3-硝基苄基基团(《合成》(Synthesis,1980,1-26)和溴基或碘基),以形成C4’自由基的前体。
示意图12
9.也可将电子接收基团参入到糖基中,使得核苷酸或者对β-消除敏感(当W是氰基时(“氰糖”20)),或者使通过3’-磷酸酯键的水解形成的氧离子稳定住;因而在处理修饰糖时最好用弱化学碱进行水解;这类电子接收基团的例子包括(但不限于)氰基(-C≡N)、硝基(-NO2)、卤代(尤其是氟代)、叠氮基(-N3)或甲氧基(-OCH3)(示意图13)
示意图13
氰基糖可用若干方法制备,其中一个方法见示意图14。基于在此所作的说明,对工艺熟悉的人对其它方法无疑也会相当明了;这些制备氰基的其它方法(或制备其它电子接收基团取代的糖基的方法)也包含在本发明的精神和范围之内。
示意图14
10.糖中的环氧可以用另一原子代替;例如(但不限于),一个氮原子,以形成吡咯环(21)。或者,也可将另一杂环原子放入糖环中,以代替其中的一个环碳原子;例如(但不限于),放入一个氮原子,以形成一个恶唑环(22)。在任一种情况下,加入不同或其它杂环原子的目的是使得所产生的非天然核苷酸中的磷酸酯键与天然核苷酸中的磷酸酯键相比更不稳定(示意图15)
示意图15
11.一种基团(例如,但不限于,巯基)可以被参入到糖环的2″位置,而该基团在用弱化学碱处理时,可以通过对3’-磷酸酯的消除而形成一个环。(示意图16)
示意图16
12.一个酮基可以被参入到5’位,使得所得到的磷酸带有酐的不稳定性,即结构23。例如结构23这样的核苷酸三磷酸可以通过示意图17所示的过程合成。我们认识到,基于在此所作的说明,对此工艺熟悉的人对合成这类核苷酸三磷酸的途径将可能会非常明了;这类合成方式应该包含在本发明的精神和范围之内。
示意图17 23
有结构23中的核苷酸三磷酸参入的多核苷酸,应该像类似的混合酐那样,对碱水解敏感,如示意图18所示。
示意图18
13.磷酸酯键应该被变为相对更不稳定的烯醇酯键,方法为在5’位参入一个双键,也就是说,可以使用结构24中的核苷酸三磷酸。结构24中的核苷酸三磷酸可以通过示意图19中的方法加以制备。我们也明白,基于在此所作的说明,那些对工艺熟悉的人对其它制造结构24的方法将会非常明了;和从前一样,这些其它的合成方法完全应该包含在本发明的精神和范围之内。
示意图19
按照示意图20,烯醇酯应该对碱切割敏感。
示意图20
14.5’位的双氟取代可以增加磷酸酯键的不稳定性,并通过将中间产物的双氟羟基基团水解成一个酸基团(如示意图22所示)而将反应推向完全。双卤素衍生物可以通过示意图21中所示的过程加以合成。再次强调,示意图21中所示的途径并非制造双氟核苷酸三磷酸的唯一可能途径。然而,同前面一样,基于在此所作的说明,这些其他途径将会变得很明显;这些其他途径也应该包含在本发明的范围之内。
示意图21
示意图22
(3)磷酸酯修饰和切割
对核苷酸中的磷酸酯的修饰导致对一个核苷酸中的3’羟基和相邻核苷酸中的5’羟基之间的磷酸二酯键的修饰,使得修饰3’或5’磷酸酯键中的一个或另一个与相应的非修饰连接相比,在非常大的程度上对切割更加敏感。由于磷酸酯键形成多核苷酸的骨架,在此,这种修饰方法被另称为“骨架修饰”。以下是骨架修饰的例子(但不限于这些例子)。基于在此所作的说明,对此工艺熟悉的人将对其它这类修饰非常明了;因此,这些也应该包含在本发明的范围之内。
1.将磷酸酯键中的一个氧用一个硫代替,也就是说,产生一个磷酸硫醇连接(25a,25b,25c),后者或者直接用弱碱处理(示意图23(a)和23(b),或者用一烷化剂(例如,甲基碘)处理;随后用强非水溶性有机碱(例如,甲醇盐(示意图23(c))处理,从而导致磷酸硫醇连接的选择性切割。或者,如公式14中那样的磷酸硫醇连接也可以通过MALDI质量分析中的激光光解作用被选择性切割。这种在多核苷酸来源上就进行片段化的方法(《国际光谱和离子过程杂志》(Internat’l J.Of Mass Spec.And IonProcess),1997,169/170331-350)把多核苷酸切割和分析合并成一步;
25a 示意图23(a)
25b 示意图23(b)
示意图23(c)
2.将磷酸酯键中的一个氧用一个氮代替,从而产生一个磷酸酰胺连接(26),后者用例如(但不限于)稀释酸水溶液处理,从而导致选择性切割(示意图24);
示意图24
3.将与磷酸骨架中的磷连接的自由氧原子中的其中一个用烷基(例如,但不限于,甲基)代替,以形成一个甲基磷酸酯键,后者在用强非水溶性有机碱(例如,但不限于,甲醇盐)处理时,同样将导致选择性切割(示意图25)。
示意图25
4.将磷酸酯键中的自由氧离子用烷化基团(例如,但不限于,甲基)进行烷基化,再用强非水溶性有机碱(例如,但不限于,甲醇盐)处理时,从而导致所产生的烷基磷酸三酯键发生选择性切割(示意图26)。
示意图26
5.将磷酸硫醇用强碱溶液(例如,但不限于,甲醇甲氧基钠)中的β-巯基乙醇处理(其中的巯基乙醇主要以二硫化物的形式存在),可以导致一个混合二硫化物的形成,该二硫化物在发生或不发生重组的情况下进行降解,从而产生切割产物,如示意图27所示。
示意图27
(4)双核苷酸修饰和切割
前述的取代都是单一取代;也就是说,将一个天然核苷酸用修饰核苷酸取代,取代的位置或者是天然核苷酸在靶多核苷酸中出现的任何位置,或者,如果需要的话,在其中的部分位点。在本发明的另一个方面中,也可以使用多重取代。也就是说,只要天然核苷酸在目的多核苷酸中出现,就可以用两种或多种不同的修饰核苷酸取代对应的两种或多种不同的天然核苷酸。对修饰核苷酸和切割条件进行选择,以使得在合适的切割条件下,修饰核苷酸本身不给多核苷酸带来选择性的切割特性。然而,当使用合适的切割条件,并且修饰核苷酸以一种彼此特殊的空间关系参入到多核苷酸中时,它们便会相互作用,共同使得多核苷酸可以被选择性切割。较适宜的情况为,多核苷酸中的两种天然核苷酸被两种修饰核苷酸取代,因而,这种方法在这里被称为“双核苷酸修饰”。应该注意的一点是,两种修饰核苷酸中的每一个都可以独立引发多核苷酸的特异性和选择性的切割,然而却是在完全不同的、通常是更猛烈的化学条件下进行的。
在此,空间关系指的是两种或多种修饰核苷酸在取代入一个多核苷酸之后的三维关系。在本发明的一个较适宜的表现形式中,两种修饰核苷酸一定要在修饰多核苷酸中相邻,才能给修饰多核苷酸带来经过改变的切割特性。通过用这种方式使用两种修饰核苷酸,然后将修饰多核苷酸进行切割,依照所选用的多重取代的性质不同,靶多核苷酸中的两种天然核苷酸的关系便可以建立起来。也就是说,被代替的天然核苷酸在天然核苷酸中也可以彼此相邻。例如(但不限于),如果一个修饰A和一个修饰G在对应的天然A和天然G的每一个发生位点上被代替,则只有当天然A和G直接相邻时,也就是说,在天然发生的多核苷酸中为AG或GA,但不可为两者同时时,修饰多核苷酸才可以被选择性切割。如下所示,选择合适的修饰多核苷酸也可以揭示核苷酸的精确关系,即上例中所说的,天然多核苷酸中的核苷酸序列到底是AG还是GA。以下是多重取代的例子(但不限于这些例子)。基于在此所作的说明,对工艺熟悉的人对其他多重取代将会非常明了,因而,这些也应该包含在本发明的范围之内。
1.一个修饰核苷酸可以带有一个功能基团,能够导致亲核取代,而伴随的修饰核苷酸被修饰,以呈递给它一个选择性的活跃基团。亲核和活跃基团可以彼此处于5’-3’方向或3’-5’方向。其中的一个例子(但不限于此)如示意图28所示。当用弱化学碱处理时,一个修饰核苷酸上的2’或2″羟基成为一个很好的亲核剂。其它修饰核苷酸含有一个3’或5’巯基(-SH)基团,在被参入到修饰多核苷酸中时,形成3’或5’磷酸硫醇连接。与正常磷酸二酯键相比,这一磷酸硫醇连接选择性地更不稳定。当用弱碱处理时,来自一个修饰核苷酸上的羟基上的氧离子选择性地代替与其它修饰核苷酸的硫代磷酸连接,从而导致切割。如示意图28(a)和28(b)所示,依照羟基和硫代磷酸连接之间的立体化学关系的不同,切割将发生在含有羟基的修饰核苷酸的或者3’端,或者5’端。这样,天然发生的多核苷酸中的天然核苷酸的精确关系便被揭示出来。
示意图28(a)
示意图28(b)
2(a).如果一个修饰核苷酸含有一个3’或5’氨基(-NH2),而另一个修饰核苷酸含有一个3’或5’羟基,将所形成的磷酸酰胺连接的多核苷酸用弱酸处理,可以导致磷酸酰胺连接中的氨基的质子化,而成为一个非常好的活跃基团。依照一个修饰核苷酸上的羟基基团和另一个修饰核苷酸上的氨基基团的空间关系的不同,天然发生的多核苷酸中核苷酸的精确关系可以再次被确定出来,如公式29(a)和29(b)所示。
示意图29(a)
示意图29(b)
对核糖核苷酸/5’-氨基核苷酸5’-3’连接的双核苷酸切割是目前本发明的一个较适宜的表现形式。这一方法的例子如图21-26所示。
2(b).当修饰核苷酸中的氨基基团为5’时,在聚合过程中,核糖核苷酸/5’-氨基核苷酸2’,5’-双脱氧核苷酸对可能被切割。例如(但不限于),切割可以发生在将腺嘌呤核糖核苷酸和5’-氨基双脱氧胸腺嘧啶核苷酸参入到多核苷酸中的过程中,方法为将野生型Klenow(外-)聚合酶和突变型E710A Klenow(外-)聚合酶联合使用。E710A是突变型Klenow(外-)聚合酶,其中残基710位的谷氨酸盐被丙氨酸代替。和Klenow(外-)比较,突变型E710A可以更有效地将核糖核苷酸和脱氧核糖核苷酸都参入到同一条新生成的多核苷酸链中。基于在此所作的说明,对工艺熟悉的人将对具有类似特性的其它聚合酶非常明了;而使用这些聚合酶,将核糖核苷酸和5’-氨基核苷酸2’,5’-双脱氧核苷酸参入到多核苷酸中,以及在聚合反应中进行的进一步的切割,这些都包含在本发明的范围之内。
当使用Klenow(外-)和E710A Klenow(外-)的混合物,将5’末端放射性标记的引物进行延伸时,只观察到一个片段(5’末端片段),这显示,在核糖核苷酸-5’-氨基核苷酸位点,发生了完全切割。我们已经证实(图21-26),聚合和切割在同一步骤中发生。也就是说,在蛋白质-DNA接触的过程中,切割被诱导。这些图表显示,即使在切割以后,聚合酶仍然继续将模板进行延伸;这也显示,切割是蛋白质-DNA接触的结果。虽然USB牌Klenow聚合酶(Amersham公司)也可以参入两种核苷酸,但却没有聚合酶的混合物有效;此外,也可以观察到多个产物带,这显示在AT位点的不完全切割。
当然,以上只是一般概念的一个特殊例子。也就是说,其他与野生型的聚合酶、突变型聚合酶或其组合也应该能够在聚合过程中进行修饰核苷酸或双核苷酸的切割,或促进其切割。基于在此所作的说明,那些对工艺了解的人应该对导致切割的精确聚合酶组合和核苷酸修饰的测定非常明了。例如,正如下面所描述的,它应该有利于制造突变聚合酶文库,并特异性地选择那些可以诱导双核苷酸切割的聚合酶。因此,在聚合过程中导致正在形成的修饰多核苷酸发生切割的一种聚合酶或多种聚合酶的组合应该是本发明的另一个方面,而在聚合过程中使用一种聚合酶或多种聚合酶组合来对修饰多核苷酸进行切割的方法以及使切割发生所需要的修饰核苷酸也是本发明的另一个方面。
3.一个电子接收基团可以被置于与碳原子(该碳原子与参与甲基磷酸酯(示意图(30a)或甲基磷酸三酯(示意图30b)骨架中的酯键的羟基结合)相邻的糖基碳原子上。这会导致与不与这类羟基相邻的磷酸酯相比,用弱化学碱水解磷酸基(示意图30)时形成的氧离子的稳定性增高,以及对那些磷酸酯键的选择性水解。
示意图30(a)
示意图30(b)
4.一个电子接收基团可以被放在核苷酸的4’碳上,该4’碳通过其5’-羟基与相邻核糖核苷酸的3’-羟基相连。用稀释碱处理可以导致切割,如示意图31所示。
示意图31
5.糖中的2’或4’活跃基团容易被磷酸硫醇中的硫攻击,如示意图32和33所示,以产生所希望的切割
示意图32
示意图33
6.根据示意图34,乙烯基硫酸盐可以影响与磷酸硫醇相邻的糖中的2’氟衍生物的切割
示意图34
可以用β-巯基乙醇或类似试剂取代乙烯基硫酸盐。
7.磷酸硫醇可以与金属氧化物(例如,但不限于,CuII或FeIII)协同作用,该金属氧化物可以处于与相邻核糖核苷酸中的2’羟基极其靠近的位置。将2’羟基选择性地氧化成酮,可以使得相邻的磷酸酯键在碱性条件下与对应的核糖核苷酸或脱氧核糖核苷酸相比更容易被切割,如示意图35所示
示意图35
前面的切割反应可以以如下方式进行在修饰核苷酸的事实上所有发生位点上导致切割,或者,在多重取代的情况下,在处于合适空间位置上的两个或多个修饰核苷酸的所有发生位点上导致切割。在另一方面,通过控制切割试剂的量和切割条件,切割可以是部分切割;也就是说,切割可以发生在修饰核苷酸或成对的修饰核苷酸的仅仅一部分发生位点上。
B.在质量光谱仪中对修饰核苷酸进行断裂
前面所述的讨论涉及到用化学方法在修饰核苷酸的参入位点上对多核苷酸进行切割。然而,除了用化学方法将溶液中的多核苷酸分子进行片段化之外,本发明的另一个方面为,使用化学或物理方法,将片段化在质量光谱仪中完成。此外,通过操控质量光谱仪内部的条件,片段化的程度可以被控制。对化学修饰的寡核苷酸的片段化程度进行控制,将会非常有利于确定相邻序列的关系。这是因为,尽管对完全切割的多核苷酸进行质量(MS)光谱分析可以提供质量数据,并能够因此获得每一多核苷酸片段的核苷酸内容,确定这些多核苷酸片段在原先被分析的多核苷酸中以何种顺序连接却是一个非常困难的问题。通过降低切割反应的严格性,人们可以产生与来自完整一批切割产物的两个或多个片段相对应的片段。这些化合物片段的质量可以提供信息,从而推测出两个组成片段在原来的多核苷酸中是相邻的。通过测定相邻的多个不同两个一组或三个一组的完整切割片段,便可以与完全依赖完整切割片段的分析相比,拼接出更长的序列。一个特别有利的一点在于,通过对质量光谱仪进行调控,能够控制片段化的条件,因为,与反复生成以及继而在试管中对部分切割进行的分析相反,各种部分切割条件的效果能够被直接、真实地观察到,并同时加以调控,以提供一套最佳部分切割数据。对于某些用途来说,使用各种部分切割条件也许会非常有利,因为连续水平的部分切割能够提供逐渐增大的片段之间相互关系的完整图景。以下描述了对修饰多核苷酸进行片段化的特殊机制。
首先,通过选择适当的电离方法,可以在电离过程中诱导片段化。或者,在串联质量光谱分析方法(MS/MS)中,可以选择带有所需的质量电荷比(m/z)的离子,然后通过一系列程序将其激活(这些程序包括与分子、离子和电子进行撞击,或者对各种波长的质子进行吸收),从而导致离子的片段化。在一方面,多核苷酸分子的电离和片段化可以通过快速原子轰炸(FAB)而达到。在这一方法中,修饰多核苷酸分子溶解在液体基质(如甘油、三甘油或其它甘油类似物)中。将溶液放置于金属表面。将带有几千电子伏特动能的粒子引导到液滴上。依照多核苷酸的不同修饰,可以在每一修饰核苷酸上获得部分片段或完整片段。
在另一方面,电离和片段化可以通过基质辅助的激光解吸附电离质量光谱分析达到(MALDI-MS)。在MALDI-MS中,将修饰多核苷酸分子的溶液与基质溶液(例如,3-羟皮考啉水溶液)混合。将混合物的一小部份放在带有或不带有修饰的固体支持物上,通常是一个金属表面。用激光(较适宜波长为3μm至10.6Fm)照射修饰多核苷酸/基质混合物。为了对从来源处获得的片段(ISF)产物进行分析,可以使用延迟提取。为了对来源后衰变(PSD)产物进行分析,可以使用离子反射镜。
在另一种方法中,电离和片段化可以通过电子喷射电离(ESI)而完成。在这一方法中,修饰DNA溶液经由针孔通过施加几千伏特的电压而喷射出来。修饰多核苷酸分子的片段化发生在喷嘴-分离器(NS)区域的去溶剂化过程中。片段化的程度取决于修饰的性质,多还取决于例如喷嘴和分离器之间的电压、流速、以及干燥气体的温度等因素。如果使用毛细管辅助去溶剂化过程,则需要控制的是毛细管出口和分离器之间的电压以及毛细管温度,从而达到所需要的片段化程度。
在另一技术中,修饰多核苷酸分子可以被选择性地激活和分离。激活可以通过下列步骤完成将前体离子加速到从几百到几百万电子伏特动能,然后让它们与中性分子、最好是惰性气体相碰撞。在碰撞中,前体离子的某些动能转化成内能,导致片段化。激活也可以通过让加速的前体离子与一传导或半传导表面碰撞而完成。在另一方法中,激活也可以通过电子俘获而完成。在这一技术中,让前体离子与热能化的电子进行碰撞。激活也可以通过用各种波长的光子照射前体离子而完成,光子的适宜波长范围为193nm至10.6μm。激活也可以通过对俘获离子的真空室进行加热而完成;真空室壁的加热导致黑体IR辐射(Williams,E.R.,《化学年报》(Anal.Chem.)1998,70179A-185A)多核苷酸中修饰核苷酸的存在也可以提高片段化反应的速率常数,将非修饰多核苷酸黑体IR辐射方法所需要的10至1000秒的持续时间加以缩短。
如前面所提到的,串联质量光谱分析的方法是可以有效地用于本发明的方法的另一手段。在串联质量光谱分析中,带有所需的m/z的前体离子经选择后被激活。依照所使用的激活技术的不同,前体离子中的某些或全部能够被片段化,并释放出产物离子。当在一个合适的质量光谱仪(例如,福里叶转化离子回旋加速器共振质量光谱仪和离子俘获质量光谱仪)中完成了这一步以后,带有所需m/z的产物离子能够进一步被选择,并继而被激活和片段化,从而释放出更多的产物离子。前体和产物离子的质量都可以被确定。
为了在激活的不同阶段对片段化的程度加以控制,两种或多种不同类型的修饰核苷酸将被参入(天然核苷酸的完全代替)到靶多核苷酸中;为了本文的讨论起见,这两种不同类型的修饰核苷酸将被称为I型和II型,他们对不同的激活技术具有不同的敏感性。这样一种多核苷酸能够在I型修饰核苷酸参入的每一个位置用I型激活技术以很高的效率加以片段化。所产生的仍含有II型修饰核苷酸的片段离子可以随后用II型激活技术加以选择和片段化,而产生一批亚片段,从中可以更容易地推测出核苷酸信息。这样一种方法可以用于差异检测。例如,一个500核苷酸长的多核苷酸可以先用I型片段化技术碎裂成10-50个片段。每个片段的m/z(当与预期的那套片段质量相比较时)将揭示出是否在这个片段中存在有差异。一旦含有差异的片段被确认,片段离子的其它部分便从离子俘获装置中喷射出来,而所需的片段离子则进一步被激活。通过控制这些片段离子的片段化程度,可以产生一批较小的DNA片段,从而使得核苷酸的顺序以及差异的位置能够被确定。与使用一种类型的修饰核苷酸以及一个阶段的片段化过程的方法相比较,这样一种方法的优点在于,实验步骤的数量以及需要被处理的数据量都显著减少。与使用一种类型的修饰核苷酸、但是两个阶段的部分片段化的方法相比较,这一方法的优点在于,第二阶段的片段化效率更可以控制,因而可以降低测序缺口的发生机会。
尽管前面所提到的激活计划能够被用于各种质量光谱仪,离子阱质量光谱仪(ITMS)和福里叶转化离子回旋加速器共振质量光谱仪(FT-ICRMS)尤其适合于电子俘获、光子激活、和黑体IR辐射等方法。C.修饰核苷酸参入
在下面的例子部分中描述了几个用聚合酶催化修饰核苷酸参入到多核苷酸中的例子。然而,有可能一种特殊的聚合酶不能将上述所有修饰核苷酸都参入进去,或者是其它这样的聚合酶(这些聚合酶包含在本发明的范围之内)能够以同样的简便性和效率进行反应。此外,即便某一特殊的聚合酶能够有效地参入一种修饰核苷酸,他在参入与第一个修饰核苷酸直接相邻的第二个修饰核苷酸时也许就会不那么有效。此外,现有的聚合酶也许不能在修饰核苷酸或核苷酸对处诱导或促进切割,而这本来是一个很方便的完成切割的方法(见上述)。然而,有几种能够获得特定聚合酶的方法,这些聚合酶能够将本发明的修饰核苷酸和相邻的修饰核苷酸对进行参入,还有可能在那一修饰核苷酸或那些修饰核苷酸的位置上诱导或促进特异性切割。
一种用于发现具有适宜性能的聚合酶的方法为利用天然存在的聚合酶本身所具有的多样性(这些聚合酶包括,但不限于,RNA聚合酶,DNA聚合酶,和逆转录酶)。已知,天然存在的聚合酶对非天然核苷酸具有不同的亲和性,而且,很可能一种能够进行所需要的参入反应的天然聚合酶能够被确认出来。在有些情况下,使用两种或多种在对一种或多种非天然核苷酸进行参入上具有不同特性的天然存在的聚合酶的混合物可能会具有优势。例如,W.Barnes曾经报告说(《美国国家科学学会学报》(Proc.Natl.Acad.Sci.USA),1994,912216-2220),使用两种聚合酶,即一种无外切酶活性的N-端删除突变型Taq DNA聚合酶,和一种具有3’-外切酶活性的热稳定DNA聚合酶,从而对长DNA模板达到较好的聚合效果。来自嗜热有机体的天然存在的聚合酶为比较适宜的聚合酶,用于如下用途在这些用途中,通过热周期(例如,PCR)进行扩增是一种最方便的制造修饰多核苷酸的方法。
其它方法是利用现有的关于聚合酶结构功能关系的知识(例如,见Delarue,M.Et al.,《蛋白质工程》(Protein Engineering,1990,3461-467;Joyce,C.M.,《美国国家科学学会学报》(Proc.Natl.Acad.Sci.USA,1997,941619-1622)从而确认一种能够完成特殊修饰核苷酸参入的聚合酶,并在对该酶的合理设计中发挥辅助效应。例如,已经较为详细地检查了DNA聚合酶的氨基酸残基,该聚合酶能够为脱氧核糖-NTPs(dNTPs,脱氧核糖核苷酸三磷酸)提供特异性,而排斥核糖-NTPs(rNTPs)。Moloney鼠白血病病毒逆转录酶的苯丙氨酸残基155似乎可以提供一个立体障碍,阻止核糖-NTPs的进入。大肠杆菌DNA聚合酶I的Klenow片段的苯丙氨酸残基762以及HIV-1逆转录酶的酪氨酸残基115也起相似的作用。后一氨基酸或其相等物的突变在几种不同的聚合酶中具有改变聚合酶聚合真实性以及对核苷酸抑制剂的敏感性的效应。
人们已经对RNA聚合酶的对应位点进行了研究,这些位点似乎在区分核糖和脱氧核糖核苷酸之间发挥类似作用。例如,已经证实,T7 RNA聚合酶上的酪氨酸639突变成苯丙氨酸,可以将聚合酶对rNTPs的特异性降低约20倍,并且事实上消除Km在rNTPs和dNTPs之间的差别。结果为,突变型T7 RNA聚合酶能够聚合一条混合的dNTP/rNTP链。例如,参见Huang,Y.《生物化学》(Biochemistry),1997,3613718-13728。这些结果显示了结构功能信息在聚合酶设计中的使用,而这些聚合酶将很容易地参入一种或多种修饰核苷酸。
此外,特定氨基酸的化学修饰或位点指导突变形成或遗传工程可以被用于制造带有特殊特性的截断的、突变的、或嵌合型聚合酶。例如,化学修饰可以被用于修饰T7 DNA聚合酶(“测序酶”,Amersham),以提高其对非天然核苷酸的处理性和亲和性(Tabor,S.等,《美国国家科学学会学报》(Proc.Natl.Acad.Sci.USA),1987,844767-4771)。同样,位点指导的突变形成也已经被用于检测大肠杆菌DNA聚合酶I(Klenow片段)如何在脱氧和双脱氧核苷酸之间进行区分(Astake,M.,等,《分子生物学杂志》(J.Mol.Biol.)1998,278147-165)。
此外,发展出一种具有最佳特性的聚合酶可以通过下述方法完成将一种或多种已知聚合酶进行随机突变形成,并与可在突变聚合酶中显示出所需要的特性的检测相偶联。进行这类突变形成的一个特别有用的方法叫做“DNA穿梭”。(见Harayama,S.,《生物技术趋势》,(Trends Biotechnol.)1998,1676-82)。例如,只需要使用三轮DNA穿梭并检测β-内性,便可以制造出一种突变型,该突变型与野生型基因相比,对抗菌素氨中噻肟头孢菌素具有强16,000倍的抵抗力。(Stemmer,W.P.C.,《自然》(Nature),1994,370389-391)。
本发明的另一个方面为一种新方法,用于制造和选择一些聚合酶,这些聚合酶能够有效地将本发明中的一个修饰核苷酸或相邻的修饰多核苷酸对进行参入,这种新方法将在下面的例子部分中进行描述。D.片段分析
一旦一个修饰核苷酸或多个修饰核苷酸已经部分或全部取代了多核苷酸中的一个或多个天然核苷酸,并且已经完成了对所产生的修饰多核苷酸的切割,便能够进行对所获得的片段的分析。如果目标是对一多核苷酸进行完整测序,则可以使用上面所提到的将修饰核苷酸部分参入到多核苷酸中或者将被修饰核苷酸完全取代的多核苷酸进行部分切割,以产生片段阶梯,该阶梯与使用Maxam-Gilbert或Sanger方法所得到的阶梯相类似。在这种情况下,可以使用平板、毛细管、或微胶电泳技术来构建序列阶梯。本发明的方法胜过Maxam-Gilbert方法之处在于,将修饰核苷酸放置于修饰多核苷酸中的步骤是精确的,切割也是精确的,而通过Maxam-Gilbert反应进行的全长多核苷酸的合成后修饰却容易出错。例如,错误核苷酸可能被修饰,因而会发生错误切割,或者需要的核苷酸根本就没有被修饰,这样在本来应该发生切割的地方却会出现不足切割、甚至没有切割。胜过Sanger方法之处有以下几点。首先,在延伸之后、切割之前,全长克隆可以被纯化,这样那些由于障碍所导致的提前终止的片段可以在胶电泳之前被除去(障碍是由于聚合酶错误或者模板二级结构所引起),从而产生更干净的切割带。事实上,可能根本不需要进行这类清洁步骤,因为提前终止的聚合酶延伸片段本身如果包含修饰核苷酸的话将会被切割,而那些正确切割片段只不过增加了从全长克隆的切割获得的其他片段(尽管这类增加只限于长度短于提前终止位点的片段)。其次,与染料终止子测序相反,化学方法产生均等强度的序列阶梯产物,而在染料终止子测序中,不同染料终止子分子特性的显著不同以及染料修饰的双脱氧核苷酸与聚合酶模板复合物之间的相互作用可以在所产生的序列阶梯中导致不均一的信号强度。这种差别可以导致错误,并使得杂合子的确认变得困难。第三,与Sanger链终止方法相反,在此所描述的化学方法允许产生几个Kb距离的均一序列阶梯,而Sanger方法则在短很多的间隔上产生有用的标记片段。这在图17和18中得以显示。长序列阶梯的产生可以与限制性内切酶消化进行结合,从而完成长模板的1X测序。
图14描述了这一方法对基因组DNA测序的用途,而其实行见图15和16。这些方法在对富含重复序列的基因组(例如,但不限于,人类基因组)进行测序时尤其有用。
在此所描述的使用质量光谱仪对多核苷酸序列进行测定的方法的一个特别的优点在于其速度、可重复性、低成本以及与质量光谱测定相关的可自动控制性,尤其在与胶电泳进行比较时更是如此。例如,参见Fu,D.J.,等,《天然生物技术》(NatureBiotechnology),1998,16381-384。因此,即使本发明的某些方面可使用胶分析,但是那些使用质量光谱的方面才是较适宜的表现形式。
当我们的目标为在两个或多个相关多核苷酸之间检测差异时,质量光谱仪在几个甚至一个原子质量单位(amu)的范围内检测彼此之间质量差异的能力便可以允许这类检测,而不需要确定被比较的多核苷酸的完整核苷酸序列;也就是说,寡核苷酸的质量就提供了核苷酸的内容。以这种方式使用质量光谱仪便构成了本发明的另一个方面。
使用质量光谱仪以确定和测定差异的化学性质是基于四种脱氧核苷酸和它们的低聚体的独特的分子量特性。
表2显示了四种脱氧核苷酸单磷酸的质量差异。表3A显示了只通过核苷酸组成而获得的所有可能的二聚体、三聚体、四聚体和五聚体的计算出的质量;也就是说,不考虑核苷酸顺序。正如我们所看到的,121种可能的二聚体至五聚体寡核苷酸中,只有两种具有相同的质量。因此,使用具有足够高分辨力的仪器,多核苷酸切割所产生的所有二聚体、三聚体、四聚体和所有五聚体(除了两种之外),其核苷酸成分可以用质量光谱分析迅速测定出来。对表3A中的质量来说,分辨力(半最大高度时的全宽)为1500至2000的仪器就足够了;分辨率高达10,000的质量光谱仪也可以买到。然而,当在修饰核苷酸取代的所有位点上进行切割时,便不需要考虑所有可能的二聚体、三聚体、四聚体等等的质量。这是因为,在任何切割片段中,都不可能有切割核苷酸的内部发生。也就是说,如果G是切割核苷酸,则依照切割机制不同,所有产生的修饰片段都会带有0个或1个G;而且,如果是1个G,则依照切割机制不同,那个G一定会发生在片段的或者3’端、或者5’端。换句话说,不可能有G存在于片段的内部,因为,如果有的话,那个片段则需要在内部G处重新片段化。因此,如果切割化学确实将一个G留在了所有G切割片段的任一端,则G的质量可以从每一片段的质量中减去,而所产生的质量可以进行对比。A、C、T也可以同样处理。表4显示了缺少一个核苷酸的所有二聚体至七聚体的质量。已经将这一计算用于多达30聚体的多核苷酸,而且已经显示,只有8组同量异序寡核苷酸(寡核苷酸彼此质量差异在0.01%之内)质量在5000Da以下。8组同量异序寡核苷酸见表3B。对表3B加以研究显示,除了第二组之外,每一组都涉及带有多个G残基的多核苷酸。因此,在G处进行切割将消除除一组以外的所有同量异序质量,这一组为d(T8)与d(C3A5),该组不能用分辨率为0.01%的光谱分析仪加以解决。然而,C切割或A切割都可以除去后一多核苷酸。
表4显示,在A或T处切割,可以持续产生在最接近的可能切割片段之间具有较大质量差异的片段。在A处切割可以在最接近的片段之间产生5,10,15,20或25Da的质量差异,而在T处切割则可产生8,18,或24Da的质量差异,虽然这样做的代价为多产生几个同量异序片段。
表2
表2.表A四种脱氧核苷酸残基的质量显示在表的上部,计算出的每对核苷酸残基之间的分子量差异显示在表中。请注意,与上面所显示的天然核苷酸质量相比,化学修饰的核苷酸通常具有不同的质量。一种特殊的修饰核苷酸和其它核苷酸之间的质量差异将会随着修饰的不同而不同。可参见对特殊核苷酸修饰和切割机制的描述,以获得切割产物的详细情况。表B显示了天然核苷酸和2-氯-腺嘌呤之间的质量差异(最右一行)。最小的质量差异为17.3Da,而不是像表A中的9Da,使用质量光谱分析,从而提供了具有优势的核苷酸鉴别。
表3.二聚体、三聚体、四聚体、五聚体的所有可能组成的质量,按照质量(以道尔顿Da为单位)顺序排列,为了表示简易起见,四舍五入到最近一位整数。(对许多寡核苷酸来说,其它核苷酸顺序是可能的。)五聚体的一行在左边二聚体下面继续。请注意,两种具有不同核苷酸成分的五聚体具有相同的质量(AAAAA和CCGGG,位于右边最底部阴影处,分子量都是1504)。在此给出了分子质量;电离将改变质量。更一般地说,这些质量是说明性的;实际质量将有所不同,取决于化学修饰、切割机制和电离的极性。
表3a
因此,对于一个特定的靶分析多核苷酸来说,如果它的序列已知,则可能确定在一个或多个碱基核苷酸进行切割是否会产生上述任何令人迷惑的假象,然后,通过明智地选择实验条件,则可能避免或解决这些问题。
基于前面所作的分析,可以看出,来自同一人群的不同成员中两个或多个相似多核苷酸的核苷酸序列的任何差异都将导致多核苷酸切割所得到的片段模式的差异,因而导致在质量光谱图中所看到的质量的差异。每一个差异都将导致两个质量改变,即一个质量的消失和另一个新质量的出现。此外,如果一个双链多核苷酸被分析,或者两条链被独立分析,则差异会导致靶DNA两条互补链的质量的改变,从而导致总共四个质量变化(每一链中都有一个质量消失和一个质量出现)。表现出质量改变的第二条链的存在提供了一个非常有用的内部证据,证实有差异的存在。此外,来自互补链的片段中那些组质量改变可以为差异的性质提供其它信息。图27-30举例说明了在修饰dA处(铁传递蛋白受体基因的一个差异位点)进行完全取代和切割后在多核苷酸的两条链上都检测质量差异。表5显示了互补链上所有可能的点突变(转变和转换)所期望出现的那些组质量变化。一旦获得质量光谱图,马上便会很明显地知道差异是否为一种或多种核苷酸向一个片段的添加(片段质量大约增加300+a.u.)、从一个片段中删除一个或多个核苷酸(片段质量大约减少300+a.u.)或者是用一个或多个核苷酸取代一个或多个其它核苷酸(差异在表5中加以显示)。此外,如果差异是一种取代,则该取代的精确性质也可以被确定。
表3b
表4(第1部分,共两部分)将寡核苷酸在特殊核苷酸位置(G,C,A或T,如图中注明)进行切割所获得的质量。在G处进行切割将产生没有内部G残基的片段,依照切割机制的不同,可以在切割物的5’端或3’端有一个G。在此表中,为了表达方便,将G从G切割片段中省略(因此每个片段应该被认为多出一个核苷酸);请注意,将一个G添加到每个G切割片段上将对片段之间的质量差异(Δ质量)没有影响。C、A、T切割片段也具有类似考虑。具有相同T切割质量的两个五聚体用阴影表示。通过将四舍五入至最接近的整数(这因而是不准确的,不过结果的模式不受影响)的核苷酸质量相加而计算质量;磷酸基团的质量61道尔顿被从所有片段中减去,因为大多数切割机制将导致除去一个磷酸基。表4(第1部分)
在G处切割左C处切割 在A处切割 在T处切割
表4(第2部分)
在G处切割 在C处切割 在A处切割 在T处切割
表4(第2部分)将寡核苷酸在特殊核苷酸位置(G,C,A或T,如图中注明)进行切割所获得的质量。见本表第一部分的图例。注意,两个具有相同T切割质量(第一部分)的五聚体经由T切割质量(阴影部分)继续增殖。
E.系列切割
前面的讨论主要针对于用于任何特定修饰多核苷酸的切割反应的使用。然而,也有可能(并且这也是本发明的另一个方面)将一多核苷酸进行系列切割,在该多核苷酸中,两种或多种天然核苷酸已经被具有不同切割特性的两种或多种修饰核苷酸代替。也就是说,含有两种或多种类型的、或者全部或者部分取代的修饰核苷酸的多核苷酸能够通过连续暴露于不同切割条件下的方法而加以切割,这些切割条件可以为化学的、物理的、或两者都有。本方法的一个较适宜的表现形式为串联质量光谱分析,其中,一个过程所产生的片段化的分子种类可以被保留在适宜的质量光谱仪中(例如,福里叶转化离子回旋加速器共振质量光谱仪或离子俘获质量光谱仪),以便进一步暴露在可以导致第二个修饰核苷酸的激活和切割的第二个物理/化学过程中。产物离子可以被置于第三个、甚至第四个切割条件下,该切割条件针对于对第三个和第四个核苷酸进行特异修饰,以便能够观察到输入(前体)离子和在每一轮的切割中产生的离子之间的前体-产物关系。可以使用连续或逐步梯度的、效率逐渐提高的切割条件,从而促进对离子之间前体-产物关系的阐明。
制造包含多种修饰核苷酸的多核苷酸可以降低在同一模板上进行多重聚合以制造一组多核苷酸的需求;在该组多核苷酸中,每一个多核苷酸都带有一个不同的单一修饰核苷酸;也就是说,一个修饰核苷酸用于在A处切割,一个用于G处切割,一个用于C处切割,一个用于T处切割。而且,特异性针对单一多核苷酸上的不同核苷酸的切割过程的系列应用可以增强对前体-产物关系的检测,而这有利于确定DNA序列。图21显示了一种多核苷酸的制造过程,该多核苷酸的修饰方法为用核糖GTP完全取代dGTP,用5’-氨基-TTP完全取代dTTP,随后用碱进行切割,从而导致在G处的切割;或者用酸进行切割,从而导致在G处的切割。将碱切割片段继而用酸处理、或者将酸切割片段继而用碱处理,都可导致进一步片段化,从而形成双(G和T)切割片段。这可以用于,例如,但不限于,在序列的位置27(dA)确定一个差异(图21)。也就是说,正如图21中所看到的,只在G处切割可以产生片段ACTTCACCG(位置27加以强调),而该片段包含两个dA残基。这一片段的-24Da的质量改变显示了A到C的改变,但却无法确定两个dA残基中的哪一个改变成了dC。同样地,只在T处切割可以产生片段TCACCGGCACCA,其中包含三个dA残基,也无法确定哪一个dA发生了改变。然而,在G和T处进行双切割却可产生片段TCACCG,该片段经历了-24Da的质量迁移,而且,由于它只包含一个dA,故可以确切地辨认出差异核苷酸。基于在此所做的说明,那些对工艺熟悉的人将会非常明了使用本方法以准确检测其它核苷酸中的差异的方案,而这些方案应该包含在本发明的范围之内。
本发明的另一个方面为一个运算法则或多个运算法则,从而允许使用计算机来从质量光谱分析中直接推算DNA序列或差异的存在。
F.平行切割
也有可能,而且这也是本发明的另一个方面,即一种已经被两个或多个修饰核苷酸取代的多核苷酸,如果其中的每一个修饰核苷酸都对不同的切割方法敏感,则可以以平行的方式进行分析。也就是说,人们可以将多核苷酸分成小部份,然后将每一小部份暴露于针对一种修饰核苷酸的切割过程。这便省去了对每个修饰核苷酸都要进行独立的聚合反应的麻烦。这一方法可以被用于制造序列阶梯,或者用于制造完整的切割产物以用于差异的检测。如例5中所概括的,在两个不同核苷酸处进行完全切割(独立进行),随后进行质量光谱测定,这与在单一核苷酸上进行切割相比,可以显著提高差异检测的效率。
例如,假设有一个单一多核苷酸,用核糖-A,5’-氨基-C,和5’-(桥连)硫代-G核苷酸取代。所有三种修饰核苷酸已知都用聚合酶加以参入。从这样一个修饰多核苷酸可以产生序列阶梯,方法为将第一小部分暴露在酸中,从而导致在C处切割;将第二小部分暴露在碱中,从而导致在A处切割;将第三小部分暴露在银或汞盐中,从而导致在G处切割。又可能通过上述三种修饰核苷酸再加上4’-C-酰基T所产生的多核苷酸也可以(单独地)暴露于紫外光下,从而产生T处的切割,最后从一个单一的聚合产物中获得完整的一组测序反应。
G.修饰核苷酸切割和链终止的结合
修饰核苷酸参入和切割的另一个用途是将其与链终止过程结合起来。通过将聚合过程中的一个或多个修饰核苷酸(例如,但不限于,修饰A)用一个不同的链终止核苷酸(例如,双脱氧-G)加以参入,便可以产生一个Sanger型的片段阶梯,终止于双脱氧核苷酸处。将这一片段阶梯继而暴露在可以在修饰A处进行切割的化学药品中,便可导致进一步的片段化,所产生的片段在5’处终止于A,在3’处或者终止于A(大多数情况下)或者终止于G(每个链终止产物的一个片段中)。将所产生的这组片段与仅仅在修饰核苷酸(A)处进行取代和切割所产生的那组片段进行比较,便可以提供一种有指导意义的对比除了在以3’G结尾的链终止那组中有额外片段存在之外,所有片段都是相同的,而以3’G结尾的链终止那组在质量光谱分析中将提供所有A后面(直接或在一些间隔后)跟着一个G、而中间没有其它介入A的片段的质量(并从中可以推算核苷酸成分)。使用其它链终止核苷酸和其它切割核苷酸可以派生出类似数据,汇总起来可以提供一组数据,有利于确定聚合产物的序列。
H.抗切割的修饰核苷酸取代和质量迁移核苷酸
本发明的前述表现形式主要与将一个或多个修饰核苷酸取代入一个多核苷酸有关;与非修饰核苷酸相比,这些修饰核苷酸具有提高多核苷酸对发生在修饰核苷酸参入位点的切割的敏感性的作用。然而,完全可能,而且这也是本发明的另一个方面,即修饰核苷酸在参入到多核苷酸中之后,与非修饰位点相比,可以降低修饰核苷酸参入位点对切割的敏感性。在这一方案中,切割将随后发生在多核苷酸的非修饰位点。或者,抗切割和对切割敏感的修饰核苷酸可以结合起来参入到同一多核苷酸中,以使得可切割和不可切割位点之间的差别最优化。
将这种抗性给予切割过程的修饰核苷酸的一个例子为任何天然核苷酸的2’-氟衍生物。与非取代的天然核苷酸相比,2’-氟衍生物已经被证实在质量光谱仪中对片段化具有显著少的敏感性。
如表2中所示,天然发生的核苷酸之间的质量差异范围为9-40Da,足够在所有25聚体以下的片段中解决单一核苷酸差异。然而,人们或许希望提高在4种核苷酸或者任意对的核苷酸之间的质量差异,从而对其用质量光谱分析的检测加以简化。在表2中用dA和其2-氯腺嘌呤类似物对此进行了说明。也就是说,用2-氯腺嘌呤(质量为347.7)进行取代,可以将A-T质量差异从9Da升高到42.3Da,A-C质量差异从24升高到57.3Da,A-G质量差异从16升高到17.3Da。其它质量迁移核苷酸类似物在本工艺中已知,而且,本发明的一个方面为可以使用这些类似物,并且这样做将对本发明的质量光谱测定方法有利。
I.应用
下面描述了本发明的方法的若干应用。人们应该了解,这些描述只是举例性的,既无意、也不应该被理解为是以任何方式对本发明范围的限制。因此,基于在此所作的说明,那些对工艺熟练的人将会很明了在此所描述的方法的其它应用;这些应用也包含在本发明的范围之内。
a.全部取代,充分延伸和完全切割
在本发明的一个方面中,靶多核苷酸组成成分的四种核苷酸中的至少一种用一种修饰多核苷酸完全代替(或者使用引物延伸在一条链上代替,或者使用DNA扩增方法在两条链上代替),然后制造一条全长多核苷酸,随后进行充分的完全切割。结果是将修饰多核苷酸切割成平均长度为4个核苷酸的片段。这是因为,在大多数基因组中,A、T、G、C核苷酸的丰富度大约是均等的,而它们的分布是半随机的。因此,在一天然多核苷酸序列中,某一特定核苷酸大约每四个核苷酸出现一次。当然,会有大小的区分,即与平均大小有相当大的偏差,这是由于生物多核苷酸序列的非随机性所造成的;此外在不同基因组中还有不等量的A∶T碱基对与G∶C碱基对的比。一直到修饰核苷酸在引物末端第一次出现,延伸的引物(不管是通过引物延伸还是通过扩增)都不会被切割,从而导致大于15nt的片段(也就是说,大于引物的长度)。通常,这些包含引物的片段是所产生的片段中最大的、或者是最大的片段之一。这可以在基因分型检测的设计中占有优势。也就是说,可以将引物进行设计,使得多型核苷酸位置的第一次出现是在引物之后。在切割以后,基因型可以通过包含引物的片段的长度确定出来。图27-32对此进行了阐明。由于被分析的质量的大小存在这样的差异,质量光谱仪必须能够检测高达20聚体、甚至30聚体的多核苷酸,而其分辨率和质量准确率水平应该与精确测定每一质量的核苷酸成分的要求相一致。正如下面所讨论的,依照被分析的多核苷酸的核苷酸序列是已知的(差异检测和基因分型时通常会是这样)还是未知的(如从头DNA测序时),这一要求具有不同的含义。
i.在差异检测上的应用
差异检测通常是在被分析的DNA或cDNA序列上进行,而这些序列的至少一个参考序列已知。差异检测的目的是为了检查来自不同个体(样本序列)的一组对应序列,为了能在参考序列和样本序列之间、或者在样本序列之间确定序列差异。这种序列差异将通过被切割的样本多核苷酸之间不同质量的存在而被确定和加以表现。
依照差异检测过程的范围的不同,可以使用不同长度的被分析片段。对基因分型来说,最好一个引物与已知的差异位点接近。
通过用聚合酶将修饰核苷酸(A、G、C、或T)进行参入,通常会产生至少50个核苷酸的分析片段,较适宜的情况为至少100个核苷酸,更适宜的情况为至少200个核苷酸;随后在修饰核苷酸参入位点上进行切割,并对所产生的产物进行质量光谱分析。已知核苷酸差异的频率(在人类基因组中估计为200至1000个核苷酸中有一个),在任何两个样本中通常有0个或仅有1至2个切割片段有所不同。在样本中间有所不同的片段,其大小范围可以从单聚体到10聚体,较不经常的是20聚体以上,或者,更少见的情况是,一个具有更大长度的片段;然而,如上面所指出的,平均切割片段将为四个核苷酸。可以利用对参考序列的了解来避免将会产生非常大的切割产物的切割方案,而在更通常的情况下,正如下面所概括的,通过计算差异检测在每一核苷酸位置对所有可能的切割方案的功效,来提高样本之间可能存在的任何序列差异的可检测性。然而,当参考序列已知,而且被分析的片段长度仅为几百个核苷酸时,大序列则不构成真正的问题。这是因为,包含两个大的切割质量、并且这两个质量在大小上很接近,这样的分析片段事实上是不可能的。通常来说,如果只有几条长片段,则它们可以很容易地辨认出来;而且,如表5所示,即使使用质量分辨率仅为1000的MALDI仪器,最困难的取代、即A<->T改变所导致的9amu的迁移,也可以在一个27聚体中被检测出来。表5.
表5.概括了质量光谱仪分辨率和核苷酸改变在确定片段(片段中一个特定的碱基改变可以被确认出来)的最大大小上的关系。其中的碱基取代可以在理论上被解决的最大大小的DNA片段在右侧四列(底下四行)中显示,而每种可能的核苷酸取代则列于左侧列中。正如表中所清楚看到的,每种取代所产生的质量差异(Δ,单位为道尔顿)以及质量光谱仪的分辨率可以决定能够被成功分析的片段的大小限度。目前市场上有售的MALDI仪器可以分辨千分之一至5,000分之一(FWHM),而已有的ESI仪器可以分辨10,000分之一。经过改进的ESIMS仪器的质量分辨率至少要高10倍。表中的理论分辨率数值并没有考虑分子种类的同位素不均一性给实际分辨率带来的限制,也没有考虑有效获得大离子在技术上的困难。FWHM半最大高度时的全宽,是对质量分辨率的标准度量。(欲获得关于MS中分辨率和质量准确率的更多资料,参见例如,Siuzdak,G.《用于生物技术的质量光谱测定》(Mass Spectrometry forBiotechnology),Academic Press,San Diego,1996.)
为了选择用于差异检测的试验条件,以使成功的可能性最大,人们可以使用参考序列,以在试验工作开始前,预测在A、G、C或T处切割所可能产生的片段。基于这样一种分析,针对每一个将要被分析的DNA或cDNA序列,都可以选择最佳的修饰核苷酸取代和切割方案。这类分析可按如下步骤进行
●对受试多核苷酸中的每个核苷酸,用其它三种可能的核苷酸中的每一种进行取代,产生一个相关的质量改变。例如,如果受试多核苷酸的位置1以A开始,则产生以T,G和C开始的假想多核苷酸。然后,移至受试序列的位置2,再次进行所有三种可能的取代,然后如此下去,直到受试多核苷酸的所有位置都完成。如果受试多核苷酸的长度为100个核苷酸,则用这一方法,会在一条链上产生总共300个新的假想片段,而在互补链上产生另外300个片段。三种取代中的每一组可以最后一起进行分析。
●在位置1用T、C、或G取代A所获得的三种新假想片段,每一种都在T、C、G或A处进行切割,测定出所产生的质量。将这些质量组与从参考序列(在我们的例子中,其位置1有一个A)获得的那组质量进行对比。对四种切割(T、C、G、A)中的每一种,都测定一种已经存在的质量的消失或者一种新质量的产生是否将给全部那组质量带来差别。如果差别已经产生,则继而确定它是否为一个差别还是两个差别(也就是说,一个质量的消失和另一个质量的出现)。还应该确定与参考序列切割所产生的那组质量相比,质量差别的大小。对受试序列中100个位置中的每一个位置都进行与此相同的分析,在每一种情况下,都检查四种可能的碱基特异的切割(也就是说,对DNA来说,在A、C、G和T处)中的每一种的结果。
●对4种可能的碱基特异切割中的每一种,都制作一个相关得分。在300个自参考序列的可能偏差中,有一些能够产生一个或多个质量改变;这些偏差在300个可能偏差中的比例,与相关得分的升高成正比(即,两个质量差别具有较高的相关得分),并且相关得分的升高也与质量差别的程度成正比(较大质量差别的得分高于较小质量差别)。
●在引物延伸的情况下,对一条链进行分析;在扩增的情况下,两条链的切割产物都要用于计算。
上述方法可以被延伸到将取代和切割结合起来使用上。例如,对被分析的多核苷酸的每条链的T切割(两条链中或者独立地或者同时地在T处切割),或者在一条链中进行T和A切割(同样,或者独立地或者同时地对两条链进行切割),或者对一条链进行T切割,对互补链进行A切割,如此下去。基于不同方案中的每一个方案所产生的相关得分,能够在实验工作开始前确定一种最佳方案。
可以设计一种计算机程序,以完成上述任务。这样一种程序也可以被延伸,从而包含对实验性切割质量的分析。也就是说,可以设计这样一种程序,将通过试验确定的质量光谱中的所有质量与对参考序列进行切割所应该得到的切割质量进行比较,并标记出任何新的或丢失的质量。如果有新的或丢失的质量存在,便可以将那组实验获得的质量与对与实验切割条件相关的所有可能的核苷酸取代、插入、或删除进行计算机分析所产生的质量进行对比。然而,核苷酸取代要比插入或删除常见约10倍,因此,仅对取代进行分析便已经很有用了。在一个具体表现形式中,对所有可能的核苷酸插入、删除和取代的计算分析数据都可以被储存在一个查阅表中。这组与实验数据吻合的计算质量可以随后用于提供新差异序列的序列,或者,至少能够提供有限制的一组新差异序列的可能序列。(一个取代的位置和化学性质也许不会通过一个切割实验就能够获得单独指定。)为了解决一个差异样本的核苷酸序列的所有不确定性,在有些情况下,也许会需要另一个取代和切割实验(见部分E,系列切割和DNA测序,其应用见下述),或者通过其它测序方法加以解决(例如,传统测序方法,或者通过杂交而测序)。在所有样品上常规进行多重不同取代和切割实验可能是有利的,这样可以使差异的比例达到最大,并可以将这种差异精确地指定到一个特定核苷酸上。
发明者在对50,100,150,200和250个核苷酸的天然多核苷酸进行计算分析后发现,当考虑到所有可能的取代、甚至多达250个核苷酸时,将两种核苷酸切割进行结合(例如,在一条链上在A处切割,在互补链上在G处切割),可以产生99%-100%的检测效率。在较长的片段、甚至多达1000个核苷酸的片段上,则可以进行可能有用、但有时敏感度低于100%的分析。这一分析的详细情况请参见实施例5。
ii.在DNA测序上的应用
本发明的另一个方面利用了在此所描述的化学方法,与质量光谱测定一起决定一个从头合成的多核苷酸的完整核苷酸序列。这一方法使用了与上面所描述的差异检测相同的反应;也就是说,将一个多核苷酸的四种核苷酸中的一个核苷酸用一种修饰核苷酸代替,随后在每个修饰核苷酸的每一个发生位点对修饰多核苷酸进行充分而完全的切割,然后确定所得到的片段的质量。然而,在这种情况下,可能需要常规进行四组切割反应,在每一反应中,一个不同的天然核苷酸被一个修饰核苷酸代替,这样所有四种天然核苷酸都轮流被修饰核苷酸代替,然后所产生的修饰多核苷酸被切割,切割产物的质量被测定。如上面所讨论的,也许还需要使用一次或多次多重核苷酸取代,以解决可能产生的测序不确定性。虽然每次序列测定实验所需要的反应次数与Maxam-Gilbert或Sanger测序所需要的相类似,本发明的方法的优点在于,不使用同位素标记或染料,从而提供了极高的速度和准确性,从而允许进行自动控制过程,并消除了假象,包括与Maxam-Gilbert和Sanger测序或其它以胶为基础的方法相关的压缩等假象。后面一种考虑尤为重要,因为质量光谱分析目前允许在实际上只有几秒到几分钟(而且,在未来,只有几毫秒)时间内对切割反应进行分析,而相比之下,目前的胶电泳方法则需要几个小时。此外,质量光谱测定本身所具有的准确性,以及使用本方法能够对修饰多核苷酸的构建进行控制,这些都可以极大地减少对过量测序的需求。下面的实施例部分对一个有代表性的完整测序试验进行了阐明。
从被分析分子的切割所获得的质量形式推测DNA序列,这一过程与检测和推测序列差异的化学性质的过程相比,要复杂很多。在使用完全切割和质量分析进行测序时,必须要完成以下步骤
●确定序列的长度。正如在别处所讨论过的,从由实验所确定的质量推算每一切割片段的核苷酸成分。对四组实验切割质量中的每一组都进行这样的分析。这种分析的缺点在于,两种或多种片段(尤其是短片段)可能会具有相同的质量,因而可能被算作一个片段,从而导致对序列长度的过低计算。然而,这并非是一个严重的实验上的问题,因为片段质量可以被相加,然后将所有四种切割进行比较;如果它们不吻合,则在片段之间一定会有两个或多个重叠质量。因此,在所有四个切割反应中对所有片段质量进行确定实际上便消除了这种可能的错误的来源。首先,那组给出最大长度的切割质量可以被算作起始点。然后,可以对其它三种切割反应中的所有质量的核苷酸成分进行测定,以确定它们是否与具有最大长度的那组切割产物相关的任何质量中的核苷酸成分相容。如果它们不相容,则即使在与其最大长度相关的那组中也有一定会有过低计算的存在。将序列成分进行比较,便可以使得没有计算进去的碱基被确认出来,而序列的全长也因此可以测定。
●分析的另一个方面可以包括(a)基于与A、C、G、T核苷酸对应的切割产物的大小,确定A、C、G、T核苷酸一定会出现的间隔;(b)分析从每一组切割产物中获得的最大片段的核苷酸成分,以确定彼此类同的核苷酸组;(c)对比不同组之间片段的核苷酸成分,以确定哪些片段是相容的(即,一个片段可以被包含在另一个片段中,或者它们发生重叠)还是不相容的(没有共同的核苷酸);(d)开始将这些不同分析的结果进行整合,以将片段可以被拼接在一起的方式的数量进行限制。可能性的消除与可能关系的确定一样有用。实施例4中提供了一个详细的说明,对计算出一个短寡核苷酸的序列所需要的逻辑进行了阐明。
为局部序列关系提供额外信息的一个方法为降低核苷酸取代的程度或切割的完整性(见下),从而获得几组不完整(但仍然是充分)切割的片段。对这类片段的质量分析可能会非常有用,可以与数组完全切割的片段一起使用,从而确定哪些片段是彼此邻近的。需要获得有限量的这类信息,从而完全解决将切割片段组装成连续序列这样一个难题。
有三种额外的方法,可以促进从对完全取代和切割质量的分析推知DNA序列;这三种方法为(a)对双核苷酸切割质量进行分析(见下),从而提供一个框架,将与单核苷酸取代和切割相关的小质量划分成数量更少的中等大小的集合。双核苷酸切割也可以沿着整个序列提供双核苷酸序列在间隔处的位置。事实上,在所有可能的双核苷酸处进行双核苷酸切割是另一DNA测序方法;(b)使用一种或多种修饰核苷酸对互补链进行单核苷酸取代和切割,从而为片段长度和重叠提供有价值的补充信息;(c)使用双-单核苷酸同时切割,或者使用两种不同的同时单核苷酸切割,从而将取代和切割方案进行结合,这样可以为序列顺序提供明确的信息。
在前面的描述中,已经假设,与三种非修饰核苷酸相比,修饰核苷酸选择性地对适宜条件下的化学切割更加敏感。然而,导致单核苷酸切割的另一种方法是使用三种在化学或物理条件下对切割有抵抗作用的修饰核苷酸,从而足以在非修饰的、天然核苷酸处诱导切割。因此,在本发明的另一个方面中,可以通过选择性地在非修饰核苷酸处进行切割而引起单核苷酸切割。已经证实,核苷酸的一种化学修饰可以使得它们在质量光谱分析中对片段化过程更不敏感;这种修饰就是2’-氟修饰。(Ono,T.,et al,《核酸研究》(NucleicAcids Research),1997,254581-4588.)人们已经认识到2’-氟取代的DNA在对Sanger测序反应的可达到的质量范围(通常被片段化过程所限制)进行扩展上的用途,然而本发明的一个方面为,通过用三种对特殊物理或化学切割过程有抵抗作用的修饰核苷酸进行完全取代,该化学过程也可以用于引起核苷酸特异的切割。另外一种化学修饰已经被证实可以增加核苷酸在MALDI-MS中的稳定性,这便是腺嘌呤和鸟嘌呤的7-去氮杂类似物。(Schneider,K.与Chait,B.T.,《核酸研究》(Nucleic Acids Research),1995,231570-1575)
在本发明的另一个方面中,对切割有抵抗作用的修饰核苷酸可以与对切割敏感的修饰核苷酸一起使用,从而在切割步骤中将敏感性的程度加以提高。
iii.在基因分型上的用途
由于从各个种属所获得的DNA序列数据逐渐增多,越来越需要一种准确、高产、可自动控制、以及廉价的方法,用于确定在某一特定核苷酸上的差异(或者为多型性,或者为突变)已经被发现的生物样品中,一种特定核苷酸或多个核苷酸所处的地位。这一过程——即在DNA序列的一个特殊位置测定核苷酸——称为基因分型。基因分型在许多方面是DNA测序(当所研究的只有一个位置时,为差异检测)的一个特例,不过所测定的是只有一个核苷酸位置的序列。由于只有一个核苷酸位置必须要被检测,基因分型方法并不与DNA测序方法完全重合。本发明中的方法为那些新的和有用的基因分型方法提供了基础。这些方法的基础是跨越多型性位点的多核苷酸的聚合。聚合可以通过PCR方法或引物延伸方法,但最好通过PCR方法。聚合是在三种天然核苷酸和一种化学修饰核苷酸存在的条件下进行的,使得化学修饰的核苷酸与多型性或突变位点的核苷酸之一相对应。例如,如果要进行基因分型的是A/T多型性,则被切割的核苷酸可以为A或T。如果要进行基因分型的是G/A多型性,则被切割的核苷酸可以为A或G。反之也可以为互补链设立试验,而T和C分别发生在A和G的对侧。继而用酸、碱、或其它切割方案进行处理,使得聚合产物被化学切割。这样从两个可能的等位基因中获得了两个产物,一个比另一个要长,这是由于在一个等位基因的多型性位点上存在可切割核苷酸,而在另一个等位基因上则不存在所造成的。质量改变(而并非长度改变)也发生在对侧链上。一个限制之处在于,用于制造多核苷酸的引物之一必须要放置在使得引物末端后面可切割核苷酸的第一次出现是在多型性位点上这样一个位置上。这通常要求其中一个引物与多型性位点接近。另外一种方法是同时参入两个可切割核苷酸,一个用于(+)链上的多型性核苷酸,另一个用于(-)链上的多型性位点。例如,可以在(+)链上参入可切割的dA(用于检测A-G多型性),在(-)链上参入可切割的dC(用于确实地检测(+)链上G等位基因的存在)。在这种情况下,使两个引物都接近差异位点可能会有利。两个不同大小的等位产物可以通过电泳的方法(例如,但不限于,毛细管电泳)加以分离。也可以使用(但不限于)质量光谱测定,通过质量将它们加以分离。此外,正如下面所描述的,可以使用FRET测试来检测它们。通过在本行业中已知的方法,这三种测试形式中的任一种都与多路技术相容。
进行FRET检测、以检测等位切割产物是否存在的一个方法为引入一个带有荧光或淬火(quencher)成分的探针,使得探针与切割链(代表一个等位基因)和非切割链(代表另一等位基因)进行区别性的杂交;图2中对几种可能的方案进行了阐明。这种区别性杂交很容易实现,因为一条链比另一条链长至少一个、而且经常是好几个核苷酸。如果荧光或淬火基团也放在用于产生可切割多核苷酸的引物上(通过PCR或引物延伸),使得探针上的成分和引物上的成分之间存在合适的FRET相互作用,也就是说,两种成分的吸收和发射波长相匹配,同时通过对工艺熟悉的人们已经知道的方法,将两种成分之间的距离和方位加以最优化,则当探针和引物在可导致最大杂交辨别力的温度下被加热时,在一个等位基因上会出现一个强的信号,而在另一个等位基因上则没有。较理想的情况为,探针是以最大限度地利用不同长度的切割和非切割等位基因的方式合成的。例如,引物应该与一区域杂交,该区域在一个等位基因上通过切割而除去,而在另一个等位基因上则存在。当选择引物以用于PCR或引物延伸时,一种实验设计方案是将引物放置在能够使两个等位基因之间的长度差别达到最大的位置上。使分辨力达到最大的其它方法包括使用“分子信标”策略,在该策略中,探针的末端是互补的,从而形成一个干,而在有非切割等位基因存在、并且非切割片段与探针的干互补时,非切割片段便有效地与探针分子中分子内干的形成进行竞争。(图32和33)。
上述FRET方法可以在一个单一的试管内进行,例如,经过下列步骤(1)PCR;(2)添加切割试剂(如果需要的话进行加热);(3)添加探针;并且(4)如果需要的话在类似“ABI棱镜”(ABI Prism)这样的能够在96孔中进行激发和荧光检测的仪器中进行温度骤升。
另一种能够产生对两种差异等位基因进行区别的FRET信号的方法为将一种染料参入到核苷酸中,该染料可与引物上的染料发生相互作用。能够产生区别性的FRET的关键在于,染料修饰的核苷酸必须首先出现在(在引物的3’末端之后)多型性位点之外,这样,在切割以后,一个等位基因(切割的)上的核苷酸染料将不再位于引物染料的必需共振产生距离之内,而在另一个(非切割的)等位基因上,合适的距离将被保持,而FRET将会发生。这个方法的唯一一个缺点在于,它需要一个纯化步骤,以除去未参入的染料分子,这些染料分子可以产生背景信号,对FRET检测进行干扰。实施这一方法所涉及的实验步骤的一个例子为(但不限于这个例子)(1)PCR反应。使用染料标记的引物,并或者使用携带染料的可切割修饰核苷酸,或者使用一个可切割修饰核苷酸、外加一个染料标记的核苷酸。如果切割机制导致染料从引物上的分离(例如,在5’-氨基取代的例子中,导致在与核苷酸的糖和碱基最接近处发生切割),则染料可以在可切割核苷酸上;(2)在可切割修饰核苷酸上进行切割;(3)纯化,以除去自由核苷酸;并且(4)FRET检测。
正如在本说明中早已强调的,我们已经证实,使用哌啶/TCEP/Tris基,可以对用7-氮-7-去氮杂-2’-脱氧腺嘌呤取代2’-脱氧腺嘌呤的多核苷酸进行特异性的和完全的切割。有许多其它的化学方法的例子,而其中可能用到类似的PCR扩增和化学切割。在一个假定的基因分型检测中,使用一种可切割的核苷酸类似物,外加三种其它核苷酸,以进行PCR反应。PCR引物可以经过设计,使得多型性碱基与其中的一个引物(P)相接近,而在引物和多型性碱基之间没有可切割的碱基。如果可切割碱基是多型性碱基中的一个,则来自这一等位基因的含有P的切割产物应该比来自另一等位基因的产物要短。示意图表示(图27)和实验数据(图28-31)对这样一种安排进行了举例。如果可切割碱基与多型性碱基中的任一个都不同,则含有P的片段应该在两个等位基因中具有相同的长度、但是不同的分子量。在这种情况下,质量光谱分析应该是较为适宜的分析手段;虽然我们已经观察到,当用毛细管电泳进行分析时,具有单一一个碱基差异的寡核苷酸都会具有不同的迁移速度。在一个特殊的例子中,使用7-氮-7-去氮杂-2’-脱氧腺嘌呤取代2’-脱氧腺嘌呤,铁传递蛋白受体基因的一个82bp的片段用PCR进行扩增。多型性碱基对为A∶T到G∶C。PCR扩增所产生的完成取代的产物,其产量与天然DNA的产量类似(图28)。MALDI-TOF质量光谱测定分析显示了光谱中两个区域的多型性。第一个位于7000Da和9200Da之间,第二个位于3700Da和4600Da之间(图30,表A)。第一个区域显示了不同长度的含有引物的片段之间的不同(图30,表A)。第二个区域显示了含有多型性的相反DNA链,该链具有相同的长度、但具有不同的质量(图30,表C)。两个等位基因之间的共同片段可以用作质量参照。也可以使用毛细管电泳分析(图31)。正如我们所预期的,在测试样品中,两个不同长度片段之间的迁移率的不同可以很容易被检测到。此外,也可以观察到两个具有相同长度(11nt)但是有一个不同的碱基(C对T)的多型性片段之间的迁移率的差异,从而从相对链获得了支持性的证据。图32显示了对同一多型性位点进行FRET检测的示意图。
b.双核苷酸的全部取代、充分延伸、和完全切割
在本发明的另一个方面中,组成目的多核苷酸的四种核苷酸中的两种被修饰核苷酸完全代替(或者使用引物延伸在一条链上代替,或者使用DNA扩增方法在两条链上都代替),然后最好在涉及两种不同修饰核苷酸的双核苷酸位点上进行充分而完全的切割。通常,由于大多数切割机制在空间上的限制,只有当两种修饰核苷酸以一种特殊的顺序出现时,才可能被切割。例如,如果T和C被修饰,序列5’TpC3’将会被切割,而5’CpT3’则不会被切割(5’和3’指示多核苷酸链的极性,而p指示一个内部磷酸基团)。
双核苷酸切割的合理性在于,单核苷酸切割并不完全适合于对长于300到400个核苷酸的多核苷酸进行分析,因为必须通过质量光谱仪进行检测和分辨的片段的数目可能会受到限制,而碰巧出现具有同一质量的两个或多个切割片段的可能性也增加,从而开始限制了方法的效率。当我们考虑到具有相同组成的单、双、三、和四核苷酸的出现时,这一问题显得尤为突出,这些核苷酸会遮蔽片段的出现或消失,因为MS不是定量的。相反,毛细管电泳尽管不能提供质量、进而提供核苷酸成分,但却是个定量的方法,能够允许在二、三、四个核苷酸的数量上检测差异。
在修饰双核苷酸处进行切割应该能够产生平均长度为16个核苷酸的片段。这是因为,假设核苷酸的频率是均等的,在任何组的双核苷酸上都没有生物选择的压力(即,他们的出现是随机的),则已知有4种核苷酸,任何双核苷酸的充裕度为42,即等于16。然而,这些假设中没有任何一种是完全正确的,所以,实际上在切割质量上将会有非常广的大小分布,依照被选择用来取代和切割的核苷酸对的不同,平均质量大小将会有很大的差异。然而,能够使用已有的关于哺乳动物、无脊椎动物、和原核细胞基因组的各种双核苷酸频率的信息,以选择合适的双核苷酸。例如,已知5’CpG3’双核苷酸在哺乳类基因组中是未被充分代表的;如果需要相对频繁的切割间隔,则应该避免它们。
i.在差异检测上的应用
如果被分析的多核苷酸的序列已知,则基于对预期得到的切割片段质量的分析,可以选择一种最佳的双核苷酸切割方案。例如,通过对所有可能的双核苷酸切割方案所产生的片段大小进行分析,可以选择片段大小在适于用质量光谱仪进行分析的片段大小范围之内的切割片段。此外,针对完全单核苷酸取代和切割,可以通过上述方法测定与所有可能的双核苷酸切割方案相关的差异检测的理论上的功效——也就是说,通过在完整的被分析片段中测定每一个可能的核苷酸取代的可检测性。在有些情况下,两个或更多个独立的双核苷酸切割反应可能会产生互补的结果,或者可能需要进行第二个双核苷酸切割实验,以提供确切的事实。
已知双核苷酸的长度(平均为16聚体),基于一个双核苷酸切割实验,通常无法精确确定一个差异核苷酸的位置。例如,如果在一个14聚体中检测到样品之间的一个15道尔顿的质量差异,则在14聚体中一定会有一个C<->T差异(表2),较重的等位基因在较轻的等位基因包含C的位置包含T。然而,除非在较轻的差异片段中只有一个C,或者在较重的差异片段中只有一个T,否则不可能确定C或T中的哪一个是有差异的那个。可以通过几种方式解决与发生改变的精确核苷酸相关的不确定性。首先,可以设计第二个单或双核苷酸取代和切割实验,或这类切割实验的组合,从而将原来的差异片段分割成碎片,因而允许将多型性残基进行明确的分配。其次,可以使用另一种测序方法(如Sanger测序或杂交测序),以对结果进行独立检查。
ii.在DNA测序上的应用
作为一种独立的方法,双核苷酸取代和切割能够为DNA片段的核苷酸成分提供有用的信息,这些片段的平均长度为16个核苷酸,但其范围可多达30,40,甚至50或更多个核苷酸。然而,正如上面所描述的,双核苷酸切割在DNA测序上的主要用途在于与单核苷酸切割一起使用。双核苷酸切割所产生的相对大的DNA片段可以非常有用,用于将单核苷酸切割所产生的较小的片段分成能够彼此适合的片段的组。这类分组所产生的其它限制便足以从甚至相对大的片段中确定完整序列。
在实施例4中显示了使用4种单核苷酸取代和切割反应来从一个20聚体中推知核苷酸序列所需要的步骤。实施例4中所描述的方法可以被用于一系列10-30聚体,它们的序列成分早先已通过双核苷酸切割方法被确定,或至少受到限制。因此,可以获得一个大许多的片段的序列。请注意,随着核苷酸长度的增加,片段质量和序列成分之间的关系变得越来越不确定;也就是说,已有的质量所能够产生的可能序列越来越多。然而,如果包含这一质量的核苷酸数目已知,则可能的核苷酸成分的数量就会显著降低(Pomerantz,S.C.,et al.,《美国质量光谱学协会杂志》(J.Am.Soc.Mass.Spectrom.1993,4204-209)此外,如表4中所阐明的,对单核苷酸组来说,序列上的限制(例如缺乏某一特殊类型的内源性双核苷酸序列)可以进一步降低可能的核苷酸成分的数量。
c.用修饰核苷酸完全取代和部分切割
用修饰核苷酸部分取代和完全切割
用修饰核苷酸部分取代和部分切割
这些应用通过不同策略提供了部分切割的多核苷酸;这些方法中的每一种都能在本发明的一个特殊表现形式中发挥功效。然而,用修饰核苷酸完全取代和部分切割是一种较适宜的方法,用于为质量光谱分析产生部分切割的产物。理由是通过完全取代,人们可以在一个非常大的范围内调整部分切割的程度,从在100个核苷酸中发生1次切割到在100个核苷酸中发生99次切割。即使有完全切割,部分取代也无法允许这样大范围的切割完整性。然而,对那些没有被聚合酶有效参入的修饰核苷酸来说,最好使用较低程度的取代。随着切割完整性的降低,在一个越来越长的范围内的切割片段之间的关系变得逐渐明显。在另一方面,随着切割完整性的增加,获得精确质量数据和核苷酸成分的明确分配的能力也随之增加。少量、中等量、和充分切割的组合可以为整个一个多核苷酸提供一个完整的图景,而不管其用途是差异检测还是测序。具有已测定的核苷酸成分的小多核苷酸能够被加入到具有已知顺序的越来越大的组中。
部分取代加上完全切割、以及部分取代加上部分切割有利于制备序列阶梯。如果一个修饰核苷酸没有通过已有的聚合酶有效地参入到多核苷酸中,则对于包含修饰核苷酸的多核苷酸的有效产生来说,低比率的部分取代将是比较适宜的。然而,一个低程度的取代也许会随后需要完全切割,才能够产生足够的切割片段,以用于迅速检测。
部分取代加上部分切割通常是一种较适宜的方法,因为完全切割的条件可能会很苛刻,从而导致多核苷酸的某些非特异切割或修饰。此外,相对高水平的部分取代(即,在核苷酸发生的5%或更高)允许对在一定范围内的部分切割效率进行分析。正如MS分析中一样,能够检测多种程度的切割是有利的。例如,人们早已知道,在Sanger测序中,产生非常长的序列阶梯便会伴随着有不足通常在阶梯的起始处,由于有最短的片段,便会难以阅读;而在阶梯末端、由于有最长的片段,也会出现同样情况。类似的,本发明中随着多核苷酸而操控部分切割条件的能力也允许从同一多核苷酸中产生一系列测序阶梯,这些序列阶梯可以在靠近引物处或者在与引物有一定距离的地方提供清楚的序列数据。如图17所示,与双脱氧终止相比,通过化学切割所产生的序列阶梯在多达4kb甚至更多的距离范围内可以产生标记片段的更好的分布。
通过用对切割有抵抗作用的修饰核苷酸(见上述)取代除了一种天然核苷酸之外的所有天然核苷酸,也可以获得部分切割,而这种天然核苷酸便随后提供了切割位点。此外,如前面所描述的,也可以将对切割有抵抗作用的修饰核苷酸与对切割敏感的修饰核苷酸结合使用。
虽然,任何允许对相对大的分子的质量进行测定、但不会在过程中导致分子的非特异性解体的技术都可以与本发明的方法一起使用,一种较适宜的技术为MALDI质量光谱测定,因为它非常适合于对分析物的复杂混合物进行分析。商用的MALDI仪器可以从市场上购得,该仪器能够在0.1%-0.05%的准确率层级上对质量进行测量。也就是说,在最佳条件下,这些仪器能够分辨分子量之间的差别小至两千分之一的分子。在以后的几年中,MALDIMS技术的发展将很可能提高商用仪器的分辨率。考虑到包含一个差异的两条链之间所能出现的最小不同(A-T转换,分子量改变为9;见表5),以及一个已知的分辨率为2000的MALDI仪(也就是说,这台仪器能够将m/z(质量/电荷)为2000的离子与m/z为2001的离子区分开),A-T转换能够被检测出来的最大DNA片段大约为18,000道尔顿(道尔顿为分子量的一个单位,用于描述大分子的大小;对于所有的目的和意图来说,它等同于分子的分子量)。在实验环境下,一台仪器的实际分辨率可能受到碳原子的同位素不均一性(即碳在自然中是以碳-12和碳-13的形式存在的)和其他因素的限制。假设在DNA片段中存在4种核苷酸的基本上均匀的分布,这相当于可以在包含55个核苷酸的寡核苷酸中检测到一个A-T转换。在此范围的另一端,能够使用MALDI质量光谱仪,在一个包含大约246个核苷酸的寡核苷酸中检测一个单一的C-G转换,这一转换所导致的分子量改变为40。通过用一种较重的非天然核苷酸取代A或T,A-T转换能够被检测到的寡核苷酸的大小可以被增加;例如(但不限于),用7-甲基-A代替A,从而将分子量改变增加至23。表5显示了一个寡核苷酸的粗略大小,在此寡核苷酸中,使用具有不同分辨力的质量光谱仪,可以检测到每一可能的单一点突变,而不需要对分子量进行任何修饰。
在有利于提高MS分析中对质量差异的检测性方面,已经描述了许多种对核苷酸的化学修饰方法。可以用于本发明的方法的一个特别有用的质量修饰方法为嘌呤类似物2-氯腺嘌呤,其质量为364.5。如表2,图B所示,这对于检测所有核苷酸和A之间的质量差异具有较好的效果。更为重要的是,它将T-A差异从9Da提高到42.3Da。此外,已经证实,2-氯腺嘌呤能够被来自Thermus aquaticus的DNA聚合酶参入到多核苷酸中。在一条链上的完全取代也已经有所报道。(Hentosh,《生物化学年报学报》(P.Anal.Biochem.)1992,201277-281.)E.实施例实施例1.聚合酶的产生
许多种突变型聚合酶已经被证实在修饰核苷酸方面具有经改变的催化特性。人们也已经广泛研究了在对核糖核苷酸和脱氧核糖核苷酸进行区别方面分辨力降低的突变型聚合酶。通过遗传选择的方法也已经分离出能够对叠氮胸腺嘧啶(AZT)参入进行辨别的人DNA聚合酶β突变型。因此,非常可能能够产生和选择出能够比天然聚合酶更好地对本发明的任何一种修饰核苷酸进行参入的突变型聚合酶。
可以使用以下方法,以获得一种最佳聚合酶,用于将一种特殊修饰核苷酸或多个核苷酸参入到多核苷酸中。我们知道,对工艺熟悉的人将很容易对下列方法中的修饰非常明了;这类修饰应该包含在本发明的范围之内。
a.选择一种起始聚合酶。或者,也可以选择在将一个修饰核苷
酸或多个核苷酸参入到一个多核苷酸中方面具有不同序列和
/或不同能力的多种聚合酶。例如(但不限于),可以选用两
种聚合酶,其中一种能够有效地参入具有糖修饰成分的核苷
酸,另一种能够有效地参入具有磷酸骨架修饰的核苷酸。随
后将聚合酶的编码序列克隆入原核细胞宿主中。
在克隆过程中将一蛋白质标签参入到聚合酶中可能会有利,选择蛋白质标签的标准是它能够指导聚合酶进入到宿主的细胞质周围间隙的能力。这类标签的一个实施例(但不限于这个实施例)为硫氧还蛋白。通过热休克(或在此行业中已知的其它方法)可以得到半纯化状态的细胞质周围间隙内的蛋白质,而这些蛋白质不太可能被参入到包含体内。
b.随后进行几轮(最好是三轮或更多轮)穿梭(Stemmer,见上)。
c.在每一轮穿梭之后,将穿梭的DNA转化入宿主。随后将所获
得的转化株文库铺板,并从宿主细胞集落中制备转化株库(大
约每库10-1000个集落),用于通过亲缘选择进行筛选。随后
从每一库中获得溶菌液。宿主可以为原核细胞,例如(但不
限于)细菌;或单细胞真核生物,例如酵母。下面的描述中
假设使用了细菌原核宿主,不过那些对工艺熟悉的人将会对
其它可能的原核宿主非常明了,而这些也包含在本发明的范
围之内。
d.将溶菌液进行透析,使用一低分子量隔离膜,以除去事实上
所有天然核苷酸。这是必需的,因为对具有所需要的特性的
聚合酶进行检测需要在有修饰核苷酸存在的条件下对一引物
进行聚合酶延伸。对应的天然核苷酸的存在将会导致测试中
的高背景,从而使结果变得不明显。另一种方法是用磷酸酶
(例如虾碱磷酶)将所有天然核苷酸降解。
e.将下列成分加入到透析过的溶菌液中一个单链DNA模板,
与模板的一个末端互补的单链DNA引物,一个或多个修饰核
苷酸(我们希望其参入到DNA中),以及没有被修饰核苷酸代
替的天然核苷酸。如果所需要的聚合酶将具有参入两个相邻
的修饰核苷酸的能力,则应该对模板加以选择,使其包含一
个或多个互补的相邻序列。例如(但不限于),如果需要一种
聚合酶,能够从5’到3’方向参入一个修饰C-修饰T序列,则模
板应该包含3’到5’一个或多个G-A或A-G序列。被设计用来检
测聚合酶参入修饰核苷酸或多个核苷酸的能力的模板链的那
一段后面(也就是说,其5’端),是那段在用聚合酶复制之后
可以产生可检测的序列的那段模板链。序列可以用几种方法
加以检测。一种可能性是使用含有与其中一种天然核苷酸互
补的核苷酸均聚合物片段的模板。然后,如果目的是,例如,
确认一种能够将修饰C进行参入的聚合酶,则检测过程可能涉
及将连续系列的A、G、或T进行聚合,然而条件是,用于检
测的核苷酸没有出现在与模板序列互补的聚合成的序列中的
较早部位。检测核苷酸可以为放射性标记的或染料标记的核
苷酸,这个核苷酸只能由跨越了需要进行修饰核苷酸参入的
那部分模板的突变型聚合酶进行参入。另一种检测均聚合物
的方法是制作一个互补的同位素标记的或染料标记的探针,
这个探针只能与包含能够将修饰核苷酸进行参入的聚合酶的
的库所产生的均聚合体进行杂交。随后对杂交进行检测的方
法可以为,例如,在尼龙滤膜的每一个库中确认出引物延伸
产物,随后进行变性,干燥,并添加标记的均聚合物探针,
该探针能与聚合产物的互补链进行杂交。当然,应该使用宿
主细胞基因组或游离基因中不存在的均聚合体或其他序列,
以使对存在于所有库中的宿主序列的背景杂交减少到最小。
然而,另一种检测方法可以为,参入一个与RNA聚合酶启动子相对应的序列,例如(但不限于),T7启动子,后面跟着一个报告子序列进入模板。这些序列应该位于需要将修饰核苷酸进行参入的引物和模板序列的下游(3’端)。T7启动子应该是无活性的,除非它由于聚合的结果而成为双链的;然而,T7启动子序列的聚合只应该发生在受测试的突变型聚合酶能够将位于T7启动子序列上游的修饰核苷酸或修饰核苷酸序列进行参入的条件下。报告子序列可能会包括一个核苷酸(例如,T)的均聚合体序列,其互补核苷酸(在这种情况下,是A)用一种染料或放射性标记进行标记。以这种方式,高水平的T7聚合酶介导的转录将导致大量的高分子量的(即,能够用三氯醋酸进行沉淀的)标记聚合物的产生。另一种报告子序列可以为一种能够将外源加入的记号寡核苷酸进行切割的核糖酶,该酶能够将切割的和非切割的产物很容易地区别开。例如(同样也是不限于),寡核苷酸的一端可以为生物素标记的,而另一端可以包含一个荧光染料。这类系统可以将一个信号进行1,000倍或更大的扩增。在这一方法中,首先需要证实,启动子的功能没有因为修饰核苷酸的存在而受到干扰,或者需要创建一个缺乏被修饰的核苷酸的启动子的版本。
f.任何包含能够将经选择的修饰核苷酸或相邻修饰核苷酸进行
参入的聚合酶的溶解细菌集落库都可以产生可检测到的均聚
合体,或者由于跨越修饰核苷酸或相邻核苷酸、跨越T7启动
子和跨越记号序列进行聚合的结果,而在记号序列的上游包
含双链T7 RNA聚合酶启动子。向混合物中加入T7 RNA聚合
酶(或者,用另一种方法,从质粒中表达T7 RNA聚合酶)将
导致记号序列的转录,而这可以随后依照所选择的记号系统
的不同通过合适的方法加以检测。可能不需要选择或设计一
种或者缺乏修饰核苷酸、或者可以有效地使用修饰核苷酸行
使功能的启动子。
g.随后通过亲缘选择的方法从细菌集落库中确认和纯化出包含
带有所需特性的聚合酶的细菌集落。在每一轮的选择中,将
带有所需特性的一个或多个库分成亚库,然后用上述方法检
测每一亚库的活性。然后选择表现出最高水平活性的亚库,
将其分离成第二轮的亚库,并重复上述过程。重复以上步骤,
直到只有一个包含所需聚合酶的集落保留下来。那个聚合酶
可以随后被再次克隆到一个蛋白质表达载体中,大量的聚合
酶可以随后被表达和纯化。
另外一种产生聚合酶的方法涉及某些抗生素所具有的为人们所熟悉的只杀死生长细胞的特性,例如,青霉素以及相关药物可以通过干扰生长细胞的细菌细胞壁的合成来杀死细胞,但对静止细胞却没有影响。
此方法可以为将一修饰核苷酸引入细菌细胞,该细胞已经过遗传改变,可以表达一种或多种突变型聚合酶,而最好可以表达突变型聚合酶文库。一个理想的宿主株应该为其中的内源性聚合酶已经失活,不过却由质粒所编码的聚合酶加以补充。可以随后在第二个带有不同的可选择记号(例如,抗菌素抵抗作用)的质粒上创建聚合酶文库。随后可以在有针对第一个(非突变的)聚合酶编码的质粒的负性选择存在的条件下将文库引入宿主细胞中,而留下只带有突变型聚合酶的细胞。如果突变型聚合酶中的一种或几种能够将修饰核苷酸参入到细胞的遗传物质中,则被修饰的基因的表达将会被改变,而且/或者,可以引发一系列宿主细胞反应,例如,可以影响细胞生长的SOS反应。所希望获得的效应应该为可逆性的生长阻滞,即抑制细胞生长而并非杀细胞效应。细胞随后用只会杀死活跃生长的细胞的抗菌素进行处理。随后将细胞从抗菌素中移开,放入新鲜培养基中。任何有修饰核苷酸参入到其遗传物质中的细胞,它们的生长受到阻滞,因而不会受到抗生素的影响,可以形成集落。随后分离出包含为将修饰核苷酸参入到细胞的遗传物质中的聚合酶编码的质粒,然后重复以上过程,进行更多轮的选择。一旦进行了足够数量的选择次数,则分离出聚合酶,对其特征进行确定。以下是一个示范性的实验方法(但不限于这些方法),可以被用来完成上述目的
1.选择一个聚合酶或一组聚合酶用于突变形成。起始聚合酶可以包括(但不限于)一个突变型聚合酶(例如KlenowE710A)、野生型聚合酶、已知可以补充大肠杆菌DNA Pol I的热稳定或热不稳定聚合酶等等。
2.使用例如“脏PCR”、穿梭、位点指导的突变形成或其它多样性产生方法等技术,制备一个突变型聚合酶文库。
3.将文库克隆入质粒载体。
4.用质粒文库转化细胞,通过选择一种合适的抗菌素而分离转化株。较适宜的情况是,宿主株具有失活的染色体聚合酶,而可以施加选择,使得在宿主细胞中只有突变型聚合酶被表达,如上所述。唯有带有编码功能性聚合酶的质粒的细胞才能在这个步骤中存活。
5.将修饰的核苷酸三磷酸加入到培养基中。也许需要使用细胞通透方法,例如细胞穿孔、加入钙或氯化铷、以及热休克等方法,来促进修饰核苷酸进入到细胞中。细胞随后在有修饰核苷酸三磷酸的条件下生长,直到修饰核苷酸的参入导致在经选择的细胞中的细胞停止生长。
6.加入青霉素、氨苄青霉素、萘啶酸、或任何其它可选择性地杀死活跃分裂的细胞的抗菌素。让细胞继续生长一段时间,时间长度经过选择。
7.将细胞离心,悬浮在新鲜的LB培养基中,铺板。生长一段时间,时间长度由经验决定。
8.选择集落,分离质粒,重复步骤4-7以进行额外数轮的选择,或者,用另一种方法,使用针对修饰核苷酸参入的生化检测,以检查个别集落或集落库。这样一种检测可能涉及在个别克隆或在亲缘选择方案中的克隆库中存在有放射性标记的修饰核苷酸的条件下对一个模板进行聚合。
9.进一步确定聚合酶的性质,通过步骤8中的检测确定其具有所需活性。
10.对步骤8中获得的聚合酶再次进行诱突变处理,重复从步骤8开始的选择步骤。
11.当参入修饰核苷酸的能力达到可接受的水平时,分离并确定聚合酶的特征。
另一种选择可将修饰核苷酸进行参入的有活性的聚合酶的方法涉及使用一种细菌噬菌体,该噬菌体已被报告用于对一种有活性的酶的选择(Pedersen et.al.《美国国家科学学院学报》(Proc.Natl.Acad.Sci.USA)1998,9510523-8)。对这一方法的修正方法可以被用于对突变型聚合酶的选择。也就是说,共价附着于噬菌体表面的寡核苷酸可以通过表达在噬菌体表面的突变型聚合酶而加以延伸。染料标记的修饰核苷酸可以被用于引物延伸。在除去未参入的修饰核苷酸以后,可以使用荧光激活的细胞拣选方法辨认出带有染料修饰核苷酸的噬菌体。或者,通过使用一种适当的模板设计,荧光标记可以被附着在另一核苷酸上,而该核苷酸只能被参入到一串修饰核苷酸的下游。
另一种鉴别可用于修饰核苷酸参入的活性聚合酶的方法为使用与模板DNA及核苷酸底物结合的聚合酶的已有的X线晶体结构。基于与所观察到的以及所预期的聚合酶/底物复合物内的相互作用,能够产生合理的氨基酸改变,以适应一个特定的修饰核苷酸在结构上的偏离。例如,基于对T7聚合酶和其底物的复合物在结构上的认识(其X线晶体结构显示了位于聚合酶活性位点上的氨基酸)(Doublie et al,《自然》(Nature),1998,391251-258),可以对结构上类似的蛋白质Klenow设计出位点指导的突变形成,以增加其对核糖核苷酸(rNTPs)和/或5’-氨基-核苷酸(5’-氨基dNTPS)的参入的特异性活性。
Klenow的E710A突变型(Astatke等.,《美国国家科学学院学报》(Proc.Natl.Acad.Sci.USA),1998,953402-3407)与野生型Klenow相比,具有较高的将rNTPs进行参入的能力,很可能由于突变型除去了阻挡rNTPs的2’-羟基的空间门槛。然而,这一突变却降低了突变型对天然dNTPs和5’-氨基dNTPs的参入能力。在这种情况下,使用E710S突变可能会导致活性改善,因为E710S很可能与rNTPs底物的2’-OH形成氢键。E710A或E710S突变也可以与Y766F一起使用,后者是一种从前已经描述过的突变型,它本身对聚合酶活性几乎没有影响(Astatke等,《生物化学杂志》(J.Biol.Chem.,1995,2701945-54)。Y766的晶体结构显示,它的羟基与E710的侧链形成氢键,该氢键在E710截断成Ala时可影响聚合酶活性。在另一方面,E710突变与F762A的结合可以通过将糖环固定在确定位置而提高活性。类似地,通过放松聚合酶在核苷酸底物上的结合,可以达到5’-氨基-类似物的更好的参入,因为5’-氮改变了核苷酸的构型,从而改变了α-磷原子的排列。一开始,注意力可以放在对一些有限数量的残基的突变形成上,这些残基参与了核苷酸底物的糖和磷酸,例如残基R668、H734、F762等。H881残基也有效。虽然离dNTP结合位点较远,在这一位置的丙氨酸取代仍可以影响dNTP参入的可靠性(Polesky等,《生物化学杂志》,(J.Biol.Chem.)1990,26514579-91)。这些残基可以被用作盒式突变形成的目标,以保证具有最大效应的氨基酸残基,随后用上面所述的方法对活性聚合酶进行选择。R668K取代尤其有趣,因为它应该消除与dNTP的接触,而保留与引物3’-NMP的小沟相互作用。在另一方面,虽然R754和K758与β和α磷酸接触,在这些位置上的改变将很可能严重阻碍催化作用。在这些位置上的组氨酸或赖氨酸可以保留与磷酸的相互作用,而且可能保留活性。
另外一种选择能够将修饰核苷酸进行参入的活性聚合酶的方法涉及使用一种噬菌体展示系统,该系统允许外源蛋白质在细菌噬菌体的表面作为与噬菌体表面蛋白的融合而被表达。见Kay,B.K.,winter,J.与J.Mccafferty编著的《肽类和蛋白质的噬菌体展示实验手册》(Phage Display of Peptides and ProteinsA LaboratoryManual.)Academic Press,1996.建立一个用于检测突变型聚合酶的实验系统可能会涉及在噬菌体文库的表面表达突变型聚合酶,继而分离带有所需的聚合酶活性的聚合酶的噬菌体。这样一个系统的这些方面已经有所报道,用于选择一种有活性的酶核酸酶(Pedersen等《美国国家科学学院学报》(Proc.Natl.Acad.Sci.USA,1998,9510523-8)。可以使用这一方法的修正方法,用于突变型聚合酶的选择。也就是说,共价附着于噬菌体表面蛋白质的寡核苷酸可以通过表达在同一噬菌体表面上的突变型聚合酶加以延伸。寡核苷酸必须折叠起来,以提供一个可被聚合酶识别的引物-模板复合物,或者,也可以单独提供一个与寡核苷酸互补的引物。在任一情形下,作为聚合模板的靶核苷酸的部份都将包含与修饰核苷酸互补的核苷酸,而这些修饰核苷酸正是我们寻找有效的聚合酶的目的所在。模板寡核苷酸也可以被设计,使得延伸产物很容易被检测,而这作为标记核苷酸被模板化参入的结果,只会发生在跨越需要将修饰核苷酸进行参入的那段模板的聚合之后。用所需的催化特性对带有聚合酶的噬菌体进行选择性修饰的方法之一为使用荧光激活的细胞拣选仪(FACS)。染料标记的修饰核苷酸可以被用于参入到一个引物延伸反应中,但只有在被检测的修饰核苷酸被参入后才发生。在除去了未参入的核苷酸之后,带有所附着的染料修饰的核苷酸的噬菌体(这些噬菌体必须编码能够将修饰核苷酸或多个核苷酸进行参入的突变型聚合酶)可以在一轮或多轮使用荧光激活的细胞拣选方法中被鉴别出经过修饰(Daugherty P.S.,等,“使用细菌表面展示而产生的抗体亲和力成熟”(Antibody affinity maturation usingbacterial surface display.)《蛋白质工程》(Protein Eng)11825-32,1998)。或者,修饰核苷酸本身也可以用染料进行标记,而类似地,检测也可以通过对染料标记噬菌体的FACS拣选而完成。这一方法的缺点在于,染料可能对聚合造成干扰;然而,对工艺熟悉的人将会认识到,染料可以通过一个不太会对聚合造成抑制的连接而附着在修饰核苷酸上。通过使用一种合适的模板设计,荧光标记可以被附着在另一核苷酸上,而这个核苷酸只能被参入到一串修饰核苷酸的下游。
另一种鉴别可用于修饰核苷酸参入的活性聚合酶的方法为使用与模板DNA及核苷酸底物结合的聚合酶的已有的X线晶体结构。基于与所观察到的以及所预期的聚合酶/底物复合物内的相互作用,能够产生合理的氨基酸改变,以适应一个特定的修饰核苷酸在结构上的偏离。例如,基于对T7聚合酶和其底物的复合物在结构上的认识(其X线晶体结构显示了位于聚合酶活性位点上的氨基酸)(Doublie等,《自然》(Nature),1998,391251-258),可以对结构上类似的蛋白质Klenow设计出位点指导的突变形成,以增加其对核糖核苷酸(rNTPs)和/或5’-氨基-核苷酸(5’-氨基dNTPS)的参入的特异性活性。
Klenow的E710A突变型(Astatke等.,《美国国家科学学院学报》(Proc.Natl.Acad.Sci.USA),1998,953402-3407)与野生型Klenow相比,具有较高的将rNTPs进行参入的能力,很可能由于突变型除去了阻挡rNTPs的2’-羟基的空间门槛。然而,这一突变却降低了突变型对天然dNTPs和5’-氨基dNTPs的参入能力。在这种情况下,使用E710S突变可能会导致活性改善,因为E710S很可能与rNTPs底物的2’-OH形成氢键。E710A或E710S突变也可以与Y766F一起使用,后者是一种从前已经描述过的突变型,它本身对聚合酶活性几乎没有影响(Astatke等,《生物化学杂志》(J.Biol.Chem.,1995,2701945-54)。Y766的晶体结构显示,它的羟基与E710的侧链形成氢键,该氢键在E710截断成Ala时可影响聚合酶活性。在另一方面,E710突变与F762A的结合可以通过将糖环固定在确定位置而提高活性。类似地,通过放松聚合酶在核苷酸底物上的结合,可以达到5’-氨基-类似物的更好的参入,因为5’-氮改变了核苷酸的构型,从而改变了α-磷原子的排列。一开始,注意力可以放在对一些有限数量的残基的突变形成上,这些残基参与了核苷酸底物的糖和磷酸,例如残基R668、H734、F762等。H881残基也有效。虽然离dNTP结合位点较远,在这一位置的丙氨酸取代仍可以影响dNTP参入的可靠性(Polesky等,《生物化学杂志》,(J.Biol.Chem.)1990,26514579-91)。这些残基可以被用作盒式突变形成的目标,以保证具有最大效应的氨基酸残基,随后用上面所述的方法对活性聚合酶进行选择。R668K取代尤其有趣,因为它应该消除与dNTP的接触,而保留与引物3’-NMP的小沟相互作用。在另一方面,虽然R754和K758与β和α磷酸接触,在这些位置上的改变将很可能严重阻碍催化作用。在这些位置上的组氨酸或赖氨酸可以保留与磷酸的相互作用,而且可能保留活性。
那些对工艺熟练的人将会认识到,上面所描述的对Klenow聚合酶较适宜的氨基酸修饰方法的组合可以被用于其它聚合酶,以产生那些聚合酶的有用的突变型版本。这可以通过下列方法完成将其它聚合酶的氨基酸序列与Klenow聚合酶的氨基酸序列匹配,以确定在其它聚合酶中的相应氨基酸的位置,而且/或者,当晶体结构已知时,将其它聚合酶的三维结构与Klenow聚合酶的三维结构进行比较,以确定orthologous氨基酸。进行位点指导的突变形成以及在原核载体中表达突变聚合酶的方法在本行业中已为人们所熟知(Ausubel,F.M.等《最新分子生物学实验方法》(Current Protocolsin Molecular Biology),John Wiley & Sons,1998)。
除了制造和筛选能够将修饰核苷酸进行参入的突变性酶以外,在有些时候它也可以用于筛选其它聚合酶特性。一般来说,与将修饰核苷酸进行参入相比,下面所描述的所需要的其它聚合酶特性更不容易进行检测,因此对这些其他特性的检测可以作为对表现有参入修饰核苷酸能力的突变型聚合酶的第二次筛选。本发明的一个方面为,通过修饰核苷酸和聚合酶之间的接触来引起或增强在修饰核苷酸处的切割(见实施例和图20-26)。这是一种较适宜的切割模式,因为它避免了一个单独的切割步骤。这可以用于检测突变型聚合酶的增强切割的的特性。对这类特性的一个简单的检测是引物延伸,其中跟随在引物后面的延伸序列包含可切割的核苷酸,后面便会有带有可检测到的标记的一个不同核苷酸的第一次出现。在聚合酶辅助的切割的情形下,标记的分子将与引物分离开,从而导致一个较小的标记分子,该分子可用电泳或其他方法加以检测。突变型聚合酶的第二种有用的特性为在模板链中识别一个修饰核苷酸或多个修饰核苷酸的能力,并且在一个新生成的互补链中催化适当的互补核苷酸(天然的或修饰的)的参入的能力。这一特性对一个在循环方法(如PCR)中使用的聚合酶来说是一个必须条件,在这类方法中,新合成的多核苷酸在连续数轮的扩增中起模板的作用。对这类特性的一个简单的检测方法是一个短的引物延伸,在此方法中,模板链用在引物末端马上出现的修饰核苷酸或多个修饰核苷酸加以合成,使得引物延伸反应将很快遇到修饰核苷酸。如果能沿着模板成功地进行了聚合,这显示利用了修饰核苷酸作为模板,这与无法利用修饰核苷酸作为模板相比,可以导致更长的延伸产物。通过合成模板,延伸产物可以很容易地被检测出来,使得只有在跨越了修饰核苷酸之后才会引起标记核苷酸的以模板为样板的参入。延伸产物的序列可以继而被确定,以证实参入到与修饰核苷酸相对的延伸链上的核苷酸是正确的。聚合酶的其他有吸引力的特性包括高重现精度、热稳定性、以及可处理性。对这些特性的检测方法在本行业中已为人们所熟知。实施例2.通过单核苷酸限制而进行的差异检测
以下方法是在一个多核苷酸中进行核苷酸序列差异检测的一个实施例,而不需要获得多核苷酸的完整序列。虽然在这个实施例中所使用的修饰核苷酸是7-甲基鸟嘌呤(7-甲基G),并且,被分析的多核苷酸是一个特殊DNA的一个66个碱基对的片段,但我们知道,使用上面所讨论过的任何修饰核苷酸或任何其它修饰核苷酸都可以进行上面所描述的技术,而这,正如上面所强调的,应该包含在本发明的范围之内。多核苷酸应该为聚合酶所能产生的任何长度的任何多核苷酸。
用PCR(聚合酶链式反应)的方法将复制因子C(RFC)cDNA中的一个38Kda亚单位的一个66个碱基对的区域加以扩增。在两个独立的扩增反应中使用了三个引物。前面的引物(RFC生物素)是用生物素标记的。这使得可以使用抗生素蛋白链菌素包裹的珠子对单链模板进行分离,该模板可以随后使用大肠杆菌DNA聚合酶的Klenow外-片段进行延伸,以将7-甲基G进行参入。这也使得能够在延伸以后和切割之前对修饰的7-甲基GDNA进行清除。
在一个独立的扩增反应中使用了两个相反的引物;一个与RFC基因的天然序列相匹配(RFC),另一个(RFC mut)在66个碱基对的RFC序列中引入了一个碱基的突变(T到C)。在这里的某些图中引物和对应的产物也标记为RFC 4.4和RFC 4.4Mut。
使用PCR和上述两种引物,产生出66个碱基对的片段(图1)。两个片段在一个位置上有所不同,在生物素标记的链上一个T到C的改变,而在互补链上一个A到G的改变(由两个相反引物编码)。使用抗生蛋白链霉素琼脂糖对PCR产物进行纯化,对来自每一PCR产物的非生物素标记的链进行洗脱,并用作引物延伸的模板。在有dATP、dCTP、dTTP、和7-甲基dGTP存在的条件下,生物素标记的引物RFC-生物素沿着这些模板延伸。
抗生蛋白链霉素琼脂糖结合的单链DNA随后与哌啶一起在90℃下孵育30分钟,以在7-甲基G参入到修饰DNA片段中的位点上进行切割。这一处理也导致生物素标记的片段与抗生蛋白链霉素的分离。将反应混合物进行离心,将含有多核苷酸的上清转移到一个新的试管中。在一个速度真空器中将DNA进行干燥,然后重悬在去离子水中。这一样品随后进行MALDI质量光谱分析。
图2显示了在7-甲基G参入的每一个位点上将生物素标记的DNA链进行切割所获得的希望得到的目的片段的分子量。这些片段和它们的分子量为一个27聚体(8772.15),一个10聚体(3069.92),一个8聚体(2557.6),以及依照PCR反应中所使用的相反引物的不同,所获得的下面的10聚体之一,RFC(3054.9)或RFCmut(3039.88)。生物素标记的20聚体引物也存在,因为它在延伸反应中是过量的。RFC和RFCmut的10聚体片段相差15道尔顿,这些是应该用质量光谱仪检测和分辨的片段,因而它们可以揭示出点突变。
图3显示了在用哌啶切割前和切割后RFC和RFCmut Klenow聚合酶延伸片段的变性多核苷酸测序胶分析。在两种情况下所有希望获得的片段都存在。大多数额外的小带是哌啶对DNA链不完全切割的结果。通过两轮的哌啶处理可以达到完全切割,方法为在每一轮中使用新蒸馏的哌啶、在90℃处理30分钟,随后对样品进行干燥和冲洗(数据没有显示)。在8聚体和10聚体之间的、来自RFC mut切割的带(图3,带4)是唯一无法用完全或不完全切割解释的带。
图4为RFC样品的RFC质量光谱图。最右边的峰是生物素标记的引物带,这条带被用作标准,以计算所有其他带的分子量。光谱图的左侧显示了所有三条希望获得的切割带(两个10聚体和一个8聚体)。图4中的插入图是围绕着两个10聚体和8聚体周围区域的放大图。这一区域的分子量一律都减去20道尔顿,因为用于校正的引物被减去了20道尔顿。然而,峰与峰之间的质量差异与预期的完全一致。
图5显示了来自RFC mut样品的质量光谱图和其放大部分。RFC和RFCmut样品的两个峰应该是一样的,即10聚体中的一个(3089.67)和8聚体(2576.93)。剩余的一个10聚体的分子量在RFC-mut 10聚体中应该减少15.02 Da(从3054.9到3039.88),由于有一个单一的T到C转换,而它和没有改变的RFC 10聚体之间的质量差异应该为30.04(3039.88对3069.92)。然而,从RFC mut实际获得的质量差异为319.73 Da。这可能是由于从与核苷酸57-66对应的10聚体上删除了一个C。这也可以解释RFC mut测序胶上的无名的9聚体(图3)。为了取得这样一个结果,从市场上购得的用于扩增反应的引物应该缺少一个G。表6中显示了RFC引物、RFC mut引物、以及一个G被删除的RFC mut引物的所希望获得的分子量。为了验证在RFC mut寡核苷酸引物合成的过程中曾经有一个错误出现这样一个假设,将RFC和RFC mut寡核苷酸混合起来,进行质量光谱测定。正如从图6和表6中的质量差异所看到的,这个假设是正确的,即RFC mut引物确实缺少一个G。
上面的实验充分显示了本发明的方法的威力。一开始使用一个已知序列和一个已知核苷酸作为方法中的对照检测,但实际上却在一个没有预料到的地方——RFC mut引物中检测到了一个未知差异。实施例3.通过双核苷酸限制进行差异检测
一个带有4个碱基对的识别位点的限制性酶将以每256(44)个碱基发生一次切割的统计频率特异性地切割DNA,从而产生通常是过大而无法用质量光谱仪进行分析的片段(图19A)。在另一方面,我们的化学双核苷酸限制策略对同一多核苷酸将产生小得多的片段。所获得的片段的平均大小为16(24)个碱基(图19B),因而非常容易进行质量光谱分析。图20显示了这种化学限制原理的一个实施例。图中显示了一个双核苷酸对,它具有一个核糖核苷酸和一个5’-氨基核苷酸,二者以5’到3’方向连接,从而将核糖核苷酸中的2’-羟基放置在与氨基磷酸酯键极其接近的位置。氨基磷酸酯键的化学不稳定性被增强了,因为羟基基团可以攻击磷原子,以形成一个2’,3’-环磷酸,从而导致DNA在这一特殊双核苷酸位点的切割。
图21显示的是这一方法的实际应用。使用Klenow(外-)和E710A Klenow(外-)聚合酶的混合物、一个87nt的单链模板、在pH为9的Tris缓冲液中,将5’-32P标记的20nt的引物加以延伸。引物延伸用核糖GTP(加样孔1)、5’-氨基TTP(加样孔3)或核糖GTP/5’-氨基TTP(加样孔5)进行,以代替相应的天然核苷酸。延伸完成以后,反应混合物在G25柱上加以纯化。含有核糖G的延伸产物用碱的水溶液加以切割,以产生G测序阶梯(加样孔2)。在另一方面,包含5’-氨基T的产物对酸不稳定,切割后产生一个T测序阶梯(加样孔4)。在使用核糖GTP/5’-氨基TTP的延伸反应的条件下(加样孔5),得到一个64nt、而并非所期望的87nt的产物。有趣的是,64nt的片段是从GT限制中获得的双核苷酸切割产物之一,是唯一能够用放射自显影见到的片段。对这一产物进行酸切割可以产生一个T阶梯(加样孔6),而碱切割则产生一个G阶梯(加样孔7),显示核糖GTP和5’-氨基TTP都成功地参入到多核苷酸中。从这些结果中,可以得出结论,GT限制切割已经在延伸和/或加工过程中得以发生,最可能的原因是由于两种修饰核苷酸的协同的不稳定性。
为了看到所有三个希望得到的限制片段,在有α-32P-dCTP存在的条件下进行相同的延伸-切割试验。如图22所示,可以观察到三个GT限制片段,它们具有所希望的相对迁移率和特异放射性。
这一双核苷酸切割方法的多功能性在同一DNA的AT限制中得到证实。通过聚丙烯酰胺胶电泳(PAGE)分析观察到特异性的AT限制(图23)。通过类似方法产生的非放射性产物用MALDI-TOF质量光谱测定加以分析(图24)。除了一个2nt的片段之外,所有希望得到的限制片段都观察到了,而这一2nt的片段在G25柱纯化过程中丢失了。
通过使用一个更长的、不同的DNA模板,进一步证实了这一技术的普遍的应用性(图25和26)。用核糖ATP和5’-氨基TTP进行引物延伸,随后进行AT限制,经由PAGE分析(图25)、或MALDI-TOF质量分析(图26)观察到所产生的希望得到的寡核苷酸。实施例4. 通过完全取代/完全切割进行基因分型
以下的通过化学限制进行基因分型的方法具有许多优点,包括提高准确性和速度等,相对于其它基因分型方法来说是一种有吸引力的另外一种选择。总的来说,这一方法涉及对基因组DNA的PCR扩增,使用了化学修饰的核苷酸,随后将所产生的扩增子在修饰碱基处进行化学切割。图27所示的是这一技术的一个示意图。将其中的一个引物(引物1)设计成与目的多型位点相接近,使得多型碱基中的一个碱基(例如,A)可以被选择作为第一个被切割的核苷酸。在用化学修饰的核苷酸进行PCR扩增(补充以其它三种天然核苷酸),两个等位基因中的只有一个基因可以在多型位点被切割。用化学试剂进行处理将产生包含引物1的切割产物,其长度将揭示出样品的基因型。利用质量光谱测定分析方法或电泳分析方法,可以确定所希望看到的长度差异。此外,质量光谱测定分析将揭示出包含多型性的互补DNA链上的单一碱基差异,从而提供内在的充裕性和较高的准确度。
图28-31中所显示的是化学切割和分析方法,用于对铁传递蛋白受体(TR)基因进行基因分型。基于多型性的位置以及扩增的效率,选择了TR基因的一个82bp的DNA序列(图28)。多型性碱基(A或G)位于距引物1的3’末端3个碱基处。对于A等位基因来说,这是第一个将被参入的修饰核苷酸;对于G等位基因来说,第一个可切割的碱基距离引物6个碱基。其结果是,从化学切割产生了不同长度的片段。在标准缓冲液中进行了PCR扩增反应(每个50μl),使用了聚合酶AmpliTaq Gold(0.1单位/μl Cycler(MJResearch PTC-200)),使用了35个扩增周期(1分钟变性,1.5分钟退火,5分钟延伸)。在5%的非变性聚丙烯酰胺胶电泳上对PCR产物进行分析(用Sigma公司的Stains-All进行染色),显示7-去氮杂-7-氮-dATP可以取代dATP,用于有效的PCR扩增(图28)。
向具有7-去氮杂-7-氮-dATP成分的PCR产物中直接加入哌啶,tris-(2-羧乙基)磷化氢(TCEP),以及Tris基,使得终产物分别为1M,0.2M,0.5M,而总体积为100l。在95℃孵育1小时以后,向每一反应混合物中加入1ml的0.2M三乙基铵醋酸(TEAA),然后将所产生的溶液在OASIS柱(Waters公司)上纯化。洗脱产物用速度干燥器浓缩至干燥,然后用质量光谱分析或电泳对残基进行分析。图29显示了在7-去氮杂-7-氮-dA处进行切割所期望得到的经选择的片段的序列。按照长度和分子量将序列分组。第一组包含由引物延伸而来的较长片段。22nt的片段是一个不变片段,可以用作内参照。25nt或28nt的片段分别来自A或G等位基因。序列中以阴影标记的组来自DNA的互补链,包括可以被用作内参照的不变的13nt和11nt片段,以及来自具有15Da质量差异的TR基因的两个等位基因形式的一对11nt的片段。图30(a)显示了来自一个82bp的杂合子TR DNA样品的化学切割产物的MALDI-TOF光谱。光谱中强调的部分为包含图29中所描述的片段的两个区域。
每一纯化的切割样品与3-羟基皮考啉酸进行混合,在“感知生物系统航行者DE”质量光谱仪上进行MALDI-TOF分析。在7000-9200Da区域的质量光谱被记录下来,三个TR基因型的结果在图30(b)中加以显示。用代表不变的22nt片段(7189Da)的峰将光谱进行排列。AG杂合子样品中观察到两个额外的峰,一个与A等位基因(8057Da)相对应,另一个与G等位基因(9005Da)相对应。正如我们所预料的,GG或AA纯合子样品中只观察到一个额外的峰,每个具有来自G或A等位基因的切割片段的分子量。图31(a)显示了AG杂合子样品在3700-4600Da区域的质量光谱。以3807Da和4441Da片段作为内参照,通过对光谱中央具有15Da的质量差异的两个峰进行观察,证实了这一样品的基因型。质量光谱分析所观察到的分子量显示,磷酸脱氧核糖TCEP加合物在切割反应中均一地形成,从而产生了在3’末端得到修饰的片段(图31(b))。图30和图31中的数据还显示,将化学限制与质量光谱分析结合使用可以提供DNA两条链的确实的基因分型信息,从而保证分析的准确性。
或者,化学限制的样品可以用电泳进行分析,以检测来自两个等位基因的具有诊断意义的长度差异。使用自制仪器(该仪器带有紫外光检测仪,以及包含变性线性聚丙烯酰胺胶的毛细管)进行毛细管电泳(CE)分析。图32(a)显示了从各种基因型的TR样品中获得的CE层析图。正如我们所预料的,每一基因型都表现出了与所希望获得的切割产物相对应的独特的洗脱形态。尽管AA纯合子产生了一个25nt的片段,GG纯合子产生了一个28nt的片段,AG杂合子样品则既产生了25nt、又产生了28nt的产物。将切割样品在5’端用32P进行标记以后,用其进行PAGE分析。所产生的放射自显影(图32(b))显示,切割是特异的,只有很少或者根本没有背景,而基因分型结果是明确的。
另外一种检测方法涉及荧光共振能量转移(FRET)的应用。FRET已经通过TaqMan检测(Todd J.A.Et al.1995,《自然遗传学》,(Nature Genetics),3341-342)和分子灯塔(Tyagi,S.Et al.,1998,《自然生物技术》,(Nature Biotechnology),1649-53)等技术成功地用于多型性检测。然而,当需要使用较长的探针以使它们与靶序列(例如,AT丰富序列)进行杂交时,对由于单一核苷酸错配所产生的难以察觉的细小差异进行辨别则变得越来越困难。
化学限制在这一方面的优点如图33所示。与前面提到的实施例相类似,在PCR扩增中使用其中一个多型碱基(例如,A)的修饰核苷酸类似物以代替天然核苷酸的位置。对引物1加以设计,使其与多型位点相接近,使得多型碱基A成为等位基因A中第一个被切割的核苷酸。引物1也用一个在位置上与3’末端接近的荧光基团(F1)进行标记(图33(a))。在扩增和化学限制之后,可以加入与另一荧光F2(如图3(b)所示)共价附着的探针,而两个萤光团之间的FRET效应可以被测量。由于其中一个等位基因被切割的部位比另一个等位基因更接近引物1的3’末端,它们两者在杂交上的差别应该比单一一个核苷酸错配要大,而且可以将此加以利用,以区别两个等位基因的靶目标。如图33(c)所描述的,可以将试验温度降低,使得只有来自G等位基因的较长的片段能够与探针杂交,从而产生FRET。由于在这一系统中一个“无FRET”结果可以被解释为或者是等位基因A,或者是PCR扩增失败,因此需要测量在各种温度下每一样品的荧光,以保证在较低温度下对来自等位基因A的较短的片段进行阳性检测。或者,可以通过使用图33(d)中所描述的发夹形探针完成这一阳性检测。除了在5’末端带有一个荧光F3之外,探针还带有一个5’末端的尾巴,可以折叠回来形成一个发夹。发夹探针可以与来自A等位基因的短切割片段形成所描绘的桥联复合体,从而在F1和F3之间产生可以检测到的FRET。链内杂交只有与来自G等位基因的较长片段才能在发夹稳定性上进行竞争,从而导致F1和F3之间的FRET的丢失。实施例5.通过部分取代/部分切割进行完整测序
通过使用以下方法,完全可能在一组测序反应中对在有修饰核苷酸存在的条件下进行聚合的10,000,20,000或甚至更多个碱基组成的多核苷酸进行测序,对聚合产物进行酶限制,对限制片段进行纯化,随后进行化学降解,从而从每个片段中产生序列阶梯。这一方法只受到模板的大小以及用以延伸引物的聚合酶的可处理性(将聚合反应继续下去的能力)的限制。在霰弹枪克隆文库中,存在序列插入子的正常分布,因而需要高度过量的测序;与霰弹枪克隆文库不同的是,使用在此所描述的方法使得每个核苷酸只被试验一次并且只有一次。使用第二个甚至第三个限制酶鸡尾酒来重复上述方法将提供所需要的序列信息,从而将一开始的限制反应中所确定的序列以适当的顺序加以重新组合,以重建完整长度的多核苷酸序列,而同时也提供为了保证结果的精确性而必需的充裕性。在随后的描述中,提供了实施每一步骤所需要的各种选择方案。和从前一样,我们知道,那些对工艺熟悉的人将会对在此所描述的方法的其它修正方法非常明了;这些其他修正方法也包含在本发明的范围之内。
表6
引物分子量 质量差异
RFCC6099.6
RFC mut 6115.9 +16
RFC mut 5786.7 -313.2
a.将引物和模板进行退火
使用的模板可以为小的或大的插入克隆载体,或一扩增产物,例如一个PCR片段;它也可以是单链或双链的。例如(但不限于),模板可以为质粒,噬菌体粒,装配型质粒,P1,PAC,BAC,或YAC克隆。较理想的情况是,模板在延伸之前变为线性,以保证所有延伸产物都在同一位置终止。这可以通过将模板用限制性内切酶进行限制而达到。例如,可以在一个载体中制备模板,该载体在克隆位点的任一侧都具有一种或多种较稀少的内切酶的限制位点,从而可以通过使用较稀少的切酶(即,一种酶在,例如,7或8个核苷酸的模式上进行切割)、用限制的方法常规制备线性模板。许多质粒载体,例如(但不限于),Bluescript(Stratagene,公司)都具有这些特色。可以选择一个引物,该引物将会与载体中的序列(例如,M13通用引物序列)进行退火。这便使得只使用一个或两个引物(每个来自插入子的每一侧)便可以将克隆文库进行测序。或者,可以在引物行走的版本中使用一系列对插入具有特异性的引物(大约有5-20kb的间隔)。
b.在有所有4种天然脱氧核糖核苷酸和与天然核苷酸中的一种
相对应的修饰核苷酸存在的条件下将引物进行延伸
上面所描述的方法用于在模板的全长上将引物进行延伸,方法中使用了上面所描述的修饰核苷酸中的一种或任何其它修饰核苷酸,这些其它修饰核苷酸能够将选择性的切割特性赋予修饰多核苷酸。通常来说,修饰核苷酸与其天然对等物的比率可以在一个相当大的程度上存在差别,从非常低(大约1%)到完全(99%)取代。控制因素是随后的化学切割反应的效率。切割反应效率越高,参入的水平可以越低。目标是可以得到大约每个限制片段一个修饰核苷酸,使得在切割以后,反应混合物中的每个分子都成为测序阶梯的一部分。图7中显示了一种这样的修饰多核苷酸,这是一个线性、单链的M13模板,在有修饰核苷酸、5’-氨基dTTP存在的条件下,使用大肠杆菌DNA聚合酶外-Klenow片段,将其延伸至87个核苷酸。图9显示了一个7.2Kb的延伸产物,在有5’-氨基dTTP和dTTP存在的条件下(其摩尔比为100∶1),产生自一个M13模板(表A,延伸产物)。
c.将全长引物延伸产物进行纯化(非必需)
为了消除预先终止的(也就是说,小于全长的)聚合酶延伸产物,因而保证在切割以后在电泳上产生均一的序列阶梯,也许需要纯化全长或基本上全长的延伸产物。然而,我们注意到,在消化以后对限制片段进行纯化(下面步骤f)能够基本上达到同样的目的,而且,在大多数情况下,很可能满足上述目的。无论如何,通过在本行业中已知的各种方法,如旋转柱层析、高表现液相层析(HPLC),可以完成对短延伸产物的消除。图8显示了在用酸进行化学切割之前(表A)和之后(表B)的纯化的全长延伸产物。
d.用一种或多种限制酶对引物延伸产物进行切割
正如前面所提到的,当使用胶电泳产生序列阶梯时,DNA测序模板(在这种情况下,是限制产物)的最佳大小大约为300至800个核苷酸。因此,必须使用限制性内切酶,以将10Kb或更长的全长延伸产物缩短到可控制的大小。许多种这样的内切酶已经在本行业中为人们所熟知。例如,已知有许多种4碱基识别位点的限制性内切酶,这些通常会产生所希望的范围内的切割产物。较短的切割片段,例如,小于300个核苷酸的片段,也能够被测序,但为了最有效地利用胶电泳,需要将限制片段根据它们的长度分成组。然后,较短的片段需要相对短的测序电泳时间,而较长的片段需要较长的胶和/或较长的电泳时间。可以使用两种或更多种限制性内切酶鸡尾酒,每种包含一种或多种限制性内切酶和一种相容的缓冲液,用于提供将限制性片段重新装配成多核苷酸的完整序列所需要的重叠的序列信息。图9显示了一个示范性的对引物/模板复合物(该复合物在有dTTP和修饰核苷酸5’-氨基dTTP存在的条件下进行延伸)进行的限制性内切酶消化。正如图9中所看到的,通过使用限制性内切酶Msc 1而获得了完全切割。并没有看到其他MSC1限制产物,因为只有引物延伸产物的5’末端用32P标记。
e.对限制性内切酶产物进行标记
为了能够看到通过这一方法所产生的DNA测序阶梯,需要用可检测到的标记对限制性内切酶产物进行标记。许多类似的标记在本行业中都已为人们所熟知;他们中的任何一些都可以与本发明的方法一起使用。在这些中间就有,但不限于,放射性标记和化学荧光体。例如,35SdATP(Amersham Phamacia生物技术公司)或若丹明-dUTP(分子探针公司)都可以在引物延伸步骤中被参入。或者,DNA能够在限制之后通过对限制片段末端进行修饰而被标记,修饰方法可以为,但不限于,T4多核苷酸激酶或用DNA聚合酶和一种标记的核苷酸将缩进的末端进行填补。这样一种末端标记的方法在本行业中已为人们所熟知(参见,例如,Ausubel,F.M.,et al.,《最新分子生物学实验手册》,(Current Protocols in Molecular Biology),JohnWiley & Sons,1998)。末端标记的优点在于,在每一个能够产生均一测序阶梯的DNA片段上都放置一个标记分子。将模板链进行标记并不会带来任何结果,因其在化学切割反应中将不会被切割,原因是在其序列中缺乏修饰核苷酸。因此,对模板链来说将不会产生测序阶梯。
f.将标记的限制性内切酶产物进行分离
在化学切割之前必须要将限制片段进行分离。为了达到这一目的所需要的各种方法在本行业中都已为人们所熟知(参见,例如,Ausubel,F.M.,同上)。一种特别有用的技术为HPLC,该技术具有快速、简易、有效及可自动化等特点。例如,图10显示了通过HPLC对经Hae III限制的PhiX 174 DNA进行分离的分辨率。离子逆对相HPLC和离子交换HPLC为两种较适宜的分离方法。
g.将分离的标记限制性内切酶片段在修饰核苷酸参入位点进行
切割
依照所参入的修饰核苷酸的不同,使用在此前所描述过的切割反应中的一种,或者其它任何能够在修饰核苷酸的参入位点进行选择性切割的切割反应;而这类其它切割反应都在本发明的范围之内。
h.测定片段的序列
在一个多核苷酸中用5-氨基T代替T;图11显示了从这一多核苷酸所获得的序列阶梯。当然,这一阶梯只显示了T在靶多核苷酸的完整序列中出现的位置。为了获得整个序列,上述方法可以被再重复3次,在每一次中其中一个剩余的核苷酸A、C、G可以用一种相应的修饰核苷酸取代;例如,5’-氨基-dATP,5’-氨基-dCTP,或5’-氨基-dGTP。当所有4种独立的片段阶梯都得到以后,通过将胶测序数据进行分析和比较,可以很容易重建多核苷酸的完整序列。实施例6.通过基本上完全的取代/基本上完全的切割与质量光谱分析相结合而进行的完整测序
前面所描述的对一多核苷酸进行完整测序的方法仍然需要使用胶电泳以产生片段阶梯,从中读出序列。正如前面所提到的,胶电泳是一费时和劳动强度很大的过程,需要很高程度的技巧才能将其完成,从而有理由获得可重复的和准确的结果。本发明的一个方面为,胶电泳的使用可以完全消除,代之以相对易于使用的、快速、敏感、准确、以及可自动化的质量光谱分析。本发明的这一方面的基础为前面所讨论过的除了上面所描述过的8个片段对(以及基于向8个片段对上添加相同组的核苷酸所形成的其他片段对)之外实际上所有2聚体到14聚体在分子量上的均一性。以下是这一方法如何实施的一个例子。尽管这个实施例是以每一步骤上的人为的干涉和特殊的分析的形式被描述的,对工艺熟悉的人将会很容易明白,可以设计出一个计算机程序以将分析过程完全自动化,并进一步提高本发明的这一方面的速度。因此,这类计算机程序的使用应该包含在本发明的范围之内。
通过质量光谱而测定完整核苷酸序列的方法应该包含如下步骤
a.将一多核苷酸中的天然核苷酸基本上全部用一修饰核苷酸代
替,以形成一修饰多核苷酸。这可以通过使用上面所讨论过
的聚合酶反应而进行扩增过程或引物延伸而达到。可以随意
使用上面所说明过的方法来获得最佳的一个聚合酶或成组的
聚合酶,用于制备所需要的修饰多核苷酸;
b.在适合、并且基本上唯一适合修饰核苷酸在修饰多核苷酸中
的参入的位点上进行基本上完全切割的条件下将修饰多核苷
酸进行切割;并且,
c.确定在前面的切割反应中所获得的片段的质量。
随后将上面的三个步骤再重复3次,每次使用与剩余的天然核苷酸中的每一种相对应的不同的修饰核苷酸。其结果为一系列质量,从中可以确定整个原始多核苷酸序列的全部或大部分。通过使用涉及邻近的双核苷酸取代/切割反应的又一次反应或通过传统的DNA测序方法,主要分析过程结束以后所剩余的任何序列上的不确定性都应该很容易被解决。以下是一个实施例,显示了一个片段的分析应该如何进行。
假设以下的20个核苷酸的天然低聚体延伸自一个16聚体的引物
5’-引物-TTACTGCATCGATATTAGTC-3’
在充分完全的切割之后,在有dTTP、dCTP、dGTP以及一种修饰的dATP存在的条件下进行聚合,将产生5个片段,其质量如表7所示。将此过程再用剩余的3种天然核苷酸进行3次,将产生另外3组片段,其质量也如表7中所示。从这些质量当中,可以均一地测定所有片段的核苷酸成分(但还不是序列)。通过将所有4种切割结果一起进行分析可以确定实际的序列。
例如,如果我们看表1中所有片段的质量,很容易看出,每个切割组中只有一个质量包含多于16个核苷酸,而所有其他片段都位于引物的3’端(因为包含引物的片段一定至少要有16个核苷酸),而在引物之后的核苷酸,在A切割柱中有2个,在C柱中有3个,在G柱中有5个,而在T柱中没有。因此,序列一定是以TT开始,后面跟着一个A,随后是一个C,然后是一个未知核苷酸,随后是一个G。序列一定是以两个T残基开始,因为在一开始的间隔中A、C、G切割都没有出现。此外,通过将片段的质量加入到不同切割组中,可以看到,未测序区域的长度为20个核苷酸。四个切割组中的一组中的核苷酸数目也很容易确定-组A(引物+2)+5+4+3+2=16;组C(引物+3)+10+3+3+1=20;组G(引物+5)+7+5+3=20;组T4+3+3+2+2+1=15。从这些信息中可以很清楚地看到,在A和T组中一定有重叠片段存在。
将引物的已知质量从包含引物的那些片段中减去,得到紧接在引物后面的序列的核苷酸成分。因此,在带A中,608Da的残基质量(从表3中可以看出与TT对应)因而一定是未知片段序列中的前两个核苷酸。引物后面的序列因此已知是TTAC_G。从G带(1514Da)中的5聚体的质量可以看出,5聚体包含三个T,一个A,和一个C。因此,缺失的核苷酸一定是一个T;引导序列为TTACTG。
表7
表7最上面所显示的序列的核苷酸特异的切割模式,该序列包含一个已知序列和长度的引物(未标明),随后是为了这个实施例所设计的“未知”序列的20个核苷酸。这个实施例中的切割通过将修饰核苷酸的5’磷酸二酯键打断的机制而发生。每个切割组包含一个片段,片段中包含引物,再加上引物后面的任意多个核苷酸,直到修饰核苷酸第一次出现。引物的已知质量可以从这一(最大的)质量中减去,以获得差异,从而得到紧跟引物3’末端的序列的质量,并因此得到核苷酸成分。表中所给出的质量反应出每一切割质量中一个外在的磷酸基团的存在;然而,应该看到,依照核苷酸修饰以及切割反应的化学本质的不同,实际质量将很可能与\表中所显示的有所不同。然而,这些差异应该是系统性的,因而不会使在此所作的分析失去效力。
现在让我们看表7中T带所显示的质量;906Da的质量一定包含一个T、一个A、和一个C。由于已经有一个TAC的已知序列,可以试着认为,这是一个具有证实作用的序列,是A、T切割的重叠部分的一部分。当然,不能排除,在片段中存在另一个包含T、A、C的3聚体,这就是为什么这一分配法目前仍然必须是尝试性的原因。
下面一个T切割片段最少必须包含一个T和一个G。两个T切割质量允许为这样946和1235。因此,其他序列或者一定是G后面跟着一个T(如果946的质量是下一个质量),或者一定是G后面跟着一个C和一个A(次序不知),然后是一个T。序列现在已知为TTACTGGT或TTACTG(C,A)T(核苷酸之间的括号和逗号用来显示未知顺序)。
让我们回到A切割反应,可以看到,TT后面的切割质量一定包括ACTG。1235Da和1524Da这两个质量符合这个标准。如果1235Da是正确的,则序列中第7个核苷酸是A,因为切割必须要在这个核苷酸上发生。如果1524Da是正确的,则序列是CA。CA与上面所讨论的两种可能性中的一种相一致;因此到目前为止整个序列是TTACTGCAT。
下面让我们看来自C切割反应的质量。可以看到,一开始的TTA之后的第一个质量一定是CTG(C,A)。由于切割将发生在任何C的5’处,因此可能性为CTG或CTGA;这些中间只有第一个受C带中的质量所支持。因此,C带中的第二个质量片段一定是CTG,后面跟着另一个C(因为切割发生在这一部位)。C带中的第三个质量(906Da)一定包含一个C、一个A、和一个T,这证实了前面的CAT序列。余下的序列只剩下两种可能性,一个C后面接一个10聚体,或者是一个10聚体后面接着一个末端C。然而,如果是前者的情况的话,那么来自其他A、G、或T带之一的切割片段应该表现出一个3聚体,4聚体或5聚体,而其中包含两个C。由于质量中间没有任何一种允许为这样一种低聚体,C带一定位于未知片段的3’末端,而10聚体位于CAT后面,所以得出如下序列TTACTGCATC_________C。
让我们再看G切割;已知必须有一个至少包含GCATC的片段存在。从已有的质量得知,这可以为GCATC本身(1524Da),或者是7聚体(2180Da)。然而,如果将5聚体的质量从7聚体的质量中减去,则剩余的质量656Da与任何已知的寡核苷酸都不相对应。因此,下一个不能为7聚体,而GCATC应该为正确的序列,而下一个核苷酸必须是一个G(因为切割已经发生,从而产生一个5聚体)。目前的序列为TTACTGCATCG_________C。
T切割序列中的下一个质量一定以G开始。允许这样一种组合的唯一的一个切割质量是1235Da,它与TCGA序列相对应。这一序列后面必须跟着一个T,因为切割是在这一位点发生的。因此,整体序列是TTACTGCATCGAT______C。
已有的T切割系列中只有一个质量包含一个C,即593Da的TC。因此,末端C之前的核苷酸一定是一个T。同样,在不包含两个C(这在目前已知是不允许的)的A切割系列中唯一包含TC的质量为1235或(A,G)TC。1235质量已经被使用一次(核苷酸8-11),但也已知,有一个重叠片段,因为A系列只占总共16个核苷酸。序列现在已知为TTACTGCATCGAT___(A,G)TC。然而,如果末端序列是ATC,A切割中间应该有一个906Da的质量;而现在却没有。在另一方面,如果末端序列是GTC,则在G切割片段中应该找到一个922Da的质量,而确实找到了。因此,序列现在可以被建立起来,序列为TTACTGCATCGAT___AGTC。
目前只有一个已有的T切割质量包含AG但没有C,即包含T(A,G)的946Da的质量。这一质量一定说明了位于位置17和18的AG。因此,位置16一定是一个T;序列现在已知为TTACTGCATCGAT__TAGCT。
A切割组中还只剩下两个质量,617(AT)和921(ATT)。这些以两种方式完成了整个序列,ATATT或ATTAT。质量中间没有任何能够允许解决这一不确定性。然而,仅用单独的一次试验,就明确地确定了靶寡核苷酸中的全部20种核苷酸,而20种中的18种也已经被明确地测序。
而至于总体上的不确定性,不管这个不确定性是一个(正如在上面的实施例中)还是多于一个(当测序较长片段时)——而这又取决于不确定性的性质和它所存在的环境;也就是说,在它任一侧的核苷酸——使用几种已有的方法中的任一种,再额外进行一次试验,就可以很容易地解决这个问题。例如,使用本发明中的双核苷酸切割方法进行一次试验,就可以提供解决不确定性所需要的其它信息。或者,将充分完全的切割条件进行某种程度的放松,可能产生一个质量阶梯,其中已知质量与一个相邻的不确定质量结合在一起,其结合方式将不确定质量与已知质量之间的位置和顺序加以澄清。或者,可以使用低准确度的、单次Sanger测序。单独使用时,这种相对简单和快速的Sanger测序的版本将无法提供非常有价值的信息,但是,作为本发明的方法的一个补充,它将很可能提供足够的信息以解决不确定性(而且,在所获得的测序阶梯能够清楚地阅读的程度上,它将提供部分的充裕性,以证实质量光谱分析数据。)结论
因此,人们将认识到,本发明的方法提供了一种多用途的手段,用于在多核苷酸中检测差异,用于在多核苷酸中测定完整核苷酸序列,用于对DNA进行基因分型。
显然对于那些所属技术领域的一般技术人员而言,可以根据对本发明的精神进行各种各样的修改和改进,而不偏离本发明的范围。因此,本发明受所附权利要求的限定和保护。
权利要求
1.一种切割多核苷酸的方法,包括
a.将一多核苷酸中事实上每一发生位点的一个或多个天然核苷酸用修饰核苷酸替代,以形成一修饰多核苷酸;条件为当只有一个天然核苷酸被代替时,修饰核苷酸不是核糖核苷酸或核苷酸α-硫代三磷酸;
b.将所述的修饰多核苷酸与一试剂或多个试剂接触,这些试剂在所述的一个或多个修饰核苷酸的所述的实际上每一发生位点都对修饰多核苷酸进行切割;
2.根据权利要求1所述的方法,其中所述的多核苷酸中的核苷酸序列的差异得到检测,进一步包括
c.确定从步骤b中获得的所述的片段的质量;并且
d.将所述的片段的质量与对已知序列的相关多核苷酸进行切割后获得的片段质量进行对比,或者
e.用未知序列的一个或多个相关多核苷酸重复步骤a-c,并将所述的多核苷酸的所述的片段的质量与从相关多核苷酸中获得的片段质量进行对比。
3.根据权利要求1所述的方法,其中所述的多核苷酸中的核苷酸序列被确定,包括
c.确定从步骤b中获得的所述的片段的质量;
d.重复步骤a,b,和c,每次将所述的多核苷酸中的一个不同的天然核苷酸用一修饰核苷酸替代,直到所述的多核苷酸中的每一天然核苷酸都用一修饰多核苷酸替代,每一修饰多核苷酸都被切割,而切割片段的质量都被测定;而且,
e.从所述的第一个片段的所述的质量中构建所述的多核苷酸的所述的核苷酸序列。
4.根据权利要求1所述的方法,其中所述的已知包含多型性或突变的多核苷酸被基因分型,包括
c.将一已知涉及到所述的多型性或突变的核苷酸象将要被替代的天然核苷酸那样使用;
d.通过使用一修饰核苷酸以形成修饰多核苷酸,将多核苷酸中的一部分进行扩增而在事实上每一发生位点替代所述的天然核苷酸;
e.将所述的修饰多核苷酸在所述的修饰核苷酸的事实上每一发生位点切割成片段;
f.对所述的片段进行分析,以确定基因型;
5.根据权利要求4所述的方法,其中所述的对所述的片段的所述的分析包含使用电泳、质量光谱测定或FRET检测。
6.根据权利要求1所述的的方法,包括
a.在一多核苷酸中,将第一个天然核苷酸在事实上每一发生位点都用一修饰核苷酸代替,以形成被一次修饰的多核苷酸;
b.将所述的被一次修饰的核苷酸中的第二个天然核苷酸在事实上每一发生位点上都用第二个修饰核苷酸替代,以形成一个二次修饰的核苷酸;而且
c.将所述的二次修饰的多核苷酸与一种试剂或多个试剂相接触,该试剂将二次修饰的多核苷酸在所述的二次修饰的多核苷酸的每一发生位点上都进行切割,而在序列中,所述的第一个修饰核苷酸后面紧跟着所述的第二个修饰核苷酸
7.根据权利要求6所述的方法,其中所述的多核苷酸中核苷酸序列的差异被检测,包括
d.测定从步骤c中获得的所述的片段的质量;
e.将该片段的质量与已知序列中相关多核苷酸切割后获得的片段质量进行对比,或者
f.用未知序列的一个或多个相关多核苷酸重复步骤a-d,并将所述的片段的质量与从相关多核苷酸切割中获得的片段质量进行对比。
8.根据权利要求1所述的方法,其中所述的多核苷酸中的核苷酸差异被检测,包括
a.在多核苷酸中的事实上所有发生位点将四种天然核苷酸中的三种用三种具有稳定性的修饰核苷酸代替,以形成一种修饰的多核苷酸,该多核苷酸还剩余一个天然核苷酸;
b.将所述的修饰的多核苷酸在所述的剩余的一个天然核苷酸的事实上所有发生位点切割成片段;
c.测定所述的片段的质量;并且,
d.将该片段的质量与已知序列中相关多核苷酸切割后获得的片段质量进行对比,或
e.用未知序列的一个或多个相关多核苷酸重复步骤a-c,并将所述的片段的质量与从相关多核苷酸切割中获得的质量进行对比。
9.根据权利要求8所述的方法,进一步包含将所述的一种剩余的天然核苷酸用一个具有不稳定性的修饰核苷酸代替。
10.根据权利要求1所述的方法,其中所述的多核苷酸中的核苷酸序列的差异被检测,包括
a.将两个或多个天然核苷酸在多核苷酸的事实上所有发生位点上用两种或多个修饰核苷酸代替,而所述的修饰核苷酸中的每一个与所述的修饰核苷酸中的其他核苷酸相比都具有不同的切割特性,以此形成一个修饰的多核苷酸;
b.在所述的两个或多个修饰核苷酸中的第一个核苷酸的事实上所有发生位点将所述的修饰多核苷酸切成第一个片段;
c.在所述的第一个片段的两个或多个修饰核苷酸中的第二个核苷酸的事实上所有发生位点将所述的第一个片段切成第二个片段;
d.测定所述的第一个片段和所述的第二个片段的质量;并且,
e.将所述的第一个片段和所述的第二个片段的质量与已知序列中相关多核苷酸切割后获得的第一个和第二个片段质量进行对比,或者
f.用未知序列的一种或多种相关多核苷酸重复步骤a-d,将所述的第一个和第二个片段的质量与相关多核苷酸切割后所获得的质量相比较。
11.根据权利要求10所述的方法,而使用一修饰多核苷酸重复方法中的步骤,所述的修饰多核苷酸通过将不同对的天然核苷酸用修饰核苷酸替代而得到;也就是说,将所述的第一个和第三个、所述的第二个和第四个、所述的第一个和第四个、所述的第二个和所述的第三个、或所述的第三个和所述的第四个天然核苷酸用修饰核苷酸代替。
12.根据权利要求10所述的方法,其中所述的切割包含使用质量光谱仪。
13.根据权利要求12所述的方法,其中所述的质量光谱仪为一串联质量光谱仪。
14.用于在多核苷酸中测定核苷酸序列的方法,包括
a.将一多核苷酸中的天然核苷酸在其发生位点中的一定比率的位点上用一修饰核苷酸替代,以形成一修饰的多核苷酸,而所述的修饰多核苷酸不是核糖核苷酸;
b.将所述的修饰的多核苷酸在所述的修饰核苷酸的事实上每个发生位点上切割成片段;
c.重复步骤a和b,每次将所述的多核苷酸中的一种不同天然核苷酸用一修饰的核苷酸替代,并且,
d.测定从每次切割反应中获得的所述的片段的质量;并且,
e.从所述的质量构建出所述的多核苷酸的所述的序列,或者
f.对步骤c中得到的片段的序列阶梯进行分析。
15.一种用于在多核苷酸中测定核苷酸序列的方法,包括
a.将占多核苷酸中第一个百分率的发生位点中的天然核苷酸用一修饰核苷酸替代,以形成一修饰的多核苷酸,而所述的修饰核苷酸不是核糖核苷酸或核苷酸α-硫代三磷酸;
b.在所述的修饰核苷酸中第二个百分率的所述的发生位点将所述的修饰多核苷酸切割成片段,使得所述的第一个百分率和所述的第二个百分率的组合能够导致部分切割;
c.重复步骤a和b,每次将所述的多核苷酸中的一个不同的天然核苷酸用一个修饰的核苷酸代替;
d.测定从每次切割反应中获得的所述的片段的质量;并且,
e.从所述的质量中建构所述的多核苷酸的所述的序列;或者,
f.对从步骤a和b中获得的所述的片段的序列阶梯进行分析。
16.根据权利要求1所述的方法,其中多核苷酸中的核苷酸序列被检测,包括
a.将一多核苷酸中的两个或多个天然核苷酸在事实上所有发生位点上用两个或多个修饰核苷酸替代,以形成一个修饰的多核苷酸;
b.将所述的修饰的多核苷酸分成两个或多个小部分,所述的小部分的数目与步骤a中所代替的天然核苷酸的数目相同;而且,
c.将所述的每一小部分中的所述的修饰多核苷酸在每一个不同的所述的修饰核苷酸的事实上所有发生位点割成片段,这样,与其他所述的小部分相比,所述的的每一小部份都包含在不同修饰核苷酸部位切割获得的片段;
d.测定所述的片段的质量;并且,
e.从所述的质量中建构所述的核苷酸序列;或者,
f.将所述的每一小部分的所述的修饰多核苷酸在不同修饰核苷酸的某一比率的发生位点切割成片段,以便与其它所述的小部分相比,所述的每一小部分都包含在不同修饰核苷酸部位进行切割所得到的片段;而且,
g.对从步骤f中的所述的片段中获得的序列阶梯进行分析。
17.一种在多核苷酸中测定核苷酸序列的方法,包括
a.将一多核苷酸中的第一个天然核苷酸在某一百分率的参入位点中用第一个修饰核苷酸替代,以形成第一个部分修饰的多核苷酸,其中所述的第一个修饰的核苷酸不是脱氧核苷酸或核苷酸α-硫代三磷酸;
b.将所述的第一个部分修饰的核苷酸切割成片段,使用具有已知切割效率的所述的切割方法,以形成第一套核苷酸特异的切割产物;
c.重复步骤a和b,将第二、第三、和第四个天然核苷酸用第二、第三、和第四个修饰核苷酸替代,以形成第二、第三、和第四个部分修饰的多核苷酸,后者在切割以后,可以形成第二、第三、和第四套核苷酸特异的切割产物;
d.对所述的第一、第二、第三、和第四套核苷酸特异的切割产物进行胶电泳,以形成一个序列阶梯;而且,
e.从所述的序列阶梯中阅读所述的多核苷酸的所述的序列。
18.一种在聚合反应中切割一多核苷酸的方法,包括
将4种不同的核苷酸混合在一起,它们中的一种或两种是修饰的核苷酸;还有,
两种或多种聚合酶,它们中的至少一种可以在所述的修饰核苷酸被参入的点产生或增强切割;或者,如果使用两种修饰核苷酸,产生或增强切割的点是在序列中所述的修饰核苷酸后面紧跟着其它所述的修饰核苷酸的点。
19.根据权利要求18中的方法,其中使用两种修饰核苷酸,一种是核糖核苷酸,其中一种是5′-氨基-2′,5′-双脱氧核苷酸。
20.根据权利要求19所述的方法,其中使用两种聚合酶,其中一种是Klenow(外-)聚合酶,另一种是变异型E710A Klenow(外-)聚合酶。
21.根据权利要求1、6、8、10、14、15、16、17或18所述的任何一种方法,而其中未被修饰核苷酸替代的天然核苷酸用质量修饰的核苷酸替代。
22.根据权利要求1、6、8、10、14、15、16、17或18所述的任何一种方法,其中所述的多核苷酸选自包含DNA和RNA的组中。
23.根据权利要求1、6、8、10、14、15、16、17或18所述的任何一种方法,其中对所述的片段的所述的质量的所述的检测包括使用质量光谱测定。
24.根据权利要求23所述的方法,其中所述的质量光谱测定是电喷射电离质量光谱测定。
25.根据权利要求23所述的方法,其中所述的质量光谱测定是基质辅助的解吸附/电离质量光谱测定(MALDI)。
26.根据权利要求14、15或16所述的方法,其中对序列阶梯的分析包含胶电泳。
27.根据权利要求17所述的方法,进一步包括
c.将步骤“a”中得到的所述的第一、第二、第三、和第四个部分修饰的核苷酸用一种或多种限制酶进行切割,以形成限制片段;
d.将所述的限制片段末端进行标记,并且
e.在进行权利要求17中的步骤“b”之前,纯化所述的标记限制片段。
28.用于切割多核苷酸的方法,以使切割后获得的事实上所有片段都带有标记,包括
a.将一多核苷酸中的天然核苷酸用一修饰核苷酸部分或在事实上每个发生位点进行替代,以形成一修饰的多核苷酸;
b.在有与一标记物共价结合的磷化氢存在的条件下,将所述的修饰多核苷酸与一种或多种试剂进行接触,该试剂可将修饰多核苷酸部分或事实上所述的每个出现位点进行切割。
29.根据权利要求28所述的方法,其中所述的磷化氢是tris(羧乙基)磷化氢(TCEP)。
30.根据权利要求28所述的方法,其中所述的标记物选自由荧光标记和放射性标记组成的组中。
31.一种在多核苷酸中检测核苷酸序列差异的方法,用于对多核苷酸进行测序,或用于对已知包含多型性或突变的多核苷酸进行基因分型,包括
a.将所述的的一种或多种天然核苷酸用一种或多种修饰核苷酸替代,而其中每个修饰核苷酸用选自由修饰碱基、修饰糖和修饰磷酸酯组成的组中的修饰方法进行修饰,条件为如果只有一个天然核苷酸被取代,所述的修饰核苷酸不是核糖核苷酸或核苷酸α-硫代三磷酸;
b.将所述的修饰的多核苷酸与一种或多种试剂进行接触,所述的试剂可将修饰多核苷酸切割成片段,切割部位为所述的修饰核苷酸的参入位点;
c.将所述的片段进行分析,从而检测所述的差异、建构所述的序列,或对所述的多核苷酸进行基因分型。
32.根据权利要求31所述的方法,其中所述的修饰核苷酸包含一个修饰碱基。
33.根据权利要求32所述的方法,其中所述的修饰碱基包含修饰腺嘌呤。
34.根据权利要求33所述的方法,其中所述的修饰腺嘌呤为7-去氮杂-7-硝基腺嘌呤。
35.根据权利要求34所述的方法,其中将所述的修饰的多核苷酸切割成片段,包含通过将所述的修饰多核苷酸与化学碱进行接触而完成。
36.根据权利要求34所述的方法,其中将所述的修饰的多核苷酸切割成片段,包含通过将所述的修饰多核苷酸与磷化氢进行接触而完成。
37.根据权利要求36所述的方法,其中将所述的修饰多核苷酸与磷化氢进行接触,包含将所述的修饰多核苷酸与tris(2-羧乙基)磷化氢进行接触。
38.根据权利要求32所述的方法,其中所述的修饰碱基包含修饰胞嘧啶。
39.根据权利要求38所述的方法,其中所述的修饰胞嘧啶包含氮杂胞嘧啶。
40.根据权利要求38所述的方法,其中所述的修饰胞嘧啶在5-位上用一电子接收基团进行取代。
41.根据权利要求40所述的方法,其中所述的电子接收基团选自由硝基和卤素基组成的组中。
42.根据权利要求39所述的方法,其中将所述的修饰多核苷酸切割成片段,包含将所述的修饰多核苷酸与化学碱进行接触。
43.根据权利要求42所述的方法,其中将所述的修饰的多核苷酸切割成片段,包含将所述的修饰多核苷酸与tris(2-羧乙基)磷化氢进行接触而完成。
44.根据权利要求32所述的方法,其中所述的修饰碱基包含修饰鸟嘌呤。
45.根据权利要求44所述的方法,其中所述的修饰碱基为7-甲基-鸟嘌呤。
46.根据权利要求45所述的方法,其中将所述的修饰多核苷酸切割成片段,包含将所述的修饰多核苷酸与化学碱进行接触。
47.根据权利要求44所述的方法,其中所述的修饰鸟嘌呤为N2-烯丙基鸟嘌呤(N2-allylguanine)。
48.根据权利要求47所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与亲电子试剂进行接触。
49.根据权利要求48所述的方法,其中所述的亲电子试剂为碘。
50.根据权利要求32所述的方法,其中所述的修饰碱基选自由修饰的胸腺嘧啶和修饰的尿嘧啶组成的组中。
51.根据权利要求50所述的方法,其中所述的修饰胸腺嘧啶或所述的修饰尿嘧啶为5-羟尿嘧啶。
52.根据权利要求51所述的方法,其中将所述的修饰多核苷酸切割成片段包含
a.将所述的多核苷酸与一化学氧化剂进行接触;并且,然后
b.将所述的多核苷酸与化学碱进行接触。
53.根据权利要求31所述的方法,其中所述的修饰核苷酸包含一种修饰糖基,条件为,当只使用一种类型的修饰核苷酸时,它不是核糖核苷酸或核苷酸α-硫代磷酸。
54.根据权利要求53所述的方法,其中所述的修饰糖包含一个2-酮糖。
55.根据权利要求54所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
56.根据权利要求53所述的方法,其中所述的修饰糖基包含阿拉伯糖。
57.根据权利要求56所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
58.根据权利要求53所述的方法,其中所述的修饰糖包含4-羟甲基基团。
59.根据权利要求58所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
60.根据权利要求53所述的方法,其中所述的修饰糖包含羟环戊烷。
61.根据权利要求60所述的方法,其中所述的羟环戊烷包含1-羟或2-羟环戊烷。
62.根据权利要求60所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
63.根据权利要求53所述的方法,其中所述的修饰糖包含叠氮糖。
64.根据权利要求63所述的方法,其中所述的叠氮糖包含2’-叠氮,4’-叠氮或4’-叠氮甲基糖。
65.根据权利要求63所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与tris(2-羧乙基)磷化氢(TCEP)进行接触。
66.根据权利要求53所述的方法,其中所述的修饰糖包含能够进行光分解以形成自由基的基团。
67.根据权利要求66所述的方法,其中所述的能够进行光分解以形成自由基的基团选自由苯氧硒基和t-丁羧基组成的组中。
68.根据权利要求66所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与紫外光进行接触。
69.根据权利要求53所述的方法,其中所述的修饰糖包含氰基糖。
70.根据权利要求69所述的方法,其中所述的氰基糖选自由2’-氰基糖或2″-氰基糖组成的组中。
71.根据权利要求69所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
72.根据权利要求53所述的方法,其中所述的修饰糖包含一个电子接收基团。
73.根据权利要求72所述的方法,其中所述的电子接收基团选自由氟、叠氮基、甲氧基或硝基组成的组中。
74.根据权利要求73所述的方法,其中所述的电子接收基团位于修饰糖基的2’,2”,或4’位置上。
75.根据权利要求72所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
76.根据权利要求53所述的方法,其中所述的修饰糖包含糖环中的电子接收元素。
77.根据权利要求76所述的方法,其中所述的电子接收元素包含氮。
78.根据权利要求77所述的方法,其中所述的氮替代所述的修饰糖中的环氧。
79.根据权利要求77所述的方法,其中所述的氮替代所述的修饰糖中的环碳。
80.根据权利要求78所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
81.根据权利要求79所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
82.根据权利要求53所述的方法,其中所述的修饰糖包含一个巯基基团。
83.根据权利要求82所述的方法,其中所述的巯基基团位于糖的2’位置。
84.根据权利要求82所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
85.根据权利要求53所述的方法,其中所述的修饰糖选自由5’-亚甲基-糖、5’-酮糖、或5’,5’-二氟糖组成的组中。
86.根据权利要求85所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
87.根据权利要求31所述的方法,其中所述的修饰核苷酸包含一个修饰磷酸酯,条件为,当只使用一种类型的修饰核苷酸时,这种修饰核苷酸不是核苷酸α-硫代三磷酸。
88.根据权利要求87所述的方法,其中所述的修饰磷酸酯包含硫逐磷酸酯。
89.根据权利要求88所述的方法,其中所述的硫逐磷酸酯中的硫原子并不与糖环共价结合。
90.根据权利要求89所述的方法,其中将所述的修饰多核苷酸切割成片段包含
a.将所述的硫逐磷酸酯中的硫与一烷化剂进行接触;而且,
b.再将所述的修饰多核苷酸与化学碱进行接触。
91.根据权利要求90所述的方法,其中所述的烷化剂为甲基碘。
92.根据权利要求89所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的硫逐磷酸酯中的硫与一化学碱中的β-巯基乙醇接触。
93.根据权利要求92所述的方法,其中所述的化学碱包含甲醇中的甲氧基钠。
94.根据权利要求88所述的方法,其中所述的硫逐磷酸酯中的硫原子与糖环共价结合。
95.根据权利要求94所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
96.根据权利要求87所述的方法,其中所述的修饰磷酸酯包含氨基磷酸酯。
97.根据权利要求96所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与酸进行接触。
98.根据权利要求87所述的方法,其中所述的修饰磷酸酯包含一个基团,该基团选自由烷基膦酸酯和烷基磷酸三酯组成的组中。
99.根据权利要求98所述的方法,其中所述的烷基为甲基。
100.根据权利要求96所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与酸进行接触。
101.根据权利要求31所述的方法,其中包含将第一个和第二个天然核苷酸用第一个和第二个修饰核苷酸进行替代,这样所述的多核苷酸就可被特异切割,而切割位点为在序列中,第一个修饰核苷酸后面紧接着便是所述的第二个修饰核苷酸。
102.根据权利要求101所述的方法,其中
所述的第一个修饰核苷酸在其5’位置与一硫逐磷酸酯基团中的硫原子共价结合;而且,
所述的第二个修饰核苷酸(它被一2’-羟基基团修饰)与所述的第一个修饰核苷酸相邻,并位于后者的5’端。
103.根据权利要求102所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
104.根据权利要求101所述的方法,其中
所述的第一个修饰核苷酸可在其3’位置与一硫逐磷酸酯基团中的硫原子共价结合;而且,
所述的第二个修饰核苷酸(它被一2’-羟基基团修饰)与所述的第一个修饰核苷酸相邻,并位于后者的3’端。
105.根据权利要求104所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
106.根据权利要求101所述的方法,其中
所述的第一个修饰核苷酸在其5’位置与一硫逐磷酸酯基团中的第一个氧原子共价结合;
所述的第二个修饰核苷酸在其2’位置被一活泼基团取代;并且,
所述的第二个修饰核苷酸在其3’位置与所述的硫逐磷酸酯基团中的第二个氧共价结合。
107.根据权利要求106所述的方法,其中所述的活泼基团选自由氟、氯、溴、碘组成的组中。
108.根据权利要求106所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
109.根据权利要求108所述的方法,其中所述的化学碱包括甲氧基钠。
110.根据权利要求101所述的方法,其中
所述的第一个修饰核苷酸在其5’位置与一硫逐磷酸酯基团中的第一个氧原子共价结合;
所述的第二个修饰核苷酸在其4’位置被一活泼基团取代;而且,
所述的第二个修饰核苷酸在其3’位置与所述的硫逐磷酸酯基团中的第二个氧共价结合。
111.根据权利要求110所述的方法,其中所述的活泼基团选自由氟、氯、溴、碘组成的组中。
112.根据权利要求110所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与化学碱进行接触。
113.根据权利要求112所述的方法,其中所述的化学碱包含甲氧基钠。
114.根据权利要求101所述的方法,其中
所述的第一个修饰核苷酸在其5’位置与一硫逐磷酸酯基团中的第一个氧原子共价结合;
所述的第二个修饰核苷酸在其2’位置被一个或两个氟原子取代;而且,
所述的第二个修饰核苷酸在其3’位置与所述的硫逐磷酸酯基团中的第二个氧共价结合。
115.根据权利要求114所述的方法,其中将所述的修饰多核苷酸切割成片段包含
a.将所述的修饰多核苷酸与乙烯基硫化物或β-巯基乙醇接触;而且然后,
b.将所述的修饰多核苷酸与一化学碱进行接触。
116.根据权利要求115所述的方法,其中所述的化学碱包含甲氧基钠。
117.根据权利要求101所述的方法,其中
所述的第一个修饰核苷酸在其5’位置与一硫逐磷酸酯基团中的第一个氧原子共价结合;
所述的第二个修饰核苷酸在其2’位置被一个羟基取代;而且,
所述的第二个修饰核苷酸在其3’位置与所述的硫逐磷酸酯基团中的第二个氧共价结合。
118.根据权利要求117所述的方法,其中将所述的修饰多核苷酸切割成片段包含
a.将所述的修饰多核苷酸与一金属氧化剂相接触;而且,然后,
b.将所述的修饰多核苷酸与一化学碱进行接触。
119.根据权利要求118中的方法,其中所述的金属氧化剂选自由CuII和FeIII组成的组中。
120.根据权利要求118所述的方法,其中所述的化学碱选自由稀释的氢氧化物、哌啶、和稀释的氢氧化胺组成的组中。
121.根据权利要求101所述的方法,其中
所述的第一个修饰核苷酸在其5’位置与一硫逐磷酸酯基团中的氮原子共价结合;而且,
所述的第二个修饰核苷酸(它被一2’-羟基基团修饰)与所述的第一个修饰核苷酸相邻,并位于其5’端。
122.根据权利要求121所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与酸进行接触。
123.根据权利要求101所述的方法,其中
所述的第一个修饰多核苷酸在其3’位置与一氨基磷酸酯基团中的氮原子共价结合;而且,
所述的第二个修饰核苷酸(它被一2’-羟基基团修饰)与所述的第一个修饰核苷酸相邻,并位于其3’端。
124.根据权利要求123所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与酸进行接触。
125.根据权利要求101所述的方法,其中
所述的第一个修饰核苷酸在其5’位置与磷酸烷基酯或磷酸烷基三酯基团中的氧原子共价结合;而且,
所述的第二个修饰核苷酸(它被一2’-羟基基团修饰)与所述的第一个修饰核苷酸相邻。
126.根据权利要求125所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与酸进行接触。
127.根据权利要求101所述的方法,其中
所述的第一个修饰核苷酸在其4’位置有一电子接收基团;而且,
所述的第二个修饰核苷酸(它被一2’-羟基基团修饰)与所述的第一个修饰核苷酸相邻,并位于其5’端。
128.根据权利要求127所述的方法,其中将所述的修饰多核苷酸切割成片段包含将所述的修饰多核苷酸与酸进行接触。
129.一种具有如下结构的化合物

R1选自由下列基团组成的组中

R2选自由胞嘧啶、鸟嘌呤、次黄嘌呤和尿嘧啶组成的组中;“碱基”选自由胞嘧啶、鸟嘌呤、次黄嘌呤、胸腺嘧啶和尿嘧啶组成的组中。
130.一种多核苷酸包含一个双核苷酸序列,该序列选自由下列结构组成的组中
而其中
每个“碱基”都独立选自由腺嘌呤、胞嘧啶、鸟嘌呤、和胸腺嘧啶组成的组中;
W是一个电子接收基团;
X是一个活泼基团,而且,
R是一个小分子烷基基团;其中,
相同碳原子上括号内所显示的第二个W或X的意思是一个单独的W或X基团可以位于糖的任一位置上,或者,两个W或两个X基团可以同时出现。
131.根据权利要求130所述的化合物,其中所述的电子接收基团选自由F,Cl,Br,I,NO2,C≡N,-C(O)OH和OH组成的组中。
132.根据权利要求130所述的化合物,其中所述的活泼基团选自由Cl,Br,I,和OT组成的组中。
133.一种合成多核苷酸的方法,包括在有一种或多种聚合酶存在的条件下,将具有如下结构的化合物
其中R1选自由下列结构组成的组中

与三磷酸腺苷、三磷酸鸟苷、以及三磷酸胸苷或尿苷混合。
134.一种合成多核苷酸的方法,包括在有一种或多种聚合酶存在的条件下,将具有如下结构的化合物
其中R1选自由下列结构组成的组中

与三磷酸腺苷、三磷酸胞苷、和三磷酸鸟苷混合。
135.一种合成多核苷酸的方法,包括在有一种或多种聚合酶存在的条件下,将具有如下结构的化合物
其中R1选自由下列结构组成的组中

与三磷酸胞苷、三磷酸鸟苷、和三磷酸胸苷混合。
136.一种合成多核苷酸的方法,包括在有一种或多种聚合酶存在的条件下,将具有如下结构的化合物
其中R1选自由下列结构组成的组中

与三磷酸腺苷、三磷酸胞苷、和三磷酸胸苷混合。
137.一种合成多核苷酸的方法,包括在有一种或多种聚合酶存在的条件下,将权利要求129所述的化合物与四种三磷酸核苷中的任何三种进行混合,四种三磷酸核苷为三磷酸腺苷、三磷酸胞苷、三磷酸鸟苷和三磷酸胸苷,但不包含权利要求129中所使用的化合物中存在的碱基(或其取代物)。
138.一种合成多核苷酸的方法,包含在有一种或多种聚合酶存在的条件下,将下列成对化合物中的一对——这些化合物对包





































































其中
碱基1选自由腺嘌呤、胞嘧啶、鸟嘌呤或次黄嘌呤、和胸腺嘧啶或尿嘧啶组成的组中;
碱基2选自由包含剩余三种不是碱基1的碱基组成的组中;
R3为O--P(=O)(O-)-O-P(=O)(O-)-O-P(=O)(O-)-O-;
R为小分子烷基;
W为一电子接收基团;
X是活泼基团;
相同碳原子上显示的第二个W或X的意思是一个单独的W或X基团可以位于糖的任一位置上,或者,两个W或两个X基团可以同时出现;
与四种三磷酸核苷中的任何两种进行混合,这四种三磷酸核苷为三磷酸腺苷、三磷酸胞苷、三磷酸鸟苷和三磷酸胸苷,但不包含碱基1和碱基2(或其取代物)。
139.一变异型的聚合酶,通过包含DNA穿梭的过程,能催化将一修饰核苷酸参入到多核苷酸中的反应,而该修饰核苷酸不是核糖核苷酸。
140.根据权利要求139所述的聚合酶,其中所述的DNA穿梭的过程包含
a.选择一种或多种已知的聚合酶;
b.进行DNA穿梭;
c.将穿梭的DNA转化入宿主细胞;
d.培育宿主细胞集落;
e.从所述的宿主细胞集落中获得溶菌液;
f.加入DNA模板,模板中含有一个可检测的报告子序列、修饰的一个或多个核苷酸(我们希望其能参入到多核苷酸中)、以及没有被所述的修饰核苷酸替代的天然核苷酸;并且,
g.检测溶菌液中可检测的报告子的存在。
141.根据权利要求139所述的聚合酶,其中所述的DNA穿梭过程包括
a.选择一种已知的聚合酶,或者两种或多种具有不同序列或不同生化特性或两者都具备的已知聚合酶;
b.进行DNA穿梭;
c.将所述的穿梭DNA转化入宿主细胞,以在宿主细胞集落中形成转化株文库;
d.通过将所述的宿主细胞集落铺板,制备所述的转化株的第一个独立库;
e.从所述的宿主细胞集落的每一第一个独立库中,获得溶菌液;
f.从每一个所述的溶菌液中,除去所有天然核苷酸;
g.将每一所述的溶菌液与下列成分混合
i.一个单链DNA模板,模板包含一序列,序列对应于一个RNA聚合酶启动子,后面接一个报告子序列。
ii.一个单链DNA引物,该引物与所述的模板的一端互补;
iii.修饰的一个核苷酸或多个核苷酸,我们希望它们可以参入到所述的多核苷酸中;
iv.没有被所述的修饰的一个核苷酸或多个核苷酸替代的每个天然核苷酸;
h.向每一所述的混合溶菌液中加入RNA聚合酶;
i.对每一所述的混合溶菌液进行检测,以检测所述的报告子序列的存在;
j.从检测到所述的报告子存在的所述的宿主细胞集落的每一第一个独立库,建立宿主细胞集落转化株的第二个独立库;
k.从所述的宿主细胞集落的每一第二个独立库中,获得溶菌液;
l.重复步骤g,h,I,j,k和l,以在宿主细胞集落中形成转化株的独立库,直到只有一个包含所述的聚合酶的宿主细胞集落剩余下来;而且,
m.将所述的聚合酶从所述的的一个宿主细胞集落中再次克隆入一个蛋白质表达载体。
142.一种突变型聚合酶,所述的酶能够催化将一个修饰核苷酸参入到多核苷酸中的反应,而所述的修饰核苷酸不是从包含细胞衰老选择的过程中获得的核糖核苷酸。
143.根据权利要求142所述的聚合酶,其中所述的细胞衰老选择过程包括
a.对一已知聚合酶进行诱变,以形成突变型聚合酶文库;
b.将所述的文库克隆入一个载体;
c.将所述的载体转化入宿主细胞,宿主细胞是这样选择的只有当所述的细胞处于活跃生长时,才容易被一种经选择的化学药品杀死;
d.加入一种修饰核苷酸;
e.培育所述的宿主细胞;
f.将所述的宿主细胞用所述的经选择的化学药品处理;
g.将活细胞与死细胞分离开来;并且,
h.分离所述的聚合酶或来自所述的活细胞的聚合酶。
144.根据权利要求143所述的聚合酶,其中步骤d-g被重复一次或数次。
145.根据权利要求142所述的聚合酶,其中所述的过程包含
a.对一已知聚合酶进行诱变,以形成突变型聚合酶文库;
b.将所述的突变聚合酶文库克隆入一个质粒载体;
c.用所述的质粒载体转化细菌细胞,而该细胞在生长时,对抗菌素敏感;
d.用所述的抗菌素选择转染株;
e.将一修饰核苷酸作为对应的三磷酸核苷引入细菌细胞;
f.培育细胞;
g.加入抗菌素;该抗菌素在细菌细胞活跃生长时,将杀死所述的细胞;
h.分离所述的细菌细胞;
i.在不含抗菌素的新鲜培养基中培育该细菌细胞;
j.从生长集落中分离活细胞;
k.从所述的活细胞中分离所述的质粒载体;
l.分离所述的聚合酶;而且,
m.检测所述的聚合酶。
146.根据权利要求145所述的聚合酶,在进入到步骤1之前,将所述的过程中的步骤c-k重复一次或更多次。
147.根据权利要求139所述的聚合酶,其中所述的聚合酶为一热稳定聚合酶。
148.一种突变型聚合酶,能够催化修饰核苷酸参入到多核苷酸中,其中所述的修饰核苷酸不是由包含噬菌体展示的过程所获得的核糖核苷酸。
149.根据权利要求148所述的突变型聚合酶,其中所述的噬菌体展示包含下列步骤
(a).选择一个DNA聚合酶;
(b).将所述的聚合酶在细菌噬菌体载体中表达,融合入细菌噬菌体包被蛋白中;
(c).将一寡核苷酸附着在噬菌体表面;
(d).形成一引物模板复合物,方法为或者加入一个与c中的寡核苷酸互补的第二个寡核苷酸,或者利用c中寡核苷酸的分子内互补性,形成一个自引导复合物;
(e).进行引物延伸;条件为有修饰的一个或多个核苷酸以及有天然核苷酸存在(这些天然核苷酸没有被所述的修饰核苷酸所替代)时,所述的天然核苷酸中的一个用一种可检测的报告子标记;而且,
(f).将带有可检测的报告子的噬菌体和不带有可检测的报告子的噬菌体区分开来。
150.根据权利要求139、142、或148所述的聚合酶,其中所述的修饰核苷酸选自由下列成分组成的组中
一种具有如下结构的化合物
而其中R1选自由下列成分组成的组中

一种具有如下结构的化合物
而其中所述的“碱基”选自由胞嘧啶、鸟嘌呤、次黄嘌呤、尿嘧啶组成的组中,
一种具有如下结构的化合物
而其中所述的“碱基”选自由腺嘌呤、胞嘧啶、鸟嘌呤、次黄嘌呤、尿嘧啶组成的组中;
一种具有如下结构的化合物
而其中所述的“碱基”选自由腺嘌呤、胞嘧啶、鸟嘌呤、次黄嘌呤、胸腺嘧啶和尿嘧啶组成的组中;而且,
一种具有如下化学结构的化合物
151.一种试剂盒,包含
一种或多种修饰核苷酸;
一种或多种聚合酶,所述的酶能将所述的一种或多种修饰核苷酸参入到多核苷酸中,形成修饰多核苷酸;还有,
一种或多种试剂,所述的试剂能够在所述的多核苷酸中所述的一种或多种修饰核苷酸的每一发生位点上对所述的修饰多核苷酸进行切割。
全文摘要
本发明涉及分析多核苷酸的方法,其中包括在不需要进行全部序列测定的情况下在核苷酸序列中检测差异、对一多核苷酸进行完整序列测定、对DNA进行基因分型、在将一多核苷酸片段切割成片段的过程中对其进行标记。
文档编号C07H19/14GK1463292SQ99813928
公开日2003年12月24日 申请日期1999年9月30日 优先权日1998年10月1日
发明者小温森特·P·斯坦顿, 刘嘉, 川手智彦, 格利高利·沃汀 申请人:瓦瑞詹尼克斯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1