分析dna特征的方法

文档序号:452716阅读:393来源:国知局
专利名称:分析dna特征的方法
技术领域
本发明涉及分析DNA尤其是cDNA特征的方法,由此可以从DNA样群中鉴定出特定的DNA。本发明还涉及检定DNA的方法。
在分子生物学的许多领域,分析复杂的核酸样群是一个常见问题,在分析基因表达方式时尤其如此。已经有了多种方法能够同时分析全mRNA样群或其对应的cDNA样群,使我们能够理解基因在体内的表达方式。
但是,目前的方法存在许多缺陷。最简单的方法,例如“扣除克隆”,能够得到相关细胞类型间基因表达差异的粗略比较信息,但是这些方法在分离稀有cDNA方面成功率一般。其它方法,例如“差异展示”法及相关的“分子索引(molecular indexing)”法能够更广泛地比较分子类型间的基因表达,但是这些方法的实施目前还难以自动化,而且依赖于凝胶电泳进行分析。据说,最近又开发出能提供更多信息的方法,例如SAGE,即基因表达的系列分析,该方法无需预先知道信息即可得出基因表达的定量数据,而且能够特异性鉴定出在给定细胞类型内表达的cDNA,但是该方法的代价是大量进行测序。
“扣除克隆”(Lee等,Proc.Nat.Acad.Sci.USA,88,2825-2829)能够鉴定在两种相关细胞类型中差异表达的mRNA或其对应的cDNA。通过用一种细胞类型所建文库中的cDNA与另一相关但不相同细胞类型的过量mRNA杂交,能够选择性的去除两种相关细胞类型共有的cDNA。第二细胞类型mRAN中与第一细胞类型cDNA互补的那些会与之形成杂交双链。有许多酶能够降解这样的杂交双链从而将它们清除,这样就富集了第一细胞类型特有cDNA样群。
“差异展示”(Laing & Pardee,Science 257,967-971,1992)利用PCR引物来选择性扩增mRNA样群中特定的子集,由此将mRNA分类。将mRNA样群等分,每份用一系列“锚定”聚T引物引发逆转录产生标准长度的聚A尾。用一组约10核苷酸的冗余基因特异性引物来扩增负链。一般使用一组30个这类引物。由此可以根据扩增产物的长度来分析mRNA的特征。然后可以将所得的扩增亚群克隆后用于筛选或测序,或者利用测序凝胶方便地将片段分离。与扣除克隆相比,在这种分类中,低拷贝mRNA不易被丢失,而且,它的重复性要高得多。虽然该方法比扣除克隆法更常用,但是它需要费时的分析。缺点在于,用这类方法,每种cDNA都可能有多种扩增产物。而且,这类方法不能定量,且只能测定关系较密切的细胞类型之间(例如,同一器官特定组织的患病形式和正常形式)的比较信息。
基因表达的系列分析方法(Velcelescu等,Science 270,484-487,1995)能够鉴定在给定细胞类型内表达的mRNA或其对应的cDNA。它还给出有关这些cDNA的定量信息。该方法包括利用衔接子和II类限制性核酸内切酶分离出样群中各cDNA的签名“标签”。该标签是一段核苷酸数量固定的cDNA序列的样本,它足以在样群中特异性地检定出该cDNA。然后将标签连接在一起并测序。该方法给出基因表达的定量信息,而且便于鉴定新的cDNA。
涉及杂交栅格、芯片和阵列杂交的方法优点在于避免了凝胶测序,而且是定量的。它们可以完全在溶液中进行,因此很容易自动化。所述的寡核苷酸阵列是一种相当新的核酸分析方法,它能够进行突变分析、杂交测序和mRNA表达分析。就基因表达分析而言,可以将与已知RNA互补的独特寡核苷酸在例如玻片或薄膜等固相载体上排成阵列。用标记过的cDNA或mRNA与阵列杂交。标记核酸集中固定在一个特定地点,这表示存在着与该地点寡核苷酸互补的mRNA。构建这种阵列的方法是已知的(参见A.C.Pease等,Proc.Natl.Acad.Sci.USA.91,5022-5026,1994;U.Maskos & E.M.Southern,Nucleic Acids Research 21,2269-2270,1993;E.M.Southern等,Nucleic Acids Research 22,1368-1373,1994),可以预见还有其它方法。但是,这些方法都要求必须在构建阵列之前已知RNA的序列。这意味着该方法不适用于对其知之甚少或根本不了解的生物体。
在固定化之后,可以利用例如II类限制性核酸内切酶和衔接子通过单碱基法进行部分测序。该特殊方法为Brenner在PCT/US95/12678中提出。
可以使用长N bp的寡核苷酸阵列。这样的阵列在栅格的特定点上具有全部4N种可能的寡核苷酸。核酸以单链形式与该阵列杂交。荧光标记各核酸,测定荧光从栅格上何处发出,就测出了核酸所结合的寡核苷酸,由此检测杂交情况。荧光标记还给出有关多少核酸与给定寡核苷酸杂交的定量信息。获知以上信息和各核酸的相对量应该足以重构发生杂交的各寡核苷酸的序列和量。该方法由Lehrach在多篇论文中提出,Nucleic Acid Reseach 22,3423中有最新的论述。该方法的缺点是构建大型核寡核苷酸阵列需要极高的技术和费用。
“分子索引”法(PCT/GB93/01452)使用多群衔接子分子与核酸经II类限制性核酸内切酶剪切产生的模糊粘端杂交,从而将剪切片段分类。使用特殊的工程衔接子可以特异性地固定或扩增或克隆片段的特定子集,所用的方法与差异展示法相似,但所达到的分类程度和控制程度更高。但是,该方法需要费时的分析,而且,该专利申请中公开的方法要自动化很难也很贵。
Kato法(Nucleic Acid Reseach 23,3685-3690,1995)例证了上述分子索引法及其效果,在选择性扩增cDNA片段特定子集后将末端cDNA片段分成亚群,由此将cDNA样群分类。分类是利用II类限制性核酸内切酶和衔接子进行的。衔接子还含有引物位点,这些位点与通用的聚T引物连接,象在差异展示中那样选择性扩增末端cDNA片段。它可能比差异展示更精确,因为它进行了更高程度的分类每个给定子集中只有约100种cDNA,可以将分类与特定的序列特征而不是用试差法选出引物相关联。然后,可以对子集进行凝胶电泳分析,根据长度分离片段,得出某组织内的mRNA全貌。该方法依赖于PCR扩增,后者会造成各cDNA的频率误差。而且,目前使用的分析方法都依赖于凝胶电泳。
PCT/GB97/02403中的基因描述技术提供了另一种分子索引法,用于通过对某细胞cDNA样群中各cDNA的取样来分析该细胞内的基因表达方式。实施方式之一中,取样系统获取样群中各cDNA的两份4bp样本,根据一个确定的参比点测定它们的序列。该发明中的方法能够自动化,但是要得出签名信息需要许多步骤。
上述各方法都比较繁琐,而且都依赖于常规的凝胶测序。而且,这些方法都需要进行RCP扩增,后者易于产生假象。
本发明的目的之一是提供描述基因表达分布图的方法,该方法具有很高的灵敏度,而且易于经改进而实现高产量和自动化。利用该方法,不必进行cDNA序列的指数扩增,该过程可能造成cDNA的频率误差,而频率正是解释为什么基因表达方式在给定组织的不同状态之间和在同一生物体差异分化后不同组织之间发生改变的必要信息。本发明提供了得到某文库内各cDNA签名(signature)的方法,它需要的步骤较少,因而减少了样品的损失,而且通过利用限制性片段长度多形性来提供cDNA有关信息减少了各mRNA的定量误差。
所以,本发明提供了一种分析cDNA特征的方法,它包括(a)将包含一种或多种cDNA或其片段的样群与剪切剂接触,剪切剂识别一段预知序列,并在距各cDNA或片段一末端附近的预知序列预知距离的参比位点切断,产生末端片段样群;(b)在各参照位点连接一段含有取样剪切剂识别位点的衔接子寡核苷酸;(c)将末端片段样群与取样剪切剂接触,剪切剂结合识别位点,并在距识别位点预知距离的取样位点切断,产生长达6碱基,3至5碱基更好,序列未知的粘端序列;
(d)根据序列长度将末端片段样群分成亚群;(e)测定各粘端的序列。
不必通过cDNA的全测序来特异性鉴定其存在;几个碱基对的短“签名”就足以特异性地鉴定出各种cDNA-例如人基因组中总共有约80000群cDNA。如果在未来几年中完成了人基因组全测序,利用本方法得出的签名将可以获得序列数据库中原cDNA的完整序列。根据目前已有的不完整的数据库,没有从数据库中取回任何序列的签名可能是新的,而本法可方便地将它们分离出来以供全测序。
剪切剂以II类限制性核酸内切酶为宜。此时,参比位点包含预知序列(即预知距离为零)。或者可以使用II类限制性核酸内切酶或与寡核苷酸偶联的化学试剂。产生的可能是粘端或钝端,但是以粘端为佳。
最好各末端片段都具有聚A尾。这就可以用聚T引物进行逆转录来鉴定末端片段。或者,可以针对cDNA的5’帽。
更具体地说,本发明内容之一是包括以下步骤的方法(1)产生聚T末端固定在固相载体上的“锚定”cDNA。该cDNA最好是甲基化的;(2)用II类限制性核酸内切酶剪切cDNA片段并洗去切下的片段。II类限制性核酸内切酶宜产生已知粘端;(3)双链衔接子与经限制性酶切的cDNA连接。衔接子宜带有一段单链重叠序列,这段重叠序列与步骤(2)中限制性核酸内切酶产生的已知粘端互补。该衔接子的双链区含有一段II类限制性核酸内切酶识别序列;(4)将连接了衔接子的cDNA与II类限制性核酸内切酶接触,剪切cDNA上的衔接子,留下一段预知长度的模糊粘端;(5)将一组双链衔接子与限制性酶切后的cDNA连接。组中所包括的衔接子最好带有与步骤(4)产生的预知长度模糊粘端互补的所有可能的单碱基延伸。衔接子还含有一个质量标志,该标志连接在衔接子远离连接位点的5’端,可以被剪切,该标志在质谱分析时能特异性地鉴定组内各衔接子的重叠序列。各衔接子还可以含有一段引物序列,使得各衔接子具有一段与其重叠粘端相应的独特引物序列;(6)最好调整捕获的cDNA使之适合进行质谱分析;(7)变性,使游离链从捕获链上释放到溶液中。该链带有质量标志;(8)利用毛细管电泳质谱法分析带质量标记的cDNA末端限制性片段。
本发明的另一方面内容是包括以下步骤的方法
(1)产生聚T末端固定在固相载体上的“锚定”cDNA。该cDNA最好是甲基化的;(2)用II类限制性核酸内切酶剪切cDNA片段,洗去切下的片段。II类限制性核酸内切酶宜产生已知粘端;(3)双链衔接子与经限制性酶切的cDNA连接。衔接子宜带有一段单链重叠序列,这段重叠序列与步骤(2)中限制性核酸内切酶产生的已知粘端互补。该衔接子的双链区含有一段II类限制性核酸内切酶识别序列;(4)将连接了衔接子的cDNA与II类限制性核酸内切酶接触,剪切cDNA上的衔接子,留下一段预知长度的模糊粘端;(5)将一组双链衔接子与限制性酶切后的cDNA连接。这组中的衔接子最好带有与步骤(4)产生的预知长度模糊粘端互补的所有可能的单碱基延伸。衔接子还含有一个质量标志,该标志连接在衔接子远离连接位点的5’端,可以被剪切,该标志在质谱分析时能特异性地鉴定组内各衔接子的重叠序列。各衔接子还可以含有一段引物序列,使得各衔接子具有一段与其重叠粘端相应的独特引物序列;(6)变性,使游离链从捕获链上释放到溶液中。该链带有质量标志。而捕获链由此成为单链;(7)将捕获单链与带质量标记的引物接触,该引物与衔接子的引物序列互补。与各引物连接的质量标记鉴定出与各引物互补的衔接子粘端。引物最好不彼此互补,而且最好具有相同的熔点,这样就可以同时加入。或者还可以使用第二个或第二组引物。这些引物可能是cDNA合成中使用的锚定引物,或者是与锚定聚T序列5’端互补的引物;(8)在核苷酸三磷酸存在下,用DNA聚合酶在正确杂交的双链中延长引物。如果使用第二个或第二组引物的话,这可能是一次指数扩增;(9)通过熔解,使得经标记延伸链与被固定的模板分离;(10)最好调整捕获的cDNA以适合进行质谱分析;(11)测定各扩增片段的长度,通过检测引物内结合的标记来鉴定各扩增片段。该检测宜采用毛细管电泳质谱法。
PCT/GB98/00127描述了用质谱可分辨标志所标记的核酸探针。这种经质量标记的探针能够使得本发明所述的分析快速进行,因为可以用一系列带独特质量标记的引物同时探测一个捕获的限制性片段文库。
衔接子寡核苷酸的构建是公知的,其细节和综述在文献中很多见,包括Gait,M.J.编的“寡核苷酸的合成实施方法”,IRL Press,Oxford,1990;Eckstein编的“寡核苷酸及其同系物实施方法”,IRL Press,Oxford,1991;Kricka编的“非各向同性DNA探针技术”,Academic Press,San Diego,1992;Haugland,“荧光探针和研究用化学试剂手册”,Molecular Probes,Inc.,Eugene,1992;Keller &Manack,“DNA探针,第2版”,Stockton Press,New York,1993;和Kessler编的“生物分子的非放射性标记和检测”,Springer-Verlag,Berlin,1992。
这些衔接子的使用条件也是公知的。有关核酸探针杂交条件影响的具体信息可在以下文献中获得Wetmur,Critical Reviews in Biochemistry and MolecularBiology,26,227-259,1991;Sambrook等,“Molecular CloningA Laboratory Manual,第二版”,Cold Spring Harbour Laboratory,New York,1989;和Hames,B.D.,Higgins,S.J.,“核酸杂交实施方法”,IRL Press,Oxford,1988。
同样,衔接子的连接也是公知的,化学连接方法可参见Ferris等,Nucleosides and Necleotides 8,407-414,1989;和Shabarova等,Nucleic AcidResearch 19,4247-4251,1991。
较好的是采用酶连接,较好的连接酶是T4 DNA连接酶、T7 DNA连接酶、大肠杆菌DNA连接酶、Taq连接酶、Pfu连接酶和Tth连接酶。这些连接酶的详细资料可参见Lehman,Science 186,790-797,1974;和Engler等,“DNAligase”,Boyer编的的“酶”第15卷第3-30页,Academic Press,New York,1982。使用这些酶的方法可参见Sambrook等,同上;Barany,PCR方法及应用,15-16,1991;和Marsh等,Strategies 5,73-76,1992。
使用衔接子的一个潜在问题是确保探针杂交的准确性。主要是含有所有Watson-Crick碱基对的短寡核苷酸双链之间的稳定性差异。例如,只含有腺嘌呤和胸腺嘧啶的双链不如只含鸟嘌呤和胞嘧啶的双链稳定。当将短寡核苷酸混合物与互补性靶DNA杂交时,这样的稳定性差异就会造成问题。富A-T序列杂交需要低温,而在此温度,富G-C序列会与非完全互补序列杂交。这意味着会发生错配,针对富G-C序列的特异性会丧失。在较高的温度,富G-C序列特异性杂交,但是富A-T序列不杂交。
为了校正这些影响,可以对Watson-Crick碱基进行修饰。以下是非限定性的举例·腺嘌呤的同系物2,6-二氨基嘌呤与胸腺嘧啶形成三氢键而非二氢键,因此形成更稳定的碱基对。
·胸腺嘧啶的同系物5-丙炔基dU与腺嘌呤形成更稳定的碱基对。
·鸟嘌呤的同系物次黄嘌呤与胞嘧啶形成二氢键而非三氢键,所以形成稳定性较低的碱基对。
以上及其它可能的修饰可以减小温度范围,在此范围,短核苷酸的随机混合物能够特异性地与各自的互补序列杂交。
较好的是,取样剪切剂含有II类限制性核酸内切酶。II类限制性核酸内切酶即“取样酶”具有如下特性它们识别靶DNA内一段特定序列并与之结合,但是它们在距该序列一定距离处剪切,在限制性酶切产物的剪切端产生预知长度、未知序列的单链粘端。
例如,酶fokl产生一个4bp的模糊(即未知)粘端,位于其识别序列下游9bp处。这样,该模糊粘端可能是256种可能的4bp寡核苷酸之一(见

图1)。还有许多其它II类限制性核酸内切酶,它们也可以用于本发明方法,参见后文有关限制性核酸内切酶部分。它们的结合位点可以由例如图2中的衔接子提供。
有多种II类限制性核酸内切酶都可以用作本发明方法的取样酶。以下表1列出的只是部分实例。有关限制性核酸内切酶的文献可参见Roberts,R.,J.Nucl.Acids Res.18,2351-2365,1988。新酶的发现越来越快,最新的数据表记录在例如REBase之类的专业数据库中,利用Netscape或Mosaic等软件包可方便的通过互联网获悉,其万维网网址http//www.neb.com/rebase/。REBase列出了所有已发现的限制性酶,并且定期更新,而且,它还列出各酶的识别序列及其同裂酶,以及其制造商和供应商。衔接子内给定酶识别位点间的间距可以根据要求和酶的切割特性来定制(参见上述图2)。
表1部分典型的II类限制性核酸内切酶酶的名称识别序列切断位点FoklGGATG 9/13BstFsl GGATG 2/0SfaNI GCATC 5/9HgaIGACGC 5/10BbvIGCAGC 8/12本方法要求在待检核酸的末端产生模糊粘端。这也可以通过控制性使用5’至3’核酸外切酶来得到。显然,能够产生这类粘端的任何方法都满足本方法的需要。
类似的,必需使用低严谨度限制性核酸内切酶来仅剪切各cDNA一次,留下粘端。但是,各种剪切固定化核酸的方法都适用于本发明。位点特异性化学剪切可参见Chu,B.C.F.& Orgel,L.E.,Proc.Natl.Acad.Sci.USA,1985,963-967。也可以用非特异性核酸酶产生钝端片段。但是,最好使用II类限制性核酸内切酶,因为它们识别位点准确、加工量最大,而且便宜、易于得到。
分离末端片段样群的步骤(d)可以采用毛细管电泳、HPLC或凝胶电泳。特别好的是毛细管电泳,因为它可以与质谱仪直接耦联。
步骤(e)中,可以如下测定各未知粘端(i)利用标记杂交探针阵列进行检测,该阵列包含预知长度的全部可能碱基序列;(ii)将发生杂交的探针与粘端序列连接;(iii)通过鉴定并最好定量测定探针来确定哪些探针被连接。
实施方式之一中,阵列包括许多子阵列,这些子阵列共同包涵了所有可能的碱基序列,各子阵列与粘端序列接触,去除不被连接的探针,循环重复上述步骤,使得所有子阵列都与粘端序列接触。如此,杂交探针阵列依次被提呈给粘端序列。例如,如果碱基序列的预知长度是4,则可能的碱基序列数是256(44),将粘端序列样群与第一个128探针的子阵列接触,去除所有非连接探针后再与第二个128探针的子阵列接触,如此可以避免阵列内互补4聚体之间的交叉杂交。
标记最好是1997年1月15日申请的GB9700746.2中所述的质量标记。
较好的是,本发明使用的杂交探针阵列中,每个探针都含有与一段预定长度、预知碱基序列连接的质量标记,阵列中的各质量标记和(可选性地)预知序列结合,而质谱分析测定的碱基与上述碱基序列相关。较好的是,各杂交探针的质量标记以可断裂的方式与预知长度的已知碱基序列连接,当从各自的碱基序列上被释放时,阵列中的各质量标记与质谱所定的碱基序列相关,质谱法一般根据标记的质量/电荷比来鉴定,该比值对于阵列中每个质量标记来说最好是能被唯一鉴定的。
另一方面,本发明提供了一种鉴定样品中cDNA的方法。该方法包括如前所述分析cDNA的特征,获悉片段长度、参比位点和粘端的序列和相对位置,并将这些片段长度、参比位点和粘端的的序列和相对位置与已知cDNA(例如DNA数据库中的)的比较,以鉴定样品中的某种或各种cDNA。该方法可以用来鉴定一个cDNA或一群cDNA。
另一方面,本发明提供了一种检定样品中一种或多种cDNA的方法。该方法包括如前所述分析DNA特征的方法,该方法中的参比位点和片段长度都是已知的,通过检定一段已知粘端序列来确定各粘端的序列。
现在,通过实施例,并参照附图,对本发明进行更详细的说明。附图中图1显示fokl的限制性作用;图2显示衔接子寡核苷酸的切割情况;图3a-c显示本发明中一种较好的分析cDNA特征的方法。步骤1,在一固相载体上产生cDNA。步骤2,用“参比核酸内切酶”处理带有保留聚A的cDNA,并洗下被切下的片段。步骤3,加入衔接子,衔接子的粘端与“参比酶”的粘端互补,并带有“取样核酸内切酶”的结合位点。步骤4,加入“取样酶”。步骤5,加入衔接子,这些衔接子的粘端与所有可能的4碱基粘端互补。这些衔接子还带有一个标记(以质量标记为宜)用于鉴定模糊粘端的序列。步骤6是从固相载体上释放末端限制性片段。步骤7,签名片段获释进入的液相,分离出液相加入毛细管内,根据长度分离片段。步骤8,进行毛细管洗脱,从毛细管中洗脱的条带代表长度相同的片段。在片段进入质谱仪之前切下它们的标记,由此可检定上述长度相同的片段。步骤9,宜将切下的质量标记和签名片段注入电喷质谱仪中进行分析。可以将标记的电荷设计成与聚核苷酸片段的相反。如果它是负的,可以用正离子质谱来分析标记,反之亦然。较好的是,片段上的电荷为正,用负离子质谱进行分析。
GB9618544.2中所述的基因描述技术提供了一种通过采取细胞群中各cDNA的样本来分析细胞内基因表达方式的方法。在其实施方式之一中,采取样群中的各cDNA的两份4bp样本,根据一个确定的参比点来确定它们的序列。
本发明简化了以上技术。原因是,制备的cDNA都以固定长度的短聚A尾终止。大多数cDNA制备是用一段约18个脱氧胸腺嘧啶残基且5’末端为其它三种碱基中任一种的引物逆转录RNA得到的。然后用第二种引物将该DNA反义链制成双链,第二引物的序列被设计成结合反义链内一段编码序列,或针对反义链的5’末端。这样,它们可复制产生一致的长度。
可以利用带聚A末端的cDNA片段的长度来将样群中的各cDNA按照限制性片段长度分成子集。利用一段已知距限制性位点4bp的短签名,可以将各相同长度限制性片段集合进一步分成256个子集。然后用所用的限制性核酸内切酶来测定片段长度的分布,但是,长度分布的变化应在200至500碱基之间,这可以基本上鉴定出样群中的每种cDNA,因为这将产生总共75000至125000个签名。
为了产生这些签名,将样群中的各cDNA固定化,用常规II类限制性核酸内切酶剪切。将衔接子与产生的已知粘端连接。衔接子被设计成带有II类限制性核酸内切酶的结合位点。这些酶与它们的靶序列结合,但是剪切距离结合位置一定碱基数的下游DNA。其中某些酶产生交错切口,例如,fokl产生一个4bp的模糊粘端。如果用这样的酶处理cDNA样群,样群中所有cDNA连接衔接子的末端都暴露出粘端。用一组衔接子分子来检测这4个暴露的碱基。如果是4bp的模糊粘端,就有256个可能的候选探针。为了鉴定探针,利用光剪切接头给它们加上质量标记,这样,256个可能的4bp衔接子中的每一个都能够因其特有的质量标记而被鉴定出来。这些标记被优化,以便在质谱仪中具有良好的性能,正如BG9700746.2中所述。留下的是一份具有不同长度的片段样群,这些片段可被常规II类限制性核酸内切酶剪切,并在其cDNA 5’带有256种可能的质量标记的衔接子之一。
这样的系统可与液相层析质谱(LCMS)联用。基因描述过程分两阶段进行,先按长度分离限制性片段,然后分析与cDNA片段末端连接的质量标记。当液相层析产物直接进入电喷质谱仪时,根据长度的分离可以利用毛细管电泳进行。在毛细管和质谱仪之间,利用吸附装置还可以检测到给定长度片段的“条带”。在毛细管和质谱仪之间,还必须通过光剪切来从限制性片段上释放出所有质量标记。然后可以鉴定毛细管电泳分离的限制性片段长度相同的条带,并测定各条带中质量标记的含量。由此可以将各长度的组进一步分成256个子集。
要能够独特地鉴定约100000个基因中的每一个,就必须能够将cDNA区分成至少许多子集。大约每256或1024个碱基分别会出现一个4或5bp的识别序列。要获得更高的分辨率,可以利用切点更少的限制性核酸内切酶或组合酶。
cDNA的制备本发明方法必须分离文库中各cDNA 3’端或5’端起的末端限制性片段,根据这些片段确定距末端限制性位点已知距离的一个短序列窗。为了根据片段长度信息将cDNA样群分类,用“锚定引物”来制备cDNA,使得所有的cDNA都以一段固定长度的短聚A尾结束。在“锚定引物”cDNA制备过程中,捕获带有聚A的mRNA,以约18个胸腺嘧啶残基和3’端为其余三种碱基之一构成的寡核苷酸为引物,将引物以聚A末端锚定。然后结合了引物的mRNA在逆转录酶作用下复制成为DNA。由此产生mRNA/DNA杂交双链。然后,由此形成的DNA互补链可以形成双链。本领域已经已知了许多合成第二链的方法。可以用DNAse I在mRNA/DNA杂交双链上产生切口,提供DNA聚合酶合成开始所需的3’羟基。或者,可以用第二引物来合成第二链,该引物的序列被设计成结合互补链中一段编码序列或结合5’末端,或者,该引物为cDNA引入一个限制性位点。该方法需要降解杂交双链中的mRNA,这可以通过碱处理、热变性或RNAse H处理来进行。另一种方法是利用末端转移酶。如果“锚定引物”被生物素酰化,就可以将其捕捉到亲和素化表面上,或者,如果引物已经与固相基质共价连接,那么,在合成了互补链之后,可以方便地洗去逆转录酶和核苷酸。然后可以加入含有末端转移酶和一种三磷酸核苷的缓冲液,这样会在双链的3’羟基上加上任意数量的这种核苷酸。由此在cDNA的末端产生一段已知序列,以聚胞嘧啶或聚鸟嘌呤为佳。在热变性或碱降解去除RNA后,提供一段与末端转移酶产生的末端序列互补的寡核苷酸引物就可以合成负链。该引物可以与末端转移酶所提供序列之前的未知序列交迭,从而允许进行cDNA文库中各子集的差异扩增。还有许多其它已知方法,任何能够产生互补链的方法都可以用于本发明方法,但是所选的方法不能丢失文库的任何一部分。
除了将各种RNA聚A尾的长度归一化之外,聚T引物上的锚定碱基还可以用来制备将cDNA样群分成子集的cDNA。如果是一个碱基的重叠,cDNA样群可以分成3个子集。如果是2碱基重叠,就可以分成12个子集,依此类推,3碱基重叠可产生48个子集。以使用1碱基重叠或3碱基重叠为宜。采用1碱基重叠,将某组织的mRNA提取物分成3个子集,各集合分别与3种可能的锚定引物之一接触,由此逆转录产生cDNA。
如前所述将聚A尾长度归一化时,可以利用带聚A末端的cDNA限制性片段的长度将样群中的各cDNA分入各长度子集。利用片段内一已知位点的一个约4bp的短签名可以特异性地鉴定出样群内的绝大多数cDNA。那些没能被特异性分辨出来的cDNA可能属于序列密切相关的基因家族。
为了确定“锚定”cDNA的签名,将样群的cDNA都固定到固相基质上。这样的cDNA是用锚定聚T引物来捕捉聚A+mRNA来制备的,在锚定聚T引物的3’端最好有一个单相的锁定碱基。此外,将锚定引物生物素酰化,这样可以将cDNA固定到亲和素化的基质上。或者,可将锚定引物与固相基质共价连接。相锁定碱基可用来将样品分成三份,可根据需要进行扩增。聚T引物还可以在其5’端带有一段引物序列。然后用常规II类限制性核酸内切酶剪切被捕获的产生的cDNA。在产生的已知粘端连接一个衔接子。衔接子被设计成带有某II类限制性核酸内切酶的结合位点。这些酶与它们的靶序列结合,但是剪切距结合位置确定碱基数的下游DNA。其中某些酶产生交错切口,例如fokl将产生一段4bp的模糊粘端。如果用这样的酶处理cDNA样群,其中各cDNA连接了衔接子的末端都将暴露出粘端。用一族衔接子分子来检测这些暴露的4碱基。如果是4bp的模糊粘端,则有256种可能的衔接子。为了鉴定这些衔接子,用一段可断裂接头接上质量标记,这样,256种可能的4bp重叠可以通过在质谱仪中可特异性鉴定的标记得以区别。如PCT/GB98/00127中所述对这些衔接子进行优化以便在质谱仪中表现出良好的性能。上述过程产生一群片段,用常规II类限制性核酸内切酶切割时,各自具有特有的长度,在5’末端连有带256种可能的质量标记之一的衔接子。
保证在靶核酸序列的内部位置没有II类限制性核酸内切酶位点。
很重要的是保证模板核酸片段内部没有“测序酶”结合位点,然后才可以加入带有“测序酶”结合位点的衔接子与待测序分子的末端连接。某些II类限制性核酸内切酶对其识别区域的甲基化状态敏感,这就避免了测序核酸内切酶利作用于非要求的位置。可以先将靶核酸甲基化,然后再连接带有测序核酸内切酶识别位点的衔接子。甲基化可以在任意逆转录和扩增反应制备模板时以三磷酸5-甲基胞嘧啶而不是三磷酸胞嘧啶来进行。使用非甲基化的衔接子会使得衔接子中的识别序列而不是模板内的那些系列产生效应。
核酸的限制性剪切和衔接子的连接在较好的实施例中,实验限制性剪切核酸是为了与衔接子偶联连接(前文所述的步骤(2)和步骤(3))。本发明优选的限制性核酸内切酶在识别序列内剪切,产生不包含完整识别序列的粘端。这样就可以设计衔接子使其带有与优选限制性核酸内切酶所产生的粘端互补的粘端,但是不再重新形成优选限制性核酸内切酶的识别序列。这意味着如果在连接酶和衔接子存在下进行限制性酶切,限制性片段之间的彼此连接因为连接产物被不断剪切而减少,然而与衔接子的连接则是不可逆的,这样,衔接子的存在使得限制性酶切趋于完全,同样,限制性核酸内切酶则使得连接反应趋于完全。这一过程确保了限制性片段中的大部分与衔接子连接。以上方法是十分有利的,因为衔接子与限制性片段的连接因为限制性剪切产物磷酸化后彼此随机连接而效率较低。
在以上实施例中,所用衔接子的5’羟基最好不要磷酸化,这样,它们就不会自相连接了。
标记cDNA的线性扩增和指数扩增在本发明的另一方面内容中,用来检测II类限制性核酸内切酶产生的模糊粘端的各衔接子还可以包含一段引物序列。带有独特粘端的各衔接子可以通过引物序列来区别,该序列与任一其它衔接子的相关引物序列都不同。为此设计非互补型标签序列比较简单。有关详细信息可参见Brenner的PCT/US95/12791。在固相载体上产生带质量标记的连接衔接子的cDNA片段后,可以从固相载体上变性得到捕获cDNA的游离有义链。然后,被捕链与带质量标记的引物接触,引物序列与衔接子的标签序列互补。用聚合酶和三磷酸核苷进行延伸。变性和引物延伸的循环次数视需要而定。如果只使用衔接子引物位点,可以进行线性扩增。与指数扩增相比,它造成的cDNA定量误差较小。如果需要进行指数扩增,用来捕捉mRNA的聚T寡核苷酸必须也带有引物位点。如果必须对小组织样本进行分析,则可能需要指数扩增,尽管存在着cDNA频率误差。
毛细管电泳质谱法本发明方法可以采用液相层析质谱法(LCMS),但以毛细管电泳质谱法为佳。基因描述分两阶段进行先根据长度分离限制性片段,然后分析与cDNA片段末端连接的质量标记。当液相层析产物直接进入电喷质谱仪时,长度分离可以用毛细管电泳进行。在毛细管和质谱仪之间,通过剪切使得所有的质量标记都从各自的限制性片段上被释放。以上特征参见PCT/GB98/00127。毛细管电泳分离出各种限制性片段长度的条带,测定其中各质量标记的含量。由此将具有不同片段长度的各组进一步分成256个子集。如果制备cDNA时所用的聚T引物上的相锁定碱基被用来将cDNA样群进一步分类,cDNA限制性片段将被进一步分成768个子集。使用一个以上碱基来锁定聚T引物可以得到更细的分类,但是所用探针序列越长,杂交的严谨性越差。如果cDNA样群是用前述末端转移酶法得到的,可用两末端的已知序列进行cDNA样群的分类,所述序列提供了一个引物平台,引物延伸进入与已知序列毗邻的未知序列。
生物信息学为了能特异性地鉴定出人基因组中的约100000个基因,我们必须能够将cDNA至少区分成许多子集。实际上,达到独一无二的分辨并非绝对必要,但是分成大量子集来分辨率是需要的,因为这样使得cDNA更可能通过单独分拣而得以准确鉴定。在cDNA文库分类后联合应用探针检测短签名,可以对cDNA文库进行任意分辨率的分类,将其分成唯一或近乎唯一的子集。如果在衔接子位点使用的是4碱基对的探针序列,则签名可将样群分成约256个子集。锚定引物可以将cDNA区分成更多的子集。利用1碱基重叠,锚定引物可产生3个子集。这就产生了最初的768个子集。限制性片段长度的变化范围很宽,从统计学上说,进一步细分是可能的。利用切点更少的限制性酶或使用组合酶可以得到更高的分辨率。可能需要对各种组织进行两次或两次以上分析,即在各次实验中分别使用不同的限制性核酸内切酶产生两组或两组以上数据,以便确定关联性。每次这样的实验都将产生样群中各cDNA以下形式的签名衔接子序列-限制性位置-已知长度-NW-已知长度-NX-聚A尾(已知长度)-可选的引物序列粗体表示的是源mRNA的特征。N是碱基信息,下标W和X表示碱基数。得出的信息包括一段数字签名(ditital signature),它可以用来检索序列数据库,鉴定出源基因。
权利要求
1.一种分析cDNA特征的方法,该方法包括(a)将包含一种或多种cDNA或其片段的样品与剪切剂接触,剪切剂识别一段预知序列并在距离各cDNA或其片段一端附近预知序列已知距离的参比位点切断,由此产生末端片段样群;(b)在各参比位点连接一段衔接子寡核苷酸,它包含取样剪切剂的识别位点;(c)将末端片段样群与取样剪切剂接触,该剪切剂结合识别位点并在距识别位点已知距离的取样位点切断,在各末端片段上产生一个至多6碱基的预知长度、未知序列的粘端序列;(d)根据序列长度将末端片段样群分成子集;(e)测定各粘端的序列。
2.根据权利要求1所述的方法,其中各粘端序列具有3-5个碱基。
3.根据权利要求1或2所述的方法,其中剪切剂是II类限制性核酸内切酶。
4.根据权利要求3所述的方法,其中II类限制性核酸内切酶的选择标准是使得参比位点与预知序列之间的距离为0,其中衔接子寡核苷酸的选择标准是它与参比位点连接后不再重新形成预知序列。
5.根据前述权利要求中任一项所述的方法,其中各末端片段都具有一段聚A尾。
6.根据前述权利要求中任一项所述的方法,其中各衔接子用酶法连接。
7.根据权利要求6所述的方法,使用的是T4 DNA连接酶、T7 DNA连接酶、大肠杆菌DNA连接酶、Taq连接酶、Pfu连接酶或Tth连接酶。
8.根据前述权利要求中任一项所述的方法,其中的取样剪切剂包含II类限制性核酸内切酶。
9.根据权利要求8所述的方法,其中的II类限制性核酸内切酶是fokl、BstFsl、SfaNI、HgaI或BbvI酶。
10.根据前述权利要求中任一项所述的方法,其中通过毛细管电泳、HPLC或凝胶电泳来分离末端片段样群。
11.根据前述权利要求中任一项所述的方法,其中各未知粘端序列的测定是通过(i)用一标记杂交探针阵列检测,该阵列中包含预知长度的所有可能的碱基序列;(ii)将发生杂交的探针与粘端序列连接;(iii)通过鉴定标记并最好定量测定标记来确定那些探针被连接。
12.根据权利要求11所述的方法,其中的探针阵列包括许多子阵列,各子阵列分别与来自其它子阵列的粘端接触。
13.根据权利要求12所述的方法,其中粘端序列的预知长度是4碱基,探针阵列包括两个子阵列,每个子阵列包含128个不同的探针,子阵列之一中的探针与另一阵列中的探针互补。
14.根据权利要求11至13中任一项所述的方法,其中标记与杂交探针以可断裂方式连接。
15.根据权利要求11至14中任一项所述的方法,其中各标记对于所连探针的碱基序列具有特异性。
16.根据权利要求11至15中任一项所述的方法,其中的标记是质量标记。
17.根据权利要求11至16中任一项所述的方法,其中的各杂交探针与已知的双链引物序列连接,该引物序列对探针的碱基序列具有特异性,使得末端片段与探针杂交后分别与各自的特定引物序列连接,在一种或多种所述引物序列存在下通过PCR选择性扩增末端片段。
18.根据权利要求11至17中任一项所述的方法,其中在杂交之前先在cDNA的聚A尾上引入一段末端引物,杂交之后在该末端引物存在下通过PCR扩增末端片段。
19.根据前述权利要求中任一项所述的方法,其中的cDNA是用5-甲基胞嘧啶合成的。
20.根据前述权利要求中任一项所述的方法,其中的cDNA被固定在固相载体上。
21.一种鉴定样品中cDNA的方法,它包括采用前述权利要求中任一项所述的方法分析cDNA的特征。
22.检定样品中一种或多种特定cDNA的方法,它包括采用权利要求1至20中任一项所述的方法分析cDNA的特征。
全文摘要
本发明提供了一种分析cDNA特征的方法;该方法包括:(a)将包含一种或多种cDNA或其片段的样品与剪切剂接触,剪切剂识别一段预知序列并在距各cDNA或其片段一端附近预知序列已知距离的参比位点切断,由此产生末端片段样群;(b)在各参比位点连接一段衔接子寡核苷酸,它包含取样剪切剂的识别位点;(c)将末端片段样群与取样剪切剂接触,该剪切剂结合识别位点并在距识别位点已知距离的取样位点切断,在各末端片段上产生一个至多6碱基的预知长度、未知序列的粘端序列;(d)根据序列长度将末端片段样群分成子集;(e)测定各粘端的序列。
文档编号C12N15/09GK1252103SQ98803978
公开日2000年5月3日 申请日期1998年4月20日 优先权日1997年4月21日
发明者G·施密特, A·H·汤普森 申请人:布拉克斯集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1