对dna的特性分析的制作方法

文档序号:451340阅读:310来源:国知局
专利名称:对dna的特性分析的制作方法
技术领域
本发明涉及对DNA,尤其是cDNA进行特性描述的方法,由此可以从一群DNA中鉴定出某DNA。本发明还涉及检测DNA的方法。
背景技术
在分子生物学的许多领域,特别是在分析基因的表达方式时,分析复杂的核酸样群是一个常见的问题。已经发展出了许多方法能够同时分析整个mRNA样群或其对应的cDNA样群,使我们能够开始理解基因的体内表达方式。
“扣除克隆(subtractive clone)”法(Lee等,Proc.Nat.Acad.Sci.USA 88,2825-2829)能够鉴定在两种相关细胞类型中有着不同表达的mRNA(或者,更多的是其对应cDNA)。通过将一个细胞类型文库的cDAN与大大过量的相关但不同细胞类型的mRNA杂交,可以选择性地去除两种相关细胞类型共有的cDNA.与第一类型cDNA互补的第二细胞类型的mRNA将与之形成杂交双链。存在着许多酶能够降解这样的杂交双链,将杂交双链去除从而富集了剩下的样群,这是第一细胞类型特有的cDAN。该方法能够得出相关细胞类型间有关基因表达差异的高度特异性比较信息,并且已经在分离稀有cDAN中获得中等程度的成功。
“差异展示(differential display)”法(Laing和Pardee,Science 257,967-971,1992)利用PCR引物选择性扩增某mRNA样群的特定亚组来分类mRNA。用通用聚T引物处理mRNA样群以扩增一条链,并用约10核苷酸的特异性引物处理以扩增特异性更高的反向链。由此,只有具有第二引物序列的mRNA被扩增;第二引物越长,总cDNA样群被扩增的比例越小,或所用长度的给定序列越小。扩增所得的亚群然后可进行克隆用于筛选和测序,或者可以在测序凝胶上简单地分离所得片段。与(例如)扣除克隆法相比,在此类方案中,低拷贝数mRAN不大可能丢失,因此可能更具有重复性。虽然此方法比扣除克隆法更通用,但它需要耗费时间的分析。
“分子指标(molecular indexing)”法(PCT/GB93/01452)使用衔接子(adaptor)分子群与用Ⅱs型限制性核酸内切酶切割核酸所产生的多义(ambiguous)粘端杂交,以分类切断的片段。使用特殊工程化的衔接子,可以类似于差异展示的方式,特异性地固定或扩增,或克隆特定的片段亚组,但是达到了更大程度的控制。同样,需要耗费时间的分析。
Kato法(Nucleic Acids Research 12,3685-3690,1995)通过将末端cDNA片段分类成亚群,然后选择性扩增特定的cDNA片段亚组举例说明了上述分子指标法并实现了对cDAN样群的分析。使用Ⅱs型限制性核酸内切酶和衔接子进行分类,衔接子也带有引物位点,与通用聚T引物相连的该位点能够象在差异展示中那样选择性扩增末端cDNA片段。它可能比差异展示更精确,因为它进行了更细的分类一个给定亚组中将只有大约100个cDNA,分类可以与特定的序列特性相关联而不是使用试错(trialand error)选出的引物。
“基因表达的连续分析(serial analysis)”法(SAGE,Science 270,484-487,1995)能够识别在给定细胞类型中表达的mRNA(或者,更多的是其对应cDNA)。它还提供有关那些cDNA水平的定量信息。该方法包括用衔接子和Ⅱs型限制性核酸内切酶从样群中的每个cDNA分离出一个“标签(tag)”。标签是核苷酸数固定的cDNA序列的样品,该固定的核苷酸数足以在样群中特异性地鉴定出该cDNA。然后使各标签连在一起并测序。该方法提供了基因表达的定量信息,而且便于鉴定新的cDAN。但是,由于需要进行大量的测序,所以该方法极其费时。
上述方法都比较繁复,依赖于常规的凝胶测序法。而且,这些方法都需要采用PCR扩增,容易产生人为假象。
包括杂交载网、芯片和阵列的方法较有利,因为它们避免了用于测序的凝胶法,而且是定量性的。它们可以完全在溶液中进行,因此容易自动化。这些方法具有两种形式。第一种将靶核酸固定到与靶核酸末端序列互补的寡核苷酸阵列上。固定后通过单碱基法对那些片段进行部分测序,例如,使用Ⅱs型限制性核酸内切酶和衔接子。该方法具体由Brenner在PCT/US95/12678中提倡。
第二种形式涉及N个bp长度的寡核苷酸阵列。此阵列在载网上的特定点上带有4N种可能的寡核苷酸。核酸以单链形式与阵列杂交。通过荧光标记各核酸,并确定载网上发出荧光的点来检测杂交,由此确定核酸与之结合的寡核苷酸。荧光标记还提供有多少核酸与给定寡核苷酸杂交的定量信息。对各核酸相对数量信息的了解应该足以重建杂交样群的序列和数量。Lehrah在许多论文中提出过该方法,Nucleic Acids Research 22,3423具有最新的有关论述。该方法的缺点在于,构建大型寡核苷酸阵列有极高的技术要求而且昂贵。
发明概述本发明提供了一种对cDNA进行特性分析的方法,它包括(a)用第一取样核酸内切酶在第一取样位点切割一群含单一或多种cDNA或其分离片段的样品,以产生各cDNA或其分离片段的第一和第二次级片段,所述的cDNA或其分离片段各包含一段与mRNA 3’聚末端A互补的链并带有尾序列,所述的第一取样位点相距靠近尾序列的参照位点已知距离,所述的次级片段各包含既定长度和未知序列的粘端序列,第一次级片段具有尾序列;(b)根据粘端序列将第一或第二次级片段分类成亚群,并记录各亚群的粘端序列作为第一粘端;(c)在各亚群中用第二取样核酸内切酶在第二取样位点切割次级片段以产生各次级片段的次次级片段。所述的酶与第一取样核酸内切酶相同或不同,所述的第二取样位点相距第一取样位点已知距离,次次级片段包含既定长度和未知序列的第二粘端序列;和(d)测定各第二粘端的序列;其中,各次级片段的第一和第二粘端序列长度之和为6至10;参照位点和第一及第二粘端的序列和相对位置,特征性地说明了各个cDNA。或者用第一取样核酸内切酶切割的样品包含如下所得cDNA的分离片段,即用限制性核酸内切酶切割含一种或多种cDNA样群的样品,和分离限制性位点在参照位点上的片段。
本发明涉及能将各种方法产生的cDNA样群分类成为亚群或亚组的方法。该方法还可以鉴定一个亚组内的单个分子,而且它可以测定这些个体分子的量。更具体地说,本发明能够分析特定细胞类型的cDNA样群,以得出该细胞基因表达的全貌。该全貌将揭示存在着怎样的cDNA及各自存在多少量。然后,据此应能够确定细胞内mRNA的最初量,这可以通过与可直接测得其体内水平的已知管家基因的表达对比来校准cDNA量。
以人基因组内大约80,000个的总cDNA样群为例,不必对完整的cDNA测序来特异性地鉴定其存在;只要几个碱基对的短“签名”(Signature,即特异性的短序列)就足以特异性地鉴定全部cDNA。而且,假如在今后几年完成了全部人类基因组的测序,应能够用该方法得到的签名从序列数据库中获得原始cDNA的全部序列。利用已有的不完整的数据库,没有从该数据库中取回(reture)任何序列的签名就可能是新的,而且,该方法将很方便地分离它们以完成测序。如果一个给定签名取回了一个以上的序列,则本方法能够通过获取特异性来自有意义序列的进一步序列资料而方便地分辨取回的序列。这是本发明极大地优于SAGE之类方法的一个特征。
Velculescu等,Science 270,484-487(1995)已经用各种可能的9bp序列(开始于一个特定的参照位点,即其“锚定酶”切割位点)来检测GenBank序列数据库87发行版本中的人序列,他们的结果表明,用一个9bp序列,95.5%的标签对应于独特的转录产物或高度保守性(至少250bp以上有>95.5%的序列相同)转录产物家族。将标签中bp数增加到11bp,用于测试数据库,结果,从数据库取回一段以上序列的标签数只下降了6%。
在统计学上,可用Bayer定理计算具有相同“签名”的两序列是同一序列的可能性(概率)
其中“/”表示“假使”,类似地,
(1)除以(2)得
其中,N是签名中的碱基数。显然,4N将随N迅速上升。在先同一序列概率是已知的两条随机序列为同一序列的概率。就一个非多余序列数据库来说,该值实际上为零。所以,我们有4N个签名来检索一个人序列数据库。这种分析方法采用概率相同而空间上无关的碱基,对真的序列来说它们显然不是真的。如果存在碱基的空间相关性等,可能需要大得多的签名,但是正如Velculescu等的分析所得出的那样,情况并不如此,签名的加长并不提高序列分辨率;如前所述,当人基因组可能含有约80,000种序列(其中大量密切相关)时,9bp已足够。8bp的签名提供了65536种不同的签名。为了实验目的,即为了分析组织样品,这将足以分辨出据估计一般细胞内的约15000种不同的cDNA,但是,有可能许多签名将取回一段以上的序列。幸运的是,如后文所述,这可以通过进一步的分析方便地加以分辨。
所以,至少对人cDNA而言,各次级片段的第一和第二粘端序列的长度之和宜为8,各粘端的长度宜为4。
非人类cDNA也可以用本发明方法方便地加以分析。用类似于后文所述的优化程序,根据对特定物种估计的cDNA样群大小来设定第一和第二粘端序列的长度之和。签名的大小可随待分析基因组的大小而异。对更普通的核酸样群也可以进行分析,例如质粒或细菌或病毒小基因组产生的限制性酶切片段。对其它类似方式产生的样群也可以类似地加以分析。
当用限制性核酸内切酶从cDNA切下片段时,较好的是,第一取样核酸内切酶与第一识别位点结合,并在相距限制性核酸内切酶限制性位点既定距离的第一取样位点切断。较好的是,第一识别位点在第一衔接子寡核苷酸内,该寡核苷酸与分离片段的限制性位点杂交或连接。在此方法中,分离片段需要不含第一取样核酸内切酶的识别位点。较好的是,使用严谨性低的限制性核酸内切酶来产生cDNA片段,例如识别4碱基对结合位点的酶(例如NlaⅢ,它在CATG处切割,产生一4bp的粘端)。如果需要识别的结合位点太大,在特定cDNA中没有可识别的结合位点的可能性将太高。
如果不使用限制性核酸内切酶,第一取样核酸内切酶可结合参照位点并在相距参照位点既定距离的第一取样位点切割。在这两种安排中,都必需使用参照位点,因为该位点提供确立各种“签名”所需的信息。
关于分析cDNA样群,必需注意到这一步骤的重要性。用“参照酶”(即限制性核酸内切酶或,第一取样酶)切割固定的cDNA将产生已知终端位于cDNA最近3’端的参照位点处的片段。要记住,目的是检索数据库,这大大减少了从最靠近3’末端限制性位点开始的检索(见图8)。它还提供有关“签名”位置的其它空间信息,即8bp签名与参照位点(图8中的两方框)之间有确定的间隔。与出现在全部cDNA或整个基因组中随机位置的一段给定8bp序列相比,与确定的限制性位点具有给定空间关系的8bp签名发生的可能性较低。由此提高了8bp签名的确定能力,使得它足以特异性地鉴定所有或至少绝大部分cDNA。
确保在加入带有取样核酸内切酶识别位点的衔接子之前,cDNA片段内没有取样核酸内切酶识别位点也很重要。为了避免这一问题,可以在使用限制性核酸内切酶之前先用取样核酸内切酶处理cDNA,或者,为此,取样核酸内切酶和限制性核酸内切酶可以是同一酶。这将产生具有多义粘端的片段。如果要使用不同的“参照酶”,这些粘端的大部分将随后被“参照酶”的剪切而去除,因为可能更经常地选这些酶来切割。其余的那些将在分类过程中说明。这意味着实际上将有两种“参照酶”,在此后就两种可能的参照序列进行数据库检索中,必需对此加以考虑。这可能取回较多的针对各种不同序列的各个8bp区域的序列,所以,最好避免使用两种不同的参照酶。
作为较好的另一种方法,为了确保取样核酸内切酶只结合衔接子内的其识别位点而不结合cDNA中的,可以用5-甲基胞嘧啶合成cDNA,而用普通胞嘧啶核苷酸合成衔接子。只要使用的是甲基化敏感性取样核酸内切酶,该取样核酸内切酶将只结合衔接子内的其识别序列。
较好的是,第二取样核酸内切酶结合第二识别位点并在相距第一取样位点既定距离的第二取样位点切割。用这种方法,由第一和第二取样位点获取信息(以第一和第二粘端序列的形式),而且还知道它们彼此之间和距离参照位点的距离。
较好的是,第一和第二取样核酸内切酶各自含有Ⅱs型核酸内切酶,它们可以彼此相同或不同。第二识别位点可以与第一粘端杂交或连接的第二衔接子寡核苷酸内。
本发明方法获得的是最小的序列信息,所以不依赖于过多的测序。它不需要用常规凝胶法来获取基本序列信息。因为整个过程在溶液中进行,其中的各步骤可以由一台液体处理自动化设备(liquid-handling robot)实施,所以,该方法可高度自动化。可以在自动系统中,同样获得细胞全部cDNA样群的序列信息。
混合核酸样群↓将核酸分类成亚组↓在亚组内同时对样品序列或对分子进行特性分析用上述取样程序,本方法避免了过多的测序,来产生一样群内各cDNA的签名。这些签名的较好的形式是5’-CATGNNNNNXXXXNNNNNYYYYNNN…NNNAAAAAAAA-3’参照…间隔…样品1…间隔…样品2…未知间隔…聚A尾序列较好的是,从一固定的cDNA样群来获取这种签名,但是显然,可以从一序列内的任意位置获取签名,但是如果要令基本序列资料有用,它必需来自各待比较序列中相同的确定的参照位点。cDNA样群最好用例如固相基质,在3’末端的聚A尾序列来固定化。签名的前4bp是已知的,因为它对应于可能来自低严谨性常规Ⅱ型限制性核酸内切酶的参照位点。这可以用来将cDNA样群片段化,先产生一个参照点,从这点取样产生细胞内各个cDNA的独特签名信息。通常,下一个4bp是“第一取样核酸内切酶”(最好是Ⅱ型限制性核酸内切酶)在距离“参照位点”已知数量bp(该数量对一个样群内的各个cDNA都是相同的)处获得的。这4bp是未知的,但显然只有256种可能性。按以下分类程序所述,用带有与可能序列之一互补的微珠,分离出对应于各种可能4bp序列的亚组,可以确定这些4bp。通常,再下一个4bp也可能用相同的Ⅱs型“取样酶”在相距第一取样序列已知距离(对一个样群内的各个cDNA都是相同的)处产生,并且可以如后文所述用“衔接子循环”来确定。所以,对每个cDNA而言,我们有一个已知限制性位点,它是同类位点中聚A尾序列之前cDNA上的最后一个,并与一已知长度cDNA序列样品间隔已知距离。该样品又与下一样品间隔已知数量的bp,且第二样品的长度也是确定了的。
正如用当前可得酶所测定的那样,样品长度可达5bp。样品之间或第一样品和参照位点之间的距离可达20碱基,但是确切距离并不重要,除非必需知道这点。限制性核酸内切酶的切割序列可以是任意长度的,只要它是被Ⅱs型限制性核酸内切酶所识别的序列,但在实践上说来,必需确保该酶实际上切割每个cDNA,并确保剩余的cDNA末端片段有适当长度,以便随后用取样核酸内切酶来取样。
显然,如果用一限制性核酸内切酶来剪切核酸样群,核酸片段的两端都将是粘端,在大多数情况下,两端的粘端是不同的。这可能为分类分离过程带来问题。
为了本发明的目的,使用mRNA避免了这一问题,因为mRNA的3’末端UTR特征是有聚A尾。这个聚A尾可用来将存在的各mRNA的一个末端,通过附着在基质表面的互补聚T寡核苷酸固定到基质上。这确保了cDNA合成后,只有一个末端暴露于随后的Ⅱs型限制性核酸内切酶的切割。限制性酶切后,所有的非固定片段,即没有聚A尾的片段都被洗去,而只留下固定末端的片段。本方法的目的是得出足够的信息来特异性鉴定样群中存在的每个cDNA分子。假设人基因组最大总样群大约为100,000种cDNA,只要末端片段从终止密码子起长约10至20核苷酸,这应该足以获得各个cDNA的独特签名。
Ⅱs型限制性核酸内切酶,“取样核酸内切酶”具有以下特性,即它们识别并结合靶DNA分子内一段特殊序列,但是它们在相距该序列确定距离处切割,在限制性酶切产物的被切割端产生已知长度但序列未知的单链粘端。
例如,酶fokl产生一个4bp的多义(即未知)粘端,在其识别序列下游9bp处。所以,该多义粘端可能是256种可能的4bp寡核苷酸之一(见

图1)。还有许多其它Ⅱs型限制性核酸内切酶,并且如后文在限制性核酸内切酶部分所述,可以用于上述过程。它们的结合位点可由(例如)图2所用的衔接子提供。
有许多Ⅱs型限制性核酸内切酶可用作上述过程的取样酶。表1给出了实例的名单,但不包括全部。有关限制性核酸内切酶的文献总的可参见Roberts,R.,J.Nucl.Acid.Res.18,2351-2365,1988。发现新酶的速度越来越快,专业数据库(例如REBase在英特网上可方便地进入)中记录了更新的名单,使用例如Netscape或Mosaic等软件包可方便地进入上述数据库,并可在以下全球性Web网址找到http://www.neb.com/rebase/。REBase列出了所有已发现的限制性酶,并且定期更新,而且它列出各酶的识别序列和同切点酶,及其制造商和供应商。根据需要和酶的切割特性,可以在衔接子内为某给定酶特制识别位点间的间隔。(参见图2)。
酶名称识别序列切割位点Fokl GGATG9/13BstFslGGATG2/0SfaNⅠGCATC5/9HgaⅠ GACGC5/10BbvⅠ GCAGC8/12表1部分典型的Ⅱs型限制性核酸内切酶该过程的要求是在被分析核酸的末端产生多义粘端。这也可以通过控制性使用5’至3’的核酸外切酶来达到。显然,产生所述粘端的任何方法都满足该过程的要求。
同样,为了只切割各个cDNA一次,并最好留下粘端,必需使用低严谨性限制性核酸内切酶。但是,任何剪切固定化核酸的方法都能满足本发明的要求。Chu,.B.C.F.和Orgel,L.E.在Proc.Natl.Acad.Sci.USA,1985,963-967中报道了位点特异性化学剪切。也可以使用产生平头片段的非特异性核酸酶。但是,较好的是使用Ⅱ型限制性核酸内切酶,因为它识别其位点准确、最易处理、价廉且容易得到。
在步骤(b)中用任何适合产生亚群按其粘端序列的分类方法对第一和第二次级片段进行分类。方法之一包括,将次级片段分成一个样品阵列,各个样品处在单独的容器内;将样品阵列与一固相亲和性基质阵列接触,各固相亲和性基质具有相同于第一粘端预定长度的独特碱基序列,所以,各个样品都与一个可能的碱基序列接触从而样品阵列则与具有预定长度的所有可能的碱基序列接触,以便只在各个独特碱基序列和彼此互补的第一粘端之间发生杂交;从容器中洗去不杂交的物质。
所以,用fokl之类取样核酸内切酶剪切得到的异源核酸样群可以通过分离出以粘端特定序列为特征的亚组而分类成亚群。例如,可以用带有粘端(此粘端与靶核酸亚组上的粘端互补)的寡核苷酸包被的微珠来分离此亚群。然后可以分离这些微珠,洗涤并释放到一个干净的容器中,就本方法目的而言此容器最好是一个阵列中的一孔。显然,各种分离cDNA的方法都适用于本发明,包括将互补寡核苷酸固定到任何不溶性固相载体上。这可以包括亲和性层析、惰性微珠和离心等各种类似手段,但是以磁性或非磁性的微珠为佳。可以使用各种合适的容器,但是在本方法的一个自动化实施方案中,为了使用液体处理自动化设备,以孔阵列为佳。
在另一实施方案中,为了产生多义粘端而以Ⅱs型限制性核酸内切酶第一次切割产生的cDNA片段,可以用杂交阵列根据其粘端分成亚群。通常,该方法包括(ⅰ)次级片段与杂交阵列结合,所述阵列包含一个寡核苷酸组阵列,各组带有一段独特的碱基序列,所述碱基序列具有相同于第一粘端的预定长度并且能够通过在阵列中的位置来鉴定,所述阵列中存在着预定长度的所有可能的碱基序列,所以,带有各自独特第一粘端的各个亚群在阵列中的一个可鉴定位置杂交;(ⅱ)确定位置来鉴定第一粘端的序列。
对于一个4bp的多义粘端来说,用一个256组寡核苷酸的阵列可分辨所有可能的碱基组合。
理想的是,所用的片段应是第一取样核酸内切酶切割产生的游离于溶液中的片段。这些片段在5’末端带有一个衔接子。为了允许用取样核酸内切酶作第二次切割,阵列上的寡核苷酸必须具有第二取样核酸内切酶的识别位点。可以通过许多方法来完成对第二粘端的测序。使用第二取样核酸内切酶产生了两个次次级片段。
通常,会产生固定化的片段和游离在溶液中的片段。两组片段都带有多义粘端,对它们都可进行分析来测定其它的序列信息。
当使用杂交阵列来分类次级片段,在步骤(c)中切割的次级片段最好是与杂交阵列结合的,使得由其产生的次次级片段仍然结合在杂交阵列上。在此实施方案中,测定各第二粘端序列的步骤(d)包括,次次级片段在杂交条件下与一个衔接子寡核苷酸阵列接触,各衔接子寡核苷酸带有一个标记和一段既定长度与第二粘端相同的独特碱基序列,此阵列包含了既定长度的所有可能的碱基序列,去除不杂交的衔接子寡核苷酸,通过检测标记确定杂交的衔接子寡核苷酸的位置。
该实施方案特别有益,因为这样的阵列可以构建在很小的芯片上,也许为2mm2或更小。这就可以使用尽可能少的试剂,而如此高的浓度可以用来加快衔接子杂交的速度,这正是本方法的限速步骤。
另一种方法是,如果次级片段亚群已经被分类,测定各第二粘端序列的步骤包括分离来自步骤(c)的次次级片段,将次次级片段与一个衔接子寡核苷酸阵列循环接触,各衔接子寡核苷酸带有一个标记和一段既定长度与第二粘端相同的独特碱基序列,此阵列包含了既定长度的所有可能的碱基序列;其中所述的循环包括使阵列中的各衔接子寡核苷酸在杂交条件下与分离的次级片段的各亚群接触,去除所有不杂交的衔接子,通过测定标记确定杂交的衔接子寡核苷酸的存在,然后重复此循环,直到阵列中的所有衔接子都受到的测试。
本方法的这一特殊部分可称为“衔接子循环”。
本方法的这一部分实际上就是通过杂交来测序,可以先以一单个核酸来说明以便理解。假使用一单个核酸,其一端固定于固体不溶性基质上,其游离端已如前所述被fokl切割过,由此产生了一段4bp的多义粘端。
为了测定该粘端的序列,可以用衔接子分子来探测固定化的核酸。该分子是具有一段已知序列的4bp寡核苷酸,是256种可能序列中的一种。此衔接子还另外带有一个荧光探针(和可能的一个取样核酸内切酶的结合位点)。如果衔接子与靶核酸的多义粘端互补,就会与之杂交,然后有可能使衔接子与靶序列连接。可以洗涤固定化基质去除所有不结合的衔接子。要确定衔接子是否与固定化的靶核酸杂交,只需测定基质的荧光即可。这还将揭示有多少衔接子发生了杂交,由此可知固定化cDNA的量。检测杂交情况的其它方法也可用于本发明。除了荧光探针,还可以使用放射性标记衔接子、染料、稳定的同位素、标记寡核苷酸、酶、碳水化合物生物素,及其它。
构建衔接子寡核苷酸是众所周知的,其细节和论述可在许多论文中找到,包括Gait,M.J.编辑的“寡核苷酸的合成一种实用方法”,IRL Press,Oxford,1990;Eckstein编辑的“寡核苷酸及其类似物一种实用方法”IRL Press,Oxford,1991;Kricka编辑的“非同位素DNA探针技术”,Academic Press,San Diego,1992;Haugland,“荧光探针和化学检测手册”,Molecular Probes,Inc.,Eugene,1992;Keller和Manack,“DNA探针,第2版”,Stockton Press,New York,1993;和Kessler编辑的“非放射性标记和生物分子检测”,Springer-Verlag,Berlin,1992。
使用这些衔接子的条件也是众所周知的。有关核酸探针杂交条件效果的细节是可以获知的,例如在以下文章中Wetmur,Critical Reviews in Biochemistry andMolecular Biology,26,227-259,1991;Sambrook等,“Molecular Cloning:Alaboratory Manual,第2版”Cold Spring Harbour Laboratory,New York,1989;和Hames,B.D.,Higgins,S.J.,“核酸杂交一种实用方法”IRL Press,Oxford,1988。
同样,衔接子的连接也是众所周知的,在以下文献中对连接的化学方法有所论述Ferris等,Nucleosides and Nucleotides 8,407-414,1989;和Shabarova等,Nucl.Acid.Res.19,4247-4251,1991。
较好的是使用酶连接,而较好的连接酶是T4DNA连接酶、T7DNA连接酶、大肠杆菌DNA连接酶、Taq连接酶、pfu连接酶和Tth连接酶。这些连接酶的详细信息可参见Lehman,Science 186,790-797,1974;和Engler等,“DNA连接酶”,3-30页,Boyer编辑的“The Enzymes Vol.15B”,Academic Press,NewYork,1982。使用这些连接酶的方案可参见Sambrook等的上述著作;Barany,PCR方法和应用,1:5-16,1991;和Marsh等,Strategies 5,73-76,1992。
如果衔接子与靶核酸的多义粘端不互补,可以试用第二探针,并重复上述过程,直到对256种可能的探针都进行了测试。
显然,其中一个探针将是与多义粘端互补的。一旦发现了该探针,靶核酸的末端也将携带一个取样核酸内切酶的结合位点,该酶将切割靶核酸进一步暴露出碱基供分析,对于靶核酸下一个4bp可重复上述过程。该相互作用过程可重复,直至整个靶核苷酸序列被测定。
另一方面,本发明提供了一种鉴定样品中DNA的方法。该方法包括如上所述对cDNA进行特性分析,以便获得参照位点和第一及第二粘端的序列和相对位置,将这些序列和相对位置与已知cDNA(例如从DNA数据库中获得的那些)的参照位点和第一及第二粘端的序列和相对位置作比较以签定样品中的各个cDNA。该方法可以用来鉴定单独一种cDNA或一个cDNA样群。
另一方面,本发明提供了一种测试样品中一种或多种特殊cDNA的方法。该试验方法包括如前文所述对cDNA样品进行特性分析的方法,其中的参照位点是既定的,分类步骤(b)中各第一粘端的序列是既定的第一粘端序列,而步骤(d)中的各第二粘端序列通过检测既定的第二粘端序列来确定。在该试验方法中,参照位点和既定第一和第二粘端的相对位置特征性地说明了各种特定的cDNA。该试验方法可用来检测一种特殊cDNA或一群特殊cDNA的存在。参照位点和第一及第二粘端序列以通过选择来自一种或多种已知靶cDNA(例如可从一cDNA数据库获得的那些)的相应序列来预先确定为宜。
以下,将参照实施例和附图对本发明进行更详细的说明。
附图简述图1显示fokl的限制性酶切活动;图2显示对衔接子核苷酸的切割活动;图3显示优选衔接子寡核苷酸的结构;图4显示自清除(self-removing)衔接子寡核苷酸的结构;图5显示寡核苷酸衔接子上的一组多重染色;图6a-c显示本发明实施方案之一的流程图;图7a-c显示本发明另一实施方案的流程图;图8显示一种检索序列数据库以分离与签名对应的人cDNA的运算法。
本发明的方法可用于一群异源的固定化核酸,对它们进行平行分析。要成功用于核酸样群,本发明基于以下事实,即从统计学上说,在用fokl切割后,总样群中256种分子有一个将带有一种可能的4bp粘端。估计通常人细胞表达大约15000种不同类型的mRNA。如果一个cDNA样群由上述分类程序分成256种亚群,各亚群将平均含约60种不同cDNA,此cDNA产生一个大约15000转录物的mRNA样群。如果用fokl对它们进行切割,估计几乎全部都将具有不同的多义粘端(两段不同的cDNA具有相同的前4bp粘端的机会约为1/1000),所以,对大多数目的而言,可以假设,一个杂交信号只对应一种cDNA类型。所以,随后加入荧光标记的衔接子序列将允许测定出cDNA混合样群中的末端4bp,总的说来对该样群中各个cDNA产生9bp的签名。
只要信号到达光电倍增器,荧光检测仪通常能够检测出单个分子的荧光,所以,为了确保该过程的可靠性,在固定化基质设计时选择是十分重要的。然而,这意味着,当使用荧光标记衔接子时,杂交信号是定量性的,这将揭示有多少衔接子分子与固定化片段发生了杂交。显然,这与存在的各个cDNA的拷贝数成正比。所以,各杂交信号还将揭示各个cDNA在样群中的相对比例。这可能回过来与体内mRNA水平相关,通过直接测定体内某特定mRNA(以具有高拷贝的为佳,例如管家基因)的量而确定。该含量与通过衔接子循环测得的mRNA相对量之比将作为计算各种mRNA体内原始量的转变系数。
荧光信号检测可用易得到的光学仪器进行。荧光标记通常具有最适激发频率,和然后在特定波长处由激发态回到基态的荧光。可以用激光在特定频率进行激发,然后用集光透镜、光束分离器和信号分布镜片检测荧光。由此将荧光信号直接送至光电倍增器,它将光信号转化为可用合适的电子系统解读的电信号。例如,参见PCT/US95/12678的pp26-28。有关固相支持物的论述可参见该文献的第12至14页。
在将cDNA分类成亚组的过程中获得了4bp序列的信息,只需要进行衔接子循环一次就可以获得测试孔内各cDNA的8bp签名。利用液体处理自动化设备,这可在分类过程产生的全部256个测试孔同时进行。
确定衔接子内fokl的识别位置将确定暴露出下一个4bp是否是该序列中的下一个4bp。或者它们可能与最后的4碱基对部分重叠,产生部分多余的信息,或者它们是更下游遗漏的数个碱基,所以,只对固定化靶核酸的序列样品取样。图2说明了这一点。衔接子切割方式涉及到那些核苷酸在靶核酸中留下了单链,决定于fokl识别位点与靶DNA之间的间隔。序列碱基可以与衔接子1接触,而在一定间隔后由衔接子2取样碱基。用衔接子3,将获得多余信息。衔接子核酸以粗体(字母)显示,fokl结合位点以下划线表示。
不论用何种间隔,涉及4bp寡核苷酸的空间信息被保留了。就本发明的目的而言,取样方法足以构建出最小最经济的衔接子。图3显示了在本发明中用于获取签名的优选最小衔接子。fokl的识别位点以粗体表示。
图6a至c显示了本发明方法的一个较好的实施方案。在步骤1中,mRNA通过与生物素化的聚T杂交而固定。这样能够在将mRNA逆转录到亲和素化玻珠上后捕获样群。在步骤2中,用限制性核酸内切酶处理带有聚A的cDNA,并洗去自由的片段。在步骤3中,加入粘端序列与限制性核酸内切酶粘端互补的衔接子寡核苷酸。此衔接子带有一个第一取样核酸内切酶的识别位点,和任选的一个标记。在步骤4中,用第一取样核酸内切酶处理固定的cDNA片段,首次产生具有粘端的固定片段和游离在溶液中的片段(如果要分析的是固定的粘端片段,步骤2和3是可选性的)。在步骤5中,溶液中的自由次级片段与固定片段分离,并被再分入256个测试孔中。每孔含有一个不溶性基质,以玻珠为佳,此基质由粘端与256种可能的粘端之一互补的寡核苷酸产生。这样,在步骤6中,每孔中的微珠将固定样品中256种可能粘端中的一种,这样的粘端将与微珠连接。然后可将没被固定的片段洗去,由此产生了cDNA片段256个亚群的一个分类样群。
在步骤8中,将第二取样核酸内切酶加入含有步骤7产生的固定片段亚群的各孔中。在本实施例中,第二取样酶是BspM1,它的识别位点在附着于微珠的相同取样衔接子寡核苷酸中。
在溶液中次次级片段和固定在微珠上的次次级片段上都有步骤8产生的多义粘端YYYY。所以,如步骤9所示,通过洗涤固定化基质以去除经切割的衔接子和试剂,可方便地分离得到次次级片段。
在本方法的此阶段,对分析方法的一种选择是以固定化片段进入“衔接子循环”进行的。后文将对此进一步加以说明。如果欲经衔接子循环进行分析的片段是游离在溶液中的,那么必须先将它们固定化。第二种选择是,两种片段都可以利用许多其它方法来进一步分析。如果片段用荧光染料标记,可用杂交芯片来测定末端序列。如果标记是固定化效应物,那么可以用单碱基法将切割片段分离、固定化并分析。
至于图6c中步骤10显示,附着于微珠的次次级片段进入衔接子循环,后文有详细说明。
在图7a至c所示的本发明第二种较好的实施方案中,步骤1至4如前文所述。在步骤5,是固定化片段被分成亚组进行进一步的分析。微珠上的cDNA被分成256份样品,从微珠上释放cDNA并回收微珠。在图7b的第6步中,在各孔中加入磁性微珠,各微珠带有的寡核苷酸序列与第一取样核酸内切酶产生的256种4bp模糊粘端之一互补。杂交后,回收微珠并洗涤,结合该片段一个亚群(亚群内的片段带有独特的第一粘端)的各个微珠被逐一释放到256个干净的测试孔中。这些测试孔中含有永久性固定cDNA的基质,例如亲和素化的玻珠。
在步骤8中,改变杂交条件以释放微珠,然后回收这些微珠。经步骤8后,各测试孔中现含有的微珠具有已知第一粘端,向其中加入带有相同取样核酸内切酶(此处为fikl)识别位点的已知衔接子。步骤9显示的是加入与固定片段杂交的衔接子寡核苷酸。在步骤10中,加入取样核酸内切酶,产生都带有第二粘端的自由次级片段和固定化次级片段。和在第一实施方案中一样,对两种片段都可作进一步分析。
在第一实施方案的图6c和第二实施方案的图7c中对衔接子循环的应用作了进一步的说明。参见图6c,带有第二粘端的微珠在第10步用衔接子循环进行分析。在微珠中加入带有荧光标记的衔接子寡核苷酸。此衔接子含有独特的粘端,该粘端将与固定化片段中可能存在的256种4碱基第二粘端中的一种互补。各衔接子核苷酸的粘端序列是既定的。洗去未杂交的衔接子并测得荧光。重复该循环,直至所有的衔接子都被测试过。
如果一个签名从数据库中取回了一段以上的序列,可偿试用已知签名信息分辨这些序列。如果需要分辨序列,可以用图4所示形式的衔接子修改衔接子循环。该图显示了一种自清除衔接子,此时,加入取样核酸内切酶会导致衔接子切割只切除由衔接子加给靶核酸的核苷酸,由此重新暴露出正在接受测序的碱基。图中衔接子中显示的识别序列是BspM1序列。
在用以上形式的衔接子测定了签名的第二方框后,就可以将其去除,然后,如果一个特定的签名取回了一段以上序列,则可加入针对末端4bp的特异性第二衔接子,获取下一步的样品。采用合适的取样酶,根据要求,这可能是一段寡聚的2、3或4bp的序列,但是显然,附加序列的碱基越少,确定所得粘端序列所需的衔接子越少。
一旦获得了某cDNA的序列信息(也许用原有技术方案),通过使用相同的方法但集中针对一种特定的cDNA本发明可用于分离该特定cDNA。所以,如果已知签名的前4bp,就可以用在分类过程中所用的相应磁性微珠在全部cDNA中筛选此亚组。然后由衔接子循环产出的下一个4bp可以用来构建一个带有合适粘端和一个特异性PCR引物的衔接子。然后,可以用通用的聚T引物和衔接子上的特异性引物来扩增所需的cDNA。此扩增片段将提供独特探针,可用于在Southern或Northern印迹上鉴定完整的cDNA或mRNA。
为了加速衔接子循环,可以成组地加入衔接子,只要各亚组的衔接子以不同的荧光标志标记以便区分各衔接子亚组的杂交。这种类型的修饰仍然可以得出定量信息,但测定各个标记将需要4种不同的光电倍增器。图5显示了在衔接子上使用多种染料,这将可以同时测定成组的衔接子。
“衔接子循环”的一个潜在问题是确保探针杂交的准确性。在含所有Watson-Crick碱基对的短寡核苷酸双螺旋的稳定性之间存在着较大的差异。例如,只含腺嘌呤和胸腺嘧啶的双螺旋不如只含鸟嘌呤和胞嘧啶的双螺旋稳定。在试图令短寡核苷酸混合物(例如4聚体)与互补靶DNA杂交时,这些稳定性的差异可能造成问题。杂交富含A-T的序列需要低温,而在此温度富含G-C的序列将与并不完全互补的序列杂交。这意味着,可能发生某些错配,可能丧失对富含G-C的序列的特异性。在较高温度下,富含G-C的序列将发生特异性的杂交,而富含A-T的序列将不杂交。
为了使这些作用标准化,可对Watson-Crick碱基进行修饰。以下是举例,但不限制·腺苷酸的类似物2,6-二氨基嘌呤与胸腺嘧啶形成三个氢键而非两个氢键,所以形成更稳定的碱基对。
·胸腺嘧啶类似物5-丙酰基dU与腺苷酸形成更稳定的碱基对。
·鸟嘌呤类似物次黄嘌呤与胞嘧啶形成两个氢键而非三个氢键,所以形成较不稳定的碱基对。
以上以及其它可能的修饰可能使温度范围缩小,在此温度范围内,短核苷酸的随机混合物能够特异性地与它们的互补序列杂交。
还可以设计带有能结合多个碱基的碱基类似物的更小的衔接子组,所述的类似物例如脱氧肌苷、2-氨基嘌呤等(Kong Thoo Lin等,Nucl.Acid.Res.,20,5149-5152)。这样的组可能具有以下形式的衔接子GGATGGGATGCCTACAANGCCTACANTGN代表该位置上的所有4种碱基。所以,上述各个衔接子代表了一组4种衔接子。上面的两组只具有一个共有成员,每组与其它四组有一个共有成员。N在粘端的第3位,只有64组,类似地,N在粘端的第2位,也只有64组。所以,为了特异性地鉴定每种碱基,可以使用128组衔接子而非全部256组。为了分辨重叠组,可能需要有关256种样品中的每一个cDNA数量的某些最初信息。用于该方法的经分类的cDNA组将平均具有60种cDNA,它们可以在测序凝胶上加以分辨。如果进行了放射性标记或荧光标记,可以测定各种cDNA的量。其价值可能在于节省时间,因为在衔接子循环中加入每一组衔接子都需要花约1小时使杂交完全。所以,任何加快该过程的方法都可能有用,而且制作凝胶的附加劳动也是值得的。
显然,也可以使用更大的组织样品。如果可以用“摆动(wobble)”微珠来减少简并性,构建前述的多余组将比较便宜。
已经提出了多种分析核酸的单碱基法,也许都适用于本发明。其中大多数避免了DNA测序的凝胶技术,可能适合平行分析上述分类过程产生的亚群。单碱基法已公开,可参见,例如美国专利5,302,509;WO91/06678;J.D.Harding和R.A.Keller,Trends in Biotechnology 10,55-58,1992;WO93/21340;Canard等,Gene 148,1-6,1994;Metzker等,Nucl.Acid.Res.,22,4259-4267,1994;PCT/US95/03678和PCT/GB95/00109。
在本发明中还可以使用杂交芯片、载网和阵列。一个寡核苷酸阵列只需含有256种寡核苷酸,它们分别对应于用“取样酶”第二次处理cDNA片段产生的256种可能的4bp粘端。如果被分析的片段用荧光染料标记,可以从载网上看到荧光的位置来确定cDNA各亚组内的粘端。在用杂交载网分析时也将以和“衔接子循环”相同的方式提供定量信息。这类方法可参见Lehrach et Poutska,Trends Genet.2,174-179,1986;和Pevzner等,Journal of Biomolecular Structure and Dynamics 9,399-410,1991。
由于获取了更多的信息,就可能开发出更多的方法来利用(例如)数据库信息。
显然,通过使用本发明方法,将获得签名以及它们对应的基因的签名数据库。据估计可能有多达10,000条管家基因。为了众多目的,研究者感兴趣的是组织特异性cDNA。管家基因的存在是肯定的,所以,除非为了校准表达水平,在每次使用该方法时都必须对它们进行鉴定是极大的浪费。如果它们签定的基因是已知的管家基因,采用衔接子循环有可能忽略某些cDNA亚组或者遗漏某些衔接子。这将大大加快了解细胞cDNA全貌的过程。而且,很可能大多数衔接子将不与任何序列杂交。如果组织特异性基因是已知的,所要的只是丰度信息,那么只需要使用对应于所需签名的衔接子即可。
这类过程中的修饰可能需要液体处理自动化设备,因为它们在程序处理上有灵活性。
作为进一步的改进,可以优化限制性酶的选择。因为在活的生物体基因组内,碱基间的空间关系和核苷酸频度不是随机的,凭经验可能发现,使用8bp的签名,有些取样酶组合比其它组合能分辨更多的序列,这显然具有极大的价值,因为这将节省用于分辨返回多条序列的签名的时间。
同样,一旦建立了一个细胞类型特异性基因数据库,将可能不需要分辨步骤,因为将会知道在给定细胞类型中将有哪些基因、因而有哪些签名。
分析cDNA以确定特定基因的等位序列变异是极具开发价值的另一用途,继而分析这些改变如何改变了基因在细胞内的表达方式。等位变异可能改变签名,而这类作用将只有通过使用本发明才会显现,而且就长远来看,可以形成另外的极有用的数据库来改进本发明的用途。
实施例实验设计三种不同的PCR产物用来代表3种不同表达水平的基因。用于该目的的PCR产物是阴离子交换蛋白(AE1)的外显子14、16和19,因为我们的实验室已经对这些PCR产物进行了优化。它们将被称为AE14、AE16和AE19。
这些产物被捕捉到Dynalbead上(通过在PCR引物之一内引人生物素)并有效地代表被捕捉的cDNA。AE16的浓度是AE14的一半,而AE19的浓度是AE14的五分之一。
AE14的序列ccaaagctgggagagaacagaatgccttggttttctgctgcagatcttccaggaccacccactacagaagacttataactacaacgtgttgatggtgcccaaacctcagggccccctgcccaacacagccctcctctcccttgtgctcatggccggtaccttcttctttgccatgatgctgcgcaagttcaagaacagctcctatttccctggcaagtcagcataccctcctcgcctgtccttgccaacactgcAE16的序列ctgggagaatgccagggaaaggtctctgcctcccaccctcccaggcccagcccccaccctgtctctcacgtggtgatctgagactccaggaatatgaggatgaagaccagcagagcaggcagggcggaggcaaaatcatccagatgggaaactcggaacgcaagcccagtgggtggatgacccagccccgggctgaggagttgacaccttgaagccatcaggcaccgagagtttctgtgggagggggtagcaggtaagaatgccaagggcAE19的序列gtgataggcactgaccccagcctccgcctgcaggtgaagacctggcgcatgcacttattcacgggcatccagtcatctgcctggcagtgctgtgggtggtgaagtccacgccggcctccctggccctgcccttcgtcctcatcctcactgtgccgctgcggcgcgtcctgctgccgctcatcttcaggaacgtggagcttcagtgtgtgagtggctgcctgggcctggggcacaagagactgggagcatgcg在捕捉之后,先用高频切割酶Sau 3Al消化。该酶识别序列GATC。
由此产生各种产物的如下4bp突出端AE14TTCCAGGACCACC...
CTAGAAGGTCCTGGTGG...
AE16TGAGACTCCAGGAATAT...
CTAGACTCTGAGGTCCTTATA...
AE19ATCTGCCTGGCAG...
CTAGTAGACGGACCGTC...
以下衔接子与Sau 3Al暴露出的4bp突出端互补并含有一个FokⅠ位点,将这些衔接子与捕获片段连接。
衔接子SauFAMFAM-CTAGAGGACGATCGA.GGATG.
GATCTCCTGCTAGCT.CCTAC.GATC|FokⅠ位点这将产生以下序列AE14FAM-CTAGAGGACGATCGA.GGATG.GATC.TTCCAGGACCACC…GATCTCCTGCTAGCT.CCTAC.CTAG.AAGGTCCTGGTGG…AE16FAM-CTAGAGGACGATCGA.GGATG.GATC.TGAGACTCCAGGAATAT…GATCTCCTGCTAGCT.CCTAC.CTAG.ACTCTGAGGTCCTTATA…AE19FAM-CTAGAGGACGATCGA.GGATG.GATC.ATCTGCCTGGCAG…GATCTCCTGCTAGCT.CCTAC.CTAG.TAGACGGACCGTC...
然后用FokⅠ消化上述序列,它在相距GGATG 9个和13个碱基处切割,并向溶液中释放以下片段AE14FAM-CTAGAGGACGATCGA.GGATG.GATC.TTCCAGATCTCCTGCTAGCT.CCTAC.CTAG.AAGGTCCTGAE16FAM-CTAGAGGACGATCGA.GGATG.GATC.TGAGAGATCTCCTGCTAGCT.CCTAC.CTAG.ACTCTGAGGAE19FAM-CTAGAGGACGATCGA.GGATG.GATC.ATCTGGATCTCCTGCTAGCT.CCTAC.CTAG.TAGACGGAC
然后,通过与微滴板上3个不同的测试孔连接来捕获切断的片段,各测试孔含有一特异性衔接子(含有BbvⅠ的识别位点“GCAGC”),模拟分成256亚组的第一阶段,并提供前4bp。BbvⅠ在相距GCAGC 8个和12个碱基处切割。
全序列的衔接子AE14的衔接子(衔接子Bbv14)生物素-N-GCAGC.AGA.
N-CGTCG.TCT.CAGG|BbvⅠ位点AE16的衔接子(衔接子Bbv16)生物素-N-GCAGC.AGA.
N-CGTCG.TCT.CTCCAE19的衔接子(衔接子Bbv19)生物素-N-GCAGC.AGA.
N-CGTCG.TCT.GTCC其中的N是若干碱基。
由此产生以下序列AE14的序列生物素-N-GCAGC.AGA.GTCCTGGAAGATC.CATCC.AGCTAGCAGGAGATCN-CGTCG.TCT.CAGGACCTTCTAG.GTAGG.TCGATCGTCCTCTAG-FAMAE16的序列生物素-N-GCAGC.AGA.GGAGTCTCAGATC.CATCC.AGCTAGCAGGAGATCN-CGTCG.TCT.CCTCAGAGTCTAG.GTAGG.TCGATCGTCCTCTAG-FAMAE19的序列生物素-N-GCAGC.AGA.CAGGCAGATGATC.CATCC.AGCTAGCAGGAGATCN-CGTCG.TCT.GTCCGTCTACTAG.GTAGG.TCGATCGTCCTCTAG-FAM此时,通过FAM标记的荧光来测定浓度,并测定前4个碱基(XXXX)。
接着,用BbvⅠ消化上述片段,暴露出下一个4bp:
AE14的序列生物素-N-GCAGC.AGA.GTCCTN-CGTCG.TCT.CAGGACCTTAE16的序列生物素-N-GCAGC.AGA.GGAGTN-CGTCG.TCT.CCTCAGAGTAE19的序列生物素-N-GCAGC.AGA.CAGGCN-CGTCG.TCT.GTCCGTCTA消化之后,将与3种不同4bp突出端互补的3种不同衔接子与各测试孔连接,依次在各阶段模仿“衔接子循环”和荧光测定。
这些衔接子是AE14(衔接子C14)GGAA.GATCCTGGACAGTTGCTAGGACCTGTCAAC-FAMAE16(衔接子C16)CTCA.GATCCTGGACAGTTGCTAGGACCTGTCAAC-FAMAE19(衔接子C19)AGAT.GATCCTGGACAGTTGCTAGGACCTGTCAAC-FAM通过荧光测定,成功的连接给出了浓度信息和此“标签”(Tag)的后4个碱基(YYYY)。
标签-GATC.YYYY.N.XXXXGATC对应于Sau 3Al位点,FokⅠ消化揭示了头4个碱基XXXX,间隔未知碱基N,对应于BbvⅠ暴露出的下4个碱基的是YYYY。
材料和方法衔接子序列及制备SauFam5′-FAM-CTAGAGGACGATCGAGGATG-3′3′-GATCTCCTGCTAGCTCCTACCTAG-PO4-5′“Bbv”衔接子Bbv145′生物素-6C-CCTAGACTAGAGGACCGATCGAATCAGCAGCAGA-3′3′-GATCTGATCTCCTGGCTAGCTTAGTCGTCGTCTCAGG-PO4-5′Bbv165′生物素-6C-CCTAGACTAGAGGACCGATCGAATCAGCAGCAGA-3′3′-GATCTGATCTCCTGGCTAGCTTAGTCGTCGTCTCCTC-PO4-5′Bbv195′生物素-6C-CCTAGACTAGAGGACCGATCGAATCAGCAGCAGA-3′3′-GATCTGATCTCCTGGCTAGCTTAGTCGTCGTCTGTCC-PO4-5′循环衔接子C145′FAM-CAACTGTCCAGGATC-3′3′-GTTGACAGGTCCTAGAAGG-PO4-5′C165′FAM-CAACTGTCCAGGATC-3′3′-GTTGACAGGTCCTAGACTC-PO4-5′C195′FAM-CAACTGTCCAGGATC-3′3′-GTTGACAGGTCCTAGTAGA-PO4-5′BioFAMFok5′生物素-GGTCACTTAGATCGATCCATGAGGATGCTTCATTCTGATTCAGTCC-3′3′-CCAGTGAATCTAGCTAGGTACTCCTACGAAGTAAGACTAAGTCAGG-FAMBioG5′生物素-GCATCTGGAGTCTACAGTCGTCTATTGACG-3′3′-CGTAGACCTCAGATGTCAGCAGATAACTGCCGGC-PO4-5′GCCG5′FAM-GCATCAGGATGTACAG-3′3′-CGTAGTCCTACATGTCGCCA-PO4-5′FAM-荧光素PO4-磷酸所有引物都购自Oswell DNA Services。
如下制备各种衔接子,在Teckne Dryblock中将含有20pmol/μl浓度的各种引物的200μl TE在90℃加热,然后经2小时令模块(block)冷却至室温。然后将衔接子在冰上孵育1小时,再冷藏于-20℃直至使用。
令Bbv14、16和19衔接子与微滴板结合。
为了通过连接将FokⅠ切割片段捕捉到“Bbv”衔接子上,将“Bbv”衔接子与包被有链霉亲和素的黑色96孔微滴板(Boehringer Mannheim)结合。即通过在各测试孔中将10pmol合适的衔接子(在35μl 1xTE+0.1M NaCl中)4℃通宵孵育。在通宵孵育后,各测试孔用50μl 1xTE+0.1M NaCl洗涤3次。去除1xTE+0.1MNaCl,然后在各孔中加入50μl 1x连接酶缓冲液,将测试板保藏于4℃直至使用。
测试板容量为了测定各测试孔的结合容量(capacity),取10pmol的BioFAMFok衔接子与8个测试孔结合,即将10pmol衔接子(在25μl 1xTE+0.1M NaCl中)4℃通宵孵育。在通宵孵育后,各测试孔用50μl 1xTE+0.1M NaCl洗涤3次。在测试孔系列中加入BioFAMFok的1xTE+0.1M NaCl稀释液(5,2.5,1.25,0.675,0.3375pmol),然后在Biolumin微滴板读数仪(Molecular Dynamics)中读取测试板的荧光度。
得到以下读数(以相对荧光单位表示)稀释液测试孔5pmol 74575RFU2.5pmol 35429RFU1.25pmol 16232RFU0.625pmol 9388RFU0.3375pmol4807RFU与10pmol衔接子孵育并经洗涤的测试孔20872RFU21516RFU22519RFU21679RFU22685RFU21517RFU21742RFU22417RFU平均值=21865根据以上数据,可以计算出21856RFU相对于1.5pmol的BioFAMFok。这个数据与Boehringer Mannheim technical help line提供的测试孔结合生物素化双链DNA的容量(在200μl中有5pmol杂交)是一致的。
吐温(Tween)20对连接的影响在Fokl酶用的反应缓冲液中加入0.1%吐温20,据称降低了与该酶相关的核酸外切酶活性(Fokl信息资料-New England Biolabs)。为了确定加入吐温对随后切割片段的连接是否有影响而进行了以下实验。
建立了9个反应体系,每3个反应体系为一组,在25μl 1x连接酶缓冲液、10pmol BioG衔接子、10pmol GCCG衔接子和200μl连接酶中分别含0、0.05或0.1%的吐温(New England Biolabs)。如上所述建立一个三反应组,含有0.1%吐温但是没有连接酶。以上反应系然后在16℃孵育1小时,再将各反应系转移到包被有链霉亲和素的黑色微滴板(Boehringer Mannheim)的一个测试孔中。该微滴板在室温下孵育1小时,用100μl TES洗涤3次,在Biolumin微滴板读数仪(Molecular Dynamics)中读取荧光度。
得到以下读数(以相对荧光单位表示)0%吐温20 0.05%吐温20 0.1%吐温20 0.1%吐温20(无连接酶)8592 874210213 36608083 871210605 39678720 851911598 34688465 865710805 3698-平均值以上数据表明,加入0.1%吐温20提高了连接效率,所以应该无损于Fokl切割片段与“Bbv”衔接子的连接。
PCR引物,条件和纯化用来代表不同浓度cDNA转录产物的3种PCR产物是人染色体17q21-22上人红细胞阴离子交换蛋白基因的外显子14、16和19。
用于扩增外显子14、16和19的引物序列外显子14正向引物5′-GTATTTTCCAGCCCAAGCCAAAGCTGG-3′反向引物5′生物素-GCAGTGTTGGCAAGGACAGGC-3′外显子16正向引物5′生物素-GCCCTTGGCATTCTTACCTGC-3′反向引物5′-CTGGGAGAATGCCAGGGAAAGG-3′外显子19
正向引物5′GTGATAGGCACTGACCCCAG-3′反向引物5′生物素-CGCATGCTCCCAGCTCTTGTGC-3′将生物素加入各组中的一个引物内使它们被包被链霉亲和素的微珠(DynalUK)捕获。
全部PCR反应都在50μl体积中进行,其中含有1xAmplitaq缓冲液(PerkinElmer)、30pmol正向和反向引物、200μM dNTP、1.25单位Amplitaq(PerkinElmer)和100ng人基因组DNA。在反应物上覆盖50μl矿物油,在Techne’Genie’PCR仪中,在以下条件下循环外显子141轮,95℃2分钟35轮,57.5℃45秒,72℃1分钟,95℃35秒1轮,72℃5分钟外显子161轮,95℃2分钟35轮,52℃45秒,72℃1分钟,95℃35秒1轮,72℃5分钟外显子191轮,95℃2分钟35轮,57.5℃45秒,72℃1分钟,95℃35秒1轮,72℃5分钟纯化在PCR产物与DynaBead结合前需去除过量的引物和盐,这是如下进行的PCR后,纯化前,分别汇集各外显子的10次反应物然后加入2.5体积100%乙醇和1/10体积的3M乙酸钠沉淀PCR产物。再将溶液-20℃孵育30分钟,然后在Heraeus A13台式(benchtop)离心机中以13000rpm离心15分钟,沉淀出DNA。倒掉上清液,将沉淀空气自然干燥。再将干燥后的沉淀重悬在150μl水中。然后,为各样品准备2Chromospin-100层析柱(Clonetech),即按照生产商的说明,将层析柱在Heraeus 17RS离心机中以3500rpm离心3分钟。离心后,将75μl的DNA溶液上样在准备好的各层析柱上,并如上所述进行离心,将纯化的DNA收集在1.5m1的Eppendorf试管中。然后将各外显子的2份样品汇集,在PharmaciaGenequant分光光度计中读取260nm和280nm处的吸光值来测定浓度。
溶液和缓冲液1xTE,pH7.610mM Tris HCl1mMEDTATES,pH7.510mM Tris HCl1mM EDTA2MNaCl1xFokⅠ缓冲液,pH7.950mM乙酸钾20mM Tris乙酸10mM乙酸镁1mM DTT1xBbvⅠ缓冲液,pH7.950mM NaCl10mM Tris HCl10mM MgCl21mMDTT1xSau 3A缓冲液,pH7.933mM Tris乙酸66mM乙酸钾10mM乙酸镁0.5mM DTT
1x连接酶缓冲液,pH7.850mM Tris-HCl10mM MgCl210mM DTT1mMATP50μg/ml BSA结果层析柱纯化的DNA的浓度外显子14-130ng/μl外显子16-120ng/μl外显子19-115ng/μl1μg外显子14(255bp)=5.9pmol,1μg外显子16(272bp)=5.58pmol,1μg外显子19(252bp)=6.03pmol1μg外显子14=7.7μl,1μg外显子16=8.3μl,1μg外显子19=8.7μl,所以,外显子14=0.76pmol/μl,外显子16=0.67pmol/μl,外显子19=0.69pmol/μl。
Sau 3Al消化30、15、6pmol的层析柱纯化的外显子14、16和19分别用20单位Sau 3Al在100μl Sau 3Al缓冲液中37℃消化4小时。
外显子1439.5μl外显子1622.4μl外显子198.7μlSau 3Al 5μl10xSau 3Al缓冲液10μlH2O14.4μl消化后,反应混合物在Techne Dryblock中65℃加热20分钟以灭活酶。DynaBead M280的制备根据生产商的说明,3mgDynaBead M280将结合60至120pmol生物素化的双链DNA。
300μl浓度为1mg/ml的DynaBead M280用100μl TES洗涤,即用磁性粒子浓缩器(Dynal UK)将微珠保持在Eppendorf试管的侧面以便去除上清液。此过程重复3次(根据生产商的说明,以后所有的微珠操作都如此进行)。将微珠重悬在100μl TES中,加入Sau 3Al消化的DNA,在室温下孵育1小时,令生物素化的DNA与微珠结合。
然后,如上所述,用磁性粒子浓缩器、1x连接酶缓冲液将微珠/DNA洗涤3次。
SauFAM衔接子的连接(含FokⅠ位点)去除上清液,将微珠/DNA重悬在75μl连接酶缓冲液中(含300pmol SauFAM衔接子和4000单位连接酶(New England Biolabs))。
微珠/DNA,7.5μl 10连接酶缓冲液,15μl SauFAM(20pmol/μl),10μl连接酶(400单位/μl),42.5μlH2O然后,将反应物16℃孵育2小时。
FokⅠ消化连接后,微珠/DNA用75μl 1xFokⅠ缓冲液洗涤2次,然后重悬在100μl 1xFokⅠ缓冲液中,在Techne Dryblock中65℃加热20分钟灭活所有残留的连接酶。然后去除缓冲液,微珠/DNA重悬在95μl含20单位FokⅠ的1xFokⅠ缓冲液中(NewEngland Biolabs)。
微珠/DNA,9.5μl 10xFokⅠ缓冲液,5μlFokⅠ(4单位/μl)然后,微珠/DNA在37℃孵育2小时。
孵育后,将含有被FokⅠ切割的片段的上清液转移到新的eppendorf试管中,在Techne Dryblock中65℃加热20分钟灭活FokⅠ在微滴板上将FokⅠ切割片段与Bbv衔接子连接然后将FokⅠ片段分人3支试管,各含30μl FokⅠ切割片段、50μl 10x连接酶缓冲液、3μl连接酶(400单位/μl-New England Biolabs)和12μlH2O。
微滴板的各孔中连接酶缓冲液分别含有Bbv 14、16和19衔接子(如前所述制备),去除板上的连接酶缓冲液,在各孔中加入含FokⅠ切割片段和连接酶的上述反应混合物。
各孔在16℃孵育l小时,然后用50μl TES洗涤3次。去除孔中的TES,再加入50μl TES,在Biolumin微滴板读数仪(Molecular Dynamics)中测定荧光度。以没有加过片段,只含Bbv衔接子的测试孔作为空白孔。
以RFU表示数据Bbv14测试孔1774RFUBbv16测试孔1441RFUBbv19测试孔1192RFU空白 1010RFU从其它各孔读数减去中作为背景读数的空白孔的读数,得到以下结果。Bbv14测试孔764RFUBbv16测试孔431RFUBbv19测试孔182RFU因为上述加入过程中的外显子16是外显子14的一半(15pmol外显子16,30pmol外显子14),Bbv16测试孔的读数应该是Bbv14测试孔的一半(即50%),因为外显子19的量是外显子14的五分之一(6pmol外显子19,30pmol外显子14),Bbv19测试孔的读数应该是Bbv14测试孔的五分之一(即20%)。
以百分比表示的理想读数Bbv14测试孔 100Bbv16测试孔 50Bbv19测试孔 20以百分比表示的实际读数(以Bbv14测试孔为100%)Bbv14测试孔 100Bbv16测试孔 56.4Bbv19测试孔 23.8Bbv16测试孔的误差为6.4%Bbv19测试孔的误差为3.8%所以,该方法能够将一群混合的DNA分开来,进行4bp的鉴定,同时将原混合物的相对比例保持在最小误差。然后,依次再进行探测以获得另一个4bp和其相关的定量数据。
权利要求
1.一种对DNA进行特性分析的方法,它包括(a)用第一取样核酸内切酶在第一取样位点切割一个样品,该样品含一种或多种cDNA样群或其分离片段,以产生各cDNA或其分离片段的第一和第二次级片段,所述的cDNA或其分离片段各包含一段与mRNA 3’聚A末端互补的链并具有尾序列,所述的第一取样位点相距尾序列附近的参照位点已知距离,所述的第一和第二次级片段都包含既定长度但序列未知的粘端序列,第一次级片段具有尾序列;(b)根据粘端序列将第一或第二次级片段分类成亚群,并记录各亚群的粘端序列作为第一粘端;(c)在各亚群中用第二取样核酸内切酶在第二取样位点切割次级片段以产生各次级片段的次次级片段,所述的内切酶与第一取样核酸内切酶相同或不同,所述的第二取样位点相距第一取样位点已知距离,次次级片段包含既定长度和未知序列的第二粘端序列;和(d)测定各第二粘端的序列;其中,各次级片段的第一和第二粘端序列长度之和为6至10;参照位点和第一及第二粘端的序列和相对位置特征性说明了该cDNA或各个cDNA。
2.根据权利要求1所述的方法,其中用第一取样酶切割的的样品包含,用限制性核酸内切酶切割含一种或多种cDNA样群的样品而产生的该cDNA的分离片段,与分离限制性位点就在参照位点的分离片段。
3.根据权利要求2所述的方法,其中的第一取样核酸内切酶结合于第一识别位点,并在相距该限制性核酸内切酶限制性位点既定距离的第一取样位点处切割。
4.根据权利要求3所述的方法,其中的第一识别位点在第一衔接子寡核苷酸中,该寡核苷酸与分离片段的限制性位点杂交。
5.根据权利要求2至4中任一项所述的方法,其中的限制性核酸内切酶识别4碱基结合位点。
6.根据权利要求2至5中任一项所述的方法,其中的第二次级片段在步骤(b)中接受分类。
7.根据权利要求1所述的方法,其中的第一取样酶结合于参照位点,并在相距参照位点既定距离处的第一取样位点切割。
8.根据前述权利要求中任一项所述的方法,其中的第一取样核酸内切酶包含Ⅱs型核酸内切酶。
9.根据前述权利要求中任一项所述的方法,其中的第二取样核酸内切酶结合第二识别位点并在相距第一取样位点既定距离处的第二取样位点切割。
10.根据权利要求9所述的方法,其中的第二取样核酸内切酶包含Ⅱs型核酸内切酶。
11.根据权利要求9或权利要求10所述的方法,其中的第二识别位点在与第一粘端杂交的第二衔接子寡核苷酸中。
12.根据前述权利要求中任一项所述的方法,其中cDNA或其片段的尾序列结合于固体基质。
13.根据前述权利要求中任一项所述的方法,其中各次级片段第一和第二粘端序列长度之和为8。
14.根据权利要求13所述的方法,其中各粘端的长度为4。
15.根据前述权利要求中任一项所述的方法,其中将次级片段分类的步骤(b)包括将次级片段分成样品阵列,即各样品分别在不同的容器内;样品阵列与固相亲和性基质阵列接触,各固相亲和性基质带有既定长度与第一粘端相同的独特碱基序列,这样,各样品与可能的碱基序列之一接触,而整个样品阵列则与所有可能既定长度的碱基序列接触,使得杂交只在彼此互补的独特碱基序列和第一粘端之间发生;从容器中洗去未杂交的材料。
16.根据前述权利要求中任一项所述的方法,其中测定第二粘端序列的步骤(d)包括分离步骤(c)产生的次次级片段,并令其与衔接子核苷酸阵列循环接触,各衔接子寡核苷酸带有一个标记和一段既定长度与第二粘端一样的独特碱基序列,阵列中包含了既定长度的所有可能的碱基序列;其中的循环包括按次序在杂交条件下将阵列的各衔接子寡核苷酸与分离的次级片段的各亚群接触,去除所有未杂交衔接子寡核苷酸,并通过检测标记来测定杂交衔接子寡核苷酸的存在,然后重复此循环,直至阵列中的所有衔接子都受到测试。
17.根据权利要求1至14中任一项所述的方法,其中分类次级片段的步骤(b)包括(ⅰ)次级片段与杂交阵列结合,所述的阵列包含多组寡核苷酸的阵列,各组带有既定长度与第一粘端相同的独特碱基序列,而且所述的组能够通过在阵列中的位置加以鉴别,该阵列中存在既定长度的所有可能碱基序列,使得带有独特第一粘端的各亚群在阵列中的可鉴别位置上发生杂交;和(ⅱ)确定杂交位置来鉴定第一粘端序列。
18.根据权利要求17所述的方法,其中在步骤(c)中切割的次级片段是与杂交阵列结合的片段,由此产生的次次级片段仍然与杂交阵列结合;并且其中测定各第二粘端序列的步骤(d)包括次次级片段在杂交条件下与衔接子寡核苷酸阵列接触,各衔接子寡核苷酸带有一个标记和既定长度与第二粘端相同的独特碱基序列。所述的阵列中包含了既定长度的所有可能的碱基序列,去除所有未杂交衔接子寡核苷酸,通过检测标记来确定各杂交衔接子寡核苷酸的位置。
19.一种鉴定样品中DNA的方法,它包括为了鉴定样品中某一种或各种cDNA,按照前述权利要求中任一项所述的方法对cDNA进行特性分析,将由此获得的序列、参照位点和第一第二粘端的相对位置与已知cDNA的序列、参照位点和第一第二粘端的相对位置比较。
20.一种分析样品中一种或多种特异性cDNA的方法,它包括实施根据权利要求1至14中任一项所述的方法,其中的参照位点是既定的,分类步骤(b)中的各第一粘端序列是既定的,步骤(d)中的第二粘端序列是通过检测既定的第二粘端序列来确定的,参照位点的相对位置与第一和第二粘端的相对位置特征性地说明了各特定的cDNA。
21.根据权利要求20所述的方法,其中的参照位点和第一和第二粘端序列是通过从一种或多种已知靶cDNA中选择相应序列来预先确定的。
全文摘要
一种对cDNA进行特性分析的方法,它包括:(a)用第一取样核酸内切酶在第一取样位点切割一群含一种或多种cDNA或其分离片段的样品,以产生各cDNA或其分离片段的第一和第二次级片段,所述的cDNA或其分离片段都包含一段与mRNA3’聚A末端互补的链并具有尾序列,所述的第一取样位点相距尾序列附近的参照位点已知距离,所述的第一和第二次级片段都包含具有既定长度序列但未知的粘端序列,第一次级片段具有尾序列;(b)根据粘端序列将第一或第二次级片段分类成亚群,并记录各亚群的粘端序列作为第一粘端;c)在各亚群中用第二取样核酸内切酶在第二取样位点切割次级片段以产生各次级片段的次次级片段。所述的内切酶与第一取样核酸内切酶相同或不同,所述的第二取样位点相距第一取样位点已知距离,次次级片段包含具有既定长度但序列未知的第二粘端序列;和(d)测定各第二粘端的序列;其中,各次级片段的第一和第二粘端序列长度之和为6至10;参照位点和第一及第二粘端的序列和相对位置特征性地说明了该cDNA或各个cDNA。
文档编号C12N15/10GK1234076SQ9719889
公开日1999年11月3日 申请日期1997年9月5日 优先权日1996年9月5日
发明者G·施密特, A·H·汤普森 申请人:布拉克斯基因组有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1