检测或量化核酸物类的方法和组合物的制作方法

文档序号:3397759阅读:1157来源:国知局
专利名称:检测或量化核酸物类的方法和组合物的制作方法
技术领域
本发明从总体上涉及核酸分析的方法和装置,具体而言涉及核酸分析的方法和装置。
背景技术
确定核酸样品中4种核苷酸的序列的速率是分子生物学、医学和生物技术进一步发展的主要技术障碍。自1978年就使用涉及在凝胶中分离核酸分子的核酸测序方法。其他已证明的核酸测序方法是通过杂交进行测序(SBH)。
传统的确定核苷酸序列的方法(即样品中A、G、C和T的顺序)是通过在特定的核苷酸处降解或复制链的双脱氧链终止法制备出随机终止的、不同标记的核酸片段混合物来进行的。然后将所得的1至500bp间的核酸片段在凝胶上分离,产生一个梯度带,其中相邻样品在长度上有一个核苷酸的不同。
基于阵列的SBH方法不要求在分离、降解、合成或描绘核酸分子时对单一碱基的分辨。使用长度为K个碱基的短链寡核苷酸的错配辨别杂交,可确定靶核酸的K碱基序列寡核苷酸的系列组成。通过唯一重叠评分(uniquelyoverlapping scored)的寡核苷酸组装出靶核酸序列。
有几种可能途径能完成杂交测序。在称为SBH Format 1的方法中,将核酸样品排列,并用标记探针与样品杂交。具有同组核酸样品的影印膜可被用于平行评分几种探针和/或探针可被多重复制。可将核酸样品排列在尼龙膜或其他合适的支持物上并进行杂交。每一膜阵列可使用多次。Format 1对批量处理大量样品特别有效。
在SBH Format 2中,将探针排列在各自序列相应的基质所在处,一标记的核酸样品片段与排列的探针杂交。这种情况下,在与所有排列的探针同时进行杂交反应中可确定片段的序列信息。在测序其他核酸片段时,可再次使用同样的寡核苷酸阵列。通过点滴(spotting)或原位合成探针可制备这些核苷酸阵列。
在SBH Format 3中,使用两组探针。在一种实施方案中,可将一组排列成具有已知位置的探针阵列形式,将另一组标记的探针组储存于多孔板上。在这种情况下,不必标记靶核酸。将靶核酸和一或多个被标记探针加入到已排列好的探针组。如果一个附着探针(attached probe)和一个标记探针在靶核酸上都邻近杂交,那么它们将共价连接,产生一个相当于连接探针总长的可测序列。这种方法可测序长的核酸片段,如完整细菌基因组,无需将核酸亚克隆为小片段。
本发明中,SBH被用于有效地识别和测序一个或多个核酸样品。这一方法常用于核酸诊断、法医和制作基因图谱中。它还可用于识别导致遗传病症和其他特征的突变、评估生物多样性和产生多种其他形式的基于核酸序列的数据。
发明简述本发明提供了一种用于检测靶核酸物类的方法,包括以下步骤提供固定于一种基质的探针阵列和大量标记探针,选择每一标记探针具有与靶核酸第一部分互补的第一核酸序列,并且固定于基质上的至少一个探针的核酸序列与靶核酸序列的第二部分互补,所述第二部分与第一部分相邻;在合适的条件下将靶核酸加样于阵列上使探针序列与互补序列杂交;将一标记探针引入该阵列;使固定于基质上的探针与靶核酸杂交;使标记探针与靶核酸杂交;将标记探针固定于阵列中相邻的杂交探针上;检测固定于阵列中探针上的标记探针。根据本发明的优选方法,固定于基质上的探针阵列包括一组通用探针。根据本发明其他优选方案,固定于基质上的至少两个探针限定靶核酸序列的重叠序列,并且更为优选的是至少两个标记探针限定靶核酸序列的重叠序列。进一步来讲,本发明另一方面提供了一种检测已知序列靶核酸的方法,包括以下步骤将核酸样品与一组附着于固体基质上的固定化寡核苷酸探针在杂交条件下接触,其中固定化探针能与所述靶核酸序列的不同部分特异杂交;将靶核酸与一组标记的寡核苷酸探针在溶液中在杂交条件下进行接触,其中标记探针能与所述靶核酸序列的相邻于固定化探针的不同部分特异杂交;将固定化探针与正好邻接于靶序列上固定化探针的标记探针共价连接(如使用连接酶);去除没有连接上的标记探针;通过检测连接于固定化探针上的所述标记探针的存在来检测靶核酸的存在。本发明还提供了确定一组部分或完整已测序列基因中的一员在细胞型、组织或组织混合物中的表达的方法,包括下列步骤限定特异于已测序基因的固定或标记探针对;将未标记的核酸样品和相应的标记探针与一阵列或多阵列固定探针杂交;在邻接的杂交标记探针和固定探针之间形成共价键;去除未连接探针;通过检测键合于探针阵列中预定位置上的标记探针来确定被测序基因的存在。在本发明一优选实施方案中,靶核酸识别传染性因子的存在。
此外,本发明还提供了一寡核苷酸探针阵列,含有一尼龙膜;在该尼龙膜上的大量寡核苷酸探针亚阵列,这些亚阵列包括许多单一的斑点(spot),每一点由许多同样序列的寡核苷酸探针组成;位于该尼龙膜上亚阵列之间的许多疏水屏障,其中这些疏水屏障防止相邻亚阵列间的交叉污染。
本发明还提供了一种在靶核酸上具有第一末端和第二末端的重复序列的测序方法,包括下列步骤(a)提供许多不同长度的间隔物寡核苷酸,其中间隔物寡核苷酸包括重复序列;(b)提供一个已知与重复序列第一末端相邻的第一寡核苷酸;(c)提供许多第二寡核苷酸,其中之一与重复序列的第二末端相邻,这些第二寡核苷酸是被标记的;(d)将第一寡核苷酸、多个第二寡核苷酸和一个间隔物寡核苷酸与靶核酸杂交;(e)连接杂交的寡核苷酸;(f)从未连接的寡核苷酸中分离出连接的寡核苷酸;(g)在连接的寡核苷酸中检测标记。
本发明还提供了一种靶核酸上具有第一和第二末端的分支点序列的测序方法,包括下列步骤(a)提供与分支点序列第一部分互补的第一寡核苷酸,其中第一寡核苷酸从分支点序列的第一末端延伸至少一个核苷酸;(b)提供许多标记的第二寡核苷酸,其与分支点序列的第二部分互补,其中多个第二寡核苷酸从分支点序列的第二末端延伸至少一个核苷酸,并且从分支点序列第二末端延伸的第二寡核苷酸部分包括来自分支点序列的许多序列的互补序列;(c)将第一寡核苷酸、第二寡核苷酸之一与靶DNA杂交;(d)连接杂交的寡核苷酸;(e)从未连接的寡核苷酸分离连接的寡核苷酸;(f)检测连接的寡核苷酸中的标记。
本发明还提供了使用预测对于靶核酸为阴性的探针来确定序列的方法。通过将靶核酸与“阴性”探针杂交来确定这些探针不与靶核酸形成完全匹配,从而确定靶序列。
本发明还提供了一种使用寡核苷酸探针分析核酸的方法,这些寡核苷酸探针复合有不同的标记,这样在杂交反应中探针重复使用而没有序列信息的损失(即不同的探针具有不同的标记,这样不同探针与靶的杂交可被区别开)。在一优选实施方案中,标记为放射性同位素或荧光分子或酶和带电物质标记(electrophore mass label)。在一更优选的实施方案中,将不同标记的寡核苷酸探针用于Format III SBH中,并将多个探针(多于2个,一个探针为固定化探针)连接在一起。
当与样品中同源核酸相比靶的存在量很小时,本发明还提供了一种检测具有已知序列的靶核酸存在的方法。在一优选实施方案中,靶核酸是一个等位基因,在具有不同来源的核酸的样品中以非常低的频率存在。在另一优选实施例中,靶核酸具有一突变序列,以非常低的频率存在于核酸样品中。
本发明还提供了一种使用单次凝胶测序来确定靶核酸序列的方法。单次凝胶测序的引物来自SBH获得的序列,这些引物用于标准的桑格测序反应为靶核酸提供凝胶序列信息。然后将单次凝胶测序获得的序列与SBH衍生序列相比来确定序列。
本发明还提供了一种使用单次凝胶测序解析分支点的方法。从SBH测序第一轮之后获得的Sfs的末端识别单次凝胶测序反应的引物,这些引物用于标准桑格测序反应中以提供通过Sfs分支点的凝胶测序信息。然后将通过分支点的桑格测序结果与Sfs比较确认相邻的Sfs,从而将Sfs排列起来。
本发明还提供了一种由PCR制备含有靶核酸样品的方法,在SBH反应之前无需纯化PCR产物。在Format I SBH中将PCR粗产物无需预先纯化加样于基质上,在引入标记探针之前可漂洗基质。
本发明还提供了一种用于分析靶核酸的装置和方法。所述装置包含两阵列核酸,它们在所希望的时间被混合在一起。在一优选实施方案中,其中一阵列核酸被标记。在另一优选的实施方案中,将一种材料放置于两阵列探针之间防止两阵列核酸混合。当除去这种材料或使其可渗透时,两阵列核酸被混合在一起。在另一优选实施方案中,一阵列核酸是靶核酸,另一阵列核酸是寡核苷酸探针。在另一优选实施方案中,两阵列核酸均为寡核苷酸探针。在另一优选实施方案中,一阵列核酸是寡核苷酸探针和靶核酸,另一阵列核酸是寡核苷酸探针。在另一优选实施方案中,两阵列核酸均为寡核苷酸探针和靶核酸。
本发明一个使用上述装置的方法包括以下步骤提供固定于基质上的核酸阵列,提供第二核酸阵列,提供使第二阵列核酸与固定阵列核酸相接触的条件,其中一核酸阵列是靶核酸,另一阵列是寡核苷酸探针,分析杂交结果。在一优选实施方案中,固定阵列是靶核酸,第二阵列是标记的寡核苷酸探针。在另一优选的实施方案中,在两阵列之间放置了一种材料以防止核酸的混合,直至除去材料或使之可渗透核酸时,两阵列核酸才能混合。
本发明第二个使用上述装置的方法包括以下步骤提供两阵列核酸探针,提供使两阵列探针相互接触的条件和靶核酸,将在靶核酸上相邻的探针连接在一起,分析杂交结果。在一优选实施方案中,一阵列探针被固定,另一阵列探针被标记。在更为优选的实施方案中,在两阵列之间放置了一种材料以防止探针的混合,直至除去材料或使之可渗透探针时,两阵列探针才能混合。
另外,本发明还提供了寡核苷酸探针阵列被固定于其上的基质,其中,每一个探针与其相邻的探针被一种阻碍样品溶液流动的物理屏障分隔开。在一优选实施方案中,物理屏障由疏水材料构成。
另外,本发明还提供了一种制备被物理屏障分隔的寡核苷酸探针阵列的方法。在一优选实施方案中,使用一种喷墨头将一种格栅置于基质上,提供了一种减少阵列反应体积的材料。
本发明还提供了寡核苷酸被固定于其上形成三维阵列的基质。这种三维阵列将读取探针结果的高分辨力(每一层面每cm2具有相对低密度的探针)与三维空间的高信息容量(多个层面或探针)结合。
本发明还提供了一种寡核苷酸探针固定于其上的基质,其中寡核苷酸探针具有间隔基,间隔基增加了基质和寡核苷酸探针信息部分(如与靶结合并给出序列信息的寡核苷酸探针部分)的距离。在一优选方案中,间隔基包括核糖和磷酸,其中磷酸与核糖通过5’和3’羟基形成酯从而与核糖共价结合,形成聚合物。
本发明还提供了一种将cDNA克隆分为相似序列组或等同序列组的方法,这样可从每一组中选出一个有代表性的克隆进行测序。在一优选实施方案中,在测序大量克隆时使用这种分组的方法,包括以下步骤用大量寡核苷酸探针探测每一个克隆;确定哪个探针和每个克隆结合及每一探针的信号强度;通过识别以相似强度与相似探针结合的克隆将这些克隆分成许多组;每组至少测序一个克隆。在更为优选的实施方案中,多个探针包含约50至约500个不同的探针。在另一优选的实施方案中,多个探针包括约300个不同的探针。在最优选的实施方案中,大量克隆是大量cDNA克隆。
本发明还涉及与分散颗粒复合(共价或非共价)的寡核苷酸探针,其中根据物理性质将颗粒分为许多组。在一优选实施方案中,不同的探针附着于每组分散的颗粒上,通过识别分散颗粒的物理性质确定探针的同一性。在另一实施方案中,根据探针的物理性质来识别探针。物理性质包括任一可用来分辨分散颗粒的性质,包括例如大小、荧光、放射性、电磁荷或吸光度,或附着在颗粒上的标记如染料、放射性核素或EML。在一优选实施方案中,通过一检测颗粒大小、电荷、荧光或吸光度的流式细胞计数器来分离分散颗粒。
本发明还涉及使用与分散颗粒复合的探针来分析靶核酸的方法。这些探针可用于上述的任一方法,但是要通过分散颗粒的物理性质来识别探针。这些探针还可用于Format III步骤中,其中游离探针通过一个标记识别,复合于分散颗粒上的探针由物理性质识别。在一优选实施方案中,探针用于用SBH测序靶核酸。
本发明还涉及使用降低互补多核苷酸链结合稳定性(降低结合能)的试剂和提高互补多核苷酸链结合稳定性(提高结合能)的试剂的方法。在一优选实施方案中,该试剂是三烷基铵盐、氯化钠、磷酸盐、硼酸盐、有机溶剂如甲酰胺、乙二醇、二甲基亚砜和二甲基甲酰胺、尿素、鈲盐、氨基酸类似物如甜菜碱、多胺如亚精胺和精胺或其他中和磷酸骨架负电荷的带正电荷的分子、去污剂如十二烷基磺酸钠、十二烷基肌氨酸钠、小/大沟结合剂、带正电荷的多肽和插入剂如吖啶、溴乙锭和炭疽菌素。在一优选实施方案中,用一种试剂降低或提高互补多核苷酸对的Tm。在一更优选的实施方案中,用试剂的混合物降低或提高互补多核苷酸对的Tm。在一最优选的实施方案中,用一种试剂或试剂的混合物提高从错配的互补多核苷酸中辩别完全匹配的互补多核苷酸的能力。在一优选实施方案中,加入试剂或多种试剂从而AT碱基对的结合能约等于GC碱基对的结合能。通过加入试剂中和或屏蔽多核苷酸骨架中磷酸基团的负电荷可提高这些互补多核苷酸的结合能。
附图的简要描述

图1为用于批量生产探针阵列的装置的俯视图。
图2为用于批量生产探针阵列的装置的侧视图。
图3为用于批量生产探针阵列的装置的分配单元的分解侧视图。
优选实施方案的详细描述Format I SBH适于同时分析多组样品。在成千上万个独立的杂交反应中使用许多小膜片可在大的阵列上进行成千上万个样品的平行评分。DNA的识别涉及每个反应1-20个探针,某些情况下突变的识别涉及为每个样品特异选择或设计的1000多个探针。为鉴定突变的DNA片段的性质,可为第一轮杂交中检测出的每种突变合成或选择特异性探针。
可将DNA样品制备成小阵列,这些小阵列可被合适的间隔物分隔开,可用选自排列在多孔板上的一组寡核苷酸探针同时检测。小阵列可由一个或多个样品组成。每个小阵列中DNA样品可包括一个序列的突变体或个体样品。可将相邻连续的小阵列组合成较大的阵列。这类较大的阵列可包括相同的小阵列的重复阵列或可包括不同DNA片段样品的阵列。通用组探针包括以预定精确度分析DNA片段的足够的探针,如考虑到读取每个碱基对(“bp”)的冗余性。这些组包括的探针可多于一个特定片段所必需的探针,但包括的探针可少于测试成千上万个不同序列DNA样品所必需的探针。
DNA或等位基因的识别和诊断测序方法可包括下列步骤1)从专用的、具代表性的或通用性组中筛选探针亚组,以与多个小阵列的每一阵列杂交;2)在平行分析的每个阵列的每一亚阵列上加入第一探针;3)进行杂交并对杂交结果进行评分;4)剥离先前使用过的探针;5)对要评分的剩余探针重复进行杂交、评分和剥离步骤;6)对所得结果进行处理得到最终的分析结果或确定其他要杂交的探针;7)对某些亚阵列进行再次杂交;8)对全套数据进行分析并得到最后的分析结果。
这种途径提供了一种快速识别和测序一种类型(如DAN,RNA)的少量核酸样品的方法,还提供了使用预先合成的一组易控大小探针平行分析呈亚阵列形式的多种样品类型的方法。将两种途径结合产生出一种用来确定DNA同一性、DNA诊断和识别突变的有效而通用的方法。
对于识别已知序列,可使用一小组较短探针,代替较长的特定探针。在这一途径中,尽管要对较多的探针进行评分,但可合成一组通用探针来覆盖任一类型序列。例如,全套6碱基序列仅包括4096个探针,完整的7碱基序列仅包括16384个探针。
可使用两种水平的杂交进行DNA片段的完整测序。一种水平是覆盖每一碱基的一组足够的探针至少杂交一次。为达到这一目的,可对一标准样品合成一组特异性探针。使用这组探针的杂交结果显示出在非标准样品中是否和在哪里发生突变(不同)。并且,这组探针可包括确定“阳性”探针杂交结果的“阴性”探针。为确定变化的同一性,可使用附加的特异性探针与样品杂交。该附加组探针具有“阳性”(突变序列)和“阴性”探针两种探针,序列的变化由阳性探针识别由阴性探针确定。
在另一实施方案中,来自通用组的所有探针被评分。一组通用组探针允许以两步法对每个样品相对少量的探针进行评分,避免了时间的浪费。杂交过程可涉及连续检测、在第一步用计算机处理首先进行杂交的一最佳亚组探针、然后第二步在所得结果的基础上确定通用组中那些要评分的附加探针。两组探针均具有确认组中阳性探针的阴性探针。并且,可随后在一个单独的步骤中通过将样品与从SBH结果中识别的一组“阴性”探针杂交来确定所得序列。
在SBH序列拼合中,由于偶然性或生物学原因在分析DNA片段时重复出现的K-1寡核苷酸可被特别考虑。如果没有其他信息,相对小的DNA片段可被完全拼合,每一碱基被读取多次。
在拼合相对较长的片段时,由于一组阳性得分探针中的K-1序列(即比探针长度短的序列)的重复出现会引起错读。如果必须确定突变或相似序列这种问题不会存在(即K-1序列不是完全同样被重复的)。可利用某序列的有关知识作为“模板”来正确拼合已知相似的序列(如数据库中存在的序列),通过将用于未知序列的阳性探针排成阵列以显示出在模板上的最佳匹配。
使用一个样品阵列避免了在单一样品或一小组样品上对许多寡核苷酸的连续评分。这一途径允许通过仅对一个物理目标操作来平行评分许多探针。可在相对短时间内测序长度为1000 bp的DNA样品的亚阵列。如果将样品在一个阵列中点滴为50个亚阵列且阵列被重复检测10次,那么可评分500个探针。在筛查突变的发生时,可使用足够的探针覆盖每一个碱基三次。如果存在突变,几个覆盖的探针就会受影响。利用阴性探针同一性信息可作出具有两碱基准确度的突变图谱。为确定这种方式作图中单一碱基的突变,可再附加使用15个探针。这些探针覆盖了针对两个有疑问位置的任一碱基的组合(假设没有缺失和插入)。可在含有一个所给样品的50个亚阵列上在一个循环中评分这些探针。在完成多重标记彩色图(即多重复制(multiplexing))中,将2至6个探针作为一个库(pool),每个探针具有不同的标记如不同的荧光染料,由此减少杂交循环数和缩短测序过程。
在更为复杂的情况下,可能有两个相邻的突变或插入。可用较多的探针进行处理。例如,可用64个探针确定3个碱基的插入。可通过杂交、在先前杂交结果的基础上选择一组新的探针几个步骤处理最复杂的情况。
如果要分析的亚阵列包括一种类型的几十或几百个样品,那么可发现它们中的有些含有一个或多个变化(突变、插入或缺失)。对于发生突变的每个片段,可评分一组特异探针。评分一种类型样品的探针总数可以是数百个。对重复阵列平行评分有利于以较少循环评分数百个探针。此外,可收集相容的探针。阳性杂交可归属于用于检测特定DNA片段的探针,因为这些片段通常在其组成碱基上有75%不同。
使用较大的一组较长探针可分析较长的靶。这些靶可以代表一个片段库如外显子克隆库。
可利用一种特异杂交评分方法确定来自二倍体染色体组的待测序基因组片段中突变的存在。有两种情况i)来自一条染色体的序列代表一个已知的等位基因,来自另一条染色体的序列代表一个新的突变;或ii)两条染色体均含有新的但不同的突变。在这两种情况下,所设计的对变化作出图谱的扫描步骤给出了在突变位置两倍的最大信号差异。并且,这种方法可用于识别个体携带的是哪个等位基因,对于该基因个体是否是纯合的或杂合的。
通过将相应信号与纯合及杂合对照相比较,可以有效获得第一种情况中所需的两倍信号差异的评分。这种途径可确定每一个所给样品中对于每一个特定探针杂交信号的相对减弱。这主要是因为对于与具有相同全匹配靶的不同核酸片段杂交的一个特定探针,杂交效率可有两倍多的差异。并且,依据寡核苷酸探针数目,不同的突变位点可影响多于一个探针。两至四个相连探针信号的减弱较为显著地显示出一个突变位点。可使用几小组的选择探针来检测结果,这些探针中一个或几个能给出全匹配信号,信号平均比来自含错配双链体的信号强8倍。
分隔的膜片允许非常灵活地组织试验,以容纳代表一个所给序列类型的相对较大数量的样品或者以相对少量样品代表的许多不同类型的样品。可以特定的效率控制4-256个样品。可将此点数范围内亚阵列设计成与存储和标记寡核苷酸所用的标准多孔板的形状大小相吻合。对于不同数量的样品可调节亚阵列的大小,或者可使用一些标准大小的亚阵列。如果一种类型的所有样品不适合于一个亚阵列,可以使用附加的亚阵列或膜,并用同样的探针进行处理。此外,通过调节每一个亚阵列的重复数目可改变完成识别或测序过程的时间。
此处所用的“中间片段”指长度为5至1000个碱基的寡核苷酸,优选长度10至40个碱基。
在Format 3中,已知序列的第一组寡核苷酸探针在允许其与具有各自互补序列的核酸杂交的条件下被固定于一种固相支持物上。提供第二组被标记的寡核苷酸探针于溶液中。探针组内及探针组间可以是相同长度的也可以是不同长度的。可将待测序的核酸或其中间片段以双链形式提供给第一组探针(特别是存在recA蛋白以允许在非变性条件下杂交时),或以单链形式提供并在允许不同互补程度的杂交条件下(例如,在允许辨别完全匹配和一个碱基对错配杂交的的条件下)进行。可在使用第二组探针之前之后或同时将待测序的核酸或其中间片段提供给第一组探针。与靶上相邻位点相结合的探针被连接在一起(如通过堆积相互作用或连接酶或能在相邻探针间形成化学键的其他方法)。在使相邻探针结合之后,洗去没有通过化学键与第一组探针中的一员相结合而固定于表面的片段和探针,例如使用使杂交解链的高温(达100℃)漂洗溶液。然后,使用适合于所用标记的方法(例如可以是化学发光、荧光、放射性、酶、光密度或带电物质标记)来检测第二组中结合的探针。
这里使用的核苷酸碱基“匹配”或“互补”指它们在特定的条件下通过氢键形成稳定的双链体。例如在杂交分析中通常采用的条件下,腺嘌呤(“A”)与胸腺嘧啶(“T”)匹配,而不是鸟嘌呤(“G”)或胞嘧啶(“C”)。与此类似,G匹配C,而不是A或T。其他以较差特异方式形成氢键的碱基如次黄嘌呤或通用碱基(“M”碱基,Nichols等1994)或其他被修饰的碱基如甲基化碱基与那些能在特定条件下形成稳定双链体的碱基互补。如果探针中每个碱基都是按照Watson和Crick的碱基配对原则与待测序核酸碱基通过氢键键合形成双链体,那么认为探针“完全互补”或“完全匹配”(即没有任何周围序列的影响,对于一个特定探针形成的双链体具有最大的结合能)。“完全互补”和“完全匹配”也指包含具有类似物或修饰核苷酸的探针。根据为类似物或修饰核苷酸选择的“完全匹配原则”来判断类似物或修饰核苷酸的“完全匹配”(如对一个特定类似物或修饰的核苷酸具有最大结合能的结合对)。根据该原则不形成结合对的探针中的每个碱基被认为在特异性杂交条件下是错配的。
当每一个探针与待测序核酸完全匹配时可将一列探针拼合。然后可对这列探针进行分析,将其以最大重叠形式排序。通过将第一个探针与这列中其他每个探针比较来确定哪个探针在3’末端具有最长的与第二探针5’端碱基序列相同的碱基序列,可完成这种排序。之后,将第一第二探针重叠,通过将第二探针的5‘端与其他所有剩余探针的3’端比较并将第一探针的3’端与其他所有剩余探针的5’端比较来重复这个过程。可连续进行这一过程直至这列中没有探针没有被其他探针重叠。或者,可从阳性探针列中选择出多于一个探针,并平行产生出多于一组的重叠探针(“序列核(sequence nucleus)”)。这种序列拼合的每种方法中的探针列可以是与待测序核酸完全互补的所有探针列或可以是其任一亚组。
可将探针的5‘端和3’端重叠得到较长的序列延伸。连续进行这种拼合探针的过程,直至由于分支点(在片段中一个探针被重复)、长于探针的重复序列或未克隆片段产生错读。在任何两个相关性之间序列的延伸均称为亚克隆序列片段(Sfs)。当由于获得可选择的合适的探针重叠,在序列拼合中产生错读时,可使用跨越可选择重叠位点的较长的探针杂交、竞争杂交、将跨越错读位点探针对的可选择末端与末端连接,或可使用单次凝胶分析(以提供Sfs的非错读排序)。
通过采用上述步骤,从与重叠或非重叠探针直至拼合的Sfs和中间片段或完整来源的DNA分子(如染色体)的全部序列的杂交模式(可与核酸样品同一性有关以用作识别核酸样品的特征)可以获得任一所需水平的序列。
测序通常可包括以下步骤
(a)在允许一个片段与一个具有互补序列的固定化探针形成初级复合物的有效条件下,将固定化寡核苷酸探针的一阵列与一核酸片段相接触;(b)在允许初级复合物与标记的寡核苷酸探针杂交的有效条件下,将初级复合物与这组标记的寡核苷酸探针在溶液中杂交,由此形成二级复合物,其中片段与固定化探针和标记探针均杂交;(c)从二级复合物中除去任一没有杂交的与固定化探针相邻的标记探针;(d)通过检测标记物的存在而检测相邻的标记探针和未标记探针的存在;(e)通过将固定化探针和标记探针的已知序列相连接确定出片段的核酸序列。
选择杂交和漂洗条件以检测基本上完全匹配的杂交(如那些其中片段和探针在7个位置上有6个位置发生杂交的杂交),可选择杂交和漂洗条件允许完全匹配的变异和一对碱基对错配,或选择杂交和漂洗条件允许仅仅检测完全匹配的杂交。
可以按常规方法通过最优化方法或探索研究来确定合适的杂交条件。这种方法和研究通常由那些制定实验方案的本领域技术人员来进行。参见Ausubel等Current Protocols in Molecular Biology,Vol.1-2,John Wiley & Sons(1989);Sambrook等,Molecular Cloning A Laboratory Manual,第二版,Vols.1-3,ColdSprings Harbor Press(1989);和Maniatis等,Molecular CloningA LaboratoryManual,Cold Spring Harbor Laboratory Cold Spring Harbor,New York(1982),所有这些在此引为参考文献。例如,温度、组分浓度、杂交和漂洗时间、缓冲剂成分和其pH及离子强度这些条件均是可以改变的。
在标记探针和固定化探针没有被物理或化学连接的实例中,可仅仅依据受控严紧性的漂洗步骤检测。在这种情况下,由于相邻探针之间的堆积作用,相邻探针具有增强的结合亲和力。为最优化上述过程可改变实验条件。
在固定化和标记探针被连接的实例中,可通过一种化学连接剂(如水溶性碳化二亚胺或溴化氰)进行连接,或可采用一种连接酶如市售的T4DNA连接酶。利用相邻探针相对于非相邻探针稳定性的差别可选择漂洗条件以区分相邻的和非相邻的标记的和固定化的探针。
可使用荧光染料、化学发光系统、放射性标记(如35S、3H、32P或33P)或可用质谱分析检测的同位素来标记寡核苷酸探针。
当未知序列的核酸分子长于约45或50个碱基对时,可将该分子片段化,测定片段序列。通过限制酶消化、剪切或NaOH处理进行片段化。可根据分子大小(如通过凝胶电泳)分离片段,得到约10至40个碱基对的优选片段长度。
可通过本领域已知的多种方法固定寡核苷酸,如使用核苷亚磷酰胺(nucleoside phosphoramidite)或膦酸氢化核苷(nucleoside hydrogen phosphorate)试剂通过一个磷酸基团的激光活化的光脱保护吸附。可使用玻璃、尼龙、硅胶和碳氟化合物支持物。
可将寡核苷酸排成阵列,这些阵列可包括所有的或给定长度的所有探针的亚组或选择长度的探针组。
可使用疏水分隔物分隔开探针或探针的亚阵列。可设计阵列用于不同用途(如作图谱、部分测序、用于诊断目的的靶区域测序、mRNA测序及大规模测序)。通过选择探针在基质上的组合和排列可设计一种特定的芯片专用于一个特定用途。
例如,可构建所有寡核苷酸探针为5个碱基长度的1024个固定化探针阵列(每个阵列含1024个不同的探针)。在该实例中的探针从信息意义上说是5碱基序列(实际上它们可以是较长的探针)。可将第二组1024个5碱基序列探针进行标记,每一个标记探针可与待测序片段一起被提供给固定化探针阵列。在该实例中,1024个阵列将被组合形成一个大的超级阵列或“超芯片”。在那些沿核酸片段一个固定化探针与一个标记探针末端与末端杂交的实例中,通过例如连接将两个探针接合在一起,且在除去未结合的标记之后,通过具有一已知序列的固定化探针阵列中一点处标记的存在与已知序列标记探针上所施用的物质之间的关系,检测与样品片段互补的10碱基序列。样品片段序列其实就是在标记探针序列中连续的固定化探针序列。以这种方式,通过仅利用5碱基序列的组合方法可以检测出所有的一百万种可能的10碱基序列,寡核苷酸合成所需的工作量仅是千分之一。
在一优选实施方案中,将支持寡核苷酸探针阵列的基质分成许多部分,这样阵列中每个探针可以通过例如是疏水材料的物理屏障与相邻探针分隔开。在一优选实施方案中,物理屏障的宽度为100μm至30μm。在一更优选的实施方案中,每个探针中心至任何一个相邻探针中心的距离是325μm。可使用非移动固定基质或固定于带有喷墨沉积装置如微滴量头的旋转鼓或盘的基质及合适的自动操纵系统如一种anorad gantry大量生产这种探针阵列。
在另一优选实施方案中,寡核苷酸探针固定于一个三维阵列。该三维阵列由多层组成,每层可单独进行分析且与其他层是分开的。该三维阵列可以是多种形式的,例如,可将阵列放置在具有许多凹槽的基质上,探针位于凹槽中的不同深度(每一层面由凹槽内相似深度处的探针组成);或可将阵列放置在具有不同深度凹槽的基质上,探针位于凹槽底部或位于将凹槽分隔的凸起处,或者可使用凸起与凹槽的一些组合(每一层面由在某一深度的所有探针组成);或者可将阵列放置于多个片层组成的基质上,所述片层层叠形成三维阵列。
这些阵列中的探针可包括增加基质表面与探针信息部分之间距离的间隔基。这些间隔基可以由能形成至少两个共价键的原子如碳、硅、氧、硫、磷等组成,或可以由能形成至少两个共价键的分子如糖一磷酸酯基团、氨基酸、肽、核苷、核苷酸、糖、碳水化合物、芳香环、烃环、直链和支链烷烃等组成。
可将待测序核酸样品片段化或进行其他处理(如使用recA)以避免样品二级结构妨碍杂交形成。例如可通过限制酶如Cvi JI消化、物理剪切(如用超声)或用NaOH处理来使样品片段化。可通过凝胶电泳分离所得片段,并从凝胶中提取如约10个碱基至约40个碱基之间的合适长度的片段。在一优选实施方案中,核酸样品的“片段”不能与库中其他片段相连。通过用磷酸酶(如小牛小肠磷酸酶)处理片段化的核酸可获得这种片段库。此外,在核酸样品的桑格双脱氧测序反应中使用随机引物(如N5-N9,其中N=A、G、T或C)可获得核酸样品的不可连接片段。这将会产生具有与靶核酸互补序列的且终止于不能与其他片段连接的双脱氧残基的DNA片段。
通过在固定和标记探针间引入可裂解键,然后在完成一轮Format 3分析之后裂解该键可制备可再利用的Format 3 SBH阵列。标记探针可以是核糖核苷酸,或一个核糖核苷酸可被用作标记探针中的连接碱基,这样通过RNAse或尿嘧啶-DNA糖基化处理或NaOH处理可随后将这一探针除去。此外,可选择裂解由化学连接产生的键。
其他改变包括使用修饰的寡核苷酸以提高特异性或效率,循环杂交以增强杂交信号,例如在为第一组标记探针选择的最优化条件(如温度)下进行杂交循环,随后在为第二组标记探针选择的最优化条件下杂交。通过使用末端分别是四种核苷酸碱基A、T、C和G之一的探针的混合物(优选等摩尔量的混合物)确定阅读框中的移动。
对于片段的已排序的序列,分支点产生错读。虽然序列信息通过SBH确定,但可使用(i)以完整凝胶测序的成本的一部分进行长的可读长度的单次凝胶测序;或(ii)与相关序列比较,对这种错读(“分支点”)发生处的杂交数据排序。从SBH序列信息或从已知载体信息如载体插入位点的侧翼序列来识别用于通过分支点的单次凝胶测序的引物,在核酸样品上进行标准桑格测序反应。从这种单次凝胶测序获得的序列与读入读出分支点的Sfs比较以识别Sfs的顺序。或者,通过将Sfs序列与相关序列对比并排序Sfs产生一个与相关序列最接近的序列,可排序Sfs。
此外,可通过单次凝胶测序确定靶片段中串联重复核酸片段的数目。因为串联重复很少发生在基因的蛋白编码部分,所以仅当非编码区之一被识别为具有特殊用途时(如如果它是一个重要的调节区)才进行凝胶测序步骤。
关于一个仅约200个寡核苷酸探针的组显示的杂交程度信息(约为完整测序的5%的劳动)限定了每个基因的唯一特征,可用来从文库中分选cDNA以确定文库是否含有同样基因的多个拷贝。通过这些特征,可区别和查清相同的、相似的和不同的cDNA。
核酸及分离、克隆和测序核酸的方法是本领域技术人员熟知的。参见如Ausubel等,Current Protocols in Molecular Biology,第1-2卷,John Wiley & Sons(1989);Sambrook等,Molecular Cloning A Laboratory Manual,第2版,第1-3卷,Cold Spring Harbor Press(1989),这两份文献在此均引为参考。
SBH是一个发展成熟的技术,可由本领域技术人员熟知的多种方法进行。特别地,下列文献中与杂交测序相关的技术在此引作参考Drmanac等,U.S.专利5,202,231(在此引为参考),1993年4月13日出版;Drmanac等,Genomics,4,114-128(1989);Drmanac等,Proceedings of the First Int′l.Conf.ElectrophoresisSupercomputing Human Genome,Cantor等编,World Scientific Pub.Co.,Singapore,47-59(1991);Drmanac等,Science 260,1649-1652(1993);Lehrach等,GenomeAnalysisGenetic and Physical Mapping,1,39-81(1990),Cold Spring HarborLaboratory Press;Drmanac等,Nucl.Acids Res.4691(1986);Stevanovic等,Gene,79,139(1989);Panusku等,Mol.Biol.Evol.,1,607(1990);Nizetic等,Nucl.Acids Res.,19,182(1991);Drmanac等,J.Biomol.Struct.Dyn.,5,1085(1991);Hoheisel等,Mol.Gen.,4,125-132(1991);Sterezoska等,Proc.Nat′l Acad.Sci.(USA),88,10089(1991);和Drmanac等,Nucl.Acids Res.,19,5839(1991);Drmanac等,Int.J.Genome Res.,1,59-79(1992)。
下述实施例详细描述了本发明。根据本发明公开内容,本领域技术人员可以理解在本发明范围内可作出许多其他实施方案和改变。因此,应认为本发明的较宽范围不限制在下述实施例的公开范围内。
实施例1探针组的制备可制备两种类型的通用组探针。第一组是一组完整的(或至少一个非互补亚组)较短探针,例如所有4096(或约2000非互补)个6碱基序列,或所有16,384(或约8000非互补)7碱基序列。8碱基序列和更长探针的全部非互补亚组不太便于得到,因为它们包括32,000或更多的探针。
选择一组第二种类型的的探针,为一个小的探针亚组,使用至少一个探针足以读出任一序列中的每个bp。例如,16个二聚体中12个是足够的。用于测序双链DNA的7碱基序列、8碱基序列和9碱基序列的小的亚组可分别有约3000、10,000和30,000个探针。
还可选择探针组识别已知序列的靶核酸,和/或识别已知序列靶核酸的等位基因或突变体。这类探针组含有足够的探针,由此靶核酸的每个位置核苷酸至少被读一次。通过失去与一个“阳性”探针的结合来识别等位基因或突变体。然后,通过用含每个可能的核苷酸变化和这些探针位置上变化组合的探针组探测靶核酸来确定这些等位基因或突变体的特异序列。
探针组还可以由50个探针至一个通用组探针组成(具有某一长度的所有探针),更为优选的是该通用组由100-500个探针组成,且在一最优选实施方案中,探针组含300个探针。在一优选实施方案中,探针组是6-9个核苷酸长度,并被用于将cDNA克隆分组为相似序列或等同序列,这样可从每个待测序组中选择出单一代表性克隆。
利用标准化学方法制备末端有1至3个非特定的(混合的A、T、C和G)或通用(如M碱基或肌苷)碱基的探针。如果使用放射性标记,通过放射性标记亚磷基团探针可具有用于激酶化的5’末端羟基。或者,可使用以任一相容系统如荧光染料标记的探针。也可以使用其他形式的探针,如含有PNA(蛋白核酸)或改变双链体稳定性的修饰碱基的探针。
可将探针存放在条形编码多孔板中。小数量的探针可使用96孔板;10,000或更多的探针优选存放在384或864孔板。5至50个板层足以存放所有的探针。约5pg探针足以与一个DNA样品杂交。因此,少量合成每个探针约50mg可分析1亿个样品。如果每三个样品使用一个探针,且如果每个样品长度为1000bp,那么使用一5000个探针组可测序多于300亿个碱基(10个人体基因组)。
实施例2具有修饰的寡核苷酸的探针可将修饰的寡核苷酸探针导入杂交探针并在适当的条件下使用。例如,可使用在C5位置为卤素的嘧啶通过影响碱基堆积来提高双链体稳定性。可使用2,6-二氨基嘌呤在与胸腺嘧啶形成的碱基对中提供第三个氢键,由此热稳定DNA双链体。使用2,5-二氨基嘌呤可提高双链体稳定性,以允许更严格条件退火,从而提高双链体形式的特异性,抑制本底问题和允许较短寡聚体的使用。
Hoheisel & Lehrach(1990)公开了这些修饰核苷酸的三磷酸模型的合成。
也可使用非判别碱基类似物或通用碱基,正如Nichols等人(1994)所设计。制备这种新的类似物1-(2-脱氧-D-呋喃核糖苷)-3-硝基吡咯(以M表示)用在寡核苷酸探针和引物中,以解决由遗传密码子简并性引起的设计问题,或在仅仅可获得片段肽序列数据时。这种类似物在使氢键作用最小化的同时使堆积最大化,而不从立体上破坏DNA双链体。
设计这种M核苷类似物,使用连接于芳杂环上的非质子极性取代基以使堆积作用最大化,增强链内和链间堆积作用以减小氢键在碱基配对特异性中的作用。Nichols等人(1994)赞成使用3-硝基吡咯2-脱氧核糖核苷,因为其与对—硝基苯胺具有结构和电荷相似性,其衍生物是已知最小的双链DNA插入剂。
也可获得核苷M的二甲氧基三苯甲游基保护的亚磷酰胺插入到核苷酸中,用作测序和聚合酶链反应(PCR)的引物。Nichols等人(1994)公开了相当数量的核苷酸可被M取代而不损失引物的特异性。
M的独特性质是其能够取代连续核苷的长链,并仍可产生有效的测序引物。已报道了具有3、6和9个M取代的序列均给出可读序列梯,用三个不同的含M的引物进行PCR均得到正确的扩增产品(Nichols等,1994)。
含3-硝基吡咯的寡核苷酸能用作引物有力地表明双链体结构一定是由互补链形成的。具报道获得的用于寡核苷酸对d(5-C2-T5XT5G2-3)和d(5-C2A5YA5G2-3)(其中X和Y可以是A、C、G、T或M)的光热分布图与DNA双链向单链转变观察到的正常的S形图相吻合。含XM碱基对(其中X是A、C、G或T,Y是M)的寡核苷酸的Tm值具报道均落入3℃范围内(Nichols等,1994)。
实施例3选择和标记探针当制备一阵列亚阵列时,限定在每个杂交循环中每一亚阵列上的待杂交的探针组。例如,可从通用组中选择出一组384个探针,在4个循环的每一循环中可进行96探针探测。所选的在一个循环中杂交的探针优选具有类似的G+C含量。
将选择的用于每一循环的探针转到一96孔板,然后如果它们在被存放前未被标记则通过激酶化或其他标记程序(如用稳定的荧光染料)进行标记。
在第一轮杂交的基础上,可对每个亚阵列限定一组新的探针用于附加循环。在某些循环中某些阵列可能不被使用。例如,如果64个患者样品中仅8个显示出突变,对每一突变首先评分8个探针,那么可在一个循环中对全部64个探针进行评分,32个亚阵列没有被使用。然后,可用防止滤膜干燥的杂交缓冲液处理这些未被使用的亚阵列。
通过任何一种方便的途径可从存放板中查找探针,如单道移液装置或一种自动操纵平台象Beckman Biomek 1000(Beckman Instruments,Fullerton,California)或一种Mega Two机器人(Megamation,Lawrenceville,New Jersey)。可将数据分析程序和探针控制程序结合在自动操纵平台上。
可一个一个地查找探针并将探针加样到杂交缓冲液覆盖的亚阵列。优选将已查找到的探针加到一个新板上并进行标记或与杂交缓冲液混合。优选的查找方法是通过一个一个地存取存放板并从每个板移液(或通过金属插头(metalpins)转移)足够量的每个选择探针到一个中间板的特定孔。可使用一个单独可寻址移液管或插头阵列以加速查找过程。
实施例4制备标记探针通过自动合成法可制备寡核苷酸探针,例如使用本领域技术人员熟知的方法及Applied Biosystems系统。或者,使用利用多孔Teflon晶片堆的GenosysBiotechnologies Inc.方法可制备探针。
例如可用具有100-200um或100-400um点的阵列的放射性标记(35S、32P、33P并优选33P)、非放射性同位素(Jacobsen等,1990)或荧光团(Brumbaugh等,1988)标记寡核苷酸探针。所有这种标记方法在本领域是常规方法,例如在Sambrook等人(1989)的相关部分和如Schubert等(1990)、Murakami等(1991)和Cate等(1991)描述的方法,这些在此均被引作参考。
关于放射性标记,常用方法是使用T4多核苷酸激酶进行末端标记或使用Klenow或平端T7聚合酶进行高度特异性标记。下面对此进行了描述。
合成的寡核苷酸在被合成时其5末端没有磷酸基团,因此通过使用噬菌体T4多核苷酸激酶从[-32P]ATP或[-33P]ATP转移-32P或-33P很容易进行标记。如果反应有效进行,那么这种探针的特异性活性可以与[-32P]ATP或[-33P]ATP本身一样高。下面描述的反应是标记10pmol的寡核苷酸至高比活性。通过提高或减小反应大小、保持所有成分浓度不变可容易获得不同量寡核苷酸的标记。
用1.0ul寡核苷酸(10pmol/ul);2.0ul 10 x噬菌体T4多核苷酸激酶缓冲液;5.0ul[-32P]ATP或[-33P]ATP(比活性5000Ci/mmol;溶液中为10mCi/ml)(10pmol)和11.4ul水制成反应混合物。在该反应混合物中加入8个单位(约1ul)的噬菌体T4多核苷酸激酶,37℃保温45分钟。在68℃加热反应10分钟以使噬菌体T4多核苷酸激酶失活。
然后,确定32P或33P转移至寡核苷酸的效率及其比活性。如果探针的比活性是可接受的,将其纯化。如果比活性太低,再加入8个单位的酶并在37℃再保温30分钟,在68℃加热反应10分钟以使酶失活。
通过如用乙醇沉淀、用溴化十六烷基铵基吡啶沉淀、通过bio-gel P-60色谱纯或在Sep-Pak C18柱上色谱或通过聚丙烯酰胺凝胶电泳可纯化放射性标记的寡核苷酸。
可使用来自E.coli DNA聚合酶I的Klenow片段合成与合成的寡核苷酸互补的一条DNA链,获得高比活性探针。将一个短的引物与一个为所需放射性标记探针互补序列的寡核苷酸模板杂交。然后使用E.coli DNA聚合酶I的Klenow片段按模板所示方式插入[-32P]dNTP或[-33P]dNTP。反应之后,通过变性、随后在变性条件下聚丙烯酰胺凝胶电泳将模板与产物分离。使用这种方法可产生每分子寡核苷酸含有几个放射性原子的寡核苷酸探针。
为使用这种方法,可在微离心管(microfuge)中将获得所需比活必需的且足以完成所有模板链合成的计算量的[a-32P]dNTP或[a-33P]dNTP混合。然后在试管中加入适当量的引物和模板DNA,引物比模板过量3至10倍的摩尔量。
然后加入0.1体积的10 x Klenow缓冲液,并混合好。每5ul反应体积再加入2-4个单位的E.Coli.DNA聚合酶I Klenow片段,混合并在4℃保温2-3小时。如果需要的话,可通过移出少量(0.1ul)等份试样并测量已由10%三氯乙酸(TCA)变为可沉淀的放射性部分,监测反应过程。
反应可用一等体积的凝胶装载缓冲液稀释,于80℃加热3分钟,将整个样品装载到变性聚丙烯酰胺凝胶上。电泳之后,凝胶被放射自显影,使得探针被定位且从凝胶上移出。也可使用各种荧光探针标记的方法,如Brumbaugh等(1988)描述了荧光标记引物的合成。合成了在C-5上连接有12个原子的伯胺“连接臂”的脱氧尿苷类似物。类似物的合成为衍生2-脱氧尿苷通过有机金属中间产物得到5(甲基丙烯酰)-2-脱氧尿苷。与二对甲氧三苯甲基氯反应产生相应的5-二对甲氧三苯甲基加合物。将甲酯水解、活化并与合适的单乙酰烷基二胺反应。纯化之后,将所得的连接臂核苷转化为适于化学合成寡核苷酸的核苷类似物。
然后,使用修饰的phosphoridite化学制备包括一或两个连接臂的碱基的寡核苷酸。向25ul 500mM碳酸氢钠(pH9.4)中的50nmol连接臂寡核苷酸溶液中加入20ul 300mM FITC的二甲基亚砜溶液。室温下搅拌混合物6小时。从游离的FITC上分离寡核苷酸,洗脱形式为使用20mM乙酸胺(pH6)的1×30cmSephadex G-25柱,与第一个紫外吸收峰部分结合。
通常,在寡核苷酸5’-端进行起始荧光标记包括两步。首先,在自动核酸合成中将N-保护的氨基烷基亚磷酰胺衍生物加在寡核苷酸5’-端。在除去所有的保护基团之后,将合适的荧光染料NSH酯与5’-氨基偶联过夜,接着,使用逆相色谱HPLC或PAGE从过量染料中纯化标记的寡核苷酸。
Schubert等人(1990)描述了亚磷酰胺的合成,其能在自动DNA合成中产生以荧光素标记的寡核苷酸。
Murakami等人也描述了荧光素标记的寡核苷酸的制备。
Cate等人(1991)描述了寡核苷酸探针的使用,探针直接连接于结合一种直接化学发光底物(AMPPD)的碱性磷酸酶上以允许探针检测。
可从各种商业来源包括GENSET直接购买标记探针,不必合成。
其他标记包括能用作被标记抗体特异性结合物质的配体、化学发光剂、酶、能用作被标记配体特异性结合对的抗体等等。许多标记已被用在可快速使用的免疫分析中。其他标记还包括抗原、具有特异反应活性的基团和电化学可检测基团。
通常,例如Xu等人在J.Chromatography 76495-102(1997)中描述了以电荷物质标记(“EML”)标记核酸。电荷物质(electrophore)是能用电子俘获质谱(EC-MS)高灵敏检测的化合物。可使用本领域熟知的可逆修饰核苷酸的化学方法(如熟知的核苷酸合成化学教导了许多将分子连接在核苷酸上用作保护基团的方法)将EML连接在探针上。使用各种熟知的电子俘获质谱仪(如Finnigan Corporation出售的仪器)检测EML。另外可用于检测EML的技术包括如快速原子轰击质谱(参见如Koster等,Biomedical Environ.Mass Spec.14111-116(1987));等离子体解吸质谱;电喷射/离子喷射(参见Fenn等,J.Phys.Chem.884451-59(1984),PCT申请WO90/14148,Smith等,Anal.Chem.62882-89(1990));和基体辅助的激光解吸/电离(Hillenkamp等,“Matrix AssistedUV-Laser Desorption/IonizationA new Approach to Mass Spectrometry of LargeBiomolecules.”(基体辅助的紫外激光解析/电离生物大分子质谱新方法)Biological Mass Spectrometry(生物质谱)(Burlingame和McCloskey编),ElsevierScience Publishers,(Elsevier科学出版社)Amsterdam,第49-60页,1990);Huth-Fehre等“Matrix Assisted Laser Desorption Mass Spectrometry ofOligodeoxythymidylic Acids”(寡脱氧胸苷酸的基体辅助激光解析质谱),RapidCommunications in Mass Spectrometry,6209-13(1992))。
在优选实施方案中,EML通过光敏感的共价键被连接于探针上。在通过激光或其他发射所需光波长的光源与靶核酸杂交后,从探针上释放出EML。然后将EML进料到GC-MS(气相色谱-质谱)或其他适合的仪器中并通过其质量被鉴别。
实施例5测序芯片和阵列的制备一个基本的例子是使用附着于50微米表面的6碱基序列得到一个大小3×3mm的芯片,其可被结合得到一个20×20cm的阵列.另一个例子是使用附着于10×10微米表面上的9碱基序列寡核苷酸产生一个大小5×5mm的9碱基序列芯片。可使用4000个这种单元芯片产生一个30×30cm的阵列。每一个阵列中4,000至16,000个寡芯片被排列成一个正方形阵列。根据所描述的也可将一块板或管的集合以这种阵列装配作为测序试剂盒的一部分。
阵列之间以物理形式或通过疏水表面被分离。使用疏水条分隔的一种可能方式是使用如加拿大多伦多QA实验室生产的Iso-Grid Microbiology System这种技术。
疏水格栅薄膜滤器已在分析食品微生物学领域使用了约十年,它们呈现出独特的延伸数字范围和自动记数集群。一种可购买的格栅是QA有限实验室(加拿大多伦多)的ISO-GRIDTM,其由一块正方形(60×60cm)聚砜聚合物(GelmanTuffryn HT-450,孔大小0.45u)构成,上面印有由1600个(40×40)正方形池构成的一个黑色的疏水墨格栅。HGMF原来是通过真空过滤被细菌悬浮液接种,并在选择的鉴别或选择性培养基上保温。
由于微生物的生长被限定在膜上已知位置和大小的格栅池中,HGMF的作用更象一种MPN装置,而非传统的板或薄膜滤器。Peterkin等人(1987)报道了这些HGMF当与一个HGMF复制器一起使用时可被用于复制和存储基因文库。一种这种装置从ISO-GRID的1600池每一池中复制生长,并能制备出主HGMF的许多拷贝(Peterkin等,1987)。
Sharpe等(1989)也使用了QA实验室的ISO-GRID HGMF、自动HGMF计数器(MI-100解释器)和RP-100复制器。他们报道了一种保持和筛选许多微生物培养物的方法。
Peterkin和同事在之后描述了一种使用疏水格栅薄膜滤器筛选DNA探针的方法(Peterkin等,1989)。这些作者报道了直接在HGMF上的有效菌落杂交的方法。开始时由于DNA与HGMF印制其上的环氧砜聚合物结合能力差,得到的结果不好。但是据Peterkin等(1989)报道,在与DNA接触之前用聚乙烯亚胺一种聚阳离子处理复制的保温的HGMF可提高DNA与膜表面的结合。尽管这种早期工作使用细胞DNA吸附,与本发明目的不同,但所描述的方法可用于Format3 SBH中。
为了快速识别有用序列,Peterkin等(1989)使用来自各种克隆的放射性标记质粒DNA并测试其对在所制备的HGMF上的DNA的特异性。以这种方式,通过与HGMF影印复制品上的100个微生物的菌落杂交快速筛选来自重组质粒的DNA,其中HGMF复制品可方便地被复制。
使用小(2-3mm)芯片进行操作,平行进行成千上万个反应。本发明溶液用于保存这些芯片及相应阵列中的探针。在一个实施例中,在一块硅片上合成了含250,000个9碱基序列的芯片,形式为8×8mM板(15uM/寡核苷酸,Pease等,1994)以8×12格式(96芯片)排列,之间有1mM沟槽。通过多道移液管或插头(pin)阵列加入探针,一个探针一块芯片。为对所有4000个6碱基序列评分,必须使用42个芯片阵列,或使用不同的芯片或一组芯片重复使用多次。
在上述情况中,使用该申请的早期术语表,F=9;P=6;F+P=15。芯片可具有通式为BxNn的探针,其中x是特异碱基B的数量,n是非特异碱基的数量,这样,x=4至10,n=1至4。为获得更有效的杂交并避免任一支持物寡核苷酸的潜在影响,特异化碱基被非特异化碱基包围,以通式(N)nBx(N)m表示。
在另一芯片实施方案中,将支持寡核苷酸探针阵列的基质划分成几个部分,这样阵列中每个探针通过一种可以是疏水材料的物理屏障与相邻探针分隔开。在一优选实施方案中,物理屏障的宽度从300μm到30μm,每个物理屏障中心至相邻物理屏障中心的距离至少为325μm。
在一优选实施方案中,使用联配在一种合适的自动操纵系统上的喷墨头将疏水材料沉积在基质上,以形成所需宽度的屏障。例如,一种被用来提供所需疏水材料(如一种在溶剂挥发之后形成屏障的油基材料)悬浮液或溶液的微滴剂量头,可联配在一种无口向台架(anorad gantry)系统上并适于合适的容纳和分散体系,这样可将疏水材料的格栅放置在所需基质上在基质上形成多孔。在疏水材料格栅形成之后,使用类似于形成格栅所用的但适于提供探针溶液或悬浮液的自动操纵系统将不同的探针点在每个孔中(或将探针混合物放置于每个孔中)。在一个实施方案中,使用同样的自动操纵系统提供疏水格栅和探针。在该方案中,在提供了疏水格栅并准备好用于供给探针后冲洗去分散体系。
实施例6与支持物连接的寡核苷酸的制备通过化学方法例如使用自动寡核苷酸合成仪按常规操作直接合成寡核苷酸,可快速制备寡核苷酸即小的核酸片段。
通常,寡核苷酸可通过合适的反应基团连接在支持物上。这种基团是本领域熟知的,例如包括氨基(-NH2)、羟基(-OH)或羧基(COOH)。使用合适的支持物如玻璃、聚苯乙烯或特氟隆,可通过本领域熟知的任一方法制备与支持物连接的寡核苷酸。一种策略是准确点滴通过标准合成仪合成的寡核苷酸。可通过多种方法达到固定化,包括如使用被动吸附(Inouye & Hondo,1990)、UV光(Nagata等,1985;Dahlen等,1987;Morriey & Collins,1989)或通过碱基被修饰的DNA的共价结合(Keller等,1988;1989)或在探针和支持物间形成酰胺键(Wall等,1995;Chebab等,1992;Zhang等,1991);所有这些在此均引为参考。
另一种可使用的方法是使用生物素-链酶抗生物素蛋白的强相互作用作为连接臂。例如,Broude等(1994)描述了生物素酰化探针的使用,但这些是固定化于链酶抗生物素蛋白包膜的磁化珠上的双链体探针。可从Dynal,Oslo购买链酶抗生物素蛋白包膜珠。当然,同样的化学连接法可应用于以链酶抗生物素蛋白包膜任何表面。可从各种来源如Operon Technologies (Alameda,CA)购买生物素化探针。
Nunc Laboratories(Naperville,IL)也销售可使用的合适的材料。NuncLaboratories已开发了一种方法,DNA可被共价连接于称为Covalink NH的微孔表面。Covalink NH是一种聚苯乙烯表面,接枝有用作进一步共价偶联桥头的仲胺基(-NH-)。可从Nunc Laboratories购买Covalink Modules。DNA分子可仅在5’-端通过氨基磷酸酯键连接于Covalink,可使多于1pmol的DNA分子固定化(Rasmussen等,1991)。
使用Covalink NH条在5’-端共价键合DNA分子已有描述(Rasmussen等,1991)。在该方法中,利用了一个氨基磷酸酯键(Chu等,1983)。当优选仅使用单一共价键固定化时是有利的。氨基磷酸酯键将DNA与Covalink NH仲胺基连接,仲胺基位于间隔臂末端,通过一个2nm长的间隔臂共价接枝在聚苯乙烯表面。为通过一个氨基磷酸酯键将一个寡核苷酸与Covalink NH连接,寡核苷酸末端必须具有5’-端磷酸基团。甚至也可能将生物素共价键合于Covalink,然后使用链酶抗生物素蛋白结合探针。
更具体来说,连接方法包括将DNA溶于水中(7.5ng/ul)并于95℃变性10分钟,在冰上冷却10分钟。然后将冰冷的0.1MpH7.0的1-甲基咪唑(1-MeIm7)加入到一终浓度为10mM的1-MeIm7中。再将A ssDNA溶液分散在位于冰上的Covalink NH条中(75ul/孔)。
制备新鲜的溶解于10mM 1-MeIm7的0.2M 1-乙基-3-(3-二甲基氨基丙基)-碳二亚胺(EDC),每孔加入25ul。条于50℃保温5小时。保温后用如Nunc-Immuno Wash漂洗条;首先每孔洗3次,然后将其用洗涤溶液浸泡5分钟,最后再洗3次(漂洗溶液为加热至50℃的0.4N NaOH,0.25%SDS)。
用于本发明的另一种合适的方法描述于PCT申请WO 90/03382(Southern &Maskos),在此引作参考。这种键合于支持物上寡核苷酸的制备方法包括以共价磷酸二酯键将核苷3’-试剂通过磷酸基团与支持物所带的脂族羟基连接。然后在该与支持物连接的核苷上合成寡核苷酸,在标准条件下从合成的寡核苷酸链上去除保护基,而不会从支持物上裂解下寡核苷酸。合适的试剂包括核苷亚磷酰胺和膦酸氢化核苷。
可采用制备DNA探针的芯片上方法制备DNA探针阵列。例如,可寻址激光活化的光脱保护可被用于直接在玻璃表面化学合成寡核苷酸,如Fodor等人所述(1991),在此引作参考。如Van Ness等人(1991)所述也可在尼龙支持物上固定化探针;或使用Duncan & Cavalier(1988)的方法将探针连接在特氟隆上;所有这些在此引为参考。
如Van Ness等人(1991)所述,为将探针与尼龙支持物连接,要求通过烷基化将尼龙表面活化,用氰尿酰氯选择活化寡核苷酸的5’-胺。
一种制备与支持物连接的寡核苷酸的具体方法是利用Pease等人(1994,在此引作参考)所述的发光合成。这些作者使用光石印技术制备固定化寡核苷酸探针阵列(DNA芯片)。这些方法利用光标记的5’-保护的N-乙酰基-脱氧核苷亚磷酰胺、表面连接臂化学和多种组合合成法,其中,光被用来直接合成呈高度密集微型化阵列的寡核苷酸探针。以这种方式可制备一个空间限定的256个寡核苷酸探针的矩阵,如本文所述该矩阵被用于优选的Format 3测序中。
当然,可从市场上方便地购买一个DNA芯片,如上述的光活化芯片。这时可与Santa Clara,CA 95051的Affymetrix和Beckman联系。
在一优选实施方案中,本发明探针包括一信息部分(与靶核酸杂交并给出序列信息的部分)、与基质(固相支持物)相连的反应活性基团和随机化位置即在这些位置上可发现四个碱基的任何一个。一个优选探针具有序列5’-(T)6-(N)3-(B)5,其中T=胸腺嘧啶(与固相支持物结合),N=A、C、G或T(随机化位置),B=探针的5个信息位置(信息部分)。在一优选实施方案中,探针可与支持物连接,间隔基位于探针末端或在探针内和(N)3的5’。间隔基可以由能形成至少两个共价键的原子如碳、硅、氧、硫、磷等组成,或由能形成至少两个共价键的分子如糖-磷酸基团、氨基酸、肽、核苷、核苷酸、糖、碳水化合物、芳香环、烃环、直链和支链烷烃等组成。
实施例7核酸片段的制备可从任一合适来源获得待测序核酸,如cDNA、基因组DNA、染色体DNA、显微解剖的染色体带、粘粒或YAC插入物和RNA,包括没有进行任何扩增步骤mRNA。例如,Sambrook等人(1989)描述了从哺乳动物细胞中分离高分子量DNA的三个方案(p.9.14-9.23)。
可制备核酸片段作为M13、质粒或λ载体中的克隆和/或使用PCR或其他扩增方法直接从基因组DNA或cDNA中制备。可在多孔板中制备或分散样品。制备100-1000ng DNA样品终体积为2-500ml。可直接将PCR制备的靶核酸放置在Format I SBH用的基质上,无需纯化。靶核酸一旦被固定于基质上,可漂洗基质或直接与探针退火。
然后,可使用本领域熟知的任何一种方法将核酸片段化,包括如使用Sambrook等(1989)9.24-9.28中所述的限制性酶,超声剪切和NaOH处理。
低压剪切也是合适的,如Schriefer等所述(1990,在此引为参考)。在这种方法中,在各种低压至中等压力下将DNA样品通过一个小的弗氏压碎器。一种拉杆装置可控制施加到细胞上的低压至中压。这些研究的结果表明低压剪切能用来替代声法和酶法获得DNA片段。
一个具体的制备片段化DNA的方法是使用Fitzgerald等(1992)描述的两碱基识别内切核酸酶CviJI。这些作者描述了一种快速片段化和分级分离DNA呈特定大小的方法,这些DNA被设计为适于鸟枪法克隆和测序。本发明人预见该法也可特别用于产生随机的但相对较小的DNA片段,用在本发明测序技术中。
限制性内切核酸酶CviJI通常在识别序列PuGCPy的G和C之间切割得到平端。改变这种酶(CviJI**)特异性的非典型反应条件得到一个DNA片段形式小分子pUC19(2688碱基对)的拟随机分布。Fitzgerald等人(1992)使用CMJI**消化pUC19,通过快速凝胶过滤法进行大小分级分离和不进行末端修复直接连接至lac Z负M13克隆载体,定量评估了这种片段化方法的随机性。76克隆的序列分析表明CviJI**限制pyGCPy和PuGCPu,以及PuGCPy位点,采集新序列数据的速度与随机片段化一致。
正如文献所报道的,与超声法和琼脂糖凝胶分级分离相比,这种方法的优点包括需要较少量的DNA(0.2-0.5ug代替2-5ug);包括较少的步骤(无需预连接、末端修复、化学提取、或琼脂糖凝胶电泳和洗脱)。在为Format 3测序准备DNA时也指出这些优点是可利用的。
在一优选实施方案中,制备核酸样品“片段”以使它们不被相互连接。通过用磷酸酶(如牛小肠磷酸酶)处理经酶消化或物理剪切获得的片段化核酸可得到这种片段库。或者,在与样品核酸的桑格双脱氧测序反应中使用5’-末端没有磷酸的随机引物(如N5-N9,其中N=A、G、T或C)可获得样品核酸的非可连接片段。这会产生与靶核酸序列互补的DNA片段,以双脱氧残基为末端不能与其他片段连接。
至于获得或制备核酸片段的方法,使DNA变性得到可用于杂交的单链片段是重要的。通过将DNA溶液于80-90℃保温2-5分钟来达到这一目的。然后将溶液迅速冷却至2℃以便在它们与芯片接触之前防止DNA片段的复性。
实施例8DNA阵列的制备通过将DNA样品点滴在如尼龙膜的支持物上可制备阵列。使用金属插头阵列(其位置相应于微滴板上的孔的阵列)可完成点滴通过将20nl的DNA溶液转到尼龙膜上进行复制。通过胶版印刷,得到点滴的密度比孔的密度高。根据所用标记的类型可在1mm2内调节1至25个点。为避免点滴在一些预选数的行和列中,可形成分隔的亚阵列(次级排列)。一个亚阵列中的样品可以是来自不同个体的相同的基因组片段DNA(或相同基因)或不同的重叠的基因组克隆。每个亚阵列可代表同一样品的复制斑点。在一实施例中,可从64个患者扩增一个选择的基因片段。对于每个患者,扩增基因片段可放置在一个96孔板(所有的96孔含同样的样品)。对64个患者中的每个患者制备一个样品。通过使用一个96插头装置可将所有样品点滴在8×12cm的膜上。亚阵列可包含64个样品,每个样品来自一个患者。当96个亚阵列是相同的情况时,点区域可以是1mm2,亚阵列之间的空间可为1mm。
另一种途径是使用可被物理间隔物如在膜上形成的塑料格栅或疏水条分隔开的膜或板(获自NUNC,Naperville,Illinois),格栅与提供于多孔板底部的膜的种类相似。优选固定化物理间隔物不用在平的磷存储屏或x-射线膜上曝光成像。
实施例9杂交和评分方法标记探针可与杂交缓冲液混合,优选用多道移液管移液至亚阵列。为防止亚阵列间探针的混合(如果没有在膜上印记疏水条或物理屏障)可将相应的塑料、金属或陶瓷格栅紧密压在膜上。并且,可将缓冲液体积减至每mm2约1ml或更少。可使用前面所述的探针浓度和杂交条件,除了漂洗缓冲液可被快速倾倒在亚阵列的阵列上以允许探针的快速稀释并由此防止显著的交叉杂交。基于同样的理由,可使用最小浓度的探针,杂交时间可延伸至最大实际水平。DNA检测和测序时,已知一个“正常”序列允许使用连续的堆积相互作用现象以增强信号。除标记探针,还可在杂交反应中加入另外的未标记探针,其与标记探针末端对末端杂交。杂交量可增强几倍。通过连接反应将探针相连。这种途径对于解决DNA区形成“压缩”是重要的。
在放射性标记探针的情况下,优选使用磷存储(phosphorstorage))技术可获得滤膜的像。通过CCD相机、共焦显微技术或其他方法可评分荧光标记。为正确计算和积分来自不同杂交实验的数据,根据每个点上的靶量校正原始信号。通过将每个探针信号除以在每个点上评分的所有探针的平均信号来校正每点靶DNA量的差异。可对校正信号评分,与来自不同实验的数据比通常为1-100。并且,在每一亚阵列中,可使用几个对照DNA,以确定在这些不含完全匹配靶的样品中的平均本底信号。对于获自二倍体(多倍体)评分的样品,可使用纯合子对照,以识别样品中的杂合子。
实施例10与寡核苷酸杂交寡核苷酸可从Genosys Inc.,Houston,Texas购买或在Applied Biosystems381A DNA合成仪上合成。所使用的大多数探针不是经HPLC或凝胶电泳纯化的。例如,可设计探针具有一个处于干扰素中的单一完全互补靶、含921bp EcoRI-Bgl II人B1-干扰素片段(Ohno和Tangiychi,Proc.Natl.Acad.Sci.744370-4374(1981))的M13克隆、和至少在M13载体本身一个末端碱基错配的一个靶。
按照(Maniatis Molecular CloningA Laboratory Manual,Cold Spring HarborLaboratory Cold Spring Harbor,Mew York(1982))所述方法在10ml含T4多核苷酸激酶(5个单位,Amersham)、γ32p-ATP(3.3pM,10mCi Amersham 3000Ci/mM)和寡核苷酸(4pM,10ng)中进行寡核苷酸的终止标记。探针的比活性为2.5-5×109cpm/nM。
在以同样溶液浸湿的Gene Screen膜上点滴单链DNA(在2-4ml的0.5NaOH,1.5M NaCl中),滤膜在0.05M Na2HPO4pH6.5中中和,在80℃的烤箱中烘干60分钟,紫外照射1分钟。然后,将滤膜保温在杂交溶液(0.5MNa2HPO4pH7.2,7%月桂酰肌氨酸钠)中室温下5分钟,放置在塑料培养皿表面。将含有4nM浓度32P末端标记的寡聚物探针的一滴杂交溶液(10ml,0.5M Na2HPO4pH7.2,7%月桂酰肌氨酸钠)加在每张滤膜1-6个点上,用一片正方形聚乙烯(1×1cm)覆盖,在保湿室中指示温度下保温3小时。终止杂交,将滤膜放置在6X SSC漂洗溶液中0℃下3×5分钟除去未杂交探针。将滤膜干燥或进一步在指示时间和温度下漂洗,放射自显影。为测量辨别值,从放射自显影之后干燥的滤膜上剪切下点(可使用一种磷显像仪(Molecular Dynamics.Sunnyvale,California))放置在液体闪烁混合物中并计数。IF和M13点的未校正比率cpm以D值给出。
这里所述的条件允许与非常短的寡核苷酸杂交,但是保证在与靶核酸互补并结合的匹配和未匹配寡核苷酸之间的辨别。影响有效检测特异性短序列杂交的因素基于在完全互补靶和在杂交中有一个错配非完全互补靶之间的辩别程度(D)被确定。在试验性测试中,完成28个长度6至8个核苷酸的探针与2个M13克隆或与结合在滤膜上的模型寡核苷酸的斑点印记杂交。下面给出了指导实验程序的原则。
寡核苷酸与结合了靶核酸的滤膜杂交,在探针过量的条件下仅几个比探针长的核苷酸,对于靶浓度是准一级反应。该反应被表示为St/So=e-kh[OP]t其中ST和SO是时间分别为t和t0时的靶序列浓度。(OP)是探针浓度,t是温度。杂交反应的速率常数kh在0℃至30℃的范围内仅有微小的增加(Porsclike和Eigen,J.Mol.Biol.62361(1971);Craig等,J.Mol.Biol.62383(1971))。对于杂交浓度(这里由于滤膜结合状态由质量代替)杂交解链是一级反应,由下式表示Ht/Ho=e-kmt在该式中,Ht和Ho是时间分别为t和t0时的杂交浓度;km是依赖于温度和盐浓度的杂交解链的速率常数(Ikuta等,Nucl.Acids Res.15797(1987);Porsclike和Eigen,J.Mol.Biol.62361(1971);Craig等,J.Mol.Biol.62303(1971))。在杂交反应中,链关联过程、逆反应、解链或链解离反应同样进行。因此及时形成的杂交量是正反应和逆反应的结果。通过增加探针浓度和/或降低温度可将平衡移向杂交形成。但是,在大量缓冲液的漂洗循环中,因为不存在探针,解链反应是主要的,逆反应杂交是次要的。该分析表明合适的短寡核苷酸杂交(SOH)条件对于探针浓度或温度是变化的。
D或辩别值由下面四个方程式表示D=Hp(tw)/Hi(tw)Hp(tw)和Hi(tw)是漂洗时间tw之后分别为相同量的完全和非完全互补双链体的剩余杂交量。对于一个给定的温度,辩别D随10倍长度的漂洗时间改变,当Hi=B即方程式5时达到最大值。
本底B代表体系可测的最低杂交信号。由于Hi的任何进一步减小是不可测的,D随连续漂洗增加。漂洗经过tw仅降低相对于B的Hp,并被视为D的减小。由方程式3和方程式5得到的对于不完全杂交的最优化漂洗时间tw为tw=-ln(B/Hi(to))/Km,i因为Hp被漂洗同样的tw,结合这两个方程式,可得到最优化辨别函数D=eln(B/Hi(t0))km,p/km,iXHp(t0)/B作为T的函数,由于最优化漂洗温度的选择D的改变是重要的。通过将Arhenius方程K-=Ae-Ea/RT
代入前面的方程得到最后的方程式D=Hp((t0)/BX(B/Hi(t0))(Ap/Ai)e(Ea,i-Ea,p)/RT;其中B小于Hi(t0)。
因为完全杂交的活化能Ea,p和不完全杂交的活化能Ea,i可相等,或Ea,i小于Ea,p,D分别为独立于温度或随温度减小。这个结果意味着为在SOH中好的辨别值寻找严格温度条件是不合理的。通过在较低温度下漂洗,可获得等同的或更好的辨别值,但漂洗时间随温度降低呈指数增加。如果Hi(to)相对于Hp(t0)成比例增加,辨别值随T显著降低。
低温下的D依赖Hp(t0)/B比例的程度高于Hp(t0)/Hi(to)比例。这个结果表明最好在杂交中获得足够量的Hp,而不考虑这个步骤中可得到的辨别值。然后通过漂洗可达到更好的辨别值,因为完全杂交量越高用于示差解链显示出效果的时间就越多。类似地,使用较大量的靶核酸可获得必要的辨别值即使Km,p和Km,i之间仅有很小的差别。
外推一个比该简单模型所覆盖的更为复杂的情况,结果是,在与所给靶核酸内部具有许多末端错配的探针杂交的情况中,在较低温度下漂洗甚至更为重要。
使用所述的理论上的原则作为实验指南,已获得与长度6至8个核苷酸的探针的可信赖的杂交。所有实验均用一飘浮的塑料片进行,该塑料片提供了一张放置在过滤器上的杂交溶液膜。这个程序允许探针量的最大减少,这些减少的标记损失在斑点印记杂交中。在磷酸杂交缓冲液中以高浓度月桂酰肌氨酸钠代替基月桂酰硫酸钠允许反应温度从室温降至12℃。类似地,4-6X SSC 10%的月桂酰肌氨酸钠缓冲液允许在2℃的低温下杂交。这些缓冲液中的去污剂是用于获得具有高达40nM浓度的标记探针可容许本底。在具有50%G+C含量的8碱基序列原型即序列为TGCTCATG探针上确定短寡核苷酸杂交的热力学基本特征。理论预测是该探针处在较不稳定的8碱基序列中。其转化焓与较稳定的7碱基序列甚至长度为6个寡核苷酸的探针相似(Bresslauer等,Proc.Natl.Acad.Sci.U.S.A.833746(1986))。在1分钟单位时间杂交解链50%的温度参数Td是18℃。结果表明对于8bp杂交比对于一个11bp双链体Td低15℃(Wallace等,Nucleic Acids Res.63543(1979))。
除使用模型寡核苷酸实验之外,选择M13载体作为短寡核苷酸杂交的实际验证系统。主要目的是使用类似于在本发明方法各种用途中所用的靶显示有用的末端错配辨别值。以M13载体本身含末端错配碱基这种方式选择用于M13模型的寡核苷酸探针。一种含921bp人干扰素基因插入物的M13重组载体IF携带单一完全匹配靶。因此,在与M13载体本身相比较时,TF具有等同数量或较高数量的错配靶。
使用较低温度条件和斑点印记,在含完全和错配靶的带状斑点和仅含错配靶的斑点之间可获得足够的杂交信号的区别。这对于与大核酸对IF-M13杂交的6碱基序列寡核苷酸是正确的,对于7碱基序列和8碱基序列寡核苷酸也是正确的。
杂交信号取决于与探针反应所用滤膜上可获得的靶量。必要的对照用来表明信号密度的区别不是两斑点中核酸量不同的反应。与在IF和M13中具有相同数量和种类的靶的探针杂交,表明在斑点中具有等量的DNA。因为杂交形成效率随杂交长度增加,用大量结合于滤膜上的寡核苷酸靶最佳检测具有6个寡核苷酸的双链体的信号。由于其较低的分子量,当与用作靶的核酸大分子相比较时,大量寡核苷酸靶分子可被结合于所给的表面区域。
为测量未纯化DNA检测的灵敏性,将不同量的噬菌体上清液点在滤膜上并与32P标记的8碱基序列杂交。含不多于0.5ng DNA的5千万这样少量的未纯化噬菌体给出了可检测信号,表明短寡核苷酸杂交方法的灵敏性是足够的。反应时间短,增加了实用性。
正如上面理论部分所述,杂交平衡的产生取决于探针浓度和/或反应温度。例如,对于相同量的靶4nM 8碱基序列在13℃时的信号水平比探针浓度为40nM时低3倍,通过提高杂交温度至25℃信号水平降低4.5倍。
证明了低温漂洗获得最大化辨别值的实用性。为使现象可视,利用与载体特异探针的杂交,在M13斑点中使用的DNA比IF斑点中多50倍。以这种方式,与实际探针杂交之后的信号比在匹配情况中错配的强。Hp/Hi比例为1∶4。7℃延时漂洗之后获得信号密度转换,没有完全匹配的大量损失,所得比例为2∶1。相反,在25℃不可能获得任何辨别,因为2分钟漂洗匹配信号就已经降至本底水平;同时,错配杂交信号仍是可检测的。相比于7℃ 13℃时辨别值的损失没有这么大,但清楚可视。如果考虑到在7℃时90分钟和13℃时15分钟当错配杂交信号接近本底水平时代表各自条件下最佳漂洗时间,那么7℃时的量比13℃时多几倍。为进一步证明这一点,在两种温度下,随相同起始杂交量的漂洗改变辨别值的时间过程表明,温度较低时最大化D较高。这些结果确证了随温度及在漂洗步骤开始两种类型杂交量的比例,D的改变趋势。
为显示寡核苷酸杂交条件的通用性,我们观察了在简单M13系统中4个7碱基序列、10个8碱基序列和另外长度为12个寡核苷酸的14个探针的杂交。这些包括代表GC含量两个极端的9碱基序列GTTTTTTAA和8碱基序列GGCAGGCG。虽然设想GC含量和序列影响短杂交的稳定性(Bresslaue等,Proc.Natl.Acad.Sci.U.S.A.833746(1986)),但在获得足够的辨别值中低温寡核苷酸条件适用于所有待测探针。因为用长度13个寡核苷酸的探针获得的最佳辨别值是20,由于序列变化造成几倍的降低是容易允许的。
M13系统的优点是能显示在辨别水平上靶DNA复杂性的效果。对于两个8碱基序列其中没有错配靶或有5个错配靶且仅一对GC不同,观察到的辨别值分别是18.3和1.7。
为证明本方法的实用性,在由Bluescript载体文库制备的一批51个质粒DNA斑点上测试了3个长度为8核苷酸的探针。存在一个探针对Bluescript载体是特异的但其不存在于M13中,而其他两个探针具有是已知序列插入物的靶。这个系统允许使用阴性或阳性对照DNA与每个探针杂交。这个探针序列(CTCCCTTT)还具有一个干扰素插入物中的互补靶。因为当干扰素插入物在M13或Bluescript中为阳性时M13斑点是阴性的,所以杂交是序列特异性的。类似地,如果合适的靶存在于克隆中,那么与确证杂交的对照一起检测在51个插入物中仅1个或在待测插入物中没有靶序列的探针将会产生。
对于长度6-8个寡核苷酸的非常短寡核苷酸杂交的热稳定性曲线比长度11-12的寡核苷酸杂交的曲线至少低15℃(附图1和Wallace等,Nucleic AcidsRes.63543-3557(1979))。但是,在低温下与0.4-40nM实际浓度的寡核苷酸探针进行杂交反应,允许在一个已知或未知核酸靶中检测互补序列。为完全确定一个未知核酸序列,可使用一整套65,535个8碱基序列探针。用于该目的的足量核酸存在于适宜的生物样品中,如几微升M13培养物、来自10ml细菌培养物或单一细菌菌落的质粒或少于1ml的标准PCR反应。6-10核苷酸长度的短寡核苷酸给出极佳的辨别值。单一末端错配在杂交稳定性的相对降低大于较长的探针。8碱基序列TGCTCATG的结果支持这一结论。在实验中,具有G/T末端错配的靶、与这种错配形式靶的杂交是所有其他形式寡核苷酸最稳定的。所得的这个辨别值与存在于19个碱基对双链体中的内部G/T错配是相同的或较大(Ikuta等,Nucl.Acids res.15797(1987))。利用这些区别特征使用短寡核苷酸杂交的杂交条件,允许非常准确地确定寡核苷酸靶。与容易检测完全杂交和不完全杂交之间的区别相反,使用非常短的寡核苷酸可能存在的问题是足够量杂交的制备。实际上,通过增加斑点中DNA的量和/或探针浓度或降低杂交温度来帮助区别Hp和Hi。但是探针浓度高通常会提高本底。并且,实际使用的靶核酸量是有限的。使用较高浓度的去污剂十二烷基肌氨酸钠解决了这个问题,用4nM探针可给出一个有效本底。利用探针与滤膜非特异性结合的竞争剂或改变杂交支持物材料可获得进一步改进。再者,对于Ea小于45千卡/mol的探针(如对于许多7碱基序列和大多数6碱基序列),修饰的寡核苷酸比其未修饰的相反部分的杂交更稳定(Asseline等,Proc.Natl.Acad.Sci.813297(1984))。本发明所述的针对短寡核苷酸杂交的杂交条件使用低温能较好地辨别所有输入序列和双链体杂交。针对不同序列要达到杂交条件一致性所付出的代价仅为根据序列漂洗时间从几分钟增加至24小时。此外,可通过减小盐浓度再减少漂洗时间。
虽然匹配杂交和错配杂交具有极佳的辨别值,但在短寡核苷酸杂交中,错配杂交信号与大多数由于末端错配的错配杂交一起存在。这限制了可用某一长度探针进行有效检测的插入物大小。
序列复杂性对辨别值的影响可被忽略。然而,当用短寡核苷酸杂交对特异性非随机序列限定序列信息时,复杂性影响是较显著的,可使用合适的靶长度比例的探针解决这个问题。在统计学基础上选择长度比例,使得不大可能出现具有能消除或错误转化辨别值的许多末端错配的特异性序列。结果显示在靶核酸插入物短于0.6、2.5和10kb时应分别使用长度6、7和8个核苷酸的寡核苷酸。
实施例11DNA测序多个亚阵列的一个阵列允许有效测序排列于影印复制的亚阵列形式中的一小组样品;例如,可将64个样品排列在一8×8mm的亚阵列上,16×24亚阵列可被影印复制在亚阵列之间有1mm宽间隔物的15×23cm膜上。可制备一些影印膜。例如,来自3072个7碱基序列的一个通用组探针被分在32个96孔板上,并用激酶标记。在一个杂交循环中可平行处理4张膜。在每张膜上,可评分384个探针。在两个杂交循环中可评分所有探针。可评分杂交密度,拼合序列如下。
如果单一样品的一个亚阵列或多个亚阵列含几个未知的特别是当使用相似样品时,如果它们是基于预先评分探针的结果电脑选择的,少量探针是足够的。例如,如果探针AAAAAAA不是阳性的,则有一个小的变化,8个重叠探针任何一个是阳性的。如果AAAAAAA是阳性的,那么两个探针通常是阳性的。这种情况下测序过程包括首先杂交一小组最小化重叠探针以限定阳性锚,然后顺序选择探针确证一个关于锚顺序和大小及它们之间空间类型的最可能的假设。在该过程的第二阶段,可使用2-10个探针的库,选择每个探针仅在一个DNA样品中呈阳性,该DNA样品与认为对库中其他探针呈阳性的其他样品不同。
该亚阵列途径允许在解决分支问题过程中探针竞争(重叠探针)或探针协同(探针连续堆积)的有效实施。一组通用组探针杂交之后,序列拼合程序确定了候选序列亚片段(SFs)。进一步拼合SFs时,必须提供附加信息(来自DNA片段重叠序列、相似序列、单次凝胶序列或来自其他杂交或限制性图谱数据)。从SBH序列信息或已知载体信息如载体插入位点的侧翼序列识别通过分支点单次凝胶序列的引物,在样品DNA上进行标准桑格测序反应。将从单次凝胶测序获得的序列与读入和读出分支点的SFs比较以识别SFs的顺序。并且,单次凝胶测序可与SBH结合,从头测序和再测序核酸。
也可使用竞争性杂交和连续堆积相互作用拼合SFs。这些途径对于通过SBH测序大量核酸样品商业价值有限,其中如果使用统一形式的阵列将标记探针施用于固定化在一个阵列上的样品。可庆幸的是,使用影印亚阵列分析少量样品允许两种途径的有效实施。在每个影印的亚阵列上,使用探针库可测试一个或多个DNA样品的一个分支点,类似于解决点滴在相同亚阵列的不同样品中的突变序列(参见上文)。
在本实施例所述的64个样品中,如果每个样品有约100个分支点,且如果在每一亚阵列中平行分析8个样品,那么至少800个亚阵列检测才能解决所有的分支点。这就意味着对于3072个基本检测要附加800个检测(25%)。更为优选的是,对于一个分支点检测两次。如果亚阵列较小,附加检测较少。例如,如果亚阵列由16个样品组成,可评分200个附加检测(6%)。使用7碱基序列探针(N1-2B7N1-2)和竞争性或协同性分支解决途径或这两种途径,约4000次检测可拼合约1000bp的片段。另外,使用8碱基序列探针(NB8N)12,000次检测可拼合4kb或更长的片段。缺口探针如NB4NB3N或NB4NB4N可被用来减少分支点数。
实施例12通过瞬间附着至探针亚阵列进行DNA分析和标记探针的连接通过标准化学方法合成信息长度4至40个碱基的寡核苷酸探针,并存储于试管或多孔板中。通过沉积或原位合成于分隔的支持物或一个较大支持物的不同部分上,排列出含1至10,000个探针的特异性探针组。在后种情况中,可用物理或疏水屏障分隔各部分或亚阵列。可通过原位合成制备探针阵列。合适大小的DNA样品与一个或多个特异性阵列杂交。许多样品可作为库在相同亚阵列上被探测或用一个支持物内的不同亚阵列单独探测。同时或随后对样品在每个亚阵列上加入单个标记探针或标记探针库。如果附着和标记探针在样品DNA中的互补靶末端与末端杂交,那么它们则被连接。通过从探针检测标记测出发生的连接。
这种途径是其中DNA样品没有永久附着在支持物情况下的所述DNA分析过程的改变方法。通过将探针固定在支持物上获得瞬间附着。在这种情况中,无需排列靶DNA过程。此外,通过将短的标记探针与短的固定化探针结合连接允许检测较长的寡核苷酸序列。
这种方法具有一些独特的特征。首先,靶的瞬时附着允许其再使用。在连接发生后,可将靶释放,留下标记被共价附着在支持物上。这一特点允许靶循环和使用少量的靶产生可检测信号。在最优化条件下,靶无需被扩增,如天然来源的DNA样品可直接用于诊断和测序目的。通过在有效杂交和有效双链体解链之间循环温度可将靶释放。更优选的没有循环。可限定温度和组分浓度以在游离靶和参与杂交的靶之间具有一个平衡,约50∶50%的水平。在这种情况下,连续产生被连接产品。对于不同目的不同的平衡比例是最优化的。
电场可被用来增强靶的使用。开始时,可在每个亚阵列内使用水平场脉冲以较快速分选靶。在这个阶段,平衡向杂交形成移动,可使用未标记探针。在靶分选阶段之后,可进行适当的漂洗(可通过一个限制样品移动的垂直电场帮助漂洗)。可引入辨别杂交解链、杂交和连接收集靶及去除未使用靶的几个循环,以增强特异性。在下一步骤,加入标记探针,并可使用垂直电脉冲。提通过提高温度,可获得一个最优化的游离和杂交靶的比例。垂直电场防止分选的靶的扩散。
可以各种不同的方式排列固定探针和标记探针组(特别指或选自通用探针组)亚阵列。例如,如果一个细菌基因组的短片段(约100-500bp)被部分或完全测序,可使用基于已知序列设计的小的探针阵列(长度为5-30个碱基)。假设被连接的仅2个碱基被评分,如果用每个亚阵列10个标记探针的一个不同库探测,10个亚阵列每个具有10个探针,则允许检测200个碱基。在辨别出整个杂交错配的条件下,探针可被多于一个碱基取代,以用相同数量的探针覆盖较长的靶。通过使用长的探针,可直接探测靶而无需扩增或从样品剩余DNA中分离。还可同时分析(筛选)一个样品中的几个靶。如果所得结果显示了突变的发生(或一个病原体),可再使用附加的探针库检测突变类型或病原体亚型。这是本方法的必要特征,当认为仅有少部分患者有感染或突变时,这一点在预防性诊断中非常有效。
在实施例所述的方法中,可使用各种不同的检测方法,如放射性标记、荧光标记、酶或抗体(化学发光)、光散射或干涉过程可检测的大分子或颗粒。
实施例13使用8碱基序列和9碱基序列测序靶来自8碱基序列和9碱基序列寡核苷酸杂交的数据结果表明,杂交测序具有高度准确性。在该实验中,使用已知序列预测一系列连续重叠组分8碱基序列和9碱基序列寡核苷酸。
除了完全匹配寡核苷酸、错配寡核苷酸,还检测了发生在寡核苷酸和靶形成的双链体内部或末端错配的错配寡核苷酸。在这些分析中,使用最低操作温度以形成最大化杂交。在同样或更低温度下进行漂洗,以通过利用较大的错配解离速率相对于匹配的寡核苷酸/靶杂交确保最大辨别。尽管绝对杂交率是序列独立性的,这些条件表明可用于所有序列。
可假设的最小的不稳定化错配是简单的末端错配,这样,杂交测序试验能够从末端错配的寡核苷酸/靶双链体辨别出完全匹配的寡核苷酸/靶双链体。
在斑点印记格式中的105个杂交寡核苷酸中102个的辨别值大于2,允许高度准确序列的产生。这种体系还允许对序列在杂交形成和杂交不稳定性上的效果进行分析。
从已知序列的105个寡核苷酸探针与靶核酸杂交的数据结果产生由PCR制备的人一干扰素基因已知部分的100个碱基对,即100bp靶序列。所用的寡核苷酸探针包括72个8碱基序列和21个9碱基序列寡核苷酸,其序列与靶完全互补。一组93个探针提供了靶序列连续重叠框,靶序列中e被1个或2个碱基取代。
为评估错配效果,检测12个附加探针的杂交,当与100bp待测靶序列杂交时,含至少一个末端错配。还检测了靶末端错配的12个探针与4个其他所选对照核酸序列的杂交,这样,12个寡核苷酸与4个对照DNA形成完全匹配双链体杂交。由此,对实验中所用的每个寡核苷酸,评估寡核苷酸和靶的内部错配杂交、末端错配杂交和完全匹配双链体对杂交。通过限定靶DNA浓度通过检测不同寡核苷酸探针与单一出现在共同扩增质粒DNA内的非靶位点的杂交,确定在与待测8碱基序列和9碱基序列寡核苷酸杂交中绝对DNA靶浓度的效果。
该实验结果表明所有含与靶或对照DNA完全匹配互补序列的寡核苷酸杂交效果强于那些含错配的寡核苷酸。为得到这一结论,我们检测了每个探针的Hp和D值。Hp限定了待测靶和一个寡核苷酸探针间形成的杂交双链体的量。通过对105个探针的杂交分配0和10之间的数值,显示出105个探针中68.5%具有Hp大于2。
当D被定义为1)与2)之间的信号密度比率时,获得辨别值(D),其中所述1)为含待测寡核苷酸和靶或对照核酸之间形成的完全匹配双链体的斑点,2)为含相同寡核苷酸和靶或对照核酸内不同位点之间形成的错配双链体的斑点。D值的变化归因于1)对允许可视本底之上信号的杂交效率的干扰,或2)在待测寡核苷酸和靶之间发现的错配类型。该实验中获得的D值105个检测的寡核苷酸探针中102个在2和40之间。该102个寡核苷酸组作为一个整体计算D值,D平均值为10.6。
寡核苷酸/靶双链体显示出末端错配的有20种情况。其中5种情况中,D大于10。这些情况中大的D值多是归因于非最稳定(G/T和G/A)末端匹配引起的杂交不稳定性。其他可能性是在寡核苷酸或靶序列中有一个错误。
存在于低Hp探针的靶中的错误作为一种可能性被排除,因为这种错误会影响其他8个重叠寡核苷酸每个的杂交。没有明显的由于其他重叠寡核苷酸序列错配造成的不稳定性,表明靶序列是正确的。在再检测了7个新合成的寡核苷酸的杂交之后,存在于寡核苷酸序列中的错误作为一种可能性被排除。7个寡核苷酸中只有1个得到了一个较好的D值。杂交不稳定性或不能形成杂交双链体可导致低的杂交形成值。不能形成杂交双链体是由于1)被选择探针的自互补性或2)靶/靶自杂交。如果探针是自互补的,寡核苷酸/寡核苷酸双链体的形成会强于寡核苷酸/靶杂交双链体的形成。与此类似,如果靶是自互补的或可形成内部回文结构,那么靶/靶关联占优势。在评估这些可能性时,探针分析显示可疑探针不和其自身形成杂交。并且,在检测靶/靶杂交的作用时,确定了一个可疑寡核苷酸探针与含相同靶的两个不同DNA无效杂交。两个不同DNA对于相同靶序列具有自互补区的低可能性导致这样的结论,即靶/靶杂交对低杂交形成没有帮助。因此这些结果表明杂交不稳定性和不能形成杂交导致特定寡核苷酸的低杂交率。结果还表明低杂交率缘于某些寡核苷酸的特异序列。而且,结果表明如果使用9碱基序列和8碱基序列的寡核苷酸,会得到更可靠的序列结果。
这些结果表明利用所述方法,通过组成寡核苷酸的最大化和唯一重叠,能够测定任何特异目的长核酸的序列。这些测序方法取决于每种寡核苷酸的组成,而不是它们的频率和位置。
利用以下算法得到的序列具有很高的忠实性。当105个杂交值中,有4个不可靠时,得到的序列完全正确,这一事实表明该算法能够消除杂交点产生的假阳性信号。通过杂交测序的忠实性源于短寡核苷酸杂交的“全或无”的动力学特性,以及完全匹配的双链体和错配双链体的稳定性的差异。匹配与末端错配双链体的稳定性比值随着双链体长度的减小而增加。而且,由于双链体长度减小,从而结合能减小,导致杂交效率降低。但是,提供的结果表明,在使用8碱基序列的寡核苷酸进行杂交时,影响双链体稳定性的因素和影响鉴别的因素达到平衡,此时杂交测序的方法高度精确。其它实施例中的结果表明,6、7、8个核苷酸的寡核苷酸可有效地用来对0.5kb(6碱基序列)、2kb(7碱基序列)、6kb(8碱基序列)的靶序列进行可靠测序。可以将长片段的序列重叠以产生完整的基因组序列。
实施例14所得数据的分析利用图形分析程序,如DOTS程序(Drmanac等,1993)对图形文件进行分析,并且利用程序,例如SCORES程序(Drmanac等,1994)中的统计函数进行测量评价。从信号的分布可以确定合适的阈值,将信号转换为+/-输出。利用检测到的标记的位置,结合与标记位置对应的固定化探针和标记探针的已知序列,可以确定出片段的F+P核苷酸序列。由经计算机推导确定的重叠F+P序列可以拼合出完整的核酸序列或初始分子,如人染色体的序列亚片段。
一种选择是,在序列拼合过程中将杂交信号(例如评分),转换为+/-输出。该情况下,从有很高评分的F+P序列(例如F+P序列AAAAAATTTTTT)开始拼合。四个可能的重叠探针AAAAATTTTTTA,AAAAATTTTTT,AAAAATTTTTTC和AAAAATTTTTTG,与另外三个起始处不同的探针(TAAAAATTTTTT,CAAAAATTTTTT,GAAAAATTTTTT)的评分相比较,得到3个结果(I)与其它6个探针相比,只有出发探针和4个重叠探针中的一个的评分明显为正。在这种情况下,AAAAAATTTTTT序列将向右延伸一个核苷酸。(II)除了出发探针,没有一个探针的评分明显为正,拼合将停止,例如,AAAAAATTTTT序列在待测序DNA分子的末端。(III)重叠和/或另外三个探针中,有不止一个为正值,拼合因错误或分支而停止(Drmanac等,1989)。
在计算机推导过程中,使用应用现有算法的计算机程序(例如Pevzner,1989;Drmanac等,1991;Labat和Drmanac,1993;各文在此引用作为参考)。
除F+P外,如果检测F(1个间隔)P,F(2间隔)P,F(3间隔)P或F(4间隔)P,应该采用适合所有数据组的算法,以便纠正潜在错误或解决存在分支的问题(见如Drmanac等,1989;Bains等,1988;在此引用作为参考)。
实施例15通过两步杂交测序以下是描述发明人所设想的测序方法的实施例。首先,将整个芯片与多达1亿碱基(人染色体)的DNA混合物杂交。杂交的实施原则可在一些论文中找到,如Drmanac等(1990);Khrapko等(1991);和Broude等(1994)。这些文章指明了适用于Format 3 SBH的初始步骤的杂交温度范围、缓冲液和漂洗步骤。
因为可提供的目的DNA浓度相对较低,本发明人特别设想在低温(-2℃到5℃)、高盐浓度杂交数小时。为了达到该目的,使用SSC缓冲液取代在10℃会沉淀的磷酸钠缓冲液(Drmanac等,1990)。因为有第二步,所以漂洗不必太彻底(数分钟),而使用循环杂交对高度复杂的DNA样品进行测序时,可省略漂洗。杂交和漂洗使用相同的缓冲液以便能继续使用标记探针进行第二步杂交。
使用简单的机械设备对每一个阵列适当漂洗后,加入一个标记探针,例如,8×8mm的阵列加入6碱基序列的探针。使用96头或96针的设备进行42次操作。同样,如以前科学文献中所述,可以采用多种不同的条件。
本发明人特别考虑使用以下条件。首先,在加入标记探针并于低温(0-5℃)仅保温数分钟(因为加入寡核苷酸的浓度较高)后,根据F+P的长度,将温度升至3-10℃,并加入漂洗缓冲液。此时,所用漂洗缓冲液应适用于任何连接反应(例如100mM的盐浓度范围)。加入连接酶后,将温度升至15-37℃以便快速连接(少于30分钟),然后进一步区分完全匹配和错配的杂交体。
同样在FORMAT 3 SBH中考虑使用阳离子去污剂,如Pontius & Berg所述(1991,在此引用作为参考)。这些作者描述了在DNA复性中使用两种简单的阳离子去污剂,十二烷基三甲基溴化铵(DTAB)和十六烷基三甲基溴化铵(CTAB)。
DTAB和CTAB是季铵盐四甲基溴化铵(TMAB)的变体,即其中的一个甲基被十二碳(DTAB)或十六碳(CTAB)的烷基基团取代。TMAB是四甲基铵的溴盐,四甲基铵用在核酸复性中消除G-C含量对解链温度的影响。DTAB和CTAB与十二烷基磺酸钠(SDS)结构相似,但SDS带负电的硫酸根被带正电的四胺取代。尽管SDS常用于杂交缓冲液以减少非特异性结合并抑制核酸酶,它不能明显影响复性的效率。
当进行连接操作时,可以随标记探针加入酶或在适当漂洗后加入酶以减少背景干扰。连接酶技术在分子生物学领域已非常完善,尽管以前它未被建议用于SBH方法。例如,Hood及其同事描述了一种连接酶介导的基因检测技术(Landergren等,1988),可以对该技术简单地修改而用于FORMAT 3 SBH。Wu和Wallance也描述了利用细菌噬菌体T4 DNA连接酶连接两段相邻的短合成寡核苷酸。他们的连接反应在50mM pH7.6 Tris盐酸缓冲液,10mM MgCl2,1mM ATP,1mM DTT,和5%PEG中进行。加入T4 DNA连接酶(1单位;Bethesda研究实验室)之前,将连接反应体系加热至100℃,5-10分钟后冷却至0℃。大多数连接反应于30℃进行,并通过加热至100℃ 5分钟终止反应。
随后进行最终漂洗,以适于对杂交产物或者连接的(F+P)长度的寡核苷酸进行区别检测。该漂洗步骤在水中于40-60℃进行数分钟以便洗去所有未连接的标记探针和其它化合物,从而最大限度地去除背景干扰。因为有共价结合的标记寡核苷酸,检测得以简化(没有时间和低温限制)。
根据所用标记物,使用不同的仪器对芯片显象。对放射性标记物,使用磷存储屏蔽技术(phosphor storage screen technology),并利用磷显象仪作为扫描仪(分子动力学,Sunnyvale,CA)。将芯片放入盒中,覆盖一个磷屏。曝光1-4小时后,扫描该屏,将图象文件储存在计算机硬盘中。检测荧光标记物时,采用CCD相机和表面荧光显微镜术或共聚焦显微镜术。对于直接在CCD相机象素上生成的芯片,可以用Eggers等描述的方法进行检测(1994,在此引用作为参考)。
在以探针为基础的分析方法中,利用电荷耦合器件(CCD)检测仪作为有力的支持以便对标记目的分子的分布进行定量检测和显象。这些设备利用了微电子的特性,即适于高度平行的检测、超灵敏的检测,高处理能力,数据获得和计算结合。Eggers等(1994)描述在基于探针的检测方法,如本发明所述FORMAT 3 SBH中使用CCD,由于高灵敏度和直接连接,能在数秒内完成定量分析。
完整的CCD探测方法使得能够检测芯片上的分子结合情况。探测仪迅速生成二维图象,特征性地显示样品。使用基于CCD的分子探测仪时,将不同的生物学探针直接固定在CCD的象素上,或附在置于CCD表面的一个一次性盖玻片上。可以使用放射性同位素、化学发光或荧光来标记样品分子。
Format 3的例子中,一旦将样品暴露于以CCD为基础的探针阵列,在样品和两个互补探针结合的象素位置上将放射光子或放射性同位素衰变产物。接着,当标记样品发出的带电粒子或放射物入射到CCD的选通电极时,在硅中生成电子空穴对。随后电子在相邻CCD选通电极下聚集,并在显示元件上显示出来。在每个象素产生的光电子数和分子结合发生的次数近似成正比。所以,可以定量地测定分子结合(Eggers等,1994)。
将显象阵列放置在样品附近,收集率比使用透镜的技术(例如见于传统CCD相机中的技术)至少提高10倍。这就是说,样品(放射物)和检测仪(显象阵列)紧密接触,这可淘汰传统的显象光学仪器如透镜和镜子。
将放射性同位素作为指示基团结合到目的分子上,就能检测到能量粒子。在微检测仪中已成功地使用了能放射不同能量粒子的几种指示基团,包括32P,33P,35S,14C和125L。能量较高的粒子(如32P)放射的离子,分子检测灵敏度最高。而低能量的粒子(如35S),分辨率更好。因此,可按需求,选用不同的放射性同位素标记。一旦选定放射性同位素标记物,就可以如Eggers等所述(1994)通过计算信噪比(SNR)来预测检测情况。
可替代的发光检测过程包括使用连接在目的分子上的荧光或化学发光指示基团。荧光标记可以共价或通过相互作用与分子连接。荧光染料,比如溴乙锭,在近紫外区域(300-350nm)有强烈的吸收带,在可见光区域(500-650nm)有主要的发射带,这最适用于所用的CCD仪器,因为在激发波长,其量子效率比在荧光信号波长时低数个数量级。
从检测发光的角度来看,多晶硅CCD选通电极有以下的内在特性,它能滤掉UV范围的入射光,但对荧光指示基团生成的可见荧光高度敏感。这种内在的对UV激发的高分辨力,使得CCD有高信噪比(大于100),如引用的Eggers等的文章所述(1994)。
为了将探针固定在检测仪上,可以在廉价的SiO2薄片上生产杂交基质,随后在杂交和干燥后将其放置在CCD表面。这种方式较为经济,因为DNA杂交在廉价的一次性SiO2薄片上进行,就使得价格较高的CCD探测仪能重新利用。另外,还可以将探针直接固定在CCD上,作为专用的探针基质。
为了将探针固定在SiO2外层,使用环氧硅烷和标准SiO2修饰化学法,在膜表面结合一层均匀的环氧树脂层。然后通过与环氧环形成次级胺,将胺修饰的寡核苷酸探针连接至SiO2表面。连接后,在寡核苷酸的3碱基和SiO2表面直接生成17个分离的可旋转键。为保证偶联过程中胺完全脱质子,并最大可能地减少次级结构的形成,反应在0.1M KOH中进行,并于37℃保温6小时。
通常在FORMAT 3 SBH中,每十亿个点记录信号。不必一次杂交所有的阵列(例如4000个5×5mm),而是可以连续使用较小数量的阵列。
增强杂交信号的一个可行方法是循环杂交。在一个循环中,大多数固定探针与DNA片段杂交,这些片段的尾部序列与标记探针不互补。通过升高温度,杂交产物会解链。在下一个循环中,其中的一些(约0.1%)会和适宜的DNA片段杂交,并会连接上另外的标记探针。在这种情况下,同时和两组探针错配的DNA杂交产物会解链。
在循环杂交中,循环开始前即加入所有成分,T4的起始温度是37℃,若为热稳定连接酶则温度更高。然后将温度降至15-37℃,芯片保温10分钟,再升高温度至37℃或更高保持数分钟,然后再降低温度。可重复循环10次。在一个改变的方法中,可使用更高的最适温度(10-50℃),不必进行循环,连接反应时间更长(1-3小时)。
利用此处描述的过程,可以用标准的合成方法生成复杂的芯片,并且因为所需寡核苷酸数目相对较少能精确定位寡核苷酸。例如,如果合成了所有的7碱基序列的寡核苷酸(16384个探针),就可以确定256,000,000个14碱基序列的寡核苷酸。
本发明一个重要的改变方法是,每个碱基阵列使用一种以上不同标记的探针。这可以满足两个目的多样化以便减少分别杂交阵列的数目;或者测定一系列更长的寡核苷酸序列,比如3×6或3×7的寡核苷酸序列。在此情况下,如果使用两个标记物,几乎可以确定3个连续寡核苷酸序列的特异序列,因为阳性位点必定对两种标记均有足够的信号。
还有一个更进一步的改变是使用含BxNy探针的芯片,其中y的范围是1-4。这些芯片使得序列的阅读框不同。使用适宜的各组标记探针或者有非特异末端位置(即某一末端简并成分)的F和P探针,也可达到同样效果。还可以采用通用碱基作为接头的一部分,将特定序列的探针连接到固相支持物上。这样,探针更易于杂交,并且结构更稳定。如果一个探针有5个碱基,可以使用,例如3个通用碱基作为接头。
实施例16由杂交数据确定序列当一个所给的重叠(N-1)碱基序列被复制2次或多次,将会打断序列拼合。可以用最后一个核苷酸不同的两个N碱基序列之一来延展序列,这一分支点限制了序列的单一拼合。
在某些情况下,通过将与靶核酸杂交的已知寡核苷酸序列重新拼合,不能成功地得到靶核酸的完整序列。这是因为如果靶核酸的片段大小和用于杂交的寡核苷酸的大小不相适宜,会丢失一些信息。丢失信息的量和待测序靶核酸的长度成正比。但如果所用靶核酸足够短,就能够确定它们的序列。
重复序列分布在特定长度的DNA上会干扰序列的拼合。可以计算出这些重复序列的可能频率。推导时需要引入对一个与序列结构有关的参数的定义,序列亚片段(SF)。如果靶核酸序列的任何一部分是以(N-1)碱基序列起始和结束,该(N-1)碱基序列在靶序列中重复出现了两次或多次,就会产生序列亚片段。因此,在本发明的方法中,亚片段是序列拼合过程中两个分支点之间的序列。由于存在重叠的短末端,所有亚片段的总长度比实际的靶序列长。通常,如果没有另外的信息,亚片段不能被拼合成线形的顺序,因为它们的起始和末端是共同的(N-1)碱基序列。不同靶核酸的亚片段数目取决于其(N-1)碱基序列的重复数目。该数目取决于N-1的值和靶核酸的长度。
计算可能性可以判定两个因素的相互关系。如果通过使用长为N-1,或平均距离为A0的重叠序列成功地将阳性N碱基序列排序了,Lf个碱基长的片段的N-1由公式1得出Nsf=1+A0XKXP(K,Lf)其中K大于或等于2,P(K,Lf)代表在Lf个碱基长的片段上,N碱基序列出现K次的可能性。在实施例18中描述了一个计算机程序,它能由N碱基序列的含量,形成任何给定序列的亚片段。
对一特定长度的探针,亚片段的数目随片段长度的增加而增加。所得亚片段可能不是唯一的排列顺序。尽管不完全,这一信息对比较序列分析和识别序列的功能特性很有用。这类信息可以称为部分序列。另一种获得部分序列的方法是只使用一个亚组的给定长度的寡核苷酸探针。
对随机DNA序列的计算机模拟可能与根据理论预测的序列较好地吻合。例如,对于N-1=7〔使用一个8碱基序列或16个5’(A,T,C,G)B8(A,T,C,G)3’类型的10碱基序列〕,一个200个碱基的靶核酸平均会有3个亚片段。然而,因为有均值的弥散,靶核酸文库应该有500bp的插入序列,从而使不到1/2000的靶序列有3个以上的亚片段。所以,当对随机序列的长核酸进行测序时,理想情况下,应使用那些有足够短的靶核酸插入片段的典型文库。这样通过重叠获得的各个插入片段,能获得长核酸的完整序列。
为了减少对过短片段的需求(例如针对8碱基序列探针的50个碱基的片段),可以利用重叠片段中包含的信息,这些信息存在于每个DNA随机断裂过程(如克隆或随机PCR)。也可使用短物理核酸片段库。使用8碱基序列或5’(A,T,C,G)B8(A,T,C,G)3’类型的10碱基序列,来对1兆碱基测序时,并不需要20,000个50bp的片段,而只要2100个样品就足够了。这一数字包括700个随机的7kb克隆(基础文库),1250个库,每个库有20个500bp的克隆(亚片段排序文库)和来自跳跃(或类似)文库的150个克隆。利用所述样品的杂交数据,应用改进的算法(实施例18)重新测序。
实施例17算法本实施例描述了对一个长序列进行测序的算法,该序列写为一个4字母的字母表,这个字母表是由出发核酸序列最小数目的分离、随机片段中组成K元组(K-tuple)的字码得来的,其中K是寡核苷酸探针的长度。该算法主要用于杂交测序(SBH)过程。它基于亚片段(SF)、信息片段(IF),以及利用物理核酸序列确定信息片段的可能性。
如前所述,亚片段可能是由拼合过程中的分支点造成的,分支点是由于在靶核酸中有重复的K-1寡核苷酸序列。在一个序列中,任何两个长为K-1的重复字码之间的序列片段即为亚片段。在测序过程中,K-1字码的多次出现干扰了重叠K字码的排序,导致序列仍处于亚片段的形式。因此,在分支点之间的顺序不确定的片段称为序列亚片段。
信息片段定义为由重叠物理序列片段的最近端决定的序列片段。
可以汇集一定数量的物理序列片段而不丢失其决定信息片段的能力。随机汇集的片段总长度取决于测序过程中使用的K元组的长度。
该算法包括两个主要部分。第一部分用于从序列中包含的K元组集来组成亚片段。亚片段可能被定位于一定大小的物理核酸序列的编码区中,或定位于长核酸序列界定的信息片段中。两种类型的片段都属于基础文库。该算法未描述如何确定基础文库的信息片段中K元组含量,即测序过程中所用信息片段的制备步骤。
算法的第二部分确定所得亚片段的线性顺序,以便重现基础文库的核酸片段的完整序列。为了该目的,使用了另一个文库——排序文库,它由随机汇集的出发序列的片段组成。该算法不包括这样的步骤,即将基础文库的片段组合以重现一个完整的大碱基序列。要实现这个目的,需要连接基础文库的片段,这是组成信息片段的前提条件。另一种可选择的方法是,在存在共同末端序列的基础上,利用查找它们的重叠,用该算法确定基础文库片段的序列。
该算法不需要了解在基础和排序文库中核酸序列中特定K元组的出现次数,也不需要了解在片段的末端出现的是哪个K元组字码。该算法可应用于不同长度K元组的混合组成。算法的概念使它可能应用于包含有假阳性和假阴性K元组的K元组集。只有在特殊的例子中,假K元组的含量才会严重影响确定序列的完整性和正确性。算法可用于优化模拟试验中的参数,也可用于实际SBH试验中进行的序列测定,例如基因组DNA的测序。在优化参数的过程中,选择片段实用和合适的寡核苷酸探针(K元组),和/或选择已确定探针的适宜长度的片段及片段数,都是尤为重要的。
算法的这一部分在由K元组组成来确定序列的过程中非常重要。它基于通过最大化重叠的方法对K元组进行唯一的排序。测序的主要障碍是特定的重复序列,及假阳性和假阴性K元组。算法此部分的目的是获得最小数量及最大长度的具正确序列的可能亚片段。此部分包括一个基本步骤和数个控制步骤。这必须是一个两步的过程,因为有些信息只有在获得所有的主要亚片段后才能使用。
测序的主要问题是从K元组的字码组成来获得重复序列,而依照定义,这些组成不负载K元组出现次数的信息。整个算法的概念取决于解决该问题的基础。简而言之,有两种相反的途径1)在确定pSF的过程中,开始时获得重复序列,或2)在亚片段最后排序的过程中,再获得重复序列。在第一种情况下,pSF带有多余的序列,而在第二种情况下,它们包含序列缺失。前者需要去掉多余的序列,而在第二种情况下,在最后拼合序列的过程中,需要重复使用某些亚片段。
这两种途径的差异在于,对K元组的单一重叠的规定的严格性不同。较宽松的标准为当且仅当K元组X的最右端的K-1末端存在于K元组Y的最左端时,K元组X和Y明确地最大重叠。该标准将造成重复序列和多余序列的产生。
另一个用于第二种途径的标准较严格,它有一个附加的说明当且仅当K元组X的最右端的K-1末端存在于K元组Y的最左端,且Y的最左端K-1末端不出现在任何其它K元组的最右端时,K元组X和Y明确地最大重叠。基于严格标准的算法较为简单,在此加以描述。
当最后一个K元组右端的K-1末端不出现在任何一个K元组的左端,或出现在多个K元组的左端,特定亚片段的延伸过程终止。如果它出现在唯一的一个K元组的左端,就要检验该标准的第二部分。如果另外还有一个不同于前一元组的K元组,特定亚片段的拼合终止于第一个最左端的位置;如果不存在这样的K元组,就符合单一重叠的条件,特定的亚片段就可以向右延伸。
除了基本的标准,还有一个附加标准以便能使用不同长度的K元组。最大重叠是重叠对中较短的长度为K-1的K元组。pSF的产生从文件的第一个K元组开始,K元组在该文件中随机显示,并且与它们在核酸序列中的顺序无关。因此,文件中的第一个K元组不一定是序列的开始,也不是特定亚片段的开始。利用所述标准定义的单一重叠将K元组排序,从而产生亚片段。从文件中删除每个使用过的K元组。当再没有K元组和最后一个元组明确重叠时,亚片段的构建终止,并开始构建另一个pSF。因为确定大多数亚片段时不是从它们的实际起始位置开始的,要将形成的pSF加入K元组文件,作为一个更长的K元组。另一种可能是,从开始的K元组向两边形成亚片段。当无法再形成重叠,即无法进行任何亚片段的延伸时,过程终止。
可以将pSF分为三类1)在K元组集正确的时,形成的具最大长度和正确序列的亚片段;2)由于将最大的和明确的重叠标准应用于不完全的K元组集或有假阳性K元组的集合,形成的短亚片段;以及3)序列不正确的pSF。2)中的不完全集是由于杂交试验中的假阴性结果造成的,或者是由于使用了不正确的K元组。由于使用假阳性或假阴性K元组,可以形成a)错误连接的亚片段;b)带有错误末端的亚片段;c)表现为假的最小亚片段的假阳性K元组。
就假阳性K元组而言,可能会存在这样的K元组,它们含有多个错误碱基或在中间某处含有一个错误碱基,也可能在末端有一个错误碱基。后一种K元组将导致形成短的错误亚片段或错误连接的亚片段。前两种K元组形成和K元组同样长度的错误pSF。
如果有一个假阴性K元组,则因为不能形成最大重叠,会产生pSF。如果有一个其最左端或最右端有错误碱基的假阳性K元组,则因为无法形成明确重叠,会产生pSF。当文件中同时存在具共同K-1序列的假阳性和假阴性K元组,就会产生pSF,其中的一个pSF在相应末端带有错误的K元组。
形成亚片段后,在进行亚片段排序的过程中纠正序列错误的亚片段,并将明确连接的pSF连接起来。第一步包括切除错误连接的pSF,以及通过明确连接pSF得到最终亚片段,该步骤描述如下。
有两种条件会生成错误连接的亚片段。第一,当错误的K元组出现在长K-1的重复序列的拼合点时,就会发生错误。第二,重复序列短于K-1。这些情况分别又有两种变化形式。第一种,重复序列之一是片段的末端。第二种变化,重复序列在片段的任何位置出现。在第一种可能中,出现错误连接需要文件中某些K元组的缺失(假阴性)。在第二种可能情况中,要求在文件中同时出现假阳性和假阴性K元组。考虑到K-1序列的重复性,当任何一端有内部重复时,只缺失一个K元组就已足够。而对严格的内部重复来说,需要缺失两个,这是因为在信息学上,一个序列的末端可以被认为是假阴性K元组的无限线形排列。在“短于K-1”的情况中,只考虑长度为K-2的重复序列,这些序列需要2或3个特异的错误K元组。很有可能这些是实际试验中所能检测到的唯一情况,其它情况要少见得多。
当重复序列不是在片段的末端时,对错误连接亚片段的检测标准更严格。此时,可以另外检测两个亚片段,其中一个在最左端,另一个在最右端分别有K-2序列,该K-2序列还存在于错误连接的亚片段中。当重复序列位于片段的末端,只有一个亚片段含有K-2序列,该K-2序列在亚片段形成时在最左端或右端造成错误。
按照一般规则来切除错误连接的亚片段如果一个亚片段的长K-2的最左端或最右端序列还存在于其它任何亚片段,应将此亚片段切为两个亚片段,每一个都含有K-2序列。该规则不包括那种重复末端的罕见情况,即重复末端在重复K-1序列上有多个假阴性K元组。而是利用来自重叠片段的信息或基础文库和排序文库中的信息片段来识别这类错误连接的亚片段。另外,当在含有相同K-1序列的两个位置均出现多个假阴性K元组时,错误连接的亚片段将保留。这种情况很少见,因为它需要至少有4个特异的假阴性K元组。如果将短于K-2的序列从一个亚片段尾到另一个亚片段头结合在一起能得到特定的序列,可以引入附加的规则从长为K的序列上切除这些亚片段。
通过严格运用所述规则,为了保证结果的准确性要丢失一些完整性。某些亚片段尽管不是错误连接,仍被切除,因为它们符合错接亚片段的特性。有几种这类情况。例如,一个片段,除了至少两个相同的K-1序列,它还含有来自K-1的K-2序列,或者是一个片段,含有至少重复两次的任一K-2序列,并且在中间至少有一个含特定K-2序列的假阴性K元组,等等。
该部分算法的目的是减少pSF的数目,获得最小数目的有正确序列的长亚片段。在两种情况下,有可能产生单一的长亚片段或完整序列。第一种情况涉及重复的K-1字码的特异顺序。有些情况中,某些或所有最大限度延伸的pSF(第一类pSF)可以被唯一地排序。例如,在片段S-R1-a-R2-b-R1-c-R2-E中,S和E是片段的起始和末尾,a、b、c是对各自亚片段特异的不同序列,R1、R2是两个串联重复的K-1序列,产生了5个亚片段(S-R1、R1-a-R2、R2-b-R1、R1-c-R2和R2-E)。可以以两种方式将它们排序上述原始序列或者S-R1-c-R-b-R1-a-R2-E。相反,在一个重复序列的数目和类型相同,但排列顺序不同的片段中,即S-R1-a-R1-b-R-c-R-E,就不存在其它能包含所有亚片段的序列。这种类型的例子只有在生成pSF以后,才能识别出来。它们显示了在pSF形成过程中采取两步进行的必要性。第二种情况是当文件含有假阴性和假阳性K元组时,在非重复的K-1序列位置上产生假的短亚片段,这种情况更重要。
两类pSF的解决方法包括两部分。首先,将表现为并不存在的最小亚片段的假阳性K元组删除。所有长为K的K元组亚片段,如果没有这样两个重叠,它们在一端长度大于K-a,在另一端长度大于K-b,就要删除以便形成最大数量的连接。在我们的试验中,a和b的数值分别为2和3,这似乎已足够消除充分数量的假阳性K元组。
在第二步将能够唯一地连接的亚片段连接在一起。连接的规则是当且仅当位于两个亚片段的相应起始或末尾的重叠序列不在任何其它亚片段的起始和末尾出现,这两个亚片段可以明确地连接。
例外的情况是两个亚片段之一有相同的起始和末尾。此时即使文件中还有另一个亚片段具有的相同末端,仍然可以进行连接。这里主要的问题在于重叠序列的精确界定。当重叠序列仅为一对亚片段拥有,但重叠序列短于K-2,或者是虽不短于K-2,但另外还存在带有长于K-4的重叠序列的亚片段,则不能连接。同样,pSF的规范末端和删除一个(或少数)末端碱基的末端都被看作是重叠序列。
这一步之后,可能会残留一些假阳性K元组(作为最小亚片段)和一些带有错误末端的亚片段。另外,在很少见的情况中,当一定数目的特定假K元组同时存在,会发生错误连接。在亚片段排序过程以及另外的对照步骤中,会检测并解决这些问题,同时处理未被切除的错接的亚片段。
所得短亚片段分为两种。通常情况中,因为重复K-1序列的分布,可以将这些亚片段明确地连接。这可以在生成pSF的过程之后进行,它也是一个很好的例子,说明pSF生成过程必须分两步。在使用含假阳性和/或假阴性K元组的文件的情况中,在非重复K-1序列的位置获得短的pSF。就假阳性K元组而言,一个K元组可能含有多个错误碱基(或在中间某处有一个错误碱基),也可以是在末端有K元组。后者导致生成短的错误(或错误连接)亚片段。前者会造成与K元组长度相同的错误pSF。
算法中连接pSF的部分其目的是减少pSF数,以生成最小数目的、更长的序列正确的亚片段。所有K元组亚片段,如果没有这样两个重叠,它们在一端长度大于K-a,在另一端长度大于K-b,就要删除以便形成最大数量的连接。这样,大多数的假阳性K元组被弃除。连接的规则是当且仅当两个亚片段的相应起始或末尾的重叠序列不在任何其它亚片段的起始和/或末尾出现,可以将两个亚片段明确连接。例外的情况是两个亚片段之一有相同的起始和末尾。此时即使文件中还有另一个亚片段具有的相同末端,仍然可以进行连接。这里主要的问题在于重叠序列的精确界定。在K-1或K-2序列重复的点上至少存在两个特定的假阴性K元组,以及假阴性和假阳性K元组的结合,都会毁坏或“遮盖”某些重叠序列,并能形成明确的但连接错误的pSF。为了防止这种情况,为了准确性必须牺牲完整性当末端序列短于K-2,以及存在另外一个长于K-4的重叠序列时,连接不能进行,重叠序列由pSF的末端限定,或省略一个或少数末端碱基。
在非常少见的情况下,因为存在一定数目的某些特定假阳性和假阴性K元组,有些带有错误末端的亚片段和假阳性K元组(作为最小亚片段)可能保留下来,或者会发生错误连接。在亚片段排序过程以及另外的对照步骤中,会检测并解决这些问题,同时处理未被切除的错接的亚片段。
亚片段排序的过程和其生成过程相似。如果把亚片段看成较长的K元组,就可借助重叠末端进行明确连接从而排序。明确连接的信息依据是将基础文库的片段所产生的亚片段分为各个组,代表这些片段的区段。该方法与解决此问题的生化方法类似,生化方法基于与有相关连接序列的长寡核苷酸发生的杂交。利用基础文库片段的适宜区段的K元组,使连接序列形成为亚片段。相关的区段由和基础文库各自片段重叠的排序文库的片段表示。最短的区段是排序文库的信息片段。较长的是数个相邻的信息片段,或者是排序文库和基础文库中的相应片段的全部重叠部分。为了减少单独样品的数目,将排序文库的片段随机汇集,并确定单一K元组的内容。
利用排序文库中的众多片段生成非常短的区段,因此减少了多次出现K-1序列的机会,而K-1序列的多次出现正是产生亚片段的原因。另外,那些含有基础文库中给定片段的不同区域的较长区段不含某些重复K-1片段。在每个区段中,由给定片段来给某对亚片段形成一个连接序列(连接亚片段)。排序过程分为三步(1)每个区段的K元组的生成;(2)在每个区段中生成亚片段;以及(3)区段亚片段的连接。初级区段的定义为,基础文库中特定片段的K元组组成与排序文库中K元组组成的主要交叉部分和区别部分。次级(短)区段的定义为,初级区段K元组组成的交叉部分和差异部分。
这里存在一个在交叉部分和差异部分中,假阳性和阴性K元组均有聚集的问题。来自起始序列的假阴性K元组在交叉部分聚集,以及在两个序列中随机出现、但不存在于相关重叠区域的假阳性K元组都聚集在交叉部分(重叠部分)。另一方面,来自任一起始序列的大多数假阳性K元组都占据在交叉部分。这是一个利用了来自与该片段重叠的片段的信息减少单个片段的试验错误的例子。假K元组由于另一个原因聚集在差异部分中。将来自起始序列的假阴性元组集扩大以收入从交叉部分得到的假阳性元组,假阳性元组集收入那些因错误而未包括在交叉部分的K元组,即交叉部分的假阴性元组。如果起始序列包括10%的假阴性信息,初级和次级交叉部分将分别包含19%和28%假阴性K元组。另一方面,如果基础片段和库的长度分别为500bp和10,000bp,则假阳性的数学预期值为77。然而,有可能恢复大多数丢失的K元组并除去大多数假阳性K元组。
首先,必须给特定区段确定K元组的基本组成作为一对K元组组成的交叉部分。随后将所有带有出发K元组组成的K元组包括在交叉部分中,该交叉部分在一个末端含有K-1序列,另一个末端含K-+序列,这些序列出现在基本集的两个K元组的末端。差异部分的生成在此之后进行,以防止在生成差异部分时聚集假阳性元组。此后,在差异部分同样扩大K元组集,区别之处是从交叉部分进行借位。将所有收入的K元组作为假阳性元组从交叉部分文件中删除。
为每一对(基础片段)X(排序文库的一个库)限定交叉部分(即一个通用K元组的集合)。如果在集合中,K元组的数目很大,就将集合按上述原则收入假阴性元组。从给定的基础片段减去所得交叉部分集就得到初级差异部分集。依照上述原则,从交叉部分集将假阴性K元组收入到差异部分集,同时,将这些K元组作为假阳性从交叉部分集删除。当基础片段比汇集片段长时,差异部分可以代表两个分离的区段,这一点会在一定程度上减少它在以后步骤中的应用。初级区段都是含大量K元组的各对(基础片段)X(一群排序文库)所生成的交叉部分和差异部分。通过比较所有可能的初级区段对的K元组集,获得次级区段的K元组集。由与大量K元组形成交叉部分的各对来限定两个差异部分。从重叠片段获得的大多数信息都在此步被恢复,所以,从第三轮形成交叉部分和差异部分的过程中所得甚微。
(2)生成区段的亚片段的操作和上述基础文库片段的相同。
(3)连接亚片段的方法包括,从给定的带有某些重叠末端的基础文库片段的亚片段中,顺序确定正确连接的亚片段对。在有4个相关亚片段的情况中,两个有相同的起始,两个有相同的末尾。可以连接成4对不同的亚片段。通常2对是正确的,2对是错误的。为了找到正确的,在由一个给定基础片段的所有初级和次级区段所生成的亚片段中,检测每对是否存在连接序列。选择连接序列的长度和位置,以避免对序列的偶然性干扰。连接序列长K+2或更长,在某对亚片段的二者中重叠序列的旁边都有至少一个元件2。只有找到了两个连接序列,而剩余的两个没有,才能进行连接。两个连接在一起的亚片段取代文件中原来的亚片段,该过程循环往复。
在此步骤中生成重复序列。这意味着某些亚片段多次包含于已连接在一起的亚片段中。通过寻找将一个亚片段和两个不同亚片段连接在一起的相关连接序列,可以识别出这些亚片段。
识别那些在构建pSF和将pSF连为长亚片段时生成的错误连接的亚片段,基于检测在片段的区段所生成的亚片段的序列中是否存在来自给定基础片段的亚片段序列。错误连接位置不会找到该序列,这说明亚片段连接错误。
除了所描述的亚片段排序的三个步骤,为了正确地生成更完整的序列,需要一些附加的控制步骤或适用于特异序列的步骤。
通过比较区段和亚片段的K元组的组成,决定某个亚片段归属哪个区段。由于K元组组成的错误(由于库的最初错误和K元组出现频率造成的统计错误),不可能准确划分亚片段。因此,不采用“全或无”的划分,而是确定某个亚片段属于某给定区段的可能性(P(sf,s))。这个可能性是K元组长度、亚片段长度、排序文库片段长度、库集的大小及文件中假K元组百分比的函数(P(sf,s))=(Ck-F)/Lsf其中Lsf是亚片段的长度,Ck是给定亚片段/片段对的共同K元组数,F是一个参数,该参数包括K元组长度、基础文库片段、库集大小和错误百分比之间的关系。
把属于特定区段的亚片段当作冗余的短pSF,并进行明确连接。此处明确连接的定义稍有不同,因为它是基于这样一种可能性,即有重叠末端的亚片段属于所考虑区段的可能性。另外,比照这些亚片段在其它区段中的连接,可以控制明确连接的准确性。在不同区段中连接后,将所有既得的亚片段连接在一起,删除长亚片段中包含的短亚片段,剩余的进入常规的连接过程。如果没有将序列完整重现,使用相同或较宽松的判断所属区段可能性的标准,重复进行亚片段的划分和连接过程,然后进行明确连接。
当使用严格的标准来定义明确重叠时某些信息未被利用。这样得到的不是完整序列,而是几个亚片段,这些亚片段限定了给定片段的几种可能性。使用较宽松的标准可以获得精确且完整的序列。在一些情况下,例如发生错误连接时,可能获得完整但错误的序列,或获得“怪物(monster)”亚片段,它们相互间没有连接。因此,对应基础文库的每一个片段可以获得a)几个可能的结果,其中一个正确,以及b)最可能正确的结果。另外,在极少情况下,由于生成亚片段过程中的错误,或由于所属可能性的比率,不能产生明确的结果,或只产生一个最可能的结果。这些情况仍将保持为不完整序列,或者通过将这些数据与基础文库的其他重叠片段进行对照获得明确的结果。
在一个随机生成的50kb序列上验证上述算法,该序列含有40%GC以模拟人类基因组。在序列的中部,插入了不同的All,和其它一些重复序列,总长度大约4kb。为了模拟体外SBH试验,进行如下操作以获得适当的数据。
—随机限定60个5kb重叠“克隆”的位置来模拟制备基础文库—随机确定1千个500bp“克隆”的位置以模拟排序文库的制备。这些片段是从序列中提取出来的。建立20个片段的随机库集,确定库集的K元组集并储存在硬盘上。这些数据将用于亚片段排序阶段对于整个人类基因组,同样密度的克隆,基础文库需要4百万个克隆,排序文库有3百万个克隆。用于几乎所有基因组DNA的随机克隆和通过基于凝胶的方法测序时的几kb的克隆的数目要比7百万个克隆大数倍。
由5kb片段的起始和末尾的信息,可以确定在序列中有117个“信息片段”。随后确定单个“信息片段”含有的重叠K元组集。只使用和预先确定的列表吻合的K元组亚集。该列表包括65%的8碱基序列、30%的9碱基序列和5%的10-12碱基序列。根据这些数据进行亚片段的生成和排序。
在两个试验中,用模拟的数据对算法进行验证。将50个信息片段的序列重现,数据集(超过20,000bp)100%正确,26个信息片段(大约10,000bp)有10%的假K元组(5%假阳性和5%假阴性)。
在第一个试验中,所有的亚片段都是正确的,仅有1/50的信息片段的序列没有完全重现,而是保持5个亚片段的形式。对排序文库的重叠片段的位置进行分析,表明它们缺少将5个亚片段进行单一排序所需的信息。基于重叠末端,可以以两种方式连接亚片段1-2-3-4-5和1-4-3-2-5。唯一的区别在于亚片段2和4交换位置。因为亚片段2、3、4相对较短(总共约100bp),这里就有较大的机会,并确实出现了这种现象,就是在排序文库中没有片段起始于或结束于亚片段3区。
为了模拟真正的测序,在许多试验中将一些假(“杂交”)数据包括在输入资料中。在寡核苷酸杂交试验中,在建议条件下,唯一会产生可疑数据的情况是相对于完全匹配杂交的末端错配。因此,在模拟实验,只有在任一末端与实际K元组相差一个元素的K元组被认为是假阳性。这些假元组集按如下方法制备。在信息片段的初始K元组集中加入有5%假阳性K元组的亚集。从集合中随机挑出一个K元组,拷贝并在其起始或末尾改变一个核苷酸,得到假阳性K元组。随后减去一个有5%随机挑选的K元组的亚集。通过这种方式,得到了最复杂情况的统计学预期数目,在该情况中,正确的K元组被末端有一个错误碱基的K元组所取代。
按上述方法制备K元组集,导致10%的假数据。由于随机性地选择要拷贝、改变和除去的K元组,这个值随情况而变。但是,这个百分比超过实际杂交试验中可疑数据的数量的3-4倍。引入的10%错误导致基础文库片段(基础文库信息片段)和区段中亚片段的数量增加2倍。正如对含有假阳性的K元组集所预期的(见初级亚片段的产生),大约10%的最终亚片段在末端有一个错误碱基。未观察到亚片段的错误连接,也未发现有错误顺序的亚片段。在排序过程中,被检测的26个信息片段中有4个未能重现完整序列。在这4个例子中,获得的序列的形式是,包含于同一区段的几个长亚片段和几个短亚片段。该结果表明该算法原则能容许有大百分比的错误数据。
由其K元组组成成功地生成了序列,这可以用完整性和准确性来描述。在生成序列的过程中,可以定义两个特定情况1)生成的序列中丢失了一部分信息,但知道其位置,并知道它们所属的类型,2)所得的重现序列与获得K元组组成的序列不匹配,但是检测不出错误。假设算法发展到其理论极限,比如使用确切的K元组集,则只有第一种情况会发生。不完整导致一定数目的不能明确排序的亚片段,并造成难以确定单一序列的确切长度,即完全串联重复的数量。
假K元组会导致生成错误序列。错误的原因不是由于算法的缺陷,而是由于K元组的给定组成明确代表着和初始序列不同的序列。根据文件中存在的K元组的种类,可以定义三类错误。假阴性K元组(不伴随假阳性)造成“缺失”。假阳性造成“延伸(不等交换)”。伴有假阴性的假阳性是造成单独的“插入”或“缺失”与“插入”结合的原因。当亚片段的两个可能起始之间的所有K元组(或大多数K元组)是假阴性,就会造成缺失。由于序列中的每个位置都由K元组限定,通常情况下,发生缺失需要K个连续的假阴性。(当有10%的假阴性,K=8时,这种情况每108个元件会出现一次)。即使是使用含有10个基因组等价物的随机文库对哺乳动物基因组进行测序,这种情况也极少发生。
假阳性K元组造成的序列末端延伸是“插入”的一个特例,这是因为序列的末端可以被看作是假阴性K元组的无限线形排列。可以考虑生成一群假阳性K元组产生的比单个K元组长的亚片段。如果在重叠片段中产生亚片段,如排序文库中的随机物理片段,就能检测出这种情况。假阳性和假阴性K元组特异结合,会造成插入,或是由插入代替缺失。在第一种情况中,连续假阴性的数目小于K。两种情况都需要数个重叠的假阳性K元组。插入和删除主要是理论上的可能性,没有很多的实际反映,因为对假K元组的数量和特异性的要求实在太高。
在其它情况中,如果假阳性和假阴性的种类和最小数量未满足要求,K元组组成上的错误只会导致生成不完整的序列。
通过将样品核酸与已知序列的固定化探针以及溶液中的标记探针接触,将SBH,核酸样品测序。一旦将探针连接酶加入探针和样品的混合物,也就是说,一旦用支持物使一个固定探针和一个标记探针与样品接连杂交,两个探针会通过连接酶的作用被化学地连接起来。漂洗后,在标记探针存在的情况下,只有化学连接在一起的固定探针和标记探针能被检测出来。通过鉴定阵列特定位置的固定化探针,和鉴定标记探针,在一个位于Format 3上的阵列的一点有探针的情况下,用一个3底物的样品,可以确定样品的一部分序列。起决定作用的是所有连接在一起的探针对的最大重叠序列,可以重建样品的序列。待测序样品不能是10碱基对(bp)的核酸片段或寡核苷酸。优选的样品长4到1千个碱基。
探针是长度小于10碱基的片段,并且优选是4-9个碱基。这样,固定探针阵列可以包括所有给定长度的寡核苷酸,或者仅包括用于特定检测的寡核苷酸。当使用所有给定长度的寡核苷酸时,中心寡核苷酸的数目为4N,N是探针的长度。
实施例18重新利用测序芯片当测序过程中采用连接操作时,通常的寡核苷酸芯片不能立即重新利用。本发明人认为可以以多种方式克服此缺点。
对于第二个探针(探针P),可以使用核糖核苷酸,这样该探针随后可以用RNA酶处理除去。RNA酶处理时可以使用RNA酶A,该酶是一个内切核酸酶,可特异作用于单链RNA3’嘧啶,并切除与邻近核苷酸的磷酸连接。终产物为嘧啶3磷酸和带有末端嘧啶3磷酸的寡核苷酸。RNA酶作用不需要辅助因子和2价阳离子。
为了利用RNA酶,通常如Sambrook等所述(1989,在此引入作为参考)将芯片在适宜的含RNA酶的缓冲液中保温。适宜的条件是,每个8×8mm或9×9mm的阵列,使用30-50μl含RNA酶的缓冲液,于37℃保持10-60分钟。然后用杂交缓冲液漂洗。
尽管其应用不广泛,在特定实施方案中还可以使用尿嘧啶(如Craig等所述(1989),在此引入作为参考)。要除掉连接的探针,以便重复利用芯片,可以用大肠杆菌修复酶(尿嘧啶-DNA糖基化酶)来降解,该酶能从DNA去除尿嘧啶。
还可以在探针之间形成一种可特异切除的键,在检测后切除它。例如,通过Shabarova等(1991)和Dolinnaya等(1988)描述的化学连接形成。两篇文献都在此详细引入作为参考。
Shabarova等(1991)描述,用溴化氰作为浓缩剂来浓缩寡脱氧核苷酸。在他们的一步化学连接反应中,将寡核苷酸加热到97℃,缓慢降温至0℃,然后加入1μl10mM的BrCN乙腈溶液。
Dolinnaya等(1988)显示了如何在DNA双链体中引入将亚磷酰胺和焦磷酸之间的核苷酸间键合。他们也使用了化学连接方法来修饰DNA的糖磷酸主链,其中使用水溶性的碳二亚胺(CDI)作为偶联剂。对磷酰胺键的选择切除包括和15%乙酸在95℃接触5分钟。对焦磷酸键的选择切除包括和吡啶∶水混合物(9∶1)以及新鲜蒸馏的(CF3CO2)O接触。
实施例19诊断-评分已知的突变或全长基因重新测序在一个简单例子中,目标可能是探寻DNA区段中是否发生了特定的已知突变。12个以下的探针已经足够达到此目的,例如一个等位基因的5个阳性探针,另一个等位基因的5个阳性探针,每个等位基因的2个阴性探针。因为每份样品需要评分的探针数少,可以平行地分析大量样品。例如,在3个杂交循环中使用12个探针,可以分析64个病人的96个不同基因组位点或基因区段,分析在含有12×24个亚阵列的一个6×9in膜上进行,每个亚阵列有64个点,各代表64个病人的同一DNA区段。在本实施例中,可以在64个96孔板中制备样品。每个板代表一个病人,每个孔代表待检测的一个DNA片段。将64个板的样品重复点4次,点在同一个膜的4个方向。
利用单道移液或单针转移装置(或者一列分别控制的移液管或针),可以选择出96个区段中每一个的12个探针。选出的探针可以排列于12个96孔板中。如果探针没有事先标记,则可以标记探针,然后将来自4个板的探针和杂交缓冲液混合,并且优选用96道移液装置加入到亚阵列。一个杂交循环后,优选将膜在未稀释的杂交缓冲液或漂洗缓冲液中于37-55℃保温,可以剥离以前加上的探针。
可能一个等位基因的阳性探针是阳性探针,而另一个等位基因的阳性探针是阴性探针,这可用来确定存在2个等位基因中的哪一个。在该冗余计算系统中,允许每个探针的杂交有一定程度(约10%)的错误。
尤其当较小的冗余度就足够时,可以用一组不完整的探针来计算大多数的等位基因,例如,能证明样品中是否存在两个等位基因之一的1个或两个探针。例如,使用一组4000个8碱基序列,给两等位基因之一上的随机选择位点找到至少1个阳性探针的可能性为91%。可以优化一组不完整探针以反映受检样品的G+C含量和其它的影响。
对全长基因测序时,可以在适宜数目的区段中扩增基因。对每个区段,都可以选择一组探针(大约每个探针2-4个碱基)进行杂交。这些探针能鉴定出分析区段中的某位置是否有突变。如果检测出区段(即含有这些区段的亚阵列)有一个或多个突变位点,可以将区段和另外的探针杂交来探求突变位点的确切序列。如果用隔两个核苷酸的6碱基序列检测DNA样品,并且确定出突变位置被正杂交的探针TGCAAA和TATTCC包围,还被3个阴性探针覆盖CAAAAC、AAACTA和ACTATT,则突变的核苷酸在正常序列中该位置必定为A和/或C。它们可能是被单碱基突变,或在AA、AC或CT之间的1或2个核苷酸缺失和/或插入所改变。
一个途径是选择这样一个探针,它将正杂交的探针TGCAAA向右延伸1个核苷酸,将探针TATTCC向左延伸一个核苷酸。利用这8个探针(GCAAAA、GCAAAT、GCAAAC、GCAAAG和ATATTC、TTATTC、CTATTC、GTATTC),确定了两个可疑的核苷酸。
可以确定关于突变最可能的假说。例如,发现A突变为G。这样的结果会造成两种可能。一种是只发生A→G的置换,还有一种是除置换外,还在刚确定的G和C之间插入了一些碱基。如果与桥接探针的结果是阴性的,可以对这些可能的原因进行检测,首先使用至少一个含有突变位置的桥接探针(AAGCTA),和另外的8个探针(CAAAGA、CAAAGT、CAAAGC、CAAAGG和ACTATT、TCTATT、CCTATT、GCTATT)。有许多其它的方法来选择解决突变的探针。
在二倍体的情况中,将检测样品和纯合子对照的评分进行特别比较,以确定杂合子(见上文)。如果少数连续探针探针所覆盖的区段在两条染色体之一发生了突变,这些探针的信号估计会减弱大约两倍。
实施例20鉴定造成遗传疾病和其它性状的基因(突变)在固定化的样品阵列上,使用通用的长探针(8碱基序列或9碱基序列)组,可以不进行亚克隆将长达5-20kb的DNA片段测序。另外,快速测序的速度约为1千万bp/天/杂交仪。这就可以对有科学和医学意义的人基因和基因组大片段进行重复测序。要将50%的人基因重新测序,需要检查1亿bp。这可以在较短的时间以合理的花费完成。
可以通过多种方式将这种巨大的重新测序的能力用于鉴定编码疾病和其它性状的突变和/或基因。基本上,可以将来源于特定疾病患者的基因组DNA或特定组织的mRNA(可转化为cDNA)作为出发材料。由这两种来源的DNA经克隆过程或体外扩增过程(如PCR)制备出适宜长度的分离基因或基因组片段。如果使用克隆技术,在测序前,应从文库中筛选出最小的一组待测克隆。通过少量探针的杂交,可以有效地进行筛选,尤其是要挑选少量长于5kb的克隆时。克隆可以使杂交数据量增加两倍,却不需要上万的PCR引物。
该过程有一个改进的方法,可以用酶限制性剪切DNA来制备基因或基因组片段,例如用Hga I以如下方式剪切DNAFACFC(N5’)/CTGCG(N10’)。不同片段的5碱基突出末端不同。一个酶可以将一定数量的基因生成合适的片段。通过使用几种酶在分别的反应中剪切cDNA或基因组DNA,可以将每个目的基因做适当地剪切。在一种方法中,剪切过的DNA以大小筛分。可以将这样(并任选用核酸外切酶III处理,该酶可从3’端逐个切除核苷酸,并增加末端的长度和特异性)制备的DNA片段悬浮于试管或多孔板中。从较小的一组具有共同部分和适宜长度的可变突出末端的DNA接头中,为每个需要扩增的基因片段选择一对接头。将这些接头连接,然后利用通用引物做PCR。由1000个接头可以生成1百万对接头,因此在相同的条件下,利用与接头的共同末端互补的一对通用引物,可以特异地扩增1百万个不同的片段。
如果在几位患者中重复发现一个DNA差异,且该序列变化是无义,或者可以改变相应蛋白的功能,突变的基因可能就是疾病的原因。通过分析大量有特异性状的个体,可以将特定基因的功能等位基因变化和特定性状联系在一起。
这种方法使得不必对大量系谱进行完全地基因作图,并且在没有这类遗传数据或信息时,该方法更有特殊的价值。
实施例21标记基因图谱中单核苷酸多态性本申请中公开的技术适用于有效地鉴定具有单核苷酸多态性(SNUPs)的基因组片段。在10个个体中,将所述测序过程应用于大量序列已知的基因组片段(可以经克隆或体外扩增技术扩增这些片段),可以鉴定到足够量的具有SNUPs的DNA片段。进一步将这些多态性片段作为SNUP标记。这些标记物或者以前就已被作图(例如它们代表已被作图的STSs),或者可以通过以下所述的筛选过程作图。
通过扩增标记物并将它们排列成由亚阵列组成的阵列,可以将来自相关家族或群体的每个个体的SNUPs评分。亚阵列包含相同的从被检个体扩增得到的标记物。对于每个标记物,与分析已知突变一样,分别给两个等位基因挑选并评分各一组阳性探针,每组为6个或更少。利用1个或1组标记与疾病的明显关联,可以确定相关基因在染色体上的位置。由于其高效和低价,可以获得成千个体的成千个标记。这个数据量使得对一个基因定位的分辨率不到1百万bp,并且可以定位参与多基因疾病的基因。通过对来自相关正常个体和患病个体的特定区域进行测序,可以鉴定被定位的基因以便评分突变。
优选用PCR扩增来自基因组DNA的标记物。每个标记物都需要一对特异引物。现存标记可以被改变,或者可以通过用HgaI型限制酶剪切基因组DNA,并连接一对接头来制备新的标记。
可以将SNUP标记扩增,或点样成库集以便减少独立扩增反应的次数。在这个情况中,每个样品都有更多的探针被评分。当汇集了4个标记物并点在12份复制膜上,4个循环后可以获得48个探针(每个标记12个)。
实施例22DNA片段同一性的检测和确认经限制性剪切、克隆或体外扩增(如PCR)获得的DNA片段,通常可以在一次试验中被鉴定。可以通过确认凝胶电泳上特定大小的DNA条带对片段进行鉴定。可选择地,可以制备特异寡核苷酸,通过杂交对受检DNA样品进行确认。此处建立的步骤可以更有效地鉴定大量样品,而无需为每个片段制备特异寡核苷酸。在已知序列的基础上,从每个片段的通用探针中,筛选出一组阳性和阴性探针。筛选出的阳性探针通常可以形成1个或几个重叠的组,而阴性探针散布于整个插入序列中。
在YAC克隆上对STS作图的过程中,这个技术可用于鉴定STS。在大约100个YAC克隆或YAC克隆的数个库上检测每个STS。可以将这100个反应的DNA点在一个亚阵列中。不同的STS可能代表连续的亚阵列。在数个杂交循环中,每个DNA样品都会产生一个标志,该标志足够证明或否定在指定YAC克隆中存在特定的STS。
为了减少独立PCR反应的次数或所点样品数,分别可以在一个反应中同时扩增几个STS,或将PCR样品混合。在这种情况中,每个点必须有更多探针接受评分。STS的集合不依赖于汇集YAC,可用于单个YAC或YAC库集。当标记了不同颜色的探针一起进行杂交时,该系统尤其有吸引力。
除了证明样品中存在某DNA片段,还可以利用数个单独探针或探针集的杂交强度来估计DNA的量。将所得强度与DNA量已知的对照样品的强度进行比较,同时确定所有点样样品中的DNA量。因为鉴定DNA片段只需要少量探针,而N个碱基长的DNA可以有N个可能的探针,所以这种应用不需要一大组探针就足够鉴定任何DNA片段。对于一个1000bp的片段,从1000个8碱基序列平均可以选出30个完全匹配的探针。
实施例23鉴定传染性疾病生物和它们的变种基于DNA来检测患者体内的病毒、细菌、真菌和其它寄生生物,通常比其它方法更为可靠和便宜。DNA检测的主要优点在于能够鉴定特异株和变种,并且最终能进行更有效的治疗。下面描述两例应用。
通过扩增12个已知的抗菌素抗性基因,检测在细菌感染中是否存在这些基因。可以将来自128个患者的扩增产物点在2个亚阵列中,然后在一个8×12cm膜上,可以将12个基因的24个亚阵列重复4次。对每个基因,选择12个探针作阳性和阴性记号。进行3个循环的杂交。这些试验中的通用探针最可能是小得多的一组探针。例如,对于一个1000bp的片段,一套1000个8碱基序列中,平均30个探针是阳性的,而通常10个探针就足够进行高度可靠的鉴定。如实施例9所述,可以扩增数个基因并/或同时点样,并且能确定特定DNA的量。扩增基因的量可以指示出感染程度。
另一个例子包括可能对HIV病毒的一个基因或整个基因组进行测序。因为病毒变化迅速,给选择适宜的治疗方法造成很多困难。可以由来自64个患者的分离病毒去扩增DNA片段,并利用所述过程重新测序。在得到的序列的基础上,可以选择最佳治疗方法。如果有两个类型的病毒相混,其中一个含有基本序列(类似杂合子的情况),通过将突变体的杂交评分和其它样品(尤其是和只含基本病毒型的对照样品)的杂交评分作定量比较,可以确认突变体。如果样品中两个病毒类型之一在某位点发生变异,覆盖此位点的3到4个探针的评分只有其它样品的1/2。
实施例24法学鉴定和亲缘鉴定序列多态性使基因组DNA各不相同。这样可以分析从犯罪现场得到的血液或其它体液或组织,并且与犯罪嫌疑人的样品进行对比。将足够数量的多态性位点标记下来,形成样品的独特标志。SBH可以非常容易地标记单核苷酸的多态性从而形成这种标志。
可以将样品和嫌疑犯的一组DNA片段(10-1000)进行扩增。将来自样品及嫌疑犯的代表一个片段的DNA点在一个或几个亚阵列上,每个亚阵列被复制4份。在3次循环中,12个探针可以确定出每份样品(包括嫌疑犯的)中每个DNA位点是否存在等位基因A或B。将样品和嫌疑犯的样式进行匹配,可以发现犯罪嫌疑人。
可以用同样的过程来证明或否定父母与孩子的亲缘关系。从儿童和成人制备DNA并扩增多态性基因座;可以通过各自的杂交确定A或B等位基因的样式。将所获得的样式与阳性及阴性对照一起进行比较,可以帮助确定家庭关系。在这种情况下,只需等位基因的重要部分与父母一方匹配就可确认。标记基因座数目众多可以避免程序中的统计错误,或再次突变的掩盖效果。
实施例25评估种群或物种的基因多样性及生态小环境的生物多样性对大量基因座(例如,数个基因或整个线粒体DNA)上的等位基因变异频率进行检测,导致建立了不同类型的结论,比如这样一些结论,它们涉及环境对基因型、对种群的历史和进化或者对种群易感性、对灭绝,及其它的影响。可以通过检测特定的已知等位基因进行这些评估,或者通过对一些基因座进行完全的重新测序,重新测序可以确定基因的再次突变,后者可以揭示环境中的诱变剂和细微变化。
另外,通过对进化保守的DNA序列(如核糖体RNA的基因或高度保守的蛋白质的基因)进行重新测序,就可以对微生物世界的生物多样性进行考查。可以从环境中以及用保守序列的对应引物扩增的特定基因来制备DNA。优选将DNA片段克隆在一个质粒载体上(或将其稀释到这样一个水平多孔板上的每个孔中含有1个分子,然后进行体外扩增)。可以依照前面描述的方式将这样制备的克隆重测序。从而获得两类信息。首先,可以得到不同种的目录以及每一种中个体的密度。另外一部分信息可以用来检测生态因子或污染对生态系统的影响。这将揭示是否污染造成了一些物种的灭绝,或者物种间的丰度比被改变。这种方法同样可以应用于化石中的DNA测序。
实施例26对核酸物类的检测或定量利用一个探针对可以对DNA或RNA物类进行检测和定量分析,该探针对包括一个固定在基质上的未标记探针和一个溶液中的已标记探针。在有标记探针和连接酶的情况下,通过将这些物类暴露于未标记的探针中可以进行检测和定量。特别地,通过在样品核酸主链上连接标记探针和未标记探针得到延伸的探针,形成延伸探针就指示存在所要检测的物类。因此,除去未连接的标记探针后,如果基质上的阵列的特殊位点存在标记物,就表明存在一个样品物类,标记物的量指示该物类的表达水平。
可选择地,先将1或多个未标记的探针排列在基质上,而将1或多个标记探针导入溶液中。按照这样一种方法,即利用在可辨别波长下发荧光的染料,可以使阵列上的探针多样化。利用这种方式,用特异于待测物类的标记和未标记探针检测加到阵列上的cDNA混合物,确定是否存在该cDNA物类及其表达水平。按照一个优选的实施方案,可以通过选择含有与被测cDNA有重叠序列的未标记与标记探针对,用这种方法测定cDNA的部分序列。
可以选择探针以检测特定病原体基因组的存在和数量,这是通过在组合物中加入选出的探针对,此探针对仅在目的病原基因组个体中结合。也就是,虽然没有特异于病原体基因组的某个探针对,但探针对的结合却是特异的。同样,在cDNA的检测或测序中,很可能会发生这种情况特定探针对于一个cDNA或其它类型的物类是非特异的。然而,可以通过这样一个结果来决定特定物类的存在和数量,即位于一个独特的阵列位置上的选择探针的结合表明一个特定物类的存在。
不用聚合酶链式反应(PCR)或其它目的扩增过程,仅用一个固定化的检测芯片就可以检测一个带有10kb或更大DNA的感染性介质。按照其它方法,通过经PCR扩增单个靶核酸序列以及利用对靶序列特异的标记探针进行杂交来检测目的基因的存在,可以分析包括细菌和病毒在内的感染性介质的基因组。由于这种分析仅对单个靶序列有特异性,因此必须利用比如PCR这些方法扩增基因,提供足够的靶序列以便给出一个可测的信号。
按照本实施例,它提供了一个利用Format 3型反应来检测感染性介质的特有核酸序列的改进方法,其中要准备一个固相检测芯片,此芯片含有由多种不同的固定寡核苷酸探针构成的阵列,探针对所研究的感染性介质具有特异性。单个的点包含由许多与靶核酸互补的未标记探针组成的混合物,它使对某物类特异的标记物浓缩于一个位置,从而比扩散或单个探针标记的敏感性更高。这种多探针可能是靶核酸序列的重叠序列,但也可能是非重叠序列,还可以是不相邻的。这些探针优选大约5-12个核苷酸长。
将一个核酸样品加入探针阵列,样品中的靶序列将与多个固定的探针杂交。选择一组标记多探针,它们能够特异地结合在与固定探针相邻的靶序列上,然后将它们与样品一起加到未标记寡核苷酸探针混合物的阵列上。将连接酶加入到芯片中来连接样品上的相邻探针。然后漂洗检测芯片以除去未杂交和未连接的探针及样品核酸,通过检测有无标记物来确定是否存在样品核酸。这种方法能给出可靠的检测结果,它所使用样品介质的摩尔浓度降低了1000倍。
本发明的另一方面,可以通过某些手段扩大标记探针产生的信号,如给游离探针加一个通用的尾巴,这个尾巴含有多个产色素、酶促或放射性的标记物,或者它本身易被另外一个多重标记了的探针介质特异性结合。通过这种方式就可以进行第二级的信号放大。第二级放大时可以使用标记的或未标记的探针。在这个第二级放大中,一个带有多标记的长DNA样品可以导致信号强度放大10-100倍,这可以使信号总共放大100,000倍。通过利用本实施例的两个方面,不必使用PCR或其它扩增步骤,一个接近100,000倍的信号强度就能得到探针一DNA连接的阳性结果。
按照本发明的另一个方面,可以制备一个包含一整套探针(例如4096个6碱基序列的探针)的阵列或超阵列。这种阵列可以被用来对任何核酸物类进行检测或进行部分到完全的测序,从这个意义上来说它们是通用的。一个阵列上的单个点可能包含一个物类的探针或探针的混合物,例如在一个反应中合成的N(1-3)B(4-6)N(1-3)类型的混合物(N表示所有的4种核苷酸,B表示一种特异的核苷酸,相关的数字表示碱基数目的范围,如,1-3表示“1到3个碱基”)。通过收集同一长核酸物类的分子上不同部分的信号,这些混合物可以为低浓度的核酸物类提供较强的信号。可以将这个通用的探针组分成许多亚组,这些亚组点成被一些屏障分隔开的单位阵列,其中的屏障可以防止含有样品和标记探针的杂交缓冲液发生扩散。
对一个序列已知的核酸物类进行检测时,要选择一种含更多寡核苷酸的序列,包括未标记的固定探针和溶液中的标记探针。标记探针可以是合成的或者选自预先合成的整套碱基序列(如7碱基序列)。将标记探针添加到相应的固定探针的单位阵列中。这样一对固定和标记探针将与靶序列在邻近位置杂交,一旦加入连接酶,探针就被共价地结合在一起。
如果一个单位阵列包含1个以上固定探针(分别处于差异部分或位于同一点上),所述探针在给定核酸物类中为阳性,那么可以将所有相应的标记探针混合起来加入到此单位阵列中。当所检测的为混合核酸物类时,将标记探针混合就显得尤为重要。一个复杂的核酸物类混合物的例子是一个细胞或组织中的mRNA。
按照本发明的一个实施方案,固定探针的单位阵列使得可以将每一个可能的固定探针与数量较少的标记探针的混合物一起使用。如果要实施一个多重标记方案,可以使用更复杂的标记探针的混合物。优选的多重标记方法可以使用不同的荧光染料或者可以用质谱仪进行分离的分子标记物。
可选择地,按照本发明的一个优选实施方案,挑选一些较短的固定探针,这些探针通常与许多核酸序列杂交。将这些短的探针和标记探针的混合物结合使用,制备这些标记探针混合物是为了使得至少有一个标记探针对应于每个固定探针。优选的混合物是那些其中没有与多个固定探针对应的标记探针的混合物。
实施例27利用所有可能的10碱基序列查询HIV病毒的片段在这个SBH格式III的实施例中,在尼龙膜(如Gene Screen)上制备一个结合了所有可能的5碱基序列(1024个可能的5碱基序列)的阵列。利用5’-TTTTTT-NNN-3’(N=所有4种碱基A,C,G,T,在合成的这一步,等摩尔加入所有4种碱基)的5’末端,合成结合的5碱基序列寡核苷酸。将这些寡核苷酸精确地点在尼龙膜上,经风干后,用紫外线处理将风干的点来固定寡核苷酸。用这种方法使寡核苷酸的密度达到每平方纳米18个寡核苷酸。紫外线处理后,用含有缓冲液的去污剂于60-80℃处理尼龙膜。将寡核苷酸点划分成10行10列的亚阵列,每个亚阵列有64个5碱基序列的点和36个对照点。16个亚阵列有1024个5碱基序列,它包含了所有可能的5碱基序列。
利用物理屏障,例如疏水带,将阵列中的每个亚阵列分隔开,这样可以避免每一个亚阵列与样品杂交时,与相邻亚阵列的交叉污染。在一个优选实施方案中,疏水带是用在合适溶剂中的(这种溶剂是本领域公知的)硅硐溶液(例如,普通硅硐胶和封口胶)制作的。用这种硅硐脂溶液在亚阵列之间形成线,这种线在溶剂蒸发后作为分隔小室的疏水条。
在这个Format III的实施例中,游离的或溶解的(不结合的)的5碱基序列是利用5’-NN-3’(N=所有4种碱基A,C,G,T)的3’末端合成的。在这个实施方案中,将游离的5碱基序列和结合的5碱基序列组合起来生成所有可能的10碱基序列,此10碱基序列是为了对20kb以下的已知DNA测序。将20kb的双链DNA变性形成40kb的单链DNA序列。该40kb的ssDNA与4%的所有可能10碱基序列杂交。10碱基序列与已知靶序列结合的低频率使得可以将待处理的游离或溶解(不结合的)5碱基序列汇合起来用于处理各亚阵列,而不丢失序列信息。在一个优选实施方案中,将16个探针汇合在各个亚阵列,而且所有可能的5碱基序列存在于含游离5碱基序列的64个集合中。这样,利用1024个亚阵列(每个游离5碱基序列的集合有16个亚阵列)就可以生成针对一份DNA样品的所有可能的10碱基序列探针。
在这个实施方案中,目的DNA代表HIV病毒的2个600bp的片断。用60个重叠的30碱基序列(每个30碱基序列与相邻的30碱基序列有20个核苷酸的重叠)来表示这些600bp的片段。30碱基序列的集合模拟一个目的DNA,该DNA经本领域公知技术剪切、消化和/或随机PCR处理而生成一个非常小的片断的随机库。
如前面的Format III的实施例中所描述的,用放射性同位素、生物素、荧光染料等来标记游离的5碱基序列。标记的游离5碱基序列和结合5碱基序列一起与目的DNA进行杂交和连接。在一个优选实施方案中,向反应体系中加入300-1000单位的连接酶。按照前面的实施例确定杂交条件。连接并去除目的DNA和过量的游离探针后,(利用前面实施例中描述的技术)分析阵列来确定标记探针的位置。
目的DNA中的已知DNA序列,以及每个亚阵列中的已知游离及结合5碱基序列预示着每个亚阵列中哪个结合5碱基序列将连接到标记的游离5碱基序列上。随着每一目的DNA的变化,来自20个预测点的信号将丢失,并由预测序列获得20个新的信号。在这10个新点中,结合5碱基序列的重叠序列决定了每个新点中,哪一个游离的标记5碱基序列被结合。
利用上述方法、阵列以及游离的标记5碱基序列集合,用所有可能的10碱基序列来检测HIV的DNA序列。利用这种Format III的方法,我们可以正确地鉴定出被测片断的“野生型”序列,同样可以鉴定出引入这些片断上的那些序列“突变”。
实施例28重复DNA序列的测序在一个实施方案中,在一个改进的Format III方法中,用“间隔区寡核苷酸”对目的DNA中的重复DNA序列进行测序。重复DNA序列(在第一轮SBH确定了重复序列)上的不同长度的间隔区寡核苷酸与目的DNA、第一个已知相邻寡核苷酸以及第二个已知的或一组可能与间隔区的另一边相邻的寡核苷酸(从第一轮SBH得知)进行杂交。当一个与重复DNA片断长度吻合的间隔区与靶序列杂交时,两个相邻的寡核苷酸能够被连接在间隔区上。如果将第一个已知寡核苷酸序列固定在基质上,且第二个已知的或可能的寡核苷酸序列被标记,那么当一个适宜长度的间隔区与目的DNA杂交时,就会形成一个结合的连接产物,这个产物包括被标记的第二个已知的或可能的寡核苷酸。
实施例29利用FORMAT 3 SBH通过分支点测序在一个实施方案中,利用第三组寡核苷酸序列和改进的格式III方法,对目的DNA中的分支点进行测序。第一轮SBH后,编排序列时可能鉴定出一些分支点。这个问题可以这样解决,通过与导致分支点的已知序列之一有部分重叠的寡核苷酸进行杂交,然后再与另外的一个寡核苷酸靶序列进行杂交,该寡核苷酸已被标记并且与分支点伸出的序列之一相对应。当适宜的寡核苷酸与目的DNA杂交后,可以将被标记的寡核苷酸与其它的寡核苷酸相连接。在一个优选实施方案中,选择第一种寡核苷酸,它被一个或几个分支点处的核苷酸(这样能识别一个分支序列)形成分支,第二种寡核苷酸也被选择出来,它是从第一种寡核苷酸起始并读入分支点序列。选择一组第三种寡核苷酸,这种寡核苷酸对应所有可能的分支序列,并与分支点序列有一个或几个核苷酸(与第一个寡核苷酸相对应)重叠。将这些寡核苷酸与目的DNA进行杂交,只有第三种带有适当分支序列的寡核苷酸(它与第一个寡核苷酸的分支点相匹配)会与第一、第二寡核苷酸产生连接产物。
实施例30用于分析靶核酸的多重探针在本实施例中,用不同的标记物标记探针组,因此,组中的每个探针都能与其它探针区别开。这样,这组探针能够与核酸在同一个杂交反应中接触而不会丢失任何探针信息。在一个优选实施方案中,不同的标记物是不同的放射性同位素,或不同的荧光标记,或不同的EMLs。这些探针系列可以用于SBH的格式I、II或III中。
在Format I SBH中,一组区别标记的探针与固定在介质上的靶核酸进行杂交,所用杂交条件可以区分完全匹配与只有一个碱基对的错配。与靶核酸相连接的特异探针可以通过它们不同的标记被识别,并且由这种连接信息至少部分地确定了完全匹配。
在Format II SBH中,用不同探针标记靶核酸并与探针阵列进行杂交。通过其不同标记物来识别与探针结合的特异靶核酸,并至少部分地由这些结合信息决定核酸的完全匹配。
在FormatIII SBH中,一组区别标记的探针和固定探针与靶核酸进行杂交,杂交条件能够区分完全匹配与一碱基对的错配。在靶核酸上邻近一个固定探针的标记探针被结合到固定探针上,通过它们的不同标记来检测并区分这种产物。
在一个优选实施方案中,区别标记物是EMLs,可以利用电子俘获质谱仪(EC-MS)对其进行检测。可以由多种主链分子,特定优选某些芳香链来制备EMLs,如参见Xu等,J.Chromatog.76495-102(1997)。将EML可逆地并且稳定地连接在探针上,在探针与靶核酸杂交后,从探针上去除EML,并利用标准的EC-MS对其进行鉴定(如,可以通过气相色谱-质谱仪检测EC-MS)。
实施例31检测低频率靶核酸SBH Format III有足够的辨别能力将这样的序列鉴定出来,该序列和它仅一个核苷酸之差的类似序列在样品中以1比99份存在。因此,可以用Format III来鉴定核酸样品中浓度极低的核酸,例如一个来源于血液的样品。
在一个实施方案中,这两个序列是决定囊性纤维化的序列,不同之处在于其中一个缺失了3个核苷酸。这两个序列的探针是固定在一个基质上,能区别缺失型和野生型的探针,以及一个二者共同的被标记的邻接探针。利用这些靶序列和探针,用SBH FormatIII可检测出存在于99个野生型中的一个缺失突变。
实施例32用于分析靶核酸的偏振片装置和方法可以用两个核酸阵列和任选的一种能阻止两个阵列的核酸在需要前发生混合的材料来构造分析核酸的装置。可以用一系列基质支持装置中的阵列,基质包括但不限于尼龙膜、硝酸纤维素膜或其它上文公开的材料。在优选实施方案中,一种基质是一种被疏水带分隔为小区的膜,或者是另外一种有小孔的支持物,孔中可以填塞凝胶或海棉。在本实施方案中,探针被放置于膜的一个小区或者小孔中,将凝胶、或海棉与一种溶液(带有或不带有靶核酸)加到膜上或孔中,这样可以溶解探针。然后使这种溶有探针的溶液与第二阵列的核酸进行接触。核酸可以是,但不限于是寡核苷酸探针或靶核酸,可以将探针或靶核酸标记。可以用任何本领域常用的标记物,包括,但不仅限于放射性同位素,荧光标记或电泳质量标记物来标记核酸。
将阻止核酸混和的材料放置在两个阵列之间,其放置方式保证当这种材料被去除后,两个阵列的核酸将混和在一起。材料的形态可以是片状、膜或其它屏障形式,而且这种材料可由任何能够阻止核酸混合的物质构成。
在SBH Format I中可以这样来使用该装置装置的第一阵列含有固定在基质上的靶核酸,装置的第二阵列带有核酸探针,这些探针已被标记,并能够除去从而对第一阵列上的靶核酸进行查询。任选将这两个阵列通过一层物质隔开,这种物质能够阻止探针与靶核酸的接融,当除去这层物质后,探针就可与靶核酸相互作用。经过适当的培养及(任选的)漂洗步骤后,可以“读”出靶核酸阵列以测定哪个探针能与靶核酸完全匹配。这种认读可以是自动化的,也可以是人工的(如,通过肉眼识别放射自显影图)。在SBH Format II中,过程类似前面描述的过程,只是靶核酸被标记而探针被固定。
可选择地,在SBH FormatIII中可以如下使用该装置形成两个核酸探针阵列,将两个阵列或其中的一个的核酸探针标记,并可将其中一个阵列固定在基质上。用一层能阻止探针混和的物质将两个阵列分隔开。通过加入靶核酸并除去阻挡层以使两种探针与靶核酸相互混和来启动Format II反应。结合到靶核酸上的相邻位置的探针被联接在一起(例如通过碱基堆积相互作用或通过与主链的共价键连接),读出结果以确定哪些探针在邻近位点与靶核酸相连。当一组探针被固定在基质上后,可以阅读固定的那个阵列探针来确定另一阵列中的哪个探针与固定探针连接在一起。与上面的方法相同,这种阅读方法可以是自动的(如,利用ELISA计数器)或人工的(如利用肉眼观察放射自显影图)。
实施例33三维探针阵列在一个优选实施方案中,将寡核苷酸探针固定在一个三维阵列中。三维阵列包括许多层,每一层都可以独立并脱离其它层进行分析,或者三维阵列的所有层同时进行分析。三维阵列包括,例如,一种放置在基质上的阵列,基质上带有多个凹陷,而探针位于这些凹陷内的不同深度(每一层面由位于凹陷内相似深度的探针构成);或者安置在这样的基质上的阵列,所述基质带有不同深度的凹陷,而探针位于凹陷的底部、分隔凹陷的峰、或峰和凹陷的结合部(每一个层面是由处于特定深度的所有探针组成);或者安置在由许多片状层组成的基质上的阵列,这些片状层形成三维阵列。
用于合成这些三维阵列的物质是本领域所公知的,其中包括本说明书先前提到的还适合作探针阵列的支持物的一些物质。另外,其它的一些能够支持寡核苷酸探针的适宜物质,优选是柔韧性的物质,也能够用作基质。
实施例34cDNA克隆簇的信号处理利用标准PCR、SBH序列信号分析及桑格测序技术,由cDNA文库得到许多不同的核酸序列。通过PCR扩增文库的插入序列,扩增过程中使用了插入序列两侧的载体序列的特异引物。这些样品被点在尼龙膜上并且用适当数量的寡核苷酸探针进行查询,测量阳性结合探针的浓度,从而提供序列信号。将克隆聚集成具有相似或相同序列信号的簇,从每一簇中选出一个代表性的克隆进行凝胶测序。在一个典型的桑格测序流程中,利用反转M13测序引物来推断扩增到的插入片断的5’端序列。将PCR产物纯化,并进行荧光染料终止循环测序。用377Applied Biosystems(ABI)测序仪做单通道凝胶测序。经过这种方法选择和测序的大多数克隆具有各不相同的序列,很少具有相同的序列。
实施例35高产量生产芯片在一个优选实施方案中,一种用于大量生产探针阵列的装置可能包含一个旋转的鼓或盘,它与一个喷墨沉积装置连接,(如微滴量头);和一个合适的自动化系统,例如一个anorad gantry。关于该装置的一个特别优选的实施方案将配合图1-3进行描述。
装置包含一个圆柱(1),其上结合有合适的基质。此基质可以是前面所描述的适用于探针阵列的任何基质。在一个优选的实施方案中,基质是一种柔韧性的物质,阵列直接在基质上生成。在可选择的实施方案中,柔韧性的基质结合在圆柱上,单个的芯片固定于基质上。然后在每个单独的芯片上形成阵列。
在一个优选的实施方案中,在基质或芯片上加上物理屏障来限定一个孔阵列。可以利用装置将此物理屏障加到基质或芯片上,或可替代地,在芯片或基质尚未固定在圆柱(1)上之前就加上了物理屏障。然后将单个寡核苷酸探针点放置在每一个小孔中,每个孔中所放置的所有探针可能都有相同的序列,或者具有不同的序列。在一个更优选的实施方案中,阵列中点在每个单独孔中的探针与点于阵列中其它孔中的探针互不相同。由这些阵列就可以拼合含有多重阵列的测序芯片。
将基质或基质和芯片固定到圆柱(1)上后,一个发动机(未显示)将转动圆柱。通过本领域的公知技术,包括例如,利用一个固定的光感受器及随圆柱转动的光源,可以精确地测定圆柱的转动速度。利用以上计算得到的精确转速,一个分液器(3)沿着臂(2)移动,能够将探针或其它试剂通过分液枪头(8)加到基质或芯片上的精确位置。分液器通过流加管(7)从存贮器(6)中接收探针或反应物。存贮器(6)中装有制造阵列所必需的探针及其它试剂。
图3中描绘了分液器。分液器可以有1或多个分液枪头(14和8)。每一个分液枪头对应主体(12)上的一个样品孔(13),通过样品管(10)来接收探针或其它试剂。压力管(11)向小室(9)加压以达到1磅/英寸2,以使探针或试剂流过分液枪头(14和8)。在每次变换探针或试剂时,都必须冲洗样品管(10)、孔(13)及分液枪头(14和8)。通过样品管(10)或任选专门漂洗管(未显示)来供应合适的漂洗缓冲液到样品孔(13)中,或者任选将室的一部分或整个空间加满漂洗缓冲液。需要时,通过一个排出管(未显示)或通过样品管(10)及分液枪头(14和8)将漂洗缓冲液从样品孔及室中移出。
利用分液方法将探针加到每个阵列或芯片上的所有适当位点后,去除圆柱中的基质(带有或不带有芯片)并结合上新的基质。
实施例36利用与分散颗粒复合的探针分析靶核酸在该实施方案中,用探针来查询靶核酸,这些探针复合(共价或非共价)了许多分散颗粒。可以基于其物理学性质(或多个物理学性质)的不同将这些颗粒分散区别开来,具有不同物理学性质的颗粒与不同的探针相复合。在一个优选实施方案中,探针是一个序列和长度已知的寡核苷酸。因此,利用每个颗粒的不同物理性质就可将探针鉴定出来。适用于该实施方案的探针包括在前面部分所描述的所有探针,包括那些从提供信息的意义上来说比全长探针要短的探针。
分散颗粒的物理特性可以是任何能使它们被划分为组的特性,这些特性在本领域广为人知。例如,可以基于它们的大小、荧光、吸光度、电磁电荷或重量,或者颗粒是否可以被标记染料、放射性核素或EML来将它们划分为组。其它一些合适的标记包括可作为特异结合物的配体,这些结合物可结合标记抗体、化学发光剂、酶、可和标记配体特异结合的抗体,等等。许多标记物早已被应用于很方便采用的免疫分析中。其它的一些标记包括抗原、有特殊反应性的基团,和电化学可检测的部分。还有其它一些标记,包括在前面部分提到的任何标记。这些标记和特性可用本领域常见的方法对其进行定量检测,包括例如前面章节所描述的方法,并且可以基于检测信号强度或信号类型来区别颗粒(例如对于同一颗粒可应用不同的染料密度或不同的染料类型作为一个标记)。在一个优选的实施方案中,几种物理特性被结合起来,从而利用不同的特性组合来辨别颗粒(如,10种大小和10种颜色结合起来可以区分100种颗粒群体)。
利用颗粒—探针能够开发标准组合方法,因此,例如可以利用大约2000个反应容器合成所有可能的10碱基序列。进行第一组1024个反应在1024个不同的标记颗粒上合成所有可能的5个碱基序列。将产生的探针—颗粒混合在一起,并平分到另外一组1024个反应容器中。用这些样品进行第二组反应,在颗粒集合中的探针上合成所有可能的5碱基序列的延伸产物。利用物理学性质来鉴定每个探针的前5个核苷酸,利用反应器来鉴定每个探针的另5个核苷酸的特征。由此,利用2048个反应器合成了所有可能的10碱基序列探针。很容易将这个方法进行改进以便在大范围的探针长度内合成所有可能的n碱基序列。
在一个优选实施方案中,根据颗粒的荧光强度将它们分成组。用不同浓度的荧光标记制备每组颗粒,由此颗粒具有不同的荧光强度。荧光素的荧光强度与其浓度在1∶300到1∶300,000(Lockhart等,1986)的范围内有关,在1∶3000到1∶300,000的浓度范围内,呈线性关系(因此荧光素强度在大约1-300的范围内呈线性)。在线性检测范围内,用荧光素(如,3-259)标记256组颗粒。256组颗粒可以使所有可能的4碱基序列连接到不同组的颗粒上。通过将颗粒汇集,具备了4个含有所有可能4碱基序列的集合,然后利用A,G,C,或T在每个集合中延伸探针,就可以形成所有可能的5个碱基序列。类似地,得到16个所有可能4碱基序列的集合,通过对每个集合进行两个碱基(A,G,C,和T的两个碱基的16种排列之一)的延伸,可以获得所有可能的6碱基序列(7碱基序列需要64个集合,8碱基序列需256个集合,等等)。
用5碱基序列的探针(在4个集合中)来查询一个靶核酸。该靶核酸用另外一种荧光染料或其它的不同标记物(如上所述)进行标记。将被标记的靶核酸与4个集合混合在一起,每个集合中的互补探针与靶核酸进行杂交。利用本领域公知的方法检测这些杂交混合物,然后通过检测每个颗粒的荧光强度来鉴定阳性杂交探针。在一个优选实施方案中,使探针-颗粒以及靶核酸的混合物通过一个流式细胞器中或其它的分离仪器中,每次一个颗粒,检测颗粒的标记和靶核酸从而决定哪些探针是与靶核酸互补的。
在一个可选择的实施方案中,用另一种荧光染料或其它的标记(如上所述)标记一组游离探针,将每个单独的游离探针与每个5碱基序列探针集合(4个集合)进行混合,然后使混合物与靶核酸进行杂交。当游离探针结合到靶核酸上的一个位点,此位点与5碱基序列的结合位点相邻(游离探针的位点必须与可以连接的5碱基序列探针的末端相邻)时,加入一种介质使游离探针与5碱基序列探针共价结合(参照前面部分有关合适介质的描述)。利用本领域的公知方法对颗粒进行分析,来检测哪些颗粒(即具有游离探针标记的颗粒)已经与游离探针共价结合,并利用颗粒的荧光强度来鉴定5碱基序列探针。在一个非常优选的实施方案中,使探针—颗粒、游离探针和靶核酸的混合物通过一个流式细胞器,每次一个颗粒,并检测颗粒的标记和游离探针的标记来确定哪些探针与靶核酸互补。
在优选的实施方案中,要用探针—颗粒复合物来分析靶核酸,所有或大部分的操作在一个单独的装置中就可以完成。该装置具有一个或多个试剂室,将缓冲液和标记的靶核酸在其中充分混合(可以人工加入或自动添加靶核酸)。将混合物从试剂室分流到多个反应室,每个反应室具有一个探针颗粒复合物集。探针颗粒和靶核酸在一定的条件下反应,该条件允许互补探针与靶核酸发生结合。从反应室中去除(如通过漂洗)过量的靶核酸,即未结合的核酸,并利用靶核酸上的标记与颗粒的联系鉴定结合在靶核酸上的颗粒。利用颗粒的物理学特性鉴定探针。在一个优选实施方案中,除去过量靶核酸后,颗粒从反应室以单列通过一个孔道到达检测仪。当单个的颗粒通过检测仪器时,这些仪器将检测靶核酸的标记和颗粒的物理学性质。在一个可选择的优选实施方案中,在去除过量靶核酸之前或之后,例如通过大小(如排阻层析),电荷(如,离子交换层析),和/或密度—重量这些物理学性质中的一种或全部来将颗粒分成组。然后利用检测仪器分析这些分配好的颗粒。
在一个可选择的实施方案中,试剂室中有缓冲液、靶核酸、探针—颗粒复合物集,和一个化学的或酶促的连接试剂。充分混合这些成份,然后在将其从试剂室等分到许多反应室中。每一个反应室都有一个标记的游离探针。可选择地,将这个探针—颗粒复合物集合和游离探针一起放在反应室中,而不必将它们加入试剂室。另外,可以将游离探针加入试剂室,探针—颗粒集合可以加入到反应室。探针—颗粒、靶核酸和游离探针在一定条件下进行反应,该条件允许游离探针和颗粒探针与靶核酸上的相邻位点结合,因此,游离探针被连接在探针—颗粒上。从反应室中清除(如,通过漂洗)过量的游离探针(即,未连接的)和靶核酸。利用游离探针标记与颗粒的联系检测已连接的探针,并利用颗粒的物理学性质鉴定与颗粒复合的探针。在一个优选的实施方案中,除去过量的探针和靶核酸后,颗粒从反应室单列穿过一个通道到达检测仪器。当单个颗粒通过检测仪器时,此仪器将检测以共价形式联在颗粒上的游离探针标记以及颗粒的物理学性质。在一个可选择的优选实施方案中,清除过量探针和靶核酸之前或之后,利用颗粒的物理学特性,如借助它们的大小(如排阻层析),电荷(离子交换层析),和/或密度/重量将其归组。利用检测仪器分析分配好的颗粒。
在一个优选的实施方案中,仪器中有一组第二反应室,探针颗粒集合被放置在第二反应室中。将靶核酸和缓冲液在试剂室中混和,然后注入含有标记游离探针的第一反应室。将探针和靶核酸混合,任选探针与靶核酸进行杂交。然后使标记探针及靶核酸的混合物流入含有探针颗粒集的第二反应室中。在第二反应室中,游离探针和探针-颗粒与靶核酸进行杂交,合适的探针被连接在一起。可以将连接试剂加入到试剂室中,或添加到任何一个反应室中,优选加入第二反应室中。按上述方法分析第二反应室中的探针—颗粒的杂交产物。
在一个实施方案中,在分析前不必扩增(通过PCR或利用一个载体,例如λ文库)靶核酸。由于样品序列的复杂性增加,在本实施方案中优选使用较长的游离探针和颗粒探针(即越过背景分辨出阳性反应)。
在这个实施例中所描述的探针—颗粒实施方案适用于以前描述过的任何应用,包括但不限于以前描述的诊断和测序应用。另外,可以按前面所述及的变化或改变,对这些探针—颗粒方案进行改进。
实施例37在有改变多核苷酸间的结合的试剂存在的情况下,互补多核苷酸的相互作用在这个实施方案中,通过添加一种或多种试剂,可以调整对互补多核苷酸结合过程中产生的完全匹配和错配的辨别值。在一个优选实施方案中,互补的多核苷酸是一个目的多核苷酸和一个多核苷酸探针。通过添加试剂可以调整区分完全匹配和错配的能力,所述试剂可以是盐,如三烷基铵盐(例如TMAC,Ricelli等,核酸研究213785-3788(1993))、氯化钠、磷酸盐和硼酸盐;可以是有机溶剂,如甲酰胺、乙二醇、二甲基亚砜以及二甲基甲酰胺、脲、鈲、氨基酸类似物比如甜菜碱(Henke等,核酸研究193957-3958(1997);Rees等,生物化学32137-144(1993)),多胺如亚精胺和精胺(Thomas等,核酸研究252396-2402(1997)),或能够中和磷酸主链负电荷的带正电荷的分子;可以是去污剂,如十二烷基磺酸钠、十二烷基肌氨酸钠,小/大沟结合试剂、正电荷多肽,和插入试剂如吖啶、溴乙锭、炭疽菌素。在一个优选实施方案中,向杂交反应中加入混和的试剂,以便调整区分正确匹配与错配的能力。其中一些试剂可以通过降低两个互补链的熔解熵从而影响辨别值。
在一个优选实施方案中,利用一些试剂提高了从错误匹配中区别正确匹配的能力。例如,一种常用变性剂甲酰胺,在Format III的反应中,与正确匹配相比,它对错误匹配有优先的去稳定作用。如前所述,启始FormatIII反应,然后添加不同量的甲酰胺(0%,10%,20%,30%,40%,和50%)。在0%,可检测到一个正确的匹配信号,同时背景(错误匹配)很高。在10%的甲酰胺中,有较好的正确匹配信号,同时背景/错误匹配信号降低。在20%的甲酰胺中,正确匹配的信号降低(但可测),同时背景/错误信号被清除。在30%-50%的甲酰胺中,没有正确匹配或背景/错误匹配的信号。
在一个可选择的实施方案中,用一种试剂来降低或增加一对互补多核苷酸的Tm。在一个更优选的实施方案中,利用一些试剂的混合物来降低或增加一对互补多核苷酸的Tm。试剂可以以多种方式改变Tm,这里举两个例子(并不意味着限制本发明),(1)破坏两个互补多核苷酸碱基对之间的氢键连接的试剂(Goodman,美国科学院学报9410493-10495(1997);Moran等,美国科学院学报9410506-10511(1997);Nguyen等,核酸研究253059-3065(1997)),(2)能中和或掩盖多核苷酸的糖磷酸主链中的磷酸负电荷的试剂。(Thomas等,核酸研究252396-2402(1997))。通过加强或减弱(1)和/或(2),就可以调节互补多核苷酸对的Tm值。
在一个非常优选的实施方案中,添加一种或多种试剂来降低GC碱基对的结合能,或者增加AT碱基对的结合能,或两者同时进行。在一个优选实施方案中,加入一种或多种试剂,使AT碱基对的结合能近似等于GC碱基对的结合能。这样,两个互补多核苷酸的结合能仅取决于其长度。通过加入可以中和或掩盖多核苷酸主链中的磷酸基团的负电荷的一种试剂,可以增加这些互补多核苷酸的结合能。
本发明的范围不仅局限于所列举的实施方案,这些实施方案仅用来阐述发明的某一方面,具有相同功能的组合物和方法也在发明的范围内。事实上,考虑了所述优选实施方案后,本领域技术人员可以在应用本发明时进行各种修进和变化。因此,对本发明范围的唯一限制是所附权利要求中列举的。
本说明书中引用的所有文献,在此全文引作参考。
权利要求
1.一个大量寡核苷酸探针的阵列,包括一种基质;一种形成物理屏障的材料,其中所述材料被放置在基质上形成多孔格栅;其中大量寡核苷酸探针被排列在多孔中形成一个阵列,其中每个孔含有一个固定在基质上的探针斑点。
2.权利要求1的阵列,其中每个独立斑点具有的探针的序列不同于阵列中其他斑点处的其他探针的。
3.权利要求2的阵列,其中位于每个独立斑点中的探针具有相同的序列。
4.权利要求1的阵列,其中一个斑点的中心与相邻斑点的中心之间的距离至少为325μm。
5.一块测序芯片,含有大量权利要求1的阵列。
6.一块测序芯片,含有大量权利要求2的阵列。
7.一块测序芯片,含有大量权利要求3的阵列。
8.权利要求1的阵列,其中寡核苷酸探针包含一个信息部分和一个反应基团,该反应基团用于将探针附着在基质上。
9.权利要求8的阵列,其中寡核苷酸探针进一步含有至少一个随机化位点。
10.权利要求9的阵列,其中寡核苷酸探针进一步含有一个间隔基。
11.一个大量寡核苷酸探针的阵列,包含具有多个层面的基质,其中大量探针被固定于基质中的多个层面上。
12.权利要求11的阵列,其中每个层面可被单独分析。
13.权利要求11的阵列,其中多种层面可被同时分析。
14.权利要求11的阵列,其中寡核苷酸探针包含一个信息部分和一个反应基团,该反应基团用于将探针附着在基质上。
15.权利要求14的阵列,其中寡核苷酸探针进一步含有至少一个随机化位点。
16.权利要求15的阵列,其中寡核苷酸探针进一步含有一个间隔基。
17.一种分析靶核酸的方法,包括下列步骤将靶核酸与大量寡核苷酸探针接触,其中所述探针与大量不同的分散颗粒复合,这些颗粒可基于一种物理性质而被相互区分开,且一个不同的探针与每一种类型分散颗粒相复合;检测那些与靶核酸互补的探针;并从一组互补探针分析靶核酸。
18.权利要求17的方法,进一步包括将分散颗粒分离成级分,其中分散颗粒是基于物理性质而被分离的。
19.权利要求18的方法,其中互补探针组具有至少两个重叠探针。
20.权利要求18的方法,其中靶核酸序列在分析步骤中被编辑。
21.权利要求18的方法,其中通过分散颗粒的物理性质识别互补探针。
22.权利要求18的方法,其中物理性质与选自染料、放射性核苷酸、EML和荧光分子的分子相关联。
23.权利要求18的方法,其中物理性质选自大小、电荷、吸光度和重量。
24.权利要求23的方法,其中物理性质与物理性质的强度相关联。
25.权利要求23的方法,其中物理性质与大量不同分子相关联。
26.权利要求18的方法,其中探针的信息部分比探针全长短。
27.权利要求18的方法,其中靶核酸含有一个标记且通过靶核酸上的标记检测互补探针。
28.权利要求17的方法,其中检测步骤是通过将独立的颗粒经过一个探测器而在独立的分散颗粒上进行的。
29.权利要求28的方法,其中互补探针组具有至少两个重叠探针。
30.权利要求28的方法,其中靶核酸序列在分析步骤中被编辑。
31.权利要求28的方法,其中通过分散颗粒的物理性质识别互补探针。
32.权利要求28的方法,其中物理性质与选自染料、放射性核苷酸、EML和荧光分子的分子相关联。
33.权利要求28的方法,其中物理性质选自大小、电荷、吸光度和重量。
34.权利要求33的方法,其中物理性质与物理性质的强度相关联。
35.权利要求33的方法,其中物理性质与大量不同分子相关联。
36.权利要求28的方法,其中探针的信息部分比探针全长短。
37.权利要求28的方法,其中靶核酸含有一个标记且通过靶核酸上的标记检测互补探针。
38.权利要求28的方法,进一步包括将靶核酸与大量游离的寡核苷酸接触,将键合在靶核酸一个位点上的互补游离探针与一个与分散颗粒复合的互补探针共价连接,所述互补探针键合在靶核酸的一个位点上,该位点邻接于游离探针键合的位点,及其中检测步骤识别与分散颗粒探针共价连接的游离探针。
39.权利要求38的方法,其中互补的共价连接的探针组含有至少两个重叠的共价连接探针。
40.权利要求38的方法,其中靶核酸序列在分析步骤中被编辑。
41.权利要求38的方法,其中通过分散颗粒的物理性质识别与分散颗粒复合的探针。
42.权利要求38的方法,进一步包括将分散颗粒分离成级分,其中分散颗粒是基于物理性质而被分离的。
43.权利要求42的方法,其中使用流式细胞计数器将分散颗粒分离成级分。
44.权利要求38的方法,其中物理性质与选自染料、放射性核苷酸、EML和荧光分子的分子相关联。
45.权利要求38的方法,其中物理性质选自大小、电荷、吸光度和重量。
46.权利要求45的方法,其中物理性质与物理性质的强度相关联。
47.权利要求45的方法,其中物理性质与大量不同分子相关联。
48.权利要求38的方法,其中游离探针的信息部分比探针全长短。
49.权利要求38的方法,其中与分散颗粒复合的探针的信息部分比探针全长短。
50.权利要求38的方法,其中游离探针的信息部分及与分散颗粒复合的探针的信息部分比探针全长短。
51.一种分析靶核酸的方法,包括下列步骤在使得完全匹配与错配相区别的条件下将靶核酸与探针接触,其中加入一种增加完全匹配与错配之间的差别的试剂;并检测探针与靶核酸是否互补。
52.权利要求51的方法,其中试剂选自盐、有机溶剂、尿素、鈲盐、氨基酸类似物、多胺、其他中和磷酸骨架负电荷的带正电荷的分子、去污剂、小/大沟结合剂、带正电荷的多肽和插入剂。
53.权利要求52的方法,其中盐选自三烷基铵盐、氯化钠、磷酸盐和硼酸盐。
54.权利要求52的方法,其中有机溶剂选自甲酰胺、乙二醇、二甲基亚砜和二甲基甲酰胺。
55.权利要求52的方法,其中氨基酸类似物是甜菜碱。
56.权利要求52的方法,其中多胺选自亚精胺和精胺。
57.权利要求52的方法,其中去污剂选自十二烷基磺酸钠和十二烷基肌氨酸钠。
58.权利要求52的方法,其中插入剂选自吖啶、溴乙锭和炭疽菌素。
59.权利要求51的方法,其中加入多种试剂。
60.权利要求59的方法,其中试剂选自盐、有机溶剂、尿素、鈲盐、氨基酸类似物、多胺、其他中和磷酸骨架负电荷的带正电荷的分子、去污剂、小/大沟结合剂、带正电荷的多肽和插入剂。
61.一种分析靶核酸的方法,包括下列步骤提供一个大量固定化寡核苷酸探针的阵列;提供大量标记的寡核苷酸探针;在使得与靶核酸形成完全匹配的探针区别于与靶核酸结合时有一个碱基错配的探针的条件下,将靶核酸与固定化探针和标记探针接触,其中加入能增加完全匹配与一个碱基对错配之间的差别的试剂;将键合于靶核酸的一个位点的固定化探针与标记探针共价连接,所述标记探针杂交在靶核酸的一个位点,该位点邻接于固定化探针键合的位点;并识别共价连接的固定化探针和标记探针。
62.权利要求61的方法,其中试剂选自盐、有机溶剂、尿素、鈲盐、氨基酸类似物、多胺、其他中和磷酸骨架负电荷的带正电荷的分子、去污剂、小/大沟结合剂、带正电荷的多肽和插入剂。
63.权利要求61的方法,其中试剂是甲酰胺。
64.权利要求61的方法,其中加入多种试剂。
全文摘要
本发明提供了一种用于检测靶核酸物类的方法,使用固定于一种基质的一个探针阵列和大量标记探针。本发明还涉及附着于分散的颗粒上的寡核苷酸探针,其中根据物理性质将颗粒分为许多组。不同的探针附着于每组分散的颗粒上,根据其物理性质识别分散的颗粒从而确定探针的同一性。本发明进一步涉及使用降低互补多核苷酸链结合稳定性(降低结合能)的试剂和提高互补多核苷酸链结合稳定性(提高结合能)的试剂的方法。附图描绘了批量生产探针阵列的装置。
文档编号C40B60/14GK1273609SQ98808165
公开日2000年11月15日 申请日期1998年8月14日 优先权日1997年8月15日
发明者R·德尔马纳克, S·德尔马纳克, N·拜德亚 申请人:希斯克有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1