从头检测核酸中的序列的方法通过片段化进行的导向测序的制作方法

文档序号:439983阅读:301来源:国知局

专利名称::从头检测核酸中的序列的方法通过片段化进行的导向测序的制作方法相关申请本申请根据35U.S.C.§119(e)要求下列申请的权益,即2004年4月9日提交的美国临时申请No.60/563,283和2004年4月26日提交的美国临时申请No.60/565,284,这些申请的内容被完整引入本文作为参考。发明领域本发明涉及基于特定片段大小测定靶核酸的核酸序列的方法。
背景技术
:现有若干涉及可理想地快速并准确检测靶核酸内一个或多个已知序列的存在的申请。该检测典型地通过杂交阵列、PCR或小范围桑格DNA测序法而得以实现。但所有这些方法均要求指定是哪些序列将被检测(杂交阵列)或者先验知道靶内的引物序列(PCR,桑格DNA测序法)。桑格测序反应和相关方法通常利用电泳或质谱法进行分析。在核酸测序方面,与电泳法相比,基质辅助激光解吸电离飞行时间质谱(MALDI-TOFMS)具有两个主要优势高速和高分辨率(Nordhoffetal.2000;Kosteretal.1996)。MALDI-TOF质谱法在该方面的主要优势是其高度狭窄的读值长度(15-40个碱基),而电泳的常规读值长度为几百个碱基。新近研发的用于诊断性DNA再测序的质谱法采用了将长度通常为几百个碱基的靶DNA序列控制片段化为许多短于15个碱基的较小且非重叠的寡核苷酸的方法(Elsoetal.2002;Rodietal.2002)。这些片段的质谱可被认为是指纹图谱。当与已知参比序列的计算图谱比较时,这些质谱可提供与靶序列有关的有用信息。这些方法是通过采用化学(vonWintzingerodeetal.2002)或酶促方式(Hartmeretal.2003)实现片段化,且对单核苷酸具有特异性(例如,在每个dA残基后裂解)。单核苷酸特异性片段化方法在生成足够短到可通过质谱法分析的寡核苷酸的过程中是无效的,且典型地破坏了靶DNA内的许多序列信息(Zabeauetal.2000)。这是因为在典型裂解反应中,大约40%-50%的靶DNA被减小为含有4个核苷酸或更短的片段,这些片段太小以至于无法利用MALDI-TOF设备对其信息化。对二核苷酸序列具有特异性的裂解技术已有所进展,可克服单核苷酸特异性片段化的局限性(Stanton,Jr.etal.2003)。特异性二核苷酸裂解反应被认为可生成平均为16个碱基长度的片段,该长度为MALDI-TOFMS分析的理想片段长度。这些方法利用了化学修饰的核苷酸类似物(Wolfeetal.2003)或通过特殊聚合酶进行模板导向的二核苷酸三磷酸整合(Kless2001)。不过,所有这些裂解方法共有一个基本局限性无法确定仅已知长度或分子量的片段内的碱基顺序。这足以说明现有的片段化方法仅适用于已知参比序列从而可预先计算可能的片段质量的情况(Bocker2003)。研发可无需预知序列信息便可测定核酸序列的方法是有用的。发明概述我们发现了可无需预知模板核酸内存在的核酸序列信息便可测定该模板核酸的核酸序列的方法。该方法基于关于片段质量、任意一种核苷酸或其组合的质量、核苷酸切割物(酶或化学切割物)的序列特异性的组合信息测定核酸片段的序列。该方法允许从头检测靶核酸内的序列,而无需预知任何序列信息。该方法被称为通过片段化进行的部分测序(PSBF),即通过将靶序列片段化为质量或长度与已知序列独特相关的寡或多核苷酸而实现目的。这些序列的身份仅通过所用的特异性片段化方法测定,并总是不依赖于靶序列。PSBF可通过应用电泳、质谱或其它可被用于区分被切核酸序列片段大小的任意方法而得以实现。本发明方法适用于所有要求测定模板核酸的序列信息以助于分析的应用。这些应用包括突变检测,筛选诸如肿瘤样品的生物样品的核酸变异,鉴定任意生物样品材料中的病原体和/或病原体株,测定不同物种、品种或株等之间的序列差异。本方法尤其有用的应用包括任意靶模板中的核苷酸重复序列的测序。这些重复序列包括采用传统桑格测序法或核苷酸阵列测序法通常难以分辨的单核苷酸重复序列或二或三核苷酸重复序列。因此,本发明方法与其它测序法联合将尤其适用于分辨低组成复杂度的核酸区域。本发明方法还允许扫描大核酸区域,包括部分甚至整个染色体的特定序列。当测定大核酸片段的序列时,优选用常见切割物限制待分析片段的数量。例如,可采用单核苷酸切割物消化包括染色体在内的模板核酸中的其它所有序列,且仅保留样品中含有dATPs的核酸片段。将对片段的质量分析与dATP的质量信息以及这些序列仅含几段腺苷酸序列的事实相结合,可实现对富含腺苷酸的片段的扫描。此外,如果利用质谱工具进行片段质量分析,可根据峰的表面积估计具有相同数量的重复序列的片段的数量。这类扫描在例如,基于聚腺苷酸尾部的存在而测定特定染色体或染色体区域内基因的大致数量方面有应用。在一种实施方案中,本发明提供了一种测序方法,包括获得单链或双链的核酸模板的步骤。接着,通过利用合适的聚合酶和根据序列特异反应性和分子量选择的核苷酸生成靶模板的转录物。该转录用引物可为随机核苷酸引物或序列特异性引物。对无需预知序列的序列信息的方法而言,引物优选随机引物。转录物是以序列特异性方式通过酶促或化学裂解法被裂解。裂解应完全并在一个反应中仅生成非重叠片段。具有复杂特异性的裂解反应可能需要多重反应。这种多重反应可同时或顺序进行。在接下来的步骤中,根据长度或质量,优选地根据质量分析该裂解反应产物。不过,也可采用长度分析,尤其是当已知所获片段仅由单核苷酸重复序列构成时。接着,结合利用片段的质量/长度以及核酸切割物的裂解特异性,可计算裂解所生成所有可能片段的分子量和序列(片段身份作图)。该作图仅取决于裂解反应和选用的核苷酸,完全与靶序列无关。最后,将质量与片段身份作图做比较,以确定靶核酸序列中存在的至少一个子序列。在另一种实施方案中,本发明提供了一种获得重叠片段以完整测定靶核酸序列的方法。在该实施方案中,进行了若干次平行转录、消化、片段质量分析,获得了至少2、5、10、15、20、50、100直到至少1000个不同的片段组,优选地覆盖了全部或大部分的靶序列,并在测定上述子序列的序列后基于重叠片段编译靶的序列。该方法优选较不频繁切割的多核苷酸切割物(multicutter),以获得相对较长的子片段,从而实现对重叠片段的鉴定。在一种实施方案中,本发明提供了一种扫描大模板,诸如完整或部分染色体以鉴别目标区域的方法。这种目标区域包括但不限于,例如聚腺苷酸区,通过鉴别聚腺苷酸尾部可估计染色体或部分染色体中的基因数量。在用于检测单核苷酸重复序列的方法中,优选采用单核苷酸切割物。在另一种实施方案中,本发明提供了一种扫描大核酸模板以检出特异性、低复杂度的核苷酸重复序列,即一、二、三等核酸重复序列的方法。在该实施方案中,核苷酸切割物具有二、三等核苷酸重复序列特异性。在一种实施方案中,本发明提供了一种测定序列中的核苷酸重复序列数量的方法。具有相同序列的片段的数量可根据质谱峰的表面积测定。附图简述图1所示为通过本发明的片段化法进行靶测序中涉及的步骤一览图。第1步涉及获得用于部分靶测序的靶核酸。该核酸可能为单或双链,无需预知与该靶核酸有关的序列信息。第2步,利用合适的聚合酶和根据序列特异反应性和分子量选择的核苷酸生成靶核酸的转录物。第3步,通过酶促或化学方法或两种方法的组合,也可采用光裂解法以序列特异性方式裂解转录物。裂解应完全并仅生成非重叠的寡核苷酸片段。具有复杂特异性的裂解可能要求多重反应,可同时或顺序进行。第4步,分析裂解反应的产物,例如,通过质谱法测定片段的分子量。也可获得峰值量化信息,但并非必须。这种量化可显示靶核酸序列中存在多少任意特定序列。第5步,利用核苷酸质量和裂解特异性(即进行片段身份作图)分析第3步所获所有可能片段的分子量和序列。该作图仅取决于裂解反应和所选用的核苷酸,并完全与靶序列无关。将第4步观察的质量与片段身份作图进行比较,以确定靶核酸中存在何种子序列。图2所示为利用本发明方法第1-5步的一个实例,采用了多核苷酸切割物16/15[inv(A.A)]、修饰核苷酸和如StantonJr.etal(2003,USPat.No.6610492)所述的裂解反应。星号(*)所示为掺入修饰核苷酸的位置,倒三角形()所示为裂解发生的位置。第1步所示为采用多核苷酸切割物16/15[inv(A.A)]获得用于部分靶测序的靶核酸。第2步,利用修饰核苷酸dATP、5-OH-dCTP、7-脱氮-7-硝基-dGTP、5-OH-dUTP和合适的聚合酶对该靶核0酸进行PCR扩增。第3步,利用KMnO4和3-吡咯烷醇(仅裂解正向链)裂解PCR产物。第4步,通过例如,质谱法分析裂解产物。第5步,将观察的质量与针对16/15[inv(A.A)]的片段身份作图进行比较,鉴别靶核酸中存在的所有序列片段。图3所示为采用多核苷酸切割物4/3[B.]和脱氧和核糖核苷酸实施第1-5步的实例。星号(*)所示为掺入核糖核苷酸的位置,倒三角形()所示为裂解发生的位置。第1步,采用多核苷酸切割物4/3[B.]获得用于部分测序的靶核酸。第2步,利用核苷酸dATP、rCTP、rGTP、rTTP和合适的聚合酶生成转录物。第3步,利用碱性或非特异性RNA酶裂解转录物。第4步,通过例如质谱法分析裂解产物。第5步,将观察到的质量与针对4/3[B.]的片段身份作图进行比较。图4所示为可与核苷酸一起应用以克服USPat.No.6,566,059所述方法的缺陷的结构。该方法采用rNTPs和5’-氨基-2’,5’-双脱氧核糖核苷酸(nNTPs),且如上所述,由两个相同核苷酸组成的二核苷酸不能被裂解。图5所示为采用多核苷酸切割物16/9[B.H],StantonJr.etal(2003,USPat.No.6566059)所述的修饰核苷酸以及本文所述的修饰核苷酸实施第1-5步的实例。星号(*)所示为具有2’-OH基团的核苷酸的位置,(n)所示为具有5’-NH基团的核苷酸的位置,倒三角形()所示为裂解发生的位置。第1步,采用多核苷酸切割物16/9[B.H]获得测序所用的靶DNA。第2步,利用核苷酸nATP、nrCTP、rGTP、nrTTP和合适的聚合酶生成转录物。第3步,进行聚合酶介导的转录物裂解。第4步,利用质谱法分析裂解产物,第5步,再次将观察到的质量与针对16/9[B.H]的片段身份作图进行比较。图6所示为可根据本发明方法应用的二核苷酸三磷酸5’ppp-dNdN(左)和5’PPP-rNrN(右)的结构。附表简述表1所示为核苷酸缩写。表2所示为与类属核苷酸的变换。表3A所示为与单碱基裂解型多核苷酸切割物对应的统计值,表3B所示为利用单碱基切割物所获在每一L值的所有可能片段。表4A所示为与一种多核苷酸切割物变化对应的统计值,该变化保留了被裂解核苷酸的同聚区,表4B所示为L=5时的可能片段。表5A所示为与利用在由两个不同碱基构成的特定二核苷酸处裂解的方法,即16/1[A.C],所获裂解产物对应的统计值,表5B所示为利用该方法所获与L=5对应的所有可能片段。表6所示为片段身份作图的类型。表7A所示为与多核苷酸切割物16/15[inv(A.A)]对应的统计值,表7B所示为利用相同多核苷酸切割物所获与L=4-8对应的片段。表8A所示为与多核苷酸切割物4/3[B.]或16/12[B.N.]对应的统计值,表8B所示为利用相同多核苷酸切割物所获与L=4-8对应的片段。表9A所示为与多核苷酸切割物16/9[C.MV.KT.T]对应的统计值,表9B所示为利用相同多核苷酸切割物所获与L=4-8对应的片段。表10A所示为与多核苷酸切割物16/14[inv(A.CC.A)]对应的统计值,表10B所示为利用相同多核苷酸切割物所获与L=4-8对应的片段。表11A所示为与多核苷酸切割物16/13[inv(A.CC.GG.A)]对应的统计值,表11B所示为利用相同多核苷酸切割物所获与L=4-8对应的片段。表12A所示为与多核苷酸切割物16/12[inv(A.CC.GG.TT.A)]对应的统计值,表12B所示为利用相同多核苷酸切割物所获与L=4-8对应的片段。表13A所示为与多核苷酸切割物16/11[inv(A.TK.M)]24对应的统计值,表13B所示为利用相同多核苷酸切割物所获与L=4-8对应的片段。表14A所示为与多核苷酸切割物16/13[C.AM.KK.N)]对应的统计表,表14B所示为利用相同多核苷酸切割物所获与L=4-8对应的片段。表15A所示为与多核苷酸切割物16/9[B.V]对应的统计值,表15B所示为利用相同多核苷酸切割物所获与L=4-8对应的片段。表16A所示为与多核苷酸切割物16/6[C.AG.MT.V)]对应的统计值,表16B所示为利用相同多核苷酸切割物所获与L=4-6对应的片段。表17所示为核苷酸结构和分子量。表18所示为被用于实施多核苷酸切割物家族16/15[inv(α.α)4]的核苷酸。表19A和19B所示为与表18所列家族中各多重切割物对应的严格片段身份作图。表20所示为被用于实施多核苷酸切割物家族4/3[inv(α.)]4的核苷酸。表21所示为与家族4/3[α.β.γ.]中各多重切割物对应的片段身份作图。表22所示为被用于实施多核苷酸切割物家族16/9[inv(α.ηη.β)]的核苷酸。表23所示为与多核苷酸切割物16/9[B.V]对应的片段身份作图(nATP、nrCTP、nrGTP、rTTP)。表24A和24B所示为与多核苷酸切割物16/9[B.H]对应的片段身份作图(nATP、nrCTP、nrGTP、rTTP)。表25所示为利用多核苷酸切割物家族4/3[inv(α.)]4对分支杆菌16SrDNA的鉴别。发明详述本文所提供的是利用诸如质谱和凝胶电泳的技术,基于分子量对核酸测序和检测的方法。我们发现了无需预知与模板核酸内存在的核酸序列相关的信息,便可测定该模板核酸的核酸序列的方法。该方法基于关于片段质量、任意一种核苷酸及其组合的质量、核苷酸切割物(酶或化学切割物)的序列特异性的组合信息,以确定核酸片段的序列。该方法允许从头检测靶核酸的序列,而无需预知任何序列信息。该方法被称为通过片段化进行的部分测序(PSBF),即通过将靶核酸片段化为质量或长度与已知序列独特相关的寡或多核苷酸而实现目的。这些序列的身份仅通过所用的特异性片段化方法便可确定,且总是不依赖于与靶序列。PSBF可通过采用电泳、质谱或其它可被用于区分被切割核酸序列片段的大小的任意方法而得以实施。本发明方法在所有要求确定模板核酸的序列信息以进行分析的应用中均有用。这些应用包括突变检测,筛选诸如肿瘤样品的生物样品的核酸变异,鉴别任意生物样品材料中的病原体和/或病原体株,测定不同物种、品种或株等之间的序列差异。本发明方法尤其有用的应用包括测定任意靶模板中的核苷酸重复序列。这种重复序列包括采用传统桑格测序法或核苷酸阵列测序法通常难以分辨的单核苷酸重复序列或二或三核苷酸重复序列。因此,本发明方法与其它测序方法联合将尤其适用于分辨低组分复杂度的核酸区域。本发明方法可与其它测序法联合以补充通常无法单独在靶序列中确定单核苷酸重复序列数量的传统测序法,诸如桑格测序法。本发明方法还允许扫描大核酸区域,包括部分甚至整个染色体,以检出特定序列。当测定大核酸片段的序列时,优选使用常见切割物以限制待分析片段的数量。例如,可采用单核苷酸切割物消化包括染色体在内的模板核酸中的其它所有序列,并仅保留样品中含有dATPs的核酸片段。例如,将对片段的质量分析与dATP的质量信息以及这些序列仅含几段腺苷酸序列的事实相结合,可实现对富含腺苷酸的片段的扫描。该方法可被用于鉴别人们所探寻的具有任意类型的序列模式的片段。此外,如果利用质谱工具进行片段质量分析,可根据峰的表面积估计具有相同数量的重复序列的片段的数量。这类扫描在例如,基于聚腺苷酸尾部的存在而测定特定染色体或染色体区域内基因的大致数量方面有应用。相应地,在一种实施方案中,本发明提供了一种测序方法,包括获得单链或双链的核酸模板的步骤。该核酸可通过任意已知的标准核酸分离和纯化技术而得以分离和/或纯化。此处所用术语“核酸”指诸如脱氧核糖核酸(DNA)和核糖核酸(RNA)的多核苷酸。该术语也应被理解为包括由核苷酸类似物、单(有义或反义)和双链多核苷酸形成的RNA或DNA的等同物、衍生物、变体和类似物。脱氧核糖核苷酸包括脱氧腺苷、脱氧胞苷、脱氧鸟苷和脱氧胸苷。对RNA而言,尿嘧啶碱基为尿苷。接着,通过利用合适的聚合酶和根据序列特异反应性和分子量所选择的核苷酸生成靶模板的转录物。有用的聚合酶包括DNA聚合酶,即利用DNA模板复制DNA的酶;逆转录酶,即利用RNA模板合成DNA的酶;以及可由模板DNA合成RNA的RNA聚合酶,包括真核RNA聚合酶I、II和III,它们均包括两个大的亚单位和12-15个较小的亚单位。RNA聚合酶II天然参与所有蛋白质基因和大部分snRNA基因的转录,因而是本发明方法优选的RNA聚合酶。可选地,可采用天然位于核仁内,可转录除5SrRNA以外的rRNA基因的RNA聚合酶I。在本发明的某些应用中,也可采用位于核仁外,可转录5SrRNA、tRNA、U6snRNA和某些小RNA基因的RNA聚合酶III。DNA聚合酶和逆转录酶是优选的。例如,也可采用诸如T3和T7的聚合酶。本领域技术人员可从多个商业渠道获得上述所有聚合酶。基于模板和被掺入合成的转录物内的核苷酸的性质选择聚合酶是熟练技术人员的常规训练。本发明方法中的有用的“核苷酸”包括,但不限于天然存在的单、二和三磷酸核苷脱氧腺苷单、二和三磷酸;脱氧鸟苷单、二和三磷酸;脱氧胸苷单、二和三磷酸;和脱氧胞苷单、二和三磷酸(在本文中分别指dA、dG、dT和dC或A、G、T和C)。诸如nATP、nrCTP、rGTP、nrTTP、二核苷酸三磷酸5’ppp-dNdN和5’ppp-rNrN、rCTP、rTTP5-OH-dCTP、7-脱氮-7-硝基-dGTP、5-OH-dUTP的修饰核苷酸也有用。核苷酸还包括,但不限于修饰核苷酸和诸如脱氮嘌呤核苷酸的核苷酸类似物,例如7-脱氮-脱氧鸟苷(7-脱氮-dG)和7-脱氮-脱氧腺苷(7-脱氮-dA)单、二-和三磷酸、次-脱氧胸苷(次-dT)单、二和三磷酸,甲基化核苷酸,例如5-甲基脱氧胞苷三磷酸,13C/15N标记的核苷酸和脱氧肌苷单、二和三磷酸,以及腺苷、胞苷、鸟苷、肌苷和尿苷的5’-氨基-2’,5’-双脱氧类似物。7-脱氮-7-硝基-dATP、7-脱氮-7-硝基-dGTP、5-羟基-dCTP和5-羟基-dUTP或其它已提高化学反应性但仍能够形成标准沃森-克里克碱基配对的修饰核苷酸也是有用的(参见例如Wolfeetal.PNAS9911073-11078)。本领域技术人员应熟知修饰核苷酸和核苷酸类似物是可通过利用官能性和附着位置的多种组合获得的。用于转录的引物可为随机核苷酸引物或序列特异性引物。对无需预知序列的序列信息的方法而言,引物优选随机引物。本文所用“引物”指适用于杂交、链延伸、扩增和测序的寡核苷酸。同样,探针为用于杂交的引物。该引物指具有足够低的质量的核酸,典型地大约5-200个核苷酸,通常为大约70个核苷酸或少于70个核苷酸,以及大小足以被方便地应用在扩增方法和本文所提供的检测和测序方法中的核酸。这些引物包括,但不限于用于核酸检测和测序的引物,该引物要求具有充分数量的核苷酸以形成稳定的双链体,典型地大约为6-30个核苷酸,大约10-25个核苷酸和/或大约12-20个核苷酸。因此,对本文所述目的而言,引物为具有任意合适长度的核苷酸序列,典型地含有大约6-70个核苷酸,且根据该引物的序列和应用,所含核苷酸数目的整数为诸如12-70个核苷酸,或者例如14-22个核苷酸。所述转录物是以序列特异性方式通过酶促或化学裂解法被裂解的。在一种实施方案中,可采用光裂解法(Saueretal.,NAR31e63,pp.1-102003)。根据本发明方法的有用酶促切割物包括,但不限于本领域技术人员熟知的被广泛应用的限制酶和RNA酶T1。根据本发明方法的有用化学切割物包括,但不限于高锰酸钾(KMnO4)、3-吡咯烷醇和四氧化锇(OsO4)。裂解应完全并在一个反应中仅生成非重叠片段。具有复杂特异性的裂解反应可能需要多重反应。这种多重反应可同时或顺序进行。在接下来的步骤中,根据长度或质量,优选地根据质量分析裂解反应产物。不过,也可采用长度分析,尤其是当已知所获片段仅由单核苷酸重复序列组成时。接着,结合利用片段的质量/长度以及核酸切割物的裂解特异性,可计算裂解生成的所有可能片段的分子量和序列(片段身份作图)。该作图仅取决于裂解反应和所用的核苷酸,完全与靶序列无关。最后,将质量与片段身份作图做比较,以确定靶核酸序列中存在的至少一个子序列。在另一种实施方案中,本发明提供了一种获得重叠片段以完整测定靶核酸序列的方法。在该实施方案中,进行了若干次平行转录、消化、片段质量分析,获得了至少2、5、10、15、20、50、100直到至少1000个不同的片段组,优选地覆盖了全部或大部分的靶序列,并在测定上述子序列的序列后基于重叠片段编译靶的序列。该方法优选较不频繁切割的多核苷酸切割物,以获得相对较长的子片段,从而得以鉴定重叠片段。在另一种实施方案中,本发明提供了一种扫描大核酸模板以鉴别具有特异性、低复杂度的核苷酸重复序列,即一、二、三等核酸重复序列的方法。在该实施方案中,核苷酸切割物具有二、三等核苷酸重复序列特异性。在一种实施方案中,本发明提供了一种测定序列中的核苷酸重复序列数量的方法。具有相同序列的片段的数量可根据质谱峰的表面积测定。根据本发明的通过片段化进行的部分测序(PSBF)是一种利用分组多核苷酸切割物将靶核酸裂解为非重叠片段,并接着提供各片段的完整碱基序列(身份)的方法。与仅提供裂解所生成片段的相对大小或最多提供片段分子量的其它所有片段化方法形成鲜明对比。PSBF是从头测序法-无需预知与靶有关的信息。每个PSBF反应生成已知固定的片段集合,即裂解所获得的可能片段的总集合。该固定的片段集合各成员的碱基序列和分子量完全并独特地取决于PSBF反应所采用的特异性多核苷酸切割物,且与靶的序列无关。由PSBF实验所获的数据将显示裂解反应期间生成了上述片段集合中的那些成员,以及哪些未被生成。由于已知所有片段的碱基序列,PSBF有效提供了靶内存在的一组子序列。片段身份作图(FIM)是一种在碱基序列和特定质量已知的片段之间建立一对一的对应关系的方法。通常情况下,仅根据片段的分子量是不可能确定其碱基序列的(Bocker2003)。在PSBF反应条件下,片段的分子量可被用于确定其碱基序列,以及在完整靶内该片段的周围碱基的身份。片段身份作图是通过应用分组多核苷酸切割物与一组具有合适质量的核苷酸的组合而得以建立的。通常采用下述条件(I)可通过特定分组多核苷酸切割物裂解生成的每一可能片段应具有独特的碱基组成。对由四种不同核苷酸组成的核酸而言,这意味着在任意特定长度L条件下,可能片段的数量不超过(L+1)(L+2)(L+3)/6。(II)采用特定的核苷酸组时,每一可能的碱基组成均应具有独特的分子量。对符合该标准的核苷酸质量的选择方法的讨论详见例如Cantor&Siddiqi(2003,USPat.No.6660229)。简言之,由于在DNA内,在本文中分别被称为C、T、A和G的四种天然存在的核苷酸碱基dC、dT、dA和dG各自具有不同的分子量Mc=289.2、MT=304.2、MA=313.2和MG=329.2,其中Mc、MT、MA和MG分别为核苷酸碱基脱氧胞苷、胸苷、脱氧腺苷和脱氧鸟苷的平均道尔顿分子量,读出单质谱中的完整序列是可能的。StantonJr.etal.(2003,USPatNo.6610492)描述了对不同碱基组成的寡核苷酸赋以独特质量的可选方法。所有片段身份作图均完全取决于对多核苷酸切割物和核苷酸的选择,且完全与靶序列无关。现有三种类型的片段身份作图严格、不严格和受限的。对严格作图而言,条件(I)对所有长度的所有片段均成立,条件(II)对直到无穷大的所有质量成立。对不严格作图而言,条件(I)仅在某些预定片段长度条件下成立,而条件(II)则对直到无穷大的所有质量均成立。对受限作图而言,条件(I)对所有长度的所有片段均成立,但条件(II)仅在某一预定质量范围内成立。总结参见表6。通常,严格作图检测靶内的同聚子序列,不严格作图检测靶内的串联重复序列,受限作图检测单调(monotonic)子序列。为确定特定多核苷酸切割物是否符合条件(I)并可被用于建立片段身份作图,采用了下述算法在L>1的每一个片段长度条件下第1步建立长度为L的所有4L个可能片段的组SL;第2步除去SL中所有被候选多核苷酸切割物裂解至少一次的片段;第3步除去SL中所有不具有相符的5’和3’末端的片段;第4步确定SL内剩余片段表示的不同碱基组成的数量;第5步如果SL内的片段数量等于第4步计算的碱基组成的数量,则该多核苷酸切割物符合条件(I),并可能被用于建立长度为L的片段的片段身份作图。通常,对在实验中有用的多核苷酸切割物而言,其必须符合条件(I),且一个或多个片段长度L>3。如果候选多核苷酸切割物符合条件(I),则采用下述算法以确定其是否符合条件(II)并可利用特定核苷酸组形成片段身份作图。第1步建立S总,即之前计算的所有SL的组;第2步利用特定核苷酸的质量计算S总中各片段的分子量;第3步确定S总中哪些片段具有独特分子量。为便于讨论,如果S总中没有其它片段与某一片段的质量差值小于1道尔顿,则该片段具有独特分子量;第4步如果L>3时有至少一个片段具有独特分子量,则多核苷酸切割物和核苷酸的特定组合可建立片段身份作图。目前,可用于在短序列,诸如三或二核苷酸水平特异性裂解核酸的实验方法很少(Wolfeetal.2003)。而本发明方法可被应用于任意现有或新的序列特异性切割物。本文中,符号MA、MC、MG和MT分别表示核苷酸A、C、G和T的分子量。符号Mα、Mβ、Mγ和Mδ分别表示核苷酸α、β、γ和δ的分子量。符号Mfrag表示寡核苷酸片段的总分子量,而符号Mterm表示位于片段3’和5’末端的任意化学基团,诸如-OH和磷酸基的组合分子量。被用于表示片段中特定碱基数量的所有下标变量(i、k、v、w、x、z)可仅假定为正整数值。严格片段身份作图简单同聚子序列最简单的PSBF反应利用了属于16/15[inv(α.α)]4家族的一部分的多核苷酸切割物16/15[inv(A.A)](也被记为16/15[A.BB.N])。该多核苷酸切割物仅有效提取靶的同聚区,生成的平均片段长度为1.067个碱基。统计值如表7a所示。该裂解破坏了约99%的靶,并可在L>1的每一长度L条件下准确生成一个具有5’-(A)L-3’形式的片段。该多核苷酸切割物预期可每千碱基靶仅生成2.94个可检测片段,片段间的间距为336个碱基。与L=4-8对应的片段如表7b所示。通过检查,可清楚无论核苷酸A(或α)的质量为多少,各可能片段A2、A3、A4.....AL均具有独特的分子量,由Mterm+L(MA)表示。应当注意,任意特定片段AL实际上表示在靶内某处发现的一个序列5’-B(A)LB-3’。因此,片段AAA不是片段AAAA的一部分或等同于AAAA,因为这些片段来源于靶内的序列BAAAB和BAAAAB。质谱法已被调整并用于测序和检测核酸分子(参见例如U.S.Pat.Nos.6,194,144;6,225,450;5,691,141;5,547,835;6,238,871;5,605,798;6,043,031;6,197,498;6,235,478;6,221,601;6,221,605)。具体而言,业已采用可实现大分子,即质量远超过300kDa的大分子的完整离子化、检测并确定其准确质量的基质辅助激光解吸/电离(MALDI)和电喷射离子化(ESI),以测定核酸分子的序列。在对高分子量分子的质谱分析中,进一步的改进是具有基质辅助激光解吸电离(MALDI)功能的飞行时间质谱(TOF-MS)的发展。该方法包括将样品置入含有特定分子的基质内,该分子可通过以解吸样品的频率吸收能量,从而辅助解吸过程。飞行时间分析利用了可作为准确的分子质量指示剂的不同离子种类的行进时间或飞行时间。本文所述的质谱法包括本领域技术人员已知的任意一种合适的质谱形式。这些形式包括,但不限于基质辅助激光解吸/电离、飞行时间(MALDI-TOF)、电雾化(ES)、IR-MALDI(参见,例如已公开的国际PCT申请No.99/57318和U.S.Pat.No.5,118,937)、离子回旋共振(ICR)、傅里叶变换及这些形式的组合。MALDI、特定UV和IR在优选形式当中。对MALDI-TOF质谱法的进一步详述参见Jurinkeetal.,MolecularBiotechnology,Vol.26,pp.147-163,2004。本文所述质谱指通过质谱法分析生物聚合物或其片段而获得的绘图或数字编码形式的数据表现。本文所述与质谱或质谱分析有关的模式指信号的特征分布和数量(诸如其峰或数字表示)。本文所述质谱及其分析情况中的信号指输出数据,即具有特定质量的分子的数目或相对数目。信号包括“峰”及其数字表示。本文所述“生物样品”指获得自或衍生自生物材料,诸如,但不限于诸如血液、尿、脑脊髓液和滑液的体液,组织和器官、植物、食品、土壤中所含的有机材料等等。“衍生自”指样品可被加工,诸如通过纯化或分离和/或扩增核酸分子而获得的样品。命名和大体框架所述实例描述了利用片段化方法对单或二核苷酸具有特异性的PSBF,不过,PSBF反应也对靶内较长子序列具有特异性。这些裂解通常可帮助本领域技术人员根据本说明书提供的非限制性实例并利用所述原理实现本发明方法。单核苷酸裂解最简单的可能裂解是于单碱基水平进行切割的裂解,诸如切割靶内每一个A的5’。我们用特定时间段表示该裂解[.A],该时间段显示的是发生在特定碱基5’的裂解。在该表示法中,符号[A.]表示靶内每一个A3’的裂解。完全除去或破坏碱基(例如尿嘧啶DNA糖基化酶)的反应被表示为[.U.],并被认为等同于在特定核苷酸的3’和5’两者的裂解。混合裂解,诸如同时在每一个A和每一个G3’切割,可被表示为4/2[A.G.]或4/2[R],该表示法采用了核苷酸简并的标准代码,如表1所示。通常,我们将混合裂解称为分组多核苷酸切割物(GMCs或简称为“多核苷酸切割物”)。符号中的下标分数的分子指可能的单核苷酸总数,分母指组复杂度,即包括该多核苷酸切割物的各个裂解的数目。该分数也指出了裂解随机序列的平均片段长度,即对[R.]而言4/2=2.00个碱基。在该表示法中,上述裂解[A.]被认为是复杂度为1的分类多核苷酸切割物,可被记为4/1[A.],尽管其并非混合裂解。有时候,以未被裂解的核苷酸与被裂解核苷酸的比表示多核苷酸切割物更容易些。表示法4/3[inv(.T)]表示裂解发生在除T以外的每一个核苷酸的5’。这等同于4/3[.A.C.G]或4/3[.V]。应当注意的是该前缀分数的分母必须总等于包括所述多核苷酸切割物在内的特异性裂解的数目。多核苷酸裂解二核苷酸裂解,诸如在每一个AC的A的3’切割,被表示为16/1[A.C],“16”为可能的二核苷酸的总数。对普通核酸而言,该前缀分数的分子为4L,其中L为被裂解序列的长度。因此,从在三核苷酸TTA5’的切割被记为64/1[.TTA]。将特定长度的特异性裂解表示为较长长度的多核苷酸切割物总是可能的。例如,4/1[G.]等同于16/4[G.N]、64/16[NG.N]和64/16[G.NN]。多核苷酸切割物可能由对靶内不同长度的序列具有特异性的裂解反应构成。在这些情况中,较短长度的裂解被记为在组内最长裂解长度进行的混合裂解。例如,于[.A]和[T.G]处裂解的分组多核苷酸切割物被记为16/5[N.AT.G]。当采用上述前缀分数表示法时,在识别序列内切割多次的任意裂解应被表达为较长长度的多核苷酸切割物,即在识别序列内的相同位置切割一次。例如,[.A.]被记为16/7[A.NN.A]。指出未被裂解的多核苷酸序列的表示法遵循针对上述单核苷酸描述的相同模式。例如,在除CT和AG以外的所有二核苷酸3’的裂解被记为16/14[inv(CT.AG.)],并等同于16/14[AH.CV.KN.]。应当注意的是,在该表示法中,16/14[inv(A.GG.A)]不等同于16/12[inv(R.R)]。后者等同于16/12[inv(A.AA.GG.AG.G)]。采用特定多核苷酸切割物裂解生成的片段应在其5’和3’末端具有“符合”该多核苷酸切割物的序列特异性的碱基。例如,多核苷酸切割物[A.G]生成了具有5’末端G和3’末端A的片段。由多核苷酸切割物[inv(A.)]生成的片段将具有5’末端A和3’末端B。具有较长序列特异性的多核苷酸切割物也遵循该模式。例如,[GT.A.C.V]生成了在5’末端具有V和在3’末端具有二核苷酸序列GT的片段。在本说明书中,术语“片段”指采用多核苷酸切割物裂解生成的具有3’和5’相符末端的寡核苷酸。广义核苷酸变换根据下式计算不同分组多核苷酸切割物的总数,即与任意裂解序列长度L对应的TGMCTGMC=2(4L)-1对单核苷酸而言,有15种多核苷酸切割物,对二核苷酸而言,有65535种多核苷酸切割物,对三核苷酸而言则有约1.84×1019种多核苷酸切割物。讨论每一种可能的二核苷酸或三核苷酸多核苷酸切割物是不现实的,因此我们采用了裂解家族等同物(“cf-等同物”)这个概念。例如,考虑16/1[A.A]。该多核苷酸切割物所属家族包括其它“重复”二核苷酸裂解16/1[C.C]、16/1[G.G]和16/1[T.T]。同样,16/1[A.C]是另一个家族的成员,该家族包括十一种由两个不同碱基构成的其它二核苷酸。特定多核苷酸切割物家族的成员在裂解随机序列方面具有相同的统计学特性,尽管它们的碱基特异性不同。本讨论的其余部分将主要集中于二核苷酸多核苷酸切割物,但上述概括对所有长度的多核苷酸切割物均有效。我们如下形式化cf-等同物的概念符号αβγδ被用于指示包括四种不同核苷酸的类属核苷酸组。对所用核苷酸少于四种的情况而言,α总是第一种核苷酸,β总是第二种核苷酸,γ总是第三种核苷酸。因此,在分离考虑的序列AGGAG、TCCTC和ATTAT,可被记为αββαβ,因为它们均仅由两种核苷酸构成。在本说明书中,我们固有假定总有四种核苷酸具有下列排列α=A、β=C、γ=G和δ=T。对一个含有四种类属核苷酸的组而言,另外二十三种可能的排列如表2所示。考虑多核苷酸切割物16/4[A.CC.AG.TT.G]。为找到它的cf-等同物,我们首先以类属核苷酸的形式表示该多核苷酸切割物,可获得16/4[α.ββ.αγ.δδ.γ]接着替代24种变换的每一个的特定符号,并放弃重复符号。可获得该多核苷酸切割物家族的另两个成员16/4[A.GC.TG.AT.C]和16/4[A.TC.GG.CT.A]。该方法被用于寻找所有类属多核苷酸切割物家族的成员。某些裂解家族,诸如16/4[α.αβ.βγ.γδ.δ]仅具有一个成员16/4[A.AC.CG.GT.T]。其它家族,诸如类属多核苷酸切割物16/2[α.ββ.γ]最多可能包括二十四个成员。我们采用符号16/2[α.ββ.γ]24指出指定家族内不同多核苷酸切割物的数目。当被分组到cf-等同物中时,65535种可能的二核苷酸多核苷酸切割物仅代表3043个家族,包括无关紧要的多核苷酸切割物16/16[N.N]1(或4/4[N.]1)。对本说明书的其它部分而言,利用特定核苷酸ACGT书写的所有序列或裂解也可被认为是利用αβγδ的类属表示法。这也适用于利用核苷酸简并的标准缩写书写的序列或裂解。我们采用符号η表示四种类属核苷酸αβγδ中的任意一种(与表示普通核苷酸的N类似)。因此,16/2[A.CC.A]表示多核苷酸切割物家族16/2[α.ββ.α]6中的所有成员,16/4[A.MT.K]表示多核苷酸切割物家族16/4[α.αα.βδ.γδ.δ]12中的所有成员。该表示法与16/4[A.MT.K]12可互换,二者被认为等同。早先非重叠片段化方法的分析为证明为何早先描述的片段化技术无法从头测序,我们分析了这些方法的三种不同裂解家族代表的特性。数据是通过模拟由随机序列的大约108个碱基构成的单靶序列的裂解获得的。针对每一个多核苷酸切割物家族,我们计算了下列统计值(i)核苷酸中的片段长度L。通常我们仅显示了含有24个核苷酸或更小的片段的数据,因为这些片段是最适合MALDI-TOF质谱法的片段。(ii)每一长度L条件下可能的不同片段的总数目。根据定义,当且仅当两个片段具有不同碱基序列时,这两个片段不同。该值反映了长度为L的片段的混合物的复杂度。(iii)由每一长度L条件下的可能片段表示的不同碱基组成的总数。根据定义,具有相同碱基组成的两个不同片段一定具有相同的分子量。具有不同碱基组成的两个片段也可能具有相同的分子量,这取决于存在的特定核苷酸的质量。碱基组成的数目表示了长度为L的片段可具有的不同质量的数目上限。(iv)每一长度L条件下的平均片段数,应以每千碱基靶的形式出现,其中靶由随机序列构成。该统计值提供了一个量度,即随着靶序列的长度增加,由任意特定长度的片段可获得多少有用的信息。我们采用术语“可检测片段”以指示长度超过三个核苷酸的预期片段的平均总数。(v)长度为L或更长的片段之间沿着完整靶序列的平均距离,以碱基为单位。该统计值提供了一个量度,即比任意指定长度长的片段沿靶序列的分布有多分散。我们采用术语“片段间间距”以指示比三个核苷酸长的片段之间的平均间距。(vi)被长度为L的片段覆盖的靶碱基所占的百分比比例。(vii)被长度为L或更长的片段覆盖的靶碱基所占的累加百分比比例。该量度指出的是靶有多大比例的部分被长度超过任意指定长度的片段所取样。(viii)长度为L的片段总数所占的百分比比例。单碱基裂解我们检验的第一个多核苷酸切割物家族,即4/1[A.]或16/4[A.N],被认为是单碱基裂解(Zabeauetal.2000;Shchepinovetal.2001;Rodietal.2002),生成的平均片段长度为4.00个碱基。该家族的cf-等同物代表为4/1[α.]4或16/4[α.η]4。与该多核苷酸切割物对应的统计值如表3a所示。MALDI核酸分析法可利用的质量范围约为1100Da-10kDa,在长度上与含有4-30个碱基的片段对应(Stanssensetal.2004)。因此该裂解家族在生成单、二和三核苷酸过程中破坏了约26%的靶。对具有随机碱基序列的靶而言,我们预期将每千碱基生成大约105个可检测片段,片段间间距为2.48个碱基。单碱基裂解可在每一长度L条件下生成3(L-1)个可能片段,但仅具有L(L+1)/2个可能的组成(和可能的片段质量)。这是该类型的裂解不能被用于从头测序的原因----因为有太多的具有相同分子量的不同片段。可生成的长度为L的可能片段被表示为5’-(B)(L-1)A-3’。下表3b显示了在L=5条件下生成的所有可能片段。大写字母书写的碱基表示实际片段,小写字母书写的碱基表示该片段在完整靶序列中的前后序列(相邻碱基),句点指出的是裂解发生的位置。所有序列均以5’到3’的方向书写。单碱基裂解的基本局限是其完全破坏了靶内出现被裂解核苷酸率高的区域,诸如同聚和低复杂度区域。所生成的近乎58%的片段根本未提供序列信息,且总共25%的片段为单核苷酸。在用于检测单核苷酸重复序列的方法中,优选采用单核苷酸切割物。例如,单核苷酸切割物适用于扫描大模板,诸如完整或部分染色体,以鉴别目标区域的方法。这种目标区域包括,但不限于例如,聚腺苷酸区域。鉴别这些区域有助于通过鉴别聚腺苷酸尾部估计染色体或其部分内的基因数量。对由多个连续A-核苷酸构成的片段的数量分析可通过,例如计算质谱峰的表面积并与由一个这样的聚腺苷酸重复序列所形成质谱峰的大小进行比较而得以实现。当然,腺苷酸在不同聚腺苷酸尾部的数量是变化的,且基因总数是根据所有不同聚腺苷酸片段在质谱中的峰大小而确定的数量的总和。不严格的二核苷酸裂解Zabeauetal.(2000)描述了单碱基裂解的一种变化,即保留被裂解核苷酸的同聚区域。该多核苷酸切割物为16/3[A.B],是16/3[α.βα.γα.δ]4家族的一部分。其生成的片段的平均长度为5.33个碱基。统计值如表4a所示。该多核苷酸切割物不能生成单核苷酸---在任意长度L条件下的可能片段的数量约为单碱基裂解所生成任意长度L的可能片段数量的1.5倍。可能的组成数量为(L(L+1)(L+2)/6-1)。这在其它方面非常类似单碱基裂解。可在长度L>1条件下生成的可能片段为5’-(B)i(A)k-3’,其中(i+k)=L,0<i<L,且0<k<L。该多核苷酸切割物预期可每千碱基靶生成117个可检测片段,片段间间距为1.50个碱基。平均片段长度和总靶覆盖范围的微小增加导致任意指定L条件下片段复杂度的大幅提高。L=5时的所有可能片段如下表4b所示。二核苷酸裂解StantonJr.etal.(2003,USPat.No.6566059)描述了一种在由两种不同碱基构成的特定二核苷酸处裂解的方法,16/1[A.C]。该裂解生成的平均片段长度为16.00个碱基,属于16/3[α.β]12家族的一部分。统计值参见表5a。就长于3个碱基的片段的靶覆盖程度而言,二核苷酸裂解远比单碱基裂解优越。该裂解仅破坏了大约2%的靶,且仅有12.5%的生成片段为二或三核苷酸。可能片段的数量大致与(3.73)L成比例,而可能的组成的数目为L(L2-1)/6。该多核苷酸切割物预期可每千碱基靶生成54.7个可检测片段,片段间间距仅为0.36个碱基。该裂解所生成的任意特定长度L的片段是5’-C(N)(L-2)A-3’的子集。L=5时的所有可能片段如表5b所示。二核苷酸裂解的一个有趣特性是,对短于七个碱基的片段而言,所生成的可能片段少于单碱基裂解所生成的可能片段。这是因为对该裂解而言,所有片段的5’和3’末端碱基均是确定的。单标记的同聚子序列相关的多核苷酸切割物4/3[B.]或16/12[B.N](也记为4/3[inv(A.)])从靶中提取出单标记的同聚子序列(同聚区外加一个附加碱基)。该多核苷酸切割物属于4/3[inv(α.)]4家族的一部分,所产生的平均片段长度为1.333个碱基。统计值如表8a所示。该多核苷酸切割物破坏了约95%的靶,并可在L>1的每一长度L条件下准确生成三个形式为5’-(A)(L-1)B-3’的片段。该裂解预期可每千碱基靶生成11.7个可检测片段,片段间间距为81个碱基。与L=4-8对应的片段如表8b所示。每一长度L条件下的可能片段的分子量可根据Mterm+(L-1)(MA)+Mlast计算,其中Mlast等于片段3’末端碱基(MC、MG或MT)的质量。对该多核苷酸切割物而言,为获得片段身份作图,每一可能片段必须具有独特分子量。只要核苷酸C、G和T(或β、γ或δ)的质量不同,该条件是成立的。从形式上表述,MC≠MG、MC≠MT并且MG≠MT(或者Mβ≠Mγ、Mβ≠Mδ并且Mγ≠Mδ)。应当注意的是,末端核苷酸C、G或T中的任意一个可具有与A相同的分子量,且该片段身份作图将仍然有效。多重标记的同聚子序列利用了可一次性将靶裂解为二核苷酸序列的多核苷酸切割物的严格片段身份作图可在L>2的每一长度条件下生成最多8个不同的片段。通常,这些多核苷酸切割物从靶内提取出了多重标记的同聚子序列(同聚区外加最多三个附加的周围碱基)。这个类型的多核苷酸切割物的一个实例是16/9[C.MV.KT.T],属于16/9[α.γβ.ηγ.γη.δ]24家族的一部分,可生成的平均片段长度为1.78个碱基。统计值参见表9a。该多核苷酸切割物破坏了约90%的靶,并可在L>2的每一长度条件下准确生成8个片段,为5’-DR(A)(L-3)M-3’的子集。该裂解预期将每千碱基靶生成23.5个可检测片段,片段间间距为38.3个碱基。与L=4-8对应的片段如表9b所示。如果核苷酸A、C、G和T的质量均彼此不同,该多核苷酸切割物可生成片段身份作图。不严格的片段身份作图二核苷酸重复序列不严格的片段身份作图的一个实例可参考利用16/14[inv(α.ββ.α)]6家族的一个成员,即多核苷酸切割物16/14[inv(A.CC.A)](也被记为16/14[A.DC.BK.N)])进行的PSBF反应。该多核苷酸切割物将二核苷酸重复序列从靶中提取出来,所生成的平均片段长度为1.143个碱基。统计值如表10a所示。该裂解破坏约97%的靶,并可在L>1的每一长度条件下准确生成2个片段。L为偶数时,所生成片段的形式为5’-(AC)(L/2)-3’和5’-(CA)(L/2)-3’,L为奇数时,则为5’-C(AC)((L-1)/2)-3’和5’-A(CA)((L-1)/2)-3’。该多核苷酸切割物预期可每千碱基靶生成5.85个可检测片段,片段间间距为166个碱基。与L=4-8对应的片段如表10b所示。该多核苷酸切割物从靶内提取出了二核苷酸AC(或αβ)的重复序列的两个可读框。各长度L条件下的片段的质量根据下式计算L为偶数时,Mfrag=Mterm+(L/2)(MA+MC),L为奇数时,Mfrag=Mterm+((L-1)/2)(MA+MC)+Modd,其中Modd等于MA或MC。如果核苷酸A和C(α和β)具有不同质量(MA≠MC或Mα≠Mβ),该多核苷酸切割物可在所有奇数片段长度L条件下建立片段身份作图。三核苷酸重复序列可从靶内提取出三核苷酸重复序列的多核苷酸切割物的一个实例为16/13[inv(A.CC.GG.A)](也记作16/13[A.DC.HG.BT.N]),是16/13[inv(α.ββ.γγ.α)]8家族的成员。该多核苷酸切割物生成的平均片段长度为1.231个碱基。统计值如表11a所示。该裂解破坏了约96%的靶,并在L>1的每一长度条件下准确生成3个片段。该多核苷酸切割物预期可每千碱基生成8.78个可检测片段,片段间间距为109.6个碱基。与L=4-8对应的片段如表11b所示。该多核苷酸切割物从靶内提取出三核苷酸ACG(或αβγ)的重复序列的全部三个可读框。各长度L条件下的片段质量根据下式计算对于L=3、6、9、12...,Mfrag=Mterm+(L/3)(MACG),对于L=4、7、10、13...,Mfrag=Mterm+((L-1)/3)(MACG)+Mx,对于L=5、8、11、14...,Mfrag=Mterm+((L+1)/3)(MACG)-Mx,其中MACG=(MA+MC+MG),MX等于MA、MC或MG之一如果核苷酸A、C和G(α、β和γ)的质量均不相同(MA≠MC、MC≠MG且MG≠MA),该多核苷酸切割物可在片段长度L=4、5、7、8、10、11...条件下建立片段身份作图。四核苷酸重复序列可由靶内提取四核苷酸重复序列的多核苷酸切割物的一个实例是16/12[inv(α.ββ.γγ.δδ.α)]6家族的一个成员,即16/12[inv(A.CC.GG.TT.A)](也被记作16/12[A.DC.HG.VT.B)])。该多核苷酸切割物生成的平均片段长度为1.333个碱基。统计值如表12a所示。该裂解破坏了约95%的靶,并可在每一长度L条件下准确生成4个片段。该多核苷酸切割物预期可每千碱基生成11.7个可检测片段,片段间间距为81个碱基。与L=4-8对应的片段如表12b所示。该多核苷酸切割物从靶内提取出了四核苷酸ACGT(或αβγδ)的重复序列的全部四个可读框。L>3的每一长度条件下的片段的质量根据下式计算对于L=4、8、12、16...,Mfrag=Mterm+(L/4)(MACGT),对于L=5、9、13、17...,Mfrag=Mterm+((L-1)/4)(MACGT)+MX,对于L=6、10、14、18...,Mfrag=Mterm+((L-2)/4)(MACGT)+MZ,对于L=7、11、15、19...,Mfrag=Mterm+((L+1)/4)(MACGT)-MX其中MACGT=(MA+MC+MG+MT),MX等于MA、MC、MG或MT之一,MZ等于(MA+MC)、(MC+MG)、(MG+MT)或(MT+MA)之一。如果核苷酸A、C、G和T的质量均不相同,该多核苷酸切割物可在片段长度L=5、6、7、9、10、11、13、14、15...时建立片段身份作图。标记的二核苷酸重复序列迄今,上述所有不严格片段身份作图均可在L>2的每一长度条件下生成恒定数量的可能片段,但可能的组成的数目是变化的。可在每一长度L条件下生成不同数量的片段但组成数目恒定的多核苷酸切割物的一个实例是16/11[inv(A.TK.M)]24(也记作16/11[M.VB.K]24)。该多核苷酸切割物从靶内提取出标记的二核苷酸重复序列(该重复序列区域外加2个周围碱基),生成的平均片段长度为1.455个碱基。统计值如表13a所示。该裂解破坏了约93%的靶,并在L为奇数条件下准确生成4个片段,L为偶数条件下准确生成5个片段。该多核苷酸切割物预期可每千碱基靶生成15.6个可检测片段,片段间间距为59.8个碱基。与L=4-8对应的片段如表13b所示。该多核苷酸切割物从靶内提取出二核苷酸AT(或αδ)的重复序列的两个可读框,以及1或2个附加核苷酸C或G(β或γ)。在L>3的每一长度条件下,片段的质量根据下式计算L为奇数时,Mfrag=Mterm+((L-1/2)(MAT)+MX,和L为偶数时,Mfrag=Mterm+((L/2)-1)(MAT)+MZ,其中MAT=(MA+MT),MX等于MA、MC、MG或MT之一,MZ等于(MA+MT)、(MG+MA)、(MG+MC)或(MT+MC)之一。如果核苷酸A、C、G和T的质量均不相同,该多核苷酸切割物可在所有奇数片段长度L条件下建立片段身份作图。受限片段身份作图所有受限片段身份作图均可从靶内提取单调子序列。我们将长度为L的单调片段定义为具有下列形式的碱基序列5’-(α)v(β)w(γ)x(δ)z-3’,其中(v+w+x+z)=L,0≤v≤L、0≤w≤L、0≤x≤L和0≤z≤L。根据观察,长度为L的各不同单调片段均具有独特的碱基组成。任意单调片段的质量根据下式计算Mfrag=Mterm+vMα+wMβ+xMγ+zMδ。受限片段身份作图仅在某一预先定义的质量范围内有效。该范围的下限为最小可检测片段的质量,在MALDI设备内约为1100Da。通常,该质量范围的大概上限可通过寻找某一最低质量而得以确定,在该最低质量条件下,任意两个不同片段之间的质量差在1Da以内。在该上限之上,作图是不严格的,且预知的某些质量将与两个或以上的不同片段对应。由两个不同核苷酸构成的单调子序列可提取最简单类型的单调序列,即那些仅由两个不同核苷酸构成的序列的多核苷酸切割物的一个实例是16/13[inv(A.AA.CC.C)](也记作16/13[C.AM.KK.N]),是16/13[inv(α.αα.ββ.β)]12家族的成员。该多核苷酸切割物生成的平均片段长度为1.231个碱基。统计值如表14a所示。该裂解破坏了约94%的靶,并可在L>1的每一长度条件下准确生成(L+1)个片段。该多核苷酸切割物预期可每千碱基靶生成13.7个可检测片段,片段间间距为68.8个碱基。所生成片段具有下述形式5’-(A)i(C)k-3’,其中(i+k)=L,0≤i<L,且0≤k<L与L=4-8对应的片段如表14b所示。片段质量根据下式计算Mfrag=Mterm+iMA+kMC,其中(i+k)=L,0≤i<L,且0≤k<L。如果核苷酸A和C(α+β)具有不同的质量(MA≠MC或Mα≠Mβ),该多核苷酸切割物可建立受限片段身份作图。由三个不同核苷酸构成的单调子序列可提取由三个不同核苷酸构成的单调序列的多核苷酸切割物的一个实例为16/9[B.V](也记作16/9[inv(A.NN.T)],属于16/9[inv(α.ηη.β)]12家族的成员。该多核苷酸切割物生成的平均片段长度为1.778个碱基。统计值如表15a所示。该裂解破坏了约84%的靶,并在每一长度L条件下准确生成(3L-1)个片段。该多核苷酸切割物预期可每千碱基靶生成35.2个可检测片段,片段间间距为24个碱基。所生成片段具有的形式如下5’-(A)i(C)w(G)x(T)k-3’,其中(i+k+w+x)=L,(w+x)≤1、0≤i<L、0≤k<L、0≤w<1、0≤x<1。与L=4-8对应的片段如表15b所示。片段质量根据下式计算Mfrag=Mterm+iMA+kMT+wMC+xMG,其中(i+k+w+x)=L,(w+x)≤1、0≤i<L、0≤k<L、0≤w<1、0≤x<1。如果核苷酸A、C、G和T的质量均不同,该多核苷酸切割物可建立受限片段身份作图。由四个核苷酸构成的单调序列可提取由全部四个不同核苷酸构成的单调序列的多核苷酸切割物的一个实例是16/6[C.AG.MT.V],属于16/6[β.αγ.αδ.αγ.βδ.βδ.γ]24家族。该多核苷酸切割物生成的平均片段长度为2.667个碱基。统计值如表16a所示。该裂解仅破坏了约62%的靶,并可在每一长度L条件下准确生成((L+1)(L+2)(L+3)/6-2)个片段(两个“缺失”片段为5’-(A)L-3’和5’-(T)L-3’)。该多核苷酸切割物预期可每千碱基靶生成82个可检测片段,片段间间距为7.52个碱基。所生成片段具有如下形式5’-(A)v(C)w(G)x(T)z-3’,其中(v+w+x+z)=L,0≤v<L、0≤w<L、0≤x<L和0≤z<L。任意片段的质量根据下式计算Mfrag=Mterm+vMA+wMC+xMG+zMT与L=4-6对应的片段如表16b所示。如果核苷酸A、C、G和T的质量均不同,该多核苷酸切割物可建立受限片段身份作图。通过片段化进行的部分测序(PSBF)与现有非重叠片段化(NOF)方法之间至少存在三个关键差异1)PSBF提供了靶内存在的特定子序列相关信息,而NOF方法提供的是片段的分子量或最多提供到碱基组成。PSBF即使在其无法将一个独特序列赋以观测片段质量数值时也可提供有用信息。2)PSBF裂解反应产物的质谱图可被明确解释,而无需了解靶或参比序列的序列。现有所有NOF测序法则视下述情况而定,即已知参比序列,从而可以预先计算可能片段的质量。3)在靶长度相同的情况下,PBSF生成的可检测片段远少于NOF方法,且片段间间距典型地比NOF方法大10-100倍。通常,本发明的PSBF方法适用于NOF方法目前所被应用到的所有情况。本发明的PSBF方法尤其适用于指纹识别长靶序列,因为其生成的可检测片段的数量少。PSBF也可与用于峰值定量的技术联合应用,以确定特定子序列的相对拷贝数量(Buetowetal.2001;Bansaletal.2002;Mohikeetal.2002)。特定非限制性应用实例的特定优势如下所述。快速细菌和病毒鉴定NOF方法已被应用于已知和未知细菌样品的基因型鉴定和分类中(vonWintzingerodeetal.2002,Lefmannetal.2004)。这些方法局限于对已经过从靶细菌PCR扩增的短信号区域(<2kb)的分析。因此,本发明的一个实施方案提供了可作为高效方法对已知和未知细菌样品进行基因型鉴定和分类的PSBF。该方法允许对较大信号区域(至少在5-100kb范围内)取样。如采用具有高度破坏性的多核苷酸切割物(可破坏>98%的靶的那些多核苷酸切割物),则可在单次反应中对完整细菌或病毒基因组取样。由于PSBF不要求参比靶序列,完全未表征的靶可被分析并与其它各已知样品相互比较,而这是目前采用NOF方法无法做到的。对串联重复序列区域的发现和评分PSBF在从头和诊断性情况中快速评分或发现串联重复序列的方面也是有用的方法。在该应用中,PSBF比NOF方法优越的一个主要原因是PSBF可一次性地从靶内提取所有的重复序列区域,即使周围区域的序列未知。SNP发现和检测PSBF也有助于在下述情况下的SNP检测或发现,即目标SNP出现在靶的一个子序列内,可通过PSBF反应检出。与出于相同目的而采用的NOF方法相比,PSBF通常在每次片段化反应中从靶内取样的部分较小。不过,由于不要求参比序列,PSBF可被用于发现在未被完全表征的相关序列集合中的序列变异。实施例事实上,现有所有片段化方法均采用完全化学或酶促法裂解含有修饰核苷酸的靶的核酸转录物。该转录物是利用可掺入所述修饰核苷酸的模板依赖性RNA或DNA聚合酶生成的。通常应用到特异性引物(具有适合RNA聚合酶的启动子序列)。通常,实施通过片段化进行部分测序的方法完全取决于本文所论述的类似技术。这种实施方法的通常形式如图1所示。为简化裂解反应产物的质谱图,被用于生成转录物的任意寡核苷酸引物(随机或特异性的)应被除去或经过设计,使它们被裂解反应完全破坏。另外,所有片段均应具有相同的5’末端以及相同的3’末端(但5’末端可能与3’末端不同)。下述实例所用的核苷酸及核苷酸类似物的结构和分子量如表17所示。实施例1多核苷酸切割物家族16/15[inv(α.α)]4可通过采用StantonJr.etal(2003,USPat.No.6610492)所述的修饰核苷酸和化学裂解反应而得以实现。各特异性多核苷酸切割物适用的核苷酸如表18所示。修饰核苷酸在PCR扩增靶序列期间被掺入,并通过化学方式被KMnO4和3-吡咯烷醇裂解。该裂解反应完全破坏了上述修饰核苷酸,并生成了同时具有5’和3’磷酸基团的片段(Wolfeetal.2002)。与该多核苷酸切割物家族各成员对应的严格片段身份作图如表19A和19B所示。由于该多核苷酸切割物家族可在任意特定长度L条件下仅生成一个可能片段,可通过利用单碱基分辨电泳分析裂解反应产物。利用多核苷酸切割物16/15[inv(A.A)]对样品靶序列进行的部分测序如图2所示。在该实例中,PCR扩增生成了双链产物,其中一条链在进行裂解反应之前被除去。该裂解反应也完全破坏了引物。实施例2特异性多核苷酸切割物4/3[inv(A.)]或4/3[B.]可通过联合RNA酶T1(在rG3’裂解)和RNA酶A(在rC和rU3’裂解)裂解靶序列的RNA转录物而容易地实现。rC与rU之间1道尔顿的质量差异非常难以分辨,可通过在转录反应期间将5Me-rCTP替代为rCTP或将5Me-rUTP替代为rUTP而将其修正。RNA酶裂解反应应在下述条件下进行,最小化2’,3’环磷酸基团的生成,以有利于3’磷酸的生成(Hartmeretal.2003;Krebsetal.2003)。实施例34/3[inv(α.)]4家族的所有多核苷酸切割物(也记作4/3[α.β.γ]4)均可通过下述方法而得以实现,即采用合适的核苷酸三磷酸生成靶的核酸转录物,接着用碱性或非特异性RNA酶进行完全裂解。被用于实现各特异性多核苷酸切割物的核苷酸如表20所示。用碱进行的裂解将生成具有5’-OH基团和2’,3’-环磷酸基团的片段。这些磷酸基团可利用碱性磷酸酶通过酶促方法被除去。与该多核苷酸切割物家族各成员对应的严格片段身份作图如表21所示。利用多核苷酸切割物4/3[inv(A.)](也记作4/3[B.])进行部分测序的样品靶序列如图3所示。在该实例中,所有末端磷酸基团均已被碱性磷酸酶除去。该裂解反应完全破坏了引物。由二核苷酸-特异性裂解构成的多核苷酸切割物实施例4多核苷酸切割物家族16/9[inv(α.ηη.β)]12可采用StantonJr.etal.所描述的特异性二核苷酸裂解的增强方法(2003,USPat.No.6566059)而得以实现。该方法采用rNTPs和5’-氨基-2’,5’-二脱氧核糖核苷酸(nNTPs)。如上所述,由两个相同核苷酸构成的二核苷酸不能被裂解。该缺陷可通过利用具有图4所示结构之一的核苷酸而得以解决。我们将第一种结构称为nrNTP,第二种称为SrNTP。为实现该家族的多核苷酸切割物,三种核苷酸必须都具有2’-OH基团,而由三种核苷酸组成的另一个不同的组则必须均具有5’氨基。与各多核苷酸切割物对应采用的核苷酸如表22所示。在由聚合酶介导裂解所有相邻的2’-OH和氨基磷酸酯基团后,所有片段保留2’,3’环磷酸基团。多核苷酸切割物16/9[B.V]生成了如表23所示不严格的片段身份作图。不属于该片段身份作图的质量如黑体所示,而不能被明确检出的片段则如斜体所示。多核苷酸切割物16/9[B.H]生成了如表24A和24B所示受限的片段身份作图。该受限片段身份作图的上限为3425Da。在该质量范围之上,作图是不严格的。利用多核苷酸切割物16/9[B.H]部分测序的样品靶序列如图5所示。该裂解反应完全破坏了引物。实施例5Kless(2001,WO01/16366)描述了一种可接受二核苷酸三磷酸的改良型模板导向聚合酶。为了在合成期间利用聚合酶掺入二核苷酸三磷酸,其必须与模板形成两个正确的碱基对。多核苷酸切割物家族64/59[K.NA.D.NC.B.N]12可能通过采用具有图6所示结构的二核苷酸三磷酸而得以实现。靶的转录物是利用核苷酸rCTP、rGTP、rTTP以及二核苷酸三磷酸5’ppp-dAdC、5’ppp-rArA、5’ppp-rArG和5’ppp-rArT而得以生成。该转录物接着被碱完全裂解,生成了具有如下形式的片段5’-(AC)kA-3’5’-(AC)kC-3’5’-(AC)kG-3’5’-(AC)kT-3’,其中k=1、2、3....该多核苷酸切割物从靶内有效提取出二核苷酸AC的所有串联重复序列的一个可读框,连同该重复序列的3’末端核苷酸。实施例6通过PSBF进行的指纹法模拟和细菌鉴定Lefmannetal.(2004)描述了通过对16S核糖体RNA基因(rDNA)中的一个约500bp区域进行单碱基裂解,以鉴定细菌的基因型的方法。通过质谱法检测的片段质量与根据参比序列计算而得的理论图谱比较时,可提供足够的足以准确鉴定12种分支杆菌菌株中的每一种的信息。我们通过采用实施例3所述的多核苷酸切割物家族4/3[inv(α.)]4执行PSBF,模拟了这12种菌株的指纹图谱并对它们进行了鉴定。下表25显示了利用多核苷酸切割物家族4/3[inv(α.)]4成员生成的分别来源于12种分支杆菌菌株的16SrDNA区域的正向链的片段。所有菌株共有的片段如小写字母所示,对菌株鉴定有用的片段如大写字母所示,所有序列均以5’-3’方向书写。如表21所示,表25所列各片段均具有独特且可检测的分子量。多核苷酸切割物4/3[inv(T.)]提供了最大数量的有用片段,但不能被单独用于鉴别各菌株。不过,当其与多核苷酸切割物4/3[inv(G.)]联合应用时,便可明确鉴别各菌株。与Lefmann等人所描述的方法相比,解释片段数据时不要求参比序列。采用PSBF法进行的指纹识别也提供了有用的序列信息,例如,在12个16SrDNA序列中,只有蟾分支杆菌具有子序列5’-VTTTTTTG-3’和5’-HGGGGC-3’,只有结核分支杆菌具有子序列5’-BAAAAG-3’,只有隐藏分支杆菌具有子序列5’-VTTTTTG-3’。只有戈登分支杆菌缺乏子序列5’-DCCCT-3’。其它分支杆菌菌株也生成与表25所示信息一致的指纹图谱是可能的,在该情况下,PSBF可能被用于分析rDNA区域的反向链,获得共计8个不同的片段组。参考文献本说明书全文引用的全部参考文献均被完整引入作为参考。USPat.No.6,660,229B2WO01/16366(PCT/IL00/00515)USPat.No.6,566,059B1USPat.No.6,582,923B2USPat.No.6,610,492B1Zabeau,M.andStanssens,P.(2000)DiagnosticSequencingbyaCombinationofSpecificCleavageandMassSpectrometry.InternationalPCTApplicationWO00/66771(PCT/EP00/03904).BansalA.,vandenBoomD.,KammererS.,HonischC.,AdamG.,CantorC.R.,KleynP.,andBraunA.(2002).AssociationtestingbyDNApoolinganeffectiveinitialscreen.ProcNatlAcadSciUSA9916871-4.BockerS.(2003).SNPandmutationdiscoveryusingbase-specificcleavageandMALDI-TOFmassspectrometry.Bioinformatics19Suppl1144-153.BuetowK.H.,EdmonsonM.,MacDonaldR.,CliffordR.,YipP.,KelleyJ.,LittleD.P.,StrausbergR.,KoesterH.,CantorC.R.,andBraunA.(2001).High-throughputdevelopmentandcharacterizationofagenomewidecollectionofgene-basedsinglenucleotidepolymorphismmarkersbychip-basedmatrix-assistedlaserdesorption/ionizationtime-of-flightmassspectrometry.ProcNatlAcadSciUSA98581-4.DingC.,andCantorC.R.(2003).Ahigh-throughputgeneexpressionanalysistechniqueusingcompetitivePCRandmatrix-assistedlaserdesorptionionizationtime-of-flightMS.ProcNatlAcadSciUSA1003059-64.DingC.,andCantorC.R.(2003).Directmolecularhaplotypingoflong-rangegenomicDNAwithM1-PCR.ProcNatlAcadSciUSA1007449-53.DingC.,andCantorC.R.(2004).Quantitativeanalysisofnucleicacids-thelastfewyearsofprogress.JBiochemMolBiol371-10.ElsoC.,TooheyB.,ReidG.E.,PoetterK.,SimpsonR.J.,andFooteS.J.(2002).Mutationdetectionusingmassspectrometricseparationoftinyoligonucleotidefragments.GenomeRes121428-33.FuD.J.,BroudeN.E.,KosterH.,SmithC.L.,andCantorC.R.(1996).EfficientpreparationofshortDNAsequenceladderspotentiallysuitableforMALDI-TOFDNAsequencing.GenetAnal12137-42.HartmerR.,StormN.,BoeckerS.,RodiC.P.,HillenkampF.,JurinkeC.,andvandenBoomD.(2003).RNaseT1mediatedbase-specificcleavageandMALDI-TOFMSforhigh-throughputcomparativesequenceanalysis.NucleicAcidsRes31e47.JurinkeC.,vandenBoomD.,CantorC.R.,andKosterH.(2001).AutomatedgenotypingusingtheDNAMassArraytechnology.MethodsMolBiol170103-16.JurinkeC.,vandenBoomD.,CantorC.R.,andKosterH.(2002).AutomatedgenotypingusingtheDNAMassArraytechnology.MethodsMolBiol187179-92.JurinkeC.,vandenBoomD.,CantorC.R.,andKosterH.(2002).TheuseofMassARRAYtechnologyforhighthroughputgenotyping.AdvBiochemEngBiotechnol7757-74.JurinkeC.,vandenBoomD.,JacobA.,TangK.,WorlR.,andKosterH.(1996).Analysisofligasechainreactionproductsviamatrix-assistedlaserdesorption/ionizationtime-of-flight-massspectrometry.AnalBiochem237174-81.KosterH.,TangK.,FuD.J.,BraunA.,vandenBoomD.,SmithC.L.,CotterR.J.,andCantorC.R.(1996).AstrategyforrapidandefficientDNAsequencingbymassspectrometry.NatBiotechnol141123-8.LefmannM.,HonischC.,BockerS.,StormN.,vonWintzingerodeF.,SchlotelburgC.,MoterA.,vandenBoomD.,andGobelU.B.(2004).Novelmassspectrometry-basedtoolforgenotypicidentificationofmycobacteria.JClinMicrobiol42339-46.LiY.,TangK.,LittleD.P.,KosterH.,HunterR.L.,andMclverR.T.,Jr.(1996).High-resolutionMALDIFouriertransformmassspectrometryofoligonucleotides.AnalChem682090-6.NordhoffE.,LuebbertC.,ThieleG.,HeiserV.,andLehrachH.(2000).RapiddeterminationofshortDNAsequencesbytheuseofMALDI-MS.NucleicAcidsRes28E86.RodiC.P.,Darnhofer-PatelB.,StanssensP.,ZabeauM.,andvandenBoomD.(2002).AstrategyfortherapiddiscoveryofdiseasemarkersusingtheMassARRAYsystem.BiotechniquesSuppl62-6,68-9.ShchepinovM.S.,DenissenkoM.F.,SmylieK.J.,WorlR.J.,LeppinA.L.,CantorC.R.,andRodiC.P.(2001).Matrix-inducedfragmentationofP3’-N5’phosphoramidate-containingDNAhigh-throughputMALDI-TOFanalysisofgenomicsequencepolymorphisms.NucleicAcidsRes293864-72.SiegertC.W.,JacobA.,andKosterH.(1996).Matrix-assistedlaserdesorption/ionizationtime-of-flightmassspectrometryforthedetectionofpolymerasechainreactionproductscontaining7-deazapurinemoieties.AnalBiochem24355-65.SmylieK.J.,CantorC.R.,andDenissenkoM.F.(2004).AnalysisofsequencevariationsinseveralhumangenesusingphosphoramiditebondDNAfragmentationandchip-basedMALDI-TOF.GenomeRes14134-41.StanssensP.,ZabeauM.,MeerssemanG.,RemesG.,GansemansY.,StormN.,HartmerR.,HonischC.,RodiC.P.,BockerS.,andvandenBoomD.(2004).High-throughputMALDI-TOFdiscoveryofgenomicsequencepolymorphisms.GenomeRes14126-33.vonWintzingerodeF.,BockerS.,SchlotelburgC.,ChiuN.H.,StormN.,JurinkeC.,CantorC.R.,GobelU.B.,andvandenBoomD.(2002).Base-specificfragmentationofamplified16SrRNAgenesanalyzedbymassspectrometryatoolforrapidbacterialidentification.ProcNatlAcadSciUSA997039-44.WolfeJ.L.,KawateT.,BelenkyA.,andStantonV.,Jr.(2002).Synthesisandpolymeraseincorporationof5’amino-2’,5’-dideoxy-5’-N-triphosphatenucleotides.NucleicAcidsRes303739-47.WolfeJ.L.,KawateT.,SarracinoD.A.,ZillmannM.,OlsonJ.,StantonV.P.,Jr.,andVerdineG.L.(2002).Agenotypingstrategybasedonincorporationandcleavageofchemicallymodifiednucleotides.ProcNatlAcadSciUSA9911073-8.WolfeJ.L.,WangB.H.,KawateT.,andStantonV.P.,Jr.(2003).Sequence-specificdinucleotidecleavagepromotedbysynergisticinteractionsbetweenneighboringmodifiednucleotidesinDNA.JAmChemSoc12510500-1.表1表24/1[A.]或16/4[A.N]表3A片段长度5个碱基表3B16/3[A.B]表4A片段长度5个碱基表4B16/1[A.C]表5A片段长度5个碱基表5B表616/15[inv(A.A)]或16/15[A.BB.N]表7A片段长度(以碱基为单位)表7B4/3[B.]或16/12[B.N]表8A片段长度(以碱基为单位)表8B16/9[C.MV.KT.T]表9A片段长度(以碱基为单位)表9B16/14[inv(A.CC.A)]或16/14[A.DC.BK.N]表10A片段长度(以碱基为单位)表10B16/13[inv(A.CC.GG.A)]或16/13[A.DC.HG.BT.N]表11A片段长度(以碱基为单位)表11B16/12[inv(A.CC.GG.TT.A)]或16/12[A.DC.HG.VT.B]表12A片段长度(以碱基为单位)表12B16/11[inv(A.TK.M)]或16/11[M.VB.K]表13A片段长度(以碱基为单位)表13B16/13[inv(A.AA.CC.C)]或16/13[C.AM.KK.N]表14A片段长度(以碱基为单位)表14B16/9[B.v]表15A片段长度(以碱基为单位)表15B16/6[C.AG.MT.V]表16A片段长度(以碱基为单位)表16B表17表18表19A表19B表20与多核苷酸切割物家族4/3[α.β.γ.]各成员对应的片段身份作图表21表22与多核苷酸切割物16/9[B.V](nATP,nrCTP,nrGTP,rTTP)对应的片段身份作图表23与多核苷酸切割物16/9[B.H](nATP,nrCTP,rGTP,nrTTP)对应的片段身份作图表24A与多核苷酸切割物16/9[B.H](nATP,nrCTP,rGTP,nrTTP)对应的片段身份作图表24B表2权利要求1.一种确定模板核酸的靶序列的方法,包括下列步骤a)利用聚合酶和根据序列特异反应性和分子量选择的核苷酸以及寡核苷酸引物生成分离的模板核酸的转录物;b)采用选自酶切割物、化学切割物及二者的组合的切割物进行裂解反应,以序列特异性方式将转录物完全裂解为片段;c)分析裂解反应产物,以确定片段的分子量;d)利用核苷酸质量和切割物的裂解特异性完成片段身份作图,以计算步骤b)裂解反应所生成的所有可能片段的分子量和序列;并e)对步骤c)所观察到的质量与步骤d)的片段身份作图进行比较,其中该比较可实现对样品中存在的所有靶序列的确定。2.权利要求1的方法,其中步骤a-e采用不同的切割物至少进行了2次,从而实现重叠片段的生成,并编译这些重叠片段以生成至少一个较大的子序列。3.权利要求2的方法,其中所述较大的子序列为模板的完整序列。4.权利要求1-4中任意一项的方法,其中引物具有序列特异性。5.权利要求1-4中任意一项的方法,其中引物具有随机序列。6.权利要求1-5中任意一项的方法,其中分子量是利用质谱法确定的。7.权利要求6的方法,其中质谱法为基质辅助激光解吸/电离飞行时间质谱法。8.一种确定核酸样品中的基因数量的方法,包括下述步骤,即通过权利要求6的方法鉴别核酸样品内的任意聚腺苷酸尾部,其中消化是利用可破坏该样品内除了含有聚腺苷酸的片段以外的其它所有核苷酸的单核苷酸切割物而得以实现的,进一步通过分析由质谱法获得的峰的大小,以分析含有聚腺苷酸的片段的数量,其中峰的大小指示含有聚腺苷酸尾部的片段的数量。9.一种鉴定生物样品中已知核酸序列的量的方法,包括下述步骤,即选择该已知核酸序列中的独特序列,选择能够消化含有已知核酸序列的核酸样品的核酸切割物,利用随机引物转录该核酸样品,用序列特异性切割物消化转录物,以获得片段,采用质谱法分析这些片段的分子量,并通过比较从被消化样品获得的峰的大小与从含有已知序列的样品获得的峰的大小,确定样品中片段的数量,其中该比较可实现对生物样品内已知核酸序列的量的鉴定。全文摘要本发明提供了测定模板核酸的核酸序列的方法,该方法无需预知模板核酸中存在的核酸序列。该方法基于关于片段质量、任意一种核苷酸及其组合的质量、核苷酸切割物(酶或化学切割物)的序列特异性的组合信息确定核酸片段的序列。该方法允许从头检测靶核酸内的序列,而无需预知任何序列信息。该方法被称为通过片段化进行的部分测序(PSBF),即通过将靶序列片段化为质量或长度与已知序列独特相关的寡或多核苷酸而实现目的。这些序列的身份仅通过所用的特异性片段化方法测定,并总是不依赖于靶序列。PSBF可通过应用电泳、质谱或其它可被用于区分被切核酸序列片段大小的任意方法实现。文档编号C12Q1/68GK1977053SQ20058001874公开日2007年6月6日申请日期2005年4月8日优先权日2004年4月9日发明者C·R·坎托尔,F·A·西迪奇申请人:波士顿大学信托人
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1