基于aflp和高通量测序的对分子标记的高通量检测的制作方法

文档序号:438305阅读:331来源:国知局

专利名称::基于aflp和高通量测序的对分子标记的高通量检测的制作方法
技术领域
:本发明涉及分子生物学和生物
技术领域
。特别地,本发明涉及核酸检测鉴定领域。更特别地,本发明涉及检测和鉴定标记,特别是分子标记的方法。本发明涉及检测和鉴定分子标记的高通量方法的提供。本发明进一步涉及该方法在鉴定和/或检测与一系列遗传特性、基因、单模标本和其组合相关的核苷酸序列上的应用。本发明可用于任何来源的分子标记的高通量检测和鉴定领域,不论是植物、动物、人、人造体或其它。
背景技术
:科学界,特别是医学界,一直希望开发基因组DNA。基因组DNA掌握着鉴定、诊断和治疗疾病,例如癌症和老年痴呆症的关键。除了疾病鉴定和治疗,对基因组DNA的开发可能为动物和植物伺养提供显著的有利条件,这可能对世界上的食品和营养问题提供解决方案。已经知道很多疾病与特定的遗传成分,特别是特定基因上的多态性有关。目前,大样品例如基因组中的多态性的鉴定是一项费力和费时的工作。但是,这种鉴定对于一些领域例如生物医学研究、药剂产品开发、组织分型、基因分型和人群研究具有重大价值。标记,例如遗传标记,己经被用作遗传分型方法很长一段时间,即,将表型特性与DNA(基因)的一个特定部分的存在、缺乏或其数量相联系。其中一种最通用的遗传分型技术是AFLP,其已经存在了很多年并被应用于任何有机体(参考Savelkoul等人的综述,J.Clin.Microbiol,1999,37(10),3083-3091;Bensch等人MolecularEcology,2005,14,2899-2914)。自从九十年代初期被发明以来,AFLP技术(Zabeau和Vos,1993;Vos等人,1995)己被广泛应用于植物饲养和其它领域。这是由于AFLP的几个特性,其中最重要的是无需在先的序列信息即可以重复方式产生大量的遗传标记。而且,选择性扩增的原理,即AFLP的基础,保证了扩增片段的数量可与检测系统的分辨率相一致,不论基因组大小和来源。AFLP片段的检测通常以平板凝胶电泳(Vos等人,1995)或毛细管电泳(vanderMeulen等人,2002)进行。按照这种方式记录的AFLP标记的大部分代表了(单个核苷酸)发生于用于AFLP模板制备的限制性酶识别位点或者其被选择性AFLP引物覆盖的旁侧核苷酸的多态性。其余的AFLP标记插入/缺失多样性,其发生于限制性片段的内部序列,以及产生于小限制性片段(小于大约100bp)的单一核苷酸替代物上的一个非常小的片段;对这些片段,其可导致两个等位基因间可重复的迁移率差异,这可在电泳中被观察到。这些AFLP标记可被共显性分析,而不依赖于带的亮度。因此,在一个典型的AFLP指纹图谱中,AFLP标记构成扩增片段的小部分(少于50%但通常少于20%),剩余部分通常被称为恒定AFLP片段。但是后者在凝胶分析程序中很有用,因为他们作为锚定点可计算AFLP标记的片段迁移率,并可辅助在共显性分析中对标记进行定量。现阶段AFLP标记的共显性分析(纯合或杂合分析)仅限于对隔离种群采集指纹。在一组非亲缘品系中,只有显性分析是可能的。由于扩增和检测步骤中的高效多路水平,AFLP的产量很高,限速步骤是电泳的分辨能力。电泳基于限制性酶结合物(EC)、引物结合物(PC)和迁移率的组合,可九许大部分扩增片段的唯一性鉴定;但是,电泳只能够基于迁移率的不同来区别扩增片段。迁移率相似的片段经常被发现形成所谓的"堆叠带",并且,电泳无法显示出所谓的"恒定带"中所包含的信息,即扩增的限制性片段在所比较的物种中不能表现出差别。而且,在一个典型的基于凝胶的系统中,或毛细管系统,例如MegaBACE中,样品必须平行运行,一个凝胶中每个泳道或者每个毛细管只有大约100-150个带可被分析。这些限制也阻碍了产量。理想地,检测系统应该能够测定扩增片段的整个序列以捕获所有扩增的限制性片段。但是,大多数高通量测序技术还不能提供包括整个AFLP片段,通常为100-500bp长度的测序读数。目前,通过测序来检测AFLP标记/序列在经济上尚未可行,除了其它的限制,还由于Sanger双脱氧测序技术和其它传统测序技术的成本限制。通过测序而不是迁移率测定来检测将会增加生产量,因为1)位于内部序列的多态性将会在大多数(或全部)扩增片段中被检测;这将会相当可观地增加每个PC的标记数目。2)没有由于AFLP标记的共迁移和恒定带所造成的AFLP标记的损失。3)共显性分析不依赖于带亮度的定量,并且独立于所采集指纹个体的相关性。但是,通过测序来测定整个限制性片段仍然是相当不经济的。而且,目前最先进的测序技术,如这里和其它地方(从454LifeSciences,www.454.com禾BSolexa,www.solexa.com)所揭露的,虽然其测序能力有压倒性优势,但只能提供有限长度片段的测序。而且目前的方法不支持很多样品在一个运行中的同时处理。定义在以下的描述和实施例中使用了一些术语。为了提供一个对说明书和权利要求书清楚和一致的理解,包括这些术语所被赋予的范围,提供了以下定义。除非此处另有说明,所用的所有的技术和科学术语具有和本发明所属领域普通技术人员通常所理解的相同的含义。所有的公开、专利申请、专利和其它参考文献在这里全文引入作为参考。核酸根据本发明,核酸包括任何嘧啶或嘌呤碱基的多聚体或寡聚体,优选地分别为胞嘧啶、胸腺嘧啶和尿嘧啶,以及腺嘌呤和鸟嘌呤(参见AlbertL.Lehninger,PrinciplesofBiochemistry,793-800(WorthPub.1982),这里为了所有目的作为参考全文引入)。本发明考虑到任何脱氧核糖核酸、核糖核酸或肽核酸成分,以及其任何化学变异体,例如这些甲基化、羟甲基化和糖基化的碱基,诸如此类。多聚体或寡聚体成分上可能是异质或同质的,可能分离自天然发生的来源或可能是通过人造或合成产生的。而且,核酸可能是DNA或RNA,或其混合物,可能以双链或单链形式永久或瞬时存在,包括同质双链、异质双链和混合态。AFLP:AFLP是指一种选择性扩增核酸的方法,其基于以一种或多种限制性内切酶消化一个核酸以产生限制性片段,将接头连接到限制性片段并以至少一个引物扩增与接头连接后的限制性片段,该引物(部分)与接头互补,(部分)与限制性内切酶的剩余部分互补,并且进一步包含至少一个从A、C、T或G(某些情况下也可能是U)中随机选出的核苷酸。AFLP无需任何在先的序列信息并且可在任何起始DNA上进行。大体上,AFLP包含以下步骤(a)以一种或多种特异性限制性内切酶消化一个核酸,特别是DNA或cDNA,使该DNA形成一系列相应的限制性片段;(b)将所获得的限制性片段与一个双链的合成寡聚核苷酸接头连接,其一端与限制性片段的一端或两端相兼容,从而产生与接头相连的、优选为标记的,起始DNA的限制性片段;(c)将与接头相连的、优选为标记的,限制性片段在杂交条件下与一个或多个在其3'端含有选择性核苷酸的寡聚核苷酸引物接触;(d)通过PCR或类似技术扩增与接头相连的、优选为标记的,与引物杂交的限制性片段,从而将杂交的引物沿着与其杂交的起始DNA的限制性片段进一步延长;和(e)检测、鉴定或恢复所获得的扩增的或延长的DNA片段。因此AFLP提供了一种可再生的与接头相连的片段的子集。AFLP在EP534858,US6045994和Vos等人中有描述。关于AFLP的细节可参考这些文献。AFLP被普遍应用为一种降低复杂度的方法和DNA指纹图谱技术。在AFLP作为DNA指纹图谱技术的范围内,产生了AFLP标记的概念。AFLP标记AFLP标记是一个经扩增的、与接头相连的限制性片段,其在使用同一套引物通过AFLP(指纹图谱)进行扩增的两个样品中不同。因此,这个经扩增的、与接头相连的限制性片段的存在或不存在可被用作一个标记,以联系一个特征或表型。在传统的凝胶技术中,AFLP标记作为一条带在凝胶中出现,定位于一个特定的迁移率。其它的电泳技术例如毛细管电泳可能并不将此称为一条带,但概念是相同的,即,一个具有特定长度和迁移率的核酸。带的存在或不存在可作为表型存在或不存在的指示(或与其相关)。AFLP标记通常包括内切酶的限制性位点或选择性核苷酸中的SNP。偶尔地,AFLP标记可能包括限制性片段中的插入/缺失(indels)。恒定带AFLP技术中的恒定带是一个经扩增的、与接头相连的限制性片段,其在样品间相对不变。因此,AFLP技术中的恒定带将在一系列样品中出现在凝胶中大约相同的位置,即,具有相同的长度/迁移率。在传统的AFLP中这些通常被用来锚定凝胶中对应于样品的泳道,或者毛细管电泳所检测的多个AFLP样品的电泳图谱。通常,恒定带比AFLP标记提供的信息较少。但是,AFLP标记通常包括选择性核苷酸或限制性位点中的SNP,恒定带可能只在限制性片段中包含SNP,使得恒定带与AFLP标记互补,成为有益的可供选择的遗传信息来源。选择性碱基位于引物的3'端,该引物包含与接头互补的一部分以及与限制性位点的剩余部分互补的一部分,选择性碱基从A、C、T或G中随机选择。通过一个选择性碱基来延伸引物,接下来的扩增将只产生一个可再生的与接头相连的限制性片段的子集,即,只有那些可以被携带选择性碱基的引物扩增的片段。可将l-10个选择性核苷酸加到引物的3'端,通常1-4个足够。两个引物可能含有不同数量的选择性碱基。利用每个加入的选择性碱基,该子集可将经扩增的、与接头相连的限制性片段的数量减少到大约四分之一。通常,AFLP中所用的选择性碱基的数量以+N+M表示,其中一个引物携带N个选择性核苷酸,另一个引物携带M个选择性核苷酸。因此,一个Eco/Mse+1/+2AFLP为简写,表示以EcoRI和Msel消化起始DNA,连接合适的接头,并以一个对应于EcoRI限制性位点、携带l个选择性核苷酸的引物和另一个对应于Msel限制性位点、携带2个选择性核苷酸的引物进行扩增。AFLP中所用的在其3'端携带至少一个选择性核苷酸的引物也被描述为AFLP-引物。3'端不携带选择性核苷酸的引物,实际上与接头和限制性位点的剩余部分互补的引物有时被称为AFLP+0引物。聚类术语"聚类"意义是,两个或多个核苷酸序列的比较,基于一短段或一长段相同或相似核苷酸的存在。本领域已知有几种方法来9进行核苷酸序列的比对,以下将有进一步解释。有时术语"装配"或"比对"可用作同义词。鉴别子一段短序列,可被加入接头或引物或包含在其序列中或用作标签来提供一个唯一的鉴别子。这样一个鉴别子序列可以是可变但长度确定的唯一碱基序列,专门用于鉴别一个特异的核酸样品。例如4bp的标签可以允许4(exp4)=256个标签。通常的例子是ZIP序列,本领域中已知可普遍用于杂交的唯一检测(Iannone等人,Cytometry39:131-140,2000)。利用这样一个鉴别子,PCR样品的来源可通过进一步处理来确定。如果是来自不同核酸样品的混合处理产物,这些不同核酸样品大体上可通过不同的鉴别子来鉴别。测序术语测序是指测定一个核酸样品,例如DNA或RNA中的核苷酸(碱基序列)顺序。高通量筛选高通量筛选,通常简写为HTS,是一种科学实验方法,尤其与生物和化学领域相关。通过现代机器人技术和其它特定实验室硬件的组合,其允许研究人员高效的同时筛选大量的样品。限制性内切酶限制性内切酶或限制性酶是一种可以识别双链DNA分子中的特异核苷酸序列(耙序列)的酶,并会在每个耙序列或其附近切割DNA分子的两条链。限制性片段以限制性内切酶消化而产生的DNA分子称为限制性片段。任何给定基因组(或核酸,不论其来源)将被一个特定的限制性内切酶消化形成离散的一套限制性片段。限制性内切酶切割形成的DNA片段可被进一步应用于很多的技术,可通过例如凝胶电泳来检凝胶电泳为了检测限制性片段,需要一种基于大小的分离DNA分子的分析方法。最常用的实现这种分离的技术是(毛细管)凝胶电泳。DNA片段在这种凝胶中移动的速率取决于它们的分子重量;因此,迁移距离随片段长度的增加而减少。通过凝胶电泳分开的DNA片段可通过染色程序,例如银染色或溴化乙锭染色来直接显色,如果该式样中包含的片段的数量足够小的话。或者,对DNA片段的进一步处理可在片段中引入可检测的标签,例如荧光或放射性标签,这在标记AFLP产物的一条链时优选使用。连接以连接酶催化的酶促反应称为连接,其中两个双链DNA分子共价连接起来。通常,两条DNA链都被共价连接,但是也可以通过化学或酶修饰其中一个链末端的方法来防止两条链中一条的连接。这样的话,共价连接只会发生在DNA双链中的一条链。合成寡聚核苷酸可以通过化学合成的、具有优选大约IO至大约50碱基的单链DNA分子被称为合成寡聚核苷酸。通常,这些合成的DNA分子被设计为具有唯一的或所需要的核苷酸序列,虽然也可以合成具有相关序列但在核苷酸序列内的特异位置具有不同核苷酸组成的分子家族。术语合成寡聚核苷酸将被用于指称具有设计好的或所需要的核苷酸序列的DNA分子。接头具有限定数目的碱基对,例如长度为大约10-大约30个碱基对,短的双链DNA分子,其被设计为可连接到限制性片段的末端。接头通常由两个具有互相之间部分互补的核苷酸序列的合成寡聚核苷酸组成。当把两个合成寡聚核苷酸在溶液中以合适的条件混合时,他们将会退火而形成一个双链结构。退火以后,接头分子的一端被设计为与限制性片段的末端相兼容,可以与其连接;接头的另一端被可以被设计为不可连接,但这并不是一定的(双连接的接头)。与接头相连的限制性片段已经被接头加帽的限制性片段。弓l物通常,术语引物是指可以引导DNA合成的DNA链。没有引物,DNA聚合酶不能重新合成DNA:它只能在一个反应中延伸己经存在的一条DNA链,其中互补链被用作模板以引导待装配的核苷酸的次序。我们将把聚合酶链反应(PCR)中所使用的合成寡聚核苷酸称为引物。DNA扩增术语DNA扩增通常被用于表示用PCR进行的双链DNA分子的体外合成。应该注意,其它的扩增方法也存在并且可被应用于本发明,而不改变要义。
发明内容本发明人发现以上所描述的问题和本领域其它问题可通过发明一种一般性的方法来解决,其中AFLP标记技术的多功能性和应用性可以与最先进的高通量测序技术相结合。因此,本发明人发现,在与接头相连的限制性片段中引入一个样品特异性鉴别子,和/或只测定限制性片段序列的一部分,可以提供一个十分高效和可信赖的对现有技术的改进。经已发现,通过引入一个样品特异性鉴别子,可在一个单独运行中对多个样品进行测序;通过只对限制性片段的一部分测序,可实现对限制性片段的足够的鉴别。图1是一个代表接头结构的示意图,其被用于常规的基于AFLP的短标签序列的检测。显示了一个典型的以EcoRI和Msel消化DNA样品所得到的AFLP片段,以及接下来的接头连接;跟着是一个EcoRI位点的典型的接头。从5'到3'端,该接头包括,一个5'端引物序列,其为可选的,并可用于锚定扩增引物或与接头相连的片段锚定到珠子或表面。然后显示了一个鉴别子(以NNNNNN作为简并形式),接着是限制性酶识别序列的剩余部分(这里为EcoRI,即AATTC)。优选地,鉴别子的最后一个核苷酸不含G,以破坏EcoRI的限制性位点。提供了一个合适的引物,其包含可选的5'端引物序列,一个特定引物实例(ACTGAC),识别位点的剩余部分,以及在3'端可能包含一个或多个选择性核苷酸的部分。图2是代表一个实施方式的示意图,其中在接头里引入了lis类限制性内切酶的识别序列。经过IIs类酶消化后,IIs类兼容性接头可被连接到限制性片段A和B的一个或两个。lis类接头包含一个可选的引物结合(或锚定)序列,一个鉴别子和一个包含(简并)核苷酸(NN)的部分以杂交至Hs类限制性位点的突出末端。相关的引物可能在其3'端包含一个或多个选择性核苷酸(XYZ)。发明详述在一个方面,本发明涉及一种在样品中鉴定限制性片段的方法,包含以下步骤(a)提供一个核酸样品;(b)以至少一种限制性内切酶消化该样品以获得一套限制性片段;(C)提供一个双链的合成接头,其包括——一个5'端引物兼容序列,——一个样品特异性鉴别子部分,——一个与限制性内切酶的识别序列的剩余部分互补的部分;(d)将双链的合成接头连接至该套限制性片段,以提供一套与接头相连的限制性片段;(e)以一个或多个引物扩增该套与接头相连的限制性片段,引物至少与以下互补——样品特异性鉴别子部分,——与限制性内切酶的识别序列的剩余部分互补的部分,以提供经扩增的、与接头相连的限制性片段(扩增子amplicons);(f)至少测定样品特异性鉴别子部分的序列,限制性内切酶的识别序列的剩余部分(的序列),与其临近的限制性片段部分序列,以及扩增的、与接头相连的限制性片段的(部分)序列;(g)鉴定样品中经扩增的、与接头相连的限制性片段是否存在。通过这种方式处理一个核酸样品,对于每个经测序的样品,可获得一套经扩增的限制性片段。每个限制性片段可通过每个样品不同的样品特异性鉴别子被鉴定为来自一个某个特定样品。对经扩增的、与接头相连的限制性片段的测序可提供至少部分的与接头相连的限制性片段的序列信息。接头来源部分所包含的信息含有关于样品从哪个片段中获得这一信息,而来自限制性片段本身的序列信息提供了限制性片段的信息,并允许鉴定该限制性片段。这个限制性片段的序列信息被用于鉴定限制性片段,其准确性依赖于所确定的核苷酸数目,以及该套经扩增的、与接头相连的限制性片段中限制性片段的数目。为了提供由于解决抽样变异而影响通过对一套多片段测序来鉴定分子标记的准确性的问题,本发明人也发现,对检测标记测序可优选地这样进行进行足够多(深)的取样以使所有的扩增片段至少取样一次,并伴随统计学方法,这可以处理与表型准确性相关的抽样变异的问题。而且,正如AFLP分析一样,在隔离种群的环境下,一个实验中对双亲个体的同时分析,将辅助测定统计阙值。因此,在一些实施方式中,标记的、经扩增的、与接头相连的限制性片段的重复度至少是6,优选为至少是7,更优选至少为8,最优选至少为9。在一些实施方式中,每个与接头相连的限制性片段被测序至少6次,优选为至少7次,更优选为至少8次,最优选为至少9次重复。在一些实施方式中,假设总体有50/50的机会可以正确鉴定纯合子的位置,将重复度选为,正确鉴定其位置的机会大于95%,96%,97%,98%,99%,99.5%。在这个方面,以下计算可作为示例性如此处和别处描述的Solexa测序技术,大约每25bp提供40,000,OOO个读数,合计每个单独运行中有惊人的十亿bp。假设取样时重复度为10次,一个运行中可测定4,000,000个唯一的片段。组合100个样品可允许对每个样品的40,000个片段进行测序。从AFLP的观点看,这相当于160个引物的组合,每个有250个片段。这个方法允许以不同于基于电泳的传统的标记检测方式来鉴定限制性片段。在鉴定限制性片段的方法的第一步提供了一个核酸样品。样品中的核酸通常为DNA形式。但是,样品中所含的核苷酸序列信息可以来自任何来源的核酸,包括,例如RNA,polyA+RNA,cDNA,基因组DNA,细胞器DNA例如线粒体或叶绿体DNA,合成核酸,DNA文库(例如BAC文库/BAC克隆库),克隆库或其中任何选择或组合。核酸样品中的DNA可以是双链的,单链的,以及双链DNA变性成单链DNA。DNA样品可以来自任何有机体,不论是植物、动物、合成的或人。以至少一个限制性内切酶限制(或消化)核酸样品以提供一套限制性片段。在一些实施方式中,可使用两个或多个内切酶以获得限制性片段。内切酶可以是高频剪切的(识别序列为3-5bp,例如Msel)或低频剪切的(识别序列大于5bp,例如EcoRI)。在一些优选实施方式中,低频剪切酶和高频剪切酶的组合为优选。在一些实施方式中,特别是当样品含有或者来自一个相对较大的基因组时,优选为使用第14三个(低频剪切酶或高频剪切酶)以获得一大套较短的限制性片段。对于限制性内切酶,任何内切酶都满足。通常,n类内切酶为优选,例如EcoRI,Msel,Pstl等等。在一些实施方式中,可以使用lis类内切酶,即识别序列远离限制性位点的内切酶,例如AceIII,Alwl,AlwXI,Alw261,Bbvl,BbvII,Bbsl,Bccl,Bce831,Bcefl,Bcgl,Binl,Bsal,Bsgl,BsmAI,BsmFI,BspMI,Earl,Ecil,Eco311,Eco571,Esp31,Faul,Fokl,Gsul,Hgal,HinGUII,Hphl,Ksp6321,MboII,Msel,Mnll,NgoVIII,Plel,RleAI,Sapl,SfaNI,TaqJI禾BZthllIII。这种类型的限制性内切酶的使用导致的对此方法的改变将在这里其它地方描述。限制性片段可以是平末端或具有突起末端,取决于所用的内切酶。对于这些末端,接头可以被连上。通常,本发明所用的接头具有特别设计。本发明所用的接头可能包含一个5'端引物兼容性序列,其为可选的,以为接下来的引物退火提供足够长度的接头;紧接着是可能包含4-16个核苷酸的样品特异性鉴别子部分。优选地,样品特异性鉴别子不含两个或更多的连续的相同碱基,以防止测序步骤中的连读。而且,如果两个或更多的样品被混合并且使用了多个样品特异性鉴别子来区别样品的来源的话,最好在样品特异性鉴别子之间有至少2个,优选为3bp的差别。在接头的3,端有一个与限制性内切酶的识别序列的剩余部分互补的部分。例如,EcoRI识别5'-GAATTC-3,并且在G和AATTC之间切割。因此对于EcoRI来说,与限制性内切酶的识别序列的剩余部分互补的部分为核苷酸C。接头被连接(共价结合)至限制性片段的一端或两端。当用多于一个内切酶进行消化时,可以使用不同的接头,从而产生不同系列的与接头相连的限制性片段。与接头相连的限制性片段接下来被一个或多个成套引物扩增。引物可能只与接头互补,即非选择性扩增。该引物优选的含有一个与样品特异性鉴别子互补的部分以及一个与限制性内切酶的识别序列的剩余部分互补的部分。在一些实施方式中,该引物可能在其3,端含有一个或多个选择性核苷酸以提供经扩增的、与接头相连的限制性片段的子集。该引物在其5'端也可能含有其它核苷酸以辅助将引物锚定到与接头相连的限制性片段。在一些实施方式中,该引物可能含有表达经改进的杂交特性的核苷酸,例如LNA或PNA。为了扩增来自一个库的混合样品的与接头相连的限制性片段,可以使用成套的简并引物,即对每个样品来说,在该引物系列内,相应的样品特异性鉴别子被插入引物。在一些实施方式中,可能使用鉴别子部分完全(或至少很大程度上)简并的引物系列,即(几乎)每个核苷酸组合都被提供在样品特异性鉴别子部分内。与扩增中的严格杂交条件相结合以及选择性使用LNA或PNA型核苷酸来增加杂交特性,可产生一个非常高效的扩增。与接头相连的限制性片段的扩增形成一套经扩增的、与接头相连的限制性片段,有时被称为扩增子。扩增子(或至少其部分)经过一个步骤,至少包含对样品特异性鉴别子的测序以测定片段的来源,以及部分限制性片段的序列(的来源)。在实际中,这也就相当于测定位于中间的部分,例如限制性内切酶的识别序列的剩余部分。通过对样品特异性鉴别子,以及部分的位于接头来源序列附近的片段的测序,可以唯一地鉴定出限制性片段。当与一个表型的存在与否相联系时,这些经唯一鉴定的限制性片段可被用作分子标记。这可以定义新一代的标记,因此也就相当于一项被证明具有AFLP技术的多功能性的新的标记技术,并且适合高通量技术,而且大体上适用于任何形式的有机体或核酸。以这种方法通过测定部分序列从而唯一地鉴定样品中的限制性片段可被重复于多个样品。样品中所描述的序列是否存在限制性片段可用来指征是否存在一个表型。基于AFLP和高通量测序相结合的标记技术的本发明,其一个进一步的优点为,与传统AFLP技术相比可以获得更多的信息。在AFLP中,被命名为AFLP标记的扩增子通常在其识别位点、限制性位点或,可选地,选择性核苷酸中包含多态性。位于限制性片段的多态性通常不会成为AFLP标记(除非可能是插入/缺失多态性)。利用本测序步骤,临近可选的核苷酸的核苷酸也被确定,这可以鉴定更多数目的分子标记,并且改进了现有的标记技术。本发明所用的高通量测序是一种科学实验方法,尤其与生物和化学领域相关。通过现代机器人技术和其它特定实验室硬件的组合,其允许研究人员高效的同时筛选大量的样品。优选地,测序以高通量测序技术进行,如WO03/004690,WO03/054142,WO2004/069849,WO2004/070005,WO2004/070007和WO2005/003375(申请人全部是454生命科学),如Seo等人(2004)在Proc.Natl.Acad.Sci.USA101:5488-93,以及Helios,Solexa,USGenomics,etcetera中所披露的技术,这里引入作为参考。454生命科学技术在一些实施方式中,优选地,测序以WO03/004690,WO03/054142,WO2004/069849,WO2004/070005,WO2004/070007和WO2005/003375(申请人全部是454生命科学)中所描述的设备和/或方法进行,这里引入作为参考。所描述的技术允许在一个单独运行中对40,000,000的碱基测序,比同类技术快并便宜100倍。测序技术大体由5个步骤组成1)DNA破碎及特异性接头连接以产生单链DNA(ssDNA);2)ssDNA退火至珠子,将珠子在油包水微反应器中乳化,并进行乳滴PCR以扩增珠子上单独的ssDNA;3)选择/富集表面上含有经扩增的ssDNA分子的珠子;4)将携带DNA的珠子沉积到PicoTiterTM板;5)通过产生一个焦磷酸盐光信号在100,000个孔中同时测序。这个方法下面还将更详细的解释。在一个优选实施方式中,测序包含以下歩骤.-(a)将经接头的片段退火至珠子,每个珠子与一个单独的经接头的片段退火;(b)将珠子在油包水微反应器中乳化,每个油包水微反应器包含一个单独珠子;(c)将珠子置入孔中,每个孔包含一个单独珠子;并产生焦磷酸盐信号。在第一个步骤(a)中,测序的接头被连接至组合文库中的片段。所述测序的接头包括至少一个"关键"区域,以退火至珠子,一个测序引物区域和一个PCR引物区域。因此,经接头的片段被获得。在第一个步骤中,经接头的片段退火至珠子,每个珠子与一个单独的经接头的片段退火。对于经接头的片段文库,加入了过量的珠子17以保证,对于大多数珠子,每个单独的经接头的片段与一个珠子退火(Poisson分布)。在下一个步骤中,珠子在油包水微反应器中乳化,每个油包水微反应器包含一个单独珠子。在油包水中存在PCR反应物,以使PCR反应在微反应器中发生。然后,微反应器被破坏,含有DNA的珠子(DNA阳性珠)被富集。在接下来的步骤中,珠子被置入孔中,每个孔包含一个单独珠子。孔最好为PicoTiterTM板的一部分,以使可以对大量样品同时测序。在加入携带酶的珠子后,用焦磷酸测序法测定片段的序列。在连续的步骤中,PicoTiterTM板和珠子以及其中携带酶的珠子被不同的脱氧核糖核酸在常规测序试剂存在下处理,当引入一个脱氧核糖核酸时产生一个光信号并被记录下来。引入正确的核苷酸将产生一个焦磷酸测序信号并被检测。焦磷酸测序本身在本领域是已知的,此外还特别在www.biotagebio.com;www.pyrosequencing.com/sectiontechnology中描述。这项技术进一步应用于例如WO03/004690,WO03/054142,WO2004/069849,WO2004/070005,WO2004/070007和WO2005/003375(申请人全部是454生命科学)。这里引入作为参考。在本发明中,优选地,珠子被装上能够结合至扩增子的引物(结合)序列或其部分,根据具体情况而定。在其它实施方式中,扩增中所用的引物装配了一些序列,例如在其5,端,使得扩增子可以结合至珠子从而允许接下来的乳化多聚反应及接下来的测序。或者,扩增子可以在与珠子或表面相连之前与测序接头相连。经测序的扩增子将揭示鉴别子的身份从而揭示样品中限制性片段是否存在。Solexa技术一种高通量测序方法可由英国Solexa(www.solexa.co.uk)获得,此外还特别在WO0006770,WO0027521,WO0058507,WO0123610,WO0157248,WO0157249,WO02061127,WO003016565,WO003048387,WO2004018497,WO2004018493,WO2004050915,WO2004076692,WO2005021786,WO2005047301,WO2005065814,WO2005068656,WO2005068089,WO2005078130中描述。实质上,该方法以与接头相连的基因组DNA片段开始。与接头相连的DNA随机地附着到浓密的引物层,引物附着到固体表面,通常在流动的细胞中。与接头相连的片段的另一端杂交至表面上的互补的引物。引物在核苷酸和多聚酶的存在下,以所谓的固相桥扩增方式延伸从而提供双链片段。这种固相桥扩增可能是选择性扩增。固相桥扩增的变性和重复导致扩增的片段以浓密的簇在固体表面分布。通过向流动细胞中加入四种不同标记的可逆终止子核苷酸、引物和多聚酶启动测序。在第一轮引物延伸后,检测标记,第一次引入的碱基的身份被记录,并且从所引入碱基中除去被阻隔的3'端终点和荧光团。然后以同样的方式鉴定第二个碱基从而测序继续下去。在本发明中,与接头相连的限制性片段或扩增子通过引物结合序列或引物序列结合至表面。序列如上所述被测序,包括鉴别子序列和(部分)限制性片段。现有的Solexa技术允许对大约25个碱基对的片段进行测序。通过对接头和表面结合引物的较经济的设计,测序步骤可依次读出样品鉴别子、限制性内切酶识别序列的剩余部分和任何可选的选择性碱基。当使用6bp的样品鉴别子时,剩余部分来自低频剪切酶EcoRI(AACCT),使用两个选择性碱基将产生12bp的限制性片段的中间序列,其可被用于唯一地鉴定样品中的限制性片段。在一个基于以上的Solexa测序的优选的实施方式中,与接头相连的限制性片段的扩增以一个引物进行,该引物在其3'端至多含有1个选择性核苷酸,优选地在其3'端没有选择性核苷酸,即只是与接头互补(一个+0引物)。在针对这里所描述的测序方法的另一实施例中,扩增中所用的弓I物可能包含特异性部分(作为这里所描述的引物或引物结合序列的替代)以用于在接下来的测序步骤中将已经被接头加帽的限制性片段或扩增子结合至表面。这些大体上被描述为关键区域或5'端引物兼容序列。在本发明的一个实施方式中,核酸样品以至少一个限制性酶消化,至少一个包含一个lis类限制性内切酶的识别序列的接头被连接。由于lis类酶的识别位点和限制性位点的距离相对较短(等于大约30个核苷酸),接下来以lis类限制性内切酶对与接头相连的限制性片段的消化将产生一个较短和一个较长的限制性片段,IIS类限制性位点兼容性接头可连接上去。通常,IIs类限制性位点的突出是未知的,因此可使用一套在突出处简并的接头。在(选择性)扩增之后,扩增子可被测序。在本实施方式中接头序列大致上遵循5,-引物结合位点-样品鉴别子序列-简并lis类粘末端序列-3'.相关的PCR引物大致遵循引物序列-样品鉴别子序列-简并lis类粘末端序列-选择性核苷酸-3,.所用的启动合成测序的引物大体上具有这样的结构5,-引物结合位点-3,.最好在以IIS类酶消化后进行一个大小选择步骤,以除去较小的片段。由于在这个实施方式中,这种酶的限制性位点的剩余部分通常为2-4bp,这导致在对15-17bp的限制性片段测序时,其与一个6bp的样品鉴别子结合。在一个进一步方面,本发明涉及一个试剂盒,除了试剂盒本身传统的成分外,包含一个或多个引物,和/或一个或多个本方法中使用的接头。而且,除了别的以外,本发明可在,鉴别分子标记的方法在基因分型,集合分离体分析,基因定位,标记辅助的回交,数量性状位点定位,连接不均衡定位中的用途中,找到应用。实施例用常规方法从2个亲本和88个子代中分离了DNA。亲本(2x)和子代(=4x)均以不同索引作二倍重复以测试重复性。用于区别不用样品的标签与实验中所用的任何其它标签至少相差两个核苷酸。各个步骤均使用琼脂糖和PAA凝胶做质量检测。实施例1对于每个DNA样品,用EcoRI和Msel进行限制性连接的步骤。接头是基于位于Slexa高通量测序系统表面的的杂交序列,更特别的,EcoRI接头含有P5序列(序列引物部分),Msel接头含有P7序列(桥PCR引物序列)。EcoRI接头还含有样品身份标签。使用了96个不同的EcoRI接头和1个Msel接头。可以使用一个简并的EcoRI接头。模板制备包括一个大小选择步骤在限制性消化(EcoRI+Msel)步骤之后但是在接头连接步骤之前,将混合物在80摄氏度温育10分钟。小于130nt的片段被除去(在一个玉米样品中)。混合物的复杂性通过一个选择性预扩增来降低使用+1引物(即,在3'端含有一个随机的选择性核苷酸),使用96个EcoRI+1引物和1个MseI+1引物(或者1个简并标签的EcoRI+1引物和1个Msel+1引物)。使用EcoRI+2^P5端)和Msel+3(=P7端)引物进行选择性扩增以把混合物的复杂性降低到需要的大小,将会迫使使用96个EcoRI+2弓I物和1个Msel+3引物。使用EcoRI弓|物进行TailPCR,以P5桥PCR引物序列作为tail.以SephadexTM柱纯化产物。测定并标准化其浓度,并生成文库。对文库进行基于Solexa技术的大规模平行测序包括桥PCR扩增和测序,然后是数据处理以测定亲本和子代的基因型。另外一种替代情况不使用tailPCR,而是使用磷酸化的EcoRI+2引物。由于与最初的接头错配,扩增程序中的退火温度递减3摄氏度至62-53摄氏度的13个循环,然后以53摄氏度进行23个循环。接头与P5桥PCR序列连接后,以P5和P7桥PCR弓I物进行PCR。第二种替代情况是基于标准模板制备,如以上所描述,以选择性(预)扩增来降低复杂性。选择性扩增以含有再生的EcoRI和Msel限制性位点的引物进行。这允许在测序之前除去接头序列,因此减少待分析的数据量。以SephadexTM柱纯化产物以除去剩余的TaqDNA聚合酶。在模板制备中,(再生位点)接头序列被增加十倍的EcoRI接头和EcoRI酶的Solexa接头所取代,以补偿相对于基因组DNA来说增加的EcoRI位点数目。SolexaEcoRI接头同样含有标签,因此,需要96个标记的SolexaEcoRI接头。接头的末端链在其3'端被阻断(在本例中被3'氨基),以阻隔通过聚合酶进行的延伸。以P5和P7桥PCR引物进行PCR。以Qiagen柱纯化产物。基于序列的对AFLP片段的检测以Solexa的ClonalSingleMoleculeArray(CSMATM)技术进行,它是一个能够在一个单独序列运行中分析多达40,000,000个体片段的合成测序平台。实验程序包括AFLP模板制备,选择性(AFLP)扩增,单分子桥扩增,以及对来自AFLP片段的一个限制性酶末端的成千上万个序列标签的测序。玉米亲本系B73和Mo17以及87个重组近亲繁殖系(RILs)被使用及测序,超过8,900,000个EcoRIAFLP片段末端被测序,以为基于序列的AFLP检测提供原理循证。选择了亲本系B73和Mo17以及87个RILs。AFLP模板以限制性酶组合EcoRI/Msel进行。选择性扩增以+2/+3AFLP引物进行。SolexaCSMA桥扩增的模板片段以含有唯一的5bp样品身份(ID)标签序列的EcoRI接头进行第二个限制性消化/连接来制备。亲本系和3个RIL样品以不同的5bp样品ID标签进行两次,以测定实验内的重复性。基于序列的AFLP标记通过提取从B73和Mo17的不同频率处观测到的27bp的序列标签,以及RIL子代的分离来鉴定。将基于序列的AFLP标记数据与通过传统AFLP指纹图谱所获得的AFLP标记分析进行比对,后者利用了四个相应引物EcoRI/Msel+3/+3组合的基于长度的检测。5个流动细胞中序列运行统计产生的序列标签的数目具有已知样品ID的序列标签的数目具有己知样品ID的不同的序列标签的数目产生的序列数据的数目(Mbp)每个样品的总序列标签数目的频率范围序列标签AFLP标记的数目亲本分析中出现的序列标签AFLP标记的频率范围序列标签AFLP标记的定义和记录-把代表每个样品的序列标签制成表格-除去带有未知样品ID的序列标签-基于每个样品的总序列标签,对样品代表进行标准化-除去在亲本两个重复中频率差异大于二倍的序列标签-对亲本两个重复的标签取平均值-如果Pl/P2超过阙值,定义序列标签AFLP标记-分析RIL子代中序列标签标记是否存在8,941,4078,029,595206,758241.455,374-112,52712590-17,218<formula>formulaseeoriginaldocumentpage23</formula><table>tableseeoriginaldocumentpage24</column></row><table>基于存活性序列的AFLP标记检测以Solexa的CSMA技术产生,其中,相对于传统的平板凝胶,使用基于序列的检测记录了很大数目的AFLP标记,大概是由于改进的分辨率(片段大小)以及可以捕获低丰度片段的深度测序。标记数据载体对比揭示出,基于序列的检测和平板凝胶检测有相似的分离式样一致性的证据仍需对基于凝胶的AFLP标记进行测序。权利要求1.一种鉴定样品中限制性片段的方法,包括的步骤为(h)提供核酸样品;(i)以至少一种限制性内切酶消化该样品以获得一套限制性片段;(j)提供双链的合成接头,其包括-5’端引物兼容序列,-样品特异性鉴别子部分,-与限制性内切酶的识别序列的剩余部分互补的部分;(k)将该双链的合成接头连接至该套限制性片段,以提供一套与接头相连的限制性片段;(1)以一个或多个引物扩增此套与接头相连的限制性片段,引物至与以下互补——样品特异性鉴别子部分,——与限制性内切酶的识别序列的剩余部分互补的部分,以提供扩增的、与接头相连的限制性片段(扩增子amplicons);(m)测定至少该样品特异性鉴别子部分的序列,限制性内切酶的识别序列的剩余部分的序列,与其临近的限制性片段部分序列,以及扩增的、与接头相连的限制性片段的(部分)序列;(n)鉴定样品中扩增的、与接头相连的限制性片段是否存在。2.根据权利要求1所述的方法,其中该限制性片段是分子标记。3.根据权利要求2所述的方法,其中该分子标记是AFLP标记。4.根据权利要求1所述的方法,其中比较两个或更多的样品以确定是否存在限制性片段和/或分子标记。5.根据权利要求1所述的方法,其中在连接接头的步骤之后,两个或更多的样品被混合在一个文库中。6.根据权利要求5所述的方法,其中对于文库中的每个样品,使用与该文库中的其它样品特异性鉴别子不同的样品特异性鉴别子。7.根据权利要求1所述的方法,其中该引物在3'端含有一个或多个选择性核苷酸。8.根据权利要求1所述的方法,其中该限制性内切酶是n类限制性内切酶。9.根据权利要求1所述的方法,其中该限制性内切酶是IIs类限制性内切酶。10.根据权利要求1所述的方法,其中使用了两个或更多的限制性内切酶。11.根据权利要求1所述的方法,其中该测序通过高通量测序方式进行。12.根据权利要求8所述的方法,其中该高通量测序在固体支持物上进行。13.根据权利要求8所述的方法,其中该高通量测序基于合成测序。14.根据权利要求8所述的方法,其中该高通量测序包括的步骤为-将扩增子或与接头相连的限制性片段退火至珠子,每个珠子与一个单独的与接头相连的限制性片段或扩增子退火;-将珠子在油包水微反应器中乳化,每个油包水微反应器包含一个单独珠子;-进行乳滴PCR以扩增珠子表面上的与接头相连的限制性片段或扩增子;-可选地,选择/富集含有扩增的扩增子的珠子;-将珠子置入孔中,每个孔包含一个单独珠子;和-通过产生焦磷酸盐信号,测定该扩增的、与接头相连的限制性片段或扩增的扩增子的核苷酸序列。15.根据权利要求8所述的方法,其中所述高通量测序包括的步骤为-将与接头相连的限制性片段或扩增子退火至分别含有第一和第二引物,或者第一和第二引物结合序列的表面;-进行桥扩增以提供多簇扩增的、与接头相连的限制性片段或扩增的扩增子;-用标记的可逆终止子核苷酸测定该扩增的、与接头相连的限制性片段或该扩增的扩增子的核苷酸序列。16.根据权利要求1所述的方法,其中该鉴别子为4-16bp,优选为4-10bp,更优选为4-8bp,最优选为4-6bp。17.根据权利要求13所述的方法,其中该鉴别子不含两个或更多的连续相同的碱基。18.根据权利要求13所述的方法,其中对于两个或更多的样品,对应的鉴别子含有至少两个不同的核苷酸。19.鉴定分子标记的方法在基因分型,集合分离体分析,基因定位,标记辅助的回交,数量性状位点定位,连接不均衡定位中的应用。20.包含如权利要求1所定义的一个或多个引物的试剂盒。21.包含如权利要求1所定义的一个或多个接头的试剂盒。22.包含如权利要求1所定义的引物和接头的试剂盒。全文摘要本发明涉及一种鉴别和检测分子标记的高通量方法,其中限制性片段被生成,合适的包含(样品特异性)鉴别子的接头被连接。与接头相连的限制性片段可通过在3’端携带选择性核苷酸的、接头兼容性引物进行选择性扩增。经扩增的与接头相连的限制性片段经高通量测序方法(至少部分)测序,限制性片段的序列部分和样品特异性鉴别子作为分子标记。该高通量方法将AFLP(扩增片段长度多态性)方法和高通量测序技术结合起来。文档编号C12Q1/68GK101432438SQ200780010416公开日2009年5月13日申请日期2007年4月4日优先权日2006年4月4日发明者M·J·T·范艾吉克,R·C·J·赫格思申请人:凯津公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1