用于基于aflp的高通量多态性检测的方法

文档序号:433123阅读:225来源:国知局

专利名称::用于基于aflp的高通量多态性检测的方法
技术领域
:本发明涉及分子生物学和和遗传学领域。本发明涉及快速发现、检测和大规模基因分型核酸样品中或样品之间的多态性。鉴定的多态性可用作遗传标记。
背景技术
:科学的、特别是医学的团体长期期望研究基因组DNA。基因组DNA在鉴定、诊断和治疗疾病比如癌症和阿尔茨海默病中起关键作用。除了疾病鉴定和治疗之外,基因组DNA的研究可在植物和动物繁夕直努力中提供重要的优点,其可提供世界上对食品和营养品问题的答案。已知许多疾病与特定的遗传组分、特别地与特定基因中的多态性相关。目前,大样品比如基因组的多态性的鉴定是一项艰巨和耗时的工作。然而,这样的鉴定对领域比如生物医学研究、开发药品、组织分型、基因分型和人口研究有很大的价值。标记,即遗传标记,已被用作遗传分型方法很长时间,即将表型性状同DNA(基因)的特定部分的存在、不存在或量相连接。最多用途的遗传分型技术之一是AFLP,其已经使用了许多年,广泛适用于任何生物体(对于综述,参见Savelkouleffl/.,J.Clin.Microbiol,1999,37(10),3083-3091;Benschef"/■,MolecularEcology,2005,14,2899-2914)。从AFLP技术在九十年代初期发明以來,已经发现AFLP技术(Zabeau&Vos,1993;Vos等人,1995)广泛用于植物育种及其它领域。这应归于AFLP的一些特征,其中最重要的是不需要现有序列信息以可重现的方式产生大量遗传标记。而且,选择性扩增(AFLP的基石)的原理保证了可以使扩增片段的数量符合检测系统的分辨率,与基因组大小或来源无关。AFLP片段的检测通常通过在平板-凝胶上的电泳(Vos等人,1995)或毛细管电泳(vanderMeulen等人,2002)进行。以这种方式评分的大多数AFLP标记表示(单一核苷酸)存在于用于AFLP模板制备的限制性内切酶识别位点或选择性AFLP引物覆盖的其旁侧核苷酸(flankingnucleotides)的多态性。其余的AFLP标记为在限制性片段的内部序列中出现的插入/缺失多态性和在小的限制性片段(<约100bp)中出现的单核苷酸取代的非常小的部分,对于这些片段,其可引起在两个等位基因之间可重现的迁移率变化;这些AFLP标记能被共显性地(co-dominantly)评分而不用必须依赖于带的强度。因此,在典型的AFLP指纹图谱中,所述AFLP标记占扩增片段的小部分(小于50百分比,但通常小于20百分比),而其余的通常被称为恒定的AFLP片段。然而,后者在凝胶评分过程中有用,因为它们起用于计算AFLP标记的片段迁移率和辅助定量用于共显性评分的标记的定位点的作用。目前,AFLP标记的共显性评分(纯合性或杂合性评分)只限于采集分离种群指纹的范围中。在没有联系的系的小组中,仅仅显性评分是可能的。尽管由于在扩增和检测步骤中高倍增水平引起AFLP的通量非常高,速率限定步骤是电泳的分辨力。基于限制性内切酶组合(EC)、引物组合(PC)和迁移率,电泳允许独特鉴定大多数扩增片段,但理想地,所述检测系统应当能够测定扩增片段的全部序列以获得所有的多态性。通过测序代替迁移率测定的检测将增加通量,因为1)将在大多数(或所有的)扩增片段中检测到位于内部序列的多态性;这将相当大地增加每个PC标记的数量。2)S"于AFLP标记和恒定的条带的共迁移不会引起AFLP标记损失。3)共显性评分不依赖于定量带强度,且与个体指纹图谱的亲缘关系无关。迄今为止,通过测序检测AFLP标记/序列还不是经济可行的,因为,包括其它的限制,Sanger双脱氧法测序技术及其它常规测序技术的费用限制。因此,本发明的一个目标是提供基于测序來检测AFLP标记物或其它的遗传标记比如SNP标记的经济可行的方法。与经由用于基因分型(即沴断)目的的测序来检测许多包含AFLP或SNP的片段进一歩相关的重要问题是抽样变异问题。特别地,这指当分析许多片段和没有观察到特定片段时,人们不得不确定这不是由于没有在检测歩骤中抽样涉及的片段,尽管它们存在于所述片段混合物中,因为这将引起标记的假阴性评分。该限制不能应用到电泳检测,因为在凝胶上位置信息是有用的。因此,本发明的进一步的目标之一是提供解决抽样变异问题或至少减少由抽样变异引起的误差至可接受的最少值的方法。
发明内容本发明人已经发现在用于髙通量测序的某些调整的步骤中借助于AFLP的测序可以检测AFLP和SNP标记。因此,本发明提供方法或策略,其组合AFLP的功效和一般适用性与某些高通量测序技术以建立一般可适用的多态性评分系统。在该策略中,也解决了抽样变异的问题,确保基因分型具有高精确度和最佳化数据集具有最少量的遗漏基因分型的概率。定义在下述说明书和实施例中,使用了许多术语。为了提供对包括这类术语给出的范围的说明书和权利要求书清楚一致的理解,提供下述定义,除非本文另有定义,使用的所有技术和科学术语具有如本发明所属领域技术人员通常理解的相同的含义。将所有出版物、专利申请、专利及其它参考文献公开的内容以其全部引入本文作为参考。多态性多态性指在种群中存在核苷酸序列的两种或多种变体。多态性可包括一个或多个碱基变化、插入、重复或缺失。多态性包括例如单一序列重复(SSR)和单一核苷酸多态性(SNP),其为当单一核苷酸腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)或鸟嘌呤(G)被改变时出现的变异。变异通常必须出现在至少1%的种群中才被认为SNP。SNP构成例如卯%的所有人类遗传变异,且沿着人类基因组的每100至300个碱基出现。每三个SNP中两个用胸腺嘧啶(T)取代了胞喷啶(C)。在例如人类或植物的DNA序列中的变异可以影响它们怎样处理疾病、细菌、病毒、化学品、药物等。核酸根据本发明的核酸可包括任何啼啶和嘌呤碱基的聚合物或低聚物,所述碱基分别优选胞嘧啶、胸腺嘧啶和尿嘧啶,和腺嘌呤及鸟嘌呤(参见,AlbertL.Lehninger,尸〃"c(p/ej0/历oc/1e;msfry,at793-800(WorthPub.1982),将其全部内容引入本文作为参考用于所有目的)。本发明考虑了脱氧核糖核苷酸、核糖核苷酸或肽核苷酸组分,和其任何化学变体,比如这些碱基的甲基化的、羟甲基化的或糖基化的形式等。所述聚合物或低聚物在组成上可以是异源的或同源的,且可以是从天然存在的来源分离的或可以是人工或合成产生的。而且,所述核酸可以是DNA或RNA或其混合物,且其可以以单链或双链形式永久或瞬间存在,所述双链形式包括同源双链、异源双链和杂交体状态。复杂性降低术语复杂性降低用于表示其中核酸样品比如基因组DNA的复杂性通过产生样品亚型而降低。该亚型可以是整体(即复合物)样品的代表,且优选可重现的亚型。可重现的在本文中指当使用相同方法降低相同样品的复杂性时,获得相同的或至少可比较的亚型。用于复杂性降低的方法可以是本领域己知的用于复杂性降低的任何方法。用于复杂性降低的方法的优选的实例包括例如AFLP(KeygeneN.V.,荷兰参见例如EP0534858、US6045994),Dong公开的方法(参见例如WO03/012118、WO00/24939),索引的链接(indexedIking)(Unrau等人,见下文),接头-PCR(linker-PCR)(WO90/008821)和SALSA-PCR(WO00/23620)Schouten等人)等。本发明使用的复杂性降低法具有它们是可重现的共同点。可重现的指当相同样品以相同方式降低复杂性时,获得样品的相同亚型,与更随机的复杂性降低比如显微切割或使用mRNA(cDNA)相反,所述mRNA代表了在选择的组织中转录的基因组部分,且其重现性取决于组织的选择、分离时间等。AFLP:AFLP指用于选择性扩增DNA的方法,其基于用一种或多种限制性内切酶消化核酸以提供限制性片段,连接接头(adaptors)至限制性片段,并用至少一个引物扩增所述接头-连接的限制性片段,所述引物与所述接头(部分)互补,(部份)互补于限制性内切酶的剩余部分,且进一歩包含至少一个从A、C、T或G(或U,视情况而定)中随机选择的核苷酸。AFLP不需要任何现有的序列信息,且可以在任何起始DNA上进行。通常,AFLP包括下述步骤(a)用一种或多种特异性限制性内切酶消化核酸,特别是DNA或cDNA,以将DNA片段化成相应系列的限制性片段;(b)连接由此得到的限制性片段与双链的合成寡核苷酸接头,其中一个末端适合于限制性片段的一个或两个末端,从而生成接头-连接的、优选标记的、起始DNA的限制性片段;(c)在杂交条件下,将一个或多个在其3'-末端包含选择性核苷酸的寡核苷酸引物接触接头-连接的、优选标记的限制性片段;(d)通过PCR或类似的技术扩增与引物杂交的接头-连接的、优选标记的限制性片段,以便进一步使杂交的引物沿着起始DNA的限制性片段与引物杂交的方向伸长;和(e)检测、鉴定或回收由此获得的扩增的或伸长的DNA片段。因此,AFLP提供接头-连接的片段的可重现的亚型。AFLP公开在EP534858、US6045994和在Vos等人文章中。参照这些出版物可进一步了解关于AFLP的细节。AFLP通常用作复杂性降低技术和DNA指纹图谱技术。在AFLP作为指纹图谱技术的用途的内容中,巳经发展了AFLP标记的概念。AFLP标记AFLP标记是扩增的接头-连接的限制性片段,其在使用AFLP(指纹图谱)、使用相同类的引物扩增的两种样品间不同。因而,可将存在或不存在该扩增的接头-连接的限制性片段作为与性状或表型相关的标记。在常规凝胶技术中,AFLP标记显示为以一定的迁移率位于凝胶中的条带。其它的电泳技术比如毛细管电泳可能不将此表示为条带,但该概念仍相同,即具有一定长度和迁移率的核苷酸。存在或不存在条带可以指示(或与其相关)存在或不存在表型。AFLP标记典型地包括在内切核苷酸酶限制位点中的SNP或选择性核苷酸。有时,AFLP标记可包括在限制性片段中的indel。SNP标记SNP标记为基于在某一位点鉴定的单核苷酸多态性的标记。SNP标记可以位于与AFLP标记相同的位置,但是SNP标记也可以位于限制性片段本身中。因而,SNP标记属包括AFLP标记种。恒定的条带在AFLP技术中恒定的条带为扩增的接头-连接的限制性片段,其在样品之间相对不变。因此,在AFLP技术中恒定的条带将在样品范围内表现在凝胶中大约相同位置,即具有相同的长度/迁移率。在常规AFLP中,这些典型地用于固定相应于凝胶中样品的泳道或用毛细管电泳检测的多种AFLP样品的电泳图谱。典型地,恒定的条带比AFLP标记提供的信息更少。然而,因为AFLP标记惯常包括在选择核苷酸或限制性位点中的SNP,恒定的条带可包括在限制性片段本身中的SNP,导致恒定的条带成为与AFLP标记互补的遗传信息的感兴趣的另一个来源。选择性碱基位于引物的3'末端,其包含与接头互补的部分,和与限制性位点的剩余部分互补的部分,所述选择性碱基随机选自A、C、T或G。通过用选择性碱基延伸引物,随后的扩增将仅获得接头-连接的限制性片段的可重现的亚型,即仅有可以使用含有所述选择性碱基的引物扩增的片段。可以将数目在1至10之间改变的选择性核苷酸加入到引物的3'末端。典型地,14足够了。两种引物均可包含可变数量的选择性碱基。通过每一个加入的选择性碱基,亚型以大约4的因子降低了亚型中扩增的接头-连接的限制性片段的量。典型地,在AFLP中使用的选择性碱基的数量由+N+M表示,其中一个引物载有N个选择性核苷酸,而另一个引物载有M个选择性核苷酸。因此,Eco/Mse+1/+2AFLP为如下的速记:用EcoRI和Msel消化起始DNA,连接适合的接头,并用一个定向到载有一个选择性碱基的EcoRI限制性位点的引物和另一个定向到载有2个选择性核苷酸的Msel限制型位点的引物扩增。聚簇分析术语"聚簇分析"指基于同样或类似核苷酸的短的或长的片段的存在比较两种或多种核苷酸序列。用于比对核苷酸序列的几种方法是本领域已知的,如下述进一步阐述的。有时,术语"装配"或"比对"作为同义词使用。标记可以加入到引物或包括在其序列或用作标记以提供独特标识符的短序列。这样的序列标识符可以是可变但确定长度的独特碱基序列,其特别地用于鉴定特定的核酸样品。例如,4bp标记允许4(4次方)=256个不同的标记。典型的实例为ZIP序列,其为本领域已知的通常用于杂交的独特检测的标记(IannoneWfl/.,Cytometry39:131-140,2000)。使用这样的标记,可以通过进一歩的加工确定PCR样品的起点。在组合来源于不同核酸样品的加工产物的情况中,通常使用不同的标记鉴定不同的核酸样品。在本发明的情况下,加入独特序列标记有助于鉴定序列扩增产物群中个体植物的配位。可以使用多个标记。标记术语标记指将标记加入到核酸样品中,以便能够使其与第二个或进一步的核酸样品区别。标记可以例如通过在复杂性降低期间加入序列标识符或通过本领域已知的任何其它方式进行。这样的序列标识符可以例如是可变但确定长度的独特碱基序列,其特别地用于鉴定特定的核酸样品。其典型的实例是例如ZIP序列。使用这样的标记,可以通过进一歩的加工确定样品的起点。在组合来源于不同核酸样品的加工产物的情况中,应当使用不同的标记鉴定不同的核酸样品。标记的文库术语标记的文库指标记的核酸的文库。测序术语测序指测定核酸样品例如DNA或RNA中核苷酸的顺序(碱基顺序)。髙通量筛选高通量筛选通常縮写为HTS,是用于科学实验的方法,特别地与生物学和化学领域有关。通过组合现代机器人学及其它专门的实验室硬件,其允许研究人员同时有效地筛选大量样品。限制性核酸内切酶限制性核酸内切酶或限制酶为识别双链DNA分子中特定的核苷酸序列(目标位点),并且将在每个目标位点切割DNA分子双链的酶。限制性片段由限制性核酸内切酶消化产生的DNA分子被称为限制性片段。任何给出的基因组(或核酸,不考虑其起源)都将被特定的限制性核酸内切酶消化成分离的限制性片段。甶限制性核酸内切酶裂解得到的DNA片段可以进一步用于各种技术,并可以例如用凝胶电泳检测。凝胶电泳为了检测限制性片段,可能需要基于大小的分级双链DNA分子的分析方法。用于获得这样的分级最通常使用的技术是(毛细管)凝胶电泳。DNA片段在这样的凝胶中运动的速率取决于其分子量;因此,当片段长度增加时移动距离减少。如果包括在图像中的片段的数量足够少,可以通过染色步骤例如银染色法或使用溴乙锭染色直接显影由凝胶电泳分级的DNA片段。DNA片段的可选地进一步的处理包括片段中可检测的标签,比如荧光团或放射性标签。连接由其中两个双链DNA分子共价结合在一起的连接酶催化的酶促反应被称为连接。通常,两个DNA链共价结合在一起,但也有可能通过化学或酶修饰所述链的一个末端阻止了两个链中一个的连接。在那种情况下,共价结合将仅仅出现在两个DNA链的一个中。合成寡核苷酸可以化学合成的、具有优选约10至约50个碱基的单链DNA分子被称为合成寡核苷酸。通常,这些合成DNA分子被设计成具有独特或期望的核苷酸序列,尽管有可能合成具有相关序列的分子家族,并且其在核苷酸序列内特定位置具有不同的核苷酸组分。术语合成寡核苷酸通常用来指具有设计的或期望的核苷酸序列的DNA分子。接头具有有限碱基对的短双链DNA分子,例如长度为约10至约30个碱基对,如此设计使其可以连接到限制性片段的末端。接头通常由两个具有彼此部分互补的核苷酸序列的合成寡核苷酸组成。当在适当条件下的溶液中混合所述两个合成寡核苷酸时,它们将彼此退火形成双链结构。在退火后,接头分子的一个末端被设计成使其适合限制性片段的末端,且可以与其连接;接头的另一个末端被设计成使其不能连接,但这不必是所述的情况(双连接的接头)。接头-连接的限制性片段已经被接头封端(c叩ped)的限制性片段。引物通常术语引物指可以启动DNA合成的DNA链。DNA聚合酶不能在没有引物下新合成DNA:其只能延伸反应中的现有DNA链,其中互补链用作模板以指导要装配的核苷酸顺序。我们指在聚合酶链式反应(PCR)中作为引物的合成寡核苷酸分子。DNA扩增术语DNA扩增典型地用于表示使用PCR体外合成双链DNA分子。请注意,存在其它扩增方法,它们可以用于本发明中而不背离其要旨。选择性杂交涉及在严格的杂交条件下的杂交,在所述杂交条件下,核酸序列杂交至特定核苷酸目标序列比其杂交至非目标核苷酸序列到可检测的更大程度(例如,至少是背景的2倍)并到基本排除非目标核酸序列的程度。术语"严格条件"或"严格的杂交条件"包括提到的在其中将探针杂交至其目标序列比杂交至其它序列的可检测的程度更大(例如,是背景的至少2倍)的条件。严格条件是依赖序列的,其在不同的环境中不同。通过控制杂交和/或洗涤条件的严格性,可以识别与探针100%互补(同源探测)的目标序列。可选地,可以调节严格条件以允许序列中的某些错配以便检测到较低的相似度(异源探测)。通常,探针小于约100个核苷酸长度,任选地仅仅50或25个核苷酸长度。典型地,严格条件为其中盐浓度为在pH7.0至8.3下小于约1.5MNa离子,典型地约0.01至1.0MNa离子浓度(或其它盐),和对于短探针(例如10至50个核苷酸)温度为至少约30",和对于长探针(例如大于50个核苷酸)温度为至少约60X:的那些。严格条件也可以通过加入不稳定剂(destabilisingagent)比如甲酰胺获得。示例性的低严格条件包括在37^的30至35%甲酰胺、1MNaCl、1%的SDS(十二烷基硫酸钠)的缓冲溶液中杂交和在50至55"C的1*至2*SSC(20*SSC=3.0MNaC1/0.3M柠檬酸钠)洗涤。示例性的中等严格条件包括在37"的40至45%甲酰胺、1MNaCl、1%SDS中杂交和在55至60"C的0.5*至1*SSC中洗涤。示例性的高;^格条件包括在37"的50%甲酰胺、1MNaCl、1%SDS中杂交和在60至65'C的0.1*SSC中洗涤。特异性是典型地杂交后洗涤的功能,关键因素是后期洗涤溶液的离子强度和温度。对于DNA-DNA杂交体,Tm可以近似来自MeinkothandWahl,Anal.Biochem.,138:267-284(1984)的等式Tm=81.5"+16.6(logM)+0.41(%GC>0.61(。/o甲酰胺)-500/L;其中M为一价阳离子的摩尔浓度,%GC为鸟苷和胞嘧啶核苷酸在DNA中的百分数,%甲酰胺为甲酰胺在杂交溶液中的百分数,和L为碱基对中杂种的长度。Tm为其中50%的互补目标序列杂交至完全匹配的探针的温度(在确定的离子强度和pH下)。对于1%的错配,Tm降低了约ir;因此,可以调节Tm、杂交和/或洗涤条件以杂交到具有期望同一性的序列。例如,如果寻求具有>卯%同一性的序列,Tm可以降低l(TC。通常,对于特定的序列及其补链,在确定的离子强度和pH下,选择严格条件为比热熔点(Tm)低约5"。然而,非常严格条件可以利用比热熔点(Tm)低1、2、3或4C的杂交和/或洗涤;中等严格条件可以利用比热熔点(Tm)低6、7、8、9或10'C的杂交和/或洗涤;低严格条件可以利用比热熔点(Tm)低ll、12、13、14、15或20'C的杂交和/或洗涤。使用该等式、杂交和洗涤组合物和期望的Tm,普通技术人员将理解杂交和/或洗涤溶液的严格性方面的变化是固有描述的。如果期望的错配度引起小于45'C沐溶液)或32"(甲酰胺溶液)的Tm,则优选增加SSC浓度以便可以使用较髙的温度。核酸杂交的广泛指导可在lessen,LaboratoryTechniquesinBiochemistiyandMolecularBiology-HybridisationwithNucleicAcidProbes,Part1,Chapter2"Overviewofprinciplesofhybridisationandthestrategyofnucleicacidprobeassays",Elsevier,N.Y.(1993);和CurrentProtocolsinMolecularBiology,Chapter2,Ausubel,etal.,Eds,GreenePublishingandWiley-Interseience,NewYork(1995)中找到。图1A:显示了根据本发明的退火到珠粒('454珠粒')上的片段和用于预扩增两个胡椒系的引物的序列。'DNA片段'表示在用限制性核酸内切酶消化后得到的片段,'主基因接头'表示为用于产生文库的(磷酸化的)寡核苷酸引物提供退火位点的接头,'KRS'表示标识符序列(标记),'454SEQ接头'表示测序接头,和'454PCR接头'表示允许乳剂扩增(emulsionampl迅cation)DNA片段的接头。所述PCR接头允许退火至珠粒和扩增,其可包含3'-T突出。图1B:显示了用在复杂性降低步骤中的引物示意图。这样的引物通常包括如(2)指示的识别位点区域、如(1)指示的可包括标记区的恒定区和如(3)指示的在其3'-术端的选择性区域中的一个或多个选择性核苷酸。图2:显示了使用2o/。琼脂糖凝胶-电泳的DNA浓度评价。S1表示PSP11;S2表示PI201234。50、100、250和500ng分别表示用于评价Sl和S2的DNA数量的50ng、100ng、250ng和500ng。图2C和2D显示了使用Nanodrop分光光度法的DNA浓度测定。图3:显示实施例3的中间体质量评价的结果。图4:显示了序列数据加工流水线的流程图,即自测序数据产生到推定的SNP、SSR和indel的鉴定的步骤,经由在整理&标记中除去己知序列信息的步骤,通过该步骤得到整理的序列数J&在聚簇分析和装配所述数据以得到重叠群和单元素(重叠群中不能装配的片段)后鉴定和评价推定的多态性。图4B进一步详述了采集(mining)多态性的方法。图5:显示了包含推定的单核苷酸多态性(SNP)的胡椒AFLP片段序列的多重对比"10037-CL989contig2"。请注意,SNP(用黑箭头表示)由存在于样品1(PSP11)的两个阅读(read)中的A等位基因和样品2(PI201234)中存在的G等位基因定义,样品1由名为顶端两个阅读的MS1标记的存在表示,样品2由名为底端两个阅读的MS2标记的存在表示。阅读名称显示在左面。该多重对比的共有序列为(5'-3'):TAACACGACTTTGAACAAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACA[A/G]TGTTGGTTTTGGTGCTAACTTCAACCCCACTACTGTTTTGCTCTATTTTTG。图6:显示了基于观察到的每个基因座的阅读的数量的基因型正确分类概率的图示。具体实施例方式在第一个方面,本发明涉及用于高通量发现、检测和大规模基因分型一个或多个样品中一种或多种遗传标记的方法,其包括下述步骤(a)提供来自一种或多种样品的DNA;(b)用至少一种限制性内切酶限制DNA以产生限制性片段;(c)连接接头与限制性片段,产生接头-连接的限制性片段;(d)任选地,用至少与接头互补的引物对扩增接头-连接的限制性片段,产生预扩增的接头-连接的限制性片段;(e)用引物对扩增(任选地预扩增的)接头-连接的限制性片段,其中至少一个引物包含在引物5'端的标识符标记,以为每个样品产生接头-连接的限制性片段的标记扩增亚型文库;(f)任选地,集中来源于多个样品的文库;(g)使用高通量测序技术测序该文库;(h)使用标识符标记聚簇分析每个文库的序列;(i)通过比较文库内和/或文库之间聚簇分析的序列鉴定遗传标记。(j)测定一个或多个文库中遗传标记的(共)显性的基因型,优选地对于所有的样品和对于所有鉴定的标记。所述方法涉及发现、检测和基因分型一个或多个样品中的一个或多个遗传标记。在某些实施方案中,所述方法涉及目标遗传标记的有/没有评分。在某些实施方案中,所述方法涉及测定一个或多个样品的(共)显性的基因型的一个或多个遗传标记。这可能需要标准化观察到的样品之间标记-或标记等位基因序列的数量。在所述方法的第一个步骤(a)中,提供DNA。这可通过本领域本身已知的方法完成。通常使用本领域常见的方法获得DNA的分离,所述方法比如从种群成员收集组织、DNA萃取(例如使用Q-Biogene快速DNA试剂盒)、定量和标准化以获得每种试样等量的DNA。所述DNA可以来自各种来源(基因组、RNA、cDNA、BAc、YAC等)和生物体(人类、哺乳动物、植物、微生物等)。可以混合集中分离的DNA。所述DNA在步骤(b)中使用至少一种限制性核酸内切酶限制。根据情况,即基因组的大小,可以使用更多的核酸内切酶。在某些实施方案中,可以使用两种或多种核酸内切酶。对于大多数基因组,2种核酸内切酶足够了,因此,2种是最优选的。在某些实施方案中,特别是对于大的或复杂的基因组,可以使用更多核酸内切酶。优选地,核酸内切酶提供约为250-500bp的相对短的限制性片段,但这不是必需的。典型地,至少一种常见切割核酸内切酶是优选的,即具有4或5个碱基对识别序列的核酸内切酶是优选的。一种这样的酶是Msel,但大量其他的是市售可获得的,且可以使用。可以使用切割其识别序列外部的酶(IIs类型),或者提供平末端限制性片段的酶。优选的组合使用一种少见的(6个和更多个碱基对识别序列,例如EcoRI)和一种常见的切割酶。在限制所述混合集中的DNA后或者与其同时,将接头连接至所述限制性片段以提供接头-连接的限制性片段。可以使用一个或多个不同的接头,例如两个接头,一个正向接头,一个反向接头。可选地,对于所有的片段可以使用一个接头,或者可以使用一组接头,其在所述接头的突出端包含核苷酸变换以便提供索引接头(indexinglinkers),其可允许用于预选择步骤(U加auetal.,Gene,1994,145,163-169)。可选地,在平末端限制片段的情况下,可以使用平末端接头。接头-连接是本领域所熟知的,且尤其公开在EP534858中。AFLP技术的一个有用的变体使用非选择性核苷酸(即+0/+0弓|物),其有时称为接头PCR。如同SalsaPCR—样,通过利用限制性内切酶提供选择步骤,不同的限制性内切酶获得不同的亚型。这有时也表示为预扩增,其中使用至少与所述接头互补且任选地也与所述限制性核酸内切酶的识别序列剩余部分互补的引物。预扩增可有助于(进一步)标准化来自各个样品的DNA的量,或增加DNA的总量以允许多种分树即分开样品)和增加信噪比。预扩增也可用于引入允许在选择性扩增之前混合集中的标记。通过在引物的5'末端引入核苷酸标记(例如4bp),可以标记用于不同样品的限制性片段,并且在该过程结束时可以通过使用标记来检索。在任选的预扩增之后,在本发明方法的i^骤(d)中用一对引物扩增接头-连接的限制性片段。引物之一与所述接头的至少部分互补,且可进一步与所述核酸内切酶的识别序列剩余的部分互补,和可进一歩包含在其3'末端的(随机选择的)选择性核苷酸,与在EP534858中公开的类似。优选地,所述引物能够在严格杂交条件下选择性杂交。与上述类似,所述选择性扩增也可以用载有5'标记的引物进行,以鉴别所述样品的来源。结果是扩增的接头-连接的限制性片段的(标记的)亚型的文库。此时,可以任选地混合集中由多个样品制备的文库中的选择性扩增的片段。这可能对寻求对某些组的样品特异性的标记有用,比如共享某些表型特征的那些。筛选混合集中的样品通常称为分组分析法(BSA;Michelmore,Paran和Kesseli,1991)。在某些实施方案中,还可以在采样阶段的DNA提取之前进行混合集中,减少DNA制品的数量。在PCR扩增之前,DNA的混合集中进一步有助于标准化DNA,以提供在用于测序文库中更平等的表示法(representation)。现在,使用高通量测序技术测序选择性扩增的接头-连接的限制性片段的,任选混合集中的文库。测序可以基本上通过本领域已知的任何方法进行,所述方法比如双脱氧链终止法(Sanger测序)。然而,优选和更有利地是使用高通量测序方法进行测序,比如在WO03/0046卯、WO03/054142、WO2004/069849、WO2004/070005、WO2004/070007和WO2005/003375(所有的名称都为454LifeSciences)、Seoetal.(2004)Proc.Natl.Acad.Sci.USA101:5488-93中公开的方法和Helios,Solex^美国基因组学的技术等,将其引入本文作为参考。最优选的是使用在WO03/004690、WO03/054142、WO2004/069849、WO2004/070005、WO2004/070007和WO2005/003375(所有的名称都为454LifeSciences)中公开的装置和/或方法进行,将其引入本文作为参考。目前公开的技术允许在单次运行中测序至多4千万个碱基,其比基于Sanger测序和使用现用的毛细管电泳仪器比如MegaBACE(GEHealthcare)或ABI3700(xl)(AppliedBiosystems)的竞争性技术快100倍和更加便宜。这将随着每次反应的阅读长度增加和/或平行反应次数增加而增加。所述测序技术大致包括下述5个步骤l)片段化DNA和连接特定的接头,以建立单链DNA(ssDNA)的文库;2)退火ssDNA至珠粒,在油包水型微型反应器中乳化该珠粒,并进行乳剂PCR以扩增在珠粒上的单个ssDNA分子;3)选择/富集包含在其表面的扩增的ssDNA分子的珠粒;4)在PicoTiterPlate⑧中沉积载有DNA的珠粒;和5)通过产生焦磷酸盐光信号同时在100,000个池中测序。在优选的实施方案中,所述测序包括下述步骤(1)退火测序-接头-连接的片段至珠粒,用单个片段退火每个珠粒(2)在油包水型微反应器中乳化所述珠粒,每个油包水型微反应器包括单个珠粒;(3)进行乳剂PCR以扩增在珠粒表面上的接头-连接的片段;(4)选择/富集包含扩增的接头-连接的片段的珠粒(5)将所述珠粒装填在池中,每个池包括单个珠粒;和(6)产生焦磷酸盐信号。在第一个步骤(l)中,将存在于所述接头连接的限制性片段中的接头退火到珠粒。如本文上述公开的,测序接头包括至少用于退火至珠粒的"关键"区域、测序引物区域和PCR引物区域。特别地,现在,扩增的接头-连接的限制性片段在其一个末端包含下述序列5'-序列引物结合位点一标记-*0仗引物序列-3',而在其另一个末端存在可以是如下的片段5'-珠粒退火序列一标记一接头特定的序列…限制性位点-特定的序列(任选的)一(随机)选择性序列(任选的)-3'。清楚地,序列引物结合位点和珠粒退火序列可以互换。现在,可以使用该珠粒退火序列退火片段至珠粒,该珠粒在该末端载有核苷酸序列。因此,将修改的片段退火至珠粒,用单个修改的片段退火每个珠粒。向修改的片段的池中加入过量的珠粒以确保对于大多数珠粒而言每个珠粒有单个修改的片段退火(泊松分布)。在优选的实施方案中,为了进一步增加筛选的效率,将PCR产物直接扩增到用于测序的珠粒上是有益的。这可以用接头-加尾的PCR引物进行PCR来实现,所述PCR引物中在MseI(或其它限制性内切斷侧的接头的一个链与结合至所述序列珠粒的寡核苷酸互补。在下一步中,在油包水型微型反应器中乳化所述珠粒,每个油包水型微型反应器包括单个珠粒。PCR试剂存在于油包水型微型反应器中,使得PCR反应在微型反应器内发生。接着,破坏所述微型反应器,并富集包括DNA的珠粒(DNA阳性珠粒)。在下一步中,将所述珠粒装填到池中,每个池包括单个珠粒。所述池优选地为PicoTiterTMpiate的一部分,其允许同时测序大量的片段。在加入载有酶的珠粒后,使用焦磷酸测序确定所述片段的序列。在连续歩骤中,在存在常规测序剂下,使PicoTiter"^Plate和所述珠粒以及其中的酶珠粒接受不同的脱氧核糖核苷酸,和在加入脱氧核糖核苷酸时,产生被记录的光信号。加入正确的核苷酸将产生可以检测到的焦磷酸测序信号。焦磷酸测序本身是本领域已知的,且特别地公开在www.biotagebio.com;www.pyrosequencing.com/sectiontechnology中。所述技术进一步应用在如WO03/0046卯、WO03/054142、WO2004/069849、WO2004/070005、WO2004/070007和WO2005/003375(所有的名称都为454LifeSciences)中,将其引入本文作为参考。在测序后,可以整理从所述测序步骤中直接获得的片段的序列,优选电子的,以除去任何珠粒退火序列、测序引物、接头或引物-相关的序列信息。典型地,在己经为任何加入的接头/引物序列进行整理的序列数据d:进行比对或聚簇分析,即,仅仅使用來源于所述核酸样品的片段的序列数据和任选的标识符标记。用于比较目的的比对序列的方法是本领域熟知的。各种程序和比对算法公开在SmithandWaterman(1981)Adv.Appl.Math.2:482;NeedlemanandW咖ch(1970)J.Mol.Biol.48:443;PearsonandLipman(1988)Proc.Natl.Acad.Sci.USA85:2444;HigginsandSharp(l诉8)Gene73:237-244;HigginsandSharp(l诉9)CABIOS5:151-153;Corpetetal.(1988)Nucl.AcidsRes.16:10881-卯;Huangetal.,(1992)ComputerAppl.intheBiosci.8:155-65;和Pearsonetal.(1994)Meth.Mol.Biol,24:307-31,将其引入本文作为参考。Altschuletal.(1994)NatureGenet.6:119-29(弓l入本文作为参考)给出了序列比对方法和同源性计算的详细说明。NCBI基本局部比对搜索工具(BasicLocalAlignmentSearchTool)(BLAST)(Altschul等人,19卯)可以从几个来源获得,包括国家生物信息中心(NCBI,Bethesda^Md.)和因特网,用于与序列分析程序blastp、blasta、blastx、tblasta和tblastx相联系。其可以从〈http://www.ncbi.nlm.nih.gov/BLAST7^tA。如何使用该程序测定序列同一性的说明在<http:〃www.ncbi.nlm.nih,gov/BLAST/blastJielp.html〉可获得。所述数据库优选地包括EST序列,目标种类的基因组序列和/或GenBank的非冗余序列数据库或类似的序列数据库。可以如Shendureetal.,Scfewce,Vol309,Issue5741,1728-1732公开的使用高通量测序方法。其实例为微电泳测序、杂交测序/通过杂交测序(SBH)、对扩增分子的环状阵列测序、对单分子的环状-阵列测序,非环状、单分子、实时方法,比如聚合酶测序、核酸外切酶测序、纳米通道(nanopore)测序。现在可以确定遗传标记和/或对于遗传标记的样品的基因分型在所述文库中的存在。本发明的方法可用于鉴定、检测基因型测定AFLP标记以及用于鉴定、检测和基因分型包含在恒定的条带中的SNP标记。为了提供解决抽样差异问题的方法,该问题影响通过测序包含在多个片段文库中的等位(标记)片段来基因分型遗传标记的准确度,本发明人已发现优选地用足够的冗余度(深度)经由测序进行检测AFLP标记以采样所有扩增的片段至少一次,并通过统计学方式完成,其纠正了与所谓的基因分型的准确度有关的抽样变异的问题。而且,正如AFLP评分一样,在分离群体的内容中,在一个实验中同时评分母体个体将有助于测定统计学阈值,因为样品中所有可能的等位基因将以母体1或母体2评分。值得注意的是提出了抽样母体个体比分离群体的个体具有更髙的冗余度。因此,在某些实施方案中,所述标记的扩增的接头-连接的限制性片段的冗余度为至少6,优选至少7,更优选至少8和最优选至少9。在某些实施方案中,测定每个接头-连接的限制性片段的序列至少6倍,优选至少7倍,更优选至少8倍和最优选至少9倍(fold)。在某些实施方案中,如此选择冗余度,假定正确鉴定所述基因座恰是纯合的为50/50的全部概率,则正确识别所述基因座的概率大于95%、%%、97%、98%、99%、99.5%。在某些实施方案中,样品的数量可以在l至100000间改变,这也主要取决于要分析的基因组的大小和选择性扩增片段的数量。通常,采用的测序技术的容量提供了在这方面最主要的限制因素。实施例如下例证所述方法1)根据Vos等人修改的试验设计制备AFLP模板,所述试验设计包括在限制和连接步骤之间在80"热变性20分钟的步骤。在80"孵育20分钟后,将限制性内切酶消化物冷却至室温,加入DNA连接酶。所述变性i^骤引起限制性片段的互补链分离成至多120bp,以使没有接头连接至末端。结果,小于120bp的片段不会被扩增,因而实现了尺寸选择。2)如果适用,如在常规AFLP中一样进行预扩增反应。3)使用具有独特标识符标记的AFLP引物对在种群/实验中的每个样品进行最后的(选择性)扩增步骤,(使用独特4bp标识符序列KIS)。所述KIS位于选择性AFLP引物的5'末端。与在用电泳的常规AFLP检测中所用的选择性碱基的数量相比较,使用一种额外的选择性核苷酸,例如在胡椒中,EcoRI/Msel的指纹图谱为+4/+3(凝胶检测+3/+3)和在玉米中,EcoRI/Msel的指纹图谱为+4/+4(凝胶检测+4/+3)。需要用经验确定釆用的选择性核苷酸的数量;因此,可以使用与用于凝胶检测的选择性核苷酸相同数量的选择性核苷酸。该数量进一歩取决于包括在实验中的样品的数量,因为按测序技术的当前现状,序列迹线的数量假定为固定在200,000,但这可以和可能增加。优选的起始点将获得每种试样文库的AFLP片段的10倍采样。4)使根据步骤1-4制备的样品的集合进行经由454LifeSciences技术的测序。这是指个体AFLP片段在珠粒上克隆、PCR扩增和测序。预期产出200,000个100bp长度的序列。对于100个样品的集合,这等于平均2000个序列迹线/样品,可经由5'标记追踪样品nr。5)假定当与凝胶检测使用的数目相比使用l个额外的选择性核苷酸时,每个PC扩增IOO个AFLP片段,其中百分之九十是恒定的条带,以每个片段20倍平均冗余度采样AFLP片段。然而,因为测序是不定向的且大多数条带为〉200bp,对于各个片段末端,测序冗余度将稍高于10倍。6)使用KRS标记聚簇分析每个试样的所有序列。给出IO倍过量的抽样,这是指对于每种试样预期200个不同的序列迹线,代表200x100bp=20kb序列/样品。当这些序列的百分之十来源于AFLPMM(即扩增1个等位基因,另一种在PCR反应中不存在)时,百分之九十(18kb)的序列來源于恒定的条带。7)评分两个类型的遗传标记A)AFLPMB:这些是在一些样品中观察到,但在其他样品中不存在的序列。对样品集合中序列频率的检査将揭示出该种类。根据在每个样品中存在/不存在这些序列的观察进行显性的评分。AFLP标记的可靠评分需要设定用其在试验中观察其它AFLP序列的频率的统计学阈值。即,如果在样品中观察到AFLP标记序列,则可以评分AFLP标记存在(显性基因),但不存在评分的可靠性取决于(恒定的)AFLP片段的(平均)频率。需要统计学阈值水平,以便进行存在/不存在评分,其具有优选至少99.5%的准确度,取决于特定应用需要的可接受的水平。如果分析分离的种群及其母体,也可以通过定义所述标记序列的频率种类來共显性评分这些标记。后者可能实际上受到样品之间不同的AFLP标记的抽样变异的影响而变得复杂。B)在恒定的AFLP片段中的(SN)多态性这是最感兴趣的(和大量的)遗传标记的种类。主要的是将包含在恒定的AFLP片段内部序列中的SNP标记作为共显性SNP标记评分。再次,这优选地需要应用用于精确地点出存在或不存在等位基因的统计学阈水平。预期所述片段文库的10倍序列冗余度是足够的,但依赖于观察到的各个等位基因序列数量,需要统计分析法來确定SNP标记基因型的准确度。其基本原理是,当恒定的条带包含SNP且观察到一种等位基因例如5次,同时没有观察到(所述序列包含)其它等位基因时,高度可能的是所述样品对观察的等位基因是纯合的。因此,当观察到两个等位基因时,该样品被评分为对于SNP标记是杂合的,与其频率无关。8)结果将是基因分型表,其包含(共)显性评分的AFLP标记和共显性评分的SNP的基因型,和用于校正所有标记的基因型的概率。可选地,产生数据集,其包含超过设定的统计学阈水平的基因型。所述方法假定每种试样10倍过量的AFLP片段采样,获得18kb的恒定序列/样品和2kb的AFLP标记序列。观察到的遗传标记的数量取决于研究的种质中的SNP比率。下面,以不同种质的SNP比率提供当采样20kb序列时,估计的遗传标记数量。AFLP标记/片段的平均长度假定为200bp:表1、通过使用454Lifesciences技术测序AFLP片段评分的遗传标记的期望数目,假定IO倍过量的采样量、200000个序列迹线、百分之九十恒定的条带/百分之十AFLP标记,在各种SNP比率。<formula>formulaseeoriginaldocumentpage18</formula>*当可以从两个末端效!l序AFLP片段时,观察的SNP的比例可以來源于相同的基因座。重要的是应注意在表1中提供的数字是平均数,其可能在不同的引物组合之间不同。与常规AFLP分型类似,顶端引物组合(PC)的鉴定可提供每个PC较高量的标记。而且,为了获得所要求的准确度水平,在表1中列出的数字可以根据需要的过量采样所需的水平改变。校正分类所述基因型的计算如下P(校正值)=P(aa)+P(AA)+P(Aa)*[l-0.5*exp(n-l)]其中P(aa)为具有基因型aa的种群的部分(在随附图表的图9中),设定为0.25。P(AA)为具有基因型AA的种群的部分,设定为0.25。P(Aa)为具有基因型Aa的种群的部分(在图6和下表中,设定为0.5。ri等于个体数量。表nP10.520.7530.87540.937550.9687560.98437570.99218880.99609490.998047100.999023实施例1胡椒通过利用AFLP主基因识别位点特异性引物,使用來自胡椒系PSP-ll和PI201234的DNA产生AFLP产物。(这些AFLP引物基本上与常规AFLP引物相同,例如在EP0534858中公开的,并且通常将包含识别位点区域、恒定区域和一个或多个在选择性区域的选择性核苷酸。在37",用限制性核酸内切酶五coi/(5U/反应)和Mse/(2U/反应)消化来自胡椒系PSP-ll或PI201234的150ng的DNA1小时,接着在80"灭活10分钟。将双链的合成寡核苷酸接头与得到的限制性片段连接,其一个末端适合EcoRI和/或Msel限制性片段的一个或两个末端。将所述限制连接混合物稀释10倍,用EcoRI+1(A)和MseI+1(C)引物(设置I)预扩增(2)5微升的各个样品。在扩增后,在1%琼脂糖凝胶上检验两个胡椒样品的预扩增产物的性质。将该预扩增产物稀释20倍,然后用KRSEcoRI+l(A)和KRSMseI+2(CA)AFLP预扩增。在下述引物序列SEQID1-4中,在KRS(标识符)区段加下划线,并粗体表示在3'-末端的选择性核苷酸。在扩增后,在1°/。琼脂糖凝胶上和通过EcoRI+3(A)和Msel+3(C)(3)AFLP指纹图谱(4)检验两个胡椒样品的预扩增产物的性质。分别在QiagenPCR柱(5)上纯化两个胡椒系的预扩增产物。在NanoDrop⑧ND-1000分光光度计上测定所述样品的浓度。混合总共5微克的PSP-ll和5微克的PI201234PCR产物,并测序。用于预扩增PSP-ll的引物组IE01LKRS15,-CGTCAGACTGCGTACCAATTCA-3,[SEQID1]M15KKRS15,-TGGTGATGAGTCCTGAGTAACA-3,[SEQID2]用于预扩增PI201234的引物组IIE01LKRS25,-CAAGAGACTGCGTACCAATTCA國3,[SEQID3]Ml5KKRS25,-AGCCGATGAGTCCTGAGTAACA-3,[SEQID4](1)EcoRl/Msel限制连接混合物限制混合物f40ul/样品)DNA6nl(士300ng)ECoRI(5U)0.1^1Msel(2U)0.05^5xRL8jtlMQ25.85nl总共40^在37'C下孵育1小时加入连接混合物(10ul/样品)lOmMATP1^1T4DNA连接酶lnlECoRIadapt.(5pmol/nl)1jilMseladapt.(50pmol/pl)lpl5xRL2plMQ4pl总共10^1在37"下孵育3小时EcoRI-接头91M35/91M36:、CTCGTAGACTGCGTACC:91M35[SEQID5]±bioCATCTGACGCATGGTTAA:91M36[SEQID6]Msel-接头92A18/92A19:5-GACGATGAGTCCTGAG國3:92A18[SEQID7]3-TACTCAGGACTCAT-5:92A19[SEQID8](2)预扩增预扩增(A/C):RL-mix(10x)5nlEcoRI-prE01L(50ng/ul)0.6(ilMsel誦prM02K(50ng/ul)0.6^1dNTPs(25mM)0.16plT叫pol.(5U)O.O一10XPCR2%1MQ11.56^1总共20^1/反应物预扩增热轮廓以50pl的反应量进行选择性预扩增。在PEGeneAmpPCRSystem9700中进行PCR,并且进行30轮以94"变性30秒步骤开始,然后进行56X:60秒的退火歩骤和72"60秒的延伸步骤的轮廓。EcoRI+l(A)1E01L92R11:5-AGACTGCGTACCAATTCA隱3[SEQID9]Msel+1(C)1M02k93E42:5誦GATGAGTCCTGAGTAAC-3[SEQID10]预扩增A/CA:PA+l/+l-mix(20x):5jilEcoRI-pr:1.5plMsel-pr.:1.5pldNTPs(25mM):0.4plT叫.pol.(5U):0,2nl10XPCR:5pl以50[U的反应量进行选择性预扩增。在PEGeneAmpPCRSystem9700中进行PCR,并且进行30轮以94C30秒变性步骤开始,然后进行56"60秒退火步骤和72"60秒延伸步骤的轮廓。(3)KRSEcoRI+KA)和KRSMseI+2fCA)205F212E01LKRS1£QIQAGACTGCGTACCAATTCA-3'[SEQID11]05F213E01LKRS2eMQAGACTGCGTACCAATTCA-3,[SEQID12]05F214M15KKRS1TGGTGATGAGTCCTGAGTAACA-3'[SEQID13]05F215M15KKRS2AGCCGATGAGTCCTGAGTAACA-3'[SEQID14]用粗体表示选择性核苷酸和对标记(KRS)加下划线样品PSP11:E01LKRS1/M15KKRS1样品PI120234:E01LKRS2/M15KKRS2(4)AFLP试验设计以20^1的反应量进行选择性预扩增。在PEGeneAmpPCRSystem9700中进行PCR,并且进行13个从94C30秒变性步骤开始,然后进行65^C30秒退火^^骤,在该步骤具有每一个循环退火温度降低0.71C的降落相,和72"60秒延伸步骤的循环。在该轮廓后进行23轮的94^C30秒变性步骤,接着进行56C30秒退火歩骤,和72'C60秒延伸步骤的轮廓。EcoRI+3fAAC)和Msel+3fCAG)E3292S02:5-GACTGCGTACCAATTCAAC-3[SEQID15]M4992G23:5-GATGAGTCCTGAGTAACAG誦3rSEOID161C5)Oi鹏n柱使用QIAquickPCR纯化试剂盒(QIAGEN)按QIAquickSpin手册07/2002第18页纯化所述AFLP产物,并用NanoDrop⑧ND-1000分光光度计测定其浓度。将总共5吗的+1/+2PSP-llAFLP产物和5吗的+1/+2PI201234AFLP产物置于一起,并溶于23.3^1的TE中。最后,得到具有浓度为430ng/nl+l/+2AFLP产物的混合物。序列文库制备和高通量测序使用如由Margulies等人(Marguliesetal.,iVa加re437,pp.376-380和在线增刊)描述的454LifeSciences测序技术,使来自两个胡椒系的混合的扩增产物进行高通量测序。特别地,首先末端-抛光(polished)所述AFLPPCR产物,接着将其连接至接头,以促进乳剂-PCR扩增和随后的如Margulies和同事描述的片段测序。454接头序列、乳剂PCR引物、序列-引物和测序运行条件都如由Margulies和同事描述的。在454测序方法中琼脂糖珠粒上扩增的乳剂-PCR片段中的功能元件的线性顺序是图1A中举例说明的,如下454PCR接头-454序列接头-4bpAFLP引物标记1-AFLP引物序列1,包括选择性核苷酸-AFLP片段内部序列-AFLP引物序列2,包括选择性核苷酸,4bpAFLP引物标记2-454序列接头-454PCR接头-琼脂糖珠粒通过454LifeSciences(Branford,CT;美国)进行两轮高通量454测序运行。454测序运行数据处理。使用生命信息学流水线(KeygeneN.V.)处理由一个454测序运行得到的序列数据。特别地,将未加工454基础点出的(basecalled)序列阅读转化成FASTA格式,并使用BLAST算法检査标记的AFLP接头序列的存在。当与已知标记的AFLP引物序列高置信度匹配时,整理序列,修复限制性核酸内切酶位点,并分配适当的标记(分别为样品1EcoRI(ES1)、样品1Msel(MS1)、样品2EcoRI(ES2)或样品2Msel(MS2))。接着,使用基于全部序列同源性的megaBLAST方法聚簇分析比33个碱基大的所有整理的序列。然后,使用CAP3多重比对算法将簇装配成一个或多个重叠群和/或每个簇的单元素。检査包含超过一个序列的重叠群的序列错配,表示为推定的多态性。基于下述标准分配序列错配的性质评分*在重叠群阅读的数量*观察的等位基因分布上述两个标准形成用于分配给各个推定的SNP/indel的所谓的Q评分的基础。Q得分从0至1;0.3的Q得分可能只在观察到两个等位基因至少两次的情况下达到。*在具有某一长度的均聚物中的位置(可调节的;缺省设置以避免具有3个碱基或更长的均聚物中的多态性)。*在簇中的重叠群的数量。*到最近邻的序列错配的距离(可调节的;对于某些种类的探测旁侧序列的基因分型测定很重要)*样品1或样品2同观察到的等位基因群聚的水平在推定的多态性和样品l和2的等位基因之间一致的、完美的群聚的情况下,多态性(SNP)表示为"精华"(elite)推定的多态性(SNP)。在发现方法使用两个纯合系的情况下,精华多态性被认为具有位于独特或低拷贝基因组序列的高概率。相反地,多态性与样品來源的弱群聚具有起于重叠群中非等位序列比对的假多态性的髙风险。使用MISA研究工具(MIcroSAtellelite鉴定工具;得自htlp://pgrc.ipk-gatersleben.de/misa/)鉴定包含SSR基序的序列运行的所有统计显示在下表中。表.针对胡椒中SNP发现的454测序运行的所有统计<table>tableseeoriginaldocumentpage22</column></row><table><table>tableseeoriginaldocumentpage23</column></row><table>*SNP/indel采集的标准如下无在两侧的12个碱基内Q得分大于0.1的相邻多态性,在3个或更多个碱基的均聚物中不存在。采集标准不考虑与样品1和2的一致的群聚,艮卩,SNP和indel不是必需的精华推定的SNP/indel。包含精华推定的单一核苷酸多态性的多重比对的实例显示在图5中。实施例2:玉米通过利用AFLP主基因识别位点特异性引物,使用來自玉米系B73和M017的DNA产生AFLP产物。(这些AFLP引物基本上与常规AFLP引物相同,例如在EP0534858中描述的,并且通常将包含识别位点区域、恒定区域和一个或多个在其3'-末端的选择性核苷酸。)。在65",用限制性核酸内切酶ra^(5U/反应)消化来自胡椒系B73或M017的DNA1小时,并在37'C用il^e/(2U/反应)消化1小时,接着在80C灭活10分钟。将双链的合成寡核苷酸接头连接到得到的限制性片段,其一个末端适合Taql和/或Msel限制性片段的一个或两个末端。在10倍稀释的限制-连接混合物中进行具有+1/+1AFLP引物的AFLP预扩增反应(20jil/反应)。PCR轮廓20*(在94"30s+在56"60s+在72匸120s)。在20倍稀释的+1/+1Taql/MselAFLP预扩增产物上进行具有不同的+2r叫/和Afce/AFLP主基因识别位点引物(下表,标记为粗体,对选择性核苷酸加下划线)的另外的AFLP反应(5(^il/反应)。PCR轮廓30*(在94°C30s+在56"60S+在72"120s)。使用QIAquickPCR纯化试剂盒(QIAGEN)按QIAquick⑧Spin手册07/2002第18页纯化所述AFLP产物,并用NanoDropND-1000分光光度计测定其浓度。将总共1.25吗的各自不同的B73+2/+2AFLP产物和1.25吗各自不同的M017+2/+2AFLP产物置于一起,并溶于30m1TE中。最后,得到具有浓度为333ng/|il+2/+2AFLP产物的混合物。表<table>tableseeoriginaldocumentpage24</column></row><table>最后,混合集中4Pl-样品和4P2-样品,并浓縮。得到总量25nl的DNA产物和最终浓度400ng/nl(总共lOpg)。中间体质量评价在图3中给出。用454测序通过如所描述的(Marguliesetal.,2005.Genomesequencinginmicrofabricatedhigh-densitypicolitrereactors.Nature437(7057):376-80.EpubJuly31,2005)454LifeSciences处理如上文描述制备的胡椒和玉米AFLP片段样品。数据处理处理流水线输入数据接受每个运行的原始序列数据誦200000-400000个阅读-基础点出性质评分整理和标记分析这些序列数据中在阅读的起始和末端的主基因识别位点(KRS)的存在。这些KRS序列包括两个AFLP-接头和样品标志序列,并特异于在某些样品上的某些AFLP引物组合。通过BLAST鉴定这些KRS序列并整理,和修复限制性位点。用标记标出阅读用于鉴定KRS来源。基于长度选择整理的序列(最少33nt)以参与进一步的处理。聚簇分析和装配在各种选择的大小、整理的阅读上进行MegoB/osf分析,以得到同源序列簇。连续将所有的簇与C4户3装配,得到装配的重叠群。从两个步骤鉴定出与任何其它的阅读不匹配的独特序列阅读。将这些阅读标记为单元集。进行本文之甜描述的步骤的处理流水线显示在图4A中。多态性采集和质量评价来自装配分析得到的重叠群形成多态性检测的基础。在各个簇的比对中的每个"错配"为可能的多态性。定义选择标准以获得性质评分-每个重叠群的阅读数量-每种试样"等位基因"的频率-均聚物序列的出现-相邻多态性的出现将具有髙于阈值的性质得分的SNP和indel鉴定为推定的多态性。对于SSR采集,我们使用MISA(MIcroSAtellite鉴定)工具(http://pgrc.ipk-gatersleben.de/misa)。该工具鉴定具有预定义标准的二、三、四核苷酸和化合物SSR基序,并且概述了这些SSR的出现。多态性釆集和性质分配方法显示在图4B中。下表概述了来自2个针对组合的胡椒样品的454测序运行和2个针对组合的玉米样品的测序运行的序列的组合分析的结果。<table>tableseeoriginaldocumentpage25</column></row><table>在重叠群中的阅读的数量29437097728包含SSR的序列的总数611202不同的包含SSR的序列的数量10465不同SSR基序(二、三、四和化合物)的数量4940具有Q得分>0.3*的SNP的数量1636782IndeW的数量40卯943*两个具有选择抗相邻SNP,至少12bp的旁侧序列和不出现大于3个核苷酸的均聚物序列。实施例3.通过PCR扩增和Sanger测序的SNP确认为了确认在实施例1中鉴定的推定的A/GSNP,使用旁侧PCR引物设计针对该SNP的序列标记的位点(STS)测定。PCR引物的序列如下引物—1.2f:5'-AAACCCAAACTCCCCCAATC誦3,,[SEQID33〗和引物」,2r:5'-AGCGGATAACAATTTCACACAGGACATCAGTAGTCACACTGGTACAAAAATAGAGCAAAACAGTAGTG-3'[SEQID34〗请注意,引物1.2r包含M13测序引物结合位点和在其5引物末端的长度填充片段。使用如在实施例4中制备的PSPll和PI210234的+AAK:AAFLP扩增产物作为模板进行PCR扩增。PCR条件如下对于1个PCR反应,混合下述组分5nl1/10稀释的AFLP混合物(约10ng/jil)5nllpmol/^l引物1.2f(由500fiM储备液直接稀释的)5^11pmolAU引物1.2r(由500jjM储备液直接稀释的)5piPCR混合物-2pi10xPCR缓冲液隱lpi5mMdNTPs■1.5nl25mMMgQ2-0.5[ilH205pi酶混合物-0.5pi10xPCR缓冲液(AppliedBiosystems)-0.1|Al5U/nlAmpliTaqDNA聚合酶(AppliedBiosystems)-4,4nlH20使用下述PCR轮廓循环12';94°C循环2-3420";941C30";56C2'30";72TC循环357';72°C使用TA克隆方法将PCR产物克隆到载体pCR2.1(TA克隆试剂盒;Invitrogen)中,并转化到INVoF'感受态大肠杆菌细胞。转化体接受蓝/白筛选。对于每一个PSP11和PI-201234,各自选择三个独立的白色转化体,并在液体选择培养基中过夜培养,用于质粒分离。使用QIAprepSpinMiniprep试剂盒(QIAGEN)分离质粒。接着,根据下述试验设计测序这些质粒的插入片段,并在MegaBACE1000(Amersham)上分辨。检査得到的序列的SNP等位基因的存在。两个包含PI-201234插入片段的独立的质粒和1个包含PSP11插入片段的质粒包含预期的位于SNP两侧的一致序列。来源于所述PSP11片段的序列包含预期的A(下划线)等位基因,来源于PI-201234片段的序列包含预期的G等位基因(双下划线)AAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACAATGTTGGTTTTGGTGCTAACTTCAACCCCACTACTGTTTTGCTCTATTTTTGT[SEQID35]AAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACA^TGTTGGTTTTGGTGCTAACTTCAACCCCACTACTGTTTTGCTCTATTTTTG[SEQID36]AAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACA^TGTTGGTTTTGGTGCTAACTTCAACCCCACTACTGTTTTGCTCTATTTTTG[SEQID37]该结果表明,推定的胡椒A/GSNP代表了使用设计的STS测定可检测到的真实的遗传多态性。参考文献1.Zabeau,M.andVos,R(1993)Selectiverestrictionfragmentamplification;ageneralmethodforDNAfingerprinting.EP0534858-A1,Bl,B2;USpatent6045994.2.Vos,P.,Hogers,R.,Bleeker,M"Reij咖,M,vandeLee,T.,Homes,M,Frijters,A"Pot,J.,Pelentan,J"Kuiper,M.(1995)AFLP:anewtechniqueforDNAfingerprinting.M/c/.乂c她及饥,21,44074414.3.M.vanderMeul叫J.Buntjer,M.J.T.vanEijk,P-Vos,andR.vanSchaik.(2002),HighlyautomatedAFLP⑧fingerprintanalysisontheMegaBACEcapillarysequencer.j"z'卿/aw/Mfcro6ia/Ge"o鹏X,SanDiego,CA,January12-16,P228,卯.135.4.Margulies"Z.,2005.Genomesequencinginmicrofabricatedhigh-densitypicolitrereactions.iV~a/i/reatfva"cedo"/z'"e/7"Wi'ca/z'o"03959,August1.5.R.W.Michelmore,I.Paran,andR.V.Kesseli.(1991).Identificationofmarkerslinkedtodisease-resistancegenesbybulkedsegregantanalysis:arapidmethodtodetectmarkersinspecificgenomicregionsbyusingsegregatingpopulations.iVoc.舰Jcflfif.88(21):9828-32.6.ShendureWa/"2005.Accuratemultiplexpolonysequencingofanevolvedbacterialgenome.Scfeweex/w咖及e/wf,August4.权利要求1.高通量发现、检测和基因分型一个或多个样品中一种或多种遗传标记的方法,包括下述步骤(a)提供来自一种或多种样品的DNA;(b)用至少一种限制性内切酶限制DNA以产生限制性片段;(c)连接接头与限制性片段,产生接头-连接的限制性片段;(d)任选地,用与接头互补的引物对扩增接头-连接的限制性片段,产生预扩增的接头-连接的限制性片段;(e)用引物对扩增(任选地预扩增的)接头-连接的限制性片段,其中至少一个引物包含在引物5’端的标识符标记,产生针对每个样品的接头连接的限制性片段的标记的扩增亚型的文库;(f)任选地,混合集中该文库;(g)使用高通量测序技术测序该文库;(h)使用标识符标记聚簇分析每个文库的序列;(i)鉴定文库内和/或文库之间的遗传标记;(j)测定一个或多个文库中遗传标记的(共-)显性基因分型。2、根据权利要求1所述的方法,其中遗传标记为AFLP标记或SNP标记。3、根据权利要求1或2所述的方法,其中测序基于合成的测序,优选焦磷酸测序。4、根据权利要求1-3所述的方法,其中测序在固体载体如珠粒上进行的。5、根据权利要求14所述的方法,其中测序包括下述步骤-退火扩增的接头-连接的限制性片段至珠粒,每个珠粒同单个接头-连接的片段退火-在油包水型微型反应器中乳化珠粒;每个油包水型微型反应器包括单个珠粒;-进行乳剂PCR以在珠粒表面上扩增接头-连接的限制性片段;-将珠粒装填在池中,每个池包括单个珠粒;和-产生焦磷酸盐信号。6、根据权利要求l-4所述的方法,其中标记的扩增的接头-连接的限制性片段的平均冗余度为至少6,优选至少7,更优选至少8和最优选至少9。7、根据权利要求l-5所述的方法,其中测定每个接头-连接的限制性片段的序列至少6倍,优选至少7倍,更优选至少8倍和最优选至少9倍。8、根据权利要求l-6所述的方法,其中在内切核苷酸酶限制和接头连接之间,通过变性^^骤进行大小选择。9、根据权利要求1-8所述的方法,其中DNA选自基因组DNA、RNA、cDNA、BACs、YACs、整体基因组扩增的DNA或PCR产物。10、根据权利要求1-9所述的方法,其中接头为双链的合成寡核苷酸接头,其具有一个适合于限制性片段的一个末端或两个末端的末端。11、根据权利要求l-10所述的方法,其中DNA被两个、优选三个或更多个限制性内切酶限制。12、根据权利要求l-ll所述的方法,其中DNA被两个限制性内切酶限制。13、根据权利要求l-2所述的方法,其中至少一个限制性内切酶是稀有的切割酶。14、根据权利要求1-13所述的方法,其中至少一个限制性内切酶为常见切割酶。15、根据权利要求l-14所述的方法,其中引物包含1至IO(优选随机地选自A、C、T或G)个选择性核苷酸,更优选1至5个核苷酸。16、根据前述权利要求任一项所述的方法,其中使用三个或更多个限制性内切酶的组合限制DNA。17、如上述权利要求任一项所定义的方法用于AFLP和/或SNP标记序列的共显性评分的用途。18、高通量测序方法的用途,其用于检测如在上述方法权利要求任一项中定义的方法中的多态性、基因分型目的包括遗传作图、QTL定位、精细定位基因/特性、连锁不平衡(LD)作图、标记辅助的反交、遗传距离分析、发现与特性或表型有关的标记、诊断患者样品的基因分型等。全文摘要本发明涉及用于高通量发现、检测和基因分型一个或多个样品中一个或多个遗传标记的方法,其包括步骤限制性内切核酸酶消化DNA、接头-连接、任选的预扩增、选择性扩增、混合集中扩增产物、测序具有足够冗余度的所述文库、聚簇分析,接着鉴定所述文库内和/或文库之间的遗传标记,并确定所述遗传标记的(共)显性的基因分型。文档编号C12Q1/68GK101374963SQ200680051561公开日2009年2月25日申请日期2006年12月20日优先权日2005年12月22日发明者A·P·索伦森,M·G·M·范施里克,M·J·T·范艾克申请人:凯津公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1