用于多态性的高通量鉴定和检测的策略的制作方法

文档序号:414074阅读:232来源:国知局
专利名称:用于多态性的高通量鉴定和检测的策略的制作方法
技术领域
本发明涉及分子生物学和遗传学领域。本发明涉及快速鉴定核酸样品中的多个多态性。经鉴定的多态性可以用于针对测试样·品中的多态性的高通量筛选系统的开发。
背景技术
长期以来,基因组DNA探查被科学团体特别是医学团体所期望。基因组DNA是鉴定、诊断和治疗疾病,例如癌症和阿尔兹氏疾病的关键。除疾病鉴定和治疗以外,基因组DNA的探查可以在植物和动物育种研究中带来显著的优势,其可以对全世界的食品及营养问题提供答案。已知许多疾病与特定的基因兀件有关,特别地,与特定基因中的多态性有关。大量样品例如基因组的多态性的鉴定,在目前是一项艰苦而耗时的工作。然而,该鉴定对于下述领域例如生物医学的研究,开发药学产品、组织分型、基因分型和群体研究具有重大价值。发明概述本发明提供了使用高通量方法的组合以快速而经济的方式在复杂的例如非常大量的核酸样品(例如DNA或RNA)中,有效地鉴定并且可靠地检测多态性的方法。这种高通量方法的整合提供了一种平台,其特别适用于高度复杂的核酸样品中的多态性的快速且可靠的鉴定和检测,其中传统的多态性的鉴定和绘图是艰苦且耗时的。本发明人的发现之一是用于多态性,优选单核苷酸多态性的鉴定的解决方案,而且同样可用于(微)卫星和/或插入/缺失特别是在大基因组中(微)卫星和/或插入/缺失的鉴定的解决方案。该方法的独特之处在于它对大的或小的基因组的适用性相同,并且对大基因组特别是多倍体物种尤其具有优势。为了鉴定SNP(和随后检测经鉴定的SNP),本领域有几种可以采用的可能方法。首选方案中,对完整基因组进行测序,并且这可以对几个个体进行。这主要是理论上的实验,因为这是麻烦而且昂贵的,并且,尽管技术快速发展,这虽然简单但对用于每一个生物体是不可行的,尤其是对具有大基因组的生物体是不可行的。次选方案是利用可获得的(片段化的)序列信息,例如EST文库。其允许生成使PCR引物,重新测序和个体间的比较。此外,其要求初始的序列信息不可得或仅仅是有限量的。进一步必须开发分别针对各个区域的PCR-分析,其增加了巨大的成本和开发时间。第三个选择是限定自身到各个个体的基因组的部分。困难在于,为了提供用于成功的SNP鉴定的可比较的结果,所提供的基因组的部分必须对不同个体是相同的。本发明人现在已经解决了这一难题,通过整合用于筛选部分的基因组的高度重现性方法集合和用于多态性鉴定的高通量测序,其整合于样品制备和高通量鉴定平台。本发明加速了多态性发现的进程并且在后续的用于所发现的多态性开发的过程中,使用相同的要件(element)可以有效且可靠地进行高通量的基因分型。进一步设想的本发明的方法的应用,包括筛选富集的微卫星文库,进行转录作谱CDNA-AFLP (数字化Northern )、复杂基因组的测序,EST文库测序(对完整cDNA或cDNA-AFLP)、微小RNA发现(小的插入文库的测序)、细菌人造染色体(BAC)(重叠群)的测序、批量分离分析法AFLP/cDNA-AFLP、AFLP片段的常规检测,例如,标记辅助的回交(MABC)
坐坐寸寸ο定义在下面的描述和实施例中使用了大量术语。为了提供对说明书和权利要求包括这些术语给定的范围的清楚而一致的理解,给出下面的定义。除非在此另有定义,此处所有使用的技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同的意义。所 有出版物、专利应用、专利和其他参考文献的公开内容以其整体作为参与引入此处。多态性多态性指群体中核苷酸序列存在的两个或多个变体。多态性可以包含一个或多个碱基置换、插入、重复或缺失。多态性包括,例如,简单的序列重复(SSR)和单核苷酸多态性(SNP),其是一变异,发生于当单核苷腺嘌呤(A),胸腺嘧啶(T),胞嘧啶(C)或鸟嘌呤(G)-改变时。变异必需在群体中通常出现至少1%才被认为是SNP。SNP构成例如所有人类遗传变异的90%,并且在人类基因组中每100至300个碱基就有发生。每三个SNP中的两个是胸腺嘧啶(T)取代胞嘧啶(C)。例如人或植物的DNA序列中的变异可以影响它们如何应对疾病、细菌、病毒、化学制品、药物等。核酸本发明的核酸可以包括任何嘧啶和嘌呤碱基,优选分别为胞嘧啶、胸腺嘧啶、和尿嘧唆,及腺嘌呤和鸟嘌呤的多聚物或低聚体,(参见AlbertL. Lehninger, Principles of Biochemistry, at 793-800 (Worth Pub. 1982)其引入此处作为参考。本发明设想任何脱氧核糖核苷酸、核糖核苷酸或肽核酸组成,及其任何化学变体,例如这些碱基的甲基化、羟甲基化或糖基化形式等等。多聚物或低聚体在组合物中可以是异源的或同源的,也可以分离自天然存在的来源或可以是人工或合成生产的。另外,核酸可以是DNA或RNA或其混合物,并且可以在单链或双链形式包括同源双链、异源双链和杂交形式中永久地或瞬时性地存在。复杂度降低(complexity reduction):术语复杂度降低用于表示一种方法,其中核酸样品例如基因组DNA的复杂度通过样品的子集的产生而降低。子集可以是对完整(即复杂的)样品有代表性的,并且优选是可重现的子集。可重现的在上下文中的含义为,当相同样品用相同方法在复杂度上降低时,即获得相同的或至少可比的子集。用于复杂度降低的方法可以是本领域已知的任何用于复杂度降低的方法。复杂度降低的方法的例子包括例如 AFLP⑩(Keygene N. V. , t he Netherlands;参见例如 EP 0534858),Dong 所描述的方法(见于例如 WO 03/012118, WO 00/24939),索引连接(Unrau et al.,vide infra)等。本发明中所用的复杂度降低的方法的相同之处在它们是可重现的。可重现的意味着当相同样品以相同方式在复杂度上降低时,就获得了样品的相同的子集,以避免更多的随机的复杂度降低,例如显微解剖或使用代表选择的组织中转录的基因组部分的mRNA (cDNA)的使用,因为其可重现性依赖于组织、分离时间等的选择。加标签术语加标签指将标签添加到核酸样品,以便能够区别它与第二或更多的核酸样品。标记能够例如通过在复杂度降低过程中序列标识子的添加或通过任何本领域已知的方法进行。这样的序列标识子可以是例如具有变化组限定了长度的唯一性地用于标识特定核酸样品的独特的碱基序列。其典型的例子为例如ZIP序列。用这样的标签,样品的来源可以在进一步的加工中被检测。要是组合来源于不同核酸样品的加工的产品,不同的核酸样品应该用不同的标签鉴定。经标签的文库术语经标签的文库指加标签的核酸的文库。测序术语测序指核酸样品,例如DNA或RNA中核苷酸的列(碱基序列)的检测。比对和对比术语“比对”和“对比”含义为基于相同或相似的核苷酸的短的或长的伸出的存在的两个或多个核苷酸序列的比较。用于核苷酸序列的对比的几种方法是本技术领域已知的,如将在下面进一步说明的一样。检测探针术语“检测探针”用于表示为检测特定的核酸序列而设计的探针,特别地,序列包含一个或多个多态性。高通量筛选高通量筛选,通常简称为HTS,是用于科学实验的方法,尤其是与生物和化学领域相关。通过现代机器人技术和其他专业的实验室硬件的组合,它允许研究人员可以有效地同时筛选大量样品。测试样品核酸术语“测试样品核酸”用来指示用本发明的方法进行多态性研究的核酸样品。限制性核酸内切酶限制性核酸内切酶或限制性酶是在双链DNA分子中识别特定核酸序列(目标位点)的酶,并且可以在DNA分子的两条链的每个目标位点处修整。限制性片段用限制性核酸内切酶消化产生的DNA分子被称为限制性片段。任何给定的基因组(或核酸,无论其来源)将通过特定的限制性核酸内切酶消化为限制性片段的离散集(discrete set)。由限制性核酸内切酶消化产生的DNA片段可以进一步用于多种技·术并且例如能够通过凝胶电泳被检测。凝胶电泳为了检测限制性片段,用于在尺寸基质上分级双链DNA分子的方法是必须的。最常用的用于实现所述分级的方法是(毛细管)凝胶电泳。DNA片段在这种凝胶中移动的速率取决于它们的分子量;因此,移动的距离随片段长度增加而减少。通过凝胶电泳分级的DNA片段可以通过染色过程,例如银染色或溴化乙啶染色直接可视,如果包括在图谱中的片段的数量足够小。备选地,进一步的DNA片段的处理可以在片段中的掺入可检测的标记,例如突光或放射性标记。连接通过连接酶催化的酶反应中,两个双链的DNA分子被共价连接在一起被称为连接。一般地,两个DNA链被共价连接在一起,但是通过链的末端之一的化学或酶修饰,两个链之一的连接也可以被阻止。如果那样的话,共价连接将只在两个DNA链的一个中发生。合成的寡核苷酸具有优选大约10-大约50个碱基的单链DNA分子,其可以用化学方法合成而被称为合成的寡核苷酸。一般地,这些合成DNA分子被设计为具有独特的或期望的核苷酸序列,尽管合成具有有关的序列和其在核苷酸序列中的特定位点具有不同核苷酸组成的分子家族是可能的。术语合成的寡核苷酸可以用于指具有设计的或期望的核苷酸序列的DNA分子。接头具有有限量的碱基对的短的双链DNA分子,例如,长度大约10到大约30个碱基对,其被设计为它们可以连接到限制性片段的末端。接头一般由两个合成的寡核苷酸组成,其具有部分地相互互补的核苷酸序列。当在溶液中在适当条件下混合两种合成的寡核苷酸时,它们可以相互退火形成双链结构。退火后,接头分子的一端设计为与限制性片段末端相兼容并且能够被连接其上;接头的另一端可以被设计为其不能被连接,但是这不是必须的(双连接的接头)。接头-连接的限制性片段已经被接头加帽的限制性片段。引物一般地,术语引物指能够引导DNA的合成的DNA链。没有引物,DNA聚合酶不能从头(de novo)合成DNA :其只能在反应中延伸现有的DNA链,在反应中互补链用作模板以指导被组装的核苷酸的排列。我们可以称用在聚合酶链式反应(PCR)中的合成的寡核苷酸分子为引物。DNA扩增一般,术语DNA扩增可以被用于表示使用PCR的双链DNA分子的体外合·成。应当注意,还存在其他扩增方法并且它们可以被用于本发明,而不违反主旨。发明详述本发明提供了用于鉴定一个或多个多态性的方法,所述的方法包括步骤a)提供第一目的核酸样品;b)对第一目的核酸样品进行复杂度降低,以提供第一核酸样品的第一文库;c)连续地或同时地对第二或更多的目的核酸样品进行步骤a)和b),以获得第二或更多目的核酸样品的第二或更多文库;d)测序第一文库和第二或更多的文库的至少部分;e)比对在步骤d)中获得的序列;f)确定在步骤e)的比对中第一核酸样品和第二或更多核酸样品间的一个或多个多态性;g)用在步骤f)中确定的一个或多个多态性设计一个或多个检测探针;h)提供目的测试样品核酸;i)对目的测试样品进行步骤b)的复杂度降低以提供测试样品核酸的测试文库;j)用在步骤g)中设计的一个或多个检测探针对测试文库进行高通量筛选以鉴定在步骤f)中确定的多态性的存在、缺失或数量;步骤a)中,提供第一目的核酸样品。所述的第一目的核酸样品优选为复杂核酸样品例如总基因组DNA或cDNA文库。优选的,复杂核酸样品为总基因组DNA。步骤b)中,对第一目的核酸样品进行复杂度降低以提供第一核酸样品的第一文库。发明的一个具体实施方式
,核酸样品的复杂度降低的步骤包括催化性切割核酸样品为限制性片段,分离限制性片段并选择特殊的限制性片段库。任选的,经选择的片段然后与包含PCR引物模版/结合序列的接头序列相连接。复杂度降低的具体实施方式
中,IIs型核酸内切酶用于消化核酸样品并且限制性片段选择性地连接于接头序列。接头序列可以在将被连接的突出端包含不同的核苷酸,并且只有具有与突出端中核苷酸匹配设置的接头连接到该片段并且随后被扩增。这一技术在本领域被描述为‘索引连接器’。尤其,这一原理的例子可以在Unrau P. and DeugauK. V. (1994) Gene 145:163-169 中看到。在另一具体实施方式
中,复杂度降低的方法利用两个具有不同的目标位点和频率的限制性核酸内切酶和两个不同的接头序列。发明的另一具体实施方式
中,复杂度降低的步骤包括对样品进行任意引物PCR。在发明的另一个具体实施方式
中,复杂度降低的步骤包括通过变性和重退火DNA去除重复序列,然后去除双链的双链(double-stranded duplexes)。在发明的另一个具体实施方式
中,复杂度降低的步骤包括核酸样品与磁珠杂交,磁珠连接于包含期望的序列的寡核苷酸探针。这一具体实施方式
可以进一步包括将杂交的样品暴露于单链DNA核酸酶以除去单链DNA,连接包含IIs类限制性酶的接头序列以释放磁珠。这一具体实施方式
可以包括或可以不包括分离的DNA序列的扩增。进一步,接头序列可以或可以不作为模版用于PCR寡核苷酸引物。在这个具体实施方式
中,接头序列可以含有或可以不含有序列标识子(identifier)或标记。另一具体实施方式
中,复杂度降低的方法包括将DNA样品暴露于错配结合蛋白(mismatch binding protein)并且用3’-5’核酸外切酶消化样品,然后用单链核酸酶消化·样品。这一具体实施方式
中可以包括或可以不包括结合于错配结合蛋白的磁珠的使用。本发明的另一具体实施方式
中,复杂度降低包括在此或在别处描述的CHIP方法或对保守基序例如SSR、NBS区(核酸结合序列)、启动子/增强子序列、调聚物一致性序列、MADS盒基因、ATP-酶基因家族和其他基因家族的PCR引物的设计。在步骤c)中,连续地或同时地对第二或更多的目的核酸样品进行步骤a)和b)以获得第二或更多的目的核酸样品的第二或更多的文库。优选的,所述的第二或更多的目的核酸样品也可以是复杂核酸样品例如总基因组DNA。这同样是优选的,所述的第二或更多的核酸样品是与第一核酸样品相关的。第一核酸样品和第二或更多核酸可以是例如不同的植物品系,例如不同的胡椒品系,或不同的变体。步骤a)和b)不仅可以对第二目的核酸样品进行,还可以对第三、第四、第五等目的核酸样品进行。应当指出,当用相同方法和在基本相同,优选相同的条件下对第一核酸样品和第二或更多核酸样品进行复杂度降低时,依照本发明的方法将非常有用。在这样的条件下,将获得(复杂)核酸样品的相似(可比较的)级分。在步骤d)中,测序至少部分的第一文库和第二或更多的文库。来自第一文库和第二或更多文库的序列片段的重叠量至少是50%,更优选至少60%,更优选至少70%,甚至更优选至少80%,更优选至少90%,并且更优选至少95%。测序原则上可以通过本领域已知的任何方法进行,例如脱氧链终止法。不过优选测序用高通量测序方法进行。例如,在WO 03/004690, WO 03/054142, WO 2004/069849, WO2004/070005, WO 2004/070007,和 WO 2005/003375 (全部以 454 公司的名义),by Seo 等人(2004)Proc. Natl. Acad. Sci. USA 101:5488-93,和 Helios, Solexa, US Genomics 等等中描述的方法,其被引入此处作为参考。更优选地,测序用在WO 03/004690, WO 03/054142, WO2004/069849, WO 2004/070005, WO 2004/070007,和 TO 2005/003375 (全部以 454 公司的名义)中公开的设备和/或方法进行,其被引入此处作为参考。在单个循环中,所描述的技术使得400000000碱基的测序可以进行并且比竞争技术快100倍且便宜100倍。测序技术大概由4个步骤组成1)对单链DNA (ssDNA)的文库的DNA的片断化和特定接头的连接;2)退火ssDNA到珠子和在油包水微反应器中的珠子的乳化;3)在PicoTiterPlate中携带DNA的珠子的沉淀;和4)通过焦磷酸酯光信号的生产,在100000个孔中同时测序。该方法可以在下面更详细地解释。在步骤e)中,对在步骤d)中获得的序列进行比对以提供对比结果。用于对比目的的序列的对比的方法是本领域公知的。不同过程和对比运算法则在下面描述Smith and Waterman (1981) Adv. Appl. Math. 2:482 ; Needleman and Wunsch (1970)J. Mo I. Biol. 48:443;Pearson and Lipman(1988)Proc. Nat I. Acad. Sci.USA85:2444;Higgins and. Sharp(1988)Gene 73:237-244;Higgins and Sharp (1989)CABIOS5:151-153;Corpetetal. (1988)Nucl. Acids Res. 16:10881-90;Huang et al. (1992)Computer Appl. in the Biosci.8:155-65;and Pearson et al. (1994)Meth. Mol.Biol. 24:307-31,其被引入引处用作参考。Altschul 等人(1994)Nature Genet. 6:119-29(其被引入此处用作参考)提供了序列对比方法和同源性计算的详细描述。NCBI基础本地对比搜索工具(BLAST) (Altschul et al.,1990)可以从几个来源 获得,包括生物学信息国家中心(NCBI, Bethe sda, Md.)和在Internet上,为了与序列分析程序 blastp, blastn, blastx, tblastn 和 tblastx 相联接使用。可以进入 http://www.ncbi. nlm. nih. gov/BLAST/。使用这个程序如何检测序列同一'I"生的描述可以获自http://www. ncbi. nlm. nih. gov/BLAST/blast help, html。进一步可以应用在微卫星米集(参见Varshney 等人(2005) Trends in Biotechn. 23 (I) : 48-55 中。通常,对已经用接头/引物和/或标识子修饰过的序列数据进行对比,例如仅用来自来源于核酸样品的片段的序列数据。通常,获得的序列数据用于鉴定片段的来源(例如来自哪个样品),衍生自接头和/或标识子的序列被从数据中除去并且在这个修饰的位置进行比对。在步骤f)中,确定第一核酸样品和第二或更多核酸样品间的一个或多个多态性。所述比对可以如此完成使衍生自第一核酸样品和第二或更多核酸样品的序列可以进行比较。然后反映多态性的区别可以被鉴定。在步骤g)中,步骤g)中检测到的一个或多个多态性用于设计检测探针,例如用于通过DNA芯片上的杂交或基于珠子的检测平台进行的检测。检测探针设计成这样使得多态性可以被其反映。在单核苷酸多态性(SNP)的情况下,检测探针一般在中心位置含有不同的SNP等位基因,会以最大化等位基因的辨别。这样的探针可以方便地用于筛选具有某种多态性的检验样品。探针可以用本领域已知的任何方法合成。探针一般被设计为适合于高通量筛选方法。在步骤h)中,提供目的测试样品核酸。测试样品核酸可以是任何样品,但是优选为用来对多态性作图的另一株或变体。一般地,代表研究的生物体的种质的测试样品的收集物用于实验验证(SN)多态性是真实的和可检测的,并且用于计算观察到的等位基因的等位基因发生频率。任选的,在验证步骤中包括基因作图群体的样品,以还检测多态性的基因作图位置。在步骤i)中,对目的测试样品核酸进行步骤b)的复杂度降低以提供测试样品核酸的测试文库。更优选的,全部依照本发明的方法的用于复杂度降低的相同方法以基本相同的,优选同一的条件使用,从而覆盖样品的相似级分。然而,获得加标签的测试文库并非必须的,尽管标记可以存在于测试文库中的片段上。在步骤j)中,测试文库经高通量筛选以鉴定用步骤g)中设计的检测探针在步骤f)中确定的多态性的存在、缺失或数量。本领域技术人员已知一些用来使用探针进行高通量筛选的方法。优选利用步骤g)中获得的信息设计的一个或多个探针固定于阵列,例如DNA芯片上,而且上述阵列随后在杂交条件下与测试文库接触。互补于一个或多个阵列中的探针的测试文库中的DNA片段在上述条件下与上述探针杂交,并且从而可以被检测。另一种高通量筛选方法也在本发明的范围内,例如步骤j)中获得的测试文库的固定和所述固定的测试文库与步骤h)中设计的探针在杂交条件下接触。另一种高通量测序筛选技术除Affymetrix提供的使用基于芯片的SNP检测外,还有Illumina提供的珠子技术。在更优的具体实施方式
中,根据本发明的方法中的步骤b)进一步包括文库的加标签步骤以获得加标签的文库,并且所述方法进一步包括组合第一加标签的文库和第二或更多加标签的文库的步骤Cl)以获得组合文库。 优选的,在复杂度降低步骤中进行加标签以减少用于获得第一核酸样品的第一标签文库所需步骤的数量。上述同时的加标签可以是例如通过AFLP,用含有对于每个样品独特的(核苷酸)标识子的接头实现。进行标签的目的在于区分不同来源的样品,例如,获自不同植物株,当使两个或多个核酸样品的文库组合以获得组合文库时。因此,优选地,不同的标签用于制备第一核酸样品和第二或更多核酸样品的加标签的文库。例如,当使用五个核酸样品时,意欲获得五个不同的加标签的文库,所述五种不同的标签指示分别来源的样品。标签可以是本领域已知的用于区别核酸样品的任何标签,但是优选短的标识子序列。这样的标识子序列可以是例如,用于指示通过复杂度降低所获得的文库的来源的不同长度的独特的碱基序列。优选的具体实施方式
,对第一文库和第二或更多文库的加标签用不同的标签进行。如上所述,优选的,核酸样品的各个文库可通过它自己的标签来鉴定。测试样品核酸不需要加标签。在本发明的优选的具体实施方式
中,复杂度降低通过AFLP 方法(KeygeneN. V. ,the Netherland s;参见例如 EP O 534 858 和 Vos 等人(1995)进行。AFLP :用于 DNA指纹识别的新技术,Nucleic Acids Research, vol. 23, no. 21, 4407-4414,在此引入全文作为参考)。AFLP是一种用于选择性扩增限制性片断的方法。AFLP没有任何预先的序列信息并且能够在任何起始DNA中进行。一般而言,AFLP包括步骤(a)用一个或多个特异性限制性核酸内切酶消化核酸,特别是DNA或cDNA,以将DNA片段化为相应的一系列限制性片段;(b)将这样获得的限制性片段与双链的合成寡核苷酸头(它的一个末端与限制性片段的一个末端或两个末端相兼容)连接,由此产生接头-连接的、优选被标记的起始DNA的限制性片段;(c)在杂交条件下,使接头-连接的,优选加标签的,限制性片段与至少一个在其3’ -末端含有至少一个选择性核苷酸的寡核苷酸引物接触;(d)通过PCR或类似的技术扩增与引物杂交的接头-连接的,优选加标签的限制性片段,以使杂交的引物沿着引物所杂交的起始DNA的限制性片段进一步延伸;和
(e)检测,鉴定或回收由此获得的扩增的或延伸的DNA片段。从而AFLP提供了可再生的接头-连接的片段的子集。用于复杂度降低的另一种合适的方法是Chromatine Tmmuno Precipitation (ChiP)。这表不核DNA被分离,同时蛋白例如转录因子与DNA结合。对于ChiP方法,首先抗体用于抗蛋白,得到Ab-蛋白-DNA复合体。通过纯化这一复合体并沉淀它,该蛋白结合的DNA被选出。随后,DNA可以用于文库构建和测序。即,这是针对特定功能区域(在本实施例中是特定的转录因子)以非随机的方式进行复杂度降低的方法。AFLP技术的一种有用的变形使用了非选择性核苷酸(即 +0/+0引物)并且有时被称为连接子PCR。也提供它用来非常适合的复杂度降低。为了进一步描述AFLP,它的优点、它的具体实施方式
和其中使用的技术、酶、接头、引物和进一步的化合物和工具,参见US 6,045,994,EP-B-O 534 858,EP 976835和EP974672,TO01/88189 和 Vos et al. Nucleic Acids Research, 1995, 23, 4407-4414,在此整体引入作为参考。因此,在本发明的方法的优选的具体实施方式
中,复杂度降低通过如下进行-用至少一种限制性内切酶消化核酸样品以将其片段化为限制性片段;将获得的限制性片段与至少一个合成的双链寡核苷酸接头(它的一个末端与限制性片段的一个末端或两个末端相兼容)连接以产生接头-连接限制性片段;-将所述接头-连接的限制性片段与一个或多个寡核苷酸引物在杂交条件下接触;和-通过一个或多个寡核苷酸引物的延伸来扩增所述接头-连接的限制性片段,其中一个或多个寡核苷酸引物的至少一个包括具有与所述接头-连接的限制性片段的末端的链的末端部分相同的核苷酸序列的核苷酸序列,包括用于所述限制性核酸内切酶的参与目标序列的形成的核苷酸并且包括在接头中存在的核苷酸的至少一部分,其中,任选的,至少一种所述引物在其3’末端包括经选择的序列,其包含与用于所述限制性核酸内切酶的参与目标序列的形成的核苷酸紧邻定位的至少一个核苷酸。AFLP是用于复杂度降低的高度可重现的方法,并且因此特别适用于依照本发明的方法。在根据本发明的方法的优选的具体实施方式
中,接头或引物包含标签。这对于多态性的实际鉴定(标签对区分衍生自分离的文库的序列而言很重要)的情况下更是如此。在接头或引物中引入寡核苷酸标签是非常方便的,因为其对文库加标签不需要额外的步骤。在另一个具体实施方式
中,标签为标识子序列。如上文讨论的,这样的标识子序列可以根据将要比较的核酸样品的数量而具有不同的长度。大约4个碱基(44=256种可能的不同的标签序列)的长度足以区别有限数量(达256)的样品的来源,尽管优选标签序列在将要进行区分的样品间有一个以上碱基的不同。如需要,标签序列的长度可以相应地调节。在一个具体实施方式
中,在固相支持物,例如珠子上进行测序(参见例如WO03/004690, WO 03/054142, WO 2004/069849, WO 2004/070005, WO 2004/070007,和 WO2005/003375(全部以454公司的名义),其被引入此处作为参考)。这种测序方法特别适合对多种样品同时进行廉价且有效的测序。在优选的具体实施方式
中,测序包括步骤
-退火接头-连接的片段到珠子,退火的各个珠子具有单一的接头-连接的片段;-在油包水微反应器中使珠子乳化,各个油包水微反应器包括单个的珠子;-将珠子加载到孔中,各个孔包含单个的珠子;和-产生焦磷酸信号。在第一步中,测序接头(seqencing adaptor)连接于组合文库中的片段上。所述的测序接头至少包括用于退火到珠子的“关键(key)”区域、测序引物区域和PCR引物区域。由此,获得接头连接的片段。在进一步的步骤中,接头-连接的片段退火到珠子,各个珠子退火使之具有单一的接头-连接的片段。对于接头-连接的片段的集合,加入过量的珠子以确保对于大部分珠子,每个珠子上退火一个单个的接头-连接的片段(Poisson分布)。在下一步中,在油包水的微反应器中珠子被乳化,各个油包水微反应器包含单个的珠子。PCR试剂存在于油包水微反应器中使在微反应器中发生PCR反应。随后,破碎微反应器,并且富集含有DNA的珠子(DNA阳性珠子)。在之后的步骤中,珠子加载于孔中,各个孔含有单一的珠子。所述孔优选为PicoTiter Plate的部分,使得大量的片段同时地测序。加入载酶珠子(enzyme-carrying bead)后,片段的序列用焦磷酸测序检测。在继续的步骤中,皮克滴定板(Picotiterplate)和珠子及其中的酶珠子在常规的测序试剂存在下经不同的脱氧核糖核苷酸处理,并且当掺入脱氧核糖核苷酸时产生可以被记录的光信·号。掺入正确的核苷酸将会产生可以被检测的焦磷酸测序信号。焦磷酸测序本身在本领域是已知的并且除了在www. biotagebio. com;www.pyrosequencing. com/tab technology 上描述外,该技术还进一步在例如 WO 03/004690, WO03/054142, WO 2004/069849, WO 2004/070005, WO 2004/070007 和 WO 2005/003375 (全部以454公司的名义)中使用,其被引入此处作为参考。优选的,步骤k)的高通量筛选通过步骤h)中设计的探针固定于阵列上,之后使含有探针的阵列与测试文库在杂交条件下接触来进行。优选的,接触步骤在严格杂交条件(参见 Kennedy et al. (2003)Nat. Biotech. ;published online 7 September 2003:1-5)下进行。本领域技术人员知道合适的用于探针在阵列上的固定的方法并且也知道在杂交条件下接触的方法。适用于该目的的代表性的技术参见Kennedy et al. (2003)Nat.Biotech. ;published online 7 September 2003:1-5。在多倍体农作物育种中,发现了一个特别有用的应用。通过用具有高覆盖、鉴别性的SNP和不同等位基因和开发用于等位基因特异性扩增的探针进行的多倍体农作物测序,多倍体农作物的育种可以取得显著的进步。作为发明的一部分,为了在此描述的用于有效和高通量的多态性鉴定的方法的进一步改进,已经发现对多种样品采用选择性扩增而生成的随机选择的子集和高通量测序技术的组合存在某些必须解决的复杂问题。更详细地,已经发现当进行复杂度降低后,多个(例如第一和第二或更多的)样品组合于集合中时出现了问题,很多片段似乎源自两个样品或不同的放置,很多鉴定的片段其不能被唯一地指定到一个样品并且因此不能用在鉴定多态性的方法中。这导致方法的可靠性降低并且较少的多态性(SNP,插入/缺失,SSR)可以被充分鉴定。
在仔细而详细地分析不能被指定的片段的全部核苷酸序列后,发现这些片段含有包含两种不同的标签的接头,并且可能是在复杂度降低的样品的生成和测序接头的连接之间形成的。该现象被描述为“混合的标签”。描述为“混合的标签”的现象,如在此使用的,因此指的是这样的片段,一方面所述片段含有与一个样品相关的标签,然而另一方面该片段含有与另一个样品相关的标签。因此,一个片段看起来源自两个样品(不同)。这导致错误的多态性的鉴定并且因此而不被期望。两个样品间的异源双链核酸片段的形成造成这一异常已经被理论化。这一问题的解决方法已经在用于样品转化的策略的重新设计中被发现,其中可以在高通量测序前扩增复杂性被降低的样品的被退火到珠子的片段。在这个具体实施方式
中,各个样品经复杂度降低和任选的纯化。在此之后,使各个样品成为平末端(末端平滑化),之后连接能够退火到珠子的测序接头。然后,样品的测序接头-连接的片段被组合并连接到用于乳液聚合和随后的高通量测序的珠子。作为该发明的更进一步的部分,发现串联体的片段妨碍了正确的多态性的鉴定。 串联体被看作在复杂度降低产物已经被‘钝化(blunting)’或‘平滑化’(例如通过T4DNA聚合酶)后形成的片段,并且代替可以退火到珠子的接头的连接,而相互连接,因此产生串联体,即,串联体是平末端片段的二聚化的结果。在某些特定的经修饰的接头的使用中发现了这个问题的解决方案。由于不具有3’ -5’核酸外切酶校对阅读活性的某些优选的聚合酶的特征,由复杂度降低获得的扩增的片段通常包含3’ -A突出端。上述3’ -A突出端的存在也是为何片段在接头连接之前被钝化的原因。通过提供可以退火到珠子的接头,其中接头含有3’ -T突出端,发现可以在一个步骤中解决‘混合的标签’和串联体这两个问题。用这些经修饰的接头的进一步优点在于可以省略常规的‘末端钝化’步骤和随后的磷酸化步骤。因此,在进一步优选的具体实施方式
中,各个样品的复杂度降低步骤之后,在获自复杂度降低步骤的扩增的接头-连接的限制性片段上进行的一个步骤,由此,测序接头连接到这些片段,其测序接头包含3’ -T突出端并且能够退火到珠子。进一步发现,当在复杂度降低步骤中使用的引物被磷酸化时,可以避免在连接前的末端平滑化(钝化)步骤和中间体磷酸化。因此,在本发明的更优选的具体实施方式
中,发明涉及用于鉴定一个或多个多态性的方法,所述的方法包括步骤a)提供多个目的核酸样品;b)对各个样品进行复杂度降低以提供多个核酸样品的文库,其中复杂度降低通过-用至少一种限制性核酸内切酶消化各个核酸样品以将其片段化为限制性片段;-将获得的限制性片段与具有与限制性片段的一个或两个末端相兼容的一个末端的至少一种合成的双链寡核苷酸接头连接以产生接头-连接的限制性片段;-将所述接头-连接的限制性片段与一个或多个磷酸化的寡核苷酸引物在杂交条件下接触;和-通过一个或更多寡核苷酸引物的延伸扩增所述的接头连接的限制性片段,其中一个或多个寡核苷酸引物的至少一个包括具有与所述接头-连接的限制性片段的末端的链的末端部分相同的核苷酸序列的核苷酸序列,包括用于所述限制性核酸内切酶的参与目标序列的形成的核苷酸并且包括在接头中存在的核苷酸的至少一部分,其中,任选的,至少一种所述引物在其3’末端包括经选择的序列,其包含与用于所述限制性核酸内切酶的参与目标序列的形成的核苷酸紧邻定位的至少一个核苷酸,并且其中接头和/或引物包含标签;c)组合所述文库为组合文库;d)用携带3’ -T突出端的测序接头将能够退火到珠子的测序接头连接到组合文库中的扩增的接头-加帽的片段,并且使珠子-退火的片段进行乳液聚合;e)对组合文库的至少一部分测序;f)比对来自步骤e)中获得的各个样品的序列;g)确定在步骤f)比对中的多个核酸样品间的一个或多个多态性; h)用步骤g)中确定的一个或多个多态性设计探针;i )提供目的核酸的测试样品;j)对目的测试样品核酸进行步骤b)的复杂度降低以提供测试样品核酸的测试文库;k)用步骤h)中设计的探针高通量筛选测试文库以鉴定在步骤g)中确定的多态性的存在、缺失或数量。附图
简述图IA显示了根据本发明退火到珠子(‘454珠子’)上的片段和用于两种胡椒品系的预-扩增的引物序列。‘DNA片段’表示用限制性核酸内切酶消化后获得的片段,‘关键基因接头’表示为用于产生文库的(磷酸化的)寡核苷酸引物提供连接位点的接头,‘KRS’表示标识子序列(标签),‘454 SEQ接头’表示测序接头,并且‘454 PCR接头’表示可以用于DNA片段乳液扩增的接头。PCR接头可以用于退火到珠子和用于扩增并且可以含有3’ -T突出端。图IB显示了复杂度降低步骤中使用的引物的图示。上述引物一般包含(2)所示的识别位点区,可以包括如(I)所示的标签部分的恒定区和在其3’末端如(3)所示的选择性区域中的一个或多个选择性的核苷酸。图2显示了用2%琼脂糖凝胶电泳进行的DNA浓度估测。SI表示PSPll ;S2表示PI201234。对于估测的 SI 和 S2 的 DNA 总量,50、100、250 和 500ng 分别表示 50ng、100ng、250ng和500ng。图2C和2D显示了使用Nanodrop分光光度测定法的DNA浓度检测。图3显示了实施例3的中间质量分析结果。图4显示了序列数据加工管线的示意图,即从测序数据的产生到推定的SNP、SSR和插入/缺失的鉴定的步骤,在修整&加标签的去除已知的序列信息步骤后,得到经修整的序列数据,该数据被聚类&汇编以产生重叠群(contig)和单拷贝序列(不能汇编在重叠群中的片段),之后可以对推定的多态性进行鉴定和评估。图4B进一步详细说明了多态性采集的方法。图5提出了混合的标签的问题并且在图示I中提供了混合标签的例子,携带的标签与样品I (MSl)和样品2 (MS2)连接。图示2提供了该现象的示意性说明。衍生自样品I (SI)和样品2 (S2)的AFLP限制性片段在携带样品特异性标签SI和S2的两个末端与接头("关键基因接头")连接。经扩增和测序后,期望的片段是具有Sl-Sl标签和S2-S2标签的片段。另外的出乎意料地观察到的是携带S1-S2或S2-S1标签的片段。图示3解释了推想的产生混合的标签,由此来自样品I和2的片段形成异源双链核酸产物的原因。随后,由于T4DNA多聚酶或Klenow的3’-5’外切酶活性,使异源双链核酸不具有3’-突出端。聚合过程中,用核苷酸填充该缺口,并且引入错误的标签。该操作针对具有大约相同长度的异源双链核酸(顶部图示)但是也针对具有更多不同长度的异源双链核酸。图示4的左边提供了导致混合的标签形成的常规的实验流程并且在右边提供了改良的实验流程。图6提出了串联体形成这一问题,由此,在图示I中给出了典型的串联体的例子,由此下划线标记不同的接头和标签部分进行并注明它们的来源(即MSI,MS2, ESl和ES2分别对应于来自样品I的MseI限制性位点-接头,来自样品2的MseI限制性位点-接头,来自样品I的EcoRI限制性位点-接头,来自样品2的EcoRI限制性位点-接头)。图示2阐 释了所期待的携带Sl-Sl标签和S2-S2标签的片段和观察到的但并非期望的S1-S1-S2-S2(以来自样品I和样品2的片段的串联体的形式)。图示3为避免生成串联体和混合的标签而推想的解决方案,其包括通过在AFLP接头中引入突出端,修饰的测序接头和连接测序接头时省略末端平滑化步骤。因为ALP片段不能相互连接而发现没有串联体形成,并且因为省略末端平滑化步骤而没有出现混合的片段。图示4提供利用修饰的接头的改良的实验流程以避免串联体形成和混合的标签。图7包含推定的单核苷酸多态性(SNP)的胡椒AFLP片段序列的“ 10037_CL989contig2”多重比对。请注意SNP (通过黑色箭头所示),由通过凭借上面两个读取序列的MSl标签的存在指出的样品I (PSPll)两个读取序列中的A等位基因的存在和通过凭借下面两个读取序列的MS2标签的存在指出的样品2(PI201234)中G等位基因的存在进行定义。读取序列的名称显示于左边。该多重比对的一致的序列为(5’ -3’)TAACACGACTTTGAACAAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACA[A/G]TGTTGGTTTTGGTGCTAACTTCAACCCCACTACTGTTTTGCTCTATTTTTG.图8A用于目标单序列重复(SSR)的富集策略与用于从头SSR发现的高通量测序相组合的图示。图8B:用 SNPWave 检测的胡椒中的 G/A SNP 的确认。Pl = PSPll ;P2 = PI201234。八种RIL后代通过数字1-8表示。
实施例实施例IEcoRI/Msel限制性连接混合物(I)产生自胡椒品系PSP-11和PI20234的基因组DNA。限制性连接混合物被稀释10倍并且5微升各样品用EcoRI+1 (A)和Msel+l (C)引物(组I)预扩增(2)。扩增后,两种胡椒样品的预扩增产物的性质用1%琼脂糖凝胶检测。预扩增产物被20倍稀释,之后进行KRSEcoRI+1 (A)和KRSMseI+2 (CA)AFLP预扩增。下面的引物序列SEQ ID 1-4中将KRS (标识子)片段用下划线标记,并且在所述序列的3’-末端的经选择的核苷酸为粗体。扩增后,两种胡椒样品的预扩增产物的性质用1%琼脂糖凝胶和通过EcoRI+3 (A)和MseI+3 (C) (3) AFLP指纹(4)检测。两种胡椒品系的预扩增产物分别在QiagenPCR柱(5)上纯化。样品浓度在Nanodrop中测量。将全部的5006. 4ng的PSP-11和5006. 4ng的PI20234混合并测序。用于预扩增PSP-Il的引物组IEOILKRSI 5' -CGTCAGACTGCGTACCAATTCA-3' [SEQ ID I]M15KKRS1 5' -TGGTGATGAGTCCTGAGTAACA-3' [SEQ ID 2]用于预扩增PI20234的引物组IIE01LKRS2 5' ~CAAGAGACTGCGTACCAATTCA~3' [SEQ ID 3]M15KKRS2 5' -AGCCGATGAGTCCTGAGTAACA-3' [SEQ ID 4](l)EcoRI/MseI限制性连接混合物限制性混合物(40u I/样品)
权利要求
1.具有3’-T突出端的接头在减少扩增的DNA样品的混合加标签、在减少或者防止DNA 样品的DNA片段的串联体形成,和/或在鉴定核酸样品的多态性的方法中的用途。
2.权利要求I的用途,其中用于减少扩增的DNA中的混合加标签的方法包括下述步骤-提供DNA样品,-用加标签的扩增引物扩增DNA样品来生成加标签的扩增子,-任选地,提供3’ -A突出端到加标签的扩增子的末端,_将具有3’ -T突出端的接头与加标签的扩增子连接。
3.权利要求I的用途,其中用于减少或者防止来自DNA样品的DNA片段的串联体形成的方法包括下述步骤-提供来自DNA样品的DNA片段,-任选地,平滑化DNA片段来提供平末端的DNA片段,-任选地,提供3’ -A突出端到平末端的DNA片段的末端,-连接接头到DNA片段,其中的接头在与片段连接端含有3’ -T突出端。
4.权利要求2或3的用途,其中DNA样品是复杂度降低的DNA样品和/或DNA片段是复杂度降低的DNA片段。
5.权利要求3或4的用途,其中片段用(加标签的)扩增引物扩增而生成扩增子。
6.权利要求2-5中任一项的用途,其中接头连接的片段或扩增子在固相支持物上接受测序。
7.权利要求I的用途,其中用于鉴定核酸样品中的一种或多种多态性的方法包括下述步骤a)提供多个目的核酸样品,b)对每个样品实施复杂度降低,提供核酸样品的多个文库,c)将接头连接到文库中复杂度降低的核酸样品,使用的接头具有3’-T突出端,d)对所述文库的至少一部分进行测序,e)比对获自步骤d)的每个样品的序列,f)测定步骤e)的多个核酸样品间的一个或多个多态性,g)任选地,使用检测探针筛选目的检测样品核酸以鉴定在步骤f)中测定的一个或者多个多态性的存在、不存在或者量。
8.权利要求7的用途,其中检测核酸样品是获自步骤b)的复杂度降低的复杂度被降低的核酸样品。
9.权利要求7或8的用途,其中步骤b)进一步包括对文库加标签来获得经标签的文库的步骤。
10.权利要求9的用途,其中的标签由接头和/或引物提供。
11.权利要求10的用途,其中的标签是标识子序列。
12.权利要求10的用途,其中至少一个引物是被磷酸化的。
13.权利要求7的用途,其中测序包括在固相支持物上测序。
14.权利要求7-13中任一项的用途,其中通过将权利要求7的步骤g)设计的探针固定于阵列,之后通过在杂交条件下将包含探针的阵列与检测文库接触进行筛选。
15.用于筛选富集的微卫星文库的权利要求14的方法的用途,进行转录作谱 cDNA-AFLP(数字化Northern),复杂基因的测序,表达序列标签文库测序(对完整的cDNA 或cDNA-AFLP),危微小RNA发现(小的插入文库的测序),细菌人造染色体(重叠群)测序,批量分离分析法与AFLP/cDNA-AFLP组合,AFLP片段的常规检测(标记辅助回交)。
全文摘要
本发明涉及用于高通量鉴定单核苷酸多态性的方法,该方法通过对两个或多个样本进行复杂度降低以生成两个或多个文库,对所述文库的至少部分进行测序,比对经鉴定的序列并且测定任一假定的单核苷酸多态性,确认任一假定的单核苷酸多态性,产生用于确认单核苷酸多态性的检测探针,对测试样品进行相同的复杂度降低以提供测试文库并用检测探针筛选该测试文库,以检测单核苷酸多态性存在或缺失。
文档编号C12Q1/68GK102925561SQ201210390998
公开日2013年2月13日 申请日期2006年6月23日 优先权日2005年6月23日
发明者M·J·T·范艾克, H·J·A·范德珀尔 申请人:科因股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1