发现表达连接基因的制作方法

文档序号：580504阅读：299来源：国知局

专利名称：发现表达连接基因的制作方法
技术领域：
本发明涉及分子生物学和生物技术领域，更具体地涉及基因组DNA中核酸序列的测序、检测以及鉴定领域。更加具体地说，本发明涉及一种方法在核苷酸序列的鉴定和/或检测中的应用，其中所述核苷酸序列代表基因组中的大部份转录区及其周围区域，并且涉及多种多样的遗传性状、基因和它们的组合。本发明可以用于高通量检测和鉴定来自任何来源，可以是植物、动物、人、人造物或其他来源的分子标记物的领域。
背景技术：
育种技术已从可见性状的简单选择演变成利用分子标记物来检测多基因性状的先进方法。原则上，杂交群体的不同种系之间的每一种遗传差异都能够代表一种改变的性状。然而，由于大多数基因组的复杂性，所以不可能鉴定基因组之间存在的每一种差异并使其关联于特定性状。从理论上讲，对完整的基因组进行测序将揭示基因组之间的所有差异。然而，借助于目前的测序技术，在实践中不可能以时间和成本有效的方式实现上述目的。因此，用于检测遗传差异的方法主要基于复杂度降低的原则，其涉及来自不同个体的有限但完全确定部分的基因组DNA的测序。随着测序技术的发展，对于某些用途如代表所有表达基因序列的转录物组(tnmscriptome)的分析，复杂度降低已变得不那么重要了。然而，真核基因组的大小(几十至数百的巨碱基(百万碱基，megabase)) 仍然超过目前高通量测序技术的能力。此外，在真核生物体中，尤其是在那些具有较大基因组的真核生物体中，绝大多数的基因组DNA并不提供对于育种目的有价值的信息，因为它从未被表达，因而对于性状的表达似乎并没有贡献。因此，为了鉴定分子标记物，集中于那些在更大程度上揭示与性状紧密关联的分子标记物的基因组部分的方法优于仅分析来自包括未表达区域的基因组的随机选择的方法。当基因组大小增加时，这个问题就变得更加突出。所描述的方法使得能够确定代表大部份被表达的基因的编码区的基因组DNA的所选部分以及它们周围区域的序列。不同个体之间的上述所选部分的比较使得能够鉴定在已表达基因内部或附近的多态位点。因为在非编码区中多态性的频率更高，所以当使用目前的技术时能够使更多的多态性与表达基因相关。而且还可以对更多保守基因周围的更大非编码区中的多态性的存在进行分析。这会最终导致发现每种性状的至少一种标记物。本发明的方法使得能够通过启示在不同个体和生物体中、甚至是在具有复杂和较大基因组的生物体中的基因组的明确确定部分而集中于在基因编码区和基因调控区中的SNP检测。核苷酸序列多态性(如SNP)被广泛用于构造基因组图谱。在称作遗传作图的方法中，在将多态性关联于表型以后，上述多态性能够用作标记物辅助育种技术中的标记物从而检测在发育任何阶段的特定表型。通常在基因组DNA中鉴定核苷酸序列多态性。当所有真核生物体的基因组大小远超过能够利用目前的高通量测序技术来分析的核苷酸的数目时，就需要用于复杂度降低的重复性程序来分析整个基因组的选定部分，从而发现在个体之间的能够用于基因组作图的遗传差异。然而，目前使用的复杂度降低方法的统计特性意味着那些方法并不能揭示可以关联于单一表型的在前的(priori)那些遗传差异或是接近于对特定表型有贡献的基因的图谱。出于以下几个原因，目前的技术主要集中于发现单核苷酸多态性(SNP)与任何其他类型的多态性相比，SNP在基因组中存在的频繁更高；SNP能够准确检测纯合等位基因和杂合等位基因；SNP能够应用于高通量用途和许多工业平台，许多工业平台可以在任何所希望的应用规模以较低成本进行SNP检测。就像密切相关个体的保守基因编码区和基因组一样，虽然SNP发现是在发生低水平多态性的情况下会选择的方法，但是由于固有的低水平多态性，利用在密切相关个体中的SNP发现的EST库并不是那么有效。总之，SNP发现方法应理想地揭示物理上关联于感兴趣的性状的所有存在 SNP,而不应受到较低水平多态性(当它们存在于基因组的基因编码区中时)的阻碍或受到对基因组序列知识的任何要求的阻碍。因此，需要一种能够可重复地确定基因组DNA区域中的代表大部份的基因编码区和它们周围区域的相伴序列，而不需要使用先前已知的基因组或转录物组序列的方法。

发明内容
本发明的发明人现已发现一种用于分析生物体的基因组区的方法，该方法包括四个主要部分。第一部分涉及从用于制备小的单链DNA片段的所选生物体分离mRNA，该片段具有一种包含亲和标记的衔接子。这些DNA片段用于第三部分。在第二部分中，分离来自相同或相关生物体的基因组DNA。使该基因组DNA片段化并连接于衔接子分子。在第三部分中，使这些基因组片段与来自第一部分的单链DNA片段杂交，并且在此过程中形成的杂交体用于合成DNA片段。这些片段将用于第四部分，该部分涉及利用可获得的高通量测序方法之一来对这些片段进行测序。因此，用于鉴定样品中的基因组DNA的所述方法包括以下步骤a)从生物体的组织样品分离和纯化mRNA ；b)利用所述mRNA作为模板来合成cDNA ；c)可选地使所述cDNA的复杂度降低；d)使所述cDNA片段化；e)可选地选择所述片段的大小；f)可选地通过结合于链霉亲和素包裹的亲和珠除去包含多聚腺苷酸的片段；g)抛光cDNA的所述片段；h)所述片段与包含稀有限制酶的识别位点的一种衔接子和包含生物素标记的另一种衔接子连接；i)可选地选择所述片段的大小；j)所述片段的缺口修复；k)选择包含两种衔接子序列的所述片段；1)对步骤h中描述的所述衔接子序列退火，利用引物来扩增所述片段，其中一种引物与具有稀有限制位点的衔接子互补而另一种引物包含生物素标记；m)使所述片段结合于链霉亲和素包裹的亲和珠；η)利用来自所述片段的相应的限制酶，除去包含所述稀有限制位点的衔接子；ο)通过生物素-链霉亲和素相互作用，从借助于生物素-链霉亲和素相互作用附着于亲和珠的双链DNA片段除去未附着于亲和珠的单链，从而产生结合于链霉亲和素亲和珠的DNA的单链；ρ)分离和纯化例如来自步骤a的生物体的基因组DNA ；q)所述基因组DNA的片段化；r)可选地抛光所述基因组DNA ；s)所述基因组DNA与一种单一类型的衔接子或与两种不同类型的衔接子(优选的)连接； t)将所述基因组DNA解链成单链DNA ；u)使来自步骤t)的基因组DNA与来自步骤ο)的在珠上的cDNA杂交；ν)通过洗涤除去未结合的基因组DNA ；w)通过聚合酶来延伸所述cDNA-基因组DNA杂交体以产生双链模板；χ)对所述基因组DNA-cDNA杂交体进行PCR ；y)通过大小分级，从所述PCR选择大于约100个碱基对的片段；ζ)可选地纯化所述片段；aa)对所述片段进行高通量测序。在另一种实施方式中，该方法被扩展成用于鉴定多态性的方法，包括根据权利要求所述方法的所有步骤并且另外包括来自两个或更多样品的序列数据以鉴定多态性。定义在以下描述和实施例中使用了若干术语。为了提供对说明书和权利要求(包括给定术语的范围)的明确和一致的理解，提供了以下定义。除非本文另有规定，所使用的所有技术和科学术语都具有与本发明所属领域技术人员所通常理解的相同的意义。所有出版物、专利申请、专利以及其他参考文献的全部内容以引用方式结合于本文。核酸根据本发明的核酸可以包括嘧啶和嘌呤碱基的任何聚合物或低聚物，分别优选为胞嘧啶、胸腺嘧啶、和尿嘧啶，以及腺嘌呤和鸟嘌呤(参见Albert Llehninger， Principles of Biochemistry, at793_800 (Worth Pub. 1982))。本发明也包括任何脱氧核糖核苷酸、核苷酸或肽核酸成分、以及它们的任何化学变体，如这些碱基的甲基化、羟甲基化或糖基化形式等。上述聚合物或低聚物的组成可以是异质或同质的，并且可以分离自天然存在的来源或可以人工合成产生。此外，核酸可以是DNA或RNA、或它们的混合物，并且可以永久或过渡性地以单链或双链形式存在，包括同源双链、异源双链、以及杂交状态。SNP单核苷酸多态性是当基因组中的单个核苷酸(A、T、C、或G)在物种的成员之间(或在个体的成对染色体之间)在特定基因座处不同时所发生的DNA序列变异。SNP是遗传变异的最常见类型。SNP可以在基因的编码序列、基因的非编码区、或基因之间的基因间隔区中。由于遗传密码的简并性，编码序列内的SNP未必会改变所产生的蛋白质的氨基酸序列。其中两种形式均导致产生相同多肽序列的SNP被称作同义的，而如果产生了不同的多肽序列，则称其为非同义的。因为SNP是进化上保守的，所以它们可以用作数量性状遗传位点(QTL)分析的标记物以及用于关联研究。内含子内含子是基因的非编码部分，其在剪接的过程中被从mRNA前体除去以产生功能mRNA。外显子外显子是被转录到最后的信使RNA(mRNA)分子而不是像内含子一样被从转录RNA分子剪接掉的基因中DNA的任何区域。cDNA cDNA是人造形式的 DNA,其利用RNA分子作为模板通过逆转录酶合成。基因组DNA:术语基因组DNA是指DNA来源于“本身”的情况。这意味着，当在自然界被发现时，基因组DNA所具有的序列，例如包括内含子和调控序列。基因组 DNA可以来自不同的来源，如染色体，但也可以源自染色体外的来源如线粒体、叶绿体以及质粒。Cot-I DNA:用来确定任何基因组的序列复杂度的技术，包括DNA的变性和复性。通过加热使DNA变性并且这会使氢键解链并使DNA成为单链。如果快速冷却 DNA,则DNA仍然是单链。但如果能够使DNA缓慢冷却，则互补的序列将彼此发现并最终再次成为碱基对。DNA重退火(复性的另一术语)的速率是从其分离DNA的物种的函数，也称为“Cot”曲线。具有高Cot值的DNA是高度重复的DNA，而具有低Cot 值的DNA仅可获得低拷贝或是唯一的。在该方法中，我们使用Cot值为1的DNA，其是被富集以用于高度重复DNA序列的总基因组DNA的一部分。标注cDNA序列的标注包括两个步骤。将所获得的序列与如可由(公共)数据库中获得的核苷酸和/或氨基酸序列比较。用于比较目的的序列比对方法在本领域是众所周知的。通常借助于程序来进行这种比较，如由Altschul etal.，1990)描述的NCBI碱基局部对准检索工具(Basic Local Alignment Search Tool, BLAST)。该程序可获自若干来源，包括国家生物信息中心(National CenterforBiological Information，NCBI, Bethesa, Md.)和因特网(HTTP://www.ncbi.nlm.nih.gov/BLAST/)。该程序比较所鉴定的 cDNA/ EST (已表达序列标志)序列和数据库中存在的序列，并基于某个评分和概率参数来提供结果。该程序能够选择那些具有所述概率参数的某个预定下限的cDNA/EST序列。然后在第二步骤中为所选择的cDNA/EST序列提供标注(即，连接于数据库中存在的序列)。这种类型的标注被称作“电子标注(electronic annotation) ”。成簇术语“成簇”是指通过成对比较两个或多个核苷酸序列并选择相同或类似核苷酸的短或长的延伸的存在来收集具有相似性的序列的集合的构建。如下文将进一步解释的，用于比对核苷酸序列的若干种方法在本领域是已知的。有时术语“装配”或
“序列比对”作为同义词使用。标识符(Identifier)能够被加入到衔接子或引物中或包括在其序列中或用作标记以提供独特的标识符的短序列。这样的序列标识符可以是不同长度但确定长度的仅用于鉴定特定核酸样品的独特的碱基序列。例如4bp的标签能够获得44 = 256种不同的标签。典型的实例是ZIP序列，在本领域是已知作为用于通过杂交进行的独一检测的 (uniquedetection)常用标签(Iannone etal.Cytometry39 131-140, 2000) 利用这样的标识符，在进一步处理以后，可以确定PCR样品的来源。在合并源自不同核酸样品的已处理产物的情况下，通常利用不同的标识符来鉴定不同的核酸样品。
测序术语测序是指确定核酸样品(例如DNA或RNA)中核苷酸的次序(碱基序列)。高通量筛选，经常缩写为HTS，是一种用于具体涉及生物学和化学领域的科学实验的方法。通过现代机器人和其他专门的实验室硬件的结合，使得研究人员能够同时有效地筛查大量的样品，更具体地说，这是一种如在本文其他地方所披露的测序技术(来自 454 Life Sciences, www.454.com 以及 Illumina, www.illumina.com)。例如，Illumina Solexa测序方法依靠随机片段化基因组DNA附着于平面的、光学透明表面和固相扩增以产生具有> 1千万个簇的超高密度测序流动池，每个簇包含 1,000个模板的拷贝/平方厘米。利用通过合成的强的四色DNA测序技术(robustfour-color DNA sequencing-by-synthesis technology)来测定这些模板的序列，其中上述技术采用具有可去除荧光的可逆终止子。这种方式能够确保高精度和避免具有同聚重复序列的人为构造。利用激光激发和全内部反射光学装置来实现高灵敏度荧光检测。限制性内切核酸酶限制性内切核酸酶或限制酶是一种识别双链DNA分子中的特定核苷酸序列(靶位点)，并在位于每个靶位点处或在每个靶位点附近剪切DNA分子的两个链的酶。限制片段通过用限制性内切核酸酶消化所产生的DNA分子称作限制片段。通过特定限制性内切核酸酶，任何给定的基因组(或核酸，不论其来源)都将被消化成限制片段的离散集(discrete set)。来自限制性内切核酸酶剪切的DNA片段可以进一步用于各种技术并且能够例如通过凝胶电泳加以检测。连接作用由连接酶催化的酶促反应被称作连接作用，其中两个双链DNA分子被共价连接在一起。通常，两条DNA链共价连接在一起，但还可以通过链末端之一的化学修饰或酶修饰来防止两条链中的一条进行连接。在该情况下，共价键连接将仅发生在两条DNA链中的一条中。合成寡核苷酸优选具有约10至约50个碱基并且能够化学合成的单链DNA分子称作合成寡核苷酸。总的说来，这些合成DNA分子被设计成具有独特的或所期望的核苷酸序列，虽然可以合成具有相关序列的分子的家族并且其在核苷酸序列内的特定位置具有不同的核苷酸组成。术语合成寡核苷酸将用来指具有所设计的或所期望的核苷酸序列的DNA分子。衔接子具有有限数目的碱基对(例如长度为约10至约30个碱基对)的短双链 DNA分子，其被如此设计以致它们能够连接于限制片段的末端。衔接子通常由两个合成寡核苷酸构成，上述两个合成寡核苷酸具有彼此部分互补的核苷酸序列。当在适当条件下在溶液中混合上述两个合成寡核苷酸时，它们将退火以彼此形成双链结构。在退火以后，衔接子分子的一端被设计为与限制片段的末端相容并且可以与其连接；衔接子的另一端可以被设计为不能被连接，但这种情况是不需要的(双连接衔接子)。具体地说，在本发明中，衔接子是双链DNA分子，通常为15至60个碱基对，其能够通过退火两个(部分)互补寡核苷酸来制备。本文使用的衔接子可以是平端，或具有特异性突出端，用于与具有互补突出端的DNA分子发生连接作用，如那些通过限制性内切核酸酶消化所产生的衔接子。衔接子可以具有在另一端上的另外的、非相容的突出端，其不能连接于平端 DNA片段并且不能连接于具有通过II型限制性内切核酸酶产生的特异性突出端的DNA，从而防止多个衔接子彼此之间的连接作用。
衔接子提供了在PCR期间的引物的退火位点，以在单一的PCR反应中扩增连接于衔接子的不同DNA片段。连接于cDNA分子的衔接子之一可以携带II型限制性内切核酸酶识别序列以在结合于固相以后将衔接子从cDNA分子剪切掉。衔接子-连接限制片段已被衔接子加帽的限制片段。弓丨物一般说来，术语引物是指DNA链，其能够引发DNA的合成。在没有引物的情况下，DNA聚合酶不能从头合成DNA:它仅能在其中使用互补链作为模板的反应中延伸现有DNA链以指导待装配核苷酸的次序。我们将涉及在聚合酶链反应(PCR)中用作引物的合成寡核苷酸分子。DNA扩增术语DNA扩增将通常用来指利用PCR或可比较的扩增系统来体外合成双链DNA分子。注意到，存在其他扩增方法并且它们可以用于本发明。原则上，本发明的方法可以通过利用任何核酸扩增方法来实施，如聚合酶链反应(PCR ； Mullis 1987，美国专利第4,683,195号、第4,683,202号和第4,800,159号)，或通过利用扩增反应如连接酶链反应(LCR ； Barany 1991，Proc.Natl.Acad.Sci.USA 88 189-193 ； EP Appl.No.，320,308)、自动维持序列复制(3SR ； Guatelli et al.，1990，Proc.Natl.Acad.Sci. USA87 1874-1878)、链置换扩增(SDA ；美国专利第5,270,184号和第5,455,166号)、转录扩增系统(TAS ； Kwoh et al., Proc.Natl.Acad.Sci.USA 86 1173-1177)、Q-β 复制酶 (Lizardietal., 1988，Bio/Technology6 1197)、滚环扩增(RCA ；美国专利第 5,871,921 号)、基于核酸序列的扩增(NASBA)，裂解酶片段长度多态性(美国专利第5,719,028 号)、等温及嵌合引物引发的核酸扩增(ICAN)、分枝-延伸扩增方法(RAM;美国专利第5,719,028号以及第5,942,391号)、或用于扩增DNA的其他适宜方法来实施。为了扩增相对于一种或多种扩增引物具有小数量的错配的DNA，可以在降低的严格性的条件(例如，利用38°C的退火温度、或在有3.5mM MgCl2存在条件下的PCR扩增)下进行扩增反应。本领域技术人员将能够选择适宜严格性的条件。抛光(也称作末端修复)是指非平端DNA转化成平端DNA。在有Mn2+存在的条件下，借助于DNA酶I，基因组DNA(gDNA)模板的抛光消化会产生DNA片段，这些片段是平端的或具有包含长度为一个或两个核苷酸的突出端。类似地，通过机械方式的DNA的片段化提供了具有平端或突出端的片段的组合。这些
DNA片段，不管是促酶方式或机械方式产生的，都可以利用以下描述的程序加以“抛、j, ”
JC 。在一种方法中，可以通过用单链特异性外切核酸酶，如BAL32核酸酶或Mung Bean核酸酶处理3’ -突出片段来进行抛光。通常，在使用前，应校准核酸酶。在另一种方法中，借助于Pfo DNA聚合酶或借助于其他DNA聚合酶如T4DNA 聚合酶或Klenow DNA聚合酶来产生平端。Pfo “抛光”或平端化能够用来增加在用 DNA酶I进行基因组模板消化以后所产生的平端物质的数目。Pfo DNA聚合酶填充到 5'突出端。另外，PfuDNA聚合酶呈现3'至5'外切核酸酶活性。因此，该酶可以用来除去单核苷酸和双核苷酸延伸以进一步增加可用于衔接子连接作用的平端DNA片段的数目(参见例如，Costa, G.L.andM.P.Weiner, 1994, Protocols for cloning and analysis of blunt-endedPCR-generated DNA fragments.PCR Methods Appl 3 (5) S95 ； Costa, G.L.,A.Grafsky and Μ.P.Weiner, 1994, Cloning and analysis ofPCR-generated DNA fragments. PCR Methods Appl 3 (6) 338 ； Costa, G.L.and M.P.Weiner, 1994，Polishing with T4 or Pfu polymeraseincreases the efficiency of cloning of PCR products.Nucleic Acids Res.22 (12) 2423)。本发明的发明人已发现，通过提供基因组DNA和通过利用来自衔接子-连接 cDNA的片段作为用于扩增基因组DNA片段的引物，能够检测在实际被转录的区域之外的基因组序列，即启动子、内含子以及终止子序列。因此它结合了在基因组的已表达区快速鉴定基因组DNA片段的可能性，其中在单次运行中可以实施多个样品的测序，研究这些区的周围的基因组DNA片段的可能性，以及在基因编码片段、内含子片段以及包括调节基因组序列的片段中检测遗传变异的可能性。其他的优点在于，本发明的方法是普遍适用的，即用于所有生物体。事前不需要关于基因组或基因组组织的信息。另一个优点在于，在本发明的方法中不需要克隆步骤。这使得能够对编码毒性物质或调节蛋白的序列进行测序，否则这将是不可能实施的，因为在其体内克隆和表达上述序列的宿主生物体将不能生存或难以生存。在同样的意义上，在克隆中产生问题的序列现在就能够处理，并且对序列的长度没有限制，序列的长度对克隆的进度也会引起问题。其他的优点在于，本发明的方法并不需要全长CDNA，而是可以使用更短的序列。当分析较大基因组(例如来自鳞茎植物)时，这是特别有用的，因为可以保持集中于基因组的最感兴趣的或最相关的区域。下一个优点在于，借助于本发明的方法，可以产生所有已表达DNA序列的引物，这意味着能够从已表达的序列获得基因组数据。

图1 从mRNA产生小单链DNA分子的示意图。C是衔接子，D是不同的衔接子，B是生物素，P是磷酸基团，bp是碱基对，ds是双链，ss是单链，RE是限制酶，SA 是链霉亲和素，LD-PCR是长距离PCR，按照生物化学国际联盟命名委员会(NC-IUB)的用于核苷酸的命名规则NBAiJ和NVTi3t0是用于核苷酸的单字母编码，Ai3t0和分别指30个A和30个T的一段序列。图2 是示出了基因组DNA的片段的产生以及随后与来自mRNA(图1)的小单链DNA分子杂交的示意图。在若干步骤以后，获得DNA片段，能够利用高通量测序方法对所获得的DNA片段进行测序。C和D是同样示于图1中的衔接子。E和F是不同的衔接子，B是生物素，bp是碱基对，ds是双链，ss是单链以及SA是链霉亲和素。图3:示出了非磷酸化A和B衔接子连接于磷酸化、抛光的双链基因组DNA片段的末端。A和B衔接子在核苷酸序列以及在B衔接子上存在5’生物素标签方面均不同。缺口存在于每个衔接子的3’ -接头处并且通过Bst DNA聚合酶的链置换活性来充填片段。利用链霉亲和素-生物素相互作用来除去旁侧有纯合衔接子集(A/A和B/B)的片段并产生单链文库模板。使片段结合于链霉亲和素珠；未结合材料(由纯合A/A衔接子集构成，其缺乏生物素)被冲洗掉。然后使固定的片段变性；B/B片段的两个链仍然通过生物素化B衔接子被固定，而A/B片段被洗涤成游离片段并用于随后的步骤。
图4: ELGD图解实例1、2以及3。图片A是实例1。苹果基因组序列 FRA8S6E02IN5QW> 苹果 EST 重叠群 cg8984st_846_7 以及拟南芥(Arabidopsis thaliana) 基因AT1G70160(未按比例绘制)的序列比对的示意图。仅示出了 AT1G70160的有关 3，_部分。内含子表示为FRA8S6E02IN5QW和AT1G70160中的白盒。剪接内含子显示为Cg8984st_846_7中的细线。以黑色示出蛋白质编码序列(CDS)。以灰色示出3’ -未翻译区。用(A)n表示cDNA序列中的多聚腺苷酸尾。图片B是实例2。苹果基因组序列FRA8SE02HOH39和苹果EST重叠群cgl2357st_1428_21 (未按比例绘制)的序列比对的示意图。以黑色示出蛋白质编码序列(CDS)。以灰色示出5’ -未翻译区和3’ -未翻译区。用(A)n表示cDNA序列中的多聚腺苷酸尾。图片C是实例3。苹果基因组序列02-H03和苹果EST 91044590 (未按比例绘制)的序列比对的示意图。以黑色示出蛋白质编码序列(CDS)。以灰色示出5’ -未翻译区和3’ -未翻译区。以白色示出基因组序列中的非转录启动子区。
具体实施例方式一方面，本发明涉及用于鉴定样品中的基因组DNA的方法，该方法包括四个不同部分。第一部分.在该部分，由cDNA产生小序列，其将用作第三部分中的引发序列。此部分包括以下步骤a)从生物体的组织样品分离和纯化mRNA ；b)利用所述mRNA作为模板来合成cDNA ；c)可选地使所述cDNA的复杂度降低；d)所述cDNA的片段化；e)可选地选择所述片段的大小；f)可选地通过结合于链霉亲和素包裹的亲和珠来除去包含多聚腺苷酸的片段；g)抛光所述cDNA的片段；h)所述片段与包含稀有限制酶的识别位点的第一衔接子和包含生物素标记的第二衔接子连接；i)可选地选择所述片段的大小；j)所述片段的缺口修复；k)包含两种衔接子序列的所述片段的选择；1)对步骤h中描述的所述衔接子序列退火，利用引物来扩增所述片段，其中一种引物与具有稀有限制位点的衔接子互补而另一种引物包含生物素标记；m)使所述片段结合于链霉亲和素包裹的亲和珠；η)利用相应的限制酶从所述片段除去包含稀有限制位点的衔接子；ο)通过生物素_链霉亲和素相互作用从附着于亲和珠的双链DNA片段除去未附着于亲和珠的单链。此步骤导致产生结合于链霉亲和素亲和珠的DNA的单链。第二部分ρ)例如从步骤a)的生物体分离和纯化基因组DNA ；
q)所述基因组DNA的片段化；r)可选地抛光所述基因组DNA ；s)所述基因组DNA与一种单一类型的衔接子或与两种不同类型的衔接子(优选的)连接；t)将所述基因组DNA解链成单链DNA。第三部分u)使来自步骤t)的基因组DNA与来自步骤ο)的珠上的cDNA杂交；ν)通过洗涤除去未结合的基因组DNA ；w)通过聚合酶来延伸cDNA-基因组DNA杂交体以产生双链模板；χ)对所述基因组DNA-cDNA杂交体进行PCR ；y)通过大小分级分离从所述PCR选择大于约100个碱基对的片段；ζ)可选地纯化所述片段。第四部分aa)根据制造商的说明，利用步骤ζ)中获得的片段实施高通量测序。另外，当已确定基因组DNA的序列时，可以接着进行确定两个或多个样品的序列变化的步骤ab)比较两个或多个样品的数据以鉴定多态性。通过如此处理样品核酸，则能够可重复地分析生物体的基因组区(包括基因编码和连接区)，而无需具有关于生物体的基因组的结构或含量的任何信息。当测序过程能够用于具有标识符的衔接子时，在单次测序运行中就能够结合多个样品。该方法始于从生物体分离和纯化mRNA的样品。如此获得mRNA的样品在当今是常规程序。类似地，对于下一步骤，其中，借助于逆转录酶，由样品中的RNA来制备DNA 拷贝，即所谓的cDNA。该cDNA包含RNA所来自的细胞的转录物组，表现在获得样品时已被转录的总体遗传信息。因此，取决于细胞类型、从其获得细胞的组织、细胞的年龄、细胞的发育期以及环境条件，相同生物体的每个细胞的转录物组将是不同的，甚至当在不同时间和/或不同条件下采样时，从相同细胞也会获得不同的转录物组。在最初样品中的核酸将通常为mRNA的形式。然而，来自其他来源的RNA或DNA也是有用的，如来自基因文库的RNA或DNA。样品中的核酸可以是双链、单链、以及变性成单链DNA的双链DNA。样品可以来自任何生物体，无论植物、动物、合成物或人。应当明了，如果获得了 DNA样品，则不需要逆转录酶反应。尽管样品(如果它来自全细胞mRNA)包含总转录物组，但有时希望仅回收它的子集。这能够通过若干种方式来实现一种可能的方式是基于cDNA的大小来区别，例如通过超速离心作用。该方法的原理称作复杂度降低。用于复杂度降低的其它可选择的方法是例如杂交方法，该方法选择高丰度或非高丰度转录物，或例如用于捕捉特定转录物以从cDNA分子的池除去它们或选择它们用于进一步分析的方法，或例如通过限制酶切消化来产生cDNA分子的库的子集的诸如cDNA-AFLP的方法。在已获得cDNA的所期望的样品以后，cDNA被片段化，这可以通过酶或机械方式来完成。用至少一种限制性内切核酸酶消化核酸样品以提供一组限制片段。在某些实施方式中，两种或多种核酸内切酶可以用来获得限制片段。核酸内切酶可以是多切点酶 (frequent cutter) (3-5bp的识别序列，如Msel)或稀有切点酶(rarecutter) ( > 5bp的识别序列，如EcoRI)。在某些优选实施方式中，稀有切点酶和多切点酶的组合是优选的。在某些实施方式中，尤其是当样品包含或来自相对较大基因组时，可以优选使用第三种酶 (稀有切点酶或多切点酶)以获得更大量的更短尺寸的限制片段。作为限制性内切核酸酶，任何核酸内切酶都能够满足要求。通常，II型核酸内切酶是优选的，如EcoRI、MseL Pstl等。在某些实施方式中，可以使用IIs型内切核酸酶，即其识别序列的位置远离限制位点的内切核酸酶，如Acelll、BbvL BbvIK BbsL Bed、Bce83I、Bcefl、BcgL BinL BsaL BsgL BsmAK BsmFL BspMK Esp3I、FauL Fokl、Gsul、Hgal、MboII、Mmel、MnII、Sapl、SfaNI、TaqJI 以及 Zthll III。可以通过剪切cDNA来进行机械片段化，其中剪切的严格程度和持续时间确定了片段化的量。一种这样的剪切方法是雾化。雾化器是一种小型塑料装置，其使用压缩空气来使液体雾化。它们很容易适用于剪切DNA，并且其使用非常有效和简单 (Surzycki, S., 2000, Basic Methods in Molecular Biology, NY—Springer Verlag)。它们可以从不同来源商购获得(例如Invitrogen Corporation)。也可以可选地通过尺寸选择对这种片段化DNA实施复杂度降低。可选地，可以通过片段的尺寸选择来获得复杂度降低，例如通过电泳。另外或可替换地，可以通过结合于链霉亲和素包裹的亲和柱来除去多聚腺苷酸片段。在该方法的下一步骤中，利用一种还称作‘抛光’的方法使CDNA片段形成平端。插入抛光(insert polishing)用来除去3个引发突出核苷酸(prime overhang nucleotide) 或充填5个引发突出核苷酸，其来自所产生的限制酶、PCR产生的DNA片段或剪切的 DNA片段。用于抛光的试剂盒可商购获得(例如Quick blunt kit，NewEngland Biolabs Inc.) ο在本发明方法的下一步骤中，通过连接反应，CDNA片段具有有衔接子。在该反应中，将两种不同类型的衔接子连接于cDNA片段的混合物。一种衔接子携带生物素标记。另一种衔接子包含II型限制酶的限制位点，其中上述II型限制酶在其识别序列的外面进行切割。上述II型限制酶的一个实例是Sapl，其识别GCTCTTCNNNN序列。该酶在NNNN序列中进行切割，在5’端留下NNN突出。如此，可以从片段中除去包含限制识别序列的完全衔接子序列。重要的是，使用一种稀有切点酶来防止由于在片段DNA 中更频繁发生的识别序列所引起的片段的缩短。而且，在这个阶段，可选地可以依据它们的尺寸并通过例如电泳来选择片段。在衔接子连接于片段以后，对片段进行缺口修复，以充填在DNA骨架中由衔接子的连接作用产生的任何间隙。如在M.Marguliesetal.in Nature 437，第 376-380 页，2005 的出版物中的补充图 1
中所描述的(图3)，可以选择仅包含两种衔接子的片段。然后可以扩增包含两种衔接子的片段。在此步骤中，用一种退火杂交到互补衔接子序列之一的引物并连同另一种携带退火杂交到另一种互补衔接子序列的生物素分子的引物，来进行PCR扩增反应。在利用此组引物进行扩增步骤以后，在链霉亲和素亲和珠上捕捉扩增的双链DNA片段，同时从反应混合物除去其他反应产物。
在下一步骤中，用不对称核酸内切酶处理在5'端和3'端具有不同衔接子序列的结合的DNA片段，其中上述不对称核酸内切酶以从片段的一端除去完全衔接子序列的方式切割片段(如前所述)，从而提供完全互补于基因组DNA的一个片段末端。在这种限制步骤以后，在碱性条件下，通过洗脱从珠除去自由单链形式的片段，从而产生结合于链霉亲和素珠的一组单链核酸片段。一种用于从双链片段产生单链片段的可替换的方法是用λ外切核酸酶进行处理。λ外切核酸酶从双链DNA分子降解那些具有磷酸化5' 端的链，从而留下具有完整的5' OH末端的单链。因为片段的5’端之一受到结合于链霉亲和素的生物素标记的保护，所以用λ外切核酸酶的处理还产生结合于链霉亲和素珠的单链DNA片段。这些单链DNA片段将用于后面的步骤。在以上描述的步骤以后，在第二部分中，从生物体分离基因组DNA。上述生物体可以与从其分离mRNA的生物体相同(在相同或不同条件下进行培养)或可以是不同生物体(不同品种、不同物种)并且甚至可以是基因组DNA的集合(例如BAC克隆文库)。用于分离基因组DNA的程序在本领域中是标准的并且例如由Ausubel等所描述(Preparation of genomic DNA from plant tissue, Ausubel et al.， eds.Current Protocols in Molecular Biology.John Wiley& Sons，Inc.Budelier.1993，pp.2.3.1-2.3.7)。在分离以后，通过如上所述的酶或机械的片段化程序来片段化基因组DNA。如果使用了限制酶消化，则获得的片段具有衔接子，该衔接子在片段末端的不同限制位点突出端配对。附着于基因组DNA片段的衔接子分子具有不同于附着于第一部分的源自cDNA的片段的衔接子分子的序列。如果使用了机械片段化，则不同衔接子被连接于基因组DNA片段，并且按照先前针对cDNA片段所描述的程序(例如，可以使用抛光步骤)来选择在5'端和3'端具有不同衔接子的片段。可替换地，还可以将一个单个衔接子连接于基因组片段。在这种情况下，具有突出(柄，panhandle)的衔接子序列可以用来防止在后续的步骤中的非特异性扩增(DH Jones and S C Winistorfer, PCR Methods Appl. 19932 197-203)。如上所述，片段化的基因组DNA片段可以是可选地尺寸选择的片段。为了获得单链基因组DNA片段，提供了解链步骤。在如此提供片段化基因组单链DNA的适当样品以后，混合优选摩尔过量的来自第一部分并携带具有生物素标记(其可以可选地结合于链霉亲和素亲和珠)的单衔接子分子的单链cDNA片段，其用于杂交于携带不同衔接子分子的片段化基因组DNA(第3部分)。在变性步骤以后，施加退火条件以便于形成杂交双链基因组DNA-cDNA分子。杂交程序可以包括借助于非片段化cDNA(没有衔接子)的短期预退火，以通过降低来自高丰度转录物的更高浓度的cDNA片段的影响来使杂交反应正常化。作为一种可选的改进，Cot-I-DNA可以用于预退火步骤以减少由基因组DNA中的序列重复引起的可能的异常。在此步骤中，在与所采样的mRNA同源或与所采样的mRNA相同处，cDNA片段会退火成基因组DNA。在通过聚合酶延伸cDNA-基因组DNA杂交体以后，制得双链模板。现在可以利用一种互补于cDNA衔接子的引物和另一种互补于基因组DNA衔接子之一的引物通过PCR反应来扩增退火的双链片段。可选地，可以将经退火的材料分离成两种分开的部分，以同样使用cDNA衔接子和互补于基因组DNA衔接子的其他引物。该扩增提供了 PCR片段，这些片段不仅包含对应于部分的最初采样的核酸的基因组DNA 的拷贝，而且包含非转录序列，如调控序列和内含子。在 PCR扩增以后，通过尺寸分级分离，选择大于100个碱基对的片段，更优选大于约200个碱基对，甚至更优选大于约300个碱基对以及最优选约400个或更多碱基对。可选地，按照满足本发明方法的下一部分的要求来纯化这些片段。在下一部分(第4部分)，对所述片段进行测序。扩增的衔接子_连接片段的测序提供了关于至少部分衔接子-连接片段和3’旁侧基因组序列的序列信息。如果衔接子携带样品特异性标签，则包含在来自衔接子的部分中的信息包含关于从其获得片段的样品的信息，而来自片段本身(标识符序列)的序列信息提供了关于片段的信息并且能够用于片段的鉴定。关于片段的序列信息用来以一定精度鉴定片段，其精度取决于被确定的核苷酸的数目以及在扩增衔接子_连接片段的组中片段的数目。为了解决在样品之间转录频率的采样变化问题，其会影响鉴定包含在一组多个片段中的分子标记的准确性(通过测序)，本发明的发明人还已发现，优选在足够冗余度 (深度)的情况下，经测序来检测标记，所有片段至少采样一次，并与统计学方法结合，其解决与所称的基因型的准确性有关的采样变化问题。为了增加准确性，优选在测序步骤以前进行扩增步骤。在扩增的充分循环以后，扩增的衔接子-连接限制片段的冗余度至少为6，优选至少为7，更优选至少为8且最优选至少为9。因此，在优选实施方式中，每个衔接子-连接限制片段被至少6倍，优选至少7 倍，更优选至少8倍且最优选至少9倍地测序。在某些实施方式中，这样选择冗余度(假设正确地鉴定基因座为纯合的50/50总机会)以使得正确鉴定基因座的机会大于95%、 96%, 97%, 98%, 99%, 99.5%。衔接子-连接限制片段的扩增导致产生一组扩增衔接子-连接限制片段，有时称作扩增子。使扩增子(或至少部分扩增子)进行至少包括确定样品特异性标识符的序列以确定片段和限制片段的部分序列的来源的步骤。在实践中，这还包括确定位于如限制性内切核酸酶的其余识别序列之间的部分。通过测定样品特异性标识符和靠近衔接子来源序列的部分片段的序列，能够唯一地确定限制片段和它们的3’旁侧基因组序列。根据此信息，能够恢复完全基因的基因组遗传信息。本发明中使用的高通量测序是用于尤其与生物学和化学领域相关的科学实验的方法。优选的是，利用高通量测序方法来进行测序，如在W003/004690、WO 03/054142、WO 2004/069849、WO 2004/070005、WO 2004/070007、以及 WO 2005/003375(均以 454 Life Sciences 命名)中所描述的方法，由 Seo 等(2004)Proc.Natl. Acad.Sci.USAlOl 5488-93、以及 technologies of Helios，Solexa, US Genomics 所描述的
方法等，它们均以引用方式结合于本文。所描述的技术允许在单次运行中测定4千万碱基的序列并且比竞争技术更快速且便宜100倍。该测序技术大致包括5个步骤1)DNA的片段化和特异性衔接子的连接作用，以产生单链DNA(ssDNA)的文库；2)将ssDNA退火到珠，在油包水微反应器中乳化珠并进行乳液PCR，以扩增珠上的单独的ssDNA分子；3)选择或富集在其表面上包含扩增的ssDNA分子的珠；4)在PicoTiter(TM)Plate中沉积携带DNA的珠；以及5)通过产生焦磷酸光信号在100,000个孔中同时测序。下文将更详细解释该方法。在这方面，以下计算可以是说明性的如本文别处所描述的Illumina Solexa的测序技术提供每个约25bp的40,000,000个读数，在一个单次运行中达到令人吃惊的十亿 bp。假设在采样中10倍的丰度(redundancy)，则在一次运行中能够评估4,000,000个独特的片段。结合100个样品则能够对每个样品实施40,000个片段的测序。在一种优选实施方式中，测序包括以下步骤(a)将适合的片段退火到珠，每个珠与单个适合的片段退火；(b)在油包水微反应器中对珠实施乳化，每个油包水微反应器包含单个珠；(C)在孔中装载珠，每个孔包含单个珠；并产生焦磷酸信号。在第一步骤(a)中，将测序衔接子连接于组合文库中的片段。所述测序衔接子至少包括用于退火到珠的“关键”区、测序引物区以及PCR引物区。因此，获得适合的片段。在第一步骤中，将适合的片段退火到珠，每个珠与单个适合的片段退火。向适合的片段的池加入过量珠，以确保对于大部份的珠来说每个珠退火一种单适合的片段(泊松分布)。在下一步骤中，在油包水微反应器中对珠实施乳化，每个油包水微反应器包含单个珠。PCR试剂存在于油包水微反应器中，以使得能够在微反应器内发生PCR反应。随后，打破微反应器，并富集包含DNA的珠(DNA阳性珠)。在接下来的步骤中，将珠置于孔中，其中每个孔包含单个珠。孔优选为 PicoTiter(TM)Plate的一部分，以便于同时对大量片段进行测序。在添加携带酶的珠以后，利用焦磷酸测序来确定片段的序列。在连续步骤中，在有常规测序试剂存在的条件下，对PicoTiter(TM)Plate和珠以及其中的酶珠提供不同的脱氧核糖核苷酸，并在加入脱氧核糖核苷酸以后，产生被记录的光信号。正确的核苷酸的加入将产生可检测的焦磷酸测序信号。焦磷酸测序本身在本领域是已知的，尤其描述在www.biotagebio.com ； www. pyrosequencing.com/section technology 中。该技术被进一步应用在例如 WO 03/004690, WO 03/054142、WO 2004/069849、WO 2004/070005、WO 2004/070007、以及 W02005/003375(均以454 Life Sciences命名)中。在本发明中，珠优选配备有引物(结
合)序列或其能够与扩增子结合(视情形而定)的部分。在其他实施方式中，在扩增中使用的引物配备有序列，例如在它们的5'-端，以使得扩增子结合于珠从而便于随后的乳液聚合，接着进行测序。可替换地，在连接于珠或表面以前，扩增子可以与测序衔接子连接。经测序的扩增子揭示了标识符的同一性，因而揭示了样品中是否存在限制性片段。Illumina-Solexa 技术用于高通量测序的方法之一可获自Illumina，United Kingdom (www.illumina. co.uk)，尤其描述在 W00006770、W0002752U W00058507、W00123610、 W00157248, W00157249, W002061127, W003016565, W003048387, W02004018497、W02004018493、W02004050915、W02004076692、W02005021786、 W0200504730U W02005065814、W02005068656、W02005068089 以及 W02005078130中。从本质上讲，该方法开始于基因组DNA的衔接子-连接片段。通常在流动池中，将衔接子-连接DNA随机附着于引物的致密平台(dense lawn)，其中引物被附着于固体表面。衔接子连接片段的另一端与在表面上的互补引物杂交。在所谓的固相桥式扩增中，在有核苷酸和聚合酶存在的条件下延伸引物，以提供双链片段。这种固相桥式扩增可以是选择性扩增。固相桥式扩增的变性和重复导致产生分布在表面上的扩增片段的致密簇。通过向流动池加入四种不同标记的可逆终止子核苷酸、引物以及聚合酶来引发测序。在第一轮引物延伸以后，检测标记，记录首先结合的碱基的种类，以及从结合的碱基除去被阻断的3'末端和荧光基团。然后以相同方式确定第二碱基的种类，并如此继续测序。在本发明中，连接衔接子的限制片段或扩增子经引物结合序列或引物序列结合于表面。如上面指出的确定序列，包括标识符序列和限制片段。目前可以利用的Solexa 技术能够测定约30个碱基对的片段的序列。测序步骤通过衔接子和表面结合引物的智能设计，并通过样品标识符和其余的所使用的限制性内切核酸酶的识别序列的来进行读取。例如，当使用3bp样品标识符和存在其余的稀有切点酶EcoRI(GAACCT)时，7bp 的限制片段的内部序列可以用来唯一地鉴定样品中的限制片段。在一种优选实施方式中，基于上述Illumina-Solexa测序技术，借助于一种引物来实施衔接子连接限制片段的扩增，其中上述引物最多包含在其3'端的一个选择性核苷酸，优选在其3'端没有选择性核苷酸，即引物仅互补于衔接子(+0引物)。在涉及本文描述的测序方法的可替换实施方式中，在扩增中使用的引物可以包含特异性部分(作为本文描述的引物或引物结合序列的替换)，其用于随后的测序步骤以将衔接子_加帽限制片段或扩增子结合于表面。这些特异性部分通常被描述为关键区或 5'-引物相容序列。在本发明的一种实施方式中，用至少一种限制酶消化核酸样品并连接至少一种衔接子，该衔接子包含用于II型限制性内切核酸酶的识别序列。当II型酶的识别和限制位点之间的距离相对较短(多达约30个核苷酸)时，II型限制性内切核酸酶的衔接子_连接限制片段的随后的消化会产生更短和更长的限制片段，可以连接与II型限制位点相容的衔接子。通常，II型限制位点的突出端是未知的，以致于可以使用在突出端简并的一组衔接子。在(选择性)扩增以后，可以测定扩增子的序列。在此实施方式中，衔接子序列通常可以被描述为5'-引物结合位点-样品标识符序列_简并II型粘性末端序列-3'。相关的PCR引物通常为引物序列_样品标识符序列_简并II型粘性末端序列_选择性核苷酸-3'。于是用来引发通过合成的测序的引物通常具有以下结构 5' _引物结合位点-3'。在用II酶消化以后，尺寸选择步骤可以是优选的，以除去较小的片段。如这样的实施方式中，针对这种类型的酶的其余限制位点通常为约2-4bp，这导致在15-17bp的限制片段的测序中与6bp的样品标识符相结合。因此本发明的方法很适合于鉴定属于细胞或生物体的转录物组的基因的调节基因组序列，而不需要细胞和/或从取得细胞的生物体的任何初始序列信息或先前的遗传知识。因此，根据本发明的方法，能够鉴定已表达基因的启动子区、前导序列和其它 5’ UTR区、内含子和外显子、3’ UTR序列以及终止子。因为不涉及克隆步骤，所以还能够确定在克隆步骤中引起问题的基因的基因组序列，例如对宿主生物体有毒性的基因、编码调节蛋白的基因和/或在克隆中会导致问题的基因。另外，基于此信息，能够直接分析与已表达基因的等位基因有关的所有多态性 (包括SNP)，而不管这些多态性发生在基因的编码序列中还是非编码序列中。因此，其能够检测启动子序列中的畸变(其引起基因表达的调节)，能够检测在内含子中具有多态性的突变体(其会引起不同的剪接变体)，等等。为了增加经测序的核酸序列和其中发现的差异的正确解释，可以对经测序的片段或重叠群进行自动标注。类似地，所获得的序列信息可以用来将上述序列和来自EST文库的序列进行比较。通过这种方式，可以鉴定内含子序列或基因内部非编码序列、启动子序列以及 3’ UTR和5’ UTR0 EST文库可以获自相同生物体或获自相关物种。另一方面，本发明涉及试剂盒，借助于试剂盒能够实施本发明的方法。除了用于扩增试剂盒本身的常规组件，如dNTP、聚合酶等，所述试剂盒还包括一种或多种衔接子和可选的一种或多种互补于所述衔接子的引物、连接酶和/或专门用于切割衔接子的限制酶。另外，试剂盒应提供使用说明书，其中包括用于实施本发明的方法的说明方案。另外，除其它以外，本发明还可以应用于鉴定分子标记物的方法、用于基因分型、大量的分离分析、遗传作图、标记物辅助回交(marker-assisted back-crossing)、数量性状基因座的作图、连锁不平衡作图、以及甲基化模式的确定。实施例cDNA 程序RNA分离和cDNA合成按照Chang等(1993)的方法，总RNA分离自苹果(Malus xdomestica,栽培品种 Kanzi)的皮。苹果来自4个不同的果园并在2007年的5个不同时间点(从8月初直到9 月底)采摘。将来自这些20个样品的等量的总RNA汇集成一个样品并根据制造商的说明书使用试剂盒RNeasy Plus Micro Kit(QIAGEN，Hilden,德国，74034)加以纯化，以除
去基因组DNA污染物。用2yg总RNA作为输入来合成cDNA的第一条链，其中根据制造商的说明使用Mint cDNA合成试剂盒(Evrogen，Moscow，俄罗斯，SK001)。使用最佳18次循环的Mint cDNA合成试剂盒通过PCR扩增来合成双链(ds) cDNA。利用QIAquick PCR 纯化柱(QIAGEN，28104)纯化获得的ds cDNA并通过分光光度法测浓度。用1 %琼脂糖凝胶分析cDNA。ds cDNA的范围为200至2000bp。cDNA平头化、磷酸化、连接以及雾化利用试剂盒Quick Blunting Kit (New England Biolabs，Ipswich, MA, USA,
E1201S)来平头化和磷酸化ds cDNA。将38 μ 1 cDNA(8 μ g)与5 μ 1 IOx平头化缓冲液 (blunting buffer)、5 μ 1 ImM脱氧核苷酸溶液混合物以及2 μ 1平头化酶混合物混合，并在
室温下温育30分钟，接着在70°C下温育10分钟。随后，通过将48 μ 1这种cDNA平头化混合物与10 μ 1 10xT4DNA连接酶反应缓冲液、5 μ 1 T4 DNA 连接酶(二者均来自 NewEngland Biolabs, M0202S，400,000U/ml)、 25 μ 140% (w/v)聚乙二醇8000以及12 μ 1水混合来对其进行连接。在室温下温育连接混合物2小时并通过琼脂糖凝胶分析来证实连接。通过在65°C下温育10分钟来灭活T4 连接酶。通过雾化，对连接CDNA进行剪切。将ΙΟΟμΙ的cDNA连接混合物与650μ1雾化缓冲液(IOmM Tris-HCl、ImM EDTA> 50%甘油、ρΗ 8.0)混合，然后将其转移到雾化器(Invi trogen，Paisley, UK, K7025-05)中。按照制造商的说明，在48psi下并使用氮气 5.0 (Praxair, Danbury, CT, USA)雾化15分钟。在雾化器的短时间离心作用以后，将收集的雾化cDNA转移到微量离心管中并通过添加2 μ 1糖原(Sigma-Aldrich，St.Louis, MO, USA, 20mg/ml, G 1767)、0.1体积的3M乙酸钠ρΗ 5.2和1体积的异丙醇使其沉淀，然后在_80°C下温育10分钟。通过在20,800g下离心15分钟来沉淀cDNA，用70% 乙醇洗涤，干燥，然后溶解在50 μ 1的IOmM Tris-HCl, ImMEDTA, ρΗ 8.0中。cDNA尺寸分级(sizing)和平头化在65°C下温育经剪切的cDNA 10分钟，添加负载凝胶的缓冲液，然后将cDNA 分装在2%琼脂糖凝胶的三(羟甲基)氨基甲烷醋酸盐(TAE)缓冲液的5个槽中(Sambrook et al.，1989)。在电泳以后，利用 GenElute Gel Extraction 试剂盒(Sigma-Aldrich， NAl 111)从凝胶分离100-400个bp的cDNA片段。在凝胶上检查经纯化的cDNA的少量样品并发现浓度较低。因此，将上述cDNA平头化、磷酸化、连接、雾化以及凝胶纯化的步骤重复若干次，其中借助于MintcDNA合成试剂盒获得总共24 μ g的ds cDNA。通过乙醇沉淀浓缩100-400个bp的cDNA片段，然后溶解在19 μ 1分子生物学级水中。通过与来自Quick Blunting 试剂盒(New England Biolabs, E1201S)的 2.5 μ 1 IOx 平头化缓冲液、2.5 μ 1 ImM脱氧核苷酸溶液混合物以及1 μ 1平头化酶混合物混合，然后在室温下温育30分钟，接着在70°C下温育10分钟，使经剪切cDNA的磨损的末端(frayed ends)平头化和磷酸化。随后，利用MinElute :PCR纯化试剂盒(QIAGEN，28004)纯化 cDNA。衔接子连接作用和缺口修复通过退火部分互补寡核苷酸ELTD-引物—C (5，-AGTCCGTCGCATCGCTCTTC-3，)禾口 ELTD_AdC2(5，—GAAGAGCGA TGCGACG-3’ )来制备衔接子ELTD-AdC。此衔接子在一侧是平的而在另一侧具有 4nt(AGTC) 5'-突出，以实现连接于cDNA的方向性并防止多个衔接子与cDNA的连接作用。ELTD-AdC衔接子还包含稀有切割SapI限制位点GCTCTTCN/NNNCGAGAAGNNNN/在该实验方案的之后的步骤中，此限制位点使能够从cDNA除去ELTD-AdC。通过退火部分互补寡核苷酸ELTD-引物-D (5’ -生物素-TEG-AGTGGGTGTCCTGGGTCAAC-3，)禾口 ELTD_AdD2 (5，—GTTGACCCAGGA CACC-3’)来制备衔接子ELTD-AdD。此衔接子在一侧还具有4nt(AGTG) 5’ -突出端，其经由四乙二醇(TEG)间隔臂标记有生物素。在实验方案中之后的步骤中，生物素标记将能够使cDNA固定于链霉亲和素包裹的珠。所有寡核苷酸是来自Sigma-Aldrich 得纯化的有序HPLC，并溶解在ImM Tris-HCl，O.lmM EDTA，pH8.0中。衔接子的制备如下混合50 μ 1的每种适当的寡核苷酸(400 μ Μ)和ΙΟΟμΙ的&退火缓冲液(20mM Tris-HCl, IOOmM NaCl, 2mM EDTA, ρΗ 7.6)，在 95 °C 的加热箱(加热块， thermoblock) (Thermomixer Compact, Eppendorf,汉堡，德国)中温育混合物 5 分钟，然
后关掉加热箱，以使得内部的样品缓慢冷却至低于30°C (需要3小时)。这产生浓度为 100 μ M 的双链衔接子 ELTD-AdC 和 ELTD-AdD。在以下反应中将两种衔接子连接于cDNA 来自MinElute纯化柱的 9.2 μ 1 cDNA、1.25 μ 1 /K、0.4 μ 1 衔接子 ELTD-AdC (100 μ Μ)、0.4 μ 1 衔接子 ELTD-AdD (100 μ Μ)、12.5 μ 1 2χ快速连接反应缓冲液以及1.25 μ 1 Quick T4 DNA连接酶 (Quick Ligation Kit, NewEngland Biolabs，M2200S)。在 25 °C 下温育连接混合物 20 分钟，然后利用试剂盒 GenElute PCR Clean-Up Kit (Sigma-Aldrich，NA1020)加以纯化。在以下反应中对衔接子-连接cDNA进行缺口修复来自GenElute纯化柱的 47 μ 1 cDNA、8 μ 1 IOx 热聚合反应缓冲液(ThermoPol Reaction Buffer) (New England Biolabs)、8 μ 1 lmg/mlBSA、2 μ 1 IOmM dNTP> 1 μ 1 8U/μ 1 Bst DNA 聚合酶、大片段 (LargeFragment) (New England Biolabs, M0275)以及 14 μ 1 水。缺口修复反应在 65°C 下温育30分钟，然后利用QIAquick PCR纯化柱加以纯化，从而产生50 μ 1的100-400个bp 的衔接子-连接cDNA。衔接子-连接CDNA的扩增在PCR反应中用高可靠性DNA聚合酶来扩增cDNA，其中上述PCR反应包含来自 QIAquick PCR 纯化柱的 10 μ 1 cDNA、10 μ 15x Phusion HF 缓冲液、1 μ 1 IOmM dNTP、2.5 μ 1 10 μ M ELTD-弓 I 物-C、2.5 μ 1 10 μ M ELTD-弓 | 物 _D、0.5 μ 1 2U/μ 1 Phusion Hot StartDNA 聚合酶(Finnzymes，Espoo,芬兰，F_540)以及 23.5 μ 1 水。首
先，进行测试以确定用于cDNA扩增的PCR循环的最佳次数。将反应混合物放置在热循环仪中，在98°C下变性30秒，随后经变性-退火-延伸的5次循环98°C下5秒，60°C 下10秒，72°C下15秒。此后，从反应混合物取出5μ1并保持在冰上(5次循环以后的样品)。使余下的反应混合物经另外三次如上所述的PCR循环，然后取出5μ1并保持在冰上(8次循环以后的样品)。重复上述过程5次直至达到总共23次循环。用1.5%琼脂糖凝胶分析5、8、11、14、17、20以及23次循环的5μ1样品。循环的最佳次数被确定为17次循环，其后达到稳定期，因为更多的循环会导致出现高于cDNA的预期大小的成片条带。为了获得更多cDNA，如上所述，制备了两种PCR反应混合物，各自含有10 μ 1 cDNA。将反应混合物放置在热循环仪中，在98°C下变性30秒，随后经变性-退火-延伸的17次循环在98°C下5秒，在60°C下10秒，在72°C下15秒。接着是在72°C下进行5分钟的最后延伸步骤。利用QIAquick PCR纯化柱、接着利用GenElute PCR Clean-Up 柱(Sigma-Aldrich)来纯化扩增的cDNA，以除去引物和可能的引物_ 二聚体。单链CD-适合的cDNA的分离接着，通过结合于链霉亲和素包裹的珠、洗涤以及碱性洗脱，对在先前步骤中获得的cDNA富集在一端携带ELTD-Ad-C并在另一端携带ELTD_Ad_D的分子上。在两端携带ELTD-Ad-C的cDNA分子(下文中称作CC分子)不能结合于链霉亲和素，因而被从珠中冲掉。在两端携带ELTD-Ad-D的cDNA分子(下文中称作DD分子)在碱性洗脱期间将与珠保持结合，因为两个链均被生物素化。在一端携带ELTD-Ad-C并在另一端携带ELTD-Ad-D的cDNA分子(今后称作CD分子)借助于一个生物素化的链保持与珠结合，通过用NaOH处理，其他的非生物素化的链将被洗脱。使链霉亲和素包裹的顺磁性Dynabeads M-270(Invitrogen，653.05)充分重悬浮并将50 μ 1 (相当于0.5mg)珠转移到硅氧烷化微量离心管(Sigma-Aldrich，T4816)。用 ΙΟΟμΙ lxB&W 缓冲液(5mMTris_HCl，0.5mM EDTA, lMNaCl，pH 7.5)洗涤珠三次，其中按照制造商的说明利用Dynal磁力座(magnetic stand) ( MPC _E_1，Invitrogen)来分离珠。将珠悬浮在包含0.02%吐温-20的100 μ 1 2x B&W缓冲液中以减少非特异性结合。接着，将混合于55μ1水的45μ1的PCR-扩增和纯化的cDNA加入珠悬浮液。在室温下并在管轻微旋转的条件下使cDNA结合15分钟。将管放置在磁力座中以使磁珠和上清分离，将珠转移到新管。此部分称作AB (结合后)并且包含未结合于珠的cDNA。随后，如下洗涤珠颗粒用包含0.02%吐温-20的200 μ 1 2x B&W缓冲液洗涤一次，用包含0.02%吐温-20的500 μ 1 2x B&W缓冲液洗涤一次并用500 μ 1水洗涤两次。在第二次将珠重悬浮于水中以后，在转移到磁体以前，将珠转移到新鲜的硅氧烷化管。最后，将珠重悬浮于250 μ 1新制的0.1Μ NaOH中并轻轻旋转管2_3分钟。上清代表第一洗脱液。将珠再一次重悬浮于250 μΙΟ.ΙΜ NaOH中并轻轻旋转2_3分钟，此上清代表第二洗脱液。将洗脱液分别与1250 μ 1 PBI缓冲液(QIAquick PCR纯化试剂盒)和7.2 μ 20% 乙酸混合，然后经QIAquick PCR纯化柱加以纯化。此外，在QIAquick PCR纯化柱上纯化 AB 部分。剩余珠用 200 μ 1 水洗涤一次，用 200 μ 1 IOmM Tris-HCL ImM EDTA、pH 8.0洗涤一次，再用200 μ 1水洗涤一次，并最后重悬浮在50 μ 1水并储存在4°C。用1.5%琼脂糖凝胶检查5微升AB部分和两种碱性洗脱液。在AB部分和第一碱性洗脱液中发现cDNA，但在第二碱性洗脱液(其被丢弃)中则未发现cDNA。对1 μ 1 的AB部分、第一碱性洗脱以及珠(各自50μ1总容积)进行对照PCR反应。将它们中的每一种与 12.5 μ 1 REDTaq ReadyMix (Sigma-Aldrich, R2523)、1 μ 1 10 μ MELTD-弓 | 物-C或 Ιμ 10 μ M ELTD-弓丨物-D或[1 μ 1 10 μ M ELTD-弓丨物-C禾口 1 μ 1 IOyMELTDH 物-D]以及水混合至25 μ 1的总容积。PCR条件是1分钟@94°C，(30秒@94°C，30 秒@501，30秒@72°06、9、12以及15次循环，5分钟@72°C。在每次反应中，将 5μ1加载到1.5%琼脂糖凝胶上。结果表明，如所预期的，在AB部分中存在的CC分子比DD和CD分子要多，这是因为CC分子不能结合于珠。在碱性洗脱液和珠部分中，发生的情况是CC < DD < CD。结论是，如所预期的，在碱性洗脱液中富含有CD分子，而CC甚至是DD分子也存在，这可能是由于CC的非特异性结合以及DD分子与珠的不完全结合造成的。碱性洗脱液(QIAquick纯化的)称作富含单链CD的cDNA。富含CD的cDNA的扩增在测试最佳PCR条件以后，富含单链CD的cDNA的扩增如下。安排了 16次 PCR反应，每次反应包含0.5 μ 1的上述Dynabeads的QIAquick柱纯化的第一碱性洗脱液、10 μ 1 5x Phusion HF 缓冲液、1 μ 1 IOmM dNTP、2.5 μ 1 10 μ M ELTD-弓 |物—C、 2.5 μ 1 10 μ MELTD-引物-D、0.5 μ 1 2U/ μ 1 Phusion Hot Start DNA 聚合酶(Finnzymes， F-540)以及33μ1水。将反应混合物放置在热循环仪中，在98°C下变性30秒，随后经变性_退火_延伸的11次循环在98°C下5秒，在60°C下10秒，在72°C下15秒。接着是在72°C下进行的5分钟的最后延伸步骤。利用三个平行的QIAquick PCR纯化柱来纯化扩增的cDNA。用1.2%琼脂糖凝胶分析了经纯化的cDNA并用分光光度法测得浓度。获得总共27.5 μ g富含双链CD的cDNA。富含CD的cDNA与Dynabeads的结合来自前述步骤的5微克富含双链C D的cDNA用于与DynabeadsM-270结合。禾Ij 用上文描述的‘单链CD-适合cDNA的分离’程序并具有以下修改。将27.32μ1(相当于 5 μ g)富含CD的cDNA与水混合至总计100 μ 1的容积，并将此混合物加入在包含0.02% 吐温-20的100 μ 1 2x B&W缓冲液中的珠中。在cDNA结合并用包含0.02 %吐温-20的 2x B&W缓冲液洗涤并用水洗涤以后，用200 μ 1 IxNEBuffer 4 (New England Biolabs)洗涤珠两次。最后，将带有结合cDNA的珠重悬浮在100 μ 1 Ix NEBuffer 4中并转移到新的硅氧烷化微量离心管。用SapI消化富含CD的CDNA-珠制剂用SapI消化珠上的富含CD的cDNA以从cDNA分子除去衔接子ELTD-AdC，而
cDNA借助于生物素化衔接子ELTD-AdD仍然附着于珠。将5微升Sap I (2U/ μ 1，New England Biolabs, R0569)加入 cDNA-珠悬浮液并在 37°C下温育 1.5 小时。以 1400rpm/10
分钟对珠进行旋涡搅拌，以在此步骤期间使它们保持在悬浮状态。接着，将珠放置在磁力座中1分钟以分离珠，弃上清，然后用包含0.02%吐温-20的500 μ 1&B&W缓冲液洗涤珠两次并用500 μ 1水洗涤两次。碱性洗脱以制备富含单链CD的cDNA珠文库将珠颗粒重悬浮在250 μ 10.1Μ NaOH(新制的)中，然后轻轻旋转管2_3分钟。将管放入磁力座中1分钟并将上清(=碱性洗脱液)转移到新管。将碱性洗脱液与1250 μ 1 PBI缓冲液(QIAquick PCR纯化试剂盒)禾Π7.2μ 1 20%乙酸混合，然后经QIAquick PCR纯化柱加以纯化。剩余珠用200 μ 1水洗涤一次，用200 μ 1 IOmM Tris-HCL ImM EDTA、 ρΗ 8.0洗涤一次，再次用200 μ 1水洗涤一次，并最后重悬浮于50 μ 1水中并储存在4°C。这是富含单链CD的cDNA-珠文库，准备好与基因组DNA杂交。对经纯化的碱性洗脱液用1.2%琼脂糖凝胶进行分析接着下面的与‘富含CD的 cDNA与Dynabeads的结合，的结合分离以及来自‘衔接子-连接cDNA的扩增，的已知浓度的双链cDNA的稀释系列。发现AB部分中存在约2 μ g的cDNA，但未结合于 Dynabead.碱性洗脱液显示预期大小的成片条带。通过分光光度法测得碱性洗脱液的浓度，并且发现410ng单链cDNA已经从珠被洗脱下来。从理论上讲，等量的互补cDNA 链应在富含单链CD的cDNA-珠文库中，相当于大约4pmol (假设平均大小为300nt)。基因组DNA基因组DNA的分离按照Kobayashi等(1998)的实验方案，从Kanzi叶分离基因组DNA(gDNA)。在按照Kobayashi等(1998)的描述进行核糖核酸酶处理以后，通过添加三分之二体积的 5MNaCl和两体积的乙醇(p.a.)，借助于高盐来沉淀gDNA，以除去杂质，接着在20,OOOg 下离心15分钟，用70%乙醇洗涤沉淀物，干燥，然后将沉淀物溶解在IOmM Tris-HCl、 ImM EDTA、pH8.0 中。gDNA的限制酶消化通过限制酶消化来片段化gDNA以产生非重叠片段。重叠片段会干扰实验后面的杂交步骤，从而导致产生杂交片段的网络。选择产生主要为l_3kb片段的限制酶切来进行消化。用Hindlll/BstYI并用EcoRI/BstYI消化gDNA以产生两组不同片段。通过添加 10 μ INEBuffer 2、3 μ 1 EcoRI (New England Biolabs, 20U/ μ 1，R0101)或 1 μ 1 HindIlKNew England Biolabs, IOOU/ μ 1，RO104)以及水直到 100 μ 1 的总容积，接着在 37°C下温育 1 小时，来消化 20 微克 gDNA。随后，将 6 μ 1 BstYI (New England Biolabs, IOU/ μ 1，R0523)加入每个管，接着在60°C下温育1小时。将经消化的DNA各自装载于琼脂糖凝胶的4个泳道中并分离。从凝胶上切割1和3kb之间的片段并利用试剂盒 GenElute Gel Extraction Kit(Sigma-Aldrich，NAl111)加以纯化。重复一次以上程序以产生足够的DNA片段。将EcoRI/BstYI (EB)和Hindlll/BstYI (HB)基因组片段连接于衔接子 ELTD-AdE-Eco、ELTD-AdE-Hind 以及 ELTD-AdF-Bst。
衔接子与gDNA连接通过使部分互补的寡核苷酸 ELTD-AdE-Eco 1 (5，-CTTGTAGGGCACGGGTC GAGAG-3，)禾口 ELTD-AdE_Eco2(5，-AATTCTCTCGACCCGTGCCCTA-3，)退火来制备衔接子ELTD-AdE-Eco。此衔接子在一侧具有5’ -AATT突出端，其与gDNA片段的Ec0RI-突出端相容，而在另一侧具有5’ -CTTG突出端。这些突出端可以实现与 gDNA的连接作用的方向性并防止多个衔接子与gDNA的连接。通过使部分互补的寡核苷酸 ELTD-AdE-Hindl (5，—CTTGTAGGGCACGGGTCGGAGA—3，)禾口 ELTD-AdE-Hin d2(5，-AGCTTCTCCGACCCGTGCCCTA-3，)退火来制备衔接子 ELTD-AdE-Hind。类似于 ELTD-AdE-Eco，ELTD-AdE-Hind 衔接子在一侧具有与 HindIII 相容的 5，-AGCT 突出端并在另一侧具有5’ -CTTG突出端。通过使部分互补的寡核苷酸ELTD-AdF-Bs tl(5，-GAATGGCTGGGAGAGTGCTGAG-3 ‘)禾口 ELTD-AdF_Bst2 (5，—GATCCTCAGC ACTCTCCCAGCC-3，)退火来制备衔接子 ELTD-AdF-Bst。类似于 ELTD-AdE-Eco， ELTD-AdF-Bst衔接子在一侧具有与BstYI相容的5 ’ -GATC突出端并在另一侧具有 5，-GAAT突出端。所有寡核苷酸用Sigma-Aldrich顺序HPLC纯化并溶解在ImM Tris-HCL 0.ImM EDTA、 pH8.0 中。衔接子的制备如下混合15 μ 1各种的适合的寡核苷酸(800 μ Μ)和60 μ 1的 2χ 退火缓冲液(20mM Tris-HCl, IOOmM NaCl, 2mM EDTA, pH 7.6)以及 30 μ 1 水，然后在95°C的加热箱中温育混合物5分钟，接着关掉加热箱以使得内部的样品缓慢冷却至低于30°C (需要3小时)。这产生浓度为100 μ M的双链衔接子ELTD-AdE-Eco、 ELTD-AdE-Hind 以及 ELTD-AdF-Bst。在以下反应中，将衔接子ELTD-AdE-Eco禾Π ELTD-AdF-Bst连接于 EcoRI/BstYI(EB)I_3kb gDNA 片段将 1.3 μ g EB 片段、0.4μ1 衔接子 ELTD-AdE-Eco (100 μ Μ)、0.4 μ 1 衔接子 ELTD-AdF_Bst(100 μ Μ)、40 μ 1 2χ 快速连接反应缓冲液、4 μ 1 Quick T4DNA 连接酶(Quick Ligation Kit, New England Biolabs, M2200S)和水混合至80 μ 1的总容积。在以下反应中，将衔接子ELTD-AdE-Hind禾口 ELTD-AdF-Bst 连接于 Hindlll/BstYI (HB) l_3kb gDNA 片段将 1.0 μ g HB 片段、0.4 μ 1 衔接子 ELTD-AdE-Hind(100 μ Μ)、0.4 μ 1 衔接子 ELTD-AdF_Bst(100 μ Μ)、40 μ 1 2χ 快速连接反应缓冲液、4 μ IQuick T4DNA 连接酶(Quick Ligation Kit, New England Biolabs, M2200S)和水混合至80 μ 1的总体积。在25°C下温育连接混合物20分钟并利用试剂盒 GenElute PCR Clean-Up Kit (Sigma-Aldrich，NA1020)加以纯化。
EB和HB gDNA的缺口修复和纯化在以下反应中，对衔接子-连接gDNA进行缺口修复混合来自GenElute纯化柱的 40 μ 1 gDNA、8 μ 1 IOx ThermoPol ReactionBuffer> 8 μ 1 lmg/ml BSA、2 μ 1 IOmM dNTP、3 μ 1 8U/ μ 1 Bst DNA 聚合酶、Large Fragment (New England Biolabs, M0275) 和19μ1水。在65°C下温育30分钟进行缺口修复反应，然后利用试剂盒GenElutePCR Clean-Up Kit (Sigma-Aldrich，NA1020)加以纯化。这产生 0.02 μ g/μ 1 (EB)和 0.014 μ g/ μ I(HB)的50 μ 1衔接子-连接gDNA备用，其用于与富含单链CD的cDNA-珠文库的杂交。通过PCR来检查衔接子-连接作用步骤。使用1纳克衔接子-连接的和缺口修复的EB制剂作为PCR反应中的模板，其中使用弓丨物ELTD-AdE-Eco 1或ELTD-AdF-Bstl 或二者的组合(分别为Ε、F、EF)。类似地，使用衔接子-连接HB制剂作为PCR反应中的模板，其中使用引物ELTD-AdE-Hindl或ELTD-AdF-Bstl或二者的组合(分别为 Ε、F、EF)。对于EB和ΗΒ，如所预期的，PCR反应产生l_3kb的成片条带。所选基因组DNA片段的杂交和扩增cDNA-珠文库和gDNA片段的杂交首先针对萤火虫荧光素酶(Luc)基因片段测试杂交条件。简单地说，将具有 ELTD-AdC 和 ELTD-AdD 的单链 200nt Luc 片段(Luc200)通过 ELTD-AdD 的生物素标记结合于DynabeadsM-270。使此Luc-珠制剂杂交于1600nt Luc片段，该片段连接于与非特异性1400nt对照DNA片段混合的ELTD-AdE和ELTD_AdF。在杂交和洗涤以后，通过碱处理来洗脱结合于Luc200探针的片段并通过PCR加以扩增。研究发现，1600nt Luc片段以比非特异性、非杂交对照片段高得多的浓度被洗脱。在PCR期间，在出现这些片段之间存在24次循环的差异(224 = 1.7X 107倍富集的Lucl600，假设PCR效率为 100% )0对于cDNA-珠文库和gDNA使用相同的杂交和洗涤条件。通过加热来使上述EB和HB gDNA制剂变性。首先，用离心式真空浓缩器将 13 μ 1的EB禾Π 12 μ 1的HB浓缩至5 μ 1。EB的量相当于0.26 μ g或大约0.2pmol的平均 2kb的片段。HB的量相当于0.17 μ g或大约0.13pmol的平均2kb的片段。然后在95°C 的加热箱中使样品变性5分钟，然后直接放置在冰上。将上述富含单链CD的cDNA-珠文库分装在两个硅氧烷化管(每个管25 μ 1珠) 中。用200μ1 6xSSC/0.1% SDS(在60°C下预热)洗涤珠三次，然后重悬浮于100 μ 1 6xSSC/0.1% SDS中并保持在60°C。向一个管中添加EB gDNA，向另一个管中添加 HB gDNA。在60°C和温和旋转下对管进行温育4小时。用500 μ 1预热的6xSSC/0.1 % SDS (60°C )快速洗涤珠两次，在60°C和旋转下用500 μ 1 6xSSC/0.1% SDS洗涤三次(15 分钟)，在室温和旋转下用500 μ 16xSSC洗涤两次(5分钟)，然后用500 μ 1水快速洗涤一次。杂交体的延伸以及所选gDNA片段的PCR扩增在珠上形成的cDNA/gDNA杂交体用于3’ cDNA末端的延伸，其中使用杂交gDNA作为模板。在最后的水洗涤步骤以后，将珠直接重悬浮于77 μ 1水和20 μ 1 5χ PhUSianTMHF缓冲液的混合物中，然后转移到新硅氧烷化管。接着添加2μ110ιηΜ dNTP 禾口 1 μ 1 2U/ μ IPhusion Hot Start DNA 聚合酶(Finnzymes，F-540)。在 72 °C 下延伸2分钟。将珠保持在0°C下过夜。借助于不同的引物组合，使用上述珠进行PCR扩增。借助于以下引物组，使杂交于EB gDNA的珠扩增1) ELTD-AdE-Ecol 和 ELTD—AdF—Bstl2) ELTD-AdE-Ecol3) ELTD-AdF-Bstl。借助于以下引物组，使杂交于HB gDNA的珠扩增4) ELTD-AdE-Hind3 和 ELTD-AdF-Bstl5) ELTD-AdE-Hind36) LTD-AdF-Bstl。ELTD -弓I 物 E_Hind3 具有以下序列 5，-GTAGGGCACGGGTCGGAGAAGC-3，。其与大部分的 ELTD-AdE-Hindl 相同并且
在3’端处包含3个额外的nt(AGC)，以与连接衔接子和gDNA之间的HindIII位点相适
应，并使具有在退火期间能够与靶更强结合的3’端。PCR 反应包括将 1 μ 1 的 EB 或 HB 珠、10 μ 1 5x Phusion HF 缓冲液、1 μ 1 IOmM dNTP、2.5 μ 1 的每一种引物(10 μ Μ)、0.5 μ 1 2U/ μ IPhusion Hot Start DNA 聚合酶 (Finnzymes, F_540)以及水混合至50 μ 1的最终容积。为了确定最佳循环次数，将反应混合物分装在5个0.2ml PCR管(每个管为10 μ 1)中，用矿物油覆盖，放置在热循环仪中，在98°C下变性30秒，随后经受变性-退火-延伸的11、14、17、20以及23次循环在 98°C下5秒，在60°C下10秒，在72°C下2分钟。接着是在72°C下5分钟的最后延伸步骤。在每个反应中，用1.2%琼脂糖凝胶分析2.5 μ 1。在使用ELTD-AdE和/或ELTD-AdF引物的PCR反应中，发现如针对gDNA片段所预期的l_3kb片段的成片条带。两种引物的组合在17次循环时就已经产生EB和HB 样品的PCR产物。在仅使用ELTD-AdE的情况下，在23次循环后发现产物，而在使用 ELTD-AdF引物的情况下，则在20次循环后发现相同的产物强度。这是由于在基因组中存在的BstYI-限制位点(识别位点RGATCY)比EcoRI位点或HindIII位点(GAATTC 或AAGCTT)要多。用于高通量测序的杂交体选择的gDNA的扩增通过HB gDNA 及引物 ELTD-AdE_Hind3 和 ELTD-AdF-Bstl 以及 20 次循环的
PCR反应产生最好的结果l_3kb的均勻成片条带。制备20倍的如下PCR反应混合物以提供用于高通量测序的足够的DNA: Iyl的HB珠、lOylSxPhusioi^HF缓冲液、Iyl lOmMdNTP、2.5 μ 1 ELTD-AdE_Hind3 (10 μ Μ)、2.5 μ 1 ELTD—AdF—Bstl (10 μ Μ)、0.5 μ 1 2U/ μ 1 Phusion Hot Start DNA聚合酶并用水定容至50 μ 1的最终容积。将反应混合物放置在热循环仪中，在98°C下变性30秒，随后经变性-退火-延伸的20次循环在98°C 下5秒，在60°C下10秒，在72°C下2分钟。接着是在72°C下5分钟的最后延伸步骤。利用两个平行的QIAquick PCR纯化柱来纯化这种所谓选择的杂交体和扩增的HB gDNA。产量(其是用分光光度法测得)是14.8 μ g。选择的杂交体的HB gDNA的一部分经受高通量测序。另一部分用于克隆和桑格测序(Sanger sequencing)。用于高通量测序的cDNA的扩增
为了产生用于高通量测序的足够的富含CD的cDNA，制备20倍的如下PCR 反应混合物0.5 μ 1的在‘单链CD-适合的cDNA的分离，部分所描述的Dynabeads 的QIAquick柱纯化的第一碱性洗脱液、10 μ 1 5x Phusion HF缓冲液、1 μ 1 IOmM dNTP、2.5 μ 1 10 μ MELTD-弓| 物-C、2.5 μ 1 10 μ M ELTD-弓| 物-D-NB> 0.5 μ 1 2U/ μ 1 PhusionHot Start DNA 聚合酶(Finnzymes，F_540)以及 33 μ 1 水。ELTD-引物 D-NB 具有和ELTD-引物D相同的序列，但并不包含在5’端的生物素标记。将反应混合物放置在热循环仪中，在98°C下变性30秒，随后经变性-退火-延伸的11次循环在98°C下 5秒，在60°C下10秒，在72°C下15秒。接着是在72°C下5分钟的最后延伸步骤。利用4个平行的QIAquick PCR纯化柱来纯化扩增的cDNA。用1.2 %琼脂糖凝胶分析经纯化的cDNA并用分光光度法测得浓度。获得总共29 μ g双链富含CD的cDNA。对cDNA 进行高通量测序。所捕获的基因组DNA分子的序列分析在用cDNA珠捕获基因组DNA以后，利用带有cDNA_gDNA杂交体的珠来进行 PCR扩增，其中使用基因组DNA特异性引物组ELTD-AdE-Hind3和ELTD-AdF-Bstl。克隆基因组DNA的一部分并对800个克隆进行桑格测序(平均读取长度为781bp)。使基因组DNA的另一部分经高通量测序技术，以产生平均长度为337bp的序列读数。详细分析了由800个单独的桑格测序和1370个高通量测序读取构成的两个序列数据集，并与在公共数据库(NCBI，在2009年3月9日以262.411进入)中所有可获得的苹果 EST 进行比较。程序 BLASTN(S.F.Altschuletal.NAR 25 3389-3402，1997)用于基因组DNA序列和苹果EST序列的全局序列比对。在800个桑格测序中，488个序列显示与来自公共数据库中的苹果EST汇集的序列显著的相似性(E值为10_1(1)，而在1370个基因组DNA序列的随机集中，765个序列表现出显著的相似性(E值为10,)，这表明cDNA相关基因组DNA的特异性捕获是成功的。此外，这些基因组DNA序列的局部序列比对揭示了这些序列经常延伸自5'或 3' cDNA边界或内含子区，这表明该技术能够鉴定非编码区。如果考虑到仅从一侧测定片段的序列，片段大小在1Kb和3Kb之间且50%以上的序列具有与EST序列的可鉴定的相似性，在与公共EST序列数据的序列比对以前，如果已完全测定了片段的序列并且该片段构成重叠群的组成部分，则会发现更高百分比的序列配对似乎是显而易见的。因为苹果基因组的大小是约750Mb而在植物基因组中基因的数目是约30000，其中平均长度为1500bp，这产生在基因组上的45Mb的编码序列，这意味着，通过随机测序，仅能够被标注6%的基因组片段，而借助于本文所描述的方法，我们发现了 50% 以上的标注。根据上述实施例，描述了跨越EST边界的基因组DNA片段的三个实例。例如三个实例的描述借助于本发明的方法发现的苹果基因组序列的三个实例示于图4和以下序列比对。实例1.苹果基因组序列FRA8S6E02IN5QW(序列，见下文)显示与部分的苹果重叠群 cg8984st_846_7 的 98.9 % 同一性，其构造自 7 个 EST 序列(GenBank Acc C0899363、C0419003、C0052855、C0752637、C0901846、CN927506 以及 C0066317)。拟南芥的重叠群cg8984st 8467 的最好的 BLASTX 命中(hit) (S.F.Altschul et al.NAR 25 3389-3402, I"7)是基因 ATlG7Ol6O (基因组基因座标签，TheArabidopsis Information Resource, http://www.arabidopsis.org),其中 E 值为 2e-104o 三个序列的序列对比表明，FRA8S6E02IN5QW包含具有未知功能的蛋白质部分的蛋白质编码序列(CDS)，其部分重叠于重叠群cg8984st_846_7。这示意性地示于图4A中并在下文示出序列的有关部分的序列对比。FRA8S6E02IN5QW的蛋白质编码序列也是与 AT1G70160具有77.8%的同一性，但在序列的5’ -端处被内含子中断，其中上述内含子位于与AT1G70160中的内含子相同的位置(图4A以及序列对比)。在此区域中，在 FRA8S6E02IN5QW 和 AT1G70160 之间的同一性较低，为 37.6%。在 AT1G70160 中，内含子小于在苹果中的内含子(在序列对比中，以粗体表示这种内含子的5’ -边界)。在FRA8S6E02IN5QW中，在内含子序列的所有三个读码框中存在终止密码子，并且 BLAST检索表明，FRA8S6E02IN5QW的CDS同源于其他植物物种的类似蛋白质，但在内含子区失去了上述同源性。这表明，FRA8S6E02IN5QW确实是基因组序列，其包含中断内含子序列。此外在此处，内含子序列的低得多的保守性表明，内含子序列比外显子序列包含更多的SNP。
实例2.苹果基因组克隆FRA8SE02H()H39(序列，见下文)示出了与苹果重叠群 cgl2357st_1428_21 的同源性，其构造自 21 个 EST 序列(GenBankAcc CN930585、 CV525017、CN873920、EB149394、EB121634、EB116211、CN909797、EB115871、 EB154300、CN877800、EB121026、CN932122、CN860924、EB110988、C0865849、 CN488473、CN497072、CN903918、CN903403、DR996731 以及 CN894330)。重叠群 cgl2357st_1428_21包含蛋白质的完全编码序列，其中蛋白质与ATP依赖性Clp蛋白酶蛋白水解亚单位(最好的BLASTX命中EEF49880，蓖麻，评分3e_128)相似。FRA8SE02HOH39重叠cgl2357st_1428_21的3，-未翻译区，并且延伸超过多聚腺苷酸尾而进入非转录基因组DNA中，如图4B以及以下序列对比所示。因此，FRA8SE02HOH39是包含转录区的3’ -旁侧序列的基因组序列的一个实例。实例3.苹果基因组序列02-H03 (序列，见下文)与40个苹果EST的5，-部分重叠，并且与乙烯反应因子(最好的BLASTX命中AAV66332，黄瓜，评分6e_34)相似。对于 EST 91044950 (GenBankAcc EB155368)，这示意性地示于图4C中。其他EST具有类似的5’端。以下示出序列的有关部分的序列对比。基因组序列在基因的翻译起始密码子 (ATG)的上游延伸744bp。对于在02-H03中并在编码区外面的任何基因没有发现序列相似性，这证实了这是基因组序列。在转录起始的上游的保守序列是TATA框。在EST的起始的上游39bp处发现了假定的TATA-框(TATAAA)。参考文献Chang, S.，Puryear, J.and Cairney J.1993.A simple and efficient method forisolating RNAfrompinetrees.PlantMol.Biol.Rep.il 113-116.
Kobayashi, Ν.，Horikoshi, T., Katsuyama, H., Handa, Τ. and Takayanagi， K. 1998.Asimple and efficient DNA extraction method for plants, especially woody plants.Plant Tissue Culture and Biotechnology 4 76-80.Sambrook, J.，Fritsch, E.F.and Maniatis T. 1989.Molecular cloning.A laboratorymanual.Second edition.Cold Spring Harbor Laboratory Press.USA.FRA8S6E02IN5QWTATGTTGTGATAACCATATGGCTTCCCTGACATGCTCTGAACATACTCCCATGCTGCAGTAGAGTTGAATTTTGCACGCACCTCTGGATGCAAGGGAAGCAAGGCTATTTGTGGATTAGAACTATCCTTGAGTGTCAACTCCCACCACTCATCCCATGGAATCACCGCTATAATTTCTTCACCCTGCAATATTAAATTATTAATAAATGTAAAAATCAACCAAAAAGAAAAGAACTAACCACAATAAACTCTACAAAAAAGAAAAGAACTAAAGCAAAGTTTAAAATAATTAAGAAATCTGTGCAAGATTGTCATATATTTAATTTTGTCCCTAAACAAACGCTCATCATATGTTCATCACTACAATCCTGATTCAACTATTATTCCACTAAAGGCAAAGAACCAAAACATTTAGCTTAATTTCTATTCCTA
ATAAATCCCAAANACATGAAATGAGTTGCTTGCATAAGCATATACTCAATTGAAAATFRA8S6E02HOH39CAGCGACCTGTTTACGTGCAAGGTTTGGATGGAAGAGATTGAACAGTGATGCCAAATTGAATTGCCTCCAGAACAAATCTGAAGGGTGCAAAAAACATGTACTTTTTGAGAGTTGAAGAATGACGACACTTTCTTATGTTCTATATTATCTTGGTTAAGTTTTTTGCAGGACGGAATGAATCCTCGTCTTTTTTTTCCCTATCAAAAAGAAGAAAGCTGAGTTTTTATGTTTGATGTCTTGATGATGGATGACCTAGTGTTCAAGTGAAAAATTCGACGGACAAAACGCTTGGCAATCCA
ATTTGTGCCGTGTATAATGTGTCACGTCCAAACGAGTTTCACATCGAAGAAA02H03TGTTATTGTTTCATTGAAACATAACGTTACATAACAATATAGGNNNCATTTGGAACAACTTTTAAAATGGCTGAAAACGCATTTTGTGAAAATGATTTTTAAACAGTTTTGAGTAAAAATACAATGAATCATAGAAAAGTACTTGAAATGCTTTCTACAAATAGCATATAACTAGTGCTTATTTCAAAAAATATTNNNAAAACATAAACAAAATTCTCTAAAAATATTTACGGTCATTGTAAAATCATTTTCAAACGTGATTATAATCAGGCTATGTAAAATATTCTTTAATATTGACTCAACAAT
AAACGGCGAATCGAAACGATACACGGAGTGGAGCGTGGGAGATGGGAGGAAAGGATCACCGCACGCAATCAAAGAGTGCATTCGCAGCCGTCAGA TGATGATAAAAATGATGGGTGTGCTCTCTCG
ACAACGCACACATGCCACGTAATACGGAAACGAACATTGCACAATTACTAAATTGCCACCGATGGAGAGCCGCCCCTCCCTAATCCCATCTCAGTCAAATCCCTTGTTGACTGTGCGCCTCTCTCTCTCTCTCTCTCTCTCTCCTCTCTCTTTCTCTCTCTTCAATTCCTCGCTCATCATTTCTATTAAAACCCACAGCCTGCCTCCTAGTCCTCC ATCGCCATCTCCACACCCGTTTCTCTCACATATTTTCTGCAGCCAAACACTCTTTCCACCCAAACACTACATACACAAAACGCCAC
CGTTTAGTTATGGCGCCGAGAGAGAAGACGGCCACCGCCGCCGTTAGGATGAACGGTAACGGAAACGTGAAGGAGGTGCATTTTAGAGGTGTGAGGAAGAGGCCGTGGGGGAGGTACGCCGCCGAGATCAGA
权利要求
1.一种用于鉴定样品中的基因组DNA的方法，包括从所选生物体分离mRNA并由所述mRNA制备具有一个衔接子的小单链cDNA片段，其中所述衔接子包含亲和标记；从相同或相关生物体分离基因组DNA并由所述基因组DNA制备连接于衔接子分子的单链基因组DNA片段；使所述单链基因组DNA片段与所述单链cDNA片段杂交并扩增所述杂交体；以及对所述杂交体进行高通量测序。
2.根据权利要求1所述的方法，包括以下步骤a)分离和纯化来自生物体组织样品的mRNA;b)利用所述mRNA作为模板来合成cDNA； C)可选地使所述cDNA的复杂度降低；d)所述cDNA的片段化；e)可选地选择所述片段的大小；f)可选地通过结合于链霉亲和素包裹的亲和珠除去包含多聚腺苷酸的片段；g)抛光所述cDNA片段；h)所述片段与一种包含稀有限制酶的识别位点的衔接子和包含生物素标记的另一种衔接子连接；i)可选地选择所述片段的大小； j)所述片段的缺口修复；k)选择包含两种衔接子序列的所述片段；1)对步骤h中描述的所述衔接子序列退火，利用引物来扩增所述片段，其中一种引物与具有稀有限制位点的衔接子互补而另一种引物包含生物素标记； m)使所述片段结合于链霉亲和素包裹的亲和珠；η)利用来自所述片段的相应的限制酶，除去包含所述稀有限制位点的衔接子； ο)通过生物素-链霉亲和素相互作用，从借助于生物素-链霉亲和素相互作用附着于亲和珠的双链DNA片段除去未附着于亲和珠的单链，从而产生结合于链霉亲和素亲和珠的DNA的单链；P)分离和纯化例如来自步骤a的生物体的基因组DNA ； q)所述基因组DNA的片段化； r)可选地抛光所述基因组DNA ；S)所述基因组DNA与一种单一类型的衔接子或与两种不同类型的衔接子(优选的) 连接；t)将所述基因组DNA解链成单链DNA ；u)使来自步骤t)的基因组DNA与来自步骤ο)的在珠上的cDNA杂交； ν)通过洗涤除去未结合的基因组DNA;w)通过聚合酶来延伸所述cDNA-基因组DNA杂交体以产生双链模板； χ)对所述基因组DNA-cDNA杂交体进行PCR ； y)通过大小分级，从所述PCR选择大于约100个碱基对的片段； ζ)可选地纯化所述片段；aa)对所述片段进行高通量测序。
3.—种用于鉴定多态性的方法，包括根据权利要求所述的所有步骤，另外包括ab)比较来自两个或更多样品的序列数据以鉴定多态性。
4.根据权利要求2或3所述的方法，其中，将来自步骤aa)的序列结合到重叠的单个序列的重叠群中。
5.根据权利要求2-4中任一项所述的方法，其中，通过自动标注对来自步骤ab)的序列或来自权利要求3的重叠群进行标注。
6.根据前述权利要求中任一项所述的方法，其中，序列获自属于一种物种的个体并与可获得的EST数据比较，以揭示非编码序列如内含子序列和基因内部的非编码序列。
7.根据前述权利要求中任一项所述的方法，其中，序列获自属于相关物种的一个或多个个体，并与可获得的EST数据比较，以揭示非编码序列如内含子序列和基因内部非编码序列。
8.根据前述权利要求中任一项所述的方法，其中，序列获自属于相同物种的两个或更多个体，并比较以揭示多态位点。
9.根据前述权利要求中任一项所述的方法，其中，序列获自不同物种的一个或多个个体，并比较以揭示多态位点。
10.根据前述权利要求中任一项所述的方法，其中，序列获自不同物种的一个或多个个体，并比较以揭示基因组DNA中的保守区。
11.根据前述权利要求中任一项所述的方法，其中，包含来自步骤h)的稀有限制酶的识别位点的衔接子包含酶SapI的识别位点。
12.根据前述权利要求中任一项所述的方法，其中，通过雾化来实现所述核酸的片段化。
13.一种用于实施权利要求1或2所述的方法的试剂盒，包括一种或多种衔接子和使用说明书，以及可选的一种或多种互补于所述衔接子的引物、连接酶、和/或对于切割所述衔接子具有特异性的限制酶、扩增试剂盒本身的常规组分，如dNTP、和聚合酶。
14.根据权利要求13所述的试剂盒，其中，所述衔接子通过寡核苷酸的退火获得，其中所述寡核苷酸选自由下述组成的组5' -AGTCCGTCGCATCGCTCTTC-3 ‘5，-GAAGAGCGATGCGACG-3 ‘5 ’ -生物素-TEG-AGTGGGTGTCCTGGGTCAAC-3 ’5' -GTTGACCCAGGACACC-3 ‘5' -CTTGTAGGGCACGGGTCGAGAG-3 ‘5' -AATTCTCTCGACCCGTGCCCTA-3 ‘5' -CTTGTAGGGCACGGGTCGGAGA-3 ‘5' -AGCTTCTCCGACCCGTGCCCTA-3 ‘5，-GAATGGCTGGGAGAGTGCTGAG-3 ‘5，-GATCCTCAGCACTCTCCCAGCC-3，禾口5' -GTAGGGCACGGGTCGGAGAAGC-3‘。
全文摘要
本发明涉及用于分析生物体的基因组区的方法，该方法包括四个主要部分。第一部分涉及从所选生物体分离mRNA，所选生物体用于制备小的单链DNA片段，其具有包含亲和标记的衔接子。这些DNA片段用于第三部分。在第二部分中，从相同或相关生物体分离基因组DNA。该基因组DNA被片段化并连接于衔接子分子。在第三部分中，使这些基因组片段与来自第一部分的单链DNA片段杂交，并且在此过程中形成的杂交体用于DNA片段的合成。这些片段将用于第四部分，该部分涉及利用一种可用的高通量测序方法来对这些片段进行测序。
文档编号C12N15/10GK102027136SQ200980117636
公开日2011年4月20日申请日期2009年3月17日优先权日2008年3月17日
发明者伊沃·拉罗斯, 布尔安妮·道韦·德, 德尔赫米兰达·德博拉·范, 米夏埃尔·约翰内斯·马库斯·埃伯斯坎普, 西蒙·阿尔贝图斯·朗格弗尔德申请人:表现研究有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：安妮.道韦.德布尔;米夏埃尔.约翰内斯.马库斯.埃伯斯坎普;西蒙.阿尔贝图斯.朗格弗尔德;伊沃.拉罗斯;米兰达.德博拉.范德尔赫
技术所有人：表现研究有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.食品功能因子基因工程菌种的构建、智能高通量进化筛选 2.发酵工艺优化
2、马老师：1.酶工程与生物催化 2.酿造技术与风味分析 3.生物质资源综合利用
3、林老师：1.酿造微生物育种及关键酿造工艺开发 2. 真菌基因功能及调控网络解析 3.精细化学品、蛋白真菌细胞底盘开发
4、张老师：1.发酵食品安全：危害物相关基因的筛选，危害物产生菌的快速检测，危害物的预警和发酵过程控制 2.真菌次级代谢与调控 3.酿造酒相关研究
5、郭老师：1.现代酿造技术与食品安全 2. 酵母生物学 3.生物基化学品与合成生物学
如您是高校老师，可以点此联系我们加入专家库。