基于全基因组测序的限制性酶的制作方法

文档序号:393125阅读:657来源:国知局
专利名称:基于全基因组测序的限制性酶的制作方法
技术领域
本发明涉及使用高通量测序用于高效生成全基因组序列或其部分的方法和策略。本发明涉及大-规模核酸测序以及尤其涉及用于生物基因组或其部分的测序的方法。本发明涉及基于使用高通量测序技术用于确定优选复杂的(即,大的)基因组的序列的改进策略。
背景技术
很多测序工程的目标是首次确定目标生物 的整个基因组序列(从头(de novo)草图基因组测序)。有草图基因组序列在手,使得能够鉴别生物有用的遗传信息,例如用于鉴别物种之间或相同物种的个体之间的遗传变异的起源。因此,本领域中通常想要以合理的花费和努力允许从头实现确定个体(无论人、动物或植物)整个基因组序列的技术。典型情况下,这种要求表示为要求1000$-基因组,即确定个体的整个基因组序列要最多1000$ (不考虑货币波动)。然而,实践中1000$基因组不一定依赖从头基因组测序和拼接(assembly)策略,但是还可能基于再-测序(re-sequencing)方法。在后者(再-测序)的情况下,再_测序的基因组将不会从头拼接,但是对于兴趣生物其DNA经测序与现有参考基因组序列比较(图形比较(map onto))。再-测序方法所以在技术上挑战较低且花费较少。清楚起见,本发明的焦点在于无需参考基因组序列能够应用于生物的从头基因组测序策略。当前的努力是不同的,获得足够且快速增加的成果。无论如何,目标尚未达到。以直截了当的方式测序和拼接整个基因组从经济上还不可行。本领域还存在对改进的从头基因组测序策略的需要。这种策略的一般要求是它们更便宜、在对加工数据(从序列读取到拼接的草图基因组)必要的计算能力方面是高效的、在使用高通量测序设备来生成足够质量的数据方面是高效的(即,冗余度,需要确定的序列通过冗余度来产生足够精确的数据)等。W003/027311描述了一种克隆-阵列合并的鸟枪测序方法(CAPPS)。该方法采用来自不同合并(BAC)克隆的随机序列读取。基于随机读取的交叉-拼接,可以从大量克隆生成序列重叠群(contig),以及可以生成与序列相关的克隆图。该发表更加详细地表述了在多维集合(pool)中BAC文库的生成,例如二 -维格式,其中各集合和排(row)含有148个BAC克隆(148X148格式)。使用CAPPS,BAC集合经测序以至于平均4-5X覆盖度(coverage),在二 -维集合方案的情况下其生成8-10 X覆盖度每个BAC。在二 -维集合方案的情况下,基于单排和单集合中序列的出现,基于相对于BAC独特的序列对每个BAC分别建立重叠群。随后将这些BAC在一个重叠群中拼接为基因组。该公开证明了仅基于5个BAC的技术,而留下数据-加工问题未触及。这种技术的一个缺点在于随机剪切的片段的使用要求巨大数量的读取来以8至10倍的序列冗余度水平覆盖基因组,使得这种方法在更大规模时很繁重。此外,其不产生基于物理BAC图的序列。US2007/0082358描述了这样的拼接序列信息方法,其基于单链基因组DNA的克隆分离的且扩增的文库,来产生全基因组鸟枪序列信息,以及为了产生有序的限制性图使用限制性酶的全基因组光学限制性图。
US2002/0182630公开了通过比较亚序列的BAC重叠群制图的方法。该方法目的在于通过产生跨富含-重复区的桥来避免与重复序列和重叠群生成有关的困难。基于BAC确定物理图可以基于对BAC文库(BAC克隆的基于-序列的物理制图)进行测序使用例如来自凯津公司的W02008/007951中描述的方法,也作“全基因组谱(profiling)”或WGP。简言之,WGP涉及基因组的至少部分的物理图的生成,包括从样本DNA生成人工染色体文库、合并克隆、用限制性酶消化合并的克隆、连接含-标识符的接头、扩增含-标识符的接头-连接的限制性片段、将扩增子与克隆关联以及片段排序来生成重叠群从而产生物理图的步骤 。尽管高通量测序中的所有发展,确定具有高精确度的草图基因组序列仍然被认为是昂贵且繁重的,并且市场上存在着激烈的竞争。因此依然需要完善目前现有方法来获得用于生成草图基因组序列的高效且经济的方法。

发明内容
本发明人已发现基于测序技术中的新近发展,新型且高效的策略提供对现有方法学的改进。该策略原则上基于使用限制性片段的来自克隆库(bank)的物理图。采用片段化的限制性片段的测序、去卷积(当使用克隆时)以及和物理图比对,由限制性酶(含有与生成物理图中所用的相同的识别序列)获得的来自克隆或来自基因组DNA的限制性片段用于在随后的步骤中生成进一步序列信息。该结果是生成连接至限制性片段的序列读取,其中限制性片段本身连接至物理图。使用这种组合方法,通过限制性片段测序联合上限制性片段内部序列测序的组合,可以获得物理图以及草图基因组序列。定义如此处所用,“配对末端测序”(paired end sequencing)是基于高通量测序的方法,尤其基于目前由Illumina和Roche销售的平台。Illumina已发行了可作为升级安装于现有测序仪中的硬件模块(PE模块),其允许模板两个末端的测序,从而生成配对末端读取。在根据本发明的方法中,尤其优选使用配对末端测序,尤其使用Solexa技术。配对末端测序的实例描述于例如US20060292611中和来自Roche的公开(454测序)中。测序术语测序是指确定一个核酸样品如DNA或RNA中的核苷酸的顺序(碱基序列)。可以获得很多技术,比如Sanger测序和高-通量测序技术(也作下一代测序技术)(比如基于焦磷酸测序的Roche Applied Science提供的GS FLX平台)。限制性酶限制性内切酶或限制性酶是一种酶,其识别双-链DNA分子中的特异性核苷酸序列(靶位点),并将在每个靶位点或每个靶位点附近切割DNA分子的两条链,产生平的或交错的(staggered)末端。IIs-型限制性内切酶是一种内切酶,其具有远离限制性位点的识别序列。换言之,IIs型限制性内切酶在至一侧识别序列之外进行切割。其实例是NmeAIII (GCCGAG(21/19)和FokI、AlwI、MmeI。有IIs型酶在两侧识别序列之外进行切割的。高频剪切酶(frequent cutter)和低频剪切酶(rare cutter):典型地限制性酶具有在核苷酸数目上不同的识别序列(从4个(如MseI)至6个(EcoRI)以及甚至8个(NotI))。所用限制性酶可以是高频的和低频的剪切酶。在这方面上,术语“高频”的使用典型地和术语“低频”有关。高频剪切内切酶(又叫做高频剪切酶)是具有相对短的识别序列的限制性内切酶。高频剪切酶典型地具有4或5个其识别然后切割的核苷酸。因此,高频剪切酶平均每256-1024个核苷酸切割一次DNA序列。低频剪切酶是具有相对长的识别序列的限制性内切酶。低频剪切酶典型地具有6个或更多个其识别然后切割的核苷酸。因此,低频6-剪切酶平均每4096个核苷酸切割DNA序列,产生更长的片段。再次观察,高频和低频的定义是彼此相关的,表示当4bp限制性酶(比如MseI)联合5-剪切酶(比如Aval I)使用时,Avail视为低频剪切酶而MseI为高频剪切酶。甲基化敏感性限制性酶(MSRE )。对其识别序列中或附近的核苷酸甲基化状态敏感的限制性酶。邻近识别序列的特异性甲基化核苷酸(通常胞嘧啶)的存在或缺失决定酶的活性。NotI、SmaI、XmaI、MboI、BstBI、CIaI、MM、NaeI、NarI、PstI、PvuI、SacII、SaiI、HpaII 和HhaI是MSRE的实例。其它有用的MSRE描述于例如McClelland等人,Nucl. Acids Res. 22 3640-3659 (1994)中或从商业销售商比如 New England Biolabs (Beverly, MA)> Promega(Madison, WI)或 Invitrogen (Carlsbad, CA)获得的技术材料中。同裂酶同裂酶是对相同识别序列特异的、并在相同位置切割的限制性酶的对。例如,Sph I (GCATG'C)和Bbu I (GCATG'C)彼此是同裂酶。识别并切割给定序列的第一个酶被认为是原型,识别并切割该序列的所有后续酶是同裂酶。识别相同序列但不同切割的酶是异裂酶。同裂酶是异裂酶的特异类型(子集)。例如,Sma I(CCC~GGG^PXma I(CCCGGG)彼此是异裂酶(而非同裂酶)。限制性片段用限制性内切酶消化DNA产生的DNA分子被称为限制性片段。任何给定的基因组(或核酸,无论其来源)将被特定的限制性内切酶消化为限制性片段的不连续组。限制性内切酶切割得到的DNA片段可以被进一步用于多种技术中,并且可以例如通过凝胶电泳或测序进行检测。限制性片段可以是平端的或具有突出(overhang)。可以使用描述为平滑化(polishing)的技术除去突出。术语限制性片段的“内部序列”典型地用于表示样本基因组中限制性片段残基部分的来源,即,不形成接头部分。内部序列直接源自样本基因组,其序列因此是所研究的基因组序列的部分。术语内部序列用于区分接头、限制性酶的识别序列其余部分等。连接通过连接酶催化的酶反应称为连接,其中两个双-链DNA分子共价连接起来。通常,两条DNA链共价连接起来,但是也可能通过化学或酶修饰其中一个链末端来防止两条链中一条的连接。这样情况下,共价连接将只会发生在两条DNA链中的一条链。合成的寡核苷酸可以化学合成的、具有优选约10至约50个碱基的单-链DNA分子被称为合成的寡核苷酸。通常,这些合成的DNA分子被设计为具有独特的或想要的核苷酸序列,尽管也可能合成具有相关序列但在核苷酸序列内的特异位置具有不同核苷酸组成的分子家族。术语合成的寡核苷酸将被用于是指具有设计好的或想要的核苷酸序列的DNA分子。接头具有有限数目碱基对的短的双-链DNA分子,例如长度为约10到约30个碱基对,如此设计使它们可以被连接到限制性片段的末端。接头通常由两个具有彼此部分互补的核苷酸序列的合成寡核苷酸组成。当在适当条件下在溶液中混合这两个合成的寡核苷酸时,它们将彼此退火形成双-链结构。退火后,接头分子的一个末端被设计使其和限制性片段的末端兼容,并能连接至其上;接头的另一个末端可以被设计使其不能连接,但不一定是这样(双连接的接头)。接头可以含有其它功能特征比如标识符、限制性酶的识别序列、弓丨物结合节段等。当含有其它功能特征时,接头的长度可能增加,但是通过组合功能特征这可以得到控制。接头-连接的限制性片段在一端或两端加盖接头的限制性片段。引物通常,术语引物是指可以引发DNA合成的DNA链。DNA聚合酶不能在没有引物的情况下从头合成DNA:它在反应中只可以延长已有的DNA链,在所述反应中互补链被用作模板来指导待拼接的核苷酸的顺序。我们将把聚合酶链式反应(PCR)中使用的合成的寡核苷酸分子称为引物。DNA扩增术语DNA扩增将被典型地用于表示使用PCR进行双-链DNA分子的体外合成。需要注意的是,存在其它扩增方法,并且它们有可能用于本发明中而不偏离本发明的要旨。核酸根据本发明,核酸可包括嘧啶和嘌呤碱基的任何聚合物或寡聚物,分别优 选胞卩密唳、胸腺卩密唳和尿卩密卩定,以及腺嘌呤和鸟嘌呤(见Albert L. Lehninger, Principles ofBiochemistry, 793-800 (Worth Pub. 1982),其被整体引用并纳入此处,以用于本文的各个目的)。本发明考虑任何脱氧核糖核苷酸、核糖核苷酸或肽核酸组分,及其任何化学变体,比如这些碱基的甲基化、羟甲基化或糖基化形式,等。该聚合物或寡聚物在组成方面可以是异源的或同源的,并且可以分离自天然发生的来源或者可以是人工的或合成的产物。此外,核酸可以是DNA或RNA,或其混合物,并且可以以单-链或双-链形式永久或暂时存在,包括同源双链、异源双链和杂交状态。复杂性降低(complexity reduction):术语复杂性降低用于表示一种方法,其中通过生成或选择样本的子集来降低核酸样本(比如基因组DNA)的复杂性。这种子集可以代表整个(即复杂的)样本,以及优选可重复的子集。在本上下文中可重复表示当使用相同的方法和实验条件降低相同样本的复杂性时,获得相同或至少相当的子集。用于复杂性降低的方法可以是本领域已知的用于复杂性降低的任何方法。用于复杂性降低的方法的实例包括例如AFLP (Keygene N.V.,荷兰;见,如EP0534858)、Dong描述的方法(见,如W003/012118、W000/24939)、索引链接(Unrau 等人,1994,Gene, 145 :163-169)等。用于本发明复杂性降低的方法有一个共同点即它们是可重复的。当以相同的方式降低相同样本复杂性时,与更随机的复杂性降低(比如显微切割、随机剪切或使用在所选组织中转录的代表部分基因组的mRNA (cDNA))相反,获得相同的样本子集,在这种意义上,可重复以及对于其可重复性取决于组织的选择、分离时间等。标识符可以加入或插入至接头或引物中的或包含在其序列中或否则用作标记(label)来提供独特标识符(又叫做条形码或标志(index))的短序列。这样的序列标识符(标签)可以是可变但确定长度的独特碱基序列,通常4-16bp用于鉴别特异性的核酸样本。例如,4bp的标签允许4 (4次方)=256个不同的标签。使用这样的标识符,通过进一步加工可以确定PCR样本的来源,或者片段可以与克隆关联。使用这些基于序列的标识符,集合中的克隆还可以彼此区分。因此,标识符可以是样本特异性的、集合特异性的、克隆特异性的、扩增子特异性的等。在组合源自不同核酸样本的加工产物的情况下,通常使用不同的标识符来鉴别不同的核酸样本。标识符彼此优选至少两个碱基对不同以及优选不含两个一致的连续碱基来防止错读(misread)。标识符功能可以有时与其它功能比如接头或引物组合,以及可以位于任何方便的位置。
标签(tagging):术语标签涉及序列标签加入至核酸样本以便能够将其与第二个或其它核酸样本区分。可以比如通过在复杂性降低期间或通过任何其它本领域已知方式比如单独的连接步骤中加入序列标识符进行标签。这样的序列标识符可以是比如专门用于鉴别特异性的核酸样本的可变但确定长度的独特碱基序列。使用基于核苷酸的标签,通过进一步加工可以确定样本、克隆或扩增产物的来源。在组合源自不同核酸样本的加工产物的情况下,通常使用不同的标识符来鉴别不同的核酸样本。标签文库术语标签文库涉及带标签的核酸的文库。比对(aligning):术语“比对”意思是基于一致的或相似的核苷酸的短或长的延伸片段(stretch)的存在情况比较两个或多个核苷酸序列。本领域已知几种方法来进行核苷酸序列的比对,以下将有进一步解释。比对(alignment):将多个序列置于表格显示形式以使从比对的多种序列中获得同一性序列区的可能性最大,例如可通过引入缺口。本领域中已知几种核苷酸序列比对方法,下面将进一步解释。术语“重叠群”的使用和DNA序列分析相联系,并涉及源自具有连续核苷酸序列的两个或更多个DNA片段的拼接的DNA连续延伸片段。因此,重叠群是一组重叠的DNA片段,其提供基因组的部分连续序列。“支架(scaffold)”定义为一系列顺序正确但是在一个连续序列中不连续的重叠群,即含有缺口。重叠群图通过指定一组克隆之中的重叠关系还代表基因组连续区的结构。例如,术语“重叠群”包括一系列以这种方式排列的克隆载体,从而使各序列与其相邻者的序列重叠。然后可以手工地或优选使用合适的计算机程序比如FPC、PHRAP、CAP3等将连接的克隆划分至重叠群。片段化(fragmentation):用于将DNA片段化为更小片段的技术。片段化可以是酶的、化学的或物理的。随机片段化是一种技术,其提供具有不依赖于其序列的长度的片段。典型地,剪切或喷雾(nebulisation)是提供随机DNA片段的技术。典型地,随机片段化的强度或时间决定片段的平均长度。片段化之后,可以进行大小选择来选择想要的片段大小范围。物理制图描述这样的技术,其使用分子生物学技术比如杂交分析、PCR和测序直接检验DNA分子来构建显示序列特征的位置的图。遗传图是基于遗传技术(比如谱系分析)的使用来构建显示序列特征在基因组上的位置的图。去卷积是一种术语,用于描述通过检测已知相关指示物(即标记或标识符)在一个或更多集合或亚集合中的存在来鉴别文库中个体。扩增子当(例如通过用PCR)扩增DNA (片段)时,扩增产生的DNA链可以表示为扩增子。平滑化依赖于酶,用限制性酶消化DNA可以产生平的或交错端(即含有突出或含有延伸的碱基)。交错端可以在描述为“平滑化”的方法中被平端化(突出被除去)。使用DNA 聚合酶像T4聚合酶、KlenowDNA聚合酶实现平滑化(Costa等人,Nucleic acids Research,1994)。


图I :本发明测序策略的示意2 :WGPS,全基因组谱测序的示意图。图3 :SDSES,定点单末端测序(Site-Directed Single End sequencing)的不意图。图4 :SDPES 定点配对末端测序(Site-Directed Paired End Sequencing)的不意图。图5 :读取I和WGP标签之间的关系。图6a :读取I含有(部分)测序引物2,以及读取2含有(部分)集合ID和测序引物I的组合。图6b :读取2含有(部分)集合ID。图I :具有1506个配对末端的读取的WGP标签“GAAITCAGTGGAGGAITGTGGGGTGG”箱(bin)的phrap、Cap3和Velvet的说明性拼接结果。图8 针对WGP标签“GAATTCAAATGAAGCCACCCTTTAGA” (=查询)相对于甜瓜基因组序列(=靶)生成的重叠群的Blast分析的说明性结果。
具体实施例方式在一方面中,本发明涉及用于生成来自DNA样本的序列信息的方法,包括a.基于对带标签的接头-连接的限制性片段进行末端-测序提供克隆库(bank)的(基于-序列的)物理图,其中已使用至少一种限制性酶生成限制性片段;以及b.提供亚方法,其包括步骤i.提供DNA样本的接头-连接的限制性片段ii任选,将接头-连接的限制性片段片段化iii.任选,将接头连接至步骤(ii)的片段iv.确定步骤(iii)的片段的至少部分序列c.步骤(b)中获得的序列信息和步骤(a)的物理图组合;d.生成草图基因组序列;其中用至少一种限制性酶(含有与生成步骤(a)的物理图中所用的至少一种限制性酶的至少部分识别序列一致的识别序列)生成步骤(b) (i)中的限制性片段。在本方法的第一步骤中,通过接头-连接的限制性片段的末端-测序提供克隆库(bank)的物理图。基于末端-测序的克隆库(bank)的物理图可以基于比如W02008007951 “高通量物理制图”中描述的方法,但是其变化也可用作如下示例的。在申请人自己的涉及高通量物理制图的W02008007951中,描述了一种用于生成物理图的高效方法,其通过在文集合中克隆的限制性酶消化、合并、限制性酶消化、接头-连接、(选择性)扩增、高-通量测序和获得结果的去卷积的组合,产生可用于拼接物理图的BAC-克隆特异性组。克隆拼接成重叠群是基于经测序的片段的终端核苷酸序列的共存,终端核苷酸序列可用作基于用于序列数据的额外连接的锚点的序列。这种技术称为全基因组谱(WGP),并且是凯津公司用于基于序列的物理制图的最近发展的专有方法。典型地,从单一(纯合的)个体构建BAC文库,并且BAC克隆合并成多维形式。BAC集合的特征在于集合特异性标签,其允许基于多维集合筛选中的坐标将序列指定给个体BAC克隆。从各BAC集合中提取DNA,并用一种或更多种限制性酶消化,例如EcoRI和Msel。在下一代测序仪(比如Illumina基因组分析仪)上分析限制性片段的EcoRI末端,以这种方式这些有关的短(20-100个碱基对)序列的片段(称为WGP标签)可以指定给个体BAC0在下一步中,可以基于重叠的WGP标签模式(pattern)使用重叠群软件工具比如FPC(Soderlund等人)拼接BAC。通常这产生拼接的BAC的重叠群,每2至4千个碱基带有WGP标签,每 个BAC克隆约30-60个标签。与其它物理制图方法比如SNaPshot制图(例如在BMC genomics 2007, 8,I, 40中由Quiniou所用的)相比,在提供基于序列的锚点而非提供片段长度用于BAC重叠群拼接方面,WGP方法是独特的。基于序列的锚更加精确,并为用于全基因组鸟枪数据的拼接提供基础。更详细地,物理制图包括步骤(a)提供人工染色体(如,BAC,YAC)克隆库(bank),其中各人工染色体克隆含有来自样本基因组的DNA ;(b)将来自人工染色体文库的克隆合并为集合;(c)使用限制性酶给各集合提供一组片段;(d)将接头连接至片段;(e)确定接头的至少部分和片段的部分的序列;(f)给相应的克隆指定片段;(g)将克隆排列成克隆-重叠群从而生成样本基因组的物理图。在方法步骤(a)中,提供人工克隆库(bank)。文库可以是细菌人工染色体文库(BAC)或基于酵母(YAC)。其它文库,比如基于f粘粒、粘粒(cosmids)、PAC、TAC或MAC也是可能的。优选的是BAC文库。优选该文库是高质量的并且优选是高插入大小的基因组文库。这意味着个体BAC含有所研究的基因组DNA的相对大的插入(典型地>100kbp)。优选的大的插入的大小是物种依赖性的。贯穿本申请中,BAC作为人工染色体的实例进行参考。然而,应注意本发明不限于此,其它人工染色体也可使用,而不偏离本发明的要旨。优选该文库包含至少5个基因组当量(equivalent),更优选地至少7个,最优选地至少8个。特别优选地至少10个。文库中的基因组当量数目越高,获得的重叠群和物理图将越全面和可
O在步骤(b)中,合并文库中的个体克隆以形成含有多个人工染色体或克隆的多个集合。合并可以是简单的将一些个体克隆组合为一个样品(例如,100个克隆到10个集合中,各集合包含10个克隆),但还可使用更复杂的合并策略。克隆在集合中的分布优选地为各克隆在至少两个或更多集合中存在。优选地,集合包含从10至10000个克隆每个集合,优选地从100至1000,更优选地从250至750。观察到每个集合的克隆数目可在很大范围内变化,这种变化与例如所研究的基因组大小有关。典型地,集合或亚集合最大的大小由使用一组标识符从集合中独特地鉴别出克隆的能力所决定。集合中基因组当量的典型范围为0. 2-0. 3的量级(order),同样这个数字也可随基因组而变化。集合基于本领域熟知的合并策略生成。本领域技术人员能够基于因素比如基因组大小等选择最佳的合并策略。获得的合并策略将取决于环境,其实例为平板合并(plate pooling)、N维合并比如2D合并、3D合并、6D合并或复合合并。为便于处理大量的集合,这些集合可轮流(on their turn)组合成超集合(super-pool,即超集合是克隆的集合的集合)或分成亚集合(sub-pool)。其它合并策略及其去卷积的实例(即通过检测在一个或更多集合或亚集合中已知克隆的相关指示物(即标记或标识符)的存在来正确鉴别文库中的个体克隆)例如在US 6975943或Klein等人在Genome Research, (2000),10,798-807中描述的。合并策略优选地为文库中每个克隆分布在这种集合中,此集合为对每个克隆都建成的独特组合的集合。其结果是(亚)集合的特定组合独特地鉴别一个克隆。在方法的步骤(C)中,用限制性内切酶消化这些集合产生限制性片段。各集合优选地单独经受内切酶消化。优选 各集合用同样的内切酶(组合)或具有相同识别序列的那些内切酶进行处理。原则上,可使用任何限制性内切酶。限制性内切酶可以是高频剪切酶(4或5剪切酶,比如MseI或Aval)或低频剪切酶(6或以上的剪切酶比如EcoRI、HindIII)。典型地,选择这样的限制性内切酶,从而使所获得的限制性片段平均以满足后续步骤的数目或特定长度分布而存在。在一些实施方式中,可使用两种或更多种限制性内切酶,在一些实施方式中,可联合使用低频和高频剪切酶。对于大的基因组,可以使用例如三种或更多种限制性内切酶,有助于降低基因组复杂性。在步骤(d)中接头连接到限制性片段的一端或两端以提供接头连接的限制性片段。典型地,接头是如此处其它地方限定的合成的寡核苷酸。本发明使用的接头优选地含有标识符节段(section),其实质上如此处其它地方所限定的,来提供“带标签的接头”。在一些实施方式中,接头含有集合特异性标识符,即对各集合,使用含有独特标识符的接头明确指示该集合。在一些实施方式中,接头含有与含有集合特异性标识符的引物联合使用的简并标识符节段。在一些实施方式中,接头连接的限制性片段可组合成更大的组,特别是当接头含有集合特异性标识符时。这种在更大的组中的组合有助于减少从集合中获得的各组接头连接的限制性片段的平行扩增的数目。或者,所连接的接头不含标识符或简并的标识符节段。接头连接的片段随后例如在其5’末端使用含有标识符(标签)的引物进行扩增。结果是获得扩增的带标签的接头连接的片段。在这种实施方式中,对于多个(或所有)集合,接头可以相同,以及使用带标签的引物的扩增产生随后可用于去卷积的集合之间的区别。无论如何,通过标签的存在获得一组带标签的接头连接的片段,所述片段连接至其源自的集合。可以扩增带标签的接头连接的片段。扩增可起到降低复杂性或提高分析可获得的DNA的数量的作用。可以使用一组与接头和或标签/标识符至少部分互补的引物进行扩增。这种扩增可独立于此前所述的向接头中引入标签的扩增,但是它可能是在一个组合的步骤中。在一些实施方式中,扩增可能同时发挥若干个目的,即在集合中降低复杂性、提高DNA数量以及在接头连接的片段中引入标签。在一些实施方式中,扩增可能在分开的阶段中使用不同的引物,例如首先使用针对接头的引物提高可获得的DNA的数量,然后通过使用含有标签的引物引入标签,随后使用在接头连接的片段中进行选择的引物降低复杂性,例如在3’末端使用随机选择性核苷酸,或通过使用扩增某些带标签的接头的(合并的)引物。在一些实施方式中,接头连接的片段可以组合成更大的组,尤其当接头含有集合特异性标识符时。这种在更大组中的组合可有助于降低从集合获得的各组接头连接的限制性片段的平行扩增的数目。
可使用一组引物扩增接头连接的片段,其中引物中的至少一条引物扩增集合特异性位置上的集合特异性标识符或扩增接头中的简并标识符。引物可含有(部分)标识符,但是该引物还可和位于标签之外的接头节段互补,即接头中的下游。然后还扩增标签。在步骤(e)中确定带标签的接头连接的片段的部分序列。带标签的接头连接的片段经历测序,优选如此处其它地方所述的高通量测序。测序期间,确定(扩增的)带标签的接头连接的片段的至少部分核苷酸序列。优选至少确定集合特异性标识符的序列以及(扩增的)带标签的接头连接的片段的部分片段(即源自样本基因组)的序列。优选地,确定片段的至少10个核苷酸的序列。在一些实施方式中,确定片段的至少15、20、25、30或35个核苷酸的序列(即源自样本基因组)。待确定的核苷酸的数目最低程度地将是,再次,基因组以及测序平台依赖性的。例如,在植物中出现更多重复的序列,因此为了相当的质量的重叠群,要确定更长的序列(25-75个核苷酸)。例如,在已知的拟南芥基因组序列的虚拟计算(silicocalculation)中已经显示,当测序步骤中包括6bp限制性位点时,需要确定约20bp每个片段以便确保大多数(>80%)序列在基因组中是独特的。可能确定整个片段的序列,但是对于BAC克隆的重叠群建立并非绝对必要。 在测序步骤中,为提供所有片段的最大覆盖度以及提高的精确度,可用至少为5的平均冗余度水平(又叫做过采样率(aka oversampling rate))对序列文库进行测序。这意味着,平均,确定获自一个特异性接头连接片段扩增的至少5个扩增子的序列。换言之各片段(统计学上)平均进行至少5次(times)测序。优选提高的冗余度,由于其改进各集合中取样的片段的分数(fraction)以及这些序列的精确度,因此优选地冗余度水平是至少7,更优选地至少10。提高的平均测序冗余度水平用于补偿被称为“取样变化”的现象,即来自大“群体”的取样子集中的随机统计波动。此外,更高的平均测序冗余度水平减轻扩增片段丰度中的可能差异(差异是由其扩增速度中的差异产生的,而扩增速度中的差异由片段间的长度变化以及序列组成中的差异引起)。优选使用高通量测序方法进行测序,比如W003/004690、W003/054142、W02004/069849、W02004/070005, W02004/070007 和 W02005/003375,由 Seo 等人(2004)Proc. Natl. Acad. Sci. USA 101 :5488-93 以及 Helicos、Illumina、US Genomics、etcetera的技术中公开的基于焦磷酸测序的方法,其并入此处作为参考。在随后的步骤(f)中,(部分)测序的(扩增的)带标签的接头连接的片段关联至或指定至相应克隆,典型地虚拟地(in silico)通过计算机化方法的方式。选择在限制性片段衍生部分含有一致的核苷酸节段的(扩增的)带标签的接头连接的片段。随后鉴别存在于那些(扩增的)带标签的接头连接的片段中的不同集合特异性标识符(标签)。不同集合特异性标识符的组合以及因此限制性片段的序列可以独特地指定至特异的克隆(之前描述为“去卷积”的方法)。例如,在3D合并策略(X、Y、Z)的情况下,通过带有相同限制性片段衍生节段的3个集合特异性标识符的组合对文库中各集合进行独特定址。换言之源自克隆的限制性片段衍生节段将标签上3个不同标识符。当独特的限制性片段衍生节段被观察到3个标识符组合时,可以将其指定至单一 BAC克隆。对于在限制性片段衍生部分含有其它独特核苷酸节段的各(扩增的)带标签的接头连接的片段,这是可以重复的。在步骤(f)中将片段指定至相应克隆之后,在方法的步骤(g)中组合克隆并排列成克隆重叠群。可以通过针对这种目的的指纹重叠群软件进行组群(grouping)和排列,比如实质上如本文其它地方所述的FPC软件(Soderlund等人(1997)FPC :a system forbuilding contigs from restriction fingerprinted clones. Comput. Appl. Biosci. , 13 523 - 535)。将克隆比对至重叠群中以及相应的WGP标签的顺序生成样本基因组的物理图。本发明的亚 方法中,提供接头连接的限制性片段。作为生成接头连接的限制性片段的起始材料,可以使用样本基因组、或可以使用样本基因组的部分、或BAC克隆的集群(collection),从一个单一 BAC克隆至BAC克隆的整个文库而不同,所以包括一个或更多个BAC克隆的BAC文库的子集也是可能的。当使用BAC克隆时,使用如此处其它地方所述的相似或一致的合并和去卷积策略,可以使用BAC克隆的集合。在亚方法中,DNA样本优选来自与步骤(a)中生成物理图所用的DNA样本相同的个体、系或来源。或者,亚方法中的DNA样本可来自不同来源,比如来自个体的亲属、同系的成员等。通过用至少一种限制性酶(含有与生成物理图中所用的至少一种限制性酶的至少部分识别序列一致的识别序列)进行消化将起始材料片段化为限制性片段。在一些实施方式中,相同的限制性酶用于生成物理图以及用于生成第二步骤的限制性片段。在替代的实施方式中,它们可以具有与用于产生物理图的限制性酶相同的识别序列或含有其至少部分识别序列。在一些实施方式中,限制性酶的识别序列包括产生物理图中所用的限制性酶的识别序列。例如,限制性酶PacI具有识别序列TTAATTAA,而限制性酶MseI具有识别序列TTAA,其识别序列作为整体出现在第一个限制性酶中。在一些实施方式中,两种方法中采用的限制性酶可以是同裂酶或异裂酶。限制性酶的组合也可能影响限制性片段的数目或降低复杂性,例如通过选择性扩增。接头可以连接至第二亚步骤((b) (i))的限制性片段。典型地,接头是此处其它地方限定的合成的寡核苷酸。用于本发明的接头优选含有标识符节段,实质上如此处其它地方所限定的,来提供“带标签的接头”。当连接接头时,其优选不恢复限制性内切酶的识别序列。典型地,当片段化中使用一种限制性酶时,接头将连接至片段的两端。在一些实施方式中,所用接头可以是生物素化的。可用亲和标记比如生物素来标记接头从而允许随后的(基于链霉亲和素的)亲和标记的接头的选择。尤其是,第一亲和标记的接头连接至获得的亲和标记的接头连接的限制性片段。当使用两种或更多种限制性酶时,可使用两种或更多种不同接头,其可以或可以不独立地用亲和标记进行标记。接头可还含有实质上如此处其它地方所述的标识符来允许合并和去卷积策略。接头可以与生成物理图所用的接头相同并且可含有标识符,标识符可与生成物理图所用的标识符相同。在一些实施方式中,接头可含有针对限制性酶的识别序列,优选Hs型酶。在一些涉及在接头中存在IIs型识别序列的实施方式中,这种步骤后为环化(circularisation)步骤,随后是用IIs型酶进行消化。可以将接头连接至IIs消化的位点,从而接头连接的片段可以经历片段化。现在可以将接头连接的片段片段化,产生片段化的接头连接的片段。典型地,这可产生在一端含有接头而在另一端具有源自样本核酸序列的核苷酸(“裸端”)的DNA片段。可以用另一种(非选择性)限制性酶或通过随机片段化比如剪切或喷雾进行这种第二个片段化步骤。接头连接至这些“裸端”,其中在一些实施方式中“裸端”可以被平滑化并且可经历A加成(“A加尾(tailing)”)。这些接头可与步骤(iii)中所用的接头相同或不同并且可以带标签。在随后的步骤中,现对这些接头连接的裸端进行测序,即确定片段的至少部分序列。优选地,接头连接的末 端进行末端测序,即确定序列的一个或两个末端含有接头的部分以及内部片段的部分。这产生一组序列片段。这些序列片段可以通过接头和标识符关联至物理图上的限制性位点,因此可以关联至物理图。对于可以关联至物理图上限制性位点的各组片段,这些片段的组可以锚定至图,并且它们还可经重叠来进一步向物理图的特异性位置(WGP标签)加入序列信息。使用这种方法,有可能确定物理图上的WGP标签并随后向这些WGP标签加入序列数据,从而进一步完成物理图并生成样本的草图基因组序列,或至少其部分。本发明的方法体现在三个不同的实施方式,所有实施方式共享以上的通用概念。该三个实施方式现在下文讨论。在第一个实施方式中,称为WGPS,物理图尚不可获得,并用需要加入至物理图、锚定至WGP标签的期望的进一步序列信息并排确定物理图。在两个其它实施方式中,SDSES和SDPES分别地,物理图已可获得,并且生成的序列数据用于进一步补充现有的物理图。在一些实施方式中,其中物理图已可获得,WGPS无论如何可用于生成额外的序列信息。取决于实施方式,可优选某些测序技术及其产生的序列读取(的长度)。这示意性地描述于图I中。WGPS (全基因组谱测序)因此,在本发明方法的第一个变化中,物理图同片段序列一起(同时、平行或随后地)进行确定。按照此处之前所描述的确定物理图,并采用相同的变化和实施方式。清楚起见,涉及WGPS,他们此处进行重复。此外,BAC克隆的接头连接的限制性片段按照此处如下所描述的经历进一步的片段化,接头连接和测序。整个方法,包括生成物理图,包括步骤(a)提供包括多个克隆的克隆库(bank),其中各克隆含有来自样本基因组(或样本基因组的部分)的DNA ;(b)将来自克隆库(bank)的克隆合并为集合;(c)使用至少一种限制性酶针对各集合提供片段;(d)将第一接头连接至片段;(e)将步骤(d)的接头连接的限制性片段进行片段化来提供片段化的接头连接的限制性片段,任选地,平滑化随机片段末端;(f)将第二接头连接至(平滑化的)片段化的限制性片段来提供含有第一和第二接头的接头连接的片段化的限制性片段;(g)任选地,用第一和第二引物来扩增步骤(f)的接头连接的片段化的限制性片段从而生成扩增子;(i)确定第一接头的至少部分和/或邻近第一接头的片段的部分和/或第二接头的至少部分和/或邻近第二接头的片段的部分的序列;(j)基于经测序的第一接头的部分和/或邻近第一接头的片段的部分和/或第二接头的部分和/或邻近第二接头的片段的部分,将片段指定至相应克隆;(k)将克隆排列成克隆重叠群从而生成样本基因组的物理图;(I)将第二接头的至少部分和/或邻近第二接头的片段的部分的片段序列指定至相应克隆;(m)将步骤(h)的片段序列锚定至物理图;(n)生成早图基因组序列。在一个实施方式中,方法还包括将源自第一接头和邻近第一接头的片段的部分的序列以及源自第二接头和邻近第二接头的片段的部分的序列拼接成连接至物理图的重叠
群的步骤。在进一步骤中,这种特定重叠群可锚定至物理图。这种“装箱(binning)”方法产生亚拼接步骤,当处理更大的数据组时,这种步骤可能是高效的。本发明方法的这种实施方式的优势尤其在于限制性片段的片段配对末端序列数据的组合使用。序列读取之一直接和限制性片段的片段序列进行关联来建立物理图,随机片段化的末端的片段序列是随机的,但却物理上连接至用于建立物理图的片段。此处如下更详细地讨论方法的不同步骤。在WGPS实施方式中,两个接头可含有标识符,其可用于将片段关联至克隆。步骤(d)的(带标签的)限制性片段进行片段化。(带标签的)限制性片段的片段化提供片段化的带标签的接头连接的限制性片段。如果片段是双片段化的带标签的限制性片段的中间节段,获得的片段可在片段的3’或5’末端,或根本不,含有接头。片段化优选地是随机的,并优选通过剪切或喷雾或通过使用不依赖于序列组成的核酸酶。典型地,片段从而含有接头连接的末端和随机末端。因此使用常识技术可能选择具有期望大小范围的一组片段。片段可在随机末端进行平滑化。在一些替代实施方式中,平滑化步骤随后是加入一个或更多个特异性核苷酸来提供第二接头的锚点和定向点(orientation point),然后第二接头是交错设计的。(第二)接头连接至随机末端。当随机末端经平滑化,接头是平端的从而它们连接至各存在的随机末端。有时这些表示为第二接头(接头连接至如步骤(e)中所述的限制性片段,然后视为第一接头。获得的序列,即接头连接的片段化的带标签的限制性片段可以用两种引物(第一和第二引物)进行扩增。第一引物针对,任选地带标签的,限制性片段末端,并可含有至少和(第一)接头的部分互补的节段,第一引物至少扩增标识符(或简并的标识符节段)。第二引物可针对(互补于),任选带标签的,连接至限制性片段随机末端的接头的至少部分。优选使用PCR进行扩增,产生扩增的片段化的带标签的限制性片段(扩增子)。取决于可获得的不同扩增子的数目,可将来自各种实验的扩增子组合成一组扩增子例如用来适应所用测序平台的载量(capacity)。在一些实施方式中,扩增子可组合成一组组合的扩增子或所谓的序列文库。在方法的步骤(i)中,优选使用配对末端测序确定接头连接的片段或扩增子的一个或两个末端的序列。利用测序,确定至少位于第一和/或第二接头的标识符和/或位于邻近第一和/或第二接头的片段的内部序列的部分的可选序列。本发明方法中的测序典型地是基于高通量测序,比如此处公开的在Roche (454)和Illumina平台上的焦磷酸测序。接头连接的片段或扩增子经历测序,优选如此处所述的高通量测序。测序期间,确定扩增子的核苷酸序列的至少部分。优选地,确定片段的至少10个核苷酸的序列,优选地,从每一侧。在一些实施方式中,确定片段的至少20、25或30个核苷酸。待确定的核苷酸的数目最低程度地将是,再次,基因组以及测序平台依赖性的。例如,在植物中出现更多重复的序列,因此为了相当的质量的重叠群,要确定更长的序列(25-75个核苷酸)。目前的平台可处理显著更长的读取(100-800nt)。如之前所提及的,优选使用“配对末端测序”进行本发明的测序。配对末端测序还提供邻近第二接头的片段的内部序列的部分。通过进行配对末端测序,同时确定两条序列。基于标识符和内部序列的部分,序列可以组群为源自相同限制性片段的多个组。来自随机末端的序列信息 提供关于限制性片段内部序列组成的信息。通过将从限制性片段所获得的所有信息组群到一起以及产生从随机末端所获得的序列的重叠群,从第一接头和邻近片段序列所获得的信息可提供大多数(如果不是整个)限制性片段的草图序列。在步骤(j)中片段和相应克隆有关。典型地,去卷积来生成基因组的物理图是基于标识符在接头中的存在,接头将片段关联至集合,并且因此基于合并策略关联至相应克隆。因此,基于经测序的第一接头的部分和/或邻近第一接头的片段的部分和/或第二接头的部分和/或邻近第二接头的片段的部分,将片段指定至相应克隆。例如,基于两种限制性酶,例如EcoRI/Msel,物理图是可获得的,然后使用Hindi 11的WGPS实施方式可提供可连接至基于EcoRI/Msel的物理图的额外信息。在方法的步骤(k)中,使用常规已知的用于这种目的的软件,通过将克隆进行排列生成物理图。在方法的步骤(I)中,从第二接头和/或邻近第二接头的片段获得的片段序列偶联至(coupled to)相应克隆从而获得通过步骤(i)中的限制性片段测序(在步骤j中)连接至特定克隆的一组片段序列。这基于(j),即这样的事实基于配对末端测序第二接头的至少部分和/或邻近第二接头的片段的部分的序列源自相同的片段。如此获得的序列可以锚定至物理图和生成的草图基因组。在一些实施方式中,当物理图已经可获得时,WGPS无论如何可用于生成可连接至初始物理图的额外序列信息,例如通过针对WGPS使用不同的限制性酶。SDSES (定点单末端测序)在本发明方法的另一实施方式中,本发明方法的步骤(b)的亚方法包括步骤(a)用至少一种限制性内切酶对靶DNA (基因组DNA或人工染色体DNA)进行片段化来获得限制性片段;(b)将第一接头连接至限制性片段末端来获得第一接头连接的限制性片段;(C)第一接头连接的限制性片段进行随机片段化来获得随机片段化的第一接头连接的限制性片段;(d)任选地,选择含有接头的片段化的接头连接的限制性片段;(e)将第二接头连接至第一接头连接的限制性片段的片段化的末端;(f)任选地,使用针对步骤(b)的接头的引物以及针对步骤(e)的第二接头的(亲和标记的)引物进行扩增来获得(亲和标记的)扩增的片段;(g)任选地,基于第二接头的存在选择步骤(f)中获得的(亲和标记的)扩增的片段;(h)确定第一接头的至少部分和/或邻近第一接头的片段的部分和/或第二接头的至少部分和/或邻近第二接头的片段的部分的序列。在方法的步骤(a)中,提供靶DNA。靶DNA可以从任何来源获得,基因组或基于克隆的。通过本领域中任何方式可以实现从DNA的分离,比如例如由Sambrook等人所公开的(Sambrook 和 Russell (2001) “Molecular Cloning A Laboratory Manual (第三版),ColdSpring Harbor Laboratory, Cold Spring Harbor Laboratory Press)。样本 DNA 可以来自任何物种,尤其来自人、植物或动物来源。优选选取与生成物理图中所用的DNA样本相同的DNA样本,但是如此处之前所描述的其它样本也可以使用(即来自相关的个体、系等)。在针对克隆DNA的实施方式中,提供克隆库(bank)。这可以是与用于生成物理图相同的克隆库(bank)。克隆库(bank)(或文库)可以是细菌人工染色体文库(BAC)或基于酵母(YAC)。其它文库,比如基于f粘粒、粘粒、PAC、TAC或MAC也是可能的。优选的是BAC文库。优选该文库是高质量的并且优选是高插入大小的基因组文库。这意味着个体BAC含有所研究的基因组DNA的相对大的插入(典型地>125kbp)。优选的大的插入的大小是物种依赖性的。贯穿本申请中,BAC作为人工染色体的实例进行参考。然而,应注意本发明不限于此,其它人工染色体也可使用,而不偏离本发明的要旨。合并文库中的个体克隆以形成含有多个人工染色体或克隆的集合。合并可以是简单的将一些个体克隆组合为一个样品(例如,100个克隆到10个集合中,各集合包含10个克隆),但还可使用更复杂的合并策略。克隆在集合中的分布优选地为各克隆在至少两个或更多集合中存在。优选地,集合包含从10至10000个克隆每个集合,优选地从100至1000,更优选地从250至750。观察到每个集合的克隆数目可在很大范围内变化,这种变化与例如所研究的基因组大小有关。典型地,集合或亚集合最大的大小由能够使用一组标识符从集合中独特地鉴别出克隆的能力所决定。集合中基因组当量的典型范围为0. 2-0. 3的量级,同样这个数字也可随基因组而变化。集合基于本领域熟知的合并策略生成。本领域技术人员能够基于因素比如基因组大小等选择最佳的合并策略。获得的合并策略将取决于环境,其实例为平板合并、N维合并比如2D合并、3D合并、6D合并或复合合并。为便于处理大量的集合,这些集合可轮流组合成超集合(即超集合是克隆的集合的集合)或分成亚集合。其它合并策略及其去卷积的实例(即通过检测在一个或更多集合或亚集合中已知克隆的相关指示物(即标记或标识符)的存在来正确鉴别文库中的个体克隆)例如在 US 6975943 或在 Klein 等人中在 Genome Research, (2000), 10, 798-807中描述的。合并策略优选地为文库中每个克隆分布在这种集合中,此集合为对每个克隆都建成的独特组合的集合。其结果是(亚)集合的特定组合独特地鉴别一个克隆。可能仅使用基因组的一部分,但是并不必要,由于本发明还提供适合任何大小的基因组的方法,例如,通过经由可重复的复杂性降低(比如例如基于AFLP的选择性扩增(EP534858))来产生可重复的子集。从而,典型地,本发明使用整个基因组。或者,可以使用克隆库(banks)或其部分。用限制性酶对靶DNA进行限制来产生限制性片段。可以用至少一种限制性酶限 制靶DNA。在一些实施方式中,两种或更多种酶可用于生成期望长度和分布的限制性片段。在一些实施方式中,使用三种限制性内切酶来获得期望长度分布的限制性片段可能是有利的。限制性酶可平的或交错的(即产生突出)切割,考虑到后续的接头连接优选交错的。
优选选择这样的酶以及酶的组合从而,平均而言,片段长度约400_1000bp,这取决于例如所用的测序平台。优选低频剪切酶比如EcoRI。接头可以连接至第二亚步骤的限制性片段。典型的接头是如此处其它地方所限定的合成寡核苷酸,它们可含有识别符和亲和标记等。在方法的步骤(C)中,接头连接的限制性片段进行随机地片段化。对于随机片段化的合适且优选的技术被认为是喷雾或剪切,或使用另一种非选择性限制性酶。提供可控的DNA片段化的其它技术也是合适的。接头连接的限制性片段的片段化将产生在一端、在另一端及中间体片段带有接头的片段,以及,在两端是随机片段化的结果。使用常规程序片段化的组可经历大小范围的选择。现在片段化的接头连接的限制性片段可现在步骤(d)中进行选择,优选使用亲和 标记,以便在随机片段化之后从不带有接头或亲和标记的剩余片段中将它们分开,比如在两端源自随机片段化方法的片段(“带有随机末端”)。优选,生物素链霉亲和素的组合用于选择,但是其它亲和配体组合也可使用,以及含有与接头杂交的探针的载体。在步骤(e)中第二接头连接至所选的接头连接的限制性片段的随机末端。连接第二接头之前,随机末端,即通过随机片段化步骤产生的末端,可以进行平滑化,即除去突出核苷酸(平端化的)。第二接头可以是平端的。在一些替代实施方式中,平滑化步骤之后是加入一个或更多个特异性核苷酸来提供第二接头的锚点和定向点,然后第二接头是交错设计的。现在可在步骤(f)中从一对合适的引物对接头连接的组进行扩增产生扩增的片段(扩增子)。用针对第一接头(即步骤(b)的接头)核苷酸的至少部分的第一引物进行扩增。扩增中的第二引物针对第二接头(即步骤(e)的)(的至少部分)。第一和/或第二引物可以是亲和标记的来获得亲和标记的扩增产物用于随后的选择步骤。亲和标记可以是生物素,但其还可以不同于步骤(b)的一些实施方式中所用的亲和标记。例如,不是生物素标记,还可能使用基于核苷酸的亲和标记以及基于与浸染棒(dipstick)进行杂交来捕获片段的选择步骤,其中浸染棒带有互补寡核苷酸,所述寡核苷酸与基于核苷酸的亲和标记互补。使用比如之前描述的方法(例如使用带有链霉亲和素的载体),可以在随后步骤(步骤(g))中选择产生的(任选亲和标记的)扩增片段。在方法的步骤(h)中,实质上如此处其它地方所述的,例如使用基于焦磷酸测序的高通量测序技术,现在可以对片段进行测序。确定第一接头的至少部分和邻近第一接头的片段序列的部分的序列。在替代实施方式中,确定第二接头的至少部分和邻近第二接头的片段序列的部分的序列。基于序列同一性,经测序的片段可以拼接成重叠群并随后连接至物理图或序列信息可以直接锚定至物理图。重叠群,都以同所用限制性酶识别位点一致的序列开始,可以连接至使用具有一致识别序列的限制性酶所生成的物理图。可以通过在邻近限制性酶序列的重叠群序列中搜索物理图WGP标签的序列建立连接。当找到独特的命中时,重叠群序列可连接至物理图。在某些情况下,重叠群还将在其末端包括限制性酶位点,这表明完整的中间序列已确定。在本发明的一方面中,还可以采用SDSES如此来生成靶DNA的序列信息。因此本发明还涉及用于生成靶DNA序列信息的方法,包括步骤(a)用至少一种限制性内切酶对靶DNA (基因组DNA或人工染色体DNA)进行片段化来获得限制性片段;(b)将第一接头连接至限制性片段末端来获得第一接头连接的限制性片段;(C)第一接头连接的限制性片段进行随机片段化来获得随机片段化的第一接头连接的限制性片段;(d)任选地,选择含有接头的片段化的接头连接的限制性片段;
(e)将第二接头连接至第一接头连接的限制性片段的片段化的末端;(f)任选地,使用针对步骤(b)的接头的引物以及针对步骤(e)的第二接头的(亲和标记的)引物进行扩增来获得(亲和标记的)扩增的片段;(g)任选地,基于第二接头的存在选择步骤(f)中获得的(亲和标记的)扩增片段的选择;(h)确定第一接头的至少部分和/或邻近第一接头的片段序列的部分和/或第二接头的至少部分和/或邻近第二接头的片段序列的部分的序列。SDPES (定点配对末端测序)在本发明方法的另一实施方式中,本发明方法的步骤(b)的亚方法包括步骤Ca)限制性酶对靶DNA进行消化来获得限制性片段;(b)连接含有IIs型限制性内切酶识别序列的IIs接头来提供IIs接头连接的限制性片段;(c) Hs接头连接的限制性片段进行片段化来获得片段化的IIs接头连接的限制性片段;(d)片段化的IIs接头连接的限制性片段进行环化来获得环化产物;(e)环化产物进行IIs型限制性酶消化来提供IIs型消化片段;(f)将第一接头连接至IIs型消化片段来提供接头连接的IIs型消化片段;(g)第一接头连接的IIs型消化片段进行片段化;(h)将第二接头连接至第一接头连接的IIs型消化片段来提供第一和第二接头连接的IIs型消化片段;(i)确定片段和/或接头的至少部分的序列。在方法的步骤(a)中,提供靶DNA。靶DNA可以从任何来源获得,基因组或基于克隆的。通过本领域中任何方式可以实现DNA的分离,比如例如由Sambrook等人所公开的(Sambrook 和 Russell (2001) “Molecular Cloning A Laboratory Manual (第三版),ColdSpring Harbor Laboratory, Cold Spring Harbor Laboratory Press)。样本 DNA 可以来自任何物种,尤其来自人、植物或动物来源。优选选取与生成物理图中所用的相同的DNA样本,但是如此处之前所描述的其它样本也可以使用(即来自相关的个体、系等)。在针对克隆DNA的实施方式中,提供人工克隆库(bank)。这可以是与用于生成物理图相同的克隆库(bank)。人工克隆库(bank)(或文库)可以是细菌人工染色体文库(BAC)或基于酵母(YAC)。其它文库,比如基于f粘粒、粘粒、PAC、TAC或MAC也是可能的。优选的是BAC文库。优选该文库是高质量的并且优选是高插入大小的基因组文库。这意味着个体BAC含有所研究的基因组DNA的相对大的插入(典型地>125kbp)。优选的大的插入的大小是物种依赖性的。贯穿本申请中,BAC作为人工染色体的实例进行参考。然而,应注意本发明不限于此,其它人工染色体也可使用,而不偏离本发明的要旨。合并文库中的个体克隆以形成含有多个人工染色体或克隆的集合。合并可以是简单的将一些个体克隆组合为一个样品(例如,100个克隆到10个集合中,各集合包含10个克隆),但还可使用更复杂的合并策略。克隆在集合中的分布优选地为各克隆在至少两个或更多集合中存在。优选地,集合包含从10至10000个克隆每个集合,优选地从100至1000,更优选地从250至750。观察到每个集合的克隆数目可在很大范围内变化,这种变化与例如所研究的基因组大小有关。典型地,集合或亚集合最大的大小由能够使用一组标识符从集合中独特地鉴别出克隆的能力所决定。集合中基因组当量的典型范围为0. 2-0. 3的量级,同样这个数字也可随基因组而变化。集合基于本领域熟知的合并策略生成。本领域技术人员能够基于因素比如基因组大小等选择最佳的合并策略。获得的合并策略将取决于环境,其实例为平板合并、N维合并比如2D合并、3D合并、6D合并或复合合并。为便于处理大量的集合,这些集合可轮流组合成超集合(即超集合是克隆的集合的集合)或分成亚集合。其它合并策略及其去卷积的实例(即通过检测在一个或更多集合或亚集合中已知克隆的相关指示物(即标记或标识符)的存在来正确鉴别文库中的个体克隆)例如在US6975943或在Klein等人中在GenomeResearch, (2000),10,798-807中描述的。合并策略优选地为文库中每个克隆分布在这种集合中,此集合为对每个克隆建成的独特组合的集合。其结果是(亚)集合的特定组合独特地鉴别一个克隆。

可能仅使用基因组的一部分,但是并不必要,由于本发明还提供适合任何大小的基因组的方法,例如,通过经由可重复的复杂性降低(比如例如基于AFLP的选择性扩增(EP534858))来产生可重复的子集。从而,典型地,本发明使用整个基因组。用限制性酶对靶DNA进行限制来产生限制性片段。可以用至少一种限制性酶限制靶DNA。在一些实施方式中,两种或更多种酶可用于生成期望长度和分布的限制性片段。在一些实施方式中,使用三种限制性内切酶来获得期望长度分布的限制性片段可能是有利的。限制性酶可平的或交错的(即产生突出)切割,考虑到后续的接头连接优选交错的)。优选选择这样的酶以及酶的组合从而,平均而言,片段长度约50_800bp,这取决于测序平台的读取长度。优选低频剪切酶比如EcoRI。在方法的步骤(b)中,接头(此处表示为IIs接头)连接至从步骤(a)获得的限制性片段。接头含有Hs型限制性内切酶的识别序列来产生IIs接头连接的限制性片段。例如在合并的克隆DNA的情况下IIs接头可含有标识符。在方法的步骤(C)中,IIs接头连接的片段进行随机片段化。可以使用常规方法比如喷雾、剪切或不依赖于序列组成的核酸酶进行随机片段化。可以进行片段化来获得具有期望大小范围的片段,大小范围可能依赖于方法中随后所用的测序平台。获得的片段可经历中间体大小选择步骤。需要时,获得的片段可进行平滑化来获得平端的片段末端。在方法步骤(d)中,片段化的IIs接头连接的限制性片段进行环化来获得环形产物,其可以随后用Hs型限制性内切酶进行(在步骤(e)中)切割来产生IIs型消化片段。在步骤(f)中第一接头连接至IIs型消化片段。第一接头优选连接至IIs型限制性位点的其余部分来提供第一接头连接的IIs型消化片段。在方法的步骤(g)中,第一接头连接的IIs型消化片段然后再次进行片段化来产生可用大小的一组片段(典型地约150-800bp,这取决于所用平台)。在方法的步骤(h)中,第二接头的后续连接产生第一和第二接头连接的IIs型消化片段,即IIs型消化片段具有分别连接在各末端的第一或第二接头。第一和/或第二接头可含有(不同的)标识符。第一和第二接头连接的IIs型消化片段可以现在使用高通量测序技术比如乳液PCR (emulsion PCR)或聚类扩增(cluster amplification)进行测序和或扩增。按照第一接头至第二接头的方向或相反的方向确定片段序列的至少部分。优选,使用如此处其它地方所描述的配对末端测序确定片段的序列。获得的序列信息可以连接至物理图。在本发明的一方面中,还可以采用SDPES如此来生成靶DNA的序列信息。因此本发明还涉及用于生成靶DNA序列信息的方法,包括步骤(a)限制性酶对靶DNA进行消化来获得限制性片段;(b)连接含有IIs型限制性内切酶识别序列的IIs接头来提供IIs接头连接的限 制性片段;(c) Hs接头连接的限制性片段进行片段化来获得片段化的IIs接头连接的限制性片段;(d)片段化的IIs接头连接的限制性片段进行环化来获得环化产物;(e)环化产物进行IIs型限制性酶消化来提供IIs型消化片段;(f)将第一接头连接至IIs型消化片段来提供接头连接的IIs型消化片段;(g)第一接头连接的IIs型消化片段进行片段化;(h)将第二接头连接至第一接头连接的IIs型消化片段来提供第一和第二接头连接的IIs型消化片段;(i)确定片段和/或接头的至少部分的序列。实施例WGPS 实施例和超集合24的WGP数据一起提供甜瓜BAC文库超集合24来证明,通过拼接连接至酶位点的GA配对末端读取,BAC集合上成功的WGPS。I. Wetlab 方法该方法含有如下步骤-使用单一酶(EcoRI)消化(个体)BAC集合DNAs。-集合特异性EcoRI兼容接头的连接,接头含有P5扩增、序列引物I和集合特异性标识符序列。_(任选将来自超集合的RL产物进行合并,RL产物将在例如Illumina基因组分析仪的单道中进行测序。这达到了之前连接步骤中所用的不同集合特异性标识符的最大值)-将接头连接的产物片段化为具有大小范围为IOO-IOOObp的产物。片段化的接头连接的限制性片段是末端平滑化的,并且单个A-nt加入至片段化的末端。-为了除去太小的片段,用I: I. 8的样本珠比例进行Ampure纯化。这将除去IOOnt以下的片段。-连接含有3’-T突出的接头,接头含有P7扩增和序列引物2序列。-为了除去任何剩余的接头,用I: I. 3的样本对珠的比例进行Ampure纯化。
-通过填补部分单链的接头进行填补(fill-in)反应来生成完整的双链片段。或者使用P5和P7引物可以进行扩增。-使用QiagenPCR纯化柱纯化最终样本。-使用Nanodrop测量浓度以及通过在AgilentBioAnalyzer上进行分析确定片段的大小分布。-使用配对末端36nt测序操作,用IlluminaGenomeAnalyzer II对生成的文库进行测序。-使用标准Illumina软件流水线(pipeline)vl. 6加工获得的测序数据。-输出加工的序列数据,并用作WGP流水线以及拼接配对末端读取的输入。2.生物信息学方法2. I物理图生成的去卷积加工数据之后,集合中的平均#读取每个标签为 450。这比正常的WGP高大约7X。使用这种大的数据组,9039个标签可以使用标准WGP流水线进行去卷积。在常规WGP数据组中,所用的BAC集合中13571个标签进行去卷积。9039个去卷积的标签的大约71%还存在于常规WGP数据组中。更低的去卷积分配至极深度的测序,以及更低质量的测序运行。两者提高了含有错误的读取的数目,这提高了获得多坐标的标签的数目,并且因此不进行去卷积。经去卷积的标签要用于生成WGP图,WGP图将用于定位2. 2步骤5中所生成并选择的重叠群。2. 2将配对末端数据拼接成重叠群方法包括六个步骤。步骤I从配对末端读取的读取I中修剪(trim)集合标签。这是因为集合标签用于WGP加工中的去卷积而不用于拼接。该步骤还包括修饰的限制性酶位点从CAATTC到GAATTC的回复。除去集合标签之后,从读取I中生成15%以期望的限制性酶位点作为起始。步骤Ib为基于其BAC/集合标签将读取合并。这将使得,当对合并的标签进行聚类(clustering)时,能够进行读取的局部拼接。这是比步骤2中提及的方法(更加片段化的)的替代方法。步骤2根据读取I的相应WGP标签将配对末端读取进行聚类。图5表示WGP标签和读取I之间的关系。可能加入步骤Ib以便在步骤4中没有来自重复区域的读取的拼接问题。步骤3针对各聚类修剪含有人工片段的配对末端读取,其显示于图6a和b中。图6a的情况下,因为含有人工(片段),读取I和读取2都进行修剪。因为含有GAII序列引物2的部分修剪读取1,以及因为含有集合ID和GAII序列引物I的部分修剪读取2。读取I和读取2之间共有的片段序列应当保留(图6a中,读取I和读取2的点划线之间)。图6b显示另一实施例,其中仅读取2含有人工(片段)、集合标签的部分。步骤4使用软件工具phrap和/或cap3对经修剪的数据组每个聚类进行拼接。步骤5从所有聚类中选取拼接的最大重叠群并进行统计学分析。基于配对末端读取的BAC ID将它们合并,降低多重叠群的产生。目前的选项对所有具有一致WGP标签的重复区域进行拼接。在当前实施例中,仅使用了 2D合并的甜瓜BAC文库的单个集合组,其减少了重复WGP标签的出现。对来自完整BAC文库的数据使用这种方法将不给出局部拼接的最大好处。如步骤Ib中提及的方法将避开重复区域的拼接。
步骤6将这些重叠群对(甜瓜)草图基因组进行blast操作,如果可获得的话,出于QC的目的。步骤7将重叠群(步骤5)置于2. I中生成的WGP图上。步骤8将步骤7定位的(重叠)重叠群拼接成更长的重叠群。这将产生基于物理图的草图基因组序列。该步骤可能在步骤7之前进行,但是由于重复序列这可能产生错误的拼接。有效地这一步骤是局部拼接的局部拼接。若干程序可用于拼接GAII配对末端读取每个聚类。评价的工具为Velvet、Soapdenovo> ABySS、cap3 和 phrap。Cap3 和 phrap 都是 Sanger 读取的常规拼接程序,很好地拼接GAII读取每个聚类。在研究中,所用的cap3的设置为“-ο 40-p80_y6”并且配对末端读取之间的距离设置为O至SOOnt之间。Phrap不选取配对末端距离并且只将这些读取作为鸟枪读取处理。本研究中所用的phrap的这些设置为“_vector_bound
O-forcelevel 1-minscore 12-minmatch 10-indexwordsize 8,,。这些设置还在题目为“Parallel, tag-directed assembly of locally derived short sequence reads,,的Nature文章中使用(Hiatt等人,2010)。图4显示使用Cap3、phrap或Velvet针对一个聚类的拼接结果。Cap3和phrap生成的片段在酶位点的附近,然而由于该区域的序列冗余度,Velvet在配对末端读取和仅读取2中都丢失这个部分。Cap3和其它的比较显示由于Cap3修剪掉3’侧的“低”质量区域,Cap3丢失末端部分。CAP3中的这种性质是针对Sanger读取拼接设计的。因此,phrap进行得最好,并且是这种方法优选的拼接器。3 结果根据步骤2. 2中生成的序列数据,9039个标签经去卷积来鉴别单个BAC。对于所用的集合,71%的这些标签还在原始WGP标签列表中找到。步骤2. 2中生成的所有读取基于它们的第一读取进行装箱,之后对各箱独自进行拼接。用Phrap软件拼接产生总共15938个重叠群,其中14905 (=94%)以预期的限制性酶位点开始。生成的重叠群的平均长度为 545nt。为了核对拼接的重叠群的质量,将子集对使用随机测序方法生成的甜瓜基因组序列进行blast操作。BLAST分析的结果显示于图8中。图显示生成的WGPS重叠群(760nt)具有和基因组序列重叠群的100%匹配。这种匹配仅以高的显著性命中。SDSES 实施例和超集合24的WGP数据一起提供甜瓜BAC文库超集合24来证明,通过将酶连接的序列信息连接至甜瓜WGP图的甜瓜基因组DNA上的SDSES。Wetlab 方法该方法含有如下步骤I-分离核DNA来降低从叶绿体和线粒体获得的序列数据的量。这是可选步骤但是将增加有用的输出。2-使用单一酶(EcoRI)消化甜瓜基因组DNA。这种酶优选和生成WGP图中所用的酶相同的酶。如果要使用不同的酶,它将(优选)识别和WGP所用的酶相同的核苷酸(GAATTC)。3-连接酶(EcoRI)兼容的接头,接头含有扩增和序列引物。
4-将接头连接的产物片段化为具有大小范围为至少400bp最多IOOObp的产物。更低的片段长度可能不同,但是应当至少比可获得的测序读取长度更长。可以使用喷雾或超声(Covaris)进行片段化5_通过Agilent Bioanalyzer使用高灵敏度DNA芯片(大小分布)和nanodrop测量(浓度)分析确定纯化片段的大小分布和浓度。6-使用如在针对GS-FLX测序的文库制备操作中所用的AMpure过程通过大小选择除去小片段(<400nt)。大小选择后,在nanodrop上测量样本浓度。7-对纯化片段进行末端平滑化。8-(任选地)通过在链霉亲和素包被的磁珠上捕获片段来纯化平滑化产物。当所用的连接的EcoRI接头含有5’ -生物素修饰时,这是可能的。9-为了避免串联,单个A加入至片段的平滑化随机末端。10-连接含有扩增和序列引物2序列的T-形接头。11-进行扩增来生成完全双链的片段和扩增样本,其在一条DNA链的5’末端含有生物素修饰。12-使用之前提及的操作将扩增产物结合至磁性链霉亲和素包被的珠(Dynal)上。13-片段未标记的链从珠上洗脱,并用于使用(下一代)测序技术的测序。测序以上制备的样本使用Roche GS-FLX钛测序仪进行测序。使用通用测序信号加工工具加工原始序列数据。这将按照文库制备中所用的质量和接头序列的存在修剪序列读取。过滤后,剩下930,618个平均读取长度为380bp的读取。这对应着354Mbp的序列信息。从原始序列文件(.sff)中提取Fasta (fna)和相应质量(.qual)文件。使用如下提及的生物信息学加工步骤加工fasta、质量和原始数据文件。生物信息学加工-除去所有不以(修饰的)限制性酶识别位点作为开始的读取。在本实施例中,使用EcoRI,这意味着除去不以CAATTC开始的读取。如果使用替代的酶,将使用不同的识别位点进行过滤。-除去含有用于制备测序文库的酶内部识别位点的所有读取。这些读取可能是嵌合的。在本实施例中,除去含有内部GAATTC的所有读取。-在剩余的读取中,复原修饰的限制性酶(EcoRI)位点(CAATTC)。这种复原(或调整的修剪点进行调整的)将有助于生成的重叠群和WGS和/或WGP数据的整合。序列数据加工的结果在表2中给出。表2 :序列读取加工概况
1-%
Past 过滤器读取930483100.0%
没有内部EcoRI (=GAATTC)位点的读取92240199. 1%
权利要求
1. 一种用于从DNA样本生成序列信息的方法,包括 a.基于对带标签的接头-连接的限制性片段进行末端-测序提供克隆库的(基于-序列的)物理图,其中使用至少一种限制性酶生成限制性片段;以及 b.提供亚方法,其包括步骤 1.提供DNA样本的接头-连接的限制性片段, ii.任选地,将接头-连接的限制性片段片段化, iii.任选地,将接头连接至步骤(ii)的片段, iv.确定步骤(iii)的片段的至少部分序列, c.步骤(b)中获得的序列信息和步骤(a)的物理图组合; d.生成草图基因组序列; 其中用至少一种限制性酶生成步骤(b)(i)中的限制性片段,其中所述限制性酶含有与生成步骤(a)的物理图中所用的至少一种限制性酶的至少部分识别序列一致的识别序列。
2.根据权利要求I的方法,其中所述至少一种限制性酶是低频剪切酶。
3.根据权利要求I的方法,其中步骤(a)和步骤(b)(i)的所述至少一种限制性酶是同裂酶。
4.根据权利要求I的方法,其中步骤(a)的所述至少一种限制性酶的识别位点含有与步骤(b) (i)的所述至少一种限制性酶的识别位点一致的节段。
5.根据权利要求I的方法,包括步骤 (a)提供包括多个克隆的克隆库,其中各克隆含有来自样本基因组(或样本基因组的部分)的DNA ; (b)将来自克隆库的克隆合并为集合; (c)使用至少一种限制性酶为各集合提供片段; (d)将第一接头连接至片段; (e)将步骤(d)的接头-连接的限制性片段进行片段化来提供片段化的接头-连接的限制性片段以及,任选地,平滑化随机片段末端; (f)将第二接头连接至(平滑化的)片段化的限制性片段来提供含有第一和第二接头的接头-连接的片段化的限制性片段; (g)任选地,用第一和第二引物来扩增步骤(f)的接头-连接的片段化的限制性片段从而生成扩增子; (i)确定第一接头的至少部分和/或邻近第一接头的片段的部分和/或第二接头的至少部分和/或邻近第二接头的片段的部分的序列; (j)基于经测序的第一接头的部分和/或邻近第一接头的片段的部分和/或第二接头的部分和/或邻近第二接头的片段的部分,将片段指定至相应克隆; (k)将克隆排列成克隆-重叠群从而生成样本基因组的物理图; (I)将第二接头的至少部分和/或邻近第二接头的片段的部分的片段序列指定至相应克隆; Cm)将步骤(h)的片段序列锚定至物理图; (n)生成草图基因组序列。
6.根据权利要求I的方法,其中亚方法选自SDSES和SDPES,其中I.SDSES包括步骤 (a)用至少一种限制性内切酶对靶DNA(基因组DNA或人工染色体DNA)进行片段化来获得限制性片段; (b)将第一接头连接至限制性片段末端来获得第一接头-连接的限制性片段; (c)第一接头-连接的限制性片段进行随机片段化来获得随机片段化的第一接头-连接的限制性片段; Cd)任选地,选择含有接头的片段化的接头-连接的限制性片段; Ce)将第二接头连接至第一接头-连接的限制性片段的片段化的末端; (f)任选地,使用针对步骤(b)的接头的引物以及针对步骤(e)的第二接头的(亲和-标记的)引物进行扩增来获得(亲和-标记的)扩增的片段; (g)任选地,基于第二接头的存在选择步骤(f)中获得的(亲和-标记的)扩增的片段; (h)确定第一接头的至少部分和/或邻近第一接头的片段的序列的部分和/或第二接头的至少部分和/或邻近第二接头的片段的序列的部分的序列; II.SDPES包括步骤 Ca)限制性酶对靶DNA进行消化来获得限制性片段; (b)连接含有IIs-型限制性内切酶识别序列的Hs-接头来提供Hs-接头-连接的限制性片段; (c)IIs-接头-连接的限制性片段进行片段化来获得片段化的Hs-接头-连接的限制性片段; Cd)片段化的IlS-接头-连接的限制性片段进行环化来获得环化产物; Ce)环化产物进行IIs-型限制性酶消化来提供Hs-型消化片段; Cf)将第一接头连接至Hs-型消化片段来提供接头-连接的Hs-型消化片段; (g)第一接头-连接的Hs-型消化片段进行片段化; (h)将第二接头连接至第一接头-连接的IIs-型消化片段来提供第一和第二接头-连接的Hs-型消化片段; (i)确定片段和/或接头的至少部分的序列。
7.一种用于生成靶DNA的序列信息的方法,包括步骤 Ca)用至少一种限制性内切酶对靶DNA (基因组DNA或人工染色体DNA)进行片段化来获得限制性片段; (b)将第一接头连接至限制性片段末端来获得第一接头-连接的限制性片段; (c)第一接头-连接的限制性片段进行随机片段化来获得随机片段化的第一接头-连接的限制性片段; Cd)任选地,选择含有接头的片段化的接头-连接的限制性片段; Ce)将第二接头连接至第一接头-连接的限制性片段的片段化的末端; (f)任选地,使用针对步骤(b)的接头的引物以及针对步骤(e)的第二接头的(亲和-标记的)引物进行扩增来获得(亲和-标记的)扩增的片段; (g)任选地,基于第二接头的存在选择步骤(f)中获得的(亲和-标记的)扩增的片段; (h)确定第一接头的至少部分和/或邻近第一接头的片段的序列的部分和/或第二接头的至少部分和/或邻近第二接头的片段的序列的部分的序列。
8.一种用于生成靶DNA的序列信息的方法,包括步骤 Ca)限制性酶对靶DNA进行消化来获得限制性片段; (b)连接含有IIs-型限制性内切酶识别序列的Hs-接头来提供Hs-接头-连接的限制性片段; (c)IIs-接头-连接的限制性片段进行片段化来获得片段化的Hs-接头-连接的限制性片段; Cd)片段化的IIs-接头-连接的限制性片段进行环化来获得环化产物; Ce)环化产物进行IIs-型限制性酶消化来提供Hs-型消化片段; Cf)将第一接头连接至Hs-型消化片段来提供接头-连接的Hs-型消化片段; (g)第一接头-连接的Hs-型消化片段进行片段化; (h)将第二接头连接至第一接头-连接的IIs-型消化片段来提供第一和第二接头-连接的Hs-型消化片段; (i)确定片段和/或接头的至少部分的序列。
9.根据权利要求5-8的方法,其中使用配对末端测序进行所述测序步骤。
10.根据权利要求5-8的方法,其中使用单末端测序进行所述测序步骤。
全文摘要
用于基于DNA样本克隆库(bank)的(基于-序列的)物理图的从头全基因组测序的方法,该方法基于末端-测序带标签的(tagged)接头-连接的限制性片段,与DNA样本的接头-连接的限制性片段的测序相结合,其中用于生成物理图的限制性酶的识别序列与用于生成DNA样本的限制性酶识别序列的至少部分一致。
文档编号C12Q1/68GK102656279SQ201080056559
公开日2012年9月5日 申请日期2010年12月16日 优先权日2009年12月17日
发明者M·J·T·凡艾克, R·C·J·赫格斯 申请人:凯津公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1