用ultra-deep测序法测定序列变体的方法

文档序号:432045阅读:1702来源:国知局

专利名称::用ultra-deep测序法测定序列变体的方法用ultra-deep测序法测定序列变体的方法发明领域本发明提供了在目标多核苷酸群体中平行检测和分析序列变体的方法、试剂和系统,所述序列变体包括单核苦酸多态性(SNP)、插入/缺失变体(称为"mdd")和等位基因频率。本发明还涉及对由聚合酶链式反应(PCR)复制得到的核酸通过平行焦磷酸盐测序进行研究的方法,以鉴别已知和未知序列中的突变和多态性。本发明包括使用核酸引物来扩增被怀疑含有序列变体的靶核酸群体中的核酸的一个或多个区域,以产生扩增子。各个扩增子以高效的和节省成本的方式被测序,以形成在扩增核酸中发现的序列变体的分布。发明背景除相同手足之外,各个个体之间的基因组DNA显著不同。许多人类疾病起源于基因组变异。人和其它生命形式中的基因多样性解释了疾病易感性中观察到的遗传变异。源于这类遗传变异的疾病包括Huntington's疾病、嚢肺性纤维化、Duchenne肌营养不良和某些形式的乳腺癌。这其中的每种疾病都与单个基因突变有关。疾病例如多发性石更化、糖尿病、帕金森氏症、阿尔茨海默病和高血压复杂得多。这些疾病可能是由于多基因(多个基因影响)或多因素(多个基因和环境影响)原因造成的。基因组中的许多变异不导致疾病性状。但是,如上所述,单个突变可能导致疾病性状。在医学和人类生物学中,扫描人类基因组以鉴别作为这些疾病的病理学基础或与之相关的基因的位置的能力是非常有用的工具。几种类型的序列变异,包括插入和缺失(mdel)、重复序列数目上的差异和单个碱基对差异(SNP),导致基因组的多样性。单个碱基对差异,被称为单核苷酸多态性(SNP),是人类基因组中类型最常见的变异(大约每103个碱基中发生1个)。本文所用的SNP可以是至少两个或更多个可选的核苷酸等位基因出现的任何基因组位置。本文所用的SNP还可以指任何单个碱基的插入/缺失变体(称为"mdel"),或者涉及2个到100个或更多个石咸基的插入和/或缺失的mdel。SNP十分适合于研究序列变异,因为它们相对稳定(即显示出低的突变率),而且因为它们可能是造成遗传特征的原因。应当理解在上述讨论中,术语SNP还意味着可适用于"mdd"(定义如下)。用例如基于微卫星的分析鉴别的多态性已被用于各种目的。使用基因连锁策略鉴别单个孟德尔因子的位置已在许多案例中获得成功(Benomaretal.(1995),Nat.Genet.,10:84-8;Blantonetal.(1991),Genomics,11:857-69)。肺瘤抑制基因的染色体位置的鉴別通常通过研究人肿瘤杂合性的丟失实现(Caveneeetal.(1983),Nature,305:779-784;Collmsetal.(1996),Proc.Natl.AcadSci.USA,93:14771-14775;Koufosetal.(1984),Nature,309:170-172;andLegmsetal.(1993),NatGenet.,3:122-126)。此外,使用遗传标记推断引起复杂特征例如I型糖尿病的基因的染色体位置(Davisetal.(1994),Nature,371:130-136;Toddetal.(1995),Proc.Natl.Acad.Sci.USA,92:8560-8565)已成为人类遗传学研究的焦点。虽然在鉴别许多人类疾病的遗传基础上已经取得了显著进展,但是目前用于开发这种信息的方法受到了从大量样品群体中获得基因型信息所需的高昂成本和繁重工作的限制。这些限制使得对引起失调如糖尿病的复杂基因突变的鉴别极为困难。扫描人类基因组以鉴別疾病过程中涉及基因的位置的技术在二十世纪八十年代早期始于限制片段长度多态性(RFLP)分析的使用(Botsteinetal.(1980),Am.J.Hum.Genet.,32:314-31;Nakamuraetal.(1987),Science,235:1616-22)。RFLP分析包牙舌southernblotting和其它4支术。当一夸Southernblotting用于大量冲羊品例如那些需要鉴别与具体表型相关的复杂基因型的样品时,它既昂贵又费时。这其中的一些问题随着基于聚合酶链式反应(PCR)的微卫星标记分析的开发而得以避免。微卫星标记是由二核苷酸重复、三核苷酸重复和四核苷酸重复组成的简单序列长度多态性(SSLP)。其它类型的基因组分析是基于与具有多等位基因变异和高度杂合性的DNA的高变区杂交的标记的使用。可用于指紋分析基因组DNA的可变区是被称为小卫星的短序列的串联重复。多态性是由于等位基因在重复数目的差异所致,这可能是起源于有丝分裂或减数分裂不平衡交换的结果或由复制过程中的DNA滑动造成。目前,通过DNA测序对变异的鉴别受到许多缺点的阻碍。在现有的方法中,在对所研究区域进行扩增后直接对扩增产物(即变体序列的混合物)进行测序。或者,测序步骤之前进行微生物亚克隆步骤,即将扩增产物重组插入到适合于在预定宿主生物体中繁殖的载体中。对扩增产物直接测序的缺点在于序列中可变位点上产生的混合信号。这种混合信号中不同核苷酸的相对贡献难于或无法定量,甚至是当较低丰度的等位基因的频率接近50%时。而且,如果所述变异是插入或缺失(而不是碱基替换),所引起的不同分子之间的移码(phaseshift)会导致杂乱的、不能辨认的信号。微生物克隆步骤的加入克服了直接测序所引起的问题,原因在于不会遇到混合信号。然而,这种策略需要大量的测序反应。而且,微生物克隆步骤既昂贵且耗时,还可能有针对地挑选某些的变体,从而歪曲了变体的相对频率。如果需要对大量(即数百个、数千个、数万个)克隆进行测序,成本就变得非常高。这些现有方法的每一种都具有明显的缺点,因为它们耗时且在分辨率上受到限制。虽然DNA测序提供了最高的分辨率,但是它也是测定SNP的最昂贵的方法。这时,1000个不同样品群体中进行SNP频率测定非常昂贵,100,000个不同样品群体中进行SNP频率测定贵得令人不敢问津。因此,在该领域中持续存在对多核苷酸群体中存在的序列变体,特別是以低频率存在的变体进行鉴别和再测序的经济方法的需求。发明简述现有方法的这些缺点以及它们所要求的在精确度、可靠性、成本和时间之间的折衷被提出,并通过本发明的方法在很大程度上得到了缓解。与上述的现有方法相反,本发明部分利用高通量的非Sanger测序技术的速度和处理量,从而在所研究的一个或多个特定多核苷酸区域或基因座处获得了好的精确度和低的等位基因检测阈值。术语"多核苷酸区域"和"基因座"在此可互换使用。本发明的扩增和测序方法有助于对单个分子直接测序,或通过对源自于单个分子的克隆扩增产物测序从而多核苷酸混合物中的变异进行高度精确的检测和/或频率测定。在一方面,本发明包括能对核酸混合物中的序列变异,特别是以低一个发现靶向于核酸样品中所研究特定区域的扩增步骤以及所谓的单个分子测序技术的引入可精确、快速和低成本地发现序列变体和测定等位基因频率。这种相对于先前已知方法的改进部分通过在单个分子测序前使用序列特异的体外扩增步骤实现。本发明的突出特点是以大深度(atgreatdepth)测定所研究多核苷酸区域的核苷酸序列的能力。深度(depth)是指跨越所研究给定区域的单个序列读数(read)的数量。例如,如果1000个分子被分别测序,则深度等于1000,也可以称为"1000倍,,或"1000X,,。根据本发明,深度可以从大约2至大约几十亿,例如从大约10至大约1百万、从大约10至大约1千万、从大约100至大约100,000或从大约1000至大约1百万。深度可以大于大约2、大于大约10、大于大约100、大于大约1000、大于大约10,000、大于大约100,000、大于大约1百万、大于大约1千万、大于大约1亿、大于大约10亿。本发明的方法达到的序列深度远大于现有方法可达到的,实际达到的或可提供的深度。特别地,本发明的方法不需要微生物克隆。微生物克隆是在微生物宿主生物体例如大肠杆菌中扩增多核苷酸。对本领域技术人员来说显而易见的是,本发明可能达到的深度有助于稀少序列变体的检测,并且相对容易、快速和低成本。本发明涉及通过鉴别特定多核苷酸序列判断大量序列变体(例如等位基因变体、单核苷酸多态性变体、indel变体)的方法。现有的技术可通过例如聚合酶链式反应(PCR)检测SNP。然而,通过PCR检测SNP要求设计与一种类型的SNP并且不与另一种类型的SNP杂交的特殊PCR引物。而且,虽然PCR是强有力的技术,但是等位基因的特异PCR要求事先知道SNP的特征(序列)以及多个PCR循环和凝胶电泳分析,从而测定等位基因频率。例如,5%的等位基因频率(即20个中有1个)的检测将会要求有至少20个PCR反应。随着等位基因频率的降低,例如降低至4%、3%、2%、1%、0.5%、0.2%或更低,检测等位基因频率需要的PCR和凝胶电泳的数量急剧增加。现有方法中没有一个提供了通过鉴别特定DNA序列来检测包括低丰度SNP在内的SNP的简单和快速的方法。我们发现,与新的焦磷酸盐测序技术结合的两阶段PCR技术可以'决速、可靠和节省成本的方式^^测序列变体(SNP、mdel和其它DNA多态性)。而且,本发明的方法可以检测以非化学计量等位基因数量存在于DNA样品中的序列变体,例如DNA变体的存在少于大约50%、少于大约25%、少于大约10%、少于大约5%或少于大约1%。这项技术可以4更利地p故称为"ultradeep测序"。根据本发明,提供了通过对核酸样品中的多个等位基因进行特异性扩增和测序来检测序列变体(例如等位基因频率、SNP频率、mdd频率)的方法。核酸首先用设计用于扩增包围所研究区域的区域的一对PCR引物进行扩增。然后将每一个PCR反应产物(扩增子)在单独的反应容器中用EBCA(基于乳液的克隆扩增,EmulsionBasedClonalAmplification)分别进行进一步扩增。对EBCA扩增子(本文中被称为第二扩增子)进行测序,来自于不同乳液PCR扩增子的序列集合可以用于测定等位基因频率。本发明的一个实施方案涉及在核酸群体中检测序列变体的方法。所述序列变体可以是SNP、mdel、序列核苷酸频率或等位基因频率或这些参数的组合。所述方法包括用一对确定某个基因座的核酸引物扩增所述核酸群体共有的DNA区段以产生第一扩增子群体的步骤,其中每个扩增子都含有所述DNA区段。第一个扩增子群体中的每个成员被克隆扩增以产生第二扩增子的群体,其中第二扩增子的每个群体源自于第一扩增子的一个成员。所述第二扩增子可以被固定在多个可移动的固相支持物上,以使每个可移动的固相支持物与所述第二扩增子的一个群体相连。可对每个可移动固相支持物上的核酸测序以产生核酸序列群体——每个可移动固相支持物上有一种序列。序列变体、等位基因频率、SNP或mdel可以从所述核酸序列群体测定。本发明的另一个实施方案涉及鉴别具有多种不同种的生物体的群体的方法。所述方法包括从所述群体中分离核酸样品,使得所述核酸样品是所述群体的每个成员的核酸的混合物。然后,所述群体中所有生物体共有基因座的核酸区段的核苷酸频率可以根据前述段落所述的方法产生。所述基因座要求对于每个不同的种具有不同的序列(等位基因)。也就是,每个种在所述基因座应当具有不同的核酸序列。等位基因频率可以#4居所述基因座上每种类型的核苦酸的出现率确定。生物体在所述群体中的分布可以根据所述等位基因频率测定。在优选的实施方案中,本发明的方法被用于测定核酸样品中SNP 和/或mdel的分布。耙核酸群体可来自于个体、组织样品、培养物样品、环境样品例如土壤样品(参见例如实施例5和实施例3),或者任何其它类型的核酸样品,这些核酸样品含有至少两种不同的多核苷酸,每种多核苷酸代表不同的等位基因。本发明的方法可以用于分析组织样品以测定其等位基因组成。例如,可分析肿瘤组织以确定它们是否在致癌基因的基因座含有某个等位基因。使用这种方法,可确定肿瘤中具有激活的或突变的致癌基因的细胞的百分比和DNA样品中肿瘤DNA的总量。本文所用的术语等位基因,包括在可变位点上的序列变异,其中所述变异可以出现在单个生物体中、同种生物的各个生物体之间,或出现在不同种的个体之间、一个或多个个体的正常和疾病组织之间以及病毒基因组之间。附图简述图1是珠子乳液扩增过程的一个实施方案的示意图。图2是ultmdeep测序方法的一个实施方案的示意图。图3是用引物对SAD1F/R-DD14(图A)、SAD1F/R-DE15(图B)和SAD1F/R-F5(图C)产生的扩增子的质量评估。分析在BioAnalyzerDNA1000BioChip上进行,中心峰代表PCR产物,侧峰代表参照尺寸标记物。每个峰测量在156-181个碱基对的理论大小的5bp之内。图4是代表MHCII基因座中两个不同等位基因的扩增子的核苷酸频率(非匹配频率),所述两个等位基因(C等位基因对T等位基因)以近似于1J00(A)和1:1000(B)的比率混合,或仅为T等位基因(A)、克隆扩增并在454LifeSciences测序平台上测序。每一长方条代表偏离共有序列的频率并根据碱基置换结果标以颜色代码(红色=八;绿色=C;蓝色=G;黄色=T)。图5示出与图4B和4C所示相同的数据,但用图4A所示的仅有T等位基因的样品进行了背景扣除。图6是DD14HLA基因座的C相对于T等位基因的不同比率,混合所述等位基因并在454平台上进行测序以测定动态范围。实验实测比率相对于预测比率(横坐标)绘制。每个数据点测序读数的实际数目总结于表l。 图7A:显示了定位于1.6Kb16S基因片段的读数位置的图形显示,表明大约12,000个读数定位于16S基因的前100个碱基。B:显示了与7A类似的结果,所不同的是使用定位于碱基1000附近区域的V3引物。C:显示了使用VI和V3引物情况下的读数位置。图8是系统树,该系统数在全部200个序列中(一个除外)中清楚地区别出VI(图左半边较短长度)和V3(图右半边较长长度)序列。图9是ultradeep测序方法的一个实施方案的示意图。水平箭头表示位于所研究区域侧翼的引物。图10是ultradeep测序方法的另一个实施方案的示意图。水平箭头表示位于所研究区域侧翼的引物。发明详述本发明涉及通过鉴别特定多核苷酸序列检测一个或多个序列变体的方法。序列变体包括两个核酸分子之间的任何序列差异。因此,序列变体被理解为也指至少单核苦酸多态性、插入/缺失(mdel)、等位基因频率和核苷酸频率——也就是^兑,这些术语是可以互换的。虽然本"i兌明书中始终用具体的实施例讨论不同的检测技术,应当理解本发明的方法对于任何序列变体的检测是同等适用的。例如,在本发明公开的内容中对检测SNP的方法的i仑述也可以适用于一企测mdel或核苦酸频率的方法。本发明的方法可以用于扩增和测序特定的靶;漠板,例如尤其是基因组、组织样品、异质细胞群体、病毒群体或环境样品中的那些靶模板。这些模板可以包括例如PCR产物、候选基因、突变热点、进化上或医学上重要的可变区。本发明的方法也可以用于应用方面,如用可变或筒并扩增引物进行全基因组扩增,随后进行全基因组测序。迄今为止,靶模板中新序列变体的发现要求全基因组的制备和测序,或者预先PCR扩增所研究区域,然后或者对PCR产物分子群进行测序,或者在微生物亚克隆扩增后对单个PCR产物分子进行测序。本发明的方法使得新序列变体的发现以及已知变体的4企测可以显著较大的深度实施,并且相对于目前的现有技术具有显著提高的灵敏度、速度以及较^氐的成本,同时回避了孩i生物亚克隆。在本发明公开的内容中,单核苷酸多态性(SNP)可被定义为存在于至少两个变体中的序列变异,其中最不常见的变体至少占群体的0.001%。应当理解本发明公开的方法可以应用于"mdel"。因此,在本发明公开内容提及SNP时,应当理解如果在任何位置将术语"SNP"换成术语"mdel",该^^开的内容是同等适用的。本文所用的术语"wcfe/"意指与相关的核酸序列相比,在核酸序列中存在一个或多个核苷酸的插入或缺失。因此,与在相邻核苷酸位置上的其它相同核酸序列相比,插入或缺失包括在一个核酸序列中一个或多个独特核苷酸的存在或缺少。与相关的参考序列相比,插入和缺失可以包括例如在任何特定位置上的单个核苦酸、几个核苦酸或多个核苦酸,包括5、10、20、50、100或更多个核苷酸。可理解的是,该术语还包括核酸序列比相关序列中多一个以上的插入或缺失。泊松统计表明满负载的60mmX60mm的picotiter板(2X106个高质量基底,包含200,000x100个碱基读数)检测的下限(即小于一个事件)是三个事件(检测置信度为95%)和五个事件(检测置信度为99%)(参见表l)。这直接与读数的数目成比例,因此在10,000个读数、1000个读数或IOO个读数中具有相同的检测极限,均是三个或五个事件。由于DNA读数的实际数目高于200,000,所以,因检测的灵敏度增加,实际的检测下限预期在更低点上。作为比较,通过基于焦磷酸盐的测序法对四倍体基因组上的各个等位基因状态进行的SNP检测已被报道,只要频率最低的等位基因在群体的10%或更多中存在(Rickertetal.,2002BioTechmques.32:592-603)。传统的荧光DNA测序较不敏感,难于解析50/50(即50%)杂合等位基因(Ahmadianetal.,2000Anal.BioChem.280:103-110)。表1:基于整个群体中事件的数目检测零个或一个或更多个事件的概率。"*"表示检测三个事件失败的概率为5%,因此检测所述事件的概率为95%;类似地,表明检测一个或多个发生5次的事件的概率为99.3%。<table>tableseeoriginaldocumentpage15</column></row><table>因此,使用完整的60x60mmpicotiter氺反检测单个SNP4吏得可以才全测仅存在于群体的0.002%中的SNP,其置信度为95%,或仅存在于群体的0.003%中的SNP,其置信度为99%。自然地,多路分析比这种深度的检测更加适用,表2显示了在单个的picotiter板上同时监测的SNP的数目,其最小等位基因频率可以95%和99%的置信度检测。表2<table>tableseeoriginaldocumentpage16</column></row><table>本发明的一个优点是通常与样品制备相关的步骤(例如从组织中提取和分离DNA以进行测序)的数目可以取消或简化。例如,由于所述方法的灵敏度,不再需要用常规的组织研磨技术和化学纯化从组织中提取DNA。取而代之的是,体积少于一微升的小量组织样品可以被煮沸并用于第一次PCR扩增。该溶液扩增的产物直^t妄加入到emPCR反应中。因此,本发明的方法减少了时间和劳动强度以及产品的损失(包括由于人为失误造成的损失)。本发明方法的另一个优点是所述方法非常适于多路技术。如下所述的,本发明的双向引物(bipartiteprimer)使得可以在一个溶液扩增中将多个基因的引物对与相同的焦磷酸盐测序引物对混合。或者,多个制备物的产物可以置于一个乳液PCR反应中。因此,本发明的方法在高通量的应用方面显示出相当大的潜能。本发明的一个实施方案涉及测定等位基因频率(包括SNP和mdel频率)的方法。在第一个步骤中,第一扩增子群体通过PCR产生,所述PCR使用第一对引物来扩增含有待分析基因座的靶核酸群体。所述基因座可以含有多个等位基因,例如2、4、10、15或20个或更多个等位基因。第一扩增子可以是任何大小,例如在大约50和大约100bp之间、在大约100bp和大约200bp之间、或大约200bp和大约lkb之间、或大约500bp和大约5000bp之间或大约2000bp和大约20000bp之间。所述方法的一个优点是不需要两个引物之间的核酸序列的信息。在下一个步骤中,第一扩增子群体被递送到油包水乳液中的含水农么反应器中,使得多个含水微反应器含有(1)足够的DNA以启动受单个模板或扩增子支配的扩增反应、(2)单个珠子和(3)含有实施核酸扩增所必需的试剂(参见下述对EBCA(基于乳液的克隆扩增,EmulsionBasedClonalAmplification)的讨i仑)的扩增反应溶液。我们发5见,即4吏微反应器中存在两种或多种模板,也可实现受单个模板或扩增子支配的扩增反应。因此,含有多于一种模板的含水微反应器也在本发明的考虑的DNA模板。递送步骤之后,第一扩增子群体在微反应器中扩增以形成第二扩增子。例如,扩增可以通过EBCA(涉及PCR)(在WO2004/069849中描述)在热循环仪中进行以产生第二扩增子。EBCA后,第二扩增子可以结合于微反应器的珠子上。结合有第二扩增子的珠子被递送到平坦表面上的反应室阵列(例如至少10,000个反应室的阵列)。所述递送可以被调节,从而使得多个反应室含有不超过一个单个的珠子。例如,这可以通过使用其中反应室小到只能容纳一个单个的珠子的阵列实现。测序反应可以同时在多个反应室中进行,以测定相应于所述多个等位基因的多个核酸序列。用反应室进行平行测序的方法在上文另一部分中以及在实施例部分中被公开。测序之后,至少两个等位基因的等位基因频率可以通过分析来自靶核酸群体的序列来测定。作为实例,如果10000个序列被测定,9900个序列读数为"aaa,,而100个序列读数为"aag,,,则"aaa"等位基因可被称为具有大约99%的频率,而"aag,,等位基因将会具有大约1%的频率。这在说明书下文中和在实施例中会:故更详细描述。本发明的方法的一个优点是它具有比以前所获得的更高水平的灵敏度。如果picotiter板被使用,本发明的方法可以在每个picotiter板中对超过100,000或超过300,000个不同的等位基因拷贝测序。4佥测的灵敏度应该可检测可代表大约1%或更少的等位基因变体的低丰度等位基因。本发明方法的另一个优点是所述测序反应还提供了所分析区域的序列。也就是说,不需要预先知道待分析基因座的序列信息。在优选的实施方案中,本发明的方法可以检测少于大约50%、少于大约20%、少于大约10%、少于大约5。/。或少于大约2%的等位基因频率。在更优选的实施方案中,所述方法可以;险测少于大约1%,例如少于大约0.5%、少于大约0.2%或少于大约0.02%的等位基因频率。典型的才全测灵敏度范围可以是在大约0.01%和大约100%之间、在大约0.01%和大约50%之间、在大约0.01%和大约10%之间如在大约0.1%和大约5%之间。目标核酸群体可以来自于多种来源。例如,所述来源可以是来自于生物体的组织或体液。所述生物体可以是<壬<可生物体,包4舌4旦不限于哺乳动物。所述哺乳动物可以是人或有商业价值的家畜如牛、绵羊、猪、所有的才直物都可以通过本发明的方法分析,本发明的方法优选的植物包括有商业价值的作物品种包括单子叶植物和双子叶植物。在一个优选的实施方案中,目标核酸群体可以源自于谷物或食品,以测定构成所述谷物或食品的基因型、等位基因或物种的来源和分布。这样的谷物包括例如玉米、甜玉米、南瓜、甜瓜、黄瓜、甜菜、向日葵、稻、棉花、油菜、甘薯、豆、豇豆、烟草、大豆、苜蓿、小麦等。核酸样品可以从多个生物体中收集。例如,iooo个体的群体的等位基因频率可以在分析来自1000个体的混合DNA样品的一个实验中进行。自然地,对于代表群体等位基因频率的混合DNA样品,群体的每个成员(每个个体)必须向混合样品贡献相同(或近似相同)量的核酸(相同数量的等位基因拷贝)。例如,在基因组等位基因频率的分析中,每个个体可向混合DNA样品贡献来自于大约1.0xl()S个细胞的DNA。在本发明的另一个实施方案中,单个个体的多态性可以被测定。就是靶核酸可以从单个个体中分离。例如,可对来自一个个体的多个组织样品的混合核酸的多态性和核苷酸频率进^亍才企查。例如,这可用于测定个体的肿瘤或怀疑含有肿瘤的组织中的多态性。例如,本发明的方法可以用于测定个体的组织样品(或来自于多个组织样品的混合DNA)中的激活的致癌基因的频率。在这个实例中,激活的致癌基因的等位基因频率为50%或更多可表明该肿瘤是单克隆的。存在少于50%的激活的致癌是多克隆的,或者所述组织样品含有胂瘤组织和正常(非肿瘤)组织的组合。进一步,在疑似组织的活组织^T查中,存在例如1%的激活的致癌基因可表明存在新出现的肺瘤,或者存在恶性肿瘤的渗透。此外,在其它药物每t感肿瘤中,具有药物抗性突变的肿瘤细胞组分的存在可以预示患者中具有完全药物抗性胂瘤的复发。这种预测信息在癌症治疗和研究中将会具有无法估计的价值。靶核酸群体可以是任何核酸,包括DNA、RNA和这些DNA和RNA的多种形式,例如但不限于质粒、粘粒、DNA病毒基因组、RNA病毒基因组、细菌基因组、真菌基因组、原生动物基因组、线粒体DNA、哺乳动物基因组和才直物基因组。核酸可以,人组织样品或从体外培养物分离。基因组DNA可以从组织样品、完整生物体或细胞样品分离。如若需要,靶核酸群体可以被标准化,从而使其包含组成群体的每个个体的等量等位基因。本发明的一个优点是基因组DNA可以直接被使用而无需进一步处理。然而,在优选的实施方案中,基因组DNA基本上不含干扰PCR或杂交过程的蛋白质,并且基本上也不含破坏DNA的蛋白质,例如核酸酶。优选地,分离的基因组也不含会干扰PCR的非蛋白的聚合酶功能抑制剂(例如重金属)和非蛋白的杂交抑制剂。蛋白质可以通过本领域已知的许多方法乂人分离的基因组中除去。例如,可以用蛋白酶例如蛋白酶K或链霉蛋白酶除去蛋白质,用强力去垢剂例如十二烷基硫酸钠(SDS)或十二烷基肌氨酸钠(SLS)裂解获得分离基因组的细胞除去蛋白质,或者一起使用来除去蛋白质。裂解的细胞可以用苯酚和氯仿来提取,以产生含有包4舌分离基因组的核酸的水相,它可以用乙醇沉淀。靶核酸群体可以源自于具有未知来源DNA的来源例如土壤样品、食物样品等。例如,对来自于食物样品的核酸样品中的病原体中发现的发明的方法使得可以测定食物中病原体等位基因的分布。例如,本发明的方法可以测定环境样品例如土壤样品(参见实施例5)或海水样品中具体生物体(例如细菌、病毒、病原体)的林(种)或抹(种)的分布。本文提供的方法的一个优点是,本方法并不需要核酸或多核苷酸群体中突变或序列变体的先验信息。由于所述方法是基于核酸测序,因此一个位置上所有的突变将会被检测。而且,所述测序不需要微生物克隆。DNA样品可以在一系列步骤中在体外扩增和测序,而不需要克隆、亚克隆和克隆DNA的培养。本发明的方法可以用于例如病毒样品中变体的4企测和定量。这些病毒样品可以包括例如HIV病毒分离物。所述方法的其它应用包括序列变体的群体研究。DNA样品可以从生物体群体收集、混合并在一个实一验中分析以测定等位基因频率。所述生物体群体可以包4舌例如人群、家畜群、收获的谷物群等。其它应用包括对肿瘤活检组织(例如肺和结肠直肠癌)中或来自于含有肿瘤和正常细胞的混合群体的活检组织的体细胞突变的检测和定量。本发明的方法还可以用于临床相关易感基因(例如乳腺、卵巢、结肠直肠和胰腺癌、黑色素瘤)的高置信度再测序。本发明的另一个应用包括与多个不同基因组相关的多态性的鉴别。所述不同基因组可以从与一些表型特征、家族起源、体格相似(physicalproximity)、种族、类別等相关的群体中被分离。在其它情它们彼此没有关系。在一个优选的实施方案中,可进行本方法来测定具有特定表型特征例如遗传疾病或其它特征的受试对象的基因型(例如SNP含量)。因组成,或用于测定特定SNP的等位基因频率。此外,所述方法可用于通过鉴别基因组中一组SNP中每一个的存在与否从而生成基因组的基因组分类代码,以及用于测定所述SNP的等位基因频率。这些应用的每一个在本文中一皮更详细讨论。本发明的一个优选应用包括高通量的基因分型方法。"基因分型"是鉴別在基因组DNA中特定基因组序列存在与否的方法。不同基因组可以从与一些表型特征、家族起源、体格相似、种族、类别等相关的群体的个体中分离,以鉴别与表型家族、位置、种族、类别等相关的多态性(例如与多个不同基因组相关的多态性)。或者,不同基因组可以从群体中随机而不是依据它们在群体中的来源分离,以使它们彼此没有关联。这些基因组中多态性的鉴别表明总体上在群体中是否存在多态性,而不必需与特定的表型相关。由于基因组可以跨越长的DNA区域,可以包括多个染色体,所以本发明的检测表型的方法需要分析多个位置上的多个序列变体,以99.99%可靠地检测表型。虽然基因分型通常用于鉴别与特定表型特征相关的多态性,但这种关联不是必需的。基因分型仅仅要求存在多态性,它即可位于某个编码区,也可不位于某个编码区域。当基因分型用于鉴别表型特征的时候,推测所述多态性影响要被表征的表型特征。表型可以是所希望的、有害的或者在一些例子中是中性的。根据本发明方法鉴别的多态性可以导致某个表型。一些多态性出现在蛋白质编码序列内部,因此会影响蛋白质结构,从而引起或促成实测表型。其它多态性出现在蛋白质编码序列以外但影响基因的表达。还有其它多态性仅仅出现在所研究基因附近,可用作该基因的标记。单个多态性可以引起或促成一个以上的表型特征,同样地,单个表型特征可能是由一个以上的多态性引起的。通常,出现在给定基因的相同单倍型中的多个多态性与相同的表型相关。此外,个体的具体多态性是杂合还是纯合可能影响具体表型特征的存在与否。表型相关性可以通过鉴别显示出表型特征的受试对象的实验群体和没有表现出该表型特征的对照群体进行。出现在共同具有某表型特征的受试对象的实验群体中,并且不出现在对照群体中的多态性被认为是与某个表型特征相关的多态性。一旦某个多态性被鉴别为与某个表型特征相关,则可筛查可能出现某个表型特征的受试对象的基因组,以确定所述多态性在所述受试对象的基因组中是否出现,目的是确定那些受试对象是否可能最终出现所述表型特征。这些类型的分析可以在有发生特定失调例如Huntington's疾病或乳腺癌的危险的受试对象中进行。本发明的一个实施方案涉及将表型特征与SNP关联的方法。表型特征包括任何类型的遗传疾病、状况或特征,它们的存在与否可以在患者的(例如,归因于受试对象中SNP的出现)并且是这类疾病的素因的多因素疾病。这些疾病包^fe例如^f旦不限于哮喘、癌症、自身免疫疾病、炎症、失明、溃疡、心脏或心血管疾病、神经系统失调和对病原樣i生物或病毒感染的易感性。自身免疫疾病包括但不限于风湿性关节炎、多发性硬化、糖尿病、全身性红斑狼疮和格雷夫氏症。癌症包括但不限于膀胱癌、月卤癌、乳&泉癌、结肠癌、食道癌、肾癌、造血系统癌症如白血病、肝癌、肺癌、口腔癌、卵巢癌、胰腺癌、前列腺癌、皮肤癌、胃癌和子宫癌。表型特征还可以包括对药物或其它治疗手段的易感性、外表、高度、颜色(例如开花植物)、力度、速度(例如赛马的速度)、毛发颜表型特征的实例已有描述,参见例如美国专利No.5,908,978(其中鉴别了某些植物品种中的疾病抗性与遗传变异的关系)和美国专利No.5,942,392(其中描述了与阿尔茨海默病的发生相关的基因标记)。遗传变异(例如SNP的出现)与表型特征之间的关联的鉴别对于许多目的都是有用的。例如,受试对象中SNP等位基因的存在与所述受试变生活方式(例如,在对心血管疾病具有高于正常水平素因的受试对象中减少胆固醇或脂类食物以避免这种疾病),或密切监测患者癌症或其它疾病的发展是特別有用的。它在产前筛查以鉴别胎儿是否罹患或易于发生严重疾病中也是有用的。此外,为了增强或显示所需特征,这种类型的信息可用于筛选动物或植物品种。一种测定与多个基因组相关的一个或多个SNP的方法是筛查在来自于具有所述特性的生物体的多个基因组样品中SNP存在与否。为了确定哪些SNP与特定表型特征相关,基因组样品从显示出所述特定表型特征的一组个体中被分离,并就是否存在共有SNP对所述样品进行分析。从每个个体获得的基因组样品可以被混合以形成混合基因组样品。然后本发明的方法用于确定每个SNP的等位基因频率。所述混合基因组样品用本发明的高通量方法中的成组SNP(panelsofSNP)筛查,以确定是否存在与所述表型相关的特定的SNP(等位基因)。在一些例子中,可以预测特定受试对象显示出所述相关表型的几率。如果特定的多态性等位基因存在于30%发生阿尔茨海默病的个体中,但只存在于1%所述群体中,那么具有该等位基因的个体有较高的几率发生阿尔茨海默病。该几率还取决于几个因素例如个体是否罹患具有这个等位基因的阿尔茨海默病以及其它因素是否与阿尔茨海默病的发生相关。这种类型的分析可用于测定特定表型被显示出来的概率。为了增加这种类型的分析的预测能力,与特定表型相关的多个SNP可以被分析,相关值可以被鉴别。还可以鉴別与特定疾病分离的SNP。多个多态性位点可以被纟佥测和检查以鉴别它们之间或标记(SNP)和表型之间的物理连锁。这可以用于将与某个表型特征连锁或相关的基因位点定位到染色体位置上,从而揭示与所述表型特征相关的一个或多个基因。如果两个多态性位点随才几分离,那么它们或者是在分离的染色体上,或者在同一个染色体上彼此相距足够远使得它们没有共分离(co-segregate)。如果两个位点以显著的频率共分离,那么它们在同一个染色体上彼此连锁。这些类型的连锁分析可用于开发可定义对某个表型——包括疾病表型重要的基因组区域的基因图谱。连锁分析可以在展现出高比率特定表型或特定疾病的家族成员上进行。生物样品可以从显示出某个表型特征的家族成员以及没有显示出所述表型特征的受试对象中分离。这些样品每个都可以用于形成个体SNP等位基因频率。数据可以被分析以确定各种SNP是否与所述表型特征相关以及任何SNP是否与所述表型特征分离。分析连锁数据的方法在许多参考文献中已有描述,这些参考文献包括Thompson&Thompson,GeneticsmMedicine(5thedition),W.B.SaundersCo.,Philadelphia,1991;andStrachan,"MappingtheHumanGenome"intheHumanGenome(BiosScientificPublishersLtd.,Oxford)chapter4,并由Affymetrix,Inc.总结于PCT公开专利申请W098/18967中。涉及通过计算几率值的log对数(LOD值)的连锁分析揭示了在某个重组率下标记和基因位点之间的连锁几率(与标记和基因位点不连锁时的值相比)。重组率表明了标记连锁的几率。已分别开发了用于计算不同重组率值的LOD分数和确定基于特定LOD分数的重组率的计算机程序和数学用表。参见例如Lathrop,PNAS,USA81,3443-3446(1984);Smithetal.,MathematicalTablesforResearchWorkersinHumanGenetics(Churchill,London,1961);Smith,Ann.Hum.Genet.32,127-1500(1968)。LOD值用于表型特征的遗传作图在Affymetrix,Inc.的PCT公开专利申请W098/18%7中有描述。通常,正的LOD分数值表示两个遗传基因座是连锁的,+3或更高的LOD分数是两个基因座连锁的强有力证据。负值提示连锁的几率较小。本发明的方法还可用于评价肿瘤中杂合性的丟失。肿瘤中杂合性的丟失对于确定胂瘤的状态例如肺瘤是侵袭性肺瘤还是转移性肺瘤是有用的。所述方法可以通过从来自具有相同类型的肺瘤的多个受试对象的肿瘤样品中,以及得自相同受试对象的正常(即非癌性)组织中分离基因组DNA来进行。这些基因组DNA样品可以用于本发明的SNP检测方法。与正常组织产生的SNP等位基因相比,肺瘤缺乏SNP等位基因表明杂合性的丢失是否发生。如果某个SNP等位基因与癌症的转移状态相关,则所述SNP等位基因的缺乏可以与其在非转移性肺瘤样品或正常组织样品中的存在与否相比较。在正常和胂瘤组织中出现的SNP数据库可以被形成,患者样品中SNP的发生可以与数据库相比较以达到诊断或预测的目的。能区分非转移性原发肿瘤和转移性肿瘤是有用的,因为转移是癌症患者治疗失败的主要原因。如果转移可以被早期发现,那么它可以被积极治疗以减緩疾病的进程。转移是一个复杂的过程,包括细胞与原发胂瘤的分离、所述细胞通过循环系统移动以及肺瘤细胞在附近或远距组织位置的最终殖入。此外,希望能够检测发生特定癌症的素因以使得监测和早期治疗可以开始。〖午多癌症和肿瘤与基因改变相关。从肺瘤发生通过转移阶段并进入到几种基因畸变的阶段的实体肿瘤进展可負&发生。例如Smithetal.,BreastCancerRes.Terat.,18Suppl.1,S5-14,1991。基因畸变被相信会改变胂瘤,从而使其进展到下一阶段,即赋予其增殖优势,产生药物抗性或血管生成、蛋白水解或转移量增强的能力。这些基因畸变被称为"杂合性的丟失"。杂合性的丟失可能是由缺失或重组引起的,所述缺失或重组导致在胂瘤发展中起作用的遗传突变。肿瘤抑制基因的杂合性的丢失被相信在胂瘤发展中起作用。例如,相信位于染色体13ql4上的视网膜母细胞瘤抑制基因的突变导致视网膜母细胞瘤、骨肉瘤、小细胞肺癌和乳腺癌的发展。类似地,染色体3的短臂已蜂皮表明与癌症如小细胞肺癌、肾癌和卵巢癌有关。例如,溃疡性结肠炎是与增加的癌症风险相关的疾病,可能涉及包括累积的基因变化的多步骤发展(美国专利No.5,814,444)。已显示罹患长期溃疡性结肠炎的患者显示出增加的癌症风险,一个早期标志是染色体8的短臂末端的某个区域的杂合性的丟失。这个区域是推定的胂瘤抑制基因的位点,其可能还涉及前列腺癌和乳腺癌。杂合性的丢失可以容易地通过对罹患溃疡性结肠炎的患者定期实施本发明的方法进行检测。类似的分析可以用来自其它已知的或被认为与杂合性的丟失相关的肺瘤的样品进瘤才羊品可以在同一时间一皮;险测。所描述的发明部分涉及处理核酸以确定等位基因频率的方法。这些方法中的一种可以宽泛地定义为下列三个步骤(1)样品制备——第一扩增子的制备;(2)珠子乳液PCR—一第二扩增子的制备。(3)合成测序——测定第二扩增子的多个序列以确定等位基因频率。这其中的每一步在下文和实施例章节中一皮更详细描述。1.核酸模板的制备核酸模板模板核酸可以从任何来源的核酸,例如任何细胞、组织或生物体构建,并且可以用本领域/>知的方法产生。或者,才莫寿反文库可以通过从RNA如信使RNA(mRNA)产生互补DNA(cDNA)文库制备。样品制备的方法可以在共同未决的美国专利申请序列号No.10/767,779和PCT申请PCT/US04/02570中找到,还在WO/04070007中乂>开——所有文献通过引用其全文的方式引入本发明。本发明的方法包含对来自于第一多核苷酸分子群体的所研究多核苷酸区域的选择性扩增。所述扩增产生第二多核苷酸分子的群体,它源自于多个含有所研究区域的第一分子。即使每一个被扩增的第一分子都含有所研究区域,应当知道在所述第一分子的所研究区域之间可能存在一个或多个序列变异。因此,所述群体中被扩增的第一分子个体的数目可以从2到几十亿,有利地,多于大约100、多于大约1000、多于大约10,000、多于大约100,000、多于大约1百万或多于大约十亿个分子。选择性扩增是指扩增针对所研究区域,因此优先或专门扩增所研究区域。理想地,只有所研究区域^皮扩增。然而,本领域j支术人员应当知道,其它区域的大量非特异性的扩增也可能出现,正如核酸扩增反应中经常观察到的。这种非特异性扩增产物可以通过对反应条件的优化,例如通过改变温度、引物设计和浓度、緩冲液组分和核苷酸浓度等避免。本领域技术人员熟悉扩增反应优化的策略,包括使用嵌套可1物来提高扩增的特异性。或者,任何非特异性扩增产物可以从所希望的产物中被分离,例如通过凝胶电泳或色谱技术进行尺寸选择。非特异性产物的去除可能完全没有必要,这取决于非特异性扩增的程度和特定的实验设计。选择性扩增反应可以通过本领域已知的多种方法进行,包括等温方法和需要热循环的方法。例如,本领域技术人员已知的热循环方法是聚合酶链式反应(PCR)。选择性扩增的等温方法的实例是Notomietal.,油c/"c」c油L2000;28(12):E63描述的环介导等温扩增(loop-mediatedisothermalamplification,LAMP)。LAMP利用由净争别"i殳"i十的一对靶特异性引物引发的自循环链置换DNA合成(self-recumngstranddisplacementDNAsynthesis)。所研究多核苷酸区域的大小即其长度在大约20和大约40,000个核苷酸之间,例如在大约50和大约10,000个核苷酸之间、在大约80和大约IOOO个核苷酸之间或在大约100和大约500个核普酸之间。大约50和大约2000个核苷酸之间的长度是优选的。扩增产物可以是单链或双链多核苷酸形式,或是二者共存的形式。这些和其它DNA扩增的方法在IWJJmpWcWo":Cwrew/1rec/mo/og/e5J/7p/zcW0似,V.DemidovandN.Broude,eds.,HorizonBioscience,2004中'不管所使用的;法是什么,、选择性扩增:导致第二多核苷酸分子群体的合成。因此,所述群体中被扩增的第二多核苷酸分子个体的数目可以从2到几十亿,有利地,多于大约100、多于大约1000、多于大约IO,OOO、多于大约100,000、多于大约1百万或多于大约十亿个分子。被扩增的多核苷酸区域可以是2到几十亿个核苷酸,有利地含有至少大约25个、至少大约50个、至少大约150个、至少大约300个、至少大约500个、至少大约1000个、至少大约5000个或至少大约10,000个核苷酸。选择性扩增还可以在多个反应中或者在一个反应中(即多路)靶定多个所研究区域。如果这样的多个区域被分别扩增,则扩增产物可以在序列测定步骤之前的任何时刻被混合(集合)。核酸模板制备的一个优选方法是在样品上进行PCR以扩增含有所研究一个或多个(已知的或疑似)等位基因的区域。PCR技术可以应用于任何核酸样品(DNA、RNA、cDNA),使用彼此分隔开的寡核普酸引物。所述引物与双链DNA分子的相反链互补,典型地被大约50到2000个核苷酸或更多个隔开。然而,对达35000个碱基的区域的PCR扩增,通过4吏用4交读DNA聚合酶(Barnes,W.M.(1994)Proc.Natl.Acad.Sci.USA91:2216)是可能的。PCR方法在多个出版物中描述,包括Saikietal.,Science(1985)230:1350-1354;Saikietal.,Nature(1986)324:163-166;和Scharfetal.,Science(1986)233:1076-1078。还可以参见美国专利No.4,683,194;4,683,195和4,683,202,每个专利的文本在此通过引用的方式引入。PCR扩增的其它方法在PCRTechnology:PrinciplesandApplicationsforDNAAmplificationed.HAErlich,FreemanPress,NewYork,N.Y.(1992》PCRProtocols:AGuidetoMethodsandApplications,eds.Innis,Gelfland,Snisky,andWhite,AcademicPress,SanDiego,Calif.(1990);Mattilaetal.(1991)NucleicAcidsRes.19:4967;Eckert,K.A.andKunkel,T.A.(1991)PCRMethodsandApplications1:17,and;PCR,eds.McPherson,Qmrkes,andTaylor,IRLPress,Oxford中描述,在此以引用的方式引入。2.核酸模板扩增然后可对第二多核苷酸分子群体进行序列分析,借此单个第二多核苷酸分子可被分别测序。但是任选地,在序列分析之前,单个第二多核苷酸分子被进行第二轮体外扩增,从而合成第三多核苷酸分子群体。所述第二轮扩增可以本领域已知的几种方法的任何一种进行,使得得自每个第二分子的第三分子群体与得自其它第二分子的第三分子群体保持分离。这种类型的扩增通常称为克隆扩增。本文所用的"克隆"指包含多个相同的分子或拷贝,例如包含从单个祖核酸分子扩增的多个相同的核酸分子。特别地,每个群体是克隆的,因为它在后续的序列测定中代表单个第二多核苷酸分子。在一个实施方案中,第二轮扩增可以在固相或半固相支持物上进4亍,例如通过称为桥式扩增(bridgeamplification)的扩增方法,如美国专利申请出版物No.2005/0100900、美国专利申请出版物No.2003/0022207和美国专利申请出版物No.2004/0096853中所述。因此,所述第二多核苦酸分子可以被退火结合固定在固相支持物上的合适寡核苷酸引物分子。所述引物然后可以被延伸,所述分子和所述引物可以彼此分离。延伸的引物然后可以被退火结合到另一个固定的引物上(从而形成"桥"),另一个引物可以被延伸。两个延伸的引物然后可以彼此分离,并可以用于提供进一步延伸的引物。该过程可以被重复以提供扩增的、固定的第三多核苷酸分子群体。如果第二多核苦酸分子初始退火的操作使得退火的分子彼此相距足够远,则第三多核苷酸群体将倾向于以群落(colony)的方式彼此保持分离,并且因此是克隆的。因此,即使所述群落在单个固相或半支持物上彼此接近,在合适的起始条件下,所述群落的大部分仍然会保持分离并代表克隆扩增产物。这些含有桥式扩增产物的群落然后可以进行核苷酸序列分析。在另一个实施方案中,第二轮扩增可以通过在乳液中扩增((wo20(M/069849和WO2005/073410)进行。所述乳液可以含有数百万个单独的反应。所述乳液可以含有微粒子,所述扩增产物以克隆的方式与之结合。在另一个实施方案中,第二轮扩增可以在半固相支持物上进行,例如通过美国专利No.6,432,360、6,485,944和6,511,803中所述的聚合酶群落(polony)技术。例如,寡核苷酸引物被固定在半固相支持物上,模板核酸被接种到半固相支持物上并与引物杂交,用DNA聚合酶和脱氧三磷酸核苷延伸所述引物,然后变性。几轮退火、延伸和变性导致在半相体支持物上原位克隆扩增。扩增产物在空间上限于紧邻其所来源的模板分子处。这导致PCR群落的产生,本领域称其为聚合酶群落。每个聚合酶群落中的核酸分子的多核苷酸序列然后可以用本领域已知的多种方法测定,包括合成测序方法,例如Mitraetal.(2003)Analyt.Biochem.320:55-65中所述的。在优选的实施方案中,第二轮扩增可以通过新的扩增系统进行,本文所称的EBCA(基于乳液的克隆扩增(EmulsionBasedClonal该第二扩增。EBCA(WO2004/069849和WO2005/073410)通过将要被扩增的模板核酸(例如DNA)连接到固相支持物优选是通常的球形珠子形式上来进行。根据本发明的样品制备方法制备的单链模板DNA文库是用于该扩增方法的要被连接到珠子上的起始核酸模板文库的合适来源的实例。所述珠子与大量互补于模板DNA某个区域的单个引物种类(即图1中的引物B)连接。模板DNA退火结合到与珠子结合的引物上。所述珠子悬浮于含水反应混合物中,然后封装入油包水乳液中。所述乳液由直径为大约60到200|imi、由热稳定油相包围的不连续水相孩i滴构成。每个微滴优选包含扩增反应溶液(即核酸扩增必需的试剂)。扩增的实例是PCR反应混合物(聚合酶、盐、dNTP)和一对PCR引物(引物A和引物B)。参见图1A。微滴群体的子集还包括含有DNA模板的DNA珠子。该微滴子集是扩增的基础。不在该子集中的微胶嚢没有模板DNA,不参与扩增。在一个实施方案中,扩增技术是PCR,PCR引物以8:1或I6:1的比率(即8或16个一种引物比1个第二引物)存在以进行不对称PCR。概述来说,DNA退火结合到固定在珠子上的寡核苷酸(引物B)上。在热循环期间(图1B),单链DNA模板和珠子上固定的B引物之间的键被破坏,将所述模板释放到周围的微胶嚢化的溶液中。扩增溶液(在此例子中为PCR溶液)包含额外的液相引物A和引物B。液相B引物容易与互补的模板b,区域结合,原因在于液相引物的结合动力学比固定化引物更快。在早期阶段的PCR中,A和B链同样良好扩增(图1C)。到中期阶段的PCR(即在第10个循环和第30个循环之间),B引物被耗尽,停止指数扩增。所述反应然后进入不对称扩增,扩增子群体受A链支配(图1D)。在晚期阶段PCR(图1E)中,在30到40个循环后,不对称扩增增加了溶液中A链的浓度。过量的A链开始退火结合到固定在珠子上的B引物上。热稳定的聚合酶然后使用A链作为模板合成固定的、与珠子结合的扩增子的B链。在最后阶段的PCR(图1F)中,继续的热循环促使与珠子结合的引物的其它退火。液相扩增在这个阶段可能为最少,但固定的B链的浓度增加。然后,乳液被破坏,固定的产物通过变性(通过加热、pH等)除去互补的A链变成单链。A引物被退火结合到固定链的A,区域上,固定链被加载测序酶和任何所需的辅助蛋白质。所述珠子然后用公认的焦磷酸盐技术(例如在美国专利No.6,274,320、6,258,568和6,210,891中描述的焦磷酸盐技术,在此以引用的方式全部引入)被测序。在优选的实施方案中,用于扩增的引物是双向的__含有5'部分和3'部分。引物的3'部分包含靶特异性序列(参见图2),行使PCR引物的功能。引物的5,部分含有用于测序方法或固定方法的序列。例如,在图2中,用于扩增的两个引物的5'部分包含与珠子上的引物或测序引物互补的序列(标记为454正向和454反向)。也就是,5'部分包含正向列的测序引物启动。这样,一组含有互补于双向引物的5'部分的序列的珠子可以被用于所有反应中。类似地,一组含有互补于双向引物的5,增子。在最优选的实施方案中,所有用于扩增的双向引物对具有相同组的5,部分例如图2中所示的454正向引物和454反向引物。在该例子中,所有扩增子可以用包覆有互补于所述5'部分的寡核苷酸的标准珠子进行分析。相同的寡核苷酸(固定于或不固定于珠子上)可以用作测序寡核苦酸。石皮坏乳液和珠子的回收模板扩增后,乳液被"破坏"(在本领域中也被称为"破乳")。有许多破坏乳液的方法(参见例如美国专利No.5,989,892及其引用的文献),本领域技术人员能够选择合适的方法。一种优选的破坏乳液的方法在实施例部分详细描述。乳液被破坏后,含有扩增才莫板的珠子然后可以一皮重悬于含水溶液中,以用于例如现有技术的测序反应中。(参见Sanger,F.etal.,Proc.Natl.Acad.Sci.U.S.A.75,5463-5467(1977);Maxam,A.M.&Gilbert,W.ProcNatlAcadSciUSA74,560-564(1977);Ronaghi,M.etal.,Science281,363,365(1998);Lysov,I.etal.,DoklAkadNaukSSSR303,1508-1511(1988);BamsW.&SmithG.C.丄TheorBiol135,303-307(1988);Drnanac,R.etal.,Genomics4,114-128(1989);Khrapko,K.R.etal.,FEBSLett256.118-122(1989);PevznerP.A.JBiomolStructDyn7,63-73(1989);Southern,E.M.etal.,Genomics13,1008-1017(1992).)。如果所述珠子要用于基于焦磷酸盐的测序反应(例如在美国专利No.6,274,320、6258,568和6,210,891中描述,在此以引用的方式全部引入)中,那么必需除去PCR产物的第二条链,并将测序引物退火结合到与所述珠子相结合的单链模板上。这时,珠子上扩增的DNA既可以在^朱子上直^妄^皮测序,也可在不同的反应容器中被测序。在本发明的实施方案中,所述DNA通过将珠子转移到反应容器中并使DNA进行测序反应(例如焦磷酸盐或Sanger测序)从而直接在^朱子上一皮测序。或者,所述珠子可以被分离,所述DNA可以从每个珠子上被移去并被测序。在任何一种情况下,测序步骤可以在每个单独的3朱子上进4亍。3.测序核酸的方法根据本发明,多个第二多核苷酸分子或第二多核苷酸分子的群体中的每一个,或者任选地,多个第三多核苷酸分子或第三多核苷酸分子的群体中的每一个,被进行核苷酸序列分析。第二(以及任选地第三)多核苷酸分子的序列通过本发明的方法被测定,其范围从2个到几十亿个,有利地,多于大约100个、多于大约1000个、多于大约10,000个、多于大约100,000个、多于大约1百万个或多于大约十亿个。所述序列可以含有至少两个连续核苷酸,优选至少大约5个、至少大约25个、至少大约50个、至少大约100个、至少大约150个、至少大约200个、至少大约300个、至少大约500个、至少大约1000个、至少大约5000个、至少大约10,000个或至少大约100,000个连续核苷酸,由每个第二(或任选地第三)多核苷酸分子测定。本领域技术人员熟悉多核苦酸测序的几种方法。这些方法包括但不限于Sanger测序(也称为双脱氧测序)以及各种合成测序(SBS)方法,其综述见Metzger(MetzgerML2005,G,膨7e廳rc/z1767),通过杂交、通过连接(例如,WO2005/021786)、通过降解(例如,美国专利No.5,622,824禾口6,]40,053)测序禾口纟内米孑L测序(nanoporesequencing)。根据本发明,本领域已知的任何多核苷酸扩增和测序的方法都可以被使用,只要所选择的方法导致单个多核苷酸分子的序列测定,或任选地由所述单个多核苷酸分子扩增获得的克隆多核苷酸群体的序列测定。任何扩增可在体外出现,与通过微生物克隆的扩增相反。在某些实施方案中,多核苷酸测序通过被称为合成测序(SBS)的一组方法中的任何方法完成。SBS指确定一个或多个核苦酸在多核苷酸中或在多核苷酸群体中的同一性的方法,其中所述方法包括逐步合成互补于其核苷酸序列待测定的模板多核苷酸的单链多核苷酸。寡核苷酸引物被设计以退火结合到样品模板分子的预先确定的互补位置上。在存在核酸聚合酶的条件下提供给所述引物/模板复合物某个核苷酸。如果所述核普酸与样品模板分子上紧邻寡核苷酸引物3'末端的位置互补,那么聚合酶会用所述核苷酸延伸所述引物。或者,同时提供给所述引物4莫板复合物所有所研究核苷酸(典型地A、G、C和T),与样品模板分子上紧邻寡核苷酸引物3'末端的位置互补的核苷酸被掺入。在每种情况下,所述核苷酸可以是被化学阻断的(例如在3'-0位置)以阻止进一步延伸,并且需要在下一4仑合成之前被去阻断。所述核苷酸的任何4参入可以通过本领域已知的各种方法被;险测,例如通过化学发光才全测焦磷酸盐(PPi)的释放(美国专利No.6,210,891、6,258,568和6,828,100),或者使用与所述核苷酸结合的可检测标记。可检测标记包括质量标签(例如,美国专利No.5,622,824和6,140,053)和荧光或化学发光标记。可检测的标记直接或间接与所述核苷酸相结合。在荧光标记的情况下,所述标记可以直接被外部光刺激激发,或者间接地通过荧光(FRET)或冷光(LRET)供体的发射光激发(美国专利No.6,982,146)。在检测了可才全测标记后,所述标记必须被失活,或者从反应中分离,以^吏它不会千扰来自随后标记的信号或与之相混合。标记分离可以例如通过化学切割(例如美国专利申请出版物No.2003/0124594)或光切割实现。标记失活可以例如通过光漂白实现。根据本发明,本领域已知的任何SBS方法可以用于第二多核苷酸或第三多核苷酸群体的测序中。根据本发明,多核苷酸测序还可以通过基于纳米孔的方法实现。纳米孔测序的基本原理是单链DNA或RNA分子可以被电泳驱动通过纳米级的孔,通过这种方式,所述分子以严格线性的方式穿过该孔。由于移动的分子部分妨碍或阻断了纳米孔,所以它改变了孔的电性质。这种电性质的改变取决于核苷酸序列,可以被测量。所述纳米孔可以含有蛋白质分子,或者它可以是固体状态。基于纳米孔的方法的一个优点是可以获得非常长的读长(readlength),例如数千个、数万个或数十万个连续核苷酸可以从一个单个的分子中读出。通过纳米孔进行多核苷酸表征的方法在例如美国专利申请出版物No.2006/0063171、U.S.2006/0068401和U.S.2005/0202444中被讨论。一种测序的方法是SBS方法,被称为基于焦磷酸盐的测序。在基于焦磷酸盐的测序中,样品DNA序列和延伸引物在存在三磷酸核苷的条件下进行聚合酶反应,借此,所述三磷酸核苷在与靶位置的碱基互补的情况下被掺入并释放焦磷酸(PPi),所述三磷酸核苷或者被加入到样品-引物混合物的各个等分试样中,或者依次被加入到相同的样品-引物混合物中。然后检测PPi的释放以指示哪个核苷酸被掺入。在一个实施方案中,序列产物的某个区域通过将测序引物退火结合到模板核酸的某个区域上,然后使测序引物与DNA聚合酶和已知的三磷酸核苷,即dATP、dCTP、dGTP、dTTP或这些核苷酸之一的类似物接触从而被测定。所述序列可以通过检测序列反应副产物被测定,如下文所述。所述序列引物可以是任何长度或碱基组成,只要它能够特异地退火结合到扩增核酸模板的某个区域上。对测序引物不要求特定的结构,只要它能特异地引导扩增模板核酸上的区域。优选地,所述测序引物与模板上要被表征的序列和能与锚定引物杂交的序列之间的区域互补。所述测序引物用DNA聚合酶延伸形成序列产物。所述延伸在存在一种或多种类型的三磷酸核苷进行,如若需要,也可存在辅助结合蛋白。dNTP的掺入优选通过检测测序副产物的存在被确定。在优选的实施方案中,由于dNMP被掺入到延伸的序列引物中,因此测序产物的核苷酸序列通过测量从三磷酸核苦(dNTP)释放的无机焦磷酸盐(PPi)诊皮溯)J定。这种、测序方';去,牙尔为PyrosequencmgTM^支术(PyroSequencingAB,Stockholm,Sweden),可以在溶液中(液相)或作为固相技术一皮进行。基于PPi的测序方法在例如W09813523A1,Ronaghi,Wa/.,1996.j憩/.B/oc/7缀242:84-89,Ronaghi,"a/.,1998.Sc固ce281:363-365(1998)和US专利申请出W反物No.2001/0024790中一皮总体描述。这些PPiNo.6,210,891和6,258,568,其中每一篇在此以引用的方式全部完全引入。在优选的实施方案中,DNA测序用在共同未决的专利申请USSN:10/768,729、USSN:10/767,779、USSN:10/767,899和USSN:10〃67,894——均于2004年1月28日提交——中公开的454/>司(454LifeSciences)的测序4义器和方法进4亍。除非另外定义,本文所用的所有技术和科学术语具有与本发明所属领域的普通技术人员的通常理解相同的意思。通常理解的定义包括那些在USSN:60/476,602(2003年6月6日提交)、USSN:60/476,504(2003年6月6日提交)、USSN:60/443,471(2003年6月29日提交)、USSN:60/476,313(2003年6月6日提交)、USSN:60/476,592(2003年6月6日提交)、USSN:60/465,071(2003年4月23日提交)、USSN:60/497,985(2003年8月25日提交)、USSN:10/767,779(2004年1月28日提交)、10〃67,899(2004年1月28日提交)、USSN:10〃67,894(2004年1月28日提交)中定义的。本申请中引用的所有专利、专利申请和参考文献在此以引用的方式完全引入。实施例1HLA基因座的测序五个PCR引物对被设计以横跨公开披露的II类MHC基因座中的SNP。引物用Pnmer3车欠4牛(WhiteheadInstituteforBiomedicalResearch)设计,用包括靶区域的长约200个碱基对的基因组序列作为输入。每个引物由长度为20到24个碱基的基因座特异的3'部分和包括一个4碱基关键基元(key)(用粗体高亮显示)的恒定的19个碱基的5,部分(用小写字母表示)组成。引物购自IntegratedDNATechnologies(Coralville,IA):SAD1F-DC1gcctccctcgcgccatcagACCTCCCTCTGTGTCCTTACAA(SEQIDNO:l)SAD1R-DC1gccttgccagcccgctcagGGAGGGAATCATACTAGCACCA(SEQIDNO:2)SAD1F-DD14gcctccctcgcgccatcagTCTGACGATCTCTGTCTTCTAACC(SEQEDNO:"SAD1R-DD14gccttgccagcccgctcagGCCTTGAACTACACGTGGCT(SEQIDNO:勺S細F-DE15gcctccctcgcgccatcagATTTCTCTACCACCCCTGGC(SEQIDNO:5)SAD1R-DE15gccttgccagcccgctcagAGCTCATGTCTCCCGAAGAA(SEQIDNO:6)SAD1F-GA9gcctccctcgcgccatcagAAAGCCAGAAGAGGAAAGGC(SEQIDNO:7)SAD1R-GA9gccttgccagcccgctcagCTTGCAGATTGGTCATAAGG(SEQIDNO:8)SAD1F-F5gcctccctcgcgccatcagACAGTGCAAACACCACCAAA(SEQIDNO:9)SAD1R-F5gccttgccagcccgctcagCCAGTATTCATGGCAGGGTT(SEQIDNO:10)来自于4个个体的人基因组DNA(CornellMedicalInstituteforResearch,Camden,NJ)依据260nm处的光密度定量,100ng(大约15,000单倍体基因组(haploidgenome)等同物)用作每个PCR扩增反应的模板。PCR反应用标准反应条件(60mMTns-S04,pH8.9,18mM(NH4)2S04),2.5mMMgS〇4,1mMdNTP,每种引物各0.625一,4.5单位PlatinumTaq高保真聚合酶(Invitrogen,Carlsbad,CA))用下述温度模式进4亍3分钟94°C;30个循环的30s94°C、45s57°C、1分钟72。C;3分钟72°C。扩增产物用QiaQuickPCR纯化试剂盒(Qiagen,Valencia,CA)纯化,它们的预期大小(156到181个碱基对)在2100BioAnalyzer微流体仪器上用500DNALabChip(AgilentTechnologies,Inc,PaloAlto,CA)验证。纯化的扩增子用PicoGreendsDNA定量试剂盒(MolecularProbes,Eugene,OR)定量并稀释到每微升107个拷贝。EBCA(基于乳液的克隆扩增)如前文所述进行,每个珠子0.5扩增子,使用扩增引物SAD1F(GCCTCCCTCGCGCCA(SEQIDNO:ll))和SAD1R以及带有SADRl(GCCTTGCCAGCCCGC(SEQIDNO:12))4煮获引物(AmershamBiosciences,Piscataway,NJ)的Sepharose4乾获J朱子。所有进一步操作,包括-皮坏乳液和在PicoTiter纟反上测序如前文所述进行。实施例2灵敏的突变检测为了证明当前系统(即454平台)检测低丰度序列变体,特别是单碱基置换的能力,设计实验来对以各种比率混合的已知等位基因测序。对前文列出的6个引物对的扩增效率进行检测,并用全都会产生不同扩增产物的引物对SAD1F/R-DD14、SAD1F/R-DE15和SAD1F/R-F5进行进一步的分析(图3)。全部8个人基因组DNA样品在454平台上被扩增和测序以确定每个基因座的基因型。为了简化实验设置,所有进一步的分析用引物对SAD1F/R-DD14(图3A)进行,两个样品在特定基因座的C或T等位基因表现出纯合性。每个样品的初级扩增子被定量并通常与过量的T等位基因以从10:90下至1:1000的特定比率混合。样品混合后被稀释到每微升2x106个拷贝的工作浓度,进行EBCA并在454平台上测序。图2是从C等位基因以适当的比率l:500和1:1000与T等位基因的混合物获得的测序数据。在两种情况下,大约10,000个高质量测序读数被产生,并用于Blast分析以鉴别相对于参照序列(携带T等位基因的序列)的核苦酸置换。为了使结果可视化,置换频率以颜色代码的方式相对于参照序列绘图。数据证明,在两种样品中,低频率的单碱基置换容易被鉴别(图4A-C)。另外,还发现背景在样品之间相对恒定,这使得可以进行背景扣除。这通常产生甚至是对于1:1000的等位基因为超过10的信噪比(图5A和B)。用已知基因型的样品所进行的其它实验证明了检测下至至少0.1%丰度水平的单碱基置换的能力。低丰度变化的其它置信度可以通过对模板双向测序获得。通常,对于下至1%的丰度水平,两个独立的双向数据组的频率之间的差异在20%以内。为了证明对于较宽范围的等位基因比率为线性反应,代表DD14HLA基因座的T和C等位基因的扩增子以1:10、1:20、1:50和1:200的比率(10%、5%、2%和0.50/。)混合、EBCA扩增并测序。图6表明,在整个范围内观察到低频率等位基因的相对数目呈线性增加(R2=0."27)。所记录的绝对频率稍微偏离预期比率(参见下表),通常是因为在定量、等分和混合小量DNA方面的实测困难。<table>tableseeoriginaldocumentpage36</column></row><table>用于产生图6中绘图的测序的总结。2-5列的数分別表示测序模板的总数以及每个等位基因的预期数和实测数。实施例3细菌16S方案——检查细菌群体的方法细菌群体检验是许多领域的基本应用技术,除了医药、环境和农业研究之外,还包括工业处理控制。一种常用的办法使用16S核糖体RNA基因序歹寸来l岸另'J纟田菌菌种(Jonasson,Olofssonetal.2002;Grahn,Olofssonetal.2003)。另一种方法类似地检查16S和23S核糖体RNA基因之间的间插序歹寸(Garcia-Martmez,Bescosetal.2001)。但是,大多凄t研究者发现,用现有的样品制备和测序技术对复杂细菌群体完全普查是不可能的;这样一个计划所需的劳动力或者是高得惊人的昂贵,或者是必须对所述群体进行极其大量的二次取样。目前,高通量的方法没有被常规地用于检查细菌群体。通常的实践是使用通用引物扩增16S核糖体RNA基因(或该基因内的区域),然后再将该基因亚克隆到载体中并测序。限制性酶切消化经常在载体上进行,以通过消除表现出相同限制性酶切模式的载体来减少测序负荷。得到的序列与来自各种生物体的已知基因的数据库相比较;对群体组成的评估根据种特异性或属特异性的基因序列是否存在作出。本文公开的方法通过去除克隆和限制性酶切消化步骤急剧减少劳动力成本,通过提供使得可以区分以前无法获得的亚抹的16S(以及可能地基因间的和23S)RNA区域的完整序列从而增加信息输出,通过将序列过采样转化为相对丰度从而可能提供对菌种密度的估计,能使对细菌群体的研究发生重大变化。核酸测序的一个优选方法是由454LifeSciences开发的基于焦磷酸盐的测序方法。本发明的方法结合大规模平行454技术(其中一些在本说明书中^^开)的所有方面的使用可以大大提高通量并减少群体鉴别的成本。454技术排除了对克隆大量单个PCR产物的需要,而小尺寸的16S基因(1.4kb)使得数万个样品可以被同时处理。所述方法以下文所描述的方式一皮成功;也i正明。开始,大肠杆菌(^foc/zerzc/n"co/,)16SDNA从co"TOP10感受态细胞(I歴trogen,Carlsbad,CA.)获得,用PCR2.1载体转化,接种于LB/氨苄青霉素平板(50^g/ml)上,在37。C培育过夜。挑取单菌落,接种于3mlLB/氨节青霉素肉汤中,在37°C以250RPM摇动6小时。一微升该溶液被用作扩增16S序列的VI和V3区域的模板。设计了16S基因的两个可变区的双向PCR引物,表示为VI和V3,如Monstemetal(Monstein,Nikpour隱Badretal.2001)所述。由454特异的、19个碱基(15个碱基的扩增引物,接着是3',4碱基(TCGA)关区域侧翼的区域特异的正向和反向引物中。这可表示成5,-(15个碱基的正向或反向扩增引物)-(4碱基关键基元)-(正向或反向VI或V3引物)-3'。用于产生16S扩增子的引物包括下述序列,其中大写字母表示的序列代表VI或V3特异性引物,粗体表示的四个碱基是所述关键基元,小写字母的碱基表示454扩增引物SAD-V1禹虫^(正向)gcctccctcgcgccatcagSAD-V1禹虫合(反向)gccttgccagcccgctcagSAD-V3禹虫合(正向)gcctccctcgcgccatcagGCAACGCGAAGAACCTTACC(SEQIDNO:15)SAD-V3禹虫^d向)gccttgccagcccgctcagACGACAGCCATGCAGCACCT(SEQIDNO:16)VI和V3扩增子分别在包含下述试剂的PCR反应中产生IXHiFi緩冲液、2.5mMMgS04(Invitrogen)、1mMdNTP(Pierce,MilwaukeeWI.)、VI或V3区域的每种正向和反向双向引物lnM(IDT,Coralville,IA)、0.15U/plPlatinumH1F1Taq(Invitrogen)。一微升大肠杆菌/LB/氨千青霉素肉汤被加入到反应混合物中,进行35个循环的PCR(94°C30秒、55。C30秒、68。C150秒,最后一次循环后10°C—直保持)。然后,将1(il的扩增反应混合物上才羊到Agilent2100Bioanalyzer(Agilent,PaloAlto:CA)上以估计最终产物的浓度,确保合适大小的产物(对于VI是155bp,对于V3是145bp)被产生。VI和V3产物然后被混合,以每个DNA捕获珠子0.5到10个模板分子的模板浓度乳化,通过如下文EBCA实验方法部分所述的EBCA(基于乳液的克隆扩增)方法扩增。得到的克隆扩增的珠子然后在454基因组测序4义(GenomeSequencer)(454LifeSciences,BranfordCT)上一皮测序。得自所述扩增珠子的序列相对于大肠杆菌16S基因序列(Entrezgi174375)进行比对。可接受的(或"定位的(mapped)")比对与不可接受的(或"未定位的")比对通过计算每个序列的比对分数区分。所述分数是实测信号相应于预期均聚物的概率的平均对数,即S=Zln[P(s|h)]/N其中S是计算的比对分数,P是特定序列排布(flow)的概率,s是在该序列排布(flow)测量的信号,h是在该序列排布(flow)所预期的参照均聚物的长度,N是比对的序列排布(flow)的总数。然后将每个序列的比对分凄t与最大比^f分凄t(MaximumAlignmentScore)即MAS相比;分数小于MAS的比对被认为是"真实的"并被打印在输出文件中。对于本方案,1.0的MAS(大约等于95%的同一性)被使用。对于用VI特异性引物产生的序列,在产生的13702个序列中,87.75%或11973个读数被定位到基因组上,其比对分数小于l.O,读长大于21个碱基。显示出定位到1.6Kb16S基因片段上的读数的位置的图示如图7A所示,表明大约12,000个读数定位到16S基因的前100个碱基上。将未修饰的共有序列据库(http:〃greengenes.llnl.gov)进行BLAST,大肠杆菌为匹配的第一个已知生物体<image>imageseeoriginaldocumentpage39</image>基于非常低的置信度分数,VI共有序列被编辑为CACATGCAAGTCGAACGGTAACAGGA(SEQIDNO:20),均聚物序列中第9位的第四个"T"(以粗体和下划线标识)被一全查并除去。编辑后的VI序列的BLAST结果证明对于大肠杆菌16S基因提高了命中结果。<image>imageseeoriginaldocumentpage39</image>用V3特异性引物获得相似的结果,在与上述VI模板使用的相同的分析条件下,在17329个读数中,71.00%定位到16S参照基因组上。这是个比87.75%的定位的VI读数低的数字,这可能揭示了在V3样品和参照序列之间存在比VI样品和参照序列之间更大的差异。共有序列TGGCTGTCGTCTg(SEQIDNO:23),定位到参照基因组的966-1067区域,如图7B所示。与V1序列不同,来自未修饰的共有序列的BLAST结果,大肠杆菌不是匹配的第一个已知生物体,而是第二个生物体。>lcl|088104AJ567617Escherichiacolipartial16SrRNAgene,cloneMBAE104Length=1497Score=147bits(74),Expect=3e-3SIdentities-98/102(96%),Gaps=3/102(2*)Strand=Plus/PlusQuery:1csacgcgaagasccttacctggtcttgacatccscgaagtttactagagatgagaatgtg60imiiiiimmmmiimimiiimmmimmiimimSbjct:956caacgcgaagaacc匕tacc匕ggtcttgacatccacgaagttttc—agagatgagaatgtg1014Query:61ccgttcgggaaccggtgagacaggtgctgcatggctgtcgtc102(SEQ工DNO:24)Sbjct:1015cc-ttcgggacc—gtgagacaggtgc匕3catggctgtcg仁c1054(SEQ工DNO:25)基于置信度分数,共有序列被检查并编辑为<table>tableseeoriginaldocumentpage40</column></row><table>1054(SEQIDNO:28)第二个实验是为了证明对于未处理的细菌细胞使用混合PCR引物的能力,其中大肠杆菌细胞生长至饱和,l(il的1:1000稀释的细菌肉汤代替模板被加入到EBCA反应混合物中。用于EBCA反应的引物由VI-和V^特异的双向引物(各0.(M)LiM)以及分別为0.e2S^iM和0.(H)liM的正向和反向454扩增引物组成。另外,EBCA实验方法接下来在下文描述。数据显示VI和V3区域可以同时从未处理的细菌细胞混合物中一皮成功扩增、测序并区分。在15484个读数中,87.66%定位到16S参照基因组上,所述序列位于特征性VI和V3位置,如图7C所示。区分VI和V3序列的能力的评估是通过收集VI和V3序列的100个读数,并将原始信号数据转换成二进制串,其中"1"表示在给定的序列排布(flow)中存在某个碱基,"0"表示不存在。均聚物序列分解为单个正值,这样"A,,、"AA"和"AAAAA,,(SEQIDNO:29)全都接收到相同的分数'T,。分解的二进制串然后通过HierarchicalOrderedPartitioningandCollapsingHybrid(HOPACH)方法(PollardandvanderLaan2005)在R统计包(Team2004)中一皮串起来。得到的系统树(如图8所示)在全部200个序列(除了1个以外)中清楚区分了VI(较短长度的红色标记)和V3序列(较长长度的蓝色标记)。在相同生物体的相同基因的两个相似区域之间清楚区分此的能力表明本项技术将会提高区分不同生物的可变区域的能力,提供有价值的诊断工具。实施例4EBCA实验方法4.1DNA捕获珠子的制备来自于lmLN-羟基琥珀酰亚胺酯(NHS)-活化的SepharoseHP亲和4主(AmershamBiosciences,Piscataway,NJ)的;真充(packed)J朱子,人柱中取出,如产品手册(AmershamPharmaciaProtocol#71700600AP)中所述活化。20mM磷酸盐緩冲液(pH8.0)中的二十五微升lmM胺-标记的HEG捕获引物(5,-胺-3顺序的18-原子六-乙二醇间隔物CCATCTGTTGCGTGCGTGTC-3'(SEQIDNO:30))(IDTTechnologies,Coralville,IA,USA),pH8.0,与珠子相结合,然后25-36pm的珠子通过连续通道穿过36和25pm孔的过滤器筛网部分(SefarAmerica,Depew,NY,USA)被挑选出来。通过第一层过滤器但被第二层过滤器留下的DNA捕获珠子被收集到珠子贮存緩冲液(50mMTns、0.02%Tween、0.02%叠氮钠,pH8)中,用Multisizer3Coulter计数器(BeckmanCoulter,Fullerton,CA,USA)定量并在4°C储存备用。4.2将模板种类与DNA捕获珠子结合模板分子在UV-处理的层流操作台中退火结合到DNA捕获珠子上的互补引物上。悬浮于珠子贮存緩冲液中的六十万个DNA捕获珠子被转移到200^LPCR管中,在台式微量离心机中离心IO秒,管子转180°,再旋转IO秒以确保均衡形成沉淀。然后上清被除去,珠子用200pL退火緩冲液(20mMTns,pH7.5和5mM醋酸镁)洗涤,涡旋5秒以重悬珠子和上述沉淀。除了珠子上方大约10pL以外的所有上清被除去,再加入200pL退火緩沖液。珠子再涡旋5秒,放置1分钟,如上所述进行沉淀。除了10pL以外的所有上清被弃去,0.48的每pL2x107个分子的模板文库被加入到珠子中。管子涡旋5秒以混合内容物,然后模板在MJ热循环仪中在控制的变性/退火程序(80°C5分钟,然后以0.1°C/秒降低到70°C,70°C1分钟,以O.rC/秒降低到60°C,在60。C保持i分钟,以o.rc/秒降低到5o°c,在5o。c保持i分钟,以o.rc/秒降低到2(TC,保持在20。C)中退火到珠子上。直到退火程序完成,珠子被储存在水上备用。4.3PCR反应混合物制备和配方为了减少污染的几率,PCR反应混合物在PCR超净室中的UV-处理的层流操作台中制备。对每个600,000个珠子的乳液PCR反应,225pL的反应混合物(IXPlatinumHiFi緩冲液(Invitrogen)、lmMdNTP(Pierce)、2.5mMMgS〇4(Invitrogen)、0.1。/。乙酰化BSA(分子生物学等级,Sigma)、0.01%Tween-80(AcrosOrgamcs)、0.003U/pL热稳定的焦石寿酸酶(NEB)、0.625jiM正向引物(5'隱CGTTTCCCCTGTGTGCCTTG画3,(SEQIDNO:31))和0.039pM反向引物(5,-CCATCTGTTGCGTGCGTGTC-3,(SEQIDNO:32》(IDTTechnologies,Coralville,IA,USA)和0.15U/pLPlatmumHi-FiTaq聚合酶(Invitrogen))制备于1.5mL的管子中。二十五微升反应混合物被取出并储存于单个的200pLPCR管中, 用作阴性对照。反应混合物和阴性对照都储存于水上备用。此外,为每个乳液准备240pL模拟扩增混合物(IXPlatmumHiFi緩冲液(I頭trogen)、2.5mMMgS04(I脂trogen)、0.1%BSA,0.01%Tween)于1.5mL管中,类似地储存于室温备用。4.4乳^^和扩增乳化过程形成热稳定的油包水乳液,每微升有大约10,000个不连续的PCR微反应器作为单个分子,靶文库的单个分子克隆扩增的基质。单个反应的反应混合物和DNA捕获珠子以下述方式^皮乳化在UV-处理的层流操作台中,200(iL的PCR溶液被加入到包含600,000个DNA捕获珠子的管中。珠子通过重复移吹打重悬,然后PCR-珠子混合物在室温静置至少2分钟,使珠子与PCR溶液平衡。其间,400nL乳化油(60%(w/w)DC5225C配方助剂(DowChemicalCO,Midland,MI),30%(w/w)DC749流体(DowChemicalCO,Midland,MI)和30%(w/w)Ar20珪油(Sigma))被等分到平顶的2mL离心管(DotScientific)中。然后240jiL模拟扩增混合物被加入到400|iL乳化油中,管子牢固地盖上盖子并置于TissueLyserMM300(RetschGmbH&Co.KG,Haan,Germany)的24孑LTissueLyserAdaptor(Qiagen)中。所述乳液以25次振荡/秒均质化5分钟以产生极小的乳液,或"微粉(microfme)",使得反应具有额外的稳定性。在微粉形成期间,160)iLPCR扩增混合物被加入到退火模板和DNA捕获珠子的混合物中。混合的珠子和PCR反应混合物短暂涡旋并平衡2分钟。微粉形成后,扩增混合物、模板和DNA捕获珠子被加入到乳化物质中。TissueLyser速度减至每秒15次振荡,反应混合物均质化5分钟。较低的均质化速度在油混合物中产生小水滴,平均直径为100到150pm,大到足够包含DNA捕获珠子和扩增混合物。所述乳液被等分到7到8个单独的PCR管中,每个包含大约80|iL。管子封口并与25[!l先前制备的阴性对照一起置于MJ热循环仪中。使用下述循环时间1X(94。C4分钟)-热启动、40X(94。C30秒、58。C60秒、68。C90秒)-扩增,13X(94。C30秒、58°C360秒)一杂交延伸。PCR程序完成后,取出反应物,乳液或者立刻被破坏(如下文所述),或者在启动破坏过程之前将反应物储存在!0。C最长达16小时。4.5-皮坏乳液和J朱子的回收五十微升的异丙醇(Fisher)被加入到每个包含扩增材料乳液的PCR管中,涡旋10秒以降低乳液粘度。管子在微量离心机中离心几秒钟以除去任何存在于管帽上的乳化物质。乳液-异丙醇混合物被从每个管中抽到配有钝的16号钝针头(BricoMedicalSupplies)的10mL-BD—次性注射器(FisherScientific)中。另外50|al异丙醇被加入到每个PCR管中,如前所述涡"走,离心,并加入到注射器的内容物中。力口入异丙醇后注射器中的体积增加到9mL,然后所述注射器被颠倒,lmL空气被吸进注射器中以帮助混合异丙醇和乳液。取下钝针头,将含有15jum孑LNitexSievingFabric(SefarAmerica,Depew,NY,USA)的25mmSwinlock过滤架(Whatman)连接于注射器的luer接头上,钝针头固定于Swinlock单元的相对侧。注射器的内容物通过Swmlock过滤单元和针头一皮轻轻地但是完全地排到有漂白剂的废物容器中。六毫升的新鲜异丙醇通过钝针头和Swmlock过滤单元被吸回到注射器中,注射器被颠倒10次以混合异丙醇、珠子和剩余的乳液组分。注射器的内容物被再次排出到废物容器中,该洗涤步骤重复两次,每次洗涤用6mL额外的异丙醇。洗涤步骤用6mL80。/。乙醇/lX退火緩冲液(80%乙醇、20mMTns-HCl(pH7.6)、5mM醋酸镁)重复。珠子然后用含有0.1%Tween(0.1%Tween-20、20mMTris-HCl(pH7.6),5mM醋酸镁)的6mLIX退火緩冲液洗涤,然后用6mLpicopure7K洗涂。将最后的洗涤液排入废物容器中之后,1.5mL的lmMEDTA被吸入注射器中,Swmlock过滤单元被取下并放置一边。注射器的内容物一皮连续转移到1.5mL离心管中。管子在微量离心机中被定时地离心20秒以沉淀珠子,上清被除去,然后将注射器中剩下的内容物加入到离心管中。Swmlock单元重新与过滤器相连,1.5mLEDTA被吸入到注射器中。最后一次中Swmlock过滤器被取下,并根据需要将珠子和EDTA加入到离心管中,沉淀珠子并除去上清。4.6第二链的去除固定在捕获珠子上的扩增DNA通过在碱性解链溶液中孵育以去除第二链,从而获得单链。lmL新鲜制备的解链溶液(0.125MNaOH、0.2MNaCl)被加入到珠子中,沉淀通过以中等设置涡旋2秒被重悬,管子被置于ThermolyneLabQuake管式滚筒(tuberoller)中3分钟。珠子然后如上所述被沉淀,上清小心地被移出和丟弃。剩余的解链溶液然后加入lmL退火緩冲液(20mMTns-醋酸(pH7.6)、5mM醋酸镁)稀释,然后所述珠子以中等速度涡旋2秒,珠子被沉淀,上清被除去,如上所述。重复退火緩冲液洗涤,所不同的是在离心后只有800pL退火缓冲液被除去。所述珠子和剩余的退火緩冲液被转移到0.2mLPCR管中,或者立刻使用,或者在继续进行下面的富集步骤之前储存于4°C最长达48小时。4.7珠子的富集到了此时,珠子堆由带有扩增的、固定的DNA链的珠子和未带有扩增产物的空珠子两者构成。富集方法被使用以选择性捕获带有可测序量模板DNA的珠子而舍弃空珠子。得自前一步骤的单链珠子在台式微量离心机中离心10秒钟被沉淀,然后管子旋转180°,再旋转10秒以确保均衡形成沉淀。然后尽可能多地除去上清而不扰乱珠子。十五樣吏升的退火緩冲液一皮加入到珠子中,然后加入2tiL100生物素化的、40个碱基的HEG富集引物(5'生物素-18-原子六-乙二醇间隔子-NO:33),IDTTechnologies),所述引物与固定在珠子上的模板3'-末端的联合扩增和测序位点(每个长度为20碱基)互补。所述溶液以中等设置涡旋2秒被混合,富集引物在MJ热循环仪中通过控制的变性/退火程序(65。C30秒,以0.1。C/秒降至58。C,58。C90秒,保持于10。C)退火到固定DNA链上。引物退火时,SeraMag-30磁性抗生物素蛋白链菌素珠子的储液(Seradyn,Indmnapolis,IN,USA)通过轻轻涡S走一皮重悬,20|iLSeraMag珠子被加入到含有lmL增强液(2MNaCl、10mMTris-HCl、lmMEDTA,pH7.5)的1.5mL孩i量离心管中。SeraMag珠子混合物涡旋5秒,管子被置于DynalMPC-S磁体中,沿微量离心管测面沉淀顺磁珠。上清被小心取出并丟弃而不扰乱SeraMag珠。管子从;兹体中取出,力口入100pL增强液。管子涡旋3秒以重悬珠子,管子储存于冰上备用。退火程序一结束,100pL的退火緩冲液就被加入到含有DNA捕获珠子和富集引物的PCR管中,管子涡旋5秒,其内容物被转移到新的1.5mL微量离心管中。富集引物在其中退火至捕获珠子上的PCR管用200pL退火緩沖液洗涤一次,洗涤溶液被加入到1.5mL管中。如前所述,珠子用lmL退火缓冲液洗涤三次、涡旋2秒、沉淀并小心除去上清。第三次洗涤后,珠子用lmL冰冷的增强液洗涤两次、涡旋、沉淀、除去上清,如前所述。珠子然后重悬于150^L冰冷的增强液中,珠子溶液被加入到洗涤后的SeraMag珠子中。珠子混合物涡旋3秒,在室温在LabQuake管式滚筒上孵育3分钟,此时,抗生物素蛋白链菌素包覆的SeraMag珠子与退火到DNA捕获珠子上的固定才莫才反上的生物素化的富集引物结合。i朱子然后以2,000RPM离心3分钟,然后珠子被轻"弹"直至珠子被重悬。重悬的珠子然后置于冰上5分钟。在冰上孵育后,冷的增强液被加入到珠子中使最终体积为1.5mL。管子被插入到DynalMPC-S磁体中,使珠子静置120秒使得珠子紧靠磁体沉淀,然后上清(含有过量的SeraMag和空DNA捕获珠子)被小心取出并除去。管子从MPC-S磁体中取出,lmL冷的增强液被加入到珠子中,珠子通过轻弹重悬。重要的是不要涡旋珠子,因为涡旋可能破坏SeraMag和DNA捕获珠子之间的连接。珠子然后返回到^兹体中,除去上清。这种洗涤再重复三次以确保除去所有空捕获珠子。为了从DNA捕获J朱子上移去退火的富集引物和SeraMag珠子,珠子重悬于lmL解链溶液中,涡旋5秒,用磁体沉淀。含有富集的珠子的上清被转移到分离的1.5mL微离心管中,珠子被沉淀,上清被丟弃。富集的珠子然后重悬于含有0.1%Tween-20的1X退火緩冲液中。珠子在MPC上再次沉淀,上清被转移到新的1.SmL管中,保证最大限度地除去剩余的SeraMag珠子。珠子被离心,然后上清被除去,珠子用lmL1X退火緩冲液洗涤3次。第三次洗涤后,80(^L上清被除去,剩余的珠子和溶液转移到0.2mLPCR管中。富集方法的平均产率为加入乳液的初始珠子的33%,或每个乳化反应198,000个富集的珠子。由于60x60mmPTP版式需要900,000个富集的^朱子,每个测序的60x60mmPTP处理5批600,000个i朱子的乳液。4.8测序引物退火富集的珠子以2,000RPM离心3分钟,倾去上清,然后加入15pL退火緩冲液和3测序引物(100mMSAD1F(5,-GCCTCCCTCGCGCCA-3,(SEQIDNO:34),IDTTechnologies)。管子然后涡旋5秒,置于MJ热循环仪中进行下述4阶段退火程序65。C5分钟,以0.1。C/秒降低至50°C,50°C1分钟,以0.1。C/秒降低至40。C,在40。C保持1分钟,以0.1。C/秒降低至15。C,在15。C保持。退火程序一结束,珠子就从热循环仪中移出,离心10秒沉淀,管子旋转180。,再离心10秒。弃去上清,加入200^L退火緩冲液。珠子通过5秒涡旋重悬,如前所述沉淀珠子。移去上清,珠子重悬于100pL退火緩冲液中,此时珠子用Multisizer3Coulter计数器定量。珠子被储存于4。C,至少一周是稳定的。4.9DNA珠子与BstDNA聚合酶,大片段和SSB蛋白一起孵育珠子洗涤緩冲液(100ml)通过向含有0.1%BSA的1X检测緩冲液中加入腺苷三磷酸双磷酸酶(Biotage)(最终活性为8.5单位/1)制备。光纤载玻片从picopure水中取出并在珠子洗涤緩冲液中孵育。九十万个先前制备的DNA珠子被离心并小心移去上清。珠子然后在1290pl珠子洗涤緩冲液中孵育,所述洗涤緩冲液含有0.4mg/mL聚乙烯吡咯烷酮(MW360,000)、lmMDTT、175pg大肠杆菌单链结合蛋白(SSB)(UnitedStatesBiochemicals)和7000单位BstDNA聚合酶,大片段(NewEnglandBiolabs)。珠子在室温在旋转器中孵育30分钟。4.10酶珠子和樣i粒子填充物的制备UltraGlow萸光素酶(Promega)和BstATP硫酸化酶自己制备为生物素羧基载体蛋白(BCCP)的融合体。87个氨基酸的BCCP区域包含在大肠杆菌中体内表达融合蛋白时与生物素共价连接的赖氨酸残基。根据制造商的说明,生物素化的荧光素酶U.2mg)和石克酸化酶(0.4mg)预混合,在4。C与2.0mLDynalM280顺》兹珠(10mg/mL,DynalSA,Norway)结合。酶结合的珠子在2000珠子洗涤緩沖液中洗涤3次,重悬于2000^L珠子洗涤緩冲液中。Seradyn微粒子(PowerbindSA,0.8,,10mg/mL,SeradynInc)如下制备1050^L存料用1000(iL含有0.P/。BSA的1X检测緩冲液洗涤。所述微粒子以9300g离心IO分钟,除去上清。洗涤再重复2次,所述微粒子重悬于1050^L含有0.1%BSA的1X检测緩冲液中。珠子和微粒子储存于冰上备用。4.11^朱子的沉积Dynal酶珠子和Seradyn微粒子涡旋一分钟,每种1000jiL在新的樣吏量离心管中混合,短暂涡旋并储存于水上。酶/Semdyn珠子(1920)与DNA珠子(1300(iL)混合,用珠子洗涤緩冲液将最终体积调节为3460pL。珠子沉积为有序的层。光纤载玻片从珠子洗涤緩冲液中移出,第l层,DNA和酶/Seradyn珠子的混合物,被沉积。离心后,第1层的上清被从光纤载玻片上抽吸走,第2层,Dynal酶珠子,被沉积。这一节详细描述不同的层如何浮皮离心。第l层.在60x60mm光纤载玻片表面上形成两个30x60mm活性区域的垫片被小心装配到夹具顶部的指定的不锈钢销钉上。光纤载玻片被放置在夹具中,载玻片的光滑的未蚀刻的一边向下,夹具销钉/垫片被装到载玻片蚀刻的一边。夹具销钉然后用提供的螺钉适当地固定,紧固相反端以使它们用手拧紧(fmgertight)。DNA-酶珠子混合物通过两个夹具顶部提供的入口被加载到光纤载玻片上。要极度小心以在珠子混合物的加载过程中使气泡减到最少。通过一次性轻轻地连续地推动移液管的活塞完成每次沉积。全部组装件在带有GH3.8-A转子的BeckmanCoulterAllegra6离心才几中以2800rpm离心10分钟。离心后,上清用移液管除去。第2层.Dynal酶珠子(920jiL)与2760mL珠子洗条緩冲液混合,3400^L酶-珠子悬液被加载到光纤载玻片上,如前所述。载玻片组装件以2800rpm离心10分钟,弃去上清。光纤载玻片从夹具中移出,保存于珠子洗涤緩冲液中直至其可以被加载到仪器上。4.12在454^f义器上测序所有流动的试剂制备于含有0.4mg/mL聚乙烯吡咯烷酮(MW360,000)、1mMDTT和0.1%Tween20的lx检测緩冲液中。底物(300pMD-荧光素(Regis)和2.5pM腺苷磷酸石克酸酐(Sigma))制备于含有0.4mg/mL聚乙蹄p比咯烷酮(MW360,000)、1mMDTT和0.1%Tween20的1X检测緩冲液中。三磷酸腺苷双磷酸酶洗涤液通过在1X检测緩冲液中加入三磷酸腺苷双磷酸酶至最终活性为每升8.5单位来制备,所述1X4全测緩沖液含有0.4mg/mL聚乙烯吡咯烷酮(MW360,000)、1mMDTT和0.1%Tween20。脱氧核苷酸dCTP、dGTP和dTTP(GEBiosciences)制备为最终浓度为6.5pM,a-硫代脱氧腺苷三磷酸(dATPocS,Biolog)和焦磷酸钠(Sigma)制备于底物緩冲液中,最终浓度分别为50和0.1pM。454测序仪器由三个主要部件组成射流子系统、光纤载玻片盒/流动室和成像子系统。试剂输入管道、多阀总管和蠕动泵构成射流子系统的各部分。单个试剂与合适的试剂输入管道相连,使得试剂被递送到流动室中,一次一种试剂,按照预先设置的流速和持续时间。光纤载玻片盒/流动室在载^t片的蚀刻边和流动室顶之间有250pm的空间。流动室还包括对试剂和光纤载玻片以及不透光外壳进行温度控制的设备。载玻片的磨光(未蚀刻)一边直接与成像系统接触放置。测序试剂向光纤载玻片孔中的循环递送和测序反应副产物从孔中的洗脱通过预先程序设定的射流子系统的操作完成。所述程序以InterfaceControlLanguage(ICL)脚本的形式编写,说明每个脚本步骤的试剂名称(洗涤液、dATPaS、dCTP、dGTP、dTTP和PPi标准品)、流速和持续时间。流速对于所有试剂i殳定为4mL/分钟,流动室中的线性速度为大约1cm/s。测序试剂的流动顺序神皮组织到核心程序中,其中第一个核心程序由PPi流动(21秒)、然后是14秒的底物流动、28秒的三磷酸腺苷双磷酸酶洗涤和21秒的底物流动组成。第一个PPi流动后接着是21个循环的dNTP流动(dC-底物-三磷酸腺苷双磷酸酶洗涤液-底物dA-三磷酸腺苷双磷酸酶洗涤液-底物-dG-底物-三磷酸腺苦双磷酸酶洗涤液-底物-dT-底物-三磷酸腺苷双磷酸酶洗涤液-底物),其中每种dNTP流由4个单独的核心程序组成。每个核心程序是84秒长(dNTP-21秒、底物流动-14秒、三磷酸腺苷双磷酸酶洗涤液-28秒、底物流动-21秒);21秒和63秒后摄取图像。21个循环的dNTP流动后,PPi核心程序被引入,然后接着是另一个21个循环的dNTP流动。测序进程结束后跟着是第三个PPi核心程序。全部进程的时间是244分钟。完成这个进程所需的试剂体积如下所示500mL的每种洗涤溶液、100mL的每种核苷酸溶液。在所述进程中,所有的试剂都保持于室温。流动室和流动室输入管的温度被控制在30°C,所有进入流动室的试剂被预热到30°C。实施例5土i襄样品的分析核酸从土壤的生物体中被提取出来用于用本发明的方法进行分析。才是取用来自Epicentre(Madison,WI,USA)的DNA提取试剂盒依据制造商的说明进4亍。筒少豆来i兌,550pi的抑制免除才对月旨(inhibitorremovalresm)净皮力口入到每个空的得自Epicentre的Spm柱中。所述柱以2000xg离心1分钟以填充柱。流过液(theflow-through)被除去,另一个550pi的抑制免除树脂被加入到每个柱中,然后以2000xg离心1分钟。100mg土壤被收集到1.5ml的管子中,250^土壤DNA提取緩冲液中加入2(il蛋白酶K。溶液被涡旋,加入50(il土壤裂解緩冲液并再次涡旋。管子在65°C孵育10分钟,然后以1000xg离心2分钟。180(il上清被转移到新管中,加入60pl蛋白质沉淀试剂,通过颠倒管子充分混合。管子在冰上孵育8分钟,以最大速度离心8分钟。100-150pl上清被直接转移到制备好的Spm柱上,该柱以2000xg离心2分钟离心到1.5ml的管子中。柱被弃去,收集洗脱液,6(il的DNA沉淀溶液蜂皮加入到洗脱液中,管子通过短暂涡旋混合。室温孵育5分钟后,管子以最大速度离心5分钟。除去上清,沉淀用500pl沉淀洗涤溶液洗涤。管子#皮颠倒以混合溶液,然后以最大速度离心3分钟。除去上清,重复洗涤步骤。再次除去上清,最终的沉淀重悬于300plTE緩冲液中。产生的DNA样品可以用于本发明的方法,至少包括检测某一基因座上核苷酸频率的方法。参考文献BioAnalyzerUserManual(Agilent):hypertexttransferprotocol:〃worldwideweb.chem.agilent.comAemp/rad31B29/00033620.pdfBioAnalyzerDNAandRNALabChipUsage(Agilent):hypertexttransferprotocol:〃worldwideweb.agilent.comychem/labonachipBioAnalyzerRNA6000Ladder(Ambion):hypertexttransferprotocol:〃worldwideweb.ambion,com/techlib/spec/sp—7152.pdfBiomagneticTechniquesinMolecularBio〗ogy,TechnicalHandbook,3rdedition(Dynal,1998):hypertexttransferprotocol:〃worldwideweb.dynaLno/kunder/dynal/DynalPub36.nsPcb927fbabl27a0ad41256S3b004b0nc/4908f5bla66585Sa41256ad歸779薦FILE/DynabeadsM-280Streptavidin.pdf.Dinaueretal.,2000Sequence-basedtypingofHLAclassIIDQB1.T7wwe^(w/扭w55:364.Garcia-Martinez,J.,LBescos,etal.(2001)."RISSC:anoveldatabaseforribosomal16S-23SRNAgenesspacerregions."NucleicAcidsRes29(1):178-80,Grahn,N.,M.Olofsson,etal.(2003)."IdentificationofmixedbacterialDNAcontaminationinbroad-rangePCRamplificationof16SrDNAVIandV3variableregionsbypyrosequencingofclonedamplicons."FEMSMicrobiolLett219(1):87-91.Hamilton,S.C.,J.W".FarchausandM.C.Davis.2001.DNApolymerasesasenginesforbiotechnology._6z.orec/z—was31:370.Jonasson,J.,M.Olofsson,etal.(2002)."Classification,identificationandsubtypingofbacteriabasedonpyrosequencingandsignaturematchingof16SrDNAfragments."Apmis110(3):263-72.MinElutekit(QIAGEN):hypertexttransferprotocol:〃worldwideweb.qiagen.com71iterature/handbooks/minelute/1016839—HBMinElute—Prot—Gel.pdf.Monstein,H.,S,Nikpour-Badr,etal.(2001)."RapidmolecularidentificationandsubtypingofHelicobacterpyloribypyrosequencingofthe16SrDNAvariableVIandV3regions,"FEMSMicrobiolLett199(1):103-7.Norgaardetal"1997Sequencing-basedtypingofHLA-AlocususingmRNAandasinglelocus-specificPCRfollowedbycycle-sequencingwithAmpliTaqDNApolymerse.7V^weu4/"扭肌49:455-65.Pollard,K,S.andM.J.vanderLaan(2005)."ClsuterAnalysisofGenomicDatawithApplicationsinR."U.C.BerkeleyDivisionofBiostatisticsWorkingPaperSeries#167.QiaQuickSpinHandbook(QIAGEN,2001):hypertexttransferprotocol:〃worldwideweb.qiagen.com/literature/handbooks/qqspin/1016893HBQQSpin—PCR—mc_prot.pdf.QuickligationKit(NEB):hypertexttransferprotocol:〃woridwideweb.neb*com/neb/products/mod—enzymes/M2200.htm1.Shimizuetal"2002Universalfluorescentlabeling(UFL)methodforautomatedmicrosateliteanalysis.DiV^i".9:173-78.Steffensetal.,1997InfraredfluorescentdetectionofPCRamplifiedgenderidentifyingalleles./Fomuz'c42:452-60.Team,R.D.C.(2004).R:Alanguageandenvironmentforstatisticalcomputing.Vienna,Austria,RFoundationforStatisticalComputing-Tsangetal"2004DevelopmentofmultiplexDNAelectronicmicroarrayusingauniversaladaptorsystemfordetectionofsinglenucleotidepolymorphisms.Biotechniques36:682-88.权利要求1.一种检测核酸群体中的一个或多个序列变体的方法,包括下列步骤(a)用确定基因座的一对核酸引物扩增所述核酸群体共有的多核苷酸区段,以产生其中每个都包含所述多核苷酸区段的第一扩增子群体;(b)克隆扩增所述第一扩增子群体的每个成员,以产生第二扩增子的多个群体,其中第二扩增子的每个群体源自于所述第一扩增子群体的一个成员;(c)将所述第二扩增子固定到多个可移动的固相支持物上,以使每个可移动的固相支持物含有所述第二扩增子的一个群体;(d)确定每个固相支持物上的所述第二扩增子的核酸序列,以产生核酸序列群体;(e)确定每种类型的核苷酸在所述多核苷酸区段的每个位置的出现率,以检测所述核酸群体中的一个或多个序列变体。2.权利要求1的方法,其中所述引物是包括5'区域和3'区域的双向引物,其中所述3,区域与所述多核苦酸区段上的某个区域互补,其中所述5,区域与测序引物或其互补序列同源。3.权利要求2的方法,其中所述5,区域与所述可移动的固相支持物上的捕获寡核苷酸或其互补序列同源。4.权利要求l的方法,其中所述扩增通过聚合酶链式反应进行。5.权利要求1的方法,其中所述可移动的固相支持物是直径为选自下组的珠子大约1到大约500微米之间、大约5到大约IOO微米之间、大约10到大约30微米之间以及大约15到大约25微米之间。6.权利要求1的方法,其中所述可移动的固相支持物包括杂交并固定所述第一扩增子群体、第二扩增子或二者的寡核苷酸。7.4又利要求1的方法,其中所述确定核酸序列的步骤通过将多个可移动的固相支持物递送到在平坦表面上具有至少10,000个反应室的阵列中,其中多个反应室含有不超过一个的可移动的固相支持物;并确定每个所述可移动的固相支持物上的扩增子的核酸序列来进行。8.权利要求1的方法,其中所述确定核酸序列的步骤通过基于焦磷酸盐的测序进行。9.权利要求l的方法,其中所述序列变体具有选自下组的频率小于大约50%、小于大约10%、小于大约5%、小于大约2%、小于大约1%、小于大约0.5%以及小于大约0.2%。10.权利要求l的方法,其中所述序列变体具有在0.2和5%之间的频率。11.4又利要求1的方法,其中所述核酸群体包4舌DNA、RNA、cDNA或其组合。12.权利要求l的方法,其中所述核酸群体来自于多种生物体。13.权利要求l的方法,其中所述核酸群体来自于一种生物体。14.权利要求13的方法,其中所述核酸群体来自于所述生物体的多个组织样品。15.权利要求13的方法,其中所述核酸群体来自于所述生物体的一个组织。16.权利要求l的方法,其中所述核酸群体来自于疾病组织。17.权利要求16的方法,其中所述疾病组织包括胂瘤组织。18.权利要求l的方法,其中所述核酸群体来自于细菌培养物、病毒培养物或环境样品。19.权利要求1的方法,其中所述第一扩增子群体长度为30到500个碱基。20.权利要求1的方法,其中所述第一扩增子群体包含多于1000个扩增子、多于5000个扩增子或多于10000个扩增子。21.权利要求1的方法,其中每个所述珠子结合所述多个第二扩增子的至少10,000个成员。22.权利要求1的方法,其中所述多核苷酸区段的核酸序列在所述方法之前未一皮确定或部分未一皮确定。23.—种检测第一多核苷酸分子群体中的一个或多个核苷酸序列变体的方法,所述方法包括下列步骤(a)体外选择性扩增多核苷酸区域,其中所述区域从多个第一多核苷酸分子中扩增,从而产生第二多核苷酸分子的群体;并且(b)确定多个单独的第二多核苷酸分子的核苷酸序列,每个序列包含至少两个连续的核苷酸,其中任选地,在确定所述序列之前,每个所述多个单独的第二多核苷酸分子在体外克隆扩增,以产生第三多核苷酸分子的群体;并且(c)比较步骤(b)中确定的核苷酸序列,以鉴别任何第二多核苷酸分子之间以及任选地第三多核苷酸分子之间的序列差异,从而^r测所述第一多核苷酸分子群体中的一个或多个核苷酸序列变体。24.根据权利要求23的方法,其中所述多核苷酸扩增通过等温扩增或热循环扩增进行。25.根据权利要求24的方法,其中热循环扩增通过聚合酶链式反应进行。26.根据权利要求23的方法,其中所述第一多核苷酸分子群体包含多于大约100个、多于大约1000个、多于大约10,000个、多于大约100,000个、多于大约1百万个或多于大约十亿个分子。27.根据权利要求23的方法,其中所述第二多核苷酸分子的群体包含多于大约100个、多于大约1000个、多于大约10,000个、多于大约100,000个、多于大约1百万个或多于大约十亿个分子。28.根据权利要求23的方法,其中所述多个单独的第二多核苷酸分子包含多于大约100个、多于大约1000个、多于大约10,000个、多于大约100,000个、多于大约1百万个或多于大约十亿个分子。29.权利要求23的方法,其中所述扩增的多核苷酸区域包含至少大约25个、至少大约50个、至少大约150个、至少大约300个、至少大约500个、至少大约1000个、至少大约5000个或至少大约10,000个核苷酸。30.权利要求23的方法,其中每个所述序列包含至少大约5个、至少大约25个、至少大约50个、至少大约100个、至少大约150个、至少大约200个、至少大约300个、至少大约500个、至少大约1000个、至少大约5000个、至少大约10,000个或至少大约100,000个连续的核苦酸。31.权利要求23的方法,其中所述第二多核苷酸分子的群体固定在固相或半固相支持物上。32.权利要求23的方法,其中所述第三多核苷酸分子的群体固定在固相或半固相支持物上。33.权利要求23的方法,其中所述序列由选自下组的方法确定Sanger测序、合成测序、杂交测序、连一妄测序、降解测序和纳米孔测序。34.权利要求33的方法,其中所述合成测序方法包括焦磷酸盐的检测。35.权利要求23的方法,其中所述序列的测定包括引入标记的核苷酸,其中标记选自荧光标记、质量标签和发光标记。36.权利要求35的方法,其中所述标签通过光或化学处理除去或失活。37.权利要求23的方法,其中所述一个或多个核苷酸序列变体具有选自下组的频率小于大约50%、小于大约20%、小于大约10%、小于大约5%、小于大约2%、小于大约1%、小于大约0.5%、小于大约0.2%以及小于大约0.02%。38.权利要求23的方法,其中所述一个或多个核苷酸序列变体中的至少一个在确定序列之前是未知的。法,包括下述步骤(a)从所述群体中分离核酸样品;(b)用权利要求1或权利要求23任一项的方法确定含有所述群体中所有生物体共有的基因座的核酸区段的一个或多个序列变体,其中每个生物体在所述基因座包含不同的核酸序列;并且(c)基于所述核酸序列群体鉴别生物体在所述群体中的分布。39.40.权利要求39的方法,其中所述群体是选自细菌、病毒、单细胞生物、才直物和酵母的生物群体。41.一种确定组织样品组成的方法,包括下列步骤(a)从所述组织样品中分离核酸样品;(b)用权利要求1或权利要求23任一项的方法检测核酸区段的序列变体,其中所述区段包含所述组织样品中所有细胞共有的基因座,其中每个细胞类型在所述基因座包含不同的序列变体;以及(c)才艮据所述核苷酸频率确定所述组织样品的组成。42.—种确定生物体基因型的自动化方法,包括(a)从所述生物体中分离核酸;(b)根据权利要求1或权利要求23任一项的方法确定所述核酸中一个或多个基因座上的核酸序列,以产生在所述一个或多个基因座上的核酸序列的群体;(c)#4居所述核酸序列群体确定所述一个或多个基因座上的纯合性或杂合性,以确定所述生物体的基因型。43.权利要求42的方法,进一步包括将所述核酸序列群体与一个或多个参考基因型的序列相比较以确定所述生物体的基因型的步骤(d)。44.权利要求42的方法,其中所述一个或多个基因座包含SNP,其中所述基因型是SNP基因型。45.权利要求23的方法,其中第三多核苷酸分子的群体通过桥式扩增产生。46.权利要求23的方法,其中第三多核苷酸分子的群体通过在半固相支持物上扩增产生。全文摘要要求保护的发明提供了新的样品制备方法,使得可以用焦磷酸测序技术直接对PCR产物进行测序。所述PCR产物可以是基因组的特定区域。本发明的公开内容中提供的技术可以用于在一个个体或个体的群体中对个体等位基因多态性进行SNP(单核苷酸多态性)检测、分类和评价。结果可以用于患者的诊断和治疗,以及病毒和细菌群体鉴别的评价。文档编号C12Q1/68GK101171345SQ200680015255公开日2008年4月30日申请日期2006年4月12日优先权日2005年4月12日发明者B·德萨尼,J·F·西蒙斯,J·H·利蒙,J·德拉克,J·罗思伯格,K·罗曼,M·T·罗南,M·埃格霍尔姆,W·L·李申请人:454生命科学公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1