用于多重分类学分类的方法和系统与流程

文档序号:13348517阅读:1413来源:国知局
用于多重分类学分类的方法和系统与流程
交叉引用本申请要求2015年4月24日提交的第62/152,782号美国临时申请的权益,该申请通过引用并入本文。
背景技术
:宏基因组学,即微生物群体的基因组分析,使得以前所未有的深度和广度对环境和人体中的微生物群落进行谱分析成为可能。其迅速扩大的用途正在彻底改变我们对自然和人工环境中微生物多样性的理解,并将微生物群落谱与健康和疾病联系起来。迄今为止,大多数研究依赖于微生物标志物基因(例如细菌16srrna)的pcr扩增,已经为其建立了大量的组织化数据库。最近,更高通量和更低成本的测序技术已经使得向不依赖富集的宏基因组学转向成为可能。这些方法减少偏倚,改善低丰度分类单元(taxa)的检测,并能够发现新的病原体。虽然常规的病原体特异性核酸扩增试验是高度灵敏且特异性的,但它们需要可能存在的病原体的先验知识。结果是使得能够诊断最常见的病原体的诊断组(panel)日益庞大却本质上有限。相比之下,不依赖富集的高通量测序法允许理论上无限数量的常见和罕见病原体的无偏、无假设检测及分子分型。新一代测序仪器的广泛可用性、较低的试剂成本和合理化的(streamlined)样品制备方案使越来越多的研究人员能够进行高通量dna和rna-测序以供宏基因组学研究。然而,测序数据的分析仍然是相当困难及耗时的,需要生物信息学技能、计算资源和对许多实验室、特别是诊断实验室而言无法获得的微生物专业知识。技术实现要素:鉴于上述情况,需要用于综合诊断和宏基因组学分析的计算效率更高、更准确和更方便使用的工具。本文描述的方法和系统满足了这一需求,并且还提供了其它益处。在一方面,本公开内容提供了一种鉴定来自样品源的样品中的多个多核苷酸的方法。在一些实施方案中,所述方法包括提供来自样品的多个多核苷酸的测序读取,并且对每个测序读取:(a)利用计算机系统执行所述测序读取与多个参考多核苷酸序列之间的序列比较,其中所述比较包括计算k-mer权重作为所述测序读取中的k-mer衍生自在所述多个参考多核苷酸序列内的参考序列的可能性的量度;(b)如果参考序列的k-mer权重之和高于阈值水平,则将测序读取鉴定为对应于参考序列数据库中的特定参考序列;以及(c)组装包括在步骤(b)中所鉴定的参考序列的记录数据库,其中所述记录数据库排除未与测序读取相对应的参考序列。在另一方面,本公开内容提供了一种鉴定来自样品源的样品中的一个或多个分类单元的方法,该方法包括:(a)提供来自样品的多个多核苷酸的测序读取,并且对每个测序读取:(i)利用计算机系统执行所述测序读取与多个参考多核苷酸序列之间的序列比较,其中所述比较包括计算k-mer权重作为所述测序读取中的k-mer衍生自在所述多个参考多核苷酸序列内的参考序列的可能性的量度;以及(ii)基于所述k-mer权重计算测序读取对应于参考序列数据库中的特定参考序列的概率,由此产生序列概率;(b)基于与代表一个或多个分类单元的序列相对应的序列概率来计算所述一个或多个分类单元的存在或不存在的评分;以及(c)基于相应的评分,将所述一个或多个分类单元鉴定为在样品中存在或不存在。在一些实施方案中,基于序列中的一个或多个核苷酸差异,所述一个或多个分类单元包含被鉴定为存在的第一细菌菌株和被鉴定为不存在的第二细菌菌株。在一些实施方案中,基于序列中的单核苷酸差异,将第一细菌菌株鉴定为存在且将第二细菌菌株鉴定为不存在。在一些实施方案中,所述方法进一步包括通过将步骤(c)的结果与生物特征相比较来鉴定所述样品源的状况。在本公开内容的各个方面的任一方面的一些实施方案中,所述参考序列数据库中的每个参考序列在比较之前与参考k-mer权重相关联,该参考k-mer权重为在所述参考序列内的k-mer来源于该参考序列的可能性的量度。在一些实施方案中,所述参考序列数据库包括来自多个分类单元的序列,并且该参考序列数据库中的每个参考序列与参考k-mer权重相关联,该参考k-mer权重为所述参考序列中的k-mer源于所述多个分类单元中的分类单元的可能性的量度。可并行地对所有测序读取执行一个或多个所述步骤,例如执行所述序列比较的步骤。所述方法可进一步包括基于相应测序读取的数目来量化对应于步骤(b)中鉴定的参考序列的多核苷酸的量。在一些实施方案中,该方法进一步包括基于步骤(b)的结果确定所述样品中多个分类单元的存在、不存在或丰度,其中所述多个参考多核苷酸序列包括对应于所述多个分类单元中单个分类单元的序列组。被鉴定为属于所述多个分类单元中的特定分类单元并且不存在于与该分类单元对应的序列组中的测序读取可被添加至与该分类单元相对应的序列组中以用于之后的序列比较。在一些实施方案中,确定所述多个分类单元中的分类单元的存在、不存在或丰度包括解决测序读取所对应的两个可能的分类单元之间的平分(tie),其中解决所述平分包括沿着系统发育树的每个分支确定所述参考序列的k-mer权重之和。在一些情况下,特定个体被鉴定为样品源。参考序列数据库可包含多种参考序列中的任一种。在一些实施方案中,所述参考序列数据库来自于细菌、古菌、囊泡藻、病毒、真菌、植物、鱼类、两栖动物、爬行动物、鸟类、哺乳动物和人类中的一种或多种。在一些情况下,所述参考序列数据库由来自参考个体或参考样品源的序列组成。在这种情况下,所述方法可进一步包括将来自所述样品源的多核苷酸鉴定为衍生自所述参考个体或所述参考样品源。在一些实施方案中,参考序列数据库包含相对于已知多核苷酸序列具有一个或多个突变的k-mer,使得所述已知多核苷酸序列的多个变体呈现于所述参考序列数据库中。参考序列数据库可包含用于细菌序列的分类学分类的标志物基因序列,例如16srrna序列。在一些实施方案中,参考序列数据库包含人转录物的序列。在一些实施方案中,参考序列数据库由与状况相关的序列组成。一个或多个这样的序列可形成所述状况的生物特征,多个生物特征可共同形成所述参考数据库。在一些情况下,所述记录数据库与所述样品源的状况相关联以建立所述状况的生物特征。当序列与状况相关联时,所述方法可进一步包括通过将所述记录数据库与生物特征相比较,鉴定所述样品源的状况,包括将所述样品源鉴定为具有所述状况。所述状况可为污染,例如食品污染、表面污染或环境污染。在一些实施方案中,所述状况为感染。(例如感染的)生物特征可包括(i)宿主转录物的序列或宿主转录物序列的水平;和/或(ii)一种或多种感染原的序列。在一些实施方案中,所述感染为流感,并且所述生物特征由ifit1、ifi6、ifit2、isg15、oasl、ifit3、nt5c3a、mx2、ifitm1、cxcl10、ifi44l、mx1、ifih1、oas2、samd9、rsad2、ddx58中的一个或多个的序列组成。所述样品源可为各种样品源中的任一种。在一些情况下,所述样品源为受试者。当序列与状况相关联时,所述方法可进一步包括通过在开始治疗后多次鉴定来自感染受试者的样品中生物特征的存在或不存在来监测感染受试者的治疗。所述感染受试者的治疗可根据监测的结果来调整。在一些实施方案中,本公开内容的方法包括基于序列和/或分类单元鉴定的结果来选择以及任选地采取医疗行为。例如,医疗行为可包括施用药物组合物,如抗生素。在一些实施方案中,基于针对样品中所鉴定的分类单元的功效来选择抗生素。在一些实施方案中,参考序列数据库包含从氨基酸序列反向翻译的多核苷酸序列。反向翻译可使用包含针对每种氨基酸的单个密码子的非简并代码。当使用非简并代码时,可将测序读取翻译成氨基酸序列,然后在与反向翻译的参考序列进行比较之前使用非简并代码予以反向翻译。在一些实施方案中,所述k-mer权重涉及特定参考序列内的特定k-mer的计数、在包含所述参考序列的序列组之间的特定k-mer的计数以及在参考序列数据库中的所有参考序列之间的特定k-mer的计数。在一些实施方案中,步骤(b)在小于1.5秒内针对20,000个测序读取完成。这20,000个测序读取可包含来自细菌、病毒、真菌和人类中的两种或多种的序列。在一些实施方案中,由计算机系统响应于用户请求执行步骤(a)-(c)。在一些实施方案中,用户将测序读取上传到计算机系统,并且所述方法与该上传同时进行。在一些实施方案中,用户将多个测序读取上传到计算机系统,并且在所述多个测序读取中的其它测序读取正在上传的同时向用户报告关于所述多个测序读取中的一个或多个的序列分析结果。例如,包含多个测序读取的测序文件可被分解成较小的组件(例如一个或多个测序读取的子集),并且可以分析和报告先上传的组件,同时该文件的剩余部分继续上传。该计算机系统相对于用户可为远程的。所述方法可进一步包括对来自样品的多个多核苷酸进行测序以产生测序读取。在一方面,本公开内容提供了一种检测样品中的多个分类单元的方法。在一些实施方案中,所述方法包括提供来自样品的多个多核苷酸的测序读取,并且对每个测序读取:(a)基于测序读取与来自不同第一分类群的第一多个多核苷酸序列之间的第一序列比较,将所述测序读取分配给第一分类群,其中至少两个测序读取被分配给不同的分类群;(b)用计算机系统执行所述测序读取与对应于所述第一分类群的成员的第二多个多核苷酸序列之间的第二序列比较,其中所述比较包括对至少5个核苷酸长度的所述测序读取内的与第二多个多核苷酸序列中的参考序列内的一个或多个k-mer精确匹配的k-mer数目进行计数;(c)如果所述测序读取与参考序列之间的相似性量度高于第一阈值水平,则将所述测序读取分类为属于比所述第一分类群更特异的第二分类群;(d)如果在(c)中没有鉴定出高于第一阈值水平的相似性,则基于用计算机系统比较由翻译所述测序读取而衍生的序列与对应于所述第一分类群的成员的氨基酸序列的第三组参考序列而确定的高于第二阈值水平的相似性,将所述测序读取分类为属于所述第二分类群;以及(e)基于所述测序读取的分类,鉴定样品中多个分类单元的存在、不存在或丰度。步骤(b)可进一步包括计算k-mer权重作为所述测序读取中的k-mer衍生自所述第二多个多核苷酸序列中的参考序列的可能性的量度。在一些实施方案中,所述第三组参考序列由反向翻译相应氨基酸序列衍生的多核苷酸序列组成。所述方法可进一步包括如果(d)中的相似性低于所述第二阈值,则由所述计算机系统执行所述测序读取与所述第二多个多核苷酸序列之间的松弛序列比较,其中所述松弛序列比较不如有所述第二序列比较严格。在一些实施方案中,对步骤(c)中的测序读取进行分类包括基于k-mer权重解决两个或更多个可能的分类群之间的平分,该k-mer权重为所述测序读取对应于来自一种可能的分类群的祖先的多核苷酸的可能性的量度。在一些实施方案中,步骤(a)包括将测序读取分配给选自细菌、病毒、真菌或人类的两个或更多个分类单元。在一些实施方案中,分类为属于所述第二分类群并且不存在于与该第二分类群对应的序列组中的测序读取被添加至与该第二分类群相对应的序列组中以用于之后的序列比较。所述第二多个核苷酸序列可包含用于细菌序列的分类学分类的标志物基因序列,例如16srrna序列。所述第二多个核苷酸序列可包含人转录物的序列。在一些实施方案中,所述方法进一步包括基于所述样品中检测到的所述多个分类单元与状况的生物特征之间的相似性程度来诊断所述状况。所述状况可为样品的污染或受试者的感染。当所述状况为受试者的感染时,可基于(i)宿主转录物的序列;和/或(ii)一种或多种感染原的序列的存在或量来评估该感染。所述方法可进一步包括通过在开始治疗后多次检测来自感染受试者的样品中多个分类单元的存在、不存在或丰度来监测感染受试者的治疗,并且基于监测的结果任选地改变感染受试者的治疗。如果所述测序读取与参考序列之间的相似性量度高于所述第一阈值水平,则所述方法可进一步包括将所述测序读取分类为对应于基因转录物。在测序读取被分类为与基因转录物相对应时,所述方法可进一步包括基于所述样品中检测到的所述多个分类单元与状况的生物特征之间的相似性程度来诊断该状况。在一方面,本公开内容提供了用于执行本文所述的任一种方法的系统。在一些实施方案中,该系统被配置用于基于来自样品源的样品中的多个多核苷酸的测序读取来鉴定所述多个多核苷酸。例如,该系统可包括一个或多个计算机处理器,该计算机处理器被编程为针对每个测序读取:(a)执行所述测序读取与多个参考多核苷酸序列之间的序列比较,其中所述比较包括计算k-mer权重作为所述测序读取中的k-mer衍生自在所述多个参考多核苷酸序列内的参考序列的可能性的量度;(b)如果参考序列的k-mer权重之和高于阈值水平,则将所述测序读取鉴定为对应于参考序列数据库中的特定参考序列;以及(c)组装包含在步骤(b)中鉴定的参考序列的记录数据库,其中所述记录数据库排除未与测序读取相对应的参考序列。所述系统可进一步包括与所述计算机处理器通信的反应模块,其中该反应模块执行多核苷酸测序反应以产生测序读取。在一些实施方案中,所述系统被配置用于基于多个多核苷酸的测序读取来鉴定来自样品源的样品中的一个或多个分类单元。例如,该系统可包括一个或多个计算机处理器,该计算机处理器被编程为:(a)针对每个测序读取,执行所述测序读取与多个参考多核苷酸序列之间的序列比较,其中所述比较包括计算k-mer权重作为所述测序读取中的k-mer衍生自在所述多个参考多核苷酸序列内的参考序列的可能性的量度;(b)针对每个测序读取,基于该k-mer权重计算所述测序读取对应于参考序列数据库中的特定参考序列的概率,由此产生序列概率;(c)基于与代表一个或多个分类单元的序列相对应的序列概率来计算所述一个或多个分类单元的存在或不存在的评分;以及(d)基于相应的评分,将所述一个或多个分类单元鉴定为在样品中存在或不存在。所述系统可进一步包括与所述计算机处理器通信的反应模块,其中该反应模块执行多核苷酸测序反应以产生测序读取。在一方面,本公开内容提供了一种包含代码的计算机可读介质,所述代码在由一个或多个处理器执行时,实施根据本文公开的任何方法的方法。在一些实施方案中,计算机可读介质的执行基于来自样品源的样品中的多个多核苷酸的测序读取来实施鉴定所述多个多核苷酸的方法。在一个实施方案中,计算机可读介质的执行实施包括以下步骤的方法:(a)针对所述测序读取中的每一个,执行所述测序读取与多个参考多核苷酸序列之间的序列比较,其中所述比较包括计算k-mer权重作为所述测序读取中的k-mer衍生自在所述多个参考多核苷酸序列内的参考序列的可能性的量度;(b)针对所述测序读取中的每一个,如果参考序列的k-mer权重之和高于阈值水平,则将测序读取鉴定为对应于参考序列数据库中的特定参考序列;以及(c)组装包含在步骤(b)中所鉴定的参考序列的记录数据库,其中所述记录数据库排除未与测序读取相对应的参考序列。在一些实施方案中,计算机可读介质的执行基于多个多核苷酸的测序读取来实施鉴定来自样品源的样品中的一个或多个分类单元的方法,该方法包括:(a)针对所述测序读取中的每一个,执行所述测序读取与多个参考多核苷酸序列之间的序列比较,其中所述比较包括计算k-mer权重作为所述测序读取中的k-mer衍生自在所述多个参考多核苷酸序列内的参考序列的可能性的量度;(b)针对所述测序读取中的每一个,基于该k-mer权重计算所述测序读取对应于参考序列数据库中的特定参考序列的概率,由此产生序列概率;(c)基于与代表一个或多个分类单元的序列相对应的序列概率来计算所述一个或多个分类单元的存在或不存在的评分;以及(d)基于相应的评分,将所述一个或多个分类单元鉴定为在样品中存在或不存在。援引并入本说明书中所提到的所有出版物、专利和专利申请均通过引用并入本文,其程度犹如特别地且单独地指出每个单独的出版物、专利或专利申请通过引用而并入。附图说明本发明的新颖特征在所附的权利要求书中具体阐述。通过参考以下对利用本发明原理的说明性实施方案加以阐述的详细描述及其附图,将会更好地理解本发明的特征和优点,在附图中:图1a-b提供了根据本公开内容的实施方案,被称为分类法(taxonomer)的系统的结构和用户界面的概览。图2a-e示出用于细菌和真菌分类的分类法的“分类器”模块的实施方案的性能以及细菌群落谱分析。条形下方的数字表示在相应位置由底部条表示的读取(%)。条形上方的数字表示在相应位置处底部条上方的第一条的读取(%)。图3a-f示出用于病毒检测的分类法的'protonomer'模块的实施方案的性能特征。图4a-h示出用于宿主转录物表达谱分析的分类法的'分类器'模块的实施方案的性能特征。图5a-d示出用于检测先前未被识别的感染或实验室污染以及与常用测序仪的兼容性的结果。图6a-d示出分类法的'binner'模块的实施方案的性能特征。图7图示了证实通过在读取分配(并行方法)之前计算测序读取与每个分箱数据库之间共享的k-mer的数目而实现的精度提高的结果。图8a-c图示了分类法的protonomer模块、rapsearch2和diamond的实施方案在将病毒读取置于正确的分类箱元中的性能和灵敏度的结果。图9a-c示出分类法的protonomer、afterburner和protonomer/afterburner组合的实施方案的相对性能和灵敏度。图10示出与分类法和surpi的实施方案相比,kraken的不同置信度截止值的影响。图11图示了如下结果,该结果显示在参考数据库中未表示的查询序列引起假阳性和假阴性分类,并且分类法的实施方案比其它工具受到的影响要小。图12a-b示出blast、rdp分类器、kraken和分类法实施方案的读取水平(上图)和分类单元水平(下图)细菌分类精度。图13图示了测序错误率对不同分类方法的影响。图14a-d图示了如下结果,该结果显示与rdp分类器相比,分类法的实施方案以增加>200倍的速度将细菌16srrna读取分类,同时提供高度可比的细菌群落谱。图15示出用于图14a-d所示样品分类的rdp分类器(r)、分类法实施方案(t)和kraken(k)的实例分析时间。图16a-b图示了如下结果,该结果显示分类法的实施方案能够正确鉴定样品samn03015718(srr1564828)中的脑膜脓毒性菌(elizabethkingiameningoseptica)和在塞拉利昂患有疑似埃博拉病毒疾病的患者的血浆(srr1564825)中的肠病毒a。图17示出由分类法的一个实施方案确定的,具有细环微型病毒(torquetenominivirus)参考序列的新型指环病毒的共有序列的系统发育树。图18示出与分类管线surpi和kraken相比,分类法的实施方案的示例处理时间。图19提供了根据本公开内容的实施方案的示例参考数据库。图20提供了根据本公开内容的实施方案执行的序列比较的结果。图21a-c图示了根据本公开内容的实施方案对微生物菌株谱分析的示例序列分析的结果。图22a-c图示了根据本公开内容的实施方案对微生物菌株谱分析的示例序列分析的结果。y轴表示被正确分型的菌株的评分。具体实施方式在本申请中,本发明的各个实施方案可以以范围的格式呈现。应当理解,范围格式的描述仅仅是为了方便和简明,并且不应被解释为对本发明的范围的硬性限制。因此,对范围的描述应被认为已经具体公开了所有可能的子范围以及该范围内的单个数值。例如,诸如1-6的范围的描述应被认为已经具体公开了诸如1-3、1-4、1-5、2-4、2-6、3-6等子范围,以及该范围内的单个数值,例如1、2、3、4、5和6。无论范围的宽度如何,这均适用。除非另有说明,本文所述的本公开内容的系统和方法可使用分子生物学(包括重组技术)、细胞生物学、生物化学、微阵列和测序技术的常规技术和描述,这些技术和描述都在本领域技术人员的技能范围内。这样的常规技术包括聚合物阵列合成、寡核苷酸的杂交和连接、寡核苷酸的测序以及使用标记物检测杂交。可以参考本文的实例对合适的技术加以具体说明。然而,当然也可以使用等效的常规程序。这类常规技术和描述可以在标准实验室手册中找到,例如green等人编的genomeanalysis:alaboratorymanualseries(卷i-iv)(1999);weiner等人编的geneticvariation:alaboratorymanual(2007);dieffenbach,dveksler编的pcrprimer:alaboratorymanual(2003);bowtell和sambrook,dnamicroarrays:amolecularcloningmanual(2003);mount,bioinformatics:sequenceandgenomeanalysis(2004);sambrook和russell,condensedprotocolsfrommolecularcloning:alaboratorymanual(2006);以及sambrook和russell,molecularcloning:alaboratorymanual(2002)(均来自coldspringharborlaboratorypress);stryer,l.,biochemistry(第4版)w.h.freeman,n.y.(1995);gait,“oligonucleotidesynthesis:apracticalapproach”irlpress,london(1984);nelson和cox,lehninger,principlesofbiochemistry,第3版,w.h.freemanpub.,newyork(2000);以及berg等人,biochemistry,第5版,w.h.freemanpub.,newyork(2002),所有这些都通过引用整体并入本文用于所有目的。在描述本发明的组合物、研究工具和系统以及方法之前,应当理解,本公开内容不限于所描述的具体系统和方法、组合物、目标及用途,因为这些当然可以变化。还应当理解,本文使用的术语仅用于描述特定方面的目的,并非非旨在限制本公开内容的范围,本公开内容的范围将仅由所附的权利要求所限制。术语“约”或“大约”是指由本领域普通技术人员所确定的特定值的可接受的误差范围,这将部分地取决于该值是如何测量或确定的,即测量系统的限制。例如,根据本领域的实践,“约”可意味着在1个或大于1个标准偏差内。或者,“约”可意味着给定值的最多20%、最多10%、最多5%或最多1%的范围。或者,特别是关于生物系统或过程,该术语可以表示在值的一个数量级内,优选5倍以内,更优选2倍以内。在本申请和权利要求书中描述特定值的情况下,除非另有说明,否则应推定术语“约”意指在特定值的可接受误差范围内。术语“多核苷酸”、“核苷酸”、“核苷酸序列”、“核酸”以及“寡核苷酸”可互换使用。它们是指任何长度的核苷酸(脱氧核糖核苷酸或核糖核苷酸)的聚合形式,或其类似物。多核苷酸可以具有任何三维结构,并且可以行使已知或未知的任何功能。以下是多核苷酸的非限制性实例:基因或基因片段的编码区或非编码区、从连锁分析定义的基因座(多个基因座)、外显子、内含子、信使rna(mrna)、转移rna(trna)、核糖体rna(rrna)、短干扰rna(sirna)、短发夹rna(shrna)、微rna(mirna)、核酶、cdna、重组多核苷酸、支链多核苷酸、质粒、载体、任何序列的分离dna、任何序列的分离rna、核酸探针以及引物。多核苷酸可以包含一个或多个修饰的核苷酸,诸如甲基化核苷酸和核苷酸类似物。如果存在,则可以在聚合物组装之前或之后进行核苷酸结构的修饰。核苷酸序列可以被非核苷酸组分所中断。聚合后可以进一步修饰多核苷酸,诸如通过与标记组分缀合。“互补性”是指核酸通过传统的watson-crick或其他非传统类型与另一种核酸序列形成氢键的能力。互补性百分比表示可以与第二核酸序列形成氢键(例如,watson-crick碱基配对)的核酸分子中的残基的百分比(例如,10个中的5、6、7、8、9、10个分别为50%、60%、70%、80%、90%和100%互补)。“完全互补”是指核酸序列的所有连续残基将与第二核酸序列中相同数目的连续残基氢键键合。本文所用的“基本互补”是指在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸的区域中至少60%、65%、70%、75%、80%、85%、90%、95%、97%、98%、99%或100%的互补性程度,或指在严格条件下杂交的两种核酸。例如为了评估互补性百分比,序列同一性可以通过任何合适的比对算法来测量,包括但不限于needleman-wunsch算法(参见例如可以在www.ebi.ac.uk/tools/psa/emboss_needle/nucleotide.html获得的embossneedle比对器(aligner),任选利用默认设置)、blast算法(参见例如可以在blast.ncbi.nlm.nih.gov/blast.cgi获得的blast比对工具,任选利用默认设置)或smith-waterman算法(参见例如可以在www.ebi.ac.uk/tools/psa/emboss_water/nucleotide.html获得的embosswater比对器,任选利用默认设置)。可以使用所选算法的任何合适的参数(包括默认参数)来评估最佳比对。如本文所用的,“表达”是指多核苷酸从dna模板转录(例如转录为mrna或其他rna转录物)的过程和/或转录的mrna随后被翻译成肽、多肽或蛋白质的过程。转录物和编码的多肽可以统称为“基因产物”。如果多核苷酸衍生自基因组dna,则表达可以包括真核细胞中mrna的剪接。受试者中的核苷酸序列或多肽序列适用的“差异表达”是指与对照中检测到的序列相比,该序列的过表达或欠表达。当与对照相比较时,欠表达也包括如由在测试受试者中可检测的表达缺乏所证实的特定序列表达的缺乏。术语“多肽”、“肽”和“蛋白质”在本文中可互换使用,以指任何长度的氨基酸的聚合物。聚合物可以是直链或支链的,其可以包含修饰的氨基酸,并且它可以被非氨基酸中断。该术语还包括已被修饰的氨基酸聚合物;例如二硫键形成、糖基化、脂化、乙酰化、磷酸化或任何其他操作,例如与标记组分的缀合。如本文所用的,术语“氨基酸”包括天然和/或非天然或合成氨基酸,包括甘氨酸和d或l光学异构体二者,以及氨基酸类似物和拟肽。“对照”是在实验中用于比较目的的备选受试者或样品。术语“受试者”、“个体”和“患者”在本文中可互换使用,以指脊椎动物,优选哺乳动物,更优选人。哺乳动物包括但不限于鼠、猿类、人、家畜、竞技动物和宠物。还包括体内获得的或体外培养的生物实体的组织、细胞以及它们的后代。术语“确定”、“测量”、“评估”、“评价”、“测定”和“分析”可在本文中互换使用,以指任何形式的测量,并且包括确定元素是否存在(例如检测)。这些术语可包括定量和/或定性测定。评价可以是相对的或绝对的。“检测存在”可以包括确定存在的某物的量,以及确定其存在或不存在。术语特异性或真阴性率可以指某试验正确地排除状况的能力。例如,在分类算法中,算法的特异性可以指已知并非来自给定分类箱元中的生物体的读取的比例,这些读取将不会置于该分类箱元中。在一些情况下,这通过确定真阴性(并非来自分类箱元的、未置于该箱元中的读取)与并非来自该分类箱元内的生物体的读取总数(未置于给定生物分类箱元中并且并非来源于该分类箱元内的生物体的读取与置于该分类箱元中且并非来源于该分类箱元内的生物体的读取的总和)的比例来计算。术语灵敏度或真阳性率可以指某试验正确地鉴定状况的能力。例如,在分类算法中,试验的灵敏度可以指已知来自给定分类箱元中的生物体的读取的比例,这些读取将置于该分类箱元中。在一些情况下,这通过确定真阳性(来自分类箱元的、置于该箱元中的读取)与来自该分类箱元内的生物体的读取总数(置于给定分类箱元中并且来源于该分类箱元内的生物体的读取与未置于该分类箱元中且来源于该分类箱元内的生物体的读取的总和)的比例来计算。灵敏度与特异性之间的定量关系可以随着选择不同的分类截止值而改变。可以使用roc曲线来表示该变化。roc曲线的x轴显示测定的假阳性率,其可以计算为(1-特异性)。roc曲线的y轴报告测定的灵敏度。这允许确定对于给定的特异性,测定的灵敏度,反之亦然。如本文所使用的,术语“衔接子(adaptor)”或“衔接物(adapter)”可互换使用,并且可以指可附接于核酸末端的寡核苷酸。衔接子序列可以包含例如引发位点、引发位点的互补体、核酸内切酶的识别位点、共同序列和启动子。衔接子还可以引入改变衔接子序列的特性的修饰核苷酸。例如,可以将硫代磷酸酯基团引入到一个衔接子链中。术语“分类单元”(复数为“分类单元”)、“分类群”和“分类单位”可互换使用,是指包含聚簇树中的节点的一组一个或多个生物体。簇的水平由其层级顺序决定。在一个实施方案中,分类单元是暂时假定为用于系统发育分析目的的有效分类单元的组。在另一个实施方案中,分类单元是正在研究的任何现有分类单位。在另一个实施方案中,分类单元被赋予名称和等级。例如,分类单元可以代表域、亚域、界、亚界、门、亚门、纲、亚纲、目、亚目、科、亚科、属、亚属或种。在一些实施方案中,分类单元可以以任何层级顺序水平代表来自真细菌、原生生物或真菌界的一种或多种生物体。通常,“序列同一性”分别指两个多核苷酸或多肽序列的核苷酸-核苷酸或氨基酸-氨基酸的确切对应关系。通常,用于确定序列同一性的技术包括确定多核苷酸的核苷酸序列和/或确定由此编码的氨基酸序列,并将这些序列与第二核苷酸或氨基酸序列进行比较。可以通过确定其“同一性百分比”来比较两个或更多个序列(多核苷酸或氨基酸)。两个序列(无论是核酸还是氨基酸序列)的同一性百分比是两个比对序列之间的精确匹配数除以较短序列的长度并乘以100。例如也可以通过使用可从国立卫生研究院(nationalinstitutesofhealth)得到的包括2.2.9版本在内的先进blast计算机程序比较序列信息来确定同一性百分比。blast程序是基于karlin和altschul,proc.natl.acad.sci.usa87:2264-2268(1990)以及如altschul等人,j.mol.biol.215:403-410(1990);karlin和altschul,proc.natl.acad.sci.usa90:5873-5877(1993);以及altschul等人,nucleicacidsres.25:3389-3402(1997)讨论的比对方法。简而言之,blast程序将同一性定义为相同的比对标志(即核苷酸或氨基酸)的数目除以两个序列中较短者中的标志的总数。该程序可用于确定正在比较的蛋白质的全长上的同一性百分比。提供默认参数,以便优化例如通过blastp程序采用短查询序列的搜索。该程序还允许使用seg过滤器来屏蔽由wootton和federhen,computersandchemistry17:149-163(1993)的seg程序确定的查询序列段。序列同一性的所需程度的范围约为80%-100%,以及其间的整数值。一般来说,准确匹配表示在所比较的最短序列的长度上(或在两个序列的长度上,如果相同)的100%同一性。在一方面,本发明提供了一种鉴定样品源中的多个多核苷酸的方法。在一些实施方案中,所述方法包括提供来自样品的多个多核苷酸的测序读取,并且对每个测序读取:(a)利用计算机系统执行所述测序读取与多个参考多核苷酸序列之间的序列比较,其中所述比较包括计算k-mer权重作为所述测序读取中的k-mer衍生自在所述多个参考多核苷酸序列内的参考序列的可能性的量度;(b)如果参考序列的k-mer权重之和高于阈值水平,则将测序读取鉴定为对应于参考序列数据库中的特定参考序列;以及(c)组装包含在步骤(b)中鉴定的参考序列的记录数据库,其中所述记录数据库排除未与测序读取相对应的参考序列。在另一方面,本公开内容提供了一种鉴定来自样品源的样品中的一个或多个分类单元的方法。在一些实施方案中,所述方法包括(a)提供来自样品的多个多核苷酸的测序读取,并且对每个测序读取:(i)利用计算机系统执行所述测序读取与多个参考多核苷酸序列之间的序列比较,其中所述比较包括计算k-mer权重作为所述测序读取中的k-mer衍生自在所述多个参考多核苷酸序列内的参考序列的可能性的量度;以及(ii)基于该k-mer权重计算所述测序读取对应于参考序列数据库中的特定参考序列的概率,由此产生序列概率;(b)基于与代表一个或多个分类单元的序列相对应的序列概率来计算所述一个或多个分类单元的存在或不存在的评分;以及(c)基于相应的评分,将所述一个或多个分类单元鉴定为在样品中存在或不存在。在一些情况下,基于序列中的一个或多个核苷酸差异,所述一个或多个分类单元包含被鉴定为存在的第一细菌菌株和被鉴定为不存在的第二细菌菌株。在一些情况下,根据序列中的单核苷酸差异,将所述第一细菌菌株鉴定为存在并且将所述第二细菌菌株鉴定为不存在。通常,测序读取(也称为“读取”或“查询序列”)是指核酸分子中核苷酸碱基的推断序列。测序读取可以是任何合适的长度,例如约或大于约20nt、30nt、36nt、40nt、50nt、75nt、100nt、150nt、200nt、250nt、300nt、400nt、500nt或更长的长度。在一些实施方案中,测序读取的长度小于200nt、150nt、100nt、75nt或更小。测序读取可以“配对”,这意味着它们来源于核酸片段的不同末端。配对读取可以具有中间未知序列或重叠。在一些情况下,测序读取是从单独的重叠读取组装的叠连群或共有序列。可以在组分k-mer方面来分析测序读取。通常,“k-mer”是指构成测序读取的给定长度k的子序列。例如,序列“agctct”可以被分为3-nt子序列“agc”、“gct”、“ctc”和“tct”。在该示例中,这些子序列中的每一个是k-mer,其中k=3。k-mer可以是重叠的或非重叠的。序列比较可以包括一个或多个比较步骤,其中测序读取的一个或多个k-mer与一个或多个参考序列(也简称为“参考”)的k-mer进行比较。在一些实施方案中,k-mer的长度约为或大于约3nt、4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、25nt、30nt、35nt、40nt、45nt、50nt、75nt、100nt或更长。在一些实施方案中,k-mer的长度约为或小于约30nt、25nt、20nt、15nt、10nt或更小。k-mer的长度可以在3nt至13nt、5nt至25nt、7nt至99nt或3nt至99nt的范围内。在每个步骤分析的k-mer的长度可以变化。例如,第一比较可以比较测序读取中和参考序列中长度为21nt的k-mer,而第二比较可以比较测序读取中和参考序列中长度为7nt的k-mer。对于比较步骤中的任何给定的序列,所分析的k-mer可以是重叠的(诸如在滑动窗口中),并且可以具有相同或不同的长度。虽然在本文中k-mer通常被称为核酸序列,但是序列比较还包括多肽序列的比较,包括由氨基酸组成的k-mer的比较。参考序列包括与测序读取比较的任何序列。通常,参考序列与一些已知特征相关联,这些特征例如是样品源的状况、分类群、特定物种、表达谱、特定基因、相关表型(如可能的疾病进展)、耐药性或致病性、增加或减少的疾病倾向或其他特征。通常,参考序列是数据库中许多这样的参考序列之一。包含各种类型的参考序列的各种数据库是可用的,其中一个或多个数据库可单独地或以各种组合充当参考数据库。数据库可包含许多物种和序列类型,如nr、uniprot、swissprot、trembl或uniref90。数据库可以包含来自多个物种的特定种类的序列,例如用于物种如细菌的分类学分类的那些序列。这类数据库可以是16s数据库,诸如greengenes数据库、unite数据库或silva数据库。除16s之外的标志物基因可用作鉴定微生物(例如细菌)的参考序列,例如代谢基因,编码结构蛋白质——控制生长、细胞周期或生殖调节的蛋白质的基因,管家基因或编码毒力、毒素或其他致病因子的基因。标志物基因的具体实例包括但不限于18srdna、23srdna、gyra、gyrb基因、groel、rpob基因、fusa基因、reca基因、soda、coxl基因和nifd基因。参考数据库可以包括内部转录序列(its)数据库,例如unite、itsonedb或its2。数据库可以包含来自单一物种的多重序列,例如人基因组、人转录物组、模型生物体如小鼠基因组、酵母转录物组或秀丽线虫(c.elegans)蛋白质组,或疾病载体如蝙蝠、蜱或蚊子以及其他驯化动物和野生动物。在一些实施方案中,参考数据库包含人转录物的序列。数据库中的参考序列可以包括dna序列、rna序列或蛋白质序列。数据库中的参考序列可以包括来自多个分类单元的序列。在一些情况下,该参考序列来自参考个体或参考样品源。参考个体基因组的实例是例如母本基因组、父本基因组或非癌组织样品的基因组。参考个体或样品源的实例是人基因组、小鼠基因组或特定血清变型、基因变型(genovars)、菌株、变体或其他表征类型的细菌、古菌、病毒、噬菌体、真菌和寄生虫的基因组。该数据库可以包含含有与已知多核苷酸序列有比的一个或多个突变的多态性参考序列。这类多态性参考序列可以是在群体中发现的不同等位基因,诸如snp、插入缺失、微缺失、微扩展(microexpansions)、常见重排、遗传重组或前噬菌体插入位点,并且可以包含关于其与非多态性序列相比的相对丰度的信息。也可以诸如通过改变参考基因组中的一个或多个(包括全部)位置从数据库的参考序列人工地产生多态性参考序列,使得表现出未在实际参考数据库中的多个可能的突变以供比较。参考序列数据库可以包含包括但不限于细菌、古菌、囊泡藻、病毒、真菌、植物、鱼类、两栖动物、爬行动物、鸟类、哺乳动物和人类的多种不同分类群中的一个或多个的参考序列。在一些情况下,参考序列数据库由来自一个或多个参考个体或参考样品源(例如10、100、1000、10000、100000、1000000个或更多)的序列组成,并且该数据库中的每个参考序列与其相应的个体或样品源相关联。在一些实施方案中,可以基于序列比较将未知样品鉴定为源自参考数据库中表示的个体或样品源。在一些实施方案中,参考序列数据库中的每个参考序列在比较之前与k-mer权重相关联,该k-mer权重为在参考序列内的k-mer来源于该参考序列的可能性的量度。或者,参考序列数据库可包含来自多个分类单元的序列,并且该参考序列数据库中的每个参考序列与k-mer权重相关联,该k-mer权重为所述参考序列中的k-mer源于所述多个分类单元中的分类单元的可能性的量度。计算k-mer权重可以包括例如通过本文所述的方法将数据库中的参考序列与数据库中的其他参考序列相比较。因此,与数据库中的序列或分类单元相关联的k-mer值随后可用于确定针对测序读取内的k-mer的k-mer权重。通常,将读取中的k-mer与参考序列进行比较包括计算两者之间的k-mer匹配。确定匹配的严格性可以变化。例如,匹配可以是精确匹配,其中来自所述读取的k-mer的核苷酸序列与来自参考的k-mer的核苷酸序列相同。或者,匹配可以是不完全匹配,其中允许1、2、3、4、5、10个或更多的错配。除了匹配计数之外,还可以计算出可能性(也称为“k-mer权重”或“kw”)。在一些实施方案中,所述k-mer权重涉及特定参考序列内的特定k-mer的计数、在包含所述参考序列的序列组之间的特定k-mer的计数以及在参考序列数据库中的所有参考序列之间的特定k-mer的计数。在一个实施方案中,根据以下公式计算k-mer权重,其如下计算k-mer权重作为特定k-mer(ki)来自参考序列(refi)的可能性的量度:c表示得出(return)ki计数的函数。cref(ki)表示特定参考中的ki计数。cdb(ki)表示数据库中的ki计数。此权重提供了k-mer源自特定参考的可能性的相对的、数据库特异性的量度。在将测序读取与参考序列数据库比较之前,可以针对数据库中的每个k-mer和参考序列来计算k-mer权重(或k-mer源自给定参考序列的可能性的量度)。在一些情况下,当参考数据库包含来自多个分类单元的序列时,每个参考序列可以与参考序列中的k-mer源自多个分类单元中的分类单元的可能性量度或k-mer权重相关联。作为一个非限制性实例,参考数据库可以包含来自多个犬物种的序列,并且可以通过将所有犬科序列中给定k-mer的计数与其在包括其他分类单元的整个数据库中的计数相关联来计算k-mer权重。在一些实例中,通过在上述公式中定义cref(ki)作为得出特定分类单元中的ki总计数的函数来计算衡量k-mer源自特定分类单元的可能性的k-mer权重。对于每一个参考序列,可以添加针对测序读取内的多个k-mer的参考数据库衍生权重并将其与阈值进行比较。该阈值可以针对数据库中参考序列的集合是特异性的,并且可以根据诸如平均读取长度、特定序列或来源生物体是否将被鉴定为存在于样品中等多种因素来选择。如果参考序列的k-mer权重之和高于阈值水平,则可以将测序读取鉴定为对应于该参考序列,以及任选地,与参考序列相关联的生物体或分类群。在一些情况下,将所述读取分配给具有k-mer权重的最大总和的参考序列,其可能需要或可能不需要高于阈值。在平分(tie)的情况下,如果如通过k-mer权重所测量的,测序读取具有属于超过一个参考序列的同等可能性,则可以考虑所述读取沿系统发育树的每个分支的总k-mer权重,将测序读取分配给分类学上最近共同祖先(lca)。通常,与参考序列、生物体或分类群的对应表示其存在于样品中。在一些方面,所述方法包括计算概率。在一些情况下,对于由多个多核苷酸产生的测序读取计算概率。在一些情况下,所述概率为测序读取基于k-mer权重对应于参考序列数据库中的特定参考序列的概率(或可能性)。可以为每个测序读取计算概率,从而产生多个序列概率。在一些情况下,样品中一个或多个分类单元的存在或不存在可基于序列概率来确定。例如,所述概率可将第一细菌菌株鉴定为存在于样品中,并且将第二细菌菌株鉴定为不存在于样品中。在一些情况下,概率表示为百分比(%)或分数。在一些情况下,将概率提供为表示概率的评分。只要所述评分表示概率(例如,单个序列对应于特定参考序列的概率,或特定分类单元存在于样品中的概率),则该评分可以基于任何任意比例。所述概率或代表概率的评分可用于确定样品中一个或多个分类单元的存在或不存在。例如,高于阈值的概率或评分可以表示存在,以及/或者低于阈值的概率或评分可以表示不存在。在一些实施方案中,存在或不存在被报告为概率而不是绝对判定。本文提供了计算这类概率的示例方法。通常,本文关于存在或不存在所描述的实施方案同样包括计算这种存在或不存在的概率或评分。本文所述的方法的结果通常将被组装在记录数据库中。在一些实施方案中,所述记录数据库包含被鉴定为存在于样品中的参考序列,并排除未发现与测序读取相对应的参考序列,例如根据与高于设定阈值水平的测序读取不能匹配。用于产生序列记录数据库并将测序读取与数据库进行比较的软件例程可以在计算机上运行。可以在接收到数据后自动执行比较。可以响应于用户请求来执行比较。用户请求可以指定哪个参考数据库与样品进行比较。计算机可包含一个或多个处理器。处理器可以与计算机系统的一个或多个控制器、计算单元和/或其他单元相关联,或者根据需要植入到固件中。如果植入到软件中,则例程可以存储在任何计算机可读存储器如ram、rom、闪速存储器、磁盘、光盘或其他存储介质中。记录数据库、测序读取或汇总数据库构建或序列读取比较结果的报告也可以存储在任何合适的介质如ram、rom、闪速存储器、磁盘、光盘或其他存储介质中。同样地,记录数据库、测序读取或汇总数据库构建或序列读取比较结果的报告也可以通过任何已知的传送方法传送到计算设备中,该传送方法包括,例如,通过诸如电话线、因特网、无线连接等通信信道,或经由可移动介质,诸如计算机可读磁盘、闪存驱动器等。可以使用任何合适的通信介质将数据库、测序读取或报告传送给在本地或远程位置的用户。例如,所述通信介质可以是网络连接、无线连接或因特网连接。数据库或报告可以通过这样的网络或连接(或用于传输信息的任何其他合适的手段,包括但不限于邮寄数据库汇总,例如打印输出)进行传输,以供用户接收和/或审阅。接收者可以是但不限于客户、个体、医疗保健提供者、医疗保健管理者或电子系统(例如一个或多个计算机和/或一个或多个服务器)。在一些实施方案中,数据库或报告生成器将报告发送到接收者的设备,诸如个人计算机、电话、平板电脑或其他设备。数据库或报告可以在线查看、保存在接收者的设备上或打印。传送的测序读取与数据库的比较可以在上传所有读取之后进行。传送的测序读取与数据库的比较可以在测序读取上传过程中开始。可以针对多个测序读取中的每一个并行执行本文所述方法的一个或多个步骤。例如,所述多个测序读取中的每个测序读取可以并行经历测序读取与多个参考多核苷酸序列(例如,来自多个不同分类单元和/或多个不同参考数据库的参考多核苷酸序列)之间的第一序列比较。并行比较不同于某些步进式比较过程,因为在第一参考数据库中具有据称匹配的测序读取不会从用于随后与第二参考数据库进行比较的序列的查询集中减除。在这样的步进式过程中,在与包含更准确的匹配(例如正确的序列)的参考数据库进行比较之前,在第一数据库中具有据称匹配的序列可能被错误地鉴定。相反,通过与对应于多个不同分类单元的多个不同参考序列进行比较,可以在以更高的特异性鉴定测序读取所对应的序列或分类单元之前将每个序列分配给最佳的第一分类类别。例如,在鉴定与测序读取相对应的特定基因、细菌物种或真菌物种之前,可以先将测序读取分类为对应于人类序列、细菌序列或真菌序列。在一些情况下,此过程被称为“分箱”。并行序列比较可包括比较来自两个或多个不同分类群例如3、4、5、6个或更多个不同分类群的序列。在一些实施方案中,所述不同分类群可选自以下两种或更多种:细菌、古菌、囊泡藻、病毒、真菌、植物、鱼类、两栖动物、爬行动物、鸟类、哺乳动物和人类。在一些实施方案中,方法可以进一步包括定量与较早步骤中鉴定的参考序列相对应的多核苷酸的量。定量可以基于所鉴定的相应测序读取的数目。这可以包括用读取总数、与序列相关联的读取的总数、参考序列的长度或其组合对计数进行归一化。这种归一化的实例包括fpkm和rpkm,但也可以包括考虑不同样品中读取的相对量的其他方法,如通过每个序列所观察到的计数的比率中值来对来自样品的测序读取进行归一化。样品之间的量差异可以指示两个样品之间的差异。定量可用于鉴定受试者之间的差异,如比较不同饮食的受试者的微生物区中存在的分类单元,或观察同一受试者随时间的变化,如观察在特定的饮食之前或之后受试者的微生物区中存在的分类单元。在一些实施方案中,方法可以包括基于较早步骤的结果来确定样品内特定分类单元或核苷酸多态性的存在、不存在或丰度。在这种情况下,多个参考多核苷酸序列通常包含对应于多个分类单元中的单个分类单元的序列组。在一些情况下,基于通过本文所述的方法分析的序列,至少50、100、250、500、1000、5000、10000、50000、100000、250000、500000或1000000个不同的分类单元被鉴定为不存在或存在(以及任选地,丰度,其可以是相对的)。在一些情况下,并行执行此分析。在一些实施方案中,当鉴定的分类单元占来源样品中分类单元总群体的少于1/109或1/106或0.05%时,本公开内容所述的方法、组合物和系统使得能够并行检测分类单元群体(如环境或临床样品)中分类单元的存在或不存在。在一些情况下,检测是基于对应于以小于总核酸群体的0.01%而存在的多核苷酸的测序读取。特定多核苷酸可以至少20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%或97%同源于该群体中的其他核酸。在一些情况下,特定多核苷酸小于75%、50%、40%、30%、20%或10%同源于该群体中的其他核酸。确定特定分类单元的存在、不存在或丰度可以包括将个体受试者鉴定为样品源。例如,参考数据库可以包含多个参考序列,每个参考序列对应于单个生物体(例如人类受试者),在参考序列中呈现有来自多个不同受试者的序列。然后可以将未知样品的测序读取与参考数据库的序列进行比较,并且基于根据所描述的方法来鉴定该测序读取,可以将参考数据库中表示的个体鉴定为该测序读取的样品源。在这样的情况下,参考数据库可以包含来自至少102、103、104、105、106、107、108、109或更多个个体的序列。在一些情况下,测序读取在特定分类群水平(例如物种水平)上或任何分类水平上与参考序列不存在匹配。当未见匹配时,可以根据已知特征将相应的序列添加至参考数据库。在一些情况下,当序列被鉴定为属于多个分类单元中的特定分类单元,并且其不存在于与该分类单元相对应的序列组中时,将其添加至与该分类单元相对应的序列组中以用于之后的序列比较。例如,如果细菌基因组被鉴定为属于特定分类单元,如属或科,但是该基因组包含与该分类单元相关的序列中不存在的序列,则可将该细菌基因组添加到序列数据库中。同样地,如果样品来自特定的来源或状况,则可以将测序读取添加至与该来源或状况相关联的序列的参考数据库中,以用于鉴定共享相同来源或状况的未来样品。作为另一实例,根据本文所述的方法鉴定的在较低水平上不存在匹配但在较高水平上存在匹配的序列可以被分配给该较高水平,同时还将该测序读取添加至与该分类群相对应的多个参考序列中。如此更新的参考数据库可用于之后的序列比较。在确定多个分类单元中分类单元(或多个多态性中的多态性)的存在、不存在或丰度时,两个可能的分类单元可能在分配特定的测序读取时平分。在这类情况下,可以解决所述平分。在一个实例中,通过沿连接分类单元的系统发育树的每个分支确定参考序列的k-mer权重之和来解决此平分。然后可以将测序读取分配给与具有k-mer权重的最大总和的分支连接的节点。参考数据库可以由与一个或多个状况相关联的序列(以及任选地,序列的丰度水平)组成。多个状况可以由参考数据库中的一个或多个序列表示,例如10、50、100、1000、10000、100000、1000000个或更多个状况。例如,参考数据库可以由数千组序列组成,每组序列与不同的细菌污染物相关联,使得可以根据本公开内容的方法通过序列比较来检测任何所示细菌对样品的污染。状况可以是样品或衍生出样品的来源的任何特征。例如,参考数据库可以由与微生物污染、衍生出样品的受试者的感染或宿主对病原体的反应相关的一组基因组成。其他状况包括但不限于污染(例如环境污染、表面污染、食品污染、空气污染、水污染、细胞培养物污染)、刺激反应(例如药物反应者或无反应者、变态反应、治疗反应)、感染(例如细菌感染、真菌感染、病毒感染)、疾病状态(例如疾病的存在、疾病的恶化、疾病的恢复)以及健康状态。在参考数据库由与感染性疾病或污染相关的序列组成的情况下,该序列可以衍生自任何多种感染原并与之相关联。所述感染原可以为细菌。细菌性病原体的非限制性实例包括分枝杆菌(例如结核分枝杆菌(m.tuberculosis)、牛分枝杆菌(m.bovis)、鸟分枝杆菌(m.avium)、麻风分枝杆菌(m.leprae)和非洲分枝杆菌(m.africanum))、立克次体、支原体、衣原体和军团菌。细菌感染的其他实例包括但不限于由以下细菌引起的感染:革兰氏阳性杆菌(例如李斯特菌属、芽孢杆菌属如炭疽杆菌(bacillusanthracis)、丹毒丝菌属(erysipelothrix)的种)、革兰氏阴性杆菌(例如巴尔通氏体属、布鲁氏菌属、弯曲菌属、肠杆菌属、埃希氏杆菌属、弗朗西斯氏菌属、嗜血杆菌属、克雷伯氏菌属、摩根氏菌属、变形杆菌属、普罗威登斯菌属、假单胞菌属、沙门氏菌属、沙雷氏菌属、志贺氏菌属、弧菌属和耶尔森菌属的种)、螺旋体细菌(例如,疏螺旋体属的种,包括引起莱姆病的伯氏疏螺旋体(borreliaburgdorferi))、厌氧细菌(例如放线菌属和梭菌属的种)、革兰氏阳性和阴性球菌、肠球菌属的种、链球菌属的种、肺炎球菌属的种、葡萄球菌属的种和奈瑟氏菌属的种。感染性细菌的具体实例包括但不限于:幽门螺杆菌(helicobacterpyloris)、嗜肺军团菌(legionellapneumophilia)、结核分枝杆菌、鸟分枝杆菌、胞内分枝杆菌(m.intracellulare)、堪萨斯分枝杆菌(m.kansaii)、戈登分枝杆菌(m.gordonae)、金黄色葡萄球菌(staphylococcusaureus)、淋病奈瑟氏菌(neisseriagonorrhoeae)、脑膜炎奈瑟氏菌(neisseriameningitidis)、单核细胞增生李斯特菌(listeriamonocytogenes)、酿脓链球菌(streptococcuspyogenes)(a组链球菌)、无乳链球菌(streptococcusagalactiae)(b组链球菌)、草绿色链球菌(streptococcusviridans)、粪链球菌(streptococcusfaecalis)、牛链球菌(streptococcusbovis)、肺炎链球菌(streptococcuspneumoniae)、流感嗜血杆菌(haemophilusinfluenzae)、炭疽芽孢杆菌(bacillusantracis)、猪红斑丹毒丝菌(erysipelothrixrhusiopathiae)、破伤风梭菌(clostridiumtetani)、产气肠杆菌(enterobacteraerogenes)、肺炎克雷伯氏菌(klebsiellapneumoniae)、多杀巴斯德氏菌(pasturellamultocida)、具核梭杆菌(fusobacteriumnucleatum)、念珠状链杆菌(streptobacillusmoniliformis)、苍白密螺旋体(treponemapallidium)、极细密螺旋体(treponemapertenue)、钩端螺旋体属(leptospira)、立克次体和衣氏放线菌(actinomycesisraelii)、不动杆菌属(acinetobacter)、芽孢杆菌属、鲍特氏菌属(bordetella)、疏螺旋体属、布鲁氏菌属、弯曲菌属、衣原体属、嗜衣原体属、梭菌属、棒状杆菌属、肠球菌属、嗜血杆菌属、螺杆菌属、分枝杆菌属、支原体属、寡养单胞菌属(stenotrophomonas)、密螺旋体(treponema)、弧菌属(vibrio)、耶尔森氏菌属(yersinia)、鲍氏不动杆菌(acinetobacterbaumanii)、百日咳博德特氏菌(bordetellapertussis)、流产布鲁氏菌(brucellaabortus)、犬布鲁氏菌(brucellacanis)、羊布鲁氏菌(brucellamelitensis)、猪布鲁氏菌(brucellasuis)、空肠弯曲杆菌(campylobacterjejuni)、肺炎衣原体(chlamydiapneumoniae)、沙眼衣原体(chlamydiatrachomatis)、鹦鹉热衣原体(chlamydophilapsittaci)、肉毒梭菌(clostridiumbotulinum)、艰难梭菌(clostridiumdifficile)、产气荚膜梭菌(clostridiumperfringens)、白喉杆菌(corynebacteriumdiphtheriae)、阪崎肠杆菌(enterobactersazakii)、聚团肠杆菌(enterobacteragglomerans)、阴沟肠杆菌(enterobactercloacae)、粪肠球菌(enterococcusfaecalis)、屎肠球菌(enterococcusfaecium)、大肠杆菌(escherichiacoli)、土拉弗朗西斯菌(francisellatularensis)、幽门螺杆菌(helicobacterpylori)、嗜肺军团菌(legionellapneumophila)、问号钩端螺旋体(leptospirainterrogans)、麻风分枝杆菌、结核分枝杆菌、溃疡分枝杆菌(mycobacteriumulcerans)、肺炎支原体(mycoplasmapneumoniae)、铜绿假单胞菌(pseudomonasaeruginosa)、立氏立克次体(rickettsiarickettsii)、伤寒沙门氏菌(salmonellatyphi)、鼠伤寒沙门氏菌(salmonellatyphimurium)、肠炎沙门氏菌(salmonellaenterica)、宋内志贺氏菌(shigellasonnei)、表皮葡萄球菌(staphylococcusepidermidis)、腐生葡萄球菌(staphylococcussaprophyticus)、嗜麦芽寡养单胞菌(stenotrophomonasmaltophilia)、霍乱弧菌(vibriocholerae)、鼠疫耶尔森氏菌(yersiniapestis)等。参考数据库中的序列可以与病毒感染原相关联。病毒病原体的非限制性实例包括疱疹病毒{例如人巨细胞病毒(hcmv)、单纯疱疹病毒1(hsv-1)、单纯疱疹病毒2(hsv-2)、水痘带状疱疹病毒(vzv)、eb病毒}、甲型流感病毒和丙型肝炎病毒(hcv)(参见munger等人,naturebiotechnology(2008)26:1179-1186;syed等人,trendsinendocrinologyandmetabolism(2009)21:33-40;sakamoto等人,naturechemicalbiology(2005)1:333-337;yang等人,hepatology(2008)48:1396-1403)或小核糖核酸病毒,如柯萨奇病毒b3(cvb3)(参见rassmann等人,anti-viralresearch(2007)76:150-158)。其他示例性病毒包括但不限于乙型肝炎病毒、hiv、痘病毒、嗜肝dna病毒(hepadavirus)、逆转录病毒,以及rna病毒如黄病毒、披膜病毒、冠状病毒、丁型肝炎病毒、正粘病毒、副粘病毒、弹状病毒、布尼亚病毒、线状病毒、腺病毒、8型人疱疹病毒、人乳头状瘤病毒、bk病毒、jc病毒、天花、乙型肝炎病毒、人博卡病毒、细小病毒b19、人星状病毒、诺瓦克病毒、柯萨奇病毒、甲型肝炎病毒、脊髓灰质炎病毒、鼻病毒、严重急性呼吸综合征病毒、丙型肝炎病毒、黄热病病毒、登革病毒、西尼罗病毒、风疹病毒、戊型肝炎病毒和人免疫缺陷病毒(hiv)。在某些实施方案中,所述病毒为包膜病毒。实例包括但不限于为嗜肝dna病毒科、疱疹病毒科、虹色病毒科、痘病毒科、黄病毒科、披膜病毒科、逆转录病毒科、冠状病毒科、线状病毒科、弹状病毒科、布尼亚病毒科、正粘病毒科、副粘病毒科和沙粒病毒科的成员的病毒。其他实例包括但不限于嗜肝dna病毒、乙型肝炎病毒(hbv)、土拨鼠肝炎病毒、地松鼠(嗜肝dna病毒)肝炎病毒、鸭乙型肝炎病毒、苍鹭乙型肝炎病毒、疱疹病毒单纯疱疹病毒(hsv)1型和2型、水痘带状疱疹病毒、巨细胞病毒(cmv)、人巨细胞病毒(hcmv)、小鼠巨细胞病毒(mcmv)、豚鼠巨细胞病毒(gpcmv)、eb病毒(ebv)、人疱疹病毒6型(hhv变体a和b)、人疱疹病毒7型(hhv-7)、人疱疹病毒8型(hhv-8)、卡波西肉瘤相关疱疹病毒(kshv)、b病毒痘病毒痘苗病毒、类天花病毒(variolavirus)、天花病毒(smallpoxvirus)、猴痘病毒、牛痘病毒、骆驼痘病毒、鼠痘病毒、小鼠痘病毒、兔痘病毒、浣熊痘病毒、传染性软疣病毒、羊口疮病毒、挤奶人结节病毒、牛丘疹性口炎病毒、绵羊痘病毒、山羊痘病毒、结节性皮肤病病毒、禽痘病毒、金丝雀痘病毒、鸽痘病毒、麻雀痘病毒、粘液瘤病毒、野兔纤维瘤病毒、兔纤维瘤病毒、松鼠纤维瘤病毒、猪痘病毒、特纳河痘病毒、亚巴痘病毒、黄病毒登革病毒、丙型肝炎病毒(hcv)、gb肝炎病毒(gbv-a、gbv-b和gbv-c)、西尼罗病毒、黄热病毒、圣路易斯脑炎病毒、日本脑炎病毒、波瓦桑病毒、蜱传脑炎病毒、基萨诺尔森林病病毒、披膜病毒、委内瑞拉马脑炎(vee)病毒、基孔肯雅病毒、罗斯河病毒、马亚罗病毒、辛德毕斯病毒、风疹病毒、1型和2型逆转录病毒人免疫缺陷病毒(hiv)、1型、2型和5型人t细胞白血病病毒(htlv)、小鼠乳腺肿瘤病毒(mmtv)、劳斯肉瘤病毒(rsv)、慢病毒、冠状病毒、严重急性呼吸综合征(sars)病毒、线状病毒埃博拉病毒、马尔堡病毒、偏肺病毒(mpv)如人偏肺病毒(hmpv)、弹状病毒狂犬病病毒、水疱性口炎病毒、布尼亚病毒、克里米亚-刚果出血热病毒、裂谷热病毒、拉克罗斯病毒、汉坦病毒、正粘病毒、流感病毒(a、b和c型)、副粘病毒、副流感病毒(1、2和3型piv)、呼吸道合胞病毒(a型和b型)、麻疹病毒、腮腺炎病毒、沙粒病毒、淋巴细胞性脉络丛脑膜炎病毒、胡宁病毒、马丘波病毒、瓜纳瑞托病毒、拉沙病毒、ampari病毒、flexal病毒、伊派病毒、mobala病毒、mopeia病毒、拉丁美洲病毒、巴拉那病毒、pichinde病毒、puntatoro病毒(ptv)、塔卡里伯病毒和塔米亚病毒。在一些实施方案中,所述病毒是非包膜病毒,其实例包括但不限于是细小病毒科、环状病毒科、多瘤病毒科、乳头瘤病毒科、腺病毒科、虹色病毒科、呼肠孤病毒科、双rna病毒科、杯状病毒科和小核糖核酸病毒科的成员的病毒。具体实例包括但不限于犬细小病毒、细小病毒b19、1型和2型猪圆环病毒、bfdv(喙羽病病毒、鸡贫血病毒、多瘤病毒、猿猴病毒40(sv40)、jc病毒、bk病毒、鹦鹉幼雏病病毒、人乳头瘤病毒、1型牛乳头瘤病毒(bpv)、棉尾兔乳头瘤病毒、人腺病毒(hadv-a、hadv-b、hadv-c、hadv-d、hadv-e和hadv-f)、家禽腺病毒a、牛腺病毒d、青蛙腺病毒、呼肠孤病毒、人环状病毒、人科蜱病毒、哺乳动物正呼肠孤病毒、蓝舌病毒、轮状病毒a、轮状病毒(b组至g组)、科罗拉多蜱传热病毒、水生呼肠孤病毒a、质型多角体病毒1、斐济病病毒、水稻矮缩病毒、水稻齿叶矮缩病毒、虫源呼肠孤病毒1、真菌呼肠狐病毒1、双rna病毒、法氏囊病病毒、胰腺坏死病毒、杯状病毒、猪水疱性疱疹病毒、兔出血病病毒、诺瓦克病毒、札幌病毒、小核糖核酸病毒、人脊髓灰质炎病毒(1-3)、人柯萨奇病毒al-22、24(cal-22和ca24、ca23(艾柯病毒9))、人柯萨奇病毒(b1-6(cb1-6))、人艾柯病毒1-7、9、11-27、29-33、vilyuish病毒、猿肠道病毒1-18(sev1-18)、猪肠道病毒1-11(pev1-11)、牛肠道病毒1-2(bev1-2)、甲型肝炎病毒、鼻病毒、肝病毒、心病毒、口蹄疫病毒和艾柯病毒。所述病毒可以是噬菌体。噬菌体的实例包括但不限于t4、t5、λ噬菌体、t7噬菌体、g4、p1、随着热变形菌(thermoproteustenax)病毒1、m13、ms2、qβ、φ29、pza、φ15、bs32、b103、m2y(m2)、nf、ga-1、fwlbc1、fwlbc2、fwllm3、b4。所述参考数据库可以包含致病性、保护性或两者兼具的噬菌体的序列。在一些情况下,所述病毒选自黄病毒科的成员(例如,黄病毒、瘟病毒和肝炎病毒属的成员),其包括丙型肝炎病毒、黄热病毒;蜱传病毒,如gadgetsgully病毒、卡达姆病毒、基萨诺尔森林病病毒、兰加特病毒、鄂木斯克出血热病毒、玻瓦桑病毒、罗亚尔农场病毒、卡西病毒、蜱传脑炎病毒、纽多佛病毒、sofjin病毒、羊跳跃病病毒和纳基许病毒;海鸟蜱传播的病毒,如米班病毒、索马里滋里夫病毒和为勒尼病毒;蚊媒病毒,如aroa病毒、登革病毒、凯多各病毒、卡西帕科利病毒、科坦戈病毒、日本脑炎病毒、墨累山谷脑炎病毒、圣路易斯脑炎病毒、乌苏土病毒、西尼罗病毒、雅温德病毒、科科贝拉病毒、巴格扎病毒、ilheus病毒,以色列土耳其脑膜脑脊髓炎(meningoencephalo-myelitis)病毒、恩塔亚病毒、坦布苏病毒、寨卡病毒、班奇病毒、博博衣病毒、埃杰山病毒、朱格拉病毒、萨博亚病毒、塞皮克病毒、乌干达s病毒、wesselsbron病毒、黄热病病毒;没有已知的节肢动物载体的病毒,如entebbe蝙蝠病毒、yokose病毒、apoi病毒、cowboneridge病毒、jutiapa病毒、modoc病毒、salvieja病毒、sanperlita病毒、bukalasa蝙蝠病毒、卡勒岛病毒、达喀尔蝙蝠病毒、蒙大拿鼠耳蝙蝠白细胞脑炎病毒、金边蝙蝠病毒、里约布拉沃病毒、塔玛纳蝙蝠病毒和细胞融合剂病毒。在一些情况下,所述病毒选自沙粒病毒科的成员,其包括伊派病毒、拉沙病毒(例如josiah、lp或ga391菌株)、淋巴细胞性脉络丛脑膜炎病毒(lcmv)、mobala病毒、mopeia病毒、阿马帕里病毒、flexal病毒、瓜纳瑞托病毒、胡宁病毒、拉丁美洲病毒、马丘波病毒、oliveros病毒、巴拉那病毒、pichinde病毒、pirital病毒、萨比亚病毒、塔卡里伯病毒、tamiami病毒、whitewaterarroyo病毒、chapare病毒和lujo病毒。在一些情况下,所述病毒选自布尼亚病毒科的成员(例如汉坦病毒属、内罗病毒属、正布尼亚病毒属和白蛉病毒属的成员),包括汉坦病毒、辛诺柏病毒、dugbe病毒、bunyamwera病毒、裂谷热病毒、lacrosse病毒、puntatoro病毒(ptv)、加利福尼亚脑炎病毒和克里米亚-刚果出血热病毒(cchf)。在一些情况下,所述病毒选自丝状病毒科的成员,其包括埃博拉病毒(例如扎伊尔、苏丹、象牙海岸、雷斯顿和乌干达菌株)和马尔堡病毒(例如安哥拉、ci67、莫索克、popp、ravn和维多利亚湖菌株);披膜病毒科的成员(例如甲病毒属的成员),其包括委内瑞拉马脑炎病毒(vee)、东方马脑炎病毒(eee)、西方马脑炎病毒(wee)、辛德毕斯病毒、风疹病毒、西门利克森林病毒、罗斯河病毒、barmah森林病毒、o'nyong'nyong病毒和基孔肯雅病毒;poxyiridae科的成员(例如正痘病毒属的成员),其包括天花病毒、猴痘病毒和痘苗病毒;疱疹病毒科的成员,其包括单纯疱疹病毒(hsv;1、2和6型)、人疱疹病毒(例如7型和8型)、巨细胞病毒(cmv)、eb病毒(ebv)、水痘带状疱疹病毒和卡波西肉瘤相关疱疹病毒(kshv);正粘病毒科的成员,其包括流感病毒(a、b和c),如h5n1型禽流感病毒或h1n1猪流感;冠状病毒科的成员,其包括严重急性呼吸综合征(sars)病毒;弹状病毒科的成员,其包括狂犬病病毒和水疱性口炎病毒(vsv);副粘病毒科的成员,其包括人呼吸道合胞病毒(rsv)、新城疫病毒、亨德拉病毒、尼帕病毒、麻疹病毒、牛瘟病毒、犬瘟热病毒、仙台病毒、人副流感病毒(例如1、2、3和4型)、鼻病毒和腮腺炎病毒;小核糖核酸病毒科的成员,其包括脊髓灰质炎病毒、人肠道病毒(a、b、c和d型)、甲型肝炎病毒和柯萨奇病毒;嗜肝dna病毒科的成员,其包括乙型肝炎病毒;乳头瘤病毒科(papillamoviridae)的成员,其包括人乳头瘤病毒;微小病毒科的成员,其包括腺伴随病毒;星状病毒科的成员,其包括星状病毒;多瘤病毒科的成员,其包括jc病毒、bk病毒和sv40病毒;杯状病毒科的成员,其包括诺瓦克病毒;呼肠孤病毒科的成员,其包括轮状病毒;和逆转录病毒科的成员,其包括人免疫缺陷病毒(hiv,例如1型和2型)以及i型和ii型人类嗜t淋巴细胞病毒(分别为htlv-1和htlv-2)。与参考数据库中的序列可能相关联的感染原可以是真菌。感染性真菌感染原的实例包括但不限于曲霉属(aspergillus)、芽生菌属(blastomyces)、球孢子菌属(coccidioides)、隐球菌属(cryptococcus)、组织胞浆菌属(histoplasma)、副球孢子菌属(paracoccidioides)、孢子丝菌属(sporothrix)以及接合菌纲的至少三个属。可使尿布疹恶化的继发性感染包括真菌生物体(例如假丝酵母属的酵母)。上述真菌以及许多其他真菌可引起宠物和伴侣动物的疾病。本教导包括直接或间接接触动物的底物。在动物中引起疾病的生物体的实例包括糠秕马拉色菌(malasseziafurfur)、絮状表皮癣菌(epidermophytonfloccosur)、须毛癣菌(trichophytonmentagrophytes)、红色毛癣菌(trichophytonrubrum)、断发毛癣菌(trichophytontonsurans)、马毛癣菌(trichophytonequinum)、刚果嗜皮菌(dermatophiluscongolensis)、犬小孢子菌(microsporumcanis)、头癣小孢子菌(microsporuaudouinii)、石膏样小孢子菌(microsporumgypseum)、卵圆马拉色菌(malasseziaovale)、假霉样真菌属(pseudallescheria)、帚霉属(scopulariopsis)、丝孢菌属(scedosporium)和白色假丝酵母(candidaalbicans)。真菌感染原的其他实例包括但不限于曲霉属、皮炎芽生菌(blastomycesdermatitidis)、假丝酵母属、粗球孢子菌(coccidioidesimmitis)、新型隐球菌(cryptococcusneoformans)、荚膜组织孢浆菌(histoplasmacapsulatum)荚膜变种、巴西副球孢子菌(paracoccidioidesbrasiliensis)、申克孢子丝菌(sporothrixschenckii)、接合菌纲(zygomycetes)的种、伞枝犁头霉(absidiacorymbifera)、微小根毛霉(rhizomucorpusillus)或少根根霉(rhizopusarrhizus)。与参考数据库中的序列可能相关联的感染原的另一实例可能是寄生虫。寄生虫的非限制性实例包括疟原虫、利什曼原虫、巴贝西虫、密螺旋体、疏螺旋体、锥虫、鼠弓形虫(toxoplasmagondii)、恶性疟原虫(plasmodiumfalciparum)、间日疟原虫(p.vivax)、卵形疟原虫(p.ovale)、三日疟原虫(p.malariae)、锥虫属的种或军团菌的种。所述参考数据库可以组合与不同感染原相关的序列(例如与各种细菌病原体、各种病毒病原体和各种真菌病原体的感染相关的参考序列)。此外,该参考数据库可以包含被鉴定为源自尚未被鉴定或分类的病原体的序列。与状况相关的参考序列还包括针对耐药性、致病性和疾病的遗传标志物。各种疾病相关标志物是已知的,其可以在参考数据库中表示。疾病相关标志物可以是因果遗传变体。一般来说,因果遗传变体是具有与疾病或性状相关性的统计学、生物学和/或功能性证据的遗传变体。单一因果遗传变体可以与超过一种疾病或性状相关。在一些实施方案中,因果遗传变体可以与孟德尔性状、非孟德尔性状或两者相关联。因果遗传变体可以表现为多核苷酸的变异,例如1、2、3、4、5、6、7、8、9、10、20、50个或更多的序列差异(例如在相同的相对基因组位置处包含因果遗传变体的多核苷酸与缺乏因果遗传变体的多核苷酸之间的差异)。因果遗传变体的类型的非限制性实例包括单核苷酸多态性(snp)、缺失/插入多态性(dip)、拷贝数变异(cnv)、短串联重复序列(str)、限制性片段长度多态性(rflp)、简单重复序列(ssr)、可变数量的串联重复序列(vntr)、随机扩增多态性dna(rapd)、扩增片段长度多态性(aflp)、mter-反转录转座子扩增多态性(irap)、长和短散布元件(line/sine)、长串联重复序列(ltr)、可动元件、反转录转座子微卫星扩增多态性、基于反转录转座子的插入多态性、序列特异性扩增多态性和遗传性外遗传修饰(例如,dna甲基化)。因果遗传变体也可以是一组密切相关的因果遗传变体。一些因果遗传变体可能会作为rna多核苷酸的序列变异发挥影响。在这个水平上,一些因果遗传变体也通过rna多核苷酸种类的存在或不存在来表示。此外,一些因果遗传变体导致蛋白质多肽的序列变异。许多因果遗传变体是本领域已知的。作为snp的因果遗传变体的一个实例是导致镰状细胞性贫血的血红蛋白的hbs变体。作为dip的因果遗传变体的一个实例是引起囊性纤维化的cftr基因的δ508突变。作为cnv的因果遗传变体的一个实例是导致唐氏综合征的21三体。作为str的因果遗传变体的一个实例是导致亨廷顿舞蹈症的串联重复序列。在wo2014015084a2和us20100022406中描述了因果遗传变体的另外的非限制性实例。抗药性标记物的实例包括赋予对各种氨基糖苷类抗生素的抗性的酶,该氨基糖苷类抗生素例如是g418和新霉素(例如,氨基糖苷3'-磷酸转移酶,3'aphii,也称为新霉素磷酸转移酶ii(nptii或“neo”)、zeocintm或博来霉素(例如,由印度斯坦链异壁菌(streptoalloteichushindustanus)的ble基因编码的蛋白质)、潮霉素(例如,来自吸水链霉菌(streptomyceshygroscopicus)或来自分离自大肠杆菌或肺炎克雷伯氏菌的质粒的潮霉素抗性基因,hph,这些基因编码通过磷酸化使潮霉素b失活的激酶(潮霉素磷酸转移酶,hpt))、嘌呤霉素(例如,白黑链霉菌(streptomycesalboniger)嘌呤霉素-n-乙酰转移酶(pac)基因)或杀稻瘟菌素(例如由来自链轮丝菌(streptoverticillumsp.)jcm4673的bls基因编码的乙酰转移酶,或由诸如来自蜡样芽孢杆菌(bacilluscereus)的基因如bsr或来自土曲霉(aspergillusterreus)的bsd抗性基因编码的脱氨酶)。其他示例性抗药性标记物是二氢叶酸还原酶(dhfr)、腺苷脱氨酶(ada)、胸苷激酶(tk)和次黄嘌呤-鸟嘌呤磷酸核糖基转移酶(hprt)。诸如p-糖蛋白和其他多药耐药性蛋白质的蛋白质作为泵,各种细胞毒性化合物,例如化学治疗剂(如长春花碱和蒽环类药物)通过该泵从细胞中排出。示例性的致病性标记物包括:参与外膜蛋白质表达的因子、微生物毒素、参与生物膜形成的因子、参与碳水化合物转运和代谢的因子、参与细胞被膜合成的因子以及参与脂质代谢的因子。示例性的致病性标记物可以包括但不限于gp120、埃博拉病毒包膜蛋白或其他糖基化的病毒包膜蛋白或病毒蛋白。所述参考数据库可以由与健康状态和/或一种或多种疾病状态相关的宿主表达谱组成,其中所表达的基因的某些组合(或特定基因的表达水平)标识出受试者的状况。成组基因可以是重叠的。由与状况相关的序列组成的参考数据库可以包含宿主表达谱和与其他状况相关的序列组(例如与各种感染原相关的参考序列)。在参考数据库由与状况相关联的序列组成的情况下,所述方法可以包括鉴定样品或样品所来自的来源中的状况。可以基于生物特征的组分中的10%、20%、30%、40%、50%、60%、70%、80%、90%或100%的存在或变化来鉴定该状况。或者,可以基于生物特征的组分中的小于20%、10%、1%、0.1%、0.01%、0.001%、0.0001%或0.00001%的存在或变化来鉴定该状况。在一些实施方案中,如果将与状况相关联的序列和/或分类单元的至少80%鉴定为存在(或以与状况相关的水平存在),则将样品鉴定为受该状况的影响。在一些实施方案中,如果与状况相关联的序列或分类单元(或它们的量)的至少90%、95%、99%或者全部存在,则将该样品鉴定为受该状况的影响。如果状况是来自特定个体如个体受试者(例如,来自多个不同人的序列的数据库中的人)的状况,则将样品鉴定为受到该状况的影响包括将样品鉴定为来自数据库中的序列所对应的个体。在一些实施方案中,将受试者鉴定为样品源仅基于受试者的基因组序列的一部分(例如小于50%、25%、10%、5%或更少)。如果与状况相关(例如来自特定致病生物体)的序列读取以比对照(例如未感染的个体)更高的水平存在,则特定序列、多态性或分类单元的存在、不存在或丰度可以用于诊断目的,如推断样品或受试者具有特定状况(例如疾病),已经具有特定状况,或可能发展成特定状况。在另一个实施方案中,测序读取可以源自宿主,并通过测量样品中宿主基因的存在、不存在或丰度来指示致病生物体的存在。存在、不存在或丰度可以用于确定对治疗或护理强度的需要、通知治疗的选择、推断治疗有效性,其中在治疗后来自致病病原体的测序读取的数目减少或特异性宿主反应基因的存在、不存在或丰度的变化表明该治疗是有效的,而没有变化或变化不足则表明该治疗是无效的。样品可以在治疗开始之前或之后一次或多次进行测定。在一些实例中,感染受试者的治疗根据监测结果而改变。在一些情况下,可以使用具有已知状况的一个或多个样品(例如血液、血浆、其他体液、组织、拭子样品等)来建立针对该状况的生物特征。可以通过将记录数据库与状况相关联来建立生物特征。该状况可以是本文所述的任何状况。例如,来自特定环境来源的多个样品可用于鉴定与该环境来源相关联的序列和/或分类单元,由此建立由这些相关序列和/或分类单元组成的生物特征。一般来说,术语“生物特征”用于指多个序列和/或分类单元的存在、不存在或丰度与特定状况的关联,例如受试者的状况的分类、诊断、预后和/或预测结果;样品源;由一种或多种污染物引起的污染;或其他状况。生物特征可以用作与状况相关联的参考数据库,以用于鉴定另一个样品中的该状况。在一个实施方案中,建立生物特征包括使用单一试验确定样品中至少10、50、100、1000、10000、100000、1000000个或更多个序列和/或分类单元的存在、不存在和/或量。建立生物特征可以包括将代表状况的一个或多个样品的测序读取与不代表该状况的一个或多个样品进行比较。例如,生物特征可以由参与被病毒感染的个体中的宿主反应(例如免疫应答)的基因表达组成,该序列可以与未被感染或被一些其他病原体(例如细菌)感染的受试者的序列相比较。在这种情况下,特定测序读取的存在、不存在或丰度可能与病毒而非细菌感染相关。在另一个实例中,生物特征可以由参与多种抗病毒反应的基因的序列组成,与之相关联的测序读取的存在、不存在或丰度可指示病毒感染的特定类别或类型。在一些实施方案中,与参考数据库相关联的生物特征由宿主转录物的序列(和任选地,水平)和/或一个或多个感染原的转录物或基因组的序列(和任选地,水平)组成。在一个具体的实例中,所述病症为流感感染,并且所述生物特征由ifit1、ifi6、ifit2、isg15、oasl、ifit3、nt5c3a、mx2、ifitm1、cxcl10、ifi44l、mx1、ifih1、oas2、samd9、rsad2和ddx58中的一个或多个(例如1、2、3、4、5、6、7、8、9、10、11、12个或所有)的序列组成。在另一个实例中,参考数据库可以是在癌细胞中发现的常见突变或基因融合,并且与生物特征相关联的测序读取的存在、不存在或丰度可以指示患者具有或不具有可检测的癌症、可检测的癌症是什么类型的癌症、优选的治疗方法、现有治疗是否有效以及/或者预后。在另一个实例中,参考数据库可以包含与污染相关的序列,如来自食品污染物、表面污染物或环境污染物的多核苷酸和/或氨基酸序列。常见的食品污染物的实例是大肠杆菌、肉毒梭菌、沙门氏菌、李斯特菌和霍乱弧菌。表面污染物的实例是大肠杆菌、肉毒梭菌、沙门氏菌、李斯特菌、霍乱弧菌、流感病毒、耐甲氧西林金黄色葡萄球菌、耐万古霉素肠球菌、假单胞菌、不动杆菌、艰难梭菌和诺瓦克病毒。环境污染物的实例是真菌,例如曲霉和wallemiasebi;囊泡藻,诸如鞭毛藻类;阿米巴;病毒;和细菌。污染物可以是感染原,其实例在本文中提供。在一些情况下,参考序列数据库包含从氨基酸序列反向翻译的多核苷酸序列。在该语境中,翻译是指使用密码子由核苷酸序列来确定氨基酸序列的过程。标准密码子是简并的,使得多个三核苷酸密码子编码相同的氨基酸。因此,反向翻译通常产生可以编码特定氨基酸序列的多种可能的序列。在一些实施方案中,为了简化该过程,反向翻译可以使用非简并代码,使得每个氨基酸仅由单个密码子表示。例如,在标准的dna密码子系统中,苯丙氨酸由“ttt”和“ttc”编码。非简并代码仅将一个密码子与苯丙氨酸相关联。可以通过本文所述的任何方法将测序读取与该非简并的反向翻译的序列进行比较。此外,测序读取可以翻译成所有六个读取框,并使用相同的非简并代码进行反向翻译以产生比较之前不包括替代密码子的六个多核苷酸。通过反向翻译参考氨基酸序列,并将其与翻译的测序读取进行比较,然后使用相同的反向翻译代码进行反向翻译,可以在蛋白质空间中分析核酸序列。根据本公开内容的方法比较序列可以提供多种益处。例如,在执行方法时使用的计算资源可以相对于参考方法如基于传统序列比对的方法而显著减少。例如,鉴定样品中的多个序列的速度可以显著提高。在一些实施方案中,将测序读取鉴定为对应于参考序列数据库中的特定参考序列可以在小于1.5秒内针对20,000个序列完成。在一些实施方案中,每分钟鉴定至少约500000、1000000、2000000、300000000、4000000、5000000、10000000个或更多个序列。用于基准序列鉴定持续性的序列和处理器集可以是本文所描述的任何一个。在一些实施方案中,用于基准测试的测序读取包含来自细菌、病毒、真菌和人类中的两种或更多种的序列。本文描述的方法的性能可以相对于参考工具如surpi(参见例如naccache,s.n.等人,acloud-compatiblebioinformaticspipelineforultrarapidpathogenidentificationfromnext-generationsequencingofclinicalsamples.genomeresearch24,1180-1192(2014))或kraken(参见例如wood,d.e.&salzberg,s.l.kraken:ultrafastmetagenomicsequenceclassificationusingexactalignments.genomebiology15,r46(2014))来定义。在一些实施方案中,使用相同的数据集和计算机硬件,在达到至少与surpi一样准确的结果方面,本公开内容的方法至少比surpi快5倍、10倍、50倍、100倍、250倍或更快。在一些实施方案中,本公开内容的方法提供相对于参考分析工具提高的精度。例如,使用相同的数据集和计算机硬件,精度可以提高至少5%、6%、7%、8%、9%、10%、15%、20%、25%或更多。在一些实施方案中,存在于已知样品中的序列和/或分类单元以至少约80%、85%、90%、95%、96%、97%、98%、99%或更高的精度得到鉴定。在一些实施方案中,本文提供的方法是可操作的,仅基于少数序列差异来区分两种或更多种不同的多核苷酸。例如,本文提供的方法可以用来根据对比分类单元之间的较低程度的序列变异来区分两种或更多种分类单元的菌株(例如细菌菌株)。在一些实施方案中,基于序列中的一个或多个核苷酸差异(例如1、2、3、4、5、6、7、8、9、10、25、50个或更多个差异),一个或多个分类单元包含被鉴定为存在的第一细菌菌株和被鉴定为不存在的第二细菌菌株。在一些实施方案中,基于少于25个、10个、5个、4个、3个、2个或更少的序列差异来区分分类单元。在一些实施方案中,基于序列中的单核苷酸差异(例如snp),将第一细菌菌株鉴定为存在且将第二细菌菌株鉴定为不存在。用于分析的测序数据可以由用户提供,也可能已经通过任何合适的手段产生。也可以通过从样品中分离多核苷酸并对多个多核苷酸进行测序来产生测序数据。可衍生出多核苷酸以便通过本方法和系统进行分析的样品可以来自多种来源中的任一种。样品源的非限制性实例包括环境来源、工业来源、一个或多个受试者以及一个或多个微生物群体。环境来源的实例包括但不限于农田、湖泊、河流、水库、通风口、墙壁、屋顶、土壤样品、植物和游泳池。工业来源的实例包括但不限于洁净室、医院、食品加工区、食品生产区、食品、医疗实验室、药店和药物配制中心。多核苷酸可以从诸如疟疾和鞭毛藻类的囊泡藻中分离出来。可以分离多核苷酸的受试者的实例包括多细胞生物体,例如鱼、两栖动物、爬行动物、鸟类和哺乳动物。哺乳动物的实例包括灵长类(例如猿、猴、大猩猩)、啮齿动物(例如小鼠、大鼠)、牛、猪、绵羊、马、狗、猫或兔子。在优选的实施方案中,所述哺乳动物为人。在一些情况下,所述样品为个体受试者。样品可以包括来自受试者的样品,例如全血;血液制品;红细胞;白细胞;血沉棕黄层;拭子;尿;痰;唾液;精液;淋巴液;羊水;脑脊液;腹水;胸腔积液;活检样品;囊肿液;滑液;玻璃体液;房水;囊液;眼睛清洗液;眼睛吸出物;血浆;血清;肺灌洗物;肺吸入物;动物,包括人,组织,包括但不限于肝脏、脾脏、肾脏、肺、肠、脑、心脏、肌肉、胰腺、细胞培养物以及裂解物、提取物或材料,以及从上述样品获得的部分,或可能存在于样品上或样品中的任何细胞和微生物及病毒。样品可以包含初级培养物或细胞系的细胞。细胞系的实例包括但不限于293-t人肾细胞、a2870人卵巢细胞、a431人上皮细胞、b35大鼠神经母细胞瘤细胞、bhk-21仓鼠肾细胞、br293人乳腺细胞、cho中国仓鼠卵巢细胞、corl23人肺细胞、hela细胞或jurkat细胞。样品可以包含均匀的或混合的微生物群体,包括病毒、细菌、原生生物、无核原生生物(monerans)、囊泡藻、古菌或真菌中的一种或多种。病毒的实例包括但不限于人类免疫缺陷病毒、埃博拉病毒、鼻病毒、流感、轮状病毒、肝炎病毒、西尼罗病毒、环斑病毒、花叶病毒、疱疹病毒、莴苣大叶脉相关病毒。细菌的非限制性实例包括金黄色葡萄球菌、金黄色葡萄球菌mu3;表皮葡萄球菌、无乳链球菌、酿脓链球菌、肺炎链球菌、大肠杆菌、克氏柠檬酸杆菌、产气荚膜梭菌、粪肠球菌、肺炎克雷伯氏菌、嗜酸乳杆菌、单核细胞增生李斯特菌、颗粒丙酸杆菌、铜绿假单胞菌、粘质沙雷氏菌、蜡样芽孢杆菌、金黄色葡萄球菌mu50、小肠结肠炎耶尔森氏菌、拟葡萄球菌、滕黄微球菌和产气肠杆菌。真菌的实例包括但不限于伞枝犁头霉、黑曲霉、白色假丝酵母、白地霉、异常汉逊酵母(hansenulaanomala)、石膏样小孢子菌、念珠菌属、毛霉菌、penicilliusidiacorymbifera、黑曲霉、白色假丝酵母、白地霉、汉逊酵母、石膏样小孢子菌、念珠菌属、毛霉菌、扩展青霉、根霉属、红酵母属、巴豆酵母(saccharomycesbayabus)、卡尔酵母、葡萄汁酵母和酿酒酵母。样品也可以是经处理的样品,如保存的、固定的和/或稳定化的样品。样品可以包含rna或基本上由rna组成。样品可以包含dna或基本上由dna组成。在一些实施方案中,分析无细胞的多核苷酸(例如无细胞的dna和/或无细胞的rna)。通常,无细胞的多核苷酸是存在于样品中的细胞外多核苷酸(例如已除去细胞的样品,未经历裂解步骤的样品,或经处理以将细胞多核苷酸与细胞外多核苷酸分离的样品)。例如,无细胞的多核苷酸包括在细胞死亡时释放到环境中的多核苷酸,并且从血液样品的血浆级分中分离为无细胞的多核苷酸。提取和纯化核酸的方法是本领域公知的。例如,可以通过用苯酚、苯酚/氯仿/异戊醇或类似的制剂(包括trizol和trireagent)进行有机提取来纯化核酸。提取技术的其他非限制性实例包括:(1)有机提取,随后乙醇沉淀,例如,使用苯酚/氯仿有机试剂,使用或不使用自动化的核酸提取器,例如来自appliedbiosystems(fostercity,calif.)的341型dnaextractoravailable;(2)固相吸附法;以及(3)盐诱导的核酸沉淀法,这种沉淀方法通常被称为“盐析”法。核酸分离和/或纯化的另一个实例包括使用核酸可以特异性或非特异性结合的磁性颗粒,然后使用磁体分离珠粒,并且从珠粒清洗及洗脱核酸。在一些实施方案中,上述分离方法之前可以是酶消化步骤,以帮助从样品中除去不想要的蛋白质,例如用蛋白酶k或其他类似蛋白酶消化。如果需要,可将rna酶抑制剂加入到裂解缓冲液中。对于某些细胞或样品类型,可能需要在该方案中加入蛋白质变性/消化步骤。纯化方法可以涉及分离dna、rna或两者。当在提取过程中或之后将dna和rna两者一起分离时,可以采用进一步的步骤分别地从另一个中纯化一个或两个。例如,还可以通过大小、序列或其他物理或化学纯化产生所提取核酸的亚级分。可以对从样品中提取的多核苷酸进行测序以产生测序读取。示例性测序技术可以包括例如乳液pcr(来自roche454的焦磷酸测序,来自iontorrent的半导体测序,来自lifetechnologies的solid连接测序,来自intelligentbiosystems的合成测序)、流动池上的桥式扩增(例如solexa/lllumina)、通过wildfire技术(lifetechnologies)的等温扩增或通过滚环扩增(completegenomics、intelligentbiosystems、polonator)产生的rolonies/纳米球。无需预先克隆扩增即允许对单分子的直接测序的测序技术如heliscope(helicos)、smrt技术(pacificbiosciences)或纳米孔测序(oxfordnanopore)可能是合适的测序平台。可以在进行或不进行目标富集的情况下进行测序。在一些情况下,来自样品的多核苷酸在测序之前和/或期间通过任何合适的手段进行扩增。作为示例,在公开的方法中使用的dna测序技术可以是helicostruesinglemoleculesequencing(tsms)(例如,如harrist.d.等人,science320:106-109[2008]所述)。在典型的tsms方法中,将dna样品切割成约100-200个核苷酸的链,并将聚a序列添加到每个dna链的3'端。通过添加荧光标记的腺苷核苷酸标记每条链。然后将dna链与流动池杂交,流动池含有数百万个固定在流动池表面的寡聚t捕获位点。模板的密度可为约1亿个模板/cm2。然后将流动池装载到仪器例如heliscopetm测序仪中,并且激光照射流动池的表面,从而显示每个模板的位置。ccd相机可以定位流动池表面上的模板的位置。然后将模板荧光标记物切割并洗去。通过引入dna聚合酶和荧光标记的核苷酸开始测序反应。寡聚t核酸作为引物。聚合酶以模板指导的方式将标记的核苷酸掺入引物。去除聚合酶和未掺入的核苷酸。通过对流动池表面进行成像来识别引导荧光标记核苷酸掺入的模板。成像后,切割步骤除去荧光标记物,并用其他的荧光标记核苷酸重复该过程,直至达到所需的读取长度。在每个核苷酸添加步骤收集序列信息。用于多核苷酸测序的另一个示例性方法是454测序(roche)(例如,如margulies,m.等人,nature437:376-380(2005)所述)。在第一步中,通常将dna剪切成大约300-800个碱基对的片段,并且这些片段是平端的。然后将寡核苷酸衔接子连接到片段的末端。衔接子用作片段扩增及测序的引物。可以使用例如含有5’-生物素标签的衔接子b将片段附接到dna捕获珠粒,例如链霉亲和素包被的珠粒。附接到珠粒的片段在油-水乳液的小液滴内进行pcr扩增。结果是每个珠粒上有多个拷贝的克隆扩增的dna片段。在第二步中,将珠粒捕获在孔中(皮升级尺寸)。并行地对每个dna片段进行焦磷酸测序。一个或多个核苷酸的添加产生光信号,该光信号被测序仪器中的ccd相机记录。信号强度与所掺入的核苷酸的数目成比例。焦磷酸测序利用在核苷酸添加时释放的焦磷酸盐(ppi)。ppi在腺苷5'磷酰硫酸的存在下被atp硫酸化酶转化为atp。萤光素酶使用atp将萤光素转化为氧化萤光素,并且该反应产生可辨别和分析的光。合适的dna测序技术的另一个实例是solidtm技术(appliedbiosystems)。在solidtm连接测序中,将基因组dna剪切成片段,并将衔接子附接到这些片段的5'和3'端以产生片段文库。或者,可以通过以下步骤引入内部衔接子:将衔接子连接至片段的5'和3'端,使片段环化,消化该环化的片段以产生内部衔接子,并将衔接子附接到所得到的片段的5'和3'端来生成配对文库。接下来,在含有珠粒、引物、模板和pcr组分的微反应器中制备克隆珠粒群体。在pcr之后,使模板变性,并且富集珠粒以用扩展的模板分离珠粒。对所选择的珠粒上的模板进行3'修饰,其允许粘结到载玻片上。可以通过部分随机寡核苷酸与由特异性荧光团鉴定的中心确定的碱基(或碱基对)的连续杂交和连接来确定序列。记录颜色后,将连接的寡核苷酸切割并除去,然后重复该过程。dna测序可以是通过pacificbiosciences的单分子实时(smrttm)测序技术。在smrt测序中,在dna合成过程中对染料标记的核苷酸的连续掺入进行成像。将单个dna聚合酶分子附接到单个零模式波长标识符(zmw标识符)的底部表面,其在磷酸化核苷酸掺入生长中的引物链的同时获得序列信息。zmw是一种约束结构,其使得能够相对于快速扩散入及扩散出zmw(以微秒计)的荧光核苷酸的背景,观察dna聚合酶对单核苷酸的引入。将核苷酸掺入生长链需要数毫秒。在此期间,荧光标记物被激发并产生荧光信号,并且荧光标签被切除。鉴定染料的相应荧光指示掺入了哪种碱基。重复该过程。在所公开的方法中使用的dna测序技术可以是纳米孔测序(例如,如sonigv和mellera.,clinchem53:1996-2001[2007]中所述)。纳米孔测序dna分析技术正在由许多公司进行工业开发,包括oxfordnanoporetechnologies(oxford,unitedkingdom)。纳米孔测序是单分子测序技术,由此在dna单分子穿过纳米孔时直接对其进行测序。纳米孔是直径为1纳米级的小孔。导电流体中纳米孔的浸入以及跨其施加电位(电压)导致由于离子通过纳米孔传导而引起的轻微电流。流动的电流量对纳米孔的尺寸和形状敏感。当dna分子通过纳米孔时,dna分子上的每个核苷酸在不同程度上阻碍纳米孔,从而不同程度地改变通过纳米孔的电流的大小。因此,当dna分子通过纳米孔时,电流的这种改变表示dna序列的读取。在一个实施方案中,在所公开的方法中使用的dna测序技术是化学敏感性场效应晶体管(chemfet)阵列(参见例如us20090026082)。在该技术的一个实例中,可以将dna分子置于反应室中,并且可使模板分子与结合至聚合酶的测序引物杂交。可以通过chemfet根据电流的变化来识别一个或多个三磷酸在测序引物的3'端向新核酸链中的掺入。阵列可以有多个chemfet传感器。在另一个实例中,单核酸可以附接到珠粒上,并且核酸可以在珠粒上扩增,并且各个珠粒可以转移到chemfet阵列上的各个反应室,每个室具有chemfet传感器,并且可以对核酸进行测序。合适的dna测序技术的另一个实例是iontorrent单分子测序,其将半导体技术与简单的测序化学配对以直接将化学编码的信息(a、c、g、t)转化成半导体芯片上的数字信息(0、1)。在本质上,当通过聚合酶将核苷酸掺入dna链时,释放作为副产物的氢离子。iontorrent使用微加工孔的高密度阵列以大规模并行方式进行这一生化过程。每个孔容纳不同的dna分子。孔下方是一个离子敏感层,在离子敏感层下方是离子传感器。当将核苷酸(例如c)加入到dna模板中,然后掺入dna链中时,将释放氢离子。来自该离子的电荷将改变溶液的ph值,这可以由iontorrent的离子传感器来鉴定。测序仪——基本上是世界上最小的固态ph计——判定碱基,直接将化学信息转换为数字信息。ion个人基因组机器(pgmtm)测序仪随后用一个接一个的核苷酸顺序地淹没该芯片。如果下一个淹没芯片的核苷酸不匹配,将不会记录电压变化,也不会判定碱基。如果dna链上有两个相同的碱基,则电压将加倍,并且芯片将记录两个相同的判定碱基。直接鉴定允许在数秒内记录核苷酸掺入。在另一方面,本公开内容提供了一种检测样品中的多个分类单元的方法。在一个实施方案中,所述方法包括提供来自样品的多个多核苷酸的测序读取,并且对每个测序读取:(a)基于该测序读取与来自不同第一分类群的第一多个多核苷酸序列之间的第一序列比较,将所述测序读取分配给第一分类群,其中至少两个测序读取被分配给不同的分类群;(b)利用计算机系统执行所述测序读取与对应于第一分类群的成员的第二多个多核苷酸序列之间的第二序列比较,其中所述比较包括对至少5个核苷酸长度的所述测序读取内的k-mer数目进行计数,该k-mer与第二多个多核苷酸序列中的参考序列内的一个或多个k-mer精确匹配;(c)如果所述测序读取与参考序列之间的相似性量度高于第一阈值水平,则将所述测序读取分类为属于比所述第一分类群更具体的第二分类群;(d)如果在(c)中没有鉴定出高于第一阈值水平的相似性,则基于用所述计算机系统比较由翻译所述测序读取而衍生的序列与对应于所述第一分类群的成员的氨基酸序列的第三组参考序列而确定的高于第二阈值水平的相似性,将所述测序读取分类为属于所述第二分类群;以及(e)基于所述测序读取的分类,鉴定样品中所述多个分类单元的存在、不存在或丰度。在一些情况下,如果所述测序读取与参考序列之间的相似性量度高于所述第一阈值水平,则可将测序读取鉴定为对应于特定参考序列,如基因转录物。序列比较可以包括本文所述的任何序列比较方法。在一些实施方案中,序列比较包括一个或多个比较步骤,其中将测序读取的一个或多个k-mer与一个或多个参考序列(也简称为“参考”)的k-mer进行比较。在一些实施方案中,k-mer的长度大约为或大于约3nt、4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、25nt、30nt、35nt、40nt、45nt、50nt、75nt、100nt或更长。在一些实施方案中,k-mer的长度大约为或小于约30nt、25nt、20nt、15nt、10nt或更小。k-mer的长度可以在3nt至13nt、5nt至25nt、7nt至99nt或3nt至99nt的范围内。在每个步骤分析的k-mer的长度可以变化。例如,第一比较可以比较测序读取和参考序列中长度为21nt的k-mer,而第二比较可以比较测序读取和参考序列中长度为7nt的k-mer。对于比较步骤中的任何给定的序列,所分析的k-mer可以是重叠的(例如在滑动窗口中),并且可以具有相同或不同的长度。虽然在本文中k-mer通常被称为核酸序列,但是序列比较还包括多肽序列的比较,包括由氨基酸组成的k-mer的比较。用于执行序列比较的参考序列和参考数据库可以是本文中描述的任意那些,诸如关于本公开内容的各个方面中的任何方面所描述的。通常,将读取中的k-mer与参考序列进行比较包括计算两者之间的k-mer匹配。鉴定匹配的严格性可以改变。例如,匹配可以是精确匹配,其中来自所述读取的k-mer的核苷酸序列与来自参考的k-mer的核苷酸序列相同。或者,匹配可以是不完全匹配,其中允许1、2、3、4、5、10个或更多的错配。除了匹配计数之外,还可以计算出可能性(也称为“k-mer权重”或“kw”)。在一些实施方案中,所述k-mer权重涉及特定参考序列内的特定k-mer的计数、在包含所述参考序列的序列组之间的特定k-mer的计数以及在参考序列数据库中的所有参考序列之间的特定k-mer的计数。在一个实施方案中,根据以下公式计算k-mer权重,其如下计算k-mer权重作为特定k-mer(ki)来自参考序列(refi)的可能性的量度:c表示得出ki计数的函数。cref(ki)表示特定参考中的ki计数。cdb(ki)表示数据库中的ki计数。此权重提供了k-mer源自特定参考的可能性的相对的、数据库特异性的量度。在将测序读取与参考序列数据库比较之前,可以针对数据库中的每个k-mer和参考序列来计算k-mer权重(或k-mer源自给定参考序列的可能性的量度)。在一些情况下,当参考数据库包含来自多个分类单元的序列时,每个参考序列可以与参考序列中的k-mer源自多个分类单元中的分类单元的可能性量度或k-mer权重相关联。作为一个非限制性实例,参考数据库可以包含来自多个犬物种的序列,并且可以通过将所有犬科序列中给定k-mer的计数与其在包括其他分类单元的整个数据库中的计数相关联来计算k-mer权重。在一些实例中,通过在上述公式中定义cref(ki)作为得出特定分类单元中的ki总计数的函数来计算衡量k-mer源自特定分类单元的可能性的k-mer权重。结果可以存储在记录数据库中,其示例在本文中描述,诸如关于本公开内容的各个方面中的任何方面进行描述。单个检测过程可以包括多个序列比较步骤。可以对该步骤将要评估的所有序列并行地执行一个或多个步骤。在一些实施方案中,基于测序读取与来自不同第一分类群的第一多个多核苷酸序列之间的第一序列比较,将所述测序读取分配给第一分类群,其中至少两个测序读取被分配给不同的分类群。第一分类群可以是一个宽泛的类别,向其分配可以指定在第二比较中应当使用哪个参考数据库或参考序列来以更大的特异性鉴定序列或相应的分类单元。例如,分配到第一分类类别可以包括将序列分配给细菌、古菌、囊泡藻、病毒、真菌、植物、鱼、两栖动物、爬行动物、鸟类、哺乳动物和人类中的任何一种。所述第一多个多核苷酸可以是参考数据库的形式,其可以包含可分配序列的多个分类单元中的任一种的序列。可以对将要分析的所有测序读取并行执行第一比较,使得对第一分类群的分配包括在与测序读取进行比较的所有组之间产生最接近匹配的组的分配。在将测序读取分配给第一分类群后,可以进行第二序列比较步骤,其中比较测序读取与对应于分配了该读取的第一分类群的成员的第二多个多核苷酸序列。第二比较通常包括对至少5个核苷酸长度的测序读取中的k-mer数目进行计数,该k-mer与所述第二多个多核苷酸序列中的参考序列内的一个或多个k-mer完全匹配。本文提供了k-mer分析的实例,例如关于本公开内容的各个方面中的任何方面。所述第二多个序列可以是第二参考数据库的形式。所述第二多个多核苷酸序列可以包含与分配有该测序读取的第一分类群相关的序列子集或由该序列子集组成,或仅包含这些的子集或由之组成。所述第二多个多核苷酸序列可以包含与第一分类群相关的且不在第一多核苷酸序列之中的序列或由该序列组成。第二序列比较的参数可以与在第一序列比较中使用的参数相同或不同。例如,k-mer长度、用于鉴定匹配的k-mer权重阈值或严格性可以相同或不同,其中每一个可以独立地变化。作为第二序列比较的结果,如果所述测序读取与参考序列之间的相似性量度高于第一阈值水平,则可将所述测序读取分类为属于比第一分类群更具体的第二分类群。用于进行鉴定的阈值可以根据比较的参数而变化。本文提供了可能的阈值的实例,如关于本公开内容的各个方面中的任何方面。确定阈值可以包括如本文所述的计算给定测序读取的k-mer权重之和。可以基于诸如平均读取长度、与读取进行比较的参考序列、特定序列或来源生物体是否将被鉴定为存在于样品中等多种因素来选择阈值。阈值可以针对指定参考序列的集合是特异性的。如果参考序列的k-mer权重之和高于阈值水平,则可以将测序读取鉴定为对应于该参考序列,以及任选地,与该参考序列相关联的生物体或分类群。在一些情况下,将所述读取分配给具有k-mer权重的最大总和的参考序列,其可能需要或可能不需要高于阈值。在平分的情况下,即测序读取具有属于多于一个参考序列的同等k-mer权重,则可以考虑所述读取沿系统发育树的每个分支的总k-mer权重,将测序读取分配给分类学上最近共同祖先(lca)。通常,与参考序列、生物体或分类群的对应表示其存在于样品中。一般来说,当第二分类群具有更具体的层级顺序时,则认为第二分类群比第一分类群更具体。例如,第一分类群可能在科的水平上,而第二分类群则处于属或种的水平上。如果第一分类群处于种的水平上,则第二分类群可能处于具体个体的水平上。例如,可以在第一序列比较中将序列鉴定为人类的,并且基于第二比较的分类可鉴定衍生出该序列的特定人,该过程可进一步涉及序列组的比较。在一些情况下,例如在测序读取的k-mer权重的最大总和低于阈值的情况下,基于第二比较来分类测序读取是不可能的。在这种情况下,将测序读取分类为属于第二分类群可基于通过用计算机系统比较由翻译所述测序读取而衍生的序列与对应于第一分类群的成员的氨基酸序列的第三组参考序列而确定的高于第二阈值水平的相似度。本文中描述了翻译测序读取的方法。该方法可以包括翻译一个或多个读取框,如所有6个读取框。比较可以处于氨基酸水平上,其中将翻译的测序读取与一组参考氨基酸序列进行比较。或者,所翻译的测序读取可以被反向翻译,并且与反向翻译参考氨基酸序列所衍生的参考序列进行比较。本文描述了翻译及反向翻译的方法,并且包括使用非简并代码的反向翻译。参考氨基酸序列可以为参考数据库的形式,其实例在本文中描述。在一些情况下,基于第三组参考序列的比较,测序读取分类仍然是不可能的,如在测序读取的k-mer权重的最大总和低于阈值的情况下。在这种情况下,该方法可以进一步包括用计算机系统执行测序读取与第二多个多核苷酸序列之间的松弛序列比较。通常,所述松弛序列比较不如第二序列比较严格。本文描述了降低序列比较的严格性的方法,如关于本公开内容的各个方面中的任何方面。然后基于在较低严格度下鉴定匹配序列来进行分类也许是可能的。针对反向翻译的氨基酸参考序列,可以应用类似的严格性降低的分析,其可以代替参考多核苷酸序列的严格性降低的比较来进行或除此之外进行。在任何给定的步骤中,可以基于用于比较的参数,将来自不同分类单元的两个或更多个参考序列鉴定为可能对应于测序读取。在这种情况下,往往对平分予以解决,以便将测序读取分配给仅一个参考序列或分类单元。在一些情况下,基于所述测序读取解决两个或更多个可能的分类群平分的关系对应于来自一种可能的分类群的祖先的多核苷酸的k-mer权重。本文描述了解决这种平分的方法,如关于本公开内容的各个方面中的任何方面。一旦序列被分类为属于比第一分类群更具体的第二分类群,则可以确定样品中多个分类单元的存在、不存在或丰度(可以是相对丰度)。本文提供了基于鉴定测序读取进行这种确定的方法,如关于本公开内容的各个方面中的任何方面。在一些实施方案中,方法可以进一步包括定量与较早步骤中鉴定的参考序列相对应的多核苷酸的量。定量可以基于所鉴定的相应测序读取的数目。这可以包括用读取总数、与序列相关联的读取的总数、参考序列的长度或其组合对计数进行归一化。这种归一化的实例包括fpkm和rpkm,但也可以包括考虑不同样品中读取的相对量的其他方法,如通过每个序列所观察到的计数的比率中值来对来自样品的测序读取进行归一化。样品之间的量差异可以指示两个样品之间的差异。定量可用于鉴定受试者之间的差异,如比较不同饮食的受试者的微生物群(microbiota)中存在的分类单元,或观察同一受试者随时间的变化,如观察在特定的饮食之前或之后受试者的微生物区中存在的分类单元。如果分类为属于第二分类群的测序读取在与该第二分类群相关的参考序列组中不存在,则可以将其添加到该参考序列组中以用于将来的比较。在一些实施方案中,方法可以包括基于较早步骤的结果来确定样品内特定分类单元的存在、不存在或丰度。在这种情况下,多个参考多核苷酸序列通常包含对应于多个分类单元中的个体分类单元的序列组。在一些情况下,基于通过本文所述的方法分析的序列,至少50、100、250、500、1000、5000、10000、50000、100000、250000、500000或1000000个不同的分类单元被鉴定为不存在或存在(以及任选地,丰度,其可以是相对的)。在一些情况下,并行执行此分析。在一些实施方案中,当鉴定的分类单元占来源样品中分类单元总群体的不到0.05%时,本公开内容所述的方法、组合物和系统使得能够并行检测分类单元群体(如环境或临床样品)中分类单元的存在或不存在。在一些情况下,检测是基于对应于以小于总核酸群体的0.01%存在的多核苷酸的测序读取。特定多核苷酸可以至少20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%或97%同源于该群体中的其他核酸。在一些情况下,特定多核苷酸小于75%、50%、40%、30%、20%或10%同源于该群体中的其他核酸。确定特定分类单元的存在、不存在或丰度可以包括将个体受试者鉴定为样品源。例如,参考数据库可以包含多个参考序列,每个参考序列对应于个体生物体(例如人类受试者),在参考序列中呈现有来自多个不同受试者的序列。然后可以将未知样品的测序读取与参考数据库的序列进行比较,并且基于根据所描述的方法来鉴定该测序读取,可以将参考数据库中表示的个体鉴定为该测序读取的样品源。在这样的情况下,参考数据库可以包含来自至少102、103、104、105、106、107、108、109或更多个个体的序列。在一些情况下,测序读取在特定分类群水平(例如物种水平)上或任何分类水平上与参考序列不存在匹配。当未见匹配时,可以基于已知特征将相应的序列添加至参考数据库。在一些情况下,当序列被鉴定为属于多个分类单元中的特定分类单元并且其不存在于与该分类单元相对应的序列组中时,将其添加至与该分类单元相对应的序列组中以用于之后的序列比较。例如,如果细菌基因组被鉴定为属于特定分类单元,如属或科,但是基因组包含与该分类单元相关的序列中不存在的序列,则可将该细菌基因组添加到序列数据库中。同样地,如果样品源自特定的来源或状况,则可以将测序读取添加至与该来源或状况相关联的序列的参考数据库中,以用于鉴定共享相同来源或状况的未来样品。作为另一示例,根据本文所述的方法鉴定的在较低水平上不具有匹配但确实在较高水平上具有匹配的序列可以被分配给该较高水平,同时还将该测序读取添加至与该分类群相对应的多个参考序列中。如此更新的参考数据库可用于之后的序列比较。在一些实施方案中,鉴定多个分类单元的存在、不存在或丰度可以用来基于样品中检测到的多个分类单元与状况的生物特征之间的相似性程度诊断状况。该状况可以是本文关于本公开内容的任何方面所描述的任何状况。示例状况包括但不限于污染(例如环境污染、表面污染、食品污染、空气污染、水污染、细胞培养物污染)、刺激反应(例如药物反应者或无反应者、变态反应、治疗反应)、感染(例如细菌感染、真菌感染、病毒感染)、疾病状态(例如疾病的存在、疾病的恶化、疾病的恢复)、健康状态或样品源的性质(例如具体位置或个体受试者)。本文提供了其实例。所述方法可以包括鉴定样品或样品所来自的来源中的状况。可以基于生物特征的组分中的10%、20%、30%、40%、50%、60%、70%、80%、90%或100%的存在或变化来鉴定该状况。或者,可以基于生物特征的组分中的小于20%、10%、1%、0.1%、0.01%、0.001%、0.0001%或0.00001%的存在或变化来鉴定该状况。在一些实施方案中,如果将与状况相关联的序列和/或分类单元的至少80%鉴定为存在(或以与状况相关的水平存在),则将样品鉴定为受该状况的影响。在一些实施方案中,如果与状况相关联的序列或分类单元(或它们的量)的至少90%、95%、99%或全部存在,则该样品被鉴定为受该状况的影响。如果状况是来自特定个体如个体受试者(例如,来自多个不同人的序列的数据库中的人)的状况,则将样品鉴定为受到该状况的影响包括将样品鉴定为来自数据库中的序列所对应的个体。在一些实施方案中,将受试者鉴定为样品源仅基于受试者的基因组序列的一部分(例如小于50%、25%、10%、5%或更少)。如果来自特定致病生物体的测序读取以比对照(例如未感染的个体)更高的水平存在,则特定序列或分类单元的存在、不存在或丰度可以用于诊断目的,如推断样品或受试者具有特定状况(例如疾病)。在另一个实施方案中,测序读取可以源自宿主,并通过测量样品中宿主基因的存在、不存在或丰度来指示致病生物体的存在。存在、不存在或丰度可以用于推断治疗的有效性,其中在治疗后来自致病病原体的测序读取的数目减少或特异性宿主反应基因的存在、不存在或丰度的变化表明该治疗是有效的,而没有变化或变化不足则表明该治疗是无效的。样品可以在治疗开始之前或之后一次或多次进行测定。在一些实例中,感染受试者的治疗根据监测的结果而改变。在一些情况下,可以使用具有已知状况的一个或多个样品来使用本公开内容的方法建立针对该状况的生物特征。可以通过将多个分类单元的存在、不存在或丰度与状况相关联来建立生物特征。该状况可以是本文所述的任何状况。例如,来自特定环境来源的多个样品可用于鉴定与该环境来源相关联的序列和/或分类单元,由此建立由这些相关序列和/或分类单元组成的生物特征。本文其他地方提供了各种实例。在一个特定的实例中,仅基于宿主基因表达生物特征,仅基于与感染原相关的一个或多个序列的鉴定,或两者的组合,将(例如来自个体或细胞培养物的)样品鉴定为被感染原感染。在使用宿主转录物和感染原序列两者来鉴定状况的情况下,所鉴定的状况可以是被动携带者的状况(例如检测到病毒序列,但是宿主免疫应答则未检出)。所述方法可以进一步包括以下任何步骤:从样品中分离多核苷酸、扩增多核苷酸和/或对多核苷酸进行测序以产生测序读取以供比较,如通过本文所述的任何方法。在一方面,本公开内容提供了用于执行本文所述的任何方法的系统。在一些实施方案中,该系统被配置为基于来自样品源的样品中的多个多核苷酸的测序读取来鉴定所述多个多核苷酸。例如,该系统可包括计算机处理器,该计算机处理器被编程为针对每个测序读取:(a)执行所述测序读取与多个参考多核苷酸序列之间的序列比较,其中所述比较包括计算k-mer权重作为所述测序读取中的k-mer衍生自在所述多个参考多核苷酸序列内的参考序列的可能性的量度;(b)如果参考序列的k-mer权重之和高于阈值水平,则将该测序读取鉴定为对应于参考序列数据库中的特定参考序列;以及(c)组装包含在步骤(b)中鉴定的参考序列的记录数据库,其中所述记录数据库排除未与测序读取相对应的参考序列。作为另一个实例,该系统可包括一个或多个计算机处理器,该计算机处理器被编程为:(a)针对每个测序读取,执行所述测序读取与多个参考多核苷酸序列之间的序列比较,其中所述比较包括计算k-mer权重作为所述测序读取中的k-mer衍生自在所述多个参考多核苷酸序列内的参考序列的可能性的量度;(b)针对每个测序读取,基于k-mer权重计算所述测序读取对应于参考序列数据库中的特定参考序列的概率,由此产生序列概率;(c)基于与代表一个或多个分类单元的序列相对应的序列概率来计算所述一个或多个分类单元的存在或不存在的评分;以及(d)基于相应的评分,将所述一个或多个分类单元鉴定为在样品中存在或不存在。所述系统可进一步包括与所述计算机处理器通信的反应模块,其中该反应模块执行多核苷酸测序反应以产生测序读取。处理器可以与计算机系统的一个或多个控制器、计算单元和/或其他单元相关联,或者根据需要植入到固件中。如果植入到软件中,则例程可以存储在任何计算机可读存储器如ram、rom、闪速存储器、磁盘、光盘或其他存储介质中。同样,该软件可以通过任何已知的传送方法传送到计算设备中,该传送方法包括,例如,通过诸如电话线、因特网、无线连接等通信信道,或经由可移动介质的,诸如计算机可读磁盘、闪存驱动器等。各个步骤可以作为各种区块、操作、工具、模块或技术来实现,其又可以以硬件、固件、软件或其任何组合来实现。当以硬件实现时,一些或所有区块、操作、技术等可以在例如定制集成电路(ic)、专用集成电路(asic)、现场可编程逻辑阵列(fpga)、可编程逻辑阵列(pla)等中实现。在一些实施方案中,计算机被配置为接收客户请求来对样品进行检测反应。计算机可以直接(例如通过由客户或用户操作以输入客户请求的输入设备,如键盘、鼠标或触摸屏)或间接(例如通过有线或无线连接,包括通过因特网)接收客户请求。客户的非限制性实例包括提供样品的受试者、医务人员、临床医师、实验室人员、保险公司人员或医疗保健行业的其他人员。在一方面,本公开内容提供了一种包含代码的计算机可读介质,所述代码在由一个或多个处理器执行时,实施根据本文公开的任何方法的方法。在一些实施方案中,计算机可读介质的执行基于来自样品源的样品中的多个多核苷酸的测序读取来实施鉴定所述多个多核苷酸的方法。在一个实施方案中,计算机可读介质的执行实施包括以下步骤的方法:(a)针对所述测序读取中的每一个,执行所述测序读取与多个参考多核苷酸序列之间的序列比较,其中所述比较包括计算k-mer权重作为所述测序读取中的k-mer衍生自在所述多个参考多核苷酸序列内的参考序列的可能性的量度;(b)针对所述测序读取中的每一个,如果参考序列的k-mer权重之和高于阈值水平,则将测序读取鉴定为对应于参考序列数据库中的特定参考序列;以及(c)组装包含在步骤(b)中所鉴定的参考序列的记录数据库,其中所述记录数据库排除未与测序读取相对应的参考序列。在另一个实施方案中,计算机可读介质的执行基于多个多核苷酸的测序读取来实施鉴定来自样品源的样品中的一个或多个分类单元的方法,该方法包括:(a)针对所述测序读取中的每一个,执行所述测序读取与多个参考多核苷酸序列之间的序列比较,其中所述比较包括计算k-mer权重作为所述测序读取中的k-mer衍生自在所述多个参考多核苷酸序列内的参考序列的可能性的量度;(b)针对所述测序读取中的每一个,基于该k-mer权重计算所述测序读取对应于参考序列数据库中的特定参考序列的概率,由此产生序列概率;(c)基于与代表一个或多个分类单元的序列相对应的序列概率来计算所述一个或多个分类单元的存在或不存在的评分;以及(d)基于相应的评分,将所述一个或多个分类单元鉴定为在样品中存在或不存在。计算机可读介质可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘,诸如任何计算机中的任何存储设备等,诸如可用于实现计算步骤、处理步骤等。易失性存储介质包括动态存储器,如计算机的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括在计算机系统内包含总线的电线。载波传输介质可以采取电信号或电磁信号的形式,或声波或光波,诸如在射频(rf)和红外(ir)数据通信期间产生的那些。因此,计算机可读介质的常见形式包括例如:软盘、柔性盘、硬盘、磁带、任何其他磁性介质、cd-rom、dvd或dvd-rom、任何其他光学介质、穿孔卡纸带、具有孔洞图案的任何其他物理存储介质、ram、prom和eprom、flash-eprom、任何其他存储器芯片或匣盒、载波传输数据或指令、传送这种载波的电缆或链路,或计算机可以从其读取编程代码和/或数据的任何其他介质。许多这些形式的计算机可读介质可能参与将一个或多个指令的一个或多个序列运载到处理器以供执行。实施例给出以下实施例是为了说明本发明的各种实施方案,而并非意图以任何方式限制本发明。本实施例以及本文所述的方法目前代表优选的实施方案,是示例性的,而且并非旨在限制本发明的范围。本领域技术人员将会想到由权利要求的范围所限定的在本发明的精神范围内所包含的其变化和其他用途。实施例1:样品系统架构构建了根据本公开内容的实施方案的示例系统。该系统的结构和用户界面的概述在图1a-b中示出,并且在这些示例中被称为分类法(taxonomer)。对于这些示例中的各种分析,原始fastq文件是分类法的输入,其包括四个主要模块。“binner”模块将测序读取分类(“分箱”)为宽泛的分类群(例如宿主和微生物),然后在核苷酸(“分类器”模块)或氨基酸水平(“protonomer”和“afterburner”模块)上进行综合分类。在这个示例系统中,“binner”模块使用精确的k-mer计数,用于采用预定义的最小阈值的读取分配。“分类器”模块应用精确的k-mer匹配和概率分类分配,用于在核苷酸水平上进行细菌和真菌的宿主转录物表达谱分析和分类。“protonomer”模块应用6帧翻译,用于在氨基酸水平上进行病毒检测。当使用发现模式时,氨基酸水平分类失败的测序读取经历“afterburner”模块,该模块使用缩减的氨基酸字母表用于提高的灵敏度。默认分类数据库包括ensembl(参见flicek,p.等人ensembl2014.nucleicacidsresearch42,d749-755(2014))(人转录物)、greengenes(参见desantis,t.z.等人greengenes,achimera-checked16srrnagenedatabaseandworkbenchcompatiblewitharb.appliedandenvironmentalmicrobiology72,5069-5072(2006))(细菌)、unite(参见koljalg,u.等人towardsaunifiedparadigmforsequence-basedidentificationoffungi.molecularecology22,5271-5277(2013))(真菌)以及uniref90(参见suzek,b.e.,huang,h.,mcgarvey,p.,mazumder,r.&wu,c.h.uniref:comprehensiveandnon-redundantuniprotreferenceclusters.bioinformatics23,1282-1288(2007))(病毒、病原体)。微生物谱可以biom格式提供(参见mcdonald,d.等人thebiologicalobservationmatrix(biom)formator:howilearnedtostopworryingandlovetheome-ome.gigascience1,7(2012))。fastq格式的读取子集可用于定制下游分析。为了进一步消除临床和学术采用宏基因组学的障碍,开发了用于分类法的网页界面,其允许用户将fastq文件(本地或通过http访问)流式传输到分析服务器,并实时交互显示结果(如图1b所示)。使用流式网页应用程序,可以在大约5秒内通过快速因特网连接来分析和显示超过1x105个配对末端读取。分类法的特征在灰色框中描述。下面进一步描述分类法的附加特征。binner数据库是通过对不同分类数据集或基因数据集中独特的21bpk-mer进行计数创建的。这是使用kanalyze0.9.7版(参见audano,p.&vannberg,f.kanalyze:afastversatilepipelinedk-mertoolkit.bioinformatics30,2070-2072(2014))来完成的,但是可以替代地使用jellyfish2.3版(参见marcais,g.&kingsford,c.afast,lock-freeapproachforefficientparallelcountingofoccurrencesofk-mers.bioinformatics27,764-770(2011))。每个分类数据集或基因数据集代表一个“箱元”,其中查询序列可以根据其k-mer内容来放置。每个数据库被分配独特的位元标志,该标志允许k-mer属于待识别和计数的一个或多个箱元。数据库箱元和标志在图19中示出。将k-mer计数合并成单个二进制文件,其具有两列,即k-mer和数据库标志。可以提供其他信息的其他列。该文件按字典顺序分类,以针对快速k-mer查询进行优化。然后将读取分配给与之共享最多k-mer的分类群。一些参考序列数据库是子集或与其他重叠(例如“人类转录物”和“人类基因组”),并且一些序列可以被分配不同的taxid's(例如,如果噬菌体序列整合为原噬菌体,则其可以被注释为病毒或细菌)。因此,查询序列可以与多于一个参考数据库共享数目相等的k-mer。'binner'模块分配这些查询序列,如以下表1所示。对于网页显示,子箱元作为较大箱元的一部分显示出,其组织被总结用于在表2中可视化。表1:对于具有数目相等的k-mer的读取的箱元分配与多个binner数据库匹配,且k-mer匹配低于阈值。表2:门户网站上显示的饼图的内容。不明确的以上未指定的任何数据库的组合通过综合人类和微生物参考数据库的k-mer含量的最小交叉(0.47%)实现了高分箱精度(图6a-图6b)。使用youden指数和f1评分通过接收者操作者特征分析来确定最佳k-mer截止值(参见akobeng,a.k.understandingdiagnostictests3:receiveroperatingcharacteristiccurves.actapaediatr96,644-647(2007)),并且范围为3-13(表3,默认值,n=11)。基于这些结果,为binner模块选择默认k-mer为11。表3.基于youden指数和f1评分的箱元分配的最佳k-mer截止值。为了根据包含衔接子序列的读取消除分箱,可以提供衔接子数据库;binner可以忽略衔接子数据库中存在的k-mer。在该实施例中,binner忽略了illuminatruseq衔接子中存在的k-mer。此外,可以提供加标对照序列的数据库(例如externalrnacontrolsconsortium(ercc)对照序列的数据库))以允许对加标对照的定量。分类器用于在由binner对序列进行子集化(subset)之后鉴定序列来源。分类器基于精确的k-mer匹配来鉴定序列的来源。根据公式1计算参考序列的k-mer权重,并且基于k-mer权重之和将读取分配给参考序列。在平分的情况下,考虑读取沿着系统发育树的每个分支的总k-mer权重,将查询序列分配给分类学最近共同祖先(lca)。protonomer另外还处理未被分类器分类为高于阈值的序列读取和binner已将其置于病毒类别的序列。读取在所有六个读取框中翻译,然后使用非简并翻译方案反向翻译。使用相同的非简并翻译方案反向翻译uniref90蛋白质数据库。根据如上所述的等式1,将每个读取的反向翻译的序列与具有30-bpk-mer(对应于10个氨基酸)的反向翻译的uniref90数据库进行比较。为了增加远距离同源蛋白质的发现(recovery),分类法采用了afterburner模块——一种采用缩减(collapsed)氨基酸字母表的简并k-mer匹配引擎。afterburner在blosum62矩阵上使用k-means聚簇来产生压缩的氨基酸字母表(见图8)。与protonomer相比,这种压缩的字母表导致更高的分类灵敏度,序列以较高的假阳性率为代价有更多的分歧。实施例2:样品网络服务和实现在该实施例中,描述了用于如实施例1所述的分类法的网络服务和实现。可以通过基于网络的可视化来快速处理并有效地解释复杂的宏基因组数据(图1b图示了这种界面)。当读取被流传输到分析服务器时,呈现出饼图,总结了分箱过程的结果。当选择该饼图的细菌、真菌、病毒或噬菌体箱元之一时,分类器/protonomer模块的结果显示在旭日型可视图(sunburstvisualization)中。在网页顶部提供了关于抽样的读取数目、分类的读取数目和检测阈值的附加信息。检测阈值告知用户特定生物体必须具有多大的丰度才能用所抽样的读取数目检测到,从而提供样品中检测灵敏度的指标。此外,滑动器允许用户为了以旭日图显示所需的最小读取数目而选择绝对截止值。实施例3:分类法的数据库构建在该实施例中,描述了用于如实施例1所述的分类法的数据库的构建。分类器和protonomer数据库是模块化的,只由在其定义行上具有“亲本标签”的多fasta文件组成。这些标签描述了每个参考序列的即时系统发育亲本分类单元。细菌分类基于标志物基因方法。该标志物基因为16srrna基因,以及来自greengenes数据库(具有操作分类单位otu的参考集,在99%聚簇,版本138,图19)的基因。该参考集包含来自1,262,986个参考序列的203,452个otu簇。每个otu的分类谱系用于创建分层分类法图,以表示otu关系。为了支持otu的“种”的概念,对没有值的分类谱系中的等级完成了分类法。来自可获得的最高分类等级的独特虚拟种名称用于填补空值。greengenes数据库的版本被格式化,以供在blast、rdp分类器和kraken内使用。真菌分类也基于标志物基因方法。该标志物基因是内部转录的间隔区its、rrna序列和unite数据库(参见koljalg,u.等人towardsaunifiedparadigmforsequence-basedidentificationoffungi.molecularecology22,5271-5277(2013))(版本sh_taxonomy_qiime_ver6_dynamic_s_09.02.2014,图19)。该参考集包含从具有98.5%的默认聚簇阈值和专家分类策略的376,803个参考序列产生的45,674个分类单元(物种假说,sh)。为没有值的等级创建虚拟名称。unite数据库的版本被格式化,以供与blast、rdp分类器和kraken一起使用。病毒蛋白数据库是使用在2014年6月16日下载的uniref90(参见suzek,b.e.,huang,h.,mcgarvey,p.,mazumder,r.&wu,c.h.uniref:comprehensiveandnon-redundantuniprotreferenceclusters.bioinformatics23,1282-1288(2007))而创建的。基于ncbi分类法将该数据库减少到289,486个病毒序列。分离噬菌体序列,为其他病毒留下总共200,880个参考。ncbi分类法用于确定序列关系。为了测试目的,由refseq(与kraken的完整数据库相同;n=210,627个总参考文献;n=5,242个细菌参考,使用ncbi分类法)以及2014年9月24日下载的完整核糖体数据库项目数据库(n=2,929,433个参考,使用rdp分类法)构建另外的细菌分类数据库。构建数据库以使查询速度最大化。k-mer以字典顺序存储,并且利用k-mer最小化器指向数据库中的k-mer区块。一旦k-mer区块被隔离,则用二进制搜索完成查询。除了存储k-mer的lca之外,我们还存储k-mer计数和具有相关的k-mer权重的每个参考(高达可调节的截止值)。binner数据库由两个二进制文件组成:一个扩展名为“.bmi”,另一个扩展名为“.btbi”。扩展名为“.bmi”的文件包含有关k-mer最小化器和“.btbi”文件中k-mer区块指针的信息。“.bmi”文件包含具有以下格式的行:表3a..bmi文件中的变量类型“.btbi”文件的标题是176位。标题由以下值和c变量类型组成:表4..btbi文件中的变量类型由“.bmi”文件索引的每个k-mer区块以“.btbi”文件中的以下行开始:表5.在.btbi文件中索引的k-mer区块的起始行的结构k-mer区块中第一行之后的所有其他行具有以下格式:表6.在.btbi文件中索引的k-mer区块的所有其他行的结构变量类型变量含义uint64_tk-meruint64_tk-mer数据库指定分类器数据库由具有以下扩展名的3个二进制文件组成:“.mi”,“.tbi”和“.rsi”。扩展名为“.mi”的文件包含有关k-mer最小化器和“.tbi”文件中k-mer区块指针的信息。“.mi”文件包含具有以下格式的行:表7..mi文件中行的结构“.tbi”文件的标题是176位。标题由以下值和c变量类型组成:表8..tbi文件中标题行的结构由“.mi”文件索引的每个k-mer区块以“.tbi”文件中的以下行开始:表9..tbi文件中非标题行的结构k-mer区块的第一行之后的k-mer区块中的所有其他行具有“.tbi”文件中的以下格式:“.rsi”文件的每一行具有如下格式:表10..rsi文件中行的结构变量类型变量含义uint64_ttaxid计数uint64_t*taxidsuint64_t*每个taxid的k-mer权重分类法数据库包括每个taxid的单个k-mer权重。这允许分类法在读取之间累积这些权重,以增加序列查询分配灵敏度和特异性二者。实施例4:分类法与surpi的比较在该实施例中,将实施例1中描述的分类法的性能与surpi进行比较(参见例如naccache,s.n.等人acloud-compatiblebioinformaticspipelineforultrarapidpathogenidentificationfromnext-generationsequencingofclinicalsamples.genomeresearch24,1180-1192(2014))。与surpi相反,分类法使用非贪婪分箱算法,surpi使用贪婪数字减法算法(见图7)。在该实施例中分析的数据来自图6d所示的33个儿科呼吸道样品之一(rna)和另外的鼻咽样品(dna)。在通过surpi分类为人类的读取中,当使用同时分箱策略时,1%被分类法分类为真菌的,分辨率较低(11%)或不能置信地区分密切相关的箱元(23%)。虽然通过两种算法进行的高水平分类法分配对于73.8%的读取一致,但是分类法将16%的读取分配给不明确的来源(与多个数据库相同地匹配),而其中96%被surpi分类为人类。这主要是由于高度保守的核糖体和线粒体序列,但对于真菌序列而言类似效果也是明显的,其中18%被surpi分类为人类。分类法的无比对分箱方法能够比基于比对的方法(5,798)捕获更多的噬菌体/病毒序列(7,426),并导致较少的未分类测序读取(3.2%对4.5%)。与dna测序数据中rrna和mtrna序列的较低丰度一致,分类法在dna数据集中的不明确的分配少于rna数据集(0.04%,其中40%被surpi分类为人类,59%被分类为病毒的;总体一致性为98.7%)。除了假阴性的数目减少之外,binner还向用户提供了分类法网络服务,该网络服务在计算的大约第一秒钟左右内对甚至最大和最复杂的数据集的内容进行了高水平概览。实施例5:分析时间和分类完整性的评估在该实施例中,将实施例1中描述的分类法的性能与kraken和surpi进行比较。图18显示了分类法、kraken和surpi的时间和分类百分比。对于这种分析,使用来自三个具有一定范围的宿主与微生物组成谱的病毒阳性呼吸道样品的rna-seq数据(参见例如graf,e.h.evaluationofmetagenomicsforthedetectionofrespiratoryvirusesdirectlyfromclinicalsamples.(2015))。kraken是最快的工具;其平均每个样品需要约1.5min。然而,可能由于其仅依赖于核酸水平的分类并使用单个参考数据库,kraken比分类法或surpi分类更少的读取。surpi使氨基酸水平检索能够用于病毒检测和发现,但这大大延长了分析时间,达到每个样品在1.5到12小时之间。像surpi一样,分类法提供了基于核酸和蛋白质的微生物分类,但是分类法也创建了宿主表达谱。分类法达到类似于kraken的时间,平均需要约5分钟才能使用16个cpu分类5-8x106个配对末端读取。此外,分类法将3个样品中的2个中的最大读取数目分类,并对于第三个样品与surpi平分。分类法提供快速、有效的用于读取和叠连群分类的手段,比最快的可用工具(kraken和surpi)准确得多,并且在非常接近当前标准rdp的16s扩增子数据上能够达到精确度。这通过分类法的综合数据库、其k-mer权重方法及其在单个集成算法框架内进行基于核苷酸和蛋白质的检索和分类的能力而得到促进。在测试的数据集上,分类法比surpi快了几个小时,比rdp快了几天。来自相同未呈现的细菌的16s序列(但不是来自其他基因组目标的合成读取)几乎总是被分类法正确地分箱(但不是错误地分类;参见图6),从而突出了分类法基于标志物基因的方法的优点,既用于发现新生物体,又用于避免错误分类陷阱。图6b还示出了通过“binner”模块对人类和微生物序列进行分类的接收者操作者特征(roc)曲线。使用“binner”模块分析总共1×106个合成的100bp读取(80%人类、10%细菌的、5%真菌的、1%病毒的和4%来自寄生虫;1%错误率)并解释正确的箱元分配,以对从1到40范围内的读取分箱使用最小k-mer计数阈值计算灵敏度和特异性。框出和圈出的阈值分别代表由f1评分和youden指数确定的最佳截止值(见表3)。图6c显示,对于系统发育距离远的物种,细菌和病毒读取的分箱灵敏度可能很低。合成细菌和病毒读取是从基于单细胞测序的细菌基因组草图、衍生自宏基因组测序数据的细菌基因组支架以及最近发表的基因组序列产生的。对于未在binner数据库中呈现的细菌(中值分别为2.1%、5.4%和64.9%)和病毒(对于199个病毒基因组,n=56,中值为22.1%,0%),正确分箱(相对于分配为“未知的”)的灵敏度可以是低的。相比之下,来自相同的未呈现细菌的16s序列几乎总是被正确地分箱(中值为100%)。这突出了16srrna标志物基因的保守性和参考数据库的更高完整性。因此,生物体仍被鉴定为存在于样品内并且可以置于系统发育环境中。图6d显示了对于至少一种呼吸道病毒阳性的33个儿童呼吸道样品,由“binner”模块确定的不同分类箱元的相对读取丰度,包括每个箱元(6.3×106±2×106个读取/样品)的中值和四分位距(iqr)。所有箱元的相对丰度差异很大,但病毒和真菌箱元的差异达到近4个数量级。仅1%中值(iqr为0.4-2%)的读取不能被分配箱元(未知的)。9%中值的读取来源于人类mrna,支持使用来自鼻咽样品的总rna-seq能够进行宿主转录物表达谱分析的设想。实施例6:细菌和真菌分类在该实施例中,将实施例1中描述的分类法的实施方案用于分类来源于细菌和真菌样品的读取。综合分类数据库可以减少由从查询序列到数据库的不完全匹配导致的错误。默认参考数据库的选择可以影响分类器的特异性和灵敏度。一个解决方案是使用refseq,但refseq(在访问时)的版本只包含约5,000个测序的细菌分类单元,而鉴于现有的序列数据库,可用的16srrna序列提示存在至少100,000-200,000个otu。从分类数据库中不存在的分类单元衍生的读取可能导致假阴性和假阳性分类,特别是在属和种水平上(图11)。图11显示,在参考数据库中未呈现的查询序列引起假阳性和假阴性分类,并且分类法比其他工具受到的影响较小。图11a示出了如通过blast、rdp分类器、kraken和分类法分类的,由在参考数据库中具有相同呈现的silva参考(n=10,000)模拟(20x覆盖度)的合成读取的读取水平分类精度。虽然只有84.2%(blast)、85.2%(rdp)、64.9%(kraken)和83.7%(分类法)的读取被分类至种水平(16s基因的高度保守区域的影响不允许种水平的分配),但所有分类算法的假阳性率最小,为0.4%(blast)、0.7%(rdp)、0.02%(kraken)和0.1%(分类法)。图11b显示了采用silva参考(n=10,000)的相同分析,对其而言在参考数据库中存在高度相似但非相同的序列(基于全长megablast的97%-98.99%的成对序列同一性)。具有种水平分类的读取的比例下降到39.1%(blast)、49.0%(rdp)、26.9%(kraken)和47.4%(分类法),并且5.3%(blast)、5.1%(rdp)、10.2%(kraken)和13.7%(分类法)的读取被分类至与合成读取来源不同的分类单元。图11c显示,对于从仅与参考数据库中最接近的匹配(基于全长megablast)共有90%-96.99%成对序列同一性的silva参考(n=10,000)模拟的合成读取,该效果甚至更显著。在这种情况下,按常用的定义不可能进行种水平的分类,甚至属水平的分类也下降到33.0%(blast)、40.8%(rdp)、32.1%(kraken)和38.8%(分类法)。在种水平上,22.1%(blast)、51.5%(rdp)、55.7%(kraken)和66.4%(分类法)的读取被分配给除它们所模拟的那些之外的分类单元。采用从随机选择的silva参考以20x覆盖度模拟的250bp配对末端16srdna读取进行了所有研究,没有错误。表11.通过surpi对读取1与读取2的宽泛分类学分类对于2-9%的配对对存在差异。通过surpi的宽泛分类学分类(按照图2d)对于配对合成读取(silva119)的读取1和读取2以及rna-seq数据(来自图1b的样品,限于通过质量过滤器的对,参见方法)来确定。针对一致性比较了广泛的分类法分配。对于合成16s读取对,不一致性的范围在2-3%之间,对于rna-seq数据,在3-9%之间。对于具有较高细菌读取丰度的样品(图1b的样品2和3),不一致性最大,这推测是由于数据库不完整,注释不一致,并且因为surpi的分配是基于具有最高评分的单一参考序列。分类工具的性能通常仅用从参考数据库衍生的合成读取来测试,使得所有合成读取都存在完全匹配。对于微生物分类,这是一项高度人为的挑战,因为在临床或环境样品中常常遇到新的物种或菌株。为了提供更现实的挑战,从silva数据库中的细菌16srrna序列产生合成读取,其在分类法的greengenes衍生参考数据库中缺乏完全匹配(1013个来源参考中的468个,占46%,在分类数据库中没有完全匹配,表12)。分类法采用标志物基因方法和定制的greengenes衍生数据库用于原核生物分类。使用每个工具的默认设置和数据库比较通过分类法、surpi和kraken对合成读取的分类:nt(surpi)、refseq(kraken)和greengenes99%otu(分类法)。kraken报告了每个读取的最终分类法分配的分类单元标识符。尽管发现置信度评分对基准测试的结果几乎没有影响,但可以使用辅助脚本(kraken-过滤器)来应用置信度评分(见图10)。surpi报告了对于用于比较的映射工具(snap,rapsearch2)的最佳命中。该比较的结果(图2a)显示,在种水平上,例如,分类法正确地分类59.5%的读取,不正确地分类15.7%的读取,以及未能分类24.8%的读取。相比之下,kraken将29%的读取分类为正确的种,并显示出高假阳性率,不正确地分类每个剩余的读取(71%)。surpi的结果已分为两列,以反映surpi与分类法和kraken不同,独立地对来自配对读取的每个读取进行分类,并且在许多情况下,这些分配是不一致的(表11)。因此,当来自配对对的任一读取被正确分类时,surpi列的右侧部分记录分类率;左侧部分记录将两个配对分类到相同分类单元的分类率。可以看出,surpi表现逊色于分类法和kraken。表12:与“分类器”数据库中最相似的参考序列相比,用于生成图2a-d和图8-图10的合成读取集的全长silva参考的序列同一性。使用来自silva(版本119)数据库的1,013个随机选择的细菌16s序列构建合成读取集。使用blast将相同的全长silva参考与“分类器”参考数据库(greengenes,99%otu聚簇)进行比较以确定序列同一性。使用的silva参考序列的几乎一半在“分类器”参考数据库中仅具有不完全匹配。仅使用具有≥97%序列同一性的参考来构建图2、图10、图12和图13的合成读取集。为了显示不同数据库对分类法的影响,使用refseq、krake默认、rdp或greengenes(分类法默认)数据库对以上产生的合成读取进行分类(图2b)。使用该默认数据库,分类法正确分类了59.5%的读取,并恢复了94.9%的物种。使用kraken的默认数据库(refseqdb),分类法正确分类了27%的读取,并恢复了71.6%的物种,与使用相同数据库时的kraken的结果相似,分别为:29%和71%。图2b中还显示了使用rdp数据库(rdpdb)的分类法的分类和恢复率。对于rdp分类,分类被解析为等级,最小置信度水平≥0.5。尽管分类法使用rdp数据库将读取误分类很少,但使用分类法的默认数据库,整体性能实质上更好。使用分类法默认的16s数据库比较了四种分类工具:megablast、rdp分类器、kraken和分类法。对于此实施例,使用默认的megablast参数。确定最高评分参考并用于分配操作分类单位(otu)或物种假设(sh)。当多个otu/sh参考共享100%同一性时,将多个otu/sh分配给反向翻译的读取。如果没有otu/sh与读取有100%的同一性,最大命中的0.5%范围内的所有otu都被分配给该读取。比较了分配的otu/sh的分类法,并将共同的最高等级用于将分类值分配给该读取。同一性百分比用于确定最高分类等级的分配。当在这个等级可获取谱系信息时,具有>97%同一性的序列读取被分配给种,>90%同一性分配给属,且<90%被分配给科。对于rdp的分类,分类如上所述被解析为等级,最小置信度水平≥0.5。surpi不包括在比较中,因为没有选项来使用用户提供的数据库。如图2c所示,分类法在模拟细菌读取分类中的表现与rdp分类器(已知的参考工具)的表现非常接近。在种水平上,分类法和rdp分类器正确分类了59.5%和61.4%的读取,且恢复率非常相似。虽然kraken的分类和恢复率在使用分类法数据库时与其本身相比显著提高,但是与kraken相比,分类法正确地分类的读取仍然多了13.5%(59.5%对46%),并且假阳性率也较低(15.7%对20.1%)。分类法也在分类单元恢复率方面表现优于kraken(94.9%对83%),并且分类法的错误恢复率也较低(23.3%对37.9%)。我们检查了读取长度(图12)和测序误差对分类精度的影响(见图13)。图12示出blast、rdp分类器、kraken和分类法使用greengenes99%otu数据库的读取水平(上)和分类单元水平(底部)的细菌分类精度。读取是使用100bp单端(图12a)或(b)100bp配对末端(图12b)16srdna读取,其以5x覆盖度从1,013个随机选择的silva参考模拟,其具有与参考序列≥97%的序列同一性。分类法的性能与rdp分类器相当,并且优于kraken,而给定的应用标准blast较不灵敏但更特异。图13显示了blast、rdp分类器、kraken和taxonomer在0.01%、0.1%、1%、5%和10%的错误率下使用相同的读取长度和数据库的科、属和种水平分类精度。根据读取长度所有工具的性能改善。taxonomer和kraken均对序列错误比blast和rdp分类器更灵敏,因为它们依赖于精确的k-mer匹配。然而,这些相同的分析表明,分类法的核苷酸分类算法具有抗错误性,对于具有小于5%误差的序列,分类法比kraken具有更高的分类精度。图2d示出了使用分类法真菌数据库的分类和恢复率。可以看出,在图2c-图2d中都看到相同的总体趋势,证明了分类法的性能优点不限于细菌分类。表13:用于细菌丰度估计(图2e)的已发表16s扩增子数据的登录号、读取的数目以及rdp分类器和分类法的分析时间。用于参考(b)的读取数目基于配对对。这里ref(a)和ref(b)是指数据所来源的出版物(ref(a)为subramanian,s.等人nature510,417-421(2014);ref(b)为lax,s.等人science345,1047-1052(2014))。由于定量微生物群落组成是宏基因组学研究的一个常见目标,我们还使用最近发表的16s扩增子测序数据(见表13)和基于rna-seq的宏基因组学(图2e),将分类法的细菌丰度估计与rdp分类器的估计值进行比较。分类法丰度估计与所有三个数据集的分类水平的rdp高度相关。分类法提供了速度提高了>200倍的条件下的高度可比的群体谱(对于2x100bp读取,spearman相关系数:r2=0.955);平均1,630,923个2x100bp读取/样品;在1个cpu上,平均运行时间为27.4分钟(分类法)和120.7小时(rdp分类器)。图14a和14b显示了使用greengenes99%otu参考数据库与分类法kraken对比的rna-seq基因组学结果。kraken与基于rdp分类器的丰度估计的相关性较弱(对于2x100bp读取,spearman相关系数:r2=0.891);平均运行时间为42秒/样品。图14c和图14d显示了在hiseq2000(深绿色,1x150bp读取)和miseq仪器(浅绿色,2x150读取)上生成的两个公开数据集的可变区4的16srrna基因扩增子序列。显示对于分类法和rdp分类器(图14c,spearman相关系数:对于1x150bp读取为r2=0.858,对于2x150bp读取为r2=0.826)的丰度估计(限于分类单元与每个样品相对丰度>0.1%)的相关性。每个样品的读取平均数为44,685,分类法的平均处理时间(使用1个cpu)为1:28分钟,rdp分类器的平均处理时间为7.9小时。使用greengenes99%otu参考数据库的kraken确定的丰度估计与基于rdp分类器的丰度估计相关性较弱(spearman相关系数:对于1x150bp读取,r2=0.697,对于2x150bp读取,r2=0.810);平均运行时间为2.5秒/样品。spearman相关系数(ρ)对于16s扩增子数据分别为0.96和0.997(目),0.858和0.826(属),以及对于rna-seq为0.992(目)和0.955(属)(图2e和图14)。然而,分类法的平均分析时间快了260至440倍(图2e和图15)。总而言之,这些基准表明了分类法分类数据库的重要作用及其分类算法的能力和速度。实施例7:病毒分类在该实施例中,将实施例1中描述的分类法的实施方案用于分类衍生自病毒源的读取。使用已知携带特定呼吸道病毒的24个样品的rna-seq数据。ncbint数据库中24种呼吸道病毒与参考序列的平均成对基因组水平序列同一性为93.7%(范围为75.9-99.8%;见表14和图8a)。来自每个样品的测序读取由binner分箱,“病毒”和“未分类”的箱元(参见图1a和6c)通过protonomer、rapsearch2(默认和快速设置)和diamond(默认和敏感设置)进行分类学分类。rapsearch2由surpi使用(参见zhao,y.,tang,h.&ye,y.rapsearch2:afastandmemory-efficientproteinsimilaritysearchtoolfornext-generationsequencingdata.bioinformatics28,125-126(2012)),而diamond是一种超快速的blast样蛋白质搜索工具(参见buchfink,b.,xie,c.&huson,d.h.fastandsensitiveproteinalignmentusingdiamond.naturemethods(2014))。protonomer显示灵敏度为94.6±2.7%,rapsearch2在默认模式下灵敏度为95.0±2.2%,快速模式下为94.8±2.2%,两者都比diamond灵敏,diamond灵敏度在默认模式下为90.5±2.7%,在敏感模式下的灵敏度为90.5±2.7%。相反,protonomer(90.7±17.1%)和diamond(默认值:92.0±17.1%,敏感度:91.9±14.9%)提供比在默认模式下的rapsearch2(88.0±20.0%)明显更高的特异性。protonomer分类读取速度比在具有16个中央处理单元的计算机上的rapsearch2(与默认模式相比为24倍,与快速模式相比为11倍)和diamond(与默认模式相比为2.6倍,与灵敏模式相比为3.3倍)快。protonomer显示出更好的整体性能,比diamond(90.5%)更灵敏(中值94.6%),比rapsearch2(88.0%)更特异(90.7%)(图3a-图3c)。通过对于每个样品将所有读取映射到手动构建的病毒共有基因组序列来确定真实的病毒读取。如预期的那样,所有工具的灵敏度与参考序列病毒基因组的成对同一性相关,diamond则最易受到新序列多态性的影响(图8b)。值得注意的是,diamond不支持配对测序读取的联合分析。在这种比较中,使用具有最低e值的配对对的结果,而不是调和读取配对的结果,这可能导致对diamond的乐观性能估计。protonomer也是三种工具中最快的,分类104-106个读取/样品(protonomer:14秒;diamond:默认为37秒,且灵敏模式为46秒;rapsearch2:默认为343秒,且快速模式为169秒,图8)。分类法进一步用于分析来自三个患者的已发表的rna-seq数据,其中检测到具有公共卫生意义的病毒病原体:来自由新型弹状病毒引起的出血热患者的血清样品(bascongovirus,图3d);来自患有禽流感的患者的咽喉拭子(h7n9亚型,图3e)和来自患有埃博拉病毒的患者的血浆样品(图3f)。在所有这三种情况下,即使从参考数据库中删除目标序列后,分类法检测到相关病毒,故此证明了分类法在公共卫生突发事件中快速病毒检测和发现的效用。其基于网络的部署使得即使在相距甚远时也可以快速分享和查看分析结果。表14:用于比较病毒序列的蛋白质水平分类的“protonomer”、rapsearch2和diamond的病毒、与ncbint数据库中参考序列的核苷酸水平同一性百分比,以及儿科上呼吸道样品的总读取和病毒读取的数目(参见图3、8和9)。hcov-人冠状病毒、hbov-人博卡病毒、hmpv-人偏肺病毒、hrv-鼻病毒、piv-副流感病毒、rsv-呼吸道合胞病毒。实施例8:人mrna转录物谱分析在该实施例中,使用实施例1中描述的分类法的实施方案描绘宿主反应,其主要是针对感染性疾病测试和对微生物污染物可能混合转录物表达谱的细胞系和组织的质量控制越加感兴趣。分类法是唯一具有此功能的超快速宏基因组学工具。分类法的默认数据库包括ercc对照序列,允许用户对转录物计数进行归一化。默认情况下,这些参考转录物和相应的基因模型(gtf文件)来自ensmbl人类参考序列grch37.75。使用大小为20的k-mer,这对于将读取映射到人转录物是有效的。表15.用于与macqpcr数据进行比较的人脑rna-seq数据的登录号将分类法的表达谱与标准转录物表达谱分析工具sailfish和cufflinks以及定量pcr进行比较。rna-seq与qpcr的基因水平pearson和spearman相关系数分别对于taxonomer为0.85和0.84,对于sailfish为0.87和0.86,并且对于cufflinks为0.80和0.80。这些结果表明,合成读取的分类法定量和市售的rna标准(具体为maqc,人脑组织样品,见表15)在宽泛的转录物丰度范围上是准确的。实际上,准确性处于sailfish和cufflink中间(图4a)。为了证明同时进行病原体检测和转录物表达谱分析的分类法能力的实用性,使用分类法来分析具有不同丰度的宿主与微生物rna的甲型流感病毒感染(n=4)患者呼吸样品的rna-seq数据(图4b),并比较mrna表达谱与无症状对照组(n=40)。在所有样品中通过分类法检测甲型流感病毒(图4c)。50个最差异化表达的宿主基因的归一化基因水平表达如图4d所示。17个宿主基因的表达谱在流感阳性患者中显著较高(表16,图4f中的实例),并且它们的表达谱在pc1主成分分析中明显区分病例与对照,占总方差的84.7%(图4e)。还分析了前50个差异化表达的基因的基因本体分配用于生物过程(图4g)和分子功能(图4h)的富集,证明它们参与识别病原体相关分子模式和抗病毒宿主反应。在体外或患者的外周血中已知这些基因的大多数但不是全部对流感病毒或其他病毒感染的响应进行差异调节。同时,这些结果证明了分类法联合病原体检测和宿主反应谱的发现以及潜在未来诊断应用的准确性和能力。使用fluxsimulator工具生成的合成rna-seq读取(2x76bp,n=15,000,000),将分类法的性能与sailfish和cufflinks进行比较(参见griebel,t.等人modellingandsimulatinggenericrna-seqexperimentswiththefluxsimulator.nucleicacidsresearch40,10073-10083(2012));参数参见表17。tophat(参见trapnell,c.,pachter,l.&salzberg,s.l.tophat:discoveringsplicejunctionwithrna-seq.bioinformatics25,1105-1111(2009))用于产生针对cufflinks的比对。像分类法一样,sailfish不需要外部比对信息。表16:与无症状对照(n=40)相比,检测为阳性流感病毒(n=4)的肺炎患儿的鼻炎和口咽拭子差异调节的基因(n=17)。显示读取计数和p值(原始的和经调整的)。a-对照;b-流感表17:用于产生针对基准转录分配的模拟rnaseq读取的通量模拟器参数。根据sailfish使用的基准测试,我们使用具有标志-c-m-e和-t的gffread实用程序以及仅由n组成的任何转录物来过滤转录物gtf。使用通量模拟器分类gtf命令分类gtf,并且gtf用于产生针对基准测试的合成数据。实施例9:感染和污染的鉴定在该实施例中,将实施例1中描述的分类法的实施方案用于鉴定生物样品中的感染和污染。分类法用于分析疑似感染埃博拉病毒,但对埃博拉病毒检测为阴性的患者的血浆中的rna-seq数据(图5a)。分类法检测到hiv、沙拉病毒、肠道病毒(由分类法分类为柯萨奇病毒)和gb病毒c。图16b显示,分类法将在塞拉利昂患有疑似埃博拉病毒病的患者的血清中报道的肠道病毒分类为肠道病毒a(srr1564825)。平均测序深度为162x,覆盖参考序列的96%(ay421765)。手动构建的病毒共有基因组序列的分析鉴定该菌株与柯萨奇病毒a7菌株parker共享80%核苷酸序列同一性。分类法还检测到先前未被识别的细菌感染鹦鹉热衣原体和脑膜脓毒性菌,这可能已引起患者的症状(图5a和16)。图16a示出了分类法检测到样品samn03015718(srr1564828)中的脑膜脓毒性菌。16srrna基因的平均覆盖度为16,162倍,并且共有序列与脑膜脓毒性菌(aj704540,atcc13253)的菌株共享99.9%的核苷酸序列同一性。对于两种情况,细菌16srrna基因的覆盖范围大于1000倍,而对于菌株序列的成对序列同一性>99%,使得可以进行可靠的鉴定。鹦鹉热衣原体的16srrna基因平均覆盖来自该分离物的与该类型菌株(6bc,atccvr-125,cpu68447)共享99.9%同一性的共有16srrna序列的7035倍。2个单核苷酸多态性的位置在图5ac中以红色突出显示。鹦鹉热衣原体是鹦鹉热的致病原,其是从鸟类获得的罕见的人畜共患病感染,通常呈现出发烧、头痛、咳嗽和有时腹泻。脑膜脓毒性菌是一种无处不在的革兰氏阴性细菌,其特征是引起新生儿脑膜炎或败血症,但也可以感染免疫功能低下的成年人。分类法用于检测来自肺炎儿童呼吸样品的病毒感染。使用trinity(参见例如grabherrmg等人natbiotechnol,2011may15;29(7):644-52)将分类为“病毒”或“未知”的读取组合成2,325个叠连群(运行时间6秒)。四个叠连群被鉴定为指环病毒科非分类的成员(图5b)。共同基因组序列与ttv样小病毒分离株lil-y1(ef538880.1)具有68.5%的成对同一性,并且预测的蛋白质序列与菌株lil-y1的同一性为44%-60%。图5b中的饼图和旭日图显示了叠连群水平的分类。将读取映射回手动构建的病毒共有基因组序列显示14倍的平均覆盖度。使用具有细环微型病毒的参考序列的新型指环病毒(图5b)的共有序列构建系统发育树。细环病毒1显示为外围(图17),表明分类法不限于短读取,允许对叠连群进行重新分析以获得更高的分类敏感性。用afterburner与protonomer组合分析用于产生annelovirus叠连群的239个读取。与图9中给出的基准数据一致,protonomer将239个读取中的19个分类为衍生自指环病毒,而protonomer与afterburner组合鉴定出来自指环病毒的239个读取中的89个。protonomer没有将任何指环病毒衍生的读取误分类,而afterburner将110个指环病毒衍生的读取误分类至其他病毒分类单元。图9中的基准数据显示来自已知有呼吸道病毒(表14:人冠状病毒,n=3;柯萨奇病毒,n=1;人博卡病毒,n=1;人偏肺病毒,n=2;;鼻病毒,n=10;副流感病毒,n=2;呼吸道合胞病毒,n=4)的23个样品的rna-seq数据被分箱,并且“病毒”和“未分类”的箱元由protonomer、afterburner分类,protonomer之后是afterburner分析先前未分类的读取(如图4a-h中的样品,参见图14a-d和表6)。图9a显示,protonomer(94.6±2.7%)和afterburner(94.5±2.3%)具有相似的灵敏度,而它们的组合稍微更灵敏(95.0±2.4%)。相反,图9b显示,protonomer(91.1±16.8%)的特异性比afterburner(86.6±21.4%)和两种工具的组合(86.8±20.7%)略高一些。通过将所有读取映射到每个样品的手动构建的病毒共有基因组序列来确定真实的病毒读取。图9c显示平均分析时间为14.3±7.5秒(protonomer)、27.4±21.5秒(protomer/afterburner)和41.7±28.7秒(afterburner)。所有工具都在16个cpu上运行。分类法检测到经受2种不同的文库制备方法和3种不同的新一代测序平台的呼吸道样品中的病毒(来自鼻咽拭子的甲型流感)和细菌(来自支气管肺泡灌洗物的支原体肺炎)病原体的高度相似比例(见图5d和图20)。虽然使用miseq和hiseq仪器分析相同的测序文库,但为ionproton仪器准备了单独的测序文库。在所有实验条件下,获得相似比例的病毒(所有读取的0.43%至0.55%)和细菌(16srrna序列代表所有读取的0.004%至0.006%)病原体序列。通过qpcr证实了两种病原体的存在。在三个平台的每个平台中,分类法鉴定出的>99%病毒读取被分类为甲型流感病毒。鉴定为支原体肺炎的细菌16s读取比例变化较大(miseq69.3%、hiseq65.9%、ionproton30.5%)。这些结果证明了分类法的多样性,以及如何与各种测序仪器一起使用以检测先前未检测出的病原体,并用于表达谱分析研究的质量控制。分类法用于检测细胞培养物中的污染物。从具有和不具有支原体污染的诱导多能干细胞培养物分析rna-seq数据。通过分类法对rna-seq数据的质量控制立即突出显示细菌污染(饼图),并将该生物体鉴定为酵母支原体(与该类型菌株(myu67946)具有99.4%的序列同一性)。通过映射到酵母支原体16srrna基因(245,000x覆盖度)的32%的rna-seq读取证实了rrna的高表达。实施例10:教育中的分类学分类教师可以根据本文所述的分类学方法和系统设计基因组学相关课程,如实施例1所述的分类法,以允许学生设计实验、收集样品并用分类法进行分析。学生收集土壤样品,从土壤样品中提取dna/rna,进行新一代测序,然后使用分类法分析分类组成,然后比较从不同地点收集的样品。实施例11:用于消费者的分类学分类消费者可以从口、皮肤或厨房水槽拭子中收集样品,将样品密封在拉链袋中,将样品邮寄到测序实验室,然后使用本文所述的分类学方法和系统(例如实施例1所述的分类法)在线分析测序结果。作为非限制性实例,牙医可以使用口腔拭子、牙齿拭子或牙签拭子获得样品以测试口腔或牙齿微生物。实施例12:用于食品安全和真实性的分类学分类食品安全检查员、食品制造商、供应商和消费者可以使用本文所述的分类方法和系统,如实施例1所述的分类法,通过检查食品中的微生物含量来检测食品污染,或通过检查食品成分是否与标签匹配来检查食品的真实性。作为非限制性实例,可以测试来自食物表面的拭子或小块食物。实施例14:用于医院安全和污染监测的分类学分类医院和卫生官员可以使用本文所述的分类方法和系统,如实施例1所述的分类法,来监测医院设备、房间和患者物品中的微生物污染。作为非限制性示例,可以测试来自设备、物品、墙壁或地板表面的拭子,以检测微生物污染物。作为非限制性实例,这种微生物污染物可以是微生物的多药耐药菌。实施例15:用于生物制品质量和安全监测的分类学分类检查员和消费者可以使用本文所述的分类方法和系统,如实施例1所述的分类法,来监测生物制品及生物制品生产过程中的微生物污染。作为非限制性实例,可以检查生物制品的微生物污染。在另一个非限制性实例中,可以检测生物制品生产过程中的细胞系或其他材料用于宿主基因表达谱分析、质量监测和微生物污染。实施例16:用于动物疾病诊断和治疗的分类学分类参与动物疾病管理的人,如兽医、农民或宠物主人,可以使用本文所述的分类学方法和系统,如实施例1所述的分类法,来诊断或治疗动物。作为非限制性实例,可以使用分类法收集、测序并分析口拭子、血液、鼻咽拭子、尿液、粪便或来自伤口部位的拭子。分析的结果可由从事诊断和治疗计划研发的兽医从业者使用。实施例17:用于微生物菌株谱分析的分类学分类本文所述的分类学方法和系统,如实施例1所述的分类法,可用于分析微生物菌株。可以构建含有微生物菌株信息的分类法数据库(例如由不同菌株,包括多药耐药菌株,构建的细菌数据库)。例如,全基因组dna序列或来自一个细菌种的多个菌株的测序读取可用于数据库构建。在另一个实例中,菌株序列可以来自病毒,如hiv、hcv、hbv和流感。对于这样的应用,可以使用k-mer减法方法来鉴定和保留分类数据库中的特定节点或叶的独特诊断的k-mer;这种方法可以用于去除阻碍诊断工作的多个节点或叶的常见的k-mer。例如,可以特异性地产生抗生素抗性或毒力因子分类数据库,其允许由特定抗性标记物或毒力因子产生的读取的独特鉴定。在一个实施方案中,通过计算在观察到其一个或多个参考序列(例如16s,cds等)的概率的给定样品中的某些微生物的概率来实现微生物菌株检测。首先,我们可以计算k-mer(ki)在给定的参考序列中被看到的次数,该给定参考序列由于错误而被读取标记,如等式2所示:等式2.这里'|nbrs|'表示参考序列数据库中kmer的数目,其与ki有单个或多个核苷酸的不同。lk是kmer的长度。ebase是测序平台的每个碱基的错误率;并且是包含那些相邻kmer的读取数目,是由于测序错误而预期观察到的ki的次数。然后我们可以计算出实际观察到的ki的概率,因为它实际上在样品中,如等式3所示:等式3.否则其中是由于错误只包含ki的观察|读取|的高斯期望值。然后,我们可以计算出如公式4所示的包含ki的一个或多个读取来自参考seqj的概率。等式4.其中|seqski|是包含ki的数据库中参考序列的数目,并且|r|是包含ki的读取的数目。换句话说,具有ki的每个参考序列同样可能产生包含ki的读取。在测序读取中观察到每个k-mer(ki)的概率的情况下观察到参考seqj的可能性是递归条件概率,如等式5所示:等式5.对于seqj中的所有递归的最终值给出了基于在读取数据集中观察到每个kmer一次或多次的概率来观察seqj的条件概率:在实践中,该公式可以扩展到可包含细菌定型、病毒基因组或细菌基因组或特异性微生物参考序列的orfs或其他参考序列的集合,如等式6所示。对于所有seqj∈集合等式6.在一个实例中,我们使用来自肺炎链球菌(s.pneumonia)基因组中7个遗传基因座的序列信息来应用这种方法。使用随机选择替代的天然多位点测序分型(mlst)基因座的参考基因组来模拟长度为50(图21a)、100(图21b)和125个碱基(图21c)的配对末端illumina序列读取,先前观察的mlst等位基因用于7个位点的每一个。在全基因组覆盖的6个不同平均水平(1、2、5、10、25和50x)下,对100个模拟全基因组重复该过程。使用三种方法测定mlst等位基因:(1)从头装配(“装配”),其中使用velvet装配器组装读取,之后使用对已知mlst等位基因数据库的blast确定最佳等位基因匹配;(2)共有读取映射(“共有”),其中使用bwa将读取映射到r6参考基因组,之后是mlst基因座和等位基因分配的多数规则共有碱基判定;以及(3)基于kmer的mlst打字(图21a-c中的“mlst”),其对读取集的k-mer内容进行编目,确定其观察的概率并使用复合相似性框架来分配最佳等位基因判定和复合mlst基因型。图21a-c中的框图示出了使用三种序列分型方法中的每一种并且在6种不同的模拟覆盖情况下正确鉴定的基因座的数目。通过(图21a)50bp读取、(图21b)100bp读取和(图21c)125bp读取的模拟读取长度将结果予以分层。我们还示出了在图22a-c中不同覆盖情况下,正确mlst基因分型的模拟肺炎链球菌菌株的分数。对于100株肺炎链球菌菌株,如图21a-c所示产生模拟的illumina读取。测序读取使用以下项来处理:(1)k-mermlst分型管道(“k-mer”,黑色),(2)从头装配(“装配”,蓝色)以及(3)读取映射和共同判定(“共同”,绿色),如图21a-c所示。在使用复合相似法(1)或找到基于blast的最高评分对(hsp;2和3)确定每个基因座的等位基因组成后,对长度为50(图22a)、100(图22b)和125(图22c)的配对末端读取在6种不同模拟覆盖情景下我们确定了正确鉴定的mlst基因型的分数。在另一个实施方案中,通过总结生物体的参考序列怎样由查询序列表示为单个评分或等级量,给出已知生物的参考序列数据库,可以确定一组查询序列例如来自下一代测序的测序读取中存在什么生物体。这可以通过两个步骤来实现。首先,可以k-mer化查询序列,并将k-mer放在匹配位置的参考序列上。第二,对于单个生物体,在参考序列中的k-mer位置的相对独特性和二值化的k-mer覆盖之间计算点积(其中如果k-mer覆盖度>0则二进制覆盖度=1,否则为0)。与整个数据库中的ki计数相比,k-mer独特性被计算为特定生物体中特定k-mer(ki)的分数。例如,如果在特定生物体中发现ki3次,并且ki在数据库中计数10次,则生物体中ki的独特性将为3/10或3。作为一个实例,假设参考序列包括三个k-mer:k1、k2和k3。这三个k-mer具有u1、u2和u3的相对独特性。这些k-mer具有bc1、bc2和bc3的二值化覆盖度。然后,点积被计算为(u1*bc1+u2*bc2+u3*bc3)。接下来,与生物体参考序列中的总碱基数相比,可以计算具有非零覆盖度的单个生物参考序列的碱基比例,称为术语pi。该信息可以使用加权和来总结称为等级量的单个数字。给定权重w1和w2,我们可以计算等级量为w1*(u1*bc1+u2*bc2+u3*bc3)+w2*pi。等级量是生物体的参考序列由查询序列适宜表示的精简概括。权重是0和1之间的数字,并且所有权重的总和在本例中为w1+w2,为1。在实践中,可以使用模拟和机器学习方法,例如随机森林,用训练数据集或大量模拟计算最优权重,并发现等级量截止值,允许在给定的一组查询序列中有关生物体的dna和/或rna存在或不存在的知情判定。在一个实施方案中,阳性鉴定生物体的截止值是固定值。在另一个实施方案中,阳性鉴定生物体的截止值根据查询序列中呈现的其他生物体的等级量而变化。由于不同生物体之间的同源性或序列相似性,来自一个生物体的序列的k-mer可以与其他生物体的序列相匹配,因此来自一个生物体的一组k-mer可以为一组不同的生物体产生不同的等级量值。截止值可以被定义为大于预定义的不同生物体组的等级量值。实施例18:用于肿瘤谱分析的分类学分类本文所述的分类学方法和系统,如实施例1所述的分类法,可用于分析肿瘤来源的dna。来自不同组织的不同肿瘤的dna序列可用于构建肿瘤数据库,然后该数据库可在分类法中用于分析从肿瘤组织获得的序列。分类法可以使用如此构建的肿瘤数据库将每个读取分配给最可能的肿瘤类型。作为非限制性实例,全基因组装配体或基因组序列读取可用于数据库构建。实施例19:用于法医谱分析的分类学分类如果从来自群体的个体的基因组序列构建这样的数据库,则本文所述的分类学方法和系统,如实施例1中所述的分类法,可用于将测序读取分配给该群体的个体。在一些实例中,对于有犯罪记录的人、进入美国的外国人或居住在一个国家的人,该群体用于构建数据库。来自犯罪现场的dna物质可以如上所述用分类法进行测序和分析,以确定是否存在来源于个体的dna样品。实施例20:用于基因检测的分类学分类本文所述的分类学方法和系统,如实施例1所述的分类法,可以与含有具有与疾病或状况相关的dna多态性的所有模拟k-mer的人工k-mer数据库一起使用。然后可以使用分类法将来自个体的测序读取分配给特定的致病基因型。作为一个实例,用分类法分析的dna可以是来自孕妇的胎儿来源的无细胞dna,以用于产前筛查,或者该dna可以来源于正在进行基因检测的个体的口腔拭子、唾液或血液。实施例21:使用k-mer权重或其他量度来计算分类数据库中每个序列之间的成对距离。本文所述的分类学方法和系统,如实施例1所述的分类法,可用于计算分类数据库中每个序列之间的成对距离。这样的成对距离可用于鉴定具有不一致的相邻元件的序列,从而鉴定先前存在的分类法或分类数据库中错误注释的或错误定位的序列。成对距离可用于产生新的对于准确分类和诊断而言具有最佳结构的系统发育树。引导程序(bootstrap)或其他节点置信度指标可用于分解分类树中的多分枝和解析不佳的节点,其原因在于例如加速了分类、改进了分类或提高了诊断准确性。上述数据库可用于将先前注释的参考序列分类为来源于在诊断说明中使用的常见临床菌株、分离物或以其他方式命名的生物体。该名称可以与数据库的适当叶和节点相关联,以便将数据库中的分类学关联与常用的生物体诊断名称相关联。类似的过程可以用于产生通过序列相似性组织的蛋白质数据库,使得不同的分支对应于不同类型的基因或蛋白质,例如不同功能、go分类、基因家族等。类似于针对核苷酸分类数据库所述,衍生出蛋白质的生物体的名称可以附加在蛋白质分类法中的适当叶和节点上。这种方法可用于区分密切相关的病原体,如大肠杆菌和志贺氏菌或炭疽和其他单独使用16s序列无法区分的芽孢杆菌。例如,其他蛋白质和核苷酸序列可以用于确认特定病原体的存在,其中该存在由第一条数据如16s序列指示,并且还存在被分类为分类单元特异性蛋白质的读取。可以报告这些确认性发现结果,以改善诊断。例如,可以使用上述过程分类病毒,以产生基于序列相似性或成对距离组织的蛋白质数据库,使得不同的分支将对应于不同类型的病毒基因,使得不同的分支将对应于不同类型的病毒基因。这些基因的非限制性实例可以是gag、env或pol。衍生出这些序列的病毒的名称可以附加到分类结构的适当叶和节点上。病毒数据库可用于确定病毒的或病毒分类单元的基因组的哪个部分存在于查询数据集中。例如,可以测试样品中检测到的hiv,特别是样品中含有hivgag和pol序列,但不含hivenv序列。实施例22:配对的联合分析对读取分箱的影响。在该实施例中,描述了使用如实施例1中所述的分类法,配对的联合分析对读取分箱的影响。使用“binner”模块分析来自图18的样品2,其中仅使用读取1,仅使用读取2,或在串联(concatenation)后联合分析两个读取。与单独基于读取1的结果相比,配对的串联导致较少的具有未知(-13%)和不明确的箱元分配(-19%)的读取。对于噬菌体(+58%)、细菌(+19%)、真菌(+18%)和“其他”(+17%)可见最大相对变化,见表18。表18.配对的联合分析对读取分箱的影响。虽然本文已经示出和描述了本发明的优选实施方案,但是对于本领域技术人员显而易见的是,这些实施方案仅以示例的方式提供。在不脱离本发明的情况下,本领域技术人员将会想到许多变化、改变和替代。应当理解,在实施本发明时可以采用本文所述的本发明实施方案的各种备选方案。以下权利要求旨在限定本发明的范围,并且涵盖在这些权利要求及其等同物的范围内的方法和结构。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1