一种环境微生物检测方法和系统的制作方法

文档序号:6470434阅读:130来源:国知局
专利名称:一种环境微生物检测方法和系统的制作方法
技术领域
本发明属于生物工程领域,尤其涉及一种环境微生物检测方法和系统。
背景技术
决定生物性状的蛋白质和RNA分子都是以DNA四种碱基的编码序列形 式,将信息储存于生物细胞中。这种DNA分子包含了生物体的全套遗传信息。 为了从整体角度去了解遗传信息的功能和作用,最重要的一步是将该生物的全 套遗传信息测定出来,即知道该生物所有的DNA碱基排列顺序。传统的基因 组测序主要采用"Sanger"法测序技术,也称作"末端终止法"测序技术。这 种测序方法的最大缺点是成本高、产量低。近年来,以Solexa为代表的"新 一代高通量测序技术,,悄然兴起。以"边合成边测序"为原理的Solexa测序技 术,有效地改进了传统Sanger测序法的不足,具有成本低、通量高、时间短、 测序准确率高、操作简便等诸多优点。 '
微生物在自然界中是无处不在,无处不有的,数目巨大。微生物对于地球 上的生命是至关重要的,它们可以将重要的元素转换为能量,保持大气中的化 学平衡,为植物和动物提供养分。微生物还可以用于实现许多商业目的,如制 造抗生素、提高农业效率以及生产生物燃料。此外还有一小部分微生物对人有 害,导致各种疾病的发生。从历史观点来看,微生物研究主要集中于研究个体 物种。但大多数微生物是以群落的形式存在于各种环境中(生物内环境、外环 境、极端环境等),而无法在实验室里单独培养。对于环境中复杂的微生物群 落,传统的研究方法是针对特定的保守基因(如16SrRNA等)使用PCR技术 扩增后进行测序。通过对这些保守基因的进化分类分析,从而将环境微生物进 行分类。这是从物种、甚至较高的分类级别来对环境孩t生物进行检测的方法。
6这种方法可以检测出环境中未知的微生物,并且具有操作简单、技术完备、成 本低廉等优点。但是随着微生物研究的不断深入、已公布的微生物基因组数目
日益增多,我们发现基于保守基因测序的检测方法存在如下局限性
1、 无法识别痕量的物种。通过PCR扩增测序得到的都是丰度较高物种的 基因序列。对于丰度较低的物种,需要大量的Sanger测序才能发现。
2、 不能简单地由几个基因来对物种进行检测。通过对现有703种细菌基因 组序列的比较分析和对真实环境样品的16S rRNA测序分析后发现很多近缘 物种的16S rRNA基因非常保守,几乎不存在差异,但是在表型上、功能上却 差异显著。
3、 得到较高级别的分类信息对以后的功能研究没有太大的作用。对于一个 微生物群落而言,有什么功能是我们最关心的。所以,我们的检测不能只在物 种或更高的分类级别上。即使是同一种细菌,不同菌株之间也会存在很大差异。

发明内容
本发明的目的在于提供一种环境微生物检测方法,旨在解决现有的环境微
生物检测方法难以识别痕量的物种的问题。
本发明是这样实现的, 一种环境微生物检测方法,所述方法包括下述步骤 采用高通量的测序技术对从环境样本中提取的DNA进行测序,得到DNA
标签序列;
去除所述DNA标签序列中存在的载体污染;
将所述DNA标签序列与已知数据库中的已知序列进行比对,并根据比对 结果确定所述DNA标签序列所属的分类。
本发明的另一目的在于提供一种环境微生物检测系统,所述系统包括
DNA测序单元,用于采用高通量的测序技术对从环境样本中提取的DNA 进行测序,得到DNA标签序列;
载体污染去除单元,用于去除所述DNA标签序列中存在的载体污染;
7所属分类确定单元,用于将所述DNA标签序列与已知凄t据库中的已知序 列进行比对,并才艮据比对结果确定所述DNA标签序列所属的分类。
在本发明实施例中,采用高通量的测序技术对从环境样本中提取的DNA 进行测序,得到DNA标签序列,去除该DNA标签序列中可能存在的载体污染 后,将该DNA标签序列与已知数据库中的已知序列进行比对,得到该DNA标 签序列的所属分类,从而可以检测到环境样本中可能存在哪些微生物物种或哪 一类^f效生物物种。


图1是本发明实施例提供的环境微生物检测方法的实现流程图2是本发明实施例提供的将DNA标签序列与已知序列进行比对,确定 DNA标签序列的所述分类的示意图3是本发明实施例提供的连续的映射到唯一位置的模拟标签序列确定特 有序列的示意图4是本发明实施例提供的环境微生物检测系统的结构框图。
具体实施例方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,采用高通量的测序技术对从环境样本中提取的DNA 进行测序,得到DNA标签序列,去除该DNA标签序列中可能存在的载体污染 后,将该DNA标签序列与已知数据库中的已知序列进行比对,从而得到该DNA 标签序列的所属分类。
图1示出了本发明实施例提供的环境微生物检测方法的实现流程,详述如
下在步骤S101中,采用高通量的测序技术对从环境样本中提取的DNA进行 测序,得到DNA标签序列。
其中高通量的测序技术为以Solexa、 Solid等为代表的第二代测序技术。由 于采用高通量的测序技术对DNA进行测序的具体过程是现有技术,因此,在 本发明实施例中,仅简述采用高通量的测序技术对从环境样本中提取的DNA 进行测序的过程
a、 从环境样本中提取DNA样品。在提取DNA样品时,需要保证样品中 DNA的高质量和微生物的多样性。
b、 对上述DNA样品进行文库制备。在本发明实施例中,如果需要构建双 向测序文库,则为了有效的解决高GC含量物种的测序难题,在文库制备过程 中,插入片段的长度一般小于200bp较为合适。
c、 进行高通量的DNA测序反应,得到大量的DNA标签序列(也称为测 序片段,可用reads表示)。
在步骤S102中,去除该DNA标签序列中可能存在的载体污染。
由于在测序反应中所使用的载体序列是特定的,因此,由测序反应得到的 DNA标签序列中可能包含这些特定的载体序列或者特定的载体序列的一部分。 通过在DNA标签序列中搜索特定的载体序列字串,即可判断该DNA标签序列 是否被特定的载体序列污染,进而去除该DNA标签序列中存在的载体污染。
在步骤S103中,将该DNA标签序列与已知数据库中的已知序列进行比对, 并根据比对结杲得到该DNA标签序列的所属分类。
其中已知数据库包括但不限于细菌基因组凝:据库、真菌基因组数据库、病 毒Genbank数据库、核糖体数据库(RDP数据库)、环境微生物的非冗余核酸 序列数据库(Envnt数据库)、非冗余核酸序列数据库(nt数据库)。在本发 明实施例中,可以根据环境微生物的检测需求,从上述多个已知数据库中选择 一个或者多个已知数据库中的已知序列与该DNA标签序列进行比对。而当环 境样本较复杂时,则可以选择将所有的已知数据库中的已知序列与DNA标签序列进行比对。
在本发明实施例中,采用短串序列的映射方法将DNA标签序列与已知数
据库中的已知序列进行比对,将DNA标签序列与已知序列之间的最佳匹配序 列所属的分类确定为该DNA标签序列的所属分类。其中DNA标签序列与已知 序列之间的最佳匹配序列是指DNA标签序列比对到已知序列上具有最少碱基 错配的序列。当采用短串序列的映射方法将DNA标签序列与已知凄t据库中的 已知序列进行比对时,可能得到的多个最佳匹配序列,即DNA标签序列可以 同时以最佳的匹配形式比对上多条已知序列,此时,将该DNA标签序列比对 上的多条已知序列的最近的共同所属分类作为该DNA的所属分类。
请参阅图2,当DNA标签序列同时比对上已知数据库中的多条已知序列(分 另ll为species: Chloroflexus aurantiacus、 species: Roseiflexus castenholzii和species: Roseiflexus sp.RS-1 )时,由于上述多条已知序列的最近的共同所属分类为 family: Chloroflexaceae,因此,将上述多条已知序列的最近的共同所属分类 family: Chloroflexaceae作为DNA标签序列的所属分类。
由于微生物基因组的突变率较高,所以在将DNA标签序列与已知数据库 中的已知序列进行比对时,允许预设个数的错配以及小的插入缺失序列。其中 预设个数的错配可以根据经验设置。
通过上述步骤,可以得到环境样品在不同分类水平上的多样性信息。
通过上述微生物检测方法可以检测到环境样本中可能存在哪些微生物物种 或哪一类微生物物种,但难以检测到物种存在的可信度,以及在物种存在的可 信度高时,该物种在环境中所占的比例。因此为了合理地解决上述两个问题, 在本发明另 一实施例中,在将DNA标签序列与已知数据库中的已知序列进行 比对之前,该微生物检测方法还包括下述步骤
在步骤S104中,对已知数据库中的已知序列进行预处理,得到能唯一代表 一个物种的特有序列。其具体步骤如下
a、根据已知数据库中的已知序列产生模拟标签序列。其具体过程如下
10从已知序列的第 一位i成基开始,取预设长度(一4殳取44bp )的DNA序列
作为第一个模拟标签序列,接着从已知序列的第二位碱基开始,取同样长度的
DNA序列作为第二个模拟标签序列,依此类推,从已知序列的每一位碱基开始, 取同样长度的DNA序列作为模拟标签序列。
b、 将得到的各^^莫拟标签序列映射到已知序列上,并记录映射到唯一位置的 模拟标签序列。
在本发明实施例中,可以采用任意一种序列映射方法将^^莫拟标签序列映射 到已知序列上,因此,在此不再赘述。将模拟标签序列映射到已知序列上时, 由于经测序得到的测序片段总会有一定的错误率存在,为了避免在实际操作中 因为该测序错误而将真实DNA标签序列映射到另一位置,在本发明实施例中, 在允许测序错误的前提下,将模拟标签序列映射到已知序列上。
c、 查找连续的映射到唯一位置的模拟标签序列,得到能唯一代表一个物种 的特有序列。其中特有序列是指能唯一代表一个物种的DNA序列片段。该特 有序列的测序深度代表该物种在样品中的含量。其具体过程如下
查找连续的映射到唯一位置的模拟标签序列,得到唯一映射的模拟标签序 列的连续区域。将该连续区域的头尾两部分各去掉(模拟标签序列长度-l)个 位点后的连续区域内的序列作为特有序列。因为该连续区域的头尾两部分中只 被部分的模拟标签序列唯一映射,而理想的情况是每一个位点都被模拟标签序 列的长度个序列唯一映射的连续区域才能唯一的代表一个物种。因此,需要将 上述连续区域的头尾两部分各去掉(模拟标签序列长度-l)个位点后的连续区 域作为特有序列。最后,将已知序列上全部特有序列的连接起来,做为能唯一 代表这个物种DNA序列片段的"特有序列"。在本发明实施例中,当需要了 解所有从环境样本中检测到的微生物物种的存在的可信度和在环境中所占的比
例时,则需要对已知数据库中的所有已知序列进行上述预处理,得到能唯一代 表一个物种的特有区域,由于已知数据库中可能包括多个物种,因此经预处理 后,得到能唯一代表一个物种的特有区域有多个,分别唯一代表不同的物种。请参阅图3,当查找到的连续的映射到唯一位置的模拟标签序列为短序列1
至短序列n,将查找到的连续的唯一比对上的区域的头尾两部分各去掉(模拟 标签序列长度-1 )个位点后的连续区域作为特有序列。
在步骤S105中,计算特有序列中每一位碱基上DNA标签序列的覆盖次数, 通过泊松分布拟合得到特有序列的平均测序深度(记为d)。根据试验结果, 特有序列所代表的物种在样品中的含量是随着特有序列的平均测序深度的增加 而增加的,因此,当需要了解从环境样本中检测到的物种的相对含量比时,在 计算特有序列的平均测序深度时,计算唯一代表每种物种的特有序列的平均测 序深度,此时,该方法还包括下述步骤
根据计算得到的唯一代表每种物种的特有序列的平均测序深度比,得到每 种特有序列代表的物种的相对含量比。由于特有序列所代表的物种在样品中的 含量是随着特有序列的平均测序深度的增加而增加的,因此,计算得到的唯一
对含量比
如假设计算得到的唯一代表物种A的特有序列的平均测序深度为20,唯一 代表物种B的特有序列的平均深度为100,唯一代表物种C的特有序列的平均 深度为30时,则根据上述计算结果,可以得到物种A、物种B和物种C之间 的相对含量比为20: 100: 30。
在步骤S106中,计算特有序列中有多少位石咸基净皮DNA标签序列覆盖,从 而得到特有序列的覆盖度(记为c)。并计算整条序列中(包括特有序列和DNA 标签序列非唯一比对上的序列)有多少位碱基被DNA标签序列覆盖,从而得 到整条序列的覆盖度(记为c,)。
在步骤S107中,根据DNA标签序列的平均测序深度d、特有序列的覆盖 度c以及整条序列的覆盖度c,估计出特有序列代表的物种序列被发现的可信
度。在本发明实施例中,当c近似等于l-^,且c^c'时,则认为该物种序列 被发现的可信度高,其中^表示测序的校正因子,不同的测序方法,^的值可能不同。否则认为该物种序列被发现的可信度低。
图4示出了本发明实施例提供的环境微生物检测系统的结构,为了便于说
明,仅示出了与本发明实施例相关的部分。其中
DNA测序单元41采用高通量的测序技术对从环境样本中提取的DNA进 行测序,得到DNA标签序列。其中高通量的测序技术为以Solexa、 Solid等为 代表的第二代测序技术。该DNA测序单元41包括DNA样品提取模块411、 文库制备模块412和测序模块413。其中DNA样品提取模块411从环境样本中 提取DNA样品。在提取DNA样品时,需要保证样品中DNA的高质量和微生 物的多样性。文库制备模块412对上述DNA样品进行文库制备。测序模块413 进行高通量的DNA测序反应,得到大量的DNA标签序列。由于测序模块413 的具体测序过程属于现有技术,因此,此处不再赘述。
载体污染去除单元42去除DNA测序单元41得到的DNA标签序列中可能 存在的载体污染。在本发明实施例中,由于在测序反应中所使用的载体序列是 特定的,因此,由测序反应得到的DNA标签序列中可能包含这些特定的载体 序列或者特定的载体序列的一部分。通过在DNA标签序列中搜索特定的载体 序列字串,即可判断该DNA标签序列是否被特定的载体序列污染,进而去除 该DNA标签序列中存在的载体污染。
所属分类确定单元43将载体污染去除单元42处理后的DNA标签序列与 已知数据库中的已知序列进行比对,并根据比对结果得到该DNA标签序列所 属的分类。其中已知数据库为细菌基因组数据库、真菌基因组数据库、病毒 Genbank数据库、RDP数据库、Envnt数据库、nt数据库中一种或者多种组合。
在本发明实施例中,采用短串序列的映射方法将DNA标签序列与已知数 据库中的已知序列进行比对,得到DNA标签序列与已知序列之间的最佳匹配 形式。其中DNA标签序列与已知序列之间的最佳匹配形式是指DNA标签序列 比对到已知序列上具有最少碱基错配的位置。根据得到的DNA标签序列与已 知序列中之间的最佳匹配形式即可得到该DNA标签序列所属的分类。当采用短串序列的映射方法将DNA标签序列与已知数据库中的已知序列进行比对时, 可能得到的多个最佳匹配形式,即DNA标签序列可以同时以最佳的匹配形式 比对上多条已知序列,此时,将该DNA标签序列比对上的多条已知序列的最 近的共同所属分类作为该DNA的所属分类。
通过上述微生物4企测方法可以4企测到环境样本中可能存在哪些微生物物种 或哪一类微生物物种,但难以;险测到物种存在的可信度,以及在物种存在的可 信度高时,该物种在环境中所占的比例。因此为了合理地解决上述两个问题, 在本发明另一实施例中,该系统还包括已知序列预处理单元44、测序深度计算 单元45、覆盖度计算单元46和可信度判断单元47。
其中已知序列预处理单元44对已知数据库中的已知序列进^f亍预处理,得到 能唯一代表一个物种的DNA序列片段。其包括模拟标签序列产生模块441、模 拟标签序列映射模块442、特有序列获取模块443 。
其中模拟标签序列产生模块441从已知序列的每一位碱基开始,取同样长 度的DNA序列作为模拟标签序列。
模拟标签序列映射模块442将得到的各模拟标签序列映射到已知序列上, 并记录映射到唯一位置的模拟标签序列。
特有序列获取模块443查找连续的映射到唯一位置的模拟标签序列区域, 并将该区域的头尾两部分各去掉(模拟标签序列长度-l)个位点后的连续区域 内的序列作为特有序列。最后,将已知序列上全部特有序列连接起来,做为能 唯一代表这个物种DNA序列片段的"特有序列"。由于该区域的头尾两部分 中只被部分的模拟标签序列唯一映射,而理想的情况是每一个位点都被模拟标 签序列的长度个序列唯一映射的连续区域才能唯一的代表一个物种。因此,需 要将上述连续区域的头尾两部分各去掉(模拟标签序列长度-l)个位点后的连 续区域作为特有序列,以使该特有序列的DNA序列片段能唯一代表一个物种。
测序深度计算单元45计算特有序列中每一位碱基上DNA标签序列的覆盖 次数,通过泊松分布拟合得到特有序列的平均测序深度(记为d)。该特有序列的平均测序深度即为比对到该特有序列的DNA标签序列代表的物种在样品 中的含量。
覆盖度计算单元46计算特有序列和整条序列的覆盖度。其包括特有序列覆 盖度计算模块461和整条序列覆盖度计算模块462。特有序列覆盖度计算模块 461计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的 覆盖度(记为c)。整条序列覆盖度计算模块462计算整条序列中(包括特有 序列和DNA标签序列非唯一比对上的序列)有多少位碱基被DNA标签序列覆 盖,从而得到整条序列的覆盖度(记为c,)。
可信度判断单元47根据特有序列的平均测序深度d、特有序列的覆盖度c 以及整条序列的覆盖度c,判断出该特有序列所代表的物种序列被发现的可信
度。在本发明实施例中,当c近似等于l-^,且c^c'时,则认为该物种序列
被发现的可信度高,其中^表示测序的校正因子,不同的测序方法,^的值可能 不同。否则认为该物种序列被发现的可信度低。
当需要了解从环境样本中检测到的物种的相对含量比时,在本发明另 一实 施例中,该系统还包括含量比计算单元48。该含量比计算单元48根据计算得 到的唯一代表每种物种的特有序列的平均测序深度比,得到每种特有序列代表 的物种的相对含量比。由于特有序列所代表的物种在样品中的含量是随着特有 序列的平均测序深度的增加而增加的,因此唯一代表每种物种的特有序列的平 均测序深度比即为每种特有序列代表的物种的相对含量比。在本发明实施例中, 通过采用高通量的测序技术对提取的DNA样品进行测序,得到DNA标签序列, 再将测序序列与已知数据库中的已知序列进行比对,根据比对结果得到DNA 标签序列的所属分类,从而可以检测到环境样本中可能存在哪些微生物物种或 哪一类微生物物种。通过对已知数据库中的已知序列进行预处理,得到能唯一 代表一个物种的特有序列,再通过计算特有序列中每一位;威基上DNA标签序 列的覆盖次数,采用泊松分布拟合得到特有序列的平均测序深度,从而检测出 该特有序列代表的物种在样品中的含量。同时通过计算特有区域的覆盖度和整条序列的覆盖度,从而根据特有序列的平均测序深度、特有区域的覆盖度和整 条序列的覆盖度可以判断特有序列所代表的物种被发现的可信度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。
权利要求
1、一种环境微生物检测方法,其特征在于,所述方法包括下述步骤采用高通量的测序技术对从环境样本中提取的DNA进行测序,得到DNA标签序列;去除所述DNA标签序列中存在的载体污染;将所述DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类。
2、 如权利要求l所述的方法,其特征在于,将所述DNA标签序列与已知 数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属 的分类的步骤具体为采用短串序列的映射方法将所述DNA标签序列与已知数据库中的已知序 列进行比对,将所述DNA标签序列与已知序列之间的最佳匹配序列所属的分 类确定为所述DNA标签序列的所属分类,所述DNA标签序列与已知序列之间 的最佳匹配序列为所述DNA标签序列比对到已知序列上具有最少碱基错配的 序列。
3、 如权利要求2所述的方法,其特征在于,当所述DNA标签序列与已知 序列之间的最佳匹配序列有多个时,将所属最佳匹配序列的最近的共同所属分 类确定为所述DNA标签序列的所述分类。
4、 如权利要求l所述的方法,其特征在于,所述方法还包括下述步骤 对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段。
5、 如权利要求4所述的方法,其特征在于,所述对已知数据库中的已知序 列进行预处理,得到能唯一代表一个物种的DNA序列片段的步骤具体为根据从已知序列的每一位碱基开始,取同样长度的DNA序列作为模拟标 签序列;将所述模拟标签序列映射到已知序列上,并记录映射到唯一位置的模拟标签序列;查找连续的映射到唯一位置的模拟标签序列区域,并将所述区域的头尾两 部分各去掉模拟标签序列长度-1个位点后的连续区域内的序列作为特有序列, 将已知序列中的特有序列连接起来,作为能唯一代表一个物种DNA序列片段 的特有序列。
6、 如权利要求5所述的方法,其特征在于,所述方法还包括下述步骤 计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度;计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的覆盖度;计算整条序列中有多少位碱基被DNA标签序列覆盖,从而得到整条序列 的覆盖度;根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆 盖度判断出所述特有序列代表的物种被发现的可信度。
7、 如权利要求6所述的方法,其特征在于,根据所述特有区域的平均测序 深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物 种被发现的可信度的步骤具体为当c近似等于l-^,且"c'时,判定所述特有序列代表的物种被发现的可信度高,否则判定所述特有序列代表的物种被发现的可信度低,其中c为特 有序列的覆盖度,d为特有序列的平均测序深度,c,为整条序列的覆盖度。^为测序的校正因子。
8、 如权利要求5所述的方法,其特征在于,所述方法还包括下述步骤 根据计算得到的唯一代表每种物种的特有序列的平均测序深度比,得到每种特有序列代表的物种的相对含量比。
9、 一种环境微生物检测系统,其特征在于,所述系统包括 DNA测序单元,用于釆用高通量的测序技术对从环境样本中提取的DNA进行测序,得到DNA标签序列;载体污染去除单元,用于去除所述DNA标签序列中存在的载体污染; 所属分类确定单元,用于将所述DNA标签序列与已知凝:据库中的已知序列进行比对,并纟艮据比对结果确定所述DNA标签序列所属的分类。
10、 如权利要求9所述的系统,其特征在于,所述系统还包括 已知序列预处理单元,用于对已知凝:据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段。
11、 如权利要求IO所述的系统,其特征在于,所述已知序列预处理单元包括模拟标签序列产生模块,用于根据从已知序列的每一位碱基开始,取同样 长度的DNA序列作为模拟标签序列;模拟标签序列映射模块,用于将所述模拟标签序列映射到已知序列上,并 记录映射到唯一位置的才莫拟标签序列;特有序列获取模块,用于查找连续的映射到唯一位置的模拟标签序列区域, 并将所述区域的头尾两部分各去掉模拟标签序列长度-1个位点后的连续区域内 的序列作为特有序列,将已知序列中的特有序列连接起来,作为能唯一代表一 个物种DNA序列片段的特有序列。
12、 如权利要求11所述的系统,其特征在于,所述系统还包括 测序深度计算单元,用于计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度;覆盖度计算单元,用于计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的覆盖度,并计算整条序列中有多少位碱基被DNA标签序列覆盖,从而得到整条序列的覆盖度;可信度判断单元,用于4艮据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度的高低。
13、 如权利要求12所述的系统,其特征在于,所述可信度判断单元在c近似等于l-4,且"c'时,判定所述特有序列代表的物种被发现的可信度高,否则判定所述特有序列代表的物种被发现的可信度低,其中c为特有序列的覆盖度,d为特有序列的平均测序深度,c,为整条序列的覆盖度。e为测序的校 正因子。
14、 如权利要求12所述的系统,其特征在于,所述系统还包括 含量比计算单元,用于根据计算得到的唯一代表每种物种的特有序列的平均测序深度比,得到每种特有序列代表的物种的相对含量比。
全文摘要
本发明适用于生物工程领域,提供了一种环境微生物检测方法和系统,所述方法包括下述步骤采用高通量的测序技术对从环境样本中提取的DNA进行测序,得到DNA标签序列;去除所述DNA标签序列中存在的载体污染;将所述DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列的所属分类。本发明实施例可以检测到环境样本中可能存在哪些微生物物种或哪一类微生物物种。
文档编号G06F19/22GK101429559SQ20081021834
公开日2009年5月13日 申请日期2008年12月12日 优先权日2008年12月12日
发明者张秀清, 李瑞强, 杨焕明, 建 汪, 俊 王, 覃俊杰 申请人:深圳华大基因研究院;深圳华大基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1