一种微生物的检测识别方法和系统与流程

文档序号:11156059阅读:来源:国知局

技术特征:

1.一种环境微生物检测方法,其特征在于,所述方法包括下述步骤:

输入从环境样本中提取的DNA数据,采用高通量的测序方法对从环境样本中提取的DNA进行测序,得到DNA标签序列;

去除所述DNA标签序列中存在的载体污染;

将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类。

2.如权利要求1所述的方法,其特征在于,将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类的步骤还包括:

采用短串序列的映射方法将所述DNA标签序列与已知数据库中的已知序列进行比对,将所述DNA标签序列与已知序列之间的最佳匹配序列所属的分类确定为所述DNA标签序列的所属分类,所述DNA标签序列与已知序列之间的最佳匹配序列为所述DNA标签序列比对到已知序列上具有最少喊基错配的序列。

3.如权利要求2所述的方法,其特征在于,当所述DNA标签序列与已知序列之间的最佳匹配序列有多个时,将该多个最佳匹配序列的最近的共同所属分类确定为所述DNA标签序列的所述分类。

4.如权利要求1所述的方法,其特征在于,所述方法还包括下述步骤:

对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段;

计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度;

计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的覆盖度;

计算整条序列中有多少位碱基被DNA标签序列覆盖,从而得到整条序列的覆盖度;

根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度。

5.如权利要求4所述的方法,其特征在于,所述对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段的步骤包括:

根据从已知序列的每一位碱基开始,取预设长度的DNA序列作为模拟标签序列;

将所述模拟标签序列映射到已知序列上,并记录映射到唯一位置的模拟标签序列;

查找连续的映射到唯一位置的模拟标签序列区域,并将所述区域的头尾两部分各去掉模拟标签序列长度1个位点后的连续区域内的序列作为特有序列,将已知序列中的特有序列连接起来,作为能唯一代表一个物种DNA序列片段的特有序列。

6.如权利要求4所述的方法,其特征在于,根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度的步骤具体为:

可信度,当p接近1时,可信度最高;当p接近0时,可信度最低,其中c为特有序列的覆盖度,d为特有序列的平均测序深度,c’为整条序列的覆盖度。θ为测序的校正因子。

7.如权利要求4所述的方法,其特征在于,所述计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度还包括下述步骤:

根据计算得到的唯一代表每种物种的特有序列的平均测序深度比,得到每种特有序列代表的物种的相对含量比。

8.如权利要求1-7任意一项所述的方法,其特征在于,所述采用高通量的测序技术对从环境样本中提取的DNA进行测序过程为对环境样本中提取的全部DNA进行测序。

9.一种环境微生物检测系统,其特征在于,所述系统包括:DNA测序单元,用于采用高通量的测序技术对输入的从环境样本中提取的DNA进行测序,得到DNA标签序列;

载体污染去除单元,用于去除所述DNA标签序列中存在的载体污染;

所属分类确定单元,用于将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类。

10.如权利要求9所述的系统,其特征在于,所述系统还包括:

已知序列预处理单元,用于对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段;

测序深度计算单元,用于计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度;

覆盖度计算单元,用于计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的覆盖度,并计算整条序列中有多少位碱基被DNA标签序列覆盖,从而得到整条序列的覆盖度;

可信度判断单元,用于根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度的高低。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1