一种宏基因组重叠群的分类方法

文档序号:10687422阅读:674来源:国知局
一种宏基因组重叠群的分类方法
【专利摘要】一种宏基因组重叠群的分类方法,属于生物信息学分析技术领域。本发明的目的是针对宏基因组重叠群的不平衡特性,提出了一种利用改进的模糊c均值算法进行重叠群分类的方法。本发明的步骤是:设c个物种的平均覆盖率,则根据宏基因组物种个数确定公式,利用改进的模糊c均值算法进行宏基因组重叠群分类。本发明所使用的改进的模糊c均值算法是在分析了传统的模糊c均值算法对于不平衡数据集较差的性能的根本原因的基础上,提出的改进算法。改进的模糊c均值算法能够有效地改善传统方法对于不平衡数据集效果不理想的缺点,将其应用到重叠群分类中可以极大地提高分类精度,为后续的宏基因组分析提供良好的基础。
【专利说明】
一种宏基因组重叠群的分类方法
技术领域
[0001 ]本发明属于生物信息学分析技术领域。
【背景技术】
[0002] 宏基因组学利用新一代测序技术,无需经过实验室培养而直接从环境中获取DNA 遗传物质,有效地克服了传统基因测序技术的局限性,目前已成为分析生物群落中物种多 样性的有效手段。宏基因组分析的一般步骤为测序、组装、分类和功能注释。原始的宏基因 组数据是由大量的、长度短的DNA片段(reads)组成。这些片段之间具有重叠关系,可据此将 其组装成长度较长的DNA序列,称之为重叠群(contigs),将这些重叠群按照其物种归属进 行分类是宏基因组分析中必不可少的一步。
[0003] 由于若干个因素,诸如物种间的基因组长度不同以及物种间的不同丰度等,在宏 基因组数据中,不同物种所包含的重叠群的数量往往是不一样的。因此,组装后的宏基因组 数据是一种不平衡数据集。如何对具有不平衡属性的重叠群进行有效地分类,是一个难题。
[0004] 模糊c均值算法是一种著名的无监督分类方法,已经有效地应用在数据挖掘、图像 分割、模式识别等领域,然而该方法对于不平衡数据集具有较差的性能。

【发明内容】

[0005] 本发明的目的是针对宏基因组重叠群的不平衡特性,提出了一种利用改进的模糊 c均值算法进行重叠群分类的方法。
[0006] 本发明的步骤是: a、设@是c个物种的平均覆盖率,则根据宏基因组物种个数确定公式得到如下关系:
(1) 其中^^和^是该宏基因组·中最短和最长的物种基因组·;因此,物种个数c应在如下 区间:
(2) 利用Nonpareil软件来估计物种的平均覆盖率
按照从短到长的顺序排列,分别取处于5%和95%位置的基因组长度为
宏基因组中的物种个数E

(4) 其中N和I:分别为宏基因组数据中重叠群的个数和平均长度; b、利用改进的模糊c均值算法进行宏基因组重叠群分类: ① 改进的模糊c均值算法: 改进的模糊c均值算法在原始代价函数的基础上,改进算法在其代价函数中考虑了各 个类的大小,新的代价函数为:
(5) 其中义:是第i个重叠群的特征向量,$是第j个类的中心
的隶属度值,是模糊度,本发明中q=2,d为欧氏距离,为第j个类的大小, 定义为:

诵付昜/丨、仆新代价涵翁.徨m η々讲笪法的者屌麽钽陈反,,和聚悉由心沒.公忒为.
② 利用改进算法进行重叠群分类: 以物种个数作为类的个数输入到改进的模糊C均值算法进行重叠群分类,分别遍历所 有属于区卩
彳物种个数,改进的模糊C均值算法共执行
次, 分别对应不同的属于区间
I勺物种个数,得到7
个分类结果。
[0007]本发明最佳分类结果的确定: 利用一种聚类准则函I
个分类结果中确定一个最好的分类 结果。
[0008] 本发明所使用的改进的模糊c均值算法是在分析了传统的模糊c均值算法对于不 平衡数据集较差的性能的根本原因的基础上,提出的改进算法。改进的模糊c均值算法能够 有效地改善传统方法对于不平衡数据集效果不理想的缺点,将其应用到重叠群分类中可以 极大地提尚分类精度,为后续的宏基因组分析提供良好的基础。
【具体实施方式】
[0009] 本发明的步骤是: (1)重叠群数据的获取 本发明适用于所有的宏基因组重叠群数据集,可从网络公开数据库中下载各种宏基因 组数据。例如,可从http: //gutmeta. genomics. org. cn/下载人体肠道的宏基因组数据。 [0010] (2)特征向量的建立 ①计算每个重叠群的4-mer频率,即用一个列向量来表示一个DNA序列。由于DNA由ATGC 四种核苷酸排列而成,因此特征向量的维度为256维。
[0011] ②对步骤①中计算得到的特征向量进行归一化,方法为:特征向量中每一个元素 都除以该特征向量中元素的最大值,BP:
其中,N是宏基因组数据中重叠群的数量,是第j个重叠群的特征向量。
[0012] ③宏基因组物种个数的确定 在一个包含有C个物种的宏基因组中,基因组总长度G为:
其中(?是第i个物种的基因组长度,7?是第i个物种的覆盖率。
[0013] a、设@是c个物种的平均覆盖率,则根据宏基因组物种个数确定公式得到如下关 系:
矛口(名腸影亥魅酿帽娜齡膽麵酿;_匕漏傾。赃女口 下区间:
[0014] 利用Nonpareil软件来估计物种的平均覆盖_
该估算方法可参见文献 Rodriguez-Rj Luis Mj Konstantinidis, Konstantinos T. Nonpareil: a redundancy- based approach to assess the level of coverage in metagenomic datasets[J]. Bioinformatics, 30(5):629-635。
[0015]由于物种间基因组的长度往往是不同的,本发明从NCBI网站上下载了一个包含有 2573个细菌的全基因组数据全集,网址为ftp://ftp.ncbi .nih.gov/genomes/Bacteria/。 按照从短到长的顺序排列,分别取处于5%和95%位置的基因组长度为
]可以包含这些物种的 其中N和I:分别为宏基因组数据中重叠群的个数和平均长度; b、利用改进的模糊c均值算法进行宏基因组重叠群分类: ①改进的模糊c均值算法: 传统模糊c均值算法对于不平衡数据集分类效果不理想的原因是其使用了一种平方和 形式的代价函数,因此分类结果中各个类之间的样本个数大致相等将获得较小的代价函数 值,于是模糊c均值算法会将一部分来自大类的样本误分到其临近的小类中。为了从根本上 克服模糊c均值算法的这种缺陷,本发明提出了一种改进的模糊c均值算法,在原始代价函 数的基础上,改进算法在其代价函数中考虑了各个类的大小,用来表示类所包含的样本的 个数,比如第一类包含800个样本,第二类包含1000个样本,800和1000即为类的大小,新的 代价函数为:
的隶属度值,
是模糊度,本发明中q=2,d为欧氏距离,为第j个类的大小,定 义为:
6) 改进后的代价函数将在分类结果中允许小类的存在,由于其考虑了各个类的大小,使 得分类结果中各个类之间的样本个数除以其大小大致相等才能获得较小的代价函数值。
[0017] 通过最小化新代价函数,得出改进算法的隶属度矩阵和聚类中心$公式为:
[0018] 改进算法的分类过程为: i. 给定类的个数,构建随机隶属度矩阵; ii. 根据聚类中心计算公式计算聚类中心; iii. 计算各个类的大小; iv. 利用隶属度矩阵公式更新隶属度矩阵; V.重复步骤ii到iv,直至1
[0019] ②利用改进算法进行重叠群分类: 以物种个数作为类的个数输入到改进的模糊C均值算法进行重叠群分类,分别遍历所 有属于区?
的物种个数,改进的模糊c均值算法共执行
:, 分别对应不同的属于区|?
丨勺物种个数,得到了
卜分类结果。
[0020] 本发明最佳分类结果的确定: 利用一种聚类准则函I」
个分类结果中确定一个最好的分类 结果。
最终的分类结果即为对应的分类结果。
[0022] 实例 本发明从https ://github. com/mini Ilin im/GroopM_test_data 下载了一个宏基因组 重叠群数据集,该数据集中共包含5668个重叠群。利用本发明所述的方法,可辑

最终的分类结果如表1所示。
[0023]表1实施例的最终分类结果

利用本发明所述的分类方法,能够正确分类其中的4340个重叠群,从而证明了本发明 所述方法的有效性。
【主权项】
1. 一种宏基因组重叠群的分类方法,其特征在于: a、 设$是(:个物种的平均覆盖率,则根据宏基因组物种个数确定公式得到如下关系:其中^^和^^是该宏基因组中最短和最长的物种基因组;因此,物种个数c应在如下 区间:利用Nonparei 1软件来估计物种的平均覆盖率; 按照从短到长的顺序排列,分别取处于5%和95%位置的基因组长度为 宏基因组中的物种个数区间J为:其中N和f分别为宏基因组数据中重叠群的个数和平均长度; b、 利用改进的模糊c均值算法进行宏基因组重叠群分类: ①改进的模糊c均值算法: 改进的模糊c均值算法在原始代价函数的基础上,改进算法在其代价函数中考虑了各 个类的大小,新的代价函数为:其中為是第i个重叠群的特征向量為是第j个类的中心,€ [0,1]是為对%的 隶属度值,@ G 是模糊度,本发明中q=2,d为欧氏距离,./)为第j个类的大小,定义 为:通过最小化新代价函数,得出改进算法的隶属度矩阵》&和聚类中心g公式为: ②利用改进算法进行重叠群分类:以物种个数作为类的个数输入到改进的模糊C均值算法进行重叠群分类,分别遍历所 有属于区间j|的物种个数,改进的模糊c均值算法共执行辱1次,分 另0对应不同的属于区间的物种个数,得到了 个分类结果。2.根据权利要求1所述的宏基因组重叠群的分类方法,其特征在于: 最佳分类结果的确定: 利用一种聚类准则函数从+ i个分类结果中确定一个最好的分 类结果。
【文档编号】G06F19/24GK106055928SQ201610361015
【公开日】2016年10月26日
【申请日】2016年5月29日
【发明人】刘云, 刘富, 侯涛, 康冰, 王柯, 姜守坤, 王婧媛
【申请人】吉林大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1