1.一种宏基因组数据分类方法,其特征在于,所述方法包括:
计算待测序序列的特征向量;
对所述特征向量进行聚类得到M组包含读长的簇G1至GM,所述M为不小于1的整数;
获取所述簇G1至GM中每个簇的中心集合Ki;
通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,判断所述每个簇的基因组类别。
2.根据权利要求1所述的方法,其特征在于,所述计算待测序序列的特征向量包括:
将所述待测序序列分割成L-k+1个长度为k的k-mer,所述L为所述待测序序列的长度;
统计所述L-k+1个k-mer中每个k-mer的出现频率,将所述L-k+1个k-mer中k-mer的出现频率组成维度为4k的向量作为所述待测序序列的特征向量。
3.根据权利要求1所述的方法,其特征在于,所述通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,判断所述每个簇的基因组类别,包括:
通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,统计所述每个簇的中心集合Ki的每一读长的基因组类别;
若所述中心集合Ki中任一读长Ri的基因组类别Ci的出现频率不小于预设阈值,则将所述读长Ri的基因组类别Ci确认为所述读长Ri所属簇的基因组类别。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述计算待测序序列的特征向量之后,对所述特征向量进行聚类得到M组包含读长的簇G1至GM之前,所述方法还包括:
对所述待测序序列的特征向量进行降维处理。
5.根据权利要求1至3任意一项所述的方法,其特征在于,所述通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,判断所述每个簇的基因组类别之后,所述方法还包括:
采用多核学习训练分类器对所述已确认基因组类别的簇再次进行分类。
6.一种宏基因组数据分类装置,其特征在于,所述装置包括:
计算模块,用于计算待测序序列的特征向量;
聚类模块,用于对所述特征向量进行聚类得到M组包含读长的簇G1至GM,所述M为不小于1的整数;
获取模块,用于获取所述簇G1至GM中每个簇的中心集合Ki;
类别判断模块,用于通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,判断所述每个簇的基因组类别。
7.根据权利要求6所述的装置,其特征在于,所述计算模块包括:
分割单元,用于将所述待测序序列分割成L-k+1个长度为k的k-mer,所述L为所述待测序序列的长度;
统计单元,用于统计所述L-k+1个k-mer中每个k-mer的出现频率,将所述L-k+1个k-mer中k-mer的出现频率组成维度为4k的向量确认为所述待测序序列的特征向量。
8.根据权利要求6所述的装置,其特征在于,所述类别判断模块包括:
对比单元,用于通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,统计所述每个簇的中心集合Ki的每一读长的基因组类别;
确定单元,用于若所述中心集合Ki中任一读长Ri的基因组类别Ci的出现频率不小于预设阈值,则将所述读长Ri的基因组类别Ci作为所述读长Ri所属簇的基因组类别。
9.根据权利要求6至8任意一项所述的装置,其特征在于,所述装置还包括:
降维模块,用于所述计算模块计算待测序序列的特征向量之后,所述聚类模块对所述特征向量进行聚类得到M组包含读长的簇G1至GM之前,对所述待测序序列的特征向量进行降维处理。
10.根据权利要求6至8任意一项所述的装置,其特征在于,所述装置还包括:
再分类模块,用于所述类别判断模块通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,判断所述每个簇的基因组类别之后,采用多核学习训练分类器对所述已确认基因组类别的簇再次进行分类。