用于宏基因组物种成分及丰度定量的数据处理方法、装置及存储介质

文档序号:33823179发布日期:2023-04-19 20:32阅读:52来源:国知局
用于宏基因组物种成分及丰度定量的数据处理方法、装置及存储介质

本发明属于数据处理,尤其涉及一种用于宏基因组物种成分及丰度定量的数据处理方法、装置及存储介质。


背景技术:

1、宏基因组样本测序以及宏基因组物种成分及丰度定量在生物医学研究中有十分广泛的应用,利用宏基因组测序数据进行样本中微生物种成分及丰度定量的方法目前已有许多,如:metaphlan(metagenomic phylogenetic analysis,宏基因组系统发育分析)方法以及基于motus(操作分类单元)的微生物丰度、活力和群落基因组分析方法等等。

2、然而,一方面,上述方法均需要事先下载安装一个很大的(约数gb大小)微生物参考基因组或分类学分子标签(marker)数据库,网络状态不佳的用户难以完成安装。另一方面,上述方法还需要借助另外的序列比对工具(如bowtie或bwa,通常计算量巨大,十分耗时)将样本宏基因组数据与分类学分子标签数据库比较后才能计算样本的各个物种组成成分及丰度。因此,目前的方法普遍存在使用难度大,运行速度慢,且较不精确的问题。


技术实现思路

1、本申请旨在提供一种用于宏基因组物种成分及丰度定量的数据处理方法、装置及存储介质,可以大大加快运算速度,减少计算资源的消耗,提高数据处理效率。

2、本申请实施例提供了一种用于宏基因组物种成分及丰度定量的数据处理方法,包括:

3、获取宏基因组样本测序数据,并对所述宏基因组样本测序数据进行序列降维处理,得到所述宏基因组样本测序数据的样本素描;

4、通过利用所述样本素描查询物种特异分子标签数据库,确定所述宏基因组样本测序数据包含的目标物种及各所述目标物种的丰度并输出,其中所述物种特异分子标签数据库基于相同和/或不同物种的参考基因组数据的参考素描构建。

5、本申请实施例还提供了一种电子装置,所述电子装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中所述计算机程序包括:

6、样本分析模块,用于获取宏基因组样本测序数据,对所述宏基因组样本测序数据进行序列降维处理,得到所述宏基因组样本测序数据的样本素描,以及通过利用所述样本素描查询物种特异分子标签数据库,确定所述宏基因组样本测序数据包含的目标物种及各所述目标物种的丰度,其中所述物种特异分子标签数据库基于相同和/或不同物种的参考基因组数据的参考素描构建;

7、输出模块,用于输出各所述目标物种及各所述目标物种的丰度的信息。

8、本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述实施例所示的用于宏基因组物种成分及丰度定量的数据处理方法。

9、上述本申请各实施例,通过对获取的宏基因组样本测序数据进行序列降维处理,得到该宏基因组样本测序数据的样本素描,然后通过利用该样本素描查询物种特异分子标签数据库,确定该宏基因组样本测序数据包含的目标物种及各目标物种的丰度并输出,由于是利用通过序列降维处理得到的数据量较小的素描进行比对,因此可以大大加快运算速度,减少计算资源的消耗,提高数据处理效率。



技术特征:

1.一种用于宏基因组物种成分及丰度定量的数据处理方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述方法还包括:

3.如权利要求2所述的方法,其特征在于,所述对各所述参考基因组数据进行序列降维处理,得到各所述参考基因组数据的参考素描,包括:

4.如权利要求2所述的方法,其特征在于,基于所述参考素描构建所述物种特异分子标签数据库,包括:

5.如权利要求3所述的方法,其特征在于,所述对所述宏基因组样本测序数据进行序列降维处理,包括:

6.如权利要求2至5中的任一项所述的方法,其特征在于,所述方法还包括:

7.如权利要求1至5中的任一项所述的方法,其特征在于,所述方法还包括:

8.一种电子装置,所述电子装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序包括:

9.如权利要求8所述的装置,其特征在于,所述计算机程序还包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中的任意一项所述的用于宏基因组物种成分及丰度定量的数据处理方法。


技术总结
一种用于宏基因组物种成分及丰度定量的数据处理方法、装置及存储介质,应用于数据处理领域。该方法包括:获取宏基因组样本测序数据,并对该宏基因组样本测序数据进行序列降维处理,得到该宏基因组样本测序数据的样本素描;通过利用该样本素描查询物种特异分子标签数据库,确定该宏基因组样本测序数据包含的目标物种及各目标物种的丰度并输出,其中该物种特异分子标签数据库基于相同和/或不同物种的参考基因组数据的参考素描构建。该方法可以大大加快运算速度,减少计算资源的消耗,提高数据处理效率。

技术研发人员:易会广
受保护的技术使用者:中国农业科学院深圳农业基因组研究所
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1