一种利用细菌OTUs丰度预测河流水质理化指标的方法

文档序号:30973477发布日期:2022-08-02 22:32阅读:来源:国知局

技术特征:
1.一种利用细菌otus丰度预测河流水质理化指标的方法,其特征在于,包括以下步骤:(1)取若干河流水样进行16s rrna测序,确定细菌otus相对丰度,并对所述河流水样的水质理化指标进行检测;(2)以细菌otus相对丰度作为输入变量,以水质理化指标作为输出变量,采用随机森林算法建立初始回归模型,并对输入变量进行重要度排序,从中选出重要细菌变量;(3)以所述重要细菌变量作为输入变量,以水质理化指标作为输出变量,采用随机森林算法建立预测模型;(4)利用所述预测模型对待测河流水样的水质理化指标进行预测。2.根据权利要求1所述的利用细菌otus丰度预测河流水质理化指标的方法,其特征在于,所述河流水质理化指标包括以下指标中的至少一种:tn、no
3-‑
n、nh
4+-n、tp、srp、chl_a、doc、do、orp、cond、水温、tn/tp、no
3-‑
n/tp、nh
4+-n/tn、no
3-‑
n/tn、no
3-‑
n/nh
4+-n、doc/tn、卡马西平、红霉素、9-芴酮。3.根据权利要求1所述的利用细菌otus丰度预测河流水质理化指标的方法,其特征在于,步骤(3)中,分别以重要度排序前i名的变量作为重要细菌变量来建立预测模型,i=10~50,比较不同预测模型之间的均方误差mse和/或拟合系数r2,选择mse值最小或者r2值最大的预测模型作为最终的预测模型,用来对待测河流水样的水质理化指标进行预测。4.根据权利要求1所述的利用细菌otus丰度预测河流水质理化指标的方法,其特征在于,步骤(2)中,采用%incmse评价输入变量的重要度;通过r软件中的“importance”和“varimpplot”获得输入变量的%incmse排序。5.根据权利要求1所述的利用细菌otus丰度预测河流水质理化指标的方法,其特征在于,通过r软件中的“randomforest”包建立所述初始回归模型和预测模型。6.根据权利要求1所述的利用细菌otus丰度预测河流水质理化指标的方法,其特征在于,步骤(4)中,利用所述预测模型对待测河流水样的水质理化指标进行预测的方法包括:取所述待测河流水样进行16s rrna测序,确定细菌otus相对丰度,选取其中与所述预测模型中的重要细菌变量相应的变量作为输入变量,代入所述预测模型,得到的输出变量值即为所述待测河流水样的水质理化指标预测结果。7.根据权利要求1所述的利用细菌otus丰度预测河流水质理化指标的方法,其特征在于,还包括:将所述河流水样的数据集随机划分为训练集和测试集,利用所述训练集建立所述预测模型,利用所述测试集验证所述预测模型的预测能力,优选的,以所述数据集的70%作为训练集,以所述数据集的30%作为测试集。8.根据权利要求7所述的利用细菌otus丰度预测河流水质理化指标的方法,其特征在于,以拟合系数r2衡量所述预测模型的预测能力:当r2≤0.3时,预测值与观测值拟合效果差,所述预测模型的预测能力差;当0.3<r2≤0.4时,预测值与观测值拟合效果弱,所述预测模型的预测能力弱;当0.4<r2≤0.6时,预测值与观测值拟合效果中等,所述预测模型的预测能力中等;当0.6<r2≤1.0时,预测值与观测值拟合效果强,所述预测模型的预测能力强。9.根据权利要求1所述的利用细菌otus丰度预测河流水质理化指标的方法,其特征在于,步骤(1)中,所述确定细菌otus相对丰度的方法包括:对所述河流水样进行dna提取,扩增16s rrna基因v4区;
对pcr产物进行纯化,并测量纯化pcr产物的dna浓度;对纯化pcr产物进行基因测序,原始序列进行除杂,得到的高质量双端序列基于重复区域被连接成tags,过滤嵌合子,并将序列聚类成otus,计算细菌otus相对丰度。10.根据权利要求9所述的利用细菌otus丰度预测河流水质理化指标的方法,其特征在于,采用dna分离试剂盒进行dna提取;用条形码引物515f和806r扩增16s rrna基因v4区;使用dna凝胶提取试剂盒纯化pcr产物;使用荧光计测量纯化pcr产物的dna浓度;使用illumina hiseq 2500测序平台对纯化pcr产物进行基因测序;原始序列使用flash和trimmomatic软件进行去杂,去除引物错配数在2以上、拼接序列的重叠区错配率在0.2以上的序列;用uparse软件过滤嵌合子,并对序列进行聚类,根据97%的序列相似度将所有序列进行同源比对并聚类成otus。

技术总结
本发明提供一种利用细菌OTUs丰度预测河流水质理化指标的方法,涉及污水处理领域。该方法包括:取若干河流水样进行16S rRNA测序,确定细菌OTUs相对丰度,并对河流水样的水质理化指标进行检测;以细菌OTUs相对丰度作为输入变量,以水质理化指标作为输出变量,采用随机森林算法建立初始回归模型,并对输入变量进行重要度排序,从中选出重要细菌变量;以重要细菌变量作为输入变量,以水质理化指标作为输出变量,采用随机森林算法建立预测模型;利用预测模型对待测河流水样的水质理化指标进行预测。仅需要待测河流水样的16S rRNA的测序数据即可对河流水质理化指标进行精准预测,能够节约大量的时间、人力和检测试剂。人力和检测试剂。人力和检测试剂。


技术研发人员:柏耀辉 王晨晨 王巧娟 曲久辉
受保护的技术使用者:中国科学院生态环境研究中心
技术研发日:2022.03.31
技术公布日:2022/8/1
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1