一种基于堆叠降噪自动编码算法的红树林生态健康评价方法与流程

文档序号:15388551发布日期:2018-09-08 00:51阅读:271来源:国知局

本发明涉及数据挖掘技术与深度学习方法,具体是一种基于堆叠降噪自动编码算法的红树林生态健康评价方法。



背景技术:

红树林是生长于热带亚热带海岸潮间带、受到海水周期性浸没的木本植物群落,是兼具陆地和海洋特性的复杂生态系统、海岸重要生态关键区,在改善海湾、防浪护堤、净化污染和保护湿地多样性等方面发挥着不可替代的功能。广西沿海是中国大陆重要的红树林分布区,大陆岸线长1490km,红树林面积全国第二,是单位岸线长度红树林分布面积最大的省区。广西设有红树林自然保护区3个(广西合浦的山口国家级自然保护区,广西防城港的北仑河口国家级自然保护区和广西钦州的茅尾海省级自然保护区)。根据过去八年的北仑河口生态保护区环境现状报告,能了解到红树林生态指标包括水环境、沉积环境、浮游生物、浮游植物、潮间带生物、红树林群落与鸟类。其中浮游生物、浮游植物、潮间带生物、红树林群落与鸟类指标最能直接反映红树林生态健康。经过分析发现,这些指标之间有着非常紧密地联系,比如水环境对浮游动物、浮游植物和潮间带生物的生存有着很大的影响,沉积环境对浮游动物、浮游植物的生存有着很大的影响。但是,传感与图像技术只能采集到部分红树林生态指标,如水环境、沉积环境害虫、害虫等。因此,传感与图像技术难以准确评价和预测红树林生态健康状况。



技术实现要素:

本发明的目的是解决现有技术中存在的问题。

为实现本发明目的而采用的技术方案是这样的,一种基于堆叠降噪自动编码算法的红树林生态健康评价方法,主要包括以下步骤:

1)确定红树林生态保护区。

2)建立红树林生态指标数据集。

将η年内所述红树林生态保护区利用传感与图像技术采集到的红树林生态指标数据信息i作为数据集x。所述红树林生态指标数据信息i主要包括水质信息、沉积物ph、土壤ph和土壤粒度指标。

所述水质信息主要包括水温、盐度、ph、叶绿素、氨氮、硝酸盐、亚硝酸盐、无机磷、石油类和化学需氧量。

所述沉积物主要包括有机碳和硫化物。

数据集x如下所示:

式中,为红树林生态指标数据信息i。

将η年内所述生态保护区人工采集的红树林生态指标数据信息ii作为数据集y。所述红树林生态指标数据信息ii主要包括鱼类信息、虾类信息、微生物信息、藻类信息、化学需氧量cod信息、生化耗氧量bod信息、红树林虫害信息、群落类型,底栖动物信息、浮游动植物信息、潮间带生物信息、鳞翅目类信息和鞘翅目类信息。

数据集y如下所示:

式中,为红树林生态指标数据信息ii。

3)对数据集x和数据集y进行预处理。所述预处理主要包括去噪和归一化。记数据集x归一化后的数据集为r1。

4)利用堆叠降噪自动编码算法对数据集x中的数据进行训练。

对数据集x中的数据进行训练的主要步骤如下:

4.1)确定堆叠降噪自动编码算法的网络结构。设定所述网络共m层,其中输入层的层数为1,过渡层的层数为m-2,输出层的层数为1。

4.2)将数据集r1作为所述网络的输入层。

4.3)设定所述过渡层的初始权重。采用降噪自动编码算法对所述过渡层训练,得到训练结果h1。

4.4)将训练结果h1当作下一层的输入层。重复步骤3,得到训练结果h2。

4.5)重复步骤3和步骤4m-2次,最终得到第m层,即输出层的输出结果。将输出结果记为数据集v,训练结束。

5)建立红树林生态指标预测模型。

建立红树林生态指标预测模型的主要步骤如下:

5.1)设计层数为p的反向决策算法。所述反向决策算法主要包括输入层、过渡层和输出层。所述输入层的层数为1。所述过渡层的层数为p-1。所述输出层的层数为1。

将数据集v和数据集y作为所述红树林生态指标预测模型的训练集d。训练集d如下所示:

d={(v1,y1),(v2,y2)……(vm,ym)}。(3)

式中,vi为数据集v的第i行。yi为数据集y的第i行。

5.2)将数据集v作为特征输入。

5.3)记第i层和第j层之间的权重为wij。第j层的偏置为θj。

其中,wij∈[-1,0]。θj∈[-1,0]。

5.4)第j层的输入ij如下所示:

式中,wij为第i层和第j层之间的权重。θj为第j层的偏置。oi为第i层的输出。i为层次序号。j为层次序号。

第j层的输出oj如下所示:

式中,ij为第j层的输入。j为层次序号。

通过第j层的输入ij和第j层的输出oj前向传递,得到第一层的训练结果为s1。

5.5)将s1作为下一层的输入层。定义误差函数err1j。误差函数err1j如下所示:

式中,wjk为第j层和第k层之间的权重。oj为第j层的输出。j为层次序号。k为层次序号。

权重改变量δwij如下所示:

δwij=(l)err1joi。(7)

式中,oi为第i层的输出。i为层次序号。err1j为误差函数。

偏置改变量δδj如下所示:

δθj=(l)err1j。(8)

式中,j为层次序号。(l)为学习系数。err1j为误差函数。

重复步骤3和步骤4,得到第2层的训练结果s2。

5.6)重复步骤3至步骤5p-1次,最终得到第p层,即输出层的输出结果y1。

5.7)对于输出层,定义误差函数err2j。

err2j=oj(i-oj)(1-oj)。(9)

式中,oj为第j层的输出。j为层次序号。

在负梯度方向,以最小err2j和最小θj为基础值,利用公式13和公式14调整权重wij和偏置θj。

w'ij=wij+δwij。(10)

式中,wij为第i层和第j层之间的权重。δwij为权重改变量。w'ij为调整后第i层和第j层之间的权重。

θj=θj+δθj。(11)

式中,θj为第j层的偏置。δθj为偏置改变量。θ'j为调整后第j层的偏置。

5.8)判断调整后第i层和第j层之间的权重w'ij是否低于阈值ε1。判断调整后第i层和第j层之间的偏置θ'j是否低于阈值ε2。

5.9)若w'ij≥ε1,则将w'ij的值作为wij值,重复公式13,重新得到调整后第i层和第j层之间的权重w'ij,并重复步骤5.8。

若θ'j≥ε2,则将θ'j的值作为θj值,重复公式14,重新得到调整后第i层和第j层之间的偏置θ'j,并重复步骤5.8。

若w'ij<ε1和θ'j<ε2同时成立,则训练结束,得到红树林生态指标预测模型。

6)利用所述红树林生态指标预测模型、所述线性训练集s和红树林生态健康评价等级判定表,对所述红树林生态保护区内红树林未来生态健康状况进行预测。

本发明的效果是毋庸置疑的。本发明通过将无监督深度特征学习用于红树林生态大数据的预处理,利用一个由多层降噪自动解码器组成的深度神经网络,以无监督方式进行处理,获取红树林生态大数据中深层次的结构和规律,使得构成的数据表征更易于预测模型的深度学习算法理解,显著改善了反向决策算法的预测准确性。同时,本发明建立了一个反向决策网络模型,通过现时间段传感、图像测得的水环境、沉积环境、害虫数据,准确预测到下一时间段内浮游生物、浮游植物、潮间带生物、红树林群落的数据信息。从而得到传感、图像技术能采集的指标与不能采集的重要指标之间的关联。本发明利用这些已预测到的重要生态指标,结合红树林生态健康评价等级判定表,最终实现对红树林生态健康状况预测的目标。

附图说明

图1为红树林生态健康状况预测技术总体流程图;

图2为反向决策算法结构图;

图3为预测数据与真实数据对比;

图4为采用核技巧算法的生态指标预测结果对比图。

具体实施方式

下面结合实施例对本发明作进一步说明,但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。

实施例1:

参见图1至图4,一种基于堆叠降噪自动编码算法的红树林生态健康评价方法,主要包括以下步骤:

1)确定红树林生态保护区。本实施例选用北仑河口生态保护区。

2)建立红树林生态指标数据集。

将前7年内所述红树林生态保护区利用传感与图像技术采集到的红树林生态指标数据信息i作为数据集x。所述红树林生态指标数据信息i主要包括水质信息、沉积物ph、土壤ph和土壤粒度指标。

所述水质信息主要包括水温、盐度、ph、叶绿素、氨氮、硝酸盐、亚硝酸盐、无机磷、石油类和化学需氧量。

最直接能反映红树林生态健康状况的一些指标如鱼、虾、微生物和藻类,cod、bod及其他微量金属原子,红树林虫害、群落类型,底栖动物、浮游动植物和潮间带生物,鳞翅目类、鞘翅目类信息难以通过传感与图像技术采集,必须通过人工采集进行分析,费时费力。因此建立一个模型得到传感、图像技术能采集的指标与不能采集的重要指标之间的关联是必要的。

所述沉积物主要包括有机碳和硫化物。

式中,为红树林生态指标数据信息i。规定具有相同属性的数据在训练集里为一列,规定不同的样本在训练集里为一行。

将前7年内所述生态保护区人工采集的红树林生态指标数据信息ii作为数据集y。所述红树林生态指标数据信息ii主要包括鱼类信息、虾类信息、微生物信息、藻类信息、化学需氧量cod信息、生化耗氧量bod信息、红树林虫害信息、群落类型,底栖动物信息、浮游动植物信息、潮间带生物信息、鳞翅目类信息和鞘翅目类信息。

式中,为红树林生态指标数据信息ii。规定具有相同属性的数据在训练集里为一列,规定不同的样本在训练集里为一行。yi∈rl

3)对数据集t和数据集y进行预处理。所述预处理主要包括去噪和归一化。把对单位有要求的数据相关列信息的单位统一化处理,m表示单位统一化处理后的维度。记数据集x归一化后为数据集r1。

把min-max标准化:成数据集x其中一列,max和min分别作为该列里的最大值和最小值,xi为归一化后的数据列信息,对数据集x中各列分别进行归一化处理,使各列的数据都映射到[0,1]之内,归一化结束得到数据集r1。

4)利用堆叠降噪自动编码算法对数据集x中的数据进行训练。对数据集x中的数据进行训练的主要步骤如下:

4.1)确定堆叠降噪自动编码算法的网络结构。设定所述网络共m层,其中输入层的层数为1,过渡层的层数为m-2,输出层的层数为1。

4.2)将数据集r1作为所述网络的输入层。

4.3)设定所述过渡层的初始权重h。采用降噪自动编码算法对所述过渡层训练,得到训练结果h1。

h1=rw。(4)

过渡层的输出集h1通过解码的方式再重构一个与r1同样大小规格信号f。解码表达式:

f与r1之间的重构误差如下所示:

4.4)将训练结果h1当作下一层的输入层。重复步骤3,得到训练结果h2。

4.5)重复步骤3和步骤4m-2次,最终得到第m层,即输出层的输出结果。将输出结果记为数据集v,训练结束。

5)建立红树林生态指标预测模型。

建立红树林生态指标预测模型的主要步骤如下:

5.1)设计层数为p的反向决策算法。反向决策算法的总层数为过渡层层数加上输出层层数。反向决策算法的主要思路是把学习过程分成两个阶段:

第一阶段为信息流的正向传播过程。当输入信息在“输入层→过渡层→输出层”的路径中传播和处理时,计算出每层的实际输出值。

第二阶段为误差的反向传播过程。当在输出层未能获得期望输出值时,实际输出与期望输出间的差值(即误差)则在“输出层→隐含层→输入层”的路径中传播。具体地说,就是把误差分摊给各层的层次,从而获得各层层次的误差信号并把这些误差信号作为修正各连接权值的依据。这两个过程的反复应用,最终使得误差最小。

所述反向决策算法主要包括输入层、过渡层和输出层。所述输入层的层数为1。所述过渡层的层数为p-1。所述输出层的层数为1。

将线性训练集s和数据集y作为所述红树林生态指标预测模型的训练集d。训练集d如下所示:

d={(v1,y1),(v2,y2)……(vm,ym)}。(7)

式中,vi为线性训练集v的第i行。yi为数据集y的第i行。

5.2)将数据集v作为特征输入。

5.3)记第i层和第j层之间的权重为wij。第j层的偏置为θj。

其中,wij∈[-1,0]。θj∈[-1,0]。

5.4)第j层的输入ij如下所示:

式中,wij为第i层和第j层之间的权重。θj为第j层的偏置。oi为第i层的输出。i为层次序号。j为层次序号。

第j层的输出oj如下所示:

式中,ij为第j层的输入。j为层次序号。

通过第j层的输入ij和第j层的输出oj前向传递,得到第一层的训练结果为s1。

5.5)将s1作为下一层的输入层。定义误差函数err1j。误差函数err1j如下所示:

式中,wjk为第j层和第k层之间的权重。oj为第j层的输出。j为层次序号。k为层次序号。

权重改变量δwij如下所示:

δwij=(l)errjoi。(11)

式中,oi为第i层的输出。i为层次序号。

偏置改变量δδj如下所示:

δθj=(l)errj。(12)

式中,j为层次序号。(l)为学习系数。err1j为误差函数。

重复步骤3和步骤4,得到第2层的训练结果s2。

5.6)重复步骤3至步骤5p-1次,最终得到第p层,即输出层的输出结果y1。

5.7)对于输出层,定义误差函数err2j。

err2j=oj(i-oj)(1-oj)。(13)

式中,oj为第j层的输出。j为层次序号。

在负梯度方向,以最小err2j和最小erri为基础值,利用公式13和公式14调整权重wij和偏置θj。通过最小err2j计算得出权重wij,再进行权重更新。

w'ij=wij+δwij。(14)

式中,wij为第i层和第j层之间的权重。δwij为权重改变量。w'ij为调整后第i层和第j层之间的权重。

θ'j=θj+δθj。(15)

式中,θj为第j层的偏置。δθj为偏置改变量。θ'j为调整后第j层的偏置。

5.8)判断调整后第i层和第j层之间的权重w'ij是否低于阈值ε1。判断调整后第i层和第j层之间的偏置θ'j是否低于阈值ε2。

5.9)若w'ij≥ε1,则将w'ij的值作为wij值,重复公式13,重新得到调整后第i层和第j层之间的权重w'ij,并重复步骤5.8。

若θ'j≥ε2,则将θ'j的值作为θj值,重复公式14,重新得到调整后第i层和第j层之间的偏置θ'j,并重复步骤5.8。

若w'ij<ε1和θ'j<ε2同时成立,则训练结束,得到红树林生态指标预测模型。

将2016年七月份北仑河口生态保护区传感与图像技术采集到的部分红树林生态指标数据信息作为测试集t,将模型的输出与八月份人工采集的相关参数进行比较,从预测结果可以看出采用反向决策算法预测的准确性较高,从而检验了该模型。如附图3、4所示。同时,图4还说明利用核技巧算法进行线性化处理显著改善了反向决策算法的预测准确性。

6)利用所述红树林生态指标预测模型、所述线性训练集s和红树林生态健康评价等级判定表,对所述红树林生态保护区内红树林未来生态健康状况进行预测。红树林生态健康评价等级判定表对红树林的生态健康进行分级,比如健康为1级,亚健康为2级,不健康为3级,垂危为4级。

本发明通过反向决策算法构建了一个精确的红树林生态指标预测模型,在预测模型前面加上一个核技巧算法,处理红树林生态大数据,使得最终构成的数据表征更易于生态预测模型的深度学习算法理解,显著改善了反向决策预测模型的预测准确度。

同时,所述红树林生态指标预测模型能通过现时间段传感、图像测得的水环境、沉积环境、害虫数据,准确预测到下一时间段内浮游生物、浮游植物、潮间带生物、红树林群落的数据信息,从而得到传感、图像技术能采集的指标与不能采集的重要指标之间的关联。利用这些已预测到的重要生态指标,结合红树林生态健康评价等级判定表,最终实现对红树林生态健康状况预测的目标。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1