陆基工厂循环水养殖中溶解氧优化控制方法、装置及系统与流程

文档序号：15586811发布日期：2018-10-02 18:28阅读：279来源：国知局

本发明涉及陆基工厂循环水养殖技术领域，更具体地，涉及一种陆基工厂循环水养殖中溶解氧优化控制方法、装置及系统。

背景技术：

现有自然和社会资源有限、能源短缺显著及人口持续增长等多重压力与日俱增，如何更好的高产高效产出农副产品，成为当今社会一个紧迫的问题。水产品提供了人类食物1/3的动物蛋白来源，有效缓解了居民粮食短缺和营养平衡问题。但是，当前水产养殖产量已经超过自然捕捞产量，为了维持持续增长的产量，粗放过量投喂，造成水产养殖目前面临低效、高风险、强污染等突出问题，发展高效安全可持续水产养殖方式迫在眉睫。

陆基工厂循环水养殖具有高效、安全与节约的优点，已经逐渐成为水产养殖的主要方式。对于陆基工厂循环水养殖系统而言，高效养殖的关键之一是养殖水体中溶解氧的含量，且溶解氧是水生生物赖以存在的重要水质因子。为确保水产品能时刻获取足够的氧量，需要给养殖水体增氧。

目前陆基工厂化养殖的增氧方式主要是持续地通入纯氧和辅以间隔性的曝气增氧，液氧增氧是目前被认可最环保、节能的增氧方式。一些高密度养殖车间主要依赖具有丰富养殖经验的人员，借助现场仪器仪表或者实验室化验结果，动态调整液氧增氧流量或者以定流量液氧增氧。或者在具有一定自动化条件的车间装备相关控制器，进行液氧增氧的动态控制。

但是，持续的根据实际需求供应液氧会造成液氧浪费，增加养殖成本，并且存在水体富氧化，对水生生物造成威胁。设置的相关控制器由于控制算法较为低级，存在较大的滞后及超调，无法适应循环水养殖中非线性、大延迟及强干扰等特点，特别是在喂鱼前后溶解氧浓度会突变的问题，因此不利于维持稳定的水质环境。

技术实现要素：

为了克服上述问题或者至少部分地解决上述问题，本发明提供一种陆基工厂循环水养殖中溶解氧优化控制方法、装置及系统，用以较好的适应循环水养殖中非线性、大延迟及强干扰的特点，实时且精准的调控陆基工厂循环水养殖中的液氧增氧，从而维持健康且稳定的水质环境并能有效避免浪费。

第一方面，本发明提供一种陆基工厂循环水养殖中溶解氧优化控制方法，包括：利用相空间重构技术，对预处理完成的溶解氧影响因子时间序列进行时间序列相重构，获取高维影响因子时间序列；基于所述高维影响因子时间序列以及生产决策量化参数，利用预训练完成的状态回声网络模型，预测循环水养殖的目标溶解氧含量；基于所述目标溶解氧含量和当前溶解氧影响因子数据，利用基于连续奖励函数设定和反转梯度运算的随动优化控制算法，调控循环水养殖的实际溶解氧含量；其中，所述状态回声网络模型为预先利用构建的训练样本，通过进行基于资格迹的随机策略梯度上升算法训练获取的，所述训练样本由历史溶解氧影响因子时间序列及生产决策量化参数与对应的溶解氧含量构成。

其中，所述利用相空间重构技术，对预处理完成的溶解氧影响因子时间序列进行时间序列相重构，获取高维影响因子时间序列的步骤进一步包括：

标记所述预处理完成的溶解氧影响因子时间序列如下：

uf＝(u(t)，u(t+1)，…)；

u(t)＝(u1(t)，u2(t)，…，un(t))，i＝1，2，…，n；

式中，uf表示预处理完成的溶解氧影响因子时间序列，u(t),u(t+1),…表示溶解氧影响因子时间序列元素，u1(t),u2(t),…,un(t),i＝1,2,…,n表示溶解氧影响因子；

通过添加延迟时间τ，对所述预处理完成的溶解氧影响因子时间序列进行时间序列相重构如下：

ufi(t)＝(u(ti)，u(ti-τ)，…，u(ti-(m-1)τ)，i＝1，2，…，n；

式中，ufi(t)表示高维影响因子时间序列，u(ti),u(ti-τ),…,u(ti-(m-1)τ),i＝1,2,…,n表示高维影响因子时间序列元素。

其中，所述进行基于资格迹的随机策略梯度上升算法的步骤进一步包括：

对于状态回声网络模型t时刻的储备池内部神经元状态x(t)，输入该储备池内部神经元状态x(t)至网络输入端，通过利用给定高斯分布函数，并定义基于预测误差的奖励函数，计算对应的特征资格ei(t)和资格迹zi(t)如下：

zi(t)＝ei(t)+γzi(t-1)；

式中，γ∈[0，1)表示折扣因子，wi表示权重系数w的第i个元素；

其中，所述给定高斯分布函数和所述奖励函数分别如下：

给定高斯分布函数：

式中，表示预测输出，w表示训练过程需要修正的参数；

奖励函数：

式中，ε(t)＝βmse(t)，β表示自定义常量，y(t)和分别表示溶解氧含量实际值和溶解氧含量预测值；

基于特征资格ei(t)和资格迹zi(t)，计算网络连接权重增量如下：

δwi(t):δwi(t)＝(rt-b)zi(t)，式中，b表示基准数；

基于所述网络连接权重增量，更新网络权重系数，并更新算法策略分别如下：

网络权重系数：w←w+αδw(t)；式中，α表示学习率；

算法策略：

其中，利用构建的训练样本，通过进行基于资格迹的随机策略梯度上升算法，训练获取所述状态回声网络模型都步骤进一步包括：初始化设定状态回声网络模型的储备池大小、生成连接矩阵和缩放矩阵，并随机生成网络的输入连接权重矩阵和反馈连接权重矩阵；对于任一训练样本，将所述训练样本中的历史溶解氧影响因子时间序列及生产决策量化参数，以及对应的溶解氧含量输入初始化完成的状态回声网络模型，进行前向计算，获取储备池内部神经元状态；基于所述储备池内部神经元状态，利用基于所述溶解氧含量的高斯分布函数，并通过定义基于预测误差的奖励函数，计算对应的特征资格和资格迹；基于所述特征资格和资格迹，计算网络连接权重增量，并基于所述网络连接权重增量更新网络连接权重系数，并更新算法策略；转入下一个训练样本，对网络连接权重系数和算法策略更新后的状态回声网络模型进行训练，直至训练完成。

进一步的，在所述预测循环水养殖的目标溶解氧含量的步骤之后，所述方法还包括：基于所述目标溶解氧含量和所述当前溶解氧影响因子数据，利用元组表示空间状态，获取元组状态；相应的，所述基于所述目标溶解氧含量和当前溶解氧影响因子数据，利用基于连续奖励函数设定和反转梯度运算的随动优化控制算法，调控循环水养殖的实际溶解氧含量的步骤进一步包括：基于所述元组状态，通过设定连续奖励函数进行基于评价的无模型强化学习，并利用反转梯度法进行行动网络输出的约束性限制，进行所述实际溶解氧含量的实时最优调控。

其中，所述通过设定连续奖励函数进行基于评价的无模型强化学习的步骤进一步包括：基于学习过程中动作的输出值与设定值之间偏离量，实时评价各动作的好坏程度，并通过设定如下连续奖励函数，适配调控过程的数值调控波动：

式中，i表示多输入多输出系统的第i个要控制的输出值变量，η表示大于1的常数，β表示实际过程控制中被控量的最大值，a表示大于零的常量，当输出值在设定值的ε范围内时，a值越大，奖励也就越大。

第二方面，本发明提供一种陆基工厂循环水养殖中溶解氧优化控制装置，包括：至少一个存储器、至少一个处理器、通信接口和总线；所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信，所述通信接口用于所述优化控制装置与溶解氧影响因子单元、生产决策量化参数单元和溶解氧调节执行机构之间的信息传输；所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的陆基工厂循环水养殖中溶解氧优化控制方法。

第三方面，本发明提供一种陆基工厂循环水养殖中溶解氧优化控制系统，包括：如上所述的陆基工厂循环水养殖中溶解氧优化控制装置，以及，溶解氧影响因子单元，用于获取设定时间段内陆基工厂循环水养殖中的溶解氧影响因子时间序列，并进行预处理，获取预处理完成的溶解氧影响因子时间序列；生产决策量化参数单元，用于获取生产决策，并进行生成决策参数量化处理，获取生产决策量化参数；溶解氧调节执行机构，用于根据所述优化控制装置的调控指令，执行溶解氧含量调节任务。

本发明提供的一种陆基工厂循环水养殖中溶解氧优化控制方法、装置及系统，通过将非线性智能预测模型和随动优化控制相结合，采用人工智能的方法实现对陆基工厂养殖中液氧增氧的按需精准预测，并随动优化控制液氧供应，能够较好的适应循环水养殖中非线性、大延迟及强干扰的特点，实时且精准的调控陆基工厂循环水养殖中的液氧增氧，从而维持健康且稳定的水质环境，同时能有效避免浪费。

附图说明

图1为本发明实施例一种陆基工厂循环水养殖中溶解氧优化控制方法的流程图；

图2为根据本发明实施例一种陆基工厂循环水养殖中溶解氧优化控制方法中溶解氧非线性智能预测模型的结构示意图；

图3为根据本发明实施例一种陆基工厂循环水养殖中溶解氧优化控制方法中随动优化控制单元的结构示意图；

图4为本发明实施例另一种陆基工厂循环水养殖中溶解氧优化控制方法的流程图；

图5为本发明实施例一种陆基工厂循环水养殖中溶解氧优化控制装置的结构框图；

图6为本发明实施例一种陆基工厂循环水养殖中溶解氧优化控制系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

可知在陆基工厂循环水养殖实际生产过程中，循环水溶解氧的下一个状态严重依赖于前一个和面几个状态变化情况。基于此，本发明实施例利用状态回声网络(echostatenetwork,esn)与强化学习中的随机梯度策略算法，组成混合模型来分析陆基工厂循环水的溶解氧变化规律，并对液氧增氧进行精准调控。

具体作为本发明实施例的一个方面，本实施例提供一种陆基工厂循环水养殖中溶解氧优化控制方法，参考图1，为本发明实施例一种陆基工厂循环水养殖中溶解氧优化控制方法的流程图，包括：

s1，利用相空间重构技术，对预处理完成的溶解氧影响因子时间序列进行时间序列相重构，获取高维影响因子时间序列；

s2，基于高维影响因子时间序列以及生产决策量化参数，利用预训练完成的状态回声网络模型，预测循环水养殖的目标溶解氧含量；

s3，基于目标溶解氧含量和当前溶解氧影响因子数据，利用基于连续奖励函数设定和反转梯度运算的随动优化控制算法，调控循环水养殖的实际溶解氧含量；

其中，状态回声网络模型为预先利用训练样本，通过进行基于资格迹的随机策略梯度上升算法训练获取的，训练样本由历史溶解氧影响因子时间序列及生产决策量化参数与对应的溶解氧含量构成。

可以理解为，本发明实施例的溶解氧优化控制方法首先采用改进资格迹的随机策略梯度上升算法优化后的状态回声网络模型，准确预测溶解氧目标值，并采用深度确定性策略梯度算法，进行随动优化控制，实现智能适配最优液氧调控和循环水养殖的高效生产。

事实上，该溶解氧优化控制方法可以看作主要由两部分构成，即利用非线性智能预测模型预测目标溶解氧含量阶段和基于目标溶解氧含量的随动优化调控阶段。

其中，在利用非线性智能预测模型，预测目标溶解氧含量阶段，又包含网络模型输入数据，即溶解氧影响因子和生产决策量化参数的获取和处理，以及根据该网络模型输入数据预测目标溶解氧含量的处理流程。

具体在步骤s1中，预先获取给定时间段内陆基工厂循环水的溶解氧影响因子，构成溶解氧影响因子时间序列。其中，在一个实施例中，溶解氧影响因子具体包括：水体溶解氧以及水体温度、水体酸碱度、水体电导率、养殖空气环境气压、养殖空气环境温度和养殖空气环境湿度中的一种或多种；生产决策量化参数具体包括：养殖品种、液氧流量和控制策略中的一种或多种。

然后，对上述溶解氧影响因子时间序列进行预处理，得到预处理完成的溶解氧影响因子时间序列，再在此基础上，进行基于相空间重构技术的时间序列相重构，获取高维影响因子时间序列。

其中可选的，利用相空间重构技术，对预处理完成的溶解氧影响因子时间序列进行时间序列相重构，获取高维影响因子时间序列的步骤进一步包括：

标记预处理完成的溶解氧影响因子时间序列如下：

uf＝(u(t)，u(t+1)，…)；

u(t)＝(u1(t)，u2(t)，…，un(t))，i＝1，2，…，n；

式中，uf表示预处理完成的溶解氧影响因子时间序列，u(t),u(t+1),…表示溶解氧影响因子时间序列元素，u1(t),u2(t),…,un(t),i＝1,2,…,n表示溶解氧影响因子；

通过添加延迟时间τ，对预处理完成的溶解氧影响因子时间序列进行时间序列相重构如下：

ufi(t)＝(u(ti)，u(ti-τ)，…，u(ti-(m-1)τ)，i＝1，2，…，n；

式中，ufi(t)表示高维影响因子时间序列，u(ti),u(ti-τ),…,u(ti-(m-1)τ),i＝1,2,…,n表示高维影响因子时间序列元素。

可以理解为，上述的时间序列相重构是将经过数据预处理的陆基工厂水产养殖溶解氧影响因子，例如包括水体溶解氧、水体温度、水体酸碱度、水体电导率以及养殖空气环境气压、温度、湿度等参数，标记为观测值，然后每个数值按照给定重构算式，加上延迟时间τ进行重构时间序列，形成高维的时间序列，即为高维影响因子时间序列。

具体在步骤s2中，根据上述网络模型输入数据预测目标溶解氧含量。即，通过将上述步骤处理获取的高维影响因子时间序列，以及根据实际生产决策经量化处理获取的生产决策量化参数，进行综合量化处理，得到组合时间序列。并通过将该组合时间序列输入至预先训练好的状态回声网络模型，由该模型进行数据前向加权计算，得到循环水养殖的目标溶解氧含量。

其中，在预先进行状态回声网络模型训练之前，需要构建训练样本集，该训练样本集中包含多组训练样本。其中的训练样本包括由历史溶解氧影响因子时间序列及生产决策量化参数组成的组合时间序列，以及与之对应时刻的溶解氧含量，以该溶解氧含量作为样本标签。在进行网络训练时，根据组合时间序列进行加权计算，输出预测结果，并利用对应的样本标签对预测输出结果进行验证。

其中考虑到由于最适宜生长的溶解氧浓度将因坏境、生产决策而异，建立基于资格迹的随机策略梯度上升算法改进的状态回声网络模型，对水体溶解氧含量智能预测模型，从而得到准确性较高的溶解氧含量预测值，并以此作为随动优化控制单元目标值。

具体在步骤s3中，以根据上述步骤获取的目标溶解氧含量为调控目标，以陆基工厂循环水的当前溶解氧影响因子数据为基础，分别通过基于连续奖励函数的评价运算和基于反转梯度的行动运算，进行随动优化控制，调控循环水养殖的实际溶解氧含量。通过采用深度确定性策略梯度算法，重新设计状态和奖励函数来加速随动优化控制。

本发明实施例提供的一种陆基工厂循环水养殖中溶解氧优化控制方法，通过将非线性智能预测模型和随动优化控制相结合，采用人工智能的方法实现对陆基工厂养殖中液氧增氧的按需精准预测，并随动优化控制液氧供应，能够较好的适应循环水养殖中非线性、大延迟及强干扰的特点，实时且精准的调控陆基工厂循环水养殖中的液氧增氧，从而维持健康且稳定的水质环境，同时能有效避免浪费。

基于上述处理流程，利用相空间重构技术，对经过数据预处理的各项时间序列参数值，包括影响循环水养殖溶解氧含量的影响因子和生产决策参数，进行时间序列相重构并进行综合量化，并建立水体溶解氧含量智能预测模型。智能预测模型采用基于资格迹的随机策略梯度上升算法，对状态回声网络模型的输出矩阵进行优化，得到准确性较高的水体溶解氧目标值。然后，将该水体溶解氧目标值作为随动优化控制单元目标值，与当前影响因子和控制策略进行融合，并用元组表示状态空间，通过设计连续奖励函数来更新评价网络参数，用反转梯度法来钳制动作网络参数在合理区间，实时更新随动控制策略，直至最优目标值实现。

在其中的一个实施例中，进行基于资格迹的随机策略梯度上升算法的步骤进一步包括：

zi(t)＝ei(t)+γzi(t-1)；

式中，γ∈[0，1)表示折扣因子，wi表示权重系数w的第i个元素；

其中，给定高斯分布函数和奖励函数分别如下：

给定高斯分布函数：

式中，表示预测输出，w表示训练过程需要修正的参数；

奖励函数：

式中，ε(t)＝βmse(t)，β表示自定义常量，y(t)和分别表示溶解氧含量实际值和溶解氧含量预测值；

基于特征资格ei(t)和资格迹zi(t)，计算网络连接权重增量如下：

δwi(t):δwi(t)＝(rt-b)zi(t)，式中，b表示基准数；

基于网络连接权重增量，更新网络权重系数，并更新算法策略分别如下：

网络权重系数：w←w+αδw(t)；式中，α表示学习率；

算法策略：

可以理解为，如图2所示，为根据本发明实施例一种陆基工厂循环水养殖中溶解氧优化控制方法中溶解氧非线性智能预测模型的结构示意图。上述基于资格迹的随机策略梯度上升算法，通过对状态回声网络输出权重矩阵进行修正，更准确的根据时间序列进行预测。

首先输入t时刻网络储备池内部神经元状态x(t)和回声网络的输出权重矩阵wout，然后利用上述给定高斯分布函数表示预测输出。再然后，定义如上奖励函数，并计算网络特征资格ei(t)和资格迹zi(t)如下：

zi(t)＝ei(t)+γzi(t-1)。

式中，γ∈[0，1)表示折扣因子，表示预测输出，wout表示训练过程需要修正的参数，wouti表示权重系数向量wout的第i个元素。

基于此，更新输出权重系数wout，并计算预测误差mse(t)，直到输出预测目标值准确率达到设定值，同时将预测输出更新为随动优化控制单元目标值。

具体的，基于资格迹的随机策略梯度上升算法的伪码如表1所示，表1为本发明实施例基于资格迹的随机策略梯度上升算法的伪码表。

表1，本发明实施例基于资格迹的随机策略梯度上升算法的伪码表

其中，根据上述实施例，利用构建的训练样本，通过进行基于资格迹的随机策略梯度上升算法，训练获取状态回声网络模型都步骤进一步包括：

初始化设定状态回声网络模型的储备池大小、生成连接矩阵和缩放矩阵，并随机生成网络的输入连接权重矩阵和反馈连接权重矩阵；

对于任一训练样本，将训练样本中的历史溶解氧影响因子时间序列及生产决策量化参数，以及对应的溶解氧含量输入初始化完成的状态回声网络模型，进行前向计算，获取储备池内部神经元状态；

基于储备池内部神经元状态，利用基于溶解氧含量的高斯分布函数，并通过定义基于预测误差的奖励函数，计算对应的特征资格和资格迹；

基于特征资格和资格迹，计算网络连接权重增量，并基于网络连接权重增量更新网络连接权重系数，并更新算法策略；

转入下一个训练样本，对网络连接权重系数和算法策略更新后的状态回声网络模型进行训练，直至训练完成。

可以理解为，在根据上述实施例对状态回声网络模型进行训练前，首先需要对网络模型进行初始化设定，具体分别初始化设定状态回声网络模型的储备池大小、生成连接矩阵和缩放矩阵，并随机生成网络的输入连接权重矩阵和反馈连接权重矩阵。

在网络模型初始化设定的基础上，逐个利用上述训练样本对网络模型进行训练并迭代更新。具体对于每一组训练样本，将其中的组合时间序列和样本标签同时输入训练流程，利用组合时间序列进行网络的前向加权计算，得到网络模型中储备池内部神经元状态。

然后，基于该储备池内部神经元状态，分别确定基于溶解氧含量的高斯分布函数并定义基于预测误差的奖励函数，并在此基础上，计算对应的网络特征资格和资格迹。

最后，基于计算获取的网络特征资格和资格迹，计算网络连接权重增量，并基于此更新网络连接权重系数和算法策略。然后转入下一组训练样本，对网络连接权重系数和算法策略更新后的状态回声网络模型，循环执行上述训练流程，并迭代更新网络参数，直至训练次数达到设定值，或训练预测输出精度达到设定阈值。

进一步的，在另一个实施例中，在预测循环水养殖的目标溶解氧含量的步骤之后，该方法还包括：

基于目标溶解氧含量和当前溶解氧影响因子数据，利用元组表示空间状态，获取元组状态；

相应的，基于目标溶解氧含量和当前溶解氧影响因子数据，利用基于连续奖励函数设定和反转梯度运算的随动优化控制算法，调控循环水养殖的实际溶解氧含量的步骤进一步包括：

基于元组状态，通过设定连续奖励函数进行基于评价的无模型强化学习，并利用反转梯度法进行行动网络输出的约束性限制，进行实际溶解氧含量的实时最优调控。

可以理解的是，上述的元组状态空间，是一种能够加速设定值跟踪的控制策略。将预测模型输出的溶解氧作为调控目标值，结合当前溶解氧影响因子数据，形成一个元组，记为<y，yset>。其中，y表示当前溶解氧影响因子数据，yset表示调控目标值，即根据上述实施例的目标溶解氧含量。

具体在实际随动优化调控过程中，以得到的元组状态为基础，通过设定连续奖励函数，进行基于评价的无模型强化学习，逐步优化网络权值和网络策略，并为行为网络提供运算的损失函数。

之后，继续以元组状态为基础，对行为网络的损失函数进行反转梯度法运算，以将强化学习的行动网络输出限制在一定范围内，不让其有超过动作范围的输出。最终实现实际溶解氧含量的实时最优调控。

其中，根据上述实施例，通过设定连续奖励函数进行基于评价的无模型强化学习的步骤进一步包括：

基于学习过程中动作的输出值与设定值之间偏离量，实时评价各动作的好坏程度，并通过设定如下连续奖励函数，适配调控过程的数值调控波动：

可以理解的是，上述连续奖励函数是一种适配数值调控波动的时变奖励函数。系统在某个状态下作出某个动作后会进入下一个状态，用该动作的输出值与设定值的偏离量衡量该动作的好坏程度，并以该好坏程度评价为基础，根据上述连续奖励函数确定动作的奖惩数值，对每一个动作的奖励进行逐级累加，直至累积奖励越来越高，随动控制液氧增氧在精度逐渐增至较高水平。

其中，根据上述实施例，利用反转梯度法进行行动网络输出的约束性限制的步骤进一步包括：

基于实际生产中的约束条件，通过对网络梯度进行如下反转操作，限制行动网络的输出：

式中，表示评价网络的参数化梯度，pmax、pmin分别表示系统控制器的动作最大值和最小值，p表示梯度的输入端。

可以理解的是，上述的反转梯度法是将强化学习的行动网络输出限制在一定范围内，不让其有超过动作范围的输出的一种算法策略。如图3所示，为根据本发明实施例一种陆基工厂循环水养殖中溶解氧优化控制方法中随动优化控制单元的结构示意图。在实际溶解氧优化控制应用中，根据基于连续奖励函数的迭代评价运算，为行动网络提供一个损失函数，行动网络根据该损失函数的梯度改进网络策略，并最终实现对循环水养殖的实际溶解氧含量的实时调控。

具体的，实现液氧增氧随动优化控制的改进算法的伪码如表2所示，表2为本发明实施例改进的ddpg算法的伪码表。

表2，本发明实施例改进的ddpg算法的伪码表

为进一步说明本发明的技术方案，提供如下优选的处理流程，但不对本发明的保护范围进行限制。

参考图4，为本发明实施例另一种陆基工厂循环水养殖中溶解氧优化控制方法的流程图，其中该方法的运算可由利用非线性智能预测模型进行目标溶解氧含量预测，以及基于目标溶解氧含量进行随动优化调控两部分组成。采用无模型强化学习算法，基于“试错”机制，学习代理通过与环境交互、得到评价性的反馈信号来获取经验，进行策略改进，最终实现序贯决策的优化。

其中，在利用非线性智能预测模型，进行目标溶解氧含量预测的运算流程中，又进一步可分为如下步骤：

步骤1，将不同养殖品种的最适宜生长溶解氧浓度用基于强化学习的回声状态网络进行预测。

首先将采集到的经数据预处理后的影响循环水养殖溶解氧含量的影响因子，例如包括水体溶解氧、水体温度、水体酸碱度、水体电导率、养殖空气环境气压、温度、湿度等的时间序列数据，标记如下：

uf＝(u(t)，u(t+1)，…)；

u(t)＝(u1(t)，u2(t)，…，un(t))，i＝1，2，…，n。

然后对上述时间序列数据进行时间序列相空间重构，得到如下高维影响因子时间序列：

ufi(t)＝(u(ti)，u(ti-τ)，…，u(ti-(m-1)τ)，i＝1，2，…，n；

式中，ufi(t)表示高维影响因子时间序列，u(ti),u(ti-τ),…,u(ti-(m-1)τ),i＝1,2,…,n表示高维影响因子时间序列元素。

对于生产决策量化参数uc(t)，与预处理完成的溶解氧影响因子时间序列进行结合，得到：

u＝(uc(t)，u(t)，u(t+1)，…)；

利用相空间重构技术进行时间序列的相重构，得到组合重构序列：

ui(t)＝(uc(t)，u(ti)，u(ti-τ)，…，u(ti-(m-1)τ)，i＝1，2，…，n。

随机初始化回声状态网络后，根据得到的历史时间序列数据，采用基于自强化学习算法的训练流程训练回声状态网络的输出权重矩阵，使预测模型能更加精确地预测溶解氧的理想值。

步骤2，初始化回声状态网络。

确认储备池大小，生成连接矩阵、缩放矩阵，随机生成输入和反馈连接权重矩阵。

步骤3，训练回声状态网络预测模型。

加载样本数据并空转一定时间。向回声状态网络输入训练样本更新并收集中间状态。其中ui(t)即为上述的组合重构序列ui(t)，表示t时刻组合重构序列对应的样本标签。

图4中的输入层神经元在t时刻的值ui(t)，储备池内部神经元的值和随机层的值分别如下：

x(t)＝(x1(t)，x2(t)，…，xn(t))；

v(t)＝(υ1(t)，υ2(t))。

为了表示方便，采用最简单的esn结构，对储备池状态和随机层的状态分别更新如下：

x(t+1)＝f(wxx(t)+winu(t)+wfbv(t)+v(t))；

v(t+1)＝g(wout[x(t+1)，u(t+1)，v(t)])；

式中，函数f、g分别表示储备池激活函数向量与随机层激活函数，取g为sigmoid激活函数。

为了表示方便，令μ≡υ1(t+1)，δ≡υ2(t+1)，则可得：

式中，win∈r^m×n、wx∈r^n×n、w∈r^n×2、wfb∈r^2×n分别表示输出层到储备池层、储备池内部神经元，储备池层到随机层以及随机层到储备池层的连接权重，wμ、wδ分别表示储备池层与随机层中的μ神经远和δ神经元的连接权重，且有wout＝(wμ,wδ)，u(t)、x(t)和v(t)分别表示输入向量、储备池内部神经元状态向量和随机层神经元状态向量。

对于基于资格迹的随机策略梯度上升(et-spga)回声状态网络(esn)时间序列预测模型，其中基于资格迹的随机策略梯度上升算法如上述表1所示。

然后，由上述算法流程可推导出et-spga的特征资格ei(t)如下：

式中，wμ,wδ∈(0,1)，在第一次迭代学习时随机初始化，β1、β2为梯度常数。

在根据上述步骤对权重系数向量w进行更新后，向网络中输入新的u(t)，根据生产实际情况，提前n步输出预测值

其中，在基于目标溶解氧含量，进行随动优化调控的运算流程中，又进一步可分为如下步骤：

步骤1，为了加快在线学习速度，设计连续的奖励函数如下：

式中，i表示多输入多输出系统的第i个要控制的输出值变量，η表示大于1的常数，β表示实际过程控制中被控量的最大值，循环水中的溶解氧的最大值可设为25mg/l，a表示大于零的常量，当输出值在设定值的ε范围内时，a值越大，奖励也就越大。

评价网络用q-learning的方法对当前的策略做出评价，输出一个损失函数供行动学习，损失函数表示如下：

l(wc)＝[(r+γqt-q(s，a，wc))²]；

评价网络根据损失函数的梯度更新如下：

式中，qt＝q(s′，π(s′，wa^t)，wc^t)表示目标值，wa^t、wc^t分别表示目标行动网络和目标评价网络的权重，表示评价网络对系数wc的偏导。折扣因子γ∈(0，1)决定未来奖励对当前状态的影响程度，γ＝1时表示所有时间步获得的奖励对当前的状态影响程度一样，γ＝0时表示只考虑当前的奖励而忽略所有将来的奖励。

设当系统迭代运行了200时间步或系统输出y连续5个时间步都处在到达设定值yset的ε的范围内，则一个运算周期结束。

步骤2，该无模型强化学习算法采用行动-评价结构，随机初始化行动网络权值矩阵wa和策略网络的权值矩阵wc。为了使动作满足实际生产中的约束条件，加入反转梯度，用如下转换式子对梯度进行反转操作：

根据步骤1中迭代过程所得的值函数，为行动网络提供一个损失函数，行动网络根据该损失函数的梯度改进算法策略。行动网络的损失函数梯度为：

式中，表示评论网络对经验池小批样本行为的梯度，表示行动网络对行动网络参数wa的梯度。

于是，行动网络和评价网络可以不断的迭代更新，进而改进算法策略。其中行动网络和评价网络都使用了批标准化。

为了加强探索，这里加入ornstein-uhlenbeck(ou)过程噪声。将提前n步的预测值赋予理想设定值yset(t)。

步骤3，进行策略更新并改进，并加快在线学习速度，最终实现水体溶解氧目标值和设定值实时保持一致，液氧增氧实时最优调控。

本发明实施例改进的深度确定性策略梯度(ddpg)算法，采用优先经验回放技术及独立的目标网络。优先经验回放技术能加速训练过程，变相增加样本，且独立于当前训练过程中状态的影响；独立目标网络机制使得同策略(on-policy)学习算法变为异策略(off-policy)学习算法。

作为本发明实施例的另一个方面，本实施例提供一种陆基工厂循环水养殖中溶解氧优化控制装置，参考图5，为本发明实施例一种陆基工厂循环水养殖中溶解氧优化控制装置的结构框图，包括：至少一个存储器501、至少一个处理器502、通信接口503和总线504。

其中，存储器501、处理器502和通信接口503通过总线504完成相互间的通信，通信接口503用于优化控制装置与溶解氧影响因子单元、生产决策量化参数单元和溶解氧调节执行机构之间的信息传输；存储器501中存储有可在处理器502上运行的计算机程序，处理器502执行所述计算机程序时，实现如上述实施例所述的陆基工厂循环水养殖中溶解氧优化控制方法。

可以理解为，所述的陆基工厂循环水养殖中溶解氧优化控制装置中至少包含存储器501、处理器502、通信接口503和总线504，且存储器501、处理器502和通信接口503通过总线504形成相互之间的通信连接，并可完成相互间的通信。

通信接口503实现陆基工厂循环水养殖中溶解氧优化控制装置与溶解氧影响因子单元、生产决策量化参数单元和溶解氧调节执行机构之间的通信连接，并可完成相互间信息传输，如通过通信接口503实现对溶解氧影响因子和生产决策量化参数的获取，以及对溶解氧调节执行机构的控制等。

陆基工厂循环水养殖中溶解氧优化控制装置运行时，处理器502调用存储器501中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：基于所述高维影响因子时间序列以及生产决策量化参数，利用预训练完成的状态回声网络模型，预测循环水养殖的目标溶解氧含量等。

本发明另一个实施例中，提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如上述实施例所述的陆基工厂循环水养殖中溶解氧优化控制方法。

可以理解为，上述的存储器501中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。或者，实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的陆基工厂循环水养殖中溶解氧优化控制装置的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，既可以位于一个地方，或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上实施方式的描述，本领域的技术人员可以清楚地了解，各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如u盘、移动硬盘、rom、ram、磁碟或者光盘等，包括若干指令，用以使得一台计算机设备(如个人计算机，服务器，或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。

本发明实施例提供的一种陆基工厂循环水养殖中溶解氧优化控制装置和一种非暂态计算机可读存储介质，通过将非线性智能预测模型和随动优化控制相结合，采用人工智能的方法实现对陆基工厂养殖中液氧增氧的按需精准预测，并随动优化控制液氧供应，能够较好的适应循环水养殖中非线性、大延迟及强干扰的特点，实时且精准的调控陆基工厂循环水养殖中的液氧增氧，从而维持健康且稳定的水质环境，同时能有效避免浪费。

作为本发明实施例的又一个方面，本实施例提供一种陆基工厂循环水养殖中溶解氧优化控制系统，参考图6，为本发明实施例一种陆基工厂循环水养殖中溶解氧优化控制系统的结构示意图。包括：如上述实施例中的陆基工厂循环水养殖中溶解氧优化控制装置1，以及，溶解氧影响因子单元2、生产决策量化参数单元3和溶解氧调节执行机构4。其中，

溶解氧影响因子单元2用于获取设定时间段内陆基工厂循环水养殖中的溶解氧影响因子时间序列，并进行预处理，获取预处理完成的溶解氧影响因子时间序列；生产决策量化参数单元3用于获取生产决策，并进行生成决策参数量化处理，获取生产决策量化参数；溶解氧调节执行机构4用于根据优化控制装置的调控指令，执行溶解氧含量调节任务。

该系统用于在上述各实施例中实现对陆基工厂养殖中液氧增氧的按需精准预测，并随动优化控制液氧供应。因此，在上述各实施例中的陆基工厂循环水养殖中溶解氧优化控制方法中的描述和定义，可以用于本发明实施例中各个执行单元的理解。

可知，本发明实施例的溶解氧优化控制系统中，溶解氧优化控制装置1整体可由非线性智能预测模型和随动有化控制两个单元组成，每个单元内部又可包含若干组成模块，如非线性智能预测模型单元可以包括数据输入与处理模块、时间序序列项重构模块、状态回声网络模型模块、基于资格迹的随机策略梯度上升算法模块以及溶解氧预测值输出模块等。而随动优化控制单元可以包括元组状态模块、强化学习训练模块、连续奖励函数模块、反转梯度模块、评价和行动网络模块以及最优输出控制模块等。

可以理解的是，本发明实施例中可以通过硬件处理器(hardwareprocessor)来实现相关功能模块。

本发明实施例提供的一种陆基工厂循环水养殖中溶解氧优化控制系统，利用陆基工厂循环水养殖中溶解氧优化控制装置1，通过将非线性智能预测模型和随动优化控制相结合，采用人工智能的方法实现对陆基工厂养殖中液氧增氧的按需精准预测，并随动优化控制液氧供应，能够较好的适应循环水养殖中非线性、大延迟及强干扰的特点，实时且精准的调控陆基工厂循环水养殖中的液氧增氧，从而维持健康且稳定的水质环境，同时能有效避免浪费。

综上，本发明实施例基于深度强化学习的陆基工厂循环水养殖溶解氧优化控制方法、装置及系统，是一种自适应的无模型算法，可以实现连续状态空间的受约束连续动作空间随动控制。通过采用资格迹的随机策略梯度上升算法，对状态回声网络输出权重矩阵进行训练，以达到更准确的时间序列预测结果。同时，随动优化控制单元采用深度确定性策略梯度算法，重新设计状态表示方法和回报函数来加速随动优化控制。

相比于典型的深度去定性策略梯度算法，数据效率高，训练速度快，能够实时在线精准调控水体溶解氧含量，满足陆基工厂循环水养殖液氧增氧调控的在线实时优化，调控效果较好。同时，能够应用在陆基工厂循环水养殖液氧增氧优化控制中，实现智能适配最优液氧调控和循环水养殖高效生产。

另外，本领域内的技术人员应当理解的是，在本发明的申请文件中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明的说明书中，说明了大量具体细节。然而应当理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。同样应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。

然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李道亮;邹治本;王亮;位耀光
技术所有人：中国农业大学
我是此专利的发明人

上一篇：一种雾化喷枪和脱硫废水处理装置的制作方法
上一篇：一种用于管网天然气调压的自反馈降噪装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。