一种基于强化学习的污水处理控制系统的制作方法

文档序号:16320244发布日期:2018-12-19 05:39阅读:323来源:国知局
一种基于强化学习的污水处理控制系统的制作方法

本发明涉及一种基于强化学习的污水处理控制系统。



背景技术:

目前,强化学习在工业控制中的应用逐渐增多,但一般都限于特定的模型,其主要原因在于强化学习的训练需要环境支持,而在很多污水处理控制方面,完全模拟真实场景的环境所需要的计算量远远大于强化学习模型训练本身所需要的计算量,导致得不偿失,而且就目前的企业技术发展而言,原始的数据积累也很成问题。



技术实现要素:

为解决上述技术问题,本发明提供了一种基于强化学习的污水处理控制系统,该基于强化学习的污水处理控制系统能通过直接从真实环境采集数据训练的连接方式,从而使得强化学习的训练可以直接在真实场景下完成,且完成之后可直接交接控制权。

本发明通过以下技术方案得以实现。

本发明提供的一种基于强化学习的污水处理控制系统,包括依次通信连接的信号接收端、现场控制器、指令发送端;所述现场控制器与信号接收端之间接有信号分路模块,现场控制器与指令发送端之间接有信号合并模块,在信号分路模块和信号合并模块之间有强化控制模块并联于现场控制器;有时序协调模块分别连接强化控制模块、信号分路模块和信号合并模块,并根据强化控制模块的信号对信号分路模块和信号合并模块进行控制。

所述时序协调模块对信号合并模块的控制在于,根据强化控制模块中控制模型的训练程度的提高,控制信号合并模块完成从完全传递现场控制器的指令、到传递现场控制器和强化控制模块的叠加指令、最后到完全传递强化控制模块的指令的过程。

所述时序协调模块对信号分路模块的控制在于,在强化控制模块发出训练完成度100%的信号之前,信号分路模块将信号接收端的信号同时完整发送至强化控制模块和现场控制器,在强化控制模块发出训练完成度100%的信号之后,信号分路模块将信号接收端的信号仅发送至强化控制模块。

所述强化控制模块核心采用ARMv8架构的处理器。

所述时序协调模块核心采用STM32F1系列芯片。

所述信号分路模块采用8位单片机为核心的光耦电路。

所述信号合并模块核心为DSP芯片。

所述时序协调模块控制信号合并模块完成从完全传递现场控制器的指令、到传递现场控制器和强化控制模块的叠加指令、最后到完全传递强化控制模块的指令的过程,为如下两种方式之一:

a.分为三个阶段,第一阶段完全传递现场控制器的指令,第二阶段传递现场控制器和强化控制模块的叠加指令,且强化控制模块指令信号量小于传递现场控制器指令信号量的30%,第三阶段完全传递强化控制模块的指令;

b.传递现场控制器和强化控制模块的叠加指令,其中强化控制模块指令信号量在最终指令信号量中的占比从0%至100%线性增加。

本发明的有益效果在于:通过直接从真实环境采集数据训练的连接方式,从而使得强化学习的训练可以直接在真实场景下完成,且完成之后可直接交接控制权,从而最终既避免企业采集数据、训练模型的麻烦,也避免了训练完成之后部署的适应性问题。

附图说明

图1是本发明的连接示意图。

具体实施方式

下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。

如图1所示的一种基于强化学习的污水处理控制系统,包括依次通信连接的信号接收端、现场控制器、指令发送端;所述现场控制器与信号接收端之间接有信号分路模块,现场控制器与指令发送端之间接有信号合并模块,在信号分路模块和信号合并模块之间有强化控制模块并联于现场控制器;有时序协调模块分别连接强化控制模块、信号分路模块和信号合并模块,并根据强化控制模块的信号对信号分路模块和信号合并模块进行控制。

所述时序协调模块对信号合并模块的控制在于,根据强化控制模块中控制模型的训练程度的提高,控制信号合并模块完成从完全传递现场控制器的指令、到传递现场控制器和强化控制模块的叠加指令、最后到完全传递强化控制模块的指令的过程。

所述时序协调模块对信号分路模块的控制在于,在强化控制模块发出训练完成度100%的信号之前,信号分路模块将信号接收端的信号同时完整发送至强化控制模块和现场控制器,在强化控制模块发出训练完成度100%的信号之后,信号分路模块将信号接收端的信号仅发送至强化控制模块。

强化控制模块需要完成强化学习模型的训练,所需计算量较大,因此作为优选方式,所述强化控制模块核心采用ARMv8架构的处理器。

时序协调模块主要是根据强化控制模块的信号来发送对应的控制信号,因此处于降低成本的考虑,所述时序协调模块核心采用STM32F1系列芯片。

所述信号分路模块采用8位单片机为核心的光耦电路。

信号合并模块的主要作用在于对数字信号进行快速的叠加计算,因此作为优选方式,所述信号合并模块核心为DSP芯片。

所述时序协调模块控制信号合并模块完成从完全传递现场控制器的指令、到传递现场控制器和强化控制模块的叠加指令、最后到完全传递强化控制模块的指令的过程,为如下两种方式之一:

a.分为三个阶段,第一阶段完全传递现场控制器的指令,第二阶段传递现场控制器和强化控制模块的叠加指令,且强化控制模块指令信号量小于传递现场控制器指令信号量的30%,第三阶段完全传递强化控制模块的指令;

b.传递现场控制器和强化控制模块的叠加指令,其中强化控制模块指令信号量在最终指令信号量中的占比从0%至100%线性增加。

本发明主要配合本公司研究的基于强化学习的污水处理控制方法(已同时另外申请专利),对应于时序协调模块控制信号合并模块的两种方式,强化控制模块中完成强化学习模型的初始化、训练及运行,在分为三个阶段的方式a中,强化学习模型在训练时由于有大量时间在同一状态的环境中,因此可以在每一阶段分别训练环境模型和策略模型,适用于污水处理池环境较为封闭且稳定的控制,而在强化控制模块指令信号量占比线性增加的方式b中,强化学习模型如采用分别训练环境模型和策略模型的方式则耗时过长且容易过拟合,因此主要应用模型未知的强化学习,好处在于对异常情况的适应性更强,适用于污水处理池环境较为开放的控制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1