一种基于深度强化学习的碾米机运行优化控制方法与流程

文档序号:33378992发布日期:2023-03-08 05:02阅读:132来源:国知局
一种基于深度强化学习的碾米机运行优化控制方法与流程

1.本发明涉及优化控制方法技术领域,具体为一种基于深度强化学习的碾米机运行优化控制方法。


背景技术:

2.稻谷是我国最重要的粮食,全国约有2/3人口以大米为主食,大米质量与人们的日常生活和健康息息相关,稻米生产是国家粮食安全的重中之重。工业化的大米加工生产一般需要经过原粮入库检查、称重、脱壳、碾米、色选、抛光、成品等工序。其中碾米机作为稻谷加工过程中的关键设备,在提高稻米产率和质量方面起着至关重要作用。
3.随着智能化技术的发展,稻米加工行业也开始走向智能化。智能化应用到碾米机控制中可以提高稻米产率等关键指标。现有碾米机控制系统常用的传统pid控制结构简单易操作,但是由于其非线性、时变不确定等特性,导致pid参数调节幅度大且不具备自学习能力,不能满足碾米机精确的智能控制系统要求。
4.目前经典的设备运行优化控制理论有开闭环控制、pid控制和微分方程等,这些理论直接应用在工程智能控制中存在很多短板,首先是控制方法无法解决多变量之间的协同问题,往往跟目标调控单变量后不能同时考虑其他变量的时空变化,大部分算法局限于单变量、定值操作。同时,控制方法无法处理参数耦合问题,系统中参数的数量增加,方法的收敛性会大幅减弱,无法达到实际应用的效果,最后由于环境问题的多变和复杂,建立好的控制方法随时面临变化,需要进行修改以适应新环境。
5.为了解决复杂系统的优化控制问题越来越多的学者使用深度强化学习来解决智能优化控制的问题。使用深度强化学习来调节pid参数。强化学习是在和环境交互中通过观察环境提供的状态和反馈来实现策略的学习。在某一个时刻,环境处于某一状态state,智能体针对当前状态采取一个动作action后,环境的状态发生改变,同时向智能体反馈奖励信息reward。最终目的通过与环境的不断地交互,找到最佳策略,以获得最多的奖励。深度强化学习就是结合深度神经网络的强化学习,a2c_rbf的深度强化学习方法就可以解决连续状态和连续空间动作的问题。a2c_rbf深度强化学习方法基于actor-critic算法,a2c算法利用多线程并行独立采样数据,在保证数据多样性的同时还可以提高学习效率,不必占用大块内存,更方便工业落地,同时在a2c算法中加入rbf神经网络可以解决传统算法收敛速度慢,收敛精度差的问题。
6.本发明拟在传统控制理论的基础上,引入神经网络、强化学习等人工智能算法,构建可实现自调节自优化碾米机运行优化控制方法。


技术实现要素:

7.针对现有技术的不足,本发明提供了一种基于深度强化学习的碾米机运行优化控制方法,解决了碾米机运行优化控制方法效果不是很好的问题。
8.为实现以上目的,本发明通过以下技术方案予以实现:一种基于深度强化学习的
碾米机运行优化控制方法,具体包括以下步骤:
9.s1、配置强化学习训练相关内容;
10.s2、由深度强化学习模块进行训练,令智能体模拟与环境的交互进行大量实验,根据实验结果产生相应的回报,将得到的这些数据作为训练集训练,不断地优化模型,以增大回报的期望,最终达到收敛;
11.s3、配置pid控制相关内容;
12.s4、利用传感器等工具得到碾米机实时的控制信号值,并计算被控对象的当前值c(t)与目标值的差值,记为e(t);
13.s5、将e(t)输入状态转换器,计算得到δe(t)和δδe(t),将e(t)、δe(t)、δδe(t)组成一个状态state,把state输入到训练好的a2c_rbf模型中,输出一个三维的量,即动作action;
14.s6、根据计算出的action,修改pid控制器中相关参数的值。需要由动作修正器将action里的三个元素经过一个线性变化,得到三个量δkp、δki、δkd,施加到pid控制器中的三个参数;
15.s7、经过参数修改后的pid控制器,继续根据e(t)、δe(t)、δδe(t)输出下一轮的控制量u(t),经过传递函数的辅助,作用到被控对象上,产生新的当前值y(t)、e(t)、δe(t)、δδe(t),并反馈给状态转换器,反馈值记为c(t),重复s4;
16.s8、不断循环执行上述步骤,返回整个控制周期中受控对象的变化情况等信息并绘图。
17.优选的,所述s1中,配置强化学习训练相关内容的步骤具体如下:
18.步骤1、固定随机种子seed,保证每次实验产生的随机数相同,使实验可复现;
19.步骤2、设定模型的保存方式;
20.步骤3、设置学习率、强化学习的折扣率、迭代轮数、神经网络隐藏层个数等。
21.优选的,所述s3中,配置pid控制相关内容具体包括以下步骤:
22.步骤1、根据碾米机(被控对象)工作的特点设置pid控制的时长,即相隔多长时间进行一次控制;设置pid控制器中的参数kp、ki、kd的初始值;
23.步骤2、确定控制信号u(t)以及目标函数r(t),若智能模型最终目标为提高去糠率、留胚率,实现流量平衡等指标,控制信号则为影响该指标的相关参数,如:主电机转速、进口阀门开度、碾磨电流、负压风机转速等。目标函数r(t)描述了被控对象的期望输出值;
24.步骤3、根据碾米机的数学、物理模型推导出被控对象的传递函数,或是构建专家系统,从而获取控制信号与输出值(指标的具体数值)的对应关系。
25.优选的,所述s5中,δe(t)表示本时刻与上一时刻e(t)之间的差值,δδe(t)则表示δe(t)的差值。
26.优选的,所述s6中,动作修正器的设定根据经验或者专家系统得出。
27.有益效果
28.本发明提供了一种基于深度强化学习的碾米机运行优化控制方法。与现有技术相比具备以下有益效果:
29.(1)、该基于深度强化学习的碾米机运行优化控制方法,通过s1、配置强化学习训练相关内容;s2、由深度强化学习模块进行训练,令智能体模拟与环境的交互进行大量实
验,根据实验结果产生相应的回报,将得到的这些数据作为训练集训练,不断地优化模型,以增大回报的期望,最终达到收敛;s3、配置pid控制相关内容;利用基于强化学习的pid控制算法,对碾米机运行进行优化控制,相比于传统的pid控制,能够更快的收敛。
30.(2)、该基于深度强化学习的碾米机运行优化控制方法,通过强化学习的参数整定,取代了传统的人工参数整定,减少人力的同时削弱了人的主观因素,防止经验不足带来的低效控制。
附图说明
31.图1为本发明碾米机运行优化控制方法的流程图。
具体实施方式
32.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
33.请参阅图1,本发明提供一种技术方案:一种基于深度强化学习的碾米机运行优化控制方法,具体包括以下步骤:
34.s1、配置强化学习训练相关内容;
35.s2、由深度强化学习模块进行训练,令智能体模拟与环境的交互进行大量实验,根据实验结果产生相应的回报,将得到的这些数据作为训练集训练,不断地优化模型,以增大回报的期望,最终达到收敛;
36.s3、配置pid控制相关内容;
37.s4、利用传感器等工具得到碾米机实时的控制信号值,并计算被控对象的当前值c(t)与目标值的差值,记为e(t);
38.s5、将e(t)输入状态转换器,计算得到δe(t)和δδe(t),将e(t)、δe(t)、δδe(t)组成一个状态state,把state输入到训练好的a2c_rbf模型中,输出一个三维的量,即动作action;
39.s6、根据计算出的action,修改pid控制器中相关参数的值。需要由动作修正器将action里的三个元素经过一个线性变化,得到三个量δkp、δki、δkd,施加到pid控制器中的三个参数;
40.s7、经过参数修改后的pid控制器,继续根据e(t)、δe(t)、δδe(t)输出下一轮的控制量u(t),经过传递函数的辅助,作用到被控对象上,产生新的当前值y(t)、e(t)、δe(t)、δδe(t),并反馈给状态转换器,反馈值记为c(t),重复s4;
41.s8、不断循环执行上述步骤,返回整个控制周期中受控对象的变化情况等信息并绘图,利用基于强化学习的pid控制算法进行碾米机优化控制,用强化学习自适应整定的方式代替人工参数整定,同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。
42.本发明中,所述s1中,配置强化学习训练相关内容的步骤具体如下:
43.步骤1、固定随机种子seed,保证每次实验产生的随机数相同,使实验可复现;
44.步骤2、设定模型的保存方式;
45.步骤3、设置学习率、强化学习的折扣率、迭代轮数、神经网络隐藏层个数等。
46.本发明中,所述s3中,配置pid控制相关内容具体包括以下步骤:
47.步骤1、根据碾米机(被控对象)工作的特点设置pid控制的时长,即相隔多长时间进行一次控制;设置pid控制器中的参数kp、ki、kd的初始值;
48.步骤2、确定控制信号u(t)以及目标函数r(t),若智能模型最终目标为提高去糠率、留胚率,实现流量平衡等指标,控制信号则为影响该指标的相关参数,如:主电机转速、进口阀门开度、碾磨电流、负压风机转速等。目标函数r(t)描述了被控对象的期望输出值;
49.步骤3、根据碾米机的数学、物理模型推导出被控对象的传递函数,或是构建专家系统,从而获取控制信号与输出值(指标的具体数值)的对应关系,在pid运行控制的同时对pid的参数进行整定,实时反馈控制的结果。
50.本发明中,所述s5中,δe(t)表示本时刻与上一时刻e(t)之间的差值,δδe(t)则表示δe(t)的差值。
51.本发明中,所述s6中,动作修正器的设定根据经验或者专家系统得出。
52.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
53.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1