本发明涉及阀控液压缸控制,具体是涉及一种基于td3算法的阀控液压缸强化学习分数阶控制方法及系统。
背景技术:
1、阀控液压缸是一种常见的液压执行元件,在工业和机械控制领域具有广泛的应用。它具有高力密度、平稳运动、高可靠性以及适应性强等优点。阀控液压缸能够提供高力输出,适用于需要大功率输出的应用。通过精确的液压控制实现平稳、精确的运动,具有较高的运动控制精度。阀控液压缸的结构简单、操作可靠,具有较长的使用寿命和稳定的性能。可以适应不同负载和工况条件下的工作,能够实现力、速度的调节和控制。
2、分数阶pid控制器是一种新型的pid控制器,它可以更好地描述分数阶动力学系统。与传统的pid控制器不同,分数阶pid控制器的控制器输出与误差的分数阶次之间存在比例关系。采用分数阶pid控制器可以对阀控液压缸进行优化控制,但是优化分数阶pid控制器的参数仍是一项非常具有挑战性的任务。
技术实现思路
1、发明目的:针对以上缺点,本发明提供一种更好控制效果的td3算法的阀控液压缸强化学习分数阶控制方法及系统。
2、技术方案:为解决上述问题,本发明采用一种基于td3算法的阀控液压缸强化学习分数阶控制方法,包括以下步骤:
3、(1)根据阀控液压缸控制原理,建立阀控液压缸的数学模型;
4、(2)设计加入干扰观测器的分数阶pid控制器对阀控液压缸系统进行控制;
5、(3)通过改进的td3算法对分数阶pid控制器的参数进行优化调整;所述改进的td3算法中的奖励信号的表达式为:
6、;
7、其中,为当前环境状态信号,为actor网络输出的动作信号,为阀控液压缸系统的误差信号;
8、(4)通过优化后的分数阶pid控制器对阀控液压缸进行控制。
9、进一步的,所述步骤(1)中阀控液压缸数学模型的动态特性方程式为:
10、;
11、;
12、;
13、其中,为液压缸活塞作用面积,为负载位移,为对求一阶导,为对求二阶导,为液压缸总的内泄漏系数,为液压缸两腔压差,为液压缸油腔总的体积,为油液体积弹性模量,液压缸的压力-流量方程,为滑阀的流量增益,为滑阀的流量压力放大系数,为伺服阀阀芯输入位移,为控制窗口处的流系数,为伺服阀节流口面积梯度,为油液密度,为供油压力,是活塞及负载折算到活塞上的总质量,是活塞及负载的粘性阻尼系数,是弹簧度,为阀控液压缸系统未知摩擦力和未知干扰力,是控制器增益,是伺服阀增益,是控制信号。
14、进一步的,所述干扰观测器为:
15、,
16、其中,为干扰观测器辅助向量,为干扰观测器增益,为对求一阶导;
17、定义状态变量,阀控液压缸的系统状态方程为:
18、,
19、其中,,,,为阀控液压缸的系统复合扰动,是无控制器情况下的伺服阀增益,为对求一阶导,为对求一阶导,为对求一阶导。
20、进一步的,所述分数阶pid控制器的表达式为:
21、,
22、其中,为比例系数,为积分系数,为积分算子,为积分阶次,为微分系数,为微分算子,为微分阶次。
23、进一步的,所述改进的td3算法中的时序误差为:
24、,
25、其中,为在策略下的critic网络输出,为critic网络参数,为折扣率,。
26、进一步的,所述改进的td3算法包括actor网络与双critic网络,以及根据critic网络的网络结构与参数构建的target critic网络,根据actor网络的网络结构与参数构建的target actor网络;所述critic网络的损失函数为:
27、,
28、其中,为样本数;为target critic网络的目标值;为第个样本中第个critic网络的输出值。
29、进一步的,所述actor网络的损失函数为:
30、,
31、其中,为当前状态与动作下的价值期望值,表示当前时刻奖励,为权重参数,为度量策略分布不确定性的指标。
32、进一步的,所述critic网络参数采用梯度下降进行更新,更新算法为:
33、,
34、其中,为critic网络更新学习率,为关于参数求取梯度;
35、所述actor网络参数采用梯度下降进行更新,更新算法为:
36、,
37、其中,为actor网络更新学习率,为关于参数求取梯度。
38、进一步的,所述target critic网络和target actor网络的网络参数进行软更新;具体为:
39、,
40、,
41、其中,为网络参数的更新移动量。
42、本发明还采用一种上述基于td3算法的阀控液压缸强化学习分数阶控制方法的控制系统,包括:
43、模型建立模块,用于根据阀控液压缸控制原理,建立阀控液压缸的数学模型,设计加入干扰观测器的分数阶pid控制器对阀控液压缸系统进行控制;
44、优化模块,用于通过改进的td3算法对分数阶pid控制器的参数进行优化调整;
45、控制模块,用于通过优化后的分数阶pid控制器对阀控液压缸进行控制。
46、有益效果:本发明相对于现有技术,其显著优点是通过设计干扰观测器,提升系统的抗干扰能力,提升了控制系统鲁棒性,进一步通过改进的td3算法不仅加快了网络的收敛性而且能更加有效的对分数阶pid的参数进行在线优化调整,使控制器能更好的发挥适应性与控制性能。
1.一种基于td3算法的阀控液压缸强化学习分数阶控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的阀控液压缸强化学习分数阶控制方法,其特征在于,所述步骤(1)中阀控液压缸数学模型的动态特性方程式为:;
3.根据权利要求2所述的阀控液压缸强化学习分数阶控制方法,其特征在于,所述干扰观测器为:
4.根据权利要求3所述的阀控液压缸强化学习分数阶控制方法,其特征在于,所述分数阶pid控制器的表达式为:
5.根据权利要求4所述的阀控液压缸强化学习分数阶控制方法,其特征在于,所述改进的td3算法中的时序误差为:
6.根据权利要求5所述的阀控液压缸强化学习分数阶控制方法,其特征在于,所述改进的td3算法包括actor网络与双critic网络,以及根据critic网络的网络结构与参数构建的target critic网络,根据actor网络的网络结构与参数构建的target actor网络;所述critic网络的损失函数为:
7.根据权利要求6所述的阀控液压缸强化学习分数阶控制方法,其特征在于,所述actor网络的损失函数为:
8.根据权利要求6所述的阀控液压缸强化学习分数阶控制方法,其特征在于,所述critic网络参数采用梯度下降进行更新,更新算法为:
9.根据权利要求8所述的阀控液压缸强化学习分数阶控制方法,其特征在于, 所述target critic网络和target actor网络的网络参数进行软更新;具体为:
10.一种采用权利要求1所述基于td3算法的阀控液压缸强化学习分数阶控制方法的控制系统,其特征在于,包括: