基于TD3算法的阀控液压缸强化学习分数阶控制方法及系统

文档序号:37647121发布日期:2024-04-18 18:15阅读:10来源:国知局
基于TD3算法的阀控液压缸强化学习分数阶控制方法及系统

本发明涉及阀控液压缸控制,具体是涉及一种基于td3算法的阀控液压缸强化学习分数阶控制方法及系统。


背景技术:

1、阀控液压缸是一种常见的液压执行元件,在工业和机械控制领域具有广泛的应用。它具有高力密度、平稳运动、高可靠性以及适应性强等优点。阀控液压缸能够提供高力输出,适用于需要大功率输出的应用。通过精确的液压控制实现平稳、精确的运动,具有较高的运动控制精度。阀控液压缸的结构简单、操作可靠,具有较长的使用寿命和稳定的性能。可以适应不同负载和工况条件下的工作,能够实现力、速度的调节和控制。

2、分数阶pid控制器是一种新型的pid控制器,它可以更好地描述分数阶动力学系统。与传统的pid控制器不同,分数阶pid控制器的控制器输出与误差的分数阶次之间存在比例关系。采用分数阶pid控制器可以对阀控液压缸进行优化控制,但是优化分数阶pid控制器的参数仍是一项非常具有挑战性的任务。


技术实现思路

1、发明目的:针对以上缺点,本发明提供一种更好控制效果的td3算法的阀控液压缸强化学习分数阶控制方法及系统。

2、技术方案:为解决上述问题,本发明采用一种基于td3算法的阀控液压缸强化学习分数阶控制方法,包括以下步骤:

3、(1)根据阀控液压缸控制原理,建立阀控液压缸的数学模型;

4、(2)设计加入干扰观测器的分数阶pid控制器对阀控液压缸系统进行控制;

5、(3)通过改进的td3算法对分数阶pid控制器的参数进行优化调整;所述改进的td3算法中的奖励信号的表达式为:

6、;

7、其中,为当前环境状态信号,为actor网络输出的动作信号,为阀控液压缸系统的误差信号;

8、(4)通过优化后的分数阶pid控制器对阀控液压缸进行控制。

9、进一步的,所述步骤(1)中阀控液压缸数学模型的动态特性方程式为:

10、;

11、;

12、;

13、其中,为液压缸活塞作用面积,为负载位移,为对求一阶导,为对求二阶导,为液压缸总的内泄漏系数,为液压缸两腔压差,为液压缸油腔总的体积,为油液体积弹性模量,液压缸的压力-流量方程,为滑阀的流量增益,为滑阀的流量压力放大系数,为伺服阀阀芯输入位移,为控制窗口处的流系数,为伺服阀节流口面积梯度,为油液密度,为供油压力,是活塞及负载折算到活塞上的总质量,是活塞及负载的粘性阻尼系数,是弹簧度,为阀控液压缸系统未知摩擦力和未知干扰力,是控制器增益,是伺服阀增益,是控制信号。

14、进一步的,所述干扰观测器为:

15、,

16、其中,为干扰观测器辅助向量,为干扰观测器增益,为对求一阶导;

17、定义状态变量,阀控液压缸的系统状态方程为:

18、,

19、其中,,,,为阀控液压缸的系统复合扰动,是无控制器情况下的伺服阀增益,为对求一阶导,为对求一阶导,为对求一阶导。

20、进一步的,所述分数阶pid控制器的表达式为:

21、,

22、其中,为比例系数,为积分系数,为积分算子,为积分阶次,为微分系数,为微分算子,为微分阶次。

23、进一步的,所述改进的td3算法中的时序误差为:

24、,

25、其中,为在策略下的critic网络输出,为critic网络参数,为折扣率,。

26、进一步的,所述改进的td3算法包括actor网络与双critic网络,以及根据critic网络的网络结构与参数构建的target critic网络,根据actor网络的网络结构与参数构建的target actor网络;所述critic网络的损失函数为:

27、,

28、其中,为样本数;为target critic网络的目标值;为第个样本中第个critic网络的输出值。

29、进一步的,所述actor网络的损失函数为:

30、,

31、其中,为当前状态与动作下的价值期望值,表示当前时刻奖励,为权重参数,为度量策略分布不确定性的指标。

32、进一步的,所述critic网络参数采用梯度下降进行更新,更新算法为:

33、,

34、其中,为critic网络更新学习率,为关于参数求取梯度;

35、所述actor网络参数采用梯度下降进行更新,更新算法为:

36、,

37、其中,为actor网络更新学习率,为关于参数求取梯度。

38、进一步的,所述target critic网络和target actor网络的网络参数进行软更新;具体为:

39、,

40、,

41、其中,为网络参数的更新移动量。

42、本发明还采用一种上述基于td3算法的阀控液压缸强化学习分数阶控制方法的控制系统,包括:

43、模型建立模块,用于根据阀控液压缸控制原理,建立阀控液压缸的数学模型,设计加入干扰观测器的分数阶pid控制器对阀控液压缸系统进行控制;

44、优化模块,用于通过改进的td3算法对分数阶pid控制器的参数进行优化调整;

45、控制模块,用于通过优化后的分数阶pid控制器对阀控液压缸进行控制。

46、有益效果:本发明相对于现有技术,其显著优点是通过设计干扰观测器,提升系统的抗干扰能力,提升了控制系统鲁棒性,进一步通过改进的td3算法不仅加快了网络的收敛性而且能更加有效的对分数阶pid的参数进行在线优化调整,使控制器能更好的发挥适应性与控制性能。



技术特征:

1.一种基于td3算法的阀控液压缸强化学习分数阶控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的阀控液压缸强化学习分数阶控制方法,其特征在于,所述步骤(1)中阀控液压缸数学模型的动态特性方程式为:;

3.根据权利要求2所述的阀控液压缸强化学习分数阶控制方法,其特征在于,所述干扰观测器为:

4.根据权利要求3所述的阀控液压缸强化学习分数阶控制方法,其特征在于,所述分数阶pid控制器的表达式为:

5.根据权利要求4所述的阀控液压缸强化学习分数阶控制方法,其特征在于,所述改进的td3算法中的时序误差为:

6.根据权利要求5所述的阀控液压缸强化学习分数阶控制方法,其特征在于,所述改进的td3算法包括actor网络与双critic网络,以及根据critic网络的网络结构与参数构建的target critic网络,根据actor网络的网络结构与参数构建的target actor网络;所述critic网络的损失函数为:

7.根据权利要求6所述的阀控液压缸强化学习分数阶控制方法,其特征在于,所述actor网络的损失函数为:

8.根据权利要求6所述的阀控液压缸强化学习分数阶控制方法,其特征在于,所述critic网络参数采用梯度下降进行更新,更新算法为:

9.根据权利要求8所述的阀控液压缸强化学习分数阶控制方法,其特征在于, 所述target critic网络和target actor网络的网络参数进行软更新;具体为:

10.一种采用权利要求1所述基于td3算法的阀控液压缸强化学习分数阶控制方法的控制系统,其特征在于,包括:


技术总结
本发明公开了一种基于TD3算法的阀控液压缸强化学习分数阶控制方法及系统,根据阀控液压缸控制原理,建立阀控液压缸的数学模型;设计加入干扰观测器的分数阶PID控制器对阀控液压缸系统进行控制;通过改进的TD3算法对分数阶PID控制器的参数进行优化调整;通过优化后的分数阶PID控制器对阀控液压缸进行控制。通过设计干扰观测器,提升系统的抗干扰能力,提升了控制系统鲁棒性,进一步通过改进的TD3算法不仅加快了网络的收敛性而且能更加有效的对分数阶PID的参数进行在线优化调整,使控制器能更好的发挥适应性与控制性能。

技术研发人员:邵书义,焦广鑫,陈谋,孙栋
受保护的技术使用者:南京航空航天大学
技术研发日:
技术公布日:2024/4/17
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1