基于TD3算法的阀控液压缸强化学习分数阶控制方法及系统

文档序号：37647121发布日期：2024-04-18 18:15阅读：10来源：国知局

本发明涉及阀控液压缸控制，具体是涉及一种基于td3算法的阀控液压缸强化学习分数阶控制方法及系统。

背景技术：

1、阀控液压缸是一种常见的液压执行元件，在工业和机械控制领域具有广泛的应用。它具有高力密度、平稳运动、高可靠性以及适应性强等优点。阀控液压缸能够提供高力输出，适用于需要大功率输出的应用。通过精确的液压控制实现平稳、精确的运动，具有较高的运动控制精度。阀控液压缸的结构简单、操作可靠，具有较长的使用寿命和稳定的性能。可以适应不同负载和工况条件下的工作，能够实现力、速度的调节和控制。

2、分数阶pid控制器是一种新型的pid控制器，它可以更好地描述分数阶动力学系统。与传统的pid控制器不同，分数阶pid控制器的控制器输出与误差的分数阶次之间存在比例关系。采用分数阶pid控制器可以对阀控液压缸进行优化控制，但是优化分数阶pid控制器的参数仍是一项非常具有挑战性的任务。

技术实现思路

1、发明目的：针对以上缺点，本发明提供一种更好控制效果的td3算法的阀控液压缸强化学习分数阶控制方法及系统。

2、技术方案：为解决上述问题，本发明采用一种基于td3算法的阀控液压缸强化学习分数阶控制方法，包括以下步骤：

3、（1）根据阀控液压缸控制原理，建立阀控液压缸的数学模型；

4、（2）设计加入干扰观测器的分数阶pid控制器对阀控液压缸系统进行控制；

5、（3）通过改进的td3算法对分数阶pid控制器的参数进行优化调整；所述改进的td3算法中的奖励信号的表达式为：

6、；

7、其中，为当前环境状态信号，为actor网络输出的动作信号，为阀控液压缸系统的误差信号；

8、（4）通过优化后的分数阶pid控制器对阀控液压缸进行控制。

9、进一步的，所述步骤(1)中阀控液压缸数学模型的动态特性方程式为：

10、；

11、；

12、；

13、其中，为液压缸活塞作用面积，为负载位移，为对求一阶导，为对求二阶导，为液压缸总的内泄漏系数，为液压缸两腔压差，为液压缸油腔总的体积，为油液体积弹性模量，液压缸的压力-流量方程，为滑阀的流量增益，为滑阀的流量压力放大系数，为伺服阀阀芯输入位移，为控制窗口处的流系数，为伺服阀节流口面积梯度，为油液密度，为供油压力，是活塞及负载折算到活塞上的总质量，是活塞及负载的粘性阻尼系数，是弹簧度，为阀控液压缸系统未知摩擦力和未知干扰力，是控制器增益，是伺服阀增益，是控制信号。

14、进一步的，所述干扰观测器为：

15、，

16、其中，为干扰观测器辅助向量，为干扰观测器增益，为对求一阶导；

17、定义状态变量，阀控液压缸的系统状态方程为：

18、，

19、其中，，，，为阀控液压缸的系统复合扰动，是无控制器情况下的伺服阀增益，为对求一阶导，为对求一阶导，为对求一阶导。

20、进一步的，所述分数阶pid控制器的表达式为：

21、，

22、其中，为比例系数，为积分系数，为积分算子，为积分阶次，为微分系数，为微分算子，为微分阶次。

23、进一步的，所述改进的td3算法中的时序误差为：

24、，

25、其中，为在策略下的critic网络输出，为critic网络参数，为折扣率，。

26、进一步的，所述改进的td3算法包括actor网络与双critic网络，以及根据critic网络的网络结构与参数构建的target critic网络，根据actor网络的网络结构与参数构建的target actor网络；所述critic网络的损失函数为：

27、，

28、其中，为样本数；为target critic网络的目标值；为第个样本中第个critic网络的输出值。

29、进一步的，所述actor网络的损失函数为：

30、，

31、其中，为当前状态与动作下的价值期望值，表示当前时刻奖励，为权重参数，为度量策略分布不确定性的指标。

32、进一步的，所述critic网络参数采用梯度下降进行更新，更新算法为：

33、，

34、其中，为critic网络更新学习率，为关于参数求取梯度；

35、所述actor网络参数采用梯度下降进行更新，更新算法为：

36、，

37、其中，为actor网络更新学习率，为关于参数求取梯度。

38、进一步的，所述target critic网络和target actor网络的网络参数进行软更新；具体为：

39、，

40、，

41、其中，为网络参数的更新移动量。

42、本发明还采用一种上述基于td3算法的阀控液压缸强化学习分数阶控制方法的控制系统，包括：

43、模型建立模块，用于根据阀控液压缸控制原理，建立阀控液压缸的数学模型，设计加入干扰观测器的分数阶pid控制器对阀控液压缸系统进行控制；

44、优化模块，用于通过改进的td3算法对分数阶pid控制器的参数进行优化调整；

45、控制模块，用于通过优化后的分数阶pid控制器对阀控液压缸进行控制。

46、有益效果：本发明相对于现有技术，其显著优点是通过设计干扰观测器，提升系统的抗干扰能力，提升了控制系统鲁棒性，进一步通过改进的td3算法不仅加快了网络的收敛性而且能更加有效的对分数阶pid的参数进行在线优化调整，使控制器能更好的发挥适应性与控制性能。

技术特征：

1.一种基于td3算法的阀控液压缸强化学习分数阶控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述步骤(1)中阀控液压缸数学模型的动态特性方程式为：；

3.根据权利要求2所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述干扰观测器为：

4.根据权利要求3所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述分数阶pid控制器的表达式为：

5.根据权利要求4所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述改进的td3算法中的时序误差为：

6.根据权利要求5所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述改进的td3算法包括actor网络与双critic网络，以及根据critic网络的网络结构与参数构建的target critic网络，根据actor网络的网络结构与参数构建的target actor网络；所述critic网络的损失函数为：

7.根据权利要求6所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述actor网络的损失函数为：

8.根据权利要求6所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述critic网络参数采用梯度下降进行更新，更新算法为：

9.根据权利要求8所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述target critic网络和target actor网络的网络参数进行软更新；具体为：

10.一种采用权利要求1所述基于td3算法的阀控液压缸强化学习分数阶控制方法的控制系统，其特征在于，包括：

技术总结
本发明公开了一种基于TD3算法的阀控液压缸强化学习分数阶控制方法及系统，根据阀控液压缸控制原理，建立阀控液压缸的数学模型；设计加入干扰观测器的分数阶PID控制器对阀控液压缸系统进行控制；通过改进的TD3算法对分数阶PID控制器的参数进行优化调整；通过优化后的分数阶PID控制器对阀控液压缸进行控制。通过设计干扰观测器，提升系统的抗干扰能力，提升了控制系统鲁棒性，进一步通过改进的TD3算法不仅加快了网络的收敛性而且能更加有效的对分数阶PID的参数进行在线优化调整，使控制器能更好的发挥适应性与控制性能。

技术研发人员：邵书义,焦广鑫,陈谋,孙栋
受保护的技术使用者：南京航空航天大学
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邵书义,焦广鑫,陈谋,孙栋
技术所有人：南京航空航天大学
我是此专利的发明人

上一篇：一种烯烃聚合催化剂及制备方法和应用与流程
上一篇：一种财务会计用会计票据处理装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。