一种基于积分强化学习的双曲趋近律滑模控制方法

文档序号:36349176发布日期:2023-12-14 00:52阅读:309来源:国知局
技术简介:
本发明针对柔性机械臂滑模控制中存在抖振效应及参数依赖性问题,提出融合积分强化学习(IRL)与双曲趋近律(DHRL)的鲁棒控制方法。通过设计自适应切换增益函数抑制抖振,结合IRL算法突破系统参数需已知的约束,实现对未知扰动的最优鲁棒控制,提升系统收敛速度与抗干扰能力。
关键词:柔性机械臂控制,滑模抖振抑制

本发明涉及柔性机械臂滑模控制,尤其涉及一种基于积分强化学习的双曲趋近律滑模控制方法。


背景技术:

1、在过去的几十年里,复杂非线性系统的控制系统分析和综述引起了广泛的关注。在这一领域已经取得了相当显著的成就,包括模糊逻辑控制、神经网络(nn)控制、自适应反步设计等。此外,还开发了以线性子系统的加权和与模糊规则相联系表示的takagi-sugeno(t-s)模糊控制系统,经典的线性系统理论可用于分析复杂的非线性系统和设计控制器,简化了系统分析和综合过程。文献《a novel takagi-sugeno-based robust adaptive fuzzysliding-mode controller》(c.l.hwang,ieee transac-tions on fuzzy systems,vol.12,no.5,pp.676–687,2004)用基于“if-then”规则的线性状态空间子系统逼近了一类非线性动态系统,并提出了一种基于线性系统理论和并行分布式补偿(pdc)概念的鲁棒自适应模糊控制方法。于是,稳定性分析应用于具有时变时滞的正t-s模糊系统,第一次建立了一个充要必要条件。文献《new results on hessian matrices and stabilization forstochastic t–s models via line integral》(s.zhou,y.han,and b.zhang,automatica,vol.142,p.110337,2022)通过线积分方法发现了随机t-s模糊系统稳定性的一些新成果。在过去的十年里,t-s模糊控制方法也取得了相当好的成果,并在实际工程系统中广泛应用。

2、为了实现非线性系统对外部扰动和参数变化的快速收敛和较强的鲁棒性,提出了滑模控制(smc)技术,并已成为控制领域中非常著名的鲁棒控制策略。特别是近年来,将神经网络和模糊控制相结合,提出了一种神经/模糊smc方法来解决复杂非线性系统的控制问题。例如,文献《adaptive sliding mode control of dynamic systems using doubleloop recurrent neural net-work structure》(j.fei and c.lu,ieee transactions onneural networks and learning systems,vol.29,no.4,pp.1275–1286,2018)提出了一种双环递归神经网络形式的自适应滑模控制器,以保证闭环动态系统的稳定性。文献《robustfuzzy-fractional-order nonsingular ter-minal sliding-mode control of lcl-typegrid-connected converters》(b.long,p.j.lu,k.t.chong,j.rodriguez,andj.m.guerrero,ieee transactions on industrial electronics,vol.69,no.6,pp.5854–5866,2022)通过设计模糊分数阶非奇异终端滑模控制器,解决了并网变换器系统的鲁棒控制问题。考虑到奇异矩阵和状态相关投影矩阵,文献《smc design for robuststabilization of nonlinear markovian jump singu-lar systems》(y.wang,y.xia,h.shen,and p.zhou,ieee transactions on automatic control,vol.63,no.1,pp.219–224,2018)研究了非线性马尔可夫跳跃奇异系统的积分型模糊smc问题。在上述研究中,滑模控制器通常被视为反馈控制项和高频切换控制项的组合。众所周知,在smc系统中,高频切换控制方案引起的抖振现象是不可避免的,严重降低了控制系统的性能。为了克服或削弱系统抖振的影响,已有一些有效的方法,例如趋近律、边界层、高阶smc等。其中,趋近律方法由于其简单的设计过程和对控制系统保持较强鲁棒性而被广泛使用。然而,系统的抖振并不能被有效地消除。

3、此外,滑模控制器中的反馈控制项通常是基于滑模动力学设计的。近年来,强化学习算法引起了学术界和工业界的极大关注。强化学习的目的是通过与外部环境的交互来设计优化的控制策略,可以避免传统动态规划中维度的变化。因此,关于复杂非线性系统的一些强化学习的结果已经被提出,以稳定具有最佳性能的控制系统。文献《reinforcement-learning-based robust controller design for continuous-time uncertainnonlinear systems subject to input con-straints》(d.liu,x.y ang,d.wang,andq.wei,ieee transactions on cybernetics,vol.45,no.7,pp.1372–1385,2015)为一类具有输入饱和的非线性系统提出了一种基于强化学习的稳定控制器。文献《robust forma-tion control for cooperative underactuated quadrotors via reinforcementlearning》(w.zhao,h.liu,and f.l.lewis,ieee transactions on neural networks andlearning systems,vol.32,no.10,pp.4577–4587,2021)通过强化学习的鲁棒编队控制方法分析和设计了受未知非线性动力学和扰动影响的四旋翼机控制系统。然而,在上述强化学习过程中,要求解代数riccati方程,必须准确地知道受控非线性系统的所有信息。由于系统信息无法准确测量,上述基于强化学习的控制方法将失效。为了放宽系统信息的严格约束,文献《adaptive suboptimal output-feedback control for linear systemsusing integral reinforcement learn-ing》(l.m.zhu,h.modares,g.o.peen,f.l.lewis,and b.y ue,ieee transactions on control systems technology,vol.23,no.1,pp.264–273,2015)提出了一种积分强化学习(irl)算法来寻找部分未知连续时间线性系统的最优状态反馈控制器。文献《tracking con-trol optimization scheme for a classof partially unknown fuzzy systems by using integral reinforcement learningarchitecture》(k.zhang,h.zhang,y.mu,and s.sun,applied mathematics andcomputation,vol.359,pp.344–356,2019)将irl技术应用于t-s模糊系统以求解控制增益。到目前为止,针对线性系统提出了基于强化学习的smc算法,而针对被t-s模糊模型描述的复杂非线性系统基于irl的smc研究较少。


技术实现思路

1、本发明是针对柔性机械臂系统,为解决部分系统参数未知及存在外部扰动的非线性柔性机械臂系统控制的技术问题,而设计的一种基于积分强化学习的双曲趋近律滑模控制方法。

2、为了实现上述发明目的,本发明采用技术方案具体为:一种基于积分强化学习的双曲趋近律滑模控制方法,包括以下步骤:

3、s1、考虑一种具有外部扰动的非线性柔性机械臂系统,建立takagi-sugeno(t-s)模糊模型,提出双曲正切函数和反双曲正弦函数相结合的dhrl方法,消除smc系统抖振;

4、s2、基于步骤s1所提出的dhrl方法,通过定理证明采用dhrl方法后,smc系统的无抖振特性;

5、s3、基于步骤s2所证明的基于dhrl的smc无抖振特性系统,考虑步骤1所建立的t-s模糊系统,定义积分切换函数,设计smc控制器,同时论证滑模面的可到达性;

6、s4、基于步骤s3所设计的基于dhrl的smc控制器,建立基于irl的smc控制框架,根据pdc概念设计smc状态反馈项,利用irl求解状态反馈控制增益,使控制增益摆脱对精确系统动力学的依赖,并使得柔性机械臂系统渐进稳定性。

7、进一步的作为本发明的优选技术方案,所述s1包括如下步骤:

8、考虑一种具有外部扰动适应性的非线性柔性机械臂系统,t-s模糊模型定义如下

9、

10、式中,和分别为系统状态和控制输入,η1(t),…,ηp(t)是模糊规则i中服从模糊集m1i,…,mpi的已知前提变量,其中i=1,2,…,r;r是模糊规则的个数;和是系统矩阵,f(t)是未知匹配的外部扰动,并且系统的不确定性满足以下条件

11、||f(t)||≤γ1+γ2||x(t)||+γ3||u(t)||                   (8)

12、式中,γ1>0,γ2>0,0≤γ3<1;

13、通过解模糊过程,可以得到最终的t-s模糊系统如下

14、

15、式中,hi(η(t))是如下定义的模糊规则i的隶属函数

16、

17、其中,是ηj(t)在mij中的隶属度。根据t-s模糊集合理论,可以得到进一步可得

18、

19、本发明的目的是设计一种smc方案,以使上述系统(3)稳定并具有最佳控制性能。

20、基于smc理论,可以将smc过程分为两个阶段。在状态轨迹到达滑模面s={x(t):s(t)=0}之前,smc系统处于具有快速收敛性能的趋近阶段。由于系统状态轨迹被驱动到滑模面上,smc系统处于滑动阶段,并沿着滑模面收敛到平衡点。在这两个阶段,闭环系统的稳定性都可以通过滑模控制器的反馈控制项来保证,而收敛速度和系统抖振则由滑模控制器的切换控制项来决定,而切换控制项取决于趋近律。为了消除抖振,将双曲正切函数tanh()与反双曲正弦函数asinh()相结合的dhrl slaw如下所示。

21、slaw=-λ1tanh(αs(t))-λ2|s(t)|asinh(βsq(t))              (12)

22、式中,λ1>0、λ2>0、α>0、β>0、q≥1。s(t)是滑模面的切换函数,双曲正切函数定义为表示反双曲正弦函数。为了简洁起见,函数或变量·(t)缩写为·(例如x(t)缩写为x,s(t)缩写为s等)。基于上述描述,本发明目的是在子系统矩阵ai未知的情况下,为式可以表示为式(3)的一类柔性机械臂系统设计一种基于积分强化学习的无抖振smc算法。

23、进一步的作为本发明的优选技术方案,所述s2包括如下步骤:

24、给出以下定理来保证基于dhrl的smc系统的无抖振特性。

25、定理1,对于一个预定义的切换函数s,如果存在一组实数λ1>0、λ2>0、α>0和q≥1,使得以下不等式成立

26、(λ1α+λ2q)ts<1                           (13)

27、那么,系统的抖振可以被消除,并且系统状态平稳地收敛到平衡点。

28、证明:将方程(6)从t到t+ts两边积分,其中得出

29、

30、式(8)可以重写成

31、

32、函数h(s)关于s的偏导数可以计算为

33、

34、(1)当s>0,可得

35、

36、式(10)可改为

37、

38、定义一个与s相关的函数g(s),其偏导数如下

39、

40、当s>0时,是基于(7)的递减函数,则进而使得因此对所有的s∈(0,s*]都满足又因为h(0)=0,所以h(s)=s(t+ts)≥h(0)=0。当s>0时,tanh(αs)>0、|s|asinh(βsq)>0,所以切换函数s渐进收敛于零,这表明一旦系统状态处于φ=(0,s*]范围内,系统状态轨迹都可被驱动到滑模面上并平稳地收敛到平衡点,同时消除了smc系统的抖振。

41、(2)当s<0时,通过定义相同的h(s)、g(s)函数可以得到相同的结论。

42、(3)当s=0时,可以得到

43、

44、对于所有的t,s≡0,因此,系统状态轨迹可以被驱动到平衡点上。证明结束。

45、进一步的作为本发明的优选技术方案,所述s3包括如下步骤:

46、考虑t-s非线性模糊系统,给出一下积分切换函数以获得smc方案

47、

48、式中,g∈rm×n由设计者定义,gb是可逆矩阵,v是滑模控制器的状态反馈项,ki是取决于下面最优控制算法的控制器增益,在不损失一般性的情况下,矩阵g可以被设计为gb=im,其中im是m维的单位矩阵,于是可以得到如下切换函数的时间导数

49、

50、根据smc理论,具有以下等效控制律ueq

51、ueq=v-f                            (23)

52、结合式(2)f和式(6)dhrl slaw中的约束条件,提出以下smc方案

53、u=v-(γ1+γ2||x||+γ3||u||+1)×(λ1tanh(αs)+λ2|s|asinh(βsq))    (24)

54、通过以下定理来证明所设计smc滑模面的可达性。

55、定理2,对于一个给定的t-s模糊系统,在式(18)的smc方案下,系统状态轨迹可被驱动到滑模面s={x:s=0}的边界层切换函数s已经在式(15)中定义。

56、证明:选择以下李雅普诺夫函数

57、

58、对v1求时间的导数,根据式(16)可得

59、

60、结合式(18)可得

61、

62、式中,m=γ1+γ2||x(t)||+γ3||u(t)||为||f||的上确界。由定理1可得,g1(s)=sign(s)-λ1tanh(αs)-λ2|s|asinh(βsq)是区间(-∞,0)∪(0,+∞)上关于s的单调递减函数。显然,

63、(1)当时

64、g1(s)≤1-1-λ2δasinh(βδq)=-λ2δasinh(βδq)<0       (28)

65、由此可见

66、

67、(2)当时,类比上式可以得到g1(s)>0以及

68、

69、根据smc理论,存在一个t*,使得对于所有t≥t*,当系统状态远离滑模面时,它们可以在有限时间内被驱动到边界层,证明结束。

70、进一步的作为本发明的优选技术方案,所述s4包括如下步骤:

71、一旦系统状态轨迹被驱动到滑模面上,smc系统就处于滑动阶段,并满足以下滑模动力学。

72、

73、式(25)中的系统状态等同于t-s模糊系统(3)中的状态。状态反馈控制项的形式如下

74、

75、它是基于pdc概念设计的,并使滑模动力学(25)渐近稳定。考虑具有无限时域最优控制问题的以下性能指标。

76、

77、式中,在pdc概念的基础上,规则i中的性能指标可以表示为

78、

79、式中,vi为规则i中满足的控制方案。于是总体模糊性能指标表示如下

80、

81、式(27)中的性能指标可改写为

82、

83、式中,根据最优控制理论,可利用正定二次函数将性能ji和j重写成ji=xtpix和j=xtpx,显然,由于p和pi是对称正定矩阵,可获得一个新矩阵mi=ppi-1>0,使得mipi=p,于是可以找到一组参数ki>0使得

84、j=xtpx=xtmipix=kixtpix=kiji                  (37)

85、为了基于bellman原理设计最优控制v*,即最小化性能指标(27)也可以根据式(31)将规则i中性能指标最小化。然后可以计算以下代数riccati方程(are),其中,vi=kix。

86、

87、并且最佳状态反馈增益ki可以根据以下等式来计算。

88、ki=-r-1btpi*                          (39)

89、are可以改写如下

90、

91、在算法1中描述了传统的策略迭代算法,以解决在规则i下具有已知系统矩阵ai和b的are。

92、

93、

94、在传统策略迭代步骤(35)中,必须假设系统矩阵ai和b的所有信息都是已知的,这表明传统策略迭代算法1只能应用于具有已知的确定的系统参数的一类非线性系统。然而,对于由t-s模糊系统(3)表示的柔性机械臂非线性系统,大部分情况下时无法精确地测量所有的系统信息的。因此,需要设计具有部分未知系统信息的非线性系统的控制器。

95、为了消除算法1中的假设,采用了irl方法,使得系统矩阵ai和b的部分信息允许未知,并且保证了滑模动力学(25)的稳定性。在下文中,给出了第i个性能指标ji的导数。

96、

97、将式(37)两边按照t到t+δt积分,δt>0,可得

98、

99、式(38)等效于are(32),并且不再需要子系统矩阵ai。因此对于部分未知的t-s模糊系统,设计了如下irl算法。

100、

101、

102、通过以下定理证明具有由irl算法2求解的状态反馈项(26)的滑模动力学(25)有渐近稳定性。

103、定理3,考虑具有部分未知矩阵ai和b的滑模动力学(25)以及(27)中定义的性能指标j=xtpx,如果存在一组适当的参数ki>0且由irl算法2设计的状态反馈控制项(26),则系统(25)是渐近稳定的。

104、证明:定义李雅普诺夫函数为v2=xtpx=j,并取其对时间的导数如下

105、

106、与式(31)的分析类似,还有一组参数使得以下方程成立

107、

108、式中,式(42)可以改写为

109、

110、结合式(33)-(34)可得

111、

112、证明结束。

113、与现有技术相比,本发明的技术效果为:

114、(1)本发明提出了一种柔性机械臂系统基于积分强化学习的鲁棒控制方法,有效提高了柔性机械臂系统的抗扰能力,实现了柔性机械臂系统的快速鲁棒控制。

115、(2)(1)本发明提出了一种基于双曲趋近律的滑模控制器设计方法,针对控制器的切换增益,设计双曲趋近律函数,使切换增益根据运动状态自动调节,从而使柔性机械臂系统能够在克服干扰作用的同时,消除滑模控制的抖振。

116、(3)本发明通过设计的基于积分强化学习的最优滑模控制框架,能够突破系统参数必须已知的约束,结合积分强化学习算法搭建了最优滑模控制器设计框架,实现了对柔性机械臂系统的最优鲁棒控制,减小了外界未知扰动对系统的影响,进一步提高了系统的鲁棒性。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!