未知非线性系统最优跟踪控制的方法、设备及存储介质

文档序号:37117734发布日期:2024-02-22 21:17阅读:10来源:国知局
未知非线性系统最优跟踪控制的方法、设备及存储介质

本发明涉及控制系统,具体涉及一种未知非线性系统最优跟踪控制的方法、设备及存储介质。


背景技术:

1、目前,跟踪控制问题有很多应用场景,如无人机编队飞行、导弹制导等。跟踪问题是一种主动控制问题,目的是通过开发合适的控制器来实现对目标参考信号的实时跟踪。在过去,研究人员对跟踪问题进行了大量的研究,这往往需要系统的模型。但是,在实际的应用场景中,可能无法得到准确的系统模型。因此,无模型条件下的最优跟踪问题是一个迫切需要解决的问题。

2、在过去的几十年里,研究者们经过巨大努力,发现通过求解hamilton-jacobi-bellman(hjb)方程得到跟踪问题的最优控制器是可行的。同时由于自适应动态规划(adp)算法是第一个将强化学习技术用于解决最优调节器问题的,研究者们又发现并证明了adp算法可以有效解决非线性最优控制问题。在接下来的时间里,为了求出针对不存在部分系统动力学的跟踪问题,研究者们提出了一种新的积分强化学习(integralreinforcementlearning,irl)技术,并被证明适用于线性和非线性系统。基于模型的强化学习算法已被证明在解决多层差分对策问题方面是强大的。

3、adp方法可以求解hjb方程,从而解决最优合作控制问题。然而,直接求hjb方程的解是困难的,特别是对于非线性系统。幸运的是,随着数据传感器技术的快速发展和研究者的努力,可以更容易地测量系统数据,即使没有系统模型,只有被测量的系统数据,强化学习方法也足以解决控制问题。此外,不需要系统模型的无模型irl方法也可用于求解具有两个智能体的完全合作(fc)博弈的纳什均衡解。


技术实现思路

1、本发明提出的一种未知非线性系统最优跟踪控制的方法、设备及存储介质,可至少解决背景技术中的技术问题之一,可以适用于实际的应用场景中无法得到准确的系统模型的情况下,解决最优跟踪控制问题。

2、为实现上述目的,本发明采用了以下技术方案:

3、一种未知非线性系统最优跟踪控制的方法,包括以下步骤,

4、s100、建立扩展一个新的增广多智能体非线性系统模型;

5、s200、采用传统的基于模型的方法来证明通过求解s100所建立新系统的耦合hamilton-jacobi-bellman(hjb)方程的解可以得到最优控制策略的可行性;

6、s300、在s200已证明可行性的前提下,对s100建立的扩展系统模型采用无模型强化算法,即利用rl技术,得到了一个无模型bellman方程,同时通过一种actor-critic体系结构,得到hjb方程的近似解;

7、s400、最后采用lyapunov方法,证明系统在采用该无模型强化算法下得到的最优控制策略是稳定的。

8、另一方面,本发明还验证了通过hjb方程获得最优控制的有效性,并进一步通过基于模型的强化学习得到了最优控制策略。

9、再一方面,通过提出的无模型强化学习方法,可以得到合适的控制多智能体未知非线性系统的策略,将原系统的跟踪问题转化为新的增广系统的最优解问题。与此同时,利用rl技术,得到了一个无模型bellman方程;采用actor-critic体系结构,又得到了适当控制策略和适当值函数的近似解。为了进一步扩展这一领域,可以考虑研究更有效的强化学习算法,例如单一神经网络算法。

10、又一方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述方法的步骤。

11、再一方面,本发明还公开一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上方法的步骤。

12、由上述技术方案可知,本发明的主要核心是用无模型自适应控制算法研究多智能体未知非线性系统的最优跟踪控制策略。通过建立一个新的增广多智能体非线性系统来表示原系统,通过求解新系统的耦合hamilton-jacobi-bellman(hjb)方程,得到最优控制策略。首先,采用传统的基于模型的方法来证明hjb方程求解方法的可行性。然后,为了避免求解hjb方程的困难问题,采用无模型方法,采用一种actor-critic体系结构,得到了hjb方程的近似解。同时,还利用李雅普诺夫方法验证了系统在最优控制策略下的稳定性。

13、本发明的一种研究未知非线性系统最优跟踪控制的无模型强化算法相对现有技术具有如下优势:

14、1:本发明的无模型自适应控制算法相比传统基于模型的方法,不依赖于系统的准确模型,这使得该算法可以适用于实际应用中无法获取准确系统模型的情况,提高了算法的适应性和鲁棒性。

15、2:增广多智能体非线性系统的建立:通过建立增广多智能体非线性系统来表示原系统,增加了系统的表达能力和灵活性。这种表示方式使得算法可以处理多智能体系统,解决了多智能体系统在最优跟踪控制中的挑战。

16、3:本发明仅仅要求每个增广簇的时变网络在平均时间内有一个有向生成树,这是比现有方案里的要求的,在联合图有一个有向生成树更容易达成的条件。

17、4:耦合hjb方程的求解:通过求解耦合的hamilton-jacobi-bellman(hjb)方程,得到系统的最优控制策略。采用actor-critic体系结构和近似解的方法,克服了传统方法求解hjb方程的困难问题。这种求解方法在实际应用中具有较高的效率和准确性。

18、5:系统稳定性验证:利用李雅普诺夫方法验证系统在最优控制策略下的稳定性。这保证了系统在实际应用中能够稳定地跟踪目标参考信号,并有效抵抗外界扰动和不确定性。

19、综上所述,本发明的无模型强化算法具有灵活性、鲁棒性和高效性,适用于多智能体未知非线性系统的最优跟踪控制问题,并在实际应用中具有较好的表现。



技术特征:

1.一种未知非线性系统最优跟踪控制的方法,其特征在于,包括以下步骤,

2.根据权利要求1所述的未知非线性系统最优跟踪控制的方法,其特征在于:

3.根据权利要求2所述的未知非线性系统最优跟踪控制的方法,其特征在于:所述步骤s200、采用传统的基于模型的方法来证明通过求解s100所建立新系统的耦合hamilton-jacobi-bellman方程的解得到最优控制策略的可行性,具体包括,

4.根据权利要求3所述的未知非线性系统最优跟踪控制的方法,其特征在于:所述步骤s300、在s200已证明可行性的前提下,对s100建立的扩展系统模型采用无模型强化算法,即利用rl技术,得到了一个无模型bellman方程,同时通过一种actor-critic体系结构,得到hjb方程的近似解v*(ζ);

5.根据权利要求4所述的未知非线性系统最优跟踪控制的方法,其特征在于:所述步骤s400、采用lyapunov方法,证明系统在采用该无模型强化算法下得到的最优控制策略是稳定的;

6.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。

7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。


技术总结
本发明是一种未知非线性系统最优跟踪控制的方法、设备及存储介质,其方法包括S100、建立扩展一个受限输入的增广多智能体非线性系统模型;S200、采用传统的基于模型的方法来证明通过求解S100所建立新系统的耦合Hamilton‑Jacobi‑Bellman方程的解得到最优控制策略的可行性;S300、在S200已证明可行性的前提下,对S100建立的扩展系统模型采用无模型强化算法,即利用RL技术,得到了一个无模型Bellman方程,同时通过一种actor‑critic体系结构,得到HJB方程的近似解;S400、最后采用Lyapunov方法,证明系统在采用该无模型强化算法下得到的最优控制策略是稳定的。本发明的无模型强化算法具有灵活性、鲁棒性和高效性,适用于多智能体未知非线性系统的最优跟踪控制问题,并在实际应用中具有较好的表现。

技术研发人员:杜库,王万鑫,刘璇,任瀚宇,黄大荣,任璐,那雨虹,周云虎,利志明
受保护的技术使用者:安徽大学
技术研发日:
技术公布日:2024/2/21
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1