一种异构无人集群系统的强化学习最优输出跟踪控制方法

文档序号:35924190发布日期:2023-11-04 12:42阅读:66来源:国知局
一种异构无人集群系统的强化学习最优输出跟踪控制方法

本发明涉及一种异构无人集群系统的强化学习最优输出跟踪控制方法,属于多无人系统。


背景技术:

1、无人集群系统是由无人飞行器、无人车辆、无人舰船等多个智能化无人系统组成的大型复杂系统,其中多个系统之间协同工作来完成特别任务,能够完成单系统难以或不可能完成的复杂任务,在日常生活、生产和军事等各个方面具有广泛的应用前景。由于被控对象多样化导致多无人系统异构性,传统的分布式控制方法将不在适用,为此,提出分层控制方法对异构多无人系统进行分层控制。进一步为更快地实现控制目标,将有限时间准则和分层控制相结合设计有限时间、固定时间或者预设时间的分层控制方案使系统能在有限时间内完成协同控制任务,从而可以显著地提高工作效率。应当指出的是现有大多数方法在设计控制方案时需要已知多无人系统全局的拓扑连接信息,而这种信息往往是难以获得的,特别是对于大型的复杂系统。因此,如何结合有限时间准则和分层控制设计思想,在不使用全局拓扑连接信息的情况下,给出一种新的控制方案是值得进一步研究的问题。

2、另一方面,随着协同控制任务的复杂性和多样性发展,多无人系统内部彼此交互,相互耦合,从而导致整个系统难以建立精确的数学模型。此外,为实现更好的控制性能,在进行控制器设计时应当同时考虑系统的暂态性能和稳态性能,从而实现最优的控制性能。基于以上两点的考虑,引入强化学习技术来辅助控制器设计是近年来一种流行且有效的方法,其优势在于能够在系统模型未知的情况下,仅通过与外界环境交互获取数据来学习最优的控制策略。值得指出的是在最优控制策略的学习过程中需要预先给定一个初始稳定的控制策略,现有大多数方法假设可以通过系统模型计算一个稳定控制策略,这导致所设计的控制算法并不是完全数据驱动的。因此,如何仅使用系统数据设计一个初始稳定的控制策略是亟待解决的问题,也是目前研究的热点问题。


技术实现思路

1、本发明的技术解决问题是:克服现有技术的不足,提出一种异构无人集群系统的强化学习最优输出跟踪控制方法。

2、本发明的技术解决方案是:

3、一种异构无人集群系统的强化学习最优输出跟踪控制方法,该方法的步骤包括:

4、步骤1,建立异构无人集群系统模型,所建立的异构无人集群系统模型包括m个跟随者系统模型和1个领导者系统模型;

5、m个跟随者的系统模型为:

6、

7、其中,xi(t)为第i个跟随者的系统状态,yi(t)为第i个跟随者的系统输出,ui(t)为第i个跟随者的系统输入,ai,bi和ci分别是第i个跟随者的未知系统矩阵、控制矩阵、输出矩阵;

8、领导者的系统模型建立为:

9、

10、其中,x0(t)为领导者的系统状态,y0(t)为领导者的系统输出,s为给定的领导者系统矩阵,y是给定的领导者输出矩阵;

11、步骤2,根据步骤1建立的异构无人集群系统模型,设计预设时间完全分布式观测器,在预设时间内估计领导者的状态;

12、当t∈[0,tp)时,设计的预设时间完全分布式观测器为:

13、

14、当t≥tp时,设计的预设时间完全分布式观测器为:

15、

16、其中,ηi(t)是第i个观测器的状态,表示局部跟踪误差,ηj(t)是第j个观测器的状态,aij是邻接矩阵的第(i,j)元素,j=1,...m,ai0=0表示第i个跟随者不能接收到领导者的状态,ai0=1表示第i个跟随者能接收到领导者的状态,ci(t)和βi(t)是第i个观测器中设计的自适应参数,是设计的预设时间函数,tp是预设时间,σ>0,和是给定的系数,g是观测器增益,满足矩阵不等式gs+stg-g2+in<0,in表示n维的单位矩阵;

17、步骤3,根据步骤1中建立的异构无人集群系统模型和步骤2中设计的预设时间完全分布式观测器,设计基于数据的初始稳定控制策略学习算法,获得初始稳定控制策略

18、步骤4:根据步骤3得到的初始稳定控制策略,进一步设计基于强化学习的数据驱动最优输出跟踪控制算法,得到最优控制器

19、步骤5:根据步骤4得到的最优的控制器,实现异构无人集群系统跟踪控制任务;

20、所述步骤3中,设计的基于数据的初始稳定控制策略学习算法主要包括以下步骤:

21、步骤3.1:初始化迭代次数k=0,m=0和控制参数

22、其中和分别表示第i个智能体在初始迭代时的参数值。

23、步骤3.2:求解下列数据方程来获得矩阵pi1:

24、

25、其中pi1表示第i个智能体在第1次迭代时的参数值,ki1表示第i个智能体在第1次迭代时的参数值,δt表示时间长度,τ是积分变量,qi和ri分别是给定的第i个智能体的权重矩阵。

26、步骤3.3:如果矩阵pi1>0,那么将的值赋给βi,并且跳转到步骤3.4,否则即pi1≤0,跳转到步骤3.2,让迭代次数m递增,并且重新选择一个求解步骤3.2中的数据方程获得矩阵pi1,直到满足pi1>0;

27、步骤3.4:求解下列数据方程来获得矩阵以及pik+1:

28、

29、其中和pik+1分别表示第i个智能体在第k+1次迭代时的参数值。

30、步骤3.5:根据求解得到的和pik+1,选择一个合适的使得下式成立:

31、

32、其中λmin(·)和λmax(·)分别表示矩阵的最小和最大特征值;

33、步骤3.6:验证停止条件,如果其中ε是给定的充分小的正常数,那么输出作为初始稳定控制策略,否则,让迭代次数k递增,并且跳转到步骤3.4,直到满足停止条件;

34、所述步骤4中,设计的基于强化学习的数据驱动最优输出跟踪控制算法主要包括如下步骤:

35、步骤4.1:初始化迭代次数k=0,使用初始稳定控制策略产生用于学习的系统数据;

36、步骤4.2:基于步骤4.1得到系统数据,求解如下基于数据的贝尔曼方程,获得和

37、

38、其中γi是第i个智能体的折扣因子,是第i个智能体在第k次迭代时的控制策略,矩阵,vik(zi(t))是第i个智能体的值函数,ri和qi是给定的第i个智能体的权重矩阵,zi(t)是动态方程的解,其中

39、步骤4.3:验证停止条件,如果满足条件其中ε是给定的充分小的正常数,那么输出最优的控制器否则,让迭代次数k递增,并且跳转到步骤4.2,直到满足停止条件。

40、本发明具有如下有益效果:

41、本发明提出的预设时间完全分布式观测器能够在设计者预先给定的时间内精确地估计领导者的状态,并且在观测器设计过程中不使用全局的拓扑信息。此外,提出一种基于数据的初始稳定的控制策略学习方法来获得一个初始稳定控制策略,其主要优势是能够移除现有方法要求初始稳定控制策略已知的限制条件。

42、本发明公开一种针对异构无人集群系统的强化学习最优输出跟踪控制方法,属于多无人系统技术领域。为实现异构无人集群系统的最优输出跟踪控制目标,提出一种新颖的分层控制方案,在分布式层,设计一个预设时间的完全分布式观测器,在给定的时间内精确地估计领导者的状态。在分散式层,设计一个基于强化学习的数据驱动跟踪控制器追踪估计的领导者状态。与现有方法相比,所设计的预设时间的完全分布式观测器的收敛时间完全由设计者决定,并且在设计过程中不使用全局的拓扑信息。此外,提出一种基于数据的初始稳定控制策略学习算法来获得一个初始稳定控制策略,摆脱了现有强化学习方法中需要初始稳定控制策略预先已知的限制条件。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1