一种基于自适应动态规划的分布式最优协同容错控制方法与流程

文档序号:15978874发布日期:2018-11-17 00:05阅读:879来源:国知局

本发明涉及多智能体系统的容错控制领域,特别是一种基于自适应动态规划的分布式最优协同容错控制方法。

背景技术

随着科学技术的迅速发展,在近些年,多智能体系统由于其独特的优势在各个领域都受到了极大的欢迎,如生物领域、物理领域、控制领域和计算机领域等。多智能体系统在实际的运行时,很容易发生故障,主要分为两类:通讯故障和执行器故障。目前已有很多的专家学者对多智能体的容错控制展开了研究,但大部分研究成果针对的是多智能体系统中发生的通讯故障,极少涉及单个智能体的执行器故障,然而,在大多数情况下,单个智能体的执行器故障往往是不可避免的,如果不能及时有效地处理,故障可能会通过智能体之间的连接网络影响整个系统,导致整个系统不稳甚至发生安全事故。因此,如何在兼顾与其他智能体之间的协调以及自身故障和损伤的情况下,实现重构控制和故障管理是多智能体控制系统设计中的重要问题。

此外,现有针对多智能体系统中执行器故障的容错控制成果中,大部分基于线性系统,并且很少在实现协同容错控制的同时,考虑最优性问题。因此发展非线性多智能体系统的分布式最优协同容错控制方法很重要。设计非线性最优协同容错控制律的前提是求解非线性hamilton-jacobi-bellman(hjb)方程,然而由于hjb方程本质上是非线性偏微分方程,很难甚至于不可能求得其解析解。因此,如何高效求解hjb方程成为设计分布式最优协同容错控制律的关键性问题。自适应动态规划技术利用神经网络逼近方法来近似性能指标函数,近些年来被广泛运用于非线性最优求解问题,具有广泛的运用前景。



技术实现要素:

发明目的:本发明提出一种基于自适应动态规划的分布式最优协同容错控制方法,克服现有非线性多智能体系统容错控制方法的不足,在无人机编队的容错控制上具有很好的运用前景。

技术方案:本发明所述的一种基于自适应动态规划的分布式最优协同容错控制方法,包括以下步骤:

(1)基于图论,通过智能体之间的通讯链接,构建多智能体系统的通讯拓扑;

(2)基于一致性理论,建立局部领域一致性误差方程;

(3)推导无故障情况下的分布式最优协同控制律;

(4)执行分布式最优协同控制律;

(5)推导分布式最优协同容错控制律。

所述步骤(1)包括以下步骤:

(11)用有向图表示多智能体系统的通讯拓扑:

g=(v,e,a)

其中,v={v0,v1,v2,...vn}表示所有的智能体,v0代表领导节点,vi代表第i个跟随节点,i=1,...n,e={(vi,vj):vi,vj∈v}表示跟随节点之间的通讯链接集合,e中元素(vi,vj)代表节点vj能够直接获得节点vi传递的信息,i,j=1,...n,加权邻接矩阵如果(vi,vj)∈e,则aij=1,反之,aij=0;

(12)定义拉普拉斯矩阵:

其中,lij代表第i行第j列的矩阵元素,l的表达式为l=d-a,为入度矩阵,矩阵元素为节点vi的入度。

所述步骤(2)包括以下步骤:

(21)用以下仿射非线性动力学描述非线性多智能体系统中跟随节点的模型:

其中,表示智能体vi的状态向量,表示xi(t)对时间的一阶导数,表示智能体vi的控制输入向量,分别为智能体vi的系统状态函数和输入函数,表示智能体vi的未知执行器故障,代表列向量,上标n表示维数,表示n×m维矩阵;

(22)定义智能体vi的局部领域一致性误差为ei:

将式(2)对时间求导得到:

其中,代表一致性误差ei对时间的一阶导数,

步骤(3)所述分布式最优协同控制律为:

其中,上标*表示变量的最优值,上标-1表示求逆运算,上标t表示对矩阵求转置,rii>0为预先设定的正定对称矩阵,代表性能指标函数ji(ei)对一致性误差ei的偏导数。

所述步骤(4)包括以下步骤:

(41)根据神经网络逼近方法,设计评价网络近似智能体vi的最优性能指标函数

其中,表示的近似形式,为评价网络近似权值向量,σi(ei)为评价网络激活函数向量;

(42)基于上式得到智能体vi的近似分布式最优协同控制律为:

其中,为激活函数σi(ei)对误差状态ei的偏导数,即,

设计更新律为:

其中,表示对时间的导数,λi表示权值学习率,f1i和f2i代表设计参数,神经网络输出误差

步骤(5)所述最优协同容错控制律为:

其中,为故障补偿,i=1,...n,设计故障补偿更新率为:

其中,为故障补偿对时间的导数,β表示故障补偿学习率

有益效果:与现有技术相比,本发明的有益效果为:1、本发明考虑了非线性多智能体系统在出现执行器故障的情况下的容错控制问题,基于自适应动态规划,所设计的分布式最优协同容错控制方案不仅能使得每个智能体在发生故障的情况下能够跟随领导节点,同时保证了各自性能指标的最小化,有效解决了非线性hjb方程的求解问题,实现了控制律的在线学习;2、在无人机编队的容错控制上具有很好的实际意义与应用前景。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1为本发明的流程图,主要包括以下步骤:

步骤1:利用图论的相关理论知识,建立多智能体系统的通讯拓扑

考虑有一个领导智能体和n个跟随智能体组成的多智能体系统,采用有向图g=(v,e,a)表示系统中的通讯拓扑。其中,v={v0,v1,v2,...vn}表示所有的智能体集合,v0代表领导节点,vi代表第i个跟随节点,i=1,...n;e={(vi,vj):vi,vj∈v}表示跟随节点之间的通讯链接集合,e中元素(vi,vj)代表节点vj能够直接获得节点vi传递的信息,i,j=1,...n;加权邻接矩阵维数为n×n的方阵,如果(vi,vj)∈e,则a中元素aij=1,即,如果节点vj能够直接获得节点vi传递的信息,则aij=1,反之,aij=0。

此外,定义ni={j∈v:(vi,vj)∈e}为节点vi的邻接节点集合,表示节点vi能够获取所有属于ni的节点的信息;定义领导节点邻接矩阵b=diag{b1,b2,...bn},其中,diag表示对角矩阵,矩阵元素bi=1代表节点vi能够直接获得领导节点传递的信息,反之bi=0。

定义拉普拉斯矩阵其中lij代表矩阵l第i行第j列的元素。l的表达式为l=d-a,其中,为入度矩阵,矩阵元素为节点vi的入度,代表节点vi的邻接节点数量。

步骤2:基于一致性理论,建立局部领域一致性误差方程

多智能体系统中跟随节点的模型由以下仿射非线性动力学描述:

其中,表示智能体vi的状态向量,表示xi(t)对时间的一阶导数代表n维列向量,上标n表示节点vi的状态量个数,表示智能体vi的控制输入向量,分别为智能体vi的系统状态函数和输入函数,两者均为连续函数,且有fi(0)=0,表示n×m维矩阵,代表智能体vi的未知执行器失效故障。

领导节点的信号为并且是连续的,其中r(t)表示领导节点的状态向量,表示r(t)对时间的一阶导数。

定义节点vi的局部领域一致性误差为ei,具体表达式如下:

将式(2)对时间求导得到:

其中,代表一致性误差ei对时间的一阶导数,

步骤3:推导无故障情况下的分布式最优协同控制律

在未出现执行器故障的情况,的表达式如下:

定义节点vi的性能指标函数ji(ei)为:

其中,qi(ei)≥0表示与误差状态ei相关的半正定函数。rii>0,rij>0为预先设定的正定对称矩阵,ui为智能体vi的分布式协同控制输入量,上标t表示对矩阵求转置。

定义hamilton函数为:

其中,表示性能指标函数ji(ei)对一致性误差ei的偏导数,即

根据极小值原理得到智能体vi的分布式最优协同控制律如下:

其中,上标*表示变量的最优值(下同),上标-1表示求逆运算(下同)。

将上式中的代入(5),进行简单运算,进而得到hjb方程:

其中,

因此,只要能够求解非线性hjb方程,分布式最优协同控制律即可获得。但事实上,非线性hjb方程很难甚至于不可能获得其解析解。因此,本发明采用自适应动态规划方法近似求解非线性hjb方程。

步骤4:执行分布式最优协同控制律

根据神经网络逼近方法,本发明设计单层评价网络来近似单个智能体vi最优性能指标函数其理想近似可表示为:

其中,wci为评价网络理想权值向量,σi(ei)为评价网络激活函数函数,εci(ei)代表近似逼近误差。

由于理想权值向量wci往往是未知的,因此,采用实际近似方式来表示,形式如下:

其中,代表的近似形式,为评价网络近似权值向量。因此,评价网络权值误差为

基于上式,可以得到近似的分布式最优协同控制律为:

其中,为激活函数σi(ei)对误差状态ei的偏导数,即,

结合式(7)和式(10),可以得到评价网络的输出误差为:

其中,

因此,需要设计评价神经网络权值更新率,使得评价网络权值误差为趋近于0,即使得误差函数最小化。

综合考虑闭环系统的稳定性,基于梯度下降法,设计更新律为:

其中,表示对时间的导数。λi表示权值学习率。f1i和f2i代表设计参数。

步骤5:推导分布式最优协同容错控制律

以上分布式最优协同控制方法仅适用于无故障系统,综合考虑闭环系统的稳定性,基于故障补偿法,设计分布式最优协同容错控制律ui如下:

其中,为故障补偿,i=1,...n。

为使故障补偿误差趋近于0,即使得误差函数最小化,同时,为了保证每个智能体闭环系统在学习过程中的有界性,设计连续可微的lyapunov函数,表示为li,使其能够满足设计故障补偿更新率为:

其中,为故障补偿对时间的导数,β表示故障补偿学习率。

目前,关于多智能体容错控制方面的发明很少,在实现容错控制的同时考虑系统优化性的发明更是少见,本发明与现有方法相比,当多智能体系统中一个或多个智能体出现执行器故障时,本发明可以以一种最优的方式抑制故障对系统的影响,并在有限的时间内实现与领导节点的同步。本发明对于执行器故障情况下的无人机编队控制系统的容错控制具有重要的适用参考价值。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1