一种基于自适应动态规划Nash博弈的空间机械臂协调控制方法与流程

文档序号:16460314发布日期:2019-01-02 22:32阅读:841来源:国知局
一种基于自适应动态规划Nash博弈的空间机械臂协调控制方法与流程

本发明属于空间机械臂控制领域,涉及一种空间机械臂协调控制方法,具体涉及一种基于自适应动态规划nash博弈的空间机械臂协调控制方法。



背景技术:

在空间任务中,如:在轨服务、主动碎片清除和星际探测任务中,空间机械臂控制系统发挥着越来越大的作用。然而,由于多自由度的机械臂具有强非线性特性以及关节之间的强耦合特性,严重阻碍了控制器设计。因此,寻求一种能够解决非线性特性以及耦合特性的控制算法显得尤为重要。此外,在多自由度的机械臂系统中,状态信息只有部分输出,这显著增加了控制器设计的难度。因此,需要设计一种非线性状态观测器来估计出系统中的全部状态信息,进而为控制器的设计奠定基础。另外,在多自由度机械臂系统中,不同关节之间需要协调控制,根据每个机械臂关节的优先级设计多目标控制策略更为合理。

针对空间机械臂的非线性控制,目前已经提出了多种控制方法。常见的非线性控制方法有滑模控制方法,自抗扰控制方法等。然而,以上控制方法没有明确的控制目标,且不能得到最优控制策略。最近,基于自适应动态规划的最优控制方法广泛应用于非线性系统中,通过求解非线性哈密尔顿-贝尔曼方程,得到近似最优控制策略。此外,龙伯格类观测器已经广泛被用于估计非线性系统中的状态信息。nash均衡博弈理论可以用来求解多目标的优化控制问题。然而,如何把自适应动态规划算法、龙伯格类观测器以及nash均衡理论相结合,设计一种多目标非合作自适应控制策略一直是一个难题。



技术实现要素:

本发明的目的在于提供一种基于自适应动态规划nash博弈的空间机械臂协调控制方法,以克服现有技术的不足,本发明既能保证多关节机械臂的稳定,又能协调多关节机械臂控制。

为达到上述目的,本发明采用如下技术方案:

一种基于自适应动态规划nash博弈的空间机械臂协调控制方法,包括以下步骤:

步骤1:根据二自由度空间机械臂的强非线性和关节之间的强耦合性,建立空间机械臂离散非线性系统模型;

步骤2:利用神经网络无限逼近非线性函数特性,设计龙伯格观测器,根据空间机械臂离散非线性系统模型输出信息估计空间机械臂离散非线性系统模型中全部状态信息;

步骤3:基于估计的全部状态信息,设计nash控制策略的自适应动态规划迭代策略,并利用神经网络近似出多目标最优控制策略。

进一步地,步骤1具体为:

建立空间机械臂动力学模型:

其中,θ=[θ1θ2]t,θi为第i个关节的角度,i=1,2,m(θ)∈r2×2为空间机械臂的惯性矩阵,r2×2表示2×2的实数矩阵空间,为包含科里奥利力与离心力的矩阵,r2表示2维的实数向量,τ为控制输入力矩,y为系统状态输出;

m(θ)和的具体表达式如下:

其中,

d12=d21=(m2+0.5m2)l1l2cos(θ1-θ2)

c11=c22=0,

在上式中,m1和m2分别为关节1末端与关节2末端的总质量;m1和m2分别为关节1和关节2的质量,l1和l2分别为关节1和关节2的长度;

将式(1)改为状态空间形式为:

y=dx,(2)

其中,

u=τ,d=[i0]

上式中,i为单位矩阵,u为控制输入,b为控制器系数,d为系统输出系数,0表示元素为0的矩阵;

采用欧拉方法,将式(2)离散化为:

xk+1=xk+τf(xk)+τbuk(3)

其中,t为采样周期,xk为状态x在第k时刻的值;uk为输入u在第k时刻的值,将式(3)进一步写为:

xk+1=axk+f(xk)+buk(4)

其中,a∈r4×4为方阵,f(xk)=τf(xk)+(i-a)xk,b=τb;

利用神经网络的无限逼近性质,将式(4)近似为以下空间机械臂离散非线性系统模型:

xk+1=axk+wfφf(xk)+buk+εk(5)

其中,wf为神经元的权重矩阵;φf(·)为基函数向量并满足||φf(·)||≤∈φ;∈φ为一个正数;εk为神经网络的近似误差。

进一步地,步骤2具体为:

针对式(5),龙伯格观测器设计如下:

式中,分别为xk和wf的估计值;l为观测器增益,yk为系统实际输出,φf为神经元的基函数向量,权重的自适应调整率为:

式中,为可调参数,对于给定的标量ζ,观测器增益l能够根据以下优化问题得到:

mintr(p)

其中,

其中,p为待求的辅助正定矩阵变量,π为辅助矩阵。

进一步地,步骤3具体为:

首先令b=[b1b2],其中b1和b2分别为b中第一列和第二列的向量;分别为uk中第一行和第二行中的向量,然后利用神经网络近似出多目标最优控制策略:

步骤3.1:令迭代次数s=0,其中,为第s步估计的值函数初值;

步骤3.2:计算控制率:

式中,为正定矩阵rii的逆矩阵,为权重矩阵,φv,i(·)为神经网络的基函数,且

其中,η为辅助变量;

步骤3.3:计算值函数:

式中,权重矩阵的调整律为

式中,为一个可调的正数,ui(·)为辅助函数,其表达式为qi和rij为正定矩阵;

步骤3.4:计算并判断计算值否小于10-8,如果则迭代停止,输出控制策略否则令s=s+1,转到步骤3.2)。

与现有技术相比,本发明具有以下有益的技术效果:

本发明设计的离散自适应动态规划近似最优控制器,便于工程实现;另外本发明采用龙伯格观测器,可以有效解决非线性系统的输出反馈控制问题,利用观测器的输出信息,基于自适应动态规划的多目标nash控制策略可以有效协调两个机械臂关节之间的控制,既能保证多关节机械臂的稳定,又能协调多关节机械臂控制。

附图说明

图1为本发明的流程图;

图2为采用本发明方法进行仿真的结果图。

具体实施方式

下面对本发明作进一步详细描述:

本发明针对空间机械臂系统中的强非线性、强耦合性以及部分状态输出特性,提出了一种基于自适应动态规划的多目标近似最优控制策略,首先,设计龙伯格类观测器估计系统中全部状态信息;其次,设计nash控制策略的自适应动态规划迭代策略;最后,利用神经网络近似出多目标最优控制策略。

本发明解决其技术问题采用的技术方案是:基于自适应动态规划nash博弈的空间机械臂协调控制算法,通过以下步骤实现:

1、模型建立

空间机械臂动力学模型为:

其中,θ=[θ1θ2]t,θi为第i个关节的角度,i=1,2,m(θ)∈r2×2为空间机械臂的惯性矩阵,r2×2表示2×2的实数矩阵空间,为包含科里奥利力与离心力的矩阵,r2表示2维的实数向量,τ为控制输入力矩,y为系统状态输出;

m(θ)和的具体表达式如下:

其中,

d12=d21=(m2+0.5m2)l1l2cos(θ1-θ2)

c11=c22=0,

在上式中,m1和m2分别为关节1末端与关节2末端的总质量;m1和m2分别为关节1和关节2的质量,l1和l2分别为关节1和关节2的长度;

将式(1)改为状态空间形式为:

y=dx,(2)

其中,

u=τ,d=[i0]

上式中,i为单位矩阵,u为控制输入,b为控制器系数,d为系统输出系数,0表示元素为0的矩阵。

采用欧拉方法,将式(2)离散化为:

xk+1=xk+τf(xk)+τbuk(3)

其中,t为采样周期,xk为状态x在第k时刻的值;uk为输入u在第k时刻的值,将式(3)可以进一步写为:

xk+1=axk+f(xk)+buk(4)

其中,a∈r4×4为方阵,f(xk)=τf(xk)+(i-a)xk,b=τb;

利用神经网络的无限逼近性质,系统(4)可以近似为以下形式:

xk+1=axk+wfφf(xk)+buk+εk(5)

其中,wf为神经元的权重矩阵;φf(·)为基函数向量并满足||φf(·)||≤∈φ;∈φ为一个很小的正数;εk为神经网络的近似误差。

2、龙伯格观测器设计

针对离散系统模型(5),龙伯格观测器设计如下:

式中,分别为xk和wf的估计值;l为观测器增益。yk为系统实际输出,φf为神经元的基函数向量,权重的自适应调整率为:

式中,为可调参数。对于给定的标量ζ,观测器增益l可根据以下优化问题得到:

mintr(p)

其中,

其中,p为待求的辅助正定矩阵变量,π为辅助矩阵。

3、自适应动态规划迭代算法设计

首先,令b=[b1b2],其中b1和b2分别为b中第一列和第二列的向量;分别为uk中第一行和第二行中的向量。下面给出基于神经网络的迭代自适应动态规划算法。

1)首先令迭代次数s=0,其中,为第s次估计的值函数初值;

2)计算控制率

式中,为正定矩阵rii的逆矩阵,为权重矩阵,φv,i(·)为神经网络的基函数,且

其中,η为辅助变量。

在本实例中,权重矩阵的初值为基函数φv,i(·)选择为

3)计算值函数:

式中,权重矩阵的调整律为

式中,为一个可调的正数,ui(·)为辅助函数其表达式为qi和rij为正定矩阵。在本实例中,qi=diag([1111]),rij=1。

4)计算并判断是否小于10-8,如果则迭代停止,输出控制策略否则s=s+1,转到步骤2)。

参见图2,利用本发明方法进行仿真,ek为实际状态值xk与期望状态值xd的差。e1,k,e2,k,e3,k,e4,k为向量ek中的元素。从仿真图中可以得出,系统的误差状态最终收敛到0,也就是说机械臂的实际状态跟踪上了给定的期望值状态。因此,本仿真验证了基于自适应动态规划nash博弈的空间机械臂算法的有效性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1