本发明属于空间机械臂控制领域,涉及一种空间机械臂协调控制方法,具体涉及一种基于自适应动态规划nash博弈的空间机械臂协调控制方法。
背景技术:
在空间任务中,如:在轨服务、主动碎片清除和星际探测任务中,空间机械臂控制系统发挥着越来越大的作用。然而,由于多自由度的机械臂具有强非线性特性以及关节之间的强耦合特性,严重阻碍了控制器设计。因此,寻求一种能够解决非线性特性以及耦合特性的控制算法显得尤为重要。此外,在多自由度的机械臂系统中,状态信息只有部分输出,这显著增加了控制器设计的难度。因此,需要设计一种非线性状态观测器来估计出系统中的全部状态信息,进而为控制器的设计奠定基础。另外,在多自由度机械臂系统中,不同关节之间需要协调控制,根据每个机械臂关节的优先级设计多目标控制策略更为合理。
针对空间机械臂的非线性控制,目前已经提出了多种控制方法。常见的非线性控制方法有滑模控制方法,自抗扰控制方法等。然而,以上控制方法没有明确的控制目标,且不能得到最优控制策略。最近,基于自适应动态规划的最优控制方法广泛应用于非线性系统中,通过求解非线性哈密尔顿-贝尔曼方程,得到近似最优控制策略。此外,龙伯格类观测器已经广泛被用于估计非线性系统中的状态信息。nash均衡博弈理论可以用来求解多目标的优化控制问题。然而,如何把自适应动态规划算法、龙伯格类观测器以及nash均衡理论相结合,设计一种多目标非合作自适应控制策略一直是一个难题。
技术实现要素:
本发明的目的在于提供一种基于自适应动态规划nash博弈的空间机械臂协调控制方法,以克服现有技术的不足,本发明既能保证多关节机械臂的稳定,又能协调多关节机械臂控制。
为达到上述目的,本发明采用如下技术方案:
一种基于自适应动态规划nash博弈的空间机械臂协调控制方法,包括以下步骤:
步骤1:根据二自由度空间机械臂的强非线性和关节之间的强耦合性,建立空间机械臂离散非线性系统模型;
步骤2:利用神经网络无限逼近非线性函数特性,设计龙伯格观测器,根据空间机械臂离散非线性系统模型输出信息估计空间机械臂离散非线性系统模型中全部状态信息;
步骤3:基于估计的全部状态信息,设计nash控制策略的自适应动态规划迭代策略,并利用神经网络近似出多目标最优控制策略。
进一步地,步骤1具体为:
建立空间机械臂动力学模型:
m(θ)和
其中,
在上式中,m1和m2分别为关节1末端与关节2末端的总质量;m1和m2分别为关节1和关节2的质量,l1和l2分别为关节1和关节2的长度;
将式(1)改为状态空间形式为:
y=dx,(2)
其中,
上式中,i为单位矩阵,u为控制输入,b为控制器系数,d为系统输出系数,0表示元素为0的矩阵;
采用欧拉方法,将式(2)离散化为:
xk+1=xk+τf(xk)+τbuk(3)
其中,t为采样周期,xk为状态x在第k时刻的值;uk为输入u在第k时刻的值,将式(3)进一步写为:
xk+1=axk+f(xk)+buk(4)
其中,a∈r4×4为方阵,f(xk)=τf(xk)+(i-a)xk,b=τb;
利用神经网络的无限逼近性质,将式(4)近似为以下空间机械臂离散非线性系统模型:
xk+1=axk+wfφf(xk)+buk+εk(5)
其中,wf为神经元的权重矩阵;φf(·)为基函数向量并满足||φf(·)||≤∈φ;∈φ为一个正数;εk为神经网络的近似误差。
进一步地,步骤2具体为:
针对式(5),龙伯格观测器设计如下:
式中,
式中,
mintr(p)
其中,
其中,p为待求的辅助正定矩阵变量,π为辅助矩阵。
进一步地,步骤3具体为:
首先令b=[b1b2],
步骤3.1:令迭代次数s=0,
步骤3.2:计算控制率:
式中,
其中,η为辅助变量;
步骤3.3:计算值函数:
式中,权重矩阵
式中,
步骤3.4:计算
与现有技术相比,本发明具有以下有益的技术效果:
本发明设计的离散自适应动态规划近似最优控制器,便于工程实现;另外本发明采用龙伯格观测器,可以有效解决非线性系统的输出反馈控制问题,利用观测器的输出信息,基于自适应动态规划的多目标nash控制策略可以有效协调两个机械臂关节之间的控制,既能保证多关节机械臂的稳定,又能协调多关节机械臂控制。
附图说明
图1为本发明的流程图;
图2为采用本发明方法进行仿真的结果图。
具体实施方式
下面对本发明作进一步详细描述:
本发明针对空间机械臂系统中的强非线性、强耦合性以及部分状态输出特性,提出了一种基于自适应动态规划的多目标近似最优控制策略,首先,设计龙伯格类观测器估计系统中全部状态信息;其次,设计nash控制策略的自适应动态规划迭代策略;最后,利用神经网络近似出多目标最优控制策略。
本发明解决其技术问题采用的技术方案是:基于自适应动态规划nash博弈的空间机械臂协调控制算法,通过以下步骤实现:
1、模型建立
空间机械臂动力学模型为:
m(θ)和
其中,
在上式中,m1和m2分别为关节1末端与关节2末端的总质量;m1和m2分别为关节1和关节2的质量,l1和l2分别为关节1和关节2的长度;
将式(1)改为状态空间形式为:
y=dx,(2)
其中,
上式中,i为单位矩阵,u为控制输入,b为控制器系数,d为系统输出系数,0表示元素为0的矩阵。
采用欧拉方法,将式(2)离散化为:
xk+1=xk+τf(xk)+τbuk(3)
其中,t为采样周期,xk为状态x在第k时刻的值;uk为输入u在第k时刻的值,将式(3)可以进一步写为:
xk+1=axk+f(xk)+buk(4)
其中,a∈r4×4为方阵,f(xk)=τf(xk)+(i-a)xk,b=τb;
利用神经网络的无限逼近性质,系统(4)可以近似为以下形式:
xk+1=axk+wfφf(xk)+buk+εk(5)
其中,wf为神经元的权重矩阵;φf(·)为基函数向量并满足||φf(·)||≤∈φ;∈φ为一个很小的正数;εk为神经网络的近似误差。
2、龙伯格观测器设计
针对离散系统模型(5),龙伯格观测器设计如下:
式中,
式中,
mintr(p)
其中,
其中,p为待求的辅助正定矩阵变量,π为辅助矩阵。
3、自适应动态规划迭代算法设计
首先,令b=[b1b2],
1)首先令迭代次数s=0,
2)计算控制率
式中,
其中,η为辅助变量。
在本实例中,权重矩阵
3)计算值函数:
式中,权重矩阵
式中,
4)计算
参见图2,利用本发明方法进行仿真,ek为实际状态值xk与期望状态值xd的差。e1,k,e2,k,e3,k,e4,k为向量ek中的元素。从仿真图中可以得出,系统的误差状态最终收敛到0,也就是说机械臂的实际状态跟踪上了给定的期望值状态。因此,本仿真验证了基于自适应动态规划nash博弈的空间机械臂算法的有效性。