一种基于关节外力矩估计的机器臂事件触发式控制方法

文档序号:32312668发布日期:2022-11-23 12:36阅读:106来源:国知局
一种基于关节外力矩估计的机器臂事件触发式控制方法

1.本发明涉及机器人控制领域,特别是涉及一种基于关节外力矩估计的机器臂事件触发式控制方法。


背景技术:

2.随着工业要求和机器人技术的不断提高,机器人完成一些简单的工作任务例如喷漆、焊接等已经远远不能满足人们的需求,更多复杂的工作任务例如抛光、打磨、钻孔等是需要机器人与外界环境相互接触产生交互作用的情况下完成的。因此,当机械臂末端与外界环境发生接触而产生相互作用即交互力时,机器臂仅实现简单的位置跟踪控制已经不能满足上述复杂的任务要求,而是更多地实现机器臂能够沿着期望轨迹运动的同时对机器臂与未知环境之间产生的交互力进行有效地控制。正是人们对机器臂存在这样的控制要求,越来越多的科研人员将力/位置控制当作机器人领域的重点研究方向之一。
3.大部分机器臂的机械结构是由多个子关节模块组成的,当机器臂末端与未知环境接触时,机器臂末端受到的外力对每个关节的影响是不同的。一般通过在机器臂末端安装六维力/力矩传感器的方法测量机器臂末端所受外力的大小及方向,再与利用机器臂运动学得到与其构形相关信息的雅可比矩阵结合,进而得到关节外力矩信息。这种得到关节外力矩信息的方式需要大量机器臂运动学信息,针对运动学信息未知或可重构机器臂这种构形不确定的机器臂,就无法通过上述方法得到实际关节外力矩信息。然而,在每个关节或模块上都安装昂贵的六维力/力矩传感器来测量外力对各个关节的影响是不现实的,这样会使机器臂的硬件成本过高,产生不必要的浪费。因此,在面向未知环境约束的情况下,如何对机器臂进行准确的关节外力矩估计,并且通过控制关节外力矩进而对机器臂与未知环境之间产生的交互力进行有效地控制成为了目前待解决的问题。
4.在获得每个子关节模块准确的关节外力矩估计值的前提下,对每个子关节模块设计合理的控制策略变得尤为重要。自适应动态规划算法被认为是解决机器臂这种高度非线性系统最优控制问题的有效方法,考虑力和位置的综合信息进而设计恰当的性能指标函数,通过求解哈密顿-雅可比-贝尔曼(hjb)方程得到最优控制策略。然而,上述基于时间触发的控制器在周期性采样的过程中可能会产生不必要的资源浪费,因此事件触发机制被提出,所谓事件触发机制就是仅在违背一定触发条件使更新控制策略,否则将继续使用上一更新时刻的控制策略该更新方式可以有效地减少控制器的更新次数。事件触发式力/位置控制面对一些无法向机器人持续供电的特殊任务时,有效提高力/位置控制精度的同时降低了能源消耗,避免了不必要的能源浪费。
5.综上所述,本发明对机器臂的每个关节进行分散控制,将自适应动态规划算法与事件触发机制相结合,实现各个关节的分散力/位置控制,进而完成对机器臂末端位置和与未知环境之间产生交互力的同时控制,保证控制精度的同时节约通信资源,使机器臂可以在更多特殊环境下完成指定工作任务。


技术实现要素:

6.本发明为解决约束环境未知且不使用六维力/力矩传感器情况下的机器臂力/位置控制问题,提出了一种基于关节外力矩估计的机器臂事件触发式控制方法。
7.为了实现上述目的,本发明解决技术问题的方案如下:
8.一种基于关节外力矩估计的机器臂事件触发式控制方法,其特征在于,该方法首先建立具有外界环境约束的机器臂动力学模型;其次设计高阶有限时间外力矩观测器对关节外力矩进行估计;然后设计合理的事件触发条件,在满足事件触发条件时,系统满足李雅普诺夫渐进稳定,在违背事件触发条件的时刻,更新系统状态和控制策略,使系统依然满足李雅普诺夫渐进稳定;接下来利用评判神经网络近似恰当的性能指标函数,通过求解哈密顿-雅可比-贝尔曼方程得到基于关节外力矩估计的事件触发式分散力/位置控制策略;最后,通过实验平台验证算法的有效性;
9.该方法包括如下步骤:
10.步骤一,针对具有外界环境约束的机器臂建立第i个子系统的动力学模型:
11.针对n自由度机器臂系统的第i个子关节系统建立动力学模型:
[0012][0013]
上式中,下标i代表第i个子系统,分别为第i个子系统的关节位置、速度、加速度,i
mi
表示转子相对于旋转轴的转动惯量,γi为减速器的减速比,是关节摩擦力矩,表示子系统之间的动态耦合力矩,τ
si
表示可测量的关节耦合力矩,τ
exti
表示关节外力矩,τi表示电机控制力矩;
[0014]
关节摩擦力矩被定义如下:
[0015][0016]
其中f
bi
表示粘性摩擦系数,f
si
表示静摩擦系数,f
τi
表示stribeck效应参数,f
ci
表示库伦摩擦系数,表示摩擦项的位置相关性;表示符号函数:
[0017][0018]
根据线性化方案,摩擦项可以近似表示为:
[0019][0020][0021]
其中分别是f
bi
,f
ci
,f
si
,f
τi
的标称值,且可以被离线确定为常数;
[0022]
由第个子关节系统动力学模型可得个子关节系统的状态空间描述为:
[0023][0024]
其中为控制力矩,表示摩擦模型已知项,表示未知总扰动项且数值极小,bi=(i
mi
γi)-1
和表示电机模型输入矩阵;
[0025]
步骤二,设计高阶有限时间外力矩观测器估计关节外力矩:
[0026]
考虑外力矩的连续性,提出如下假设:作用在机器臂人各关节的外力矩n阶导数h
(n)
(t) 存在并满足
[0027]
在实际估计过程中,往往无法确切知道n的具体大小,因此一般可以通过实验的方法确定观测器的阶数;本发明设计的高阶有限时间外力矩观测器可扩展到n阶,然而当n=2 时,针对大部分时变的外力矩,就可以保证较好的估计精度;因此,本发明将针对n=2的情况进行观测器设计,但其设计思路对更高阶次依然成立;
[0028]
令x
3i
=diτ
exti
表示外力矩项,表示外力矩一阶导数项,可以得到扩展之后的系统为:
[0029][0030]
其中h(xi)表示外力矩的二阶导数项,且满足
[0031]
因此,高阶有限时间观测器设计如下:
[0032][0033]
其中l
1i
,l
2i
,l
3i
,l
4i
为观测器调节参数;
[0034]
定义观测误差由(8)减(7)可得观测器的观测误差,如下表示:
[0035][0036]
整理成矩阵形式为:
[0037][0038]
令表示观测器误差系数矩阵,通过设置l
1i
,l
2i
,l
3i
,l
4i
的值,可以使 ai的特征根配置在系统的左半平面,进而得到系统(9)是输入输出有界稳定的,即当时,观测误差将在有限时间内收敛到零;因此,通过上述设计的高阶有限时间外力矩观测器可以有效地估计机器臂末端所受外力对各关节的影响,即得到各关节外力矩的估计值;
[0039]
步骤三,求解时间触发下的最优控制策略:
[0040]
分别定义位置误差、速度误差和外力矩误差:
[0041]eqi
=x
1i-q
di
ꢀꢀꢀ
(11)
[0042][0043][0044]
其中分别表示关节期望位置、期望速度、期望加速度,表示高阶有限时间外力矩观测器的观测值,τ
di
表示关节期望外力矩;
[0045]
定义一个包含关节位置误差、速度误差和关节外力矩的力/位置跟踪误差融合函数si(xi):
[0046][0047]
其中k
qi
,k
τi
表示恒为正的参数;
[0048]
考虑(6),si(xi)的时间导数表示为:
[0049][0050]
其中表示关节位置、速度和外力矩的误差融合函数余项;
[0051]
整体的性能指标函数可以构造为:
[0052]
[0053]
其中为效用函数,qi和ri是两个正定矩阵;
[0054]
根据性能指标函数(16)得到哈密顿函数如下:
[0055][0056]
其中表示性能指标函数j(s)的梯度;
[0057]
考虑(16),可得最优性能指标函数为:
[0058][0059]
为获得最优控制策略,结合(17)和(18)可得:
[0060][0061]
根据最优控制理论,时间触发最优控制策略为:
[0062][0063]
将(20)代入(17)可得基于时间触发机制下的hjb方程可写为:
[0064][0065]
步骤四,利用评判神经网络近似求解事件触发最优控制策略:
[0066]
定义状态误差函数e
ji
(t)如下:
[0067][0068][0069]
其中,tj表示触发时刻,j∈{0,1,2,

,∞},si(x
ji
)表示采样状态,si(xi)表示实际状态, e
ji
(t)为间隔函数,表示系统实际状态和采样状态的偏差值,即系统状态误差;
[0070]
根据(20)可得事件触发最优控制策略为:
[0071][0072]
根据(21)可得基于事件触发机制下的hjb方程为:
[0073][0074]
利用评判神经网络重构事件触发性能指标函数如下:
[0075][0076]
其中,是理想权值向量,l是神经元数量,δ
ki
(s
ji
)是激活函数,ε
ki
(s
ji
)是评判神经网络近似残差;
[0077]
对ji(s
ji
)求导可得其梯度向量为:
[0078][0079]
其中表示激活函数的梯度,表示神经网络近似残差的梯度;
[0080]
基于评判神经网络并结合(24)和(27),可以期望的事件触发最优控制律
[0081][0082]
根据(25)和(28),期望的事件触发hjb方程可改写为:
[0083][0084]
其中为神经网络逼近残差;
[0085]
由于理想权值未知,用权值估计值代替实际值w
ki
可以得到:
[0086][0087]
对求导可得其梯度向量为
[0088][0089]
结合(28)和(31),可得近似的事件触发最优控制策略:
[0090][0091]
结合(29)和(32),可得近似的事件触发hjb方程:
[0092][0093]
定义目标函数采用梯度下降法训练评判神经网络权值向量,的更新率为:
[0094][0095]
其中α
ki
代表神经网络学习率,表示神经网络权值误差向量;
[0096]
评判神经网络按照(34)式的权值更新率不断更新,使得(31)式的事件触发最优控制策略逐步迭代到最优,保证机器人系统较好地完成力/位置跟踪目标;
[0097]
为了保证基于关节外力矩估计的机器臂人事件触发式力/位置控制方法的稳定性与有效性,选取如下的李雅普诺夫函数:
[0098][0099]
其中表示基于时间触发下的最优性能指标函数,表示基于事件触发下的最优性能指标函数。
[0100]
求解vi(t)的时间导数并保证小于或等于0的情况下,可以得到如下不等式:
[0101][0102]
其中λ
min
(qi)表示以矩阵qi最小特征值组成的对角矩阵,λ
min
(ri)表示以矩阵ri最小特征值组成的对角矩阵,ψi<1表示采样频率,k
1i
和k
2i
表示两个正常数,e
ji
是系统状态误差, e
ji
(t)为触发阈值;
[0103]
将(36)式作为事件触发条件可以使机器臂系统进行非周期性采样与更新控制策略的同时,保证系统的渐进稳定性;当系统状态误差小于或等于触发阈值时,系统状态、评判神经网络权值、控制策略均保持上一个采样时刻的值;当系统状态误差大于触发阈值时,系统状态更新,并利用当前实际状态更新评判神经网络权值,进而更新控制策略。
[0104]
根据权利要求1所述的一种基于关节外力矩估计的机器臂人事件触发式控制方法,其特征在于,本发明针对无法持续向机器人臂供电的情况下,机器人臂需要完成特定位置的目标任务时,在保证机器臂力/位置控制精度的同时减轻控制器计算负担,显著提升机器臂的有效使用时间;一种基于关节外力矩估计的机器臂事件触发式控制方法的更新方式属于非周期性更新方式,有效地减少了控制器更新的次数,避免了机器臂系统因周期性更新而产生不必要的资源浪费。
附图说明
[0105]
图1为一种基于关节外力矩估计的机器臂事件触发式控制方法原理图。
[0106]
图2为一种基于关节外力矩估计的机器臂事件触发式控制方法流程图。
具体实施方式
[0107]
下面将结合附图对本发明详细阐述。
[0108]
如图1所示,用基于关节外力矩估计的机器臂系统传感器测量各关节的位置变量并利用高阶有限时间外力矩观测器估计关节外力矩,与期望关节位置和关节外力矩变量相减得到力/位置跟踪误差融合函数;接下来,设计一个合理的事件触发条件,并通过是否违背事件触发条件来决定是否更新此时的状态变量,利用近似的哈密顿-雅克比-贝尔曼方程得到评判神经网络的权值更新率;在神经网络权值不断更新下,逐渐迭代得到近似的性能指标函数,得到事件触发式分散力/位置控制策略,再将此控制策略输入到子关节中,通过控制各个子关节力/位置状态,进而控制机器臂末端位置和与未知环境之间产生的交互力。
[0109]
如图2所示,本发明所提出一种基于关节外力矩估计的机器臂事件触发式控制方法,首先需要建立含有关节外力矩的机器臂子关节动力学模型,然后通过高阶有限时间外力矩观测器估计子关节外力矩,利用传感器实际测量的位置信息和外力矩的估计值设计一个恰当的力/位置跟踪误差融合函数进而构造性能指标函数;接下来基于事件触发机制,通过评判神经网络近似事件触发式性能指标函数求解近似事件触发式分散力/位置控制策略;最后,通过实验平台对提出的控制方法进行验证。
[0110]
1、动力学模型建立
[0111]
针对n自由度机器人系统的第i个子关节系统建立动力学模型:
[0112][0113]
其中,下标i代表第i个子系统,分别为第i个子系统的关节位置、速度、加速度,i
mi
表示转子相对于旋转轴的转动惯量,γi为减速器的减速比,是关节摩擦力矩,表示子系统之间的动态耦合力矩,τ
si
表示可测量的关节耦合力矩,τ
exti
表示关节外力矩,τi表示电机控制力矩。
[0114]
关节摩擦力矩被定义如下:
[0115][0116]
其中f
bi
表示粘性摩擦系数,f
si
表示静摩擦系数,f
τi
表示stribeck效应参数,f
ci
表示库伦摩擦系数,表示摩擦项的位置相关性。表示符号函数:
[0117][0118]
根据线性化方案,摩擦项可以近似表示为:
[0119][0120][0121]
其中分别是f
bi
,f
ci
,f
si
,f
τi
的标称值,且可以被离线确定为常数。
[0122]
由第个子关节系统动力学模型可得个子关节系统的状态空间描述为:
[0123][0124]
其中为控制力矩,表示摩擦模型已知项,表示未知总扰动项且数值极小,bi=(i
mi
γi)-1
和表示电机模型输入矩阵。
[0125]
2、高阶有限时间外力矩观测器的设计
[0126]
考虑外力矩的连续性,提出如下假设:作用在机器臂人各关节的外力矩n阶导数h
(n)
(t) 存在并满足
[0127]
在实际估计过程中,往往无法确切知道n的具体大小,因此一般可以通过实验的方法确定观测器的阶数。本文设计的高阶有限时间外力矩观测器可扩展到n阶,然而当n=2时,针对大部分时变的外力矩,就可以保证较好的估计精度。因此,本文将针对n=2的情况进行观测器设计,但其设计思路对更高阶次依然成立。
[0128]
令x
3i
=diτ
exti
表示外力矩项,表示外力矩一阶导数项,可以得到扩展之后的系统为:
[0129][0130]
其中h(xi)表示外力矩的二阶导数项,且满足
[0131]
因此,高阶有限时间观测器设计如下:
[0132][0133]
其中l
1i
,l
2i
,l
3i
,l
4i
为观测器调节参数。
[0134]
定义观测误差由(8)减(7)可得观测器的观测误差,如下表示:
[0135][0136]
整理成矩阵形式为:
[0137][0138]
令表示观测器误差系数矩阵,通过设置l
1i
,l
2i
,l
3i
,l
4i
的值,可以使 ai的特征根配置在系统的左半平面,进而得到系统(9)是输入输出有界稳定的,即
当时,观测误差将在有限时间内收敛到零。因此,通过上述设计的高阶有限时间外力矩观测器可以有效地估计机器人末端所受外力对各关节的影响,即得到各关节外力矩的估计值。
[0139]
3、时间触发下的最优控制策略
[0140]
分别定义位置误差、速度误差和外力矩误差:
[0141]eqi
=x
1i-q
di
ꢀꢀꢀ
(11)
[0142][0143][0144]
其中分别表示关节期望位置、期望速度、期望加速度,表示高阶有限时间外力矩观测器的观测值,τ
di
表示关节期望外力矩。
[0145]
定义一个包含关节位置误差、速度误差和关节外力矩的力/位置跟踪误差融合函数 si(xi):
[0146][0147]
其中k
qi
,k
τi
表示恒为正的参数。
[0148]
考虑(6),si(xi)的时间导数表示为:
[0149][0150]
其中表示关节位置、速度和外力矩的误差融合函数余项。
[0151]
整体的性能指标函数可以构造为:
[0152][0153]
其中ui(si(xi),ui(si))=s
it
(xi)qisi(xi)+u
it
(si)riui(si)≥0为效用函数,qi和ri是两个正定矩阵。
[0154]
根据性能指标函数(16)得到哈密顿函数如下:
[0155][0156]
其中表示性能指标函数j(s)的梯度。
[0157]
考虑(16),可得最优性能指标函数为:
[0158][0159]
为获得最优控制策略,结合(17)和(18)可得:
[0160][0161]
根据最优控制理论,时间触发最优控制策略为:
[0162][0163]
将(20)代入(17)可得基于时间触发机制下的hjb方程可写为:
[0164]
[0165]
4、事件触发下的最优控制策略
[0166]
事件触发是一种非周期性采样方式,其原理是拿预先设置的触发阈值和相邻两时刻系统状态测量值的偏差作比较。当违背触发阈值时,根据当前实际状态更新控制策略,即状态变量和控制策略同时更新;当满足触发阈值时,认为相邻两时刻的测量数据变化较小,继续使用上一时刻的状态变量和控制策略,即状态变量和控制策略均不更新。
[0167]
定义状态误差函数e
ji
(t)如下:
[0168][0169][0170]
其中,tj表示触发时刻,j∈{0,1,2,

,∞},si(x
ji
)表示采样状态,si(xi)表示实际状态, e
ji
(t)为间隔函数,表示系统实际状态和采样状态的偏差值,即系统状态误差。
[0171]
根据(20)可得事件触发最优控制策略为:
[0172][0173]
根据(21)可得基于事件触发机制下的hjb方程为:
[0174][0175]
利用评判神经网络重构事件触发性能指标函数如下:
[0176]ji
(s
ji
)=w
kit
δ
ki
(s
ji
)+ε
ki
(s
ji
)
ꢀꢀꢀ
(26)
[0177]
其中,是理想权值向量,l是神经元数量,δ
ki
(s
ji
)是激活函数,ε
ki
(s
ji
)是评判神经网络近似残差。
[0178]
对ji(s
ji
)求导可得其梯度向量为:
[0179][0180]
其中

δ
ki
(s
ji
)表示激活函数的梯度,

ε
ki
(s
ji
)表示神经网络近似残差的梯度。
[0181]
基于评判神经网络并结合(24)和(27),可以期望的事件触发最优控制律
[0182][0183]
根据(25)和(28),期望的事件触发hjb方程可改写为:
[0184][0185]
其中为神经网络逼近残差。
[0186]
由于理想权值未知,用权值估计值代替实际值w
ki
可以得到:
[0187][0188]
对求导可得其梯度向量为
[0189][0190]
结合(28)和(31),可得近似的事件触发最优控制策略:
[0191][0192]
结合(29)和(32),可得近似的事件触发hjb方程:
[0193][0194]
定义目标函数采用梯度下降法训练评判神经网络权值向量,的更新率为:
[0195][0196]
其中α
ki
代表神经网络学习率,表示神经网络权值误差向量。
[0197]
评判神经网络按照(34)式的权值更新率不断更新,使得(31)式的事件触发最优控制策略逐步迭代到最优,保证机器人系统较好地完成力/位置跟踪目标。
[0198]
为了保证基于关节外力矩估计的机器臂事件触发式力/位置控制方法的稳定性与有效性,选取如下的李雅普诺夫函数:
[0199][0200]
其中表示基于时间触发下的最优性能指标函数,表示基于事件触发下的最优性能指标函数。
[0201]
求解vi(t)的时间导数并保证小于或等于0的情况下,可以得到如下不等式:
[0202][0203]
其中λ
min
(qi)表示以矩阵qi最小特征值组成的对角矩阵,λ
min
(ri)表示以矩阵ri最小特征值组成的对角矩阵,ψi<1表示采样频率,k
1i
和k
2i
表示两个正常数,e
ji
是系统状态误差,e
ji
(t)为触发阈值。
[0204]
将(36)式作为事件触发条件可以使机器臂系统进行非周期性采样与更新控制策略的同时,保证系统的渐进稳定性。当系统状态误差小于或等于触发阈值时,系统状态、评判神经网络权值、控制策略均保持上一个采样时刻的值;当系统状态误差大于触发阈值时,系统状态更新,并利用当前实际状态更新评判神经网络权值,进而更新控制策略。上述控制策略的更新方式属于非周期性更新方式,有效地减少了控制器更新的次数,避免了机器臂系统因周期性更新而产生不必要的资源浪费。
[0205]
5、实验验证
[0206]
通过二自由度机器臂实验平台验证所提出的一种基于关节外力矩估计的机器人
事件触发式控制方法的有效性。
[0207]
定义t=t0为高阶有限时间外力矩观测器的观测值不为0的时刻,此时刻表示机器人末端与未知环境接触的时刻。因此,将机器人分为如下两个阶段分析:
[0208]
第一阶段:满足t<t0时,即机器人末端与未知环境未接触阶段。此时给定第一个关节的期望轨迹q
1d
、第二个关节的期望轨迹q
2d
、机器人末端与未知环境之间的期望交互力fd和各关节的期望外力矩τ
di
为如下形式:
[0209][0210]
第二阶段:满足t≥t0时,即机器人末端与未知环境接触阶段。此时机器人末端的约束方程φ(q)为:
[0211][0212]
其中x0(t0)表示t0时刻机器人末端在笛卡坐标系下的实际位置,l1,l2分别表示机器人第一个关节和第二个关节的长度。
[0213]
根据约束方程φ(q),给定两关节的期望轨迹和两关节的期望外力矩为:
[0214][0215]
其中为机器人的雅可比矩阵。
[0216]
对于评判神经网络,我们选择径向基函数神经网络去近似性能指标函数。神经网络选择1-5-1结构,即1个输入神经元,5个隐藏层神经元和1个输出神经元。选取神经网络的初始权值向量为激活函数为 ch=[1 0.5 1 0.5 1]
t
,bh=1.5,h=1,2,3,4,5。
[0217]
基于数据采集卡实现上位机于机器人物理实验平台之间的通信,在主机simulink 软件上搭建控制器实现对2自由度机器人物理模型的实时控制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1