基于自适应评价网络冗余机器人视觉伺服控制的制作方法

文档序号:14129877阅读:226来源:国知局

本发明涉及自动控制领域,尤其涉及一种视觉伺服机器人中的自适应评价控制方法。



背景技术:

机器人视觉是一个跨学科的研究领域,涉及图像处理技术,机器人运动学、动力学、控制理论、实时计算等多学科内容。视觉系统精度主要受视觉分辨率和视觉标定误差的影响。由于摄像机系统具有显著的非线性特性,因此要获得精确的目标位姿数据,需要大量的标定计算,即必须建立准确的手眼关系模型并对大量的特征点进行测量。如果环境因素(如温度)发生变化,为保证模型精度,这样的标定需要反复进行。

基于图像的视觉伺服系统的定位精度对摄像机标定误差不敏感,与基于位置的视觉伺服相比,具有较少的计算量,而基于图像的方法仅需要计算图像特征误差函数、深度参数和逆雅可比矩阵。该方法的主要缺点是存在奇异性问题。当机械手位于任务空间的某些位姿时,图像雅可比矩阵降秩,导致利用逆雅可比矩阵求取的控制律不稳定,解决办法之一就是冗余机械手的控制。

视觉伺服是以实现对机器人的控制为目的而进行的图像自动获取与分析,它利用计算机视觉的原理,快速进行图像处理,在尽量短的时间内给出反馈信息,构成机器人的闭环位置控制。视觉伺服研究范围很广,既包括机械臂的视觉定位和跟踪,也包括移动机器人的视觉定位和导航,还包括一些特种机器人中的视觉控制。



技术实现要素:

本发明要解决的技术问题是如何实现利用不同的冗余方法执行额外的任务,如障碍物避免,关节限制避免,更高的可操纵性和扭矩优化。

本发明基于以下原理:

冗余被有意地引入机器人操纵器以应对现实生活中的挑战。但是,冗余机械手的控制是一个具有挑战性的任务,因为从笛卡尔空间到关节空间的逆运动学关系是一对多的关系。给定一个具有性能成本指标的动力学系统,最优控制问题可以使用pontryagin原理解决贝尔曼最优动态规划。动态规划是基于最优性和结果原理的综合计算技术。在状态反馈形式的最优控制器中,虽然反馈形式对噪声和模型不确定性是鲁棒的,但是相关的汉密尔顿-雅可比-贝尔曼方程需要昂贵的计算和存储,并且是一个离线过程。动态规划方法是需要考虑最优控制器伪逆的计算。

在这样的系统中,使用积分成本函数可以达到全局最优。利用冗余机械手进行路径规划的积分成本优化。导出2n阶一阶微分方程和边界条件用于最优控制框架中的冗余解决。上述两种方法都需要伪逆的计算。大多数是现有的冗余分辨率方案,可以使用机器人的完整知识,并且需要精确的数学模型。与这些方法相反,我们通过最小化积分成本函数来建立基于近似动态规划的自适应评价表达式,用冗余解决操纵器,其不需要计算伪逆来实现全局最优。闭环定位任务被建模为离散时间动态任务,然后提出自适应评价方法。

werbos提出了近似动态规划(adp)来克服这些问题,从而解决了动态正向编程和在线实现。adp使用自适应的双神经网络架构评价(ac)来解决动态编程的向前结构问题。一般来说,自适应评价有两个单元即控制单元和评价单元。其中,控制单元产生控制输入;评价单元对当前控制输入的性能进行评价,并产生一个评价信号来调节控制以获得更好的控制性能。

定位任务可以建模为离散时间输入仿射非线性系统。通过最小化二次成本来解决冗余,可以使用padhi等人提出的单一网络自适应评价(snac)。snac特别适合最优控制问题,其最佳控制输入可以明确地表示为状态和成本变量。snac比其他架构的优点是它只有评价网络,它表明网络收敛到线性系统的最优值。

本发明采用的技术方案如下,包括以下步骤:

第一步:离散时间动态控制问题

δx=jδθ(1)

其中δx=[δxδyδz]t,δθ=[δθ1δθ2δθ3δθ4δθ5δθ6]t,j为正向运动学雅可比。

第二步:离散时间运动学方程

x(k+1)-x(k)=jδθ(k)(2)

其中,x(k+1).x(k)别是第k+1个和第k个瞬间的末端作用位置,δθ(k)是第k个瞬间关节角度的变化。上述离散运动可以表示为动态系统:

x(k+1)=ix(k)+jδθ(k)(3)

其中,i单位矩阵是用于操纵器的动态定位的系统矩阵。上述方程表示作为离散时间动态系统的定位任务。

第三步:末端执行器从当前位置x移动到期望位置xd的闭环误差值

e(k+1)=e(k)-jδθ(k)=ae(k)+bu(k)(4)

其中,e(k)=xd(k)-x(k),xd(k+1)=xd(k),a=i,b=-j,u(k)=δθ(k)

闭环的离散时间动态表示系统是具有恒定系统矩阵a=i和非线性输入矩阵b=-j的输入形式。

第四步:离散时间动态系统的单网络自适应评论(snac)

x(k+1)=f(x(k))+g(x(k))u(k)(5)

第五步:二次成本函数

其中,x(k)∈rn,u(k)∈rm,l(x(k),u(k))是效用函数,q取为正半定矩阵,r为正定矩阵。

最优控制输入的表达式u(k)=-r-1gt(x(k))λ(k+1)(7)

其中,是最优成本。

在线性系统的情况下,一个评价网络如下架构:

其中,w=(i+pbr-1bt)-1pa,p是代数方程的解。最优权重的解析表达式涉及(i+pbr-1bt)-1的逆的计算,这是使用自适应评价框架迭代学习的。利用这种基于近似动态规划的方案,伪逆计算通过学习过程避免。利用单网络自适应评价方法的冗余解决机械手。

第六步:t-s模糊的评价网络

其中,是模糊集隶属度函数且具有形式:

网络在局部非线性模型的成本动力学方面学习线性成本动力学。权重将收敛到线性系统的最优值。因此,利用所提出的基于t-s模糊的评价网络,权重将从一个区域平滑地变化到另一个区域,并且将收敛到对应于每个模糊区域的局部线性模型的最优值。

网络应该被训练成能使权重收敛到局部线性模型的最优权重。从选定的模糊区域到整个工作空间的学习网络,使得权重将收敛到每个区域中的最优值。为了实现网络收敛,我们定义si={x(k):||x(k)||<ci},其中ci是正常数。选择ci使得ci<ci+1。最初c1被选择为小值,使得网络将学习所选区域相对应的最优权重。然后,操作区域逐渐增加。通过这样的训练,网络权重将从一个操作区域平滑地变化到另一个操作区域。

控制方案在图1中示出系统的x(k)作为输入给评价网络,评价网络的输出是状态矢量λ(k+1)。控制输入从评价网络的输出计算。评价网络的权重学习过程如下:

1)为si产生随机初始工作点其中i=1,2,...,i,如上面在每个区域中所解释的的操作。初始化i=1和k=0。重复对于si中的x(k)的每个成员执行以下步骤。

2)将x(k)作为输入到评价网络并计算λ(k+1)=λa(k+1)

3)将λa(k+1)带入(7)中计算输入u(k)

4)给对象动力学的输入(5)并计算x(k+1)

5)将x(k+1)作为输入到评价网络计算λ(k+2)

6)将λ(k+2),x(k+1)带入状态动力学方程(8)中计算λd(k+1)。将λd(k+1)作为期望值并更新权重以最小化||λd(k+1)-λa(k+1)||。

7)对于常数k,增加k并从步骤2重复。

8)对于si中的nd个随机点,从步骤2重复,其中k=0。

9)检查评价网络的权重的收敛。如果实现收敛,则转到步骤1,i=i+1。否则,对si的所有成员重复步骤2)--8)。

10)重复步骤1)--9)直到i=1。

本发明的有益效果:在给定模糊区中的对象的非线性模型可以通过线性化和相应的最优化获得,可以使用are计算权重。在给定的模糊区域中的权重将平滑地变化到最优值,由于系统动力学逐渐随着操作区域的增加而偏离线性行为。考虑到这一事实,整个评论网的权重总是以已知模糊的最优值初始化并使用are计算的区域。

附图说明

图1为本发明所述图离散时间自适应控制方案

图2为本发明所述系统流程示意图

具体实施方式

下面结合附图对本发明的具体实施方式做详细说明。

采用本发明提出的自适应评价网络控制方法进行实际控制,其步骤如下:

第一步:离散时间动态控制

第二步:离散时间运动学方程x(k+1)-x(k)=jδθ(k)

第三步:末端执行器从当前位置x移动到期望位置xd的闭环误差

e(k+1)=e(k)-jδθ(k)=ae(k)+bu(k)

第四步:离散时间动态系统的单网络自适应评论(snac)

x(k+1)=f(x(k))+g(x(k))u(k)

第五步:二次成本函数

第六步:t-s模糊的评价网络

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1