高压输电线路除冰机器人自主抓线控制方法

文档序号:7355380阅读:234来源:国知局
专利名称:高压输电线路除冰机器人自主抓线控制方法
技术领域
本发明属于机器人智能的控制技术领域,涉及一种高压输电线路除冰机器人自主 抓线控制方法。
背景技术
输电线大量结冰将大大增加输电线塔承受的张力负荷,严重时会导致杆塔倾斜、 倒塌、断线及绝缘子闪络,以及因不均勻覆冰和不同期脱冰所引起的导线舞动等现象,并由 此引起线路跳间、供电中断等事故,给工农业生产和人们生活造成严重影响。目前技术上较成熟的是大电流热融除冰方法,多年以来在相关地区电网投入于实 际应用并获得了很多宝贵经验,但在实际运用中操作复杂,融冰电流大小不易把握,效率与 能耗不能兼顾。此外,还有人工除冰方法,能耗低,除冰方法灵活,但效率较低且具有一定的 危险性。和上述传统除冰方法相比,采用机器人除冰具有无人员伤亡、无需停电和转移负 载、可连续作业等优点。无需除冰作业时,还可作为巡线(即在输电线上巡视检查,掌握和 了解输电线路的运行情况)用途,因此利用除冰机器人除冰是目前输电线路除冰技术的发 展趋势之除冰机器人无论是做除冰还是巡线用途,自主跨越输电线上的障碍物(防震锤、 绝缘子、悬垂线夹等)是设计中的重要组成部分。除冰机器人一股至少具有两个手臂,通过 手臂交替脱线和抓线动作实现机器人的整体越障。目前控制除冰机器人越障的方法主要有 以下几种以知识库的方式将离线规划好的机器人动作序列存储在机器人主控机中,越障 时根据传感器的反馈信息,并结合知识库进行越障动作规划。但是由于障碍物类型的多样 性和实际位姿的不可预知性,离线规划好准确的越障行为控制策略非常困难;视觉导航方 法,即基于单目视觉或双目视觉进行图像重构,提取图像特征进行视觉伺服导航。但是为 了将障碍物与背景分开,需要巨大的图像计算量,导致系统实时性较差;采用激光传感器进 行机器人导航和抓线精确控制,可实现无接触远距离测量、速度快,但其测量过程受其他杂 散光的影响较大。现有方法中,均假设输电线相邻两杆塔之间的水平距离很大,机器人手 臂之间的输电线为直线,即与机器人箱体长度方向水平,而实际工程中输电线为悬垂角为 5° 25°不等的“悬链线”,这本身就存在一定的误差,加上风力作用、加工误差、机械振动 等原因可能导致机器人手臂在越障过程中抓线不成功,而现有方法缺少在线学习及调整的 功能。本专利的研究对象是三关节手臂除冰机器人。除冰机器人携带有摄像机,借助控 制器里的图像处理单元,能够完成对监控对象空间位置坐标的标定。在机器人手臂末端搭 载除冰装置并安装有接触传感器,传感器给出的开关信号是判断是否抓线成功的依据。针 对机器人手臂在越障过程中可能会存在脱线情况,以及考虑到输电线柔性特点和外界不确 定性因素的影响,采用传统控制方法难以保证其控制精度,同时由于算法本身过于复杂而 无法满足工程应用对实时性的要求。因此如何设计一种简单可靠、实时性好、便于实现的机 器人手臂自主抓线控制方法是保证除冰机器人正常工作的关键。

发明内容
本发明的目的在于提供一种基于SARSA算法(算法中每次迭代用到的五元组(st, at, rt+1,st+1,at+1),因此,该算法命名为SARSA算法)的增强学习系统的除冰机器人抓线控 制方(即高压输电线路除冰机器人自主抓线控制方法),该控制方法能够克服由于机器自 身模型误差、机器手臂末端位姿的不确定性和环境复杂性等带来的影响,可实时在线地调 整手臂末端的位姿,实现手臂快速准确地抓线,并且不需要人为远程控制,从而达到较高控 制精度。本发明的技术解决方案如下一种高压输电线路除冰机器人自主抓线控制方法,包括以下步骤通过设定状态集、动作集、Q表和回报函数,建立增强学习系统;该增强学习系统 选择一个动作a作用于环境,接受动作a后环境转移到下一个状态s',同时给出评价信号 r,r又称为回报函数值,如果r满足一定条件则终止控制,否则增强学习系统将根据评价信 号r和状态s'通过行为选择策略决定下一个动作a‘,更新Q表后进入下一次迭代。该方法能够克服由于机器人的模型误差、机器手臂末端位姿的不确定性和环境的 复杂性等带来的影响,可实时在线地调整手臂末端的位姿,实现手臂快速准确地抓线,并且 不需要人为远程控制,从而达到自主抓线控制的目的。。所述的建立增强学习系统的过程为步骤1:建立状态集三手臂除冰机器人在越障时,总是保持一个手臂脱线,称为脱线手臂,另外两个手 臂悬挂在线上,悬挂在线上的手臂电机驱动机器人前进,脱线手臂待越过障碍后再抓线;以 脱线手臂的基座为坐标系原点建立坐标系,脱线手臂最大活动范围的外边缘为弧线,该弧 线与输电线的交点坐标记为(\,y》,输电线上防震锤外侧的竖直方向的垂线与输电线的交 点坐标记为(Xpy1),点(Xr,yr)和点(Xpy1)之间的线段为有效线段,目标点为有效线段中 心点,坐标记为(Xf,yf),脱线手臂末端位置坐标为(Xt,yt);除冰机器人抓线控制的环境状态以s = (X,Y)表示,其中X,Y e {-1,0,1};则状 态集为S = {(-1,-1),(-1,0), (-1,1), (0,-1),(0,0), (0,1), (1,-1),(1,0), (1,1)};步骤2:建立动作集定义动作a = <ai; a2, a3>,其中 对应除冰机器人抓线手臂的第i个手臂关节的 关节转角,其中,i = 1,2,3,三个手臂关节的动作集统一设为A= {-4,-3,-2,-1,0,1,2,3, 4},即ai e Α,动作集A中元素的物理意义是元素的单位为度,正号表示关节朝顺时针方向 转动,负号表示关节朝逆时针方向转动;步骤3:建立Q表为三关节手臂的每一个关节建立Qi表即Q表,i = 1,2,3,定义0 = <01,02,03>,01 表是一个9x9维的矩阵,其中记录了在状态s和在状态s下选择动作%所预期获得的累积
奖赏.M^^) = E{fJYkrt+k+l\st=s,at=a}, i = 1,2,3,其中,E ( ·)表示数学期望值,Y 为折扣
k=Q
因子,Y e
;步骤4:建立回报函数
脱线手臂触碰到输电线,接触传感器给出开关信号认为抓线成功,否则为抓线失 败,以蔓叶线近似表示输电线,蔓叶线方程为y2 = X3/(2C-X),c为常数;回报函数公式为
35000/(1 + ^),接触传感器给出开关信号
j* — J
{-(distl + distl + dist3)/3,其它,其中distl = (xf-xt) 2+(yf-yt)2, dist2 = (Xt-X1)2+(yt_yi)2,dist3 = (xt-xr)2+(yt-yr), dist = distl+dist2+dist3。所述的迭代控制过程为步骤A 初始化将Q表初始化为0矩阵,给下列参数赋值α、Υ、ε ; α表示学习率,α e
, 它决定了学习过程中调整策略的程度;ε表示随机动作的选择概率,ε e
;由摄像机 标定(xf, yf)、(Xt,yt)、(X1, Y1)、(xr, yr);根据机器手臂最初脱线时手臂末端和目标点的相 对距离获得所对应的状态S,初始化动作a = <0,0,0>,即手臂保持不动;步骤B:执行动作执行动作a,控制手臂三个关节转动相应的角度;步骤C 计算回报值r并判断终止条件由于每个机器手臂肩部都装有摄像机,通过图像处理技术,识别出机器手臂末端 执行动作后的位置坐标(xt,yt),将(xt,yt)代入回报函数公式,计算出回报值r ;判断回报 值r符号,如果为正,表明抓线成功,控制终止,否则执行步骤D ;步骤D 确定下一个状态s ‘;具体步骤如下①求出手臂末端和目标点的相对距离为D = [(Xf-Xt) (yf_yt)],并求出其符号函 数值X = sign(D), sign ( ·)表示符号函数,功能是提取某个数的符号,取值为1或_1 ;0对应的符号函数值为1,在本专利方法中只需提取出手臂末端和目标点的相对 距离的符号值,不需要具体的数值,从而大大减少了图像的计算量。②通过状态集求出状态s'从状态集S = {S(X,Y) I (-1,-1),(_1,0),(_1,1), (0,-1), (0,0), (0,1), (1,-1), (1,0), (1,1)}中选出一个状态?,与符号函数值X的欧氏
距离最小,即^ = arSminP-xII;
S GS步骤E 通过Q表选择对应最大Q值的动作a'通过查表的方法在关节i的Qi表中查出s'状态下对应最大Q值的动作,i = 1, 2,3即< =呵111狀(2 *)),从而&' =<a/,a2' , a3' >;
a*GAιΔο步骤F:根据ε-greedy策略选择动作以概率ε在动作集中随机选取动作alfe Α),令a'以概率1_ε保持a' 不变;步骤G 更新;具体步骤如下①按照下列Q 值的更新公式Q(s,a) — Q(s,a) + a [r+YQ(s',a' )-Q(s, a)], 其中Q (s,a)表示对应状态s和动作a的Q值;②s —s',a —a',即将s'赋值给s,将a'赋值给a ;步骤H:转步骤B。
6
本发明的技术构思为以一种具有三个机械手臂的除冰机器人为控制对象,结合三关节手臂运动学理 论,以增强学习SARSA算法控制手臂抓线。针对输电线为柔性弧线的特点,设计了相应的回 报函数并验证其有效性。具体步骤为1、建立增强学习系统。除冰机器人抓线控制所处环境可描述为一个有限状态的离散马尔科夫过程,本发 明基于增强学习SARSA算法控制三关节手臂进行抓线通过设定状态集、动作集、Q表和回 报函数,建立增强学习系统。该增强学习系统选择一个动作a作用于环境,环境接受该动作 后转移到下一个状态s ‘,同时给出评价信号r (即回报函数值),如果r满足一定条件则 终止控制,否则增强学习系统根据评价信号和状态s'通过行为选择策略决定下一个动作 a',更新Q表后进入下一次迭代。基于SARSA算法设计一个增强学习系统时,首先需要建 立相应的状态集和动作集,并根据状态集和动作集建立Q值查找表(简称Q表),同时需要 建立正确的回报函数。下面以除冰机器人为控制对象,对本专利提出的增强学习系统的建 立步骤做详细的说明。1. 1建立状态集。所述的除冰机器人为三手臂机器人,分别为手臂一、手臂二和手臂三,如图2所 示。其中手臂一和手臂二为可在平面内旋转的三关节手臂,是专利中的研究对象,由于具有 相同的结构,在分析中不加区分。手臂三为具有一个伸缩关节的手臂,起到辅助和平衡重心 的作用,在专利中不作研究。越障时,三个手臂依次完成脱线一从底部跨越障碍物一抓线的 动作。三手臂机器人在越障时,总是一个手臂(手臂一或手臂二)脱线,称为脱线手臂,另 外两个手臂悬挂在线上,悬挂在线上的手臂电机驱动机器人巡线前进,脱线手臂待越过障 碍后再抓线。由于悬挂在线上的手臂起到了固定箱体的作用,脱线手臂在抓线过程中机器 人箱体、脱线手臂的基座、障碍物和输电线之间的位置是相对静止的,因此能够以脱线手臂 的基座为坐标系原点建立一个坐标系,如图4所示。该坐标系中,抓线手臂的基座为坐标系 原点,两个虚线半圆之间的范围为三关节手臂能够触及的范围,外侧虚线半圆与输电线的 交点坐标为(\,yr)0图中障碍物边侧垂直的虚线为不触及障碍物的极限位置(在专利中 以防震锤为例),与输电线的交点坐标为(Xl,yi)。在抓线控制过程中,定义输电线(\,y》 和(Xl,yi)之间的线段为有效线段,有效线段中心点(简称目标点)坐标为(xf,yf),机器人 手臂末端位置坐标为(xt,yt)。根据上述坐标系中的手臂末端和目标点之间的相对位置,除冰机器人抓线控制的 环境状态以s(X,Y)表示,其中X,Ye {-1,0,1}其物理意义是X(或Y) = _1,表示手臂末 端的X(或Y)坐标值小于目标点的X(或Y)坐标值;X(或Y) =0,表示手臂末端的X(或Y) 坐标值等于目标点的x(或Y)坐标值;χ(或Y) = 1,表示手臂末端的χ(或Y)坐标值大于 目标点的x(或Y)坐标值。于是状态集可表示为S = {(-1,-1), (-1,0), (-1,1), (0,-1), (0,0), (0,1), (1,-1), (1,0), (l,l)},ses。例如,(0,0)表示机器手臂末端和目标点坐 标位置重合,即机器手臂抓线成功。状态集中的(1,-1)表示机器手臂末端的横坐标大于目 标点的横坐标,纵坐标小于有效目标点的纵坐标,也即手臂末端位于目标点的右下方。1. 2建立动作集。控制机器手臂达到指定目标位置,需要给出每个手臂关节的关节转角。除冰机器人模型中手臂为三关节,定义动作a = <ai; a2, a3>,其中 (i = 1,2,3)对应除冰机器人抓 线手臂的第i个手臂关节的关节转角。由于每个关节的活动角度范围相同,则三个手臂关 节的动作集可统一设为A = {-4,-3,-2,-1,0,1,2,3,4},Bi e A(i = 1,2,3)。其物理意义 是数值的单位为度,正号表示关节朝顺时针方向转动,负号表示关节朝逆时针方向转动。 例如ai = -3表示第一个手臂关节朝逆时针方向旋转3度。动作集A的取值范围受限于单 位时间手臂关节的转动范围,动作集划分越细控制精度越高,其缺点是会导致控制系统中 的Q表更大,占用更多的内存,计算量也更大;动作集的划分过粗,相邻两个动作之间差别 太大可能导致控制难以达到预期效果,即有可能手臂末端在目标点周围反复震荡,控制难 以收敛。实验证明,动作集合中元素为9个左右比较合适。1.3 建立 Q 表。本专利以查找(look-up)表法,也就是利用表格来表示Q函数,表的大小等于SxA 的笛卡尔乘积中元素的个数。为三关节手臂的每一个关节建立QiG = 1,2,3)表,定义Q = <Q1 Q2, Q3>。Qi表是一个9x9维的矩阵,其中记录了在状态s和在该状态下选择动作 所 预期获得的累积奖赏
CO
权利要求
一种高压输电线路除冰机器人自主抓线控制方法,其特征在于通过设定状态集、动作集、Q表和回报函数,建立增强学习系统;该增强学习系统选择一个动作a作用于环境,接受动作a后环境转移到下一个状态s′,同时给出评价信号r,r又称为回报函数值,如果r满足一定条件则终止控制,否则增强学习系统将根据评价信号r和状态s′通过行为选择策略决定下一个动作a′,更新Q表后进入下一次迭代。
2.根据权利要求1所述的高压输电线路除冰机器人自主抓线控制方法,其特征在于, 所述的建立增强学习系统的过程为步骤1 建立状态集三手臂除冰机器人在越障时,总是保持一个手臂脱线,称为脱线手臂,另外两个手臂悬 挂在线上,悬挂在线上的手臂电机驱动机器人前进,脱线手臂待越过障碍后再抓线;以脱线 手臂的基座为坐标系原点建立坐标系,脱线手臂最大活动范围的外边缘为弧线,该弧线与 输电线的交点坐标记为(\,y山输电线上防震锤外侧的竖直方向的垂线与输电线的交点坐 标记为(Xl,yi),点Ur,yr)和点(Xpy1)之间的线段为有效线段,目标点为有效线段中心点, 坐标记为(xf,yf),脱线手臂末端位置坐标为(xt,yt);除冰机器人抓线控制的环境状态以s = (X,Y)表示,其中X,Y e {-1,0,1};则状态集 为S = {(-1,-1),(-1,0), (-1,1), (0,-1),(0,0), (0,1), (1,-1),(1,0), (1,1)}; 步骤2:建立动作集定义动作a = <ai; a2, a3>,其中%对应除冰机器人抓线手臂的第i个手臂关节的关节 转角,其中,i = 1,2,3,三个手臂关节的动作集统一设为A= {-4,-3,-2,-1,0,1,2,3,4}, 即ai e A,动作集A中元素的物理意义是元素的单位为度,正号表示关节朝顺时针方向转 动,负号表示关节朝逆时针方向转动; 步骤3 建立Q表为三关节手臂的每一个关节建立Qi表即Q表,i = 1,2,3,定义Q = <Qi; Q2, Q3>,Qi表 是一个9x9维的矩阵,其中记录了在状态s和在状态s下选择动作%所预期获得的累积奖^ .,Q1(S^1) = EiXYkrt+k+l \st=s,at=a},i = 1,2,3,其中,E ( ·)表示数学期望值,Y 为折扣因k=Q子,Y e
;步骤4:建立回报函数脱线手臂触碰到输电线,接触传感器给出开关信号认为抓线成功,否则为抓线失败,以 蔓叶线近似表示输电线,蔓叶线方程为= x3/(2C-X),c为常数;回报函数公式为 35000/(1 + ^),接触传感器给出开关信号j* — J{-(distl + distl + dist3)/3,其它,其中 distl= (xf-xt) 2+(yf-yt)2,dist2= (Xt-X1)2+(yt_yi)2,dist3 = (xt-xr)2+(yt-yr), dist = distl+dist2+dist3。
3.根据权利要求1或2所述的高压输电线路除冰机器人自主抓线控制方法,其特征在 于,所述的迭代控制过程为步骤A 初始化将Q表初始化为0矩阵,给下列参数赋值α、Y, ε ;α表示学习率,α e
,它 决定了学习过程中调整策略的程度;ε表示随机动作的选择概率,ε e
;由摄像机标定(xf,yf)、(xt,yt)、(χι; Y1)、(xr, yr);根据机器手臂最初脱线时手臂末端和目标点的相对 距离获得所对应的状态s,初始化动作a = <0,0,0>,即手臂保持不动; 步骤B 执行动作执行动作a,控制手臂三个关节转动相应的角度; 步骤C 计算回报值r并判断终止条件由于每个机器手臂肩部都装有摄像机,通过图像处理技术,识别出机器手臂末端执行 动作后的位置坐标(xt,yt),将(xt,yt)代入回报函数公式,计算出回报值r ;判断回报值r 符号,如果为正,表明抓线成功,控制终止,否则执行步骤D ; 步骤D 确定下一个状态s';具体步骤如下①求出手臂末端和目标点的相对距离为D=[(Xf-Xt) (yf_yt)],并求出其符号函数值χ =sign(D), sign ( ·)表示符号函数,功能是提取某个数的符号,取值为1或_1 ;②通过状态集求出状态S‘从状态集S = {S (X,Y) I (-1,-1),(-1,0),(-1,1),(0,-1), (0,0), (0,1), (1,-1), (1,0), (1,1)}中选出一个状态S*,与符号函数值X的欧氏距离最小,步骤E 通过Q表选择对应最大Q值的动作a'通过查表的方法在关节i的Qi表中查出s'状态下对应最大Q值的动作,i = 1,2,3 即< = argmaX(0 *)),从而 a,=< ,,, >a*GAιΔο步骤F 根据ε -greedy策略选择动作以概率ε在动作集中随机选取动作a*(a* e A),令a' = ;以概率1-£保持a'不变;步骤G 更新;具体步骤如下①按照下列Q值的更新公式Q(s,a)— Q(s,a) +α [r+Y Q(s',a' )_Q(s,a)],其中 Q (s,a)表示对应状态s和动作a的Q值;②s—s' ,a-a',即将s'赋值给s,将a'赋值给a ; 步骤H:转步骤B。
全文摘要
本发明公开了一种高压输电线路除冰机器人自主抓线控制方法,通过设定状态集、动作集、Q表和回报函数,建立增强学习系统。该系统选择一个动作a作用于环境,接受该动作后环境转移到下一个状态s′,同时给出评价信号r,如果r满足一定条件则终止控制,否则增强学习系统将根据评价信号和状态s′通过行为选择策略决定下一个动作a′,更新Q表后进入下一次迭代。该方法能够克服由于机器人的模型误差、机器手臂末端位姿的不确定性和环境的复杂性等带来的影响,可实时在线地调整手臂末端的位姿,实现手臂快速准确地抓线,并且不需要人为远程控制,从而达到自主抓线控制的目的。
文档编号H02G7/16GK101954638SQ20101051140
公开日2011年1月26日 申请日期2010年10月18日 优先权日2010年10月18日
发明者印峰, 张辉, 曹文明, 杨易旻, 王耀南, 谭磊, 魏书宁 申请人:湖南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1