基于Skinner操作条件反射自动机的机器人轨迹跟踪方法

文档序号:8256715阅读:683来源:国知局
基于Skinner操作条件反射自动机的机器人轨迹跟踪方法
【技术领域】
[0001] 本发明涉及移动机器人轨迹跟踪领域,具体涉及一种基于Skinner(斯金纳)操作 条件反射自动机的机器人轨迹跟踪方法。
【背景技术】
[0002] 随着自主移动机器人技术的发展,自主移动机器人的应用领域越来越广泛。它可 以取代人类到达许多人类无法到达或有危险的环境,如火灾、地震搜救机器人;还可以代替 人类做一些服务类工作,如博物馆导游等。移动机器人的轨迹跟踪运动控制不但可直接用 于跟踪目标、机器人编队等领域,而且,循迹追线是对环境信息的一种简化,有利于开发出 更有效的算法应用于复杂环境下的自主移动机器人上。
[0003] 经典控制方法和现代控制方法是常用的移动机器人轨迹跟踪控制方法,虽然应用 地比较成熟,但其不能自主调整参数,对于同一算法运用在不同机器人、不同环境中需要人 工调整参数。本发明所采用的Skinner操作条件反射自动机的轨迹跟踪方法来源于1938 年美国著名心理学家斯金纳(B.F.Skinner)在其著作《TheBehaviorofOrganisms:an experimentalanalysis》中提出的操作条件反射(OperantConditioning)的理论。通过 刺激产生反应,反应影响刺激出现的概率,是斯金纳操作条件反射理论的核心。它体现了人 或动物自学习能力,反映了智能体对环境的自适应性。如果能将斯金纳提出的操作条件反 射原理应用于机器人轨迹跟踪方面,将会提高轨迹跟踪的智能化程度。

【发明内容】

[0004] 本发明提出一种基于Skinner操作条件反射自动机的轨迹跟踪方法,对每个状态 对应的操作赋予概率权值,权值的变化随抽样结果的反馈进行更新,从而使其抽样概率发 生变化。本发明使机器人能够在没有导师信号的情况下,依靠环境对机器人的奖励与惩罚, 建立操作条件反射,使机器人自主完成轨迹跟踪的学习。
[0005] 基于Skinner操作条件反射自动机的机器人轨迹跟踪方法,其特征在于包括以下 步骤:
[0006] 步骤1 :确定Skinner操作条件反射机的数学模型,SKC0A;
[0007] 31(0^自动机是离散的一个七元组,51(0^=<5,八,尺6,?,1,11>,5为离散状态 组合集合,A为自动机可选择动作操作集合,f为状态转移函数,S是取向函数,P为每一状 态下选择操作的概率集合,令初始概率分布为均匀分布,L为自动机的操作条件反射学习机 制,H为自动机操作行为熵;
[0008] 步骤2 :确定SKC0A自动机可选择的操作集合A;
[0009] 操作集合A= {vk, ?」|k= 1,2, ? ? ?,nal,j= 1,2, ? ? ?,na2},vk为机器人前进的速 度,w」为机器人转过的角速度,nal,na2分别为速度和角速度的操作集大小,na=nal*na2,na 为操作集大小;
[0010] 步骤3 :获得机器人在t的时刻的状态集合S={ei |i= 1,2,. . .,ns};
[0011] 机器人t时刻在环境地图中的坐标位置,记作Si|t= (Xi,yi,0i) ;Xi,yi分别 为机器人t时刻所在的横纵坐标,0 机器人与横轴夹角;期望轨迹坐标点为S& 11 = (叉。^,0。),叉。^分别为机器人期望轨迹在七时亥_横纵坐标,0〇1为期望位姿与横轴 夹角;机器人在t的时刻的状态集合为Si={eiIi= 1,2, . . .,ns} =Sd-Sf(xd-Xi,y^-y i,9。厂9i),ns为状态集合大小;将坐标转换为以机器人为坐标原点的坐标系中,S=T*S^ T为旋转矩阵;
[0012] 步骤4 :根据概率集合,从动作集中选择一组动作,即选择前行的速度vk和角速度 wk;
[0013] 步骤5 :计算状态转移,方法如下:
[0014]
【主权项】
1.基于Skinner操作条件反射自动机的机器人轨迹跟踪方法,其特征在于包括以下步 骤: 步骤1 :确定Skinner操作条件反射机的数学模型,SKCOA; SKCOA自动机是离散的一个七元组,SKCOA= <S,A,f,S,P,L,H>,S为离散状态组合 集合,A为自动机可选择动作操作集合,f为状态转移函数,S是取向函数,P为每一状态下 选择操作的概率集合,令初始概率分布为均匀分布,L为自动机的操作条件反射学习机制,H 为自动机操作行为熵; 步骤2 :确定SKCOA自动机可选择的操作集合A; 操作集合A= {vk,?」|k= 1,2,. . .,nal,j= 1,2,. . .,na2},vk为机器人前进的速度,《』 为机器人转过的角速度,nal,na2分别为速度和角速度的操作集大小,na=nal*na2,na为操作 集大小; 步骤3 :获得机器人在t的时刻的状态集合S={ei |i= 1,2,. . .,ns}; 机器人t时刻在环境地图中的坐标位置,记作Si|t= (Xi,yi,0^ ;Xi,yi分别为 机器人t时刻所在的横纵坐标,0 机器人与横轴夹角;期望轨迹坐标点为s= (xoi,yoi,0〇i) ;xoi,yoiAU为机器人期望轨迹在t时亥IJ的横纵坐标,0 〇1为期望位姿与横轴 夹角;机器人在t的时刻的状态集合为Sf{ei|i= 1,2, . . .,ns} =Sd-sf(xd-Xi,y^-y i,9。厂9i),ns为状态集合大小;将坐标转换为以机器人为坐标原点的坐标系中,S=T*S^ T为旋转矩阵; 步骤4 :根据概率集合,从动作集中选择一组动作,即选择前行的速度vk和角速度《 k; 步骤5 :计算状态转移,方法如下:
式中,xn、yn、0n分别代表动作选择后机器人新的横纵坐标以及机器人的朝向角度,x。、y。、9。分别代表动作选择前机器人新的横纵坐标以及机器人的朝向角度,ts为机器人传感 器的米样时间; 步骤6 :计算能量函数eng的值; 能量函数用于表示机器人当前位置与轨迹的距离关系,记作eng=eng(S)= {eng以)|i= 1,2,…,ns}GR,距离越近,eng越小,反之,eng越大,方法如下:
步骤7:计算取向函数S值; 取向函数S=S(s,A) = {sik|i=1,2, ? ? ?,ns;k=1,2, ? ??,na},模拟了自然界中 生物的取向性,方法如下: 8 ik=eng(Si)-eng(Si+1) 其中Sik表示SiGS执行动作(vk,《k)GA后系统性能的变化;S< 〇时,为负取向, 说明系统性能趋向变差;S=〇时,为零取向,说明系统性能趋向不变;S>〇时,为正取 向,说明系统性能趋向变好; 步骤8 :根据Skinner操作条件反射原理调整动作集概率分布P; 动作集概率分布的规则为:正强化时,动作概率增加;负强化时,动作概率减少;设t时 刻状态,选择操作ak执行,通过状态转移到sn;
式中,q〇,q2> 〇 ;aJt),a2(t)为学习速率函数,0 <a工⑴ < 1,0 <a2(t) < 1 ;pmk(t)为t时刻机器人在状态sm下选择动作ak的概率;pmk,(t)为t时刻机器人在状 态下选择动作除ak外的其他操作的概率; 步骤9 :计算t时刻系统j:商;
式中,Pik(t)为机器人在状态Si下选择动作ak的概率; 步骤10 :判断熵是否趋于最小值11_,如果是,标志着系统已达到自组织,机器人已形 成操作条件反射习得最优动作,则本次学习结束,转到测试阶段;否则,转步骤2 ; 步骤11 :测试阶段,载入期望轨迹和速度; 步骤12 :在保持概率矩阵P不变,根据概率从操作集中选择操作执行,按照状态转移公 式计算新的状态,循环往复; 步骤13 :判断机器人当前位置是否为终点,如果是,则结束,否则,转步骤11,继续测试 阶段。
【专利摘要】本发明公开了一种基于Skinner操作条件反射自动机的机器人轨迹跟踪方法,涉及移动机器人轨迹跟踪领域,具体涉及一种基于Skinner操作条件反射自动机的机器人轨迹跟踪方法。本发明首先建立机器人的操作和状态集合,并建立相应的状态到操作的概率集合,并令其符合均匀分布;然后,随机选择一个操作,计算相应的位置变化,进而根据距离目标轨迹的距离计算取向函数,根据取向函数值按照操作条件反射理论调整动作概率分布,计算系统熵;当系统熵趋于最小值时,学习结束。此时概率矩阵为最优。本发明能够很好地模拟人及动物的操作条件反射行为,提高机器人智能水平,是其具备较强的自学习、自组织、自适应能力,自主条件参数,成功进行轨迹跟踪。
【IPC分类】G05D1-02, G05B13-04
【公开号】CN104570738
【申请号】CN201410844504
【发明人】阮晓钢, 李笑漪, 肖尧, 张晓锐, 刘冰
【申请人】北京工业大学
【公开日】2015年4月29日
【申请日】2014年12月30日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1