基于Skinner操作条件反射原理的机器人避障导航方法

文档序号:6303525阅读:409来源:国知局
基于Skinner操作条件反射原理的机器人避障导航方法
【专利摘要】本发明涉及了一种基于Skinner操作条件反射原理的机器人避障导航方法。首先,建立机器人的动作集合概率,并令其符合均匀分布;然后,随机选择一个动作,计算相应的位置变化,进而根据与障碍及目标点距离计算出新位置对应的负理想度,并由此得出取向函数值,根据取向函数值按照操作条件反射理论调整动作概率分布,计算系统熵;当系统熵趋于最小值时,选择概率最大动作所指角度前行;重复学习过程,直至抵达目的地。本发明能够很好地模拟人及动物的操作条件反射行为,提高机器人的智能水平,使其具备较强的自学习、自组织、自适应能力,能够在无导师信号的情况下自主探索环境,成功避障导航。
【专利说明】基于Skinner操作条件反射原理的机器人避障导航方法
【技术领域】
[0001]本发明涉及移动机器人避障导航领域,具体涉及一种基于Skinner (斯金纳)操作条件反射原理的机器人避障导航方法。
技术背景
[0002]近年来,避障导航已成为智能机器人领域的研究热点。避障导航的目的在于使机器人能够穿越环境地图中的各种障碍,安全、无碰撞的从起点到达终点。传统的避障导航方法根据工作环境提供信息程度不同,可分为全局信息已知类,全局信息未知类及部分未知类。在信息未知类导航中,机器人需要使用自身的感知系统检测所处的外界环境,从而得到障碍物的方位、距离等位置信息,最后,通过一定的算法得出一条无障碍路径。因此,信息未知类导航对智能化程度具有很高的要求。
[0003]常用的导航方法包括可视图法、自由空间法、最优控制法、拓扑法及栅格法等。针对未知环境的导航问题,人工势场法、模糊逻辑算法、神经网络算法及遗传算法等也常引入进行研究。申请号CN201110218625.1的发明专利公开了一种室内移动机器人自主导航避障系统及方法,该项发明采用采用分段极大似然质心算法对机器人定位,建立三维环境地图和栅格地图,构造路径网格,基于膨胀算法和Dijkstra算法规划全局路径,实现智能避障;申请号为CN201110210600.7的专利公开了一种基于模糊神经网络的智能轮椅避障方法,该项发明根据设定的模糊神经网络控制规则,规划轮椅的轮速和转角信息,完成轮椅的动态避障,以一定的方法将这些互补或冗余的传感器信息进行融合,由此实现智能轮椅的避障。它们存在的共同问题是:需要提供专家信息,机器人的智能化程度不高,无法自主地探索未知环境完成避障导航任务。
[0004]1938年,美国著名心理学家斯金纳(B.F.Skinner)在其著作《The Behaviorof Organisms: an experimental analysis》中首次提出 了 操作条件反射(OperantConditioning)的概念,并由此创立了操作条件反射理论。斯金纳借鉴了巴甫洛夫的“强化”(reinforcement)概念,并把这一概念的内涵进行了革新。他把“强化”分为正强化(positive reinforcement)和负强化(negative reinforcement)两种,正强化促使有机体对刺激的反应概率增加,而负强化则促使有机体消除该刺激的反应增加。刺激产生反应,反应影响刺激出现的概率,这正是斯金纳操作条件反射理论的核心,它体现了人或动物自学习的能力,反映了智能体对环境的自适应性。如果能将Skinner提出的操作条件反射原理应用于机器人避障导航,将会有效提高导航的智能化程度。

【发明内容】

[0005]针对现有技术中存在的机器人避障导航智能化程度不高等问题,本发明提出了一种基于Skinner操作条件反射原理的机器人避障导航方法,使机器人能够在没有导师信号的情况下,以“learning-by-doing”的试错式方式与环境交互,建立操作条件反射,完成避障及导航。[0006]一种基于Skinner操作条件反射原理的机器人避障导航方法,包括以下步骤:
[0007]步骤1,获得机器人在时刻t的状态及动作集合。
[0008]在时刻t获得机器人在环境地图中的坐标位置,记作Si 11 = (Xi, Yi),以及可能的前进方向(角度),记作A = {akI k = l,2^“,na}, na为动作集大小,以此作为机器人在时刻t的状态及动作集合。令动作集的初始概率分布为均匀分布。
[0009]步骤2,从动作集中随机选择一动作,即拟选择前行的角度ak。
[0010]步骤3,计算状态转移,公式如下:
[0011]
【权利要求】
1.一种基于Skinner操作条件反射原理的机器人避障导航方法,其特征在于将Skinner操作条件反射原理应用于机器人避障导航;所述方法包括以下步骤: 步骤I,获得机器人在时刻t的状态及动作集合; 在时刻t获得机器人在环境地图中的坐标位置,记作Si|t = (Xi,yi),以及可能的前进方向用角度表示;动作集合记作A = {ak|k = I, 2, --?,11』,31;为前进的角度,1^为动作集大小;令动作集的初始概率分布为均匀分布; 步骤2,从动作集中随机选择一动作,即拟选择前行的角度ak ; 步骤3,计算状态转移,公式如下:
2.根据权利要求1所述的一种基于Skinner操作条件反射原理的机器人避障导航方法,其特征在于,所述步骤4负理想度的计算公式为:
3.根据权利要求1所述的一种基于Skinner操作条件反射原理的机器人避障导航方法,其特征在于,所述步骤5取向函数δ的计算公式为:

4.根据权利要求1所述的一种基于Skinner操作条件反射原理的机器人避障导航方法,其特征在于,所述步骤6根据Skinner操作条件反射理论调整动作集概率分布的方法包括以下步骤: 设t时刻状态8111选择动作ak执行,感知到来自环境的刺激记为Θ,同时状态转移到Sn; ①若Θ为正强化,即δΛ>0,则:
当 a (t) = ak 时:
【文档编号】G05D1/02GK103792846SQ201410055115
【公开日】2014年5月14日 申请日期:2014年2月18日 优先权日:2014年2月18日
【发明者】阮晓钢, 黄静, 于乃功, 魏若岩, 薛坤, 张晓平, 范青武 申请人:北京工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1