一种不完全感知环境下的机器人kNN路径规划方法

文档序号:6309312阅读:743来源:国知局
专利名称:一种不完全感知环境下的机器人kNN路径规划方法
技术领域
本发明是一种未知动态环境下的机器人路径规划方法,涉及机器人导航技术领域,尤其涉及到机器人路径规划算法方面。
背景技术
随着机器人技术的发展,机器人的能力不断提高,机器人应用领域也不断扩大,尤其是在一些危险、特殊或人不宜前往的应用领域,如核应急处置、太空作业等,都需要机器人的介入。路径规划是机器人导航技术的重要环节,机器人路径规划问题一般定义为给定机器人的出发点和目标点,在有固定或移动障碍的环境中,规划一条无碰的、满足某种最优准则的路径,使机器人按照该路径运动到目标点。其中,最优准则一般有所消耗的能量最少、所用的时间最短、路径长度最短等。因此,路径规划方法的研究对寻找一条无碰、最优路径起着至关重要的作用。机器人要在未知动态环境中安全、可靠地完成路径规划,需要具备能够处理各种不确定情况的能力,以提高对环境的适应性。因此,具有智能学习能力的机器人路径规划显得尤为重要。强化学习算法用于机器人路径规划,其优势在于该算法是一种非监督在线学习方法,且不需要环境的精确模型,因此在动态未知环境下的移动机器人路径规划应用中正受到重视。如MohammadAbdel Kareem Jaradat 的 Reinforcementbased mobilerobot navigation in dynamic environment一文对强化学习与人工势场法相比较,实验结果表明基于强化学习算法的机器人路径规划方法具有更好的适用性。Hoang-huu VIET的Extended Dyna-QAlgorithm for Path Planning of Mobile Robots一文在Dyna-Q强化学习算法基础上,利用最大似然模型选择动作并更新Q值函数,提高了算法的收敛速度。这些方法中,机器人都是在完全可观测的环境下完成路径规划,吴峰在“基于决策理论的多智能体系统规划问题研究”一文中从决策论的角度用DEC-P0MDP模型,以解决大状态空间下的多智能体规划问题,该方法考虑了环境信息的不完全可观测性,但建立的模型与算法具有较高的复杂性。针对这些问题,本发明提出一种不完全感知环境下的机器人kNN路径规划方法。该方法采用基于k最近邻分类思想的局部值迭代学习模型,考虑未知环境下动作的不确定性与环境信息获取的不完整性,提高实际环境中机器人路径规划算法的适应性。

发明内容
本发明的目的在于解决未知动态环境下,机器人路径规划存在环境信息的不完全可观测性、大状态空间求解难的问题,以有效提高路径规划算法的适用能力。该方法采用基于k最近邻分类法的局部点值迭代,代替对全部状态的值迭代计算,以有效缓解求解POMDP模型中的维数灾难问题,同时提高路径规划过程中强化学习算法的收敛性。为了达到上述目的,本发明采取的技术方案是一种不完全感知环境下的机器人kNN路径规划方法,包括以下步骤
一、POMDP 模型建立采用栅格地图将机器人规划环境划分为小栅格。利用栅格法建立环境图,每个小栅格单元对应于POMDP模型状态集S中的一个状态S。动作集A有东(East)、西(West)、南(South)、北(North)四个动作,机器人可以在下一时刻处于相邻的4个无障碍栅格单元之一;机器人到达目标状态可获得回报值0,其它情况回报值均为-I。在机器人与环境不断交互过程中,由于动作的执行存在不确定性,因此转换概率设置为以较大概率正确执行最优策略选择的动作,以较小概率滑向该动作的左右两侧。二、POMDP 模型求解机器人POMDP路径规划中,机器人传感器不能完全观测所有环境信息。为了求解最优策略,机器人需要所经历的动作与观测状态的完整序列,即历史信息。历史信息可以利用信念状态(Belief State)来取代,信念状态b(s)为状态集S上的一个概率分布,所有信念状态组成一个I S|维矩阵。求解时以信念状态代替状态,POMDP问题就转化为基于信念状态的MDP问题,动作选择策略转化为由信念状态到动作的映射(b) — a,在最优策略η *下,所有信念状态的折扣累积奖赏值组成最优值函数Q (b,a),从而可利用求解MDP问题的方法kNN_Sarsa( λ )算法求解POMDP问题。三、迭代学习模型的构建机器人设置起始位置与目标位置后,利用基于强化学习算法的机器人路径规划方法,为机器人寻找一条从起始位置到目标位置的无碰、最优路径。在寻找最优路径的过程中,本发明将机器人可能到达的栅格单元定义为迭代学习模型的状态S,动作a定义为具体动作方向东、西、南、北,动作选择的目的是最大程度的缩短从起始位置到目标位置的路径。强化学习算法的迭代模型给每个(s,a)定义了一个状态-动作值函数Q,即机器人在当前状态选择某一动作更新到下一状态时获得的折算累积回报值,动作选择策略依据该Q值选择最优动作,以使累积回报值最大。四、迭代学习模型用到的表结构为了实现本发明方法,需要构建下列表结构(I) QTable 表基于迭代学习模型的机器人路径规划,首先需要建立状态-动作值函数表QTable。该Q Table表为|S|行|A|列的二维矩阵(|S|为状态集S的元素数,|A|为动作集A的元素数),它存储了每个状态-动作对应的累积回报值,即Q (s,a)为选择最优动作a更新到状态s时的最大累积回报值。(2)转换函数表T转换函数T :SXA — Π (S),描述动作的变化对环境状态的影响,机器人基本动作有东西南北四个,需建立四个转换函数表T_E、T_W、T_S、T_N,分别为选择东(East)、西(West)、南(South)、北(North)动作后由状态st转换为状态st+1的概率。⑶观测函数表O机器人依据自身携带传感器所探测的信息进行决策,观测函数O :SXA —Π (Z)表示机器人在当前状态St执行动作a后转换到新状态st+1得到观测状态z的概率,即建立一个基于观测值的概率分布表。(4)回报值表R
通过判断机器人是否到达目标位置来检测机器人是否完成一次路径搜索,当机器人到达目标位置时,给出O值回报,否则给出-I值回报。回报函数R :SXA — R,描述如果某个动作能够获得环境较高的回报值,那么在以后的寻找路径过程中产生这个动作的趋势就会加强,否则产生这个动作的趋势就会减弱。(c2)迭代学习过程迭代学习过程由以下步骤组成·Stepl :初始化初始化状态-动作值函数表Q Table,令Q(s,a) =0、资格迹0(8,8) = O、初始信念状态b (s) = O. 001076,参数k = 5 (表示选择5近邻)、学习因子α = O. 95,折扣因子Y = O. 99、λ = O. 95,其中Y λ表示资格迹e依照概率Y λ衰减,ε = O. 001表示选择随机动作的概率值。Step2 :获取当前状态St及其k个最近邻状态的信念状态集BI)将机器人的起始位置作为当前状态St ;2)计算St与状态集S中欧氏距离最小的k个状态构成的状态集knn ; 3)计算状态集knn中各个状态的信念状态值bt (s) bt (s) = I/ (| S |)。St印3 :获取信念状态值函数信念状态bt (S)对应的值函数由下式计算
权利要求
1.一种适用于不完全感知环境下的机器人kNN路径规划方法,其特征在于POMDP模型建立,POMDP模型求解、迭代模型构建三个步骤 (a)POMDP模型建立采用栅格地图将机器人规划环境划分为小栅格,每个小栅格单元对应POMDP模型状态集S中的一个状态S,动作集A有东(East)、西(West)、南(South)、北(North)四个动作,机器人可以在下一时刻处于相邻4个无障碍栅格单元之一,机器人到达目标状态可获得回报值0,其它情况回报值均为-1,在机器人与环境交互中,转换概率设置为以较大概率正确执行最优策略选择的动作,以较小概率滑向该动作的左右两侧; (b)POMDP模型求解机器人求解最优策略需要所经历的动作与观测状态的历史信息,历史信息可以利用信念状态(Belief State)来取代,信念状态b(s)为状态集S上的一个概率分布,求解时以信念状态代替状态,POMDP问题转化为基于信念状态的MDP问题,动作选择策略π转化为由信念状态到动作的映射(b) — a,在最优策略下,所有信念状态的折扣累积奖赏值组成最优值函数Q(b,a); (c)迭代模型构建机器人设置起始位置与目标位置后,利用基于强化学习算法的机器人路径规划方法,强化学习算法给每个(s,a)定义了一个状态-动作值函数Q,即机器人在当前状态选择某一动作更新到下一状态时获得的折算累积回报值,动作选择策略依据该Q值选择最优动作,以使累积回报值最大,迭代学习算法的具体步骤如下 Stepl :初始化 初始化状态-动作值函数表Q Table,对Q (s,a)、资格迹e (s,a)、初始信念状态b (s),参数k、学习因子α,以及随机动作选择概率值ε赋初始值, Step 2 :获取当前状态St及其k个最近邻状态的信念状态集B 1)将机器人的起始位置作为当前状态St; 2)计算St与状态集S中欧氏距离最小的k个状态构成的状态集knn; 3)计算状态集knn中各个状态的信念状态值bt(s) bt(s) = 1/(|S|), Step3 :获取信念状态值函数 信念状态bt (s)对应的值函数由下式计算
全文摘要
未知动态环境下的机器人路径规划技术具有重要应用价值,对此,本发明公开了一种不完全感知环境下的机器人kNN路径规划方法,主要包括POMDP模型建立,POMDP模型求解,迭代学习模型的构建。本发明利用迭代模型提高了机器人路径规划时对环境的学习适应能力,可以提高路径规划性能。
文档编号G05D1/02GK102929281SQ20121045566
公开日2013年2月13日 申请日期2012年11月5日 优先权日2012年11月5日
发明者江虹, 黄玉清, 李强, 秦明伟, 李小霞, 张晓琴, 石繁荣 申请人:西南科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1