一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法_2

文档序号:9416802阅读:来源:国知局
(^,..(1,)+0: R1 +/max^(v(_.,,i/)-^.v μ,) (8) L a 1 J
[0035] 公式⑶中a e [0, 1]是学习率,控制学习速度;St, 别为机器人当前的状态 (文中是机器人的位置)和选择的动作值;γ e [0, 1]是折扣因子。由式(1)可知要更新 的Q值是由原来的Q值和下一个状态的Q值共同决定,Q值数据传递具有一定的滞后性。假 设有任意相连的81、82、83三种状态,状态81要获得状态 83的〇值反馈需要2次重复训练循 环,为改善数据传递滞后性采用基于"回溯"思想的Q值更新策略。
[0036] 数值更新过程如下:
[0037]
C9)
[0038] 第一步训练s。一 s 1
[0039] 第二步训练 s。一 s s 2
[0040] 第二步训练 S。一 S S 2- S 3
[0041] .........
[0042] 第 η 步训练 s。一 s s 2-......- s η s η
[0043] 由以上数据更新过程可知,后续动作产生的影响可快速反馈给当前的状态,一定 程度上改善了 Q学习过程中数据传递的滞后性。
[0044] 采用本发明方法我们实现了对移动机器人的路径规划并进行了仿真,结果如图5 所示,机器人从起始点找到了到终点的可行路径。系统收敛前机器人在环境中盲目行走,对 周围环境没有一定的判别能力,任意行走。如图6,图中前驱状态和后继状态是机器人在环 境中的坐标,动作值分为1、2、3、4、5,分别代表机器人向右走、向上走、向左走、向下走、停在 原地。经算法演绎,系统收敛后,机器人对周围环境有了一定判断能力,能直接找到一条从 起点到终点的可行路径,如图7和图8所示。图8中纵坐标表示每次从起点走到终点的步 数,横坐标表示迭代次数。此次仿真验证了本发明方法的有效性。
【主权项】
1. 一种深度自动编码器与Q学习算法相结合的移动机器人路径规划方法,其特征在 于:该方法包括深度自动编码器部分,BP神经网络部分,强化学习部分;深度自动编码器部 分主要采用深度自动编码器处理机器人所处环境的图像,获得图像数据的特征,为后续实 现对环境的认知打下基础;输入图像数据,通过一层层网络提取图像特征,最终得到可以 代表图像的最主要的特征;每层网络提取图像特征的过程,其思想是堆叠多个层(S 1, S2,… ,sn),令每一层的输出等于输入;输入经过编码器产生一个输出,这个输出经过解码器解码 后是原输入信号的复现;以重建的输入与原输入的差最小为原则调节参数,参数调节好后 去掉解码器,即得到一个隐藏层,固定此层参数,将此层的输出作为下一层的输入训练下一 层;本方法中在深度自动编码器加入了稀疏限制 '其中&是 隐层神经元的数目;P是稀疏参数,通常被设为一个很小的接近于〇的值;P ,表示某一层 网络节点输出值的平均值(j = 1、2、3 . . . Sl,&为某一层网络的节点数);加入稀疏限 制可保证当隐含层神经元的数量很大时,自动编码器依然能发现输入数据的结构性特征; BP神经网络部分主要实现奖励值与图像特征数据的拟合,实现深度自动编码器与强化 学习的结合;BP神经网络主要包括三个部分:输入部、训练部、输出部;输入部接收外来的 输入样本X,由训练部进行网络的权系数W调整,然后由输出部输出结果;在这个过程中,期 望的输出信号可以作为教师信号输入,由该教师信号与实际输出进行比较,产生的误差去 控制修改权系数W ; 通过深度自动编码器提取图像特征,再将提取的特征经BP神经网络拟合可实现对环 境的认知; 强化学习部分基于以上网络的输出结果实现机器人的路径规划,本方法采用的是强化 学习中的Q学习算法;Q学习算法通过与环境交互学习,在行动-评价的环境中获得知识, 改进行动方案以适应环境达到预想目的;强化学习框图中,agent感知周围环境状态,根据 Q学习算法选择相应的动作,agent执行完动作后会作用于环境使环境发生改变,同时返回 一个奖赏信号给agent ;机器人通过与环境的交互实现自主学习,最终找到从起始点到达 终点的可行路径。2. 根据权利要求1所述的一种深度自动编码器与Q学习算法相结合的移动机器人路径 规划方法,其特征在于:深度自动编码器处理机器人所处环境信息即机器人所处环境的图 像,获取图像特征数据;所得环境特征数据通过BP神经网络的拟合得到机器人所处位置, 实现对周围环境的认知,进而得到相应的奖励值R ;Q学习算法通过奖励值R改变相应的Q 值,Q学习算法再根据Q值选择移动机器人要执行的动作,使机器人所处的位置发生变化, 从而其周围环境变化,实现与环境交互; 其中深度自动编码器每一层网络的参数更新过程中,其每层参数更新规则如公式(1) 到(7)所示:公式a)、⑵中hw,b(x)是各网络节点的输出;f (z)是输出函数;为1层的节点j 与1+1层的节点i之间的连接权重;表示与1+1层与的节点i连接的偏置;x(1)是输入, 我们输入一幅图像,先通过(1)、(2)式得到此图像的特征值,即输出f (Z);公式(3)、(4)、 (5)中J(W,b)是损失函数,在J(W,b)中hw,b(x)的输入X是得到的原图像的特征值,解码器 解码得到复现的原图像,y(1)是期望的输出,即原输入图像,我们的目标是最小化关于w和b 的函数J(W,b) ;KL(P Il P ,)是稀疏性限制,上文已介绍;公式(6)、(7)中分别为W,b的更 新公式,a是O到1之间的参数;通过调节W,b的值,使深度编码器的最终输出经过反解码 后最能代表原图像,得到最能代表原图像的特征值;本发明采用梯度下降法与Rprop方法 更改各层参数值; Q-Iearning算法常采用数值迭代来逼近最优值,其更新规则如公式(8):公式(8)中a G [〇, 1]是学习率,控制学习速度;St,at分别为机器人当前的状态(文 中是机器人的位置)和选择的动作值;Y G [〇, 1]是折扣因子;由式(1)可知要更新的Q 值是由原来的Q值和下一个状态的Q值共同决定,Q值数据传递具有一定的滞后性;若有任 意相连的s 2、83二种状态,状态s i要获得状态s 3的Q值反馈需要2次重复训练循环,为 改善数据传递滞后性采用基于"回溯"思想的Q值更新策略; 数值更新过程如下:第一步训练S。一Si第二步训练S。一SS2 第二步训练S。一SS2-S3 第n步训练s0- s广s 2-......- s n广s n 由以上数据更新过程可知,后续动作产生的影响可快速反馈给当前的状态,一定程度 上改善了 Q学习过程中数据传递的滞后性。
【专利摘要】一种深度自动编码器与Q学习算法相结合的移动机器人路径规划方法,该方法包括深度自动编码器部分,BP神经网络部分,强化学习部分。深度自动编码器部分主要采用深度自动编码器处理机器人所处环境的图像,获得图像数据的特征,为后续实现对环境的认知打下基础。BP神经网络部分主要实现奖励值与图像特征数据的拟合,实现深度自动编码器与强化学习的结合。Q学习算法通过与环境交互学习,在行动-评价的环境中获得知识,改进行动方案以适应环境达到预想目的。机器人通过与环境的交互实现自主学习,最终找到从起始点到达终点的可行路径。本发明提高了系统处理图像的能力,通过深度自动编码器与BP神经网络结合可实现对环境的认知。
【IPC分类】G05D1/02, G06N3/02
【公开号】CN105137967
【申请号】CN201510420223
【发明人】于乃功, 默凡凡, 阮晓钢
【申请人】北京工业大学
【公开日】2015年12月9日
【申请日】2015年7月16日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1