一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法

文档序号:9416802阅读:294来源:国知局
一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
【技术领域】
[0001] 本发明涉及一种将深度自动编码器与Q学习算法相结合的移动机器人路径规划 方法,属于机器人路径规划领域。
【背景技术】
[0002] 路径规划是移动机器人领域的基础问题。移动机器人路径规划是指在有障碍物的 工作环境中,如何寻找一条从给定起点到终点的适当的运动路径,使机器人在运动过程中 能安全、无碰地绕过所有障碍物。
[0003] 随着机器人技术的发展,机器人己开始应用到未知环境,与已知环境下的移动机 器人路径规划研究相比,对于未知环境的探索带来了新的挑战。由于在未知环境下,机器人 不具有环境的先验知识,移动机器人在路径规划过程中不可避免的会遇到各式各样的障碍 物,因此,如何提高移动机器人对环境的自学习和自适应能力具有非常重要的实际意义。
[0004] 移动机器人路径规划方法可分为基于模版匹配的路径规划技术、基于人工势场的 路径规划技术、基于地图构建的路径规划技术和基于人工智能的路径规划技术。基于人工 智能的路径规划技术是将现代人工智能技术应用到移动机器人的路径规划中,如强化学 习、人工神经网络、进化计算、模糊逻辑与信息融合等。其中强化学习又称再励学习、增强学 习,是一种实时、在线的学习方法,通过试错的方法不断获得先验知识,根据这些知识来改 变行动策略实现到达目标的目的。强化学习是一种赋予智能体学习自适应能力的方法。
[0005] 强化学习在机器人控制领域得到广泛重视,一些现有方法将强化学习与其他机器 学习算法结合实现机器人的控制,如将模糊逻辑与强化学习算法结合实现移动机器人的导 航;将高斯过程与基于模型的策略搜索强化学习结合实现机器人的控制;或将人工神经网 络与强化学习结合实现移动机器人在特定任务中的路径规划。
[0006] 但要把基于强化学习的路径规划应用在真实环境中,系统必须能很好的处理图像 数据。以上方法均需人工处理图像。传统地人工提取图像特征是一件非常费力、启发式(需 要专业知识)的方法,能不能选取好的特征很大程度上靠经验和运气,而且它的调节需要 大量的时间。

【发明内容】

[0007] 针对上述问题本发明将深度学习中的深度自动编码器与强化学习中的Q学习算 法结合,本发明可通过深度自动编码器自主提取环境图像特征,完成对原始图像的处理,实 现对环境的认知,具有很强的图像处理能力,可应用于机器人的路径规划。
[0008] 本发明采用如下技术方案。它包括深度自动编码器部分,BP神经网络部分,强化 学习部分。深度自动编码器部分主要采用深度自动编码器处理机器人所处环境的图像,获 得图像数据的特征,为后续实现对环境的认知打下基础。图1是一个具有η层网络的深度 自动编码器。输入图像数据,通过一层层网络提取图像特征,最终得到可以代表图像的最主 要的特征。图2是每层网络提取图像特征的过程,其思想是堆叠多个层(Sl,S2,…,s n),令每 一层的输出等于输入。输入经过编码器产生一个输出,这个输出经过解码器解码后是原输 入信号的复现。以重建的输入与原输入的差最小为原则调节参数,参数调节好后去掉解码 器,即得到一个隐藏层,固定此层参数,将此层的输出作为下一层的输入训练下一层。
[0009] 本发明中在深度自动编码器加入了稀疏限制
其中 &是隐层神经元的数目;P是稀疏参数,通常被设为一个很小的接近于〇的值;P ,表示某 一层网络节点输出值的平均值(j = l、2、3 . . . 81,81为某一层网络的节点数)。加入稀 疏限制可保证当隐含层神经元的数量很大时,自动编码器依然能发现输入数据的结构性特 征。
[0010] BP神经网络部分主要实现奖励值与图像特征数据的拟合,实现深度自动编码器与 强化学习的结合。BP神经网络主要包括三个部分:输入部、训练部、输出部。输入部接收外 来的输入样本X,由训练部进行网络的权系数W调整,然后由输出部输出结果。在这个过程 中,期望的输出信号可以作为教师信号输入,由该教师信号与实际输出进行比较,产生的误 差去控制修改权系数W。
[0011] 通过深度自动编码器提取图像特征,再将提取的特征经BP神经网络拟合可实现 对环境的认知。
[0012] 强化学习部分基于以上网络的输出结果实现机器人的路径规划,本发明采用的是 强化学习中的Q学习算法。Q学习算法通过与环境交互学习,在行动-评价的环境中获得知 识,改进行动方案以适应环境达到预想目的。强化学习框图如图3, agent感知周围环境状 态,根据Q学习算法选择相应的动作,agent执行完动作后会作用于环境使环境发生改变, 同时返回一个奖赏信号给agent。机器人通过与环境的交互实现自主学习,最终找到从起始 点到达终点的可行路径。
[0013] 本发明的有益效果在于提高了系统处理图像的能力。传统的提取图像特征需经过 图像预处理、特征提取、特征选择,耗时耗力,而本发明可直接处理原始图像数据,自主提取 良好的特征,无需经过上述步骤。通过深度自动编码器与BP神经网络结合可实现对环境的 认知。
【附图说明】
[0014] 图1为深度自动编码器网络结构。
[0015] 图2为深度自动编码器某一层训练过程。
[0016] 图3为Q学习框图。
[0017] 图4为整体系统框图。
[0018] 图5为收敛后机器人行走路径。
[0019] 图6为系统收敛前机器人行走过程(从左到右)。
[0020] 图7为系统收敛后机器人行走过程。
[0021] 图8为系统收敛前到收敛后行走步数。
【具体实施方式】
[0022] 下面结合图4~7对本发明做进一步说明:
[0023] 整体系统框图如图4所示,深度自动编码器处理机器人所处环境信息(即机器人 所处环境的图像),获取图像特征数据;所得环境特征数据通过BP神经网络的拟合得到机 器人所处位置,实现对周围环境的认知,进而得到相应的奖励值R ;Q学习算法通过奖励值R 改变相应的Q值,Q学习算法再根据Q值选择移动机器人要执行的动作,使机器人所处的位 置发生变化,从而其周围环境变化,实现与环境交互。
[0024] 其中深度自动编码器每一层网络的参数更新过程如图2,其每层参数更新规则如 公式⑴到(7)所示:
[0025]
[0026]
[0027] (3)
[0028]
[0029]
[0030]
[0031]
[0032] 公式(1)、(2)中hw,b(x)是各网络节点的输出;f(z)是输出函数;%为1层的节 点j与1+1层的节点i之间的连接权重;Zf表示与1+1层与的节点i连接的偏置;x(1)是 输入,我们输入一幅图像,先通过(1)、(2)式得到此图像的特征值,即输出f (z)。公式(3)、 (4)、(5)中J(W,b)是损失函数,在J(W,b)中hw』(x)的输入X是得到的原图像的特征值,解 码器解码得到复现的原图像,y (1)是期望的输出,即原输入图像,我们的目标是最小化关于w 和b的函数J(W,b) ;KL(p I I P ,)是稀疏性限制,上文已介绍。公式(6)、(7)中分别为W,b 的更新公式,α是〇到1之间的参数。通过调节W,b的值,使深度编码器的最终输出经过 反解码后最能代表原图像,得到最能代表原图像的特征值。本发明采用梯度下降法与Rprop 方法更改各层参数值。
[0033] Q-Iearning算法常采用数值迭代来逼近最优值,其更新规则如公式(8):
[0034] (Λν,,?/ ) = 0
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1