一种基于模型学习的清洁机器人最优目标路径规划方法与流程

文档序号：13717936阅读：297来源：国知局

技术领域本发明涉及一种涉及机器学习中的强化学习方法，具体涉及一种基于模型学习的清洁机器人最优目标路径规划方法。

背景技术：
强化学习(ReinforcementLearning,RL)是一种学习环境状态到动作映射的机器学习方法。Agent选择动作作用于环境，改变环境的状态，迁移到新的环境状态，并得到环境的反馈信号。这个反馈信号通常称为奖赏或强化信号，Agent利用它通过一定的算法强化自己已经学习到的经验，它的目标是最大化累计期望奖赏。传统的强化学习方法利用Agent与环境交互得到的信息进行学习，不断更新值函数使之趋近最优解，例如动态规划(DynamicProgramming,DP)，蒙特卡洛(MonteCarlo,MC)，和时间差分(TemporalDifference,TD)。这些方法是强化学习的基本方法，许多算法都由它们衍生而来。模型学习方法的出现使强化学习的算法效率提高了一个台阶，它在近年来已成为强化学习中的一个研究热点。模型学习的最初思想(Dyna-Q算法)是将采集到的历史样本保存下来，在随后的更新步骤中，除了更新当前时间步的样本外，还从历史样本中抽取一些样本进行更新。这样，样本的利用率得到增加，提高了值函数收敛的效率。在这样的思想下之后进一步演化为对模型的构建，即利用当前得到的样本构建一个环境的模型。在对真实环境的不断探索中，构建的模型会越来越精确和完整，这个模型就可以代替真实环境被充分地利用，节省与真实环境交互的开销。那么，模型学习的效率就取决于模型构建的速度，模型构建得越快，算法从模型中得到的信息就越有价值。显然，交互获得的样本广度直接影响到模型构建的速度。Dyna-H使用了一种启发式的规划方法，通过预测做出动作后到达的下一个状态与终点之间的欧式距离，来使Agent尽量远离终点，这样就可以使Agent在一个情节中尽可能多地探索环境，避免过早到达终点。然而，Dyna-H算法是有局限性的。在有障碍物的情况下，两点间的欧式距离并不能很好的反映它们之间的真实距离。可能由于一墙之隔，位于墙一侧的Agent可能需要绕一个大弯才能到达墙另一侧的终点，而欧式距离则显示它们离得很近。另外，Dyna-H保留了Dyna-Q中取历史样本的方法，而没有去为环境建立真正的模型。基于此，算法的性能还可以进一步提高。在模型学习的方法中，R-MAX是一种高效探索的方法，它的核心思想是假设所有未知的状态-动作所获得的奖赏为最大奖赏Rmax，并转移到终止状态。这样，当选择值最大的动作时，就会选择这个未知动作，从而隐式地达到了探索的目的。当状态-动作对被访问到m次时，则标记该状态-动作对为已知，将来不再探索。这样，所有状态-动作对都能被快速均匀地探索，从而学习到较为精确的模型。针对Dyna-H中计算状态间距离的局限性，本发明采用更为精确的自模拟度量的方法。首先介绍自模拟关系：若两个状态满足自模拟关系，则它们拥有相同的最优值函数和最优动作。Ferns等人在在自模拟关系的基础之上，利用Kantorovich距离衡量两个概率分布之间的距离，提出了一种可用于衡量两个状态之间远近关系的自模拟度量方法(BisimulationMetric)。相比于欧式距离，自模拟度量引入了奖赏函数，状态转移函数等要素，能更精确地表示状态之间的距离。

技术实现要素：
本发明目的是：提供一种基于模型学习的清洁机器人最优目标路径规划方法，通过将自模拟度量和R-MAX相结合来改进搜索方式，提高模型学习的效率，从而最终提高值函数的搜索效率，效率的提高使得机器人能够快速地建立环境模型，从而优先选择垃圾最多的地点，并计算出达到该地点的最优路径。本发明的技术方案是：一种基于模型学习的清洁机器人最优目标路径规划方法，其特征在于，包括如下步骤：步骤1)初始化模型，设置R(x,u)＝Rmax，f(x,u,x′)＝1，其中R(x,u)为奖赏函数，f(x,u,x′)为状态转移函数，Rmax为最大奖赏值，x、u为状态动作对，x′为执行x、u后转移到的下一个状态；步骤2)初始化环境，设置机器人的起始位置；步骤3)判断当前的探索完全度η，若达到阈值I，转入步骤4)，否则转入步骤(5)；步骤4)使用自模拟度量方法，计算当前机器人可做的所有动作所到达的地点与最多垃圾堆的距离，选择使距离最大的动作，转入步骤(6)；步骤5)使用ε-Greedy策略选择动作，转入步骤(6)；步骤6)如果该状态动作对被标记为已知，则放弃该动作，并随机选择一个动作；步骤7)机器人根据动作进行移动，通过传感器判断当前地点是否有垃圾和移动之后的地点；步骤8)通过R-MAX方法统计不同地点的访问次数和奖赏和，标记已知地点，并计算状态转移函数f(x,u,x′)和奖赏函数R(x,u)；步骤9)机器人行动结束，若到达垃圾堆，转入步骤(10)，否则转入步骤(2)；步骤10)执行值迭代算法；步骤11)若运行时间允许，转入步骤(2)，否则通过Greedy方法计算最优路线。作为优选的技术方案，步骤3)中所述探索完全度其中C(x,u)为状态动作对(x,u)被访问的次数，|X|为状态空间大小，|U|为动作空间大小，m为状态被标记为已知前需要被访问的次数。作为优选的技术方案，步骤4)中所述距离最大的动作其中，d(x,x′)为状态x与x′之间的自模拟度量，Model(x,u)为从构建的模型中得到下一个状态，xg为终结状态。作为优选的技术方案，步骤8)中计算状态转移函数f(x,u,x′)和奖赏函数R(x,u)的具体步骤如下：设置C(x,u,x′)增加1，C(x,u)增加1，RSUM(x,u)增加r；如果C(x,u)≥m，则R(x,u)←RSUM(x,u)/C(x,u)，对所有x′∈C(x,u,·)，f(x,u,x′)←C(x,u,x′)/C(x,u)；否则R(x,u)←Rmax，f(x,u,x′)←1；其中C(x,u,x′)为在状态x下执行动作u后转移到状态x′的次数，RSUM(x,u)为访问状态动作对x、u得到的所有奖赏之和。本发明基于模型学习的清洁机器人最优目标路径规划方法可驱动机器人优先处理垃圾可能最多的地点，以强化学习框架和Dyna-H算法为基础，使用R-MAX算法中的探索机制，在状态间距离的度量方法上，使用自模拟度量改进Dyna-H中的欧式距离度量方法，这两种方法的结合不仅使机器人对环境的探索更完全，而且避免了在早期的探索中过早到达终点使情节结束，从而提高模型的学习效率，另外在有模型的情况下，使用动态规划算法更新值函数，以得到更精确的解，本发明的优点是模型学习效率较高，适用确定环境和随机环境，在复杂的环境下能够较为高效地使机器人快速得到较为准确的环境模型，以规划出到达垃圾最多地点的最优路径。本发明的优点是：1.本发明对多样的环境(包括垃圾堆地点固定或随机的情况)有较强的适用性，在模型学习的效率上有很大提高，对机器人探索环境的速度和精度有显著改善，从而能够准确地优先处理垃圾最多的地点。附图说明下面结合附图及实施例对本发明作进一步描述：图1为本发明实施例中的布局示意图；图2为本发明的系统工作流程图。具体实施方式实施例：参见图1所示，其黑边为墙，机器人不能到达；两个R点为垃圾较少的地点，达到目标时的奖赏为0；G点为垃圾较多的地点，达到目标时的奖赏为50；到达其余格子奖赏为-1。参照图2所示，该实施例基于模型学习的清洁机器人最优目标路径规划方法，包括如下步骤：步骤1)初始化模型，设置R(x,u)＝Rmax，f(x,u,x′)＝1，其中R(x,u)为奖赏函数，f(x,u,x′)为状态转移函数，Rmax为最大奖赏值，x、u为状态动作对，x′为执行x、u后转移到的下一个状态；步骤2)初始化环境，设置机器人的起始位置为地图最左上方的格子；步骤3)判断当前的探索完全度其中C(x,u)为状态动作对(x,u)被访问的次数，，|X|为状态空间大小，|U|为动作空间大小，m为状态被标记为已知前需要被访问的次数，若探索完全度η达到阈值I，转入步骤4)，否则转入步骤(5)；步骤4)使用自模拟度量方法，计算当前机器人可做的所有动作所到达的地点与最多垃圾堆的距离，选择使距离最大的动作转入步骤(6)，其中d(x,x′)为状态x与x′之间的自模拟度量，Model(x,u)为从构建的模型中得到下一个状态，xg为终结状态；步骤5)使用ε-Greedy策略选择动作，转入步骤(6)；步骤6)如果该状态动作对被标记为已知，则放弃该动作，并随机选择一个动作；步骤7)机器人根据动作进行移动，通过传感器判断当前地点是否有垃圾和移动之后的地点，并观察奖赏r和下一个状态x′；步骤8)通过R-MAX方法统计不同地点的访问次数和奖赏和，标记已知地点，并计算状态转移函数f(x,u,x′)和奖赏函数R(x,u)，设置C(x,u,x′)增加1，C(x,u)增加1，RSUM(x,u)增加r；如果C(x,u)≥m，则R(x,u)←RSUM(x,u)/C(x,u)，对所有x′∈C(x,u,·)，f(x,u,x′)←C(x,u,x′)/C(x,u)；否则R(x,u)←Rmax，f(x,u,x′)←1，其中C(x,u,x′)为在状态x下执行动作u后转移到状态x′的次数，RSUM(x,u)为访问状态动作对x、u得到的所有奖赏之和；步骤9)机器人行动结束，若到达垃圾堆，转入步骤(10)，否则转入步骤(2)；步骤10)执行值迭代算法；步骤11)若运行时间允许，转入步骤(2)，否则通过Greedy方法计算最优路线。上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘全;周谊成;朱斐;
技术所有人：苏州大学;
我是此专利的发明人

上一篇：一种果味水饮料生产用混配装置的制作方法
上一篇：一种聚酰胺树脂热熔搅拌装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。