基于部分感知马氏决策过程的机器人最优路径规划方法与流程

文档序号:15702734发布日期:2018-10-19 20:08阅读:373来源:国知局

本发明涉及机器人控制领域,具体涉及一种基于部分感知马氏决策过程的机器人最优路径规划方法。



背景技术:

机器学习(machinelearning,ml)是一门研究怎样模拟或实现人类的学习行为,不断重组、完善自身原有知识结构的学科。强化学习则是机器学习重要的一个研究分支,它是一种通过智能体(agent)与环境的交互,将状态映射到动作,从而获得最大长期累积折扣奖赏的机器学习方法。通常强化学习采用马尔科夫决策过程(markovdecisionprocesses,mdps)作为模型,即环境是完全可观察的。然而在现实世界中,不确定性是普遍存在的。例如agent的传感器,其自身存在局限:(1)传感器只能探测局部有限的环境,agent无法准确区分探测范围外的不同的状态;(2)传感器自身存在缺陷,探测结果存在噪声,agent的传感器对同一状态进行探测时可能得到不同的结果。例如在机器人足球比赛robocup中,agent的视觉系统包含可视角度、准确可视距离、模糊可视距离和不可视距离。仅当观测目标在可视角度和准确可视距离范围内,agent才能得到它的准确状态,其余情况下只能得到一个模糊的观察。agent在复杂环境中决策时(例如无人驾驶),应该考虑不完美的控制、传感器的噪声和不完整的环境知识等不确定性因素。

部分可观察马尔科夫决策过程(partiallyobservablemarkovdecisionprocesses,pomdps)为建模部分可观察随机环境中agent的规划(或序列决策)问题和学习问题提供了一个通用的模型。过去十年中,pomdp规划问题的研究取得令人瞩目的成果。这些研究成果,在启发式搜索阶段都采用基于试验的异步值迭代算法,例如hsvi2、sarsop和fsvi等。这些算法在向前搜索时,只搜索具有最大价值的结点。然而,基于试验的搜索每次都选择最优的动作和观察,未考虑其它与最优观察非常接近并对未来算法性能有着重要影响的观察。在大规模观察空间问题,其算法的性能较差。



技术实现要素:

本发明的发明目的是提供一种基于部分感知马氏决策过程的机器人最优路径规划方法,减少在连续状态、大规模观察空间问题中,算法在相似搜索路径的中的更新次数,从而节约计算时间,调高算法的效率。效率的提高,可以让机器人的相同的时间内,获得更优的路径。

在大规模观察空间问题中,某些非常接近最大价值的节点,其对未来算法性能的也很起着非常重要的作用。在某个信念状态的更新次数如果可以比其它信念状态处的更多,那么这种更新方法称为异步值迭代方法。在可达信念空间中,值函数在处的准确性通常比在其它信念状态处的更重要。因此在pomdp问题中,可以使用异步值迭代方法。基于试验的搜索是一种经典的异步值迭代方法,它每次搜索都从初始信念状态出发,搜索到叶子信念状态,并获得一条没有分支的路径。在搜索的过程中,agent根据不同的启发式条件,在当前信念状态处选择相应的动作和观察,并获得对应的下一个信念状态。把每一次搜索的路径相结合,形成一棵可达信念树。这样可以让agent只在可达的信念空间中搜索,近似的表示无限的信念空间,使得连续状态问题可以求解。因此,选择更好的启发式条件,可以使得搜索的可达信念空间更加接近真实的信念空间,并且具有更好的性能。hsvi2使用的启发式条件是通过仿真,获得一个尽量多的、具有代表性的的可达信念树。sarsop则是在hsvi2的可达信念树的基础上,选择更优的启发式条件,使得其仿真的过程中,更加接近最优的策略,从而获得一棵更具有代表性的最优可达信念树。

针对连续状态、大规模观察空间的部分可观察马氏决策问题中,基于试验的搜索算法的局限性,本发明采用银杏叶搜索算法(gingkoleafsearch,gls),在向前搜索阶段,不仅搜索最有价值的信念状态,而且自适应的搜索与最有价值的信念状态非常接近的信念状态。在不影响值函数更新效果的情况下,gls减少信念状态更新的次数,减少更新时间,提高算法效率。

为实现上述发明目的,本发明提供以下的技术方案:一种基于部分感知马氏决策过程的机器人最优路径规划方法,包括如下步骤:

s1、初始化模型和环境,设置环境的状态迁移函数,奖赏函数,观察函数,其中为状态集合,为动作集合,为观察集合,设置折扣率为0.95,设置机器人的位置,设置初始信念状态的初始值:下界的标准临界值和上界的标准临界值,其中是预先指定的阈值标准,计算初始信念状态的上界值和下界值,转入s2;

s2、将初始信念状态置为当前信念状态,转入s3;

s3、预测当前信念状态的最优值,转入s4;

s4、判断当前信念状态是否满足如下条件:,且,其中为当前信念状态的深度,如满足,则转入s13,如不满足,则转入s5;

s5、计算当前信念状态下,每个动作的值函数下界值,选取这些下界值中的最大值,更新当前信念状态的上界的标准临界值和下界的标准临界值,转入s6;

s6、计算最优动作和对初始信念状态贡献最大的观察,并记录观察的总数count,转入s7;

s7、顺序选择观察集中的观察,若count不为0,转入s8,否则转入s11;

s8、count值减少1,转入s9;

s9、判断当前选择的观察是否有探索的价值,若是,则转入s10,若否,则转入s7;

s10、计算下一信念状态的上界的标准临界值和下界的标准临界值,获得下一信念状态的上界值和下界值,转入s7;

s11、更新当前信念状态的上界值和下界值,转入s12;

s12、选择最优动作进入下一信念状态,将下一信念状态置为当前信念状态,转入s3;

s13、获得最优策略,根据最优策略获得机器人的最优路径。

上述技术方案中,s2中,初始信念状态的下界值采用盲策略计算,初始信念状态的上界值采用快速通知约束方法计算。

上述技术方案中,s5中,当前信念状态的下界的标准临界值采用如下公式计算:,当前信念状态的下界的标准临界值采用如下公式计算:,其中表示每个动作的值函数下界值中的最大值。

上述技术方案中,s6中,最优动作采用如下公式计算:,最优观察采用如下公式进行计算:,其中是信念状态处的上下界之差。

上述技术方案中,s9中,判断当前选择的观察是否具有探索价值的标准为,其中为阈值函数。

上述技术方案中,s10中,下一信念状态上界标准临界值的计算方法为,下一信念状态下界标准临界值的计算方法为,其中分别是当前信念状态的上界标准临界值和下界标准临界值。

由于上述技术方案运用,本发明与现有技术相比具有以下优点:本发明基于部分可观察马氏决策过程,机器人寻找到达目标位置的最优路径,以pomdp模型和sarsop算法为基础,使用gls搜索方法作为搜索时的启发式条件。在连续状态大规模观察空间问题中,使用本发明可避免早期经典算法使用基于试验作为启发式条件重复更新多条相似路径中,更新信念状态上下界的次数,且不影响最终的最优策略,提高算法效率,在相同时间内,机器人能够获得更优的策略,找到更优的路径。

附图说明

图1为本发明环境的布局示意图。

图2为本发明某次搜索获得的搜索路径形成的搜索树。

图3为本发明的工作流程图。

具体实施方式

下面结合本发明的原理、附图以及实施例对本发明进一步描述

参见图1所示,扫地机器人在右边的客厅内,它的任务是打扫左边的卧室,根据房间的布置,它需要绕过餐桌并经过中间的房门才能顺利进入卧室,机器人头部均匀地安装有距离传感器,每个传感器都能探测其正前方1单位长度内是否有障碍物,传感器的探测结果有256种,每个传感器接收到正确探测结果的概率为0.9,接收到错误探测结果的概率为0.1,扫地机器人在房间中初始位置是随机的,它的目标是尽可能快的到达左边的卧室,扫地机器人到达目标位置的奖赏为

参见图2所示,某次搜索过程中,搜索路径中不仅包含早期sarosop算法搜索到的结点(黑色实心圆),更包含具有较大搜索价值的结点(空心圆)。

参见图3所示,一种基于部分感知马氏决策过程的机器人最优路径规划方法,包括如下步骤:

s1、初始化模型和环境,设置环境的状态迁移函数,奖赏函数,观察函数,其中为状态集合,为动作集合,为观察集合,设置折扣率为0.95,设置机器人的位置,设置初始信念状态的初始值:下界的标准临界值和上界的标准临界值,其中是预先指定的阈值标准,计算初始信念状态的上界值和下界值,转入s2;

s2、将初始信念状态置为当前信念状态,转入s3;

s3、预测当前信念状态的最优值,转入s4;

s4、判断当前信念状态是否满足如下条件:,且,其中为当前信念状态的深度,如满足,则转入s13,如不满足,则转入s5;

s5、计算当前信念状态下,每个动作的值函数下界值,选取这些下界值中的最大值,更新当前信念状态的上界的标准临界值和下界的标准临界值,转入s6;

s6、计算最优动作和对初始信念状态贡献最大的观察,并记录观察的总数count,转入s7;

s7、顺序选择观察集中的观察,若count不为0,转入s8,否则转入s11;

s8、count值减少1,转入s9;

s9、判断当前选择的观察是否有探索的价值,若是,则转入s10,若否,则转入s7;

s10、计算下一信念状态的上界的标准临界值和下界的标准临界值,获得下一信念状态的上界值和下界值,转入s7;

s11、更新当前信念状态的上界值和下界值,转入s12;

s12、选择最优动作进入下一信念状态,将下一信念状态置为当前信念状态,转入s3;

s13、获得最优策略,根据最优策略获得机器人的最优路径。

其中,s2中,初始信念状态的下界值采用盲策略计算,初始信念状态的上界值采用快速通知约束方法计算。

其中,s5中,当前信念状态的下界的标准临界值采用如下公式计算:,当前信念状态的下界的标准临界值采用如下公式计算:,其中表示每个动作的值函数下界值中的最大值。

其中,s6中,最优动作采用如下公式计算:,最优观察采用如下公式进行计算:,其中是信念状态处的上下界之差。

其中,s9中,判断当前选择的观察是否具有探索价值的标准为

其中一个阈值函数。

其中,s10中,下一信念状态上界标准临界值的计算方法为

下一信念状态下界标准临界值的计算方法为

其中分别是当前信念状态的上界标准临界值和下界标准临界值。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1