一种应用于救援环境的多机器人任务搜索方法

文档序号:35283332发布日期:2023-09-01 03:49阅读:97来源:国知局
一种应用于救援环境的多机器人任务搜索方法

本发明涉及任务搜索领域,尤其是一种应用于应急救援环境的多机器人任务搜索方法。


背景技术:

1、智能机器人的优势是可以代替人类在不确定环境下推理多个对象。例如,在核泄漏事故后,机器人可以代替人类在高辐射环境中进行人员搜救和探测泄露源等任务。在事故发生后,通常存在人员、危险源位置未知问题,因此确定环境中的需要完成的任务是救援过程中的重要步骤,这是一个多机多目标搜索(mrmos)过程。然而在危险排查、灾区救援等情况未知环境中进行多机作业,具有环境不确定,障碍物密布等特点,增加了问题的难度。例如待搜救目标或待清理污染源的位置不确定性、坍塌造成障碍物分布分散复杂,辐射粒子会使传感器数据发生偏移等。仅利用确定性模型的搜索技术会导致搜索效果不佳。针对以上特点,部分可观测决策过程是一种合适的模型,它用信念来表达环境不确定性。

2、考虑到机器人通常需要在大规模环境中开展多目标搜索工作。由于信念空间的维数等于物体所有可能位置状态的组合,那么信念必定随着目标数量的增长呈指数增长,造成维度诅咒,严重影响搜索效率。面向对象的部分可观测马尔科夫决策过程(oo-pomdps)是一种创新型框架,它可以将信念分解到每个目标以实现降维。在救援环境中,通常在环境较大且存在较多任务,单个体无法在有限的时间和能量约束下完成对全部任务的搜索。多智能体系统具有并行、协同的特点,能够有效提高搜索效率。oo-pomdps虽然在单个体时有较好的性能,但因为缺少交互方法定义,并不适用于多机协同搜索。

3、因此,如何充分发挥智能机器人的优势,在搜索空间大,目标位置未知,分布复杂且存在传感器误差的情况下实现对任务的精确完备搜索,使得多机器人可以表达和共享环境状态,并根据当前状态进行自主决策,达到对环境中所有任务的快速搜索的最终目标成为亟待解决的问题。


技术实现思路

1、有鉴于此,本发明提供了一种应急救援环境下的多机器人任务搜索方法,使得机器人能够在目标不确定,分布复杂,且存在传感器观测误差的情况下自主实现对各种环境规模的准确、完备搜索。在信息共享方面使用基于最大最小值的方法,根据每个机器人的信息计算并共享每个任务在各个位置的信念。在决策方面使用基于受困检测引导的在线规划算法,每个机器人根据自己当前状态选择收益最大的动作。

2、为达到上述目的,本发明的技术方案为:机器人硬件组成包括激光雷达,机器人车载机,以及移动机器人本体;方法包括如下步骤:

3、第一步:离散化救援环境,根据救援环境和参与搜索的机器人信息,构建面向对象的多机部分可观测马尔科夫决策模型来描述任务搜索问题。

4、第二步:每个机器人对自己当前状态进行判断自己是否受困,若机器人受困,则首先根据自适应方法确定阈值,然后对信念值在自适应区间的点进行聚类,进而采用a*方法进行引导决策,确定当前执行动作;若机器人没有受困,则选择奖励最高动作作为当前执行动作。

5、第三步:每个机器人按照当前执行动作执行,获得环境观测和奖励值,机器人根据原始信念和观测分别更新每个对象的信念。

6、第四步:根据最大最小方法同步所有机器人的信念,确定每个对象在每个位置上最可能的状态,指导机器人下一时刻的自主决策。

7、重复第二步到第四步,直到环境内所有的任务被搜索到。

8、进一步地,将整个救援环境离散化为l×l个栅格,l为环境规模,按照实际状况定义。

9、进一步地,由救援环境和参与搜索的机器人信息,构建面向对象的多机部分可观测马尔科夫决策模型来描述任务搜索问题,具体为:

10、救援环境和参与搜索的机器人信息包括:先验环境信息、状态动作带有传感器噪声的观测状态转移模型以及奖励函数构建五元组

11、其中状态由每个机器人和每个任务的状态组成。

12、动作由{向四个方向的移动,观测,查找}的集合组成。

13、带有传感器噪声的观测由基于事件的带有误差(∈,σ)的高斯模型定义;∈,σ分别为高斯模型的期望和方差。

14、状态转移模型以及奖励函数按照实际状况定义。

15、由此获得描述任务搜索问题的面向对象的多机部分可观测马尔科夫决策模型。

16、进一步地,每个机器人对自己当前状态进行判断自己是否受困,具体地,每个机器人根据模拟构建蒙特卡罗树,机器人判断蒙特卡罗树所有的奖励都小于零,则机器人受困,则判断机器人受困,否则判断机器人没有受困。

17、进一步地,若机器人受困,则首先根据自适应方法确定阈值,然后对信念值在自适应区间的点进行聚类,进而采用a*方法进行引导决策,确定当前执行动作,具体为:

18、首先通过以下关系确定自适应阈值的左边界:

19、

20、其中tl为左边界,nf为找到的任务数量,n为全部任务数量,bj为编号为j的机器人信念的最大值,p是所有位置集合,o为所有任务集合,l为环境规模,右边界设置为设定数值;

21、然后机器人将信念值在自适应区间的所有位置聚为m类,机器人选取离自己最近的点作为引导点,利用a*算法规划路径并以规划的第一个动作作为自己的当前执行动作。

22、反之则利用蒙特卡罗树中奖励最大的动作作为自己的行为。

23、进一步地,机器人根据原始信念和观测分别更新每个对象的信念,具体为:

24、救援任务独立,可以按照任务进行面向对象的信念分解,将指数信念空间降维成线性空间;

25、每个机器人执行当前执行动作后得到的当前观测和原始信念,使用面向独立对象信念更新方法,分别更新每个对象的信念:

26、b′i(si)=ηp(zi|si)bi(si)

27、其中b′i(si)为更新后的信念,η为归一化因子,p(zi|si)为在状态si的条件下观测到zi的概率,zi是每个智能体对于对象i的观测,bi(si)为状态为si时的信念;si为第i个对象的状态。

28、进一步地,根据最大最小方法同步所有机器人的信念,同步过程具体为:

29、①令s是所有栅格编号的集合,l为环境规模,为非负整数集合;创建并初始化同步过程信念变量bc,其中包含n个任务的信念;同步过程中某一个任务i的信念用变量bci表示;同步过程中机器人一致认为任务i分布在位置(x,y)的概率为bcixy,对于任意的x,y在范围内的所有数据bcixy组成bci;

30、②顺序选取一个任务i,当任务编号i小于等于n时,进入步骤③,否则进入步骤⑦;

31、③顺序选取一个位置(x,y)∈s,进入步骤④;如果所有位置遍历完成,则进入步骤⑥;

32、④计算所有机器人中任务i在位置(x,y)中信念的最大值m和最小值m;

33、⑤如果m>1/l2则将令bcixy=m,如果m≤1/l2则令bcixy=m,其余情况令bcixy=1/l2,返回步骤③;

34、⑥所有位置完成遍历后获得信念变量bci,将bci归一化后存入bc,返回步骤②;

35、⑦令bj=bc,其中bj为编号j,j=1,2,...,m的机器人的信念,结束同步过程。

36、有益效果:

37、本发明提供了一种应急救援环境下的多机器人任务搜索方法,具有如下效果:第一,相比于确定性决策模型任务已知,且对观测噪声敏感问题,本发明通过引入部分可观测模型,定义信念表示状态,可以应对任务未知情况,且传感器噪声对搜索算法性能几乎没有影响。第二,相比于单机决策技术中存在的机器人能力、续航等参数限制,本发明发挥多机器人协同优势,利用第四步提出的信念同步方法,实现多机并行搜索和信息共享,提高了整体搜索效率,放宽了对单个体的工作时间和能量约束,能够适用于更大规模的搜索问题。第三,相比于经典部分可观测决策构建搜索树深度有限,在较大范围搜索上容易产生模拟收益均为负的受困问题,本发明能够判断死锁受困状态并给出引导方案,保证了搜索的完备性。通过本发明的搜索方法可以在较短时间内搜索到全部任务,为救援节省宝贵时间。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1