基于分层决策机制的多机器人协作方法

文档序号:6550106阅读:240来源:国知局
基于分层决策机制的多机器人协作方法
【专利摘要】本发明提供一种基于分层决策机制的多机器人协作方法,球员依据球的位置判断进行阵型选择去应对比赛;接着所有球员投票选出自己认为此时最佳的持球者前锋持球者,再进行其它角色分配;判断是否为前锋持球者,如果是前锋持球者,则行走至球处,带球行走,使用理想行为预测模型对对手速度进行数学建模用于前锋持球者行走踢球决策模块;如果不是前锋持球者,则进行其他角色分配后,行走至位置点,进行阵型选择。本发明依次实现前锋持球者的选择和其它所有球员角色的分配,同时针对前锋持球者带球决策模块建立DOBMP模型,最后采用动态规划算法优化角色函数所带来的高维数计算量的问题,保证基于足球位置不断变化下的角色轮换的流畅性。
【专利说明】基于分层决策机制的多机器人协作方法

【技术领域】
[0001] 本发明涉及一种基于分层决策机制的多机器人协作方法。

【背景技术】
[0002] 现今国际上最具影响力的 FIRA(Federation of International Robot-soccer Association,国际机器人足球联合会)和RoboCup两大机器世界杯人足球赛,两者最大的 区别是FIRA是允许一支球队采用传统的集中控制方式,相当于一支球队中的全体队友受 同一个大脑的控制。而RoboCup则必须要求采用分布式控制方式,相当于每个队员有自己 的大脑,因而是一个独立的"主体"。这就需要对MAS进行深入地研究,让多个智能体规划以 合作和竞争的方式去完成一定的目标任务,使用演化算法和群体智慧以达到一个整体的突 破性行为目标。
[0003] 在R〇b〇Cup3D仿真比赛中,要想赢得一场足球比赛,单靠个人能力是不可能的,必 须有全部队员的相互配合与协作,而且R〇boCup3D仿真比赛主要是体现多智能体在复杂动 态的环境下如何实现高效地协作和顽强地对抗。R〇boCup3D仿真环境的球员人数从2010年 的6个智能体变化至2011年的9个人到至今的11个智能体,这对于多智能体的配合提出 了更高的要求。
[0004] 关于多机器人的协作机制问题,最近几年国内外都已开始不同程度的探究。例 如葡萄牙的FC Portugal针对球员角色分配问题,采用重复性最优分配(Ι0Α,Iterated Optimal Assignment)方法,是基于著名的贪婪算法下寻求受限的最优值,并结合角色交换 机制;观察人类的足球运动,有人提出希望通过建立模仿学习机制,统和人类复杂行为与机 器人动作,然而鉴于模仿学习的基础框架的未知性,交互接口也很难获得;美国UT Austin Villa队伍应用子任务集优化方法完成目标框架的设计,使用动态角色分配算法协调整体 队伍的占位配合;英国BoldHearts队伍使用联盟算法,旨在构建一个强大的联盟团队满足 外界环境的要求,能够按照算法优化其动作参数,同时采用无梯度的Infotaxis策略搜索 算法,局部最大化信息增益的速率值;美国的Robocanes队采用基于时空模型匹配方法,以 建立相关的运动模型和其内部状态,同时参照德国B-Human队伍的行走引擎机制,并用遗 传算法和SARSA学习算法优化不同行为动作参数配置。
[0005] 上述方法都需要一定的优化机制和学习方法,针对角色分配问题,其计算量大,更 新速度慢。上述问题是在多机器人协作过程中应当予以考虑并解决的问题。


【发明内容】

[0006] 本发明的目的是提供一种基于分层决策机制的多机器人协作方法,实现整个多机 器人团队的有效协作,依次实现前锋持球者的选择和其它所有球员角色的分配,同时针对 前锋持球者带球决策模块建立D0BMP模型,最后采用动态规划算法优化角色函数所带来的 高维数计算量的问题,保证基于足球位置不断变化下的角色轮换的流畅性。
[0007] 本发明的技术解决方案是:
[0008] -种基于分层决策机制的多机器人协作方法,
[0009] 球员依据球的位置判断进行阵型选择去应对比赛;
[0010] 接着所有球员投票选出自己认为此时最佳的持球者前锋持球者,再进行其它角色 分配;
[0011] 判断是否为前锋持球者,如果是前锋持球者,则行走至球处,带球行走,使用理想 行为预测模型对对手速度进行数学建模用于前锋持球者行走踢球决策模块,即是将球踢至 目标点还是行走带球至目标点;
[0012] 如果不是前锋持球者,则进行其他角色分配后,行走至位置点,进行阵型选择。
[0013] 进一步地,使用理想行为预测模型对对手速度进行数学建模用于前锋持球者行走 踢球决策模块,具体为:
[0014] 由对手的平均速度和其当前所在的位置,计算出对手到达球位置所需要花费的时 间T ;同时知道我方球员执行踢球动作所花费的时间,设定阈值以预测我方机器人能否成 功将球踢至目标点;
[0015] 假设对手可以在t时间内阻止我方踢球,当τ-t值越小,我方成功完成踢球任务的 可能性越大;
[0016] 当τ-t的值小于设定的阈值时,就认为踢球任务可以成功完成,此时采取将球踢 至目标点。
[0017] 进一步地,在做出决策后对手仍可以阻止我方踢球,更改建立的对手的瞬时速度 表,也就是,如果我方未能完成踢球任务就要对速度表设置惩罚值P :
[0018]

【权利要求】
1. 一种基于分层决策机制的多机器人协作方法,其特征在于: 球员依据球的位置判断进行阵型选择去应对比赛; 接着所有球员投票选出自己认为此时最佳的持球者前锋持球者,再进行其它角色分 配; 判断是否为前锋持球者,如果是前锋持球者,则行走至球处,带球行走,使用理想行为 预测模型对对手速度进行数学建模用于前锋持球者行走踢球决策模块,即是将球踢至目标 点还是行走带球至目标点; 如果不是前锋持球者,则进行其他角色分配后,行走至位置点,进行阵型选择。
2. 如权利要求1所述的基于分层决策机制的多机器人协作方法,其特征在于,使用理 想行为预测模型对对手速度进行数学建模用于前锋持球者行走踢球决策模块,具体为: 由对手的平均速度和其当前所在的位置,计算出对手到达球位置所需要花费的时间T ; 同时知道我方球员执行踢球动作所花费的时间,设定阈值以预测我方机器人能否成功将球 踢至目标点; 假设对手可以在t时间内阻止我方踢球,当τ-t值越小,我方成功完成踢球任务的可能 性越大; 当T-t的值小于设定的阈值时,就认为踢球任务可以成功完成,此时采取将球踢至目 标点。
3. 如权利要求2所述的基于分层决策机制的多机器人协作方法,其特征在于:在做出 决策后对手仍可以阻止我方踢球,更改建立的对手的瞬时速度表,也就是,如果我方未能完 成踢球任务就要对速度表设置惩罚值P :
Ο) 其中,是对手的真实速度与平均速度之差,η是采样的瞬时速度的个数。
4. 如权利要求1-3任一项所述的基于分层决策机制的多机器人协作方法,其特征在 于,使用动态规划函数优化算法来减少计算量: 首先计算每个智能体到达第一个角色位置的距离值,然后利用角色分配函数yr计算 每个智能体分别到达第一、二个位置的所有可能性组合的距离值,并保存每对智能体到达 这两个位置的最低定位代价组合; 对于第k个智能体建立新的定位是基于k-Ι个智能体到达{p^kJ位置的,即利用 角色分配函数yr计算每个智能体分别到达位置的所有可能性组合的距离值,并 保存每对智能体到达{Ρι···Ρη}位置的最低定位代价组合; 随后分配每个智能体到达第Pk个位置的距离值并计算出所有智能体到达这三个不同 位置的最低定位代价组合。
5. 如权利要求4所述的基于分层决策机制的多机器人协作方法,其特征在于,在计算 最低定位代价组合时:任何子集中存在更低的定位代价,则包含该定位的整个定位方式的 代价必然更低。
6. 如权利要求5所述的基于分层决策机制的多机器人协作方法,其特征在于,使用含 不同权重的投票系统进行投票。
7. 如权利要求6所述的基于分层决策机制的多机器人协作方法,其特征在于,投票系 统中,通信信息字节的分配情况为:
8.如权利要求7所述的基于分层决策机制的多机器人协作方法,其特征在于,球员角 色的动态分配,使用的角色分配函数yr以实现最佳占位: 按照字典排序的方式选择,每个智能体在所有可能的占位方式中,所有智能体的走位 之和是最短的路径; 在最短路径中,当两名球员在路径上有交点,即会出现碰撞的情况,角色分配函数yr 根据三角不等性通过交换两名球员的目标位置来获得更低的代价。
【文档编号】G06F17/50GK104063541SQ201410274560
【公开日】2014年9月24日 申请日期:2014年6月18日 优先权日:2014年6月18日
【发明者】梁志伟, 沈萍, 刘娟 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1