一种基于任务密集度动态调整的多机器人协作围捕任务分配方法

文档序号:10488005阅读:710来源:国知局
一种基于任务密集度动态调整的多机器人协作围捕任务分配方法
【专利摘要】本发明提出一种基于任务密集度动态调整的多机器人协作围捕任务分配方法,属于任务分配技术领域。本方法包括:群体搜索及围捕建模、任务分配策略。本发明将经过强化学习方法得到的围捕经验值的概念引入到任务分配算法中,对经过拍卖算法得到的初始任务分配方案进行动态调整,使其能够很好的适应动态变化的围捕环境,减少系统之间的通讯量与计算量;本发明在任务分配拍卖算法中对竞标机器人的代价函数求解进行了优化,提出了任务密集度的概念,便于提高多机器人协作系统任务分配的效率,减少花费成本。
【专利说明】
-种基于任务密集度动态调整的多机器人协作围捕任务分配 方法
技术领域
[0001] 本发明设及任务分配领域,具体设及一种基于任务密集度动态调整的多机器人协 作围捕任务分配方法。
【背景技术】
[0002] 自机器人诞生W来,人类社会的生活、生产方式发生了巨大变化。多机器人系统作 为分布式人工智能的一个非常重要的分支,具有容错性、鲁棒性强、分布性协调性等特点。 任务分配是有效利用多机器人系统资源W充分发挥系统效能优势的重要基础。最大化多机 器人系统效能的前提条件是最优任务分配,然而实际情况下,最优分配算法的计算复杂度 随问题规模呈指数级增长,当任务分配存在显著的动态不确定性时,多机器人系统实现最 优分配愈加困难,所W在可接受的时间内实现最优分配的任务规模有限。市场机制拍卖算 法是一种快速有效的资源分配方法具有较强的可操作性、可扩展性。基于拍卖的任务分配 算法的最大优势在于适合动态不确定性环境下多机器人系统通过最大化个体效能实现最 大化系统总效能的目的。基于拍卖的任务分配方法是拍卖机器人将任务信息公布出去等待 竞标机器人竞标,竞标机器人根据任务信息计算竞标值,发送给拍卖机器人,然后拍卖机器 人根据收到的所有竞标值选择合适的竞标机器人作为中标机器人。多机器人协作围捕问题 本质上是多机器人分布式系统协作决策问题,通过研究多个围捕机器人的协作围捕策略, 用来研究多机器人社会中智能体之间的竞争与合作、合作与协调策略W及最优决策分配机 制W及团队最优决策算法等。
[0003] 强化学习是学习如何把状态映射到动作,并且使得用数字表示的奖励信号最大的 一种学习方法。将强化学习应用到多机器人围捕问题中,使围捕机器人能够在与环境交互 的动态过程中获得围捕经验,不断地提高系统自身的性能,通过积累经验明确系统当前性 能与目标性能之间的距离,实施改进操作,提高系统围捕效率。

【发明内容】

[0004] 本发明的目的在于针对现有技术存在的缺陷提供一种基于任务密集度动态调整 的多机器人协作围捕任务分配方法,对基于市场机制拍卖算法任务分配进行优化达到最优 分配,为达到上述目的,本发明采用下述技术方案:
[0005] -种基于任务密集度动态调整的多机器人协作围捕任务分配方法,其特征在于: 对传统拍卖算法代价函数进行优化,利用强化学习得到的围捕经验对任务分配动态调整; 具体操作步骤如下:1)群体捜索及围捕建模,2)任务分配策略。
[0006] 步骤1)群体捜索及围捕建模是:
[0007] (1)群体捜索方法:
[000引采用的群体捜索策略是采用多机器人的漫游方法,即围捕机器人在多机器人协作 系统环境中进行随机的行走;采用漫游方法的多机器人之间在发现目标机器人之前是不进 行通信的w减少通讯负担;当一个围捕机器人发现了一个目标机器人后,该围捕机器人根 据算法切换到拍卖机器人运个角色,评估对该目标机器人的围捕任务创建一个临时拍卖市 场将围捕该目标机器人的任务发布出去并去追捕目标机器人;收到信息的围捕机器人成为 竞标机器人并评估该项任务决定是否去竞拍运项围捕任务;
[0009] (2)围捕建模:
[0010] 多机器人系统中,围捕机器人在巡逻过程中,发现了目标机器人,则该围捕机器人 根据算法模型自动转化为拍卖机器人;该拍卖机器人对该目标机器人进行评估后,发布招 标信息,等待其余围捕机器人竞标;同时拍卖机器人会对目标机器人发起围捕任务;所有围 捕机器人在围捕的过程中,为了提高围捕机器人之间的围捕效率,实现多机器人之间的围 捕任务同时避免多机器人之间的碰撞运动,通过考虑多机器人之间的避碰行为,对多机器 人行动策略进行分析和简化得到如下的多机器人行动策略集:
[0011] ΜονΘ = {ΤΤ,?1,ΤΚ}
[0012] 其中,ΤΤ表示围捕机器人向着目标机器人的方向前进一步,就是沿着围捕机器人 跟目标机器人之间的中屯、连线向着目标机器人移动;TL表示围捕机器人向目标机器人左侧 移动一步,使围捕机器人在移动后与目标机器人之间的中屯、间距保持安全距离;TR表示围 捕机器人向目标机器人右侧移动一步,使围捕机器人在移动后与目标机器人之间的中屯、间 距保持安全距离。
[0013] 步骤2)任务分配策略是:
[0014] (1)拍卖机器人任务拍卖:
[0015] 当围捕机器人RR在捜寻目标机器人的时候,发现了目标机器人RT,围捕机器人RR 自动成为拍卖机器代理拍卖围捕机器人RT的任务;拍卖机器人RR对目标机器人RTW及周围 环境进行评估,计算出对目标机器人展开围捕需要围捕机器人的个数η,并且向其他机器人 发布拍卖围捕目标机器人RT的任务,等待其他围捕机器人对围捕机器人RT运项任务进行投 标,接收其他围捕机器人发送回来的对围捕RT任务的标值;拍卖机器人RT接收到竞标机器 人的投标后,预示着该投标机器人进入了由拍卖机器人RT组成的拍卖市场;由于对目标机 器人RT的围捕是一种实时在变换的一个状态环境,所W需要对拍卖设定时间限制,超过一 定时间后,该拍卖机器人就对收到的竞标信息进行评估并公布拍卖结果,该拍卖市场结束; 当该拍卖机器人组成的拍卖市场即将到达规定的时限后,拍卖机器人根据竞标机器人发送 的竞标值选择出价最高的η个机器人成为竞标成功机器人,竞拍成功机器人协助拍卖机器 人完成对目标机器人RT的围捕任务,竞拍结束;
[0016] 拍卖围捕机器人向外公布的招标信息除了围捕目标机器人的运项任务外,还包括 对周围环境的评估;任务密集度是用来反应任务的密集度的影响因子,任务越密集,任务密 集度的值就越大;如果被拍卖的任务的周围有很多项其他的任务,那么拍卖该项任务的时 候的任务密集度的值就越大;如果一个拍卖机器人将一个任务密集度大的任务发布出去, 那么竞标机器人在选择竞标某一项任务的时候,会优先竞标任务密集度大的任务;运种方 式下,就会促使任务完成的时间花费的少;任务密集度的计算公式如下:
[0017]
[0018] 其中,Intd旨任务j的任务密集度大小;随着k值大小的增加,任务密集度也会增 加;NTask是指多机器人协作系统中所有的已经被发现的任务的数量大小
代表拍卖 机器人在任务j周围发现的其余任务的数量;
[0019] (2)竞标围捕机器人竞标:
[0020] 竞标围捕机器人接收到周围拍卖围捕机器人的招标信息后,从所有的围捕任务队 列{RTi, RT2, RT3 · · ·}中选取参与的投标任务,每一个竞标机器人只参与一个拍卖机器人发布 的拍卖围捕任务;而竞标围捕机器人参与哪一个拍卖围捕机器人发布的拍卖任务,需要竞 标机器人去评估运项围捕任务;如若竞标机器人竞标成功一项围捕任务,则该竞标围捕机 器人则协同其他竞标成功的围捕机器人与拍卖围捕机器人一同完成运项围捕目标机器人 的任务;
[0021] 当整个多机器人协作系统中存在了多个拍卖任务的时候,由于每一个围捕机器人 都是自利的,每一个机器人的目标都是使自己的利益最大化,并不能够保证整个多机器人 协作拍卖系统的效用最大化;在决策时间有限W及动态环境不确定因素下,为了使多机器 人系统在经过较少次数的拍卖获得较理想的分配方案,降低多机器人系统之间的通信量, 减少计算代价,将竞标价格定义为如下公式:
[00巧]其中,C货表示竞标机器人RRi完成任务RTj所消耗的代价花费,&表示机器人完成 围捕任务RT扣寸系统获得的效益值,γ为比例系数;α代表花费的折扣率,为常数;t指的是围 捕机器人RRi完成对RTj围捕所花费的时间,而完成对目标机器人的围捕所获得的效益值Uj, 该目标机器人对系统的危害程度为化,周围围捕机器人的数目为RRa,丫 1,丫 2为权值系数; 运里,C器越小,完成对RTj的围捕任务,机器人系统获得的效益值就越大,总体上使多机器 人系统获得最大的效益值,是比较理想的分配方案;竞标机器人从任务队列中选取最能时 多机器人系统获得最大效益值的围捕任务进行投标,最大提高系统的整体效用;
[00%] (3)拍卖任务的动态调整:
[0027] 多机器人协作围捕系统是一个动态过程的围捕过程,根据拍卖产生的任务的分配 结果在理想时间内可能会遇到意料之外的情况,即拍卖产生的任务分配结果不一定能够成 功围捕目标机器人;考虑到运种情况,需要对拍卖产生的任务分配结果进行分配后的动态 调整,随着多机器人参与围捕任务的进行,每一个机器人都会对围捕任务进行学习,参与围 捕任务次数越多,机器人围捕的经验值就会越大,随着任务的进行,机器人学习能力逐渐增 强,围捕任务的能力也越强;围捕机器人是异构机器人,不同的组合产生的能力是不同的, 所W,针对每一个围捕机器人的不相同的能力,拍卖机器人根据异构机器人的组成、对围捕 任务的判断、自己的经验值W及机器人的能量消耗,可实时判定,成功围捕的不确信度;
[0028] 不确信度由两个因素来决定:机器人自身的能量变化WW及机器人在围捕任务过 程中的经验值大小Q(s,a),在任务执行过程中,不确信度可W由W下公式进行定义:
[0029]
[0030] 其中,Q(s,a)是指在当前环境s下,拍卖机器人对竞标成功的竞标机器人,选择运 些竞标成功机器人的集合去围捕机器人运个选择a,能够成功围捕目标机器人的经验值大 小或者说围捕成功的概率大小;C1与C2为常数,β为围捕奖励值的折扣系数;围捕机器人在每 周期执行相应动作会减少相应的能量,
[0031] S=(Sl,S2,...,Sn)
[0032] Α=(Αι,Α2,···,Αη)
[0033] 其中,集合S与集合A存在映射关系:sn^an表示围捕成功的状态下的围捕机器人选 择。随着围捕任务成功的次数增加,状态集合S与机器人选择集合A的维数相应增加;通过对 两个集合的综合判定可W用作对多机器人协作围捕是否能够成功的一个考量;
[0034] '
[0035] Q(si,ai)指的是在当前状态Si下,选择的中标机器人中占据该拍卖围捕机器人有 过合作并且围捕成功案例的Ai集合中的个数与中标机器人个数的比值,作为拍卖机器人的 经验值大小用于动态调整的判别标准;
[0036] 在多个竞标机器人与拍卖机器人组成的拍卖市场中形成一个围捕团队去围捕一 个目标机器人的时候,由拍卖机器人在此时计算该团队完成运项围捕任务的不确信度,如 果不确信度高于设定的阔值Η时,该拍卖机器人就会重新评估运项围捕任务,从新发起一轮 拍卖。
[0037] 本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著技术进 步:
[0038] 第一:本发明提出的一种基于任务密集度动态调整的多机器人协作围捕任务分配 方法,是在传统拍卖的任务分配算法基础上,提出任务密集度的概念进行优化后得到的一 种任务分配方法,便于提高多机器人协作系统任务分配的效率,减少花费代价。
[0039] 第二,本发明提出的一种基于任务密集度动态调整的多机器人协作围捕任务分配 方法,将强化学习的方法引入到拍卖算法中,对拍卖后的任务分配方案进行动态调整,是一 种适用于动态不确定环境下的任务分配方法,比传统任务分配方法在效率上优势明显。
【附图说明】
[0040] 图1:本发明提出的一种基于任务密集度动态调整的多机器人协作围捕任务分配 方法任务分配流程图。
[0041] 图2:本发明多机器人协作围捕建模。
[0042] 图3:本发明提出的一种基于任务密集度动态调整的多机器人协作围捕任务分配 方法拍卖流程图。
[0043] 图4:本发明提出的一种基于任务密集度动态调整的多机器人协作围捕任务分配 方法竞标流程图。
【具体实施方式】
[0044] W下结合附图和优选实施例对本发明做进一步说明。
[0045] 实施例一:参见图1,基于任务密集度动态调整的多机器人协作围捕任务分配方 法,具体包含W下操作步骤:1)群体捜索及围捕建模,2)任务分配策略。
[0046] 实施例二:本实例与实施例一基本相同,特别之处如下:
[0047] 步骤1)群体捜索及围捕建模是:
[004引(1)群体捜索方法:
[0049] 采用的群体捜索策略是采用多机器人的漫游方法,即围捕机器人在多机器人协作 系统环境中进行随机的行走;采用漫游方法的多机器人之间在发现目标机器人之前是不进 行通信的W减少通讯负担;当一个围捕机器人发现了一个目标机器人后,该围捕机器人根 据算法切换到拍卖机器人运个角色,评估对该目标机器人的围捕任务创建一个临时拍卖市 场将围捕该目标机器人的任务发布出去并去追捕目标机器人;收到信息的围捕机器人成为 竞标机器人并评估该项任务决定是否去竞拍运项围捕任务;
[0050] (2)围捕建模:
[0051] 如图2所示,多机器人系统中,围捕机器人在巡逻过程中,发现了目标机器人,则该 围捕机器人根据算法模型自动转化为拍卖机器人;该拍卖机器人对该目标机器人进行评估 后,发布招标信息,等待其余围捕机器人竞标;同时拍卖机器人会对目标机器人发起围捕任 务;所有围捕机器人在围捕的过程中,为了提高围捕机器人之间的围捕效率,实现多机器人 之间的围捕任务同时避免多机器人之间的碰撞运动,通过考虑多机器人之间的避碰行为, 对多机器人行动策略进行分析和简化得到如下的多机器人行动策略集:
[0化2] ΜονΘ = {ΤΤ,?1,ΤΚ}
[0053] 其中,ΤΤ表示围捕机器人向着目标机器人的方向前进一步,就是沿着围捕机器人 跟目标机器人之间的中屯、连线向着目标机器人移动;TL表示围捕机器人向目标机器人左侧 移动一步,使围捕机器人在移动后与目标机器人之间的中屯、间距保持安全距离;TR表示围 捕机器人向目标机器人右侧移动一步,使围捕机器人在移动后与目标机器人之间的中屯、间 距保持安全距离。
[0054] 步骤2)任务分配策略是:
[0055] (1)拍卖机器人任务拍卖:
[0056] 图3为拍卖机器人的拍卖流程图。当围捕机器人RR在捜寻目标机器人的时候,发现 了目标机器人RT,围捕机器人RR自动成为拍卖机器代理拍卖围捕机器人RT的任务;拍卖机 器人RR对目标机器人RTW及周围环境进行评估,计算出对目标机器人展开围捕需要围捕机 器人的个数η,并且向其他机器人发布拍卖围捕目标机器人RT的任务,等待其他围捕机器人 对围捕机器人R Τ运项任务进行投标,接收其他围捕机器人发送回来的对围捕R Τ任务的标 值;拍卖机器人RT接收到竞标机器人的投标后,预示着该投标机器人进入了由拍卖机器人 RT组成的拍卖市场;由于对目标机器人RT的围捕是一种实时在变换的一个状态环境,所W 需要对拍卖设定时间限制,超过一定时间后,该拍卖机器人就对收到的竞标信息进行评估 并公布拍卖结果,该拍卖市场结束;当该拍卖机器人组成的拍卖市场即将到达规定的时限 后,拍卖机器人根据竞标机器人发送的竞标值选择出价最高的η个机器人成为竞标成功机 器人,竞拍成功机器人协助拍卖机器人完成对目标机器人RT的围捕任务,竞拍结束;
[0057]拍卖围捕机器人向外公布的招标信息除了围捕目标机器人的运项任务外,还包括 对周围环境的评估;任务密集度是用来反应任务的密集度的影响因子,任务越密集,任务密 集度的值就越大;如果被拍卖的任务的周围有很多项其他的任务,那么拍卖该项任务的时 候的任务密集度的值就越大;如果一个拍卖机器人将一个任务密集度大的任务发布出去, 那么竞标机器人在选择竞标某一项任务的时候,会优先竞标任务密集度大的任务;运种方 式下,就会促使任务完成的时间花费的少;任务密集度的计算公式如下:
[0化引
[0059] 其中,Intd旨任务j的任务密集度大小;随着k值大小的增加,任务密集度也会增 加;NTask是指多机器人协作系统中所有的已经被发现的任务的数量大小
S表拍卖 机器人在任务j周围发现的其余任务的数量;
[0060] (2)竞标围捕机器人竞标:
[0061] 图4为竞标机器人的竞标流程图。竞标围捕机器人接收到周围拍卖围捕机器人的 招标信息后,从所有的围捕任务队列{RTi,RT2,RT3…}中选取参与的投标任务,每一个竞标 机器人只参与一个拍卖机器人发布的拍卖围捕任务;而竞标围捕机器人参与哪一个拍卖围 捕机器人发布的拍卖任务,需要竞标机器人去评估运项围捕任务;如若竞标机器人竞标成 功一项围捕任务,则该竞标围捕机器人则协同其他竞标成功的围捕机器人与拍卖围捕机器 人一同完成运项围捕目标机器人的任务;
[0062] 当整个多机器人协作系统中存在了多个拍卖任务的时候,由于每一个围捕机器人 都是自利的,每一个机器人的目标都是使自己的利益最大化,并不能够保证整个多机器人 协作拍卖系统的效用最大化;在决策时间有限W及动态环境不确定因素下,为了使多机器 人系统在经过较少次数的拍卖获得较理想的分配方案,降低多机器人系统之间的通信量, 减少计算代价,将竞标价格定义为如下公式:
[0066] 其中,C器表示竞标机器人RRi完成任务RTj所消耗的代价花费,Uj表示机器人完成 围捕任务RT扣寸系统获得的效益值,γ为比例系数;α代表花费的折扣率,为常数;t指的是围 捕机器人RRi完成对RTj围捕所花费的时间,而完成对目标机器人的围捕所获得的效益值Uj, 该目标机器人对系统的危害程度为化,周围围捕机器人的数目为RRa,丫 1,丫 2为权值系数; 运里,C晋越小,完成对RTj的围捕任务,机器人系统获得的效益值就越大,总体上使多机器 人系统获得最大的效益值,是比较理想的分配方案;竞标机器人从任务队列中选取最能时 多机器人系统获得最大效益值的围捕任务进行投标,最大提高系统的整体效用;
[0067] (3)拍卖任务的动态调整:
[0068] 多机器人协作围捕系统是一个动态过程的围捕过程,根据拍卖产生的任务的分配 结果在理想时间内可能会遇到意料之外的情况,即拍卖产生的任务分配结果不一定能够成 功围捕目标机器人;考虑到运种情况,需要对拍卖产生的任务分配结果进行分配后的动态 调整,随着多机器人参与围捕任务的进行,每一个机器人都会对围捕任务进行学习,参与围 捕任务次数越多,机器人围捕的经验值就会越大,随着任务的进行,机器人学习能力逐渐增 强,围捕任务的能力也越强;围捕机器人是异构机器人,不同的组合产生的能力是不同的, 所W,针对每一个围捕机器人的不相同的能力,拍卖机器人根据异构机器人的组成、对围捕 任务的判断、自己的经验值W及机器人的能量消耗,可实时判定,成功围捕的不确信度;
[0069] 不确信度由两个因素来决定:机器人自身的能量变化WW及机器人在围捕任务过 程中的经验值大小Q(s,a),在任务执行过程中,不确信度可W由W下公式进行定义:
[0070]
[0071] 其中,Q(s,a)是指在当前环境S下,拍卖机器人对竞标成功的竞标机器人,选择运 些竞标成功机器人的集合去围捕机器人运个选择a,能够成功围捕目标机器人的经验值大 小或者说围捕成功的概率大小;C1与C2为常数,β为围捕奖励值的折扣系数;围捕机器人在每 周期执行相应动作会减少相应的能量:
[0072] S=(Sl,S2,...,Sn)
[0073] Α=(Αι,Α2,···,Αη)
[0074] 其中,集合S与集合A存在映射关系:Sn^an表示围捕成功的状态下的围捕机器人选 择。随着围捕任务成功的次数增加,状态集合S与机器人选择集合A的维数相应增加;通过对 两个集合的综合判定可W用作对多机器人协作围捕是否能够成功的一个考量;
[0075]
[0076] Q(si,ai)指的是在当前状态Si下,选择的中标机器人中占据该拍卖围捕机器人有 过合作并且围捕成功案例的Ai集合中的个数与中标机器人个数的比值,作为拍卖机器人的 经验值大小用于动态调整的判别标准;
[0077] 在多个竞标机器人与拍卖机器人组成的拍卖市场中形成一个围捕团队去围捕一 个目标机器人的时候,由拍卖机器人在此时计算该团队完成运项围捕任务的不确信度,如 果不确信度高于设定的阔值Η时,该拍卖机器人就会重新评估运项围捕任务,从新发起一轮 拍卖。
【主权项】
1. 一种基于任务密集度动态调整的多机器人协作围捕任务分配方法,其特征在于:对 传统拍卖算法代价函数进行优化,利用强化学习得到的围捕经验对任务分配动态调整;具 体操作步骤如下:1)群体搜索及围捕建模,2)任务分配策略。2. 根据权利要求1所述的基于任务密集度动态调整的多机器人协作围捕任务分配方 法,其特征在于所述步骤1)群体搜索及围捕建模是: (1) 群体搜索方法: 采用的群体搜索策略是采用多机器人的漫游方法,即围捕机器人在多机器人协作系统 环境中进行随机的行走;采用漫游方法的多机器人之间在发现目标机器人之前是不进行通 信的以减少通讯负担;当一个围捕机器人发现了一个目标机器人后,该围捕机器人根据算 法切换到拍卖机器人这个角色,评估对该目标机器人的围捕任务创建一个临时拍卖市场将 围捕该目标机器人的任务发布出去并去追捕目标机器人;收到信息的围捕机器人成为竞标 机器人并评估该项任务决定是否去竞拍这项围捕任务; (2) 围捕建模: 多机器人系统中,围捕机器人在巡逻过程中,发现了目标机器人,则该围捕机器人根据 算法模型自动转化为拍卖机器人;该拍卖机器人对该目标机器人进行评估后,发布招标信 息,等待其余围捕机器人竞标;同时拍卖机器人会对目标机器人发起围捕任务;所有围捕机 器人在围捕的过程中,为了提高围捕机器人之间的围捕效率,实现多机器人之间的围捕任 务同时避免多机器人之间的碰撞运动,通过考虑多机器人之间的避碰行为,对多机器人行 动策略进行分析和简化得到如下的多机器人行动策略集: Move={TT,TL,TR} 其中,TT表示围捕机器人向着目标机器人的方向前进一步,就是沿着围捕机器人跟目 标机器人之间的中心连线向着目标机器人移动;TL表示围捕机器人向目标机器人左侧移动 一步,使围捕机器人在移动后与目标机器人之间的中心间距保持安全距离;TR表示围捕机 器人向目标机器人右侧移动一步,使围捕机器人在移动后与目标机器人之间的中心间距保 持安全距离。3. 根据权利要求1所述的基于任务密集度动态调整的多机器人协作围捕任务分配方 法,其特征在于所述步骤2)任务分配策略是: (1)拍卖机器人任务拍卖: 当围捕机器人RR在搜寻目标机器人的时候,发现了目标机器人RT,围捕机器人RR自动 成为拍卖机器代理拍卖围捕机器人RT的任务;拍卖机器人RR对目标机器人RT以及周围环境 进行评估,计算出对目标机器人展开围捕需要围捕机器人的个数n,并且向其他机器人发布 拍卖围捕目标机器人RT的任务,等待其他围捕机器人对围捕机器人RT这项任务进行投标, 接收其他围捕机器人发送回来的对围捕RT任务的标值;拍卖机器人RT接收到竞标机器人的 投标后,预示着该投标机器人进入了由拍卖机器人RT组成的拍卖市场;由于对目标机器人 RT的围捕是一种实时在变换的一个状态环境,所以需要对拍卖设定时间限制,超过一定时 间后,该拍卖机器人就对收到的竞标信息进行评估并公布拍卖结果,该拍卖市场结束;当该 拍卖机器人组成的拍卖市场即将到达规定的时限后,拍卖机器人根据竞标机器人发送的竞 标值选择出价最高的η个机器人成为竞标成功机器人,竞拍成功机器人协助拍卖机器人完 成对目标机器人RT的围捕任务,竞拍结束; 拍卖围捕机器人向外公布的招标信息除了围捕目标机器人的这项任务外,还包括对周 围环境的评估;任务密集度是用来反应任务的密集度的影响因子,任务越密集,任务密集度 的值就越大;如果被拍卖的任务的周围有很多项其他的任务,那么拍卖该项任务的时候的 任务密集度的值就越大;如果一个拍卖机器人将一个任务密集度大的任务发布出去,那么 竞标机器人在选择竞标某一项任务的时候,会优先竞标任务密集度大的任务;这种方式下, 就会促使任务完成的时间花r&~+如下: 其中,Intj指任务j的任务密集度大小;随着k值大小的增加,任务密集度也会增加;NTask 是指多机器人协作系统中所有的已经被发现的任务的数量大I拍卖机器人在 任务j周围发现的其余任务的数量; (2) 竞标围捕机器人竞标: 竞标围捕机器人接收到周围拍卖围捕机器人的招标信息后,从所有的围捕任务队列 {RTi,RT2,RT3···}中选取参与的投标任务,每一个竞标机器人只参与一个拍卖机器人发布的 拍卖围捕任务;而竞标围捕机器人参与哪一个拍卖围捕机器人发布的拍卖任务,需要竞标 机器人去评估这项围捕任务;如若竞标机器人竞标成功一项围捕任务,则该竞标围捕机器 人则协同其他竞标成功的围捕机器人与拍卖围捕机器人一同完成这项围捕目标机器人的 任务; 当整个多机器人协作系统中存在了多个拍卖任务的时候,由于每一个围捕机器人都是 自利的,每一个机器人的目标都是使自己的利益最大化,并不能够保证整个多机器人协作 拍卖系统的效用最大化;在决策时间有限以及动态环境不确定因素下,为了使多机器人系 统在经过较少次数的拍卖获得较理想的分配方案,降低多机器人系统之间的通信量,减少 计算代价,将竞标价格定义为如下公式: Uj = T(Dd1RRa)= γ ι · Ddj^其中,表示竞标机器人!《^完成任务RTj所消耗的代价花费,仏表示机器人完成围捕任 务RL时系统获得的效益值,γ为比例系数;α代表花费的折扣率,为常数;t指的是围捕机器 人RR1完成对RL围捕所花费的时间,而完成对目标机器人的围捕所获得的效益值山,该目标 机器人对系统的危害程度为Dd,周围围捕机器人的数目为RRa,γ :,γ 2为权值系数;这里, 越小,完成对RTj的围捕任务,机器人系统获得的效益值就越大,总体上使多机器人系统获 得最大的效益值,是比较理想的分配方案;竞标机器人从任务队列中选取最能时多机器人 系统获得最大效益值的围捕任务进行投标,最大提高系统的整体效用; (3) 拍卖任务的动态调整: 多机器人协作围捕系统是一个动态过程的围捕过程,根据拍卖产生的任务的分配结果 在理想时间内可能会遇到意料之外的情况,即拍卖产生的任务分配结果不一定能够成功围 捕目标机器人;考虑到这种情况,需要对拍卖产生的任务分配结果进行分配后的动态调整, 随着多机器人参与围捕任务的进行,每一个机器人都会对围捕任务进行学习,参与围捕任 务次数越多,机器人围捕的经验值就会越大,随着任务的进行,机器人学习能力逐渐增强, 围捕任务的能力也越强;围捕机器人是异构机器人,不同的组合产生的能力是不同的,所 以,针对每一个围捕机器人的不相同的能力,拍卖机器人根据异构机器人的组成、对围捕任 务的判断、自己的经验值以及机器人的能量消耗,实时判定,成功围捕的不确信度; 不确信度由两个因素来决定:机器人自身的能量变化W以及机器人在围捕任务过程中 的经验值大小Q(s,a),在任务执行过程中,不确信度由以下公式进行定义:其中,Q(s,a)是指在当前环境s下,拍卖机器人对竞标成功的竞标机器人,选择这些竞 标成功机器人的集合去围捕机器人这个选择a,能够成功围捕目标机器人的经验值大小或 者说围捕成功的概率大小为常教.6为_捕1_值的折扣系数;围捕机器人在每周期 执行相应动作会减少相应& S- ( SI, S2 , ''' , Sn) A= (Ai,A2, ··· ,An) 其中,集合S与集合A存在映射关系示围捕成功的状态下的围捕机器人选择, 随着围捕任务成功的次数增加,状态集合S与机器人选择集合A的维数相应增加;通过对两 个集合的综合判定用作对多机器人协作闱捕是否能够成功的一个考量:Q(Sl,ai)指的是在当前状态81下,选择的中标机器人中占据该拍卖围捕机器人有过合 作并且围捕成功案例的仏集合中的个数与中标机器人个数的比值,作为拍卖机器人的经验 值大小用于动态调整的判别标准; 在多个竞标机器人与拍卖机器人组成的拍卖市场中形成一个围捕团队去围捕一个目 标机器人的时候,由拍卖机器人在此时计算该团队完成这项围捕任务的不确信度,如果不 确信度高于设定的阈值H时,该拍卖机器人就会重新评估这项围捕任务,从新发起一轮拍 卖。4. 根据权利要求1中所述的基于任务密集度动态调整的多机器人协作围捕任务分配方 法,其特征在于:所述的多机器人围捕成功的条件是围捕机器人之间的距离不大于目标机 器人通过的安全距离,这里设置安全距离为0.5m。5. 根据权利要求1中所述的基于任务密集度动态调整的多机器人协作围捕任务分配方 法,其特征在于:所述的拍卖市场结束的条件是所有的目标机器人都被发现并且被围捕成 功。
【文档编号】G05D1/02GK105843227SQ201610234559
【公开日】2016年8月10日
【申请日】2016年4月15日
【发明人】李敏, 王忠亚, 李 杰
【申请人】上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1