1.一种多Agent围捕-觅食行为控制方法,其特征在于,包括以下步骤:
1)对多Agent和猎物当前所处位置形成的状态空间进行划分;
2)设计奖赏函数;
3)根据步骤1)划分的状态空间及步骤2)的奖赏函数进行强化学习,控制各Agent进行相应的原子动作,实现对猎物的围捕,在满足围捕成功条件时停止,达到觅食效果。
2.根据权利要求1所述的多Agent围捕-觅食行为控制方法,其特征在于,所述步骤1)中,对状态空间的划分具体为:
101)将Agent与猎物之间的角度进行划分;
102)将各Agent与猎物之间的距离进行离散分段。
3.根据权利要求2所述的多Agent围捕-觅食行为控制方法,其特征在于,所述将Agent与猎物之间的角度进行划分具体为:将两个Agent与猎物之间的夹角划分为如下表的10个状态
4.根据权利要求2所述的多Agent围捕-觅食行为控制方法,其特征在于,所述划分为非均匀状态划分,所述离散分段为非均匀划分。
5.根据权利要求1所述的多Agent围捕-觅食行为控制方法,其特征在于,所述步骤2)中,奖赏函数R为:
R=a*J+rn
其中,J为角度奖赏,J=G(θ)left+G(θ)right,G(θ)left为某一Agent的左夹角θleft对应的角度奖赏,G(θ)right为该Agent的右夹角θright对应的角度奖赏,rn为距离奖赏,a为J与rn之间的相对重要程度系数。
6.根据权利要求5所述的多Agent围捕-觅食行为控制方法,其特征在于,每个角度θ对应的角度奖赏表达式为:
7.根据权利要求5所述的多Agent围捕-觅食行为控制方法,其特征在于,所述距离奖赏rn通过以下表格获取:
其中,d表示Agent与猎物之间的距离。
8.根据权利要求5所述的多Agent围捕-觅食行为控制方法,其特征在于,所述相对重要程度系数a在形成围捕包围圈与收缩包围圈两个任务中取值不同。
9.根据权利要求1所述的多Agent围捕-觅食行为控制方法,其特征在于,所述原子动作包括朝向猎物、向左偏π/4、向右偏π/4、向左偏π/2以及向右偏π/2。
10.根据权利要求1所述的多Agent围捕-觅食行为控制方法,其特征在于,所述围捕成功条件为:同时存在
a)猎物位于多Agent组成的凸平面内;
b)所有Agent与猎物之间形成的最大角度满足:
其中,θstr为允许的包围角误差;
c)所有Agent与猎物之间形成的最大距离dm满足:
dm≤Dstr
其中,Dstr为允许距离。