一种多Agent围捕‑觅食行为控制方法与流程

文档序号:12662275阅读:来源:国知局

技术特征:

1.一种多Agent围捕-觅食行为控制方法,其特征在于,包括以下步骤:

1)对多Agent和猎物当前所处位置形成的状态空间进行划分;

2)设计奖赏函数;

3)根据步骤1)划分的状态空间及步骤2)的奖赏函数进行强化学习,控制各Agent进行相应的原子动作,实现对猎物的围捕,在满足围捕成功条件时停止,达到觅食效果。

2.根据权利要求1所述的多Agent围捕-觅食行为控制方法,其特征在于,所述步骤1)中,对状态空间的划分具体为:

101)将Agent与猎物之间的角度进行划分;

102)将各Agent与猎物之间的距离进行离散分段。

3.根据权利要求2所述的多Agent围捕-觅食行为控制方法,其特征在于,所述将Agent与猎物之间的角度进行划分具体为:将两个Agent与猎物之间的夹角划分为如下表的10个状态

4.根据权利要求2所述的多Agent围捕-觅食行为控制方法,其特征在于,所述划分为非均匀状态划分,所述离散分段为非均匀划分。

5.根据权利要求1所述的多Agent围捕-觅食行为控制方法,其特征在于,所述步骤2)中,奖赏函数R为:

R=a*J+rn

其中,J为角度奖赏,J=G(θ)left+G(θ)right,G(θ)left为某一Agent的左夹角θleft对应的角度奖赏,G(θ)right为该Agent的右夹角θright对应的角度奖赏,rn为距离奖赏,a为J与rn之间的相对重要程度系数。

6.根据权利要求5所述的多Agent围捕-觅食行为控制方法,其特征在于,每个角度θ对应的角度奖赏表达式为:

7.根据权利要求5所述的多Agent围捕-觅食行为控制方法,其特征在于,所述距离奖赏rn通过以下表格获取:

d0~0.5m0.5~1.0m0.5~1.4m1.4~2.0m2.0~3.5m3.5~5.0m>5.0mrn1.21.11.00.70.50.20

其中,d表示Agent与猎物之间的距离。

8.根据权利要求5所述的多Agent围捕-觅食行为控制方法,其特征在于,所述相对重要程度系数a在形成围捕包围圈与收缩包围圈两个任务中取值不同。

9.根据权利要求1所述的多Agent围捕-觅食行为控制方法,其特征在于,所述原子动作包括朝向猎物、向左偏π/4、向右偏π/4、向左偏π/2以及向右偏π/2。

10.根据权利要求1所述的多Agent围捕-觅食行为控制方法,其特征在于,所述围捕成功条件为:同时存在

a)猎物位于多Agent组成的凸平面内;

b)所有Agent与猎物之间形成的最大角度满足:

<mrow> <mo>&ForAll;</mo> <mi>a</mi> <mi>g</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi> </mi> <mi>i</mi> <mo>,</mo> <mo>|</mo> <msubsup> <mi>&theta;</mi> <mi>m</mi> <mi>i</mi> </msubsup> <mo>-</mo> <mfrac> <mi>&pi;</mi> <mn>2</mn> </mfrac> <mo>|</mo> <mo>&le;</mo> <msub> <mi>&theta;</mi> <mrow> <mi>s</mi> <mi>t</mi> <mi>r</mi> </mrow> </msub> </mrow>

其中,θstr为允许的包围角误差;

c)所有Agent与猎物之间形成的最大距离dm满足:

dm≤Dstr

其中,Dstr为允许距离。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1