一种多Agent围捕‑觅食行为控制方法与流程

文档序号：12662275阅读：来源：国知局

技术特征：

1.一种多Agent围捕-觅食行为控制方法，其特征在于，包括以下步骤：

1)对多Agent和猎物当前所处位置形成的状态空间进行划分；

2)设计奖赏函数；

3)根据步骤1)划分的状态空间及步骤2)的奖赏函数进行强化学习，控制各Agent进行相应的原子动作，实现对猎物的围捕，在满足围捕成功条件时停止，达到觅食效果。

2.根据权利要求1所述的多Agent围捕-觅食行为控制方法，其特征在于，所述步骤1)中，对状态空间的划分具体为：

101)将Agent与猎物之间的角度进行划分；

102)将各Agent与猎物之间的距离进行离散分段。

3.根据权利要求2所述的多Agent围捕-觅食行为控制方法，其特征在于，所述将Agent与猎物之间的角度进行划分具体为：将两个Agent与猎物之间的夹角划分为如下表的10个状态

4.根据权利要求2所述的多Agent围捕-觅食行为控制方法，其特征在于，所述划分为非均匀状态划分，所述离散分段为非均匀划分。

5.根据权利要求1所述的多Agent围捕-觅食行为控制方法，其特征在于，所述步骤2)中，奖赏函数R为：

R＝a*J+rn

其中，J为角度奖赏，J＝G(θ)_left+G(θ)_right，G(θ)_left为某一Agent的左夹角θ_left对应的角度奖赏，G(θ)_right为该Agent的右夹角θ_right对应的角度奖赏，rn为距离奖赏，a为J与rn之间的相对重要程度系数。

6.根据权利要求5所述的多Agent围捕-觅食行为控制方法，其特征在于，每个角度θ对应的角度奖赏表达式为：

7.根据权利要求5所述的多Agent围捕-觅食行为控制方法，其特征在于，所述距离奖赏rn通过以下表格获取：

d0～0.5m0.5～1.0m0.5～1.4m1.4～2.0m2.0～3.5m3.5～5.0m>5.0mrn1.21.11.00.70.50.20

其中，d表示Agent与猎物之间的距离。

8.根据权利要求5所述的多Agent围捕-觅食行为控制方法，其特征在于，所述相对重要程度系数a在形成围捕包围圈与收缩包围圈两个任务中取值不同。

9.根据权利要求1所述的多Agent围捕-觅食行为控制方法，其特征在于，所述原子动作包括朝向猎物、向左偏π/4、向右偏π/4、向左偏π/2以及向右偏π/2。

10.根据权利要求1所述的多Agent围捕-觅食行为控制方法，其特征在于，所述围捕成功条件为：同时存在

a)猎物位于多Agent组成的凸平面内；

b)所有Agent与猎物之间形成的最大角度满足：

$<mrow> <mo>&ForAll;</mo> <mi>a</mi> <mi>g</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi> </mi> <mi>i</mi> <mo>,</mo> <mo>|</mo> <msubsup> <mi>θ</mi> <mi>m</mi> <mi>i</mi> </msubsup> <mo>-</mo> <mfrac> <mi>π</mi> <mn>2</mn> </mfrac> <mo>|</mo> <mo>≤</mo> <msub> <mi>θ</mi> <mrow> <mi>s</mi> <mi>t</mi> <mi>r</mi> </mrow> </msub> </mrow>$

其中，θ_str为允许的包围角误差；

c)所有Agent与猎物之间形成的最大距离d_m满足：

d_m≤D_str

其中，D_str为允许距离。

完整全部详细技术资料下载

当前第2页1 2 3