基于强化学习和竞拍算法的多智能体围捕控制方法与流程

文档序号：36648093发布日期：2024-01-06 23:31阅读：48来源：国知局

本发明涉及强化学习和竞拍算法融合的人工智能控制领域，特别是涉及一种基于强化学习和竞拍算法的多智能体围捕控制方法。

背景技术：

1、近年来，无人集群协同控制的研究受到研究人员越来越多的关注。无人集群协同控制系统，即无人操控的多智能体智能性任务执行系统。多智能体是无人机、无人艇、无人车等智能无人设备的总称。这些设备都具有一定的自主性，能够实现自我路径规划、动态任务分配以及实时协同避障等。无人集群协同控制涉及运动控制、数据融合和人工智能等多领域、多学科的交叉融合，无人系统的发展趋势由半自主向全自主方向发展。本发明通过分析围捕任务的流程，结合强化学习和竞拍算法实现目标的动态分配和围捕编队。

2、多目标围捕问题的传统解决方法包括确定性方法和启发式方法。确定性方法主要使用数学博弈方式解决问题，先通过建立追逃者的微分博弈模型，再计算出最佳时间轨迹和围捕策略。然而这种方法在建立微分模型时通常会对逃跑目标的运动做出单一假设，现实场景下追捕者很难知道逃跑目标在环境中的控制策略。对于后者，受自然界狩猎行为的启发，提出了狼群狩猎策略，捕食-狩猎系统等启发式算法。狼群狩猎算法在考虑追捕者能获取友军位置的假设下，实现了对目标的围捕，但是在搜索过程中追捕者之间没有任何交流，造成了空间的重复搜索，这种方法容易陷入局部最优。捕食-狩猎系统通过预测目标位置提高围捕效率，完成了对目标的围捕，但是这需要足够长的预测时间，降低了系统的实时性，无法快速适应环境的变化。

3、近些年，随着强化学习的快速发展，给多智能体控制带来了新的思路。目前多智能体强化学习围捕控制研究处于快速发展阶段，涌现出了很多的方法。例如提出了分布式多智能体dueling-dqn算法来解决多目标围捕问题。但是这种方法研究的是基于离散网络空间，忽略了智能体的运动特征，不能迁移到真实环境中。也提出了一种特征嵌入块，将列最大池化和列平均池化两种特征压缩方式相结合建立观测特征编码解决部分可观测输入维度动态变化的问题，为多目标围捕提供了一种解决方案，且使用的运动模型是受约束的非全向运动模型。但是这种方式是建立在追捕者的性能强于逃跑者且地图中不包含障碍物。还提出了利用任务分配，将多目标捕获转换成多个单目标捕获来降低问题的复杂性。但是，如果多个目标处在一个小范围空间中，并且范围内所有目标都当作单目标对待，那么在围捕多个单目标时会发生围捕范围重叠的情形，不利于追捕者围捕实现。针对这种情况文中并未给出解决方案。

4、针对以上多目标围捕研究的局限性，本发明通过分析围捕任务的流程，将多目标围捕问题建模为马尔可夫决策过程，并提出了一种基于多智能体深度确定性策略梯度和竞拍算法(maddpg-a)的多目标围捕控制方法。并基于此方法设计出多智能体围捕控制方法。在含有障碍物的有界连续二维空间中，该方法能保证低速追捕者凭借数量优势在规定时间内围捕多个高速逃跑者，并能根据多个逃跑者位置自适应划分围捕区域完成围捕。

技术实现思路

1、针对未知环境的连续二维地图空间中，如何解决多智能体自动分配目标并完成多个目标围捕编队的问题，本发明提供一种基于强化学习和竞拍算法的多智能体围捕控制方法，该方法包括以下步骤：

2、s1、每个智能体感知周围信息并同步给其他智能体；

3、s2、在感知到的所有目标周围生成围捕点，并根据目标位置时刻更新围捕点；

4、s3、根据围捕点和智能体的位置构建关于距离的价值矩阵，对价值矩阵使用竞拍算法得到各个智能体的最优分配结果；

5、s4、使用基于多智能体深度确定性策略梯度的策略网络，得到智能体的策略，并构建奖励函数，通过实施的奖励作为样本对策略网络进行训练更新，直至环境中所有的目标均被捕获。

6、进一步地，所述s1的具体实现如下：

7、所述周围信息包括友军和目标的方位和距离，智能体之间的通信网络属于分布式网络；若所述智能体未能感知到目标，则进行随机运动扩大搜索范围或者向所有追捕者的质心相反的位置移动增大搜索范围，直至捕获所有目标。

8、进一步地，所述s2中围捕点的外接圆为围捕范围，围捕点组成的是正多边形，保证围捕编队的均匀性；若在一个范围内存在多个目标，则将该范围内的所有目标当作一个整体，以该范围内所有目标的最小外接圆为包围圈，围捕范围半径大于包围圈。

9、进一步地，所述s3的具体实现如下：

10、3.1围捕点集合t＝{1，…，m}，根据所有围捕点和追捕者的位置构建关于距离的价值矩阵ψij；

11、3.2将价值矩阵ψij作为输入送入到竞拍算法中，优化目标为使所有追捕者到对应围捕点的距离总和最小，每个追捕者只能对应一个围捕点，将最小化问题转化为最大化问题，建立数学模型如下：

12、

13、cij＝b-ψij，

14、

15、

16、

17、其中，cij为收益函数；b为奖励常量，定义为大于地图最大距离的常量；fij为0-1决策变量；ψij为成本函数，即追捕者i到围捕点j的距离；

18、将计算结果返回给所有智能体，根据关于距离的最优分配结果作为对应智能体的目标点。

19、进一步地，所述s4中，智能体的状态构建策略函数的输入，并对数据进行归一化处理，具体为：

20、追捕者的状态集合包含自身信息、友军信息、障碍物信息、目标信息；所述自身信息包括偏航角、线速度和角速度；

21、所述友军信息包括友军相对追捕者的相对本智能体的偏航角和本智能体到友军的距离；

22、所述障碍物信息包括障碍物相对本智能体的偏航角和追捕者到障碍物的距离；

23、所述目标信息包括：本智能体对应的围捕点相对自身的偏航角、本智能体到对应围捕点的距离和目标的全局速度。

24、进一步地，所述策略函数是由神经网络拟合的函数，网络中间层由三层全连接层组成，每层的宽度为64，激活函数采用relu；输入网络的参数是由追捕者构建的一维状态输入，输出是一维的向量；表示智能体的策略。

25、进一步地，智能体的动作受运动学模型约束，由存在边界的角速度和线速度驱动，具体为：

26、

27、智能体的策略输出是一个一维向量，表示为[a1，a2，a3，a4]，第一维a1起占位作用，第二维a2表示线速度大小即v＝a2，第三维和第四维做差作为角速度大小即ω＝a3-a4。

28、进一步地，策略网络中奖励r是在当前状态执行动作转移到下一个状态后获得的实时奖励；

29、所有追捕者在每一个时间步t执行完动作之后都能从环境中获得实时奖励，为了让追捕者能尽可能快的去捕捉到目标；下面给出奖励函数的数学表示：

30、

31、其中，rcap表示捕捉奖励，定义为当追捕者i到达分配好的围捕点后获得的奖励；rcol表示碰撞奖励，定义为当追捕者i和所有障碍物中任意一个发生碰撞后获得的惩罚；除此之外还定义了在这两情况之外的避障奖励和引导奖励，α1，α2为相关系数。

32、有益效果：

33、本发明采用连续的二维空间和带有约束的运动学模型，方便从理论到现实场景下的迁移。

34、本发明在狭小范围中同时存在多个目标，则进行联合围捕，采用目标分配和围捕控制分离的方式，简单化奖励函数的设计，优化策略网络和价值网络的收敛过程，提升模型训练效率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王少鑫,施盛华,罗江勇,吴剑武,许向东,郑利胜,潘斌,陈鹏飞
技术所有人：浙江科钛机器人股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。