一种基于深度强化学习的多智能体路径规划方法

文档序号：26009804发布日期：2021-07-23 21:29阅读：来源：国知局

技术特征：

1.一种基于深度强化学习的多智能体路径规划方法，其特征在于，包括如下步骤：

s1：生成情况复杂的数据集，所述数据集中将随机生成每个智能体的起始点、目标点，不同的2d栅格正方形地图尺寸、障碍物密度以及智能体数量随机组合。

s2：将地图局部信息张量输入卷积神经网络预处理，所述地图局部信息为以单个智能体本体为中心，边长为rlocal个栅格的正方形范围内地图信息。

s3：利用图神经网络传递s2处理后的智能体间的局部信息。

s4：通过模仿学习与强化学习相结合的方法，训练算法网络参数。每个智能体拷贝一个算法网络的副本，输出策略，时序选择智能体上、下、左、右、无移动之一的动作策略。

2.根据权利要求1所述的一种基于深度强化学习的多智能体路径规划方法，其特征在于，所述步骤s1中：

s1：使用python生成或手动设计全局栅格地图、障碍物、一定数量智能体起始点和目标点二进制地图。栅格地图为边长10、50或100的正方形；障碍物密度为整个地图中障碍物栅格数量占地图栅格数量的百分比，可选择为10％、30％或50％；智能体数量可选择为4、8、32、512或1024个，智能体必须可达目标点，即相连通。生成的地图中，遍历以上组合。

3.根据权利要求1所述的一种基于深度强化学习的多智能体路径规划方法，其特征在于，所述步骤s2中：

所述地图局部信息张量包括：

(1)障碍物，且边界视作障碍；

(2)其他智能体位置坐标；

(3)本智能体目标点坐标，若此坐标在局部范围外，则将智能体与其目标点连线，投影在边界的点作为目标坐标点；

(4)其他智能体的目标点坐标。

4.根据权利要求1所述的一种基于深度强化学习的多智能体路径规划方法，其特征在于，所述步骤s3中：

s31：在一个时间步t内，构建图，具体为：每个智能体抽象为点，智能体观察到的局部信息即为该点特征xt，在rlocal内的智能体为邻居，智能体与其邻居之间为边。

s32：构建邻接矩阵st，记录所有智能体的邻居信息。邻接矩阵st中第一行为当前点的索引，其他行为当前点的邻居。

s33：计算出图卷积其中表示与邻居的第k次信息融合，a^k为此次融合需要训练的卷积过滤器。图卷积表示的是此点与k跳邻居进行的信息融合，1跳指的是自己，2跳指邻居，3跳指邻居的邻居，以此类推。对图卷积进行relu激活操作，构成图神经网络。

5.根据权利要求1所述的一种基于深度强化学习的多智能体路径规划方法，其特征在于，所述步骤s4中：

所述训练的具体过程为：在一个训练episode开始时，概率地将图神经网络处理后的局部地图信息随机输入模仿学习模块或强化学习模块之一，模仿学习将给出专家策略加速强化学习的试错探索过程，帮助收敛到最优策略。二者优化同一策略网络参数。

所述强化学习部分利用异步优势演员-评论家算法进行探索训练，演员网络计算出移动动作策略π，评论家网络计算出上述移动动作的价值v，通过v的损失函数进行梯度下降优化策略网络。

所述模仿学习，模仿专家算法产生的观察-动作对轨迹，所述专家算法为多智能体路径规划算法greedy-conflictbasedsearch(gcbs)，计算当前策略π与此专家策略的交叉熵，进行梯度下降，实现策略网络的梯度更新，从而使策略更接近专家算法。

技术总结
本发明公开了一种基于深度强化学习的多智能体路径规划方法。该方法是一种分布式的路径规划方法，将单个智能体的局部观察信息输入神经网络，利用图神经网络传递智能体间信息，训练神经网络近似策略函数，从而输出移动策略。使用深度强化学习与模仿学习相结合的方法训练神经网络参数，使得回报函数收敛更快。在训练后可实现上千智能体规模下、四邻域2D栅格地图中较高的群体路径规划成功率，即为每个智能体在时间限制内成功规划出一条从起点至终点的无碰撞路线。且对地图尺寸、障碍物密度的变化适应性较强。

技术研发人员：范钰捷;林志赟;王博;程自帅;韩志敏
受保护的技术使用者：杭州电子科技大学
技术研发日：2021.04.28
技术公布日：2021.07.23

完整全部详细技术资料下载

当前第2页1 2