1.一种基于深度强化学习的多智能体路径规划方法,其特征在于,包括如下步骤:
s1:生成情况复杂的数据集,所述数据集中将随机生成每个智能体的起始点、目标点,不同的2d栅格正方形地图尺寸、障碍物密度以及智能体数量随机组合。
s2:将地图局部信息张量输入卷积神经网络预处理,所述地图局部信息为以单个智能体本体为中心,边长为rlocal个栅格的正方形范围内地图信息。
s3:利用图神经网络传递s2处理后的智能体间的局部信息。
s4:通过模仿学习与强化学习相结合的方法,训练算法网络参数。每个智能体拷贝一个算法网络的副本,输出策略,时序选择智能体上、下、左、右、无移动之一的动作策略。
2.根据权利要求1所述的一种基于深度强化学习的多智能体路径规划方法,其特征在于,所述步骤s1中:
s1:使用python生成或手动设计全局栅格地图、障碍物、一定数量智能体起始点和目标点二进制地图。栅格地图为边长10、50或100的正方形;障碍物密度为整个地图中障碍物栅格数量占地图栅格数量的百分比,可选择为10%、30%或50%;智能体数量可选择为4、8、32、512或1024个,智能体必须可达目标点,即相连通。生成的地图中,遍历以上组合。
3.根据权利要求1所述的一种基于深度强化学习的多智能体路径规划方法,其特征在于,所述步骤s2中:
所述地图局部信息张量包括:
(1)障碍物,且边界视作障碍;
(2)其他智能体位置坐标;
(3)本智能体目标点坐标,若此坐标在局部范围外,则将智能体与其目标点连线,投影在边界的点作为目标坐标点;
(4)其他智能体的目标点坐标。
4.根据权利要求1所述的一种基于深度强化学习的多智能体路径规划方法,其特征在于,所述步骤s3中:
s31:在一个时间步t内,构建图,具体为:每个智能体抽象为点,智能体观察到的局部信息即为该点特征xt,在rlocal内的智能体为邻居,智能体与其邻居之间为边。
s32:构建邻接矩阵st,记录所有智能体的邻居信息。邻接矩阵st中第一行为当前点的索引,其他行为当前点的邻居。
s33:计算出图卷积
5.根据权利要求1所述的一种基于深度强化学习的多智能体路径规划方法,其特征在于,所述步骤s4中:
所述训练的具体过程为:在一个训练episode开始时,概率地将图神经网络处理后的局部地图信息随机输入模仿学习模块或强化学习模块之一,模仿学习将给出专家策略加速强化学习的试错探索过程,帮助收敛到最优策略。二者优化同一策略网络参数。
所述强化学习部分利用异步优势演员-评论家算法进行探索训练,演员网络计算出移动动作策略π,评论家网络计算出上述移动动作的价值v,通过v的损失函数进行梯度下降优化策略网络。
所述模仿学习,模仿专家算法产生的观察-动作对轨迹,所述专家算法为多智能体路径规划算法greedy-conflictbasedsearch(gcbs),计算当前策略π与此专家策略的交叉熵,进行梯度下降,实现策略网络的梯度更新,从而使策略更接近专家算法。