一种基于深度强化学习的多智能体路径规划方法

文档序号:26009804发布日期:2021-07-23 21:29阅读:1009来源:国知局
一种基于深度强化学习的多智能体路径规划方法

本发明属于人工智能技术领域,具体是涉及一种基于深度强化学习的多智能体路径规划。



背景技术:

多智能体路径规划是一类寻找多个智能体从起始位置到目标位置且无冲突的路径集合的问题,同时实现最优约束:如所有智能体的路径之和或行动成本之和最小化、吞吐量最大化等。针对该问题的研究在物流、无人车、军事、安防、游戏等领域有着大量的应用场景。

单个智能体的路径规划的传统算法在国内外已有较多方法,比如a*算法、粒子群算法、遗传算法、蚁群算法、模拟退火算法等。而随着工业、生活水平要求的提高,单智能体的工作往往不能满足实际应用需求。能够实现群体协调的多智能体路径规划技术应运而生:传统算法中有m*,cbs,whca*及其变体等算法,可以实现300个以下智能体的路径规划。使用深度强化学习方法的有dqn、q-learning、maddpg等结构,也取得了一定的成果。

但是,基于深度强化学习的多智能体路径规划还面临着以下几个具体的问题:在各种地图尺寸、高密度障碍物情况下,自适应性较差。智能体间缺乏通信,从而导致规划信息闭塞,造成拥堵;随着智能体数量的增加,大多数路径规划方法的状态-行为空间的会产生维度爆炸,需要非常大量的计算,规划成功率(为每个智能体在时间限制内成功规划出一条从起点至终点的无碰撞路线)有限;训练效率较低,训练时间较长。



技术实现要素:

鉴于目前存在的上述不足,本发明所要解决的技术问题在于现有技术中智能体间缺乏通信;多变地图情况下的适应性差;较多智能体信息易产生维度爆炸的局限性;强化学习算法框架设计造成的回报收敛慢、训练进程慢。从而本申请提出一种基于深度强化学习的多智能体路径规划方法。该方法是一种分布式的路径规划方法,将单个智能体的局部观察信息输入卷积神经网络处理,利用图神经网络传递智能体间信息,训练神经网络近似策略函数,从而输出移动策略。使用深度强化学习与模仿学习相结合的方法训练神经网络参数,使得回报函数收敛更快。在训练后可实现上千智能体规模下、四邻域2d栅格地图中较高的群体路径规划成功率,即为每个智能体在时间限制内成功规划出一条从起点至终点的无碰撞路线。且对地图尺寸、障碍物密度的变化适应性较强。

为达到上述目的,本发明的技术方案如下:一种基于深度强化学习的多智能体路径规划方法,包括如下步骤:

s1:生成情况复杂的数据集,所述数据集中将随机生成每个智能体的起始点、目标点,不同的2d栅格正方形地图尺寸、障碍物密度以及智能体数量随机组合。

s2:将地图局部信息张量输入卷积神经网络预处理,所述地图局部信息为以单个智能体本体为中心,边长为rlocal个栅格的正方形范围内地图信息。

s3:利用图神经网络传递s2处理后的智能体间的局部信息。

s4:通过模仿学习与强化学习相结合的方法,训练算法网络参数。每个智能体拷贝一个算法网络的副本,输出策略,时序选择智能体上、下、左、右、无移动之一的动作策略。

进一步地,所述步骤s1中:

s1:使用python生成或手动设计全局栅格地图、障碍物、一定数量智能体起始点和目标点二进制地图。栅格地图为边长10、50或100的正方形;障碍物密度为整个地图中障碍物栅格数量占地图栅格数量的百分比,可选择为10%、30%或50%;智能体数量可选择为4、8、32、512或1024个,智能体必须可达目标点,即相连通。生成的地图中,遍历以上组合。

进一步地,所述步骤s2中:

所述地图局部信息张量包括:

(1)障碍物,且边界视作障碍;

(2)其他智能体位置坐标;

(3)本智能体目标点坐标,若此坐标在局部范围外,则将智能体与其目标点连线,投影在边界的点作为目标坐标点;

(4)其他智能体的目标点坐标。

进一步地,所述步骤s3中:

s31:在一个时间步t内,构建图,具体为:每个智能体抽象为点,智能体观察到的局部信息即为该点特征xt,在rlocal内的智能体为邻居,智能体与其邻居之间为边。

s32:构建邻接矩阵st,记录所有智能体的邻居信息。邻接矩阵st中第一行为当前点的索引,其他行为当前点的邻居。

s33:计算出图卷积其中表示与邻居的第k次信息融合,k为此次融合需要训练的卷积过滤器。图卷积表示的是此点与k跳邻居进行的信息融合,1跳指的是自己,2跳指邻居,3跳指邻居的邻居,以此类推。对图卷积进行relu激活操作,构成图神经网络。

进一步地,所述步骤s4中:

所述训练的具体过程为:在一个训练episode开始时,概率地将图神经网络处理后的局部地图信息随机输入模仿学习模块或强化学习模块之一,模仿学习将给出专家策略加速强化学习的试错探索过程,帮助收敛到最优策略。二者优化同一策略网络参数。

所述强化学习部分利用异步优势演员-评论家算法进行探索训练,演员网络计算出移动动作策略π,评论家网络计算出上述移动动作的价值v,通过v的损失函数进行梯度下降优化策略网络。

所述模仿学习,模仿专家算法产生的观察-动作对轨迹,所述专家算法为多智能体路径规划算法greedy-conflictbasedsearch(gcbs),计算当前策略π与此专家策略的交叉熵,进行梯度下降,实现策略网络的梯度更新,从而使策略更接近专家算法。

本发明的有益效果在于:本发明利用局部信息的交换、单智能体神经网络的设计实现了分布式的路径规划算法,即如同现实中机器人仅能感知到局部环境,进行每个智能体自主在线规划,与中心式的规划相比,有效降低维度爆炸带来的计算成本,并能快速计算出规划路径;利用图神经网络传递多个智能体间的局部地图信息,从而了解其他智能体的动作目的,有效提升规划成功率;强化学习与模仿学习相结合的训练方法,提升强化学习的试错探索模式的效率,实现了训练、收敛速度的提高,且模仿专家算法使碰撞减少,从而体现出群体的协调。

附图说明

图1为本发明一个实施例的一种基于深度强化学习的多智能体路径规划方法的流程图;

图2为本发明一个实施例的一种基于深度强化学习的多智能体路径规划方法的具体神经网络结构示意图;

图3为本发明一个实施例的一种基于深度强化学习的多智能体路径规划方法中步骤s1中的地图信息示意图;

图4为本发明一个实施例的一种基于深度强化学习的多智能体路径规划方法步骤s2中4层局部观察张量示意图;

图5为本发明一个实施例的一种基于深度强化学习的多智能体路径规划方法中步骤s3中的邻域地图、图、邻接矩阵转化示意图;

图6为本发明一个实施例的一种基于深度强化学习的多智能体路径规划方法步骤s4中强化学习与模拟学习方法结合示意图;

具体实施方式

如图1和图2所示,为本发明的方法流程和具体的算法网络结构,本发明提出的一种基于深度强化学习的多智能体路径规划方法,包括如下步骤:

s1:生成情况复杂的数据集,所述数据集中将随机生成每个智能体的起始点、目标点,不同的2d栅格正方形地图尺寸、障碍物密度以及智能体数量随机组合。

使用python生成或手动设计全局栅格地图、障碍物、一定数量智能体起始点和目标点二进制地图。栅格地图为边长10、50、100的正方形;障碍物密度为整个地图中障碍物栅格数量占地图栅格数量的百分比,可选择为10%、30%、50%;智能体数量为4、8、32、512、1024个,智能体必须可达目标点,即相连通。生成的地图中,以上遍历组合,各项分别由二进制矩阵表示。如图3所示,生成边长为10,障碍物密度为10%,智能体数量为4的地图。

s2:将地图局部张量输入卷积神经网络预处理,所述局部信息ot为以单个智能体本体为中心,边长为rlocal栅格的正方形范围内地图信息。所述神经网络架构:3个卷积层、1个最大池化层、2个全连接层。如图4所示为rlocal=7时地图局部张量,具体包括:

(1)a’:障碍物,若局部视野在全局地图之外,则将边界视作障碍;

(2)b’:本智能体(智能体1)目标点坐标,若此坐标在局部范围外,则将智能体与其目标点连线,投影在边界的点作为目标坐标点;

(3)c’:其他智能体(智能体2、3)位置坐标;

(4)d’:其他智能体的目标点坐标。

s3:如图5所示,利用图神经网络传递s2中预处理后的智能体间的局部信息。

s31:在一个时间步t内,如图5中a’:在rlocal为7个栅格内的智能体为邻居,b’:构建图,每个智能体抽象为点,s2预处理后的此智能体观察到的局部信息即为该点特征xt,在rlocal内的智能体为邻居,智能体与其邻居之间为边。

s32:如图5中c’:构建邻接矩阵st,记录所有智能体的邻居信息。第一行为当前点的索引,其他行为当前点的邻居。

s33:计算出图卷积其中表示与邻居的第k次信息融合,ak为此次融合需要训练的卷积过滤器。邻居也同样进行了图卷积操作,所以图卷积表示的是此点与k跳邻居进行的信息融合,1跳指的是自己,2跳指邻居,3跳指邻居的邻居,以此类推。如图5进行了2跳邻居的信息融合。对图卷积进行relu激活操作,构成图神经网络。

s4:通过模仿学习与强化学习相结合的方法,训练算法网络参数。每个智能体拷贝一个算法网络的副本,输出策略值矩阵,每个时间步选择策略向量矩阵中的最大值对应的动作:上、下、左、右、无移动之一。

如图6所示,模仿学习与强化学习相结合的具体方法为在一个训练episode开始时,概率地将s3中图神经网络处理后的局部地图信息,输入模仿学习模块或强化学习模块之一,模仿学习将给出专家策略加速强化学习的试错探索过程,帮助收敛到最优策略。二者优化同一策略网络参数。

所述强化学习部分利用异步优势演员-评论家算法进行探索训练,演员网络通过优势函数梯度下降优化策略网络,网络计算出移动动作策略π,优势函数为其中设t为指定时间步数或到达目标时的步数,θ为价值网络参数,γ为折扣因子,rt为奖励函数,k为步数,p(at∣π,o;θ)为选择动作at的概率。评论家网络计算出上述移动动作的价值v,通过v的损失函数进行梯度下降优化策略网络,其中θ’为价值网络参数,rt为由奖励函数计算的累计回报。

所述模仿学习部分即模仿专家算法产生的观察-动作对轨迹,所述专家算法为:传统多智能体路径规划算法greedy-conflictbasedsearch(gcbs),计算当前策略π与此专家策略动作的交叉熵进行梯度下降,实现策略网络的梯度更新,从而使策略更接近专家算法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1