基于去中心化优先级的通信协作多智能体路径规划方法与流程

文档序号:35667500发布日期:2023-10-07 11:22阅读:45来源:国知局
基于去中心化优先级的通信协作多智能体路径规划方法

本发明涉及的是一种多智能体路径规划领域的技术,具体是一种基于去中心化优先级的通信协作多智能体路径规划方法。


背景技术:

1、现有智能体路径规划技术根据给定的优先级从高到低顺序进行路径规划,优先级高的智能体规划路径时不用考虑与其他低优先级智能体的碰撞问题,而优先级低的智能体要避免与高优先级的智能体发生碰撞。具体而言地,优先级可以人为设置或随机分配,但目前去中心化的框架下的启发式优先级计算方式难以兼顾优先级设置的全局最优性和优先级的动态变化。现有基于蚁群算法的多智能体强化学习路径规划方法虽然结合了多智能体深度强化学习方法和蚁群算法的思想以解决多智能体的路径规划问题,但这类技术在面临智能体数量动态变化的场景时难以保证规划结果稳定,要求每个智能体都需要观测到全局的地图也限制了该类技术在问题规模扩大的场景下的应用。


技术实现思路

1、本发明针对现有技术在去中心化设置下优先级计算方式的不足,提出一种基于去中心化优先级的通信协作多智能体路径规划方法,通过从专家策略中学习优先级信息,学习整体最优的优先级分配,并以此优先级信息为指导构建动态的去中心化拓扑通信架构,获得更具协作能力的去中心化路径规划策略,以适应不同智能体数量的多智能体环境,能够将多智能体强化学习技术扩展到大规模多智能体路径规划任务的、提高规划性能、减少碰撞率。

2、本发明是通过以下技术方案实现的:

3、本发明涉及一种基于优先级通信的多智能体路径规划方法,在离线阶段构建并随机初始化所有智能体共享的多智能体决策网络,利用自组织路由协议算法对所有智能体进行通信分组,形成局部通信群组并训练多智能体决策网络;在在线阶段,基于训练后的多智能体决策网络,自动引导车集群将在完成路径规划任务中动态地进行分组通信,将系统总体的路径规划任务分解为若干局部路径规划任务的加总,实现避让决策和路径规划。

4、所述的多智能体决策网络包括:用于接收空间特征输入的多层卷积神经网络、用于接收非空间特征输入的全连接神经网络以及用于融合多层卷积神经网络和全连接神经网络输出的由多层全连接神经网络层和lstm组成的基于通信消息辅助决策的深度神经网络。

5、技术效果

6、本发明根据全局最优规划结果,通过模仿学习和自组织路由协议,构建去中心化视角下的动态优先级拓扑结构,并在通信过程中引入上述学习得到的优先级信息。相比现有技术,能够在去中心化的多智能体路径规划框架下,通过学习得到的优先级信息提升通信协作的能力,从而显著降低不同智能体之间的碰撞率并提升总体的规划性能。



技术特征:

1.一种基于优先级通信的多智能体路径规划方法,其特征在于,在离线阶段构建并随机初始化所有智能体共享的多智能体决策网络,利用自组织路由协议算法对所有智能体进行通信分组,形成局部通信群组并训练多智能体决策网络;在在线阶段,基于训练后的多智能体决策网络,自动引导车集群将在完成路径规划任务中动态地进行分组通信,将系统总体的路径规划任务分解为若干局部路径规划任务的加总,实现避让决策和路径规划。

2.根据权利要求1所述的基于优先级通信的多智能体路径规划方法,其特征是,具体包括:

3.根据权利要求1或2所述的基于优先级通信的多智能体路径规划方法,其特征是,所述的多智能体决策网络包括:用于接收空间特征输入的多层卷积神经网络、用于接收非空间特征输入的全连接神经网络以及用于融合多层卷积神经网络和全连接神经网络输出的由多层全连接神经网络层和lstm组成的基于通信消息辅助决策的深度神经网络。

4.根据权利要求2所述的基于优先级通信的多智能体路径规划方法,其特征是,所述的步骤五,具体包括:

5.根据权利要求2所述的基于优先级通信的多智能体路径规划方法,其特征是,所述的更新是指:通过采用随机梯度下降算法最小化如下损失函数来更新全局共享的决策网络参数θ:其中:为隐式优先级学习中隐式优先级的交叉熵损失,αimp为其权重系,为动作的多分类交叉熵损失;

6.根据权利要求2所述的基于优先级通信的多智能体路径规划方法,其特征是,所述的贝尔曼误差其中:而表示一个较小但大于0的熵权重,为状态值函数端输出;

7.一种实现权利要求1-6中任一所述多智能体路径规划方法的系统,其特征在于,包括:隐式优先级学习模块以及优先级通信模块,其中:隐式优先级学习模块根据当前智能体的局部观测信息作为输入,经过神经网络推理输出关联当前局部观测信息的隐式优先级得到去中心化视野下具有协作避让指导意义的结果;优先级通信模块根据智能体输出的隐式优先级,动态更新通信拓扑结构,经过决策单元根据当前观测以及接收到的通信消息计算得到下一时刻的移动决策结果。

8.根据权利要求7所述的系统,其特征是,所述的隐式优先级学习模块包括:局部观测编码单元和隐式优先级输出单元,其中:局部观测编码单元根据当前智能体的局部观测信息,进行编码处理得到对当前周边信息的编码;隐式优先级输出单元根据当前周边信息的编码,经过神经网络推理得到隐式优先级的输出。

9.根据权利要求7所述的系统,其特征是,所述的优先级通信模块包括:局部观测编码单元、通信单元以及决策单元,其中:局部观测编码单元根据当前智能体的局部观测信息,进行编码处理得到对当前周边信息的编码;通信单元根据局部观测范围内的通信群组信息,进行聚集处理得到融合所有周边通信信息的消息编码;决策单元根据局部观测编码信息和消息编码,进行融合处理并经过神经网络推理得到当前智能体的下一时刻的移动决策结果。


技术总结
一种基于去中心化优先级的通信协作多智能体路径规划方法,在离线阶段构建并随机初始化所有智能体共享的多智能体决策网络,利用自组织路由协议算法对所有智能体进行通信分组,形成局部通信群组并训练多智能体决策网络;在在线阶段,基于训练后的多智能体决策网络,自动引导车集群将在完成路径规划任务中动态地进行分组通信,将系统总体的路径规划任务分解为若干局部路径规划任务的加总,实现避让决策和路径规划。本发明通过从专家策略中学习优先级信息,学习整体最优的优先级分配,并以此优先级信息为指导构建动态的去中心化拓扑通信架构,获得更具协作能力的去中心化路径规划策略,能够将多智能体强化学习技术扩展到大规模多智能体路径规划任务的、提高规划性能、减少碰撞率。

技术研发人员:王祥丰,李文浩,陈宏俊,刘大猷,金博,朱骏
受保护的技术使用者:之江实验室
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1