一种基于智能网联车的交叉路口管理方法

文档序号:34654293发布日期:2023-06-29 22:38阅读:45来源:国知局
一种基于智能网联车的交叉路口管理方法

本发明涉及智能化交通,尤其是涉及一种基于智能网联车的交叉路口管理方法。


背景技术:

1、近年来,交通拥堵问题一直是一个亟待解决的重要问题,现在的交通信号灯灵活性较差,相位变换存在上限,交通拥堵愈发严重,而在这其中交叉路口是一个进行堵塞优化的关键结点。随着车联网和人工智能技术的发展,希望通过对交叉路口进行智能化管理已达到解决交通拥堵的目的,有信号的交叉路口智能化管理受限于信号灯本身,可以很快的取得一定效果,但是上限较低,因此大部分研究集中在无信号交叉路口智能化管理。

2、在智能化交通领域,有三个关键技术:低延时车联网、智能网联车以及道路计算单元,通过结合这三者技术,可以在一定程度上对现阶段每个交通问题进行智能化管理,交叉路口也不例外。车联网技术是一个基础技术,和如今的通信网络类似,智能网联车是现在车辆的发展方向,车辆逐渐具备计算能力和通信能力,分为智能车和网联车两种,如图1所示,智能车一般认为是可以进行智能驾驶的车辆,因此具有能直接与控制模块相连的决策模块,网联车是可以连接到车联网网络,但还是由驾驶员进行驾驶的车辆。

3、道路计算单元一般由路口计算单元和计算服务器构成,相较于智能车和网联车,道路计算单元造价昂贵,成本高昂,在每一个路口都设置道路计算单元很不现实,因此针对众多的小型交叉路口,如何构建分布式策略,利用车辆本身的计算能力来替代造价高昂的道路计算单元,以达到智能化交叉路口管理的目标,是目前亟需解决的问题。

4、同时,分布式方案固然可以大幅度减少因为建造道路计算单元而产生的成本开销,但是在如何收敛和优化算法上存在很大的难度,因为缺少了中心结点后,整个路口在大部分情况下并没有一个接受全局车辆信息的结点,导致每个分布式结点(车辆)在接收路口信息时会不全面,在算法优化时就会带来环境不稳定而难以收敛优化的问题。


技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于智能网联车的交叉路口管理方法。

2、本发明的目的可以通过以下技术方案来实现:

3、一种基于智能网联车的交叉路口管理方法,包括以下步骤:

4、构建多智能体强化学习模型,智能体定义为每辆进入交叉路口的智能车;

5、设定智能车与网联车之间的协同数据通信,基于协同通信数据,为每个智能体定义局部状态空间、局部动作空间和奖励函数;

6、通过ra-maddpg算法对每个智能体进行训练和优化,得到训练好的模型,最后将训练好的模型部署于智能车中,通过模型引导智能车运行实现交叉路口管理。

7、进一步地,所述ra-maddpg算法为多智能体残差注意力机制深度确定性策略网络算法,采用中心式训练分布式执行的思想和注意力网络的残差连接相结合,算法构建包括算法建模步骤及算法训练和更新步骤,所述算法建模步骤包括:

8、构建全局状态空间;

9、构建局部观测空间;

10、构建动作空间;

11、构建奖励函数。

12、进一步地,所述构建全局状态空间包括:

13、获取交叉路口中每辆车的运行信息,将每辆车的运行信息用数字表示,所述运行信息包括位置坐标、速度大小及方向;

14、依次得到各辆车用数字表示的运行信息,记为si,全局的状态空间表示为:n表示路口中车辆的总数。

15、进一步地,所述动作空间定义为智能车的油门、刹车和方向盘转向角。

16、进一步地,所述奖励函数定义为:

17、

18、v为车辆当前速度,vmax为车辆的最大速度,vmin为车辆的最小速度,collision表示车辆是否发生碰撞,arrived表示车辆是否到达目的地,interact表示车辆之间是否进行信息交互,η1,η2,η3,η4分别表示各项系数。

19、进一步地,每个智能体具有独立的策略网络、q值网络及残差注意力网络;

20、所述策略网络的输入是车辆局部观测状态,即根据车辆自身能力所能获取到的附近车辆信息,将该信息输入到残差注意力网络得到相应的车辆权重信息,并且和原始附近车辆信息进行残差连接,将拼接后的结果共同作为策略网络的输入;

21、所述策略网络的输出为每个智能车的动作空间;

22、所述q值网络为中心式评论员架构,q值网络的输入为车辆全局观测状态和车辆全局动作,q值网络的输出为当前策略的q值,表示对当前智能车所采取策略的评分。

23、进一步地,所述策略网络的输出增加有高斯白噪声,以便于算法收敛。

24、进一步地,所述算法训练和更新步骤包括对分布式策略网络进行更新以及对全局q值网络进行梯度更新,在训练最开始时,算法采取随机策略进行动作输出和打分,得到一系列动作a、状态x、采取动作后的下一个状态x’以及同时所获得的即时奖励r,将四种数据以四元组的方式存储起来,当存储数据的大小满足进行随机梯度下降的批大小后,对网络进行更新。

25、进一步地,对于q网络,目标函数表示为最小化目标值和估计值之间的均方差,表示为:

26、

27、表示车辆全局观测状态经过残差注意力网络后的输出,y表示目标值,有:

28、

29、μ表示策略网络,γ表示折扣因子,ok表示第k个车辆局部观测状态经过残差注意力网络后的输出;ne表示第e个智能车,k=1,2…ne,r为车辆选取动作后所获得的即时奖励。

30、将下一个车辆局部观测状态值和由策略网络输出的车辆动作值代入到q值网络中得到下一个状态动作值q’,与即时奖励相加就得到目标值。

31、进一步地,对于估计策略网络,需要让其输出使得q值网络的输出越大越好,策略梯度表示为:

32、

33、与现有技术相比,本发明具有以下有益效果:

34、1、本发明通过构建多智能体强化学习模型,智能体定义为每辆进入交叉路口的智能车,使用车辆本身的计算能力来替代造价高昂的道路计算单元,达到智能化交叉路口管理的目标,能够有效节省交通控制成本。

35、2、本发明提出ra-maddpg算法对每个智能体进行训练和优化,将训练好的模型部署于智能车中,通过模型引导智能车运行,达到分布式智能化路口管理、车辆快速且安全通行的目的,控制方法简单有效。

36、3、本发明提出的ra-maddpg算法采用中心式训练分布式执行的策略,每一个智能体拥有独立的策略网络、q值网络和残差注意力网络,算法创新点在于中心式训练分布式执行的思想和注意力网络的残差连接相结合,加速算法收敛和取得更优性能。相比于主流分布式算法,本发明提出的算法可以更快的收敛且取得更低的平均车辆通行延时。



技术特征:

1.一种基于智能网联车的交叉路口管理方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于智能网联车的交叉路口管理方法,其特征在于,所述ra-maddpg算法为多智能体残差注意力机制深度确定性策略网络算法,采用中心式训练分布式执行的思想和注意力网络的残差连接相结合,算法构建包括算法建模步骤及算法训练和更新步骤,所述算法建模步骤包括:

3.根据权利要求1所述的一种基于智能网联车的交叉路口管理方法,其特征在于,所述构建全局状态空间包括:

4.根据权利要求1所述的一种基于智能网联车的交叉路口管理方法,其特征在于,所述动作空间定义为智能车的油门、刹车和方向盘转向角。

5.根据权利要求1所述的一种基于智能网联车的交叉路口管理方法,其特征在于,所述奖励函数定义为:

6.根据权利要求2所述的一种基于智能网联车的交叉路口管理方法,其特征在于,每个智能体具有独立的策略网络、q值网络及残差注意力网络;

7.根据权利要求6所述的一种基于智能网联车的交叉路口管理方法,其特征在于,所述策略网络的输出增加有高斯白噪声,以便于算法收敛。

8.根据权利要求6所述的一种基于智能网联车的交叉路口管理方法,其特征在于,所述算法训练和更新步骤包括对分布式策略网络进行更新以及对全局q值网络进行梯度更新,在训练最开始时,算法采取随机策略进行动作输出和打分,得到一系列动作a、状态x、采取动作后的下一个状态x’以及同时所获得的即时奖励r,将四种数据以四元组的方式存储起来,当存储数据的大小满足进行随机梯度下降的批大小后,对网络进行更新。

9.根据权利要求8所述的一种基于智能网联车的交叉路口管理方法,其特征在于,对于q网络,目标函数表示为最小化目标值和估计值之间的均方差,表示为:

10.根据权利要求9所述的一种基于智能网联车的交叉路口管理方法,其特征在于,对于估计策略网络,需要让其输出使得q值网络的输出越大越好,策略梯度表示为:


技术总结
本发明涉及一种基于智能网联车的交叉路口管理方法,包括以下步骤:构建多智能体强化学习模型,智能体定义为每辆进入交叉路口的智能车;设定智能车与网联车之间的协同数据通信,基于协同通信数据,为每个智能体定义局部状态空间、局部动作空间和奖励函数;通过算法对每个智能体进行训练和优化,得到训练好的模型,最后将训练好的模型部署于智能车中,通过模型引导智能车运行实现交叉路口管理。与现有技术相比,本发明使用车辆本身的计算能力来替代道路计算单元,提出多智能体残差注意力机制深度确定性策略网络算法控制智能车运动,采用中心式训练分布式执行的思想和注意力网络的残差连接相结合,实现更快的收敛且取得更低的平均车辆通行延时。

技术研发人员:赵生捷,薛锦伟,邓浩
受保护的技术使用者:同济大学
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1