本发明涉及智能交通系统,特别涉及一种车路协同基于可泛化强化学习的网联自动驾驶车辆匝道合流控制方法。
背景技术:
1、快速路入口匝道合流区是典型的交通流瓶颈,频繁的换道和车辆冲突常导致效率下降和事故率上升。网联自动驾驶车辆(connected and automated vehicles,cav)通过提供更精准和高效的控制手段,有望提升快速路匝道合流区的效率与安全。然而,当前cav主要依赖于自身的视觉传感器、毫米波雷达等设备进行环境感知,再通过车载控制单元进行决策。这种“单车智能”系统在常规场景下表现良好,但在复杂场景中应对能力仍显不足。cav控制的关键目标是在保证安全的前提下提升单车和整体交通流的效益,但面临两大核心难点:(1)车载传感器感知范围有限、环境信息获取不全,从而导致控制策略不准,缺乏对整体交通流效益的考虑;(2)cav数量多且需快速反应,分布式控制虽然可以减少计算时长,但面临泛化性挑战,亟需构建面向随机环境的可泛化通用性算法,实现车辆协同控制。
2、基于单车智能的cav控制仅依赖车载传感器,其感知范围通常在150m左右,感知视野相对有限,需要与路侧信息相结合进行匝道合流控制。虽然部分研究已经引入了路侧信息,但此类研究尚未综合考虑匝道和主线cav周围的车辆特征及整体交通流状况,从而限制了协同感知和控制,合流效率仍需提升。
3、当前匝道合流控制方法可以分为集中式控制和分布式控制两类。集中式控制是由一个中央控制器全局决策所有车辆任务,随着cav数量的增加,集中式控制方法会面临维度灾难的问题,导致计算复杂度显著上升。因此分布式控制在此场景中更为合适,虽然分布式控制方法已取得一定进展,但随机交通环境中车辆数量的动态变化、主线与匝道cav的差异,以及复杂的混合流环境,限制了算法的泛化能力。因此,迫切需要一种能够在随机环境下可泛化的分布式控制控制模型,以实现更大规模的车辆协同控制。
技术实现思路
1、本发明的目的是克服上述现有技术在人工驾驶车辆与cav混行环境下,基于单车智能路线的合流控制方法仍面临感知范围受限和分布式控制泛化难的问题,而提供一种基于车路协同的可泛化强化学习入口匝道合流控制方法。
2、本发明的目的可以通过以下技术方案来实现:
3、一种基于强化学习的车路协同入口匝道合流控制方法,用于对匝道和主线合流区域内搭载有智能体的网联自动驾驶车辆cav进行合流控制,具体步骤包括:
4、通过路侧摄像头获取全局交通环境感知信息;
5、路侧单元从交通环境感知信息中提取特征作为cav状态,并将cav的状态发布给各网联自动驾驶车辆cav;
6、网联自动驾驶车辆cav通过所搭载的智能体基于cav状态做出换道动作;其中,控制区域内所有cav共享同一套智能体网络参数,所述智能体通过计算奖励函数对动作进行评估,并采用双重深度q网络算法进行训练;所述的奖励函数综合考虑了车辆安全、效率、动作执行效果以及对周围车辆速度的影响,并同时优化网联自动驾驶车辆cav个体状态与合流区域整体效率。
7、作为优选技术方案,所述的全局交通环境感知信息包括匝道和主线控制区域内所有车辆的特征及整体交通流状况。
8、作为优选技术方案,所述的cav状态包括个体车辆状态sveh和集计交通流状态straffic;
9、所述的个体车辆状态信息包括横纵向位置和速度:
10、sveh=(li,xi,vi),i∈{ego,lf,lr,f,r,rf,rr}
11、其中,li是车辆所在的车道编号;xi是车辆距合流终点的距离;vi是车辆的速度;i属于一个集合,集合包含7辆车,即本车ego、左侧前车lf、左侧后车lr、前方车辆f、后方车辆r、右侧前车rf、右侧后车rr;
12、所述的集计交通流状态信息包括外侧、中间和内侧三条车道的平均速度:
13、straffic=(vout,avg,vmid,avg,vin,avg)
14、其中,vout,avg是外侧车道的速度,vmid,avg是中间车道的速度,vin,avg是内侧车道的速度。
15、作为优选技术方案,所述方法的在状态空间中:
16、对于位于内侧车道的车辆:将其左前方和左后方车辆设定为虚拟车辆,纵向位置和速度与本车相同;
17、对于位于外侧车道的车辆:将其右前方和右后方的车辆设定为虚拟车辆,纵向位置和速度与本车相同;
18、对于位于主线合流区前中间车道的车辆:通过将本车投影到匝道的虚拟位置来获取其右前方和右后方车辆信息;
19、对于位于主线合流区内中间车道的车辆:周围车辆信息根据实际车道上的车辆来获取;
20、对于位于入口匝道车辆:通过将本车投影到主线的虚拟位置来获取其左前方和左后方车辆信息;
21、如果本车之外不存在其他车辆,但是其对应位置存在实际车道:1)将对应位置的车辆设为距离本车设定距离的虚拟车辆,速度与本车相同,2)对于处于匝道或加速车道上的车辆,若无前车,则假设在合流终点处存在一辆速度为0的虚拟车辆,以激励匝道车辆及时换道汇入主线。
22、作为优选技术方案,所述奖励函数表示如下:
23、r=wsrs+wcrc+whrh+wm1rm1+wm2rm2+wm3rm3+wara+ws,surrrs,surr
24、其中,rs为车辆速度的奖励;rc,rh分别为事故的惩罚以及车头时距小于预定义车头时距的惩罚;rm1,rm2,rm3,ra分别为匝道车辆停留在加速车道的惩罚、主线车辆换道到加速车道的惩罚、匝道车辆汇入主线的奖励以及本车动作完成的奖励;rs,surr为周围受影响车辆的平均速度的奖励;ws、wc、wh、wm1、wm2、wm3、wa、ws,surr分别是奖励rs、rc、rh、rm1、rm2、rm3、ra、rs,surr对应的权重。
25、作为优选技术方案,所述的车辆速度奖励rs定义为:
26、
27、其中,vt是车辆当前的速度,vmax是车辆最大速度。
28、作为优选技术方案,所述奖励函数中安全类奖励包括:
29、事故惩罚项rc,如果车辆发生事故,事故惩罚为-1;若未发生事故,惩罚为0;
30、车头时距小于预定义车头时距的惩罚项rh,当车头时距小于th时,车辆将受到惩罚,惩罚的绝对值最大为1;而当车头时距大于等于th时,车辆不受惩罚,表示为:
31、
32、其中,dheadw是车头间距,vt是车辆当前速度,th是预定义的车头时距阈值。
33、作为优选技术方案,所述奖励函数中动作类奖励包括:
34、匝道车辆停留在加速车道的惩罚rm1:鼓励匝道车辆迅速完成换道,当车辆刚驶入加速车道时,惩罚接近于0,随着车辆接近合流终点,惩罚的绝对值逐渐增加,当车辆到达合流终点时,即x=0,惩罚为-1,表示为:
35、
36、其中,x表示车辆距合流终点的距离,l表示加速车道的长度;
37、主线车辆换道到加速车道的惩罚rm2,如果主线车辆换道到最外侧车道,则主线车辆换道到加速车道的惩罚为-1;否则,惩罚为0;
38、匝道车辆汇入主线的奖励rm3,如果匝道车辆成功汇入主线,则匝道车辆汇入成功奖励为1;否则,汇入成功奖励为0;
39、本车动作完成的奖励ra,如果动作执行完成,则本车动作完成的奖励为1;否则,奖励为0。
40、作为优选技术方案,所述奖励函数中协同类奖励包括:
41、周围受影响车辆的平均速度的奖励rs,surr,考虑cav动作对周围车辆的影响以优化车辆间的协同行为,表示为:
42、
43、其中,vmax是最大速度,vn,t是受影响车辆的速度,n是当前时刻受影响的车辆数。
44、作为优选技术方案,所述的双重深度q网络强化学习算法分离动作的选择和评估过程,基于当前网络来选择最优动作,而目标网络则用于评估这个动作的价值,ddqn的目标q值定义为:
45、ytd=rt+γq(st+1,a*;θt-)
46、其中,ytd是ddqn算法得到的目标q值;a*是下一时刻使得状态st+1的q值最大的动作,即θt是当前网络的参数,θt-是目标网络的参数;
47、通过最小化td误差来更新当前神经网络,损失函数定义为:
48、
49、其中,ytd是目标q值,q(st,at;θt)是当前网络的q值;
50、为加速训练进程并提升模型性能,采用优先经验回放策略,根据优先级来对经验回放缓冲区中的样本采样学习;目标网络采用软更新策略,每更新n次当前网络的参数后更新一次目标网络的参数,目标网络软更新率t。
51、与现有技术相比,本发明具有以下有益效果:
52、1)本发明通过路侧单元扩展cav的感知范围,并设计了一种通用的状态表征方法,适用于不同车道、位置和车辆数量的场景。输入状态包括周围车辆的位置、速度信息和合流区的平均速度。cav根据状态选择换道动作,并通过奖励函数对动作进行评估。奖励函数综合考虑了cav的安全性、运行效率、动作执行效果及对周围车辆速度的影响,通过协同控制提升了交通效率和安全性。
53、2)本发明所提出的基于车路协同的合流控制方案,扩展了cav的感知范围;并设计了一种通用的cav状态表征方法,对于个体车辆状态信息采用相对距离,从而避免考虑匝道与主线道路的夹角,从而增强模型的通用性;对于合流区的平均速度信息基于路侧整体视角,考虑车辆决策对合流区平均速度的影响,同时,利用不同车道的速度作为换道决策的依据,促使车辆提前规划换道以获取更优速度。可适用于不同车道、位置和车辆数量的合流场景,并且能够综合表征cav周围车辆特征和路侧交通流信息,有效提升合流效率。
54、3)本发明设计的可泛化的强化学习分布式控制模型,在奖励函数设计方面为了同时优化cav个体状态与合流区整体效率,奖励函数综合考虑了车辆安全、效率、动作执行效果以及对周围车辆速度的影响,适用于主线和匝道cav;控制区内所有cav共享同一套智能体网络参数,通过参数共享和分布式控制,可灵活应对cav的车道、位置和数量变化等不同场景。