基于深度强化学习的高速公路道路协同控制系统及方法与流程

文档序号:23754632发布日期:2021-01-29 15:34阅读:来源:国知局

技术特征:
1.一种基于深度强化学习的高速公路道路协同控制系统,其特征在于:包括交通信息交互模块、交通控制模块、深度学习神经网络训练模块以及交通控制单元;所述交通信息交互模块,用于采集道路的观测信息o
t
,并转化为可用于深度强化学习的交通状态信息s
t
发送给交通控制模块,以及接收交通控制模块和交通控制单元的指令并发送给管辖范围内的车辆;所述交通控制模块,用于根据接收到的交通状态信息s
t
选取最优行为策略a
t
,并将a
t
发送给交通控制单元,将s
t
和a
t
发送给训练模块,其中,a
t
包括系统中所有交通控制单元的动作集合;所述深度学习神经网络训练模块,用于将来自交通控制模块的交通状态信息s
t
和行为策略a
t
存入回放记忆库中,根据奖励函数对神经网络进行训练,使奖励函数的长期累积和最大化,以此优化决策控制网络;所述交通控制单元包括布设于高速公路主线的可变限速控制单元以及布设于入口匝道处的匝道信号控制单元,各控制单元从来自交通控制模块的最优行为策略a
t
中提取相应的动作指令,并将指令通过交通信息交互模块传递给受控路段的车辆;其中,匝道信号控制单元用于将入口匝道的放行流量指令转换成红绿信号周期,可变限速控制单元用于将限速指令转换成具体的可变限速值。2.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统,其特征在于:交通信息交互模块包括若干路侧单元,高速公路主线及入口匝道的每条等距离子路段均配置有采集该子路段交通状态信息的路侧单元,采集的交通状态信息包括相应子路段的车辆密度、平均速度、排队长度。3.根据权利要求2所述的基于深度强化学习的高速公路道路协同控制系统,其特征在于:获取交通状态信息包括如下步骤:(1)当一辆网联汽车驶入某一子路段i时,相应的路侧单元rsu与该车辆建立一个车辆会话vs,并将该会话加入当前路段的车辆会话队列vsq中,vsq中的车辆可与rsu实时信息交互;当车辆驶离该路段时,vs从vsq中自动删除;(2)每个控制时段,rsu从vsq中获取最新的车辆状态,并据此生成路段的实时交通状态信息,并将交通状态信息发送给交通控制模块;其中,获取算法为:q
t,i
=n
stop
式中,n是路段中的车辆数,v
i
是每个车辆的速度,l是路段长度,v
t,i
表示路段i的平均速度,d
t,i
表示路段i的车辆密度,q
t,i
表示路段i的排队长度,n
stop
是路段中停止等待的车辆;(3)交通控制模块计算出控制指令并回传rsu,rsu通过vsq通知所辖范围内的车辆最新指令。4.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统,其特征在于:交通控制模块包括决策控制网络和随机噪声生成模块,并设有执行模式和训练模式;执行模式下,交通控制模块根据当前交通状态信息s
t
直接选择最优的控制策略a
t
;训练模式下,对a
t
加上随机噪声由随机噪声生成模块提供;交通控制模块计算出a
t
后,根据受控路段的编号将对应的控制指令a
t,i
发给该路段的交通控制单元,同时将s
t
和a
t
发送给深度
学习训练模块,评估a
t
的控制效果。5.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统,其特征在于:深度学习神经网络训练模块的训练过程包括如下步骤:(1)在t+1训练时刻,从交通信息交互模块获取前一时刻的交通状态信息s
t
,从控制模块获取协同策略a
t
,从奖励函数模块获取即时奖励r
t
,连同当前时刻的交通状态信息s
t+1
,组成交通状态数据元组(s
t
,a
t
,r
t
,s
t+1
),存入回放记忆库中;(2)深度学习训练模块从回放记忆库中随机调取n条用于训练的数据元组(s
t
,a
t
,r
t
,s
t+1
);(3)对于每条数据元组,深度学习训练网络根据bellman方程对其长期收益进行评分,取两个评分网络的较小分值,公式为:式中,y
i
是第i条数据的得分,r
i
是第i条数据的奖励,s
t+1
是历史交通状态信息,是控制模块在s
t+1
下的策略结果,θ
μ

和分别是长期决策网络和长期评分网络的权重向量;(4)基于损失函数对评分网络的权重进行更新,使用adam优化器对更新过程进行优化;其中,损失函数的计算方法为:上式中,n为训练数据的条数,y
i
是第i条数据的得分,q(s
t
,a
t

q
)为评分网络基于最新的数据(s
t
,a
t
)的评分,θ
q
为评分网络的权重;(5)每隔k个时间步长更新长期评分网络的权重,再根据评分网络的权重,调整决策控制网络的权重,改善控制策略。6.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统,其特征在于:匝道信号控制单元将交通控制模块的每分钟匝道放行流量转换成相应的红绿灯信号周期,转换方法包括如下步骤:(1)从交通控制模块获取当前时刻的入口匝道放行流量指令;(2)判断当前时刻是否是一个新的控制周期开始时刻。如果是,执行以下步骤重新分配红绿信号灯周期;如果不是,执行步骤(3):(2.1)将当前时刻分配的匝道放行交通流量转为放行车辆数/分钟(vn/min)(2.2)计算信号周期的时长,计算公式为:放行(绿灯)时长=每辆车放行时长
×
(vn/min);红灯时长=信号周期-绿灯时长;(3)更新完成后,直到下一控制周期开始前,匝道信号单元根据红绿信号灯的状态,决定车辆是否放行。在整个控制过程中,重复步骤(1)~步骤(3)。7.一种基于深度强化学习的高速公路道路协同控制方法,其特征在于包括:(1)采集控制范围内高速公路主线和匝道的道路交通状态信息s
t
;(2)获取道路交通状态信息s
t
,根据执行模式或训练模式计算当前的控制策略;(3)对任意交通状态s
t
,通过深度学习训练模块改进其控制行为,最终使系统的长期累
计奖励值最大;(4)计算出最优行为策略a
t
后,根据该控制策略指导控制范围内高速公路主线和匝道的交通流优化。8.根据权利要求7所示的基于深度强化学习的高速公路道路协同控制方法,其特征在于步骤(2)包括:(2.1)执行模式下,协同控制方法基于s
t
直接选择最优控制策略a
t
;(2.2)训练模式下,协同控制方法在a
t
的基础上加入随机噪声的计算公式为:式中,是基础探索噪声,r
max
和r
min
分别是历史数据的最大和最小奖励值,r
last
是前一个训练周期的平均奖励值,ξ为基于历史奖励值的影响因子。9.根据权利要求7所示的基于深度强化学习的高速公路道路协同控制方法,其特征在于步骤(3)中,对任意交通状态s
t
的控制策略为:式中,π(a
t
|s
t
)指对任意交通状态s
t
的控制策略,γ是随时间递减折扣系数,r
t
(s
t
)是控制系统在s
t
状态下获得的即时奖励;指控制系统的长期期望奖励。10.根据权利要求9所示的基于深度强化学习的高速公路道路协同控制方法,其特征在于步骤(3)还包括:(3.1)计算车辆旅行时间的奖励:式中,t
max
是驾驶员可容忍的最长旅行时间,其取值根据高速公路的实际情况确定。是车辆的实际旅行时间,t
tr
表示当前车辆旅行时间对应的奖励值,j是敏感度系数;(3.2)计算任意时刻t等待进入高速公路的车辆数的奖励:式中,w
max
是可被容忍的最大等待进入高速公路的车辆数,w
t
是车辆实际等待车辆数,w
veh
表示当前时刻t等待进入高速公路的车辆数对应的奖励值;k是敏感度系数;(3.3)计算入口匝道的车辆排队长度的奖励:式中,q
max
是期望的排队长度,q是实际排队长度,k
i
、k
j
表示奖励函数的系数;其中,k
i
表示控制决策对排队长度q变化的敏感程度,k
j
表示控制决策是否要求排队长度稳定在q
max
附近,q
rm
表示匝道排队长度对应的奖励值;(3.4)计算奖励函数r:r=t
tr
+αw
veh
+βq
rm
式中,r是上述三项奖励的加权平均值;α和β分别是等待时间和排队长度相较于旅行时间的比例系数。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1