一种基于强化学习可变限速控制的快速道路通行效率改善方法与流程

文档序号:11833794阅读:1638来源:国知局
一种基于强化学习可变限速控制的快速道路通行效率改善方法与流程
本发明属于智能交通和交通控制
技术领域
,具体涉及一种基于强化学习可变限速控制的快速道路通行效率改善方法。
背景技术
:可变限速控制作为一种越来越被广泛用于改善快速道路通行效率的交通控制策略,其控制效果与可变限速值确定过程所采用的方法密切相关。强化学习作为一种闭环结构,通过控制效果对控制策略的反馈调节使智能体不断学习不同交通流状态下对应的最优限速值,有效提升了可变限速控制的效果和可变限速控制限速值的合理性。因此,基于强化学习的可变限速控制快速道路通行效率改善方法,可以通过强化学习使智能体掌握不同交通流运行状态下的最优限速值。现有可变限速控制策略中不同交通流状态下对应的限速值的确定依赖于工程师经验主观确定,同时可变限速控制对交通流运行的影响与期望有差异,可能导致控制策略无法达到最优控制效果。本发明提出基于强化学习可变限速控制的快速道路通行效率改善方法,相比于现有的反馈方法和在线优化方法,本发明提出的方法具有依据新的交通环境与数据持续学习的能力,通过实际道路交通环境下的最优控制策略的持续更新有效提升可变限速控制效果。技术实现要素:本发明要解决的问题是:以往针对瓶颈路段的可变限速控制策略中交通流状态和限速值之间的对应关系主要由工程师主观确定,缺乏对不同交通流状态下不同可变限速值控制效果的客观分析,缺乏不同交通流状态下不同限速值与其控制效果之间的数据信息的挖掘,导致可变限速控制中限速值的确定过程缺乏理论性,具有一定主观随意性。现有的在线优化方法下的控制系统抗干扰能力较差。本发明提出一种基于强化学习可变限速控制的快速道路通行效率改善方法,通过计算机智能体学习可变限速控制策略对通行效率改善的规律,确定不同交通流状态下具有最优控制效果的可变限速控制策略。克服之前可变限速控制中限速值确定过程的主观随意性,实现根据实际效果和交通流数据对最优可变限速控制策略进行反馈调节。本发明技术方案为:本发明提出一种基于强化学习可变限速控制的快速道路通行效率改善方法,基于实测交通流数据训练智能体掌握不同交通流运行状态下的最优限速值,据此在可变限速控制路段发布当前交通流状态下的最优限速值,采集可变限速控制后的限速值与交通流数据使智能体依据新的交通环境与数据持续学习,本方法对实际中通过可变限速控制策略有效提高快速道路通行效率具有重要意义。实例显示,本发明提出的可变限速控制方法有很好效果,能有效减少快速道路路段内系统通行时间,还能不断依据实际应用后的限速值与交通流数据持续学习最优策略。附图说明图1为快速道路瓶颈路段的可变限速控制策略流程图。图2为主线交通流状态划分示意图。图3为匝道交通流状态划分示意图。图4为不同交通流密度对应的回报函数。图5为算例中瓶颈路段示意图。图6为算例流量-速度分布图。具体实施方式本发明是基于强化学习Q学习方法的基本原理和可变限速控制策略的基本流程提出针对瓶颈路段上游进行可变限速控制的策略,通过交通流检测器检测瓶颈路段及其上下游的交通流运行情况生成训练数据库,智能体通过离线学习掌握不同交通流状态下的最优可变限速值,在实际控制中智能体通过快速道路上实测交通流数据感知实时交通流状态,从知识库中选择当前状态对应的最优限速值对交通流进行动态调节,用控制实施后的交通流数据和限速值对智能体进行持续训练,基于强化学习可变限速控制的快速道路通行效率改善方法的流程图如图1所示。第一步是确定快速道路瓶颈路段及可变限速控制路段范围,以合理间距设置交通流检测器,获取快速道路瓶颈路段一段时间内的真实交通流数据,在可变限速控制路段上游端设置可变限速指示牌,用于发布可变限速值。第二步是基于实际交通流数据的变化范围及变化幅度确定强化学习方法中的交通流状态集和动作集。状态集是将连续的交通流密度划分为若干离散密度区间,由于需要了解瓶颈路段及其上下游交通流信息,所以状态集应包括瓶颈位置上下游及匝道的密度信息。基于真实交通流数据绘制流量-速度分布图寻找瓶颈路段交通流的关键密度,在自由流、拥堵状态和关键密度附近分别对交通流状态进行划分。快速道路主线交通流状态划分的范围为2veh/m/ln~80veh/m/ln,由于交通流运行状态在关键密度附近变化较为敏感,故关键密度附近以2veh/m/ln为步长划分交通流状态,在自由流和拥堵流中以8veh/m/ln为步长划分交通流状态,划分结果如图2所示。快速道路匝道交通流状态划分的范围为5veh/m/ln~45veh/m/ln,关键密度附近以2.5veh/m/ln为步长划分交通流状态,在自由流和拥堵流中以5veh/m/ln为步长划分交通流状态,划分结果如图3所示。综上所述,强化学习方法中的状态集共包含13×13×11=1859种交通状态。动作集是可变限速控制中的不同限速值,限速值应在路段允许的最高和最低限速值之间,即VSL∈{Vmin,Vmax},同时考虑到驾驶员对限速值的接受情况,发布的限速值取为5或10的整数倍。大量测试可知动作集中限速值的取值范围为20mph至65mph,选取步长定为5mph,因此动作集中元素为{20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph}。第三步是基于提高快速道路通行效率这一目标设置强化学习中的回报函数。与无控情况相比,研究路段内总通行时间降低得越多表明策略越有效地提高了通行效率,由于瓶颈路段内总通行时间可以由瓶颈位置交通流量计算,且瓶颈位置交通流量可以由交通流密度计算,因此Q学习方法中回报函数依据路段交通流密度设置。假设各交通流密度对应的回报函数服从泊松分布,则回报函数表达式如下:R(s)=μgPr(X=s)=μgλse-λs!---(1)]]>其中,R(s)为状态s对应的回报值,μ为决定回报值幅度的参数,缺省值为1×104,Pr(X=s)为状态s的概率函数,λ为泊松分布参数,缺省值为26.9辆/英里。为加快强化学习收敛速度,对关键密度状态附近的交通流状态设置200额外奖励值,对严重拥堵状态设置200额外惩罚值,不同密度状态对应的回报函数如图4所示。第四步是基于第一步中采集到的交通流和可变限速控制状态数据库训练智能体。首先,初始化所有“状态-行为”对应的Q值为零,集计可变限速控制前后5分钟的交通流数据用于判断交通流状态转移。在Q学习每一个时间步中,基于集计的交通流数据观察当前环境状态,判断当前状态是否已执行20次动作选择,若不是,则强制智能体对每个状态尝试不同动作;若是,则采用softmax动作选择策略根据Q值确定当前状态下选择各动作的概率,策略为Q值越高动作选择中所占权重越大,该动作被选中的概率越大,具体计算公式如下:Ps(a)=eQ(s,a)/TΣb∈AeQ(s,a)/T---(2)]]>其中,Ps(a)为在状态s下选择行动a的概率;T为退火温度;Qt(s,a)为当前时刻“状态-行为”对应的Q值。其次,做出动作选择后,基于图4中所示的“状态-行为”的回报值,需要对各“状态-行为”组合的回报值Q进行更新,Q学习方法中按照下式调整Q值:Qt+1(st,at)=Qt(st,at)+λt(st,at)×[Rt+1+γmaxQt(st,at)-Qt(st,at)](3)其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st,at)为t时刻对应的Q值,λt(st,at)(0<λ<1)是学习速率,γ为折扣因子(0<γ<1),折衷马上获得的与延迟获得的奖励。本专利中对公式(3)进行简化,不考虑延迟获得的奖励,综合考虑模型运行效率和仿真准确性后,本专利采用下式更新Q值:Qt+1(st,at)=Rt+1+0.8×maxQt(st+1,at+1)(4)其中,Qt+1(st,at)为t+1时刻对应的Q值;Qt(st+1,at+1)为t时刻对应的Q值;Rt+1为t+1时刻对应的回报函数值。更新Q值后进入下一个学习时间步,循环上述过程直到Q值收敛,则每个状态下最大Q值对应的动作即为最优控制策略。第五步是采用第四步中得到的各状态及其最大Q值对应的动作进行可变限速控制,基于当前交通流检测器采集到的5分钟的平均交通流密度判断当前交通流状态,采用智能体实时选择当前交通流状态下的最优限速值,将最优限速值传递至瓶颈位置上游可变限速控制指示牌发布限速值。第六步是继续实时采集发布最优限速值后的交通流数据和限速值并传回控制系统,智能体依据新的交通流数据和限速值重复上述第四步到第五步持续学习最优控制策略。下面结合附图对发明的可变限速控制方法进行了实例演示:假设某一快速道路与匝道构成的瓶颈如图5所示,图中入口匝道与主线相交处为一瓶颈,在瓶颈位置上下游分别设置了交通流检测器1和2,匝道上设置了检测器3,在可变限速控制路段上游设置了可变限速控制指示牌。假设该路段一周内交通流检测器检测到的历史交通流数据如图6所示,则关键密度为30veh/m/ln左右。状态集中元素为包含检测器1,2,3的密度数据的状态向量,记为S(s1,s2,s3),动作集中元素为{20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph}。将图6中的历史交通流数据库用于训练智能体,通过强化学习得到检测器1、2、3所得不同交通流状态排列组合得到的所有状态向量S对应的动作集中的最佳限速值。判断检测器1、2、3实时检测到的交通流数据对应的交通流状态s1,s2和s3,找到状态向量S(s1,s2,s3)对应的最优限速值为v,将v值传递至可变限速控制指示牌并发布信息“当前限速值为v,请小心驾驶”。同时,将当前时刻的最优可变限速值v和交通流状态S传回控制系统添加至训练数据库中。据统计,无控制和可变限速控制下的快速道路内车辆总通行时间如表1所示,由表可知,在稳定需求下,可变限速控制下通行时间比无控情况减少了49.34%;在波动需求下,可变限速控制下通行时间比无控情况减少了21.84%。因此,基于强化学习方法的可变限速控制方法能有效改善瓶颈路段的通行效率。表1基于强化学习的可变限速控制效果评价指标无控制可变限速控制稳定需求情况下系统总通行时间(辆·小时)193.2097.88稳定需求情况下系统总通行时间减少值(辆·小时)/95.32稳定需求情况下通行时间减少比例(%)/49.34波动需求情况下系统总通行时间(辆·小时)118.1792.36波动需求情况下系统总通行时间减少值(辆·小时)/25.80波动需求情况下通行时间减少比例(%)/21.84当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1