一种基于强化学习的路面交通信号灯协调控制方法_2

文档序号：9328116阅读：来源：国知局

⑴远程服务器通过接收监控设备发送的视频信号，计算对应路口每个道车上车辆的等待时间S，该等待时间为车辆在红灯和绿灯情况下停车时间；
[0031] ⑵将交叉路口每个红-绿灯对应车道通行方式的组合作为一个相位状态，远程服务器在每个相位状态&1下，根据步骤⑴中得出的等待时间分析获得道路拥堵情况；
[0032] ⑶根据当前相位状态&1下，其绿灯可通行车道的车流通行情况，远程服务器获得该相位状态下的可行度4,，当车流可以通过时表示为通畅，可行度?为1，否则为拥堵，可行度^4,为〇 ;如图1所示的相位状态1下，出口车道就是车道1、2、5、6、9、10、13、14，当它们都是畅通的，则相位状态1的可行度为1。
[0033] ⑷远程服务器通过步骤⑴中获得的等待时间S以及步骤⑶中获得的可行度《乂，分析判断出该路口各个相位状态下的行车情况，通过一定时间行车情况数据的记录及更新，由程序软件分析计算出在该路口最优行车相位状态a1;
[0034] (5)根据最优行车相位状态ai，调整该路口的红灯绿灯组合亮起的时间，获得最大的行车流量。
[0035] 如图2-3所示，为四车道的交叉路口的8种相位状态图，虚线箭头表示可通行的方向，即绿灯状态的车道，实线箭头表示不可通行的方向，即红灯状态的车道。
[0036] 控制步骤如下：
[0037] ⑴初始化路面交通网络中所有交叉路口服务器的Q值查找表，并且Q表中存放 Q(S,动作）的值，其中S =<pos，I >，pos指的是如图1中的车辆位置，并且pos = 3+5*n(n =1，2,…Nl/5-1)，1指的是如图1中的车道。Q表中值初始值设定为0。初始化折扣因子 γ、学习率α。初始化所有服务器的相位ai权重，随机初始化每个服务器起始动作ai， as = (a^ a2，…an)，并执行。仿真时间步t的初值为0。
[0038] ⑵每个交叉口服务器通过公式吩'/):
计算所有车状态V与Q表中存在的s"的k值，并保存在K表中。其中V .1与s.l是否相似指的是两个车道之间是否相似，例如图1中车道3与车道11是相似的。s'与s"车道是否旋转对称，I Ψ(·)表示括号内条件满足结果为1，否则为0;Ss?表示与状态s'近似相关的状态集合。
[0039] ⑶t - t+Ι，每个交叉口服务器观察它的入口车道，根据相连交叉口的观察数据更新Clflf值，如果出口车道有拥堵的话武,=15否则，= 〇: Θ根据式
更新权重，当t是500的整数倍时，依据式
更新学习率α的值，其中％是取余运算符。
[0040] ⑷系统中每个服务器独自根据观察到的车辆的状态迀移、Q表和K表，通过
来更新Q值表和现实共同存在的状态S与相位ai分解到具体的路面交通灯的动作的ta的Q值。其中当s = s'时 R(s，s' ) =0,否则，R(s，s' ) =0。
[0041] (5)系统中每个服务器根据Q表和K表的值，按照公式
选择具有最大收益值的动作
通过相位相关的两个参数权重说以及拥堵参数Sflf σ 挑选那些权重大的长时间没有执行的以及出口没有拥堵情况的相位执行，此外参数《1(,使得服务器做决策时考虑其他交叉口的拥堵情况，实现了服务器之间共享路面交通状况的协作。相位选择会优先选取车体长的车优先离开，Vls表示车s的车体长度，即公交车优先。 Q(s，tarad)_Q(s，tag_n)表示等待车辆s在路面交通灯为红灯，以及路面交通灯为绿灯收益的差。采取某相位动作所有处于等待状态的车收益差之和最大，及说明该相位可以让车辆的平均等待时间最短，这样与我们最终目的就一致了，让路口交通流量最大化，减少拥堵。
[0042] (6)系统的每个服务器根据执行选择好的相位ai'，as= (al'，a2'…an')，调整路面交通信号灯。转（3)。
【主权项】
1. 一种基于强化学习的路面交通信号灯协调控制方法，包括对应每个路口设有监控设备，每一所述监控设备经网络模块与远程服务器连接，其控制方法为： ⑴远程服务器通过接收监控设备发送的视频信号，计算对应路口每个道车上车辆的等待时间S，该等待时间为车辆在红灯和绿灯情况下停车时间； ⑵将交叉路口每个红-绿灯对应车道通行方式的组合作为一个相位状态B1，远程服务器在每个相位状态^下，根据步骤⑴中得出的等待时间分析获得道路拥堵情况； ⑶根据当前相位状态&1下，其绿灯可通行车道的车流通行情况，远程服务器获得该相位状态B1下的可行度^ *当车流可以通过时表示为通畅，可行度#%为1，否则为拥堵，可行度成,为〇 ; ⑷远程服务器通过步骤⑴中获得的等待时间S以及步骤⑶中获得的可行度，分析判断出该路口各个相位状态下的行车情况，通过一定时间行车情况数据的记录及更新，由程序软件分析计算出在该路口最优行车相位状态a1; (5)根据最优行车相位状态，调整该路口的红灯绿灯组合亮起的时间，获得最大的行车流量。2. 根据权利要求1所述的基于强化学习的路面交通信号灯协调控制方法，其特征在于：所述相位状态&1为路面交通信号的红灯绿灯组合状态下各车道的车行状态，对应绿灯的车道上，车辆允许直行通过路口到达对面车道，同时右转车道也被允许通行，只有当直行与右转均可通行的状态下，所述步骤⑶中的可行度为1，否则视为拥堵，可行度《%为O; 对应红灯的车道上，车辆为停车状态。3.根据权利要求1所述的基于强化学习的路面交通信号灯协调控制方法，其特征在于：所述等待时间包括该车道上车辆红灯状态下的停车时间，以及绿灯状态下未能前行的停车时间。4.根据权利要求1所述的基于强化学习的路面交通信号灯协调控制方法，其特征在于：根据主、次干道或公交车道的车流量需要，设置对应车道的权重值94.,。5.根据权利要求1所述的基于强化学习的路面交通信号灯协调控制方法，其特征在于：所述步骤⑷中"程序软件分析计算"为核函数，通过核函数对比现有行车情况与之前留存在数据库中的已知行车情况之间的相似度，综合考虑路口多个相位状态下的行车情况，优先选择长时间没有执行的相位状态以及重要的相位状态，执行该相位状态可使得所有处于等待状态的车辆在红灯和绿灯"等待时间"之差的和最大；所述重要的相位状态为主干道或公交车道通行的相位状态，可通过设置相应车道的权重值的初始值来实现。6. 根据权利要求1所述的基于强化学习的路面交通信号灯协调控制方法，其特征在于：所述网络模块为以太网有线模块或无线数据传输网络模块。
【专利摘要】本发明公开了一种基于强化学习的路面交通信号灯协调控制方法，包括对应每个路口设有监控设备，每一所述监控设备经网络模块与远程服务器连接，其控制方法为：⑴远程服务器通过接收视频信号，计算等待时间S；⑵远程服务器在每个相位状态ai下，分析获得道路拥堵情况；⑶远程服务器获得该相位状态ai下的可行度，当车流可以通过时表示为通畅，可行度为1，否则为拥堵，可行度为0；⑷等待时间S与可行度，计算出在该路口最优行车相位状态ai；⑸调整信号灯。本发明基于实时获取的视频信息，通过协调和控制一个区域内多个路口交通信号灯，提高交通通行效率，使该区域交通流量最大化，缓解路面交通拥堵情况。
【IPC分类】G08G1/08
【公开号】CN105046987
【申请号】CN201510338644
【发明人】朱斐, 朱海军, 伏玉琛, 刘全, 杨炯, 任勇
【申请人】苏州大学
【公开日】2015年11月11日
【申请日】2015年6月17日

完整全部详细技术资料下载

当前第2页1 2