一种交通信号自适应控制系统及方法与流程

文档序号:15048404发布日期:2018-07-27 23:21阅读:352来源:国知局
本发明属于智能交通
技术领域
:,具体涉及一种交通信号自适应控制系统及方法。
背景技术
::目前,城市交通流量正在高速增长,伴随着交通的高速发展,迫切需要行之有效的智能交通管理控制技术。近年来,人工智能技术在交通控制应用方面取得了较大发展,为解决城市交通控制问题提供了新的技术方案。其中,自适应控制系统可以根据管理者的控制目标和路口时变车流的特性实时调整配时参数,相比定时和感应控制,可更好利用路网的整体通行能力,有效提高路网交通效率,是解决城市交通拥堵的一种有效手段。据申请人了解,现有的自适应交通信号配时方法,如模糊控制、神经网络、进化算法、专家系统等在一定程度上不能适应实时多变的路口交通流特征,难以在有效兼顾各种指标的情况下根据实时交通状态高效调节控制信号配时。另外,大多数自适应交通控制方法需要建立复杂的交通模型,从某种程度上加大了其实现难度。有别于上述方法,基于强化学习的自适应交通控制方法更能适应城市路口交通环境的变化。强化学习不需要交通环境的精确模型,在随机交通环境下能有效获得更优的交通信号配时策略。强化学习是与外界环境相互作用后获得基于行为具有不确定性的反馈,通过该反馈更新与其相关联的状态——行为值,从而获得最优的控制策略。其中,以q学习最为典型,q学习算法是当前有效的模型无关的强化学习算法。然而,q学习算法在交通控制方面的应用仍然存在一些不足。现有的q学习路口交通自适应控制方法,在复杂的交通状态下未充分利用多种交通状态参数,对于交通流的变化难以给出准确、合理的反馈;且对于不定周期q学习自适应控制,其状态空间过于庞大,导致学习效率低下,难以形成有效的控制。技术实现要素:本发明的目的就是为了克服上述现有技术存在的缺陷而提出一种交通信号自适应控制系统及方法,通过构建q学习状态空间、状态参数融合函数和q学习奖惩机制,实现对交通流的实时响应控制,可以有效减少交通拥堵响应时间,提高交通信号的控制效率,降低控制复杂度。为了达到以上目的,提供一种交通信号自适应控制系统,包括交通状态感应模块、参数融合及划分模块、q学习模块、控制决策模块、q表和模糊评价器;交通状态感应模块,用于采集路口的交通流状态信息,并分别传输至参数融合及划分模块和模糊评价器;参数融合及划分模块,用于融合接收到的交通流状态信息获取交通参数,并通过状态划分将交通参数划分到对应的状态段集合中,作为查询q表中配时方案的依据和q学习模块更新状态空间的参数;模糊评价器,用于根据交通状态感应模块采集到的交通流状态信息,查询奖惩值反馈表,并将查询到的奖惩值反馈到q学校模块;q学习模块,用于将参数融合及划分模块传输的交通参数对应的状态段集合和模糊评价器反馈的奖惩值共同作为q学习模块更新q表的依据,更新上一状态的q值;q表,用于储存各个交通参数状态段集合、配时方案及对应的选择q值,并可通过学习模块更新;控制决策模块,用于根据选择策略从q表所传递的结果中为当前相位的信号灯提供相应方案。本发明的优选方案是:交通流状态信息包括车流量信息、上个周期车辆排队长度、路口各相位车辆延迟时间。优选地,参数融合及划分模块中建立融合函数的方法为:先将w=(f,lg,lr)定义为绿灯相位通行繁忙度、绿灯相位车辆排队长度,红灯相位车辆排队长度三个维度的状态向量集;根据绿灯相位车辆排队长度建立函数:s1=lmax-lg,其中,lg为绿灯相位的车辆排队长度;lmax为道路所能接受的车辆排队长度极限;根据红灯相位车辆排队长度建立函数:s3=k1s1+k2lr,其中,lr为红灯相位车辆排队长度,k1,k2为比例因子,且k1>k2;结合绿灯相位的通行繁忙度确立最后的融合函数:更优选地,比例因子k1为所述比例因子k2为其中,tmin和tmax是绿灯相位最短和最长有效时间。优选地,模糊评价器选取绿灯相位通行繁忙度变化率f′、红灯相位的车辆排队长度变化率lr′作为输入;所述模糊评价器的输出为奖惩信号值,通过重心法对输出进行解模糊,所述奖惩信号值范围是(-1,1);输入输出变量均采用五级级模糊划分方式,即{“负大”,“负小”,“中”,“正小”,“正大”}表示五种不同的红灯相位的车辆排队长度变化率以及绿灯相位通行繁忙度变化率,均记为{nb,ns,zo,ps,pb},使用三角隶属度函数表示;当绿灯相位通行繁忙度变化率以及红灯相位的车辆排队长度变化率超过预设的阀值的一半时,则判定该配时方案所产生的影响达到最大。更优选地,绿灯相位通行繁忙度变化率f′的公式为其中,q为绿灯相位在决策持续时间中的交通通过量,st为绿灯相位在决策持续时间中的饱和流量。优选地,q表以表格的形式存储不同交通状态下的配时策略,其中,首列存储的是交通状态的状态段集合,首行存储的是不同的相位绿灯配时方案,q表预先初始化每个配时策略,在随后的迭代过程中,q学习模块不断的对配时策略进行更新,直到获得不同交通状态下的最优配时策略优选地,q表的学习更新公式为:q(s,a)←q(s,a)+α[r+γmaxa′q(s′,a′)];其中,s为交通状态s的状态段集合,a为交通配时方案;q(s,a)表示当前状态集s下的选择依据;α为学习效率,α越高则代表q(s,a)受下一个状态影响越大;r为执行配时方案a之后的反馈,即奖惩值;s′表示下一个状态集,q(s′,a′)表示下一个状态集下的选择策略;maxa′a(s′,a′)则表示下一个状态集所估计的最佳的选择策略;γ表示衰减度。本发明还提供一种交通信号自适应控制方法,包括如下步骤:s1、交通状态感应模块采集当前时刻交通路口的交通流状态信息,并分别传输至参数融合状态及划分模块和所述模糊评价器;s2、参数融合状态及划分模块融合接收到的交通流状态信息获取交通参数,通过状态划分将交通参数划分到对应的状态段集合,而后将获取的状态段传输至q表和q学习模块;s3、q表根据接收到的状态段,查询适合于当前交通状态的所有配时方案,将适配的所有配时方案传输到所述控制决策模块,通过所述控制决策模块的选择策略选择合适的配时方案;s4、当执行配时方案,交通流发生变化时,感应模块再次采集当前交通流状态信息,并通过参数融合状态及划分模块获取相应的交通参数及划分到的状态段集合;s5、所述模糊评价器根据交通流状态信息查询反馈表获取奖惩值,并将奖惩值反馈至所述q学习模块;s6、所述q学习模块根据变化后的交通状态段集合及奖惩值对q表进行更新;s7、当前绿灯相位结束后,切换至下一个相位,重复s1至步骤s6。本发明有益效果为:本发明可以有效减少交通拥堵的响应时间,快速协调各个相位的信号控制,提高路口的通行效率;由于无模型的特点,具有很强的自适应能力和通用性;同时,简化了参数指标在q表中的存储形式,兼顾了系统对于交通状态的学习效果与响应速度,降低了控制的复杂度;附图说明下面结合附图对本发明作进一步的说明。图1为本发明的系统结构示意图;图2为本发明的方法流程示意图;图3为本发明的四相位路口示意图;图4为本发明的模糊评价器结构示意图。具体实施方式实施例一请参阅图1,本实施例提供一种交通信号自适应控制系统及方法,包括交通状态感应模块、参数融合及划分模块、q学习模块、控制决策模块、q表和模糊评价器;交通状态感应模块,用于通过传感或图像处理技术采集路口的交通流状态信息,并分别传输至参数融合及划分模块和模糊评价器;参数融合及划分模块,用于融合接收到的交通流状态信息获取交通参数s,并通过状态划分将交通参数s划分到对应的状态段集合s中,作为查询q表中配时方案的依据和q学习模块更新状态空间的参数;模糊评价器,用于根据交通状态感应模块采集到的交通流状态信息,查询奖惩值反馈表,并将查询到的奖惩值反馈到q学校模块;q学习模块,用于将参数融合及划分模块传输的交通参数对应的状态段集合s和模糊评价器反馈的奖惩值r共同作为q学习模块更新q表的依据,更新上一状态的q值;q表,用于以表格的形式存储不同交通状态下的配时策略q(s,a),其中首列存储的是交通状态的状态段集合,首行存储的是不同的相位绿灯配时方案,q表将根据经验预先初始化每个q(s,a),在随后的迭代过程中,q学习模块不断的对q(s,a)进行更新,直到获得不同交通状态下的最优配时策略;控制决策模块,用于根据选择策略从q表所传递的结果中为当前相位的信号灯提供相应方案。请参阅图2,基于控制系统的交通信号自适应控制方法,包括如下步骤:s1、交通状态感应模块采集当前时刻交通路口的交通流状态信息,并分别传输至参数融合状态及划分模块和所述模糊评价器;s2、参数融合状态及划分模块融合接收到的交通流状态信息获取交通参数,通过状态划分将交通参数划分到对应的状态段集合,而后将获取的状态段传输至q表和q学习模块;s3、q表根据接收到的状态段,查询适合于当前交通状态的所有配时方案,将适配的所有配时方案传输到所述控制决策模块,通过所述控制决策模块的选择策略选择合适的配时方案;s4、当执行配时方案,交通流发生变化时,感应模块再次采集当前交通流状态信息,并通过参数融合状态及划分模块获取相应的交通参数及划分到的状态段集合;s5、所述模糊评价器根据交通流状态信息查询反馈表获取奖惩值,并将奖惩值反馈至所述q学习模块;s6、所述q学习模块根据变化后的交通状态段集合及奖惩值对q表进行更新;s7、当前绿灯相位结束后,切换至下一个相位,重复s1至步骤s6。该系统及方法可以有效减少交通拥堵的响应时间,快速协调各个相位的信号控制,提高路口的通行效率;由于无模型的特点,具有很强的自适应能力和通用性;同时,简化了参数指标在q表中的存储形式,兼顾了系统对于交通状态的学习效果与响应速度,降低了控制的复杂度。本实施例的路口模型如图3所示,该路口交通模型由四个相位构成:东西方向上的直行,东西方向上的左转,南北方向上的直行,南北方向上的左转。车辆右转被归并到了直行里。路口各个相位上的车流a1,a2,a3,a4,a5,a6,a7,a8。交通流状态信息包括车流量信息、上个周期车辆排队长度、路口各相位车辆延迟时间。参数融合及划分模块中建立融合函数的方法为:先将w=(f,lg,lr)定义为绿灯相位通行繁忙度、绿灯相位车辆排队长度,红灯相位车辆排队长度三个维度的状态向量集;根据绿灯相位车辆排队长度建立函数:s1=lmax-lg,其中,lg为绿灯相位的车辆排队长度;lmax为道路所能接受的车辆排队长度极限;根据红灯相位车辆排队长度建立函数:s2=k1s1+k2lr,其中,lr为红灯相位车辆排队长度,k1,k2为比例因子,且k1>k2;结合绿灯相位的通行繁忙度确立最后的融合函数:比例因子k1为所述比例因子k2为其中,tmin和tmax是绿灯相位最短和最长有效时间。模糊评价器选取绿灯相位通行繁忙度变化率f′、红灯相位的车辆排队长度变化率lr′作为输入;所述模糊评价器的输出为奖惩信号值,通过重心法对输出进行解模糊,所述奖惩信号值范围是(-1,1);输入输出变量均采用五级级模糊划分方式,即{“负大”,“负小”,“中”,“正小”,“正大”}表示五种不同的红灯相位的车辆排队长度变化率以及绿灯相位通行繁忙度变化率,均记为{nb,ns,zo,ps,pb},使用三角隶属度函数表示;当绿灯相位通行繁忙度变化率以及红灯相位的车辆排队长度变化率超过预设的阀值的一半时,则判定该配时方案所产生的影响达到最大,因此,lr′的论域范围设定为(-100,100);f′的论域范围设定为(-0.5,0.5)。模糊评价器仅有一个输出,为奖惩信号值r,采用重心法对模糊输出进行解模糊,最终输出的奖惩信号值范围是(-1,1)。绿灯相位通行繁忙度变化率f′的公式为其中,q为绿灯相位在决策持续时间中的交通通过量,st为绿灯相位在决策持续时间中的饱和流量。q表以表格的形式存储不同交通状态下的配时策略,其中,首列存储的是交通状态的状态段集合,首行存储的是不同的相位绿灯配时方案,q表预先初始化每个配时策略,在随后的迭代过程中,q学习模块不断的对配时策略进行更新,直到获得不同交通状态下的最优配时策略。当执行配时方案一段时间后,交通状态感应模块感应到相位车流量增大,相位的通行繁忙度变高,车辆排队长度,车辆平均延迟增长。q学习模块给出的配时方案没有得到好的效果,因此从模糊评价器中得到一个负反馈,并对该路况下的配时选择依据q值进行更新,之后再次在感应到相同的交通状态时,根据之前学习到的策略,选择更加合适的配时方案,提升路口的通行度。通过这种方式,控制系统不断的对当前交通状况进行检测,实时学习并不断更新q表中的配时方案选择依据,使该路口的交通流量趋于最优。当完成q表的学习更新,系统相对稳定之后,系统根据参数融合及状态划分后得到的交通状态段s能够直接查询q表,获得最优的配时方案。q表的学习更新公式为:q(s,a)←q(s,a)+α[r+γmaxa′q(s′,a′)];其中,s为交通状态s的状态段集合,a为交通配时方案;q(s,a)表示当前状态集s下的选择依据;α为学习效率,α越高则代表q(s,a)受下一个状态影响越大;r为执行配时方案a之后的反馈,即奖惩值;s′表示下一个状态集,q(s′,a′)表示下一个状态集下的选择策略;maxa′q(s′,a′)则表示下一个状态集所估计的最佳的选择策略;γ表示衰减度。q表及模糊评价器设计的具体步骤如下:1)设计q表,即获得控制的路口各项参数值(fg,lg,lr),根据各项参数值得到交通参数s,根据交通参数s大小划分不同状态段集合s;2)根据路口的配时经验可知,如果当前相位路口的交通繁忙度较低,那么应该给此相位分配一个相对较短的绿灯时长;当繁忙度上升的时候,则给此相位分配的绿灯时长应该相应的增多。而当处于某一交通状态时,为其配置过高或者过低的相位绿灯时间是非常不合理的。故而如表1中所示,本实施例根据经验为当前相位每个交通状态配置了4种不同的绿灯配时方案。这样,在q-table进行更新时,可以直接忽略掉那些劣质的选项。专注于对该交通状态下较好的几种配时方案进行学习更新,从而获得最佳的相位绿灯配时方案。根据上述规则,初始q-table设计成如表1所示形式。表1初始q表2530354045505560657075(14,15)11110000000(13,14)11110000000(12,13)11110000000(11,12)00111100000(9,11)00111100000(7,9)00111100000(5,7)00001111000(3,5)00001111000(2,3)00000001111(1,2)00000001111(0,1)00000001111其中,初始q表的第一行为配时方案a,第一列为状态段集合s。本实施例在仿真过程中,设定车辆排队最大长度200米,车辆通行繁忙度f的范围为0到1。设定绿灯的最低有效时长为25秒,最高75秒。计算后得到的交通参数s范围为0到15,其中s越大,则代表道路交通状况越好。初始q表中每一个交通状态集s下根据经验选择4种不同的配时方案进行交通控制。3)如图4所示,根据路口的各项参数以及模糊规则,建立模糊评价器,即用于q学习更新的奖惩函数。为保证评价的准确率,在matlab中将模糊输入的步进分别设置为0.5和20,最终获得大小为11×11的表格,其形式如下表2所示。表2模糊评价器反馈表-0.5-0.4-0.3-0.2-0.100.10.20.30.40.5-100-0.84-0.84-0.84-0.55-0.34-0.010.290.510.820.840.84-80-0.84-0.84-0.84-0.55-0.34-0.010.290.510.820.840.84-60-0.84-0.84-0.84-0.55-0.34-0.010.290.510.820.840.84-40-0.55-0.55-0.54-0.27-0.060.270.360.590.800.820.82-20-0.50-0.50-0.50-0.22-0.010.300.390.620.800.820.820-0.50-0.50-0.50-0.50-0.340.000.290.510.820.840.8420-0.60-0.60-0.60-0.27-0.040.280.300.520.800.820.8240-0.61-0.61-0.60-0.27-0.040.440.540.530.800.830.8360-0.50-0.50-0.50-0.50-0.160.440.590.830.840.840.8480-0.50-0.50-0.50-0.50-0.160.440.590.830.840.840.84100-0.50-0.50-0.50-0.50-0.160.440.590.830.840.840.84其中,模糊评价器反馈表的第一行为车辆通行繁忙度变化率f′,第一列为车辆排队长度lr′。行列所对应的为用于q学习更新的奖惩值r。当实施配时方案控制后,车辆通行繁忙度降低,排队长度降低,则得到正反馈,反之则得到相应的负反馈。路口优化控制实施过程包括:1)q表根据当前相位路况给出随机配时方案。2)交通流状态改变后,获取相应的交通状态参数,通过融合函数计算对应的交通参数,通过状态划分确定所在的交通状态段,用于q学习算法对q表的更新。3)在绿灯有效时间内,将获取的交通状态参数与上一时刻的交通状态参数进行比较,将差值传入模糊评价器中进行查询,得到奖惩值。4)在下个相位开始前(设置绿间隔为2秒)根据公式2、奖惩值更新控制表对应的状态段。5)当前绿灯相位配时方案结束后,切换至下一个相位。6)根据当前交通状态在q表中查询状态集,匹配到对应项后根据选择策略给出配时方案。7)重复步骤2)至步骤6)。学习更新完成后的q表的形式如表3所示:表3更新后的q表2530354045505560657075(14,15)3.453.343.072.5580000000(13,14)3.233.332.932.3680000000(12,13)2.732.953.052.1680000000(11,12)002.512.1181.9921.9900000(9,11)0022.441.9521.9500000(7,9)002.112.3691.9521.9500000(5,7)00001.9421.941.541.4000(3,5)00001.8421.891.441.4000(2,3)00000001.10.50.20.1(1,2)00000000.80.30.10(0,1)00000000.80.200本实施例采用vissim作为实验仿真平台,设定车辆排队最大长度200米,车辆通行繁忙度f的范围为0到1。设定绿灯的最低有效时长为25秒,最高75秒。路口每个车道饱和流量为1500(veh/h)。公式2中的衰减因子γ设定为0.9,学习效率α设置为0.7。建立一个小型的交通路口,以此为分析对象进行仿真实验。每条路段包括四个车道,一条为左转弯车道,两条直行车道,一条右转弯车道。车辆在交叉口处的转弯概率分别为左转弯30%、直行40%、右转弯30%。内部路段长度均为200m。车辆平均行驶速度为40km/h。路口车道的交通流量如表4所示:表4路口交通流量作为比较,本发明在仿真过程中另外采用了传统强化学习对交通进行控制,利用vissim对控制效果进行采集,结果如下表5,表6所示:表5传统强化学习控制结果反馈(取小数点后2位)表6基于q学习改进方法控制结果反馈(取小数点后2位)分析表格可以看出,使用基于q学习的改进交通控制方法后,车辆总体延迟上比传统强化学习控制缩短了约32%;另外在排队长度及总体停车次数等指标上均优于传统强化学习控制。除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1