自适应周期级交通信号控制的方法和系统与流程

文档序号:34395618发布日期:2023-06-08 13:14阅读:50来源:国知局
自适应周期级交通信号控制的方法和系统与流程

本技术大体上涉及交通信号控制的方法和系统,尤其涉及自适应周期级交通信号控制。


背景技术:

1、交通拥堵会造成大量的时间浪费、燃料浪费以及污染。由于财力和空间限制以及环境和可持续性问题,建造新的基础设施来消除这些问题往往不切实际。因此,为了提高城市交通网络的容量,研究人员已探索使用技术来最大限度地提高现有基础设施的性能。优化交通信号的运行有希望减少城市网络中司机的延误。

2、交通信号用于向交通环境中运行的车辆的司机传达交通规则。典型的交通信号控制器控制交通信号,该交通信号在由交通网络中的单个交叉口组成的交通环境中管理车辆交通。因此,例如,单个交通信号控制器可控制由面向四个方向(北、南、东、西)的红/黄/绿交通灯组成的交通信号,但应理解,一些交通信号可控制由多于或少于四个交通方向组成的环境中的交通,并且可包括其他信号类型,例如面向同一方向的用于不同车道的不同信号、转弯箭头、街道公共交通信号等。

3、交通信号通常按周期运行,每个周期由若干阶段组成。单个阶段可对应于交通信号的各种灯的固定状态,例如,绿灯面向南北而红灯面向东西,或黄灯面向南北而红灯面向东西,但一些阶段可能包括另外的非固定状态,如计时器针对人行横道进行倒计时。通常,交通信号周期由每个阶段通常以固定次序在周期中重复一次而组成。

4、图1示出由依序从第一阶段102到第八阶段116的八个阶段组成的示例性交通信号周期100。在此示例中,除非另有说明,否则所有其他灯在某一阶段期间都是红色。

5、在第一阶段102,即,阶段1,交通信号对北行交通(即,在朝南的灯柱上)显示绿色左转箭头,指示为“nl”,并对南行交通(即,在朝北的灯柱上)显示绿色左转箭头,指示为“sl”。在第二阶段104,即,阶段2,交通信号对南行交通显示绿色左转箭头和绿色“直行”灯或箭头,分别指示为“sl”和“st”。在第三阶段106,即,阶段3,交通信号对北行交通显示绿色左转箭头和绿色“直行”灯或箭头,分别指示为“nl”和“nt”。在第四阶段108,即,阶段4,交通信号对北行和南行交通均显示黄色左转箭头(示为虚线)和绿色“直行”灯或箭头。在第五阶段110,即,阶段5,交通信号对东行交通(即,在朝西的灯柱上)显示绿色左转箭头,指示为“el”,并对西行交通(即,在朝东的灯柱上)显示绿色左转箭头,指示为“wl”。在第六阶段112,即,阶段6,交通信号对西行交通显示绿色左转箭头和绿色“直行”灯或箭头,分别指示为“wl”和“wt”。在第七阶段114,即,阶段7,交通信号对东行交通显示绿色左转箭头和绿色“直行”灯或箭头,分别指示为“el”和“et”。在第八阶段116,即,阶段8,交通信号对西行和东行交通均显示黄色左转箭头(示为虚线)和绿色“直行”灯或箭头。

6、在完成阶段8 116后,交通信号返回到阶段1 102。交通信号控制器优化通常包括优化交通信号周期的每个阶段的持续时间,以实现交通目标。

7、交通信号控制最常见的方法是固定时间式以及致动式。在固定时间交通信号控制器配置中,交通信号周期的每个阶段都具有固定的持续时间。固定时间控制器使用历史交通数据来确定最优交通信号模式;然后部署优化的固定时间信号模式(即周期的阶段持续时间集)来控制实际交通信号,此后固定该模式而不改变。

8、与固定时间控制器相比,致动信号控制器从传感器接收反馈以对交通流作出响应;然而,致动信号控制器并不明确优化延迟,而是通常响应于即时交通状况而调整信号模式,不会随着时间推移来适应交通流。因此,一个阶段的持续时间可能根据基于传感器数据的当前交通状况而延长,但没有机制用于使用过往阶段或周期的数据来随时间推移而优化交通信号操作,或根据优化例如平均或聚合车辆延迟等性能指标进行决策。

9、自适应交通信号控制器(adaptive traffic signal controller,atsc)更先进,性能可优于其他控制器,如固定时间或致动控制器。atsc不断修改信号定时,以优化预定目标或性能指标。一些atsc,包括scoot、scats、prodyn、opac、utopia和rhodes,使用交通环境的内部模型优化信号,该模型通常简单化并且很少能跟进当前状况。这些atsc的优化算法大多是探索式的和次优的。由于交通和司机行为的随机性,很难设计出精确的交通模型。更现实的模型也更复杂,更难控制,有时会导致计算延迟过长而无法实现实时交通控制。因此,在控制器的复杂性与实用性之间存在权衡。

10、然而,随着作为一种用于优化的无模型闭环控制方法的强化学习(reinforcementlearning,rl)的出现,这一领域有了一些改进。rl算法可在与环境交互和评估自身性能的同时学习最优控制策略。最近,研究人员在atsc中使用了采用卷积神经网络的深度强化学习(deep reinforcement learning,drl)。在以下文献中描述了drl交通信号控制系统的示例:w.gessions和s.razavi的“使用深度强化学习代理进行交通信号控制(using a deepreinforcement learning agent for traffic signal control)”,corr,卷abs/1611.0,2016年;j.gao、y.shen、j.liu、m.ito和n.shiratori的“自适应交通信号控制:具有经验回放和目标网络的深度强化学习算法(adaptive traffic signal control:deepreinforcement learning algorithm with experience replay and target network)”,corr,卷abs/1705.0,2017年;s.m.a.shabesary和b.abdulhai的“用于自适应交通信号控制的深度学习与离散强化学习(deep learning vs.discrete reinforcement learning foradaptive traffic signal control)”,2018年第21届智能交通系统国际会议(itsc),2018年,第286–293页,所有这些文献都通过全文引用的方式并入本文。

11、与使用函数逼近方法的其他rl方法相比,深度强化学习能够处理大型状态空间问题并获得更好的性能。在一些drlatsc中,将街道表面离散成小单元,这些单元分组在一起以创建接近交叉口的车辆的位置和速度矩阵,并将该矩阵用作执行drl任务的深度q网络的输入。

12、现有drl控制器设计成每秒采取行动,即所谓的基于秒的控制。在每一秒钟,drl决定延长当前绿色信号或切换到另一阶段。这些控制器需要可靠的高频通信基础设施和强大的计算单元,以便有效地监控交通环境,并按每秒的时间标度控制交通信号。此外,由于无法提前一秒知道控制器的行为,一些市政当局和交通部门对每秒钟都做出决策的控制器感到不满意。相反,他们更愿意提前知道下一周期的每个阶段会是什么样子,就像使用固定时间控制器有可能实现的那样。此外,绿色信号在任何一秒终止的可能性也可能与人行横道的安全相冲突,因为可能很难或不可能将行人倒计时计时器配置成使已经进入人行横道的行人安全通过人行横道。

13、由于这些原因,能够以低于每秒一次的频率做出决策的交通信号控制器可具有某些优点。有可能实施为整个周期生成决策数据的交通信号控制器,这可称为基于周期的控制。基于周期的控制器可产生下一交通信号周期的所有阶段的持续时间数据。然而,由于限制控制器与交通信号的交互,这种方法可能会降低控制器实时响应交通环境变化的灵活性。关于基于周期的rl型交通信号控制的文献是有限的,至少部分原因是复杂和巨大的动作空间。在每个周期中具有固定阶段次序的基于秒的控制方法中,控制器必须决定是延长当前绿色阶段还是切换到下一阶段,这会产生大小为二的离散动作空间(0=延长,1=切换)。最多,每个周期内阶段灵活排序的基于秒的控制器不仅必须决定是否切换(延长或切换=2个动作),而且还必须决定切换到哪个可能的阶段(周期中的n个阶段=n个动作),在这种情况下,动作空间大小是n的离散集合(每个交叉口处的n个可能阶段,在大多数情况下,该大小限制为最多8个阶段,n=8)。

14、另一方面,基于周期的控制器必须应付连续的动作空间。交通信号周期和其每个阶段可以是任何时间长度。与基于秒的控制问题相比,即使时间离散化,动作空间也会急剧增加。在第一示例中,交叉口处的交通信号的周期有4个阶段(例如,北和南、北左转弯和南左转弯、东和西、东左转弯和西左转弯)。假设所有阶段的最小绿色时间为10秒,最大绿色时间为30秒,则动作空间是可针对当前阶段选择的秒持续时间值(即,20)增到要切换到的阶段数(即4)的幂的数,即,204=160,000。

15、这个问题在m.aslani、m.s.mesgari和m.wiering的“在具有不同交通中断事件的现实世界交通网络中使用行为-评判方法的自适应交通信号控制(adaptive trafficsignal control with actor-critic methods in a real-world traffic network withdifferent traffic disruption events)”(transp.res.部分c紧急事件技术,第85卷,第732–752页,2017年(以下简称“aslani”))中进行了论述,该文献以全文引用的方式并入本文。aslani通过将动作空间离散为10秒的间隔来解决这个问题。因此,每个阶段的控制器必须从集合[0秒,10秒,20秒……90秒]中选择阶段持续时间,这是种非常粗糙的离散化,可能会影响控制器的性能。

16、在x.liang、x.du、g.wang和z.han的“交通灯周期控制的深度强化学习网络(adeepreinforcement learning network for traffic light cycle control)”(ieeetrans.veh.technol.第68卷,第2期,第1243–1253页,2019年)中描述了另一种方法,该文献通过全文引用的方式并入本文,该文献使用增量方法来设置信号定时。控制器不直接限定阶段持续时间,但它在每个决策点决定将每个阶段的定时增加或减少5秒。这种方法不仅会受到动作空间的粗糙离散化的影响,而且也没有对突然变化做出反应的灵活性。

17、因此,需要一种自适应交通信号控制器,其可在连续的持续时间值范围内前瞻性地为交通信号周期生成一个或多个阶段持续时间,由此可克服上述现有方法的一个或多个限制。


技术实现思路

1、本公开描述了用于自适应周期级交通信号控制的方法、系统和处理器可读介质。描述了一种在连续动作空间内工作的智能自适应周期级交通信号控制器和控制方法。如上所述,大多数现有的自适应交通信号控制器逐秒工作,这在安全性、可预测性以及通信和计算要求方面具有上述缺点。现有的自适应周期级交通信号控制器是基于模型的、离线的或初步的。本文描述的实施例可包括使用称为近端策略优化(proximal policyoptimization,ppo)的强化学习算法的连续动作自适应周期级交通信号控制器或控制方法,该算法是强化学习的一种行为-评判模型。在一些实施例中,控制器不将动作空间视为离散的,而是产生连续值作为输出,使深度q网络(deep q network,dqn)等已建立的rl方法不可用。在一些实施例中,对于交通信号周期中有4个阶段的交叉口,控制器产生4个连续数字,每个数字指示周期的阶段的持续时间。

2、在一些方面,本公开描述了一种用于训练强化学习模型以生成交通信号周期数据的方法。通过执行数个操作来处理指示受交通信号影响的交通环境的初始状态的训练数据样本。强化学习模型用于通过将策略应用于训练数据样本和一个或多个过往训练数据样本来生成交通信号周期数据。该交通信号周期数据包括交通信号周期的一个或多个相应阶段的一个或多个阶段持续时间。每个阶段持续时间是从连续的值范围中选择的值。在将生成的交通信号周期数据应用于交通信号之后,确定交通环境的更新状态。通过对交通环境的初始状态和交通环境的更新状态应用奖励函数生成奖励。根据奖励调整策略。处理训练数据样本的步骤重复一次或多次。训练数据样本指示交通环境的更新状态。

3、在一些方面,本公开描述了一种用于训练强化学习模型以生成交通信号周期数据的方法系统。该系统包括处理器设备和存储器。存储器上存储强化学习模型和机器可执行指令,当由处理设备执行时,机器可执行指令使系统通过执行数个操作来处理指示受交通信号影响的交通环境的初始状态的训练数据样本。通过执行数个操作来处理指示受交通信号影响的交通环境的初始状态的训练数据样本。强化学习模型用于通过将策略应用于训练数据样本和一个或多个过往训练数据样本来生成交通信号周期数据。该交通信号周期数据包括交通信号周期的一个或多个相应阶段的一个或多个阶段持续时间。每个阶段持续时间是从连续的值范围中选择的值。在将生成的交通信号周期数据应用于交通信号之后,确定交通环境的更新状态。通过对交通环境的初始状态和交通环境的更新状态应用奖励函数生成奖励。根据奖励调整策略。处理训练数据样本的步骤重复一次或多次。训练数据样本指示交通环境的更新状态。

4、在一些示例中,交通环境是模拟交通环境,而交通信号是模拟交通信号。

5、在一些示例中,这些一个或多个阶段持续时间包括交通信号的至少一个周期的每个阶段的阶段持续时间。

6、在一些示例中,这些一个或多个阶段持续时间由交通信号的周期的一个阶段的阶段持续时间组成。

7、在一些示例中,强化学习模型是行为-评判模型,策略是行为策略,而奖励函数是评判奖励函数。

8、在一些示例中,行为-评判模型是近端策略优化(proximal policyoptimization,ppo)模型。

9、在一些示例中,每个训练数据样本包括交通数据,包括交通环境中的多个车辆中的每个车辆的位置数据和速度数据。

10、在一些示例中,每个训练数据样本包括交通数据,包括交通环境中多个区域中的每个区域的交通密度数据和交通速度数据。

11、在一些示例中,确定交通环境的更新状态包括确定交通环境中的一个或多个静止车辆队列中的每个队列的长度。该长度指示队列中静止车辆的数目。一个或多个过往训练数据样本包括对应于一个或多个队列峰值时间的一个或多个过往训练数据样本(每个队列峰值时间是一个队列的长度处于局部最大值时的时间),以及对应于一个或多个队列谷值时间的一个或多个过往训练数据样本(每个队列谷值时间是一个队列的长度处于局部最小值时的时间)。

12、在一些示例中,一个或多个过往训练数据样本对应于一个或多个阶段转变时间。每个阶段转变时间是交通信号在交通信号周期的两个阶段之间转变的时间。

13、在一些示例中,奖励函数应用于交通环境的初始状态和交通环境的更新状态,以根据在前一交通信号周期内在该交通环境中的静止车辆的估计数目来计算奖励。

14、在一些示例中,一个或多个过往训练数据样本对应于一个或多个阶段转变时间。每个阶段转变时间是交通信号在交通信号周期的两个阶段之间转变的时间。

15、在一些示例中,每个训练数据样本包括指示交通信号周期的当前阶段以及在当前阶段期间流逝的时间的交通信号阶段数据。

16、在一些示例中,这些一个或多个阶段持续时间包括交通信号的至少一个周期的每个阶段的阶段持续时间。强化学习模型是近端策略优化(proximal policy optimization,ppo)行为-评判模型。策略是行为策略。奖励函数是评判奖励函数。每个训练数据样本包括:交通信号阶段数据和交通数据。交通信号阶段数据指示交通信号周期的当前阶段以及在当前阶段期间流逝的时间。交通数据包括交通环境的多个区域中的每个区域的交通密度数据和交通速度数据。奖励函数应用于交通环境的初始状态和交通环境的更新状态,以根据在前一交通信号周期内在该交通环境中的静止车辆的估计数目来计算奖励。一个或多个过往训练数据样本对应于一个或多个阶段转变时间。每个阶段转变时间是交通信号在交通信号周期的两个阶段之间转变的时间。

17、在一些方面,本公开描述了一种用于生成交通信号周期数据的系统。该系统包括处理器设备和存储器。存储器上存储根据上述方法步骤训练的已训练强化学习模型,以及当由处理设备执行时使系统执行数个操作的机器可执行指令。从交通监控系统接收指示真实交通环境状态的交通环境状态数据。用于训练强化学习模型的交通环境是真实交通环境或其模拟版本。强化学习模型用于通过将策略至少应用于交通环境状态数据来生成交通信号周期数据。将交通信号周期数据发送到交通控制系统。

18、在一些方面,本公开描述了一种非瞬时性处理器可读介质,其上存储了根据上述方法步骤训练的已训练强化学习模型。

19、在一些方面,本公开描述了一种非瞬时性处理器可读介质,其上存储了机器可执行指令,机器可执行指令在由处理器设备执行时使处理器设备执行上述方法步骤。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1