交通信号控制系统的制作方法

文档序号:6698475阅读:159来源:国知局

专利名称::交通信号控制系统的制作方法
技术领域
:本发明涉及一种用于交叉路口交通信号灯控制的方法。特别是,本发明涉及用于实现交叉路口的信号群的控制和变换方法的系统和软件平台,该方法用于基于效用函数来优化交通流量。所述信号群包括通常同时变换的一组信号灯,如红灯、绿灯、黄灯和全灭(没有信号灯)。所述方法进一步包括,基于来自至少一个位于停止线处的单环形天线检测器的信号来检测位于交叉路口的车辆队列被完全放行的时间点的步骤。该方法还使用卡尔曼滤波器估计平均交通流率。本发明可以作为交通控制系统的一个模块,对道路交通量进行监视和控制。
背景技术
:随着道路交通容量的不断增长,交通信号控制系统的性能改进不失为一种潜在减少由交通阻塞导致的社会的、经济的和环境的影响的低成本的方法。这种改进不单延缓交通阻塞的开始,同时也能减免昂贵费时的附加道路网络基础设施。在世界范围内有很多使用中的交通控制系统是基于时间的,并使用通过收集一天中各个时段的交通模式人工开发的变换规划。这些规划是固定的且不能对所有未期的交通流的实时变化做出反应。传统上,交通控制系统设置有自适应固定阶段控制器,其中交通信号灯通常按照多个循环的阶段顺序变化。常规的交通控制系统不能对交叉路口进行充分的利用。因此,车辆通过使用常规交通控制系统的交叉路口时,平均等待时间通常很长。自适应控制系统,如SCOOT(SplitCycleOffsetOptimizationTechnique,分离循环偏移最优化技术)和SCATS(SydneyCoordinatedAdaptiveTrafficSystem,悉尼坐标自适应交通系统),在几十年前被研发出来,它们使用信号灯按照循环顺序的几个阶段变换的自适应阶段控制。交通工程师手工选择选择所述阶段并预先定义其顺序。该系统在每个阶段之间进行实时调整。所述实时调整是基于对交通饱和程度的测量。但是,这些自适应阶段控制系统仍然无法适应未曾预料到的流模式。以前设计的自适应控制系统没有一个能提供比控制单个信号群更大程度的灵活性。当遭遇到不曾计划的交通流情况时,已知的自适应控制系统显示出明显的缺陷。这是因为,这些已有的自适应控制器仅限于在有限数量预订顺序的的阶段之间进行变换。此外,历史上传统交通控制系统应用的控制方法论引入了不同的方式来估计队列终点时间和绿灯时间。例如,首先使用间隙检测来帮助变换交通信号灯,SCATS一夸t包和牙呈度(degreeofsaturation,DoS)平tf到一个目标DoS以更#斤各阶段的绿灯时间。这些技术对方差很敏感,并且不允许系统对交通流的高速变化做出快速反应。因此,提供一种能够很好地用于交叉路口的交通信号灯控制的解决方案是有益的,该方案应能在信号变换约束和交通行为的约束下,为高空间复杂度的,随机的非线性系统规划控制策略。同时,提供为交叉路口的交通信号灯控制提供改进的方法和系统也是有益的。这可以克服本领域当前已知途径中的至少一个缺陷,或者提供有用的替代。
发明内容根据本发明的一个方面,提供了一种控制道路交叉口交通信号的方法,所述交通信号包括多个信号群,每个信号群控制控制交叉路口中至少一个方向的交通,所述方法包括以下步骤(i)获取并使用交通数据以计算当前交通状态和该交通状态的变化率;(ii)作为对步骤(i)获得的计算结果的响应,公式化至少一个动作和所述动作的持续时间,其中每个动作包括变换至少一个交通信号;(iii)根据步骤(i)获得的计算结果和步骤(ii)公式化的动作,决定一个或多个策略;使用连续决策过程来估计步骤(iii)决定的策略的报酬;选择一能最大化所述才艮酬的策略。较佳地,所述当前交通状态包括交通队列的长度、车辆速度、车辆位置、车辆类型和到达率中的一个或一个以上。可选地,所述当前交通状态包括交通队列的长度和所述变化率是交通队列的增长率。较佳地,所述连续决策过程包括一半马尔可夫决策过程。较佳地,所述连续决策过程包括一半马尔可夫决策过程的最优化。较佳地,所述最优化包括以下步骤生成一包括多条不同路径的策略途径,每条路径具有一个或多个节点,每个节点代表至少一个策略;以及通过估计和加总在位于沿每一不同路径的每个节点的策略的报酬,来估计所述策略途径中每条路径的报酬。较佳地,所述最优化适于在策略途径中的终止条件达到时终止。较佳地,所述终止条件选自节点统计极限、时间统计极限或存储器统计极限中的一个或一个以上。较佳地,估计出的报酬是一个用于最优化至少一个交通条件的函数的值。较佳地,所述交通条件是车辆的燃料消耗、污染、车辆停车的次数、车辆等待时间和时间延迟中的任意一个或一个以上。较佳地,所述连续决策过程包括一个状态集合、一个用于状态之间的转移的动作的集合,和一个策略包括将状态映射到动作,其中,一个状态包括至少一个信号群状态和一个交通状态。较佳地,所述信号群状态包括多个信号和关于每个信号的计数器。较佳地,所述信号包括红色和绿色信号。较佳地,所述计数器存储在所述信号可被改变之前所剩余的时间量。较佳地,所述交通数据通过使用传感器收集。较佳地,所述传感器包括环形天线检测器,摄像机、雷达装置、红外传感器、RFID标签或GPS装置中的任何一个或一个以上。较佳地,所述计算交通状态的步骤包括确定输入交通的队列终点的步骤。较佳地,所述队列终点由使用总的间隔时间和间隔次数决定。根据本发明的另一方面,提供了一种交通信号控制系统,其包括一用来控制一执行器的控制装置,所述执行器用于控制道路交叉口交通信号,所述交通信号包括多个信号群,每个信号群控制交叉路口中至少一个方向的交通;和一用于从传感器接收交通数据的交通模拟装置,所述控制装置执行如下操作(i)获取并使用所述交通数据以计算当前交通状态和该交通状态的变化率;(ii)作为对步骤(i)获得的计算结果的响应,公式化至少一个动作和所述动作的持8续时间,其中每个动作包括变换至少一个交通信号;(iii)根据步骤(i)获得的计算结果和步骤(ii)公式化的动作,决定一个或多个策略;使用连续决策过程来估计步骤(iii)决定的策略的报酬;选择一能最大化所述报酬的策略。较佳地,所述当前交通状态包括交通队列的长度、车辆速度、车辆位置、车辆类型和到达率中的一个或一个以上。较佳地,所述当前交通状态包括交通队列的长度和所述变化率是交通队列的增长率。较佳地,所述连续决策过程包括一半马尔可夫决策过程。较佳地,所述连续决策过程包括一半马尔可夫决策过程的最优化。较佳地,所述最优化包括以下步骤生成一包括多条不同路径的策略途径,每条路径具有一个或多个节点,其代表至少一个策略;以及通过估计和加总在位于沿每一不同路径的每个节点的策略的报酬,来估计所述策略途径中每条路径的^艮酬。较佳地,所述最优化适于在策略途径中的终止条件达到时终止。较佳地,所述终止条件选自节点统计极限、时间统计极限或存储器统计极限中的一个或一个以上。较佳地,估计出的报酬是一个用于最优化至少一个交通条件的函数的值。较佳地,所述交通条件是车辆的燃料消耗、污染、车辆停车的次数、车辆等待时间和时间延迟中的任意一个或一个以上。较佳地,所述连续决策过程包括一个状态集合、一个用于状态之间的转移的动作的集合和一个策略包括将状态映射到动作,其中,一个状态包括至少一个信号群状态和一个交通状态。较佳地,所述信号群状态包括多个信号和用于每个信号的计数器。较佳地,所述信号包括红色和绿色信号。较佳地,所述计数器存储在所述信号可被改变之前所剩余的对间量。较佳地,所述交通数据通过使用传感器收集。较佳地,所述传感器包括环形天线检测器,摄像机、雷达装置、红外传感器、RFID标签或GPS装置中的任何一个或一个以上。较佳地,所述计算交通状态的步骤包括确定输入交通的队列终点的步骤。较佳地,所述队列终点由使用总的间隔时间和间隔次数决定。因此,根据上述内容本发明是有益的。本发明具有这些和其它优点,其在权利要求部分以更明确的形式提出,且进一步揭示了本发明的可选的和优选的特征。这些实施例并不局限本发明,本发明在本文中被充分揭示。下面结合附图对本发明进行详细说明,所述说明仅为示例性的,其中图1是根据本发明的一个实施例的高级结构的示意图2a是用于实施本发明的实施例的一个交叉路口的示意图2b是本发明实施例定义的信号群移动的约束结合的示意图3是根据本发明的实施例的交通模型的图示;图4是根据本发明的实施例的流搜索的示意图5是本发明实施例中总间隔时间(T)相对于用于放行队列的间隔数量(S)的曲线图6是本发明实施例中饱和状态的图示;图7是根据本发明的实施例的间隔数量(n)相对于时间(t)的曲线图8是根据本发明的实施例的阔值函数的曲线图9是根据本发明的实施例的另一阈值函数的曲线图IO是根据本发明的实施例的第三个阈值函数的曲线图;以及图11是根据本发明的累计间隔时间关于累计间隔计数的曲线图。具体实施例方式本发明涉及用于交叉路口交通信号灯控制的方法和系统。本发明特别涉及智能交通信号灯控制系统。交通信号灯控制系统的设计是基于一智能体结构(intelligentagentarchitecture),智能体结构可以通过传感器感知它的外部环境并通过执行器对该外部环境起作用。图1显示了根据本发明第一实施例的交通信号灯控制系统(trafficsignalscontrolsystem,"TSCS")10的高级结构。该结构是基于一感知-动作(sense-act)主体模型。从实际运输域12到控制主体13的箭头11代表输入的传感器数据,而另一个箭头14代表执行器数据。在TSCS10中,传感器典型地包括环形天线检测器和摄像机、雷达装置、红外传感器、射频识别(RFID)标签或全球定位系统(GPS)装置或任何其它合适的传感器,而执行器典型地包括对应信号群的交通信号灯设置、可变消息符号和直接发送到车辆的通信。给定一连续的传感器数据流,TSCS10的目标是找到在系统约束下优化某些准则的一动作序列。这些最优化的准则包括最小化车辆的燃料消耗、最小化污染、最小化停车次数、最小化等待时间和最小化延迟,甚或是这些准则中的一个或多个的加权组合。例如,本发明的TSCS10的一个实施例是设定为最小化在一个交叉路口的所有车辆的总等待时间。TSCS10从环形天线检测器接收传感器数据从而生成用于变换交通信号灯的动作事件。控制系统还可扩展到使用更复杂的感知、交通模型和目标函数。如图1所示,TSCS10包括两个主要部分,控制器/优化器15形式的控制装置和交通模型16形式的交通建模装置。在已知模型状态和优化准则时,控制器/优化器15计算并实现控制动作。所述模型状态由交通模型16连续描述,交通模型16接收关于交通状况的传感器数据。控制器/优化器15还基于在模型的每个状态中的可行控制动作,通过预测未来结果搜索优选策略。在本发明的一个优选实施例中,该策略被存储以节约类似的交通状况再次出现时的重新计算。控制器/优化器15还可以规划受到信号变换约束和交通行为的最优前向控制策略。这是通过使用前向搜索来估算目标函数实现的。一种前向搜索算法是基于类似于八*的高效技术,一种可以在时间约束条件下返回解的算法。八*是一种最佳优先(best-first)的图搜索算法,用于寻找从一给定起始节点到一个目标节点(从一个或多个可能目标之中出来)的最小代价(least-cost)路径。其使用距离加代价的启发式函数(通常记作f(x))来确定该搜索访问树内节点的顺序。所述距离加代价的启发式是两个函数的和路径代价(path-cost)函数(通常记作g(x)),其可以是或不是启发式,以及到目标的距离的容许的"启发式估计值"(通常记作h(x)))。路径代价函数g(x)为从起始节点到当前节点的代价。由于函数f(x)的h(x)部分必须为容许的启发式,其必须低估到目标的距离。因此对于像路径选择这样的应用,h(x)可以代表到目标的直线距离,由于直线距离是物理上任意两点(或在那个问题上是节点)间的可能的最短路径。运算和执行的接通过程是连续时间内驱动的事件,且允许运算被事后评估以改变时间间隔。半马尔可夫决策过程的公式表示在本发明的一个优选实施例中,控制器/优化器15应用马尔可夫决策过程(Markovdecisionprocesses,MDP)或半马尔可夫决策过程(semi-Markovdecisionprocesses,SMDP)来确定4空制动4乍。MDP包括一状态的(有限的或无限的)集合S,和一用于状态之间转移的动作的(有限的或无限的)集合A。给定任意动作aevl,从任意状态seS到任意其他状态WeS的转移通过一转移函数Sx^xS—[O,l]定义,其中[O,l]为转移概率。类似地,给定状态s,动作a,下一状态W,报酬函数为这一转移提供期望即时效益定义为Sx5R。在一个实施例中,动作空间A定义为所有可能信号群集合中的一个子集的控制选择。例如,如图2a所示,其中示出了一个具有十二条通路的单交叉路口20,每一条通路由一个信号群控制。所述信号群从1到12顺时针编号,从最西边的起点交通流右转开始。图2b示出了作为交叉路口20的可用目标选择的信号群移动的约束集合。对于这一路口而言,每一个信号群与一交通调动相关。在此实施例中,动作空间包括八个约束集合,如图2b所示。取决于可用的资源,系统可以考虑具有所有可能的有效信号集合的动作空间,其可以在给定约束下同时运4亍。在MDP中,决策阶段之间的时间间隔的数量是不相关的。相反地,只有决策过程的顺序性是相关的。MDP是一步动作模型,其中每一动作均假定为使用固定的单位时间来在状态之间进行转移。SMDP广义化了这一动作模式,以使一个决策和下一个决策之间的时间量是可变的。在SMDP中,时间间隔可以是实数也可以是整数。目标是确定在任意状态下采取哪一动作来最大化未来的报酬。这一从状态到动作的映射S—^被称作策略(policy),记为40="。交通信号控制可用无穷分界(horizon)或连续SMDP建模。这意味着状态转移不会终止而是永远持续。减量值函数和平均报酬值函数可以确保要最大化的未来报酬函数是有界的。对于交通信号控制,一个状态s可以通过信号群状态和交通状态的组合来定义。为一交叉路口的每个信号群定义一个信号群状态。其包括一个信号颜色和两个定时器。在一个实施例中,信号颜色为绿色或红色之一,定时器用于计减信号可以在绿色和红色之间变化之前所剩余的时间。交通状态是与交通网络中的任何信息相对应而非信号群的状态。与交通状态有关的其他信息包括交叉路口的每条通路的队列长度,车辆类型、其位置和速度,以及平均车辆到达率。状态描述越丰富,搜索空间将越大,处理所需要的资源越多。在本发明的一个实施例中,控制器/优化器15使用基于交通模型的流,其对于每一个信号群只使用两个变量来描述交通状态。所述变量为队列长度的增长率和当前队列长度。使用这两个变量有两个好处。第一,该模型适于来自环形天线检测器的有限的可用数据;第二,它减小可用于搜索最优策略的假定空间。这可以保持MDP和SMDP的效率,而当具有大量的状态变量时则无法很好地衡量。事件驱动的半马尔可夫决策过程如上文所述,在MDP中,才莫型中定义的状态转移可以只用一个单位时间。然而,在本发明中,优选的是模型在动作之间具有可变的时间。这些动作在SMDP的公式表示中称为临时扩展动作。临时扩展动作的目的在于在所谓"宏动作"中生成一系列所谓"元动作","宏动作"减少了与事件有关的所谓"决策点"的数量。通过使用临时扩展动作,信号控制系统变成为一事件驱动的系统,从而显著减少了做出决策的过程的复杂度。在这样的事件驱动系统中,当一个当前有效信号终止时事件被触发。直至有效信号被终止,控制动作不能被中断。每一个事件生成一个决策点,在决策点系统必须决定下一步釆取哪一个控制动作。一个信号的开始和终止由施加于该信号的多个约束或规则决定。这些约束中的一部分由交通管理部门规定,其余的则表现为了减小要搜索的假设空间的启发式。一些可能的约束例举如下最小化每个信号的绿灯时间;最大化每个信号的红灯时间;每个信号自身置入绿灯时间;抵触信号之间置入绿灯时间;每个连续的绿灯期间放行的交通队列;一系列信号的全部或部分排序;除非其它当前活动的信号没有到达其绿灯周期的终点,信号保持绿灯;以及从有效信号的可能集合的子集中选择控制动作。13在本发明的一个实施例中,控制器/优化器15引入近似法以减小状态空间的大小,从而提高发现最优策略的效率。TSCSIO据现有状态及时提前规划状态转移,探索和评估各种短时控制方案,而不是为每个状态寻找策略。通过这种方式,TSCS10只需探索据当前状态在短时控制方案之下可以达到的状态的子集。当欠饱和的平均交通流率、饱和交通流率和车辆速度已知时,可以基于相应的信号是红和绿的多长时间来对一个交叉路口的通路的排队信息和放行解析建模。这一模型被称为解析的基于流的排队模型,或者解析的排队模型。这种模型的一个例子如图3所示。队列增长的速率被称为排队速率,其可以通过流的速率和车辆进入队列的速度用数学方法计算。类似地,队列放行的速率被称为i吏行速率,并可通过饱和流的速率和车辆离开队列的速度用数学方法计算。图3中三角形的高度表示始于红灯亮的队列的长度,它是接着上一个绿灯期间所有车辆被从队列中放行之后的。使用下述公式1,可以计算放行队列所需的绿灯时间的期望时间g。该公式从图3中模型的几何结构导出。g=^(1)变量定义单位《队列增长的速率米/秒s队列放行速率(常数)米/秒V平均交通速度(非常数)米/秒r上一红灯时间秒该模型同时允许系统计算车辆的总的等待时间。在图3中,总的等待时间用三角形的面积表示。总等待时间通过队列随时间积分算出。流速率和队列长度都是随时间变化的。交通流率是获得排队速率的函数的一个变量。因此,由于系统在数学上可以从一个转换另一个,这两个变量中只需有一个是实时的。本发明的一个优选实施例设置为从环形天线检测器数据跟踪排队速率。在跟踪排队速率的过程中,TSCS10能有效的统计在红-绿灯周期中通过的汽车数量,同时也能保证队列被完全放行和通过卡尔曼滤波器的简单应用更新排队速率。排队速率是交通状态的一部分,并且比之信号群的红-绿灯周期,其变化在一个更长的时间尺度上。通过前向搜索进行交通优化直接应用MDP对具有大的状态-动作空间的交通进行建模有很高的资源需求。因此,使用近似函数以改善系统的效率。通过进行前向搜索来对取值函数实时逼近。该前向搜索在时间参数之内运行,其从当前交通状态和信号群状态到一"时间分界(timehorizon)",时间分界为在未来预先定义的时间。该近似取值函数通过从当前交通状态执行不同的短时控制策略来生成可达的可能未来方案树。该近似取值函数通过计算沿该路径的总累积等待时间,来求所述树中每条路径的"代价"值。通过这种方式,近似取值函数实时地逼近SMDP动作值(action-value)函数。当前状态的策略是最小化等待时间的路径上的第一动作步骤。在最优路径上迈出第一步之后,系统重复前向搜索以修正信号变化的调度。当系统没有对交通的随机性进行明确建模时,频繁地修正调度是必需的。这是因为,交通模型的未来预期是不确定的,且受调度的影响,这在一开始就计划定了是有风险的。为了有效地实现前向搜索,系统引入了AM叟索方法,该方法适于这类可能未来方案的树的探索。所述搜索A+方法包括以下三个主要步骤1.扩展节点;2.形成编码函H;以及3.任何时间计算。扩展节点给定搜索树中的一个节点,就有一个采取哪一控制动作的选择。该节点被扩展到多个子节点,其允许系统探索可能的控制动作的效果。所述控制动作决定了要接通的下一个信号群的集合。如前文所述,该算法是事件驱动的,其中通过触发的事件引入决策点。搜索树中的每个节点对应一个决策点。当系统扩展一个节点时,其子节点在预示下一个触发的事件的时间点被创建。当有效信号之一到达其绿灯周期的终点时,事件被触发。要接通的有效信号的集合作为搜索树内要达到的目标。通往这一目标的路径可能在目标信号群集合达到之前被另一事件中断。因此,没有必要暗指在一个子节点活动的信号群的集合对应于目标中的有效信号群。例如,如果系统考虑执行包括有效信号群A和B的集合,信号群A可在B之前接通,并在信号群B可被接通之前达到了其绿灯周期的终点。因此,当A将要结束,且在当时只有A在那一瞬间是活动的之时,一个事件被及时触发。TSCS10从一个节点到其子节点向前演进,TSCS随着相应的控制动作在子节点中更新交通状态。以此种方式,用解析排队模型来表示交通状态,队列和等待时间均被更新,以使TSCS10可以对子节点求值。之后,TSCSIO通过根据代价函数值未展开的节点的排序来选择搜索树中下一个要扩展的节点。树中的具有最小代价的节点接着被展开,重复这一扩展过程直至搜索结束。代价函数的公式表示在八*搜索中,通过将到达当前节点的代价gO),和之后估算从此节点到目标得到的代价W"),并将二者相加来对节点求值。/(")=洲+一)(2)为了计算节点n的g(n),要计算沿从搜索树的根到节点n的路径的累积总等待时间的和。应用解析排队模型,可以获得等待时间。其通过公式(3)所示的将队列从根到节点n积分求得。=[《wewe(0tft(3)容许启发式/z(")的计算需要保证A^臾索的时间最优性。因此,只有当其没有高估到达目标的代价时,w")才是容许的。由于交通信号的控制是一项连续的作业,并且没有一个估计/z(")要达到的最终目标,所以系统通过在未来设置一个时间分界来人工创造一个目标。如图4所示。之后,系统最小化到该创造的分界的总等待时间。因此,/^)成为从节点n到时间分界的总等待时间的估计值。该估计值无法直接计算,因为TSCSIO不会具有时间分界处的精确交通状态信息,除非TSCS扩展和设计该点以外的节点。由于TSCSIO在搜索树中寻找一条最小化等待时间的路径,因此,如果在时间分界处能够达到一个比之根处的原始平均总队列长度分数级减小的平均总队列长度,TSCS将会表现良好。在这样的直觉下,TSCS10通过将平均总队列长度与节点n和时间界限之间的时间间隔相乘来估算/^),如公式4所示。尽管可能存在能够用于该搜索的其它可容许的启发式,本发明的此实施例的当前启发式是相对简单的。/z(")=拜—ra。》xwcroix(J—o(4)最后,对未来时间的任意时间点可以及时设置时间界限,只要该点在时间上足够远以使局部极小值可以避免成为解。任意时间计算通过将时间界限设定在足够远的未来以至于在实践中该时间界限是无法达到的,所述A+搜索在理论上对任何时间界限都是有界的。搜索在未来进行得越远,问题的解越理想。然而有两种方式可以限制搜索。当指定的时间或指定的存储空间耗尽时,搜索可以终止。前者称为任意时间算法,其可以返回在任意时间的解,并且通常在有更多的时间可用时能返回更好的解。由于该算法需要在实时环境中运行,该算法必须能在某些指定的时间界限内算出解。本发明的一个实施例的TSCS10设置为在节点极限的基础上,通过搜索过程超时限制搜索。当节点计算到达该极限,则搜索终止,并且从根到搜索树上最远的节点之间的路径作为解返回。同时也可以用下一个控制动作执行之前的时间剩余作为极限,并与上述相同的形式返回解。八*搜索算法1示出了当前实现的伪码。算法1使用A*搜索的前向搜索1:前向搜索("Ocfe讚ew)2:ge初始的优先队列3:时间分界4:丄仨节点个数极限5:将"0^c證",插入26:当^非空时,执行7:if节点个数达到丄then8:"0fife,,tof—节点树上最远的节点9:返回从m^^_CT(到"o^一^的路径10:"0&<~从g中弹出一个具有最小代价的节点11:if从到"ocfe的间隔>rthen12:返回从"o&c附加到"otfe的路径13:cM(irett<~扩展14:将c/H'Wrera插入g17提高MDP和SMDP性能的进一步选择包括更好的交通流测量,优化前向搜索算法或使用更真实的交通才莫型,例如蜂窝式自动才几(cellarautomata)。关于图l描述的智能体结构,本发明的一实施例的交通模型16为图3所示的解析排队模型。该模型用于仅仅基于来自位于停止线的单环形天线检测器的信号,来及时检测在一交通信号灯集合下一个车辆队列全部被放行的时刻。它提供了一种平均交通流率及其方差的测量手段,给定前一红灯和绿灯的时间,其使用可变增益卡尔曼滤波器来更新平均交通流率的估计值。还是关于图3,解析排队模型描述的环境状态包括车辆位置和速度、交叉路口灯光信号的颜色和沿网络链的平均流率。该模型还描述了作为选定控制动作的响应,其状态是如何变化的,并提供了给定每个状态和动作时的期望效用。它包括一传感器模型,该传感器模型大体上描迷了传感器作出的观测和模型状态之间的概率联系。该设计使用了一个融合传感器数据和对车辆运动建模的贝叶斯滤波器(Bayesianfilter)。贝叶斯滤波器基于TSCS的动态和状态的观测^f直(或测量值)随时间对TSCS10的状态进行估计。该滤波器是循环的,换言之,下一状态的估计和观察重复地完成和进行。从数学上,贝叶斯滤波器描述如下。假定系统的状态(离散时间)在时间t和t+l分别为st和sw。系统的动态用状态转移函数描述,该状态转移函数给出了给定控制动作at条件下,系统状态从st移动到st+i的概率为Pr(st+ilst,at)。同时,假设在时间t+l的观测值用变量zw表示。传感器模型指在系统状态为St+1条件下,观测到zt+i的概率,即Pr(zw|st+i)。则贝叶斯滤波器用如下算法描述。bel(s)表示对于s的信任度,或者是关于系统的状态的概率密度函数,bel(sw)是对过程的下一个状态s的信任度或基于其转移函数调整系统状态的预测更新。N是正规化常数。算法2贝叶斯滤波器算法、1:贝叶斯滤波器(6e/0,),a,,z,):2:对所有5(+1执行<formula>formulaseeoriginaldocumentpage18</formula>5:返回如图5所示,当绿灯周期的起始被实时测量时,交通模型16(图1中的)用总的间隔时间(T)关于间隔数量(S)的实时累积图形来确定队列终点(End-of-Queue,EoQ)。所述EoQ是该图形离开饱和流曲线处的那一点,且当其与触发线交叉时触发。所述EoQ从代表饱和流和非饱和流的线条的交叉估算。从绿灯周期的起点开始,EoQ时间提供了(1)变化的决策点;以及(2)交通流的车辆/时间的测量和基于红灯加上绿灯的时间长度的方差。为加强估计,可用卡尔曼滤波器进行交通流率估算和实时更新饱和流率(t)。交通模型交通模型由如下方程定义《xix-VX(_s—《)(5)变量定义2队列增长的速率S队列放行速率(常数)r平均交通速度(非常数)上一红灯时间g对应所需的绿灯时间单位米/秒米/秒米/秒秒秒/>式5还可表示为公式6£《(6)ixv+Gxv_ixs图3是公式5和6的图形表现,显示了排队速率(q)和所需的绿灯时间(G)的重要联系。给定了这些,就可以校正常数放行速率(s),并保证恒定的速度(v),所以如果已知紧接着的红灯时间和当前排队速率,可以通过使用公式6精确估计为^:行整个队列所需的绿灯时间;并且如果上一红灯时间和用于放行整个队列的实际绿灯时间是已知的,可以通过使用公式5精确推导出排队速率的观测值q'。排队速率的更新方程为g''=《x(l-or)+《'xa(7)其中,"是学习率。在公式7中,a是一可调的常数,用以控制排队速率跟踪器的灵敏度。队列终点测量和绿灯时间对本文来说,术语"队列终点(End-of-Queue)"(EoQ)是指时间上的一个瞬间,在那时整个队列在接近不饱和交通流的条件下按照近似法在绿灯期间被全部放行。可以看出,间隔时间的和随间隔数量的和近似呈线性增加,同时,队列被放行。间隔时间的和与间隔数量的比值近似为常数并可以测量。因此其中,T表示总的间隔时间,N表示总的间隔数量。符号t表示校正的常数。同样可以看出,排队速率q和每个车辆的总的平均间隔时间t'之间呈相反关系。当排队速率q增大时,t'减小。应用这一关系,可以从跟踪的排队速率q,计算每个车辆的总的平均间隔时间t'。变量定义d每一排队车辆的路面米数v用米/秒表示的速度(一个负的量)/"用车辆/秒表示的交通流率g用车辆/秒表示的排队速率丄y用米/车辆表示的平均长度"在速度v下屑米表示的丰辆/可乎均/'曰7隔Ls*饱和时在速度vT用米表示的丰辆间乎均/'曰7隔JW用米表示的环形天线检测器长度t饱和时每辆车的间隔时间,其为~^20〃流率f和速度V下的每辆车的间隔时间,其为0/流率f和速度v下的每辆车的占用时间,其为—V因此,下述公式9可以从图3的解析排队模型中导出。《<ix/+v等价地,公式10可以从公式9导出vx《(9)(10)现在由于,T7柳-x-=(Ls*+Zv)x/=(Ls*—Zii+丄d+£v)x/=(f+v—o'v)x/即,i(ii)公式12可通过将公式11带入公式9导出。《=(12)其等价于<formula>formulaseeoriginaldocumentpage0</formula>(13)在优选实施例中,本模型中的变量、d和o'保持恒定,因此,1其中k是常数。由于々fe和度《(14)《=.(15)或1—(16)因此,该公式可以表示为:——^——(17)由于s和t都是已经校正过的,给定当前排队速率q,我们可以近似估计t'。这一情况可如图6所示由图形表示。当队列被放行时,间隔时间的和随间隔数量的和线性增加,但是具有较高的梯度t'.这一情况可如图7所示由图形表示。在间隔数量和队列放行时的计时器绿灯时间之间存在线性关系。这一关系的方程可以表述为G=cxv(18)其中,G是计时器绿灯时间,n代表间隔的数量。它们通过常数c联系在一起。交通流率3艮踪交通流率定义为在一特定时间或在一定时间范围内通过道路上某一点的车辆的平均数量。但是,这一期望的速率在一天中通常是变化的,在一个实施例中,在大约2个信号群变换周期的短期规划范围之内,假定其保持不变。TSCS10力图对交通流进行精确估计,并接着用它来估计在红灯阶段内的排队速率和放行交通队列所需的期望绿灯时间。下一步,其结果被用于预计不同控制策略之下的时间上的前向交通队列,目标为寻找可以最小化代价函数的策略。已知车辆的两次到达的间隔率是随才几的,/人而可能无法直"l妻〗現测交通流。因此,TSCS10通过整天循环测量交通流并更新估计来跟踪交通流。跟踪的性能是离散测量(在一个实施例中,其为常量)的性能和对该估计有贡献的离散测量的数量二者的函数。离散测量的数量是估计计算之前的测量间隔的函数。因此,TSCS10基于相应的测量间隔对测量的方差进行估计。在一个实施例中,该测量间隔是从红灯的起始,经过接下来的绿灯,直到下一个红灯的起始的总时间。在一个实施例中,该"反馈方法,,保证了上一个经过的绿灯和其后的上一个红灯对下一个绿灯(和红灯)的交通流有预报作用。交通流测量的方差越小,红灯加上绿灯的总时间越短。TSCS10对方差进行估计以校正卡尔曼滤波器的增益和显著改善对放行交通队列所需的绿灯时间的估计。卡尔曼滤波器理论为每次测量的增益改变计算提供了可遵循的方法,同时也是现有的本质上使用固定增益的TSCS的改进。下一部分推导实现自适应阶段控制和可变信号群控制所需的公式。计算所用到的变量定义如下<table>tableseeoriginaldocumentpage23</column></row><table>在所述定义中,C的用法不同于传统的澳大利亚交通工程中作为循环时间的使用,而是更多的为基于阶段的,因此被认为是一个交叉路口水平的变量。在使用该定义的上下文中,C是作用于信号群的变量,这样同一个交叉路口内的两个信号群在任何时间都可以具有不同的C值。下面的部分将就TSCS10对交通流及其方差进行测量和更新交通流的估计进行阐述。测量交通流率F的测量通过对环形天线检测器在绿灯期间检测到的间隔数量进行统计,并除以经过的红灯加上绿灯的时间C。通过加入一'J、数(0到1之间)来对计数N进行修正,该小数用以对队列放行时第一和第二辆车之间可能减少的间隔进行计量。当》见测到两个间隔时,计数N力口1。对于4氐的交通流和较短的红灯时间,更近似于只有一个车辆在排队。当只观测到一个间隔时,TSCS10只引入一个小于一的小数。这可以表示为F=(19)C方差随机变量F描述了每秒到达车辆的任意平稳分布,其均值为f,方差var(F)=a〖。在一实施例中,F下面的方差假定为已知,并且可以基于对逆向交通流量的认知进行独立测量。在一个实施例中,其可以与流入速率一起指定,而在另一实施例中,其可通过观测流入速率直接测量。目的是跟踪(估计)平均交通流量f。每一个绿灯之后,TSCS10对交通流,即P,进4亍一次观测,并对平均交通流量f进行更新。在一个实施例中,假设在绿灯的终点,队列净皮全部》丈行。因此,被测量的交通流的观测包括在先的红灯加上绿灯区间的交通队列。另C为用秒表示的红灯加上绿灯时间的时间和。TSCS10将计算对C秒的交通流测量f的方差。在一实施例中,假设相继车辆的抵达是独立均匀分布(MA)的。-r,巧var(尸)=曹(Lg"(20)24c这说明,对任何平稳分布的交通流,测量的方差反比于红灯加上绿灯的时间长度c。可变增益卡尔曼滤波器使用一维卡尔曼滤波器对f进行循环更新。更新过程包括以下重复执行的四个步骤:顺序步骤更新方程1衰减我们跟踪的流率的方差P2从观察到的测量方差计算新的卡尔曼增益I仁PP+及3应用具有更新了新的增益的卡尔曼滤波器4更新新的流率方差5返回步骤1并重复P是跟踪的流率的方差。Q是过程噪声的方差。i-J^是测量方差。大的C值意味着小的R值。小的R值的好处是可以将增益K提高到更接近1。所述增益等价于强化学习的学习率,而接近于1的取值意味着更新可以更快地使估计^i向观测〗直移动。为使对F的测量有效,典型地,当进行测量时将队列全部^:行。一种用于检验它的方法是检验绿灯期间的饱和度,在饱和度值小于1时,则假定队列已经被完全放行。另一种方法是在绿灯信号期间侦测队列终点并在其后的任何时间进行测量。队列终点的检测这里,TSCS10的目标是确定当一个队列-波全部放行时的时间点。所述时间点定义为当一个放行队列的最后一辆车越过停止线之时。本文所述的队列终点测量和交通流率估计方法是基于前述的交通排队模型。在一个实施例中,假定车辆在接近队列的末尾时以恒定速度行驶,并以同样的速度离开队列。同时假定当在队列中时,车辆是静止的。TSCS10能够访问来自位于停止线之前的单环形天线检测器的占用数据。累积间隔-时间图我们注意到,对于在队列放行周期内给定的绿灯时间,间隔时间的和T随着间隔计lt的和N近似呈线性增长。间隔时间的和与间隔计数的和之间的比值近似为一常数t,并且可以标准化。这可以表示如下rf=-iV+l其中,T是总的间隔时间而N是总的调整过的间隔数量。这样一来,可以用t来表示标准化后的常数,即每个放行车辆的平均间隔时间。当到达队列终点时,流率从饱和变回到正常流率。每个车辆的间隔时间增加,且间隔时间累积关于间隔数量的图的轨迹具有更陡的比率t',如图7所示。阈值触发队列终点通过触发上述实时图表的一个阈值表征。该阈值触发在一T值(总间隔时间)。假定实际的总间隔时间超过阈值线时,;险测到队列终点。有多种方式来定义阈值函数。简单而有效的触发机制为平行的、单调的和二者混合。阈值函数的设计取决于特定路口的需求,并由交通工程师设置。系统将误判的风险和触发的不敏感性进行加权。三种阈值触发方案分别如图8、9、IO所示。从图8、9、IO可以看出,触发队列终点的时间点为实际的队列终点之后的某一时刻。当然,控制器可以仅在事件触发时做出反应。但是,为了更新交通流率或排队速率的目的,可以计算真实的队列终点绿灯时间来做出更好的估计。对于非饱和的交通条件,该队列终点方法总是用于偏移绿灯时间,来提供比所需更多的绿灯时间。余量是触发机制的函数。其结果是当控制器"最大化约束条件"无法适用时,在饱和度小于一的条件下运行控制器,例如,最大化红灯时间(或最大化周期时间)。该方法的显著进步在于,当受限于非饱和条件下的非最大化约束时,控制器总是能够有机会对流进行正确的预报。上述方法的优点为通过与低级的交替方法相比较可被最好地理解,所述低级的交替方法允许控制器在非饱和条件下给出过低的绿灯时间,即,使得饱和率大于1。这会导致控制器无法估计过去所需的绿灯时间,因而也无法对当前的流做出估计。非线性短时段t26注意到,封闭车道的应用,例如封闭的右转车道,道路工作状况以及天气条件均会对累积间隔时间和间隔计数函数产生影响。在一个实施例中,累积间隔时间是队列放行期间的累积间隔计数的线性函数。在另一实施例中,该函数是非线性的,且可自动在线校正,从而避免了来自人的手工输入,同时使队列终点的检测更为精确。短时段t函数数据可存放在一个表中,该表格初始填充有反映常量的短时段t的粉色线条的值。通过反复为每个可能的累积间隔计数值更新相应的累积间隔时间来进行函数更新。对于每一次更新,使用减量因子&=0.3。下面的表才各说明了前4次观测更新的短时^殳t的更新过程的查询表。<table>tableseeoriginaldocumentpage27</column></row><table>队列终点触发函数可以按照校正的短时段t表格加入到前述的阈值触发机制。尽管本发明是参考上述的优选实施例进行说明的,本领域技术人员应该明了其不仅局限于这些实施例,而是可以用多种其他形式实现。在此说明书中,除非行文特别清楚地指明,否则,词汇"包括……的"不能视为具有排除意义的词汇,如"仅由……构成,,,而是具有非独占的含义,意味"至少包括"。同样适用于具有相应语法变换的其它形式的词汇,例如"包括"等。产业实用性本发明可作为一种用于交叉路口交通信号灯控制的方法使用。特别是,本发明可用于实现交叉路口的信号集合的控制和变换方法的系统和软件平台,该方法用于基于效用函数来优化交通流量。类似地,本发明可用作交通控制系统,其对道路交通进行监视和控制。权利要求1、一种控制道路交叉口交通信号的方法,所述交通信号包括多个信号群,每个信号群控制控制交叉路口中至少一个方向的交通,所述方法包括以下步骤(i)获取并使用交通数据以计算当前交通状态和该交通状态的变化率;(ii)作为对步骤(i)获得的计算结果的响应,公式化至少一个动作和所述动作的持续时间,其中每个动作包括变换至少一个交通信号;(iii)根据步骤(i)获得的计算结果和步骤(ii)公式化的动作,决定一个或多个策略;(iv)使用连续决策过程来估计步骤(iii)决定的策略的报酬;(v)选择一能最大化所述报酬的策略。2、根据权利要求1所述的方法,其中,所述当前交通状态包括交通队列的长度、车辆速度、车辆位置、车辆类型和到达率中的一个或一个以上。3、根据权利要求1所述的方法,其中,所述当前交通状态包括交通队列的长度,所述变化率是交通队列的增长率。4、根据权利要求1到3任意一项所述的方法,其中,所述连续决策过程包括一半马尔可夫决策过程。5、根据权利要求4所述的方法,其中,所述连续决策过程包括一半马尔可夫决策过程的最优化。6、根据权利要求5所述的方法,其中,所述最优化包括以下步骤(i)生成一包括多条不同路径的策略途径,每条路径具有一个或多个节点,其代表至少一个策略;以及(ii)通过估计和加总在位于沿每一不同路径的每个节点的策略的报酬,来估计所述策略途径中每条路径的报酬。7、根据权利要求6所述的方法,其中,所述最优化适于在策略途径中的终止条件达到时终止。8、根据权利要求7所述的方法,其中,所述终止条件选自节点统计极限、时间统计极限或存储器统计极限中的一个或一个以上。9、根据权利要求6所述的方法,其中,估计出的报酬是一个用于最优化至少一个交通条件的函数的值。10、根据权利要求9所述的方法,其中,所述交通条件是车辆的燃料消耗、污染、车辆停车的次数、车辆等待时间和时间延迟中的任意一个或一个以上。11、根据权利要求1所述的方法,其中,所述连续决策过程包括一个状态集合、一个用于状态之间的转移的动作的集合,和一个策略包括将状态映射到动作,其中,一个状态包括至少一个信号群状态和一个交通状态。12、根据权利要求11所述的方法,其中,所述信号群状态包括多个信号和用于每个信号的计数器。13、根据权利要求12所述的方法,其中,所述信号包括红色和绿色信号。14、根据权利要求12所述的方法,其中,所述计数器存储在所述信号可被改变之前所剩余的时间量。15、根据上述任一权利要求所述的方法,其中,所述交通数据通过使用传感器收集。16、根据权利要求15所述的方法,其中,所述传感器包括环形天线检测器,摄像机、雷达装置、红外传感器、RFID标签或GPS装置中的任何一个或一个以上。17、根据上述任一权利要求所述的方法,其中,所述计算交通状态的步骤包括确定输入交通的队列终点的步骤。18、根据权利要求17所述的方法,其中,所述队列终点由使用总的间隔时间和间隔次凄t决定。19、一种交通信号控制系统,其包括一用来控制一执行器的控制装置,所述执行器用于控制道路交叉口交通信号,所述交通信号包括多个信号群,每个信号群控制控制交叉路口中至少一个方向的交通;和一用于从传感器接收交通数据的交通模拟装置,所述控制装置执行如下操作(i)获取并使用所述交通数据以计算当前交通状态和该交通状态的变化率;(ii)作为对步骤(i)获得的计算结果的响应,公式化至少一个动作和所述动作的持续时间,其中每个动作包括变换至少一个交通信号;(iii)根据步骤(i)获得的计算结果和步骤(ii)公式化的动作,决定一个或多个策略;(iv)使用连续决策过程来估计步骤(iii)决定的策略的报酬;(v)选择一能最大化所述报酬的策略。20、根据权利要求19所述的交通信号控制系统,其中,所述当前交通状态包括交通队列的长度、车辆速度、车辆位置、车辆类型和到达率中的一个或一个以上。21、根据权利要求19所述的交通信号控制系统,其中,所述当前交通状态包括交通队列的长度和所述变化率是交通队列的增长率。22、根据权利要求19到21中任意一项所述的交通信号控制系统,其中,所述连续决策过程包括一半马尔可夫决策过程。23、根据权利要求22所述的交通信号控制系统,其中,所述连续决策过程包括一半马尔可夫决策过程的最优化。24、根据权利要求23所述的交通信号控制系统,其中,所述最优化包括以下步骤(i)生成一包括多条不同路径的策略途径,每条路径具有一个或多个节点,其代表至少一个策略;以及(ii)通过估计和加总在位于沿每一不同路径的每个节点的策略的报酬,来估计所述策略途径中每条路径的报酬。25、根据权利要求24所述的交通信号控制系统,其中,所述最优化适于在策略途径中的终止条件达到时终止。26、根据权利要求25所述的交通信号控制系统,其中,所述终止条件选自节点统计极限、时间统计极限或存储器统计极限中的一个或一个以上。27、根据权利要求24所述的交通信号控制系统,其中,估计出的报酬是一个用于最优化至少一个交通条件的函数的值。28、根据权利要求27所述的交通信号控制系统,其中,所述交通条件是车辆的燃料消耗、污染、车辆停车的次数、车辆等待时间和时间延迟中的任意一个或一个以上。29、根据权利要求20所述的交通信号控制系统,其中,所述连续决策过程包括一个状态集合、一个用于状态之间的转移的动作的集合和一个策略包括将状态映射到动作,其中,一个状态包括至少一个信号群状态和一个交通状态。30、根据权利要求29所述的交通信号控制系统,其中,所述信号群状态包括多个信号和用于每个信号的计数器。31、根据权利要求30所述的交通信号控制系统,其中,所述信号包括红色和绿色信号。32、根据权利要求30所述的交通信号控制系统,其中,所述计数器存储在所述信号可被改变之前所剩余的时间量。33、根据权利要求18到32中任意一项所述的交通信号控制系统,其中,所述交通数据通过使用传感器收集。34、根据权利要求33所述的交通信号控制系统,其中,所述传感器包括环形天线检测器,摄像机、雷达装置、红外传感器、RFID标签或GPS装置中的任{可一个或一个以上。35、根据权利要求20-34中任意一项所述的交通信号控制系统,其中,所述计算交通状态的步骤包括确定输入交通的队列终点的步骤。36、根据权利要求35所述的方法,其中,所述队列终点由使用总的间隔时间和间隔次凄t决定。37、如本文附图中所描述的交通控制系统。38、如本文附图中所描述的控制交通信号的方法。全文摘要一种控制道路交叉口交通信号的方法,所述交通信号包括多个信号群,每个信号群控制控制交叉路口中至少一个方向的交通,所述方法包括以下步骤获取并使用交通数据以计算当前交通状态和交通状态的变化率。该方法进一步包括公式化至少一个动作和所述动作的持续时间作为对上述计算的响应。其中每个动作包括变换至少一个交通信号。基于获得的计算结果和公式化的动作,决定一个或多个策略。使用连续决策过程来估计决定的策略的报酬并选择一能最大化所述报酬的策略。文档编号G08G1/07GK101599219SQ20091014398公开日2009年12月9日申请日期2009年6月4日优先权日2008年6月4日发明者伯恩哈德·亨斯特,森冈信行,黄恩阳申请人:新南威尔士州道路交通管理局
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1