一种基于图神经网络的区域交通信号灯控制方法与流程

文档序号：19422037发布日期：2019-12-14 01:38阅读：535来源：国知局

本发明属于交通信号灯控制领域，尤其是涉及一种基于图神经网络的区域交通信号灯控制方法。

背景技术：

交通信号灯控制是一个关键而又具有挑战性的现实问题，其目的是使路网的交通效率最大化，并避免交叉口内可能的交通冲突。近年来，信号交叉口成为了是城市交通路网中的交通效率提升最大的瓶颈之一。因此，找到一种切实可行的能够根据当期、未来车流情况自动学习调节的交通信号控制方法，能够显著地缓解交通拥堵，并带来显著的经济、环境和社会效益。

目前，许多现代城市中广泛使用的交通信号控制系统，如scats、scoot等系统，这些系统的交通信号方案主要是依靠基于统计历史交通数据的交通信号控制算法设计得到。这些方法的控制策略(基于预定义相位的控制策略)是改变每个预先定义好的相位的参数如放行时间等。其中相位的概念是指该相位放行时间内各方向各车道的信号状态的组合。这些方法在不断变化，与时间相关的交通场景中既不灵活，也不能动态的根据实时流量调整信号控制方案。除此之外，还有其他较少使用的自适应交通信号控制方法，这些方法根据交叉口附近感应线圈的信号来确定下一秒(或时间段)应该放行哪些车道(相位)。但是这些方法同样也只依据当前的车流情况来干预交通流，并没有充分利用到历史交通数据来帮助优化、设计控制方案。同时这些方法还受到其依赖的感应线圈易损坏、在线率不稳定等问题的影响。

为了解决传统交通控制方法中存在的问题，最近提出了许多基于增强学习的信号灯控制方法。其中大部分方法仍使用每一秒(或时间段)决定下一秒(或时间段)可通行车道组合的相位切换策略。这些方法比使用预定义相位的控制策略显得更为灵活，但是这种方法频繁、突然的相位切换方式容易导致交通事故，并且严重影响驾驶体验。因此，为了避免因相位突然切换而造成驾驶体验不良和交通事故等问题，最近提出了一些基于预定义相位的强化学习方法。

但是，不论是传统方法，或者是基于强化学习的方法，均将主要焦点放在了一个或很少量的交通灯的独立控制上，忽略了交通控制行为对周边路网可能带来的影响。同时，目前的方法仍然局限于对历史交通数据的学习和对当前车流的及时响应，忽略了交通控制行为可能带来的对未来区域车流的影响。

技术实现要素：

本发明提供了一种基于图神经网络的区域交通信号灯控制方法，可以不断优化系统适应变化的车流，提高路网通畅程度和交通效率。

一种基于图神经网络的区域交通信号灯控制方法，其特征在于，包括：

(1)从信号灯控制系统中获取当前的信号控制方案以及目标区域路网过去几个周期的流量数据，所述的信号控制方案包括周期长度、相位方案和各相位放行时间；一般选择过去五个周期的流量数据，具体周期数目亦可根据应用需求修改(每一个周期指的是每个相位执行一次的时间总长)；

(2)将当前相位配时、各目标路口过去数个周期的流量数据、路网连接图输入到基于深度消息传播图网络mpgnn构建的交通流量预测器mptf中，获得当前周期的各路口各方向的车流量预测数据；

(3)将当前信号控制方案、各目标路口过去数个周期的流量数据、路网连接图以及步骤(2)得到的车流量预测数据输入到基于深度消息传播图网络mpgnn构建的交通信号灯控制器rtsc，将生成的当前周期的各相位配时作为调节后的控制方案；其中，所述的rtsc为每一个控制路口构建控制子网络，每个控制子网络使用同样的mpgnn输出作为输入；

(4)使用交通流量预测器mptf，输入步骤(3)调节后的控制方案、各目标路口过去数个周期的流量数据、路网连接图，评估步骤(3)调节动作的价值；

(5)使用步骤(3)调节后的控制方案控制路网一个周期时间；

(6)从信号灯控制系统中收集当前的路网流量数据，结合该周期开始前的路网流量数据，计算步骤(3)中调节方案的收益；

(7)使用步骤(6)中收集的路网流量数据和调节方案收益，结合步骤(4)中得到的价值估计，训练交通流量预测器mptf；

(8)使用步骤(6)中得到的调节方案收益和步骤(4)中得到的价值估计，训练交通信号灯控制器rtsc；

(9)开始下一个周期，每个周期重复上述步骤(1)至步骤(8)。

本发明使用当前、历史流量数据以及配时方案，生成信号灯相位配时方案。同时训练一个流量预测器和一个信号灯控制器，可以同时控制多个交通信号灯，并协同优化每个交通信号控制方案；通过在线训练方式，使用交通流量预测器预测当前干预动作下的未来车流变化预测值，来帮助交通信号灯控制器生成新的控制方案，并使用交通流量预测器的动作价值预测器评估新的控制方案的价值，来辅助训练交通信号灯控制器最大化交通信号灯控制方案的长期、短期收益。整个算法以最小化路口等待时间为目标来优化每个步骤。

交通流量预测器和信号灯控制器均基于本发明中提出的深度消息传播图网络(mpgnn)搭建而成。

所述的深度消息传播图网络mpgnn由多个图神经网络层组成，网络输入是由路网上各节点的流量值和表示各节点间连接关系的路网连接图组成的输入图；在mpgnn中的每一层，会对输入图上各节点进行信息传播和信息汇聚两个操作，这两个操作的数学表达式分别为：

其中，是节点v在经过第k层信息传播操作的输出，是节点v在经过第k层信息汇聚操作的输出，是输入图上节点v的流量值，n(v)表示所有直接连接到节点v的节点的集合，mlp表示由三层全连接神经网络层组成的多层感知机。

步骤(2)中，所述交通流量预测器mptf获得车流量预测数据的步骤为：首先将当前信号控制方案中的各相位配时使用多层全连接神经网络提取成特征编码；然后将各目标路口过去数个周期的流量数据、路网连接图、相位配时特征编码输入mpgnn，提取得到当前区域路网交通情况的特征向量；最后，将特征向量输入到未来流量预测器中，得到未来流量的预测值。

步骤(3)中，所述交通信号灯控制器rtsc生成行相位配时步骤为：

(3-1)将步骤(2)中得到的车流量预测数据、当前相位配时、各目标路口过去数个周期的流量数据、路网连接图输入一个mpgnn得到当前区域路网交通情况的特征向量；

(3-2)根据需要控制的各路口分别构建一个路口控制子网络，每个子网络输出的相位配时与该路口相位数目有关。具体的，如果一个路口有6个相位，那么控制该路口的子网络将生成6个相位的配时，而另一个控制只有2个相位的子网络将生成2个相位的配时。各子网络均使用当前区域路网交通情况的特征向量作为输入，输出为各路口的控制动作高维连续分布的均值、平方差值；

(3-3)各子网络从对应路口的控制动作高维连续分布中采样出各相位配时，并使用softmax函数将各相位配时归一化得到各相位配时比例，再乘以周期长度得到各相位配时长度。

步骤(4)中，交通流预测器mptf的使用方式与步骤(2)中相似，但当前相位配时用步骤(3)中生成的新配时替代。具体步骤为：输入步骤(3)调节后的控制方案、各目标路口过去数个周期的流量数据、路网连接图后，将得到的当前区域路网交通情况特征向量输入到动作价值预测器中用以预测步骤(3)中生成的新配时价值。

步骤(6)中，所述调节方案的收益表达式为：

r(o^(t-1),o^(t),a^(t))＝o^(t-1)-o^(t)

其中，o⁽ⁱ⁾为第i个周期内，区域路网各路口各方向的车辆排队长度；a^(t)为第i个周期开始前步骤(3)中生成的相位配时。该收益的具体意义为区域路网各节点上的排队长度变化值，最终得到的r是一个向量。

步骤(7)中，训练交通流量预测器使用的损失函数为：

其中，vθ(o^(t-1),a^(t))为步骤(4)中预测的新配时价值，为步骤(2)中得到的流量预测值(车辆排队长度)，|*|l1为平均绝对误差函数。

步骤(8)中，训练信号灯控制器使用的目标函数为：

其中，n为所有路口的集合，训练采用在线训练策略，每一个周期之后所有网络均会被优化一次。

与现有技术相比，本发明具有以下有益效果：

1、本方法基于图神经网络挖掘区域路网车流的相关特征，对路网车流的演化过程建模，能够提高交通信号灯控制器、流量预测器的对路网车流变化趋势的感知能力。

2、本发明提出的基于图神经网络的所有网络，仅需使用路网连接图来表明路网拓扑结构，而各路口连接边上的车流转移权重由网络动态学习得到。克服了基于卷积图网络的其他方法需要使用拉普拉斯特征基来构建图网络结构的缺点。

3、本发明提出的流量预测器，通过动态对路网车流演化过程建模，能够更好的刻画车流动态变化。在有说服力的公开数据集上测试，效果超过其他目前世界最优秀的流量预测方法。

4、本发明提出的交通信号灯控制器，可同时控制大量路口信号灯。与先前的最优秀的方法相比，能够协同优化所有信号灯，以达到路网流量均衡，有效提升路网通畅程度的作用。基于图神经网络提取得到的当前车流特征为交通信号灯控制器提升了其全局感知能力。

5、本发明将流量预测和交通信号灯控制有机结合，通过在线训练的方式，不断优化系统适应变化的车流，并提高路网通畅程度和交通效率。流量预测值的使用，使得交通信号灯控制器提高了对动作未来收益的感知能力，帮助提高交通信号灯控制器的动作价值。同时对动作价值的预测，可以帮助提高交通信号灯控制器产生的动作的远期收益。

附图说明

图1为本发明基于图神经网络的区域交通信号灯控制方法的流程示意图

图2为本发明中交通流量预测器mptf的结构示意图；

图3为本发明中交通信号灯控制器rtsc的结构示意图；

图4为本发明实施例中基于sumo模拟器搭建的仿真路网示意图；

图5为本发明实施例在模拟流量配置1下测试的路网平均速度可视化图；

图6为本发明实施例在模拟流量配置1下测试的路网平均排队长度可视化图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，一种基于图神经网络的区域交通信号灯控制方法，使用预定义相位、调节各相位配时长度的控制策略。本发明使用在线训练方法在运行中不断学习，在每一个周期(每个相位执行一次的时间总长)内，该方法包括以下步骤：

s01从信号灯控制系统中获取当前的信号控制方案和流量指标数据。其中信号控制方案包括周期长度、相位方案、各相位放行时间及信号灯结构化静态数据如gps定位、版本号等。流量指标数据包括目标区域路网过去几个周期各路口各方向的车辆排队长度，亦可根据应用需求替换为其他可表示流量状况的指标如通过车辆数目等。

s02将当前相位配时、各目标路口过去数个周期的流量数据、路网连接图输入基于mpgnn构建的交通流量预测器mptf，获得当前周期的各路口各方向的车辆排队长度的预测值，交通流量预测器mptf的结构如图2所示。其中的深度消息传播图网络mpgnn是由多个图神经网络层组成，网络输入是由路网上各节点的流量值和表示各节点间连接关系的路网连接图组成的输入图。在mpgnn中的每一层，会对输入图上各节点进行‘信息传播’和‘信息汇聚’两个操作，这两个操作的数学表达式为：

其中，是节点v在经过第k层‘信息传播’操作的输出，是节点v在经过第k层‘信息汇聚’操作的输出，是输入图上节点v的流量值，n(v)表示所有直接连接到节点v的节点的集合，mlp表示由三层全连接神经网络层组成的多层感知机。在‘信息传播’操作中，所有直接连接到节点v的节点的信息被线性加和。在‘信息汇聚’操作中，‘信息传播’操作的输出会和上一层输出的节点信息相加，然后输入mlp得到当前层的输出图。

s03将当前信号控制方案、各目标路口过去数个周期的流量数据、s02中得到的流量预测数据、路网连接图输入基于mpgnn构建的交通信号灯控制器rtsc，生成当前周期的各相位配时。交通信号灯控制器rtsc的结构如图3所示。其中，交通信号灯控制器rtsc为每一个控制路口个性化构建控制子网络，每个控制子网络均使用同样的mpgnn的输出作为输入。而各子网络输出的相位配时从一个独立的高维连续分布中采样得到。

s04使用交通流量预测器，输入s03中调节后的控制方案、各目标路口过去数个周期的流量数据、路网连接图，通过深度传播图网络mpgnn后得到当前路网情况的特征向量，再输入到由三个全连接层构成的动作价值预测器中得到调节动作的价值预测值。三个全连接层之间各有一个relu激活函数。

s05使用s03中调节后的控制方案控制路网一个周期时间。

s06再次从信号灯控制系统中收集当前的路网流量数据，结合该周期开始前的路网流量数据，计算s03中调节方案的收益。收益的计算方式为：

r(o^(t-1),o^(t),a^(t))＝o^(t-1)-o^(t)

其中o⁽ⁱ⁾为第i个周期内，区域路网各路口各方向的车辆排队长度，a^(t)

为第i个周期开始前s03中生成的相位配时。该收益的具体意义为区域路网各节点上的排队长度变化值，最终得到的r是一个向量。

s07使用s06中收集的路网流量数据和计算得到的收益，结合s04中得到的价值估计，训练交通流量预测器。训练交通流量预测器使用的损失函数为：

其中vθ(o^(t-1),a^(t))为s04中预测的新配时价值，为s02中得到的流量预测值(车辆排队长度)，|*|l1为平均绝对误差函数。

s08使用s06中得到的收益和s04中得到的价值估计，训练交通信号灯控制器。训练信号灯控制器使用的目标函数为：

其中n为所有路口的集合。本发明使用在线训练策略，每一个周期之后所有网络均会被优化一次。

s09开始下一周期，重复s01到s09。

为了验证本发明对提升交通路网运行效率的有效性，我们在sumo模拟器上构建了一个具有21个路口、72条道路的仿真路网，仿真路网示意图如图4所示。我们根据真实车流规律生成了具有挑战性的仿真车流，对比本发明同时控制21个路口时与目前最有效的同类方法的效果。sumo模拟器全称simulationofurbanmobility，是由德国航空航天中心运输系统研究所(instituteoftransportationsystemsatthegermanaerospacecenter)开发的一款目前在交通领域最常用的交通仿真软件，以其接近真实的仿真效果著称。我们在sumo模拟器中生成了三种配置的车流，以验证方法在不同场景下的效果。三种配置车流如下表1所示：

表1

其中车流主要趋势表示了该段时间内，车流在路网中路线的趋势，例如西到东表示该股车流在路网中大部分由西向东形势，以此模拟潮汐车流场景。车辆到达率决定了车流量的大小，数值越大，交通压力越大。

在三种交通流配置下本发明与目前最有效的同类方法比较的结果如下表2所示：

表2

其中，trafficconfiguration表示表1中的配置编号，avg.speed是整个模拟过程中路网平均车速的均值，avg.queue是整个模拟过程中路网平均路口排队长度的均值，avg.waiting是整个模拟过程中车辆在路网中等待通行(包括拥堵和等红绿灯)的平均时间，timeduration是完成整个模拟所花费的时间。从结果看出，我们的方法(graphrtsc)相比于所有选取的同类方法在三种交通流配置下各项指标均超过了同类方法。同时，我们测试了不使用mptf提供的预测流量时的效果(graphrtsc-nomptf)，如表2所示，效果差于使用mptf提供的预测流量(graphrtsc)。

同时，我们将配置1下每一秒的路网平均车速和平均排队长度记录下来，比较本发明与同类方法的效果。如图5和图6所示，本发明(graphrtsc)在路网平均车速和平均排队长度上表现均优于同类方法。

另外，为验证本发明中流量预测器的流量预测准确有效性，在metr-la数据集与目前世界最优秀的流量预测方法进行了对比实验。由南加州大学公开的metr-la数据集包含从洛杉矶县高速公路环形探测器收集的交通信息，包括207个传感器的从2012年3月1日到2012年6月30日的车流数据。

本实验在测试集上与目前最有效的同类方法dcrnn、stgcn、st-unet就15分钟、30分钟和60分钟预测准确率做了比较，对比结果如表3所示。

表3

从结果看出，本发明的方法(mptf)相比于所有选取的同类方法在该数据集上具有明显更高的准确率。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余正旭;蔡登;魏龙;谢亮;金仲明;黄建强;华先胜;何晓飞
技术所有人：浙江大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.机器人 2.嵌入式控制系统开发
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、毕老师：机构动力学与控制
4、袁老师：1.计算机视觉 2.无线网络及物联网
5、周老师：1.智能机器人技术 2.智能检测与控制技术 3.机构运动学与动力学 4.机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。