一种基于深度Q学习神经网络的大型路网交通信号控制方法与流程

文档序号：23619817发布日期：2021-01-12 10:30阅读：262来源：国知局

本发明涉及交通控制工程、人工智能应用领域，具体涉及深度q学习神经网络方法和交通信号控制方法。

背景技术：

2020年，汽车保有量的数值仍将以可以预见的趋势迅速增长。这个趋势带来的交通拥堵问题却日益严峻。然而，交通路网的建设速度完全跟不上车辆增长的速度。交通信号灯配时方案的好坏极大程度影响了交通通行的质量。然而目前几乎所有的路网采用的都是定时配时方案，这种方案虽然稳定可靠，但是不能适应交通流的随机变化。而随着5g通信技术的迅速普及，接下来几年5g信号将在我国大部分城市覆盖，尤其是大城市的覆盖率会更高。而大城市往往是交通拥堵问题最严重的城市。

技术实现要素：

为了优化当前的大型路网交通定时配时方案，本发明提出一种利用当前路网各个车道的车辆数和相位数据来训练神经网络实时控制交通信号的方法，基于5g通信技术的发展，可以通过对路网的信息的采集，实时控制路网的交通信号。从而通过优化信号灯配时方案来缓解交通拥堵问题。

本发明解决其技术问题所采用的技术方案是：

一种基于深度q学习神经网络的大型路网交通信号控制方法，包括以下步骤：

1)对于大型路网中的每个交叉口，在一段连续的时间里获取每个路口的所有车道近路口50米的车辆数目，同时，记录当前时刻状态对应下的每个路口所执行的相位编号；

2)预处理原始车辆数和相位数据，获得车辆数-相位数据集{nk,pk}，其中，nk为第k时刻路网中每个路口各个车道排队车辆的个数的总和，k＝1,2,…,k，k为该数据集合中的数据个数；

3)利用车辆数-相位数据集{nk,pk}，更新深度q学习神经网络中的神经网络；

4)根据得到的深度q神经网络，该段路网所需要的相位信息由实际获得的各个路口50m内车流量数据和相位信息代入下式决定：

pnextpnext＝argmax(q(nnow,pnow；θ))

其中，pnext指代该段路网所需要的相位信息，nnow指代当前车辆数，pnow指代当前可采用的相位信息，θ指代深度q学习神经网络的参数，q(nnow,pnow；θ)指代在给定的车辆数、相位信息、参数下的q值函数，argmax(q(nnow,pnow；θ))指代使得q值函数取得最大值的可控参数的值，即pnext。

进一步，所述步骤2)的过程如下：

2.1)检测并删除异常数据，如路口50m内车辆数目瞬变的数据；

2.2)将路网中的路口数据和相位信息按照时间顺序梳理，获取数据集合{nk,pk}。

更进一步，所述步骤3)的过程如下：

3.1)初始化q神经网络q(nk,pk；θ)，其中θ为神经网络权重；

3.2)对于每一个数据{nk,pk}，定义深度q学习神经网络中的奖励值：

r＝-nk；

3.3)利用车辆数-相位数据集{nk,pk}中每一个数据对q神经网络按照损失函数l(θ)，梯度下降法更新q神经网络，其中折扣因子γ＝0.99，i代表迭代次数，损失函数和更新公式如下：

3.4)重复更新神经网络直到更新次数到达最大迭代次数i＝1000000或者损失函数小于0.001。

本发明的技术构思为：首先收集路网中每个交叉口中的每个车道50m内的车辆和该时刻的相位信息生成训练数据，然后又基于该数据集，使用深度q学习神经网络方法训练神经网络。最后该路网的的最优相位可以通过实际获得的各个路口50m车辆数数据和训练好的神经网络得到，该发明最终得到的交通信号的控制器可以处理交通路网的车流随机变化的特性。

本发明的有益效果为：通过交通数据流实时创建数据集，用数据集训练深度q学习神经网络，然后用训练好的神经网络用于交通信号的实时控制，从而可以挖掘海量的交通数据来缓解交通拥堵情况。

附图说明

图1显示了深度q学习神经网络算法的流程图；

图2显示了微观交通仿真软件sumo搭建的大型路网示意图，用于下文的实例分析。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于深度q学习神经网络的大型路网交通信号控制方法，包括以下步骤：

1)参照图2，对于大型路网中的每个交叉口，在一段连续的时间里获取每个路口的所有车道近路口50米的车辆数目，同时，记录当前时刻状态对应下的每个路口所执行的相位编号；

2)预处理原始车辆数和相位数据，获得车辆数-相位数据集{nk,pk}，其中，nk为第k时刻路网中每个路口各个车道排队车辆的个数的总和，k＝1,2,…,k，k为该数据集合中的数据个数，过程如下：

2.1)检测并删除异常数据，如路口50m内车辆数目瞬变的数据；

2.2)将路网中的路口数据和相位信息按照时间顺序梳理，获取数据集合{nk,pk}；

3)参照图1，利用车辆数-相位数据集{nk,pk}，更新深度q学习神经网络中的神经网络，过程如下：

3.1)初始化q神经网络q(nk,pk；θ)，其中θ为神经网络权重；

3.2)对于每一个数据{nk,pk}，定义深度q学习神经网络中的奖励值：

r＝-nk；

3.4)重复更新神经网络直到更新次数到达最大迭代次数i＝1000000或者损失函数小于0.001；

4)根据得到的深度q神经网络，该段路网所需要的相位信息由实际获得的各个路口50m内车流量数据和相位信息代入下式决定：

pnext＝argmax(q(nnow,pnow；θ))

本实施例以使用交通微观仿真软件sumo搭建的杭州文一路到文三路路网共计39个路口的实测过车数据为实施例，一种基于深度q学习神经网络的大型路网交通信号控制方法，包括以下步骤：

1)对于sumo绘制的文一路文三路路网中的39个交叉口，在一段连续的时间里获取每个路口的所有车道近路口50米的车辆数目，同时，记录当前时刻状态对应下的每个路口所执行的相位编号；

2.1)检测并删除异常数据，如路口50m内车辆数目瞬变的数据；

2.2)将路网中的39个路口数据和相位信息按照时间顺序梳理，获取数据集合{nk,pk}；

3)利用车辆数-相位数据集{nk,pk}，更新深度q学习神经网络中的神经网络，过程如下所述：

3.1)初始化q神经网络q(nk,pk；θ)，其中θ为神经网络权重；

3.2)对于每一个数据{nk,pk}，定义深度q学习神经网络中的奖励值：

r＝-nk；

3.4)重复更新神经网络直到更新次数到达最大迭代次数i＝1000000或者损失函数小于0.001；

4)根据得到的深度q神经网络，该段路网39个交叉口所需要下一时刻的相位信息由实际获得的各个路口50m内车流量数据和相位信息代入下式决定：

pnext＝argmax(q(nnow,pnow；θ))。

以交通微观仿真软件sumo为实施例，运用以上方法得到了基于深度q学习神经网络的交通信号控制器，结果车辆的实际排队时间降低了22.5％。

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：方忠良;张湛;王喆冰;杨军喜;徐琛;冯远静;李永强
技术所有人：航天科工广信智能技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.机器人 2.嵌入式控制系统开发
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、毕老师：机构动力学与控制
4、袁老师：1.计算机视觉 2.无线网络及物联网
5、周老师：1.智能机器人技术 2.智能检测与控制技术 3.机构运动学与动力学 4.机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。