一种基于深度强化学习的实时交通信号控制方法及装置

文档序号：24726638发布日期：2021-04-16 16:13阅读：173来源：国知局

1.本发明涉及交通信号处理技术领域，尤其涉及一种基于深度强化学习的实时交通信号控制方法及装置。

背景技术：

2.国外许多国家和地区早已普及使用了交通信号控制系统，被认为是解决冲突的车辆和行人交通冲突的最有效方法之一，尤其应用在十字交叉路口。现有技术中的信号控制系统的信号设置，并不能有效的适应动态交通变化，要么不考虑实时流量，要么只考虑非常有限的流量。但一些演唱会、大型比赛或更常见的交通事件繁忙时段，交通信号灯控制系统几乎失去了协调功能，不能很好的进行优化控制。此时本发明经常目睹交通警察通过挥舞信号直接管理交叉路口。操作员可以查看相交道路的实时交通状况，并利用他的长期经验和对十字路口的观察了解，人工确定每个方向的允许通过时间的持续时间，该操作显然通常非常直接有效。
3.依靠人工来指挥交通，效率十分低下，且会增加人力成本，因此，如何更高效的实现自动化的实施交通信号控制已经成为业界亟待解决的问题。

技术实现要素：

4.本发明提供一种基于深度强化学习的实时交通信号控制方法及装置，用以解决现有技术中对于交通信号控制效率不高的情况，实现更高效的交通信号控制。
5.本发明提供一种基于深度强化学习的实时交通信号控制方法，包括：
6.从目标路口的实时信息图像中获取目标路口的实时车辆信息；
7.将目标路口的实时车辆信息输入预设单路口交通信号控制模型，得到目标路口的交通信号控制方案；
8.其中，所述预设单路口交通信号控制模型是根据携带实时车辆样本信息进行训练得到的。
9.根据本发明提供的一种基于深度强化学习的实时交通信号控制方法，所述方法还包括：
10.获取目标路口的周边多个路口实时图像，并从周边多个路口实时图像中获取多个路口的实时车辆信息；
11.将多个路口的实时车辆信息输入预设多路口交通信号控制模型，得到多路口的交通信号整体控制方案；
12.其中，所述预设多路口交通信号控制模型是根据多个路口的车辆样本信息进行强化学习训练得到的。
13.根据本发明提供的一种基于深度强化学习的实时交通信号控制方法，在所述将多个路口的实时车辆信息输入预设多路口交通信号控制模型的步骤之前，所述方法还包括:
14.根据多个路口的实时车辆信息得到多个路口的局部奖励函数和多个路口的整体
奖励函数；
15.根据局部奖励函数和整体奖励函数得到多个路口的混合奖励函数。
16.根据本发明提供的一种基于深度强化学习的实时交通信号控制方法，所述从目标路口的实时信息图像中获取目标路口的实时车辆信息的步骤，具体包括：
17.将所述目标路口的实时信息图像进行网格化处理，对每个网格进行速度值向量和位置值向量进行分析，获取目标路口的实时车辆信息；
18.其中，所述实时车辆信息包括：实时车辆速度信息和实时车辆位置信息。
19.根据本发明提供的一种基于深度强化学习的实时交通信号控制方法，在所述将目标路口的实时车辆信息输入预设单路口交通信号控制模型的步骤之前，所述方法还包括：
20.获取目标路口多个实时样本图像的实时车辆样本信息，将一个实时样本图像的实时车辆样本信息作为一组训练样本；
21.将所述训练样本输入预设深度强化学习模型，采用经验回放法进行训练，得到样本交通信号控制信息，当满足预设训练条件时，停止训练，得到预设单路口交通信号控制模型；
22.其中，所述预设训练条件为：预设深度强化学习模型的收益奖励值超过预设阈值。
23.根据本发明提供的一种基于深度强化学习的实时交通信号控制方法，所述将所述训练样本输入预设深度强化学习模型，采用经验回放法进行训练的步骤，具体包括：
24.将训练样本输入预设深度强化学习模型得到q值输出，基于ε
‑
贪婪法选取q值对应的交通信号控制方案；
25.根据下一个训练样本，确定当前训练样本对应的交通信号控制方案的收益奖励；
26.将当前训练样本、当前训练样本对应的交通信号控制方案、下一个训练样本和当前训练样本的收益奖励作为四元组，存储到经验回放集合中；
27.从经验回放集合中随机获取多个四元组，计算目标交通信号控制方案。
28.根据本发明提供的一种基于深度强化学习的实时交通信号控制方法，在所述将目标路口的实时车辆信息输入预设单路口交通信号控制模型的步骤之前，所述方法还包括：
29.将所述训练样本输入预设双q网络深度强化学习模型采用经验回放法进行训练，当满足预设训练条件时，停止训练，得到预设单路口交通信号控制模型；
30.其中，所述预设训练条件为：预设双q网络深度强化学习模型的收益奖励值超过预设阈值。
31.本发明还提供一种基于深度强化学习的实时交通信号控制装置，包括：
32.获取模块，用于从目标路口的实时信息图像中获取目标路口的实时车辆信息；
33.控制模块，用于将目标路口的实时车辆信息输入预设单路口交通信号控制模型，得到目标路口的交通信号控制方案；
34.其中，所述预设单路口交通信号控制模型是根据携带实时车辆样本信息进行训练得到的。
35.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于深度强化学习的实时交通信号控制方法的步骤。
36.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算
机程序被处理器执行时实现如上述任一种所述基于深度强化学习的实时交通信号控制方法的步骤。
37.本发明提供的一种基于深度强化学习的实时交通信号控制方法及装置，通过从道路网络收集大量实时车辆数据，从而结合强化学习的思想，将样本实时交通状况作为输入，不断接收来自环境的交通状况和奖励来更新其模型，从而得到能够有效根据实时车辆信息，做出最优交通信号控制的模型，最后将每个路口的实时车辆信息输入该模型，从而得到交通信号控制方案。
附图说明
38.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
39.图1是本发明提供的基于深度强化学习的实时交通信号控制方法的流程示意图；
40.图2为本发明提供的drl深度学习网络模型示意图；
41.图3为本发明实施例提供的多路口状态空间示意图；
42.图4为本发明提供的强化学习在交通环境中的应用示意图；
43.图5为本发明提供的状态价值和动作价值的转换关系示意图；
44.图6为本发明提供的交通灯控制模型示意图；
45.图7为本发明提供的单路口示例车辆网络示意图；
46.图8为本发明提供的动作空间示意图；
47.图9为本发明提供的单路口动作空间图；
48.图10为本发明提供的基于深度强化学习的实时交通信号控制装置示意图；
49.图11为本发明提供的电子设备的实体结构示意图。
具体实施方式
50.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
51.图1是本发明提供的基于深度强化学习的实时交通信号控制方法的流程示意图，如图1所示，包括：
52.步骤s1，从目标路口的实时信息图像中获取目标路口的实时车辆信息；
53.本发明中所描述的目标路口的实时车辆信息来自交通环境的车辆观测信息，由于深度强化学习使用了深度神经网络，它是一个非线性的近似法，因此将仿真模拟的检测环境获取状态是很有效的方式，仿真器的信息捕捉对于获取车辆状态极为有帮助。但是，它需要其他状态编码过程才能获得强化学习的状态空间。
54.故此基于路口处车辆的位置和速度这两个信息来定义状态。通过单路口车辆网络，可以提取当前路口的虚拟信息图像获得车辆的位置和速度。
55.本发明中所描述的目标路口的实时车辆信息具体是指通过现有的交通信号控制系统所获取的当前时刻的实时交通数据，其能够有效反应当前时刻的交通情况，以便于模型根据当前时刻的交通情况给出交通信号控制方案。
56.步骤s2，将目标路口的实时车辆信息输入预设单路口交通信号控制模型，得到目标路口的交通信号控制方案；
57.其中，所述预设单路口交通信号控制模型是根据携带实时车辆样本信息进行训练得到的。
58.本发明中所描述的交通信号控制方案可以是指根据当前交通环境状况选择适当合适的动作，以很好地引导路口的车辆。在单路口相交处设置四个信号阶段，即南北直行绿色、南北左转绿色、东西直行绿色和东西左转绿色。默认情况下，其他未提及的方向为红色。相序固定为：
[0059][0059][0060]
其中：nsg表示南北直行方向为绿色相位；nslg表示南北左转方向为绿色相位；ewg表示为东西直行方向为绿色相位；ewlg表示为东西左转方向为绿色相位；nsy、nsly、ewy、ewly均表示各相位的黄色相位时长(设置为3秒)。
[0061]
出于安全原因，黄灯时间阶段和红灯时间阶段的设置是必不可少，可以减慢车辆的行驶速度并防止不必要的车辆互让行为的发生，避免交通危险的同时，可以更加有效成功的制定绿色阶段。所有绿色阶段都有最小绿色时间和最大绿色时间，这确保收集足够的信息来评估奖励功能的效果，同时还可以防止在可变相位序列设置中出现极短的相位。四相位信号信息表示当前动作空间周期中的四个持续阶段，本发明建立了9种不同动作，本发明将从当前周期到后续周期的时间变化为秒。在下一个周期中，只有一个相位的绿灯持续时间是当前持续时间加上或减去秒，或者保持不变。在选择了下一个周期的阶段持续时间后，当前持续时间即变为所选持续时间。信号动作控制空间可以按照与上一个步骤同样的方式选择下一个新动作，并进行不断的实时信号优化。如果在相位扩展后当前的绿色时间小于或等于最小绿色时间或者当前的绿色时间大于或等于最大绿色时间，则此动作保持不变。
[0062]
本发明中所描述的预设单路口交通信号控制模型通过从道路网络收集大量实时车辆数据，从而结合强化学习的思想，将样本实时交通状况作为输入，不断接收来自环境的交通状况和奖励来更新其模型，从而得到能够有效根据实时车辆信息，做出最优交通信号控制的模型，最后将每个路口的实时车辆信息输入该模型，从而得到交通信号控制方案。
[0063]
在一实施例中，所述从目标路口的实时信息图像中获取目标路口的实时车辆信息的步骤，具体包括：
[0064]
将所述目标路口的实时信息图像进行网格化处理，对每个网格进行速度值向量和位置值向量进行分析，获取目标路口的实时车辆信息；
[0065]
其中，所述实时车辆信息包括：实时车辆速度信息和实时车辆位置信息。
[0066]
具体的，单路口可被划分为相同大小的方形网格。网格的长度应该确保在同一网格中不能容纳两辆车，并且可以将一辆整车放入网格中以减少计算量，本发明中网格的值将在网络结构中给出。网格的设置可能会影响测试结果，若设置太大，则即使在某种程度上减少了计算工作量，所测得的车速也会更加分散，代表性降低；若设置太小，存储的各个车
辆的详细信息不足。而在实际路口环境中，将每个进口停止线前的每个车道的车辆信息作为状态特征的提取对象，对于驶过停止线的车辆，已不在当前信号控制路口的信号控制范围内，即不属于当前路口的研究对象，故网格的精确划分以研究进口方向的停止线前为准即可。每个网格中状态值是内部车辆的两个值向量<位置，速度>。位置尺寸是一个二进制值，采用布尔向量编码表示网格中是否有车辆。如果网格中有车辆，则网格中的值为1；否则为0，车道外的空白单元格由零值进行填充操作。速度尺寸网格是一个以真实数值的归一化编码进行填充，以表示车辆的当前速度。
[0067]
本发明中通过网格化处理，能够精准的表达每辆车的车辆信息，有利于后续模型对于车辆信息的处理。
[0068]
在一实施例中，在所述将目标路口的实时车辆信息输入预设单路口交通信号控制模型的步骤之前，所述方法还包括：
[0069]
获取目标路口多个实时样本图像的实时车辆样本信息，将一个实时样本图像的实时车辆样本信息作为一组训练样本；
[0070]
将所述训练样本输入预设深度强化学习模型，采用经验回放法进行训练，得到样本交通信号控制信息，当满足预设训练条件时，停止训练，得到预设单路口交通信号控制模型；
[0071]
其中，所述预设训练条件为：预设深度强化学习模型的收益奖励值超过预设阈值。
[0072]
具体的，本发明中将预设深度强化学习模型设置为一个卷积神经网络，具体可以是深度强化学习模型(deep reinforcement learning；drl)，在对卷积滤波器进行卷积之前，通过使用零填充为先前的特征图像填充空列和空行。其深度学习网络的输入层是车辆的位置和速度信息，设定第一卷积层是步长为4
×
4的16个8
×
8的flter滤波器与输入信息进行卷积，并应用非线性整流器。为简洁起见，未明确指出relu层，但其包含在卷积层中。卷积之后，通过合并4
×
4的每个像元来创建新的特征信息。平滑后的特征尺寸缩小到14
×
14
×
16。第二个卷积层将步长为2
×
2的32个4
×
4的flter滤波器卷积，再次使用整流器非线性。激活并合并后，特征图像的尺寸缩小到6
×6×
32。将最后一个特征图展平并连接起来，以便与下一个完全连接的层链接。最后的隐藏层是完全连接层，由256个整流器单元组成。输出层是完全连接的线性层，每个有效动作均具有单个输出，图2为本发明提供的drl深度学习网络模型示意图，如图2所示。
[0073]
理想情况下，在对agent进行训练后，它将对最佳q值做出良好的估计并据此学习最佳行动策略。
[0074]
但是，实际上，agent可能无法良好估计到这些最佳q值的，因为目前agent仅经历了有限的路口状态，而不是整个状态空间，因此对于未经历的状态的q值可能无法很好地估算。此外，状态空间本身可能会不断变化，从而使当前的估计q值过时。因此，agent总是面临一个权衡的问题：是否利用已经学习的q值(可能不准确或过时)选择具有最大q值的动作，或探索其他可能的行动以改善q值，并最终做出最佳动作。
[0075]
drl的模型步骤如下所示：
[0076]
drl模型步骤：
[0077]
模型输入：迭代轮数t，步长step，状态特征维度n，q网络结构，动作集a，探索率ε，衰减因子γ，批量梯度下降的样本数m。
[0078]
模型输出：q网络参数。
[0079]
step1：随机初始化q网络的所有参数w，基于w初始化当前的状态和动作对应的q值，清空经验回放的集合d；
[0080]
step2：依据迭代轮数t，进行迭代训练；
[0081]
step3：初始化参数s作为环境状态中的初始序列，并提取其特征向量
[0082]
step4：将车辆信息的状态特征向量作为q网络输入提取信息，依据动作集合所得的q值输出，基于ε
‑
贪婪法选取对应的控制动作a；
[0083]
step5：当前状态s执行选择的动作a，切换到下一状态s
′
及其状态特征向量得到收益奖励r，决定是否结束状态；
[0084]
step6：将四元组存入经验回放集合d；
[0085]
step7：状态更新s＝s
t+1
；
[0086]
step8：从经验回放集合d中采样m个样本j＝1,2...,m，计算当前目标q值y
i
：
[0087][0088]
step9：损失函数使用均方根mse误差，通过神经网络的梯度反向传播来更新q网络的所有参数w；
[0089]
step10：如果s
′
是终止状态，当前轮迭代完毕，否则转到步骤step4。
[0090]
在一实施例中，所述将所述训练样本输入预设深度强化学习模型，采用经验回放法进行训练的步骤，具体包括：
[0091]
将训练样本输入预设深度强化学习模型得到q值输出，基于ε
‑
贪婪法选取q值对应的交通信号控制方案；
[0092]
根据下一个训练样本，确定当前训练样本对应的交通信号控制方案的收益奖励；
[0093]
将当前训练样本、当前训练样本对应的交通信号控制方案、下一个训练样本和当前训练样本的收益奖励作为四元组，存储到经验回放集合中；
[0094]
从经验回放集合中随机获取多个四元组，计算目标交通信号控制方案。
[0095]
具体的，根据状态选择动作的过程以及估计目标q值的过程中，drl模型均使用的是同一个q网络。值函数对应的值均高估了相同的水平，也就是说增幅一致，这里选用ε
‑
贪婪法的策略优势体现出来，通过在不选择最大值函数的情况下，也会一直考虑未被选择的动作。虽然未被选择的动作未必会是最优策略，但在后续不断选择中，会更多遍历不同的动作，以最大化寻求最佳策略。强化学习意在寻求最好的控制方法，而不是获得价值函数。但是在实际的交通环境的不同状态中选择的不同动作，导致值函数高估的幅度并非一致，而且可能每次均在波动。所以高估的值函数将很大程度上左右最佳策略的选择。为了避免这种情况的出现，需要对选择和衡量进行解耦，采用两个q网络来减少目标q值计算和要更新深度神经网络参数之间的依赖关系，从而避免过高的值估计影响最优策略的选择。当前的q网络在动作集合中选择动作以更新模型，目标q网络则只需求得对应的目标q值。目标q’网络的网络参数不参与迭代更新，而是定期从当前q网络复制从而实现延时更新，这样可以减
少目标q值和当前的q值相关性。模型二ddrl的目标q网络的参数暂时是固定的，并且会定期更新。当目标q网络的功能被更新时，其参数设置为与当前的q网络功能的参数相同。
[0096]
ddrl模型步骤如下所示：
[0097]
ddrl模型步骤：
[0098]
模型输入：迭代轮数t，步长step，状态特征维度n，当前q网络，目标q网络q’，动作集a，探索率ε，衰减因子γ，目标q网络参数更新频率c，批量梯度下降的样本数m。
[0099]
模型输出：q网络参数。
[0100]
step1：初始化当前的环境状态和动作集合以及对应的q值，初始化当前q网络中参数w，初始化目标q网络q’的参数w
′
＝w，放空经验池d；
[0101]
step2：依据迭代轮数t，进行迭代；
[0102]
step3：初始化参数s作为环境状态中的初始序列，并提取其特征向量
[0103]
step4：将车辆信息的状态特征向量作为q网络输入提取信息，依据动作集合所得的q值输出，基于ε
‑
贪婪法选取对应的控制动作a；
[0104]
step5：当前状态s执行选择的动作a，切换到下一状态s
′
及其状态特征向量得到收益奖励r，决定是否结束状态；
[0105]
step6：将四元组存入经验池集合d；
[0106]
step7：状态更新s＝s
t+1
；
[0107]
step8：从经验回放集合d中采样m个样本step8：从经验回放集合d中采样m个样本j＝1,2...,m，计算当前目标q值y
i
：
[0108][0109]
step9：采用均方根误差mse作为损失函数，使用神经网络的梯度反向传播进行当前q网络的所有参数w的更新；
[0110]
step10：如果t％c＝1，则更新目标q网络参数w
′
＝w；
[0111]
step11：若下一s
′
为结束状态，则停止当前迭代，反之返回步骤step4。
[0112]
训练深度强化学习q网络时，每次使用最接近当前时刻的样本对其进行训练时，样本将在时间上相关。在前一刻更新网络参数之后，将在下一刻生成样本。目标值发生变化会导致q网络参数起伏波动，进而影响深层q网络的收敛。
[0113]
为了打破样本之间关联关系，通过经验池采用随机抽取经历更新参数。但是，对于奖励稀疏的情况，只有多步正确动作后才有奖励的问题，会存在能够激励agent进行正确学习的样本很少，采用随机抽取经历的方式，效率会很低，很多样本都存在奖励为0的情况出现。为了解决此问题，文本的深度强化学习控制模型采用优先经验回放法，即为抽取经历时，优先抽取最有价值的经历，但是又不能只抽取最有价值，不然会造成过拟合，设置价值越高的，被抽取到的概率越大，价值较低的也有一定的抽取概率。故样本时间误差ω
t
为：
[0114][0115]
为了不让神经网络过拟合，通过概率方式进行经验的优先级抽取，保证即使是ω
t
为零的经验也能被抽取到。令每个经验i的抽取概率为下式(2)：
[0116][0117]
p
i
＝|ω
t
+λ|
ꢀꢀꢀꢀꢀꢀ
(3)
[0118]
上式(3)中，λ为极小的一个值，防止样本的时间误差为零的经验被抽取到的概率不会为零。
[0119]
对于梯度优化器的选择，使用自适应adam优化器。对于其时间步梯度有如下式(4)计算：
[0120][0121]
其中，θ为卷积神经网络中的参数，公式(5)和(6)分别计算梯度的一阶和二阶指数移动平均数，m0和n0初始化为0。
[0122]
m
t
＝α1m
t
‑1+(1
‑
α1)g
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0123][0124]
其中α1和α2分别是一阶和二阶的指数衰减率。使用公式(7)和(8)对一阶和二阶梯度均值进行偏差纠正，以降低对训练初期的影响。
[0125][0126][0127]
接下来设置学习率，更新参数并从梯度均值及梯度平方两个角度进行自适应调节，如公式(9)所示：
[0128][0129]
式中，λ为初始学习率，ω为固定参数，以实现数值的稳定性。
[0130]
在一实施例中，所述方法还包括：
[0131]
获取目标路口的周边多个路口实时图像，并从周边多个路口实时图像中获取多个路口的实时车辆信息；
[0132]
将多个路口的实时车辆信息输入预设多路口交通信号控制模型，得到多路口的交通信号整体控制方案；
[0133]
其中，所述预设多路口交通信号控制模型是根据多个路口的车辆样本信息进行强化学习训练得到的。
[0134]
具体的，本发明中的方案不仅仅考虑了单一路口的交通信号控制，还充分考虑了多路口的交通信号控制，因此本申请中充分考虑多个路口的交通信号控制整体方案能够实现更高效的交通信号控制。
[0135]
本发明可以绘制每个agent的全局最优q值，并按以下方式更新此q值，以路口5为例，其q值更新收到上一状态周围的路口2、路口4、路口6和路口8不同程度的影响，如下公式(10)：
[0136]
[0137]
其中，ω
j
为路口j的q值权重；n为当前路口临近的路口j，应根据相邻路口j对该路口的影响来设置不同的权重。考虑到相邻路口的影响，在邻近的时间步长中，相邻agent的最优q值将转移到当前q网络的损失函数中。多路口的均方根误差损失函数定义如下式(11)所示：
[0138][0139]
对于多路口的深度强化学习信号模型，通过提出的drl模型和ddrl模型各自的cnn的通用结构，可以有效识别出多路口网络中每个单路口agent的车辆状态。两种模型对所有多路口均使用相同的cnn网络结构进行处理。
[0140]
图3为本发明实施例提供的多路口状态空间示意图，如图3所示，建立了9种不同动作。在下一个周期中，只有一个相位的持续时间是当前持续时间加上或减去k秒，或者保持不变。
[0141]
基于强化学习的信号控制器的关键是确保立即获得延时奖励回报。对于多路口，将奖励分为两部分。其中一部分称为整体奖励，它可以使agent学习最佳策略以最大化整个道路网络的容量。更确切地说，选择多路口的总排队时间作为奖励的整体部分，如公式(12)所示。奖励信号的局部部分同单路口相同，如公式(13)所示，其也有助于稳定agent行为。本发明通过赋予权重来平衡整体奖励和局部部分奖励来形成完整的混合奖励函数r
td
，如公式(14)所示。
[0142]
r
tz
＝t
t
‑
t
t+1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0143]
r
tb
＝p
t
‑
p
t+1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0144]
r
td
＝μr
tz
+(1
‑
μ)r
tb
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0145]
其中，r
tz
为整体奖励。在训练学习过程中，权重系数μ将从0逐渐增加到1。
[0146]
在一实施例中，本发明采用vissim
‑
python联合仿真平台来验证模型模型的可行性(vissim版本为5.40)，开发环境是pycharm软件(python版本为3.7)。同时将vissim提供的com(component object model)接口与其他编程计算软件一起使用，并将外部仿真程序导入该软件。
[0147]
本发明选择python来搭建深度强化学习模型，使用tensorflow作为后端。通过vissim软件的com接口与python进行交互，以实现路口数据的收集和处理以及动作命令的发布和执行。编程中的深度强化学习模型一drl和模型二ddrl的超参数基础设置如表1和表2所示。vissim仿真单路口的基础设置如表3所示，定义车辆构成为小型汽车和大型客车，比例为9：1，所有车辆均为都遵循泊松分布，车辆随机到达道路入口并提前选择路线。动作空间中设置最小绿灯时间为10s，最大绿灯时间为60s，参数k设置为5s。
[0148]
表1 drl模型基础设置
[0149][0150]
表2 ddrl模型基础设置
[0151][0152]
表3 vissim仿真基础设置
[0153][0154]
每个episode之后，将更新目标网络和模型参数。在开始训练时，路口信息数据被
收集并存储在经验池中，信息是根据随机动作策略收集的。这样做的目的是确保agent从随机经验池中学习，而不是从初始的网络参数中学习。所有实验均由pc服务器(配置为intel(r)xeon(r)cpu e5
‑
1650 3.50ghz，内存64gb)上执行。
[0155]
本发明针对四种情况进行研究，分别为低峰时段流量、平峰时段流量、高峰时段流量以及特殊时段流量(例如：大型比赛、演唱会、特殊天气或交通事故等)。对于单路口选用江苏省宿迁市洪泽湖路与青年路交叉口2016年11月5日
‑
2017年11月5日的一年平均小时统计流量以反映模型的平均适用情况，得到的单路口四个时段的各进口道的流量设置值如表4所示。
[0156]
表4各时段各进口道流量值
[0157][0158]
仿真结果与分析
[0159]
通过对比固定配时、drl模型以及ddrl模型在四种流量情况下的车辆速度、排队车辆数以及车辆行程时间，验证两种深度强化学习模型的优劣。
[0160]
模型在做出控制决策方面是逐步稳定的，即迭代稳定后不会在良好和不良动作策略之间摆动，甚至转向不良动作控制策略。对整体流量进行四部分划分后的不同情况下，drl模型和ddrl模型刚开始的时候，平均行程时间和排队车辆数均较大。因为模型网络训练刚开始进行，给予的动作控制结果并不是很良好的。随着训练迭代时间的推移，平均行程时间和排队车辆数评价指标逐渐降低并趋于稳定，均整体优于固定信号配时。表明agent确实从训练中获得了极佳的适应性动作控制策略，模型算法机制稳定，优先经验回放和目标网络可以有效持续的工作。若车辆的平均行程时间和排队车辆数较大，导致agent受到惩罚，即奖励减少时，agent会相应地调整其动作策略。故此说明了本文模型比传统固定配时更好地提升了路口的整体性能和车辆的行驶效率。
[0161]
当路口处于低峰时段时，整体交通流量较小，ddrl模型的优化效果并没有改善太多，车辆在行驶过程也未发生太大的拥堵现象。对于平峰时段和特殊时段来说，车流量有一定幅度增加的时候，固定配时控制对路口的车辆的控制不能出现及时的适应和调整，也不能进行更好的路口优化。尤其到高峰时段，此时自适应的配时调整，给予整个路口和车辆更加及时的反馈和调整。大大提高通行的效率，缩短车辆行驶时间。随着深度强化学习更长时间的在更多路口的应用，其对于道路环境的优化性能将更大化的彰显。
[0162]
对平稳后的drl模型和ddrl模型进行分析，在四个时段内，ddrl模型的平均结果均优于drl模型。平均排队车辆数指标中，在低峰、平峰、高峰以及特殊时段下，ddrl模型分别低于drl模型5.277％、2.016％、2.501％和4.823％。平均车辆行程时间指标中，在低峰、平峰、高峰以及特殊时段下，ddrl模型分别低于drl模型3.708％、3.489％、3.976％和4.072％。ddrl模型的平均车辆速度在低峰、平峰、高峰以及特殊时段表现分别高于drl模型1.095％、1.408％、2.151％和1.624％。ddrl模型信号控制在四种流量情况下均更高效，意
味着其提供的自适应控制可以更好的改善路口通行效率。同时也说明ddrl模型使用两个q网络，达到了减小目标q值计算和要更新q网络参数之间的依赖关系，有效避免过高的值估计影响最优策略的选择，提升模型性能的目的。值得注意的是，对于特殊情况的仿真控制研究，本发明可以充分看出ddrl模型对于突发事件的判断和应对能力对比drl模型甚至优于高峰时段的管控。尽管高峰时段造成的大面积堵塞，是本发明努力抑制的首要目标，但其拥堵特性往往具有日变、周边、趋势性和季节性等规律可以探寻。特殊情况往往伴随突发交通事件、恶劣天气以及重大活动的不确定性、偶然性和随机性，更能考验路口控制器的协调效果，一旦发生一般均产生整个路口甚至整个路网的瘫痪，也是需要重点关注的方向。故此更进一步证明提出的单路口深度强化学习控制的ddrl模型的优越性能。
[0163]
在一实施例中，本发明使用vissim
‑
python联合仿真平台来验证深度强化的可行性。信号多路口区域控制实验采用江苏省宿迁市的真实路网进行案例验证。
[0164]
根据江苏省宿迁市的9个路口组成的多路口小规模路网为检测对象，本发明采用2017年6月7日(星期三)的真实流量数据进行验证模型。
[0165]
各路段四个时段流量的设定如表5、表6、表7、表8所示；
[0166]
表5为各路段低峰时段流量表
[0167][0168]
表6为各路段平峰时段流量表
[0169][0170]
表7为各路段道高峰时段流量表
[0171][0172]
表8为各路段特殊时段流量表
[0173][0174]
vissim仿真多路口的基础设置如表9所示。通过切换交通信号灯后的道路状况，可以观察到诸如车辆数量、车辆速度、排队事件、排队车辆数和行程时间之类的参数。
[0175]
表9多路口vissim仿真基础设置
[0176][0177]
可以看出对整体流量进行四部分划分后的不同情况下，drl模型和ddrl模型刚开始的时候，平均行程时间和排队车辆数的波动基数均较大。因为模型网络训练刚开始进行，给予的动作控制结果并不具有针对性和适应性，仍处于调整阶段。模型需要进行一定程度的探索才能在反复试验的基础上进行深度学习和更精确的控制。随着训练时间的推移，各项评价指标逐渐趋于稳定且均保持整体优于固定配时。
[0178]
对平稳后的ddrl模型和drl模型进行分析，相同流量下，ddrl模型的控制效果得到显着增强。在四个时段内，ddrl模型的平均结果均优于drl模型。平均排队车辆数指标中，在低峰、平峰、高峰以及特殊时段下，ddrl模型分别低于drl模型4.654％、2.504％、4.739％和4.126％。平均车辆行程时间指标中，在低峰、平峰、高峰以及特殊时段下，ddrl模型分别低于drl模型5.597％、6.266％、6.234％和7.038％。ddrl模型的平均车辆速度在低峰、平峰、高峰以及特殊时段表现分别高于drl模型2.821％、3.685％、5.144％和3.467％。与单路口
相比，多路口的交通状况更为复杂，ddrl模型表现出了对路口更优越的自适应控制。同时ddrl模型也均优于drl模型，说明ddrl模型使用的两个q网络模式，达到了减小目标q值计算和要更新q网络参数之间的依赖关系，对于多路口整体优化来说，有效避免过高的值估计影响最优策略的选择，提升性能效果比单路口更为明显。整个深度强化学习模型使区域多路口的控制水平处于稳定状态。同理可以发现，对于多路口特殊时段的模拟仿真控制研究，ddrl模型对于突发情况的处理和控制能力对比drl模型依然优秀。
[0179]
本发明提出整体奖励和局部奖励的权重混合奖励函数，逐步提升多路口的整体优化行为。采用江苏省宿迁市的真实路网进行案例验证，证明ddrl模型比传统固定配时和drl模型均更好地提升了多路口的整体性能和车辆的综合驾驶效率。
[0180]
图4为本发明提供的强化学习在交通环境中的应用示意图，如图4所示，其包括根本环境状态，获取奖励，得到动作调整环境。
[0181]
图5为本发明提供的状态价值和动作价值的转换关系示意图，如图5所示，为某时刻的状态价值和动作价值的转化关系，当t时刻状态价值在示例动作集的两个动作中成功做出选择后的期望，动作价值是延时奖励和环境中可能出现的下一个状态的概率乘以该下一状态的状态价值的和，再乘上衰减。
[0182]
图6为本发明提供的交通灯控制模型示意图，如图6所示，图6中的左图为交叉路口场景，由强化学习模型控制；图6中的右图是一个深度神经网络，以帮助交通信号灯提取高纬特征信息。左侧显示了交通信号灯中的结构，交通信号控制模型首先通过交通环境中的车辆网络收集道路交通信息，该网络由图中的蓝色线条表示。
[0183]
图7为本发明提供的单路口示例车辆网络示意图，如图7所示，显示一个单路口的单车道四向交叉路口的交通状况情况。图中整个路口被分成8
×
8的64个方形网格。空白单元格表示相应网格中该位置没有车辆，该车辆为0，内部装有车辆的其他单元格设置为1。
[0184]
图8为本发明提供的动作空间示意图，如图8所示，其中：nsg表示南北直行方向为绿色相位；nslg表示南北左转方向为绿色相位；ewg表示为东西直行方向为绿色相位；ewlg表示为东西左转方向为绿色相位；nsy、nsly、ewy、ewly均表示各相位的黄色相位时长(设置为3秒)。
[0185]
图9为本发明提供的单路口动作空间图，如图9所示，四相位信号信息表示当前动作空间周期中的四个持续阶段，本发明建立了9种不同动作。在图中，一个方框表示一个周期中四个阶段的绿灯持续时间。本发明将从当前周期到后续周期的时间变化为k秒。在下一个周期中，只有一个相位的绿灯持续时间是当前持续时间加上或减去k秒，或者保持不变。在选择了下一个周期的阶段持续时间后，当前持续时间即变为所选持续时间。信号动作控制空间可以按照与上一个步骤同样的方式选择下一个新动作，并进行不断的实时信号优化。
[0186]
图10为本发明提供的基于深度强化学习的实时交通信号控制装置示意图，如图10所示，包括：获取模块1010和控制模块1020；其中，获取模块1010用于从目标路口的实时信息图像中获取目标路口的实时车辆信息；其中，控制模块1020用于将目标路口的实时车辆信息输入预设单路口交通信号控制模型，得到目标路口的交通信号控制方案；其中，所述预设单路口交通信号控制模型是根据携带实时车辆样本信息进行训练得到的。
[0187]
本发明通过从道路网络收集大量实时车辆数据，结合强化学习，不断接收来自环
境的交通状况和奖励来更新其模型，从而得到能够有效根据实时车辆信息，做出最优交通信号控制，从而得到交通信号控制方案。
[0188]
图11为本发明提供的电子设备的实体结构示意图，如图11所示，该电子设备可以包括：处理器(processor)1110、通信接口(communications interface)1120、存储器(memory)1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行基于深度强化学习的实时交通信号控制方法，该方法包括：从目标路口的实时信息图像中获取目标路口的实时车辆信息；将目标路口的实时车辆信息输入预设单路口交通信号控制模型，得到目标路口的交通信号控制方案；其中，所述预设单路口交通信号控制模型是根据携带实时车辆样本信息进行训练得到的。
[0189]
此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0190]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于深度强化学习的实时交通信号控制方法，该方法包括：从目标路口的实时信息图像中获取目标路口的实时车辆信息；将目标路口的实时车辆信息输入预设单路口交通信号控制模型，得到目标路口的交通信号控制方案；其中，所述预设单路口交通信号控制模型是根据携带实时车辆样本信息进行训练得到的。
[0191]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于深度强化学习的实时交通信号控制方法，该方法包括：从目标路口的实时信息图像中获取目标路口的实时车辆信息；将目标路口的实时车辆信息输入预设单路口交通信号控制模型，得到目标路口的交通信号控制方案；其中，所述预设单路口交通信号控制模型是根据携带实时车辆样本信息进行训练得到的。
[0192]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0193]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该
计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0194]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：焦朋朋;刘侃;孙博;杨紫煜;王泽昊
技术所有人：北京建筑大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.机器人 2.嵌入式控制系统开发
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、毕老师：机构动力学与控制
4、袁老师：1.计算机视觉 2.无线网络及物联网
5、周老师：1.智能机器人技术 2.智能检测与控制技术 3.机构运动学与动力学 4.机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。