交通灯配时优化方法、系统及存储介质

文档序号：26013176发布日期：2021-07-23 21:34阅读：来源：国知局

技术特征：

1.一种交通灯配时优化方法，其特征在于，包括以下步骤：

获取路口的交通灯各个相位对应方向的历史车辆数据，将所述历史车辆数据输入预先训练好的交通灯配时优化模型中，得到所述历史车辆数据对应的交通灯配时优化的初步调控动作；

获取所述路口的交通灯各个相位对应方向的车道压力，并根据所述车道压力确定所述历史车辆数据对应的交通灯配时的辅助调控动作；

根据所述初步调控动作和辅助调控动作确定所述历史车辆数据对应的交通灯配时最优调控动作，使用所述最优调控动作对所述历史车辆数据进行标记，使用标记后的历史车辆数据对所述交通灯配时优化模型进行再次训练；

获取所述路口的交通灯各个相位对应方向的实时车辆数据，将所述实时车辆数据输入至再次训练好的交通灯配时优化模型中，得到所述路口的交通灯实时最优控制动作。

2.根据权利要求1所述的交通灯配时优化方法，其特征在于，获取所述路口的交通灯各个相位对应方向的车道压力，通过以下公式计算得到：

pt1＝northint+northoutt+southint+southoutt

pt2＝southint+eastoutt+northint+westoutt

pt3＝eastint+eastoutt+westint+westoutt

pt4＝eastint+northoutt+westint+southoutt

其中：pt1、pt2、pt3、pt4分别表示相位1、相位2、相位3和相位4对应方向的车道压力，northint,southint,eastint,westint分别表示t时刻北侧、南侧、东侧和西侧进入路口方向的车道压力，northoutt,southoutt,eastoutt,westoutt分别表示t时刻北侧、南侧、东侧和西侧方向离开路口的车道压力。

3.根据权利要求1所述的交通灯配时优化方法，其特征在于，根据所述车道压力确定所述历史车辆数据对应的交通灯配时的辅助调控动作，具体为：

对各个相位对应方向的车道压力进行排序，获取最大车道压力和最小车道压力，将最大车道压力对应相位的持续时间加n秒，将最小车道压力对应相位的持续时间减n秒。

4.根据权利要求1-3中任意一项所述的交通灯配时优化方法，其特征在于，根据所述初步调控动作和辅助调控动作确定所述历史车辆数据对应的交通灯配时最优调控动作，具体包括以下步骤：

比较所述初步调控动作和所述辅助调控动作，若所述初步调控动作和所述辅助调控动作一致，则将所述初步调控动作作为最优调控动作；若所述初步调控动作和所述辅助调控动作不一致，则将所述初步调控动作的各相位的调控动作与辅助调控动作对应相位的调控动作求并集，得到最优调控动作。

5.根据权利要求1所述的交通灯配时优化方法，其特征在于，所述交通灯配时优化模型为q-learn深度卷积神经网络模型，所述交通灯配时优化模型以路口的路口状态作为模型输入，以路口平均等待时间最少为优化目标，以路口的交通灯对应的各个相位持续时间为动作，所述交通灯配时优化模型的中间层包含卷积层、池化层以及全连接层，卷积层负责提取关键的信息，池化层负责过滤次要的信息，全连接层负责把卷积层和池化层提取的所有特征综合到一起并映射到输出层，输出层为每个动作打分，并输出q值最大的动作。

6.根据权利要求5所述的交通灯配时优化方法，其特征在于，路口状态为：

st＝(pt,vt)

其中，pt，vt分别表示t时刻路口的车辆的位置矩阵和速度矩阵，xiyk表示路口内划分的第i行第k列的单元格，其中，i＝1,2,...,n，n为行数，k＝1,2,...,m，m为列数；表示xiyk单元格内是否有车辆，的取值为1时，表示有车辆，取值为0表示无车辆，pt中的1越多，说明t时刻路口的滞留的车辆数越多，表示xiyk单元格内车辆的速度值。

7.根据权利要求5所述的交通灯配时优化方法，其特征在于，路口平均等待时间awt，用于反应所有进入路口车辆的平均等待时间，定义如下：

awt＝wt/n

其中，wt为通过路口的所有车辆等待时间和，n为通过路口的车辆总数；awt越小，说明路口拥堵时间越少，反之，路口拥堵时间越长。

8.根据权利要求1所述的交通灯配时优化方法，其特征在于，使用标记后的历史车辆数据对所述交通灯配时优化模型进行再次训练，具体包括以下步骤：

步骤a)初始化深度强化学习网络中的学习率α^*＝0.001、目标网络的更新频率α＝1，折扣因子γ＝0.99、经验池大小m＝20000，经验回放m＝10000，小批量大小b＝24，ε-贪心策略中的ε＝0.01，主网络参数θ＝0，目标网络参数θ^-＝0，主网络参数更新迭代上限t＝1000、迭代次数t＝1；

步骤b)获取当前十字路口状态st；

步骤c)根据ε-贪心策略选择十字路口的执行动作；

步骤d)对十字路口执行所选择的动作，计算并获取深度强化学习网络的即时奖励r；

步骤e)设t＝t+1，将路口状态st转变为st+1；

步骤f)将<st,r,a,st+1>存入经验池m；

步骤f1)判断m和m的大小，如果m>m，更新经验池；

步骤f2)从经验池中根据每个集合的优先集选取b个集合；

步骤f3)计算深度强化学习网络损失函数误差，更新主网络参数θ；

步骤f4)从步骤f3)中获取θ，更新目标网络参数θ^-；

步骤f5)更新经验池中每个经验的优先权；

步骤g)判断迭代是否停止，若t小于迭代上限t，转步骤b)，否则，停止。

9.根据权利要求8所述的交通灯配时优化方法，其特征在于，步骤c)中根据ε-贪心策略选择路口的预执行动作at，其由随机数rand决定：若rand<ε，则随机选择动作at，否则，执行动作

在步骤f1)中，判断m和m的大小，如果m>m，更新经验池还包括：先删除经验池中大小为m-m的样本，然后把多出来的大小为m-m样本增加到经验池中；

在步骤f3)中，计算深度强化学习网络的损失函数误差j(θ)并更新主网络参数θ，具体包括以下步骤：

计算损失函数误差：j(θ)＝[qtarget(s,a)-q(s,a；θ)]²，其中，qtarget(s,a)为当前时刻在状态s下，执行动作a，获得的真实回报值与下一时刻的期望回报值的和，q(s,a；θ)为当前时刻的期望回报值，利用损失函数误差j(θ)更新主网络参数θ，得到更新后的网络参数：

θ＝θ-α^*j(θ)

其中，α^*是θ的学习率；

在步骤f4)中，从步骤f3)中获取θ，更新目标网络参数θ^-，实现如下：

θ＝αθ^-+(1-α)θ

其中，α是更新的频率；

在步骤f5)中，更新经验池中每个样本的优先权，还包括：获取经验池中每个样本对应主网络参数θ更新前后的误差error，然后根据error的大小对每个样本从小到大进行排序，最后对每个样本重新赋予优先值。

10.一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至9任一所述方法的步骤。

11.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现上述权利要求1至9任一项所述方法中的步骤。

技术总结
本发明公开了交通灯配时优化方法、系统及存储介质，通过将路口的历史车辆数据输入交通灯配时优化模型中，得到历史车辆数据对应的初步调控动作；计算并根据交通灯各个相位对应方向的车道压力确定历史车辆数据对应的辅助调控动作；再根据初步调控动作和辅助调控动作确定历史车辆数据对应的最优调控动作，使用最优调控动作对历史车辆数据进行标记，使用标记后的历史车辆数据对交通灯配时优化模型进行再次训练，获取交通灯各个相位对应方向的实时车辆数据，将实时车辆数据输入再次训练好的交通灯配时优化模型中，得到交通灯实时最优控制动作。通过路口的车道压力对交通灯配时优化模型进行辅助训练，使得该模型制定动作能有效缓解路口拥堵车道压力。

技术研发人员：王斌;甘海洋;盛津芳;何正坤
受保护的技术使用者：中南大学;禾麦科技开发(深圳)有限公司
技术研发日：2021.03.24
技术公布日：2021.07.23

完整全部详细技术资料下载

当前第2页1 2