1.一种基于图神经网络的区域交通信号灯控制方法,其特征在于,包括:
(1)从信号灯控制系统中获取当前的信号控制方案以及目标区域路网过去几个周期的流量数据,所述的信号控制方案包括周期长度、相位方案和各相位放行时间;
(2)将当前相位配时、各目标路口过去数个周期的流量数据、路网连接图输入到基于深度消息传播图网络mpgnn构建的交通流量预测器mptf中,获得当前周期的各路口各方向的车流量预测数据;
(3)将当前信号控制方案、各目标路口过去数个周期的流量数据、路网连接图以及步骤(2)得到的车流量预测数据输入到基于深度消息传播图网络mpgnn构建的交通信号灯控制器rtsc,将生成的当前周期的各相位配时作为调节后的控制方案;其中,所述的rtsc为每一个控制路口构建控制子网络,每个控制子网络使用同样的mpgnn输出作为输入;
(4)使用交通流量预测器mptf,输入步骤(3)调节后的控制方案、各目标路口过去数个周期的流量数据、路网连接图,评估步骤(3)调节动作的价值;
(5)使用步骤(3)调节后的控制方案控制路网一个周期时间;
(6)从信号灯控制系统中收集当前的路网流量数据,结合该周期开始前的路网流量数据,计算步骤(3)中调节方案的收益;
(7)使用步骤(6)中收集的路网流量数据和调节方案收益,结合步骤(4)中得到的价值估计,训练交通流量预测器mptf;
(8)使用步骤(6)中得到的调节方案收益和步骤(4)中得到的价值估计,训练交通信号灯控制器rtsc;
(9)开始下一个周期,每个周期重复上述步骤(1)至步骤(8)。
2.根据权利要求1所述的基于图神经网络的区域交通信号灯控制方法,其特征在于,所述的深度消息传播图网络mpgnn由多个图神经网络层组成,网络输入是由路网上各节点的流量值和表示各节点间连接关系的路网连接图组成的输入图;在mpgnn中的每一层,会对输入图上各节点进行信息传播和信息汇聚两个操作,这两个操作的数学表达式分别为:
其中,
3.根据权利要求1所述的基于图神经网络的区域交通信号灯控制方法,其特征在于,步骤(2)中,所述交通流量预测器mptf获得车流量预测数据的步骤为:首先将当前信号控制方案中的各相位配时使用多层全连接神经网络提取成特征编码;然后将各目标路口过去数个周期的流量数据、路网连接图、相位配时特征编码输入mpgnn,提取得到当前区域路网交通情况的特征向量;最后,将特征向量输入到未来流量预测器中,得到未来流量的预测值。
4.根据权利要求1所述的基于图神经网络的区域交通信号灯控制方法,其特征在于,步骤(3)中,所述交通信号灯控制器rtsc生成行相位配时步骤为:
(3-1)将步骤(2)中得到的车流量预测数据、当前相位配时、各目标路口过去数个周期的流量数据、路网连接图输入一个mpgnn得到当前区域路网交通情况的特征向量;
(3-2)根据需要控制的各路口分别构建一个路口控制子网络,每个子网络输出的相位配时与该路口相位数目有关,各子网络均使用当前区域路网交通情况的特征向量作为输入,输出为各路口的控制动作高维连续分布的均值、平方差值;
(3-3)各子网络从对应路口的控制动作高维连续分布中采样出各相位配时,并使用softmax函数将各相位配时归一化得到各相位配时比例,再乘以周期长度得到各相位配时长度。
5.根据权利要求1所述的基于图神经网络的区域交通信号灯控制方法,其特征在于,步骤(4)的具体步骤为:输入步骤(3)调节后的控制方案、各目标路口过去数个周期的流量数据、路网连接图后,将得到的当前区域路网交通情况特征向量输入到动作价值预测器中用以预测步骤(3)中生成的新配时价值。
6.根据权利要求1所述的基于图神经网络的区域交通信号灯控制方法,其特征在于,步骤(6)中,所述调节方案的收益表达式为:
r(o(t-1),o(t),a(t))=o(t-1)-o(t)
其中,o(i)为第i个周期内,区域路网各路口各方向的车辆排队长度;a(t)为第i个周期开始前步骤(3)中生成的相位配时。
7.根据权利要求1所述的基于图神经网络的区域交通信号灯控制方法,其特征在于,步骤(7)中,训练交通流量预测器使用的损失函数为:
其中,vθ(o(t-1),a(t))为步骤(4)中预测的新配时价值,
8.根据权利要求1所述的基于图神经网络的区域交通信号灯控制方法,其特征在于,步骤(8)中,训练信号灯控制器使用的目标函数为:
其中,n为所有路口的集合,训练采用在线训练策略,每一个周期之后所有网络均会被优化一次。