本发明属于车路协同领域,尤其涉及基于多智能体强化学习及多模态信号感知的信号灯协同控制方法。
背景技术:
1、随着城市交通的日益繁忙,传统的信号灯控制方法已经难以满足现代城市的高效交通需求。为了解决这一问题,研究者们已经开始采用智能交通系统(its)来提高道路通行效率。其中,基于多智能体强化学习和多模态信号感知的信号灯控制系统备受关注。
2、传统的信号灯控制方法通常基于固定的信号周期或者预定的交通流模式,缺乏对实时交通状况的适应性。因此,急需一种突破传统交通信号灯控制方法的局限性,提高对实时交通状况的适应性的协同方法。
技术实现思路
1、本发明的目的是提出基于多智能体强化学习及多模态信号感知的信号灯协同控制方法,通过引入车辆作为智能体,实现更有效的车路协同,进一步提高交通控制效果。
2、为了达到上述目的,在本发明提供基于多智能体强化学习及多模态信号感知的信号灯协同控制方法,所述方法包括:
3、s1、收集各种传感器的数据和进行多模态定义,通过数据融合技术实时获取信息;
4、s2、采用协同车路多智能体强化学习算法对信号灯与车辆进行协同控制,通过学习找到最优策略来实现高效的交通流控制;
5、s3、根据各种传感器的收集数据进行预处理,利用特征融合方法将不同模态的数据融合,为每个智能体构建局部状态空间;
6、s4、为智能体设计动作空间;
7、s5、根据交通流控制的目标,为多智能体强化学习设计奖励函数;
8、s6、设计通信协议;
9、s7、使用历史数据或仿真环境对多智能体强化学习模型进行训练,找到最优策略。
10、进一步地,所述s1中多模态定义包括视觉模态和雷达模态;所述视觉模态通过摄像头收集的图像数据;所述雷达模块通过雷达收集的距离和速度信息;所述信息包括路况信息、车辆位置和速度。
11、进一步地,所述数据融合技术具体为:
12、s1.1、将场景建模为一个图结构;
13、s1.2、针对每种模态的数据进行特征提取;
14、s1.3、基于图卷积神经网络的特征融合;
15、s1.4、输出强化学习状态。
16、进一步地,所述协同车路多智能体强化学习算法的目标函数定义为:
17、奖励函数定义为r(s,a),其中s表示状态,a表示智能体的动作,通过调整所述智能体的动作以最大化累积奖励,表示为:
18、j(θ)=∑_tr(s_t,a_t)
19、其中,j(θ)表示目标函数;s_t表示t时刻智能体所在的状态;a_t表示t时刻智能体所做的动作;
20、则损失函数l(θ)表示为:
21、l(θ)=0.5*e[(r(s,a)+γ*max_a′q(s′,a′;θ′)-q(s,a;θ))^2]
22、其中,e[·]表示期望值,θ表示当前智能体的参数,θ′表示目标智能体的参数,γ为折扣因子,a′表示智能体在状态s′所做出的动作,q(s,a;θ)为动作价值函数,用于估计在状态s下采取动作a的累积奖励;q(s′,a′;θ′)表示网络对在状态s′做出动作a′的动作价值评估,用于衡量的是在状态s′做出动作a′的动作的好坏。
23、进一步地,所述协同车路多智能体强化学习算法的目标函数的实现步骤包括:
24、s2.1、利用了集中式训练和分布式执行策略,通过在训练阶段进行集中式训练,实现智能体之间的协同,在执行阶段,各个智能体使用分布式策略,根据局部状态做出决策;
25、s2.2、通过所述步骤s1中各种传感器的数据,获取包含多模态信息的综合状态空间,使得智能体能够更准确地感知交通状况;
26、s2.3、将车辆和信号灯作为不同的智能体,实现车辆与信号灯之间的协同控制,提高交通流畅性。
27、进一步地,所述步骤s3中所述数据包括车辆数据、路况数据和信号灯数据;
28、进一步地,所述状态空间表示如下:
29、s={车辆数据,路况数据,信号灯数据}。
30、进一步地,所述步骤s4具体包括:
31、s4.1、将所述信号灯的控制策略离散化为一系列可选的动作;
32、s4.2、根据实时路况数据,动态调整所述信号灯的相位设置;
33、s4.3、设计自适应的信号灯控制策略。
34、进一步地,所述通信协议包括车辆与路侧设施通信、信号灯之间的通信、中央控制器与信号灯通信和数据融合与处理。
35、进一步地,所述步骤s7具体为:使用历史数据或仿真环境对多智能体强化学习模型进行训练,找到最优策略,将所述最优策略部署到信号灯控制系统。
36、本发明的有益技术效果至少在于以下几点:
37、(1)多模态信号感知技术则为信号灯控制系统提供了丰富的实时交通信息。通过融合来自摄像头、雷达、车载传感器等多种传感器的数据,系统能够更准确地感知交通状况,为信号灯控制提供更有针对性的决策依据。
38、(2)通过基于图卷积神经网络的多模态特征融合方法,可以更好地捕捉车辆和信号灯之间的拓扑关系。同时通过以上方法,可以将多模态信号感知数据融合为一个统一的状态空间,为多智能体强化学习算法提供更丰富、更准确的信息。
39、(3)通过本发明的最优策略,我们的信号灯控制系统将具备较强的动态调整能力,能够在实际应用中更好地适应不断变化的交通状况,提高整体的信号灯控制效果。
1.基于多智能体强化学习及多模态信号感知的信号灯协同控制方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法,其特征在于,所述s1中多模态定义包括视觉模态和雷达模态;所述视觉模态通过摄像头收集的图像数据;所述雷达模块通过雷达收集的距离和速度信息;所述信息包括路况信息、车辆位置和速度。
3.根据权利要求2所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法,其特征在于,所述数据融合技术具体为:
4.根据权利要求2所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法,其特征在于,所述协同车路多智能体强化学习算法的目标函数定义为:
5.根据权利要求4所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法,其特征在于,所述协同车路多智能体强化学习算法的目标函数的实现步骤包括:
6.根据权利要求1所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法,其特征在于,所述步骤s3中所述数据包括车辆数据、路况数据和信号灯数据。
7.根据权利要求6所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法,其特征在于,所述状态空间表示如下:
8.根据权利要求5所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法,其特征在于,所述步骤s4具体包括:
9.根据权利要求1所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法,其特征在于,所述通信协议包括车辆与路侧设施通信、信号灯之间的通信、中央控制器与信号灯通信和数据融合与处理。
10.根据权利要求1所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法,其特征在于,所述步骤s7具体为:使用历史数据或仿真环境对多智能体强化学习模型进行训练,找到最优策略,将所述最优策略部署到信号灯控制系统。