基于多智能体强化学习及多模态信号感知的信号灯协同控制方法

文档序号：35193502发布日期：2023-08-21 11:27阅读：29来源：国知局

导航： X技术> 最新专利>信号装置的制造及其应用技术

本发明属于车路协同领域，尤其涉及基于多智能体强化学习及多模态信号感知的信号灯协同控制方法。

背景技术：

1、随着城市交通的日益繁忙，传统的信号灯控制方法已经难以满足现代城市的高效交通需求。为了解决这一问题，研究者们已经开始采用智能交通系统(its)来提高道路通行效率。其中，基于多智能体强化学习和多模态信号感知的信号灯控制系统备受关注。

2、传统的信号灯控制方法通常基于固定的信号周期或者预定的交通流模式，缺乏对实时交通状况的适应性。因此，急需一种突破传统交通信号灯控制方法的局限性，提高对实时交通状况的适应性的协同方法。

技术实现思路

1、本发明的目的是提出基于多智能体强化学习及多模态信号感知的信号灯协同控制方法，通过引入车辆作为智能体，实现更有效的车路协同，进一步提高交通控制效果。

2、为了达到上述目的，在本发明提供基于多智能体强化学习及多模态信号感知的信号灯协同控制方法，所述方法包括：

3、s1、收集各种传感器的数据和进行多模态定义，通过数据融合技术实时获取信息；

4、s2、采用协同车路多智能体强化学习算法对信号灯与车辆进行协同控制，通过学习找到最优策略来实现高效的交通流控制；

5、s3、根据各种传感器的收集数据进行预处理，利用特征融合方法将不同模态的数据融合，为每个智能体构建局部状态空间；

6、s4、为智能体设计动作空间；

7、s5、根据交通流控制的目标，为多智能体强化学习设计奖励函数；

8、s6、设计通信协议；

9、s7、使用历史数据或仿真环境对多智能体强化学习模型进行训练，找到最优策略。

10、进一步地，所述s1中多模态定义包括视觉模态和雷达模态；所述视觉模态通过摄像头收集的图像数据；所述雷达模块通过雷达收集的距离和速度信息；所述信息包括路况信息、车辆位置和速度。

11、进一步地，所述数据融合技术具体为：

12、s1.1、将场景建模为一个图结构；

13、s1.2、针对每种模态的数据进行特征提取；

14、s1.3、基于图卷积神经网络的特征融合；

15、s1.4、输出强化学习状态。

16、进一步地，所述协同车路多智能体强化学习算法的目标函数定义为：

17、奖励函数定义为r(s，a)，其中s表示状态，a表示智能体的动作，通过调整所述智能体的动作以最大化累积奖励，表示为：

18、j(θ)＝∑_tr(s_t，a_t)

19、其中，j(θ)表示目标函数；s_t表示t时刻智能体所在的状态；a_t表示t时刻智能体所做的动作；

20、则损失函数l(θ)表示为：

21、l(θ)＝0.5*e[(r(s，a)+γ*max_a′q(s′，a′；θ′)-q(s，a；θ))^2]

22、其中，e[·]表示期望值，θ表示当前智能体的参数，θ′表示目标智能体的参数，γ为折扣因子，a′表示智能体在状态s′所做出的动作，q(s，a；θ)为动作价值函数，用于估计在状态s下采取动作a的累积奖励；q(s′，a′；θ′)表示网络对在状态s′做出动作a′的动作价值评估，用于衡量的是在状态s′做出动作a′的动作的好坏。

23、进一步地，所述协同车路多智能体强化学习算法的目标函数的实现步骤包括：

24、s2.1、利用了集中式训练和分布式执行策略，通过在训练阶段进行集中式训练，实现智能体之间的协同，在执行阶段，各个智能体使用分布式策略，根据局部状态做出决策；

25、s2.2、通过所述步骤s1中各种传感器的数据，获取包含多模态信息的综合状态空间，使得智能体能够更准确地感知交通状况；

26、s2.3、将车辆和信号灯作为不同的智能体，实现车辆与信号灯之间的协同控制，提高交通流畅性。

27、进一步地，所述步骤s3中所述数据包括车辆数据、路况数据和信号灯数据；

28、进一步地，所述状态空间表示如下：

29、s＝{车辆数据，路况数据，信号灯数据}。

30、进一步地，所述步骤s4具体包括：

31、s4.1、将所述信号灯的控制策略离散化为一系列可选的动作；

32、s4.2、根据实时路况数据，动态调整所述信号灯的相位设置；

33、s4.3、设计自适应的信号灯控制策略。

34、进一步地，所述通信协议包括车辆与路侧设施通信、信号灯之间的通信、中央控制器与信号灯通信和数据融合与处理。

35、进一步地，所述步骤s7具体为：使用历史数据或仿真环境对多智能体强化学习模型进行训练，找到最优策略，将所述最优策略部署到信号灯控制系统。

36、本发明的有益技术效果至少在于以下几点：

37、(1)多模态信号感知技术则为信号灯控制系统提供了丰富的实时交通信息。通过融合来自摄像头、雷达、车载传感器等多种传感器的数据，系统能够更准确地感知交通状况，为信号灯控制提供更有针对性的决策依据。

38、(2)通过基于图卷积神经网络的多模态特征融合方法，可以更好地捕捉车辆和信号灯之间的拓扑关系。同时通过以上方法，可以将多模态信号感知数据融合为一个统一的状态空间，为多智能体强化学习算法提供更丰富、更准确的信息。

39、(3)通过本发明的最优策略，我们的信号灯控制系统将具备较强的动态调整能力，能够在实际应用中更好地适应不断变化的交通状况，提高整体的信号灯控制效果。

技术特征：

1.基于多智能体强化学习及多模态信号感知的信号灯协同控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法，其特征在于，所述s1中多模态定义包括视觉模态和雷达模态；所述视觉模态通过摄像头收集的图像数据；所述雷达模块通过雷达收集的距离和速度信息；所述信息包括路况信息、车辆位置和速度。

3.根据权利要求2所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法，其特征在于，所述数据融合技术具体为：

4.根据权利要求2所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法，其特征在于，所述协同车路多智能体强化学习算法的目标函数定义为：

5.根据权利要求4所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法，其特征在于，所述协同车路多智能体强化学习算法的目标函数的实现步骤包括：

6.根据权利要求1所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法，其特征在于，所述步骤s3中所述数据包括车辆数据、路况数据和信号灯数据。

7.根据权利要求6所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法，其特征在于，所述状态空间表示如下：

8.根据权利要求5所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法，其特征在于，所述步骤s4具体包括：

9.根据权利要求1所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法，其特征在于，所述通信协议包括车辆与路侧设施通信、信号灯之间的通信、中央控制器与信号灯通信和数据融合与处理。

10.根据权利要求1所述的基于多智能体强化学习及多模态信号感知的信号灯协同控制方法，其特征在于，所述步骤s7具体为：使用历史数据或仿真环境对多智能体强化学习模型进行训练，找到最优策略，将所述最优策略部署到信号灯控制系统。

技术总结
本发明提出了一种基于多智能体强化学习及多模态信号感知的信号灯协同控制方法，包括：收集各种传感器的数据和进行多模态定义，通过数据融合技术实时获取信息；采用协同车路多智能体强化学习算法对信号灯与车辆进行协同控制；根据各种传感器的收集数据进行预处理，利用特征融合方法将不同模态的数据融合，为每个智能体构建局部状态空间；为信号灯智能体和车辆智能体设计动作空间；根据交通流控制的目标，为多智能体强化学习设计奖励函数；设计适用于车路协同控制场景的通信协议；使用历史数据或仿真环境对多智能体强化学习模型进行训练，找到最优策略。本发明通过引入车辆作为智能体，实现更有效的车路协同，进一步提高交通控制效果。

技术研发人员：欧阳雅捷,殷力,郭艺雯,赵阔
受保护的技术使用者：暨南大学
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：欧阳雅捷殷力郭艺雯赵阔
技术所有人：暨南大学
我是此专利的发明人

上一篇：一种新型纺织原料处理装置及方法与流程
上一篇：一种计及运行风险的柔性配电网随机扩展规划方法及系统

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.机器人 2.嵌入式控制系统开发
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、毕老师：机构动力学与控制
4、袁老师：1.计算机视觉 2.无线网络及物联网
5、周老师：1.智能机器人技术 2.智能检测与控制技术 3.机构运动学与动力学 4.机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。