一种基于强化学习的车辆路径规划方法及系统

文档序号：37341442发布日期：2024-03-18 18:11阅读：11来源：国知局

本发明涉及路径规划领域，特别涉及一种基于强化学习的车辆路径规划方法及系统。

背景技术：

1、随着现代社会的快速发展，道路中的车辆数量快速增长带来了交通拥堵、环境污染等诸多问题。当前，交通拥堵问题已经成为人们所关注的主要出行问题，建立一个出行路线规划的系统是缓解交通拥堵、提高出行质量的有效措施。在过去的十年中，人们设计出了很多优化道路容量利用的算法来解决交通拥堵问题。提出了三类方法来解决交通拥堵问题：(1)利用历史和实时传感器数据来检测和预测交通拥堵；(2)通过优化控制交通信号来解决交通拥堵问题；(3)通过对车辆进行路径规划来解决交通拥堵问题。其中，路径规划是一种比较好的解决方案，并得到了广泛的研究。

2、路径规划在现代社会的各个领域中都具有重要意义。从自动驾驶汽车和机器人导航到无人机飞行和物流管理，路径规划技术的应用范围广泛，对提高效率、降低成本和改善生活质量产生了积极的影响。路径规划的目标是找到从一个地点到另一个地点的最佳路径，同时满足各种约束条件，如避免障碍物、最小化能源消耗或遵守交通规则。在解决这些问题时，需要考虑环境的复杂性和不确定性，以及不断变化的动态因素。

技术实现思路

1、为了获取最优的路径规划，本发明提出一种基于强化学习的车辆路径规划方法，具体包括以下步骤：

2、通过交通路网构建有向图，有向图中一个节点为交通路网中的一个路口，若两个节点之间存在道路连接则两个节点之间存在一条边；

3、获取实时的交通流信息，根据交通流的拥堵情况为有向图中的边赋予权重，拥堵情况越严重边权重越低；

4、将有向图输入到图卷积网络中，从有向图中提取得到路况流量特征矩阵；

5、将车辆视为一个智能体，每到达一个节点智能体根据当前状态选择执行的动作，并根据选择的动作更新智能体的状态；

6、智能体选择的动作为在该节点处的前进方向，将路况流量特征矩阵、当前智能体所在的位置矩阵和目的地所在的位置矩阵拼接在一起作为智能体的状态。

7、优选的，当前智能体所在的位置矩阵和目的地所在的位置矩阵是利用两个初始化时全部为零值的矩阵表示，该矩阵包括所有节点位置，将其中一个目的地所在节点处置为1作为目的地所在的位置矩阵，将当前智能体实时所在的位置矩阵置为1作为当前智能体所在的位置矩阵。

8、进一步的，智能体最近每次作出的决定包括直行、左转、右转以及掉头，每个智能体执行动作之后，根据执行该动作达到的下一状态计算奖励值。

9、进一步的，计算智能体执行动作后获取的奖励值包括：

10、

11、其中，r为执行动作后的奖励值；γ表示天气对车辆行驶速度的影响因子；α表示当前时刻交通路口流量对车辆行驶速度的影响；speed表示当前道路的平均通行速度，length表示当前道路的长度；dist(pcurrent,ptarget)表示当前位置到目的地的直线距离，dist(pprevious,ptarget)表示上一位置到目的地的直线距离，v表示当前车辆的行驶速度；timered为在当前节点位置选择执行动作之后等待红灯所用的时间；timeyellow为在当前节点位置选择执行动作之后等待黄灯所用的时间。

12、进一步的，当天气为晴天时，当前天气对车辆行驶速度的影响因子的值设置为1.2；当天气为下雪时，当前天气对车辆行驶速度的影响因子的值设置为0.6；当天气为下雨时时，当前天气对车辆行驶速度的影响因子的值设置为0.8；当天气为其他非恶劣天气时，当前天气对车辆行驶速度的影响因子的值设置为1.0；当天气为恶劣天气时，当前天气对车辆行驶速度的影响因子的值设置为0.5。

13、进一步的，在道路畅通时，当前时刻交通路口流量对车辆行驶速度的影响的值为1；在缓行情况时，当前时刻交通路口流量对车辆行驶速度的影响的值为1/2；在拥堵情况下，当前时刻交通路口流量对车辆行驶速度的影响的值为1/3；在严重拥堵情况下，当前时刻交通路口流量对车辆行驶速度的影响的值为1/4。

14、进一步的，根据当前车速判断道路是否通畅，若当前车速高于当前道路限速值×20％，则道路畅通；若在一个时间窗口内，车辆的平均车速不高于当前道路限速值×20％，则为缓行情况；若车辆到两个节点之间的道路上停滞时间大于第一阈值，则为拥堵状态；若车辆到两个节点之间的道路上停滞时间大于第二阈值，则为严重拥堵状态；其中第一阈值小于第二阈值。

15、本发明还提出一种基于强化学习的车辆路径规划系统，用于实现一种基于强化学习的车辆路径规划方法，该系统包括强化学习服务器以及数据采集服务器，其中数据采集服务器才当前道路的信息以及车辆的信息，将采集的服务器发送给强化学习服务器，强化学习服务器根据数据采集服务器采集的信息获取车辆在每个节点执行的动作，强化学习服务器获取执行动作的过程包括：

16、通过交通路网构建有向图，有向图中一个节点为交通路网中的一个路口，若两个节点之间存在道路连接则两个节点之间存在一条边；

17、获取实时的交通流信息，根据交通流的拥堵情况为有向图中的边赋予权重，拥堵情况越严重边权重越低；

18、将有向图输入到图卷积网络中，从有向图中提取得到路况流量特征矩阵；

19、将车辆视为一个智能体，每到达一个节点智能体根据当前状态选择执行的动作，并根据选择的动作更新智能体的状态；

20、智能体选择的动作为在该节点处的前进方向，将路况流量特征矩阵、当前智能体所在的位置矩阵和目的地所在的位置矩阵拼接在一起作为智能体的状态。

21、本发明针对传统的dijkstra算法和a*算法无法感知到动态变化的环境，只能根据初始条件下的情况进行路径规划，线路不能依据实时的状况进行动态改变，本发明不仅能在静态路网中具有合理规划路线的能力，而且还能在动态变化的路网环境中发挥较好的效果，以此得到旅行时间更短的线路。

技术特征：

1.一种基于强化学习的车辆路径规划方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种基于强化学习的车辆路径规划方法，其特征在于，智能体最近每次作出的决定包括直行、左转、右转以及掉头，每个智能体执行动作之后，根据执行该动作达到的下一状态计算奖励值。

3.根据权利要求2所述的一种基于强化学习的车辆路径规划方法，其特征在于，计算智能体执行动作后获取的奖励值包括：

4.根据权利要求3所述的一种基于强化学习的车辆路径规划方法，其特征在于，当天气为晴天时，当前天气对车辆行驶速度的影响因子的值设置为1.2；当天气为下雪时，当前天气对车辆行驶速度的影响因子的值设置为0.6；当天气为下雨时时，当前天气对车辆行驶速度的影响因子的值设置为0.8；当天气为其他非恶劣天气时，当前天气对车辆行驶速度的影响因子的值设置为1.0；当天气为恶劣天气时，当前天气对车辆行驶速度的影响因子的值设置为0.5。

5.根据权利要求3所述的一种基于强化学习的车辆路径规划方法，其特征在于，在道路畅通时，当前时刻交通路口流量对车辆行驶速度的影响的值为1；在缓行情况时，当前时刻交通路口流量对车辆行驶速度的影响的值为1/2；在拥堵情况下，当前时刻交通路口流量对车辆行驶速度的影响的值为1/3；在严重拥堵情况下，当前时刻交通路口流量对车辆行驶速度的影响的值为1/4。

6.根据权利要求3所述的一种基于强化学习的车辆路径规划方法，其特征在于，根据当前车速判断道路是否通畅，若当前车速高于当前道路限速值×20％，则道路畅通；若在一个时间窗口内，车辆的平均车速不高于当前道路限速值×20％，则为缓行情况；若车辆到两个节点之间的道路上停滞时间大于第一阈值，则为拥堵状态；若车辆到两个节点之间的道路上停滞时间大于第二阈值，则为严重拥堵状态；其中第一阈值小于第二阈值。

7.一种基于强化学习的车辆路径规划系统，其特征在于，用于实现权利要求1所述的一种基于强化学习的车辆路径规划方法，该系统包括强化学习服务器以及数据采集服务器，其中数据采集服务器才当前道路的信息以及车辆的信息，将采集的服务器发送给强化学习服务器，强化学习服务器根据数据采集服务器采集的信息获取车辆在每个节点执行的动作，强化学习服务器获取执行动作的过程包括：

8.根据权利要求7所述的一种基于强化学习的车辆路径规划系统，其特征在于，智能体最近每次作出的决定包括直行、左转、右转以及掉头，每个智能体执行动作之后，根据执行该动作达到的下一状态计算奖励值。

9.根据权利要求8所述的一种基于强化学习的车辆路径规划系统，其特征在于，计算智能体执行动作后获取的奖励值包括：

10.一种计算机设备，包括存储器和处理器，其特征在于，处理器执行存储器中存储的计算机程序实现权利要求1所述的一种基于强化学习的车辆路径规划方法。

技术总结
本发明涉及路径规划领域，特别涉及一种基于强化学习的车辆路径规划方法及系统，方法包括通过交通路网构建有向图，有向图中一个节点为交通路网中的一个路口，若两个节点之间存在道路连接则两个节点之间存在一条边；获取实时的交通流信息，根据交通流的拥堵情况为有向图中的边赋予权重，拥堵情况越严重边权重越低；将有向图输入到图卷积网络中，从有向图中提取得到路况流量特征矩阵；将车辆视为一个智能体，每到达一个节点智能体根据当前状态选择执行的动作，并根据选择的动作更新智能体的状态；智能体选择的动作为在该节点处的前进方向，将路况流量特征矩阵、当前智能体所在的位置矩阵和目的地所在的位置矩阵拼接在一起作为智能体的状态。

技术研发人员：胡思楠,卢星宇,刘宴兵,孟凯,涂琪琳
受保护的技术使用者：重庆邮电大学
技术研发日：
技术公布日：2024/3/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡思楠,卢星宇,刘宴兵,孟凯,涂琪琳
技术所有人：重庆邮电大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.机器人 2.嵌入式控制系统开发
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、毕老师：机构动力学与控制
4、袁老师：1.计算机视觉 2.无线网络及物联网
5、周老师：1.智能机器人技术 2.智能检测与控制技术 3.机构运动学与动力学 4.机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。