车辆编队方法

文档序号:36602081发布日期:2024-01-06 23:09阅读:18来源:国知局
车辆编队方法

本公开涉及一种车辆编队方法,属于车辆网。


背景技术:

1、人工智能领域在飞速发展,强化学习取得了重大进展,在解决机器学习中的各种顺序决策问题方面取得了巨大成功。随着研究的深入,多智能体强化学习也在强化学习领域焕发着勃勃生机。

2、经过数年的发展创新,多智能体深度强化学习诞生了众多算法、规则、框架,并已广泛应用于各类现实领域,例如多智能体在玩实时战略游戏、机器人控制、纸牌游戏和自动驾驶领域有着惊人的进展。

3、除了上述流行的方法外,多智能体深度强化学习在其他领域也有潜在的应用,包括网络物理系统、金融、传感器/通信网络和社会科学。从单到多、从简单到复杂、从低维到高维的发展脉络表明,在机器学习甚至人工智能领域,多智能体深度强化学习问题正逐渐成为火热的研究和应用方向,具有极高的研究价值和意义。

4、近年来,随着汽车数量的增加,交通效率和安全已经成为非常严重的问题,同时汽车造成的空气污染也变得越来越严重。车辆编队作为一种车辆交通管理技术,已被确定为智能交通系统中一种很有前景的框架。在自动化的高速公路上形成车辆编队,可以优化交通和节约燃油,同时也能提高乘客的舒适性和安全性。想要对车辆编队形成问题进行研究,进而构建出性能优越的算法,基于强化学习的多智能体路径规划必不可少。

5、车辆编队是降低车辆能源消耗,提高空气质量的重要交通手段,如何控制公路上的稀疏车辆形成编队是一个非常有意义的研究点。


技术实现思路

1、为了解决上述技术问题之一,本公开提供了一种车辆编队方法。

2、根据本公开的一个方面,提供了一种车辆编队方法,其包括:

3、获取每个车辆的车辆信息以及状态空间信息,其中,所述车辆信息包括车辆的类型、纵向坐标、横向坐标、速度和加速度;所述状态空间信息包括以该车辆为中心的中心区域、前向区域、后向区域、左向区域、右向区域、左前区域、左后区域、右前区域和右后区域;

4、将所述车辆信息以及状态空间信息输入存储于车辆的第一网络模型进行决策,并获得决策结果,所述决策结果包括每个车辆当前可能执行的行为动作的概率,其中,所述行为动作包括速度方面和变道行为,所述速度方面包括加速行驶、匀速行驶和减速行驶;所述变道行为包括向左变道、保持当前车道以及向右变道;

5、根据所述决策结果得到执行相应行为动作的反馈,并根据该决策结果以及相应行为动作的反馈对第一网络模型进行训练;其中,所述反馈包括没有彻底形成编队的时候所获的奖励r1、车辆之间发生碰撞所获得的奖励r2、车辆在形成编队后整个编队流程结束时所获的奖励r3:

6、将待编队的p个车辆中的q个车辆的训练后的第一网络模型上传至服务器,服务器根据该q个车辆的第一网络模型获得聚合模型,并且将该聚合模型传递至车辆,并使用该聚合模型更新存储于车辆的第一网络模型;

7、待第一网络模型训练完成后,将待编队的p个车辆的车辆信息以及状态控制信息输入至训练完成后的第一网络模型,并控制车辆执行第一网络模型的输出结果,以实现p个车辆的编队行驶。

8、根据本公开的至少一个实施方式的车辆编队方法,所述第一网络模型包括掩码层,所述掩码层用于限制决策结果中的行为动作。

9、根据本公开的至少一个实施方式的车辆编队方法,在车辆进行编队的过程中,选定待编队车辆中分布数量最多的车道作为编队车道,行驶在编队车道的车辆不允许变更车道。

10、根据本公开的至少一个实施方式的车辆编队方法,车辆在变更车道后的预设时间内,不允许再次变更车道。

11、根据本公开的至少一个实施方式的车辆编队方法,没有彻底形成编队的时候所获的奖励通过下式获得:

12、r1=c1*(rpower-cost+rpower-save)+c2*rv-eff+c3*rlane-cost

13、其中c1=0.4,c2=0.1,c3=0.3;rpower-cost是运行状态中能量消耗的奖励;rpower-save是能量节约的奖励;rv-eff是速度效率的奖励;rlane-cost是变道奖励。

14、根据本公开的至少一个实施方式的车辆编队方法,运行状态中能量消耗的奖励通过下式获得:

15、

16、其中wv,a代表的是车辆在单位时间内消耗的能量,wv-max则代表车辆以最大速度行驶单位时间所消耗的能量。

17、根据本公开的至少一个实施方式的车辆编队方法,所述速度效率的奖励可以通过下式获得:

18、

19、其中,vcurrent为车辆的当前速度;vmin为车辆的最低限速;vmax为车辆的最高限速。

20、根据本公开的至少一个实施方式的车辆编队方法,所述变道奖励通过下式获得:

21、

22、根据本公开的至少一个实施方式的车辆编队方法,车辆之间发生碰撞所获得的奖励中,当车辆之间发生碰撞时,r2=-10。

23、根据本公开的至少一个实施方式的车辆编队方法,车辆在形成编队后整个编队流程结束时所获的奖励通过下式获得:

24、

25、其中,c=300;wi为第i辆车在编队过程中消耗的能量;表示第i辆车的前车对第i辆车的收益系数;表示第i辆车的后车对第i辆车的收益系数,p表示待编队车辆的数量。



技术特征:

1.一种车辆编队方法,其特征在于,包括:

2.根据权利要求1所述的车辆编队方法,其特征在于,所述第一网络模型包括掩码层,所述掩码层用于限制决策结果中的行为动作。

3.根据权利要求2所述的车辆编队方法,其特征在于,在车辆进行编队的过程中,选定待编队车辆中分布数量最多的车道作为编队车道,行驶在编队车道的车辆不允许变更车道。

4.根据权利要求2所述的车辆编队方法,其特征在于,车辆在变更车道后的预设时间内,不允许再次变更车道。

5.根据权利要求1所述的车辆编队方法,其特征在于,没有彻底形成编队的时候所获的奖励通过下式获得:

6.根据权利要求5所述的车辆编队方法,其特征在于,运行状态中能量消耗的奖励通过下式获得:

7.根据权利要求5所述的车辆编队方法,其特征在于,所述速度效率的奖励可以通过下式获得:

8.根据权利要求5所述的车辆编队方法,其特征在于,所述变道奖励通过下式获得:

9.根据权利要求1所述的车辆编队方法,其特征在于,车辆之间发生碰撞所获得的奖励中,当车辆之间发生碰撞时,r2=-10。

10.根据权利要求1所述的车辆编队方法,其特征在于,车辆在形成编队后整个编队流程结束时所获的奖励通过下式获得:


技术总结
本公开提供一种车辆编队方法,其包括:获取每个车辆的车辆信息以及状态空间信息;将所述车辆信息以及状态空间信息输入存储于车辆的第一网络模型进行决策,并获得决策结果;根据所述决策结果得到执行相应行为动作的反馈,并根据该决策结果以及相应行为动作的反馈对第一网络模型进行训练;将待编队的P个车辆中的Q个车辆的训练后的第一网络模型上传至服务器,服务器根据该Q个车辆的第一网络模型获得聚合模型,并且将该聚合模型传递至车辆;待第一网络模型训练完成后,将待编队的P个车辆的车辆信息以及状态控制信息输入至训练完成后的第一网络模型,并控制车辆执行第一网络模型的输出结果,以实现P个车辆的编队行驶。

技术研发人员:郑慧,张月霞,张思宇
受保护的技术使用者:北京信息科技大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1