基于多样性种群训练的临机协同方法、装置和计算机设备

文档序号:34183535发布日期:2023-05-17 10:28阅读:74来源:国知局
基于多样性种群训练的临机协同方法、装置和计算机设备

本技术涉及智慧交通领域的车辆临机协同,特别是涉及一种基于多样性种群训练的临机协同方法、装置和计算机设备。


背景技术:

1、随着人工智能、5g通信、边缘计算等技术的快速发展,为解决我国汽车保有量逐渐增高、交通拥堵情况长期影响人们出行效率的问题,越来越多的管理部门、研究机构和企业将目光投向了基于网络通信的智慧交通技术发展。其中,车辆之间的有效协同是克服因车辆驾驶行为不协调同步引起的拥塞问题的关键技术之一,它有望明显提升交通流的通畅程度。

2、多智能体系统(multi-agent system,mas)技术是解决车辆协同的关键,也是深度强化学习方法赋能智慧交通的主要方案。多智能体系统利用多个交互智能体组成一个计算化系统,适合解决探索空间巨大、问题要求实时求解和空间信息部分可知的复杂现实问题。

3、目前,国内外有关多智能体强化学习(multi-agent reinforcement learning,marl)在智慧交通车辆协同领域已经取得一定研究成果,但是这些研究对交通场景的假设过于理想化、难以脱离实验室场景真正推广到现实应用。主要原因包括两点。第一,车辆智能协同技术依托于车载软件系统发挥作用,然而车辆协同对象包括来自不同厂商出产的车辆、相同厂商出产的不同车型、相同车型的不同版本,它们所采用的协同策略千差万别。此外还需与完全由人类驾驶员控制的车辆进行协同,这些因素导致诸多研究关于同路段车辆其协同技术相同的隐性假设失效。因此,车辆智能协同技术必须能够应对丰富多样的协同对象带来的挑战。第二,现有marl技术严重依赖训练阶段的数据,对于训练阶段未协同过的车辆难以适应。然而,现实中很难为其准备大量丰富的协同对象样本以供训练,这导致这些技术对预设场景外的临机情况适应性差。综上所述,发展针对多样协同对象的车辆临机协同技术在智慧交通领域具有很强的现实意义。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种基于多样性种群训练的临机协同方法、装置和计算机设备,该方法可以提高交通道路中多车协同驾驶场景中无人驾驶车辆之间的临机协同能力,从而降低碰撞概率、解决路权冲突以及提升道路车辆的行驶效率。

2、一种基于多样性种群训练的临机协同方法,所述方法包括:

3、对交通道路中多车协同驾驶场景进行建模,将己方控制的驾驶车辆建模为智能体 p,充当协同发起者,将同一道路的非己方车辆建模为智能体 q,作为协同对象;智能体 p构建由若干车辆策略组成的驾驶策略种群 p,每个策略来自一个随机初始化的强化学习策略。

4、对所述驾驶策略种群 p采用基于多样化策略种群的零样本协调训练方法进行训练,使得智能体 p的驾驶行为能和智能体 q的驾驶行为进行临机协同,从而降低碰撞概率、解决路权冲突以及提升道路车辆的行驶效率;所述基于多样化策略种群的零样本协调训练方法采用种群训练-评估的分层架构,底层初始化规模为的种群策略,基于强化学习算法实现行为决策,顶层使用经验博弈分析方法计算元博弈的回报矩阵,并选取期望基数作为种群多样性评估指标,用于指导底层训练生成与现有的策略差异性大并且多样的新策略,并将新策略添加到驾驶策略种群 p中,继续进行迭代训练,当种群的规模到达最大多样性上界时停止迭代,以策略种群为训练集,学习一个鲁棒的智能体 p协作策略用于最终的道路驾驶。

5、将所述智能体 p的协作策略和所述智能体 q的协作策略进行交叉验证,得到智能体 p和智能体 q的联合策略,用于验证在多样的无人驾驶车辆、人机共驾场景下、的临机协同能力。

6、一种基于多样性种群训练的临机协同装置,所述装置包括:

7、策略种群初始化模块,用于对交通道路中多车协同驾驶场景进行建模,将己方控制的驾驶车辆建模为智能体 p,充当协同发起者,将同一道路的非己方车辆建模为智能体 q,作为协同对象;智能体 p构建由若干车辆策略组成的驾驶策略种群 p,每个策略来自一个随机初始化的强化学习策略。

8、种群内部训练模块,用于对驾驶策略种群 p采用基于多样化策略种群的零样本协调训练方法进行训练,得到能使智能体 p的驾驶行为和智能体 q的驾驶行为进行临机协同的协作策略;基于多样化策略种群的零样本协调训练方法采用种群训练-评估的分层架构,底层初始化规模为的种群策略,基于强化学习算法实现行为决策,顶层使用经验博弈分析方法计算元博弈的回报矩阵,并选取期望基数作为种群多样性评估指标,用于指导底层训练生成与现有的策略差异性大并且多样的新策略,并将新策略添加到驾驶策略种群 p中,继续进行迭代训练,当种群的规模到达最大多样性上界时停止迭代,以策略种群为训练集,学习一个鲁棒的智能体 p协作策略用于最终的道路驾驶。

9、联合策略确定模块,用于将智能体 p的协作策略和智能体 q的协作策略进行交叉验证,得到智能体 p和智能体 q的联合策略。

10、临机协同模块,用于将联合策略应用于己方控制的驾驶车辆中,实现与同一道路的非己方车辆之间的临机协同。

11、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法。

12、上述基于多样性种群训练的临机协同方法、装置和计算机设备,所述方法包括:对交通道路中多车协同驾驶场景进行建模,将己方控制的驾驶车辆建模为智能体 p,充当协同发起者,将同一道路的非己方车辆建模为智能体 q,作为协同对象;智能体 p构建由若干车辆策略组成的驾驶策略种群 p,每个策略来自一个随机初始化的强化学习策略;对驾驶策略种群 p采用基于多样化策略种群的零样本协调训练方法进行训练,使得智能体 p的驾驶行为能和智能体 q的驾驶行为进行临机协同,以策略种群为训练集,学习一个鲁棒的智能体 p协作策略用于最终的道路驾驶。将智能体p的协作策略和所述智能体q的协作策略进行交叉验证,得到智能体p和智能体q的联合策略,用于在多样化的无人驾驶车辆、人机共驾的场景下临机协同。该方法可以提高交通道路中多车协同驾驶场景中无人驾驶车辆之间的临机协同能力,从而降低碰撞概率、解决路权冲突以及提升道路车辆的行驶效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1