一种自动驾驶场景下交通参与者动态切入行为的生成方法

文档序号:37162772发布日期:2024-03-01 11:59阅读:27来源:国知局
一种自动驾驶场景下交通参与者动态切入行为的生成方法

本发明涉及无人驾驶测试领域,具体说就是一种自动驾驶场景下交通参与者动态切入行为的生成方法。


背景技术:

1、无人驾驶已经在相对简单的场景中得到了广泛应用,然而对于复杂的驾驶场景,如实际公路,考虑到障碍物、交通标识、地面路况和不同场景下不同驾驶风格的交通流车辆,无人驾驶算法的可靠性变得更加不确定,且存在着许多潜在的危险,需要对自动驾驶算法可能出现是危险进行测试验证。现有自动驾驶测试的方式主要包括实车道路测试或虚拟仿真场景测试。其中,实车道路测试很难收集到出现几率较小但容易造成危险的场景数据,同时在面对危险场景时,驾驶员往往会过早进行人为介入以避免实车碰撞造成损失。这导致验证自动驾驶功能的安全性和可靠性变得低效且成本高昂。在仿真中,传统方法在构建仿真场景方面存在局限性,无法自动学习和适应新的场景,对于较少出现但危险性较高的情况,传统方法往往无法充分考虑和覆盖,导致测试结果的不全面和偏差。


技术实现思路

1、本发明是为了解决上述现有技术存在的不足之处,提出一种自动驾驶场景下交通参与者动态切入行为的生成方法,以期在测试场景中模拟实车场景下的危险对抗情况,以更加有效地评估自动驾驶车辆在面对危险行为时的应对能力,从而能够有效验证被测车辆的自动驾驶功能的可靠性,为自动驾驶功能的改进和优化提供参考。

2、本发明为达到上述发明目的,采用如下技术方案:

3、本发明一种自动驾驶场景下交通参与者动态切入行为的生成方法的特点也在于,包括如下步骤:

4、步骤1、根据交通车辆的动力学模型,构建高速切入工况的仿真环境,并采集仿真环境道路和车辆信息;定义仿真环境中的训练车辆为agent车,测试车辆为ego车,agent车位于左侧车道行驶,ego车位于agent车的右侧相邻车道,并与agent车同向行驶;

5、步骤2、以车辆自身中心为原点,以车辆沿着道路行驶的方向为纵向、以垂直于道路行驶的方向为横向,建立frenet坐标系;

6、定义状态参数集中的每一步的状态量包括:agent车与ego车的横向距离、agent车与ego车在纵向距离、ego车的速度和加速度,agent车的速度和航向角;

7、定义动作参数集的每一步的动作量,包括:agent车的加速度,agent车的预瞄距离;

8、步骤3、根据每一步动作量,生成每一步的纵向、横向预期轨迹;

9、步骤4、设定奖励数r;

10、步骤5、构建策略-评价网络,并设定学习率为η;

11、基于所述状态参数集和动作参数集,利用ppo算法对所述策略-评价网络进行训练,得到最优策略-评价模型;

12、步骤6、将所述最优策略-评价模型部署到agent车的规划模块上,将当前状态量输入规划模块,输出agent车当前的动作量,并根据步骤3的过程得到当前的纵向、横向预期轨迹后,发送给agent车的控制模块执行,以产生当前的最优动态切入行为,逼迫ego车做出反应,以验证ego车辆的自动驾驶功能在面对危险情况下的可靠性。

13、本发明所述的一种自动驾驶场景下交通参与者动态切入行为的生成方法的特点也在于,所述步骤3包括:

14、步骤3.1:构建每一步的动作量中agent车的加速度的范围;

15、步骤3.2:利用三次多项式构建agent车在每一步的纵向、横向预期轨迹;

16、步骤3.3:定义每一步的纵向、横向预期轨迹的起点条件,每一步的纵向、横向预期轨迹的终点条件;

17、步骤3.4:基于起点条件和终点条件对纵向、横向预期轨迹分别进行求解,相应得到纵向、横向多项式系数。

18、根据权利要求2所述的一种自动驾驶场景下交通参与者动态切入行为的生成方法,其特征在于,所述步骤3中的奖励函数r是由碰撞奖励、到达目标车道奖励和加速度平滑奖励组成,其中;碰撞奖励是根据agent车是否与ego发生碰撞决定,若发生碰撞,则将所设定的碰撞惩罚赋予碰撞奖励,否则,根据agent车与ego发生碰撞的预测时间计算碰撞奖励;

19、所述到达目标车道奖励与agent到ego车所在车道的距离的平方成反比;

20、所述加速度平滑奖励与agent车的加速度的导数平方成正比。

21、所述步骤5包括:

22、步骤5.1:所述策略-评价网络包括:评价网络和策略网络;

23、搭建所述评价网络是由两层全连接层以及输出层组成,且所有全连接层之间的激活函数均为relu函数,评价网络的输入为状态量,输出为当前状态价值;

24、搭建所述策略网络包括:输出均值部分的神经网络和输出方差部分的神经网络;其中,输出均值部分的神经网络包含:两层全连接层以及输出层,且输出层激活函数为tanh函数;所述输出方差部分的神经网络包含:两层全连接层和输出层,且输出层激活函数为softplus激活函数;所有全连接层之间的激活函数为relu函数;且策略网络输出的当前动作量服从高斯分布;

25、步骤5.3:按照步骤5.2的过程直到经验池容量达到设定最大值为止;

26、步骤5.4:从经验池中随机抽取一条样本;

27、用价值网络计算所抽取的每条样本中前、后两个状态对应的状态价值;

28、用前、后状态价值计算相应样本的优势函数;

29、用新、旧策略在同一状态下选择同一动作的概率比值,与所述同一动作对应的优势函数的乘积,得到策略网络的梯度,所述旧策略是在训练过程中更新前的策略网络,而新策略指的是在训练过程中更新后的策略网络;在第一次更新之前,所述新策略与旧策略是相同的,即它们在初始阶段具有相同的网络参数;

30、步骤5.5:根据策略网络的梯度,通过梯度下降的方法更新策略网络的参数,同时通过最小平方差损失的方法更新价值网络的参数,得到更新后的策略网络和价值网络;

31、步骤5.6:若当前步数未达到总迭代次数,则清空经验池,返回步骤5.2顺序执行,否则,结束训练,并得到训练结束后的网络参数构成的最优策略-评价网络模型。

32、本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述生成方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。

33、本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述生成方法的步骤。

34、与现有技术相比,本发明的有益效果在于:

35、本发明利用深度强化学习ppo算法构建了网络,并训练得到交通参与者的动态切入行为生成模型。该模型能够实时生成具有多样性的轨迹,控制交通参与车辆在意外切入、激进加塞等动态道路切入行为方面表现出的动态性。与传统方法相比,本发明利用深度强化学习的探索性和自动驾驶虚拟仿真方法,构建了不同的仿真测试场景,并重复生成危险驾驶行为,从而有效提升了测试场景中小概率的动态交互性在,评估自动驾驶系统性能时更准确地模拟了真实场景,提高了测试效率,并验证了自动驾驶功能的可靠性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1