本发明涉及自动驾驶,尤其涉及的是仿真数据生成方法、装置、终端及计算机可读存储介质。
背景技术:
1、仿真系统对于自动驾驶系统的研发非常重要,如何利用仿真系统进行自动驾驶系统测试和训练是目前的一个研究热点。为了使仿真系统生成训练数据,需要有一个专家驾驶系统驱动自车,并且模拟真实环境中自车行为,然后进行数据采集,得到仿真系统的训练数据集。
2、目前,主要仿真系统的训练数据集的生成方案包括:直接使用人类驾驶员,或者基于规则进行车辆控制的方案;其中,使用人类驾驶效率极低,成本高;而基于规则则需要维护大量的规则库,泛化能力差,并且部分复杂行为是无法通过规则实现的,导致仿真训练数据和真实数据在驾驶行为上差异较大。
3、因此,现有技术还有待改进。
技术实现思路
1、本发明要解决的技术问题在于,针对现有技术缺陷,本发明提供一种仿真数据生成方法、装置、终端及计算机可读存储介质,以解决现有的仿真系统生成的训练数据集效率低及差异大的问题。
2、本发明解决技术问题所采用的技术方案如下:
3、第一方面,本发明提供仿真数据生成方法,包括:
4、获取自车在当前仿真场景下的观测数据;
5、根据所述观测数据和奖励函数更新决策模型,并通过更新后的决策模型优化避障轨迹;
6、基于参数化的动态场景以优化后的避障轨迹进行仿真自动驾驶,输出仿真自动驾驶得到的仿真数据。
7、在一种实现方式中,所述根据所述观测数据和奖励函数更新决策模型,并通过更新后的决策模型优化避障轨迹,包括:
8、根据所述奖励函数计算自车当前行为的速度奖励,并根据所述速度奖励更新所述决策模型的网络参数,得到所述更新后的决策模型;
9、通过所述更新后的决策模型优化避障轨迹。
10、在一种实现方式中,所述速度奖励的计算公式为:
11、
12、其中,vego为自车车速;
13、vdesired为期望速度;
14、vmax为最大速度。
15、在一种实现方式中,所述通过所述更新后的决策模型优化避障轨迹,包括:
16、获取自车预测轨迹和其他车辆预测轨迹;
17、判断所述自车预测轨迹与其他车辆预测轨迹是否相交;
18、若所述自车预测轨迹与其他车辆预测轨迹相交,则判定对应的车辆为障碍物;
19、通过所述更新后的决策模型输出自车对于所述障碍物的避障轨迹。
20、在一种实现方式中,所述基于参数化的动态场景以优化后的避障轨迹进行仿真自动驾驶,输出仿真自动驾驶得到的仿真数据,包括:
21、根据beta分布值、acc状态以及转向参数生成自车控制信号,得到优化的自车驾驶行为;
22、基于所述参数化的动态场景以优化后的避障轨迹进行仿真自动驾驶,输出仿真自动驾驶得到的仿真数据。
23、在一种实现方式中,所述根据beta分布值、acc状态以及转向参数生成自车控制信号,包括:
24、计算当前动态场景的参数化分布的期望:
25、
26、根据所述参数化分布的期望调节得到所述beta分布值;
27、根据所述beta分布值、所述acc状态以及所述转向参数生成所述自车控制信号。
28、在一种实现方式中,所述基于所述参数化的动态场景以优化后的避障轨迹进行仿真自动驾驶,包括:
29、基于所述参数化的动态场景自定义场景分布和类别;
30、根据自定义的场景分布、自定义的类别以及所述优化的自车驾驶行为进行仿真自动驾驶。
31、第二方面,本发明提供一种仿真数据生成装置,包括:
32、观测数据模块,用于获取自车在当前仿真场景下的观测数据;
33、决策输出模块,用于根据所述观测数据和奖励函数更新决策模型,并通过更新后的决策模型优化避障轨迹;
34、仿真驾驶模块,用于基于参数化的动态场景以优化后的避障轨迹进行仿真自动驾驶,输出仿真自动驾驶得到的仿真数据。
35、第三方面,本发明提供一种终端,包括:处理器以及存储器,所述存储器存储有仿真数据生成程序,所述仿真数据生成程序被所述处理器执行时用于实现如第一方面所述的仿真数据生成方法的操作。
36、第四方面,本发明还提供一种介质,所述介质为计算机可读存储介质,所述介质存储有仿真数据生成程序,所述仿真数据生成程序被处理器执行时用于实现如第一方面所述的仿真数据生成方法的操作。
37、本发明采用上述技术方案具有以下效果:
38、本发明通过获取自车在当前仿真场景下的观测数据,可根据观测数据和奖励函数更新决策模型,并通过更新后的决策模型优化避障轨迹;以及基于参数化的动态场景以优化后的避障轨迹进行仿真自动驾驶,输出仿真自动驾驶得到的仿真数据。本发明通过奖励函数优化了自车的避障行为,并通过引入动态场景,可自定义场景分布和类别,提高了仿真数据的生成效率和精准度。
1.一种仿真数据生成方法,其特征在于,包括:
2.根据权利要求1所述的仿真数据生成方法,其特征在于,所述根据所述观测数据和奖励函数更新决策模型,并通过更新后的决策模型优化避障轨迹,包括:
3.根据权利要求2所述的仿真数据生成方法,其特征在于,所述速度奖励的计算公式为:
4.根据权利要求2所述的仿真数据生成方法,其特征在于,所述通过所述更新后的决策模型优化避障轨迹,包括:
5.根据权利要求1所述的仿真数据生成方法,其特征在于,所述基于参数化的动态场景以优化后的避障轨迹进行仿真自动驾驶,输出仿真自动驾驶得到的仿真数据,包括:
6.根据权利要求5所述的仿真数据生成方法,其特征在于,所述根据beta分布值、acc状态以及转向参数生成自车控制信号,包括:
7.根据权利要求5所述的仿真数据生成方法,其特征在于,所述基于所述参数化的动态场景以优化后的避障轨迹进行仿真自动驾驶,包括:
8.一种仿真数据生成装置,其特征在于,包括:
9.一种终端,其特征在于,包括:处理器以及存储器,所述存储器存储有仿真数据生成程序,所述仿真数据生成程序被所述处理器执行时用于实现如权利要求1-7中任意一项所述的仿真数据生成方法的操作。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有仿真数据生成程序,所述仿真数据生成程序被处理器执行时用于实现如权利要求1-7中任意一项所述的仿真数据生成方法的操作。