1.一种基于自适应学习技术的狭窄场景轨迹生成方法,其特征在于:该方法包括离线训练步骤和在线轨迹生成步骤;
2.根据权利要求1所述的一种基于自适应学习技术的狭窄场景轨迹生成方法,其特征在于:步骤1中,所述的自车状态数据,包括车辆位置、速度、加速度、方向盘转角、油门刹车、档位中的一种或多种;
3.根据权利要求2所述的一种基于自适应学习技术的狭窄场景轨迹生成方法,其特征在于:步骤2中,对于自车状态数据和历史状态累积信息,使用普通数据归一算法组成1*n维的向量s;对于动态障碍物信息和地图信息,使用图神经网络的算法表达几何边界信息。
4.根据权利要求1所述的一种基于自适应学习技术的狭窄场景轨迹生成方法,其特征在于:步骤3中,所述轨迹生成模型的构建包括:simulator模块、策略生成网络模型、轨迹表征模型、奖励评估模块;
5.根据权利要求4所述的一种基于自适应学习技术的狭窄场景轨迹生成方法,其特征在于:所述的simulator模块为交互环境模拟器,基于简化的单车模型对自车状态数据、环境数据信息进行更新,得到固定时间完整的轨迹点;
6.根据权利要求5所述的一种基于自适应学习技术的狭窄场景轨迹生成方法,其特征在于:所述的策略生成网络模型使用ppo连续行为空间强化学习算法,其包含一个策略网络和一个评估网络计算策略梯度,通过梯度下降算法训练更新网络参数,得到使得累积奖励最大的策略参数;
7.根据权利要求6所述的一种基于自适应学习技术的狭窄场景轨迹生成方法,其特征在于:所述的轨迹表征模型使用螺旋线模型,通过输入参数s和dkappa,进行输出满足车辆动力学的轨迹点,并将该轨迹点输入所述的simulator模块进行执行,更新自车状态数据及环境数据信息。
8.根据权利要求7所述的一种基于自适应学习技术的狭窄场景轨迹生成方法,其特征在于:所述满足车辆动力学的轨迹点加快输出为通过基准螺旋线查表,并通过缩放的方式进行轨迹点的螺旋线计算,具体步骤包括:
9.根据权利要求8所述的一种基于自适应学习技术的狭窄场景轨迹生成方法,其特征在于:所述的奖励评估模块基于所述simulator模块的更新结构评估当前轨迹的优劣并计算cost值;
10.根据权利要求9所述的一种基于自适应学习技术的狭窄场景轨迹生成方法,其特征在于:步骤4中,所述的轨迹参数优化为奖励评估模型参数优化过程,优化方式为:基于专家驾驶轨迹数据和步骤3中策略生成网络模型的轨迹参数,通过max-margin损失函数训练奖励函数的权重参数,损失函数表示如下: