一种基于自适应学习技术的狭窄场景轨迹生成方法与流程

文档序号：34907391发布日期：2023-07-27 19:18阅读：来源：国知局

技术特征：

1.一种基于自适应学习技术的狭窄场景轨迹生成方法，其特征在于：该方法包括离线训练步骤和在线轨迹生成步骤；

2.根据权利要求1所述的一种基于自适应学习技术的狭窄场景轨迹生成方法，其特征在于：步骤1中，所述的自车状态数据，包括车辆位置、速度、加速度、方向盘转角、油门刹车、档位中的一种或多种；

3.根据权利要求2所述的一种基于自适应学习技术的狭窄场景轨迹生成方法，其特征在于：步骤2中，对于自车状态数据和历史状态累积信息，使用普通数据归一算法组成1*n维的向量s；对于动态障碍物信息和地图信息，使用图神经网络的算法表达几何边界信息。

4.根据权利要求1所述的一种基于自适应学习技术的狭窄场景轨迹生成方法，其特征在于：步骤3中，所述轨迹生成模型的构建包括：simulator模块、策略生成网络模型、轨迹表征模型、奖励评估模块；

5.根据权利要求4所述的一种基于自适应学习技术的狭窄场景轨迹生成方法，其特征在于：所述的simulator模块为交互环境模拟器，基于简化的单车模型对自车状态数据、环境数据信息进行更新，得到固定时间完整的轨迹点；

6.根据权利要求5所述的一种基于自适应学习技术的狭窄场景轨迹生成方法，其特征在于：所述的策略生成网络模型使用ppo连续行为空间强化学习算法，其包含一个策略网络和一个评估网络计算策略梯度，通过梯度下降算法训练更新网络参数，得到使得累积奖励最大的策略参数；

7.根据权利要求6所述的一种基于自适应学习技术的狭窄场景轨迹生成方法，其特征在于：所述的轨迹表征模型使用螺旋线模型，通过输入参数s和dkappa，进行输出满足车辆动力学的轨迹点，并将该轨迹点输入所述的simulator模块进行执行，更新自车状态数据及环境数据信息。

8.根据权利要求7所述的一种基于自适应学习技术的狭窄场景轨迹生成方法，其特征在于：所述满足车辆动力学的轨迹点加快输出为通过基准螺旋线查表，并通过缩放的方式进行轨迹点的螺旋线计算，具体步骤包括：

9.根据权利要求8所述的一种基于自适应学习技术的狭窄场景轨迹生成方法，其特征在于：所述的奖励评估模块基于所述simulator模块的更新结构评估当前轨迹的优劣并计算cost值；

10.根据权利要求9所述的一种基于自适应学习技术的狭窄场景轨迹生成方法，其特征在于：步骤4中，所述的轨迹参数优化为奖励评估模型参数优化过程，优化方式为：基于专家驾驶轨迹数据和步骤3中策略生成网络模型的轨迹参数，通过max-margin损失函数训练奖励函数的权重参数，损失函数表示如下：

技术总结
本发明公开一种基于自适应学习技术的狭窄场景轨迹生成方法，包括离线训练步骤和在线轨迹生成步骤，使用同一套策略生成网络模型，可以适用于不同的场景，且训练完成后只需要保存一套网络参数，整个算法更简洁易于维护；同时，该算法仅仅需要通过网络来学习两个轨迹表征参数，大大的降低了网络模型的参数量和训练难度，并增强了轨迹生成算法的可解释性与可靠性，保证了生成轨迹满足车辆运动学约束；另外，在策略生成网络模型训练过程中，引入了专家驾驶数据训练奖励函数权重，极大的降低了奖励函数调参的难度，同时随着训练数据的丰富，算法生成的轨迹特性将吸取专家驾驶的驾驶经验，使得生成的轨迹更加拟人化、智能化。

技术研发人员：胡燚,罗元福,牟剑秋,许正昊
受保护的技术使用者：上海友道智途科技有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

当前第2页1 2