一种模型训练方法、装置、存储介质及电子设备与流程

文档序号：35867843发布日期：2023-10-27 21:09阅读：来源：国知局

技术特征：

1.一种模型训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，确定该障碍物的障碍物类别，具体包括：

3.如权利要求1所述的方法，其特征在于，所述状态数据包括第一状态数据和第二状态数据，其中，所述第一状态数据所基于的坐标系为第一坐标系，所述第二状态数据所基于的坐标系为第二坐标系；

4.如权利要求1所述的方法，其特征在于，确定以所述轨迹指导所述目标设备行驶对应的奖励值，具体包括：

5.如权利要求1所述的方法，其特征在于，确定以所述轨迹指导所述目标设备行驶对应的奖励值，具体包括：

6.如权利要求5所述的方法，其特征在于，更新所述策略网络中的参数，具体包括：

7.一种自动驾驶设备的控制方法，其特征在于，包括：

8.如权利要求7所述的方法，其特征在于，根据所述轨迹对所述目标设备进行控制，具体包括：

9.一种模型训练装置，其特征在于，所述装置具体包括：

10.一种自动驾驶设备的控制装置，其特征在于，所述装置具体包括：

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～8任一项所述的方法。

12.一种自动驾驶设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～8任一项所述的方法。

技术总结
本说明书公开了一种模型训练方法、装置、存储介质及电子设备。本说明书提供的模型训练方法中，将障碍物以不同的障碍物类型进行区分，包括指定类型的障碍物以及非指定类型的障碍物，然后，根据满足风险条件的障碍物的障碍物类型来确定以策略网络输出的轨迹控制目标设备行驶所对应的奖励值，当满足风险条件的障碍物的障碍物类型不同时，所确定出的奖励值也不同，进而，在以奖励值最大为目标更新策略网络中的参数时，更新后的策略网络会倾向于输出的轨迹会指导目标设备优先避让对目标设备的行驶影响较高的障碍物。

技术研发人员：熊方舟,丁曙光,樊明宇,任冬淳
受保护的技术使用者：北京三快在线科技有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2