1.一种模型训练方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,确定该障碍物的障碍物类别,具体包括:
3.如权利要求1所述的方法,其特征在于,所述状态数据包括第一状态数据和第二状态数据,其中,所述第一状态数据所基于的坐标系为第一坐标系,所述第二状态数据所基于的坐标系为第二坐标系;
4.如权利要求1所述的方法,其特征在于,确定以所述轨迹指导所述目标设备行驶对应的奖励值,具体包括:
5.如权利要求1所述的方法,其特征在于,确定以所述轨迹指导所述目标设备行驶对应的奖励值,具体包括:
6.如权利要求5所述的方法,其特征在于,更新所述策略网络中的参数,具体包括:
7.一种自动驾驶设备的控制方法,其特征在于,包括:
8.如权利要求7所述的方法,其特征在于,根据所述轨迹对所述目标设备进行控制,具体包括:
9.一种模型训练装置,其特征在于,所述装置具体包括:
10.一种自动驾驶设备的控制装置,其特征在于,所述装置具体包括:
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~8任一项所述的方法。
12.一种自动驾驶设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~8任一项所述的方法。