1.一种自动驾驶设备的控制方法,其特征在于,所述方法包括:
确定第一状态序列,所述第一状态序列包括全局环境信息;
基于所述第一状态序列,通过第一神经网络模型确定当前目标点的位置概率分布;
基于多个时刻对应的第二状态序列和所述位置概率分布,通过第二神经网络模型确定所述多个时刻对应的动作空间,并基于所述多个时刻对应的动作空间,控制所述自动驾驶设备行驶,以使所述自动驾驶设备向所述当前目标点移动;
其中,每个时刻对应的第二状态序列包括所述自动驾驶设备在每个时刻所处位置的周围的局部环境信息,每个时刻对应的动作空间用于指示每个时刻所要执行的动作。
2.如权利要求1所述的方法,其特征在于,所述基于多个时刻对应的第二状态序列和所述位置概率分布,通过第二神经网络模型确定所述多个时刻对应的动作空间,包括:
在当前周期内,每隔指定时长,获取一次第二状态序列;
在每次获取到第二状态序列时,基于本次获取到的第二状态序列和所述位置概率分布,通过所述第二神经网络模型确定本次的获取时刻对应的动作空间。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
通过所述第二神经网络模型,确定基于每个时刻获取的第二状态序列执行对应的动作空间指示的动作所获得的内部奖励值;
将所述位置概率分布、每个时刻对应的第二状态序列、动作空间和内部奖励值对应存储。
4.如权利要求3所述的方法,其特征在于,所述基于所述多个时刻对应的动作空间,控制所述自动驾驶设备行驶之后,还包括:
将存储的所述多个时刻中每个时刻对应的第二状态序列、动作空间、内部奖励值和所述位置概率分布确定为一组第一训练数据,得到所述多个时刻对应的第一训练数据;
基于所述多个时刻对应的第一训练数据,对所述第二神经网络模型的参数进行更新。
5.如权利要求3所述的方法,其特征在于,所述通过所述第二神经网络模型,确定基于每个时刻获取的第二状态序列执行对应的动作空间指示的动作所获得的内部奖励值之后,还包括:
对所述多个时刻中每个时刻对应的内部奖励值进行求和运算,得到当前周期的内部总奖励值;
将所述内部总奖励值反馈给所述第一神经网络模型;
通过所述第一神经网络模型,确定在所述第一状态序列下移动至所述位置概率分布指示的当前目标点得到的外部奖励值;
根据所述内部总奖励值和所述外部奖励值,确定高层总奖励值;
将所述当前周期的第一状态序列、位置概率分布和高层总奖励值对应存储。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
获取多个周期对应的第二训练数据,每个周期对应的第二训练数据包括每个周期的第一状态序列、位置概率分布和高层总奖励值;
基于所述多个周期对应的第二训练数据,对所述第一神经网络模型的参数进行更新。
7.如权利要求1-6中任一项所述的方法,其特征在于,
所述第一神经网络模型包括第一策略网络和第一评估网络,所述第一策略网络用于基于输入的第一状态序列输出所述位置概率分布,所述第一评估网络用于基于所述位置概率分布输出第一状态评估值;和/或,
所述第二神经网络模型包括第二策略网络和第二评估网络,所述第二策略网络用于基于输入的第二状态序列和所述位置概率分布输出对应的动作空间,所述第二评估网络基于所述第二策略网络输出的动作空间输出第二状态评估值。
8.如权利要求1-6中任一项所述的方法,其特征在于,
所述全局环境信息包括全局地图尺寸、工作台的位置信息、货架所在区域的区域信息、固定障碍物的位置信息以及环境中的各个自动驾驶设备当前的位置信息中的至少一种;
所述局部环境信息包括目标局部区域内的障碍物的位置信息、其他自动驾驶设备的位置信息、以及所述自动驾驶设备的起点位置信息、终点位置信息、当前角度和当前速度,所述目标局部区域是指所述自动驾驶设备的探测传感器能够探测到的区域中的至少一种。
9.一种自动驾驶设备的控制装置,其特征在于,所述装置包括:
第一确定模块,用于确定第一状态序列,所述第一状态序列包括全局环境信息;
第二确定模块,用于基于所述第一状态序列,通过第一神经网络模型确定当前目标点的位置概率分布;
第三确定模块,用于基于多个时刻对应的第二状态序列和所述位置概率分布,通过第二神经网络模型确定所述多个时刻对应的动作空间,并基于所述多个时刻对应的动作空间,控制所述自动驾驶设备行驶,以使所述自动驾驶设备向所述当前目标点移动;
其中,每个时刻对应的第二状态序列包括所述自动驾驶设备在每个时刻所处位置的周围的局部环境信息,每个时刻对应的动作空间用于指示每个时刻所要执行的动作。
10.如权利要求9所述的装置,其特征在于,所述第三确定模块用于:
在当前周期内,每隔指定时长,获取一次第二状态序列;
在每次获取到第二状态序列时,基于本次获取到的第二状态序列和所述位置概率分布,通过所述第二神经网络模型确定本次的获取时刻对应的动作空间。
11.如权利要求10所述的装置,其特征在于,所述第三确定模块还用于:
通过所述第二神经网络模型,确定基于每个时刻获取的第二状态序列执行对应的动作空间指示的动作所获得的内部奖励值;
将所述位置概率分布、每个时刻对应的第二状态序列、动作空间和内部奖励值对应存储。
12.如权利要求11所述的装置,其特征在于,所述第三确定模块还用于:
将存储的所述多个时刻中每个时刻对应的第二状态序列、动作空间、内部奖励值和所述位置概率分布确定为一组第一训练数据,得到所述多个时刻对应的第一训练数据;
基于所述多个时刻对应的第一训练数据,对所述第二神经网络模型的参数进行更新。
13.如权利要求11所述的装置,其特征在于,所述第二确定模块还用于:
对所述多个时刻中每个时刻对应的内部奖励值进行求和运算,得到当前周期的内部总奖励值;
将所述内部总奖励值反馈给所述第一神经网络模型;
通过所述第一神经网络模型,确定在所述第一状态序列下移动至所述位置概率分布指示的当前目标点得到的外部奖励值;
根据所述内部总奖励值和所述外部奖励值,确定高层总奖励值;
将所述当前周期的第一状态序列、位置概率分布和高层总奖励值对应存储。
14.如权利要求13所述的装置,其特征在于,所述第二确定模块还用于:
获取多个周期对应的第二训练数据,每个周期对应的第二训练数据包括每个周期的第一状态序列、位置概率分布和高层总奖励值;
基于所述多个周期对应的第二训练数据,对所述第一神经网络模型的参数进行更新。
15.如权利要求9-14中的任一项所述的装置,其特征在于,
所述第一神经网络模型包括第一策略网络和第一评估网络,所述第一策略网络用于基于输入的第一状态序列输出所述位置概率分布,所述第一评估网络用于基于所述位置概率分布输出第一状态评估值;和/或,
所述第二神经网络模型包括第二策略网络和第二评估网络,所述第二策略网络用于基于输入的第二状态序列和所述位置概率分布输出对应的动作空间,所述第二评估网络基于所述第二策略网络输出的动作空间输出第二状态评估值。
16.如权利要求9-14中任一项所述的装置,其特征在于,
所述全局环境信息包括全局地图尺寸、工作台的位置信息、货架所在区域的区域信息、固定障碍物的位置信息以及环境中的各个自动驾驶设备当前的位置信息中的至少一种;
所述局部环境信息包括目标局部区域内的障碍物的位置信息、其他自动驾驶设备的位置信息、以及所述自动驾驶设备的起点位置信息、终点位置信息、当前角度和当前速度,所述目标局部区域是指所述自动驾驶设备的探测传感器能够探测到的区域中的至少一种。
17.一种自动驾驶设备,其特征在于,所述自动驾驶设备包括探测传感器、行进部件、处理器和收发器:
所述探测传感器用于进行环境探测,以得到局部环境信息;
所述收发器用于接收所述全局环境信息;
所述处理器用于基于所述探测传感器探测得到的局部环境信息和所述收发器接收的全局环境信息,确定所述自动驾驶设备需要执行的动作,并根据所确定的动作控制所述行进部件移动。
18.如权利要求17所述的自动驾驶设备,其特征在于,所述探测传感器为图像传感器,所述图像传感器用于采集周围的环境图像作为所述局部环境信息。
19.如权利要求17或18所述的自动驾驶设备,其特征在于,所述收发器用于向其他设备发送本设备的位置信息和/或动作空间,所述收发器还用于接收其他设备发送的其他设备的位置信息和/或动作空间。