1.一种基于深度强化学习的机器人初始定位方法,其特征在于,包括:
2.根据权利要求1所述的基于深度强化学习的机器人初始定位方法,其特征在于,所述将所述实时点云图转化为实时高程图,包括:
3.根据权利要求2所述的基于深度强化学习的机器人初始定位方法,其特征在于,所述基于所述估计位置,按照所述实时点云图的规模在所述目标机器人所在区域对应的地图点云中选取估计点云图,并将所述估计点云图转化为估计高程图,包括:
4.根据权利要求1所述的基于深度强化学习的机器人初始定位方法,其特征在于,所述调整模型通过以下步骤进行训练:
5.根据权利要求4所述的基于深度强化学习的机器人初始定位方法,其特征在于,通过以下公式,根据所述样本实时高程图和所述样本估计高程图各列之间的距离设定所述马尔可夫决策问题的奖赏函数:
6.根据权利要求4所述的基于深度强化学习的机器人初始定位方法,其特征在于,所述损失函数通过以下公式表示:
7.根据权利要求4所述的基于深度强化学习的机器人初始定位方法,其特征在于,所述目标评价值在预设的经验池中抽取得到,所述经验池中的经验被抽取的概率满足:
8.根据权利要求1至7中任一项所述的基于深度强化学习的机器人初始定位方法,其特征在于,所述在所述调整值的波动幅度小于预设阈值的情况下,基于所述估计位置进行点云配准,确定所述目标机器人的实际初始位置,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的基于深度强化学习的机器人初始定位方法。