基于深度强化学习的机器人初始定位方法与流程

文档序号:37309457发布日期:2024-03-13 20:57阅读:12来源:国知局
基于深度强化学习的机器人初始定位方法与流程

本技术实施例涉及智能机器人定位,特别涉及一种基于深度强化学习的机器人初始定位方法。


背景技术:

1、激光雷达slam(simultaneous localization and mapping,即时定位与地图构建)技术需要预先提供全局的初始位置来实现连续定位,因此,机器人需要人工设定初始位置,或关机后记忆当前位置,下一次开机之前不发生位置改变。这样的条件大大降低了机器人定位的通用度。基于此,初始定位技术营运而生,目前业内较成熟的初始定位技术包括两类,一类是基于gnss(global navigation satellite system,全球导航卫星系统)的初始定位方法,另一类是基于蒙特卡洛框架的初始定位方法。

2、基于gnss的初始定位方法主要是在机器人上安装gps接收机,通过接收基站发送的差分数据来获取高精度的定位和定向。这种方法一般能够获取较好的初始定位效果,但是对环境要求较高,在室内或者有遮挡情况的室外环境下,例如高楼之间或树木下方,gnss信号明显减弱,无法获取稳定的位姿解,从而导致定位精度大幅度下降,此时的定位精度可能达到数十米之外,精度无法满足初始定位要求。

3、基于蒙特卡洛框架的初始定位方法使用粒子来表示机器人的位置,并根据传感器的实时数据与地图数据进行对比来进行粒子滤波。这种方法能够获取全局最优解,但是需要人工操作机器人在一定范围内移动使得粒子位置收敛,这需要较长的时间,实用性较低。

4、综上所述,业内的初始定位技术受到环境和使用条件的严重限制,机器人需要满足相应的要求,或者需要足够的初始化时间,这无法满足快速全局初始化的要求。


技术实现思路

1、本技术实施例的目的在于提供一种基于深度强化学习的机器人初始定位方法,无需依赖gnss,泛化性能较好,不受繁琐的条件限制,能够在短时间内实现快速全局初始定位。

2、为解决上述的技术问题,本技术的实施例提供了基于深度强化学习的机器人初始定位方法,包括以下步骤:获取目标机器人扫描得到的实时点云图,将所述实时点云图转化为实时高程图;在目标机器人所在区域中确定估计位置,基于所述估计位置,按照所述实时点云图的规模在所述目标机器人所在区域对应的地图点云中选取估计点云图,并将所述估计点云图转化为估计高程图;将所述实时高程图和所述估计高程图输入至预训练的调整模型中,获取所述调整模型输出的调整值;在所述调整值的波动幅度小于预设阈值的情况下,基于所述估计位置进行点云配准,确定所述目标机器人的实际初始位置。

3、本技术的实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于深度强化学习的机器人初始定位方法。

4、本技术的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于深度强化学习的机器人初始定位方法。

5、本技术的实施例提供的基于深度强化学习的机器人初始定位方法,首先对实时点云和估计点云进行降维处理,转化成规模相同的实时高程图和估计高程图,将实时高程图和估计高程图输入至预训练的调整模型中,调整模型的本质是将机器人初始定位问题建模成一个马尔可夫决策问题,衡量估计高程图与实时高程图的匹配程度,输出估计位置对应的调整值,若估计位置对应的调整值小于预设阈值,说明该估计位置较为准确,无需调整,至此完成机器人初始位置的粗略定位,随后基于该估计位置进行点云配准,确定目标机器人精确的实际初始位置。求解模型和点云配准结合使用,无需依赖gnss,不需要经过大量的迭代计算,也不需要人工操作机器人进行额外的移动,仅依靠机器人本身的激光雷达即可在一定范围内实现快速的自动初始定位,全过程不受繁琐的条件限制,泛化性能较好,具有很强的普适性。

6、在一些可选的实施例中,所述将所述实时点云图转化为实时高程图,包括:基于所述目标机器人的传感器的方位角和径向距离,按照预设的方位角分割间距和径向距离分割间距,将所述实时点云图划分为若干个实时点云区域;遍历各所述实时点云区域,将当前实时点云区域中高度最高的像素点的高度值,作为所述当前实时点云区域对应的高程值,并将所述当前实时点云区域内各像素点的像素值赋值为所述当前实时点云区域对应的高程值;基于赋值后的各所述实时点云区域,得到实时高程图。基于方位角和径向距离进行实时点云图的区域划分,虽然距离中心越远的点云数据越稀疏,但分割的面积也越大,这样就弥补了远处点云数据过于稀疏导致的信息量不足的问题。讲信息丰富的实时点云图降维成灰度化的实时高程图,降低了后续处理时的难度和计算量。

7、在一些可选的实施例中,所述基于所述估计位置,按照所述实时点云图的规模在所述目标机器人所在区域对应的地图点云中选取估计点云图,并将所述估计点云图转化为估计高程图,包括:在所述目标机器人所在区域对应的地图点云中,以所述估计位置为圆心,按照所述实时点云图的半径,划定第一圆形区域,基于所述第一圆形区域中的点云得到所述估计位置对应的估计点云图;按照所述实时点云图对应的划分标准,将所述估计点云图划分为若干个估计点云区域;遍历各所述估计点云区域,将当前估计点云区域中高度最高的像素点的高度值,作为所述当前估计点云区域对应的高程值,并将所述估计实时点云区域内各像素点的像素值赋值为所述当前估计点云区域对应的高程值;基于赋值后的各所述估计点云区域,得到估计高程图。估计位置对应的估计点云图可以从目标机器人所在区域对应的地图点云中选取,同时按照实时点云图的规模进行选取,保证估计点云图与实时点云图的大小一致,这样转换得到的实时高程图与估计高程图的规模也就一致,很好地保证了机器人初始定位的规范化和标准化。

8、在一些可选的实施例中,所述调整模型通过以下步骤进行训练:获取样本实时高程图和样本估计高程图,将机器人初始定位问题建模成一个马尔可夫决策问题,将所述样本实时高程图和所述样本估计高程图作为所述马尔可夫决策问题的状态空间,设定初始调整值作为所述马尔可夫决策问题的动作空间,并根据所述样本实时高程图和所述样本估计高程图各列之间的距离设定所述马尔可夫决策问题的奖赏函数;构建动作网络和评价网络组成actor-critic框架,将所述样本实时高程图和样本估计高程图同时输入至所述动作网络和所述评价网络中,获取所述动作网络输出的样本调整值,并获取所述评价网络输出的评价值;其中,所述评价值用于评价所述样本调整值的优劣;基于预设的学习率、当前次训练对应的评价值、当前次训练对应状态空间、当前次训练对应动作空间、当前次训练对应的奖赏值和目标评价值,构建损失函数,并使用所述损失函数对所述动作网络进行迭代训练,直至所述动作网络收敛,基于收敛后的动作网络得到调整模型。actor-critic框架能够将策略评估和策略改进两个过程结合起来,具有较好的性能和灵活性,基于actor-critic框架构建、训练调整模型,可以使得调整模型快速、高质量地获得估计位置调整能力。

9、在一些可选的实施例中,通过以下公式,根据所述样本实时高程图和所述样本估计高程图各列之间的距离设定所述马尔可夫决策问题的奖赏函数:

10、

11、其中,n为所述样本实时高程图的列数,所述样本估计高程图的列数与所述样本实时高程图的列数相同,所述表示所述样本实时高程图和所述样本估计高程图第i列之间的余弦距离,d表示奖赏值。余弦距离能够表征样本实时高程图和样本估计高程图同名列之间的相似程度,基于余弦距离构建的奖赏函数科学合理,可以很好地用于调整模型的训练。

12、在一些可选的实施例中,所述损失函数通过以下公式表示:

13、l(w)=[r(st,at)+γq*(st+1,at+1,w*)-q(st,at,w)]2

14、其中,st表示所述当前次训练对应状态空间、at表示所述当前次训练对应动作空间,γ为所述学习率,w表示所述评价网络的网络参数,w*表示目标网络参数,q(st,at,w)表示所述当前次训练对应的评价值,q*(st+1,at+1,w*)表示所述目标评价值,r(st,at)表示所述当前次训练对应的奖赏值,l(w)为所述损失函数。

15、在一些可选的实施例中,所述目标评价值在预设的经验池中抽取得到,所述经验池中的经验被抽取的概率满足:

16、

17、

18、其中,rank(j)表示所述经验池中的第j条经验在所述经验池中的绝对值顺序,p(j)表示所述经验池中的第j条经验被抽取的概率。上式定义的抽取概率(采样概率)有助于在选择经验时加入随机因素,即使是经验池中绝对值顺序较低的经验也有可能被抽取到,从而保证了抽样经验的多样性,这种多样性有助于防止网络过度拟合。

19、在一些可选的实施例中,所述在所述调整值的波动幅度小于预设阈值的情况下,基于所述估计位置进行点云配准,确定所述目标机器人的实际初始位置,包括:根据所述调整模型本次输出的调整值和所述调整模型前一次输出的调整值,确定所述调整模型输出的调整值对应的波动幅度;获取所述调整模型连续k次输出的调整值对应的波动幅度,所述k为大于1的整数;判断所述调整模型连续k次输出的调整值对应的波动幅度是否均小于预设阈值;若所述调整模型连续k次输出的调整值对应的波动幅度均小于所述预设阈值,则基于所述估计位置进行点云配准,确定所述目标机器人的实际初始位置;若所述调整模型连续k次输出的调整值对应的波动幅度至少有一个大于或等于所述预设阈值,则基于所述调整模型本次输出的调整值,更新所述估计位置。在连续k次输出的调整值对应的波动幅度均小于预设阈值的情况下,确认估计位置较为准确,再进行点云配准,可以进一步保证机器人初始定位的准确性和稳定性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1