一种基于注意力机制的激光视觉里程计方法

文档序号:37222750发布日期:2024-03-05 15:21阅读:12来源:国知局
一种基于注意力机制的激光视觉里程计方法

本发明涉及一种基于注意力机制的激光视觉里程计方法,属于机器人学与计算机视觉领域。


背景技术:

1、当前,社会对移动机器人、自动驾驶等的需求日益增加,其中的一个核心问题同步定位与地图构建也越来越引起人们的关注。例如,在自动驾驶领域,高精度的定位和地图构建是实现正确的车辆决策和控制的基石,这与人类驾驶有所不同,因为人类可以依靠其高度准确和泛化的感知能力来驾驶车辆,即使没有高精度地图也可以做到这一点。然而,当前的环境感知算法还不能达到人类的水平,特别是在复杂的城市交通和极端天气条件下,这可能会导致算法失效。高精度地图可以提供丰富和超视距的信息,帮助自动驾驶车辆在各种条件下保持正确的行驶路径。因此,确保车辆在地图上的准确定位成为控制其正确行驶的前提条件,里程计技术作为同步定位与地图构建的核心技术,也成为自动驾驶的一个重要组成部分。

2、里程计技术是同步定位与地图构建的核心,是实现准确定位的关键。里程计技术是指搭载特定传感器的主体,在运动过程中建立环境模型,同时估计自身的运动状态。这一技术的实现始于通过传感器捕获周围环境的详细信息,这可以通过多种方式完成,包括使用激光雷达来获取三维点云数据或利用彩色相机来捕捉彩色图像。每种数据采集方法都有其独特的优点和局限性。例如,激光雷达可以提供高精度的距离测量,而彩色相机可以捕捉到丰富的视觉细节。为了充分利用各种传感器的优势并弥补其缺点,多传感器数据融合已成为同步定位与地图构建领域的一个核心研究方向,其目标是实现更高精度的定位和环境建模。


技术实现思路

1、为了克服现有技术存在的不足,本发明目的是提供一种基于注意力机制的激光视觉里程计方法,本发明方法是通过深度学习模型自主学习并提取数据深层次的特征对点云、图像等多传感器的信息进行融合,并通过层级特征提取和注意力机制进行多尺度特征的提取和融合。其中,通道注意力可以选择区分性高的显著特征,并重新加权,赋予它们更大的权重。层级特征提取网络可以检测到不同尺度的特征,并进行空间特征和语义特征的融合,建立具有强语义信息的精细分辨率特征,不会受动态环境、局部遮挡的影响。

2、为了实现上述发明目的,本发明采取的技术方案是:一种基于注意力机制的激光视觉里程计方法,包括以下步骤:

3、步骤1、进行激光雷达和彩色相机的数据融合,在真实场景中,激光雷达与彩色相机可以同步获取一帧三维点云数据和相应的二维彩色图像数据。记p=[x,y,z]t为一帧三维点云数据中的一个激光点,其齐次坐标表示为激光点p投影到像素坐标系下得到与之对应的投影像素点q=[u,v]t,投影过程通过公式(1)进行描述:

4、

5、式中,u、v为投影像素点q在像素坐标系下的坐标,和分别表示单应性矩阵h的行向量,单应性矩阵为激光坐标系到像素坐标系之间的几何映射关系,其中,[r t]为激光雷达和彩色相机的外参矩阵,a为彩色相机的内参矩阵,通过对彩色相机进行标定操作来获得。

6、对真实场景的每一帧三维点云中所有激光点都通过单应性矩阵进行投影,找到与之对应的投影像素点,将激光点进行染色,获取三维彩色点云p={pt|1≤t≤m},m为三维彩色点云的帧数,每一帧三维彩色点云其中,为一帧三维彩色点云中的一个彩色激光点,xi,yi和zi表示投影像素点的三维坐标,ri、gi和bi表示投影像素点的三原色,n为三维彩色点云中彩色激光点的个数。

7、步骤2、进行数据预处理,对三维彩色点云中的边界点和噪声点进行裁剪,进而减小三维彩色点云的数据量,设置的裁剪范围是60×60m2。对于一个彩色激光点满足xi∈[-30m,30m],且yi∈[-30m,30m],则保留这个彩色激光点。对三维彩色点云中不包含关键特征的地面部分也进行裁剪,对于一个彩色激光点满足zi>1.1m,则保留这个彩色激光点。通过最远点采样算法对裁剪后的三维彩色点云进行降采样,进而令不同帧的数据保持整齐。降采样后,每一帧三维彩色点云的数据量为8192。

8、步骤3、构建激光视觉里程计网络,激光视觉里程计网络包含一个层级特征提取子网络、一个位姿预测子网络和一个层级位姿优化子网络。激光视觉里程计网络的输入为三维彩色点云p,激光视觉里程计网络的输出为四元数h=[a,b,c,d]t和平移向量t=[tx,ty,tz]t,其中,a是四元数的实部,b,c,d是四元数的虚部,tx,ty,tz分别是平移向量t在x,y,z轴上的三个分量。具体包括以下子步骤:

9、(a)构建层级特征提取子网络,提取原始相邻两帧三维彩色点云在不同层特征,层级特征提取子网络包含三个结构相同的层。第一层的输入为原始相邻两帧三维彩色点云pt和pt+1以及它们对应的特征ft和ft+1,其中,pt和pt+1的大小都为8192×6,ft和ft+1为空数组。在第一层中,首先采用最远点采样算法对pt和pt+1进行降采样,降采样的点数设置为2048,降采样后得到第一层三维彩色点云和其中,和的大小都为2048×6。然后采用k近邻算法进行分组,找到中的每个彩色激光点在pt中的k个邻点,中的每个彩色激光点在pt+1中的k个邻点,邻点数k设置为32,得到第一层三维彩色点云和的邻域信息和其中,和的大小都为2048×32×6。特征提取过程由多层感知机mlp完成,mlp由输入层、隐藏层和输出层组成。将和的邻域信息和分别输入到三层mlp中,其中,mlp中每一层神经元的个数依次为(8,8,16),mlp中每一层特征的尺寸依次为(2048×32×8,2048×32×8,2048×32×16),然后使用最大池化操作对mlp的输出进行压缩,得到邻域特征和其中,和的大小都为2048×16。将邻域特征和输入到通道注意力模块中,该模块首先将输入的邻域特征和进行全局平均池化操作得到全局特征和其中,和的大小都为1×16,接着自适应确定卷积核的大小l,自适应确定卷积核的过程通过公式(2)进行描述,

10、

11、式中,c是全局特征和的特征通道维度,对于和c都为16,自适应确定的卷积核大小l为2;

12、确定卷积核大小l的值后,进行一维卷积操作得到邻域特征和的特征通道权重和其中,和的大小都为1×16。将特征通道权重和邻域特征逐通道相乘得到输出特征将特征通道权重和邻域特征逐通道相乘得到输出特征其中,和的大小都为2048×16,和为第一层三维彩色点云和的特征,第一层的输出为第一层三维彩色点云和以及它们对应的特征和层级特征提取子网络的第二层和第一层的结构相同,只有部分参数不同。第二层的输入为第一层三维彩色点云和以及它们对应的特征和降采样的点数设置为1024,邻点数k为32,mlp中每一层神经元的个数依次为(16,16,32),第二层的输出为第二层三维彩色点云和以及它们对应的特征和其中,和的大小都为1024×6,和的大小都为1024×32。同样的,第三层的输入为第二层三维彩色点云和以及它们对应的特征和降采样的点数设置为256,邻点数k为16,mlp中每一层神经元的个数依次为(32,32,64),第三层的输出为第三层三维彩色点云和以及它们对应的特征和其中,和的大小都为256×6,和的大小都为256×64。

13、(b)构建位姿预测子网络,计算原始相邻两帧三维彩色点云的相对位姿,位姿预测子网络由特征融合模块和位姿解算模块组成,其中特征融合模块由自注意力模块和mlp组成,自注意力模块的函数通过公式(3)进行描述,

14、

15、式中,a为输出的加权矩阵,k为输入键矩阵,kt为k的转置矩阵,v为键矩阵对应的值矩阵,q为所对应的查询矩阵,d为缩放因子,由查询矩阵q的行向量维度决定。

16、特征融合模块的输入为第三层三维彩色点云的特征和作为键矩阵k和值矩阵v,作为查询矩阵q,其中,k、v和q的大小都为256×64,确定的缩放因子d为64,自注意力模块输出加权矩阵a,其中,a的大小为256×64,然后将a输入到三层mlp中得到第三层三维彩色点云对应的融合特征其中,mlp中每一层神经元的个数依次为(128,128,64),mlp中每一层特征的尺寸依次为(256×128,256×128,256×64),的大小为256×64。

17、位姿解算模块的输入为第三层三维彩色点云和其对应的融合特征将和进行拼接,利用最远点采样和k邻近算法进行降采样和分组得到分组特征其中,降采样的点数设置为64,邻点数k为16,的大小为64×16×70,先将输入到三层mlp,然后对mlp的输出进行最大池化操作,得到编码特征f′,其中,mlp中每一层神经元的个数依次为(128,128,64),mlp中每一层特征的尺寸依次为(64×16×128,64×16×128,64×16×64),f′大小为64×64;再将输入到两层mlp,然后对mlp的输出进行最大池化操作,得到权重w,其中,mlp中每一层神经元的个数依次为(128,64),mlp中每一层特征的尺寸依次为(64×16×128,64×16×64),w大小为64×64。将f′和w对应元素相乘后输入到两个没有隐藏层的全连接层fc中,其中,一个fc的输出层大小为4,用于求解四元数h3,另一个fc的输出层大小为3,用于求解平移向量t3。

18、(c)构建层级位姿优化子网络,逐层提高里程计输出的位姿精度,层级位姿优化子网络包括三层结构相同的位姿优化子网络。第一层位姿优化子网络的输入为第二层三维彩色点云和以及它们对应的特征和四元数h3、平移向量t3和融合特征通过输出位姿h3和t3对进行空间变换得到然后利用步骤3(b)中的特征融合模块对和进行特征融合操作,得到其中,的大小为256×64。将和进行拼接,然后通过三层mlp对拼接结果进行编码得到融合特征其中,mlp中每一层神经元的个数依次为(128,64,64),mlp中每一层特征的尺寸依次为(256×128,256×64,256×64),的大小为256×64。将和进行拼接,然后利用步骤3(b)中的位姿解算模块进行位姿解算操作,得到残差位姿δh2和δt2。通过将残差位姿与四元数h3和平移向量t3相加,得到四元数h2和平移向量t2。第二层和第三层位姿优化子网络与第一层的结构相同。第二层位姿优化子网络的输入为第一层三维彩色点云和以及它们对应的特征和四元数h2、平移向量t2和融合特征输出为融合特征四元数h1和平移向量t1,其中,的大小为1024×64。第三层位姿优化子网络的输入为原始相邻两帧三维彩色点云pt和pt+1以及它们对应的特征ft和ft+1,四元数h1、平移向量t1和融合特征输出为最终的位姿计算结果四元数h和平移向量t。

19、步骤4、训练激光视觉里程计网络,并利用其计算相邻两帧三维彩色点云之间的位姿,将预处理后的三维彩色点云输入到已构建的神经网络中进行训练。在训练过程中,采用adam优化器,其中,第一衰减指数β1和第二衰减指数β2分别设置为0.9和0.999;训练时的批量大小设置为4。网络训练完毕后,使用最终的模型对相邻两帧三维彩色点云之间的位姿进行推断计算,以完成里程计的定位任务。

20、本发明有益效果是:一种基于注意力机制的激光视觉里程计方法,包括以下步骤:(1)进行激光雷达和彩色相机的数据融合;(2)进行数据预处理;(3)构建激光视觉里程计网络;(4)训练激光视觉里程计网络;与现有技术相比,本发明具有以下优点:一是针对传统里程计方法使用单一传感器的局限性,进行激光雷达和相机在数据层的融合以提高里程计的性能。二是基于层级特征提取和注意力机制,实现多尺度特征的提取,建立具有强语义信息的精细分辨率特征,进而实现了高精度的里程计方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1