一种基于自适应体素聚合和多源特征的3D目标检测方法

文档序号:37747167发布日期:2024-04-25 10:34阅读:6来源:国知局
一种基于自适应体素聚合和多源特征的3D目标检测方法

本发明涉及自动驾驶3d目标检测,特别是一种基于自适应体素聚合和多源特征的3d目标检测方法。


背景技术:

1、应用于自动驾驶环境感知中的3d目标检测技术旨在通过激光雷达、相机等传感器获取驾驶场景中周围感兴趣目标的三维坐标信息,并通过机器学习或深度学习对目标进行分类与检测。由于点云数据存在激光点分布不均匀的特性,并且检测场景中通常存在多种尺度和被遮挡的检测目标,因此如何有效的提取稠密和稀疏点云的空间特征,以及融合不同表征状态的点云数据是实现自动驾驶场景中3d目标检测任务的关键。通过在不同尺度特征中采用自适应调整采样半径的方法实现点云体素编码特征的更新,并将鸟瞰视角,体素及单个点云不同表征形式的点云信息进行融合,以此来提升检测精度。

2、现有技术首先将输入点云均匀的划分为特定数量的柱形或体素,然后分别对每个柱形或体素区域内的点云数据进行编码,最后将编码得到的特征输入到解码器中通过回归与分类得到最终的3d检测结果。例如:一种激光雷达3d目标检测方法(申请号:202310239038.3)首先将输入点云均匀的划分为柱型结构作为不同的点云柱,然后通过将不同点云柱各自的全局特征和高维特征拼接作为该点云柱的融合特征,并通过该融合特征得到点云图像的伪图像,最终通过多层感知机解码得到3d检测结果。此外,基于点柱的二阶段多注意力机制3d点云目标检测方法(申请号:202211104980.0),首先将输入点云体素化为均匀的体素,然后对点云体素进行二阶段注意力机制处理得到对应的伪图像、并进一步使用卷积对其进行编码,最后解码得到检测结果。但是在复杂多变的交通场景中,仅使用一种尺度或一种点云表征形式的激光数据进行空间特征提取的方法往往是不充分的。主要原因有:

3、1、实际交通场景中,由于点云数据存在激光点分布不均匀的现象,只依据一种尺度的点云空间特征无法有效的提取真正有效的显性特征信息,从而使得在检测场景发生点云密度变化时,3d检测模型的检测精度会发生一定的下降。

4、2、由于检测场景中的待检测物体通常会具有多种尺度,并存在空间上的遮挡现象,因此只使用单个点云柱或体素一种表征形式的激光数据不能够同时得到不同粒度的几何特征信息。


技术实现思路

1、为解决现有技术存在的上述问题,本发明要设计一种能在不同密度的激光点云场景下均能提取有效的点云空间特征,同时基于不同粒度的几何特征信息解决由于检测目标多尺度所引起的检测精度下降问题的基于自适应体素聚合和多源特征的3d目标检测方法。

2、为了实现上述目的,本发明的技术方案如下:一种基于自适应体素聚合和多源特征的3d目标检测方法,包括以下步骤:

3、步骤1.获取交通场景激光雷达点云数据,记每个激光点云p=(x,y,z,i),其中x、y、z分别代表检测目标的空间x、y、z坐标值,i代表反射强度。

4、步骤2.基于最远点采样方法采样得到表征当前点云输入全局信息的部分点云作为关键点。

5、步骤3.按照x、y、z三个坐标轴的裁剪范围将当前点云进行裁剪,得到感兴趣区域的点云,并将裁剪后的点云均匀的划分为特定大小的体素;

6、步骤4.逐个遍历所有体素,当体素内点云数量不为0时,计算所有点云的平均x、y、z坐标和平均反射强度作为该体素编码特征。当体素内点云数量为0时,则分别检索该体素上下左右四个相邻体素,并计算四个相邻体素编码特征的平均值作为该体素编码特征。

7、步骤5:使用四个稀疏3d卷积模块采用串联的方式以体素编码特征作为输入,分别得到四种下采样尺度的高维空间特征,四种下采样尺度分别为1倍、2倍、4倍、8倍。

8、步骤6:使用步骤5得到的不同尺度点云体素高维空间特征作为输入,输入到采样半径预测模块中,以此确定用于点云体素聚合更新操作中采样半径。

9、步骤7:针对不同尺度的点云体素编码特征,依据关键点和不同的采样半径对不同的体素编码特征进行聚合更新,实现依据点云数据分布疏密通过自适应调整采样半径来更有效的提取输入点云的复合空间特征。

10、步骤8:将8倍下采样尺度的体素特征进行高度压缩操作,即将其投影到x-y平面上,得到8倍下采样尺度的体素特征转换为鸟瞰视角编码特征。

11、步骤9:将8倍下采样尺度体素的鸟瞰视角编码特征,聚合更新后的4种不同下采样尺度的体素特征,以及输入点云的关键点信息利用交叉注意力进行融合,得到具有多种表征方式的多源混合特征。

12、步骤10:将8倍下采样尺度体素的鸟瞰视角编码特征输入到区域提议框生成模块中,得到初始3d区域提议框。

13、步骤11:将多源混合特征和初始3d区域提议框输入到由多层感知机构成的细化更新模块中,对初始3d区域提议框的几何信息进行细化更新并对其类别进行分类,得到最终的3d目标检测结果。

14、进一步地,步骤3所述x、y、z三个坐标轴的裁剪范围如下:x坐标轴的裁剪范围为-40m~40m,y坐标轴的裁剪范围为0m~70m,z坐标轴的裁剪范围为-1m~3m。

15、进一步地,步骤4所述体素编码特征计算方法如下:

16、当体素内点云数量不为0时:

17、

18、式中,vx代表该体素的重心x坐标,vy代表该体素的重心y坐标,vz代表该体素的重心z坐标,vi代表该体素的体素反射率,代表该体素内点云i的的反射率,代表该体素内点云i的x坐标,代表该体素内点云i的y坐标,代表该体素内点云i的z坐标voxelf代表体素的编码特征,n代表当前体素中激光点云的数量,concate()代表向量拼接操作。

19、当体素内点云数量为0时:

20、

21、式中,代表当前体素左边相邻体素的编码特征,代表当前体素右边相邻体素的编码特征,代表当前体素上方相邻体素的编码特征,代表当前体素下方相邻体素的编码特征。

22、进一步地,步骤5所述四种不同下采样尺度的高维特征的计算公式如下:

23、f1=spconv(voxelf)    (4)

24、f2=spconv(spconv(voxelf))    (5)

25、f4=spconv(spconv(spconv(voxelf)))   (6)

26、f8=spconv(spconv(spconv(spconv(voxelf))))    (7)

27、式中,f1代表下采样1倍体素特征,f2代表下采样2倍体素特征,f4代表下采样4倍体素特征,f8代表下采样8倍体素特征,spconv代表稀疏卷积操作。

28、进一步地,步骤6所述采样半径计算方法如下:

29、首先根据所有关键点的空间坐标信息,通过计算关键点和其周围不同相邻体素的空间欧式距离;然后选取空间欧式距离最短的8个相邻体素,将这8个相邻体素的编码特征输入到由softmax模块和多层感知机组成的采样半径自适应选择模块。其中sofmax模块输出维度为1×5,5代表预定义的5类采样半径,5类采样半径分别为0.4m和0.6m、0.4m和0.8m、0.8m和1.2m、1.2m和2.4m、2.4m和4.8m,其中每类采样半径包含两种尺度的采样半径。具体计算公式如下所示:

30、

31、rsampling

32、=softmax(mlp(concat(f1,f2,f4,f8)))  (9)

33、式中,f1代表下采样1倍体素特征,f2代表下采样2倍体素特征,f4代表下采样4倍体素特征,f8代表下采样8倍体素特征,deuclid代表空间欧氏距离,pkix代表第i个关键点的空间x坐标,pkiy代表第i个关键点的空间y坐标,pkiz代表第i个关键点的空间z坐标,vsjx代表尺度s下体素j的空间x坐标,vsjy代表尺度s下体素j的空间y坐标,vsjz代表尺度s下体素j的空间z坐标,mlp代表多层感知机,concate()代表向量拼接操作,rsampling代表采样半径自适应选择模块所选择的采样半径,softmax代表逻辑回归函数softmax模块,其计算公式如下所示:

34、

35、进一步地,步骤7所述提取输入点云的复合空间特征方法如下:

36、首先逐渐遍历每个关键点,然后计算关键点的空间坐标和不同尺度下的体素的欧式距离,当该距离小于该尺度下的采样半径时,则将该体素选为感兴趣体素。然后将每个关键点的依据不同采样半径采样得到的体素特征与该点云关键点特征进行拼接得到聚合体素特征,并在该拼接元素的通道维度上进行最大池化,以此使得聚合得到的体素特征具有相同的数据维度。具体公式如下:

37、fpv=poolingmax(concat(s(vf,vkp)))    (11)

38、式中,poolingmax代表最大化池化操作,fpv代表复合空间特征,s(vf,vkp)代表特定关键点和其依据采样半径得到的感兴趣体素的集合,其中vf代表感兴趣体素特征,vkp代表点云关键点特征,concate()代表向量拼接操作。

39、进一步地,步骤9所述多源混合特征的计算方法如下:

40、首先将通过fps采样得到的2048个关键点进行拼接得到维度为2048×2的矩阵向量作为表征原始点云空间分布特征的关键点特征frawkey,将该关键点特征输入到全连接层中完成非线性变换。然后将非线性变换后的关键点特征frawkey、由8倍下采样尺度体素特征得到的鸟瞰视角编码特征和复合空间特征利用交叉注意力模块得到具有不同表征视角的多源混合特征。

41、与现有技术相比,本发明具有以下有益效果:

42、1、由于本发明在对点云体素聚合更新时采用了依据不同尺度的体素特征自适应更新采样半径,从而在出现不同点云密度时依然能够提取有效空间特征,提升检测的鲁棒性。

43、2、由于本发明在编码过程中分别融合了多种尺度点云体素特征、原始点云特征以及鸟瞰视角的点云特征三种不同表征方式的多尺度多源特征,能够在检测多尺度目标和存在遮挡现象目标时依然能够取得较高的检测精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1