一种基于点云数据与图像数据融合的3D目标检测方法与流程

文档序号:29562253发布日期:2022-04-09 01:19阅读:849来源:国知局
一种基于点云数据与图像数据融合的3D目标检测方法与流程
一种基于点云数据与图像数据融合的3d目标检测方法
技术领域
1.本发明属于计算机视觉技术领域,特别涉及一种基于点云数据与图像数据融合的3d目标检测方法。


背景技术:

2.2d目标检测仅需提供目标物体包围框在图片中像素坐标和对应类别的置信度,但无法提供感知环境所需要的全部信息。相比之下,3d目标检测需要根据点云数据、rgb图像和鸟瞰图像等信息,输出空间物体的绝对位置坐标、物体的长宽高尺寸和旋转角度等,从而进行道路规划与决策。随着自动驾驶技术逐渐落地,越来越多的研究团体开始研究3d目标检测,例如国外的google、uber、特斯拉和国内的百度、小鹏等公司,3d目标检测同时也在ar和vr中开始广泛应用,是近几年来计算机视觉领域中备受关注的前沿方向。
3.近年来,深度学习技术取得了长足的进步,其对计算机视觉的影响最为明显。深度学习中的卷积神经网络(cnn),可以从大量数据中提取特征表达,具有很强的表征学习能力,非常适合应用在计算机视觉领域中。然而,3d视觉中的点云数据具有无序性、稀疏性和非结构化等特点,极大地限制了cnn的特征提取能力,由此衍生出了3d-cnn、pointnet/pointnet++、gcn等面向点云的特征提取工具。根据输入数据的类型,3d目标检测框架可分为三大类:
4.1)基于图像的3d目标检测,摄像头采集的2d图像数据包含丰富的细节、纹理、颜色等信息,且能有效利用发展成熟的2d目标检测技术提取场景物体特征。mono3d首先根据地面目标先验知识,在3d空间中用典型的物理大小采样候选边界框,之后将边界框投影在图像平面上,这样就避免了在图像中的多尺度搜索。之后利用语义类别、语义分割、目标形状、环境、位置等多种特征对候选边界框进行评分。3dop由于3d环境中普遍存在遮挡、阴影以及微小物体的存在,导致了不能生成有效的候选区,因此3dop提出了一种高质量的3d候选框生成算法,3dop检测算法,利用rgb-d图像生成点云,并计算出深度图并模拟出点云数据,之后在点云空间区域中进行3d边界框的推理。但图片数据对光照、天气、物体遮挡等外界环境因素极度敏感,且无法获取物体的深度信息,在这些较差的复杂外界环境中,无法有效地从二维图像中获得准确的三维估计。
5.2)基于点云的3d目标检测,在自动驾驶中,更多的是利用像激光雷达这样的高端传感器,因为需要更高的准确率来保证安全性。处理激光雷达数据的困难主要是传感器产生的点云数据是不规则的,即无序的、稀疏的和局部敏感的,这些是由于三维空间的不均匀采样、传感器的有效测距、遮挡和相对姿态造成的,同时点云数量通常很大,这在计算力上提出了挑战。voxelnet将三维点云划分为一定数量的体素(voxel),经过点的随机采样以及归一化后进行局部特征提取,然后经过3d卷积进一步抽象特征(增大感受野并学习几何空间表示),最后使用rpn(region proposal network)对物体进行分类检测与位置回归。
6.3)多模态融合的3d目标检测,rgb图像可以提供细节丰富的高级语义信息,能够对目标物体进行更准确的分类;而点云可以提供更精确的深度信息和空间几何信息,对目标
在空间中的几何信息描述非常准确。为了达到信息互补,提升预测精度可采用多模态融合算法。mv3d网络首先在输入的点云服俯视图中生成具有较高精度3d目标候选框,然后将这些俯视图中的3d目标候选框分解为俯视图候选区、正视图候选区和图像候选区,使用感兴趣区域池化层(region ofinterest pooling)分别与通过卷积网络抽取的3个视角的特征图融合。最后,使用深度融合网络将3个视角的特征图融合,联合预测目标类别和目标3d边界框。
7.上述三类3d目标检测框架存在如下缺陷:lidar传感器价格昂贵,硬件成本过高,且缺乏颜色,纹理信息;纯单目方案缺乏深度信息,预测精度过低;点云数据无序、无规则、稀疏,无法很好地预测远距离、小物体;点云数据量庞大,基于体素网格的方法计算成本大,难以达到实时性要求。


技术实现要素:

8.本发明针对上述现有技术的存在的问题,提供一种基于点云数据与图像数据融合的3d目标检测方法。
9.本发明通过以下技术手段实现解决上述技术问题的:
10.一种基于点云数据与图像数据融合的3d目标检测方法,包括如下步骤:
11.步骤1)、通过完成了联合标定的相机与雷达分别获取图像数据及点云数据;
12.步骤2)、基于图像数据进行2d包围框生成,结合生成的所述2d包围框坐标投影至3d空间,提取点云视锥,并将提取的所述点云视锥中的点云直接输入网络,进行点维度的实例分割;
13.步骤3)、基于点云数据生成3d空间中的分割掩膜并反投影至图像平面,提取分割的所述实例的像素值,将提取的所述像素值的点云数据和图像数据融合,得到彩色点云数据;
14.步骤4)、将不同视角下的所述彩色点云数据输入点云检测网络进行包围框预测得到3d检测包围框。
15.所述步骤3)中分割掩膜反投影的图像平面包括相机直接获取的图像数据以及利用透视变换将所述相机直接获取的图像数据转换得到的俯视图数据
16.所述步骤2)中基于图像数据进行2d包围框生成采用yolo v5框架,保存yolo v5在imagenet上预训练的权重,冻结低维度特征层,在步骤1)中获取的所述图像数据数据集中进行高层特征参数微调。
17.本发明的有益效果为:1)低成本传感器模组:单目相机+4线激光雷达;配合在线标定模块,操作简便,鲁棒性高;2)2d驱动3d,降低点云数据搜索空间,充分利用图像语义信息;3)多视角信息融合,数据源(前)融合,无需改变后端检测框架,3d检测器可灵活切换。
附图说明
18.图1为本发明3d目标检测方法的步骤流程图;
19.图2为单目相机与激光雷达联合标定的准备状态示意图;
20.图3为单目相机与激光雷达联合标定的原理图;
21.图4为视锥提取与实例分割的原理流程图;
22.图5为图像数据与点云数据融合原理流程图。
具体实施方式
23.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.实施例
25.如图1所示,为本发明3d目标检测方法的步骤,具体包括
26.步骤1)、将单目相机、激光雷达保持相对固定的安装,激光雷达采用四线雷达;
27.步骤2)、将单目相机与激光雷达进行联合标定,由于相机、雷达安装位置的差异,需要利用联合标定计算出激光雷达相对于相机的旋转矩阵r、平移向量t,具体为为:
28.首先,参见图2,选取一块不带白边的且小方格大小一样的长方形棋盘格标定板,同时启动左相机和激光雷达;
29.然后,两传感器分别捕捉标定板的二维图像和三维点云;
30.接着,利用matlab完成标定,获取激光雷达与相机之间的旋转平移矩阵。
31.参见图3,根据标定板的不同姿态获取多组图像和三维点云数据;在图像中检测出标定板,并获取标定板的大小,紧接着在三维点云数据中寻找相同大小的点云区域,将点拟合成线构成矩形;并将多组标定板的顶点二维坐标和三维坐标代入下列公式(1):
[0032][0033][0034]
上式(1)中,q是一个大小为3x4的转换矩阵,fx、fy、cx、cy为相机的内参系数,fx、fy表示相机焦距,cx,cy表示相机光轴在图像坐标系上的偏移量,从方程的计算过程可以看出,矩阵中的每个参数都是多个标定内、外参数的复合计算值。通过获取足够数量特征点的对应坐标后,计算出变换矩阵q。
[0035]
利用获取的标定参数,将点云目标换算到以左相机(即单目相机)建立的车辆坐标系下表示,如公式(2)所示:
[0036][0037]
上式(2)中,r、t表示激光雷达和左相机之间的旋转平移矩阵,(xc,yc,zc),(xl,yl,zl)分别表示激光雷达坐标系、相机坐标系下的点云目标中心位置坐标。
[0038]
步骤3)、基于图像数据与云数据提取点云视锥及实例分割,由于点云数据量庞大(数十万,上百万计),在完整的3d点云空间中计算包围框效率低且耗时,此外,点云数据稀疏,小物体(人、自行车)在百米外的点数为个位,检测器难以将其作为输入来预测精确的包
围框,基于此采用方案参见图4,具体为:
[0039]
首先,采用yolo v5框架,保存其在imagenet上预训练的权重,冻结低维度特征层,在实际采集的数据集中进行高层特征参数微调;
[0040]
接着,利用yolo v5进行2d包围框生成,结合2d包围框坐标投影至3d空间,提取点云视锥;
[0041]
最后,基于pointnet++网络,将视锥中的点云直接输入网络,进行点维度的实例分割,yolo v5输出的类别信息可作为语义先验。
[0042]
步骤4)、将图像数据与点云数据融合,生成3d检测包围框,视锥提取极大地降低了点云搜索空间,提升了算法效率,但是若直接将点云数据输入3d检测器,忽视了图像中的颜色,纹理等信息,且图像平面的实例分割存在许多前景和遮挡,因此采用方案参见图5,具体为:
[0043]
首先,基于雷达点云生成3d空间中的分割掩膜,同时利用透视变换将图像转换为俯视图,并采用同样的方法聚合坐标(x,y,z)和颜色(r,g,b)值,得到前视图像数据和俯视图像数据;
[0044]
接着,将3d空间中的分割掩膜反投影至前视图像平面和俯视图像,用于提取分割实例的像素值;
[0045]
然后,将点云数据(x,y,z坐标)和图像数据(r,g,b颜色值)融合
[0046]
最后,将不同视角下的彩色点云数据输入点云检测网络进行包围框预测得到最终结果。
[0047]
要说明的是,在本文中,如若存在第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0048]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1