本发明属于目标检测,尤其涉及基于深度补全的多模态3d目标检测方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、在现阶段,3d目标检测是智能驾驶、智能制造等领域的重要技术,它利用计算机视觉和深度学习等方法,对环境中的关键目标进行感知和识别。相比传统的2d目标检测,3d目标检测可以预测目标的真实位置和姿态,以及与目标之间的距离信息,从而更好地适应现实世界的环境。该技术通过lidar、相机等传感器,获取数据建立数据集,使用深度神经网络对数据进行特征提取和分类,以及生成三维边界框来预测目标的位置和姿态。同时,它还可以利用获取的数据来计算目标之间的相对位姿,以便进行碰撞检测和避障规划等任务。由上可得,感知数据的丰富程度对于3d目标检测的效果至关重要。
3、目前,lidar和单目rgb相机相配合的数据获取组合是3d目标检测的主流方式,单目rgb相机可以获取场景中丰富的rgb信息和二维信息,lidar可以提供三维信息,然而相对于单目rgb相机,lidar获取的信息往往较为稀疏。lidar获取的三维信息越稠密,其造价往往越高,这无疑大大限制了3d目标检测的性能提升。
4、因此,现有的3d目标检测方法存在lidar获取的深度信息过于稀疏制约3d目标检测准确性的问题。
技术实现思路
1、为克服上述现有技术的不足,本发明提供了基于深度补全的多模态3d目标检测方法及系统,将单目rgb图像信息和l idar深度信息进行结合,利用在图像局部区域同一目标具有相似深度的先验,对l idar获取的深度信息进行稠密化,以实现更加精确的3d目标检测效果。
2、为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
3、本发明第一方面提供了基于深度补全的多模态3d目标检测方法。
4、基于深度补全的多模态3d目标检测方法,包括:
5、获取待检测的rgb图像及对应的3d稀疏深度图;
6、将rgb图像及对应的3d稀疏深度图输入到训练好的3d目标检测网络中,输出目标物的3d检测结果;
7、其中,所述3d目标检测网络,从rgb图像中获取每个像素点的类别标签,基于3d稀疏深度图中像素点的深度信息与类别标签的对应关系,对稀疏深度信息进行补全,生成稠密深度图,对稠密深度图和rgb图像进行融合预测,得到目标物的3d锚框和类别标签。
8、进一步的,所述rgb图像通过单目rgb相机采集,所述3d稀疏深度图通过激光雷达lidar采集。
9、进一步的,所述像素点的类别标签,是采用sam模型对rgb图像进行分割,识别每个像素点的类别标签。
10、进一步的,所述生成稠密深度图,具体为:
11、对rgb图像进行网格划分;
12、对每个网格中像素点的类别标签和深度信息进行对应,得到网格中的类别分布;
13、基于网格中的类别分布,对像素点的深度信息进行补全,得到稠密深度图。
14、进一步的,所述基于网格中的类别分布,对像素点的深度信息进行补全,具体为:
15、针对每种类别在网格中的像素点,利用3d稀疏深度图判断网格中类别是否存在对应的深度信息,如果存在深度信息,则将该深度信息传播到网格中该类别的所有像素点,如果不存在深度,则从3d稀疏深度图中搜索距离网格最近的深度信息,并传播到网格中该类别的所有像素点。
16、进一步的,所述融合预测,基于一种编码-解码结构,在编码阶段,利用四个编码块提取特征图,在解码阶段,利用解码器的输出特征图与编码阶段四个编码块提取的特征进行进一步的融合,得到最终的特征图,基于特征图,预测目标物的3d锚框和类别标签。
17、进一步的,所述3d目标检测网络的训练,基于从类别损失和3d回归两个角度构建的损失函数,具体为:
18、l=lr+ce
19、其中,lr被用于限制预测3d锚框位置点和真实3d锚框位置点之间的误差,交叉熵损失lce被用于最大化融合预测的表现。
20、本发明第二方面提供了基于深度补全的多模态3d目标检测系统。
21、基于深度补全的多模态3d目标检测系统,包括获取模块和检测模块:
22、获取模块,被配置为:获取待检测的rgb图像及对应的3d稀疏深度图;
23、检测模块,被配置为:将rgb图像及对应的3d稀疏深度图输入到训练好的3d目标检测网络中,输出目标物的3d检测结果;
24、其中,所述3d目标检测网络,从rgb图像中获取每个像素点的类别标签,基于3d稀疏深度图中像素点的深度信息与类别标签的对应关系,对稀疏深度信息进行补全,生成稠密深度图,对稠密深度图和rgb图像进行融合预测,得到目标物的3d锚框和类别标签。
25、本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的基于深度补全的多模态3d目标检测方法中的步骤。
26、本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的基于深度补全的多模态3d目标检测方法中的步骤。
27、以上一个或多个技术方案存在以下有益效果:
28、本发明充分利用单目rgb图像的信息,建立局部区域内类别和深度的对应关系,实现对lidar获取的深度信息的补全,可以使得最终的3d目标检测效果实现有效的提升;借助于融合预测,在网络结构中充分挖掘低层特征、中级特征以及高级语义特征,有效用于不同场景下的3d目标检测任务,提高模型的应用能力和使用价值。
29、本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
1.基于深度补全的多模态3d目标检测方法,其特征在于,包括:
2.如权利要求1所述的基于深度补全的多模态3d目标检测方法,其特征在于,所述rgb图像通过单目rgb相机采集,所述3d稀疏深度图通过激光雷达lidar采集。
3.如权利要求1所述的基于深度补全的多模态3d目标检测方法,其特征在于,所述像素点的类别标签,是采用sam模型对rgb图像进行分割,识别每个像素点的类别标签。
4.如权利要求1所述的基于深度补全的多模态3d目标检测方法,其特征在于,所述生成稠密深度图,具体为:
5.如权利要求4所述的基于深度补全的多模态3d目标检测方法,其特征在于,所述基于网格中的类别分布,对像素点的深度信息进行补全,具体为:
6.如权利要求1所述的基于深度补全的多模态3d目标检测方法,其特征在于,所述融合预测,基于一种编码-解码结构,在编码阶段,利用四个编码块提取特征图,在解码阶段,利用解码器的输出特征图与编码阶段四个编码块提取的特征进行进一步的融合,得到最终的特征图,基于特征图,预测目标物的3d锚框和类别标签。
7.如权利要求1所述的基于深度补全的多模态3d目标检测方法,其特征在于,所述3d目标检测网络的训练,基于从类别损失和3d回归两个角度构建的损失函数,具体为:
8.基于深度补全的多模态3d目标检测系统,其特征在于,包括获取模块和检测模块:
9.一种电子设备,其特征是,包括:
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。