一种3D目标检测方法及系统

文档序号:37208315发布日期:2024-03-05 14:47阅读:14来源:国知局
一种3D目标检测方法及系统

本发明涉及目标检测,更具体的说是涉及一种3d目标检测方法及系统。


背景技术:

1、随着计算机视觉和人工智能的发展,3d目标检测在自动驾驶和机器人导航和增强现实等各种应用中发挥着至关重要的作用,它能够感知与识别物体和现实世界中的环境。3d目标检测能够生成目标信息的3d边界框,包括目标的中心、大小、方向以及类别等,并能够对物体进行精确定位和分类,有助于全面了解周围环境。3d目标检测器分为不同类型,包括基于激光雷达点云的、基于立体图像的、基于单目图像的和基于多模态的方法。与基于lidar传感器的方法相比,基于更便宜且更易于安装的单目rgb相机显示出巨大的潜力。然而,由于点云所包含丰富的几何结构信息,而单目图像检测器缺乏如此精准的几何结构信息。因此,以点云作为输入的lidar3d目标检测器与基于单目3d图片检测器的性能存在巨大差距。

2、近期,利用激光雷达探测器作为教师模型的知识蒸馏模型为该领域在3d目标检测方面取得了重大进展。如图2(a)和图2(b)所示,一种方法是从繁重且复杂的激光雷达教师模型蒸馏到轻量且简单的lidar学生模型。这些方法缩小了它们之间的精度差距。另一种方法将lidar补充为多视图检测器、双目图像检测器和单目图像检测器。monodistill采用场景级和特征空间中的对象级蒸馏和对象级蒸馏响应空间中的蒸馏。而cmkd(cross-modality knowledge distillation network,跨模态知识蒸馏网络)则直接从lidar模式转移知识,主要从特征和响应两个方面对图像的模态进行提取。这两种蒸馏方法主要强调用于3d物体检测的特征和响应蒸馏,而忽略了结构关系蒸馏。

3、虽然这些方法提高了3d目标检测的性能,但它们通常在特征级使用特征蒸馏或响应蒸馏。然而,在某些情况下,仅考虑特征可能是不够的,特别是当数据之间存在某些关系,比如连接或依赖关系时。此时,考虑结构关系的蒸馏可以更好地捕捉特征之间的关系和相互作用。特别是,由于非刚体物体的变形性、可塑性等特性(见图1(a)、图1(b)所示刚体物体和非刚体物体),仅在特征层面进行蒸馏,学生模型不足以学习到深层次的几何结构关系,这使得以往的蒸馏方法对于样本中的一些非刚体物体(如骑自行车的人和行人)来说很困难。

4、因此,如何提供一种3d目标检测方法及系统对复杂场景中3d目标(尤其是非刚性物体)进行精确检测是本领域技术人员亟需解决的问题。


技术实现思路

1、有鉴于此,本发明提供了一种3d目标检测方法及系统,采用新颖的高阶结构化关系蒸馏网络(high-order structured relational distillation network,hsrdn)将bev(bird′s eye view,鸟瞰视角)特征级别的几何结构关系从lidar数据传输到单目图像;除了特征蒸馏之外,通过在学习的bev特征上的不同映射函数建立基于激光雷达教师模型的高阶结构关系,通过改进方法将结构关系转移到单目学生模型中;本发明具有高效的感知和识别能力,并能提供高准确性的检测结果。通过蒸馏激光雷达数据到单目图像检测中,以及学习两种数据之间的结构关系,能够实现对道路复杂场景中3d目标的精确检测。

2、为了实现上述目的,本发明采用如下技术方案:一种3d目标检测方法,包括:

3、构建激光雷达教师模型;

4、对所述激光雷达教师模型进行预训练,以点云数据作为输入,得到雷达鸟瞰特征图;

5、构建单目学生模型;

6、以单目图像数据作为所述单目学生模型的输入,提取单目图像的初始图像鸟瞰特征;

7、对所述初始图像鸟瞰特征进行图像鸟瞰特征增强处理,获得单目图像鸟瞰特征图;

8、基于所述雷达鸟瞰特征图和所述单目图像鸟瞰特征图,利用预训练的激光雷达教师模型建立高阶结构关系,使激光雷达教师模型中预先训练的权重被单目学生模型利用;

9、利用所述激光雷达教师模型生成的软标签指导所述单目学生模型的响应,得到目标检测结果。

10、优选的,以点云数据作为输入,得到雷达鸟瞰特征图,包括:

11、对所述点云数据进行体素化处理,分成等量大小的3d体素块;

12、将所述3d体素块输送到稀疏3d卷积主干,通过稀疏3d卷积块将原始体素特征转换到更高维空间,得到lidar体素特征;

13、通过堆叠高度获得雷达鸟瞰特征图。

14、优选的,提取单目图像的初始图像鸟瞰特征,包括:

15、通过卷积神经网络获取图像特征;

16、预测所述图像特征中每个位置的像素级深度,得到深度概率分布;

17、计算所述图像特征与深度概率分布的外积并进行三线性插值运算,得到初始图像鸟瞰特征。

18、优选的,对所述初始图像鸟瞰特征进行图像鸟瞰特征增强处理,包括:

19、将所述初始图像鸟瞰特征分为第一部分和第二部分;

20、所述第二部分通过下分支路径进行卷积运算保留原始空间2d上下文信息;

21、同时,所述第一部分通过上分支路径学习空间深度上下文信息;

22、级联空间2d上下文信息和2d上下文信息,输出单目图像鸟瞰特征图;

23、其中,所述第一部分通过上分支路径学习空间深度上下文信息,包括:对输入x1进行全局信息嵌入操作,将全局空间信息压缩为通道描述符;

24、使用两个fc层用relu和sigmoid函数参数化门机制;利用挤压和激励操作中聚集的信息,捕获空间深度信息。

25、优选的,利用预训练的激光雷达教师模型建立高阶结构关系,包括:

26、对特征级别进行点蒸馏、线蒸馏和面蒸馏;

27、分别得到跨模态的点蒸馏损失、线蒸馏损失和面蒸馏损失;

28、使雷达鸟瞰特征和所述单目图像鸟瞰特征的形状和维度相同。

29、优选的,所述点蒸馏包括:使用均方误差计算跨模态点蒸馏损失;所述点蒸馏损失的计算公式如下:

30、

31、其中,n是特征总数,表示雷达鸟瞰特征,表示单目图像鸟瞰特征;

32、所述线蒸馏包括:在激光雷达教师模型和单目学生模型中测量距离;对教师距离和图像学生距离进行归一化处理;确定跨模态的线蒸馏损失;

33、所述线蒸馏损失定义为:

34、

35、其中,和分别为雷达鸟瞰特征图上的第i个特征和第j个特征;和分别为单目图像鸟瞰特征图上的第i个特征和第j个特征;表示为线蒸馏损失函数;φ(·)是计算欧式距离的函数;

36、其中,k2={(i,j)|i≠j,1≤i,j≤n},l是平滑l1损失,l定义为:

37、

38、所述面蒸馏包括:通过连接三个点,利用在两条直线上测量的角度结构确定表面;计算两条直线间的夹角函数,确定跨模态的面蒸馏损失;

39、所述面蒸馏损失定义为:

40、

41、其中l是平滑l1损失,ψ(·)表示两条直线间的夹角函数;分别为雷达鸟瞰特征图上的第i个,第j个,第k个特征;为单目图像鸟瞰特征图上的第i个,第j个,第k个特征;(i,j,k)∈k3为特征总数;表示为面蒸馏损失函数。

42、优选的,利用所述激光雷达教师模型生成的软标签指导所述单目学生模型的响应,包括:

43、对单目学生模型进行端到端的训练,计算总损失如下:

44、

45、其中,λ为同一尺度下平衡各损耗的超参数;

46、

47、

48、其中,表示为响应蒸馏的损失函数;表示检测头的回归损失函数;表示为检测头的分类损失函数;与分别代表的是激光雷达教师模型提供的软标签和单目学生模型预测的边界盒的参数,属性a∈(x,y,z,h,w,l,θ,c,s),si表示激光雷达教师模型预测的软标签盒的iou置信度得分,将其作为权重,对单目学生模型的预测结果进行加权。

49、优选的,一种3d目标检测系统,包括:

50、第一模型构建模块,用于构建激光雷达教师模型;

51、雷达鸟瞰特征提取模块,用于对所述激光雷达教师模型进行预训练,以点云数据作为输入,得到雷达鸟瞰特征图;

52、第二模型构建模块,用于构建单目学生模型;

53、初始图像鸟瞰特征提取模块,用于以单目图像数据作为所述单目学生模型的输入,提取单目图像的初始图像鸟瞰特征;

54、图像鸟瞰特征增强模块,用于对所述初始图像鸟瞰特征进行图像鸟瞰特征增强处理,获得单目图像鸟瞰特征图;

55、高阶结构化关系蒸馏模块,用于基于所述雷达鸟瞰特征图和所述单目图像鸟瞰特征图,利用预训练的激光雷达教师模型建立高阶结构关系,使激光雷达教师模型中预先训练的权重被单目学生模型利用;

56、结果预测模块,用于利用所述激光雷达教师模型生成的软标签指导所述单目学生模型的响应,得到目标检测结果。

57、经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种3d目标检测方法及系统,基于跨模态的高阶结构关系蒸馏网络,其在训练阶段,构建激光雷达教师模型以及单目图像检测的单目学生模型的蒸馏方法,其主要包括点蒸馏、线蒸馏、面蒸馏和一个图像鸟瞰特征增强模块。通过激光雷达教师模型进行预训练,以点云数据作为输入,根据它去指导单目学生模型。而单目学生模型则使用kitti数据集里的原始图像输入到骨干网络中进行训练,得到生成的回归框和分类类型。本发明使用图像鸟瞰特征增强模块去改进对齐单目学生模型提取的bev特征,使单目学生模型的bev特征更好的对齐激光雷达教师模型的bev特征;然后再进行点线面结构关系蒸馏提取点云中复杂且丰富的结构关系知识,该损失函数可以帮助激光雷达教师模型更好的指导单目学生模型,层层递进向单目学生模型传递结构关系信息;提高了对道路场景中目标检测的效率和准确度。本发明用于在跨模态数据下进行道路场景的3d目标检测。通过将点云数据和单目图像数据进行融合,并学习两种数据之间的结构关系,本发明能够有效地处理视角变化和噪声干扰,提高了3d目标检测的准确性和鲁棒性,本发明的跨模态结构关系蒸馏网络为3d目标检测提供了一种简洁、高效的解决方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1