单阶段3D点云目标检测方法及装置、计算机设备、介质

文档序号:29157942发布日期:2022-03-08 22:09阅读:98来源:国知局
单阶段3D点云目标检测方法及装置、计算机设备、介质
单阶段3d点云目标检测方法及装置、计算机设备、介质
技术领域
1.本发明涉及一种基于dbscan聚类数据增广的单阶段3d点云目标检测方法及装置、计算机设备、介质,属于计算机软件技术领域。


背景技术:

2.室外点云场景的目标检测与识别是近年来的研究热点,其中目标检测是整个流程的核心部分,其任务是将立体目标从分布不规则、稀疏不均的点云中正确空间定位和识别其类别。随着深度学习的发展,基于点云的3d目标检测方法得到了飞速的进步,受到2d图片中目标检测方法的启发,目前主流的点云3d目标检测方法着重于如何通过主干网络从点云中提取具有表征力而且排布规则的特征,这样可以将适用于2d图片的卷积处理方法直接适用于3d点云特征。将主干网络得到的丰富的语义特征输入到头部网络当中,预测出点云中目标的空间位置和类别,并与3d标签计算相关的损失,给神经网络提供监督信号完成训练。
3.上述传统方案存在以下缺陷:
4.1,现有方法对于近距离、点分布密集的物体检测识别效果较好,而对于远距离、点分布稀疏的物体识别较差。
5.2,点云中的点数量较大,如果全部提取对应的特征,耗费的时间和需要的运算量较大。为了平衡性能和需要的资源,现有的单阶段点云3d目标检测方法,都需要一个采样的过程,现有的方法在编码的过程中只选择了模最大的特征作为候选特征,并没有考虑由于球形采样得到的特征之间存在着丰富的上下文信息,无法得到具有更强表征的语义特征。
6.3,现有方法最后的检测基于高层语义特征,对于识别性能较好,但是由于低层空间特征在卷积过程中损失较多,对于空间位置和旋转方向的预测性能不佳。


技术实现要素:

7.针对现有技术中存在的技术问题,本发明的目的在于提供一种基于dbscan聚类数据增广的单阶段3d点云目标检测方法及装置、计算机设备、介质,其包括一种全新的数据增广方法和一个全新的掩膜采样方法以及一个全新的特征融合模块,进而提升3d点云目标检测的效果。
8.本发明的技术方案为:
9.一种单阶段3d点云目标检测方法,其步骤包括:
10.主干网络的训练阶段:
11.对于训练样本集中的3d点云,数据增广模块对所述3d点云中目标实例与获取所述3d点云的采样传感器距离不同,设置不同的聚类半径参数对所述3d点云进行聚类操作,用立体包围框将同类的点云包含起来得到最小立体包围框并将其放入3d立体框集合db_boxes;计算所述3d立体框集合db_boxes每个最小立体包围框与对应目标实例在点云中真实3d立体框gt_boxes的交并比,交并比大于设定阈值的,则将对应最小立体包围框保存到saved_boxes集合内,以及将对应最小立体包围框内的点从所述3d点云中剔除;然后将所述
saved_boxes集合内的点进行下采样,得到数据增广后的点云数据;
12.所述主干网络对数据增广后的点云数据进行基于球内最远距离采样,并对采样得到的点进行特征提取,将提取的语义特征和空间特征输入所述主干网络的掩膜采样模块;
13.所述掩膜采样模块根据输入的空间特征和语义特征预测每个点的预测分数,然后按照预测分数从高到低完成点采样并输入到所述主干网络的特征融合模块;
14.所述特征融合模块对输入采样点的特征进行解耦处理,得到语义特征和空间信息;将解耦得到的语义特征进行卷积处理得到语义特征的压缩特征并输入到sigmoid函数,得到语义注意力图;将解耦得到的空间信息进行卷积处理得到空间信息的压缩特征并输入到sigmoid函数,得到空间注意力图;将语义注意力图、空间注意力图逐位相加,得到压缩注意力图;将该压缩注意力图与输入采样点的特征逐点相乘得到激活后的特征图;调整输入采样点的特征图维度大小使得其与激活后的特征图维度一致后,逐位相加得到融合特征图;
15.所述主干网络的回归预测网络根据该融合特征图进行预测,得到点云当中目标实例的位置和类别;然后基于预测结果和设定的损失函数对所述主干网络的参数进行更新;
16.应用阶段:
17.将待处理3d点云输入训练后的所述主干网络;所述主干网络对所述待处理3d点云数据进行基于球内最远距离采样,并对采样得到的点进行特征提取,将提取的语义特征和空间特征依次经所述掩膜采样模块、所述特征融合模块进行处理得到一融合特征图;然后所述回归预测网络根据该融合特征图进行预测,得到所述待处理3d点云中目标的位置。
18.可选的,所述掩膜采样模块为特征编码模块和特征解码模块构成的二分类网络。
19.可选的,所述掩膜采样模块将输入的空间特征和语义特征按维度拼接所得特征图输入到特征编码模块中进行下采样,得到不同阶段的下采样特征图;将最后阶段的下采样特征图输入到特征解码模块中进行上采样,将所得阶段的上采样特征图与同阶段的下采样特征图进行拼接后进行后一阶段的上采样,根据最后阶段的上采样特征图与第一阶段的下采样特征图拼接结果预测每个点的预测分数,然后按照预测分数从高到低完成点采样。
20.可选的,所述聚类操作为dbscan聚类操作。
21.可选的,所述特征编码模块包括依次连接的两个3x3卷积单元,其中每个3x3卷积单元后依次连接有批标准化处理单元、线性修正单元、最大池化下采样单元;所述特征编码模块包括两个2x2转置卷积单元以及两个3x3卷积单元,第一2x2转置卷积单元对所述特征编码模块的输入信息进行处理后输入第一3x3卷积单元,第一3x3卷积单元处理后的信息依次经批标准化处理单元、线性修正单元处理后输入第二3x3卷积单元,第二3x3卷积单元处理后的信息依次经批标准化处理单元、线性修正单元处理后输入第二2x2转置卷积单元。
22.可选的,所述采样传感器为激光雷达传感器。
23.可选的,所述回归预测网络为无锚框回归头部网络。
24.本发明还提供一种单阶段3d点云目标检测装置,其特征在于,所述装置包括:
25.数据增广模块,用于对于训练样本集中的3d点云,对所述3d点云中目标实例与获取所述3d点云的采样传感器距离不同,设置不同的聚类半径参数对所述3d点云进行聚类操作,用立体包围框将同类的点云包含起来得到最小立体包围框并将其放入3d立体框集合db_boxes;计算所述3d立体框集合db_boxes每个最小立体包围框与对应目标实例在点云中
真实3d立体框gt_boxes的交并比,交并比大于设定阈值的,则将对应最小立体包围框保存到saved_boxes集合内,以及将对应最小立体包围框内的点从所述3d点云中剔除;然后将所述saved_boxes集合内的点进行下采样,得到数据增广后的点云数据;
26.特征提取模块,用于对数据增广后的点云数据进行基于球内最远距离采样,并对采样得到的点进行特征提取,将提取的语义特征和空间特征输入掩膜采样模块;
27.掩膜采样模块,用于根据输入的空间特征和语义特征预测每个点的预测分数,然后按照预测分数从高到低完成点采样并输入到特征融合模块;
28.特征融合模块,用于对输入采样点的特征进行解耦处理,得到语义特征和空间信息;将解耦得到的语义特征进行卷积处理得到语义特征的压缩特征并输入到sigmoid函数,得到语义注意力图;将解耦得到的空间信息进行卷积处理得到空间信息的压缩特征并输入到sigmoid函数,得到空间注意力图;将语义注意力图、空间注意力图逐位相加,得到压缩注意力图;将该压缩注意力图与输入采样点的特征逐点相乘得到激活后的特征图;调整输入采样点的特征图维度大小使得其与激活后的特征图维度一致后,逐位相加得到融合特征图;
29.回归预测网络,用于根据融合特征图进行预测,得到点云当中目标的位置和类别。
30.本发明还提供一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。
31.本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
32.本发明的优点如下:
33.3d点云目标检测任务中点在空间分布上不规则,不同区域之间点的密度差别大,对于靠近采样传感器的目标,其点的密度大,空间特征表征较好;对于远离采样传感器的目标,其点的密度低,空间特征表征较差,而这部分的目标检测识别不佳是目前3d点云目标检测性能瓶颈所在。本发明提出了一个全新的基于dbscan的数据增广模块,这个模块通过点云聚类得到不同的密度区域类别,由同类别的点集合可以得到对应的最小包围框,然后通过对最小立体包围框内的点云进行下采样操作后模拟远处点云的稀疏分布,提升模型对于点云的鲁棒性。
34.一个基于u-net架构的的掩膜采样模块来完成点云中点的采样。采样后的点不存在传统方法中重复的情况,可以为后续的特征处理提供更多的上下文信息。
35.一个基于压缩-激活架构的特征融合模块,可以更好的融合低层位置信息和高层语义特征。即该模块可以融合空间特征和语义特征,将有利于空间回归的空间特征和有利于识别的语义特征更好的保存下来,为头部网络的3d点云目标检测过程提供更具表征力的特征。
36.实验表明,本发明在kitti数据集上能够取得更优秀的性能,而且本发明可以无缝嵌入到现有的以点云为输入的3d点云目标检测方法中。
附图说明
37.图1为网络结构图。
38.图2为dbscan聚类的数据增广降采样的结果。
39.图3为density-sa模块结构图。
具体实施方式
40.下面结合附图对本发明进行进一步详细描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
41.本文提出了一种基于密度感知的3d点云目标检测方法(density-net),整体结构如图2所示,density-net是一个基于point-net的3d目标检测模型,引入了三个全新的模块:
42.(1)基于dbscan聚类的数据增广模块。
43.(2)基于u-net的掩膜采样模块
44.(3)基于压缩-激活的特征融合模块
45.基于dbscan聚类的数据增广模块:
46.激光雷达是采用旋转的方式,获取不同的距离点返回的激光信号,然后形成一个360度的点云。dbscan聚类数据增广模块根据目标与激光雷达传感器距离不同,设置不同的聚类半径参数来对点云进行聚类操作,然后用立体包围框将同类的点云包含起来得到最小立体包围框,并对框内点集合进行下采样得到数据增广后的点云数据,具体的操作如下:
47.算法:dbscan数据增广
48.输入:
49.dbscan聚类半径radius_scales=[s1,...,s
m1
}
[0050]
聚类半径的缩放系数s1s
m1
降采样系数ds
scales
={ds1,...,ds
m2
},ds∈[0,1],0表示全部删除,1表示点全部保留
[0051]
点云集合p={p1,...,pn}
[0052]
物体在点云中真实3d立体框标签g={g1,....,gn}
[0053]
输出:
[0054]
数据增广后的点云集合c={c1,...,cn}
[0055]
训练流程:
[0056]
(1)将360
°
的点云只保留前景部分(即驾驶员视角),将点云中的点按照距离激光雷达的距离,分别按照(0,20m]、(20m,40m]、(40m+)切分成若干个扇形。
[0057]
(2)将聚类半径radius_scales作为dbscan聚类的半径设置,dbscan中最少聚类点数设置为5,然后进行dbscan聚类操作,获取对应扇形范围内点的聚类信息。根据得到的相同类别的点,构建一个3d立体框,将同类别的所有的点都包围起来,然后即可得到最小立体包围框。如果这个包围框的中心坐标位于当前扇形内,则保留这个最小立体包围框,否则不予保留。对得到聚类点都如上处理后,就可以得到若干个3d立体框集合db_boxes。
[0058]
(3)将从步骤(1)得到3d立体框集合db_boxes逐个和目标实例在点云中真实3d立体框gt_boxes计算二者交并比(即杰卡德系数或称为jaccard系数,jaccard similarity coefficient),杰卡德系数大于0.01,则将这个3d立体框保留到saved_boxes集合内,并将3d立体框内的点从传感器采集的点构成的点云集合中剔除,并且将位于saved_boxes集合内的点按照降采样系数ds
scales
依次完成降采样,然后将降采样后保留的点添加到点云中。
[0059]
(4)这样就得到了数据增广后的点云c,作为模型的输入。点云降采样后的结果可见图1,其中根据dbscan聚类产生的立体框的大小和位置的不同,可以分为总体降采样和部分降采样。通过本方法,可以模拟产生更多的远处实例的点云分布,增多了可以参与训练的样本,提升了模型的鲁棒性。
[0060]
基于u-net的掩膜采样(masksample)模块:
[0061]
为了实现性能和运算代价之间的平衡,需要对点云进行下采样,目前主流的方法是通过构建球内最远距离采样来完成采样,但这种方法对于远距离的点采样效果不好,因为远距离点分布较为稀疏并且数量较少。许多的点在降采样的过程中会被舍弃,这样的处理对于靠近传感器的包含较多的点的目标实例影响较小,但是对于远离传感器,本身包含点较少的目标实例影响较大,有可能最后采样得到的点都不是目标实例对应的点。在主干网络中对采用这种采样方法得到的点进行提取特征操作,得到语义特征和空间特征,这些特征不具有很好的区分力,会降低最后头部网络预测3d立体框位置回归精确度和目标实例点的召回率。
[0062]
在目前的单阶段的3d点云目标检测器中,点采样大多基于球内最远距离采样,这种采样方式首先构建一个半径已知的立体球,对包含在内的点进行最远点采样。在点密集的场景,可以提取到很多不同的具有很好表征能力的点;但是对于点稀疏的场景,点的数量远小于需要的点采样的数量,此时通用处理的方法是重复采样,得到的点表征能力较差。根据统计可知,重复采样这种方式得到的点存在12%的重复,其中属于目标实例的点只占整个采样点的33.28%。
[0063]
本发明基于u-net构建了一个掩膜采样的模块,其整个结构如图1中上半部分网络结构所示,由一个特征编码模块和一个特征解码模块组成的二分类网络,输出的是每个点的是否是3d真实立体框内点的预测分数,然后按照预测分数从高到低完成点采样(即选取预测分数最高的n个点)。掩膜采样模块结构如下:掩膜采样模块数据处理流程:首先将空间特征和语义特征按维度拼接,将得到的新特征图输入到编码器中,编码器由两个3x3卷积组成,每个卷积后面都跟着批标准化(bn)、线性修正单元(relu)、步幅为2的2x2最大池化下采样操作,通过编码器得到了不同阶段下采样的特征图。解码器卷积层由两个2x2转置卷积和3x3卷积单元组成,每个3x3卷积后面跟着批标准化(bn)、线性修正单元(relu),通过解码器得到了不同阶段的上采样特征图。
[0064]
掩膜采样模块的处理流程如下:将空间特征和语义特征进行拼接后作为编码器中3x3卷积的输入,并对输出的特征进行批标准化(bn)、线性修正单元(relu)、步幅为2的2x2最大池操作,重复这个操作两次得到编码器的输出。将编码器的输出特征图作为解码器中2x2转置卷积的输入,将输出的特征与同阶段的编码器特征进行拼接操作(同阶段的特征图宽高和维度信息相同),然后输入到3x3卷积当中得到输出特征,重复这个操作两次得到编码器的输出。最后通过一个1x1卷积映射所需的采样点的数量,然后根据每个候选点的预测分数选择前1024个点。
[0065]
基于残差结构的压缩-激活的特征融合(density-sa)模块:
[0066]
在pointnet++中的集合提取模块中,主要包括三层:采样层,集合层和pointnet层。我们的目标是获取更优的高层语义特征,同时保存更准确的空间特征,这样在分类和位置回归的时候,就可以提供更多的具有区分力的信息。受压缩-激活架构的启发,我们设计
了一个新的基于残差结构的压缩-激活的特征融合提取模块,命名为density-sa,具体结构如图3所示。首先将初始特征中的语义特征和空间信息进行解耦处理,即将点的空间位置信息和点对应的语义信息拆分出来,然后将二者分别输入到1x1卷积当中,得到输出的空间和语义对应的压缩特征,前面提到的每个1x1卷积后面都跟着批标准化(bn)、线性修正单元(relu)操作。然后将空间和语义的压缩特征输入到sigmoid函数当中,分别得到空间注意力图和语义注意力图,对二者逐位相加,得到最终的压缩注意力图。将得到的压缩注意力图和初始特征逐点相乘得到激活后的特征图,再将初始特征输入到1x1卷积当中,调整初始特征图的维度大小使其与激活后的特征图维度一致。最后将这个激活后的特征图与初始特征逐位相加得到最终的融合特征图。
[0067]
本发明的整个流程如下:
[0068]
首先通过激光雷达传感器获取目标实例的激光反射信号,构建点云数据结构。
[0069]
输入的点云经过dbscan聚类增广方法处理,得到数据增广后的点云数据,增加了可用于训练的点云数据。
[0070]
将点云输入到主干网络当中,并用掩膜采样(masksample)模块完成点云的采样。采样后的点云经过基于残差结构的压缩-激活的特征融合(density-sa)模块提取融合后的空间和语义特征输入到无锚框回归头部网络(3dssd cvpr 2020)当中。
[0071]
无锚框回归头部网络预测点云当中3d立体框位置和类别,整个模型通过计算目标物体类别的交叉熵损失(cross entropy)、空间位置平滑l1损失(smooth l1)、目标物体尺寸平滑l1损失(smooth l1)、掩膜采样二分类交叉熵损失(binary cross entropy)、角度回归损失来监督网络的训练。其中角度回归损失如下:
[0072]
l
angle
=lc(dc,tc)+d(dr,tr)
[0073]
首先将360
°
均匀划分成12个区间类别,我们首先预测角度对应的区间类别,然后预测在这个区间中距离中心的距离,即残差。其中dc和dr分别表示预测的角度类别和对应的残差,tc和tr是它们对应的目标值。lc表示交叉熵损失(cross entropy)、d表示空间位置平滑l1损失(smooth l1)。
[0074]
我们进行了广泛的实验,以评估density-net的效果。我们的模型在广泛应用的3d室外自动驾驶目标检测数据集kitti上进行训练,在kitti验证数据集上进行测试。kitti有7481个训练样本,7518个测试样本,其中将7481个训练样本进一步划分为训练集(3712个样本)和验证集(3769个样本)。我们主要评估了模型在汽车类上性能表现,遵循kitti数据集官方评估标准,与真实3d框的空间交并比大于0.7且类别准确则认为正确检测到目标。
[0075]
表1为各个模块对比实验结果
[0076][0077]
表1展示了我们模型各个模块之间的效果对比,结果证明了本发明提出的dbscan聚类数据增广可以增加点云中稀疏低密度区域,模拟远处目标点云分布,提升了模型性能;提出的掩膜采样模块,通过掩膜中数值从高到低排序,完成不重复的点云的下采样;提出的density-sa模块,可以得到优化后的更具区分力的特征。本发明在kitti数据集上可以提升基线的性能,证明了本发明的有效性。
[0078]
表2展示了本发明和其他主流方法在kitti测试数据集上的效果对比,本发明在kitti数据集上的检测结果,可以发现本发明对于远处目标可以准确检测识别。
[0079]
表2为density-net与其他方法在kitti数据集测试集上的性能对比
[0080][0081][0082]
其中,
‘‑’
表示未对此类别进行测试。
[0083]
尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内
容,本发明要求保护的范围以权利要求书界定的范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1