一种基于深度学习的3D目标检测方法

文档序号:35990385发布日期:2023-11-15 22:52阅读:68来源:国知局
一种基于深度学习的3D目标检测方法

本发明涉及自动驾驶方法,具体涉及自动驾驶感知模块的3d目标检测方法,尤其涉及一种基于深度学习的3d目标检测方法。


背景技术:

1、目前基于二维图像的目标检测技术已经非常成熟,已经在现实生活中拥有了广泛的应用,例如人脸识别、工业产品缺陷检测、安全监控等领域。但是二维的图像并不能检测出物体的深度信息,因此二维的目标检测并不能适应一些三维场景,尤其是在自动驾驶领域,目标的三维信息十分的重要。

2、近年来,随着硬件和深度学习的发展,基于深度学习的3d目标检测已经拥有高准确率和检测速度快的优点,已经在各个领域起到了作用,尤其是在自动驾驶领域。目前的汽车已经搭载了高精度激光雷达等传感器,即使是面对恶劣天气,激光雷达仍然能够采集到具有丰富空间信息的点云,因此利用激光雷达点云来进行3d目标检测成为了近年来研究的热点。

3、具有代表性pointnet是由lang等人提出的基于原始点云方法,它利用pointnet来学习在柱状体中组织的点云表示,柱状体是一个在z方向上具有有限空间范围的体素,pointnet可以利用点云所代表的全部信息,对柱子而不是体素的操作,在gpu上计算起来非常高效。

4、此类模型将点云特征转换为二维图像特征的思路优点是检测速度快,但是缺点之一是对于每个柱状体中的点云采用了随机采样,这样会导致一些重要的点云没有被采集到,造成精度损失。另外,特征提取与融合的方法过于简单直接,在将采集后的点云首先通过柱状特征网络压缩成特征图的时候,采取了简单的最大池化方法,因此会丢失很多特征信息,造成目标检测丢失,从而影响检测的准确率。


技术实现思路

1、本发明为了解决对于点云信息进行下采样和特征提取压缩成特征图而造成的重要特征丢失的情况采取了一系列改进方法,以实现对自动驾驶场景中目标检测在保持速度的情况下,能够实现精准定位和分类。

2、本发明认为,点云下采样阶段,密度高区域的点云具有高度相似性,而应该尽可能多的保留密度低区域的点云,这样能够尽可能多的保留远处稀疏点云信息,提高远处目标检测精度。随后通过利用图像降噪和注意力机制的优势,对点云信息提取特征,然后对预处理后的图像与其对应的点云进行高效的特征提取和融合。其中图像预处理步骤优化了图像质量,降低了噪声,为后续的目标检测提供了更好的基础。这一系列改进提高系统的特征提取和融合能力从而获得更高的检测精度。

3、因此,本发明提出以下技术方案,一种基于深度学习的3d目标检测方法,所述方法包括以下步骤:

4、步骤(1)、读取kitti数据集,将kitti数据集分为训练集和测试集,加载训练集训练模型,对加载的训练集中点云数据预处理,使用向量表示每一个点云,划分场景为多个柱状体,使用张量来表示整个场景;

5、步骤(2)、加载步骤(1)中点云场景所对应的图像,对场景中的图像进行灰度化处理,优化处理过程,提高目标检测精度,接着进行均值滤波处理以抑制噪声,改善图像质量;

6、步骤(3)、构建深度学习卷积神经网络,包括柱状提取网络、图像预处理模块、2d特征提取网络和多分支检测头网络;

7、步骤(4)、训练集数据经过前向传播得到深度学习卷积神经网络的输出,计算损失度,反向传播,更新网络参数,得到训练好的神经网络模型;

8、步骤(5)、使用阶段,接收测试集点云数据,将图像送入预训练好的神经网络模型,得到输出相应的目标,计算每一个3d目标位置及类别。

9、进一步,步骤(1)中读取原始雷达点云数据,在场景中按照点云数据所在的x,y轴,将点云数据划分为网格,凡是落入到一个网格的点云数据被视为其处在一个柱状体里;

10、读取柱状体中每一个点云的数据,其中包括点云坐标(x,y,z)和点云的反射强度r,假设每一个柱状体中点云的数量为nsum,那么每个点云的信息可以用d=5的向量来表示,分别为d=(x,y,z,r,l),其中x,y,z,r为点云信息,l为点云柱状体几何中心的相对位置;

11、

12、其中,xp,yp,zp分别表示柱状体的中心点的坐标位置;

13、保留每个柱状体中n个点云,如果n>nsum补零,反之随机抽取点云,具体方法如下:

14、假设每个样本有p个非空的柱状体,某个柱状体网格有nsum个点云数据,随机抽取一个点云i,该点云坐标为i=(x,y,z),设置范围长度d,统计在区间([x-d,x+d],[y-d,y+d],[z-d,z+d])内点云的数量naround,则该点被抛弃的概率为如此循环操作,直至选中n个点云,则每个样本可以用一个(d,p,n)的张量表示。

15、进一步,步骤(2)中,对场景中的图像实行灰度化处理,经过灰度处理后,其色彩变化将被去除,仅保留灰色强度变化趋势;

16、利用灰度模型当中的g(r,r,r),与彩色图像模型当中的rgb(r,g,b)相对应,根据加权平均法,得到三原色所涉权值计算rgb的加权平均值如下:

17、r=(qrr+qgg+qbb)

18、其中,qr表示r的所占权重,qg表示g的所占权重,qb表示b的所占权重;

19、在完成图像的灰度处理后,采用均值滤波法抑制噪声,改善图像质量,将所采集到的图像划分为若干个大小相同的模板,假设其原图像分辨率为x*y,完成均值滤波处理后得到新的滤波图像,其计算过程如下:

20、

21、其中,j(x,y)表示滤波前的图像,k(a,b)表示新的滤波图像,∑∑表示对窗口中所有像素进行求和,m×n是窗口尺寸。

22、进一步,步骤(3)中,步骤(1)获取的样本张量(d,p,n)通过简化后的pointnet网络进行特征提取,转化为张量(c,p,n),通过对张量中柱状体n所在的维度进行最大值池化、平均值池化和随机池化,操作得到三张(c,p)维度的特征图分别为fmax=(c,p),favg=(c,p),fran=(c,p)再将三张特征图进行相加融合ffin=fmax+favg+fran,将p维度分为h和w,即p=h*w,即可得到转换融合后形成(c,h,w)的特征图;

23、将上述特征图划分为多个4*4像素的小特征图,每个小特征图称为一个patch,则上述特征图转化为(16*c,h/4,w/4)的格式,将每一个patch的特征图(16*c,4,4)转化为一维特征向量,那么整个特征图转化为pn个16*c*h/4*w/4的特征向量表示,其中,pn为patch的数量,每个pacth对应的特征向量再加上位置编码向量得到最后要传入注意力特征提取模块的特征向量;其中获取位置编码向量的公式如下:

24、

25、其中,t为每一个patch在特征图中的位置,表示每一个patch所对应的位置向量,dmodel为每一个patch所对应的维度,在这里是指16*c*h/4*w/4,i为位置编号;

26、通过将上述位置编码向量与每个patch对应的向量相加,获取最终要传入注意力特征提取模块的特征向量fpatch=pn*(16*c*h/4*w/4);

27、在注意力特征提取模块中,首先对传入的每一个patch对应的向量进行计算,将每一个patch所对应的向量的组成一个矩阵用x表示,即x=(pn,16*c*h/4*w/4),获取q,k,v,其中:

28、q=x*wq

29、k=x*wk

30、v=x*wv

31、wq,wk和wv是可学习到的线性变换矩阵,将q,k,v通过自注意力公式计算后,便可以获得融合了上下特征的特征向量,总的自注意力公式的计算公示为:

32、

33、其中,dk是q,k矩阵的列数,即向量维度;

34、通过注意力特征提取模块后可以得到与fpatch维度相同的向量,即pn个(16*c*h/4*w/4)特征向量,表示为(pn,16*c*h/4*w/4)的特征矩阵,通过对特征矩阵进行重组获得特征图为(c,h,w)的特征矩阵,最后再通过对特征矩阵进行卷积操作获得新的特征图fpcl=(4c,h/2,h/2);

35、利用2d特征提取网络对步骤(2)处理后的图像进行特征提取,获取图像的特征图的维度为fpicture=(2c,h/2,w/2),获得将上述点云特征fpcl与图像特征fpicture进行特征拼接获得的特征图fmix=(6c,h/2,w/2)送入多分支检测头网络进行训练;

36、多分支检测头网络模块对应传入的特征图fmix分别进行三次下采样操作,得到三种不同规格的特征图,分别对三种特征图进行1*1卷积操作后进行自上而下的上采样特征融合,不同规格的特征图分别负责不同尺寸大小目标的分类预测和回归预测任务,通常最上层的特征图拥有最大的感受野,因此对于大目标拥有更好的分类预测与回归预测效果,中间层负责中号目标体的分类预测与回归预测任务,最下层负责小目标的分类预测与回归预测任务。

37、进一步,步骤(4)中,网络的总的损失函数定义为:

38、

39、

40、

41、lcls=-αa(1-pα)γlogpα

42、其中,l为总的损失函数,lcls为分类的损失函数,lioc为位置的损失函数,ldir为方向分类损失函数;βioc,βcls,βdir分别为位置损失函数的系数,分类损失函数的系数以及方向分类损失函数的系数;p为预测框,g为真实框,iou表示预测框与真实框重叠的比例;p2(p,g)表示预测框与真实框中心点距离的平方,c2指的是两个框的闭包区域的对角线的距离的平方;参数p为样本为正值的概率;aa为权重系数,α,γ为系统的超参数,npos为有效预测框数量。

43、进一步,步骤(5)中,将kitti测试集数据传入训练好的网络模型后,最后针对每个目标,分类预测分支会预测该目标的类型,回归预测分支输出该目标的x,y,z,w,h,l,θ;其中(x,y,z)表示为目标中心点位置,w表示预测框宽,h表示预测框高,l表示预测框长,θ表示预测框的朝向角度。

44、本发明的有益效果在于,与现有技术相比,本发明基于深度学习的3d目标检测方法优点如下:

45、(1)远处物体点云较稀疏,因此点云下采样的时候抛弃了随机采样或者最远点采样的方法。通过概率算法经可能保留远处稀疏点云的信息;

46、(2)使用基于注意力特征提取模块的网络结构进行特征提取,以获得更好融合了上下文信息的特征向量,并且对特征向量进行重塑转化为特征图,以便于后续与图像特征进行融合;

47、(3)在将提取到的点云特征压缩成为特征图时,采用三种不同的压缩方式最后融合,以尽可能保留更多的特征;

48、(4)加入点云特征与对应图像特征的融合,通过图像预处理步骤中的灰度化和均值滤波处理,减少了图像的噪声和色彩变化,有助于提高目标检测的精度;

49、(5)通过采用多分支解耦的检测头,每个分支负责不同尺寸大小的物体,同时回归和分类预测分离开来可以得到更准确的预测模型,同时模型训练收敛速度也越快。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1