一种跨模态交叉注意力机制的交通目标检测方法及系统

文档序号:36316300发布日期:2023-12-08 03:46阅读:65来源:国知局
一种跨模态交叉注意力机制的交通目标检测方法及系统

本发明属于计算机视觉及自动驾驶智能感知的,涉及一种雷视融合多交通目标检测方法,主要涉及了一种跨模态交叉注意力机制的交通目标检测方法及系统。


背景技术:

1、在城市交通场景中,对自动驾驶汽车周围环境进行探测的多交通目标感知是汽车自动驾驶中的重要前提,通过识别交通信号标志、其他汽车、自行车和行人等目标,以及感知周围物体的距离和速度,从而及时做出判断和反应,能够为后续的智能导航、路径规划等功能模块提供数据支撑。激光雷达和相机作为自动驾驶目标感知领域中两种最常用的传感器,分别提供精确的3d空间信息和丰富的颜色纹理特征。由于传感器自身的限制,激光雷达点云数据本身缺乏具体的语义特征且较为稀疏,远距离或拥堵情况下几乎失效,而相机传感器获取的rgb图像不具备三维空间的深度信息,被动接收反射光导致成像功能对于光照极为敏感,也造成了感知精度的敏感性。

2、依靠单模态方法在遮挡、多尺度变化条件下效率低下且不可靠,为获取更大范围、更精确的环境信息,将两者优势充分结合为城市高密度环境下多交通目标的高精度感知提供了可能。但是,由于rgb图像和点云属于异源异构数据,融合方式的差异直接影响到检测器的性能,如何将这两种数据有效地组合起来仍然具有挑战性。

3、近年来,基于深度学习的感知方法为跨模态数据融合提供了新的解决方案。数据融合方法包括三个层级:数据级、特征级和决策级。目前工业领域应用最多的雷视融合方法是决策级融合,其优势是鲁棒性强,但本质依然是单传感器检测。数据级融合在初始阶段创建依赖于多模态的新数据表征,设计合理的融合方式虽然能够微幅提升感知精度,但要求模态间严格对齐,基于原始数据量的操作也增加了感知推理时间,对于车载颠簸或其他易受震动的场景并不适用。特征级融合介于数据级和决策级之间,实现跨层模态间的特征交互,现有的大多数方法直接采用特征拼接的方式,忽略了噪声干扰对于融合特征质量的干扰,缺乏对特征融合粒度的综合考虑。此外,深度学习本身需要足够数量的丰富样本提取目标的强相关特征,现有的数据增强方法仅针对单模态数据,如何保证多模态数据的连续性,关联数据增强方式,对模型的泛化性能尤为重要。


技术实现思路

1、本发明正是针对当前多源传感器融合目标检测研究中存在的异构数据如何进行特征对齐及融合问题,提供一种跨模态交叉注意力机制的交通目标检测方法及系统,至少包括多模态特征深度融合的3d目标检测网络模型,所述模型包括跨模态数据增强模块、点云分支主干网络模块、图像分支主干网络模块、点云-图像交叉注意力融合模块和检测任务处理模块,本方法及系统分别对点云分支主干网络和图像分支主干网络进行了细粒度特征提取,在点云分支中采用动态体素化和稀疏卷积的方式进一步提升了检测速度,在图像分支中通过跨层连接多层次特征使得图像特征具备了丰富的多尺度信息,该网络提升检测性能的同时,还可以面向遮挡场景和小尺度目标场景实现稳定的目标检测,有效降低了单一传感器感知目标的不准确性,实现了更加准确、鲁棒的检测性能。

2、为了实现上述目的,本发明采取的技术方案是:一种跨模态交叉注意力机制的交通目标检测方法,至少包括多模态特征深度融合的3d目标检测网络模型,所述模型中包括跨模态数据增强模块、点云分支主干网络模块、图像分支主干网络模块、点云-图像交叉注意力融合模块和检测任务处理模块,其中,

3、所述跨模态数据增强模块:依次经过点云数据增强、图像数据增强和图像-点云数据关联后,得到增强后的像素坐标点;

4、所述点云分支主干网络模块:依次经过分组、采样和稀疏卷积特征提取步骤后,通过体素划分法将点云划分到独立的体素中,进行点云特征提取;

5、所述图像分支主干网络模块:包括编码器和解码器,采用resnet与特征金字塔网络结合的方式提取图像特征;

6、所述点云-图像交叉注意力融合模块:用于对齐提取后的点云特征和图像特征进行融合;

7、所述检测任务处理模块:基于中心点的检测头用于目标回归,分别求解中心点位置和目标框几何参数,完成目标检测任务。

8、为了实现上述目的,本发明还采取的技术方案是:一种跨模态交叉注意力机制的交通目标检测方法,包括如下步骤:

9、s1,数据集构建:所述数据集包括点云数据和图像数据,多交通目标感知数据集,采集车载相机与激光雷达的同步数据进行标注和标定,形成点云-图像多交通目标感知数据集;

10、s2,跨模态数据增强:包括点云数据增强、图像数据增强和图像-点云数据关联,

11、所述点云数据增强方法具体为:对点云及其3d包围框内点进行随机旋转、尺度变换和二次随机旋转后,记录该帧点云的id和随机处理参数;

12、所述图像数据增强方法具体为:使用随机旋转、随机翻转和多尺度变换的方法,对图像进行数据增强操作;

13、所述图像-点云数据关联具体为:基于经过点云数据增强保存的数据增强参数,根据变换参数反转所有增强数据,获得3d关键点的原始坐标,根据外部投影参数在相机空间中找到其对应的原始像素坐标,将对应像素坐标点按照图像数据增强的方法进行处理,得到增强后的像素坐标点;

14、s3,点云特征提取:包含分组、采样和稀疏卷积特征提取三个步骤,通过体素划分法将点云划分到独立的体素中,进行点云特征提取;

15、s4,图像特征提取:采用resnet与特征金字塔网络结合的方式来提取图像特征;

16、s5,点云-图像交叉注意力融合:基于图特征的重映射和交叉注意力机制,将对齐提取后的点云特征和图像特征进行融合;

17、s6,检测任务处理:基于中心点的检测头用于目标回归,分别求解中心点位置和目标框几何参数;

18、s7,损失函数计算:所述损失函数包括热力图损失、中心点位置偏移损失、地面高度损失、目标尺寸损失和偏航角正余弦损失,将所有损失合并,可以得到组合loss;

19、s8,训练模型并输出:采用pytorch深度学习框架训练目标检测网络模型,完成目标检测。

20、作为本发明的一种改进,所述步骤s2中的点云数据增强具体包括:

21、s21:设每帧获取的点云数据pi(xi,yi,zi)∈r3,共n个点,其中第k个目标的真实3d包围框bi参数化为其中是中心位置,是长度、宽度、高度,是围绕z轴的偏航旋转;

22、s22:对真实3d包围框及框内点随机旋转,旋转因子为均匀分布的随机变量△θ∈[-π/10,π/10];

23、s23:对全局点云应用尺度变换,将帧内所有点pi(xi,yi,zi)与均匀分布尺度变换因子λ∈[0.95,1.05]相乘,对所有点云进行全局缩小和放大;

24、s24:对全局点云应用随机旋转,将全局旋转应用于所有3d包围框bi和整个点云,全局旋转偏移量为均匀分布的随机变量△γ∈[-π/4,π/4];

25、s25:记录该帧点云的id和随机处理参数,对点云x.pcd顺时针旋转angel°,记为{x,angel°}。

26、作为本发明的一种改进,所述步骤s3具体包括:

27、s31:进行点云分组,给定点云p={p1,p2,…,pn},将n个点分配给大小为k×t×f的缓冲区,其中k为最大体素数,t为体素中的最大点数,f表示特征维度;

28、s32:进行体素采样,引入动态体素化,定义fv(pi)为将每个点pi分配给该点所在的一个体素vj的映射,并将fp(vj)定义为在一个体素vj内收集点的映射,公式表示如下:

29、

30、

31、s33:设计稀疏卷积提取点云特征,采用子流形稀疏卷积submconv3d,仅当感受野中心点位置处于活动状态时才会进行卷积运算,中间三个卷积块的步长设置为2,输入体素特征大小为16×10×1600×1408,子流形稀疏卷积1尺寸为16×10×1600×1408。

32、作为本发明的另一种改进,所述步骤s5具体包括:

33、s51:设图像主干中提取的特征图为z∈rh×w×c,其中h、w、c分别为全局特征图的高度、宽度和通道;

34、s52:添加一个1×1卷积来减少特征维度,创建一个新的特征映射f∈rh×w×d;

35、s53:将f的空间维数变平为一维,得到一个高宽的特征向量;

36、s54:设计注意力机制提取特征,键q和值v从图像特征fi={f1,f2,…,fk}中生成,查询由体素特征p={p1,p2,...,pi}生成:

37、qi=piwq,kj=fjwk,vj=fjwv

38、其中和是线性投影,对于第i个查询qi,根据跨模态查询与键之间的点积相似度计算注意力权重:

39、

40、其中,是一个比例因子,交叉注意机制的输出定义为根据注意权重对所有值的加权和:

41、

42、归一化注意力权值si,j代表了不同空间像素fj和体素pi之间的相似性;

43、s55:设计前馈网络来产生最终的二维图像特征,如公式所示:

44、

45、其中,ffn(·)是单层全连接层神经网络,聚合的图像特征由全连接层处理后,与原始激光雷达点云特征连接,生成主干特征。

46、作为本发明的另一种改进,所述步骤s6具体包括:

47、s61:采用基于热力图的回归方式,取值为y∈[0,1],根据特征图预测出各个目标的中心点位置;

48、s62:设计卷积头输出中心点位置偏移o∈r2、高度h∈r、尺寸s∈r3、偏航角正余弦γ∈r2,结合中心点位置,形成完整3d检测框.

49、作为本发明的又一种改进,所述步骤s7中,

50、采用焦点损失函数来计算整个网络的热力图损失,其中和α和β是超参数,设置为2和4,n是图片中目标的个数;

51、

52、采用smoothl1损失函数计算中心点偏移回归损失值,其中op表示预测的中心点偏移,og表示想学习到的中心点偏移;

53、

54、采用损失函数smoothl1来计算地面高度损失,其中hp表示预测的中心点距离地面高度,hg表示距离地面高度的真实值;

55、

56、采用smoothl1函数计算目标尺寸损失,其中sp为预测目标的长宽高集合、sg为目标真值的长宽高集合:

57、

58、采用损失函数smoothl1计算偏航角正余弦损失,其中γg,γp∈r2包含偏航角的正弦值和余弦值,分别代表预测值和真实值:

59、

60、与现有技术相比,本发明具有的有益效果:

61、(1)本发明提出了一种基于跨模态数据增强与交叉注意力机制的雷视融合多交通目标检测方法,借助激光雷达与相机互补的感知优势,实现了交通目标的多尺度检测,克服了遮挡场景和小尺度目标场景容易漏检的问题,有效提升了检测器的鲁棒性;

62、(2)本发明针对多源传感器数据增强过程中特征难以对齐的问题,利用激光雷达与相机之间的标定信息,设计了图像-点云数据关联步骤,保证了数据增强方式下数据的连续性,进而增加了样本的多样性,引导网络学习交通目标强相关的任务,相比于现有的融合方法如pointaugmenting只能处理增强前的数据,所提出的数据关联模块不仅可以对齐不同类型的关键点(例如,体素中心),还可以处理两种模态都得到增强的情况;

63、(3)本发明针对多源传感器融合时出现的异构数据表达困难,从点云和图像的本质出发,动态关注图像像素级特征、点云体素级特征,建立映射关系划定两者的特征邻域,基于特征对其关系聚合特征并进行连接,获得了丰富的多尺度信息,增强了异构数据表达,通过子流形稀疏卷积提升运算速度的同时,极大提升了交通目标的感知精度,与单一传感器或特真正堆叠融合表达的检测方法相比,本发明提出的方法获得了更好的实时性和更精确的检测效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1