本说明书涉及目标检测领域,更具体地说,本技术涉及一种基于注意力增强的三维目标检测方法及相关设备。
背景技术:
1、随着计算机视觉算法的兴起,自动驾驶技术得到了快速发展。由于自动驾驶系统需要准确检测出周围环境中的目标位置及方位,以实时感知复杂的环境信息,因此目标检测技术成为了自动驾驶领域中的关键技术。传统的目标检测技术依赖于二维图像数据,其直接从图像中提取目标信息,成本低廉,但由于二维图像只能提供目标在平面内的信息,无法处理目标在车辆前方垂直方向上的信息,这给自动驾驶的安全性带来了隐患。随着硬件技术的进一步发展,激光雷达能够获取目标的精准三维点云空间信息,包括在车前方垂直方向上的坐标和姿态等信息,其有利于提高目标检测性能。因此基于点云数据的三维目标检测技术成为目前自动驾驶领域的主流技术。
2、考虑到实际场景中的点云数据具有稀疏性、无序性、空间分布不均匀等特点。这使得远距离尺寸较小的目标包含的点云信息稀少,其特征不完整导致难以被检测和定位。因此提升三维目标检测网络对复杂场景下的三维目标的检测性能至关重要,其可以有效保证道路交通安全。
技术实现思路
1、在
技术实现要素:
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本技术的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
2、第一方面,本技术提出一种基于注意力增强的三维目标检测方法,上述方法包括:
3、获取训练样本集,输入至三维目标检测网络中,基于上述三维目标检测网络中的主干网络提取上述训练样本集中的点云数据的体素特征,其中,上述主干网络是采用三维稀疏卷积网络构建的;
4、根据上述体素特征利用上述三维目标检测网络中的投影操作、通道空间混合注意力操作和上下文自注意力操作获取通道空间上下文信息增强特征,以获取初始候选框;
5、对上述初始候选框利用上述三维目标检测网络中的体素感兴趣区域池化操作和维度交互注意力操作以获取感兴趣区域增强特征;
6、根据上述感兴趣区域增强特征进行上述三维目标检测网络中的置信度预测操作和框回归分析操作以获取置信度分数和回归残差,并基于上述置信度分数和上述回归残差计算损失值以更新上述三维目标检测网络的参数,获取三维目标检测模型;
7、利用上述三维目标检测模型对待检测样本集进行检测,生成三维目标检测框和三维目标类别信息,完成三维目标检测。
8、在一些实施方式中,上述根据上述体素特征利用上述三维目标检测网络中的投影操作、通道空间混合注意力操作和上下文自注意力操作获取通道空间上下文信息增强特征,以获取初始候选框,包括:
9、根据上述体素特征利用上述三维目标检测网络中的上述投影操作生成鸟瞰图特征;
10、根据上述鸟瞰图特征利用上述三维目标检测网络中的上述通道空间混合注意力操作获取关键通道空间信息增强输出特征,其中,上述关键通道空间信息增强输出特征是基于通道信息重加权特征和空间信息重加权特征进行整合形成的;
11、通过上述体素特征利用上述三维目标检测网络中的上述上下文自注意力操作获取上下文特征;
12、根据上述关键通道空间信息增强输出特征和上述上下文特征获取上述通道空间上下文信息增强特征,以获取上述初始候选框。
13、在一些实施方式中,上述方法还包括:
14、将上述鸟瞰图特征进行上述通道空间混合注意力操作中的第一平均池化操作,获取池化特征;
15、通过上述通道空间混合注意力操作中的多层感知器学习上述池化特征,并采用第一目标激活函数激活以获取通道注意力图;
16、将上述通道注意力图和上述鸟瞰图特征逐元素相乘获取上述通道信息重加权特征。
17、在一些实施方式中,上述方法还包括:
18、将上述鸟瞰图特征进行上述通道空间混合注意力操作中的最大池化操作和第二平均池化操作分别获取第一特征图和第二特征图;
19、将上述第一特征图和上述第二特征图进行上述通道空间混合注意力操作中的拼接操作和卷积操作,并采用第二目标激活函数激活以获取空间注意力图;
20、将上述空间注意力图和上述鸟瞰图特征逐元素相乘获取上述空间信息重加权特征。
21、在一些实施方式中,上述通过上述体素特征利用上述三维目标检测网络中的上述上下文自注意力操作获取上下文特征,包括:
22、将上述体素特征进行上述上下文自注意力操作中的位置更新操作以获得更新点的位置和语义特征;
23、将上述更新点的位置和语义特征利用上述上下文自注意力操作中的自注意力机制来计算更新点之间的语义关联,以获得上述上下文特征。
24、在一些实施方式中,上述对上述初始候选框利用上述三维目标检测网络中的体素感兴趣区域池化操作和维度交互注意力操作以获取感兴趣区域增强特征,包括:
25、对上述初始候选框进行上述三维目标检测网络中的上述体素感兴趣区域池化操作,以获取感兴趣区域特征;
26、对上述感兴趣区域特征进行上述三维目标检测网络中的四种不同的上述维度交互注意力操作以获取四种增强感兴趣区域特征,其中,第一维度交互注意力操作为通道维度、第一空间维度和第二空间维度之间的交互操作,第二维度交互注意力操作为上述通道维度、上述第二空间维度和第三空间维度之间的交互操作,第三维度交互注意力操作为上述通道维度、上述第一空间维度和上述第三空间维度之间的交互操作,第四维度交互注意力操作为上述第一空间维度、上述第二空间维度和上述第三空间维度之间的交互操作,上述通道维度、上述第一空间维度、上述第二空间维度和上述第三空间维度是上述感兴趣区域特征对应的维度信息;
27、对上述四种增强感兴趣区域特征求取平均值以获取上述感兴趣区域增强特征。
28、在一些实施方式中,上述根据上述感兴趣区域增强特征进行上述三维目标检测网络中的置信度预测操作和框回归分析操作以获取置信度分数和回归残差,并基于上述置信度分数和上述回归残差计算损失值以更新上述三维目标检测网络的参数,获取三维目标检测模型,包括:
29、对上述感兴趣区域增强特征采用上述三维目标检测网络中的上述置信度预测操作以获取上述置信度分数;
30、对上述感兴趣区域增强特征采用上述三维目标检测网络中的上述框回归分析操作以获取上述回归残差;
31、根据上述置信度分数和上述回归残差计算上述损失值以更新上述三维目标检测网络的参数,获取上述三维目标检测模型。
32、第二方面,本技术还提出一种基于注意力增强的三维目标检测装置,包括:
33、提取单元,用于获取训练样本集,输入至三维目标检测网络中,基于上述三维目标检测网络中的主干网络提取上述训练样本集中的点云数据的体素特征,其中,上述主干网络是采用三维稀疏卷积网络构建的;
34、第一获取单元,用于根据上述体素特征利用上述三维目标检测网络中的投影操作、通道空间混合注意力操作和上下文自注意力操作获取通道空间上下文信息增强特征,以获取初始候选框;
35、第二获取单元,用于对上述初始候选框利用上述三维目标检测网络中的体素感兴趣区域池化操作和维度交互注意力操作以获取感兴趣区域增强特征;
36、第三获取单元,用于根据上述感兴趣区域增强特征进行上述三维目标检测网络中的置信度预测操作和框回归分析操作以获取置信度分数和回归残差,并基于上述置信度分数和上述回归残差计算损失值以更新上述三维目标检测网络的参数,获取三维目标检测模型;
37、生成单元,用于利用上述三维目标检测模型对待检测样本集进行检测,生成三维目标检测框和三维目标类别信息,完成三维目标检测。
38、第三方面,一种电子设备,包括:存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器用于执行存储器中存储的计算机程序时实现如上述的第一方面任一项的基于注意力增强的三维目标检测方法的步骤。
39、第四方面,本技术还提出一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现第一方面上述任一项的基于注意力增强的三维目标检测方法。
40、综上,本技术实施例的基于注意力增强的三维目标检测方法包括:获取训练样本集,输入至三维目标检测网络中,基于上述三维目标检测网络中的主干网络提取上述训练样本集中的点云数据的体素特征,其中,上述主干网络是采用三维稀疏卷积网络构建的;根据上述体素特征利用上述三维目标检测网络中的投影操作、通道空间混合注意力操作和上下文自注意力操作获取通道空间上下文信息增强特征,以获取初始候选框;对上述初始候选框利用上述三维目标检测网络中的体素感兴趣区域池化操作和维度交互注意力操作以获取感兴趣区域增强特征;根据上述感兴趣区域增强特征进行上述三维目标检测网络中的置信度预测操作和框回归分析操作以获取置信度分数和回归残差,并基于上述置信度分数和上述回归残差计算损失值以更新上述三维目标检测网络的参数,获取三维目标检测模型;利用上述三维目标检测模型对待检测样本集进行检测,生成三维目标检测框和三维目标类别信息,完成三维目标检测。本技术提出的基于注意力增强的三维目标检测方法能有效提升整体的目标检测精度,尤其是能显著提升行人和骑自行车的人这类小目标的检测精度。在检测网络的一阶段,本技术构建了新颖的通道-空间混合注意力模块来探索鸟瞰图特征通道间的相互依赖关系,并突出重要的空间信息,以获取关键通道空间信息增强输出特征。同时,进一步构建了上下文自注意力模块,将编码在体素特征中的目标不同部分之间的空间上下文关联补充给关键通道空间信息增强输出特征,以此来增强目标的过于稀疏的边界点特征。在检测网络的二阶段,本技术构建了维度交互注意力模块,其捕捉由子网格特征聚合的感兴趣区域特征的不同维度之间的内部相关性,得到感兴趣区域增强特征,用于生成精确的目标检测框。
41、本技术提出的基于注意力增强的三维目标检测方法,本技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本技术的研究和实践而为本领域的技术人员所理解。