一种基于注意机制的点云目标检测方法及系统与流程

文档序号:32435868发布日期:2022-12-06 18:52阅读:46来源:国知局
一种基于注意机制的点云目标检测方法及系统与流程

1.本发明涉及系统环境感知技术领域,具体为一种基于注意机制的点云目标检测方法及系统。


背景技术:

2.基于点云的三维目标检测是自动驾驶和机器人等智能系统环境感知的一个重要环节。随着激光雷达传感器的普及及其在自动驾驶和机器人技术的广泛应用,三维目标检测正受到越来越多的关注。然而,由于激光雷达点云的稀疏性和不规则性,如何高效地进行三维特征提取和精确目标定位如何成为当前三维目标检测算法的挑战。
3.现有技术中,虽然最近深度学习方法在二维图像目标检测任务上取得了突出成果,但是将目标识别算法应用到三维点云数据上,仍面临种种的困难。首先,由激光雷达采集到的三维点云数据规模较大,而且相关的应用场景下对目标检测算法的速度要求较高,这需要很强的计算能力,因此对模型的计算效率提出了要求;其次,二维图像是由一个个排列整齐紧密的像素点构成的。而由于传感器对三维空间的不均匀采样、传感器的有效距离、物体之间的相对姿态和遮挡关系等因素,导致三维点云表现出一定的稀疏性,而且在不同的空间位置上,点的密度变化很大。二维图像是由一个个排列整齐紧密的像素点构成,相比于二维图像,三维点云表现出一定的稀疏性,而且在不同的空间位置上,点的密度变化很大。这是由于传感器对三维空间的不均匀采样、传感器的有效距离、物体之间的相对姿态和遮挡关系等因素所导致的。因此不能将二维目标检测算法直接应用到三维点云数据中,这对三维目标检测算法的设计带来了一定困难。
4.但是,三维目标检测算法主要分为基于点和基于体素的方法,基于点的定位更精确而基于体素的方法效率更高。现有的三维目标检测器大多基于卷积神经网络,通过网络层数的加深来逐层扩大感受野,聚合全局上下文信息。近来已有研究表明,将注意力特征与卷积特征相融合,有助于产生性能更强的模型。


技术实现要素:

5.本发明的目的在于提供一种基于注意机制的点云目标检测方法及系统,以解决上述背景技术中提出的问题。
6.为实现上述目的,本发明提供如下技术方案:一种基于注意机制的点云目标检测方法,所述基于注意机制的点云目标检测方法包括:
7.从二维特征bev图提取上下文特征,并从二维骨干网络提取空间特征;
8.将从二维特征bev图提取的上下文特征与二维骨干网络提取到的空间特征连接后,送入rpn中生成更精确的三维提议框;
9.将特征节点i的特征xi通过线性层,转换为查询query向量qi,同时,将所有特征节点通过线性层,分别提取到的关键词key向量k和价值value向量v;
10.生成一个三维特征图,通过重组操作转化为二维特征bev图;
11.卷积送入rpn中,进行三维提议框的生成。
12.优选的,从二维骨干网络提取空间特征时,通过自注意力机制捕捉当前特征节点和其他所有特征节点的相似度,从而为每一个特征节点i编码全局结构信息;
13.从二维特征bev图提取的上下文特征与二维骨干网络提取到的空间特征连接后,在roi池化模块同样放置了一个msa模块来生成更精准的最终预测结果。
14.优选的,查询query向量qi转换时,当前特征节点i的查询向量为qi,qi与k中所有关键词kj的相似度通过点乘获得,相似度通过softmax函数归一化变成特征权重w
ij
,生成注意力图;
15.节点位置i,j之间的相互作用,r
ij
可由下式表示:
16.r
ij
=w
ij
vj17.其中w
ij
表示特征权重,vj表示特征节点j的价值向量,将这些位置之间的相互作用相加起来就是当前特征节点i的全局上下文向量r
ij
,可由下式表示:
[0018][0019]
优选的,二维特征bev图转换时,三维骨干网络采用了四个卷积块,每个卷积块的卷积核数(输出通道数)分别为16,32,32,64;
[0020]
四个卷积块分别包含1,3,3,3个卷积层,每个卷积块的第一层使用步长为2,卷积核尺寸为(3,3,3)的稀疏卷积层,将输入的三维特征图降采样为原来的一半,再接几个步长为1的子流形卷积层;
[0021]
所有的卷积层后都跟有一个批归一化层和relu层,网络的最后,一个卷积核数为128,步长为(2,1,1),卷积核尺寸为(3,1,1)的输出卷积层进一步压缩z轴的信息,生成一个(w/8,h/8,d/16,128)的三维特征图,通过重组操作转化为(w/8,h/8,d/16
×
128)的二维特征bev图。
[0022]
优选的,三维提议框生成时,二维骨干网络采用了两个卷积块,每个卷积块的卷积核数,输出通道数分别为64和128,这两个卷积块都包含5个卷积层;
[0023]
第一个卷积块步长为1,保持第一个卷积块输出的特征图尺寸与原来输入的特征图的尺寸一样;第二个卷积块的第一个卷积层block 2-1使用步长为2的卷积层,将输入的上一阶段的特征图降采样为原来的一半;
[0024]
对于这两个卷积块输出的特征图,分别使用步长为1和2的反卷积进行上采用并连接;最后通过两个1
×
1卷积送入rpn中,进行三维提议框的生成。
[0025]
一种基于注意机制的点云目标检测系统,所述点云目标检测系统包括提取模块、生成模块、多头自注意力模块、转化模块以及二维骨干网络设计模块;
[0026]
提取模块,用于从二维特征bev图提取上下文特征,并从二维骨干网络提取空间特征;
[0027]
生成模块,用于将从二维特征bev图提取的上下文特征与二维骨干网络提取到的空间特征连接后,送入rpn中生成更精确的三维提议框;
[0028]
多头自注意力模块,用于将特征节点i的特征xi通过线性层,转换为查询query向量qi,同时,将所有特征节点通过线性层,分别提取到的关键词key向量k和价值value向量v;
[0029]
转化模块,用于生成一个三维特征图,通过重组操作转化为二维特征bev图;
[0030]
二维骨干网络设计模块,用于卷积送入rpn中,进行三维提议框的生成。
[0031]
优选的,所述提取模块中,从二维骨干网络提取空间特征时,通过自注意力机制捕捉当前特征节点和其他所有特征节点的相似度,从而为每一个特征节点i编码全局结构信息;
[0032]
生成模块中,从二维特征bev图提取的上下文特征与二维骨干网络提取到的空间特征连接后,在roi池化模块同样放置了一个msa模块来生成更精准的最终预测结果。
[0033]
优选的,所述多头自注意力模块中,查询query向量qi转换时,当前特征节点i的查询向量为qi,qi与k中所有关键词kj的相似度通过点乘获得,相似度通过softmax函数归一化变成特征权重w
ij
,生成注意力图;
[0034]
节点位置i,j之间的相互作用,r
ij
可由下式表示:
[0035]rij
=w
ij
vj[0036]
其中w
ij
表示特征权重,vj表示特征节点j的价值向量,将这些位置之间的相互作用相加起来就是当前特征节点i的全局上下文向量r
ij
,可由下式表示:
[0037][0038]
优选的,所述转化模块中,三维骨干网络采用了四个卷积块,每个卷积块的卷积核数(输出通道数)分别为16,32,32,64;
[0039]
四个卷积块分别包含1,3,3,3个卷积层,每个卷积块的第一层使用步长为2,卷积核尺寸为(3,3,3)的稀疏卷积层,将输入的三维特征图降采样为原来的一半,再接几个步长为1的子流形卷积层;
[0040]
所有的卷积层后都跟有一个批归一化层和relu层,网络的最后,一个卷积核数为128,步长为(2,1,1),卷积核尺寸为(3,1,1)的输出卷积层进一步压缩z轴的信息,生成一个(w/8,h/8,d/16,128)的三维特征图,通过重组操作转化为(w/8,h/8,d/16
×
128)的二维特征bev图。
[0041]
优选的,所述二维骨干网络设计模块中,二维骨干网络采用了两个卷积块,每个卷积块的卷积核数,输出通道数分别为64和128,这两个卷积块都包含5个卷积层;
[0042]
第一个卷积块步长为1,保持第一个卷积块输出的特征图尺寸与原来输入的特征图的尺寸一样;第二个卷积块的第一个卷积层block 2-1使用步长为2的卷积层,将输入的上一阶段的特征图降采样为原来的一半;
[0043]
对于这两个卷积块输出的特征图,分别使用步长为1和2的反卷积进行上采用并连接;最后通过两个1
×
1卷积送入rpn中,进行三维提议框的生成。
[0044]
与现有技术相比,本发明的有益效果是:
[0045]
本发明提出的基于注意机制的点云目标检测方法及系统将即插即用的基于自注意力机制的模块插入三维目标检测器中,通过直接建模来捕捉通道之间的相互关系和位置之间的长范围依赖,从而获得全局结构信息。在kitti数据集上的实验观察到了其相对于基线网络在平均精度以及各项评估指标上的提升,证明了融合注意力机制和卷积神经网络的模型具有一定实用价值。
附图说明
[0046]
图1为插入多头自注意力模块的三维检测网络示意图;
[0047]
图2为多头自注意力模块示意图;
[0048]
图3为三维骨干网络设计示意图;
[0049]
图4为二维骨干网络示意图。
具体实施方式
[0050]
为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白,以下结合附图对本发明实施例进行进一步详细说明。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051]
在本发明的描述中,需要说明的是,术语“中心”、“中”、“上”、“下”、“左”、“右”、“内”、“外”、“顶”、“底”、“侧”、“竖直”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“一”、“第一”、“第二”、“第三”、“第四”、“第五”、“第六”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0052]
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0053]
出于简明和说明的目的,实施例的原理主要通过参考例子来描述。在以下描述中,很多具体细节被提出用以提供对实施例的彻底理解。然而明显的是,对于本领域普通技术人员,这些实施例在实践中可以不限于这些具体细节。在一些实例中,没有详细地描述公知方法和结构,以避免无必要地使这些实施例变得难以理解。另外,所有实施例可以互相结合使用。
[0054]
实施例一
[0055]
请参阅图1至图4,本发明提供一种技术方案:一种基于注意机制的点云目标检测方法,所述基于注意机制的点云目标检测方法包括:
[0056]
从二维特征bev图提取上下文特征,并从二维骨干网络提取空间特征,通过自注意力机制捕捉当前特征节点和其他所有特征节点的相似度,从而为每一个特征节点i编码全局结构信息;
[0057]
将从二维特征bev图提取的上下文特征与二维骨干网络提取到的空间特征连接后,送入rpn中生成更精确的三维提议框,在roi池化模块同样放置了一个msa模块来生成更精准的最终预测结果;
[0058]
将特征节点i的特征xi通过线性层,转换为查询query向量qi,同时,将所有特征节点通过线性层,分别提取到的关键词key向量k和价值value向量v;
[0059]
当前特征节点i的查询向量为qi,qi与k中所有关键词kj的相似度通过点乘获得,相似度通过softmax函数归一化变成特征权重w
ij
,生成注意力图;
[0060]
节点位置i,j之间的相互作用,r
ij
可由下式表示:
[0061]rij
=w
ij
vj[0062]
其中w
ij
表示特征权重,vj表示特征节点j的价值向量,将这些位置之间的相互作用相加起来就是当前特征节点i的全局上下文向量r
ij
,可由下式表示:
[0063][0064]
生成一个三维特征图,通过重组操作转化为二维特征bev图;三维骨干网络采用了四个卷积块,每个卷积块的卷积核数(输出通道数)分别为16,32,32,64;
[0065]
四个卷积块分别包含1,3,3,3个卷积层,每个卷积块的第一层使用步长为2,卷积核尺寸为(3,3,3)的稀疏卷积层,将输入的三维特征图降采样为原来的一半,再接几个步长为1的子流形卷积层;
[0066]
所有的卷积层后都跟有一个批归一化层和relu层,网络的最后,一个卷积核数为128,步长为(2,1,1),卷积核尺寸为(3,1,1)的输出卷积层进一步压缩z轴的信息,生成一个(w/8,h/8,d/16,128)的三维特征图,通过重组操作转化为(w/8,h/8,d/16
×
128)的二维特征bev图;
[0067]
卷积送入rpn中,进行三维提议框的生成,维骨干网络采用了两个卷积块,每个卷积块的卷积核数,输出通道数分别为64和128,这两个卷积块都包含5个卷积层;
[0068]
第一个卷积块步长为1,保持第一个卷积块输出的特征图尺寸与原来输入的特征图的尺寸一样;第二个卷积块的第一个卷积层block 2-1使用步长为2的卷积层,将输入的上一阶段的特征图降采样为原来的一半;
[0069]
对于这两个卷积块输出的特征图,分别使用步长为1和2的反卷积进行上采用并连接;最后通过两个1
×
1卷积送入rpn中,进行三维提议框的生成。
[0070]
实施例二
[0071]
一种基于注意机制的点云目标检测系统,所述点云目标检测系统包括提取模块、生成模块、多头自注意力模块、转化模块以及二维骨干网络设计模块;
[0072]
提取模块,用于从二维特征bev图提取上下文特征,并从二维骨干网络提取空间特征,从二维骨干网络提取空间特征时,通过自注意力机制捕捉当前特征节点和其他所有特征节点的相似度,从而为每一个特征节点i编码全局结构信息;
[0073]
生成模块,用于将从二维特征bev图提取的上下文特征与二维骨干网络提取到的空间特征连接后,送入rpn中生成更精确的三维提议框,从二维特征bev图提取的上下文特征与二维骨干网络提取到的空间特征连接后,在roi池化模块同样放置了一个msa模块来生成更精准的最终预测结果;
[0074]
多头自注意力模块,用于将特征节点i的特征xi通过线性层,转换为查询query向量qi,同时,将所有特征节点通过线性层,分别提取到的关键词key向量k和价值value向量v;
[0075]
查询query向量qi转换时,当前特征节点i的查询向量为qi,qi与k中所有关键词kj的相似度通过点乘获得,相似度通过softmax函数归一化变成特征权重w
ij
,生成注意力图;
[0076]
节点位置i,j之间的相互作用,r
ij
可由下式表示:
[0077]rij
=w
ij
vj[0078]
其中w
ij
表示特征权重,vj表示特征节点j的价值向量,将这些位置之间的相互作用相加起来就是当前特征节点i的全局上下文向量r
ij
,可由下式表示:
[0079][0080]
转化模块,用于生成一个三维特征图,通过重组操作转化为二维特征bev图;三维骨干网络采用了四个卷积块,每个卷积块的卷积核数(输出通道数)分别为16,32,32,64;
[0081]
四个卷积块分别包含1,3,3,3个卷积层,每个卷积块的第一层使用步长为2,卷积核尺寸为(3,3,3)的稀疏卷积层,将输入的三维特征图降采样为原来的一半,再接几个步长为1的子流形卷积层;
[0082]
所有的卷积层后都跟有一个批归一化层和relu层,网络的最后,一个卷积核数为128,步长为(2,1,1),卷积核尺寸为(3,1,1)的输出卷积层进一步压缩z轴的信息,生成一个(w/8,h/8,d/16,128)的三维特征图,通过重组操作转化为(w/8,h/8,d/16
×
128)的二维特征bev图;
[0083]
二维骨干网络设计模块,用于卷积送入rpn中,进行三维提议框的生成;
[0084]
二维骨干网络采用了两个卷积块,每个卷积块的卷积核数,输出通道数分别为64和128,这两个卷积块都包含5个卷积层;
[0085]
第一个卷积块步长为1,保持第一个卷积块输出的特征图尺寸与原来输入的特征图的尺寸一样;第二个卷积块的第一个卷积层block 2-1使用步长为2的卷积层,将输入的上一阶段的特征图降采样为原来的一半;
[0086]
对于这两个卷积块输出的特征图,分别使用步长为1和2的反卷积进行上采用并连接;最后通过两个1
×
1卷积送入rpn中,进行三维提议框的生成。
[0087]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1