一种基于视觉自注意力的多传感器目标检测方法

文档序号:33701548发布日期:2023-03-31 19:32阅读:52来源:国知局
一种基于视觉自注意力的多传感器目标检测方法

1.本发明属于目标检测技术领域,具体涉及一种基于视觉自注意力的多传感器目标检测方法。


背景技术:

2.目标检测是计算机视觉领域最重要也是最具有挑战性的分支之一,其广泛应用于自动驾驶,智慧医疗,监控安全等领域。过去几十年中,基于卷积神经网络的目标检测取得了许多重大进展。
3.目标检测的目的是确定图像中所有目标的类别和位置,是自动驾驶领域要解决的核心问题之一。这里将其分为基于锚的检测器和无锚的检测器。基于锚的检测器可以分为两类:二阶段方法和单阶段方法,通常二阶段的算法精度高于一阶段算法,但速度慢于一阶段算法。二阶段算法主要由两个阶段组成:1)从图像中生成区域建议,2)从区域建议中生成最终的检测框,其代表性工作主要有rcnn,sppnet,faster rcnn,fpn等。而一阶段算法不需要生成区域建议的阶段,因此它的检测速度更快。其代表性工作主要有yolo系列,ssd,retinanet等。无锚检测器摈弃了锚,通过确定关键点的方式检测目标,从而减少了网路超参数的数量。cornernet是这一类检测器的开山之作,将对目标边界框的检测转化为对一对关键点(检测框的左上角和右下角)的检测。另外,centernet,fsaf,fcos等工作也对这一路线进行了探索。其中,centernet的整体网络结构设计轻便简单,这使得该网络对算力和实时性有限制的应用场景更具优势。
4.以上现有的目标检测算法都是仅基于视觉的,自动驾驶领域对目标检测的准确性要求极高,因为其检测错误带来的结果往往是不可接受的。多传感器融合感知是自动驾驶的必然趋势,其旨在融合多传感器的信息,提高整体系统的准确性。显然,多传感器的使用会使需要处理的信息量大增,这些信息可能是冗余的,甚至可能是相互矛盾的。因此,如何有效融合多模态的信息是一个待解决的难点之一。另外,目前学界的研究大多集中于融合激光雷达和图像,而早就部署于车辆并广泛应用于自适应巡航和自动紧急刹车系统的毫米波雷达却被忽视。在本发明的技术方案的实现过程中,发明人发现:虽然毫米波雷达的点云相比于激光雷达点云高度稀疏,但其具有探测距离远,受天气影响小等优点,使其仍然具有吸引力,并且非常具有研究空间。如何融合高度稀疏的点云与图像也成了另一研究难点。
5.目前融合毫米波雷达和图像的方法都基于卷积神经网络,而卷积神经网络存在固有的归纳偏置,使其虽然易于训练,但网络上限较低。而视觉自注意力模型引入了较少的归纳偏置,使其天然的可以处理多种模态的信息,目前在文本,语音,图像,点云等领域都有了应用。但目前对于利用视觉自注意力模型融合多模态的信息仍处于初步探索阶段。


技术实现要素:

6.本发明提供了一种基于视觉自注意力的多传感器目标检测方法,不同于使用视觉自注意力模型处理单一模态的信息,本发明使用视觉自注意力模型来融合毫米波雷达和图
像,以实现更高效的融合。
7.本发明采用的技术方案如下:
8.一种基于视觉自注意力的多传感器目标检测方法,所述方法包括:
9.步骤1,设置并训练基于视觉自注意力的多传感器目标检测网络;
10.所述基于视觉自注意力的多传感器目标检测网络包括:基于残差网络的编码器1和编码器2,编码器1和编码器2的后端分别连接一个第一重塑网络,两个第一重塑网络的输出送入基于视觉自注意力模型的融合模块,基于视觉自注意力模型的融合模块的后端依次连接第二重塑网络、解码器和检测头;
11.其中,
12.编码器1的输入为摄像采集装置采集的图像,用于提取图像特征,编码器2的输入为毫米雷达波输入,用于提取雷达特征;且两个编码器的输出特征图的尺寸相同,均为h
×w×
c,其中,h
×
w表示特征图的图像大小,c表示通道数;
13.第一重塑网络用于将编码器的输出特征图重塑为扁平化的二维补丁标记,第二重塑网络为第一重塑网络的逆操作;
14.基于视觉自注意力模型的融合模块采用全标记融合或者交叉标记融合方式进行融合处理,若采用全标记融合,则对两个第一重塑网络输出的标记按照通道维度进行拼接后,再通过自注意力模块进行融合;若采用交叉标记融合,则通过交叉注意力模块直接对两个第一重塑网络输出的标记进行融合;
15.解码器包括多个上采样模块,用于将不同阶段输出的多尺度特征上采样至相同分辨率,拼接上采样后的各尺度特征,再通过卷积层(优先采用卷积核为1x1的卷积层)将拼接后的特征映射为解码器特征;将所述解码特征送入检测头,以预测热图、偏移和边界框的尺度;
16.将解码其不同阶段上采样后的特征拼接,然后
17.步骤2,将待检测的图像数据和毫米雷达采集的雷达点云图像输入步骤1训练好的基于视觉自注意力的多传感器目标检测网络,基于其输出获取目标检测结果。
18.进一步的,第一重塑网络用于将编码器的输出特征图重塑为扁平化的二维补丁标记具体为;
19.编码器的输出特征图进行均匀分块,得到多个图片块,每个图片块的尺寸表示为p
×
p;
20.将每个图片块展平成一维向量,得到重塑后的扁平化的二维补丁标记,该二维补丁标记的维度为n
×
(p2×
c),其中,表示表示图片块的数量,即产生的补丁的数量,r表示下采样率。
21.进一步的,基于视觉自注意力模型的融合模块采用全标记融合的处理具体为:
22.定义x表示按照通道维度进行拼接后的标记;
23.基于动态位置编码的多头自注意力模块获取多头自注意力表示msa(q,k,v):
[0024][0025]
其中,softmax()表示softmax函数的输出,查询q=xwq,键k=xwk,值v=xwv,分别表示查询q、键k和值v的权重,m和h分别表示嵌入维度和头数,kt
表示键k的转置,d表示查询q的维度,且q、k和v具有相同维度,b表示动态位置编码模块的输出,所述动态位置编码模块以标记之间的坐标距离为输入,输出相对位置编码;
[0026]
根据z=y+mlp(y)得到融合后的多模态特征z,即基于视觉自注意力模型的融合模块的输出特征;其中,y=x+msa(ln(x)),msa()表示多头自注意力模块的输出,mlp()表示多层感知机的输出,ln()表示线性层的输出。
[0027]
进一步的,基于视觉自注意力模型的融合模块采用交叉标记融合的处理具体为:
[0028]
定义x
img
、x
radar
分别表示经第一重塑网络重塑后的图像标记和雷达标记,用图像标记x
img
生成查询q,用雷达标记x
radar
生成键k和值v:q=x
img
wq,k=x
radar
wk,v=x
radar
wv,分别表示查询q、键k和值v的权重,m和h分别表示嵌入维度和头数;
[0029]
根据获取多头自注意力表示msa(q,k,v),其中,k
t
表示键k的转置,d表示查询q的维度,b表示动态位置编码模块的输出,所述动态位置编码模块以标记之间的坐标距离为输入,输出相对位置编码;
[0030]
根据z

=y

+mlp(y

)得到融合后的多模态特征z

,其中,y

=x
img
+msa(ln(q,k,v)),msa()表示多头自注意力模块的输出,mlp()表示多层感知机的输出,ln()表示layer normalization层的输出,即标准化层的输出。
[0031]
进一步的,所述动态位置编码模块的网络结构依次包括:全连接层、归一化层、激活函数层和全连接层。
[0032]
优选的,每个检测头都由3x3的卷积层,激活层以及1x1的卷积层组成。
[0033]
与目前存在的毫米波雷达和图像的融合目标检测方法或纯视觉目标检测方法相比,本发明的有益效果为:
[0034]
1)目标检测的精度优于现有融合目标检测方法以及纯视觉目标检测方法。
[0035]
2)由于毫米雷达的信息的加入,减少了纯视觉方法可能出现的错检和漏检。
附图说明
[0036]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0037]
图1是本发明实施例采用的rcformer网络的结构示意图;
[0038]
图2是本发明实施例采用的基于视觉自注意力模型的融合模块的结构示意图,其中,(2-a)表示全标记融合,(2-b)表示交叉标记融合;
[0039]
图3是本发明实施例采用的动态位置编码模块的结构示意图;
[0040]
图4是本发明实施例采用的解码器模块的结构示意图;
[0041]
图5是本发明实施例中,本发明实施例采用的方式与centernet的可视化对比效果图,其中,(5-1)表示白天场景,(5-2)表示夜晚场景,其中(5-1)和(5-2)中的(a)表示基于纯视觉目标检测网络centernet的检测结果,(5-1)和(5-2)中的(b)表示本发明实施例的rcformer网络的检测结果。
具体实施方式
[0042]
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0043]
考虑到多传感器融合感知是自动驾驶的必然趋势,而目前基于激光雷达和图像的方案存在成本高昂,实时性差的问题。本发明提出了一种基于毫米波雷达和图像的目标检测方案。同时,考虑到视觉自注意力模型由于引入了更少的归纳偏置,使其天然的可以处理多种模态的信息,目前在文本,语音,图像,点云等领域都有了应用。因此,本发明提出利用视觉自注意力模型来融合毫米波雷达和图像的两种方法,从而替代目前常用的基于卷积和元素级相加的特征融合方法,实现更高效的融合。另外,由于驾驶场景下的目标通常目标尺度变化较大,这使得利用多尺度特征进行目标检测至关重要,因此本发明提出了一种融合多尺度特征的解码器结构,结合该解码器结构,本发明设置了一种命名为rcformer的目标检测网络,该检测网络在检测精度上优于现有最优的基于毫米波雷达和图像的方案。即本发明实施例提供的目标检测网络为基于视觉自注意力的多传感器目标检测网络(rcformer),其中包含利用视觉自注意力模型来融合毫米波雷达和图像的两种方法以及融合多尺度特征的解码器结构。
[0044]
本发明中,基于视觉自注意力的多传感器目标检测网络(rcformer)的整体架构如图1所示,包括:基于残差网络的编码器1和编码器2,编码器1和编码器2的后端分别连接一个第一重塑网络,两个第一重塑网络的输出送入基于视觉自注意力模型的融合模块,基于视觉自注意力模型的融合模块的后端依次连接第二重塑网络、解码器和检测头(用于目标对象的检测分类,输出尺寸类别和位置),其中,编码器1的输入为摄像采集装置采集的图像,用于提取图像特征,编码器2的输入为毫米雷达波输入(毫米雷达采集的雷达点云图像,也称雷达像素图),用于提取雷达特征,且两个编码器的输出特征图的尺寸相同;第一重塑网络用于将编码器的输出特征图重塑为扁平化的二维补丁标记序列,第二重塑网络为第一重塑网络的逆操作,即用于将基于视觉自注意力模型的融合模块输出的扁平化的二维标记重塑为特征图的形式,并送入解码器;基于视觉自注意力模型的融合模块可以采用两种融合模式:全标记融合和交叉标记融合,若采用全标记融合,则首先对两个第一重塑网络输出的标记按照通道维度进行拼接后,再通过自注意力模块进行融合;若采用交叉标记融合,则通过交叉注意力模块直接对两个第一重塑网络输出的标记进行融合。
[0045]
具体来说,本发明将雷达点投射到图像上,并在相应的像素位置填充深度,以单通道图表示,其尺寸(h
×
w)与图像相同。考虑到图像通常包含丰富的信息,并且是稠密的,而雷达像素图是高度稀疏的,只在一些像素处有数值,它们的表示有很大区别。因此,使用相同的主干来提取特征将导致性能较差。本发明采用双编码器结构分别提取图像和雷达的特征,通过残差网络resnet实现的。即图像输入和毫米波雷达输入用两个编码网络分别提取特征,作为一种可能的实现方式,本发明实施例中,图像采用resnet-34,毫米波雷达采用resnet-18。其中,34-18表示不同网络层数的resnet。双编码器结构输出相同尺寸的特征图,分别为图像特征(记为x
img
,)和毫米波雷达特征(记为x
radar
,),然后将图像特征和雷达特征分别重塑为扁平化的二维补丁标记序列
其中,c是输入通道的数量,(p,p)是每个二维补丁的分辨率,是产生的补丁的数量,r是下采样率。即重塑后得到的两个标记序列(图像标记和雷达标记)分别来自图像特征和毫米波雷达特征,但具有相同的形状(x
patch
)。然后将图像标记和雷达标记送入基于视觉自注意力模型的融合模块以融合特征(全标记融合是拼接以后输入,交叉标记融合是直接输入)。即对于在基于视觉自注意力模型的融合模块,本发明提出了两种融合方式,分别是全标记融合和交叉标记融合,均以动态位置编码和标记维输入。基于视觉自注意力模型的融合模块输出的标记被重塑为特征图的形式,再并送入解码器。即本发明中,第二重塑网络是第一重塑网络的逆过程,从而实现将2维(n
×
(p2×
c))的标记重塑回3维(h
×w×
c)的特征图形式。考虑到多尺度特征在物体检测中的重要性,目前的方法对多尺度特征分别进行多次预测,但会增加时间和资源。与现有方法不同的是,本发明对不同尺度的特征进行上采样并合并,用合并后的特征来替代原来的单尺度特征进行预测。具体来说,在解码器中串联上采样后的多尺度特征,并使用1x1卷积聚合特征得到解码特征x
dec
,然后将x
dec
送入预测头预测热图、偏移和边界框的尺度。
[0046]
作为一种可能的实现方式,对本发明实施例基于所设置的rcformer网络的具体实现步骤如下:
[0047]
1、利用全标记融合(如图2中的(2-a)所示)来融合毫米波雷达特征和图像特征,得到融合后的多模态特征。
[0048]
1.1、首先将图像特征图x
img
和雷达特征图x
radar
分别通过第一重塑网络重塑为标记,然后将两个分支的所有标记在通道维度上拼接,这可以理解为用雷达特征来扩充图像特征。
[0049]
x=[reshape(x
img
);reshape(x
radar
)](1)
[0050]
其中,x表示拼接后的标记,reshape表示第一重塑网络的重塑操作。
[0051]
1.2、利用自注意力模块来融合特征。
[0052]
y=x+msa(ln(x))(2)
[0053]
z=y+mlp(y)(3)
[0054]
其中,msa表示多头自注意力模块,mlp表示多层感知机,z表示融合后的多模态特征,即msa()表示多头自注意力模块的输出,mlp()表示多层感知机的输出,ln()表示线性层的输出。在多头自注意力模块的计算中,采用相对位置编码,并引入动态位置编码使相对位置编码的计算更灵活,其以两个嵌入之间的坐标距离(δx
ij
,δy
ij
)为输入,输出位置编码b
ij
,其中,下标i,j用于表征两个嵌入。动态位置编码的结构如图3所示,其依次包括:包括全连接层,归一化层、激活函数层和全连接层。
[0055]
使用动态位置编码的多头自注意力表示为:
[0056][0057]
其中,查询q=xwq,键k=xwk,值为可学习的参数,即查询q、键k和值v的权重,c和h是嵌入维度和头数,k
t
表示对k进行转置,d表示,b表示动态位置编码模块的输出。
[0058]
当然,本发明实施例中,交叉标记融合来融合毫米波雷达特征和图像特征,得到融合后的多模态特征,如图2中的(2-b)所示,其具体处理过程为:
[0059]
(1)用图像特征生成查询q,用雷达特征生成键k和值v,q=reshape(x
img
)wq,k=reshape(x
radar
)wk,v=reshape(x
radar
)wv。
[0060]
(2)采用交叉注意力模块对特征进行融合。
[0061]
首先基于式(4)得到使用动态位置编码的多头自注意力表示msa(q,k,v),即图(2-b)中按照前向传播方向的第二个乘法运算的输出;
[0062]
然后,再将得到的msa(q,k,v)经线性层后与重塑后的图像特征x
img
相加得到标记y

,即y

=x
img
+msa(ln(q,k,v)),其中x
img
=reshape(x
img
);
[0063]
最后,标记y

经多层感知机得到融合后的多模态特征z

,即z

=y

+mlp(y

)。
[0064]
2、利用融合多尺度特征的解码器生成具有更好表征能力的解码器特征,然后输入检测头预测热图、偏移和边界框的尺度。
[0065]
2.1、对于解码器不同阶段的输出,通过叠加不同数量的上采样模块将不同阶段的解码器输出上采样至相同分辨率,如图4所示。其中,每个上采样模块依次包括:卷积层,组归一化层,激活函数层和双线性上采样层。
[0066]
x
decup_i
=up(relu(gn(conv(x
dec_i
))))(5)
[0067]
其中,x
decup_i
表示解码器第i个阶段上采样后的特征,x
dec_i
表示解码器第i阶段特征。conv表示卷积层,gn表示组归一化层,relu表示激活函数,up表示双线性上采样层。
[0068]
2.2、将解码其不同阶段上采样后的特征拼接,然后使用1x1的卷积层将拼接后特征映射为最终的解码器特征,如图4所示。
[0069]
2.3、将解码器特征输入不同的检测头,分别为,热力图检测头,偏移检测头和检测框尺度检测头。优选的,本发明实施例中每个检测头都由3x3的卷积层,激活层以及1x1的卷积层组成。
[0070]
本发明实施例中,第一重塑网络的重塑操作具体如下:
[0071]
对原始输入的图片数据h
×w×
c进行均匀分块,得到多个图片块,假设每个图片块的长宽为(p,p),那么图片块的数目可以表示为:n=h
×
w/(p
×
p);
[0072]
然后对每个图片块展平成一维向量,每个向量大小为p
×
p
×
c,从而基于所有图片块的展平后的一维向量得到重塑后的扁平化的二维补丁标记序列,即总的输入变换为:n
×
(p2×
c)。
[0073]
作为一种可能的实现方式,本发明实施例中的训练和测试均采用nuscenes数据集,nuscenes数据集中不仅包含相机和激光雷达数据,也记录了毫米波雷达数据,是为数不多包含毫米波雷达数据的大型数据集。该数据集每个场景时长20秒,其中有40个关键帧,每帧图像的分辨率为1600
×
900。并且nuscenes中包含各种情况下的驾驶场景,如雨天、夜晚等,这也增加了在该数据集上进行目标检测的难度。由于其数据集只提供3d标签,本实施例将其转换为2d标签后剔除一些无目标场景以及标签质量较低的场景。本实施例使用pytorch部署网络,并且在4个nvidiageforcegtxtitanx上训练。本实施例将图像从1600
×
900调整尺寸为1344
×
896进行训练。批大小设置为12,使用adam优化器其学习率为0.000125。
[0074]
如表1所示,本发明实施例实现了41.4%ap(其中,ap表示平均精准度。pr曲线上的精准度值的均值),相比于其基线方法centernet提升了5.2%ap,比biranet提升了3.7%ap。此外,图5显示了本发明实施例与centernet的可视化对比,可见本发明实施例获得了更
好的目标检测性能,这是因为雷达给模型提供了额外的信息,且雷达和图像可以在特征上互补,因此避免了一些基于纯图像的方法可能造成的漏检现象。
[0075]
表1目标检测结果
[0076][0077]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
[0078]
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1