一种自适应深度感知视觉关系的检测方法

文档序号:29975499发布日期:2022-05-11 12:03阅读:123来源:国知局
一种自适应深度感知视觉关系的检测方法

1.本发明属于视觉检测技术领域,特别涉及一种自适应深度感知视觉关系的检测方法。


背景技术:

2.在vrd任务中,利用深度信息进行检测的方法很少。由于视觉关系检测中缺乏深度信息,使得网络无法理解实际的三维信息。现有的视觉关系检测数据集缺乏深度数据,且如何利用视觉关系中的深度信息是一个关键问题。为此,本发明提出的深度感知视觉融合模块和自适应深度空间定位方法,充分利用视觉外观和空间位置这两个视觉关系检测的主要因素中的深度信息。


技术实现要素:

3.本发明克服了现有技术的不足之一,提供了一种自适应深度感知视觉关系的检测方法,充分利用视觉外观和空间位置这两个视觉关系检测的主要因素中的深度信息,提高网神经络在视觉关系检测任务中的性能。
4.根据本公开的一方面,本发明提供一种自适应深度感知视觉关系的检测方法,所述方法包括:
5.输入rgb图像到第一深度卷积网络中提取图像视觉特征f
rgb

6.输入所述rgb图像对应的深度图像到第二深度卷积网络中提取图像深度视觉特征fd;
7.利用roi池化层从所述图像视觉特征f
rgb
和所述图像深度视觉特征fd中,提取多个目标对象边界框的图像视觉特征和深度视觉特征;
8.利用所述多个目标对象边界框的视觉特征和rgb图像信息得到所述多个目标对象边界框的平面位置关系特征;
9.利用自适应深度空间定位方法和所述多个目标对象边界框的深度视觉特征得到所述多个目标对象边界框之间的深度位置关系特征;
10.拼接所述多个目标对象边界框的平面位置关系特征和深度位置关系特征为所述多个目标对象边界框的空间位置特征;
11.基于所述多个目标对象边界框的深度视觉特征和图像视觉特征,利用深度感知视觉融合模块得到所述多个目标对象边界框的深度导向的视觉特征;
12.利用全连接层将所述多个目标对象边界框的空间位置特征、深度导向的视觉特征,以及语义特征进行融合,得到融合后的所述多个目标对象边界框的融合特征;
13.将所述多个目标对象边界框的融合特征输入到关系检测器中,得到所述多个目标对象边界框的视觉关系。
14.在一种可能的实现方式中,所述多个目标对象边界框包括:目标边界框bboxs和对象边界框bboxo;
15.在一种可能的实现方式中,所述多个目标对象边界框的平面位置关系特征为:
[0016][0017]
其中,v
so
为所述目标边界框中心点到对象边界框的中心的的矢量,为目标边界框和对象边界框在宽度方向上的尺寸比,为目标边界框和对象边界框在高度方向上的尺寸比。
[0018]
在一种可能的实现方式中,所述利用自适应深度空间定位方法和所述多个目标对象边界框的深度视觉特征得到所述多个目标对象边界框之间的深度位置关系特征,包括:
[0019]
在深度图的目标对象边界框的区域内划分为k1*k1个一级区域xi,其中,i为正整数;
[0020]
将每个所述一级区域划分为k2*k2个二级区域x
ij
,j为正整数;
[0021]
对每个所述二级区域进行平均池化处理,得到每个所述二级区域的深度值,计算每个所述一级区域对应的所有二级区域的深度信息方差和平均值;
[0022]
根据每个所述一级区域内的所有二级区域的深度信息方差和负对数函数计算所述一级区域的深度信息可信度;
[0023]
利用所述softmax函数和所述一级区域的深度信息可信度计算得到所述所述一级区域的深度信息权重;
[0024]
将所述一级区域的深度值和其对应的深度信息权重进行hadamard乘积,得到所述多个目标对象边界框之间的深度位置关系特征,其中,所述一级区域的深度值为所述一级区域内所有二级区域的深度平均值。
[0025]
在一种可能的实现方式中,所述基于所述多个目标对象边界框的深度视觉特征和视觉特征,利用深度感知视觉融合模块得到所述多个目标对象边界框的深度导向的视觉特征,包括:
[0026]
从所述多个目标对象边界框的深度视觉特征中提取指导信息;
[0027]
利用所述深度感知视觉融合模块从所述指导信息中提取与所述多个目标对象边界框的视觉特征相关的指导信息;
[0028]
将与所述多个目标对象边界框的视觉特征相关的指导信息与所述多个目标对象边界框的视觉特征逐个相乘,得到所述多个目标对象边界框的深度导向的视觉特征。
[0029]
在一种可能的实现方式中,所述从所述多个目标对象边界框的深度视觉特征中提取指导信息,包括:
[0030]
基于自我注意单元从所述多个目标对象边界框的深度视觉特征中提取指导信息;
[0031]
所述指导信息为:
[0032]
其中,q,k,v是查询,键和值分支的输入,q=k=v,n是一个标准化因子。
[0033]
在一种可能的实现方式中,所述从所述多个目标对象边界框的深度视觉特征中提取指导信息,还包括:
[0034]
基三线性运算单元从所述多个目标对象边界框的深度视觉特征中提取指导信息;
[0035]
所述指导信息
[0036]
其中,f
depth
为多个目标对象边界框的深度视觉信息。
[0037]
本发明的自适应深度感知视觉关系的检测方法,由深度感知视觉融合模块由深度细化单元和深度感知注意力单元组成,能够将不准确的深度视觉信息与准确的rgb视觉信息融合。通过分区域局部池化操作,在背景噪声和前景噪声的影响下,目标的深度空间位置存在较大的误差时,采用自适应深度空间定位方法,利用区域信息方差度量边界框中每个小区域的信息相关性,充分利用视觉外观和空间位置这两个视觉关系检测的主要因素中的深度信息,提高网神经络在视觉关系检测任务中的性能。
附图说明
[0038]
附图用来提供对本技术的技术方案或现有技术的进一步理解,并且构成说明书的一部分。其中,表达本技术实施例的附图与本技术的实施例一起用于解释本技术的技术方案,但并不构成对本技术技术方案的限制。
[0039]
图1示出了根据本公开一实施例的经过两次锐化的depth vrds的图像示意图;
[0040]
图2示出了根据本公开一实施例的适应深度感知视觉关系的检测方法流程图;
[0041]
图3示出了根据本公开一实施例的适应深度感知视觉关系的检测方法原理框图;
[0042]
图4示出了根据本公开一实施例的深度感知视觉融合模块的原理框图。
具体实施方式
[0043]
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达到相应技术效果的实现过程能充分理解并据以实施。本技术实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本发明的保护范围之内。
[0044]
另外,附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0045]
由于本发明是基于同一幅图像的rgb图像和深度图像进行识别检测的,首先,可以利用nyu depth dataset v2训练的模型来估计vrd数据集中图像的深度图。但是,因该模型没有对vrd数据集进行微调,存在估计的深度图中的深度信息不准确的情况。通过对估计深度图的观察,发现深度图能够很好地描述多个目标之间的深度层次关系。
[0046]
为了突出目标之间的相对深度层次关系,减少目标模糊边缘信息的影响,我们使用人工锐化核对深度图进行了两次锐化。例如,锐化内核可以为:
[0047][0048]
图1示出了根据本公开一实施例的经过两次锐化的depth vrds的图像示意图。
[0049]
如图1所示,对比未锐化的图像,经锐化两次的图像中物体的层次边界更加清晰。根据该方法构建了depth vrds数据集,其训练集包含4000张图像,测试集包含1000张图像,以对应vrd数据集的rgb图像。利用depth vrds数据集的深度图像和vrd数据集的rgb图像作为本发明的适应深度感知视觉关系的检测网络的输入数据。
[0050]
图2和图3分别示出了根据本公开一实施例的适应深度感知视觉关系的检测方法
流程图和原理框图。如图2所示,该方法可以包括
[0051]
步骤s1:输入rgb图像到第一深度卷积网络中提取图像视觉特征f
rgb

[0052]
步骤s2:输入所述rgb图像对应的深度图像到第二深度卷积网络中提取图像深度视觉特征fd。
[0053]
如图3所示,可以选用在imagenet上预先训练的vgg-16和resnet-18作为深度卷积网络。即使用vgg-16作为rgb特征提取器对rgb图像进行特征提取,使用resnet18作为深度特征提取器对深度图像进行特征提取。边界框由rgb图像中的faster-rcnn生成,为避免特征维数不一致导致信息覆盖较少的特征维数,将所有特征的长度统一为256。
[0054]
将给定一幅包含消防栓和小汽车的rgb图像及其对应的深度图像,分别将rgb图像输入到vgg-16深度卷积网络中进行图像视觉特征f
rgb
提取。将深度图像输入到resnet-18深度卷积网络中进行图像深度视觉特征fd提取。
[0055]
步骤s3:利用roi池化层从所述图像视觉特征f
rgb
和图像深度视觉特征fd中,提取多个目标对象边界框的图像视觉特征和深度视觉特征。
[0056]
其中,多个目标对象边界框可以包括目标边界框bboxs(主语边界框)和对象边界框bboxo(宾语边界框)。举例来说,图像中的消防栓和小汽车的位置关系为“小汽车在消防栓后”,小汽车为目标边界框bboxs或主语边界框,消防栓为对象边界框bboxo或宾语边界框。当然,也可以将小汽车作为对象边界框bboxo或宾语边界框,消防栓作为目标边界框bboxs或主语边界框,根据不同的表达方式,主语边界框和宾语边界框可以互换,在此不做限定。
[0057]
如图3所示,将图像视觉特征f
rgb
和图像深度视觉特征fd分别输入到roi层进行池化,根据目标限定框从图像视觉特征f
rgb
和图像深度视觉特征fd裁目标边界框对应的深度视觉特征信息和图像视觉特征信息。
[0058]
步骤s4:利用多个目标对象边界框的视觉特征和rgb图像信息得到所述多个目标对象边界框的平面位置关系特征。
[0059]
如图3所示,假设给定的包含消防栓和小汽车的图像的宽度和高度分别为w和h,目标边界框bboxs的坐标为[xs,ys,ws,hs],对象边界框bboxo的坐标为[xo,yo,wo,ho]。
[0060]
目标边界框bboxs(主语边界框)和对象边界框bboxo(宾语边界框)以相对位置表示:
[0061]
[
′s,y
′s,w
′s,h
′s]=[xs/w,ys/h,ws/w,hs/h]
ꢀꢀ
(2)
[0062]
[x
′o,y
′o,w
′o,h
′o]=[xo/w,yo/h,wo/w,ho/h]
ꢀꢀ
(3)
[0063]
目标边界框bboxs和对象边界框bboxo的中心由边界框的中心点表示如下:
[0064][0065][0066]
从目标边界框bboxs中心点和对象边界框bboxo中心的的矢量记为v
so

[0067][0068]
目标边界框与对象边界框的尺寸比也可以在一定程度上反映两者之间的空间位
置关系,用和表示。最后,多个目标对象边界框的平面位置关系特征表示为
[0069]
步骤s5:利用自适应深度空间定位方法和多个目标对象边界框的深度视觉特征得到多个目标对象边界框之间的深度位置关系特征。
[0070]
在一示例中,该步骤可以包括:
[0071]
步骤s51:在深度图的目标对象边界框的区域内划分为k1*k1个一级区域xi,其中,i为正整数。
[0072]
其中,每个第一级区域可能包含目标、背景或前景的深度信息,但每种深度信息的比例不确定。假设物体占据目标边界框中的大部分区域。可用区域信息方差衡量各一级区域中不相关信息的比例。当不相关信息在一级区域中所占比例越大时,区域信息的方差越大;否则,区域信息的方差较小。对于信息方差较小的一级区域,我们认为区域深度信息的可靠性较高,从而导致区域信息权重较大;反之,当一级区域的信息方差较大时,认为区域深度信息的可信度较低,区域信息权重较小。
[0073]
步骤s52:将每个一级区域划分为k2*k2个二级区域x
ij
,j为正整数。即将整个边界框区域均匀划分为个小区域。
[0074]
步骤s53:对每个二级区域进行平均池化处理,得到每个二级区域的深度值,计算每个一级区域对应的所有二级区域的深度信息方差和平均值。
[0075]
步骤s54:根据每个一级区域内的所有二级区域的深度信息方差和负对数函数计算所述一级区域的深度信息可信度。
[0076]
例如,将第i个一级区域中的第j个二级区域的深度值表示为d
ij
[0077]
步骤s55:利用所述softmax函数和所述一级区域的深度信息可信度计算得到所述一级区域的深度信息权重;
[0078]
步骤s56:将所述一级区域的深度值和其对应的深度信息权重进行hadamard乘积,得到所述多个目标对象边界框之间的深度位置关系特征,其中,所述一级区域的深度值为所述一级区域内所有二级区域的深度平均值。
[0079]
举例来说,将第i个一级区域中的第j个二级区域的深度值表示为d
ij
,第i个一级区域的信息可信度记为ci,则第i个一级区域的信息可信度ci为:
[0080][0081][0082]
其中,μi为第i个一级区域深度信息的平均值,θ为保证对数函数输入不为0的小偏差项,此处取
[0083]
将多目标对象对的深度空间向量按照不同的方向和值分为五种可能的相对深度空间关系:更浅、浅、附近、深、更深。使用一个全连接层和一个softmax层来实现变换后,能够将多目标对象的平面空间位置关系特征和相对深度空间位置关系特征分别通过两个全
连接层来统一维数,避免因特征维数不同而隐藏维数较少的信息。即利用softmax函数软化所有一级区域的信息权值wi,确保所有区域的信息权值之和为1。
[0084][0085]
取每个一级区域内所有二级区域深度值的平均值作为一级区域深度值。将所有一级区域深度值与相应区域信息权重进行hadamard乘积,得到目标特征depth
loc
的深度空间位置信息,
[0086]
depthl
oc
=w*d
ꢀꢀꢀ
(13)
[0087][0088][0089]wm,n
=w
mn
ꢀꢀꢀ
(16)
[0090][0091]
其中,w
m,n
表示第mn个第一级区域的信息权重,d
m,n
为第mn个第一级区域深度值,*表示按元素进行的乘法。depth
loc
通过自适应的区域信息权值加强了目标相关区域的深度信息,使得估计的目标深度位置信息更加准确。同时,由k1×
k1一级区域信息组成的深度空间位置特征,相比于全局平均池化得到的单个平均深度值,更能代表对象的深度信息分布。
[0092]
步骤s6:拼接多个目标对象边界框的平面位置关系特征和深度位置关系特征为多个目标对象边界框的空间位置特征。
[0093]
步骤s7:基于多个目标对象边界框的深度视觉特征和视觉特征,利用深度感知视觉融合模块得到所述多个目标对象边界框的深度导向的视觉特征。
[0094]
其中,该步骤可以包括:
[0095]
步骤s71:从多个目标对象边界框的深度视觉特征中提取指导信息;
[0096]
步骤s72:利用深度感知视觉融合模块从所述指导信息中提取与多个目标对象边界框的视觉特征相关的指导信息;
[0097]
步骤s73:将与多个目标对象边界框的视觉特征相关的指导信息与多个目标对象边界框的视觉特征逐个相乘,得到多个目标对象边界框的深度导向的视觉特征。
[0098]
图4示出了根据本公开一实施例的深度感知视觉融合模块的原理框图。
[0099]
如图4所示,rgb图像的视觉信息表示为f
rgb
,包含目标物体的外观细节和部分背景或前景的外观信息。估计的深度图像信息表示为f
depth
,包含目标物体的轮廓信息,忽略了物体外观的详细信息。为了利用深度视觉表示f
depth
来增强目标区域,从f
depth
中提取指导信息f
mask
作为f
rgb
中各位置信息的权重。如果简单地将f
rgb
乘以f
mask
就可以得到深度导向的视觉特征。然而,f
mask
是由不准确的估计f
depth
得到的,直接的元素乘法将引入与对象特征无关的信息。
[0100]
为了减少深度信息f
depth
不准确的影响,基于注意力机制构建的深度感知视觉融
合,能够从f
mask
中提取与rgb视觉特征相关的f'
mask
,然后将f'
mask
与rgb视觉特征f
rgb
逐元素相乘,得到深度感知的视觉特征。
[0101]
在一示例中,从多个目标对象边界框的深度视觉特征中提取指导信息,包括:基于自我注意单元从所述多个目标对象边界框的深度视觉特征中提取指导信息;
[0102]
所述指导信息为:
[0103]
其中,q,k,v是查询,键和值分支的输入,q=k=v,n是一个标准化因子。以给定对象的深度视觉特征深度作为输入,首先通过查询、键和值分支中不同的全连接层将特征映射到通道/比率维空间(例如比率为4),以减少参数的数量。
[0104]
在另一示例中,从所述多个目标对象边界框的深度视觉特征中提取指导信息,还包括:基三线性运算单元从所述多个目标对象边界框的深度视觉特征中提取指导信息;
[0105]
指导信息
[0106]
其中,f
depth
为多个目标对象边界框的深度视觉信息。即删除自注意力单元中的线性投影层,直接将输入的目标对象边界框的深度视觉信息f
depth
乘以矩阵,再通过softmax函数后,将乘法的结果与目标对象边界框的深度视觉信息f
depth
交叉相乘,最后通过另一个softmax函数输出得到的指导信息。
[0107]
通过深度感知视觉融合模块将深度信息融合到二维rgb视觉信息中,构建深度感知视觉特征,使视觉特征能够代表物体的立体视觉信息,包含比主干网直接提取的rgb视觉特征更丰富的信息。将深度空间关系与二维空间关系相结合,使空间位置特征能够表达物体对之间的三维空间关系。
[0108]
步骤s9:利用全连接层将多个目标对象边界框的空间位置特征、深度导向的视觉特征,以及语义特征进行融合,得到融合后的所述多个目标对象边界框的融合图像特征;
[0109]
步骤s9:将多个目标对象边界框的融合图像特征输入到关系检测器中,得到多个目标对象边界框的位置关系。
[0110]
本公开的自适应深度感知视觉关系的检测方法,通过输入rgb图像到第一深度卷积网络中提取图像视觉特征f
rgb
;输入所述rgb图像对应的深度图像到第二深度卷积网络中提取图像深度视觉特征fd;利用roi池化层从所述图像视觉特征f
rgb
和所述图像深度视觉特征fd中,提取多个目标对象边界框的图像视觉特征和深度视觉特征;利用所述多个目标对象边界框的视觉特征和rgb图像信息得到所述多个目标对象边界框的平面位置关系特征;利用自适应深度空间定位方法和所述多个目标对象边界框的深度视觉特征得到所述多个目标对象边界框之间的深度位置关系特征;拼接所述多个目标对象边界框的平面位置关系特征和深度位置关系特征为所述多个目标对象边界框的空间位置特征;基于所述多个目标对象边界框的深度视觉特征和视觉特征,利用深度感知视觉融合模块得到所述多个目标对象边界框的深度导向的视觉特征;利用全连接层将所述多个目标对象边界框的空间位置特征、深度导向的视觉特征,以及语义特征进行融合,得到融合后的所述多个目标对象边界框的融合特征;将所述多个目标对象边界框的融合特征输入到关系检测器中,得到所述多个目标对象边界框的位置关系。能够充分利用视觉外观和空间位置这两个视觉关系检测的主要因素中的深度信息。
[0111]
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采
用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1