一种基于层次化特征互补的图像哈希检索方法与流程

文档序号:23305660发布日期:2020-12-15 11:35阅读:142来源:国知局
一种基于层次化特征互补的图像哈希检索方法与流程

本发明涉及计算机视觉技术领域,尤其涉及一种基于层次化特征互补的图像哈希检索方法。



背景技术:

随着互联网、多媒体技术、大容量存储技术和智能设备的迅速发展,网络上的多媒体数据正以爆炸式的形式生成、传播和存储。在每一个时刻都会有大量的图像生成,因此,基于内容的图像检索面临的数据规模日益变大。然而传统的图像检索方法因为存在图像特征提取能力差,编码速度慢等缺点,逐渐被高效的哈希方法代替。

近年来,卷积神经网络(convolutionalneuralnetworks,cnn)技术被应用于图像处理、计算机视觉等相关领域,取得巨大成功。与人工设计提取算法的特征提取和匹配方式相比,卷积神经网络可以自行通过数据集进行训练,从而较完好地保存了图像的语义信息。受此启发,相关领域的研究人员也开始寻求在大规模图像检索的应用环境下,将卷积神经网络与哈希算法结合的可能性。基于深度哈希的图像检索方法研究,有助于我们完成对大规模图像的快速检索,在当前与互联网相关的各产业均寻求大数据作为支撑和增长点的背景下,具有重要的现实意义。

当前大部分深度哈希算法先使用卷积神经网络提取图像特征,然后使用全连接哈希层对图像特征进行量化编码,生成二进制哈希码。在特征提取部分,绝大部分的哈希码方法使用的是alexnet或resnet50等层数比较多的卷积神经网络。图像经过多次的卷积以及池化后,提取到的特征图上每一个元素都有着较大的感受野,是包含丰富语义信息的高层全局特征。因为使用了包含图像全局语义信息的图像特征进行编码,这一类哈希方法的效果比传统的利用局部特征进行编码的非深度方法好。然而,在实际的应用场景中,图像的内容都是十分复杂的。一张图像中可能会包含许多的物体、动物和人,又或者是图像的关键内容只占了整张图像的小部分,在这些情况下,如果仍然只使用图像的高层全局特征进行编码,可能会导致图像的关键信息被一些次要无关的信息,如背景等信息覆盖,导致哈希模型不能对真正有效的信息进行编码。相对地,如果模型使用一些卷积层数比较少的网络,那么特征图像中每一个元素的感受野比较小,此时的特征图代表的是图像的低层局部特征,在进行量化编码时,可能会由于没有识别出图像中全局语义信息而导致检索性能的下降。相关研究表明,使用低层特征能够在图像实例检索中获得更好的结果,因为低层特征具有相对较高的分辨率,包含更多的位置和局部细节信息。然而,由于原始图像经过的卷积次数较少,导致低层特征包含的语义信息较少,噪声更多。相对地,图像经过层数较多的卷积神经网络后得到的高层全局特征具有更加丰富的语义信息,但分辨率低而且对图像细节信息的感知能力差。

综上,当前的深度哈希算法在特征提取方面存在一定问题,未充分利用低层局部特征,忽略了图像的细节信息,从而导致检索精度下降。



技术实现要素:

有鉴于此,本发明提供了一种基于层次化特征互补的图像哈希检索方法,用以有效地提取图像的低层细节信息和高层语义信息并充分利用图像的全局特征和局部特征。

本发明提供的一种基于层次化特征互补的图像哈希检索方法,包括如下步骤:

s1:将待检索图像输入到用于提取特征的卷积神经网络中;

s2:截取所述卷积神经网络的中间层生成的特征图作为低层特征图l,将所述低层特征图l输入空间注意力模块中,所述空间注意力模块将上下文信息聚合到低层特征图l中,得到特征图l1;

s3:将所述低层特征图l输入通道注意力模块中,所述通道注意力模块对所述低层特征图l各个通道之间的语义依赖进行建模,得到特征图l2;

s4:将得到的特征图l1和特征图l2相加得到特征图l3,全连接哈希层对特征图l3进行编码,生成长度为l1的低层哈希码;

s5:将所述卷积神经网络的最后一层生成的特征图作为高层特征图k,分别使用多个不同大小的卷积核对高层特征图k进行卷积操作,生成多个不同尺度的特征图;

s6:利用多尺度特征融合模块对生成的多个不同尺度的特征图分别进行逐点卷积,将每一个特征图的通道数降为高层特征图k通道数的1/4;

s7:使用双线性插值方式对经过逐点卷积后的各个特征图进行上采样,将每一个特征图还原为与高层特征图k相同的尺度,将各个还原后的特征图以及高层特征图k进行通道方向的拼接融合,融合后的特征图包含不同子区域之间不同尺度的信息,实现局部信息和全局信息的融合;

s8:对融合后的特征图使用全连接哈希层编码,生成长度为l2的高层哈希码;

s9:将所述低层哈希码和所述高层哈希码进行拼接,得到长度为l1+l2的哈希码用于图像检索。

在一种可能的实现方式中,在本发明提供的上述基于层次化特征互补的图像哈希检索方法中,步骤s2,截取所述卷积神经网络的中间层生成的特征图作为低层特征图l,将所述低层特征图l输入空间注意力模块中,所述空间注意力模块将上下文信息聚合到低层特征图l中,得到特征图l1,具体包括:

给定一个低层特征图l∈rc×h×w,使用两个不同的卷积层对低层特征图l进行卷积操作,生成特征图y和特征图z,其中,{y,z}∈rc×h×w,其中,c表示特征图的通道数,h表示特征图的高,w表示特征图的宽;把特征图y和特征图z的维度调整为c×n,调整后得到{y′,z′}∈rc×n,其中,n=h×w,表示特征图中一个通道上像素的总量;将特征图z′的转置与y′相乘,使用softmax函数作为激活函数,得到空间特征关系图s∈rn×n

其中,sij表示空间特征关系图s在第i行、第j列的值,代表在特征图y和特征图z中对应局部特征之间的关系,sij越大,代表两个局部特征的相似性和相关性越大,i=1,2,...,n,j=1,2,...,n;表示特征图z′的转置中的第i行元素,yj′表示特征图y′中的第j列元素;获得空间特征关系图s后,使用均值池化层和卷积层挖掘低层特征图l在每一个空间位置上的相对权重;获得相对权重后,对低层特征图l重新赋予权重,完成空间维度上的重标定,加权公式如下:

l1=conv(avg(s))·l(2)

其中,avg表示均值池化层,conv表示以sigmoid为激活函数的卷积层;式(2)对低层特征图l的空间位置进行加权,在空间维度上对低层特征图l的关键信息进行增强,得到特征图l1。

在一种可能的实现方式中,在本发明提供的上述基于层次化特征互补的图像哈希检索方法中,步骤s3,将所述低层特征图l输入通道注意力模块中,所述通道注意力模块对所述低层特征图l各个通道之间的语义依赖进行建模,得到特征图l2,具体包括:

将低层特征图l的维度调整为c×n,得到特征图l′∈rc×n,将特征图l′与特征图l′的转置相乘,使用softmax作为激活函数,得到通道特征关系图g∈rc×c

其中,gmn表示通道特征关系图g在第m行、第n列的值,m=1,2,...,c,n=1,2,...,c;l′m表示特征图l′中的第m行元素,表示特征图l′的转置中的第n列元素;获得通道特征关系图g后,使用均值池化层和全连接哈希层挖掘低层特征图l在每一个通道上的相对权重;获得相对权重后,对低层特征图l重新赋予权重,完成空间维度上的重标定,加权公式如下:

l2=mlp(avg(g))·l(4)

其中,mlp表示以sigmoid为激活函数的多层感知器;式(4)对低层特征图l的通道进行加权,在通道维度上对低层特征图l的关键信息进行增强,得到特征图l2。

本发明提供的上述基于层次化特征互补的图像哈希检索方法,可应用于大规模的基于内容的图像检索,是一种能同时有效地提取图像的低层细节信息和高层语义信息且充分利用图像的全局特征和局部特征的算法。本发明同时提取出卷积神经网络中的低层特征图和高层特征图,可以获取图像的低层信息和高层信息,引入注意力模块,可以减少低层特征图中噪声的干扰,确保低层特征图的有效性,在卷积神经网络的高层特征图中添加多尺度特征融合,聚合不同区域的上下文信息,可以提高卷积神经网络获取局部细节信息的能力,通过对不同层次的信息进行增强后融合,可以保证卷积神经网络能够充分地提取到图像丰富而复杂的内容,让哈希码能够更好地保留图像之间的相似性。

附图说明

图1为本发明提供的一种基于层次化特征互补的图像哈希检索方法的流程图;

图2为本发明提供的一种基于层次化特征互补的图像哈希检索方法中多尺度特征融合模块的结构示意图;

图3为本发明提供的一种基于层次化特征互补的图像哈希检索方法中空间注意力模块的结构示意图;

图4为本发明提供的一种基于层次化特征互补的图像哈希检索方法中通道注意力模块的结构示意图;

图5为分别利用现有的resnet50和本发明提供的一种基于层次化特征互补的图像哈希检索方法对原图进行特征图权重可视化后的对比图;

图6为dha方法的t-sne可视化实验结果图;

图7为dha+方法的t-sne可视化实验结果图。

具体实施方式

下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整的描述,显然,所描述的实施方式仅仅是作为例示,并非用于限制本发明。

本发明提供的一种基于层次化特征互补的图像哈希检索方法,如图1所示,包括如下步骤:

s1:将待检索图像输入到用于提取特征的卷积神经网络中;

s2:截取卷积神经网络的中间层生成的特征图作为低层特征图l,将低层特征图l输入空间注意力模块中,空间注意力模块将上下文信息聚合到低层特征图l中,得到特征图l1;

s3:将低层特征图l输入通道注意力模块中,通道注意力模块对低层特征图l各个通道之间的语义依赖进行建模,得到特征图l2;

s4:将得到的特征图l1和特征图l2相加得到特征图l3,全连接哈希层对特征图l3进行编码,生成长度为l1的低层哈希码;

s5:将卷积神经网络的最后一层生成的特征图作为高层特征图k,分别使用多个不同大小的卷积核对高层特征图k进行卷积操作,生成多个不同尺度的特征图;

s6:利用多尺度特征融合模块对生成的多个不同尺度的特征图分别进行逐点卷积,将每一个特征图的通道数降为高层特征图k通道数的1/4;

s7:使用双线性插值方式对经过逐点卷积后的各个特征图进行上采样,将每一个特征图还原为与高层特征图k相同的尺度,将各个还原后的特征图以及高层特征图k进行通道方向的拼接融合,融合后的特征图包含不同子区域之间不同尺度的信息,实现局部信息和全局信息的融合;

s8:对融合后的特征图使用全连接哈希层编码,生成长度为l2的高层哈希码;

s9:将低层哈希码和高层哈希码进行拼接,得到长度为l1+l2的哈希码用于图像检索。

下面通过一个具体的实施例对本发明提供的上述基于层次化特征互补的图像哈希检索方法的具体实施进行详细说明。

实施例1:

本发明使用resnet50作为卷积神经网络的骨干,在此基础上进行改进,使用不同层次的特征生成能够代表不同层次信息的哈希码,通过直接拼接的方式得到一个结合了不同层次信息的、更加有效的哈希码。本发明将使用低层信息生成的哈希码称为低层哈希码,将使用高层信息生成的哈希码称为高层哈希码。

为了生成高层哈希码,将卷积神经网络最后一层生成的特征图作为高层特征图,使用多个不同大小的卷积核对高层特征图进行卷积生成多个不同尺度的特征图,对多个不同尺度的特征图进行逐点卷积后上采样,将各特征图还原为与高层特征图相同的尺度,将各个还原后的特征图及高层特征图进行通道方向的拼接融合,使用全连接哈希层对多尺度特征融合后的特征图进行编码,生成长度为l2的高层哈希码。为了生成低层哈希码,先截取卷积神经网络中间层生成的特征图作为低层特征图,然后使用注意力机制(空间注意力与通道注意力相结合)对低层特征图进行增强,减少低层特征图中的噪声干扰以及语义分歧,再使用全连接哈希层对其进行编码,得到一个能够表示图像低层细节特征的、长度为l1的低层哈希码。将高层哈希码和低层哈希码进行拼接,得到一个长度为l1+l2的哈希码用于图像检索。

在生成高层哈希码的过程中,关于多尺度特征融合,如图2所示,给定一个输入特征作为高层特征图,首先,使用多个不同大小的卷积核对高层特征图进行卷积,生成多个不同尺度的特征图,例如图2中特征图a的尺度为1*1,其他特征图为各种尺度大小的特征图;然后,对多个不同尺度的特征图进行逐点卷积,把每一个特征图的通道数降低为原来的1/4;最后,使用双线性插值方式进行上采样,将每一个特征图还原为原始尺度,将各个还原后的特征图及高层特征图进行融合,融合后的特征图包含不同子区域之间不同尺度的信息,实现了局部信息和全局信息的融合。

在生成低层哈希码的过程中,注意力机制模块使用空间注意力模块和通道注意力模块结合的方式。下面分别对空间注意力模块和通道注意力模块进行介绍。

空间注意力模块,如图3所示,给定一个低层特征图l∈rc×h×w,使用两个不同的卷积层对低层特征图l进行卷积操作,生成特征图y和特征图z,其中,{y,z}∈rc×h×w,其中,c表示特征图的通道数,h表示特征图的高,w表示特征图的宽;把特征图y和特征图z的维度调整为c×n,调整后得到{y′,z′}∈rc×n,其中,n=h×w,表示特征图中一个通道上像素的总量;将特征图z′的转置与y′相乘,使用softmax函数作为激活函数,得到空间特征关系图s∈rn×n

其中,sij表示空间特征关系图s在第i行、第j列的值,代表在特征图y和特征图z中对应局部特征之间的关系,sij越大,代表两个局部特征的相似性和相关性越大,i=1,2,...,n,j=1,2,...,n;表示特征图z′的转置中的第i行元素,yj′表示特征图y′中的第j列元素;获得空间特征关系图s后,使用均值池化层和卷积层挖掘低层特征图l在每一个空间位置上的相对权重;获得相对权重后,对低层特征图l重新赋予权重,完成空间维度上的重标定,加权公式如下:

l1=conv(avg(s))·l(2)

其中,avg表示均值池化层,conv表示以sigmoid为激活函数的卷积层;利用式(2)对低层特征图l的空间位置进行加权,在空间维度上对低层特征图l的关键信息进行增强,得到特征图l1。

通道注意力模块,如图4所示,与空间注意力模块不一样,通道注意力模块没有进行额外的卷积处理,而是直接使用输入的低层特征图l∈rc×h×w计算通道特征关系图g∈rc×c。首先,将低层特征图l的维度调整为c×n,得到特征图l′∈rc×n,将特征图l′与特征图l′的转置相乘,使用softmax作为激活函数,得到通道特征关系图g∈rc×c

其中,gmn表示通道特征关系图g在第m行、第n列的值,代表在低层特征图中通道m和通道n的关联程度,m=1,2,...,c,n=1,2,...,c;l′m表示特征图l′中的第m行元素,表示特征图l′的转置中的第n列元素;获得通道特征关系图g后,使用均值池化层和全连接哈希层挖掘低层特征图l在每一个通道上的相对权重;获得相对权重后,对低层特征图l重新赋予权重,完成空间维度上的重标定,加权公式如下:

l2=mlp(avg(g))·l(4)

其中,mlp表示以sigmoid为激活函数的多层感知器;利用式(4)对低层特征图l的通道进行加权,在通道维度上对低层特征图l的关键信息进行增强,得到特征图l2。通道注意力模块对特征图之间的语义依赖性进行建模,使相似的语义特征相互促进,可以提高特征图对图像语义的表达能力。

综上可知,本发明使用高层特征图和低层特征图,以同时获得局部信息和全局信息。高层特征图的感受野相对较大,包含图像的全局信息以及深层次的语义信息,但其分辨率较低,忽略了图像中许多的细节信息,针对此问题,本发明引入多尺度特征融合模块,将不同尺度的特征信息进行有效结合,实现全局和局部信息的融合。低层特征图虽然包含更多图像结构的信息,如物体的纹理、颜色和形状等细节信息,对分类结果具有重要的影响,但其存在背景杂乱、语义分歧等严重问题,为此本发明采用注意力机制对低层特征图进行一定的处理,以减少噪声的影响。

特征融合技术在目标检测和图像分割任务中,可以带来检测和分割性能的提升。按照融合于检测的先后顺序,特征融合可以分为早融合与晚融合。本发明采用早融合方式,先将提取到的多层图像特征进行融合,再对融合后的特征向量进行预测。其中,融合的方式包括叠加融合和直接相加两种。叠加融合是将两个特征向量进行拼接,若两个特征的维度分别是x和y,融合后的特征维度为x+y;相加融合,即将两个特征向量组合成复向量,z=x+iy,其中i是虚数单位。针对不同尺度的特征图,本发明采用双线性插值的方式,先上采样将每一个特征图还原为原始特征后再进行融合。

注意力机制采用通道注意力和空间注意力相结合的方式。空间注意力关注的是重要信息在图中的位置,因此,本发明使用特征的空间关系生成注意力图,将更加丰富的上下文信息聚合到局部特征中,从而增强它们的特征表达能力。对于通道注意力,由于特征图的每一个通道都包含图像中某一个实例的语义信息,而不同通道之间的语义信息是相互关联的,并且,低层局部特征中包含的信息语义分歧大,卷积神经网络难以对图像的相似语义信息聚合,而通过挖掘通道之间的相互依赖关系,可以改善特征图对特定语义的表示,因此,本发明利用特征的跨通道关系生成注意力图,学习通道之间的相关性,可以看作是对空间注意力的一种补充。因此,在给定输入图像后,两个注意力模块可以分别关注特征图中物体本身的类别信息和在图像中的位置信息,可以提高低层特征图的质量,再通过相加融合得到经过信息加强的融合特征。与原始特征相比,融合后的特征降低了背景噪声的干扰,提高了特征的语义表达能力。

综上所述,不同于现有深度哈希方法直接使用高层特征进行分类预测,本发明采用高层特征图和低层特征图相结合的方式,同时针对高层特征图和低层特征图存在的不足,分别使用特征融合模块和注意力机制进行缓解。

下面通过一个具体的实验对本发明提供的上述基于层次化特征互补的图像哈希检索方法的准确度和特征可视化进行分析。

在多标签数据集nus-wide和mscoco上使用评价指标map@5000来评测不同的方法。在实验中,设置最后生成的哈希码长度分别为16bit、32bit、48bit和64bit,实验结果如表1所示。

表1多标签数据集nus-wide和mscoco上,不同哈希方法的结果

表1中,dha+代表的是原始dha在使用本发明提供的上述基于层次化特征互补的图像哈希检索方法后的模型,hashnet+代表的是原始hashnet在使用本发明提供的上述基于层次化特征互补的图像哈希检索方法后的模型,dha+和hashnet+这两个模型的检索性能相对于使用resnet50作为骨干的哈希模型有较大的提升。其中,在mscoco数据集上的提升更为明显,通过对mscoco的数据进行分析发现,mscoco的图像中拥有较多不同尺度物体,这在一定程度上说明本发明提供的上述基于层次化特征互补的图像哈希检索方法能够更好地提取出不同尺度的特征,从而可以提高检索性能。

同样地,在单标签数据集cifar-10上使用评价指标map@54000来评测不同的方法。在实验中,设置最后生成的哈希码长度分别为16bit、32bit、48bit和64bit,实验结果如表2所示。

表2单标签数据集cifar-10上,不同哈希方法的结果

在四个哈希码长度(16bit、32bit、48bit和64bit)的实验中,与原始dha相比,使用本发明提供的上述基于层次化特征互补的图像哈希检索方法后的dha+,对多标签数据集nus-wide和mscoco以及单标签数据集cifar-10的检索性能都有一定的提升。然而,由于在cifar-10数据集中,每一张图像的分辨率比较低,每一张图像只包含一个实例物体,因此,本发明提供的上述基于层次化特征互补的图像哈希检索方法所带来的提升相对比较小。

本发明提供的上述基于层次化特征互补的图像哈希检索方法在不同的数据集上的实验都能带来不同程度的提升,展示出了方法的普适性。值得注意的是,本发明提供的上述基于层次化特征互补的图像哈希检索方法在具有复杂内容的图像数据集上的检索性能有较大的提升,进一步体现了发明提供的上述基于层次化特征互补的图像哈希检索方法具有更好的鲁棒性。

除了验证本发明提供的上述基于层次化特征互补的图像哈希检索方法的准确度,还使用grad-cam对卷积神经网络中特征图的权重进行可视化,观察并分析普通的resnet50和本发明提供的上述基于层次化特征互补的图像哈希检索方法在图像响应上的异同。

在部分mscoco数据集上的图像进行实验,利用grad-cam将卷积神经网络生成的模型的特征图的权重映射到原始图像中,生成热力图,并挑选具有代表性的三张图像进行展示,如图5所示。从图5中可以看出,本发明提供的上述基于层次化特征互补的图像哈希检索方法的关注点集中在人群中,没有受到背景以及非关键信息的干扰,具有较高的鲁棒性。

在不同复杂度图像上的特征可视化的实验结果表明,本发明提供的上述基于层次化特征互补的图像哈希检索方法能够较完整地检测出图像中的关键信息。通过特征互补的方式,图像检索模型可以在一定程度上解决卷积神经网络在提取特征过程中的语义分歧、噪声干扰等问题。

并且,还进行了t-sne可视化实验。t-sne是一种常用的非线性降维方法,可以将高维数据映射到低维空间中。cifar-10数据集由10个类别的彩色图像组成,每个类别包含6000个图像。首先,在cifar-10数据集的每类中随机选取1000张图像,分别使用dha和dha+生成64bit的哈希码;然后,使用t-sne将64维向量进行降维,并在二维平面中展示,实验结果如图6(dha)和图7(dha+)所示。从图6和图7可以看出,dh和dha+这两种方法都能有效地将大部分相同类别的图像映射到邻近的空间中,并且,dha相对于dha+具有较多的错分样本,且比较分散。

综上,通过准确度以及特征可视化实验可以看出,本发明提供的上述基于层次化特征互补的图像哈希检索方法具有良好的表现,特别是在内容复杂的图像数据集上。

本发明提供的上述基于层次化特征互补的图像哈希检索方法,可应用于大规模的基于内容的图像检索,是一种能同时有效地提取图像的低层细节信息和高层语义信息且充分利用图像的全局特征和局部特征的算法。本发明同时提取出卷积神经网络中的低层特征图和高层特征图,可以获取图像的低层信息和高层信息,引入注意力模块,可以减少低层特征图中噪声的干扰,确保低层特征图的有效性,在卷积神经网络的高层特征图中添加多尺度特征融合,聚合不同区域的上下文信息,可以提高卷积神经网络获取局部细节信息的能力,通过对不同层次的信息进行增强后融合,可以保证模型能够充分地提取到图像丰富而复杂的内容,让哈希码能够更好地保留图像之间的相似性。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1