特征加权和区域整合的图像检索方法与流程

文档序号:18011503发布日期:2019-06-26 00:09阅读:208来源:国知局
特征加权和区域整合的图像检索方法与流程

本发明属于图像分析及检索方法技术领域,具体涉及特征加权和区域整合的图像检索方法,用于对卷积神经网络提取的卷积特征进行加权和区域整合后的图像检索。



背景技术:

近年来,cbir(基于内容的图像检索技术)迅速发展,在各方面得到了广泛的应用。传统的cbir大致检索流程是通过提取诸如图像颜色、纹理、形状等图像底层视觉特征,计算查询图像与测试图像特征的距离,返回与查询图像最为相同或相似的图像。但底层视觉特征与高层语义之间存在语义鸿沟,不能准确反映出用户的检索意图。早期,绝大多数的图像检索是基于底层视觉特征,如sift特征、gist特征、颜色特征,纹理特征等,并结合bof模型进行检索。但由于sift,gist等特征不能表达图片的深层语义,而且bof模型的复杂度较高,限制了这类方法的提升空间。随着社会信息技术高速发展以及大数据时代的到来,不仅图片数量增多,而且图片内容也变得复杂多样,传统的基于内容的检索技术已无法满足用户的需求。

在ilsvrc-2012比赛中,krizheysky等人设计了一种深度卷积网络模型alexnet(krizhevskya,sutskeveri,hintonge.“imagenetclassificationwithdeepconvolutionalneuralnetworks,”.magazinecommunicationsoftheacm,vol.60,pp.1097-1105,2012.)将图像分类错误率从26.2%降到15.3%,远远领先于其他算法。这使得cnn(卷积神经网络)在视觉图像领域得到极大的重视,其一跃成为图像检索特征基础模型的首选。最近研究表明,cnn特征在图像检索领域取得了意想不到的效果,相比于传统的方法,检索精度得到了极大的提升。由于深度学习的特征具有高维度的特性,将导致时间和内存的巨大消耗,因此,使其简单化成了当务之急。目前大致可分为两种处理方法:一是使用哈希(hashing)算法处理特征;二是将高维特征压缩降维形成全局特征来描述整幅图像,如crow(kalantidisy,mellinac,osinderos.“cross-dimensionalweightingforaggregateddeepconvolutionalfeatures,”europeanconferenceoncomputervision.2016,pp.685-701,2016)。spoc(babenkoa,lempitskyv.“aggregatingdeepconvolutionalfeaturesforimageretrieval,”computerscience,2015.),该方法解决了如何把卷积层的特征图变成单个特征向量的问题,其使用和池化(sum-pooling)技术也达到了不错的效果。但有一个问题是,再好的特征也是有噪声的,spoc仅仅是使用径向基函数计算每个像素点的权重,却忽略了每个通道(channel)的权重。后来,yannis等人提出了提取crow特征的方法,该方法对cnn最后一个卷积层特征赋予权重,其改变每个层特征图元素权重的同时还对每个通道加权,达到了更好的效果。最近研究表明,使用滑窗原理有利于目标定位,r-mac(toliasg,sicrer,jégouh.“ticularobjectretrievalwithintegralmax-poolingofcnnactivations,”computerscience,2015.)度的滑窗对特征图做最大池化,再将多个通道的三维特征整合成单维向量用来描述全局信息。我们发现这两种方法是可以联合使用的,因此我们提出了一种新的处理特征的方法,改善了检索性能。

现如今,重排已经成为图像检索过程必不可少的一步,文献通过复杂的重排算法大幅度提升了识别精度。但本发明侧重点是对处理后的全局特征向量的性能进行测试,因此重排方法选取效果好的qe(queryexpansion)算法。



技术实现要素:

为克服上述现有技术的不足,本发明的目的在于提供特征加权和区域整合的图像检索方法,一个基于卷积神经网络的图像检索模型,该模型输入一张查询图和一个大型图像数据库,将会输出图像库中图像和查询图的相似度排名,而且该排名和人眼排名要尽量一致。

为实现上述目的,本发明采用的技术方案是:特征加权和区域整合的图像检索方法,包括以下步骤:

步骤1,特征提取与加权,提取卷积神经网络最后一个卷积层的三维特征,将提取的特征进行空间加权和通道加权;在空间加权时将多个通道相加求和以突显出非零且响应大的区域,而这些区域也一般都是物体所在的区域;在通道加权时,使用idf(逆向文件频率)的方法进行赋值;

步骤2,区域整合,设计多种不同尺寸的滑窗,将加权后的特征平面划分成多个区域,每个区域内的元素相加求和得到多个局部特征向量,经过l2归一化,pac-whitening降维,再次l2归一化,最后直接相加得到全局特征;

步骤3,检索与重排,使用余弦距离衡量查询图与测试图的相似度得出初始排名,并且用拓展查询方法进行重排得出最终的map(平均精度均值)。

步骤1的特征提取与加权,具体按照以下步骤实施:

用x∈r(n×w×h)表示用卷积神经网络提取的三维特征,w、h分别表示每一层特征平面(featuremap)的宽度、长度,n是通道(channel)的数量;w,h的大小会随输入网络图像的大小不同而变化;xkij表示在第k个通道上的特征图位置为(i,j)处的元素;c(k)表示第k个通道的整张特征图,首先对c(k)上的每个元素加权,则总共有i×j个权重,每个权重用aij表示,类似的,用表示第k个通道的特征平面上位置为(i,j)处的元素,对每个通道加权,每个权重用bk表示,

步骤1.1,对空间加权(特征平面加权),直接对每个通道的特征图相加求和,通常情况下,通过卷积滤波,响应强的地方一般都是物体的边缘等,将多个通道相加求和后,那些非零且响应大的区域一般都是物体所在的区域,因而可以将其作为特征图的权重,s′ij表示每个特征图上位置为(i,j)处的元素的加和,表达式如下:

于是可以得到空间权重aij,表达式如下:

公式(2)中,m的取值范围是[1,w],n的取值范围是[1,h],其中可以看做是矩阵s的2范数;根据预实验数据,当α=2,β=2时检索精确度最好,aij表示空间权重,s′ij表示每个特征图上位置为(i,j)处的元素的加和;

步骤1.2,对特征通道加权,采用了idf(逆向文件频率)权重的方法,若某个通道的特征图上每个像素值都是非零的,且都比较大,那么视觉上,强响应区域将占据整个特征图,因此这个通道的特征图不利于定位物体所在的区域,需要降低其通道权重,对于强响应区域占特征图面积相对较小的通道,认为其包含了更准确的图像物体位置信息,需要增大这些通道的权重,mk表示第k个通道上非零元素的个数,表达式如下:

公式(3)中,mk表示第k个通道上非零元素的个数,用表示第k个通道的特征平面上位置为(i,j)处的元素;

非零元素稀少的通道更能描述图像的位置信息,因此可以根据非零元素的多寡进行通道加权,bk表达式如下:

公式(4)中,bk表示每个通道的权值,mk表示第k个通道上非零元素的个数,ε为极小值,保证分母不为零,取ε=1,对结果不影响;

为了保证分母不为零,加入了极小值ε,因为分子比较大,所以在本专利实验中取ε=1,对结果几乎不影响;

步骤1.3,形成最终加权特征,加权之后,每个元素的值变为x′kij,其中x′kij=aijbkxkij,aij表示空间权重,bk表示每个通道的权值,xkij表示在第k个通道上的特征图位置为(i,j)处的元素,

空间加权和通道加权的目的是增大感兴趣区域的权重,降低非物体区域的权重。

步骤2所述的区域整合,具体按照以下步骤实施:

该步骤为合成全局特征向量的方法,crow将每个通道的元素直接相加,得到长度为n的特征向量f,f=[f1,f2,...,fn],fk的表达式如下:

公式(5)中,fk表示第k个特征向量,xkij表示在第k个通道上的特征图位置为(i,j)处的元素,

crow特征只考虑了特征图的全局性,而没有考虑局部性,因此,将特征图分成多个不同区域进行单独计算,再进行整合;预设三种窗口大小,采用求和的方式处理每一个窗口对应的特征图区域;用l种不同尺度的滑窗对特征图进行区域划分,例如l=3时,通常可以得到20个区域特征,此外,采用相加求和的方式处理整个特征图得到一个特征向量,于是一幅图可以得到21个区域特征,将这21个区域特征直接相加求和,即得到最终的全局特征;在窗口与窗口之间,都有一定的重叠区域,采用相加求和的方式生成全局特征,赋予了那些重叠的区域较大的权重;每个滑窗都是正方形的,采用均匀采样的方式并且自动调整中心的位置,以保证重叠的区域达到40%;滑窗的大小由特征图的短边决定,滑窗边长的表达式如下:

公式(6)中,l表示滑窗边长,l表示不同尺度的滑窗,

当l=3时,有3种不同尺度的滑窗套在特征图上,将滑窗内的元素直接相加;一个滑窗会生成一个特征向量f′,做法如crow类似,f′=[f1′,f2′,...,fn′],只是fk′只限于滑窗内的元素的加和,而不是整张特征图的元素相加;通过n个滑窗处理后,依次采用l2归一化、pac-whitening降维、l2归一化的顺序进行优化,三维特征变成n个区域特征向量;最后将所有区域特征向量直接相加生成全局特征向量g,g的表达式如下:

g=f′1+f′2+...+f′n(7)

公式(7)中,g表示全局特征向量,特征向量f′表示局部特征向量。

步骤3所述的检索与重排,具体按照以下步骤实施:

步骤3.1,使用余弦距离衡量查询图与测试图的相似性,余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异大小的度量;欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,余弦距离更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用户对内容评分来区分兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦距离对绝对数值不敏感);将全局特征向量看成是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么可以认为这两个向量相近;而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角;因此,使用余弦距离来判别全局特征向量的相似性,图片x和y的相似性用下面表达式表示:

因为余弦距离是体现向量之间方向上的差异,因此使用l2归一化和pac-whitening降维后不会影响最后相似度的评价;

步骤3.2,使用查询扩展算法对初始排名进行重排,查询扩展,即qe(queryexpansion),是一种效果好的重排方法,该方法选取排名最前的几张图像(包括查询图像),计算其特征向量的平均值向量,最后用平均值向量对结果进行最终重排;虽然方法简单,但对结果有显而易见的提升,能极大提高检索召回率。

本发明的有益效果在于:

1)本发明使用特征加权和区域整合的方法对提取的卷积特征进行优化处理得到能描述整幅图像的全局特征,该特征突显图像的位置信息和边缘信息,并且包含图像局部信息。因此,本发明能获得一种精确描述图像的特征描述子。

2)本发明将对卷积特征优化处理后得到的特征描述子用于图像检索,提高图像检索的精确度。

3)本发明最后采用余弦相似性和查询扩展方法进行检索和重排,能明显提高图像检索的鲁棒性。

4)本发明特征加权和区域整合的图像检索方法也适合于视频检索领域,能大幅提高视频检索的精度。

附图说明

图1是本发明基于cnn特征加权和区域整合的图像检索方法的框架图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

从算法流程来看,本发明大体包括三个步骤:特征提取与加权、区域整合、检索与重排。特征提取与加权阶段,提取卷积神经网络最后一个卷基层三维特征,然后通过空间加权和通道加权对特征每个元素赋予新的权重,于是得到能突显图像边缘信息和位置信息的新三维特征。区域整合阶段,用事先设计好的不同尺度的滑窗使每个特征平面划分成不同多个区域,对每个区域内的元素直接求和,因此每个区域得到一个代表该区域性质的向量。对于这些向量经过l2归一化,pac-whitening降维,再次l2归一化,再对多个向量相加整合成一个向量,该向量就是我们最终用来表示整张图像的特征描述子。检索与重排阶段,计算图像之间的余弦距离作为相似度得分,根据得分获得初始检索排名,再利用初始排名进行查询扩展得到最终检索结果。

从算法输入输出来看,本发明输入三个图像库(训练图库、查询图库、测试图库),输出测试图库相对于查询图库的检索map(平均精度均值)。训练图库用于训练pca参数,该参数使用于查询图库和测试图库的区域向量进行pac-whitening优化时。目的是对于查询图库中的每张图,测试图中所有图得到前后排名,且该排名需要符合人眼的感知排名。因此查询图和测试图特征描述子的获取步骤相同。

参见图1,本发明特征加权与区域整合的图像检索方法,具体按照以下步骤实施:

步骤1,特征提取与加权,提取最后一个卷积层的三维特征,将提取的特征进行空间加权和通道加权,在空间加权时将多个通道相加求和以突显出非零且响应大的区域,而这些区域也一般都是物体所在的区域,在通道加权时,使用idf(逆向文件频率)的思想进行赋值;

步骤2,区域整合,设计多种不同尺寸的滑窗将加权后的特征平面划分成多个区域,每个区域内的元素相加求和得到多个局部特征向量,经过l2归一化,pac-whitening降维,再次l2归一化,最后直接相加得到全局特征;

步骤3,检索与重排,使用余弦距离衡量查询图与测试图的相似度得出初始排名,并且用拓展查询方法进行重排得出最终的map(平均精度均值)。

步骤1所述的特征提取与加权,提取最后一个卷积层的三维特征,将提取的特征进行空间加权和通道加权,在空间加权时我们将多个通道相加求和以突显出非零且响应大的区域,而这些区域也一般都是物体所在的区域,在通道加权时,使用idf(逆向文件频率)的思想进行赋值。图1中训练图库用于pca参数训练。查询图库和测试图库用于评判图像检索方法的好坏。要做到的效果是,选择一张查询图库中图像,能输出在测试图库中与该查询图像最相似的图片。具体按照以下步骤实施:

用x∈r(n×w×h)表示用卷积神经网络提取的三维特征,w、h分别表示每一层特征平面(featuremap)的宽度、长度,n是通道的数量;w,h的大小会随输入网络图像的大小不同而变化;xkij表示在第k个通道上的特征图位置为(i,j)处的元素;c(k)表示第k个通道的整张特征图,首先对c(k)上的每个元素加权,则总共有i×j个权重,每个权重用aij表示,类似的,用表示第k个通道的特征平面上位置为(i,j)处的元素,对每个通道加权,每个权重用bk表示。

步骤1.1,对空间加权(特征平面加权),直接对每个通道的特征图相加求和,通常情况下,通过卷积滤波,响应强的地方一般都是物体的边缘等,将多个通道相加求和后,那些非零且响应大的区域一般都是物体所在的区域,因而可以将其作为特征图的权重,s′ij表示每个特征图上位置为(i,j)处的元素的加和,表达式如下:

于是可以得到空间权重aij,表达式如下:

公式(2)中,m的取值范围是[1,w],n的取值范围是[1,h],其中可以看做是矩阵s的2范数;根据预实验数据,当α=2,β=2时检索精确度最好,aij表示空间权重,s′ij表示每个特征图上位置为(i,j)处的元素的加和;

步骤1.2,对特征通道加权,采用逆向文件频率权重的方法,若某个通道的特征图上每个像素值都是非零的,且都比较大,那么视觉上,强响应区域将占据整个特征图,这个通道的特征图不利于定位物体所在的区域,要降低其通道权重,对于强响应区域占特征图面积相对较小的通道,认为其包含了图像更准确的物体位置信息,要增大这些通道的权重,mk表示第k个通道上非零元素的个数,表达式如下:

公式(3)中,mk表示第k个通道上非零元素的个数,用表示第k个通道的特征平面上位置为(i,j)处的元素,

根据非零元素的多寡进行通道加权,bk表达式如下:

公式(4)中,bk表示每个通道的权值,mk表示第k个通道上非零元素的个数,ε为极小值,保证分母不为零,取ε=1,对结果几乎不影响;

步骤1.3,形成最终加权特征,加权之后,每个元素的值变为x′kij,其中x′kij=aijbkxkij,aij表示空间权重,bk表示每个通道的权值,xkij表示在第k个通道上的特征图位置为(i,j)处的元素,

公式空间加权和通道加权的目的是增大感兴趣区域的权重,降低非物体区域的权重,

空间加权和通道加权的目的是增大感兴趣区域的权重,降低非物体区域的权重。

步骤2,区域整合,设计多种不同尺寸的滑窗将加权后的特征平面划分成多个区域,每个区域内的元素相加求和得到多个局部特征向量,经过l2归一化,pac-whitening降维,再次l2归一化,最后直接相加得到全局特征,具体按照以下方法实施:

本小节介绍将三维特征整合成全局特征向量的方法,crow将每个通道的元素直接相加,得到长度为n的特征向量f,f=[f1,f2,...,fk],fk的表达式如下:

公式(5)中,fk表示第k个特征向量,xkij表示在第k个通道上的特征图位置为(i,j)处的元素,

crow特征只考虑了特征图的全局性,而没有考虑局部性,因此,将特征图分成多个不同区域进行单独计算,再进行整合,设三种窗口大小,采用求和的方式处理每一个窗口对应的特征图区域,用l种不同尺度的滑窗对特征图进行区域划分,例如l=3时,通常可以得到20个区域特征,此外,采用相加求和的方式处理整个特征图得到一个特征向量,于是一幅图可以得到21个区域特征,将这21个区域特征直接相加求和,即得到最终的全局特征,在窗口与窗口之间,都有一定的重叠区域,采用相加求和的方式生成全局特征,因此,可以认为赋予了那些重叠的区域较大的权重,每个滑窗都是正方形的,采用均匀采样的方式并且自动调整中心的位置以保证重叠的区域达到40%。滑窗的大小由特征图的短边决定,滑窗边长的表达式如下:

公式(6)中,1表示滑窗边长,l表示不同尺度的滑窗,

当l=3时,有3种不同尺度的滑窗套在特征图上,将滑窗内的元素直接相加;一个滑窗会生成一个特征向量f′,做法如crow类似,f′=[f1′,f2′,...,fn′],只是fk′只限于滑窗内的元素的加和;通过n个滑窗处理后,依次采用l2归一化、pac—whitening降维、l2归一化的顺序进行优化,三维特征变成n个区域特征向量;最后将所有区域特征向量直接相加生成全局特征向量g,g的表达式如下:

g=f1'+f2'+...+fn'(7)

公式(7)中,g表示全局特征向量,特征向量f'表示局部特征向量。

步骤3,检索与重排,使用余弦距离衡量查询图与测试图的相似度得出初始排名,并且用拓展查询方法进行重排得出最终的map(平均精度均值),具体按照以下方法实施:

步骤3.1,使用余弦距离衡量查询图与测试图的相似性,余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异大小的度量。欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,余弦距离更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用户对内容评分来区分兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦距离对绝对数值不敏感)。将全局特征向量看成是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么可以认为这两个向量相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。因此,本发明使用余弦距离来判别全局特征向量的相似性,图片x和y的相似性用下面表达式表示:

因为余弦距离是体现向量之间方向上的差异,因此使用l2归一化和pac-whitening降维后不会影响最后相似度的评价;

步骤3.2,使用查询扩展算法对初始排名进行重排,查询扩展,即qe(queryexpansion),是一种简单的重排方法,该方法选取排名最前的几张图像(包括查询图像),计算其特征向量的平均值向量,最后用平均值向量对结果进行最终重排。虽然方法简单,但对结果有显而易见的提升,能极大提高检索召回率。

以往提取局部特征(比如sift特征)构建bow、vlad、fishervectors向量时,可以将sift特征限制在有物体的区域内。同理,基于cnn的图像检索中,提取有物体的区域的特征。通常有两种方式来细化图像检索的特征:一种是先做物体检测,然后在检测到的物体区域里面提取cnn特征;另一种方式是我们通过某种权重自适应的方式,加大有物体区域的权重,而减小非物体区域的权重。本文即是采用的后一种方法。ygong等人提出的mop算法(gongy,wangl,guor,etal.multi-scaleorderlesspoolingofdeepconvolutionalactivationfeatures)采用一种多尺度的滑窗对原图进行处理,本文采用类似的方法在特征平面上进行滑窗处理得到区域特征向量,区域向量直接相加得到全局特征,最后计算特征向量之间的相似性得分进行检索排名。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1