基于卷积神经网络和监督核哈希的目标检索方法与流程

文档序号:14990888发布日期:2018-07-20 22:12阅读:175来源:国知局

本发明涉及检索方法领域,尤其是基于卷积神经网络和监督核哈希的目标检索方法。



背景技术:

随着大数据时代的到来,互联网视频图像资源迅猛增长,如何对大规模视频、图像资源中的关注目标进行快速有效地检索以满足用户需求亟待解决。虽然局部特征点的出现,如sift(scale-invariantfeaturetransform)、hog(histogramoforientatedgradients)等在图像处理领域表现出优良的性能,但是生成这些描述子时固定的编码步骤使得描述子缺少学习能力,限制了其图像内容表达能力,难以适应多样的图像数据,在一定程度上降低了大规模图像目标检索性能。为了得到大量图像数据的内在隐含关系,生成更具有区分性和代表性的特征,hinton等学者将深度学习(deeplearning)应用于图像处理领域中,为提取更加有效的图像特征提供了新思路。

深度置信网络(deepbeliefnetwork,dbn)顶层采用三阶玻尔兹曼机(boltzmannmachine,bm),将改进的dbn用于三维目标特征提取,该特征对目标旋转变化具有较高的鲁棒性。此外,研究者构建了卷积深度置信网络(convolutionaldeepbeliefnetwork,cdbn),利用cdbn能从未标注的自然图像中学习有效的高阶特征表示。以及通过在卷积神经网络(convolutionalneuralnetwork,cnn)的卷积层和全连接层加入spp(spatialpyramidpooling)层,直接对不同大小图像进行学习并生成多尺度特征。

但是,深度学习生成的图像特征维数较高,存在维数灾难问题,当图像数据规模较大时,若采用传统的最近邻检索方法(如r-tree、kd-tree等)进行检索就会使检索速度急剧下降,难以适用于大规模数据。为实现对大规模高维图像数据进行有效检索,研究者提出了近似最近邻搜索策略(approximatenearestneighbor,ann)。其中,哈希技术(hashing)是解决近似最近邻检索问题的主流方法,其思想是利用哈希函数族将高维图像特征映射到低维空间中,同时使得原空间中距离较近的点映射到低维空间后仍保持较近的距离。lsh及其改进算法构造的哈希函数都是与数据无关的,近年来,研究者们针对如何结合数据特点构造有效、紧致的哈希函数提出了许多算法。谱哈希方法(spetralhashing,sh)首先对相似图的拉普拉斯矩阵特征值和特征向量进行分析,再通过放宽限制条件,将对图像特征向量编码问题转换为拉普拉斯特征图的降维问题进行求解,该方法依赖数据本身生成索引比随机产生哈希函数方法达到更高的准确率。但是,无监督的方法并没有考虑图像的语义信息,而用户往往更倾向于检索结果的语义信息。为此,研究人员提出了半监督哈希方法(semi-supervisedhashing,ssh)。在半监督学习方法的基础上研究者们还提出了一些全监督哈希方法,例如sh(semantichashing)、bre(binaryreconstructiveembedding)、mlh(minimallosshashing)等,全监督哈希方法相比于非监督方法能达到更高的准确率,但是存在优化过程较为复杂、训练效率低等问题,这严重限制了其在大规模数据集上的应用。



技术实现要素:

本发明要解决的技术问题是:为了解决现有的无监督的方法并没有考虑图像的语义信息的不足,本发明提供了一种基于卷积神经网络和监督核哈希的目标检索方法,通过基于卷积神经网络和监督核哈希的目标检索方法,能够能够利用卷积神经网络对大规模图像数据特征进行自主学习,增强图像特征的表达能力。其次,由监督核哈希方法对高维图像深层特征进行监督学习,并将高维特征映射到低维汉明空间中,生成紧致的哈希码,极大地提高了目标检索效率,增强了在大数据环境下的实用性。

本发明解决其技术问题所采用的技术方案是:

一种基于卷积神经网络和监督核哈希的目标检索方法,包括以下步骤:

(1)引入卷积神经网络对训练图像进行学习,利用其特殊网络结构隐式地学习得到图像数据的高阶表示,生成深层特征;

(2)引入增强对线性不可分数据的分辨力的监督核哈希方法,同时利用哈希码内积与汉明距离的等价关系提出目标函数,并结合训练图像的相似性信息对高维图像特征进行监督学习,并生成哈希码;

(3)利用已训练好的哈希函数构造图像索引,实现对大规模图像数据的检索。

具体地,所述卷积神经网络的输入图像大小为227×227,输出为4096×1的图像深层特征,一共包含5个卷积层、3个子采样层;在卷积层前一层的特征图与可学习的卷积核kij进行卷积,卷积的结果经非线性函数f(·)生成这一层的特征图具体形式如下:

公式一:

为第l个卷积层cl的输出,代表卷积运算,bj为偏置,卷积核kij可与前一层的一个或多个特征图确定卷积关系,mj代表输入特征图集合,常用的非线性函数有f(x)=tanh(x)和f(x)=(1+e-x)-1,卷积层生成的特征图大小hl可由公式二进行计算:

公式二:

hl-1为第l-1层特征图的大小,zl表示第l层卷积核的大小,λl是卷积核移动步长,ρl表示卷积运算时对前一层特征图边缘补零的列数;各层卷积核大小z={z1=11,z2=5,z3=z4=z5=3},移动步长λ={λ1=4,λ2=λ3=λ4=λ5=1},特征图边缘补零列数p={ρ1=0,ρ2=2,ρ3=ρ4=ρ5=1};子采样层采用重叠采样方法对特征图进行最大值采样,采样区域为3×3,采样步长为2个像素;

卷积神经网络的训练主要分前向传播和后向传播两个阶段:

前向传播阶段:从训练样本中选取一个样本(x,yp),x从输入层经逐级变换传送到输出层,计算相应的实际输出:

公式三:op=fn(…(f2(f1(xpw(1))w(2))…)w(n))

后向传播阶段:该阶段为误差传播阶段,计算实际输出op与对应理想输出yp

的误差:

公式四:

将误差ep反向逐层后推得到各层的误差,并按最小化误差方法调整神经元权值,当总误差e≤ε时,完成该批次训练样本的训练,当所有批次训练完成后,将图像输入卷积神经网络中,图像数据逐级通过各个网络层后,在输出端即可得到图像的深层特征。

具体地,度量图像之间距离时,给定所述哈希码的维数r,则需要r个系数向量a1,…,ar构造哈希函数训练图像的标签信息可通过图像的语义相关性和空间距离获得,定义为描述标签图像集χl={x1,…,xl}中元素之间的相互关系的监督矩阵

公式五:

使得图像xi,xj的汉明距离dh(xi,xj)满足:

公式六:

利用向量内积运算计算哈希码距离,图像x的哈希码coder(x)=[h1(x),…,hr(x)]∈{1,-1}1×r,则图像xi,xj的距离计算如公式十一所示:

d(xi,xj)=coder(xi)·coder(xj)

=|{k|hk(xi)=hk(xj),1≤k≤r}|-|{k|hk(xi)≠hk(xj),1≤k≤r}

=r-2|{k|hk(xi)≠hk(xj),1≤k≤r}|

公式七:=r-2dh(xi,xj)

d(xi,xj)∈[-r,r],对d(xi,xj)归一化后得到定义使得相似矩阵与监督矩阵s距离最小的目标函数:

公式八:

表示求矩阵frobenius范数,为标签图像集χl的哈希码矩阵,将sgn(·)推广到矩阵形式,根据公式(3)hl可表示成:

公式九:

将hl代入公式八得

公式十:

公式十一:

定义矩阵其中r0=rs,则可通过贪婪算法最小化式(11)逐步估算ak:

公式十二:

去掉常数项,可以得到更简洁的目标函数:

公式十三:

替换sgn(x),则近似目标函数如式十四所示:

公式十四:

可通过梯度下降法对最小化,关于ak求梯度得:

公式十五:

⊙表示hadamard内积运算,为加速收敛而用谱哈希中的谱分析方法生成初始值再加速梯度寻优过程,得到哈希函数h和哈希表h后,对查询图像的深层特征进行哈希映射得到coder(xq),计算coder(xq)与哈希表h中哈希码的距离,返回距离较近的图像作为检索结果。

本发明的有益效果是:本发明提供了一种基于卷积神经网络和监督核哈希的目标检索方法,通过基于卷积神经网络和监督核哈希的目标检索方法,能够能够利用卷积神经网络对大规模图像数据特征进行自主学习,增强图像特征的表达能力。其次,由监督核哈希方法对高维图像深层特征进行监督学习,并将高维特征映射到低维汉明空间中,生成紧致的哈希码,极大地提高了目标检索效率,增强了在大数据环境下的实用性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的卷积神经网络的结构示意图;

图2是本发明用于图像深层特征提取的卷积神经网络结构图;

图3是本发明在imagenet-100数据库上目标检索map值的示意图;

图4是本发明训练时间随哈希码位数r变化曲线的示意图;

图5是本发明在caltech-256数据库上目标检索map值的示意图;

图6是本发明在caltech-256数据库上precision-recall曲线的示意图;

具体实施方式

图1是本发明的卷积神经网络的结构示意图,图2是本发明用于图像深层特征提取的卷积神经网络结构图,图3是本发明在imagenet-100数据库上目标检索map值的示意图,图4是本发明训练时间随哈希码位数r变化曲线的示意图,图5是本发明在caltech-256数据库上目标检索map值的示意图,图6是本发明在caltech-256数据库上precision-recall曲线的示意图。

首先,引入卷积神经网络对训练图像进行学习,利用其特殊网络结构隐式地学习得到图像数据的高阶表示,生成具有更强区分性和表达能力的深层特征;

其次,引入监督核哈希方法(kernel-basedsupervisedhashing,ksh)增强对线性不可分数据的分辨力,同时利用哈希码内积与汉明距离的等价关系提出更加简单、有效的目标函数,并结合训练图像的相似性信息对高维图像特征进行监督学习,并生成紧致的哈希码;

最后,利用已训练好的哈希函数构造图像索引,实现对大规模图像数据的高效检索。

所述的基于卷积神经网络和监督核哈希的目标检索方法,首先,利用卷积神经网络结构提取图像的深层特征,所用卷积神经网络的输入图像大小为227×227,输出为4096×1的图像深层特征,一共包含5个卷积层、3个子采样层。在卷积层,前一层的特征图与可学习的卷积核kij进行卷积,卷积的结果经非线性函数f(·)生成这一层的特征图具体形式如下:

其中,为第l个卷积层cl的输出,代表卷积运算,bj为偏置,卷积核kij可与前一层的一个或多个特征图确定卷积关系,mj代表输入特征图集合,常用的非线性函数有f(x)=tanh(x)和f(x)=(1+e-x)-1,与上述非线性函数相比,f(x)=max(0,x)能有效提高训练效率。卷积层生成的特征图大小hl可由公式(2)进行计算:

其中,hl-1为第l-1层特征图的大小,zl表示第l层卷积核的大小,λl是卷积核移动步长,ρl表示卷积运算时对前一层特征图边缘补零的列数。这里,各层卷积核大小z={z1=11,z2=5,z3=z4=z5=3},移动步长λ={λ1=4,λ2=λ3=λ4=λ5=1},特征图边缘补零列数p={ρ1=0,ρ2=2,ρ3=ρ4=ρ5=1}。在子采样层,文献表明相对于传统的无重叠采样,使用重叠采样不仅能提高特征的准确性,还可以防止训练阶段出现过拟合,因此,这里采用重叠采样方法对特征图进行最大值采样,采样区域为3×3,采样步长为2个像素。

卷积神经网络的训练主要分前向传播和后向传播两个阶段:

(1)前向传播阶段。从训练样本中选取一个样本(x,yp),x从输入层经逐级变换传送到输出层,计算相应的实际输出:

op=fn(…(f2(f1(xpw(1))w(2))…)w(n))(3)

(2)后向传播阶段,也称误差传播阶段。计算实际输出op与对应理想输出yp的误差:

将误差ep反向逐层后推得到各层的误差,并按最小化误差方法调整神经元权值,当总误差e≤ε时,完成该批次训练样本的训练。当所有批次训练完成后,将图像输入卷积神经网络中,图像数据逐级通过各个网络层后,在输出端即可得到图像的深层特征。

所述的基于卷积神经网络和监督核哈希的目标检索方法,在度量图像之间距离时,给定哈希码的维数r,则需要r个系数向量a1,…,ar构造哈希函数训练图像的标签信息可通过图像的语义相关性和空间距离获得,lable(xi,xj)=1表示图像xi,xj是相似的;反之,lable(xi,xj)=-1代表图像xi,xj差异很大。为描述标签图像集χl={x1,…,xl}中元素之间的相互关系,定义监督矩阵

其中,lable(xi,xi)≡1,sii≡1,sij=0表示图像xi,xj之间的相似性不确定。为增强哈希码的区分能力,使得在汉明空间中能高效地判断图像之间的相似性,应尽量使得图像xi,xj的汉明距离dh(xi,xj)满足:

由于汉明距离计算公式dh(xi,xj)=|{k|hk(xi)≠hk(xj),1≤k≤r}|形式复杂,很难直接对其进行优化,因此本文利用向量内积运算计算哈希码距离。图像x的哈希码coder(x)=[h1(x),…,hr(x)]∈{1,-1}1×r,则图像xi,xj的距离计算如式(11)所示:

d(xi,xj)=coder(xi)·coder(xj)

=|{k|hk(xi)=hk(xj),1≤k≤r}|-|{k|hk(xi)≠hk(xj),1≤k≤r}|

=r-2|{k|hk(xi)≠hk(xj),1≤k≤r}|

=r-2dh(xi,xj)(7)

式(7)表明了通过哈希码内积运算与汉明距离运算是一致的,且d(xi,xj)∈[-r,r],对d(xi,xj)归一化后得到为使得相似矩阵与监督矩阵s距离最小,定义目标函数:

其中,表示求矩阵frobenius范数,为标签图像集χl的哈希码矩阵。将sgn(·)推广到矩阵形式,根据公式(3)hl可表示成:

其中,将hl代入式(8)得

与bre和mlh相比,目标函数γ(a)通过内积计算相似性,对参数a建模更加直观。假定在t=k时刻,已知向量需要估算ak,定义矩阵其中r0=rs,则可通过贪婪算法最小化式(11)逐步估算ak:

去掉常数项,可以得到更简洁的目标函数:

由于目标函数中的sgn(x)函数使得不连续,而且也不是凸函数,很难直接对最小化,当|x|>6时,连续函数能很好地近似sgn(x),因此利用替换sgn(x),则近似目标函数如式(14)所示:

可通过梯度下降法对最小化,关于ak求梯度得:

其中,⊙表示hadamard内积运算。经平滑处理后的不是凸函数,无法求得全局最优解,为了加速收敛,本发明利用谱哈希中的谱分析方法生成初始值再加速梯度寻优过程,具体实施步骤如下所示:

监督核哈希方法实现步骤:

输入:训练图像集标签图像集以及监督矩阵

核函数κ哈希码位数r,参与训练的样本数m(<l)。

预处理:从χ中随机选取m张图像,得到

训练:初始化r0=rs,tmax=500;

fork=1,…,rdo

利用谱分析方法得到代入目标函数中,通过梯度下降法计算得到

endif

rk←rk-1-h*(h*)t

endfor

编码:fori=1,…,ndo

输出:哈希函数和哈希表h={coder(xi)|i∈[1,n]}。

得到哈希函数h和哈希表h后,对查询图像的深层特征进行哈希映射得到coder(xq),计算coder(xq)与哈希表h中哈希码的距离,返回距离较近的图像作为检索结果。

实施例一:本实施例基于卷积神经网络和监督核哈希的目标检索方法。首先,引入卷积神经网络对训练图像进行学习,利用其特殊网络结构隐式地学习得到图像数据的高阶表示,生成具有更强区分性和表达能力的深层特征;然后,引入监督核哈希方法(kernel-basedsupervisedhashing,ksh)增强对线性不可分数据的分辨力,同时利用哈希码内积与汉明距离的等价关系提出更加简单、有效的目标函数,并结合训练图像的相似性信息对高维图像特征进行监督学习,并生成紧致的哈希码;最后,利用已训练好的哈希函数构造图像索引,实现对大规模图像数据的高效检索。

与传统的目标检索方法相比,有效地增强了图像特征的自主学习能力,并且能够利用监督核哈希生成紧致哈希码,减少时间开销,增强大规模数据下的实用性。

实施例二:参见图1、图2,本实施例的基于卷积神经网络和监督核哈希的目标检索方法,采用下述步骤,生成图像数据的深层特征:

首先,利用卷积神经网络结构提取图像的深层特征,所用卷积神经网络的输入图像大小为227×227,输出为4096×1的图像深层特征,一共包含5个卷积层、3个子采样层。在卷积层,前一层的特征图与可学习的卷积核kij进行卷积,卷积的结果经非线性函数f(·)生成这一层的特征图具体形式如下:

其中,为第l个卷积层cl的输出,代表卷积运算,bj为偏置,卷积核kij可与前一层的一个或多个特征图确定卷积关系,mj代表输入特征图集合,常用的非线性函数有f(x)=tanh(x)和f(x)=(1+e-x)-1,与上述非线性函数相比,f(x)=max(0,x)能有效提高训练效率。卷积层生成的特征图大小hl可由公式(2)进行计算:

其中,hl-1为第l-1层特征图的大小,zl表示第l层卷积核的大小,λl是卷积核移动步长,ρl表示卷积运算时对前一层特征图边缘补零的列数。这里,各层卷积核大小z={z1=11,z2=5,z3=z4=z5=3},移动步长λ={λ1=4,λ2=λ3=λ4=λ5=1},特征图边缘补零列数p={ρ1=0,ρ2=2,ρ3=ρ4=ρ5=1}。在子采样层,文献表明相对于传统的无重叠采样,使用重叠采样不仅能提高特征的准确性,还可以防止训练阶段出现过拟合,因此,这里采用重叠采样方法对特征图进行最大值采样,采样区域为3×3,采样步长为2个像素。

卷积神经网络的训练主要分前向传播和后向传播两个阶段:

(1)前向传播阶段。从训练样本中选取一个样本(x,yp),x从输入层经逐级变换传送到输出层,计算相应的实际输出:

op=fn(…(f2(f1(xpw(1))w(2))…)w(n))(3)

(2)后向传播阶段,也称误差传播阶段。计算实际输出op与对应理想输出yp的误差:

将误差ep反向逐层后推得到各层的误差,并按最小化误差方法调整神经元权值,当总误差e≤ε时,完成该批次训练样本的训练。当所有批次训练完成后,将图像输入卷积神经网络中,图像数据逐级通过各个网络层后,在输出端即可得到图像的深层特征。

在度量图像之间距离时,给定哈希码的维数r,则需要r个系数向量a1,…,ar构造哈希函数训练图像的标签信息可通过图像的语义相关性和空间距离获得,lable(xi,xj)=1表示图像xi,xj是相似的;反之,lable(xi,xj)=-1代表图像xi,xj差异很大。为描述标签图像集χl={x1,…,xl}中元素之间的相互关系,定义监督矩阵

其中,lable(xi,xi)≡1,sii≡1,sij=0表示图像xi,xj之间的相似性不确定。为增强哈希码的区分能力,使得在汉明空间中能高效地判断图像之间的相似性,应尽量使得图像xi,xj的汉明距离dh(xi,xj)满足:

由于汉明距离计算公式dh(xi,xj)=|{k|hk(xi)≠hk(xj),1≤k≤r}|形式复杂,很难直接对其进行优化,因此本文利用向量内积运算计算哈希码距离。图像x的哈希码coder(x)=[h1(x),…,hr(x)]∈{1,-1}1×r,则图像xi,xj的距离计算如式(11)所示:

d(xi,xj)=coder(xi)·coder(xj)

=|{k|hk(xi)=hk(xj),1≤k≤r}|-|{k|hk(xi)≠hk(xj),1≤k≤r}|

=r-2|{k|hk(xi)≠hk(xj),1≤k≤r}|

=r-2dh(xi,xj)(7)

式(7)表明了通过哈希码内积运算与汉明距离运算是一致的,且d(xi,xj)∈[-r,r],对d(xi,xj)归一化后得到为使得相似矩阵与监督矩阵s距离最小,定义目标函数:

其中,表示求矩阵frobenius范数,为标签图像集χl的哈希码矩阵。将sgn(·)推广到矩阵形式,根据公式(3)hl可表示成:

其中,将hl代入式(8)得

与bre和mlh相比,目标函数γ(a)通过内积计算相似性,对参数a建模更加直观。假定在t=k时刻,已知向量需要估算ak,定义矩阵其中r0=rs,则可通过贪婪算法最小化式(11)逐步估算ak:

去掉常数项,可以得到更简洁的目标函数:

由于目标函数中的sgn(x)函数使得不连续,而且也不是凸函数,很难直接对最小化,当|x|>6时,连续函数能很好地近似sgn(x),因此利用替换sgn(x),则近似目标函数如式(14)所示:

可通过梯度下降法对最小化,关于ak求梯度得:

其中,⊙表示hadamard内积运算。经平滑处理后的不是凸函数,无法求得全局最优解,为了加速收敛,本发明利用谱哈希中的谱分析方法生成初始值再加速梯度寻优过程,得到哈希函数h和哈希表h后,对查询图像的深层特征进行哈希映射得到coder(xq),计算coder(xq)与哈希表h中哈希码的距离,返回距离较近的图像作为检索结果。

实验结果与分析

这里,采用imagenet-1000和caltech-256图像集上对本发明进行了评估,imagenet-1000图像集是imagenet图像集的一个子集,是大尺度视觉识别竞赛(largescalevisualrecognitionchallenge,lsvrc)的评测数据集,包含1000个类别共计120万张图像;caltech-256图像集是目标分类任务中常用数据集,包含256个类别共计30608张图像,其中每个类别中至少包含80张图像。实验硬件配置为内存为6g的gpu设备gtxtitan和intelxeoncpu、内存为16g的服务器。目标检索性能指标采用查准率和查全率,其定义如下:

参数的影响

首先,为了验证监督核哈希方法(简称ksh)检索性能随哈希码位数r的变化,本发明在imagenet-1000图像集上进行了实验,并与当前的一些主流哈希方法进行比较,包括lsh(localitysensitivehashing)、sklsh(lshwithshift-invariantkernels)、sh(spetralhashing)、dsh(densitysensitivehashing)、pca-itq(iterativequantizationofpca)、bre(binaryreconstructiveembedding)等方法。实验首先从imagenet-1000图像集中随机选取50类,并对这50类图像提取gist特征;然后,从每个类中随机选取1000张图像的特征(共计50000张图像的特征)作为监督训练哈希函数的训练集,其余图像作为查询用例;最后,引入哈希方法进行检索,得到实验结果如图3所示:

从图3中可以看出,随着哈希码位数r的增加,各方法的map值有所提高,然而,当r增加到一定值后,map值增加幅值逐渐变小趋于饱和。对比各哈希方法的目标检索map值可知,采用本发明(ksh)进行检索较之其它主流方法有更好的表现,这是因为无监督哈希方法(例如lsh,sh,dsh,pca-itq等)和监督哈希方法bre没有很好地利用图像的语义信息构造哈希函数,导致检索性能较低;而本发明ksh引入核函数构造哈希函数加强了对线性不可分数据的分辨能力,同时结合了图像的相似性信息对哈希函数进行训练,生成更加紧致的哈希码,从而提高了目标检索性能。

实验又将本发明与当前主流哈希方法的哈希函数训练时间消耗进行了对比,具体如图4所示。从图4中不难看出,采用无监督哈希方法的时间消耗均比监督哈希方法少,无监督哈希方法大都是以保留原始特征的位置敏感性为优化目标,而监督哈希方法是以图像语义近邻信息作为监督信息,其寻优过程更为复杂,相比无监督哈希方法时间开销更大。

实验性能分析

为验证基于卷积神经网络和监督核哈希的目标检索方法(简称cnn+ksh)的有效性,在imagenet-1000图像集中随机选取了50类图像进行实验得到表1。从表1中不难看出,基于cnn提取深层特征进行检索的map值比基于全局gist特征进行检索的map值高出10%以上,说明利用cnn提取的图像深层特征具有更强的区分性和表达能力,这是因为gist特征提取步骤固定,不具有自主学习能力,从而使得其图像表达能力受限,而cnn能模仿大脑处理数据的模式对图像进行特征提取,而且其深层的网络结构能有效地挖掘图像内在隐含关系,增强了特征的图像表达能力。其中,本发明(cnn+ksh)的在线检索时间为1.775×10-4秒,与其它主流方法相当,而map值达到了40.79%,检索性能明显高于其它方法,因此本发明在大数据环境下具有较强的适用性。

表1不同方法的目标检索map值和检索时间对比(64bits)

对比图5、图6可知,本发明(cnn+ksh)在等长度哈希码编码下map值均高于其它主流方法,而且在保证相同查准率的条件下,cnn+ksh能达到比其它方法更高的查全率。文献中的方法都是对图像提取gist特征后再引入哈希方法构造索引,虽然gist特征通过多尺度多方向gabor滤波器组对图像滤波后得到了全局结构和空间上下文信息,但是gist特征粒度较为粗糙,而且缺乏自主学习能力,限制了其图像表达能力,并且这些文献中的哈希方法只是考虑如何结合数据特点构造哈希函数,并没有很好地利用图像的语义信息,导致其目标检索性能较低,难以适应于大规模目标检索;cnn+ksh方法利用imagenet-1000图像集对cnn进行训练,大量的训练图像使得cnn模型参数训练比较充分,能够有效挖掘图像内在隐含关系,有效增强了特征的图像表达能力,而且ksh利用图像相似性信息对哈希函数进行监督训练,同时采用贪婪算法和梯度下降法加速寻优过程,使得本发明优于当前主流方法。实验结果也证明了本发明(cnn+ksh)在caltech-256图像集上的检索性能明显优于其它方法。最后对于不同的查询图像,本发明较之于其它方法都能检索得到更多与查询图像相关的图像。

1.1卷积神经网络

卷积神经网络(convolutionalneuralnetwork,cnn)是由fukushima首次提出,是第一个真正成功训练多层网络结构的学习算法,并被广泛应用于解决如何提取学习图像数据的深层特征问题,其基本思想是将图像的局部感知区域作为网络的输入,信息再依次传输到不同的层,每层通过一个数字滤波器去获取对平移、旋转和缩放具有不变性的显著特征。

如图1所示,cnn是由多个卷积层(c层)和子采样层(s层)组成的多层深度神经网络,卷积层后一般都会跟随着子采样层,每层都是由多个二维平面组成,其网络结构可由图1所描述。卷积层也称特征抽取层,由多个特征图构成,其中每个特征图由多个独立的神经元组成,不同的特征图实现对上一层数据不同特征的抽取。同一特征平面的所有神经元共享一个或者多个连接权值,大幅度减少了需要训练的参数数目,且降低了cnn的复杂度。子采样层对特征图中子区域进行采样,实现对特征图高维特征降维,防止出现“维数灾难”现象,这种特有的两次特征提取结构使得特征对平移、缩放、形变等变换具有不变性,而且其深层的网络结构能有效地挖掘图像内在隐含关系,增强特征的表达能力。

1.2位置敏感核哈希(klsh)

为增强哈希函数对线性不可分的高维数据的分辨能力,kulis等利用核函数κ:构建哈希函数h:对高维数据进行映射生成哈希码,哈希函数具体形式如下式所示:

其中,x(1),…,x(n)是从χ中随机选取的m个样本,为了实现快速哈希映射,m是远小于n的常数。哈希函数h(x)除了满足低维汉明空间与原始高维空间的相似一致性外,还应保证生成的哈希码是均衡的,即哈希函数h(x)应满足

则偏置将b的值入公式(18)可得:

其中,a=[a1,…am]t是映射矩阵如式(21)所示:

其中,可通过预先计算得到,系数向量a是通过随机抽样得到的m维向量。本发明利用训练数据的相关性信息进行监督学习得到系数向量a,构造与数据相关的哈希函数,增强生成哈希码的区分性,提高检索查准率。

以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1