基于显著性特征稀疏嵌入和极限学习机的哈希编码方法与流程

文档序号:12472081阅读:357来源:国知局
基于显著性特征稀疏嵌入和极限学习机的哈希编码方法与流程

本发明涉及模式识别与机器学习领域,更具体地涉及一种基于显著性特征稀疏嵌入和极限学习机的哈希编码方法,属于数据降维技术领域。



背景技术:

大数据蕴藏着巨大的深度价值,对未来的科技与经济发展将带来深远影响,因此对大数据的存储、管理和分析已经成为学术界和工业界高度关注的热点。与传统数据相比,大数据具有数据量大、数据类型多、速度快时效高和价值密度低等特点。很多大数据应用场景中的数据都具有海量、高维等特性。数据的海量性将造成存储开销大、检索速度慢等问题,而数据的高维性将造成维度灾难问题。因此如何以最小的硬件和软件代价存储和管理这些海量高维数据是非常具有挑战性的问题。

哈希学习通过将数据表示成二进制码的形式,不仅能显著减少数据的存储和通信开销,还能降低数据维度,同时也能解决维度灾难问题,从而显著提高大数据学习系统的效率。因此,哈希学习近年来成为大数据学习中的一个研究热点。但是现有的哈希方法仍然存在一些局限性,比如局部敏感哈希算法(Locality Sensitive Hashing,1998)学习哈希函数没有考虑到数据的统计特性;主成分分析哈希(Principle Component Analysis Hashing,2005)通过学习数据之间的相互关系学习哈希函数,对于不同位数分配了相同的权重,没有考虑到图像中区域之间重要性的不同;谱哈希(Spectral Hashing,2009)有了很好地改善,但前提是所有数据在高维空间都是均匀分布的;锚点图哈希(Anchor Graph Hashing,2011)通过构建一个锚点图保存近似邻域结构,从而降低了时间复杂度,但是需要使用较长的二进制代码来获得好的性能;基于谱聚类和最小方差的哈希算法(SELVE,2014)是通过线性谱聚类方法和最小方差来编码样本、保存样本邻域结构。

综上所述,现有技术中主要存在以下两个方面的问题:(1)大多数哈希方法都是用二进制码的形式表征整幅图像,但该二进制码不区分图像的视觉显著性目标和背景,而人眼感知图像的方式是在纷杂的背景中提取出当前感兴趣的目标,并非背景或全部前景目标;(2)在哈希编码过程中,需要高的哈希编码位数才能取得较理想的精度,即存在时间复杂度高的问题。



技术实现要素:

鉴于上述问题,本发明的目的是提出了一种基于显著性特征稀疏嵌入和极限学习机的哈希编码方法,以弥补现有技术的不足。

本发明通过引入基于扩散的显著性目标检测和稀疏空间嵌入来模拟人眼感知图像的方式,直接对图像中视觉显著性目标区域进行稀疏表示;通过极限学习机的方法拟合哈希编码过程,提高编码速度、降低时间复杂度。

为达到上述目的,本发明首先通过多类图像数据集构造训练集和测试集;再对图像进行基于扩散的显著性目标检测来模拟人眼感知图像的方式,突出图像中视觉显著性目标区域;然后通过稀疏空间嵌入和最小方差编码学习哈希函数用于哈希编码,保留图像在原空间的语义信息和图像间的相似性关系;最后通过极限学习机的方法拟合哈希编码过程。

本发明具体包括如下步骤:

(1)通过多类图像数据集随机选择样本用来构造训练集和测试集

(2)对多类图像数据集Ω中的每一幅图像I进行基于扩散的显著性目标检测,通过超像素分割算法把每一幅图像I划分成N个超像素,计算N个超像素之间的归一化拉普拉斯算子矩阵Lrw、Lrw的特征值λL和特征向量uL,进一步构造扩散矩阵A、基向量s用来为每个超像素分配权重,得到目标显著图S,从而找到图像中视觉显著性目标区域;将目标显著图S加载到原始图像的相应位置,得到的加权图像I'能够更好地突显出图像中的视觉显著性目标区域,从而有效地降低图像中背景区域的干扰;

(3)在加权图像I'上提取全局特征,通过n×n的网格把图像划分成大小相等的子区域,每个子区域用m个尺度n个方向的Gabor滤波器进行滤波处理,所有子区域的特征串接得到整幅图像目标描述子Fi

(4)由于直接对目标描述子Fi压缩编码,会丢失视觉显著性目标区域的很多重要信息,因此我们先对目标描述子进行稀疏嵌入,把它映射到一个线性子空间,得到一种更为简洁的表达方式,即目标描述子Fi的空间稀疏特征向量

(5)通过最小方差编码学习空间稀疏特征向量之间的相互关系,学习到的编码矩阵Λ和视觉词典Ψ用来构造哈希函数,进行哈希编码。

通过极限学习机(Extreme Learning Machine,ELM)方法拟合上述哈希编码的过程。传统的神经网络学习算法(如BP算法)需要人为设置大量的网络训练参数,并且很容易产生局部最优解。由于极限学习机(Extreme Learning Machine,ELM)方法具有学习速度快、泛化性能好和参数设置少等优点,因此选择ELM拟合整个编码过程,使得哈希编码可以保存原始数据之间的相似性,并且提高编码速度。

所述的基于扩散的显著性目标检测算法来突出图像中视觉显著性目标区域,该算法为:学习以下扩散矩阵A、基向量s=(s1,…,sN):

A=U·Λ·DC·UT

s=Ax

其中,U=[u2,...,ur],DC=diag{dc(u2),...,dc(ur)},x=(x1,…,xN),通过显著值向量y=As=A2x得到图像的目标显著图,从而突出图像中视觉显著性目标区域。

所述稀疏空间嵌入和最小方差编码的哈希函数,其中为保留图像在原空间的语义信息和图像间的相似性关系,需要满足下列约束条件:

其中,Ψ=[ψ1,...,ψj,...,ψc]∈Rk×c为视觉词典,为空间稀疏特征向量在视觉词典Ψ下的编码矩阵,θi是的编码向量,λ是常数。

所述通过极限学习机的方法拟合哈希编码过程,需要满足下列约束条件:

Hβ=T

其中,a=[a1,a2,…,aL]T是连接输入层和隐层的权重矩阵,L是隐层节点的个数;b=[b1,b2,…,bL]T是连接输入层和隐层的偏置向量;G(x)是隐层的激励函数。

上述编码方法可以应用在图像检索、图像内容识别、数据挖掘、模式识别、多媒体信息处理、计算机视觉、推荐系统、社交网络分析,以及数据库研究等领域。以图像检索为例,当用户上传了一张图像后,我们需要在数据库内返回与用户搜索图像相同或相近的图像,通过上述编码方法先对数据库中的图像进行哈希编码,然后建立索引,对于搜索图像同样进行哈希编码,通过计算查询图像与数据库中图像的距离,能够快速高效地进行图像检索。

本发明的优点:本发明通过引入基于扩散的显著性目标检测来模拟人眼感知图像的方式,突出视觉显著性目标区域,从而降低了图像中背景信息对哈希编码的消极影响;通过对目标描述子的稀疏空间嵌入保留图像在原空间的语义信息,从而避免了信息损失,极大地提高了编码效率;通过ELM拟合整个编码过程实现了图像的快速编码,降低了内存的消耗,显著减少了图像的存储空间,同时也能够极大地降低时间复杂度。

附图说明

图1是本发明的整体流程图。

图2是本发明实施例训练集中的部分图像、目标显著图和加权图像。

图3是本发明应用的ELM网络结构图。

图4是本发明实施例通过评价指标Ap和Ph2的评价结果图。

图5是本发明实施例通过识别率和编码时间的评价结果图。

具体实施方式

为使本发明的内容和优点更加清晰,以下通过具体实施例,并结合附图详细说明本发明的具体实施过程。

本实施例以MIT的LabelMe数据集为例进行详细说明,该数据集共2688幅彩色图像,每幅图像为256*256,共包括8种户外场景,分别为:海岸(360幅)、高山(374幅)、森林(328幅)、田野(410幅)、街道(292幅)、城市内部(308幅)、高楼(356幅)、高速公路(260幅)。

本实施例的整体流程如图1,具体详细过程如下:

(1)数据集划分

将LabelMe数据集中图像划分为:训练集(N1幅图像),测试集(N2幅图像),N1+N2=2688;

(2)基于扩散的显著性目标检测

对训练集和测试集中的每一幅图像I进行基于扩散的显著性目标检测,得到每幅图像I的目标显著图S,结果示例如图2所示,具体步骤如下:

a)通过超像素分割算法把LabelMe数据集中的图像I划分成N个超像素,每个超像素称为一个节点vi,1≤i≤N,一组节点对(vi,vj)之间的无向连接作为边界eij,1≤i,j≤N;边界eij的权重定义为wij

其中,vi,vj分别表示两个节点的颜色均值,σ是一个常数,用来控制权重的强度;

b)构造关联矩阵:W=[wij]N×N,阶矩阵:D=diag{d11,...,dii,...,dNN},其中dii=Σjwij,归一化拉普拉斯算子矩阵:Lrw=D-1(D-W);计算出Lrw的特征值λL和特征向量uL,2≤L≤N;

c)通过r来评价Lrw特征值λL的差异性:

特征向量uL的辨别力指标:

其中,var(uL)表示特征向量uL的方差,v表示方差的阈值;

d)根据上述计算,得到扩散矩阵A,基向量s=(s1,...,sN):

其中,U=[u2,...,ur],x=(x1,...,xN),

从而计算出显著值向量y:

y=As=A2x (5)

将显著值向量y=(y1,y2,yi,...,yN)的显著值yi分配到相应的节点vi,1≤i≤N,得到图像I的目标显著图S;将目标显著图加载到原始图像I的相应位置中得到加权图像I',如图2所示。

(3)加权图像的全局特征描述

将加权图像I'划分成大小相等的n×n的网格,每个网格的大小为m×m,对每个m×m的图像子区域用nc个通道的m个尺度n个方向的Gabor滤波器进行卷积滤波,来提取图像的轮廓信息,并将nc个通道滤波后的结果级联,得到该子区域的特征Gi(x,y):

x'=a-m(xcosθ+ysinθ);y'=a-m(-xsinθ+ycosθ) (8)

其中,i=1,2,...,n×n,x,y分别表示子区域的横纵坐标;f0为滤波器频率,反映待提取纹理的粗细;σxy分别为沿x,y方向上高斯分布的方差;是余弦谐波因子的相位差;θ=nπ/(n+1)为滤波器的方向,该方向与待提取纹理方向垂直;a-m为母小波膨胀尺度因子;f(x,y)为第i个图像子区域中坐标x,y的像素值;

将上述每个子区域的特征取平均值,得到该子区域的全局特征:

其中,表示在第nc个通道滤波后产生的平均特征值;表示第nc个通道滤波后产生的特征值,将每个子区域的nc个特征值级联,得到加权图像的目标描述子Fi,其维度为:n×n×nc;从而得到训练集的目标描述子测试集的目标描述子:

(4)目标描述子的稀疏空间嵌入

训练集(N1幅图像)中第i幅图像的目标描述子Fi,i=1,2,...,N1,聚类成k个类别,k远小于N1,聚类中心为mj,j=1,2,...,k,目标描述子Fi与聚类中心mj之间的欧氏距离为:

目标描述子Fi属于第j类的概率为pi,j,其中η是衰减率:

由pi=[pi,1,...,pi,j,…,pi,k]T来表示目标描述子Fi,pi由最近邻的τ个聚类中心表示,所以pi是一个稀疏的向量,从而得到目标描述子Fi的空间稀疏特征向量

其中,pτ为pi,j中前τ个的最大值,

(5)学习哈希函数用于哈希编码

为了从训练集中的空间稀疏特征向量中学习哈希函数,通过从P中学习视觉词典Ψ构造最小方差编码模型:

其中,Ψ=[ψ1,...,ψj,...,ψc]∈Rk×c为视觉词典,为空间稀疏特征向量在视觉词典Ψ下的编码矩阵,θi是的编码向量,λ是常数。

编码矩阵Λ和视觉词典Ψ不断更新,直到上式收敛或达到最大迭代次数;最后从编码向量θi中学习到二进制的哈希编码:

最后,得到训练集中N1幅图像的哈希编码测试集中图像的空间稀疏特征向量通过编码矩阵Λ和视觉词典Ψ得到对应的哈希编码

(6)ELM拟合上述哈希编码过程

ELM是一种简单易用、有效的单隐层前馈神经网络学习算法,共由三层网络结构组成:输入层、隐层和输出层,如图3所示;在该学习算法执行过程中不需要调整网络的输入权值以及偏置,只需要设置网络的隐层节点个数,即L的值,可以快速产生唯一的最优解,具有训练参数少、速度快、泛化性能好等优点。

通过上述哈希函数的学习,得到训练集的哈希编码测试集哈希编码通过ELM拟合上述编码过程,具体步骤如下:

a)训练阶段:ELM的输入为训练集的目标描述子向量集合目标输出为训

练集的哈希编码根据ELM网络的标准模型:

Hβ=T (15)

计算出隐层和输出层之间的权重矩阵:

其中,a=[a1,a2,…,aL]T是连接输入层和隐层的权重矩阵,L是隐层节点的个数;b=[b1,b2,…,bL]T是连接输入层和隐层的偏置向量;G(x)是隐层的激励函数,常用的有Sigmoid函数、Gaussian函数、Hardlimit函数、Multiquadric函数等;为隐层输出矩阵H的广义逆。b)测试阶段:输入为测试集的目标描述子集合根据(18)中隐层和

输出层之间的权重矩阵得到测试集的实际输出:

(7)哈希编码效率的检测和验证

为了验证该哈希编码方法的高效性,根据本发明的哈希编码方法把图像编码为8、16、32、64、128、160维度的哈希码,LabelMe数据集中M1幅图像的哈希编码用于训练,M2幅图像的哈希编码用于测试,M1+M2=2688,分别通过以下评价指标来检测和验证该哈希编码的有效性:

AP(图4a)、PH2(图4b):反映哈希编码全局性能的指标,数值越高,表示哈希编码性能越好,结果如图4所示;

识别率:衡量哈希编码分类精度的评价指标,识别率越高,表示编码效率越高,结果如图5(a)所示;

编码时间:衡量哈希编码时间复杂度的评价指标,时间越短,表示编码效率越高,结果如图5(b)所示。

结果分析:如图4所示,通过与其他两种哈希编码方法(图中Δ、o分别表示SH和SELVE算法)对比,本发明的哈希编码方法(图中□表示)全局性能有了显著提高;如图5所示,通过ELM拟合本发明的哈希编码后,编码时间有了大幅度下降、识别率也有了很大提高。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1