基于自学习特征和矩阵低秩复原的视觉显著性检测方法与流程

文档序号:11294071阅读:461来源:国知局

本发明涉及视觉显著性检测的技术领域,特别是指一种基于自学习特征和矩阵低秩复原的视觉显著性检测方法。



背景技术:

视觉显著性检测的实质是计算图像中各个部分吸引人们视觉注意的程度。近些年,随着大数据时代的到来,人们对图像等数据的需求不断增加,快速并准备地从中获取更多有效信息显得十分有必要。通过视觉显著性检测能够迅速定位输入图像中较为吸引人注意的区域,能够显著减少海量输入图像的数据,以不同的次序和力度对各个场景区域进行选择性加工,从而避免计算浪费,同时又降低了分析难度。

在视觉显著性的检测过程中,特征提取是其中的一个重要环节,对最终输出的显著图像有较大影响。现有方法的特征提取环节大部分都是基于特定的策略,可大致分为两类:1)基于手工设定的特征提取模板;2)基于数据驱动的特征提取模板。第一类特征提取方法在保证检测出输入图像的特征完整性的同时,通常会使用多个特征提取算子,但是这些特征算子之间存在大量的信息冗余,造成了运算资源的浪费。第二类特征提取方法虽然不是手工设定而是根据训练样本学习得到的,但是由于受训练样本范围的限制,学习得到的特征提取模板不可能对任何图像都有效,存在适应性的问题。



技术实现要素:

为了解决上述技术问题,本发明提出基于自学习特征和矩阵低秩复原的视觉显著性检测方法,其中,自学习特征提取的方法不仅适用于各类型的输入图像,同时也不受训练样本的限制,从而显著提高了视觉显著性检测的准确率。

本发明的思想在于:1)根据输入图像的原始数据自适应的学习出一组特征提取模板,利用该特征提取模板对输入图像进行卷积,得出输入图像的特征矩阵;2)对特征矩阵进行低秩矩阵复原,分解出一个低秩矩阵和一个稀疏矩阵,其中稀疏矩阵代表输入图像的显著区域;3)通过求解稀疏矩阵每列的1范数和高斯模糊等后处理方法,得到输入图像的视觉显著性检测结果。

本发明的技术方案是:一种基于自学习特征和矩阵低秩复原的视觉显著性检测方法,其步骤如下:

步骤一:获取自学习特征:

步骤1:预处理:

1)图像缩放:

对大小为k×g的原始图像进行等比例缩放,缩放比例为a,缩放后的图像大小为ak×ag,其中,k、g均是非负整数,0<a<1,ak=round(k×a),ag=round(k×g),round(·)代表四舍五入运算;

2)图像分块:

从缩放后图像的左上角到右下角采用b×b的滑动窗口顺次截取b×b的图像块,每个图像块都与水平和垂直方向的相邻图像块之间有50%的区域重叠,与±45°方向的相邻图像块之间有25%的区域重叠;将截取的所有图像块转换成列向量,并按照截取的次序组合成一个图像块向量矩阵,标记为:X=[x1,x2,...xN]∈Cm×N;其中,C代表自然数集合,xi,i∈[1,N]代表第i个图像块对应的列向量,N是图像块xi的个数;m是图像块xi的维数,m=b×b×c,c为图像通道数,b≥4,且b必须为偶数;

步骤2:自学习特征提取:

1)特征提取模板自学习:

将图像块矢量矩阵X作为训练样本集,自适应的特征提取模板W可通过求解如下目标函数最小化问题得到:

其中,W=[w1,w2,...wn]∈Rm×n,R代表实数集合,n代表特征提取模板W中基向量的个数;αi是计算过程中的一个中间变量,其初值通过随机数设定;||·||1和||·||2分别代表1范数运算和2范数运算,λ是公式(6)中用于平衡误差和稀疏性的折衷参数;

2)获取自学习特征矩阵:

任意一个图像块xi的特征向量fi可通过下式得到:

fi=xi**W (2);

其中,**代表卷积运算;图像块xi的特征向量fi∈Rn,所有图像块对应的特征向量联合组成图像的自学习特征矩阵:F=[f1,f2...,fN];

步骤二:基于自学习特征的矩阵低秩复原:

利用稀疏性,自学习特征矩阵F表示为:

F=L+S (3);

其中,L代表低秩矩阵,S代表稀疏矩阵,分别可表示为:

L=[l1,l2,...ln]∈Rm×N, (4)

S=[s1,s2,...sn]∈Rm×N (5);

对于输入图像,L代表特征相关性较强的背景区域,S代表图像的显著区域。可通过矩阵低秩复原来求解低秩矩阵L和稀疏矩阵S,即求解如下的目标函数最小化问题:

其中,L*∈Rn×N是低秩矩阵L的求解结果,S*∈Rn×N是稀疏矩阵S的求解结果,||·||*代表核范数运算,β是公式(6)中平衡目标函数第一项和第二项的折衷参数;

步骤三:获取视觉显著性检测结果:

步骤1:计算图像任意像素的视觉显著性:

1)获取任意图像块的视觉显著性:图像块xi的视觉显著性可通过下式计算:

其中,代表求解的稀疏矩阵S*的第i列,sri代表图像块xi的显著值;

2)获取任意像素的视觉显著性:相邻图像块之间有50%的区域重叠,同一像素点被多个图像块所包含,任意像素点的显著值通过计算所有包含该像素的图像块的显著值的均值得出:

其中,sr(x,y)代表坐标为(x,y)的像素点的显著值,l代表所有包含像素点(x,y)的图像块的个数,srj,j∈[1,l]代表第j个包含像素点(x,y)的图像块的显著值;

求出所有像素的显著值后,以sr(x,y)作为(x,y)处像素点的灰度值,得到缩放图像的初始视觉显著性图像SM'∈Rak×ag

步骤2:后处理:

对缩放图像的初始视觉显著性图像SM'进行高斯模糊,得到模糊后的图像SMgm∈Rak×ag

SMgm=SM'**gm (9)

其中,gm代表高斯模板;

将模糊后的图像SMgm缩放回输入图像的原始尺寸k×g,并将所有像素点的灰度值进行四舍五入取整,得到最终的视觉显著性图像SM∈Ck×g,SM即为输入图像的视觉显著性检测结果。

所述高斯模板gm的高斯核的标准差σ为缩放后输入图像宽度的0.03倍,高斯核的边长为最接近标准差4倍的奇数。

所述缩放比例为a=0.14,图像块xi的大小为8×8,特征提取模板W中基向量的个数n=300,图像块之间重叠率为50%。

本发明采用基于自学习特征和矩阵低秩复原的视觉显著性检测方法,不需要人工设定特征提取模板,也不需要额外的训练样本,直接以输入图像的原始数据作为训练样本,自适应的学习出特征提取模板,优势在于:1)特征提取模板可以准确的提取出图像的关键特征,具有较好的稀疏性;2)避免了人工设计的经验需求和特征之间的冗余,节约计算资源;3)避免了训练样本有限性带来的泛化能力不足的问题。本发明将自学习特征和矩阵低秩复原方法的配合使用,可以显著提高视觉显著性检测的准确率,得到的视觉显著性图像对图像分类、图像压缩、目标识别等方面具有重要意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,一种基于自学习特征和矩阵低秩复原的视觉显著性检测方法,用于实施的硬件环境是:Intel(R)Core(TM)i5CPU 3.2G计算机、8GB内存、1GB显存显卡,运行的软件环境是:Matlab R2014b和Windows 7。实验所选取的原始图像为一幅分辨率为681*511的彩色图片,如图1左上所示。如图1所示,本发明具体的实施步骤如下:

一、获取自学习特征:

1、预处理:

1)图像缩放:对大小为k×g的原始图像进行等比例缩放,缩放比例为a,缩放后的图像大小为ak×ag。其中,k、g都是非负整数,0<a<1,ak=round(k×a),ag=round(k×g),round(·)代表四舍五入运算。

为避免方法运算时间过长,影响运行效率,在特征模板自学习之前,首先要对图像进行缩放,以减小图像的大小。如图1所示,左上部分所示的RGB彩色图像(已经黑白处理),原始图像分辨率为:681×511,实验中选用的缩放比例为0.14,缩放后的图像分辨率为:95×72。

2)图像分块:从缩放后图像的左上角到右下角采用b×b的滑动窗口顺次截取b×b的图像块,每个图像块都与水平和垂直方向的相邻图像块之间有50%的区域重叠,与±45°方向的相邻图像块之间有25%的区域重叠;将截取的所有图像块转换成列向量,并按照截取的次序组合成一个图像块向量矩阵,标记为:X=[x1,x2,...xN]∈Cm×N;其中,C代表自然数集合,xi,i∈[1,N]代表第i个图像块对应的列向量,N是图像块xi的个数;m是图像块xi的维数,m=b×b×c,c为图像通道数,b≥4,且b必须为偶数。例如:若输入图像是RGB彩色图像,则c=3;若为灰度图像,则c=1。

采用8×8的滑动窗口对缩放后图像进行重叠分块。采用8×8的滑动窗口从图像的左上角顺次滑动到右下角:从第一行最左侧开始,滑动窗口每次向右滑动4个像素,滑动窗口每到一处就获取一个窗口所在区域的8×8彩色的图像块,缩放后图像的宽度为95个像素,95/4-1=22.75,获取22个图像块之后,第一行剩余3个像素,因此第一行最后一次只移动3个像素,第一行总计获取23个8×8彩色图像块。将滑动窗口向下移动4个像素,从图像最左侧开始第二行的滑动,方法与第一行相同,以此类推,直到图像的右下角。缩放后图像的高度为72个像素,72/4-1=17,滑动窗口总计截取17行的图像块,23×17=391,即:总计获取391个8×8的彩色图像块。由于在水平和垂直方向每次都只移动4个像素,因此任意图像块都与水平和垂直方向的相邻图像块之间有50%的区域重叠,与±45°方向的相邻图像块之间有25%的区域重叠。

将每个8×8的彩色图像块xi转换成列向量。每个彩色图像块都包括R、G、B三个通道,每个通道可转化成一个8×8=64维的列向量,按照R、G、B的顺序将3个64维的列向量拼接成一个64×3=192维的列向量。

将所有图像块xi转换成的列向量拼接得到图像块向量矩阵。将图像块xi转换成的列向量,按从图像的左上角到右下角的顺序组合成一个图像块向量矩阵,标记为X=[x1,x2,...x391]∈C192×391。其中,C代表自然数集合,xi∈R192,i∈[1,391]代表第i个图像块对应的列向量(后续也以xi直接代表第i个图像块)。

2、自学习特征提取:

1)特征提取模板自学习:

将上一步图像重叠分块后得到的图像块矢量矩阵X作为训练样本集,则自适应的特征提取模板W=[w1,w2,...wn]∈R192×n可通过求解如下的目标函数最小化问题得到:

其中,n代表特征提取模板W中基向量的个数,设定为300;||·||1和||·||2分别代表1范数和2范数运算,αi是计算过程中的一个中间变量,其初值通过随机数设定,0.1是一个平衡误差((1)式的第一项)和稀疏性((1)式的第二项)的折衷参数。式1的求解通过SPArse Modeling Software(http://spams-devel.gforge.inria.fr/downloads.html)中的mexTrainDL函数来实现。

2)获取自学习特征矩阵:

特征提取模板W确定之后,任意图像块xi的特征向量fi可以通过计算图像块xi和特征提取模板W中各基向量的卷积得到:

fi=xi**W (2)

其中,**代表卷积运算,fi∈R300,i∈[1,391]。所有图像块对应的特征向量联合组成一个特征矩阵,即:F=[f1,f2...,f391]∈R300×391。F即为图1输入图像的自学习特征矩阵。

二、基于自学习特征的矩阵低秩复原:

利用稀疏性,上一步得到的自学习特征矩阵F可表示为:

F=L+S (3)

上式中,L代表低秩矩阵,S代表稀疏矩阵,分别可表示为:

L=[l1,l2,...l391]∈R300×391 (4)

S=[s1,s2,...s391]∈R300×391 (5)

其中,l1,l2,...l391表示低秩矩阵L的列,其长度为300,s1,s2,...s391表示稀疏矩阵S的列,其长度为300。对于输入图像,L代表特征相关性较强的背景区域,S代表图像的显著区域。可通过矩阵低秩复原来求解低秩矩阵L和稀疏矩阵S,即求解如下的目标函数最小化问题:

其中,L*∈R300×391和S*∈R300×391分别是低秩矩阵L和稀疏矩阵S的求解结果,||·||*代表核范数运算,||·||1代表1范数运算。公式(6)可通过ALM(Augmented Lagrange Multiplier)算法求解(Zhouchen Lin,Minming Chen,and Yi Ma.The augmented lagrange multiplier method for exact recovery of corrupted low-rank matrices.arXiv preprint arXiv:1009.5055,2010.)。

三、获取视觉显著性检测结果:

1、计算任意像素的视觉显著性:

1)获取任意图像块的视觉显著性。在上一步得出求解的稀疏矩阵S*之后,计算求解的稀疏矩阵S*每列的1范数为图像块xi的视觉显著性:

其中,i∈[1,391]代表稀疏矩阵S*的第i列,sri,i∈[1,N]代表该列对应图像块xi的显著值,||·||1代表1范数运算。

2)获取任意像素的视觉显著性。由于在图像分块时相邻图像块之间有50%的重叠,同一像素点会被多个图像块所包含,因此,任意像素点的显著值须通过计算所有包含该像素的图像块的显著值的均值得出:

其中,sr(x,y)代表坐标为(x,y)的像素点的显著值。l代表所有包含像素点(x,y)的图像块的个数,若图像块位于图像的四个顶点,则l=3,若图像块位于图像除四个顶点之外的边界处,则l=5,在其它位置,l=8。srj,j∈[1,l]代表第j个包含像素点(x,y)的图像块的显著值。

在求出图像所有像素的显著值后,以sr(x,y)作为(x,y)处像素点的灰度值,得出图像初步的视觉显著性图像SM'∈R95×72

2、后处理:

为了获得更好的检测效果,需要对上一步得到的视觉显著性图像SM'进行高斯模糊:

SMgm=SM'**gm (9)

其中,gm代表高斯模板,SMgm∈R95×72代表模糊后的图像。高斯模板gm使用的高斯核的标准差σ为图像宽度的0.03倍,即:σ=0.03×95=2.85;高斯模板gm为正方形,其边长d约为标准差的4倍,即:d=2.85×4=11.4≈11,近似的原则为:选取最接近的奇数。

将模糊后的图像SMg缩放回输入图像的原始尺寸681×511,并将所有像素点的灰度值进行四舍五入取整,得到最终的视觉显著性图像SM∈C95×72,如图1右下角所示,该图就是图1左上角输入图像的视觉显著性检测结果。

实验可得,采用本发明的方法可获得91.29%的显著性检测正确率,优于其他同类显著性检测方法。其中,显著性检测正确率定义为正确检测的显著性区域大小与总的显著性区域大小之比。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1