一种基于堆栈式去噪自编码机的显著性物体检测方法

文档序号：6546376阅读：341来源：国知局

一种基于堆栈式去噪自编码机的显著性物体检测方法
【专利摘要】本发明涉及一种基于堆栈式去噪自编码机的显著性物体检测方法，首先利用去噪自编码机对位于图像周边的图块进行建模，然后将训练好的模型对整幅图像中的图块进行深度特征的提取及重建，并将深度重建残余作为显著性的计算手段。最终取得更具准确性，鲁棒性的显著物体检测结果。
【专利说明】一种基于堆栈式去噪自编码机的显著性物体检测方法
【技术领域】
[0001]本发明属于计算机视觉算法研究领域，涉及一种基于堆栈式去噪自编码机的显著性物体检测方法，可以在自然图像数据库中准确、鲁棒地计算出给定图像的显著物体。
【背景技术】
[0002]视觉显著性是视觉注意的一项重要功能，它表现为观察者从一个复杂的视觉场景中选择一个重要的内容进行集中处理，而忽略其他不太重要的内容。视觉场景中某些内容比其他内容更能获得观察者的注意，我们称它们具有更高的视觉显著性。视觉显著性的思想被大量地应用于视觉注意的计算模型中，ITTI在其经典的视觉注意计算模型中采用的显著性度量方法是基于像素与其周围邻域的局部视觉特征差异；Ma等人在2003年提出一种基于特征对比的显著性度量方法，该方法只考虑颜色特征，将输入图像从RGB颜色空间转换为LUV空间，进行颜色量化。为了处理简单，将输入图像调整到一个固定的尺寸。计算像素与其周围邻域的颜色特征对比度，得到该像素的显著性值；Hou等人在2008年提出了一种基于谱残差的显著性度量方法，该方法在频域上分析显著区域的特征，在空间域上构建显著图。FengLiu等人后来提出基于区域的显著性度量，他们首先利用一定的方法得到图像中不同的区域，然后根据每个区域的位置因素和特征对比等度量其显著性。
[0003]上述方法都是根据假设“图像中局部/全局对比度高的地方应该拥有更高的显著性”进行模型的建立，然而尽管他们能够在某些情况下得出令人满意的结果，但是这些模型所基于的假设在一些复杂的图像中并不适用。事实上，在进行显著物体检测时，能够反映显著物体的对比性，不是基于像素或图块的局部/全局对比性，而是图像前景区域与背景区域的对比性。基于此，本发明提出一种基于堆栈式去噪自编码机的显著性物体检测方法，首先利用去噪自编码机对位于图像周边的图块进行建模，然后将训练好的模型对整幅图像中的图块进行深度特征的提取及重建，并将深度重建残余作为显著性的计算手段。最终取得更具准确性，鲁棒性的显著物体检测结果。

【发明内容】

[0004]要解决的技术问题
[0005]为了避免现有技术的不足之处，本发明提出一种基于堆栈式去噪自编码机的显著性物体检测方法。
[0006]技术方案
[0007]—种基于堆栈式去噪自编码机的显著性物体检测方法，其特征在于步骤如下:
[0008]步骤I在图像中提取边界图块:首先将图像下采样为PXP个像素，然后利用大小为size e [5，20]，步长为stepe [I, size]的方形滑动窗口在下采样后的图像的上、左、下、右四个边界中提取图块，并将每个图块内的像素值构成的向量作为该图块的特征，生成四个训练集合Xtop, Xleft，Xdown，Xright ?
[0009]步骤2训练基于图像边界的堆栈式去噪自编码机；釆用节点数分别为H1 e [20，500]，H2 e [20，500]的两层结构的堆栈式去噪自编码机(SDAE)，对四个集合Xleft, Xdown, Xright进行训练，得到四个基于图像边界的堆栈式去噪自编码机SDAEtop, SDAEleft, SDAEdown 和 SDAEright ；
[0010]步骤3计算深度残余:采用大小为size e [5，20],步长为step e [I, size]的方形滑动窗口在下采样后的图像中提取图块，并将图块内的像素值构成的向量将作为该图块的特征，生成堆栈式去噪自编码机的输入集合X= {\}，其中je [1，N]，N为整幅图像中提取的图块数；
[0011 ] 将集合X = {Xj}中的每一个输入样本Xj输入SDAEttjp中，计算输入样本Xj的上边界深度残争'1 = WyZ,-Cj Ii ;其中为Xj在SDAEtop中第一隐层的激活向量，Cj为
Xj在SDAEttjp中第二重构层的激活向量；
[0012]将集合X = {Xj}中的每一个输入样本Xj输入SDAEleft中，计算输入样本Xj的左边界深度残余？4' = ll ~Ζ?φ, I〗；其中0.,.为在SDAElrft中第一隐层的激活向量，《7为Xj在SDAElrft中第二重构层的激活向量；
[0013]将集合X = {xj}中的每一个输入样本Xj输入SDAEd_中，计算输入样本Xj的下边界深度残余^_叫1-ZbIlomj Ik2 ;其中C为在SDAEd_中第一隐层的激活向
量，Clj为Xj在SDAEd_中第二重构层的激活向量；
[0014]将集合X = {xj}中的每一个输入样本Xj输入SDAEl4ght中，计算输入样本Xj的右边界深度残余‘" = - Z^lj IL2 ；其中为在SDAE_中第一隐层的激活向量，
Ahtj为Xj在SDAEright中第二重构层的激活向量；
[0015]步骤4合并生成深度残余图:对步骤3中的每一个输入样本合并其基于四个边
界的深度残余:< 二^^ + ‘ +沁。，+ ^ );将合并后的深度残余作为与其相对应的输
入样本的灰度值生成与下采样后图像对应的灰度图，将这个灰度图上采样到原始图片的大小即生成图像的深度残余图；
[0016]步骤5基于超像素的区域平滑:根据超像素分割理论，可将原始图像分割成互不重叠的超像素区域Rq，q e [1，Q]，其中Q为超像素区域总数；则每一个超像素区域Rq的显著值为该超像素区域内所有像素点上深度残余的均值。将所有超像素区域的显著值线性映射到[0，I]范围内就得到了最终的显著物体检测结果；
[0017]所述步骤2和3中的堆栈式去噪自编码机釆用P.Vincent, H.Larochelle, 1.Lajoiej Y.Bengioj and P.-A.Manzagolj “Stacked denoising autoencoders: Learninguseful representations in a deep network with a local denoisingcriterion，，，Journal of Machine Learning Research, vol.9999, pp.3371-3408, 2010 ；
[0018]所述步骤5中的超像素分割方法釆用P.F.Felzenszwalb，and
D.P.Huttenlocherj “Efficient graph-based image segmentation, ”InternationalJournal of Computer Vision, vol.59, n0.2, pp.167-181，2004。
[0019]有益效果[0020]本发明提出一种基于堆栈式去噪自编码机的显著性物体检测方法，首先利用去噪自编码机对位于图像周边的图块进行建模，然后将训练好的模型对整幅图像中的图块进行深度特征的提取及重建，并将深度重建残余作为显著性的计算手段。最终取得更具准确性，鲁棒性的显著物体检测结果。
[0021]【专利附图】

【附图说明】
[0022]图1:本发明方法的基本流程图
[0023]图2:实验结果图
[0024]图3:R0C结果图
【具体实施方式】
[0025]现结合实施例、附图对本发明作进一步描述:
[0026]用于实施的硬件环境是:Intel Pentium2.93GHz CPU计算机、2.0GB内存,运行的软件环境是:Matlab R201 Ib和Windows XP。实验选取了 SOD库中的所有图像作为测试数据，该数据库中包含1000幅自然图像，是国际公开的用于测试显著物体计算模型的数据库。
[0027]本发明具体实施如下:
[0028]1.在图像中提取边界图块:首先将图像下采样为PXP个像素，然后利用大小为size e [5，20]，步长为stepe [I, size]的方形滑动窗口在下采样后的图像的上、左、下、右四个边界中提取图块，并将每个图块内的像素值构成的向量作为该图块的特征，生成四个训练集合Xtop,

Xleft，Xdown，Xright0
[0029]2.训练基于图像边界的堆栈式去噪自编码机；采用“Stacked denoisingautoencoders: Learning useful representations in a deep network with a localdenoising criterion”中节点数分别为H1 e [20, 500] ,H2 e [20,500]的两层结构的堆栈式去噪自编码机(SDAE)，对四个集合X_，Xleft, Xdown, Xright进行训练，得到四个基于图像边界的堆栈式去噪自编码机SDAEt_ SDAEleft, SDAEdown和SDAEright。
[0030]3.计算深度残余:采用大小为size e [5，20],步长为step e [I, size]的方形滑动窗口在下采样后的图像中提取图块，并将图块内的像素值构成的向量将作为该图块的特征，生成堆栈式去噪自编码机的输入集合X= {\}，其中je [1，N]，N为整幅图像中提取的图块数。
[0031 ] 将集合X = {xj}中的每一个输入样本Xj输入SDAEttjp中，计算输入样本Xj的上边界深度残余C = 11 yZ.j — CI〖；其中yZj为xJ在Sdaeiop中第一隐层的激活向量，C,为
Xj在SDAEttjp中第二重构层的激活向量。
[0032]将集合X = {xj}中的每一个输入样本Xj输入SDAEleft中，计算输入样本Xj的左边界深度残余4/ = llIL2;其中?.为\在SDAElrft中第一隐层的激活向量，Ζ:为Xj在SDAElrft中第二重构层的激活向量。
[0033]将集合X = {xj}中的每一个输入样本Xj输入SDAEd_中，计算输入样本Xj的下边界深度残余
I I bottom、j ^bottom,} Ik2;其中C,?。为Xj在SDAEd_中第一隐层的激活向量，i:Ln,j为Xj在SDAEd_中第二重构层的激活向量。
[0034]将集合X = {xj}中的每一个输入样本Xj输入SDAEl4ght中，计算输入样本Xj的右边界深度残余
【权利要求】
1.一种基于堆栈式去噪自编码机的显著性物体检测方法，其特征在于步骤如下: 步骤I在图像中提取边界图块:首先将图像下采样为PXP个像素，然后利用大小为size e [5，20]，步长为stepe [I, size]的方形滑动窗口在下采样后的图像的上、左、下、右四个边界中提取图块，并将每个图块内的像素值构成的向量作为该图块的特征，生成四个训练集合Xtop,

Xleft，Xdown，^right ; 步骤2训练基于图像边界的堆栈式去噪自编码机；采用节点数分别为H1 e [20, 500],H2 e [20，500]的两层结构的堆栈式去噪自编码机(SDAE)，对四个集合Xt()p，Xleft, Xdown, Xright进行训练，得到四个基于图像边界的堆栈式去噪自编码机SDAE_，SDAEleft, SDAEdown和SDAEright ；步骤3计算深度残余:采用大小为size e [5，20],步长为step e [I, size]的方形滑动窗口在下采样后的图像中提取图块，并将图块内的像素值构成的向量将作为该图块的特征，生成堆栈式去噪自编码机的输入集合X= {\}，其中je [1，N]，N为整幅图像中提取的图块数；将集合X = {xj}中的每一个输入样本输入SDAEtop中，计算输入样本的上边界深度残余心)=11 y,oP.j -1 ;其中/二为Xj在SDAEtop中第一隐层的激活向量，z:。为Xj在SDAEtop中第二重构层的激活向量；将集合X = {xj}中的每一个输入样本Xj输入SDAEleft中，计算输入样本Xj的左边界深度残余4ft,J = 11 y%, -zZlj I >2 ;其中为在SDAElrft中第一隐层的激活向量，Z1^J为Xj在SDAEleft中第二重构层的激活向量；将集合X = {xj}中的每一个输入样本&输入SDAEd_中，计算输入样本&的下边界深度残余= 11 y(bl_mJ - Zbouom,, 11〗；其中yZ-.j为Xj在SDAEd_中第一隐层的激活向量，C.j为在SDAEd_中第二重构层的激活向量；将集合X = {xj}中的每一个输入样本Xj输入SDAEl4ght中，计算输入样本Xj的右边界深度残余心Ll = 11 y(righ,,j - ^righLj IL2;其中yilu为Xj在SDAEl4ght中第一隐层的激活向量，z[fght.j为在SDAE^ght中第二重构层的激活向量；步骤4合并生成深度残余图:将步骤3中的每一个输入样本&合并得到四个边界的深度残余:rl = 士);将合并后的深度残余作为与其相对应的输入样本的灰度值生成与下采样后图像对应的灰度图，将这个灰度图上采样到原始图片的大小生成图像的深度残余图；步骤5基于超像素的区域平滑:根据超像素分割理论，将原始图像分割成互不重叠的超像素区域R,，q e [1，Q]，其中Q为超像素区域总数；则每一个超像素区域Rq的显著值为该超像素区域内所有像素点上深度残余的均值；将所有超像素区域的显著值线性映射到[O, I]范围内就得到了最终的显著物体检测结果。
2.根据权利要求1所述的基于堆栈式去噪自编码机的显著性物体检测方法，其特征在于:所述步骤2和3中的堆栈式去噪自编码机采用文献:P.Vincent, H.Larochelle, 1.Lajoie，Y.Bengio，and P.-A.Manzagolj “Stacked denoising autoencoders:Learninguseful representations in a deep network with a local denoisingcriterion，” Journal of Machine Learning Research，vol.9999，pp.3371-3408，2010 中的方法。
3.根据权利要求1所述的基于堆栈式去噪自编码机的显著性物体检测方法，其特征在于:所述步骤5中的超像素分割方法采用文献:P.F.Felzenszwalb, andD.P.Huttenlocherj “Efficient graph-based image segmentation, ”InternationalJournal of Computer Vision, vol.59, n0.2, pp.167-181，2004 中的方法。
【文档编号】G06T7/00GK103955936SQ201410200352
【公开日】2014年7月30日申请日期:2014年5月13日优先权日:2014年5月13日
【发明者】韩军伟, 张鼎文, 郭雷申请人:西北工业大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩军伟;张鼎文;郭雷
技术所有人：西北工业大学
我是此专利的发明人

上一篇：一种基于微生物预测模型的货架期预警系统及方法
上一篇：用于生成用户界面的装置和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。