基于深层自动编码器重构的图像视觉显著性区域检测方法

文档序号:9418216阅读:531来源:国知局
基于深层自动编码器重构的图像视觉显著性区域检测方法
【技术领域】
[0001] 本发明属于图像处理领域,涉及图像视觉显著区域性检测方法,可用于图像压缩 以及图像目标检测与识别。 技术背景
[0002] 随着网络信息化的发展,人类已进入一个数据大规模增长的"大数据"时代,作为 获取信息重要途径之一的图像数据是其中一个主要组成部分,如何有效地从图像中选取最 有价值的信息逐渐成为了图像处理领域关注的热点。
[0003] 对于人类视觉系统,即使面对复杂的视觉环境,其也能准确提取出场景主要信息 并做出分析。针对图像数据,人类视觉系统通常是将有限的资源与能力分配给包含图像关 键信息的区域,即显著性区域;而对其他不关注的区域只做降级地处理与分析。因此,对图 像视觉显著性区域进行检测与估计将有助于提取图像关键信息,从而提升数据处理能力, 可用于图像压缩,目标检测以及识别等领域。
[0004] Laurent Itti 等人在文章 "A Model of Saliency-Based Visual Attention for Rapid Scene Analysis',,IEEE Transactions on Pattern Analysis and Machine Inte lligence,vol. 20, no. 11,pp. 1254-1259, 1998中首先提出利用中心与外围的差异来衡量 区域显著性程度,并通过融合颜色、亮度以及方向等三个特征空间的结果来实现最终的图 像显著性区域检测。该方法提出的中心-外围差可以较好地模拟视觉神经元的结构,但是 由于实际计算中仅考虑到了图像局部信息,该方法不能很好地处理包含结构信息的图像。 Tilke Judd等人在文章 "Learning to Predict Where Humans Look", IEEE International Conference on Computer Vision, 2009, pp. 2106-2113中提出通过机器学习的方法来联合 建立不同阶层特征与显著性值之间的关系。该方法在训练模型时需要依赖大量已知显著性 区域的标记图像,而实际中获取大量带有标记显著性区域的图像通常是较为困难的;同时, 该方法在处理不同类型图像时使用相同的特征权重将会影响算法的可扩展性。Chen Xia 等人在文章 "Nonlocal Center-Surround Reconstruction-based Bottom-Up Saliency Estimation',,International Conference on Image Processing, 2013, pp. 206-210 中提 出一种基于非局部重构的显著性区域检测方法,并通过利用非局部其余块对当前中心区域 的重构误差来估计显著性。由于该方法在计算不同区域重构关系时是独立的,缺少从全局 角度对不同区域间的竞争关系进行考虑,因此当实际显著性区域与背景区域的局部与非局 部中心-外围关系相近时,将很难突出实际的显著性区域,最终导致图像中显著性区域检 测的准确性下降。

【发明内容】

[0005] 本发明的目的在于克服上述已有技术的不足,提出一种基于深层自动编码器重构 的图像视觉显著性区域检测方法,以从全局的角度来挖掘无标记图像数据与显著性值之间 的关系,提高图像中显著性区域检测的准确性。
[0006] 本发明的技术方案是:对于一幅图像,利用全局随机采样的结果来训练一个基于 深层自动编码器的重构网络,以实现通过重构误差来表示不同区域的中心-外围关系,进 一步表示该区域的显著性程度,其实现步骤包括如下:
[0007] (1)构建深层重构网络:设置深层自动编码器的编码模块和解码模块,并在该解 码模块上增加推断层,得到由编码器,解码器及推断层组成的三模块深层重构网络;该重构 网络根据图像不同区域的中心-外围关系,实现由外围块到中心块的重构;
[0008] (2)从输入图像I中随机选取m个像素点;对于每个像素点X,先分别取其邻域大 小为D X D的外围区域块及d X d的中心区域块,得到目标外围区域向量X和中心区域向量 Y,d < D ;再分别对像素点X外围区域向量X和中心区域向量Y进行归一化,得至Ij归一化后 的外围向量s(x)和标记中心向量C(X);
[0009] (3)用采样的m对外围向量s(x)和标记中心向量c(x)训练重构网络,得到图像I 对应的训练后的中心-外围重构网络f( ·);
[0010] (4)对于图像中的每个像素点X,将其归一化的外围向量S(X)输入到训练后的重 构网络,得到重构的中心块输出向量f (s (X)),并与标记中心向量c (X)作比较,计算出重构 误差P (X);最后根据计算得到的中心先验值μ (X)来对P (X)加权计算其显著性S(X)。
[0011] 本发明具有如下优点:
[0012] 1)本发明通过采用全局随机采样与训练深层重构网络的过程,来分别模拟人类视 觉处理早期的扫视阶段以及视觉皮质上信息的传播与预测,从机理上实现了与人类视觉显 著性检测过程的一致性,并得到了与人眼跟踪数据一致的显著性检测结果。
[0013] 2)本发明不依赖于图像的真值,即不需要提供任何带有已知显著性区域的图像, 而是利用深层网络对无标记数据进行学习的能力来实现场景数据驱动的显著性检测,避免 了寻找真值数据这一繁琐的实验任务。
[0014] 3)本发明不需要手工选取或联合多维特征,而是通过深层网络自适应地学习得到 特征,具有较好的普适性与可扩展性。
[0015] 4)本发明能够在统一框架下对全局、非局部以及局部信息进行整合,即将全局竞 争引入对局部块的非局部重构中,可以得到更准确、更高效的检测结果。
[0016] 本发明可扩展到基于视频的显著性区域估计,也可以作为特征并结合其他机器学 习方法用于一般目标的检测、识别以及图像编码、压缩。
【附图说明】
[0017] 图1为本发明的实现总流程图;
[0018] 图2为本发明中构建的深层重构网络结构图;
[0019] 图3为本发明中的采样示意图;
[0020] 图4为本发明中的网络训练子流程图。
【具体实施方式】
[0021 ] 参照图1,本发明的具体实现步骤如下:
[0022] 步骤1,构建中心-外围重构网络
[0023] 参照图2,本发明建立的深层重构网络主要包含编码模块、解码模块以及推断层三 个部分;其中编码模块由L层神经元构成,I < L < 31,在一种实例方案中,L取6 ;输入层 的神经元个数为N。,N。的大小由外围块s (X)的维数决定,实例方案中N。为675,其他每层神 经元个数依次为256,128,64, 32,8 ;解码模块的结构与编码模块相对称;推断层位于解码 模块上面,其所包含的神经元个数采样点X的中心向量c (X)的维数决定的,实例方 案中NciuA 147 ;编码模块和解码模块共同构成了一个自动编码器网络,在自动编码器网络 的基础上增加推断层形成一个深层重构网络,实现由外围向量S(X)到中心向量C(X)的推 断与重构;
[0024] 该深层重构网络,其输入层与输出层大小则分别是由外围向量S(X)与中心向量 c (X)的长度决定,网络总层数与其它每层的神经元个数是通过最终的显著性实验结果确定 的,另外,除了网络中心层的神经元为线性神经元外,其余所有神经元均为逻辑神经元。
[0025] 步骤2,全局采样
[0026] (2a)对于输入图像I,可将RGB颜色空间转换到Lab颜色空间或YUV颜色空间或 YCbCr颜色空间或HSV颜色空间,其中:
[0027] 在Lab颜色空间中,L表示亮度,a表示从洋红色至绿色的范围,b表示从黄色至蓝 色的范围;
[0028] 在YUV颜色空间中,Y指的是明亮度,也就是灰度值,而U和V表示的则是色度,作 用是描述图像色彩及饱和度,用于指定像素的颜色;
[0029] 在YCbCr颜色空间中,Y为颜色的亮度成分,而Cb和Cr则为蓝色和红色的浓度偏 移量成份;
[0030] 在HSV颜色空间中,H为颜色的色调,S表示颜色的饱和度,V表示颜色的亮度;
[0031] 在本发明中按照如下方式做颜色空间变换:
[0032] 若输入图像为三通道彩色图像,则在采样前需将原始RGB三通道颜色信息变换到 另一颜色空间,其彼此通道间被证明是独立的,计算方式如下所示:
[0033]
[0034]
[0035]
[0036] 其中,R,G,B分别为原始图像的RGB三通道颜色值,〇1,〇2, 〇3分别为变换后的颜 色空间对应的三通道值。另外,若输入为单通道灰度图像,则需要将单通道信息扩充到三通 道,再按上述方式进行颜色空间变换;若输入图像的颜色空间不是RGB,则将图像先转换到 RGB颜色空间再按照上式进行转换,或根据颜色变换公式推导出直接变换式进行转换;
[0037] (2b)对于颜色空间变换后的输入图像I,从全局随机采样m个像素点:
[0038] 参照图3,对于每个采样点X,分别取其邻域大小为DXD的外围区域及dXd的中 心区域,d<D,得到外围区域向量X和中心区域向量Y,实例方案中m取8000, D取15, d取 7 ;
[0039] (2c)分别对外围区域向量X和中心区域向量Y进行归一化,得到归一化后的外围 向量s (X)和标记中心向量C(X):
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1