基于随机扫视图稀疏信号重构的图像关注区域检测方法

文档序号:8457797阅读:352来源:国知局
基于随机扫视图稀疏信号重构的图像关注区域检测方法
【技术领域】
[0001] 本发明涉及计算机视觉关注和图像场景理解领域,具体地说是基于随机扫视图稀 疏信号重构的图像关注区域检测方法。
【背景技术】
[0002] 当人在察看图片或视频序列时,总是会存在特定的视觉刺激引起令人印象株刻的 关注。正因此如,在开展复杂的图片分割和认知任务之前锁定图片中显著性的内容是非常 重要的。这样一来,有限的计算资源可以更优先的分配给视觉显著的内容,这也是和人类处 理图像视频的方式是一致的。
[0003] 在过去二十年里,大量根据心理和神经生物学理论(如引导搜索模型或者特征整 合理论)的显著计算模型已被提出。在讨论这些计算模型之前,我们先来了解这样一个基 本的问题:如何生成一张图像的真实显著图?在人眼追踪实验中,图像的真实显著图是由 多个观察者在自由察看图像的过程中收集视点形成视点密度图。也就是说,这些观察者都 要求对同一幅图像自由察看几秒钟,观察者的眼球活动,比如扫视、追视或者固视,都会被 高速的眼动追踪设备(比如30赫兹、60赫兹或者240赫兹)记录下来。最终,一个捕获人 眼视点并且停留较长时间的位置认为是显著的。仔细分析这个过程,我们可以将生成图像 真实显著图的过程简化为二个步骤:一是人眼迅速在整张图像的不同位置快速扫过;二是 对锁住视点的位置分析其停留时间并进行内容认知。在整个过程中,某位置的视觉显著性 和该位置被察看的概率以及能锁住视点的概率息息相关。
[0004] 了解图像真实显著图的生成过程之后,我们现在来分析现存的预测人眼视点的显 著计算模型。在这些方法中,有一个共同的解决办法就是在单尺度或者多尺度上将图像分 成若干个不重叠的图像宏块,然后再计算每一个图像宏块的显著性。其中计算的准则是衡 量每一个图像块中视觉上下文内容的局部或全局稀有性。图像块的稀有性可以通过计算局 部对比度得到,或者通过视觉刺激性、察看时间的长短、熵率、同现频率等方式计算。有一些 方法将图像转换到频域并通过谱分析来衡量图像块的稀有性。此外,通过多个特征通道来 计算图像块的稀有性也是一种有效的方法,一些研宄人员因此提出了通过启发式框架或者 从特征到显著性的映射函数来联合多种特征来计算图像块的显著性。总的来说,这些方法 都取得了不错的显著性结果,但存在两大缺点,第一,这些方法都只考虑了图像块内的局部 或全局上下文内容,但是在生成真实显著图的过程中,每一次视点转换时,某一个图像块都 是连同其他图像块一起出现的;第二,这些方法中的图像块都是固定大小的,但是实际扫视 过程中视点常常会落在比较大的区域上。因此,为了构建一个符合生理性机制的显著计算 模型,这两个问题是必须要解决的。

【发明内容】

[0005] 根据上述需求,为了克服现有技术的不足,本发明的目的在于:提供基于随机扫视 图稀疏信号重构的图像关注区域检测方法,该方法通过引入稀疏编码理论来计算图像的视 觉显著性,使其更符合生理学机制。为完成发明目的,本发明采用的技术方案是:基于随机 扫视图稀疏信号重构的图像关注区域检测方法,该方法包含以下步骤:
[0006] 步骤(1)对图像自由察看,构造出多个随机扫视图,并在扫视端点处得到圆形观 测区域;
[0007] 步骤(2)对训练数据集进行预处理,得到大量图像块,提取其稠密特征,求解稀疏 基元构建的稀疏字典;
[0008] 步骤(3)利用稀疏字典,对测试图像的图像块求解其稀疏表示,计算得到稀疏基 元激活代价和稀疏信号重构误差,综合这两个影响因子,求解出每一次扫视时视点在圆形 观测区域内的停留时间;
[0009] 步骤(4)利用稀疏基元激活代价和稀疏信号重构误差以及求解出的视点停留时 间,计算得到每一个图像块的显著度,综合所有图像块的影响,得到整张图的图像度;构建 图像金字塔,得到最终的图像显著图。
[0010] 进一步地,对图像自由察看时,人眼会在图片的不同位置快速转移以至于能对输 入的刺激信号重构出意象图。在此过程中,某些特定位置会锁定人眼视点更长的停留时间, 因此该位置也会变得更加显著。因为在眼球运动时视觉处理过程是阻塞的,也即是所谓的 扫视掩蔽,因此我们忽略在扫视过程中的扫视路径,只关注扫视端点。每一次扫视之后,在 扫视端点处生成随机大小的圆形区域,用来决定哪一些视觉刺激能够进入到我们的视网 膜。在随机扫视图像时,并不是以逐个像素的方式认知图像中的视觉内容,相反地,每一个 扫视端点的圆形观测区域内的视觉刺激同时进入到视网膜。此外,经过某次随机扫视之后 我们计算出某一位置的视觉辨别能力。
[0011] 为求解稀疏字典,先对彩色图像数据集采样出大量非重复图像块,并对每一个图 像块在LAB颜色空间上提取出稠密特征。得到所有图像块的稠密特征表示之后,给定每一 个图像块的稀疏表示最多只有有限个稀疏基元被激活的条件下,稀疏字典可通过最大化其 信号重构能力而学习得到。
[0012] 视点的停留时间受两个因素制约,一是激活稀疏基元的代价,二是重构输入刺激 信号的误差。一个区域如果承载着更高的激活稀疏基元的代价以及更大的重构信号误差, 则该区域锁定人眼视点的时间也会更久一点。先对测试图像划分为若干个非重复的图像 块,使用步骤(2)计算得到的稀疏字典,结合图像块的稠密特征表示,联合求解出这些图像 块的稀疏表示;根据激活罕见稀少的稀疏基元比常见普通的稀疏基元的难度更大的机理, 利用图像块的稀疏表示来求解激活稀疏基元的代价;此外,一个图像块如果具有更大的重 构误差,则表明利用已有的先验知识对该图像块包含的丰富信息不能全部认知,这样就需 要花费更多的视觉注意力来分析该图像块,联合步骤(1)中计算出的随机扫视后的视觉辨 别能力,计算出随机扫视后的稀疏信号重构误差;最后采用线性函数组合激活稀疏基元的 代价和稀疏信号重构误差两大影响视点停留时间的因素,求解出随机扫视后视点在圆形观 测区域内的停留时间。
[0013] 对图像经过多次随机扫视之后,一个图像块可能出现在多个圆形观测区域内,且 图像块的显著性和每一个圆形观测区域内视点对其的影响成正比,所有该图像块的显著性 应该综合它所属的所有区域来计算。但仅仅依靠这些固定大小的图像块并不能计算出不同 大小的显著对象,特别是尺寸较大的显著目标,而且若图像包含太多图像块,对该图像进行 稀释编码是非常消耗时间的。因此构建出图像金字塔,对每一层图像求解其显著图,最后将 所有显著图缩放到同一尺度直接求平均,得到最终的图像显著度。
[0014] 与现有的技术相比,本发明有益的特点是:
[0015] 1、本发明提出基于生理学机制的框架来求解图像显著性,引入了稀疏编码理论和 人眼视觉活动机制,与图像真实显著图的生成过程一致。
[0016] 2、本发明引入图像金字塔,对每一层级不同大小的图像求解显著图,不仅可计算 出不同大小的显著目标的显著图,又可加快稀疏编码效率,算法复杂度降低。
【附图说明】
[0017] 图1是本发明方法流程示意图;
[0018] 图2是图像真实显著图生成示意图;
[0019] 图3是图像随机扫视不意图;
[0020] 图4是稀疏字典生成示意图;
[0021] 图5是通过图像金字塔生成图像最终显著图。
【具体实施方式】
[0022] 下面结合附图对本发明作详细说明。
[0023] 当人在自由地察看一张图片时,人眼会在图片的不同位置快速转移以至于能对输 入的刺激信号重构出意象图。在此过程中,某些特定位置会锁定人眼视点更长的停留时间, 因此该位置也会变得更加显著。基于此事实的启发,本发明提供基于随机扫视图稀疏信号 重构的图像关注区域检测方法,该方法通过稀疏编码理论模拟人类视觉系统的相关机制来 实现对图像的视觉显著性计算。方法的总体流程是:首先对每一张图像生成一系列的随机 扫视图,并且每一次扫视端点的圆形区域可以实际被记录到。随后,将圆形区域内的视觉刺 激传递到我们的大脑进行编码并且使用预先训练好的稀疏基元进行信号重构。在这个过程 中,人眼视点一直被锁定在观测区域内,直到该观测区域内的视觉刺激被充分认知。停留时 间可以通过稀疏基元的激活代
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1