一种联合多种上下文线索的图像关注区域检测方法

文档序号:8457563阅读:233来源:国知局
一种联合多种上下文线索的图像关注区域检测方法
【技术领域】
[0001] 本发明涉及计算机视觉关注和图像场景理解领域,具体地说是联合多种上下文线 索的图像关注区域检测方法。
【背景技术】
[0002] 图像显著性计算是计算机视觉领域中一个基本且重要的研宄问题。目前,国内外 关于视觉显著计算的研宄主要集中在探索人类视知觉系统如何对输入的海量视觉信息进 行选择性处理。从信号处理的认知角度看,自然场景中没有什么元素是全新的。在日常生 活中,常常有很高刺激信号但是非常常见熟悉的对象或者区域,在人类视觉系统中,这些对 象或者区域会被在认识早期阶段就被过滤掉,或是因为图像内部特征线索,或是因为图像 外部特征线索。在这种方式下,只有最显著的图像对象或者区域会最终进入到人类的大脑 中进行信息处理。视觉注意力选择机制是对人类认识、分析和理解真实世界的最重要的一 种机制。
[0003] 在过去二十年,模拟视觉注意力选择机制成为计算机领域中一个非常重要的热门 研宄点。各式各样的显著性模型在很多文献中被发表。总的来说,这些研宄的主要目的是 在图像视频中有效的计算出最显著的视觉元素。在计算过程中,大多数都接受这样一个前 提,即独特罕见的视觉元素是视觉显著的。在这种前提下,很多显著模型都衡量视觉元素块 的独特性和不规则性。1998年,Itti采用对比度的方式来计算视觉不规则员。2005年Hu 采用纹理差异来衡量不同视觉元素的显著性。在2009年,Gao引入交互信息计算显著性。 这些模型在只结合图像内部线索可以计算出不错的显著结果。
[0004] 但现在有一个越来越有挑战性的问题,即在图像中存在一些干扰视觉元素,这些 干扰视觉元素在视觉系统中并不是显著的,但却拥有和显著视觉元素相同的视觉属性。若 用经典的显著计算模型来计算这类图像的显著性时,常常会误将干扰视觉元素认为是显著 的。针对该问题有一个常用的客服办法,用监督的学习方法对已经标注好的图像集进行训 练,使训练得到的模型可以更强调图像内部显著的视觉元素。但是这类方法常常会出现过 拟合的错误结果,因为用户标注的图像训练是常常是有限的,不能涵括到经常出现的显著 性目标。通过仔细观测图像训练集,我们发现干扰对象在图像集中经常出现,而显著对象在 这些图像集中是经常变换,也就是说显著目标比干扰视觉元素有更大的变动性。

【发明内容】

[0005] 根据上述需求,为了克服现有技术的不足,本发明的目的在于:提供联合多种上下 文线索的图像关注区域检测方法,该方法通过模拟人类视觉系统的相关机制来实现对图像 场景的视觉显著性计算。为完成发明目的,本发明采用的技术方案是:联合多种上下文线索 的图像关注区域检测方法,该方法包含以下步骤:
[0006] 步骤(1)构造出大规模图像数据集,该数据集应涵括多种图像场景类别,并对图 像数据集进行预处理;
[0007] 步骤(2)利用层次聚类算法,判别数据集中的场景类别,构建出树状结构的层次 化上下文模型;
[0008] 步骤(3)对图像内部上下文线索进行处理,得到图像的颜色特征、对比度特征、位 置特征等内部特征;
[0009] 步骤(4)构建混合高斯模型,用于表征指定图像场景中类别对象及其位置关系的 先验知识,用作图像外部上下文特征;
[0010] 步骤(5)利用图像内部特征,结合图像内部上下文线索,检测图像内部视觉刺激 信号;
[0011] 步骤(6)充分考虑相同类别图像场景的上下文信息,利用混合高斯模型,结合图 像外部上下文线索,检测外部图像视觉刺激信号;
[0012] 步骤(7)联合图像内部、外部上下文线索检测到的刺激信号,并用马尔可夫链机 制构建视觉刺激信号驱动的图像显著性估计。
[0013] 进一步的,所述大规模图像数据集为确保涵盖多种类型的图像场景,在互联网上 图片网站上用大量的关键词进行搜集;得到该初始数据集之后,删去重复内容的图像,并移 除不符合尺寸大小要求的图像,从而确保构造出尽可能多的涵盖日常生活常见的图像场景 类型的大规模图像数据集。此外,为方便后续过程对图像的处理,该数据集所有图像的大小 进行归一化。
[0014] 判别数据集中场景类别,首先用GIST描述符来表征数据集图像,使用层次聚类算 法建立一个树状结构,一开始将所有的图像归为同一类图像场景,然后逐步将他们划分为 更小的单元,在迭代过程中对划分过程定义一个松散度,当松散度最小的那个类的结果都 小于一个阀值,则认为划分可以终止,最终产生层次聚类的树结构。该树结构的每一个叶子 节点都代表一类指定的图像场景,并为每一个指定的叶子节点构建一个混合高斯模型。
[0015] 对指定场景类别的中的图像具有表征对象及其位置关系的先验知识,因而利用图 像内部上下文线索,可以在LAB颜色空间上采用多层小波变换等方法获取颜色特征、对比 度特征、位置特征。这些特征可涵盖两个属性;一是该类型图像场景中包含可能有的对象先 验;二是所包含的对象所在的位置先验。此先验知识,在计算图像显著性时,可以帮助锁定 最具显著性的目标以及抑制有不规则形状但很常见的干扰对象。
[0016] 所述混合高斯模型就是指对样本的概率密度分布进行估计,而估计的模型是几个 高斯模型加权之和。每个高斯模型就代表了一个类。对样本中的数据分别在几个高斯模型 上投影,就会分别得到在各个类上的概率。在构建指定混合高斯模型时,然后我们可以选 取概率最大的类所为判决结果,从而得到图像中对象及其位置关系的最大可能概率。其中 构建的混合高斯模型中的基础处理单位是固定大小的图像块,并对图像块提取图像内部特 征,为更高处理效率,需要用降维方法得到低维向量。
[0017] 图像内部视觉刺激信号值是指在图像内部上下文线索指导下的图像块获取刺激 信号的最大概率,所述的图像内部特征来自于图像本身生成的多尺度对比度特征。多尺度 对比特征能很好的表达在不同尺寸和不同方向下图像块与相邻图像块的差异值。若从其他 图像块的观测中很容易的检测到待测图像块的刺激信号值,说明该图像块缺少视觉刺激信 号。
[0018] 图像外部视觉刺激信号是指图像块与在相似图像集中同一位置的图像块比较时 获得刺激信号的概率值,该过程涉及到混合高斯模型。为求解根据图像外部上下文线索 得到的刺激信号,首先用图像的GIST描述符与层次上下文模型的树结构叶子节点的平均 GIST描述符进行比较,得到与测试图形最相似的叶子节点所代表的图像场景类别。该场景 类别中图像数据集用作测试图像的外部上下文线索,用该场景类别对应的混合高斯模型, 得到根据图像外部上下文线索得到的图像视觉刺激信号。
[0019] 分别计算根据图像内部上下文和外部上下文得到刺激信号后,本发明将它们进行 结合得到联合刺激信号。由于图像外部上下文线索可以帮助提高真实目标的显著性,抑制 非规则但很熟悉的干扰对象。因此在根据内部线索和外部线索得到刺激信号后,联合它们 得到综合刺激图。随后采用马尔可夫链机制来模拟刺激信号驱动的注意力之间的转换过 程,并最终得到图像的显著性估计。
[0020] 与现有的技术相比,本发明有益的特点是:
[0021] 1、本发明首次提出层次化上下文模型来表征图像的外部特征线索。
[0022] 2、本发明首次提出涵括多种类型的图像场景类别的大规模图像数据集,并对该数 据集上的每一种场景类别构建混合高斯模型。
[0023] 3、本发明首次提出图像内部特征与图像外部特征线索联合的方法求解图像显著 性计算模型。
【附图说明】
[0024] 图1是算法流程不意图;
[0025] 图2是混合高斯模型构建方法示意图;
[0026] 图3是联合图像内部外部上下文线索求解视觉刺激信号示意图;
【具体实施方式】
[0027] 下面结合附图对本发明作详细说明。
[0028] 本发明提供联合多种上下文线索的图像关注区域检测方法,该方法通过模拟人类 视觉系统的相关机制来实现对图像场景的视觉显著性计算。方法的总体流程是:首先在大 规模图像数据集上构建树状结构的层次化上下文模型,其中对每一个叶子节点都生成混合 高斯模型,用于涵括特定类型场景下对象及其位置关系的先验知识。对于和某类型场景具 有相似空间布局的测试图像,先找到与该场景类型对应的预先训练好的混合高斯模型,用 作图像外部线索模型,并结合图像内部上下文特征来联合计算图像的显著性。此外,由于人 眼的注意力能很快地在不同刺激位置快速转换,为更好的判断能被人眼快速捕捉到的图像 块的显著性,本发明采用马尔可夫链机制构建刺激驱动的注意力转换模型。本发明可以广 泛应用于计算机视觉显著性领域对真实世界进行认知、分析和理解。总体流程示意如图1 所示。
[0029] 本发明构建了层次上下文模型,该模型用于提出各种类型场景的先验知识;给定 一张测试图像,先找出该图像对应的层次上下文模型,该模型蕴含的图像场景的先验知识 可作为图像外部上下文线索,用于检测图像的显著性。
[0030] 对于构建层次上下文模型,需要涵盖各种类型的图像场景,因此必须构建一个大 规模图像数据集。为达到此目的,本发明搜集了 17353个关键词,包括对象物体的名字和 形容词、各式地标和名胜古迹等。有了这些关键词,我们可以对每一个关键词在互联网上 搜集大量的相关图像。搜集之后,我们需要对初步得到的数据集进行预处理,删去重复内 容的图像,并移除所有的灰度图像以及最大边长小于256像素大小的图像,从而确保构造 出尽可能多的涵盖日常生活常见的图像场景类型的大规模图像数据集,最终数据集大小为 三千一百二十万张图像,并且为了后续处理过程的简便效率,对所有图像的大小降采样为 256x 256 大小。
[0031] 给定大规模数据集之后,就需要确定该数据集所涵盖的图像场景类别,图像场景 类别是指该类别中的图像场景含有特定的空间布局特性。在本发明中,我们采用GIST特征 描述符来表征图像的场景特性。为提取GIST特征描述符,首先将该图像划分为4x 4的网 格,对每一个网格窗口提取4个层次8个方向的32维滤
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1