基于改进视觉注意力模型的自然场景目标检测方法

文档序号:6508312阅读:926来源:国知局
专利名称:基于改进视觉注意力模型的自然场景目标检测方法
技术领域
本发明属于图像处理技术领域,涉及目标识别,可用于道路标志检测、视频监控、 自然场景识别与分类。
背景技术
目标检测是计算机视觉和模式识别系统中非常关键的技术之一,目标检测的效果 直接影响着整个系统的可靠性和有效性,是近年来研究的热点。随着技术的发展,人们日益 发现现有的基于图像处理、机器学习等简单的方法并不能够完全适用于大多数的图像。因 此,研究者们开始关注人类视觉注意机制,研究人类眼睛是如何搜寻、查找和检测自然场景 中的目标的。视觉注意机制,是灵长目类动物视觉系统的一个内在的属性。它是一种将人目光 注视引导到场景中感兴趣物体的机制。通常,进入人们视野的视觉信息是海量的,但是从这 些海量的信息中,人们依然能够搜寻到想要的信息。基于此,心理学专家根据心理学的很多研究实验成果,模拟出了很多人类大脑感 知事物的模型,而这些模型大都仅仅适用于解释某些心理物理学实验的结果,并不能直接 用于自然图像处理中的目标检测。因此,如何利用计算机视觉和图像处理等理论和知识建 立可用于自然图像处理的视觉注意计算模型已经成为世界各国亟待解决的热门课题。现有最著名的视觉注意计算模型就是视觉显著性计算模型,视觉注意是与周围 环境完全与众不同的目标物会自动的从视野环境中“跳出”并且吸引注意力的关注。选择 性注意力机制可以将人们的视觉关注引导到在场景中称之为“显著性区域”的那一部分。 视觉的显著性计算模型提供了关于这些可能吸引观测者注意力的预测区域。这些模型在 图像本身能够提供稍许语义信息以及人们在不需要执行特定观测任务的前提下,检测效 果良好° Fisher 在文章中"A Object-based visual attention for computer vision, Artificial Intelligence, 2003, vl46(l) :77_123. ” 利用 “groupings” 来针对基于目标 和基于位置视觉注意的通用模型。对于这种手工的预处理的图像上,他们的模型可以整 个复制出人类对于人工以及自然场景的注视行为。Koch和Ullman在其文章中“Shifts in selective visual attention Towards the underlying neural circuitry, Hum. Neurobiol. 1985,4 :219_297. ”根据已有的视觉生理和心理物理实验结果基础上提出了一 个计算模型,用于模拟生物体“自底向上”选择性注意机制。随后Itti和Koch在文章“A model of saliency-based visual attention for rapid scene analysis, IEEE Trans. Pattern Anal. Mach. Intell. 1998,20 :1254_1259. ”中进一步完善了这个模型,并将它用于 包含自然物、交通及军事目标的检测。Koch和Itti的模型将多尺度拓扑“特征图”在亮度、 色度以及方向空间上检测到的图像局部空间的不连续性来作为早期基本的视觉注意特征, 最后对带有不同动态范围且来自不同视觉形态的特征进行整合,得到最后的“显著性图”。 该模型不需要任何先验知识,处理结果完全由输入图像的初级视觉特征决定。现在很多的 基于视觉注意力模型的目标检测中,其中视觉注意力模型都是在Itti这个模型的基础之上改进的。这些模型在对目标检测的过程中,它将所有的特征等同对待,而很多时候,图像 某些区域,如边界处的物体并不能引起人脑真正的视觉关注,但是由于其具有非常显著的 颜色等单一特征值,因此,在最终得到的显著性图中其显著性区域是最为明显的。这和人 脑真正的视觉关注是不相吻合的,且对目标的检测造成很大的误差。进一步地,有证据显 示特征越多并不一定会增强显著性区域的显著性,有时候反而会导致更多的误检。因此, 有必要去确定哪些特征对最后的显著图的生成起主要作用。文献“Feature combination strategies for saliency-based visual attention systems. Journal of Electronic Imaging, 2001,10(1) :161_169,”中,Itti等已比较了四种不同的特征整合策略。在这四种 策略中,简单线性加和的方法给所有特征都赋予了正权值,这种线性加和的方法并不适合 人眼的视觉习惯;学习权值的线性合成方法是无监督的学习方法,它需要关于训练图像的 显著区域的先验知识;而另一个迭代的非线性局部竞争策略可以用来克服全局非线性标准 化方法的缺陷。但是这些方法对于不同类型的自然场景图像均存在目标检测准确率低的不 足
发明内容
本发明的目的在于克服上述方法的不足,提出了基于改进视觉注意力模型的自然 场景目标检测方法及系统,提高视觉注意力模型的准确性和可靠性的基础上,进一步的提 高不同类型自然场景图像场景中目标检测的准确率。实现本发明目的技术思路是利用不同权值对特征的显著性图进行整合,用变精 度模糊粗糙加权c-modes算法对每个特征的显著性图分配权值,实现对现有视觉注意力模 型的改进;提取视觉注意力模型的各个特征的显著性图,用从特征的显著性图得到的采样 数据构成粗糙集信息表,根据该信息表构建属性重要性,并进行加权聚类得到各个通道特 征的显著性图的权值,并通过线性加和得到原始图像的显著性图,根据显著性图判断得到 目标区域。其具体实现方案如下一,本发明基于改进视觉注意力模型的自然场景目标检测方法,包括如下步骤(1)利用Itti的视觉注意力模型对原始图像提取初始的颜色、亮度和方向的特征 图,并对这些特征图进行多尺度几何分解、合并及归一化,得到颜色7,亮度5和方向5三个 通道特征的显著性图;(2)对原始图像做傅里叶变换,计算谱残差和相位谱PH的和,并对其做逆傅立叶 变换F—1,得到特征图,再用高斯滤波器平滑该特征图,得到第四个通道特征的显著性图SR ;(3)计算每个通道特征的显著性图的最优权值3a)对上述四个通道特征的显著性图分别进行数据采样,并将采样结果分别与各 个通道特征的显著性图作对比,构建每个特征通道下的初始粗糙集信息表数据集合;3b)根据心理学实验结果,将不同实验者测试得到的注意力点图进行叠加,生成原 始的眼动数据图,对该眼动数据图进行与四个通道特征的显著性图同位置的采样,将采样 结果与原始眼动数据图作对比,构建粗糙集信息表的决策属性集合;3c)将初始粗糙集信息表的数据集合和粗糙集信息表的决策属性集合并列在一 起,形成最终的粗糙集信息表;3d)计算最终粗糙集信息表中数据的属性重要性,作为每个通道特征的显著性图的初始权值;3e)根据初始权值,利用变精度模糊粗糙c-modes聚类公式,对粗糙集信息表中的 数据进行聚类,通过交替更新聚类中心Z和划分矩阵W,使得目标函数值达到最小,此时所 对应的权值Q1即为每个通道特征的显著性图的最优权值,该c-modes聚类公式为
权利要求
基于改进视觉注意力模型的自然场景目标检测方法,包括如下步骤(1)利用Itti的视觉注意力模型对原始图像提取初始的颜色、亮度和方向的特征图,并对这些特征图进行多尺度几何分解、合并及归一化,得到颜色亮度和方向三个通道特征的显著性图;(2)对原始图像做傅里叶变换,计算谱残差和相位谱PH的和,并对其做逆傅立叶变换F 1,得到特征图,再用高斯滤波器平滑该特征图,得到第四个通道特征的显著性图SR;(3)计算每个通道特征显著性图的最优权值3a)对上述四个通道的特征显著性图分别进行数据采样,并将采样结果分别与各个通道特征图做对比,构建每个特征通道下的初始粗糙集信息表数据集合;3b)根据心理学实验结果,将不同实验者测试得到的注意力点图进行叠加,生成原始的眼动数据图,对该眼动数据图进行与四个通道特征的显著性图同位置的采样,将采样结果与原始眼动数据图做对比,构建粗糙集信息表的决策属性集合;3c)将初始粗糙集信息表的数据集合和粗糙集信息表的决策属性集合并列在一起,形成最终的粗糙集信息表;3d)计算最终粗糙集信息表中特征的属性重要性,作为每个通道特征显著性图的初始权值;3e)根据初始权值,利用变精度模糊粗糙c modes聚类公式,对粗糙集信息表中的数据进行聚类,通过交替更新聚类中心Z和划分矩阵W,使得目标函数值达到最小,此时所对应的权值ωl即为第l个特征显著性图的最优权值,该c modes聚类公式为 <mrow><mi>min</mi><mi>J</mi><mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>Z</mi> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>&Sigma;</mi> <mrow><mi>l</mi><mo>=</mo><mn>1</mn> </mrow> <mi>c</mi></munderover><munderover> <mi>&Sigma;</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>n</mi></munderover><msubsup> <mi>&mu;</mi> <mi>li</mi> <mi>&lambda;</mi></msubsup><munderover> <mi>&Sigma;</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></munderover><msubsup> <mi>&omega;</mi> <mi>l</mi> <mi>&beta;</mi></msubsup><mi>&delta;</mi><mrow> <mo>(</mo> <msub><mi>x</mi><mi>jl</mi> </msub> <mo>,</mo> <msub><mi>z</mi><mi>jl</mi> </msub> <mo>)</mo></mrow> </mrow>其中J(W,Z)为聚类的目标函数,W为划分矩阵,c为类别个数,Z表示c个类别下的c个模式中心的集合,zjl表示第j个特征在第l类下的聚类中心,n为样本个数,m为数据集中特征的个数,μli表示为第i个样本x划分到第l类的隶属度函数,0≤μli≤1,为第l个特征显著性图的最优权值,β为精度系数,β=0.5,其中1≤l≤c,1≤i≤n,δ(·)表示两个样本之间的相异匹配测度,定义为其中,xj和yj分别表示第j个分类属性下的取值;(4)利用上述得到的最优权值ωl,l=1,2,3,4,,对特征的显著性图进行线性加和,得到原始图像的显著性图其中,是亮度特征的显著性图,是颜色特征的显著性图,是方向特征的显著性图,SR是谱特征的显著性图;(5)将上述显著性图对应的显著性区域作为图像中目标的位置区域,并输出。FDA0000031500110000011.tif,FDA0000031500110000012.tif,FDA0000031500110000013.tif,FDA0000031500110000014.tif,FDA0000031500110000016.tif,FDA0000031500110000017.tif,FDA0000031500110000021.tif,FDA0000031500110000022.tif,FDA0000031500110000023.tif,FDA0000031500110000024.tif,FDA0000031500110000025.tif
2.根据权利要求1所述的自然场景目标检测方法,其中步骤(2)所述的对原始图像提 取谱特征显著性图,按如下步骤进行2a)如果原始图像为灰度图像I,则直接对该原始图像作傅立叶变换F[I],如果原始 图像为彩色图像,则将彩色图像转化为灰度图像I,再对变换后的灰度图像求傅立叶变换 F[I];2b)求傅立叶变换后图像的幅度谱A(f) = Amplitude(F[I]),其中f为图像频率,Amplitude为提取傅立叶变换后图像幅度的运算符号;2c)求傅立叶变换后图像的相位谱PH(f) =Angle(F[I]),其中Angle为提取图像傅 立叶变换后图像相位的运算符号;2d)计算谱残差:叫/)=丄(/)-\(/)*丄(/),其中,1^) = log(A(f)),hn(f)为局部平 均滤波器,η = 3,*为卷积符号;2e)对谱残差叫/)和相位谱PH(f)的和做逆傅立叶变换F—1,得到特征图,再用高斯滤 波器平滑该特征图,最后得到原始图像的谱特征显著性图。
3.根据权利要求1所述的自然场景目标检测方法,其中步骤3a)所述的构建每个特征 通道下的初始粗糙集信息表数据集合,按如下步骤进行3al)选择4X4大小的方形作为采样块patch,用该采样块分别对颜色、亮度、方向和谱 特征的显著性图进行随机采样,采样率为200 ;3a2)将落在特征显著性图的显著性区域之内的采样块patch标记为0 ;将落在显著性 区域之外的采样块patch标记为1 ;将落在显著性区边界处的采样块patch标记为2 ;3a3)将颜色、亮度、方向和谱特征显著性图的200X4个采样数据块作为初始粗糙集信 息表的四个列,各列中的元素值对应其相应的标记值,形成初始粗糙集信息表数据集合。
4.根据权利要求1所述的自然场景目标检测方法,其中步骤3b)所述的构建粗糙集信 息表的决策属性集合,按如下步骤进行4a)用EyelinkII眼动记录仪,记录实验者人眼观看图像后的注意力点; 4b)将所有实验者在同一幅图像上的注意力点叠加在一起,形成每幅图像的注意力点 图,即每幅图像的原始眼动数据图;4c)对原始眼动数据图进行与颜色特征显著性图同位置的采样,采样块patch的大小 为4X4,采样率为200 ;将落在原始眼动数据图注意力区域内的采样块标记为0 ;将落在原 始眼动数据图注意力区域外的采样块标记为1;将落在原始眼动数据图注意力区域边界上 的采样块标记为2 ;4d)将原始眼动数据图的200个采样数据块作为初始粗糙集信息表的一个列,列中的 元素值为原始眼动数据图采样块的标记值,形成初始粗糙集信息表的决策属性集合。
5.根据权利要求1所述的自然场景目标检测方法,其中步骤3d)所述的计算最终粗糙 集信息表中数据的属性重要性,按如下公式计算
6.基于改进视觉注意力模型的自然场景目标检测系统,包括提取颜色、亮度和方向特征的显著性图模块,用于利用Itti的视觉注意力模型对原始 图像提取初始的颜色、亮度和方向的特征图,并对这些特征图进行多尺度几何分解、合并及 归一化,得到颜色7,亮度5和方向5三个通道特征的显著性图;提取谱特征显著性图模块,用于对原始图像做傅里叶变换,计算谱残差识和相位谱PH 的和,并对其做逆傅立叶变换F—1,得到特征图,再用高斯滤波器平滑该特征图,得到第四个通道特征的显著性图SR;特征图的最优权值计算模块,它包括数据采样子模块,用于对上述四个通道特征的显著性图分别进行数据采样,并将采样 结果分别与各个通道特征的显著性图作对比,构建每个特征通道下的初始粗糙集信息表数 据集合;原始眼动数据图生成子模块,用于根据心理学实验结果,将不同实验者测试得到的注 意力点图进行叠加,生成原始的眼动数据图,对该眼动数据图进行与四个通道特征的显著 性图同位置的采样,将采样结果与原始眼动数据图做对比,构建粗糙集信息表的决策属性 集合;合并子模块,用于将初始粗糙集信息表的数据集合和粗糙集信息表的决策属性集合并 列在一起,形成最终的粗糙集信息表;属性重要性计算子模块,用于计算最终粗糙集信息表中特征的属性重要性,作为每个 通道特征的显著性图的初始权值;聚类子模块,用于根据初始权值,利用变精度模糊粗糙c-modes聚类公式,对粗糙集信 息表中的数据进行聚类,通过交替更新聚类中心Z和划分矩阵W,使得目标函数值达到最 小,此时所对应的权值Q1即为1个特征显著性图的最优权值,该c-modes聚类公式为
全文摘要
本发明公开了一种基于改进视觉注意力模型的自然场景目标检测方法,主要解决现有基于视觉注意力模型目标检测中检测正确率低、误检率高的问题,其步骤是(1)输入待检测图像,利用Itti的视觉注意力模型提取亮度、颜色和方向特征显著性图;(2)对原始图像提取谱特征显著性图;(3)对亮度、颜色、方向、谱特征显著性图和实验者的注意力图进行数据采样及标记,形成最终的粗糙集信息表;(4)根据粗糙集信息表,构造属性重要性,并通过聚类得到特征图的最优权值;(5)对特征子图进行加权,得到原始图像的显著性图,该显著性图对应的显著性区域即为目标位置区域。本发明能更有效的检测到自然场景中的视觉注意力区域并对其中的目标进行定位。
文档编号G06K9/62GK101980248SQ20101053795
公开日2011年2月23日 申请日期2010年11月9日 优先权日2010年11月9日
发明者李洁, 王秀梅, 王颖, 田春娜, 路文, 邓成, 韩冰, 高新波 申请人:西安电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1