基于视觉感知正反馈的显著性检测方法与流程

文档序号:12471743阅读:308来源:国知局
基于视觉感知正反馈的显著性检测方法与流程

本发明涉及人类视觉模拟技术领域,具体地讲是一种基于视觉感知正反馈的显著性检测方法。



背景技术:

传统图像处理算法受到千变万化的场景、海量数据、高维特征等问题的困扰,具有明显局限性。而人类视觉系统的性能则远超当前算法,模拟人类视觉原理是突破当前算法困境的有效途径。人类视觉经过长期进化而来,具备主动视觉机制,通过视觉注意关注场景中感兴趣目标。视觉注意模型是研究者们模拟人类视觉的出发点,可分为数据驱动和任务驱动的视觉注意两类模型。

数据驱动的模型执行自底向上(bottom-up)的注意,从图像的低级特征(如颜色、纹理、边缘、方向、频谱)计算显著性图(saliency map);利用像素或局部区域的显著性,可实现对图像内容的自动感知和粗分割。其中视觉显著性检测(visual saliency detection)是当前计算机视觉与模式识别领域的研究热点。据获得显著性的机制来划分,显著性检测可分为基于注视点预测的模型、基于提取与分割显著物体的模型等;据其核心算法来分,可分为认知理论模型、Bayesian模型、决策理论模型、信息理论模型、图模型、基于频域(谱分析)的模型以及模式分类模型等。一些对比实验表明,这些算法获得的视觉显著性区域与人眼观察自然场景的眼动注视区域具有很高的一致性,揭示了视觉显著性是引导人眼主动观察场景的关键因素。任务驱动的模型强调自顶向下(top-down)的注意,涉及记忆和先验等各种因素。通常利用目标的先验知识构建模型,如已做标记的大规模图像数据库等。其中最新进展是基于深度学习(Deep Learning)算法的目标检测/图像分割。深度学习网络借助海量训练数据,很大程度上缓解了训练过拟合的问题,后期可达到局部极小,且可训练大规模神经网络。不足之处是,深度学习网络需要大规模已标注的训练样本,网络结构手工设计,网络性能依赖于训练样本,网络训练时间较长,对计算机硬件设备要求较高,在线实时训练有困难。另外,还有一些综合了数据驱动和任务驱动模型的方法。

我们注意到,目前已有的视觉注意模型中,算法流程通常缺乏动态反馈环节,这与人类视觉感知产生过程存在较大差异。人类依靠注视眼动机制来实现主动视觉,视知觉由一系列的注视(fixation)和跳视(saccade)过程产生。注视时,人眼聚焦局部区域采集信息,再经视觉神经网络处理产生感知刺激。注视期间人眼并非固定不动,而是幅度很小地不自主抖动——产生“微跳视”,形成对注视区域的重复扫描,相关信息经人脑神经网络生成重复视觉刺激;当视觉刺激连续相同、出现饱和时,产生跳视,人眼转而注视其他区域。除了视觉,人类的触觉、嗅觉等其他感知过程都有重复采集和处理信息的习惯。这种长期进化而来的习惯或许为人类感知带来好处。

显然,若能提出有效模拟上述视觉处理机制的方法,将会大大提高图像处理效率、降低计算量,缓解海量数据、高维特征等问题困扰,得到更接近人类感知的图像处理算法。



技术实现要素:

有鉴于此,本发明要解决的技术问题是,提出一种模拟人类注视眼动,具有动态反馈环节的显著性检测方法。借助前馈神经网络模拟人脑,通过“在线采样-学习建模-像素分类”过程产生视觉刺激,利用迭代和视觉感知饱和来仿真“微跳视”过程,从而构建一种动态、正反馈的算法框架,能获得更接近人类感知的视觉显著性图。

本发明的技术解决方案是,提供以下步骤的基于视觉感知正反馈的显著性检测新方法,包括以下各步骤:

1)利用已有的多种显著性检测方法(显著性检测1~n)初步检测图像显著度(模拟多通道视觉感知);

2)叠加感知结果,生成新的综合显著度图。阈值法二值化该图,可形成二值注视区Ip(模拟人眼注视);

3)重复采集Ip注视区内外的少量像素样本,经学习/训练,并行构建多个RVFL神经网络模型(模拟人脑神经网络);多个神经网络模型分类像素,经(投票法)集成形成二值目标输出BW;

4)BW作为一种神经发放脉冲,返回步骤2)与综合显著图做叠加(形成新显著图),形成迭代循环;

5)迭代中,若正反馈环节的输入Ip与输出BW基本相同,表明感知饱和,迭代停止。Ip或BW即为图像中的最显著目标分割结果。

采用本发明的方法,与现有技术相比,本发明具有以下特点:一是采用若干种数据驱动的显著性检测算法分别得到图像显著度图,做归一化后进行叠加,来模拟人类视觉初始感知的多通道现象;二是对叠加形成的综合显著图做阈值法二值化,用来模拟人脑神经系统对视觉刺激的阈值效应,生成注视区域;三是并行构建多个RVFL神经网络,由多个神经网络模型集成分类像素形成二值目标输出(像素特征由颜色、显著度、邻域像素等组成),模拟人脑的神经脉冲发放;四是在视觉感知反馈迭代过程中,二值输入区域Ip与输出区域BW基本相同作为感知饱和、迭代停止的条件。

所述基于视觉感知正反馈的显著性检测方法,是模拟注视眼动对注视区域的重复扫描与视觉感知饱和/衰减过程,构建的一种具有动态反馈环节的显著性检测方法。该方法借助前馈神经网络模拟人脑,通过“在线采样-学习建模-像素分类”过程产生视觉刺激,利用迭代和视觉感知饱和来仿真“微跳视”过程,从而构建一种动态、正反馈的算法框架,能获得更接近人类感知的视觉显著性图。

附图说明

图1为本发明基于视觉感知正反馈的视觉显著性检测与目标分割流程图。

图2为本发明中RVFL神经网络结构示意图。

具体实施方式

下面就具体实施例对本发明作进一步说明,但本发明并不仅仅限于这些实施例。

本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解,在以下本发明优选实施例中详细说明了具体的细节,而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。此外,本发明之附图中为了示意的需要,并没有完全精确地按照实际比例绘制,在此予以说明。

如图1所示,本发明的基于视觉感知正反馈的显著性检测方法,包括以下各步骤:

1)利用已有的多种显著性检测方法(显著性检测1~n)初步检测图像显著度(模拟多通道视觉感知);

2)叠加感知结果,生成新的综合显著度图。阈值法二值化该图,可形成二值注视区Ip(模拟人脑对视觉刺激的阈值效应,形成注视区域);

3)重复采集Ip注视区内外的少量像素样本,经学习/训练,并行构建多个RVFL神经网络模型;多个神经网络模型分类像素,经(投票法)集成形成二值目标输出BW(模拟人脑的神经脉冲发放);

4)BW作为一种神经发放脉冲,返回步骤2)与综合显著图做叠加(形成新显著图),形成迭代循环;

5)迭代中,若正反馈环节的输入Ip与输出BW基本相同,表明感知饱和,迭代停止。Ip或BW即为图像中的最显著目标分割结果。

人脑神经网络具有大量的神经连接,可并行处理视觉信息,并对视觉信息中的某些特征具有特异性,如对背景抑制,对不同方向线条、纹理、对不同物体(如人脸等)响应不同,体现了多通道视觉感知特性。另外加上人眼观察场景时的有复杂的眼动行为,在注视过程有可能同时产生多种类型的视觉感知。这些感知综合作用,形成了最终视觉感知结果。本发明通过用几种显著性检测算法获得显著度图,做归一化后进行叠加,来模拟这种多通道现象。叠加结果形成综合显著图,对该图进行(大津法)二值化,可形成初始注视区域,进行视觉感知正反馈迭代循环。

图1中,涉及训练数据、分类模型、二值目标区域等均为采用随机向量功能网络(Random Vector Functional Link Networks,RVFL)训练策略相应实施过程,其中RVFL神经网络结构示意图如图2所示。具体实施过程如下:

RVFL中输入层到增强结点的权重(内权)是随机生成的。在学习阶段,由于训练用的输入和输出数据已知,内权随机赋值后,只需确定RVFL增强结点到输出结点的输出权重(外权)。

其中P是数据样本的数量,t是目标矩阵,d是事物的原始特征向量以及随机特征。采用正则化最小二乘法或通过方程的最小范数解]可以解公式(1),也可通过伪逆矩阵求解。

以下是一种正则化最小二乘求解方法。由(1)式可得:

经训练样本集公式(3)求得外权

β=D(DTD+λI)-1T (3)

其中λ是正则化参数,D和T是所有数据样本d,t组合得到的矩阵形式。

RVFL网络是一种通用逼近器,可用于解决不同领域的回归/分类问题。由于RVFL是一类非迭代训练的前馈神经网络,算法参数少,且训练中无需迭代调整参数。当训练样本数量少而有效时,能显著降低建模运算的数据量。本发明采用RVFL算法进行重复学习,来模拟人类神经网络进行视觉显著性检测。算法能够在线实时训练,快速生成分类模型,可大大提高本发明效率(接近人类视觉的响应速度)。

由于人脑神经网络的高度并行性,我们有理由认为微跳视对注视区域重复采样后,样本数据可能被送入多个并行的神经网络,同时进行分类处理,最后进行综合得到稳定的目标。另外,由于RVFL输入端到增强结点的连接权值(内权)随机设置,会导致分类模型性能不稳定,而采用分类器集成策略可以很好解决这个问题。通过训练奇数个RVFL模型,再借助集成方法求出每个样本的后验概率,接下来根据后验概率计算样本类别。这种方法有效的解决了单个RVFL学习的不稳定性;且由于采用集成分类器(本发明中RVFL模型个数为3个),提高了RVFL的泛化性能。

另外,微跳视造成的注视范围微小变化,能够带来训练样本的差异化;而RVFL输入权值随机赋值,本身造成了网络模型的差异化,二者可以看做是对神经网络模型和样本集的有利扰动,会给集成分类器性能带来益处。

所述的视觉感知正反馈迭代过程,是模拟注视眼动对注视区域重复扫描,通过重复“像素采样-机器学习-分类像素”过程实现了一种视觉感知的正反馈循环,直至达到视觉感知饱和。具体实现方法是:先粗略检测图像显著度,借助显著度图阈值化来初步划分二值注视区域;再针对注视区域做重复迭代的机器学习,分类器的二值输出结果作为一种视觉感知刺激,叠加于该图像的前显著度图中,生成新显著图。随着循环迭代,目标区域的视觉刺激不断受叠加而强化,新显著图中目标区域的显著度由此迅速提升。迭代循环过程中,若输入与输出的(二值)注视区域连续相同,则认为感知饱和,循环结束。新的二值区域就是与人类感知接近的图像目标分割结果。

以上仅就本发明较佳的实施例作了说明,但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例,其具体结构允许有变化。总之,凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1