基于模拟人类视觉的机器视觉构建方法

文档序号:9217575阅读:444来源:国知局
基于模拟人类视觉的机器视觉构建方法
【技术领域】
[0001] 本发明涉及人类视觉构建技术领域,具体地讲是一种基于模拟人类视觉的机器视 觉构建方法。
【背景技术】
[0002] 随着信息技术的发展,计算机视觉已经被广泛应用于低层特征检测和描述、模式 识别、人工智能推理和机器学习算法等领域。然而,传统的计算机视觉方法通常是任务驱动 型,即需要限定许多条件,并根据实际任务来设计相应的算法,缺乏通用性;需要解决高维 非线性特征空间、超大数据量对问题求解和实时处理等问题,使得其研宄和应用面临巨大 的挑战。
[0003] 人类视觉系统能够在不同环境下高效、可靠地工作,其具有以下优点:具有关注 机制、显著性检测和与此相关的视觉处理中的选择性和目的性;能够从低层视觉处理中利 用先验知识,使数据驱动的自底向上处理与自顶向下的知识指导在视觉处理中相互协调配 合;上下境信息在视觉处理的各个层次都发挥着重要作用,并且能够综合利用环境中各种 模态的信息。但在人类视觉感知机理尚不完全明了的情况下,如何构造具有人类视觉特点 的机器视觉仍存在较大困难,若能够构建模拟人类视觉的机器视觉系统,必然会给计算机 视觉的各个实际应用领域带来重要的影响。

【发明内容】

[0004] 有鉴于此,本发明要解决的技术问题是,提供一种能够模拟人类视觉的机器视觉 构建方法,通过模拟人类主动视觉行为、对目标场景作快速有效注视,实现机器对目标场景 的视觉感知。
[0005] 本发明的技术解决方案是,提供以下步骤的基于模拟人类视觉的机器视觉构建方 法,包括以下各步骤:
[0006] 1)通过频域法对目标图像作显著性检测,得到相应的像素显著度图,所述像素显 著度图与所述目标图像的像素位置信息一致;
[0007] 2)对所述的像素显著度图中的显著点,依据显著度进行排序;
[0008] 3)选取前N个显著点作为注视点,以每个注视点为中心,形成信息熵最大的局部 区域,这些局部区域组成注视区域;
[0009] 4)对所述的注视区域内部像素进行随机采样,并对注视区域外部进行等量的像素 随机采样;采样得到的注视区域内部像素作为正样本,注视区域外部像素作为负样本;
[0010] 5)利用极限学习机训练策略,训练得到一个二分类的前馈神经网络模型,通过该 模型分类所述目标图像的全部像素,将被分为正样本的像素区域作为第一注视目标区。
[0011] 采用本发明的方法,与现有技术相比,本发明具有以下优点:通过频域法进行显著 性检测,能够快速形成像素显著度图;依据显著度排序像素,可粗略定位显著度高的注视区 域;对该区域内部和外部同时进行少量像素采样,组成正负样本数据集训练前馈神经网络, 随后借助该神经网络分类像素,能获得显著度高的、更精确的区域作为第一注视目标区;且 可建立第一注视目标区的基础上,适当扩大显著度高的注视区域范围,再次经神经网络学 习-分类形成相应的注视目标区,并与第一注视目标区进行比较,以判断注视目标区是否 稳定。本发明根据人类视觉注视的过程,通过注视点排序和神经网络模型,来模拟人类视 觉,以构建具有对目标场景快速有效注视的机器视觉。
[0012] 作为改进,选取前N+M个显著点作为注视点,依照步骤3)形成注视区域,再经步骤 4)和5)得到相应的第二注视目标区;比较第一注视目标区和第二注视目标区的重叠程度, 重叠程度大则表明对目标的视觉感知强度大;重叠程度小则表明还未形成足够的对目标的 视觉感知强度,继续重复上述过程,直至达到足够的视觉感知强度,最终的注视目标区为上 述过程所有注视目标区的叠加。该设计能够加快视觉感知目标的生成与输出,并得到更为 稳定的注视目标区,注视的结果更为可靠。
[0013] 作为改进,获得注视目标区后,在目标图像和像素显著度图中该区域被清零,对更 新后的像素显著度图中的显著点,依据显著度再次排序,重复步骤3)、4)和5),得到新的注 视目标区,依次获得图像中的多个目标区。这样能够完成对整幅图像的有效信息进行注视 识别和读取,提高注视的准确性和完整度。
[0014] 作为改进,所述的频域法是指通过超复数傅立叶变换,将彩色图像中的红、绿、蓝 三个分量作为超复数的三个虚部参与傅立叶变换,只保留相位谱信息,经傅立叶反变换获 得像素显著度图。该设计用于解决现有技术仅能处理黑白图像识别的问题,有效地针对彩 色图像相应地改进了频域法的具体步骤。
【附图说明】
[0015] 图1为本发明基于模拟人类视觉的机器视觉构建方法的流程图。
【具体实施方式】
[0016] 下面就具体实施例对本发明作进一步说明,但本发明并不仅仅限于这些实施例。
[0017] 本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为 了使公众对本发明有彻底的了解,在以下本发明优选实施例中详细说明了具体的细节,而 对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。此外,本发明之附图 中为了示意的需要,并没有完全精确地按照实际比例绘制,在此予以说明。
[0018] 如图1所示,本发明的基于模拟人类视觉的机器视觉构建方法,包括以下各步骤:
[0019] 1)通过频域法对目标图像作显著性检测,得到相应的像素显著度图,所述像素显 著度图与所述目标图像的像素位置信息一致;
[0020] 2)对所述的像素显著度图中的显著点,依据显著度进行排序;
[0021] 3)选取前N个显著点作为注视点,以每个注视点为中心,形成信息熵最大的局部 区域,这些局部区域组成注视区域;
[0022] 4)对所述的注视区域内部像素进行随机采样,并对注视区域外部进行等量的像素 随机采样;采样得到的注视区域内部像素作为正样本,注视区域外部像素作为负样本;
[0023] 5)利用极限学习机训练策略,训练得到一个二分类的前馈神经网络模型,通过该 模型分类所述目标图像的全部像素,将被分为正样本的像素区域作为第一注视目标区。
[0024] 对于机器视觉构建来说,图像相当于人类视觉所注视的场景,无论场景大小,在视 网膜上成像的范围是不变的,因而图像之于机器之于机器视觉也是如此。
[0025] 通过频域法对目标图像作显著性检测,可采用以下步骤实施:对待目标图像I(i, j)进行二维离散傅里叶变换F[I (i,j)],将图像由空间域转换到频域,得到相位P (u,v)信 息:
[0026]
[0027] 式中F表示二维离散傅里叶变换,舛)表示相位运算。将相位信息经傅里叶逆变换 后,可以在空间域得到显著度图像Sa_Map。
[0028] Sa_Map(i,j) = | F_1 [exp {jP (u, v)} ] |2 (2)
[0029] 图1中,涉及训练数据、分类模型、结果等均为采用极限学习机训练策略相应实施 过程。具体实施过程如下:
[0030] 极限学习机(ELM)是一种单隐层前馈神经网络(Single-hidden layer feedforward networks,SLFNs)。对一个给定的训练样本集{(XD}: c AW,有L个隐层 结点的SLFNs表示为:
[0032] 其中a 是隐结点与输入结点的连接参数(内权),内权可独立于训练数据的 随机产生。K( a p bp Xj)是第i个隐结点对应于输入的输出项。0 i是第i个隐结点到输 出结点的连接权值(外权)。如果已知给定的训练样本,且已知随机产生的内权,则K( a ^ bi,xP可计算;公式(3)成为一个线性系统,只有|^是未知项,可通过线性代数方法求解。
[0033] 基于上述原理,在给定训练集下,单隐层反馈神经网络的性能完全由其隐层结点 与输出结点的连接权值(外权)确定,而与输入端与隐层结点的连接权值、偏移值等(内 权)无关。由此能用数学手段解得关键连接权值的解析解而非迭代近似解,从而使得ELM 算法本
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1