基于左右单眼感受野和双目融合的立体视觉显著计算方法

文档序号：6372905阅读：736来源：国知局

专利名称：基于左右单眼感受野和双目融合的立体视觉显著计算方法
技术领域：
本发明涉及一种基于左右单眼感受野和双目融合的立体视觉显著计算方法，属于计算机视觉技术领域。
背景技术：
在人类所面对的大千世界中，任意时刻都有海量信息存在人类周围。然而一方面人类的感觉系统能力有限，无法同时接受全部信息；另一方面与感觉系统相比，大脑的信息处理能力非常有限，在这两者之间出现了瓶颈问题。为了有效的接收信息和处理信息，视觉注意是精神系统必不可少的一个部分。人类的视觉系统(HVS)在面对一个复杂场景时能够迅速对视觉场景中非重要信息进行选择性滤除，从而将注意力集中在少数视觉显著的对象上，该过程被称为视觉注意(Visual Attention)。视觉注意是人类精神系统非常重要的功能，能够将精神活动集中于感官事件或精神事件。它是视觉感知模型的一部分，与人类的学习、记忆等模块协同工作，完成把需要注意的目标从背景分离、注意焦点在多个目标间转移等任务。在计算机视觉领域，为了模拟人类视觉注意的特性，提出了显著度(Saliency)的概念。鉴于以上的重要性，视觉显著度分析得到了很多研究机构的注意，成为计算机视觉领域的一个热点研究方向。在美国加州理工大学的kLab实验室、美国南加州大学的iLab实验室、微软亚洲研究院等都在该领域取得了一定的成绩。但是目前主流的视觉显著计算方法研究方向主要基于2D图像视频，很少有涉及到立体视觉显著计算方法的研究。三维技术从很早就已经诞生，其历史可以追溯到1839年英国科学家查理惠斯顿爵士发明了立体眼镜，从而让人们的左眼和右眼看同样图像时产生不同的效果。然而受限于三维技术的不成熟，虽然1936年就已经有了立体式效果的影片，但是二维电影图像一直都是多媒体领域的主流内容，因而绝大部分视觉注意以二维图像、视频为研究对象。随着RealID三维等技术发展，尤其是《阿凡达》的巨大成功，开辟了电影史上一个新的时代。美国好莱坞梦工厂已经宣布2009年以后出品的动画影片全部采用数字立体格式，迪士尼也宣布以后生产的动画片全部采用数字立体格式。国际一致认为数字立体电影改变了人们在影院的观影方式和体验，成为电影新的增长点。从产业数据上看出3D电影的票房比2D电影票房高出5倍多，优异的收入更加推动了三维技术的发展，毋庸置疑3D电影电视图像开始逐渐取代2D电影电视图像成为未来发展的主流。3D成像技术还推动了多个领域的发展，包括微软Kinect大卖预示着立体体感游戏将成为游戏的主流方向；珍藏的古董及主表可以通过三维完全详细检视；得益于两眼存在距离感可以使医生更好的分辨细微的物体，远距医学也逐渐发展，由上可见立体技术将会成为时代的主流。三维技术的发展也促使研究立体场景下人类的视觉注意方法成为了可能。人类的视觉系统也是立体的，存在左右眼视差和左右眼的融合形成深度上的感受，增加人类的辨识能力。立体视觉注意无论是在心理学还是神经科学上都得到了广泛的关注，也有不少的立体视觉方面的研究被发表，从左右眼差别，深度获取，双眼竞争，双目融合等各方面都提出了研究理论，进而对立体视觉显著计算方法支撑。可以预见，立体视觉显著计算方法将会取代二维视觉显著计算方法，成为计算机视觉领域研究的一个热点研究方向。计算机视觉领域中对二维图像视频的视觉显著度分析主要还是依托于生理学、心理学等结论，通过计算机模拟人类大脑的视觉注意过程。在认知神经科学中，现有视觉注意的理论包括基于物体注意和基于空间注意两种理论。基于物体注意理论认为物体的诸如颜色、运动、朝向、纹理、深度等特征在视觉系统中是独立编码的，视觉注意的目标是将这些不同的特征组合在一起；多个神经子系统的涌现性质可以化解视觉处理与行为控制之间的竞争。而基于空间注意的理论也提出了导引搜索模型和显著图(Saliency map)模型。视觉注意基本机理的研究对探索视觉显著计算方法有着指导意义。根据以上生理、心理学的研究，显著度提取的研究主要用自底向上计算方法模拟视觉系统处理过程来进行的。自底向上的方法主要基于Treisman的特征整合理论，从输入图像提取多方面的特征，如颜色、朝向、亮度、运动、深度等，形成在各个特征维上的特征图；然后对这些特征图进行分析、融合得到兴趣图。兴趣图中可能含有多个待注意的候选目标，通过竞争机制选出唯一的显著目标。目前大部分立体视觉显著计算方法是基于二维视觉显著计算方法，加入深度特征进行扩展。基于人类单眼感受野视觉特点，目前很多二维视觉显著计算方法采用对比这一生理学理论，对图像进行显著度提取。其中代表工作包括“中央一四周”的方法与利用模糊增长的方法° 如在论文“A model of saliency-based visual attention for rapid sceneanalysis”(快速场景分析的视觉显著度提取模型，Itti等，IEEE Transactions on PatternAnalysis and Machine Intelligence, 1998)中首先利用高斯金字塔生成多尺度图像,通常采用九级高斯金字塔，之后利用“中央一四周”算子计算不同尺度之间的对比度。该方法采用的特征包括亮度、颜色和方向。通过特征提取后得到特征图，然后对不同尺度的同一特征图像进行特征内部竞争形成中间显著图，最后对不同特征之间的中间显著图归一化并线性加和得到原图像的最终显著度图(得到的最终显著度图的长、宽将会是原图像的长、宽1/16)。大部分立体视觉显著计算方法基于“中心一四周”二维视觉显著计算方法加入深度信息进行扩展，如在论文“Computing visual attention from scene depth”(基于场景深度计算视觉注意，Ouerhani 等，International Conference on Pattern Recognition,2000)中加入了深度信息，使得深度成为一个特征，与颜色、亮度、方向等特征采用相同的处理方法提取特征图，然后不同特征非线性加权融合得到立体图像的显著图。但是大部分立体视觉显著计算方法只是在左眼图像上提取立体图像的显著图，并没有考虑双目融合问题，并不完全符合人类的立体视觉系统处理过程。另一方面，大部分的立体视觉显著计算方法采用的图像是该论文作者自身拍摄，没有相应的人工标注结果，同时也没有一个公开的立体图像评测数据集，无法做到定量对比。总的来说，大部分自底向上的立体视觉显著计算方法都基于二维视觉显著计算方法进行扩展，比较好的模拟了单眼感受野模型，符合一部分人类视觉处理过程，但是大部分的计算方法只是把深度作为一个特征，没有考虑双目融合的问题，并不含有人类立体视觉系统中双眼互相作用的这一重要过程。
因此，为了更好地模拟了人类立体视觉系统处理的主要过程，本文提出了一个基于左右单眼感受野和双目融合的立体视觉显著计算方法。在本方法实例中首先借鉴视网膜的特性，提取颜色特征和亮度特征作为信息输入，然后用2D Log-Gabor滤波金字塔模拟单眼的感受野模型并考虑了左右眼存在相位差这一特性，之后实现了 Two-Stage模型来模拟左右眼同尺度同方向上兴奋、抑制的相互作用作为双目融合，最后加入空间和深度上人类的视觉普遍特性(中心偏爱和前景偏爱)对视觉注意的影响，最终提取立体图像的显著区域。

发明内容
本发明要解决的问题是如何通过模拟人类立体视觉系统处理过程，自动估计立体图像的显著度分布。基于左右单眼感受野和双目融合的立体视觉显著计算方法，通过模拟人类立体视觉系统处理过程，首先分别建立左右单眼感受野模型获取对应的特征图，然后融合同特征下左右眼的特征图和不同特征的结果图，并基于中心偏爱和前景偏爱调整像素显著度，最终得到最接近人类立体视觉注意的显著度分布图。基于左右单眼感受野和双目融合的立体视觉显著计算方法，主要包括以下三个步骤I)基于感受野相位差分别获取左眼和右眼特征图步骤提取立体图像的底层特征，并分别建立左眼和右眼感受野模型，获取左眼和右眼的特征图；2)双目融合融合同特征下左右眼的特征图步骤，并融合不同特征的结果图；3)基于中心偏爱和如景偏爱调整权值步骤加入像素的空间位置彳目息和深度"[目息对该像素显著度的影响，进行权值调整。所述基于感受野相位差获取左眼步骤和右眼特征图步骤，包括以下步骤提取底层特征步骤提取立体图像的底层特征作为输入信息；获取左眼特征图步骤建立左眼感受野模型，获取左眼特征图；获取右眼特征图步骤根据左右眼的相位差，建立相应的右眼感受野模型，对右眼底层特征采用相同的处理方法，获取右眼特征图。所述的获取右眼特征图步骤是建立相应的右眼感受野模型，其模型与左眼感受野模型同一个形状但存在一定相位差，并对右眼底层特征采用相同的处理方法，提取右眼特征图。双目融合步骤包括以下步骤同特征融合模拟人类左右眼兴奋抑制等相互作用，融合同特征下左眼和右眼的特征图；不同特征融合融合不同特征的结果图。基于中心偏爱和前景偏爱权值调整步骤包括以下步骤计算中心偏爱的影响计算立体图像中像素的位置信息对该像素显著度的影响；计算前景偏爱的影响计算立体图像中像素的深度信息对该像素显著度的影响。本发明由于采取以上技术方案，与已有方法相比，主要创新点在于I.大部分立体视觉显著计算方法没有考虑左右眼的相位差，本发明加入了左右眼相位差的考虑，分别建立了左眼感受野模型和右眼感受野模型。更加符合人类视觉系统处理过程。2.大部分立体视觉显著计算方法没有考虑双目融合问题，本发明加入了双目融合的过程，模拟左右眼兴奋抑制等相互作用，更加符合人类视觉系统处理过程。3.本发明加入了“中心偏爱”和“前景偏爱”两种常见现象对人类立体视觉注意的影响，使得整个方法能够更好的符合人类视觉系统处理过程。本发明提供的立体视觉显著计算方法，能够更好的模拟人类立体视觉系统处理过程，并更有效地提取立体图像中感兴趣区域。

图I本发明的立体视觉显著计算方法流程示意图。图2本发明的2D Log-Gabor滤波金字塔在第三尺度和第五方向上的示意图。图3本发明的单眼感受野左右相位差图。图4本发明的双目融合Two-Stage模型流程图。图5本发明的立体视觉显著计算方法对立体图像的显著度估计结果示例图。
具体实施例方式实施例I :基于左右单眼感受野和双目融合的立体视觉显著计算方法，包括以下三个步骤a)获取单眼感受野的特征图。b)双目融合。c)基于中心偏爱和前景偏爱调整权值。通过上述三个步骤，可以自动估计立体图像的显著度分布。其中，所述的提取单眼感受野的特征图通过建立左右单眼感受野模型提取不同特征下显著度分布图。所述的提取单眼感受野的特征图的方法，主要包括以下步骤a)底层特征提取提取立体图像的底层特征作为输入信息。b)获取左眼特征图模拟人类视皮层简单细胞，建立左眼感受野模型，对左眼输入信息进行过滤，提取立体图像中的左图中显著区域。c)获取右眼特征图根据左右眼相位差，建立对应的右眼感受野模型，提取立体图像中的右图中显著区域。在本实例中，所述底层特征提取包括提取图像的亮度特征和颜色特征，颜色特征包括红绿特征和蓝黄特征。在本实例中，所述获取左眼特征图包括构建5个不同尺度8个不同方向的2DLog-Gabor滤波器，在傅里叶域对图像滤波并计算图像中对比熵，映射到每个像素的显著度。在本实例中，所述获取右眼特征图包括是根据左右眼感受野模型存在相位差，分别构建左眼和右眼的2D Log-Gabor感受野模型，进而分别提取左眼和右眼输入图像的特征图。
在本实例中，所述的双目融合是用Two-Stage模型模拟双眼的相互作用，融合同特征下同尺度同方向的特征结果，之后用基于内容的全局非线性模型融合不同特征的结果。所述的双目融合，主要包括以下步骤a)同尺度同方向的双目融合融合同特征下同尺度同方向的左右眼的特征图。b)不同特征融合融合不同特征的结果图。在本实例中，所述同尺度同方向的双目融合包括用Two-Stage模型模拟人类左右眼相互兴奋、抑制等相互作用，融合同特征下同尺度同方向的特征图。在本实例中，所述不同特征融合包括用基于内容的全局非线性方法融合不同特征的显著图，形成一个显著图。所述的基于中心偏爱和前景偏爱调整权值主要是加入“中心偏爱”和“前景偏爱”对立体视觉注意的影响，进而更加符合人类立体视觉注意过程。所述的“中心偏爱”和“前景偏爱”的方法，主要包括以下步骤a)中心偏爱计算立体图像中像素位置信息对该像素显著度的影响。b)前景偏爱计算立体图像中像素深度信息对该像素显著度的影响。所述中心偏爱包括计算像素所处的图像位置(横轴X，纵轴y)对该像素显著度的影响。所述前景偏爱包括计算像素所处的图像深度(深度d)对该像素显著度的影响。实施例2 图I为本发明的流程示意图，结合该图和实例，该立体视觉显著计算方法详细描述如下步骤I :对立体图像的左图和右图分别提取底层特征。人通过视网膜上视锥细胞和视杆细胞来感受光和颜色，然后把这些信息传入到视觉中枢，进行进一步分析。所以在本文中模拟视网膜神经细胞，提取图像的亮度和颜色特征作为信息的输入。—般来说，图像有红(r)、绿(g)、蓝(b)三种颜色组成，那么这里的亮度定义为I=(r+g+b)/3,由此来表示亮度特征I。颜色特征选择的是颜色对比，不是红绿蓝，虽然在生理学上经常提到红，绿，蓝三种反应细胞，对应到不同的波长580nm，545nm和440nm。实际上他们更接近与橘黄、黄色、蓝色的色调，特别是对蓝色的敏感是对红色、绿色的敏感的10倍，所以采用R=r_(g+b)/2来表示红，G=g_(r+b)/2 来表示绿，B=b_ (r+g) /2 来表示蓝，Y=r+g_2 (I r-g I+b)来表示黄。用R，G，B和Y更加的合理并且很简单和能够很好的计算，综上用这种方法就会存在4种色调，可以建立4个不同的颜色通道。由上面的定义可以看出来R，G，B这3个通道在各自纯色的时候取最大的值，然后Y通道等于O的时候既表示黑色(O)也表示白色(255)。视神经元一般受到一种颜色的兴奋和对应相反颜色的抑制(Engel，1997)，所以在本实验中选取两种对比色红绿RG (RG= I R-GI)，蓝黄BY (BY= | B-Y |)作为颜色特征。步骤2 建立左眼2D Log-Gabor感受野模型提取左眼特征图。2D Log-Gabor滤波定位为傅里叶域极坐标下对传统Gabor滤波的高斯位移
权利要求
1.一种自动估计的立体图像的视觉显著度方法，其特征在于包括以下步骤通过模拟人类立体视觉系统处理过程，首先分别建立左右单眼感受野模型获取对应的特征图，然后融合同特征下左右眼的特征图和不同特征的结果图，并基于中心偏爱和前景偏爱调整像素显著度，最终得到最接近人类立体视觉注意的显著度分布图。
2.根据权利要求I所述一种自动估计的立体图像的视觉显著度方法，其特征在于包括以下步骤，基于感受野相位差分别获取左眼特征图步骤和右眼特征图步骤提取立体图像的底层特征，并分别建立左眼和右眼感受野模型，获取左眼和右眼的特征图；双目融合步骤融合同特征下左右眼的特征图，并融合不同特征的结果图；基于中心偏爱和前景偏爱调整权值步骤加入像素的空间位置信息和深度信息对该像素显著度的影响，进行权值调整。
3.根据权利要求2所述一种自动估计的立体图像的视觉显著度方法，其特征在于所述基于感受野相位差获取左眼特征图步骤和右眼特征图步骤，包括以下步骤提取底层特征步骤提取立体图像的底层特征作为输入信息；获取左眼特征图步骤建立左眼感受野模型，获取左眼特征图；获取右眼特征图步骤根据左右眼的相位差，建立相应的右眼感受野模型，对右眼底层特征采用相同的处理方法，获取右眼特征图。
4.根据权利要求3所述的一种自动估计的立体图像的视觉显著度方法，其特征在于所述的获取右眼特征图步骤是建立相应的右眼感受野模型，其模型与左眼感受野模型同一个形状但存在一定相位差，并对右眼底层特征采用相同的处理方法，提取右眼特征图。
5.根据权利要求2所述一种自动估计的立体图像的视觉显著度方法，其特征在于，双目融合步骤包括以下步骤同特征融合模拟人类左右眼兴奋抑制等相互作用，融合同特征下左眼和右眼的特征图；不同特征融合融合不同特征的结果图。
6.根据权利要求2所述一种自动估计的立体图像的视觉显著度方法，其特征在于，基于中心偏爱和前景偏爱权值调整步骤包括以下步骤计算中心偏爱的影响计算立体图像中像素的位置信息对该像素显著度的影响；计算前景偏爱的影响计算立体图像中像素的深度信息对该像素显著度的影响。
7.根据权利要求2所述一种自动估计的立体图像的视觉显著度方法，其特征在于提取立体图像的底层特征；人通过视网膜上视锥细胞和视杆细胞来感受光和颜色，然后把这些信息传入到视觉中枢，进行进一步分析；模拟视网膜神经细胞，提取图像的亮度和颜色特征作为信息的输入；图像有红颜色r、绿颜色g、蓝颜色b三种颜色组成，这里的亮度定义为I=(r+g+b)/3，由此来表示亮度特征I ; 采用R=r-(g+b)/2来表示红， G = g-(r+b)/2来表示绿， B=b- (r+g) /2来表示蓝，Y=r+g-2 (I r-g | +b)来表示黄；选取两种对比色红绿RG (RG = I R-GI)，蓝黄BY (BY = | B-Y |)作为颜色特征。
8.根据权利要求2所述一种自动估计的立体图像的视觉显著度方法，其特征在于左眼的特征图计算如下 RGl (s，t) =F^1 (LGst (F(RGl))BYl (s, t)=F^ (LGst (F(BYl)) ⑵ Il(s，t)=F^ (LGst (F(Il)). 其中s G {1,2, 3,4, 5}表示尺度， t G {I, 2, 3, 4, 5, 6, 7, 8}表不方向， F和F—1分别表示傅里叶变换和傅里叶反变换， L表不左眼； RGl表示左眼红绿特征，BYl表示左眼蓝黄特征，Il表示左眼亮度特征， LGst表示s尺度t方向的2D Log-Gabor滤波器， RGl (s, t)表示左眼红绿特征在s尺度t方向的特征图， BYl (s, t)表示左眼蓝黄特征在s尺度t方向的特征图， Il(s, t)表示左眼亮度特征在s尺度t方向的特征图。
9.根据权利要求2所述一种自动估计的立体图像的视觉显著度方法，其特征在于右眼感受野模型如公式(2)，但是存在0的相位差 RGk (s，t+(J5)=F-1 (LGs(t+$) (F(RGe))BYe(s, t+ct) = F^1 (LGs(t+$) (F(BYe)) (3) Ik (s，t+(J5)=F-1 (LGs(t+$) (F(Ie)). 其中R表示右眼，表示相位差； RGe表示右眼红绿特征，BYe表示右眼蓝黄特征，Ie表示右眼亮度特征， LGs(t+(J))表示s尺度t+4>方向的2D Log-Gabor滤波器， RGe(s, t+4>)表示右眼红绿特征在s尺度t+方向的特征图， BYe(s, t+ct)表示右眼蓝黄特征在s尺度t+0方向的特征图， IE(s, t+4>)表示右眼亮度特征在s尺度t+4>方向的特征图。
10.根据权利要求2所述一种自动估计的立体图像的视觉显著度方法，其特征在于双目融合步骤中的双目融合模型如下
全文摘要
本发明涉及一种基于左右单眼感受野和双目融合的立体视觉显著计算方法，属于计算机视觉技术领域。通过模拟人类立体视觉系统处理过程，首先分别建立左右单眼感受野模型获取对应的特征图，然后融合同特征下左右眼的特征图和不同特征的结果图，并基于中心偏爱和前景偏爱调整像素显著度，最终得到最接近人类立体视觉注意的显著度分布图。本发明创新点在于加入了“中心偏爱”和“前景偏爱”两种常见现象对人类立体视觉注意的影响，使得整个方法能够更好的符合人类视觉系统处理过程。本发明提供的立体视觉显著计算方法，能够更好的模拟人类立体视觉系统处理过程，并更有效地提取立体图像中感兴趣区域。
文档编号G06T17/00GK102750731SQ20121023183
公开日2012年10月24日申请日期2012年7月5日优先权日2012年7月5日
发明者王敏, 田永鸿, 黄铁军申请人:北京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田永鸿;王敏;黄铁军
技术所有人：北京大学
我是此专利的发明人

上一篇：提供网络服务交换时使用的方法和系统的制作方法
上一篇：用于弯曲或柔性表面的触摸传感器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。