使用全局最小化和深度内插的立体深度估计的系统和方法与流程

文档序号:11161169阅读:414来源:国知局
使用全局最小化和深度内插的立体深度估计的系统和方法与制造工艺

本发明涉及用于立体深度估计的有效技术。具体地,本发明涉及使用全局最小化技术和深度内插的立体深度估计的系统和方法。



背景技术:

全局最小化可以用于生成非常高质量的深度(视差)图。然而,这些技术可能是高度计算密集的并且可能需要大量的存储器。在一些方面中,可能期望使用比这些全局最小化技术需要更少的存储器和计算运行时间的方法来生成高分辨率的、精确的深度图。



技术实现要素:

在所附权利要求的范围内的系统、方法和装置的各种实施方案均具有若干方面,其中没有单个一个方面仅负责本文所描述的期望属性。在不限制所附权利要求的范围的情况下,本文描述了一些突出特征。

在附图和下面的描述中阐述了本说明书中描述的主题的一或多个实施方案的细节。通过说明书、附图和权利要求书,其它特征、方面和优点将变得显而易见。注意,以下附图的相对尺寸可能不按比例绘制。

一种创新包括生成包含物体的深度信息的高分辨率图像的方法。所述方法可以包括从参考第一图像生成降低分辨率的第一图像,从参考第二图像生成降低分辨率的第二图像,参考第一图像和参考第二图像是立体图像对,确定所述第一降低分辨率图像和所述第二降低分辨率图像中的共轭点对的集合,生成具有所述第一降低分辨率图像和所述第二降低分辨率图像的分辨率的深度图,至少部分地基于所述共轭点对,将所述深度图上采样到所述参考第一图像的分辨率以生成高分辨率深度图,所述上采样包括在所述深度图中内插数据以生成所述高分辨率深度图的深度数据,以及修改所述高分辨率深度图的深度数据以符合所述参考第一图像或所述参考第二图像的边缘。

本发明的一个方面提供了一种生成包含物体的深度信息的高分辨率图像的方法。所述方法包括将第一参考图像和第二参考图像从第一分辨率下采样到第二分辨率,其中第一分辨率高于第二分辨率,并且其中第一参考图像和第二参考图像是立体图像对。所述方法还包括使用下采样立体图像对,基于全局最小化技术以第二分辨率生成深度图,并将深度图从第二分辨率上采样到第一分辨率。所述方法还包括使用导向滤波器来将上采样后的深度图的轮廓与第一参考图像的轮廓对准(或“卡合”)。

在一个方面,对深度图进行上采样可以包括使用双线性内插来将深度图的分辨率从第二分辨率增加到第一分辨率。在一个方面,第二分辨率可以包含至多与第一分辨率的四分之一一样多的像素。例如,第二分辨率可以包含与第一分辨率的四分之一或十六分之一一样多的像素。使用下采样立体图像对,基于全局最小化技术以第二分辨率生成深度图可以包括:使用对逐渐更大图像的迭代过程以使用全局最小化来生成深度图,由此生成深度图。基于全局最小化技术以第二分辨率生成深度图可以包括:基于全局最小化技术通过使能量函数最小化来生成深度图。第一参考图像和第二参考图像可以由彼此相距已知距离的相机同时捕获。

在一个方面,公开了一种用于生成包含物体的深度信息的高分辨率图像的装置。所述装置包括处理器,其经配置以将第一参考图像和第二参考图像从第一分辨率下采样到第二分辨率,其中第一分辨率高于第二分辨率,并且其中第一参考图像和第二参考图像包括立体图像对。所述处理器还经配置以使用下采样后的立体图像对,基于全局最小化技术以第二分辨率生成深度图,并将深度图从第二分辨率上采样到第一分辨率。所述处理器还经配置以使用导向滤波器来将上采样的深度图的轮廓与第一参考图像的轮廓对准。

本发明的一个方面提供了一种用于生成包含物体的深度信息的高分辨率图像的装置。所述装置包括用于将第一参考图像和第二参考图像从第一分辨率下采样到第二分辨率的装置,其中第一分辨率高于第二分辨率,并且其中第一参考图像和第二参考图像包括立体图像对。所述装置还包括用于使用下采样立体图像对,基于全局最小化技术以第二分辨率生成深度图的装置,以及用于将深度图从第二分辨率上采样到第一分辨率的装置。所述装置还包括用于使用导向滤波器来将上采样的深度图的轮廓与第一参考图像的轮廓对准的装置。

在一方面,公开了一种非暂时性计算机可读媒体。所述媒体包括代码,所述代码在被执行时使得设备:将第一参考图像和第二参考图像从第一分辨率下采样到第二分辨率,其中第一分辨率高于第二分辨率,并且其中第一参考图像和所述第二参考图像包括立体图像对。所述媒体还包括使得设备使用下采样立体图像对,基于全局最小化技术以第二分辨率生成深度图,将深度图从第二分辨率上采样到第一分辨率,以及使用导向滤波器将所述上采样深度图的轮廓与所述第一参考图像的轮廓对准。

附图说明

在下文中将结合附图和附录来描述所公开的方面,提供附图和附录是为了说明而不是限制所公开的方面,其中相同的标号表示相同的元件。

图1示出了可以由全局方法使用以基于两个立体图像获得高质量视差图的迭代步骤的实例。

图2示出了使用全局最小化技术并使用内插来生成高分辨率视差图的过程的实例。

图3示出了使用全局最小化和内插来获得密集视差(或深度)图的方法的示范性使用。

图4示出了使用全局最小化和内插来获得密集视差(或深度)图的方法的另一示范性使用。

图5A描绘了包含若干物体的真色彩图像的实例。

图5B示出了通过对图像进行傅立叶变换而生成的在图像中找到的各种分量带。

图6A描绘了包含若干物体的真色彩图像的实例,使用上采样生成所述图像。

图6B示出了通过对上采样后的图像进行傅立叶变换而生成的在上采样后的图像中找到的各种分量带。

图7A示出了基于接收到的立体图像对的使用全局最小化方法生成的视差图的实例。

图7B示出了使用全局最小化方法生成的视差图的傅立叶变换的实例。

图8A示出了通过对更小视差图进行上采样而产生的视差图的实例。

图8B示出了上采样后的视差图的傅立叶变换的实例。

图9A示出了通过上采样更小视差图并基于参考图像使用导向滤波锐化边缘而产生的视差图的实例。

图9B示出了通过上采样更小视差图并且基于参考图像使用导向滤波锐化边缘而产生的视差图的傅立叶变换的实例。

图10示出了根据本发明的一些方面的用于生成高分辨率深度图的实例性方法。

图11是示出根据一些实施例的深度图生成装置的实例的示意图。

具体实施方式

在下面的描述中,给出具体细节以提供对实施例的透彻理解。然而,可以在没有这些具体细节的情况下实践这些实例,并且这些实例并不旨在限制本文所讨论的主题的范围。

深度图(或视差图)通常可以指代包含与来自特定视点的深度图中的场景物体的表面的距离有关的信息的三维计算机图形图像或图像通道。例如,深度图可以具有以x和y轴布置在网格中的若干像素的分辨率,如同普通真色彩图像那样。那些像素中的每个像素可以具有表示所述位置处的场景物体与观看者(或捕获所述图像的相机)的位置的距离的值。例如,深度图可以使用深色(例如黑色)来指示图像中的特定点相对于其它点靠近相机,并且使用较浅的颜色(在到白色的梯度上)以指示所述图像中的其它点相对于其它深色点更远离相机。在一些实施方案中,这些颜色也可以颠倒,使得近物体更亮,远物体更暗。这些深度图可以用于若干不同的目的。例如,深度图可以用于将例如雾的效果添加到场景,用于模拟图像中的浅景深(使得远处的物体越来越模糊),用于帮助更有效地在三维中渲染场景,用于在三维图形中创建阴影,以及其它目的。

可以使用若干不同的技术来创建深度图。一种用于创建深度图的技术是立体深度估计。这种技术涉及同时或几乎同时捕获两个图像。每个图像可以用不同的成像系统(例如,两个相机)捕获。这两个图像可以捕获相同的场景,但是从两个不同的视点捕获,使得场景中的物体是来自两个不同角度的图像。例如,这些图像可以对应于取一小段距离的场景的“左眼”图像和“右眼”图像。使用这两个图像的透视图可以确定深度信息。例如,与用于捕获图像的两个相机相距很远的物体可能在两个图像中处于大致相同的位置。相比之下,两个相机附近的物体可能在两个图像中处于非常不同的位置。基于两个图像之间的场景中的各种物体的位置的差异,可以确定深度信息并且可以创建深度图。

可以使用立体深度估计来确定用于深度图提取的三维模型。当使用立体深度估计时,可以使用若干不同的技术来创建深度图。这些技术中的每个技术可以使用从稍微不同的角度拍摄的相同场景的两个图像,以便估计至图像中的物体的距离。例如,可以由彼此相距很短距离的两个相机拍摄图像,所述两个相机经配置以同时拍摄照片。在一些实施方案中,两个相机可以放置在例如移动电话、平板电脑或数字相机的移动装置上,并且可以彼此相距已知距离放置。在一些实施方案中,可以使用多于两个的相机。基于这两个或两个以上图像,可以使用若干技术来生成深度图,所述深度图指示图像中的各种物体的深度(或距离相机的距离)。基于在确定深度信息时使用了立体图像,使用两个或两个以上图像的每个技术都可以被称为立体深度估计技术。

存在可用于立体深度估计的若干不同技术。例如,Brown等人的“Advances in Computational Stereo(计算立体的进展)”(Pattern Analysis and Machine Intelligence(模式分析和机器智能),IEEE Transactions(IEEE事务),25(8),993-1008(2003))描述了可用于立体深度估计的若干不同技术。通常,这些技术可以分为两大类:局部方法和全局方法。这两类技术以不同的方式工作,并且呈现不同的优点和缺点。

深度估计的局部方法通常识别两个或两个以上立体图像的每个中的图像的各个“关键”点。例如,某些可识别点(例如由于边缘或由于图像中的颜色变化而可被识别的点)可以被定义为每个立体图像中的“关键”点。由于图像的立体性质,这些关键点可以在每个图像中处于略微不同的位置。基于这些关键点在两个或两个以上图像中的变化位置,深度估计的局部方法确定给定关键点的深度。这导致在相对稀疏的深度图,即深度仅对于遍布图像的有限数量的关键点是已知的。剩余的点可以基于关键点内插来取得它们的值,并且图像的颜色或其它细节可以用于将深度信息从关键点传播到图像的其它区域。因此,在局部方法中,可以对每个单独的像素单独进行视差计算,而不考虑每个其它像素。这可以使得方法的计算复杂度较低,并且可以实现有效的深度图计算。因此,此计算可以用相对最小量的存储器来完成,并且可以相当快地被执行。然而,对于这些低存储器要求的折衷是由这样的技术产生的视差图可能具有低质量。此外,视差图的质量可能受到噪声和立体图像的校准误差的严重影响。

相反,全局深度估计方法(“全局方法”)通常通过使两个或两个以上立体图像之间的能量函数最小化来操作。因此,这种全局方法一次处理整个图像,而不是如局部方法中处理图像的离散的“关键点”。这可能比用于生成深度图的局部方法在计算上复杂得多。例如,全局方法可以通过尝使包括视差平滑元素的能量函数最小化来操作。在一个实例中,能量公式可以包括:

E(D)=EP(D)+μES(D) (1)

其中E(D)是待进行最小化的能量,D是两个或两个以上立体图像之间的差异,EP测量两个图像之间的像素相似性,以及ES为基于系数μ的视差平滑度量。等式1可以用于计算两个或两个以上立体图像之间的能量视差。在计算此能量函数之后,可以改变D的值以便最小化E(D)。通常,可以使用共轭梯度、图形切割和其它技术来执行这种能量优化。与用于创建深度图的局部方法相比,这些技术可能趋向于增加计算的执行时间并且可能具有高的存储器要求。然而,与用于基于立体的深度估计的局部方法不同,这些全局方法可以生成精确的和高质量的深度图。此外,使用全局方法生成的深度图可以对噪声(在立体图像中)和校准误差更为鲁棒。因此,通常,这些深度图可以比基于局部方法的深度图更精确。

通常,全局方法可以通过首先处理具有较粗略(或低)分辨率的图像然后迭代地处理具有精细(或高)分辨率的图像来操作。例如,图1示出了可以由全局方法使用以获得高质量视差图110a的迭代过程的实例。首先,可以由两个相机同时捕获右图像120a和左图像130a。这些图像可以从稍微不同的角度同时捕获相同的场景。这些图像中的每个图像可以是高分辨率图像。

可以使用迭代过程,而不是基于高分辨率图像120a,130a在单个步骤中生成视差图110a。例如,右图像120a可以被下采样为若干更小的右图像120b,120c,120d,120e。例如,每个下采样后的图像可以具有其上方的更大图像的1/4的像素。例如,如果图像120a是1024×1024像素,则图像120b可以是512×512像素,图像120c可以是256×256像素,等等。还可以进行下采样,使得每个图像比生成其所来自的图像或比原始图像在比例上更小(例如,小特定倍数)。在一些实施例中,比例减少可以在图像到图像之间变化(例如,使得一个图像可以是另一图像的尺寸的四分之一(1/4),另一图像是另一图像的尺寸的一半(1/2))。类似地,左图像130a可以被下采样为若干更小的左图像130b,130c,130d,130e。可以以相同的方式对左图像和右图像进行下采样,使得针对每个下采样尺寸以相同分辨率存在匹配的一对图像。如图示100中的箭头所示,最小的一对下采样后的图像可以在初始时用于形成最小视差图110e。通过使能量函数最小化,可以使用类似等式1中可见的等式来形成此视差图110e。在一些实施方案中,可以从相应的父图像130a,120a生成更小的图像(左图像130b,130c,130d,130e和/或右图像120b,120c,120d,120e)。在其它实施例中,可以从先前生成的图像生成更小图像(左图像130b,130c,130d,130e和/或右图像120b,120c,120d,120e)(例如,图像120b从120a生成,图像120c从图像120b生成)。

在已经创建最小视差图110e之后,可以使用左图像130d和右图像120d的更大版本以及先前生成的更小视差图110e来创建每个进一步视差图(例如视差图110d)。因此,如图示100所示,可以生成若干不同的、逐渐更大的视差图。在图示100中,示出了五个不同尺寸的视差图,其中每个视差图包含先前视差图的更高分辨率,并且因此包含更多细节。

局部方法和全局方法可以提供不同的优点和缺点。因此,在一些方面中,可能期望使用提供类似于使用全局方法所得到的高质量性能但是更快且计算上更不密集的方法。例如,用于立体深度估计的一种有效方法可以在粗略(低)分辨率下使用全局最小化技术,然后可以执行粗略视差图的快速内插以获得高分辨率视差图。这可以导致具有高峰值信噪比(PSNR)的深度图,但是其可以使用比使用全局最小化技术显著更少的计算来生成。

例如,如图示100所示,用于生成视差图的全局估计方法可以包括对应于从粗略到精细(低分辨率到高分辨率)的不同分辨率的若干不同级别。通常,对于全局估计方法的每个步骤,用于每个步骤的计算时间/资源可以与正在生成的视差图中的像素的数量成比例。例如,如果全局估计方法的每个步骤将来自前一步骤(例如,从320×240移动到640×480)的视差图的长度和宽度加倍,则每个步骤将具有与前一步骤的四倍一样多的像素。因此,每个步骤可以花费与前一步骤的约四倍一样多的时长。因此,当在图示100中使用所述方法时,可以在最终步骤上使用所述方法的约75%的执行时间,以基于视差图110b,左图像130a和右图像120a生成高分辨率视差图110a。此外,所述方法的约20%的执行时间可以用于生成视差图110b、倒数第二视差图。因此,图示100中的方法的约95%的执行时间被用于生成视差图110a和110b。因此,如果在创建视差图110c之后停止所述过程,则这可以将所述过程的运行时间减少约95%。

如图所示,全局估计方法的大部分执行时间可以用于将粗略分辨率视差图(例如,视差图110c)转换成高分辨率视差图110a。因此,通过使用有效内插来将相对粗略的视差图转换为高分辨率视差图,可以显著地减少用于生成高分辨率视差图的运行时间。这是因为在图示100中的这么大比例的运行时间被用于将视差图110c转换为视差图110a,并且因为使用内插而不是全局最小化来扩大粗略视差图的尺寸在计算上可以显著地较为简单。

图2是用于使用内插生成高分辨率视差图的方法200。此方法200可以由例如移动电话、数字相机或另一数字成像装置使用。

在框205中,所述方法使用全局最小化来以低分辨率获得精确的视差图。例如,全局最小化技术可以包括使用例如等式1的误差最小化等式。如在图示100中,这些等式可以递归地使用,以便生成逐渐更高分辨率的视差图。然而,与图示100不同,这里,全局最小化技术可以仅用于生成低分辨率视差图,例如在生成深度图110b或110c之后停止所述技术。例如,通过全局最小化生成的视差图可以是期望视差图的尺寸的一半。在一些方面中,视差图还可以是相对于期望的高分辨率视差图的另一尺寸,例如尺寸的四分之一,尺寸的八分之一或另一尺寸。在一些方面中,用于使用全局最小化的装置可以包括处理器。

通常,在低分辨率视差图中,前景物体的视差值可以是相当精确的。这些物体可以占用比更小的背景元素更大的图像部分,并且多个物体之间可以比多个背景元素具有更大的深度差。因此,使用低分辨率视差图可能导致远距离物体的丢失一些深度精度和分辨率,但是对于前景物体仍然可能是精确的。与使用上述局部方法产生的显示图不同的是,此视差图对于噪声和校准误差也可以是鲁棒的。此外,生成低分辨率视差图所需的执行时间和存储器要求远低于使用全局技术生成高分辨率视差图所需的执行时间和存储器要求。

在框210中,所述方法执行低分辨率视差图的高质量内插以获得高分辨率视差图。例如,可以扩大低分辨率视差图的尺寸,可以例如通过使用常规技术来将图像(或深度图)的尺寸增加200%,400%或另一尺寸以便实现期望的尺寸。在一些方面中,期望的尺寸可以至少部分地基于所述方法的输入图像(原始高质量立体图像对)的尺寸。例如,全局最小化技术可以通过获取两个或两个以上输入图像(例如,左输入图像和右输入图像)并基于这些图像生成视差图来操作。因此,高分辨率视差图的期望分辨率可以基于源图像的分辨率。例如,视差图的期望分辨率可以等于原始立体图像对的分辨率。

在一些方面中,可使用线性内插将低分辨率视差图上采样到高分辨率。此方法可以精确地估计物体内部的分段常数差异。然而,由于上采样,上采样后的视差图中的物体轮廓可能被模糊和混叠。然而,高分辨率参考图像(例如原始立体图像对中的一或多个)可以用于恢复视差图的边缘。例如,参考图像可以是高分辨率的,并且可以包含锐利边缘。这些锐利边缘(图像中各种物体的颜色之间的过渡)可以用于锐化上采样后的视差图的模糊边缘。因此,此方法可以用于创建清晰、具有高PSNR并且对于前景物体精确的高分辨率视差图。

通过此方法产生的视差图可以具有多种不同的用途。例如,视差图可以用于图像的前景的3D渲染。这可以帮助例如略微改变图像本身的透视。视差图还可以用于改变图像的散景效果(即,基于它们与图像的距离改变背景物体的离焦程度,模拟使用不同透镜例如具有不同f数的透镜拍摄照片)。

图3说明使用内插来获得密集视差(或深度)图的方法的实例。在一些实施例中,图示300中的方法可以与图示100(图1)中的方法相同,直到生成视差图310b的程度。然而,在图示100中,可以使用全局最小化技术的另一迭代来生成最终的视差图110e。相反,在图示300中,视差图310b可以被上采样到视差图310a的尺寸。例如,视差图310b可以表示相对粗略的视差图,其可以仅具有例如在视差图310a和右视图320a中可见的像素的数量的四分之一。例如,粗略视差图310b可以在x轴和y轴中的每个中都具有右视图320a的像素数量的一半。在一些实例中,这种上采样可以如上所述使用线性内插来完成。

作为此上采样的一部分,上采样后的图像的边缘可以被锐化。例如,右视图320a可以用于锐化上采样后的视差图,形成高分辨率视差图310a。如图300所示,此生成视差图的方法(其中全局优化/最小化技术在4级之后停止并且使用内插以达到第5比例尺级),这可以将运行时间减少到全局最小化技术的运行时间的约四分之一,同时仍然得到高质量、高分辨率的深度图。例如,在这个实例中,最终深度图的信噪比可以是42.4dB,而所述方法的运行时间约为1/4长。

图4是使用内插来获得密集视差(或深度)图的方法的另一示范性使用。在此图示400中,可以以与图示100中类似的方式使用全局优化/最小化。然而,这里,在生成第三级视差图410c之后,可以将视差图410c上采样到最终尺寸。在一些方面中,与右视图420a相比,视差图410c可具有x轴和y轴中的每个中的像素数量的四分之一。因此,视差图410c可以具有右视图420a的像素数量的十六分之一。

然后可以通过右视图420a来锐化此上采样的视差图,以便增加上采样后的图像中的边缘的锐度。因此,图示400出了类似于图示300(图3)中所示方法的方法,不同之处在于在上采样之前使用全局最小化技术的更少的迭代。例如,此方法可以在第三比例尺级之后使用内插,以便内插直到第五比例尺级。因为全局方法的执行时间的约15/16可以用在全局方法的最后两次迭代上,所以图示400(图4)的混合方法可以将运行时间减少到图示100所示的全局方法的运行时间的约1/16。图示400中生成的视差图的PSNR是40.7dB。可以观察到视差图410a的PSNR低于视差图310a的PSNR。这说明在选择使用全局最小化方法的迭代次数时可以做出的一个权衡。使用更大数量的迭代可增加高分辨率视差图的质量,然而,它也可显著地增加对应计算的运行时间和存储器要求。

一般来说,本文中用以生成高分辨率视差图的技术在生成精确视差图方面可比在重新创建精确的真色彩图像中更有效。这是因为自然/真色彩图像可以被认为包含两个不同的分量:带限分量和高通分量。首先,图像包含带限分量,其包括物体色调和锐利边缘。例如,此带限分量可以包含关于特定物体的边缘的信息,因为那些物体可以在图像中产生非常清晰的颜色和其它不连续性。第二,图像包含高通分量,其包括精细细节、振荡模式和噪声。高通分量包括许多不同的细节,这些细节使得像素到像素的变化很小。例如,各种物体的纹理可以包含在此高通分量内。相比之下,深度图不包含相同量的高通分量。例如,场景中各种物体的深度通常仅逐渐和平滑地改变,而物体的颜色可具有许多不规则的差异,反映例如图案或阴影的信息。

图5A示出了包含若干物体的真色彩图像的表示。图5B示出了通过对用宽支持从-π到+π对图像500进行傅立叶变换生成的图像500中可见的各种分量带的图示550。如图示550所示,图像500包含大量不同的带宽,从[0,0]处的图像中心向外延伸很长。通常,图像的带限分量在[0,0]处接近图像的中心,而高通分量可以定义为在[0,0]处更远离图像中心的分量。因此,如这里所示,真色彩图像包含相对大量的高通分量。

图6A示出了包含多个物体的真色彩图像600的表示,并且以与本发明中包含的某些方法类似的方式生成。例如,图像600可以对应于图像500,不同之处在于图像600已经被缩小,然后使用线性内插上采样到4x。图6B是通过对图像600进行傅立叶变换而生成的图像600中可见的各种分量边界的图示650。如图示650所示,在[-π/4,π/4]范围之外的图像频率由于上采样而丢失。因为除了上采样之外,图像600和图像500是相同的,所以图示550和图示650之间的差异仅仅是由于这种上采样的效果。

如图像600所示,这些丢失的频率包含关于例如各种物体的纹理的更大量的信息。因为此信息包含在上采样后的图像中不可见的较高频带(绝对值更高,在[-π/4,π/4]范围之外)中,所以那些信息已经丢失并且不包含在上采样后的图像中。如图像600旁边所示,此图像包含25.04dB的PSNR,这与先前所示的视差图相比非常低。因此,可以基于分量带和低PSNR的差异观察到,与图像500相比,图像600丢失了大量的信息。

图7A示出了使用全局最小化方法生成的视差图700的描绘的实例。通过使用全局最小化方法创建视差图700以创建整个图像,而没有任何内插。例如,可以使用如图1所示的过程创建此视差图700。图7B是视差图700的傅立叶变换的图示750的实例。可以注意到,图示750与图示550不同,包含在[-cπ,cπ]范围外的非常少的信息,其中c是小值。这种信息缺乏可能涉及真色彩图像和视差图之间的差异。真色彩图像包含例如大量的物体纹理和其它信息,其可以逐个像素地改变特定区域的颜色。相比之下,视差图在深度上包含少得多的像素到像素变化。相反,视差图可以主要具有与物体的边缘有关的锐度变化,以及与形状(例如,填充动物的形状)上不同点上的距离变化有关的渐变梯度。因此,如图所示,视差图可以是逐段恒定的,并且大多数仅由包括物体轮廓和锐利边缘的带限分量组成。由于视差图的带限特性,与通过上采样创建的真色彩图像不同,通过上采样重建的视差图可以更忠实地再现全尺寸版本,而不损失那么多的信息。

图8A是已经通过线性内插而不使用边缘锐化而产生的视差图800的图示。线性内插可以是对例如视差图的图像进行上采样的一种方法。例如,已经通过在每个方向上对低分辨率深度图上采样4x(例如从160×120到640×480)来产生此视差图800。因为此视差图800已被上采样,所以可以观察到视差图800中的各个物体之间的边缘是模糊的。图8B是通过线性内插产生的视差图800的傅立叶变换的图示850。如在图示650中,视差图800的上采样性质(其通过在4x处的线性内插产生)意味着所得图示示出来自[-π/4,π/4]的带限频谱。然而,因为视差图不具有自然彩色图像可能具有的精细的像素到像素细节的级别,所以可以观察到,由于从(与通过继续使用全局最小化方法生成更大版本相比)更小版本的上采样,比在上采样的真色彩图像中观察到的从视差图丢失了少得多的信息。这可以通过注意图750和图示850之间的差异远小于图示550和图示650之间的差异来观察到。此外,与图像600的仅25.04dB相比,可以观察到图像800的PSNR是39.07dB。因此,与在真色彩图像中使用相同技术可观察到的相比,视差图800可表示对视差图700的更好的重新创建。

通过使用高分辨率图像来锐化视差图的边缘,可以进一步改善内插的视差图(例如视差图800)。图9A是通过对更小视差图进行上采样并使用导向滤波以基于高分辨率图像锐化边缘而产生的视差图900的图示。图9B是通过线性内插产生的视差图900的傅立叶变换的图示950。如图所示,图示950与图示750非常相似。例如,视差图900具有40.70dB的PSNR,这意味着此视差图是视差图700的精确的重新创建。然而,视差图900可以仅需要生成视差图700所需的时间约1/16的时间来生成。因此,可以观察到,本文所讨论的方法可以显著地减少生成视差图所需的时间、存储器和计算能力,同时仍然维持高分辨率和精度。

图10示出了根据本发明的一些方面的用于生成高分辨率深度图的实例性方法1000。此方法1000可以在具有例如移动电话或数字相机的数字成像能力的装置上执行。

在框1010,所述方法包括将第一参考图像和第二参考图像从第一分辨率下采样到第二分辨率,其中第一分辨率高于第二分辨率,第一图像和第二图像包括立体图像对。例如,所述方法可以从两个数字图像捕获装置(例如内置在单个装置中的两个数字相机)接收第一参考图像和第二参考图像。这些图像可以同时捕获,并且可以显示相同的场景,但是来自稍微不同的角度。因此,这些图像可以被称为立体图像对,因为这两个图像可以一同以类似于可以如何使用两只眼睛来提供三维信息(例如深度信息)的方式来实现给定场景的三维视图。在一些方面中,参考图像可以以高分辨率接收,并且可以被下采样到例如是原始分辨率的像素数量的四分之一或十六分之一的分辨率。因此,第二分辨率可以包含小于第一分辨率的四分之一像素的像素。例如,第二分辨率可以包含与第一分辨率的像素的四分之一或十六分之一一样多的像素(在x和y方向的每个中都代表与一半或四分之一一样多的像素)。例如,如果接收的图像是640×480,则它们可以被下采样为320×240或160×120。在一些方面中,也可以使用其它下采样尺寸。所述方法可以使用此下采样比率来控制所述方法的执行时间和背景物体的深度分辨率之间的折衷。在一些方面中,用于下采样的装置可包括处理器。

在一些方面中,第一图像可由第一相机捕获,并且第二图像可由第二相机捕获。这两个相机可以相距已知的距离。两个相机可以具有彼此相同的原生分辨率。例如,这些相机可以大体上彼此相同(例如,相机或相机组件的相同品牌和型号)。在一些方面中,用于捕获图像的装置可以包括数字相机。

在框1020,所述方法包括使用下采样的第一参考图像和下采样的第二参考图像,基于全局最小化技术以第二分辨率生成深度图。例如,可以使用若干不同的全局技术来生成深度图。这些技术通常可以使用整个图像并且可以尝试使能量分量最小化来创建深度图。这些方法可以迭代地运行,使得每次迭代创建深度图的更大版本。因此,生成深度图可以包括对逐渐变大的图像使用迭代过程,以便使用全局最小化来生成深度图。例如,生成深度图可以通过使能量函数最小化来完成,如上面关于等式1所描述的。通常,执行时间可以与图像中的像素的数量成比例。因此,对于低分辨率图像的执行时间和存储器要求可能相对更小。在一些方面中,用于生成深度图的装置可以包括处理器。

在框1030,所述方法包括将深度图从第二分辨率上采样到第一分辨率。例如,这种上采样可以使用双线性内插来完成。这种上采样的结果将是模糊的深度图,并且在各种物体的轮廓上具有一些混叠伪影。在一些方面中,用于上采样的装置可以包括处理器。在一些方面中,用于使用双线性内插的装置可以包括处理器。

在框1040,所述方法使用导向滤波器来将经上采样的深度图的轮廓与第一参考图像的轮廓对准。例如,此滤波器可以基于第一参考图像的边缘和轮廓来增加上采样深度图的边缘的锐度。在一些方面中,这可以产生具有高分辨率、具有前景物体的精确深度、清晰边缘并且具有很少或没有混叠伪影的最终深度图。在一些方面中,用于使用导向滤波器映射的装置包括处理器。

通常,与计算上和存储器方面低效的全局方法相比,此方法可以降低处理分辨率。与全局优化相比,这减少了执行时间和存储器要求。此外,这以较低分辨率产生精确的深度图。此外,视差图的分段恒定性和高分辨率参考图像的可用性实现了低分辨率视差图的高质量内插。通常,可以以高分辨率以高精度分割前景物体。然而,远距离物体的深度精度可能受损。在此方法中,可以选择处理分辨率以控制性能和最终深度图质量之间的折衷。

图11是示出根据一些实施例的深度图生成装置的实例的示意图。具体来说,图11描绘具有一组组件的装置1100的高级框图,所述组件包括链接到图像传感器组合件1115的图像处理器1120。图像处理器1120还与工作存储器1105、存储器1130以及装置处理器1150,装置处理器1150又与存储装置1110和电子显示器1125通信。

在一些实施例中,装置1100可以是特意配置以进行深度感测的感测装置。在一些实施例中,装置1100可以是蜂窝电话、数字相机、平板计算机、个人数字助理等。存在许多便携式计算装置,其中例如本文所描述的成像系统将提供优点。多个应用可以在装置1100上对用户可用。多个应用可以包括传统的摄影和视频应用、高动态范围成像、全景照片和视频或例如3D图像或3D视频的立体成像。

装置1100包括用于捕获外部图像的图像传感器组合件1115。图像传感器组合件1115可以包括传感器、透镜组合件以及用于将目标图像的一部分重定向到每个传感器的主和次反射或折射表面。图像传感器组合件1115可以包括两个或两个以上传感器。图像传感器组合件可以耦合到图像处理器1120。在一些方面中,传感器组合件1115可以经配置以捕获立体图像对,其中同时从不同角度捕获同一场景的两个图像。

图像处理器1120可以经配置以对包括目标图像的N个部分的接收到的图像数据执行各种处理操作,以便输出高质量的拼接图像,如下面将更详细描述的。处理器1120可以是专用于成像应用的通用处理单元或处理器。图像处理操作的实例包括裁剪、缩放(例如,缩放到不同分辨率)、图像拼接、图像格式转换、颜色内插、颜色处理、图像滤波(例如,空间图像滤波)、透镜伪影或缺陷校正等。在一些实施例中,处理器1120可以包括多个处理器。某些实施例可以具有专用于每个图像传感器的处理器。处理器1120可以是一或多个专用图像信号处理器(ISP)或处理器的软件实现。

如图所示,图像处理器1120连接到存储器1130和工作存储器1105。在所示实施例中,存储器1130存储全局最小化模块1135、导向滤波器模块1140和操作系统1145。这些模块包括指令,其配置图像处理器1120或装置处理器1150以执行各种图像处理和装置管理任务。工作存储器1105可以由图像处理器1120用于存储包含在存储器1130的模块中的处理器指令的工作集。可替代地,工作存储器1105还可以由图像处理器1120用于存储在装置1100的操作期间创建的动态数据。

如上所述,图像处理器1120由存储在存储器中的若干模块配置。全局最小化模块1135可以包括配置图像处理器1120或装置处理器1150以基于立体图像对来生成深度图的指令。此深度图可以使用全局最小化技术(例如上述迭代技术)来生成。全局最小化模块1135还可以包含用于对图像进行下采样的指令。例如,构成立体图像对的图像的若干不同的下采样版本可以用于构建越来越大尺寸的深度图。这些下采样后的图像可以由图像处理器1120或装置处理器1150使用来自全局最小化模块1135的指令生成。

导向滤波器模块1140可以包括配置图像处理器1120或装置处理器1150以使用例如参考图像之一的图像来锐化放大的深度图的边缘的指令。在一些方面中,导向滤波器模块1140可进一步包含用于例如通过双线性内插来上采样深度图的指令。例如,导向滤波器模块可以接收由全局最小化模块1135生成的深度图,并且可以上采样此深度图以匹配参考图像的分辨率。

操作系统模块1145配置图像处理器1120以管理工作存储器1105和装置1100的处理资源。例如,操作系统模块1145可以包括装置驱动器以管理例如成像传感器组合件1115的硬件资源。因此在一些实施例中,包含在上述图像处理模块中的指令可以不直接与这些硬件资源交互,而是通过位于操作系统组件1170中的标准子程序或API进行交互。操作系统1145中的指令然后可以直接与这些硬件组件。操作系统模块1145可以进一步配置图像处理器1120以与装置处理器1150共享信息。

装置处理器1150可以经配置以控制显示器1125向用户显示捕获的图像或捕获的图像的预览。显示器1125可以在成像装置1100的外部或者可以是成像装置1100的一部分。显示器1125还可以经配置以提供在捕获图像之前为用户显示预览图像的取景器,或者可以被配置以显示存储在存储器中或由用户最近捕获的捕获图像。显示器1125可以包括LCD或LED屏幕,并且可以实现触敏技术。

装置处理器1150可以向存储模块1110写入数据,例如表示捕获的图像的数据。尽管存储模块1110被图形地表示为传统磁盘装置,但是本领域技术人员将理解,存储模块1110可以配置为任何存储媒体装置。例如,存储模块1110可以包括例如软盘驱动器、硬盘驱动器、光盘驱动器或磁光盘驱动器之类的磁盘驱动器,或例如闪存、RAM、ROM和/或EEPROM的固态存储器。存储模块1110还可以包括多个存储器单元,并且存储器单元中的任何一个可以经配置为位于图像捕获装置1100内,或者可以位于图像捕获装置1100外部。例如,存储模块1110可以包括包含存储在图像捕获装置1100内的系统程序指令的ROM存储器。存储模块1110还可以包括存储卡或高速存储器,其经配置以存储可从相机移除的所捕获的图像。

尽管图11描绘了具有单独的组件以包括处理器、成像传感器和存储器的装置,但是本领域技术人员将认识到,这些单独的组件可以以各种方式组合以实现特定的设计目标。例如,在替代实施例中,存储器组件可以与处理器组件组合以节省成本和提高性能。

另外,虽然图11说明两个存储器组件,包含包括若干模块的存储器组件1130和包括工作存储器的单独存储器1105,但本领域技术人员将认识到利用不同存储器架构的若干实施例。例如,设计可以利用ROM或静态RAM存储器来存储实现包含在存储器1130中的模块的处理器指令。处理器指令可以被加载到RAM中以便于由图像处理器1120执行。例如,工作存储器1105可以包括RAM存储器,其中在由处理器1120执行之前将指令加载到工作存储器1105中。

因此,在本发明的一个方面中,公开了一种生成包含物体的深度信息的高分辨率图像的方法。所述方法包括从参考第一图像产生降低分辨率的第一图像,以及从参考第二图像产生降低分辨率的第二图像,所述参考第一图像和参考第二图像是立体图像对。例如,可以使用立体对中的两个高分辨率参考图像,并且可以生成那些图像的较低分辨率版本。所述方法还包括确定第一和第二降低分辨率图像中的共轭点对的集合,并且至少部分地基于所述共轭点对,生成具有第一和第二降低分辨率图像的分辨率的深度图。所述方法还包括将深度图上采样到参考第一图像的分辨率以生成高分辨率深度图,上采样包括在深度图中内插数据以生成高分辨率深度图的深度数据,并且修改所述高分辨率深度图的深度数据以符合所述参考第一图像或所述参考第二图像的边缘。

实现系统和术语

本文公开的实施方案提供了用于多孔阵列相机的没有视差和倾斜伪影的系统、方法和设备。本领域技术人员将认识到,这些实施例可以在硬件、软件、固件或其任何组合中实现。

在一些实施例中,上述电路、过程和系统可以用于无线通信装置中。无线通信装置可以是用于与其它电子装置无线通信的一种电子装置。无线通信装置的实例包括蜂窝电话、智能电话、个人数字助理(PDA)、电子阅读器、游戏系统、音乐播放器、上网本、无线调制解调器、膝上型计算机、平板装置等。

无线通信装置可以包括一或多个图像传感器、两个或两个以上图像信号处理器以及包括用于执行上述CNR过程的指令或模块的存储器。所述装置还可以具有数据、从存储器加载指令和/或数据的处理器、一或多个通信接口、一或多个输入装置、一或多个输出装置(例如显示装置和电源/接口)。无线通信装置可以另外包括发射器和接收器。发射器和接收器可以共同称为收发器。收发器可以耦合到用于发送和/或接收无线信号的一或多个天线。

无线通信装置可以无线地连接到另一电子装置(例如,基站)。无线通信装置可以替代地被称为移动装置、移动站、用户站、用户装置(UE)、远程站、接入终端、移动终端、终端、用户终端、用户单元等。无线通信装置的实例包括膝上型或台式计算机、蜂窝电话、智能电话、无线调制解调器、电子阅读器、平板装置、游戏系统等。无线通信装置可以根据例如第三代合作伙伴计划(3GPP)的一或多个工业标准。因此,通用术语“无线通信装置”可以包括根据工业标准(例如,接入终端、用户装置(UE)、远程终端等)以不同命名法描述的无线通信装置。

本文描述的功能可以作为一或多个指令存储在处理器可读或计算机可读媒体上。术语“计算机可读媒体”是指可以由计算机或处理器访问的任何可用媒体。作为实例而非限制,这样的媒体可以包括RAM、ROM、EEPROM、闪存、CD-ROM或其它光盘存储器、磁盘存储器或其它磁存储装置,或者可以用于以指令或数据结构的形式存储期望的程序代码并且可以由计算机访问的其它媒体。如本文所使用的磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字通用盘(DVD)、软盘和其中磁盘通常磁性地再现数据,而光盘用激光光学地再现数据。应当注意,计算机可读媒体可以是有形的和非暂时的。术语“计算机程序产品”是指与可以由计算装置或处理器执行、处理或计算的代码或指令(例如,“程序”)结合的计算装置或处理器。如本文所使用的,术语“代码”可以指可由计算装置或处理器执行的软件、指令、代码或数据。

本文公开的方法包括用于实现所描述的方法的一或多个步骤或动作。在不脱离权利要求的范围的情况下,所述方法步骤和/或动作可以彼此互换。换句话说,除非为了所描述的方法的正确操作需要步骤或动作的特定顺序,否则在不脱离权利要求的范围的情况下,可以修改特定步骤和/或动作的顺序和/或使用。

应当注意,本文所使用的术语“耦合”、“耦合着”、“耦合了”或者单词耦合的其它变型可以指示间接连接或直接连接。例如,如果第一部件“耦合”到第二部件,则第一部件可以间接连接到第二部件或直接连接到第二部件。如本文所使用的,术语“多个”表示两个或两个以上。例如,多个组件指示两个或两个以上组件。

术语“确定”包括各种各样的动作,因此“确定”可以包括计算、运算、处理、导出、调查、查找(例如在表、数据库或另一数据结构中查找)、确定等。此外,“确定”可以包括接收(例如,接收信息)、访问(例如,访问存储器中的数据)等。此外,“确定”可以包括解析、选择、选择、建立等。

除非另有明确说明,短语“基于”不意味着“仅基于”。换句话说,短语“基于”描述“仅基于”和“至少基于”。

在前述描述中,给出了具体细节以提供对实施例的透彻理解。然而,本领域的普通技术人员将理解,可以在没有这些具体细节的情况下实践这些实例。例如,可以以框图示出电气部件/装置,以便不以不必要的细节模糊实例。在其它实例中,可以详细地示出这些组件、其它结构和技术以进一步解释实例。

在此包括标题以供参考并且有助于定位各个部分。这些标题不旨在限制参照其描述的概念的范围。这样的概念可以在整个说明书中具有适用性。

还应注意,实例可以被描述为过程,其被描绘为流程图、流程图表、有限状态图、结构图或框图。虽然流程图可以将操作描述为顺序过程,但是许多操作可以并行或并发地执行,并且可以重复所述过程。此外,可以重新布置操作的顺序。当其操作完成时,过程终止。过程可以对应于方法、函数、过程、子例程、子程序等。当过程对应于软件函数时,其终止对应于函数返回到调用函数或主函数。

提供对所公开的实施方案的先前描述以使本领域任何技术人员能够实现或使用本发明。对这些实施方案的各种修改对于本领域技术人员将是显而易见的,并且在不脱离本发明的精神或范围的情况下,本文定义的一般原理可以应用于其它实施方案。因此,本发明不旨在限于本文所示的实施方案,而是符合与本文公开的原理和新颖特征一致的最宽范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1