用于从二维图像进行三维对象重构的系统和方法

文档序号:6457377阅读:475来源:国知局
专利名称:用于从二维图像进行三维对象重构的系统和方法
技术领域
本公开总地涉及三维对象建模,并且更具体地涉及用于从二维(2D)图像进行三维(3D)信息获取的系统和方法,所述三维(3D)信息获取组合多个3D获取功能,用于真实世界场景的3D信息的精确恢复。
背景技术
当拍摄场景时,所产生的视频序列包含关于该场景的三维(3D)几何形状(geometry)的隐含信息。尽管对于充分的人的感觉来说此隐含信息是足够的,但是对于许多应用来说要求3D场景的确切几何形状。这些应用中的一类是在使用复杂的数据处理技术时、例如在生成场景的新视图或者在重构用于工业检查应用的3D几何形状时。
从单个或者多个图像生成3D模型的处理对于许多电影后期制作应用是重要的。恢复3D信息作为活跃的研究领域已经有一段时间了。在文献资料中,存在大量的以下技术所述技术或者例如使用激光测距仪(laser rangefinder)来直接捕捉3D信息,或者从一个或多个诸如来自运动技术的立体照片(stereo)或结构之类的二维(2D)图像恢复3D信息。3D获取技术总地可被分类为主动和被动方式、单视图和多视图方式、以及几何和光度(photometric)方法。 被动方式从在规则照明条件下拍摄的图像或者视频获取3D几何形状。使用从图像和视频提取的几何或者光度特征计算3D几何形状。主动方式使用诸如激光、结构光(structured light)、或者红外光之类的特殊光源。主动方式基于对象和场景对于投射到所述对象和场景的表面上的特殊光的响应来计算几何形状。 单视图方式使用从单个照相机视点拍摄的多个图像来恢复3D几何形状。例子包括来自运动的结构和来自散焦的深度。 多视图方式从多个图像恢复3D几何形状,所述多个图像是从由对象运动产生的或者具有不同的光源位置的多个照相机视点拍摄的。立体照片匹配是通过使立体照片对中的左图像和右图像中的像素匹配以获得像素的深度信息而进行多视图3D恢复的例子。
几何方法通过检测诸如单个或多个图像中的角、边沿、线、或者外形之类的几何特征来恢复3D几何形状。可以将所提取的角、边沿、线、或者外形之间的空间关系用于推断图像中的像素的3D坐标。来自运动的结构(Structure From Motion, SFM)是尝试从由在场景内移动的照相机或者静止照相机和移动的对象拍摄的图像的序列来重构该场景的3D结构的技术。尽管许多人同意SFM在根本上是非线性问题,但是已经做出了将SFM线性地表示的一些尝试,所述尝试提供数学简洁性(mathematical elegance)以及直接求解的方法。另一方面,非线性技术要求进行迭代优化,并且必须应付局部最小值。然而,这些技术预示良好的数值精度和灵活性。SFM相对于立体照片匹配的优势在于需要一个照相机。可以通过利用特征的运动的过去历史以预测下一帧中的视差的跟踪技术来使基于特征的方式更有效。其次,由于两个连续的帧之间的较小的空间和时间差别,对应的问题也可以被当作估计图像亮度图案的视动(即parent motion)的问题,所述视动被称作光流。存在一些使用SFM的算法;它们中的大多数基于从2D图像来重构3D几何形状。 一些算法假定已知的对 应值,其它的算法使用统计方式来在没有对应的情况下进行重构。 光度方法基于由场景表面的朝向产生的图像斑纹(patch)的阴暗或阴影恢复3D 几何形状。 上述方法已经被广泛研究了数十年。然而,没有单独一个技术在所有情况下表现 良好,过去的方法中的大多数致力于在使重构相对容易的实验室条件下的3D重构。对于真 实世界场景,主体(subject)可能在运动中,照明可能是复杂的,并且深度范围可能较大。 上述技术难以处理这些真实世界条件。例如,如果存在前景和背景对象之间的较大的深度 不连续,则立体照片匹配的搜索范围必须被显著地增大,这可能造成不可接受的计算成本 以及额外的深度估计误差。

发明内容
提供了一种使用二维(2D)图像进行场景的三维(3D)获取和建模的系统和方法。 本公开提供了一种系统和方法,用于选择和组合最适合考虑中的捕捉环境和条件并且因而 产生更精确的3D模型的3D获取技术。所使用的技术取决于考虑中的场景。例如,在室外 场景中,立体照片被动技术将与来自运动的结构一起使用。在其它情况下,主动技术可能更 合适。组合多个3D获取功能导致比如果仅使用一个技术或功能时更高的精确度。将组合 多个3D获取功能的结果以获得可被用于生成完整的3D模型的视差或者深度图。此项工作 的目标应用是胶片组(film set)的3D重构。所产生的3D模型可以被用于在电影拍摄期 间的可视化或者被用于后期制作。其它应用将受益于此方式,所述其它应用包括但不限于 游戏以及采用2D+深度格式的3D TV。根据本公开的一方面,提供了三维(3D)获取方法。所述方法包括获取场景的至 少两个二维(2D)图像;将第一深度获取功能应用于所述至少两个2D图像;将第二深度获 取功能应用于所述至少两个2D图像;将所述第一深度获取功能的输出与所述第二深度获 取功能的输出组合;并且从所组合的第一和第二深度获取功能的输出生成视差图。
另 一方面,该方法还包括从所述视差图生成深度图。 又一方面,所述方法包括从所生成的视差或者深度图重构场景的三维模型。
根据本公开的另一方面,一种用于从二维(2D)图像进行三维(3D)信息获取的系 统包括用于获取场景的至少两个二维(2D)图像的部件;3D获取模块,其被配置用于将第 一深度获取功能应用于所述至少两个2D图像,将第二深度获取功能应用于所述至少两个 2D图像,并且将所述第一深度获取功能的输出与所述第二深度获取功能的输出组合。所述 3D获取模块还被配置用于从所组合的第一和第二深度获取功能的输出生成视差图。
根据本公开的又一方面,提供了一种可由机器读取的程序存储装置,所述程序存 储装置有形地体现可由所述机器执行以进行用于从二维(2D)图像获取三维(3D)信息的方 法步骤的指令的程序,所述方法包括获取场景的至少两个二维(2D)图像;将第一深度获
取功能应用于所述至少两个2D图像;将第二深度获取功能应用于所述至少两个2D图像;
将所述第一深度获取功能的输出与所述第二深度获取功能的输出组合;并且从所组合的第 一和第二深度获取功能的输出生成视差图。


根据将结合附图阅读的以下优选实施例的详细描述,本公开的这些和其它方面、 特征和优点将被描述或变得显而易见。 附图中,其中贯穿各视图,类似的参考标号代表类似的元件。
图1是根据本公开的一方面的用于三维(3D)深度信息获取的示例系统的图示;
图2是根据本公开的一方面的用于从二维(2D)图像重构三维(3D)对象或者场景 的示例方法的流程图; 图3是根据本公开的一方面的用于3D深度信息获取的示例双通道方法的流程 图; 图4A图示了双输入立体照片图像,并且图4B图示了双输入结构光图像;
图5A是由图4B中所示的立体照片图像生成的视差图;
图5B是由图4A中所示的结构光图像生成的视差图; 图5C是使用简单平均组合方法从图5A和图5B中所示的视差图的组合产生的视 差图; 图5D是使用加权平均组合方法从图5A和图5B中所示的视差图的组合产生的视 差图。 应理解附图是用于图示本公开的构思的目的,并不一定是用于图示本公开的唯 一可能的配置。
具体实施例方式
应理解可以以各种形式的硬件、软件或其组合来实施附图中所示的元件。优选 地,在一个或多个被适当编程的通用装置上以硬件和软件的组合来实施这些元件,所述通 用装置可以包括处理器、存储器以及输入/输出接口 。 本描述例示本公开的原理。因此应理解本领域技术人员将能够设计出虽然未在这 里被明确描述或示出、但是体现本公开的原理并且被包括在本公开的原理的精神和范围内 的各种布置。 这里所叙述的所有例子和条件性语言意在教导目的,以帮助读者理解本公开的原 理和由发明人贡献以促进本领域技术的构思,并被解释为不限于这样具体叙述的例子和条 件。 此外,这里叙述本公开的原理、方面、以及实施例的所有陈述、以及本公开的具体 例子意在包含本公开的结构的和功能的等效物。另外,这样的等效物意在包括当前已知的 等效物以及将来开发的等效物,即,无论结构如何、执行相同功能的所开发的任何元件。
因此,例如,本领域技术人员将理解这里呈现的框图表示体现本公开的原理的示 例电路的概念性视图。类似地,将理解任何流程图示、流程图、状态转换图、伪代码等等表 示各种处理,基本上可以在计算机可读介质中表示所述各种处理,并因此由计算机或处理 器执行,无论这样的计算机或处理器是否被明确示出。 附图中所示的各种元件的功能可以通过使用专用硬件以及能够与适合的软件相 关联而执行软件的硬件来提供。当由处理器提供时,所述功能可以由单个专用处理器、单个 共享处理器、或其中一些可以被共享的多个独立处理器提供。此外,术语"处理器"或"控制器"的明确使用不应被解释为唯一地代表能够执行软件的硬件,其也可以隐含地包括、而不 限于数字信号处理器("DSP")硬件、用于存储软件的只读存储器("R0M")、随机存取存储 器("RAM")、以及非易失性存储装置。 也可以包括其它的传统的和/或定制的硬件。类似地,附图中所示的任何开关只 是概念性的。它们的功能可以通过程序逻辑的操作、通过专用逻辑、通过程序控制和专用 逻辑的交互作用、或甚至手动地执行,如从上下文中更具体理解的,具体技术可由实施者选 择,。 在本公开的权利要求中,表示为执行指定功能的部件的任何元件意在包含执行该 功能的任何方式,所述方式包括例如,a)执行该功能的电路元件的组合,或者b)任何形式 的软件,因此包括与用于执行该软件的适合的电路组合以执行该功能的固件、微代码等等。 由这样的权利要求限定的本公开归于这样的事实由各种所叙述的部件提供的功能以权利 要求所要求的方式被组合并集合。因此认为能够提供那些功能的任何部件等效于这里所 示的那些部件。 本公开中公开的技术处理恢复对象和场景的3D几何形状的问题。由于主体的运 动、前景与背景之间的大的深度不连续、以及复杂的照明条件,恢复真实世界场景的几何形 状是有挑战性的问题。使用一种技术完全恢复场景的完整几何形状在计算上是昂贵且不可 靠的。诸如激光扫描之类的一些用于精确3D获取的技术由于人主体的存在、在许多情况下 是不可接受的。本公开提供一种系统和方法,用于选择和组合最适合在考虑中的捕捉环境 和条件并且因而产生更精确的3D模型的3D获取技术。 提供了一种系统和方法,用于组合多个3D获取方法以便精确恢复真实世界场景 的3D信息。由缺少能够可靠地捕捉用于真实的和大的环境的3D信息的单个方法促成组合 多种方法。 一些方法在室内运行良好,而在室外则不是,其它方法要求静止的场景。而且, 计算复杂程度/精确度在各种方法之间变化很大。本公开的系统和方法定义了利用可用 技术的长处来捕捉3D信息以获得最佳的3D信息的框架。本公开的系统和方法提供了 获 取场景的至少两个二维(2D)图像;将第一深度获取功能应用于所述至少两个2D图像;将 第二深度获取功能应用于所述至少两个2D图像;将所述第一深度获取功能的输出与所述 第二深度获取功能的输出组合;并且从第一和第二深度获取功能的所组合的输出生成视差 图。由于视差信息反比于深度乘以縮放因数,因此可以将使用从所组合的输出生成的视差 图或者深度图来重构3D对象或者场景。 现在参照附图,在图1中示出根据本公开的实施例的示例系统组件。可以提供扫 描装置103用于将胶片印片104、例如照相机原始胶片负片扫描为数字格式、例如Cineon格 式或者运动画面和电视工程师协会(SMPTE)数字画面交换(DPX)文件。扫描装置103可以 包括例如电视电影机(telecine)或者将从诸如例如具有视频输出的Arri LocPrc)TM之类的 胶片生成视频输出的任何装置。可以通过利用数字摄像机105捕捉视频图像的时间序列来 获取数字图像或者数字视频文件。可替换地,可以直接使用来自后期制作处理或者数字电 影的文件106(例如,已经为计算机可读形式的文件)。计算机可读文件的可能来源为AVIDTM 编辑器、DPX文件、D5磁带等等。 将所扫描的胶片印片输入后处理装置102、例如计算机。在各种已知的计算机平台 中的任一个上实施所述计算机,所述计算机平台具有以下硬件诸如一个或多个中央处理单元(CPU)、诸如随机存取存储器(RAM)和/或只读存储器(ROM)之类的存储器110、以及 诸如键盘、光标控制装置(例如鼠标或者摇杆)以及显示装置之类的输入/输出(I/O)用 户接口 112。所述计算机平台还包括操作系统和微指令代码。这里所描述的各种处理和功 能可以是微指令代码的一部分或者是经由操作系统执行的软件应用程序的一部分(或者 它们的组合)。在一个实施例中,软件应用程序被有形地体现在程序存储装置上,所述软件 应用程序可被上载到诸如后处理装置102之类的任何合适的机器并且由其执行。另外,可 以将各种其它外围装置通过诸如并行端口、串行端口、或者通用串行总线(USB)之类的各 种接口和总线结构连接到所述计算机平台。其它外围装置可以包括附加存储装置124和打 印机128。可以采用打印机128来打印胶片的经过修正的版本126,其中作为下面描述的技 术的结果,可以使用3D建模的对象来改变或者替换场景。 作为替换,可以将已经处于计算机可读形式的文件/胶片印片106(例如数字电 影,其例如可以被存储在外部硬盘驱动器124上)直接输入到计算机102中。注意这里使 用的术语"胶片(film)"可以指胶片印片或者数字电影。 软件程序包括存储在存储器110中的三维(3D)重构模块114。 3D重构模块114 包括用于从图像获取3D信息的3D获取模块116。 3D获取模块116包括若干3D获取功能 116-1. . . 116-n,诸如但不限于立体照片匹配功能、结构光功能、来自运动的结构功能等。
提供深度调节器117,用于调节从不同的获取方法生成的视差或者深度图的深度 尺度(scale)。对于每种方法,深度调节器117将视差或者深度图中的像素的深度值标定为 0-255。 提供可靠性估计器118,并且将其配置用于估计图像像素的深度值的可靠性。可靠 性估计器118比较每种方法的深度值。如果来自各种功能或方法的值接近或者在预定的范 围内,则将深度值视为可靠的;否则,深度值是不可靠的。 3D重构模块114还包括用于检测图像中的特征点的特征点检测器119。特征点检 测器119将包括至少一种特征点检测功能、例如算法,以便检测或者选择要采用的用以对 准(register)视差图的特征点。还提供深度图生成器120,用于从所组合的深度信息生成 深度图。 图2是根据本公开的一方面的用于从二维(2D)图像重构三维(3D)对象的示例方 法的流程图。 参照图2,最初,在步骤202中,后处理装置102获得计算机可读格式的数字主视频 文件。可以通过利用数字摄像机105捕捉视频图像的时间序列来获取数字视频文件。作为 替换,传统的胶片类型的照相机可以捕捉视频序列。在此方案(scenario)中,经由扫描装 置103扫描胶片,并且处理进行到步骤204。在移动场景中的对象或者照相机的同时,照相 机将获取2D图像。照相机将获取该场景中的多个视点。 应理解无论胶片是被扫描还是已经处于数字格式,胶片的数字文件都将包括关 于帧的位置的指示或者信息(即,时间代码),例如帧编号、从电影的开始起的时间等等。数 字视频文件的每一帧将包括一个图像,例如I" 12、. . . In。 组合多种方法造成对于在普通(common)坐标系中对准每种方法的输出的新技术 的需要。对准处理可以使组合处理明显变复杂。在本公开的方法中,在每种方法的同一时 刻,可以在步骤204中收集输入图像来源信息。这简化了对准,这是由于步骤206中的照相机位置和步骤208中的照相机参数对于所有技术都是相同的。然而,输入图像来源对于 所使用的每种3D捕捉方法可以是不同的。例如,如果使用立体照片匹配,则输入图像来源 应当是被分开适当的距离的两个照相机。在另一例子中,如果使用结构光,则输入图像来 源是结构光照射的场景的一个或多个图像。优选地,将对于每种功能的输入图像来源对齐 (align),使得各功能的输出的对准简单并且直接。否则,实施手动或者自动对准技术,以在 步骤210中使输入图像来源对齐。 在步骤212中,操作者经由用户接口 112选择至少两个3D获取功能。所使用的 3D获取功能取决于在考虑中的场景。例如,在室外场景中,立体照片被动技术将与来自运 动的结构结合使用。在其它情况下,主动技术可能更合适。在另一例子中,可以将结构光 功能与激光测距仪功能组合,以用于静止的场景。在第三例子中,可以通过组合来自轮廓 (silhouette)的形状功能与立体照片匹配功能来在室内场景中使用多于两个照相机。
在步骤214中,将第一 3D获取功能应用于图像,并且在步骤216中,为图像生成第 一深度数据。在步骤218中,将第二 3D获取功能应用于图像,并且在步骤220中,为图像生 成第二深度数据。应理解可以将步骤214和216与步骤218和220并行或者同步地执行。 作为替换,每种3D获取功能可被分别执行,可被存储在存储器中,并且可被在以后取回,以 用于将在下面描述的组合步骤。 在步骤222中,对准并且组合每种3D深度获取功能的输出。如果图像来源被适当 地对齐,则不需要对准,并且可以高效地组合深度值。如果图像来源未被对齐,则所产生的 视差图需要被适当地对齐。这可以手动地完成,或者通过经由特征点检测器119从一个图 像到另一个图像匹配特征(例如标志、角、边沿)并且然后相应地移动视差图之一来完成。 特征点是图像的突出(salient)特征,诸如角、边沿、线等,其中存在较高量的图像亮度对 比。特征点检测器119可以使用本领域众所周知的Kitchen-Rosenfeld角检测算子C。此 算子用于评估给定的像素位置处的图像的"角"(cornerness)的度数。"角"通常是特征为 图像亮度梯度最大值的两个方向的交叉、例如90度角度的图像特征。为了提取特征点,在 图像L的每个有效像素位置处应用Kitchen-Rosenfeld算子。特定像素处的算子C的值越 高,其"角"的度数越高,并且如果在(x, y)处的C大于(x, y)周围的邻近的其它像素位置 处的C,则图像L中的像素位置(x,y)是特征点。所述邻近可以是以像素位置(x,y)为中 心的5X5矩阵。为了确保鲁棒性,所选择的特征点可以具有大于阈值(诸如T。二 10)的 角的度数。来自特征点检测器118的输出是图像^中的一组特征点{巳},其中每个巳对应 于图像L中的"特征"像素位置。可以采用许多其它的特征点检测器,包括但不限于尺度 不变特征变换(SIFT)、最小单值分割吸收核(Smallest Univalue Segment Assimilating Nucleus, SUSAN) 、Hough变换、Sobel边沿算子以及Canny边沿检测器。在选择了所检测的 特征点之后,通过特征点检测器119处理第二图像I2,以检测在第一图像L中发现的特征 并且匹配所述特征以对齐图像。 剩余的对准问题之一是调节从不同的3D获取方法生成的视差图的深度尺度。由 于可以使恒定乘法因数(constant multiplicative factor)适合于可用于场景中的相同 像素或点的深度数据,因此这可以自动完成。例如,从每种方法输出的最小值可以被标定为 O,并且从每种方法输出的最大值可以被标定为255。 组合各种3D深度获取功能的结果取决于许多因素。 一些功能或者算法例如产生其中许多像素不具有深度信息的稀疏(sparse)的深度数据。因此,功能组合依赖其它功 能。如果多个功能在一像素处产生深度数据,则可以利用所估计的深度数据的平均值来组 合数据。对于每个像素,简单组合方法通过对来自两个视差图的视差值取平均来组合所述 两个视差图。 可以在组合结果之前基于功能结果中的算子置信度、例如基于捕捉条件(例如室 内、室外、照明条件)或者基于像素的局部视觉特征来将权重分配给每个功能。例如,基于 立体照片的方式通常对于没有纹理的区域是不精确的,而基于结构光的方法可以非常好地 执行。因此,可以通过检测局部区域的纹理特征来将更多的权重分配给基于结构光的方法。 在另一例子中,结构光方法对于暗区域通常执行得较差,而立体照片匹配的性能保持比较 好。因此,在此例子中,可以将更多的权重分配给立体照片匹配技术。 加权组合方法计算来自两个视差图的视差值的加权平均。由左眼和右眼图像之间 的对应的像素对、例如立体像对(stereoscopic pair)的左眼图像中的对应像素的亮度值 确定权重。如果该亮度值较大,则将较大的权重分配给结构光视差图;否则,将较大的权重 分配给立体照片视差图。数学上,所产生的视差值为
D (x, y) = w (x, y) Dl (x, y) + (l-w (x, y)) Ds (x, y),
w(x, y) = g(x, y)/C 其中Dl是来自结构光的视差图,Ds是来自立体照片的视差图,D是所组合的视差 图,g(x, y)是左眼图像上的(x, y)处的像素的亮度值,C是用于将权重归一化为从O到1 的范围的归一化因数。例如,对于8位色彩深度,C应当为255。 使用本公开的系统和方法,多个深度估计可用于场景中的相同像素或者点,一个 深度估计用于每个所使用的3D获取方法。因此,所述系统和方法还可以估计图像像素的深 度值的可靠性。例如,如果所有的3D获取方法对于一个像素输出非常类似的、例如在预定 范围内的深度值,则该深度值可被视为非常可靠。在通过不同的3D获取方法获得的深度值 有很大不同时,则应当发生相反的情况。 然后,在步骤224中,可以将所组合的视差图转换为深度图。视差与深度逆相关, 其中縮放因数与照相机校准参数相关。获得照相机校准参数,并且由深度图生成器122采 用照相机校准参数来为两个图像间的对象或者场景生成深度图。照相机参数包括但不限于 照相机的焦距以及两个照相机拍摄之间的距离。可以经由用户接口 112将照相机参数手动 输入到系统100,或者从照相机校准算法或者功能估计照相机参数。使用该照相机参数,从 所组合的多个3D获取功能的输出生成深度图。深度图是用于在数学上表示空间中的表面 的值的二维阵列,其中,该阵列的行和列对应于该表面的x和y位置信息;并且阵列元素是 从给定点或者照相机位置至表面的深度或者距离读数。深度图可以被看作对象的灰度图 像,其中在对象的表面上的每个点处,深度信息替换亮度信息或者像素。相应地,表面点也 指3D图形重构的技术内的像素,在本公开中将可互换地使用这两个术语。由于视差信息反 比于深度乘以縮放因数,因此可以直接使用视差信息用于为大多数应用建立3D场景模型。 由于其使得不必要计算照相机参数,所以这简化了计算。 可以从视差或者深度图重构对象或者场景的完整3D模型。然后,可以将该3D模 型用于诸如后期制作应用以及从2D内容创建3D内容之类的多个应用。可以使用诸如在加 州斯坦福大学开发的ScanAlyze软件之类的传统可视化工具来使所产生的组合的图像可
10视化。 然后,可以呈现特定的对象或者场景的重构的3D模型以便在显示装置上查看,或者将该重构的3D模型与包含图像的文件分别保存在数字文件130中。可以将3D重构的数字文件130存储在存储装置124中,以便以后取回,例如在其中可以将建模的对象插入到之前未出现该对象的场景中的对电影的编辑阶段期间内。 其它传统的系统使用双通道方式来分别恢复静止背景和动态前景的几何形状。一旦获取了背景几何形状、例如静止来源,可以将其用作先验信息来获取移动主体、例如动态来源的3D几何形状。该传统的方法可以减少计算成本并且通过将计算限制在感兴趣区域内来增加重构精确度。然而,观察到使用单一技术来恢复每个通道中的3D信息是不够的。因此,在另一实施例中,在双通道方式的每个通道中使用采用多个深度技术的本公开的方法。图3图示了示例方法,该方法组合来自立体照片和结构光的结果以恢复静止场景、例如背景场景的几何形状,以及组合2D-3D转换和来自运动的结构以用于动态场景、例如前景场景。图3中所示的步骤类似于关于图2描述的步骤,并且因此具有类似的附图标号,其中-1步骤、例如304-1表示第一通道中的步骤,_2步骤、例如304-2表示第二通道中的步骤。例如,在步骤304-1中提供静止输入来源。在步骤314-1中执行第一3D获取功能,并且在步骤316-1中生成深度数据。在步骤318-1中执行第二 3D获取功能,在步骤322-1中组合在步骤320-1中生成的深度数据和来自两个3D获取功能的深度数据,并且在步骤324-1中生成静止视差或者深度图。类似地,由步骤304-2到322-2生成动态视差或者深度图。在步骤326中,从来自第一通道的静止视差或者深度图以及来自第二通道的动态视差或者深度图生成组合的视差或者深度图。应理解图3仅为一个可能的例子,并且根据需要可以使用并且组合其它算法和/或功能。 由本公开的系统和方法处理的图像在图4A和图4B中图示,其中图4A图示了两个输入立体照片图像,并且图4B图示了两个输入结构光图像。在收集图像时,每种方法具有不同的要求。例如,与立体照片相比结构光要求更暗的房间设置。而且,为每种方法使用不同的照相机模式。将单个照相机(例如,消费者级别的数字照相机)用于通过沿滑轨(slider)移动该照相机来捕捉左和右立体照片图像,使得照相机条件对于左和右图像相同。对于结构光,使用夜间拍摄曝光,使得结构光的色彩具有最小的失真。对于立体照片匹配,使用常规自动曝光,这是由于其对于照明环境设置较不敏感。由数字投影仪生成结构光。在其中除了投影仪之外关闭所有灯的暗房中拍摄结构光图像。利用常规照明条件拍摄立体照片图像。在捕捉期间,对于结构光和立体照片匹配使左眼照相机位置保持精确相同(但是右眼照相机位置可以变化),因此将相同的参考图像用于在组合中对齐结构光视差图和立体照片视差图。 图5A是从图4A中所示的立体照片图像生成的视差图,并且图5B是从图4B中所示的结构光图像生成的视差图。图5C是使用简单平均组合方法从图5A和图5B中所示的视差图的组合产生的视差图;图5D是使用加权平均组合方法从图5A和图5B中所示的视差图的组合产生的视差图。在图5A中,观察到立体照片功能对于右边的盒子未提供良好的深度图估计。另一方面,图5B中的结构光识别黑色椅子有困难。尽管在图5C中简单组合方法提供一些改进,但其没有较好地捕捉椅子的边界。如图5D所示,加权组合方法提供具有被清楚识别的主对象(即,椅子、盒子)的最佳的深度图结果。
尽管这里已经详细示出和描述了并入本公开的教导的实施例,但本领域技术人员 可以容易地设计出许多仍然并入这些教导的其它变化的实施例。描述了用于场景的三维 (3D)获取和建模的系统和方法的优选实施例(其意在例示而非限制),注意可以由本领域 技术人员借鉴上述教导做出修改和变化。因此,因此应理解可以在本公开的具体实施例中 进行改变,这些改变落入所附权利要求中提出的本公开的范围。
权利要求
一种三维获取方法,包括获取场景的至少两个二维图像(202);将第一深度获取功能应用于所述至少两个二维图像(214);将第二深度获取功能应用于所述至少两个二维图像(218);将所述第一深度获取功能的输出与所述第二深度获取功能的输出组合(222);并且从所组合的第一深度获取功能和第二深度获取功能的输出生成视差图。
2. 如权利要求l所述的方法,还包括从所述视差图生成深度图(224)。
3. 如权利要求1所述的方法,其中所述组合步骤包括将所述第一深度获取功能的输出对准所述第二深度获取功能的输出(222)。
4. 如权利要求3所述的方法,其中对准步骤包括调节所述第一深度获取功能的输出和第二深度获取功能的输出的深度尺度。
5. 如权利要求1所述的方法,其中所述组合步骤包括对所述第一深度获取功能的输出与所述第二深度获取功能的输出取平均。
6. 如权利要求1所述的方法,还包括将第一加权值应用于所述第一深度获取功能的输出,并且将第二加权值应用于所述第二深度获取功能的输出。
7. 如权利要求6所述的方法,其中所述至少两个二维图像包括立体像对的左眼视图和右眼视图,由左眼图像和右眼图像之间的对应像素对的左眼图像中的像素亮度确定所述第一加权值。
8. 如权利要求1所述的方法,还包括从所生成的视差图重构场景的三维模型。
9. 如权利要求1所述的方法,还包括对齐所述至少两个二维图像(210)。
10. 如权利要求9所述的方法,其中所述对齐步骤还包括在所述至少两个二维图像之间匹配特征。
11. 如权利要求1所述的方法,还包括至少将第三深度获取功能应用于所述至少两个二维图像(314-2);至少将第四深度获取功能应用于所述至少两个二维图像(318-2);将所述第三深度获取功能的输出与所述第四深度获取功能的输出组合(322-2);从所组合的所述第三深度获取功能和第四深度获取功能的输出生成第二视差图(324-2);并且将从所组合的所述第一深度获取功能和第二深度获取功能的输出生成的视差图(324-1)与来自所组合的所述第三深度获取功能和第四深度获取功能的输出的第二视差图(326)组合。
12. —种用于从二维图像进行三维信息获取的系统(IOO),所述系统包括用于获取场景的至少两个二维图像的部件;以及三维获取模块(116),其被配置用于将第一深度获取功能(116-1)应用于所述至少两个二维图像,将第二深度获取功能(116-2)应用于所述至少两个二维图像,并且将所述第一深度获取功能的输出与所述第二深度获取功能的输出组合。
13. 如权利要求12所述的系统(100),还包括深度图生成器(120),其被配置用于从所组合的所述第一深度获取功能和第二深度获取功能的输出生成深度图。
14. 如权利要求12所述的系统(100),其中所述三维获取模块(116)还被配置用于从所组合的所述第一深度获取功能和第二深度获取功能的输出生成视差图。
15. 如权利要求12所述的系统(100),其中所述三维获取模块(116)还被配置用于将所述第一深度获取功能的输出对准所述第二深度获取功能的输出。
16. 如权利要求15所述的系统(100),还包括深度调节器(117),其被配置用于调节所述第一深度获取功能的输出和第二深度获取功能的输出的深度尺度。
17. 如权利要求12所述的系统(100),其中所述三维获取模块(116)还被配置用于对所述第一深度获取功能的输出与所述第二深度获取功能的输出取平均。
18. 如权利要求12所述的系统(100),其中所述三维获取模块(116)还被配置用于将第一加权值应用于所述第一深度获取功能的输出,并且将第二加权值应用于所述第二深度获取功能的输出。
19. 如权利要求18所述的系统(100),其中所述至少两个二维图像包括立体像对的左眼视图和右眼视图,由左眼图像和右眼图像之间的对应像素对的左眼图像中的像素的亮度确定所述第一加权值。
20. 如权利要求14所述的系统(100),还包括三维重构模块(114),其被配置用于从所生成的深度图重构场景的三维模型。
21. 如权利要求12所述的系统(100),其中所述三维获取模块(116)还被配置用于对齐所述至少两个二维图像。
22. 如权利要求21所述的系统(100),还包括特征点检测器(119),其被配置用于在所述至少两个二维图像之间匹配特征。
23. 如权利要求12所述的系统(100),其中所述三维获取模块(116)还被配置用于至少将第三深度获取功能应用于所述至少两个二维图像,至少将第四深度获取功能应用于所述至少两个二维图像,将所述第三深度获取功能的输出与所述第四深度获取功能的输出组合,并且将所组合的所述第一深度获取功能和第二深度获取功能的输出与所组合的所述第三深度获取功能和第四深度获取功能的输出进行组合。
24. —种可由机器读取的程序存储装置,所述程序存储装置有形地体现可由所述机器执行以进行用于从二维图像获取三维信息的方法步骤的指令的程序,所述方法包括获取场景的至少两个二维图像(202);将第一深度获取功能应用于所述至少两个二维图像(214);将第二深度获取功能应用于所述至少两个二维图像(218);将所述第一深度获取功能的输出与所述第二深度获取功能的输出组合(222);并且从所组合的所述第一深度获取功能和第二深度获取功能的输出生成视差图。
全文摘要
提供了一种使用二维图像进行场景的三维获取和建模的系统和方法。本公开提供了一种系统和方法,用于选择和组合最适合考虑中的捕捉环境和条件并且因而产生更精确的三维模型的三维获取技术。该系统和方法提供用于获取场景的至少两个二维图像(202),将第一深度获取功能应用于所述至少两个二维图像(214),将第二深度获取功能应用于所述至少两个二维图像(218),将所述第一深度获取功能的输出与所述第二深度获取功能的输出组合(222),并且从所组合的输出生成视差或者深度图。所述系统和方法还提供用于从所生成的视差或者深度图重构场景的三维模型。
文档编号G06T7/00GK101785025SQ200780053752
公开日2010年7月21日 申请日期2007年7月12日 优先权日2007年7月12日
发明者伊扎特·H·伊扎特, 安娜·B·贝尼特斯, 张冬青 申请人:汤姆森特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1