用于深度提取的视频处理方法和装置的制作方法

文档序号:6568164阅读:327来源:国知局
专利名称:用于深度提取的视频处理方法和装置的制作方法
技术领域
本发明涉及视频处理系统,尤其涉及根据二维视频序列在显示 器上呈现三维图像感知的方法和系统。
背景技术
概括地说,利用一个或多个二维图像来显示和估计真实三维世 界中的物体的形状是计算机视觉领域中的基本问题。人们可以获得景 物或物体的深度感知,主要是因为人的双眼同时获得的视觉可以被组 合并形成距离感。然而,在一些特定的情况下,当有诸如光线、阴影、 重叠(interposition)、图案或相关尺寸之类的附加信息时,人们用一只眼睛就可以具有对景物或物体的深度感知。例如,这就是为什 么可以利用单目镜相机估计景物或物体深度的原因。例如,新的透镜形液晶显示技术(LCD)能够在不使用立体三维 眼镜的情况下显示具有三维用户感知的静止和移动的图片。换句话 讲,在三维LCD中, 一片圆柱形透镜(透镜形的)以LCD像面位于透 镜焦面的方式被放置在LCD的顶部。这意味着在观测者眼睛处发出的 垂直看向透镜的光线被聚焦于LCD的位于每个透镜下面的中心部分。 类似地,从侧视角度看向屏幕的眼睛发出的光线被会聚于每个透镜下 面的偏离LCD中心的位置。如果每个透镜下面的LCD被分成不同的子 像素,那么,从不同角度看向屏幕的眼睛将看到不同的像素。而且, 如果正确的图像信息被放在不同的像素中(也就是,立体图像对), 那么,观测者将看到三维的图像。从而,图像处理和LCD驱动要求一 起提供深度图和平面二维图片。随着三维显示器市场的持续增长,不是所有的视频内容都可以 立即变成"三维的"。因此,对发展三维技术有强烈的需求和期望, 该三维技术可以为用户提供以三维感知的方式解释二维信息的能力。三维图像的重建或从二维视频序列得到的模型在很多领域有重要的 分支,其应用于识别、监视、位置建模、娱乐、多媒体、医学影像、 视频通信以及种种其他有用的技术应用。这种伪三维情形的要点在于 从平面视频内容中提取相关深度信息。具体而言,从平面二维内容中 提取深度是正在进行研究的领域,并已经突破了几项技术。例如,已 有几项已知的专门设计的技术,用来基于被讨论的物体运动产生深度 图。处理该问题的通常方法是分析在同一时间以不同视点拍摄的多 个图像,例如,分析立体图像对的不同,或分析同一点在不同时间的 多个图像,例如,分析视频序列的连续帧,运动提取,分析封闭区域 等等。其它技术可以利用诸如离焦测量之类的其它深度提示。还有其他一些技术联合一些深度提示以获得可靠的深度估计。例如,Konya的欧洲专利申请1,379,063 Al公布了从基于图像 片段的二维图像中进行深度提取的例子。具体地,它描述了一种移动 电话,该移动电话包括用以获得人的头、颈和肩的二维静止图像的单 个照相机、用以提供有视差信息的二维静止图像以产生三维图像的三 维图像产生部分以及显示该三维图像的显示单元。然而,上文描述的用于三维设计的传统技术由于一些因素并不 总能使人满意。用于从二维视频序列中提取深度的系统主要基于瞬时 运动估计,该瞬时运动估计通常假设更近的物体有更高的运动速度。 这意味着一个计算非常密集的过程,要求更繁重的计算分析。而且, 在没有显著的聚焦差异时,也就是在低成本消费装置中经常出现的图 片是用短焦距光学装置或低质量光学装置获取的情况中,传统三维设 计方法对于基于离焦分析的系统是不足的,而联合多个线索的系统会 非常的复杂并难以与低成本平台兼容。结果,缺乏质量、缺乏稳定性 以及增加的成本导致了在现有技术中存在的问题。从而,期望利用改 进的系统和方法从诸如视频和活动图像序列之类的二维对象中产生 三维图像的深度感知,该系统和方法避免了上文所提及的问题,并能 够以低成本和简单的方式实现。于是,本发明的一个目的是提供一种改进的方法和装置,以通 过提供深度提取来处理来自二维编码的视频位流中的视频图像,从而 通过从编码的视频位流的运动矢量中提取三维视差信息以在三维显 示器上显示二维视频序列。特别地,本发明提供了一种处理视频图像的方法,该方法包括接收包含有视频图像的二维视频应用的编码视频位流;对与编码视频 位流的帧相关联的运动进行解码,以由帧的块单元提取运动矢量;产 生运动图;处理运动图,所述运动图是利用运动矢量而产生的,其中 通过将具有相似运动矢量类型的块单元分入各个区域以使得具有相似运动矢量类型的块单元被一起分入各个区域,其中各个区域中的块 单元包括各自的深度信息;基于与视频图像的块单元相关联的运动矢 量的类型,通过集成运动图的各个区域的深度信息来应用深度提取的 步骤;以及产生深度图,以在三维显示器上呈现二维视频应用。 还可以包括一个或多个下列特征。一方面,该方法还可以包括执行间隙填充步骤,其中,通过对 解码前一帧得到的运动矢量进行外推、对解码前一帧得到的运动矢量 进行复制、或利用来自相邻帧的运动矢量进行内插而得到帧的运动矢另一方面,解码运动的步骤包括解码运动矢量,该运动矢量包 括在按照视频压縮标准的压縮视频流中。另一方面,视频压縮标准是运动图像专家组标准,编码视频位 流帧包括"I" 、 "P"或"B"类型的帧。该视频处理方法的其他特征在附属权利要求中有进一步的陈 述。本发明还涉及被配置以处理用于三维显示器的视频图像的视频装置,该视频装置包括接收模块,其被配置用于接收包含有视频图像的二维视频应用的编码视频位流;视频解码器,其被配置用于对与编 码视频位流的帧相关联的运动进行解码,以由帧的块单元提取运动矢 量;被配置用于处理运动图的模块,所述运动图是利用运动矢量而产 生的,其中通过将具有相似运动矢量类型的块单元分入各个区域以使得具有相似运动矢量类型的块单元被一起分入各个区域,其中在所述 各个区域中的所述块单元包括各自的深度信息;深度提取模块,其被 配置用来基于与视频图像的块单元相关联的运动矢量的类型集成运 动图的各个区域的深度信息;以及一种模块,其被配置用于产生深度 图,以在三维显示器上呈现二维视频应用。还可以包括一个或多个下列特征。一方面,该装置是数字移动电话。另一方面,该装置是影片播放器。该装置还可以包括间隙填充模块,其被配置用于从前一帧解码 得到的运动矢量中外推处运动矢量。而且,视频解码器解码包括在按照视频压縮标准压缩的视频流 中的运动矢量。该视频压缩标准是运动图像专家组标准。该视频处理装置的其他特征在附属权利要求中得到更进一步的 陈述。本发明还涉及计算机可读介质,该计算机可读介质包含由该装 置的微处理器执行的指令序列,该指令序列命令处理器接收包含有 视频图像的二维视频应用的编码视频位流;对与编码视频位流的帧相 关联的运动进行解码,以由帧的块单元提取运动矢量;产生运动图; 处理运动图,所述运动图是利用运动矢量而产生的,其中通过将具有 相似运动矢量类型的块单元分入各个区域以使得具有相似运动矢量 类型的块单元被一起分入各个区域,其中各个区域中的块单元包括各 自的深度信息;基于与视频图像的块单元相关联的运动矢量的类型, 通过集成运动图的各个区域的深度信息,应用深度提取步骤;以及产 生深度图,以在三维显示器上呈现二维视频应用。对于本领域的普通 技术人员,在阅读和理解了附图以及优化实施例的详细描述后,本发 明的其他另外一些目的和优点会变得很明显。本领域普通技术人员应 当理解,本发明可以采用多种形式,并因此可以包括多种元件、步骤 和装置。于是,参照下列描述中描述的实施例、附图以及权利要求,本 发明的这些方面和其他方面将变得很明显并得到说明,附图是为了图示本发明的优化实施例,而不能解释为对本发明的限制。


图1图示了按照本发明的一个优化实施例的产生深度图的改进 方法的流程图;图2A-2C图示了按照本发明的一个优化实施例的运动解码过程 的示意图;图3A-3C图示了按照本发明的一个优化实施例的运动图和深度图;图4是按照本发明的另一个优化实施例的产生深度图的改进方 法的另一个实施例的流程图;图5A-5C图示了在图4描述的图像稳定步骤中的校正的示例性帧。
具体实施方式
参照图l,流程图100定义了关于根据二维视频位流102计算和 产生深度图112的本发明的基本步骤。指明了特定区域相比较于二维 视频其他区域深度的深度图112包括一组数据,该组数据是在将子像 素发送至透镜形LCD监视器之前计算多视图表现所必需的。多视图表 现的计算功能可以被集成在LCD监视器上,虽然不是必须的。方法100开始于解码二维内容运动的步骤104。也就是,通过将 每一帧划分为多个块并将每个块与运动矢量(x, y)相关联来处理每 一帧,二维视频流102的内容被一帧接一帧地分析,其中该运动矢量 定义帧和它的前一帧之间的块的运动。运动解码步骤104的原则可以 被同化到有名的"运动估计"技术中。这里,运动矢量不是基于图像 分析估计得到的,而是从位流视频文件中解码得到的。更进一步的细 节将在下文的图2中得到描述。接下来,执行间隙填充步骤106。在该步骤106中,对视频帧执 行不同类型的处理,这里无法像步骤104执行的那样从视频文件中解 码出运动矢量。在这种情况下,这些类型的帧的运动矢量是从前一帧解码出的矢量中外推得到或者从前一帧解码出的矢量中复制得到,或 者利用从相邻帧中解码出的矢量内插得到。换句话讲, 一些"间隙" 可能造成了在步骤104中产生的运动图。随后,执行运动图处理步骤108。在该步骤,基于在步骤104 和步骤106中采集的所有运动矢量的汇编来计算视频的图。具有相似 运动矢量的块族被重新分组进不同的区域,属于同一区域的块具有相 似的运动模式。接下来是深度提取步骤110。这里,基于运动速度越高物体越近 的事实来计算与每个区域相关联的深度。本质上,运动图的每一区域 都由运动表征。对帧的运动分析可以确定每个区域的运动速度。因此, 在运动图中具有更高运动速度的区域被赋予更近的深度,而具有较低 运动速度的区域被赋予比较近区域更远的深度。结果,通过影响视频 序列的所有运动区域的深度信息,建立深度图112。现在,参照图 2A-2C,概略性地图示了运动解码的处理。如前文所述,为了执行运 动估计,现有技术定义了如何逐帧处理视频内容以计算每个块的运动 估计。这种处理非常消耗时间,并要求处理器有很高的处理能力以实 时执行运动估计。在本发明中,运动估计不是如现有技术设计那样通过分析视频 自身来执行的,而是通过对天然地包括于所有压縮视频流中的运动矢 量进行解码来执行的,该压縮视频流是按照诸如MPEG2、 MPEG4之类 的视频编码标准或类似的视频编码标准压縮的。由于运动矢量的提取 由外部视频解码器提供(也就是,通常由播放器的视频解码器对视频 进行解码)并且数据量较小,因而三维呈现的处理量是有限的。为了说明图1中所示的运动解码步骤104,作为例子考虑了将 MPEG-1用作编码二维视频流的压縮标准的情况。MPEG-1视频包括三 种不同类型的帧的序列I帧、P帧和B帧。在图2A中,示例性MPEG 视频200的帧序列被显示为"I P B P B B I B B P B"。由于诸如 202的I帧可以在不参照其他帧的情况下被重建,所以称之为内编码 图像的内容在该帧内被完全编码,只在该I帧的编码信息基础上就可 能重新组成该帧。在另一方面,诸如204之类的P帧是从最后一帧I帧或P帧中前向预测的。从而,在没有其他帧(1、 P或B帧)数据的情况下,不可能重建这些P帧。诸如205之类的B帧具有I帧和P 帧二者的特征,也就是,由于需要两个其他的帧来重建他们,他们是 根据最后一个/下一个I帧或P帧前向预测和后向预测的。因此,P 帧和B帧被称为中间编码帧。图2B图示了 MPEG-1视频200中的一个I帧(下文中称为206)。 该帧被划分成多个块。其中特别显示了块210a、 210b和210c。相类 似地,图2C图示了根据I帧206前向预测的P帧(下文中称为208)。 通过存储运动矢量来定义P帧208。例如,在P帧208中,块201a, 不使用其内容进行定义,而是被定义为从在I帧206中完全定义的块 210a (图2B)到块210a,的运动矢量212a (+1, 0)。相类似地, 对于块201c,,其在P帧208中的描述被縮减为运动矢量212c (+3, 0)。因此,运动解码步骤104允许通过对包括在压縮视频文件中的 运动矢量(212a, 212b, 212c)进行解码来执行运动估计。由于信息 是从视频流源自身采集的,所以该步骤需要更少的CPU处理并更加精 确,并且不需要基于任何复杂图像处理步骤进行计算。另外,本发明 的方法可以在任何支持运动矢量的视频流编码算法中被扩展和实现, 当今使用的大部分压縮视频流都属此范畴。本发明的方法还可以从系统观点延伸出来。MPEG标准可以被转 变为包括编码深度信息作为运动矢量。这会降低图像压縮效率,但允 许二维/三维(2D-3D)已知视频解码器在保持遵从标准以及保持与传 统解码器兼容的情况下嵌入真正的子分辨率(块大小)深度信息。在 图4中将更进一步地描述后处理过程。例如,为了详细说明运动图是 否会被认为是"真正的"深度图或者它是否是图4中描述的后处理, 可以利用FOURCC码(四字符编码),该编码通常被用来识别视频编码 和像素格式。在FOURCC中,四个字母标识视频文件中包含的视频流 是以何种编码方式(例如,DIV5、 HFYU、 XVID等等)编码的。在本 发明中,FOURCC码可以指示运动图是否被认为是"真正的"深度图 或者它是否是图4中描述的后处理。参照图3A-3C,图示了运动图和深度图的产生。像前文所解释的那样,运动图定义了具有相似运动矢量的块族,该块类被重新分组在 不同的限定区域内。属于同一区域的所有块具有相似的运动。例如,在图3A中,块222a、 222b. . . 222n包括聚集到视频帧208的区域220 中的相似运动矢量。相似地,已定义区域224、 226和228包括具有 相似运动矢量的块。在图3B中示出了运动图230,运动图的每个区 域都与运动矢量相关,例如运动矢量212c对应于区域226。图3C示出了深度图112,通过执行方法100中的深度提取步骤 110可以计算并产生该深度图。这涉及基于一个假设将运动矢量212c 转换为例如深度值214c,该假设是具有更高运动速度的物体肯定更 近从而有较浅的深度,该假设以如下关系式给出D二l/M,其中,D表示深度,M表示运动速度。因此,深度图112可以根 据转换运动图230直接得到,并像图3C所示的那样被透镜形LCD处 理,这里,观测者或用户可以区分运动图230的不同区域,该运动图 可以用三维感知显示。现在参照图4,图示了得自图1所示的方法110 的改进方法101。在方法101中合并了两个步骤,也就是图像稳定步 骤115和深度滤波步骤117。一旦在运动解码步骤中产生了运动矢量图109,图像稳定步骤 115便将二维视频流归结为整体的平移和旋转运动。图像稳定算法通 常被用于减少拍摄视频时的寄生运动(例如,手的抖动)的影响。在 图5中将对合并图像稳定步骤115的影响作更进一步地解释。在方法101中,在被后处理后,利用去块滤波器产生深度图112。 根据压縮MPEG数据重建的图像具有可感知的诸如结块效应、振铃效 应以及角点异常之类的图像退化。在不降低图像内容的清晰度的情况 下,去块算法去除了方块效应。相比方法IOO,在方法101中,现在 深度提取步骤110产生了一个可以利用去块滤波器对其进行滤波的 粗略深度图113 (步骤117)。在方法100中,不执行后处理,深度 提取步骤的结果IIO直接就是最终的深度图112。参照图5A-5C,图示了图像稳定步骤115在运动矢量上的结果。 通过集中于帧240的块A和块B可以示出这种结果,在图5A中示出了这两个块的位置。在接下来如图5B所示的P帧242中,运动矢量(+1, +1)被归 于块A,以及运动矢量246 (+3, +1)被归于块B。然而,虽然与块A 相关的运动出现了,块A并不运动,块A的运动是由录像的摄像机的 诸如手的抖动之类的运动导致的。图像稳定算法会指示应当施加(-1, -1)的校正的平移和O度的旋转以获得真实的运动矢量。相应地,图5C示出了利用由稳定算法提供的信息进行校正之后 的B帧244中的块A和块B的位置。实际上,块A的运动矢量被校正 为(0, 0),由于块A没有运动,这个结果是正确的。块B的校正的 运动矢量被设置为(+2, 0)。因此,对于深度图112的正确确定和产生而言,图5A-5C的例 子证明了图像稳定校正的重要性。在没有该校正的情况下,块A和B 将会被分配到运动图的不正确区域。这会在深度图中产生一个错误的 值。最终在三维LCD显示器上会有一个不正确的显示。这里图示和描述了现在被认为是本发明的优化实施例的例子, 应当被本领域技术人员理解的是,在不脱离本发明的真正范围的情况 下,可以进行多种其他的修改,以及可替代的等价方案。特别地,虽然前面的描述主要涉及手持视频录像装置,描述的 三维显示方法可以被应用于任何类型的视频应用,诸如在计算机屏 幕、移动电话装置、任何影片播放器、任何嵌入了三维LCD显示器的 平台类型、诸如PC之类的家用办公平台以及类似的应用类型上实现 的视频应用。另外,在不脱离这里描述的发明的中心概念的情况下,可以进 行许多先进的视频处理修改,以便在特定的情况中适用本发明的示 教。而且,本发明并不限制于公开的特定实施例,但本发明包括落在 所附权利要求和他们等同物范围内的所有实施例。
权利要求
1.一种处理视频图像的方法,其中该方法包括如下步骤接收(102)包含有视频图像的二维视频应用编码视频位流;对与编码视频位流的多个帧相关联的运动进行解码(104),以由多个帧的块单元提取多个运动矢量;产生运动图(230);处理(108)运动图,该运动图是利用多个运动矢量产生的,其中通过将具有相似运动矢量类型的块单元分入各个区域以使得具有相似运动矢量类型的块单元被一起分入所述各个区域,其中在所述各个区域中的所述块单元包括各自的深度信息;基于与视频图像的块单元相关联的运动矢量的类型,通过集成运动图的各个区域的深度信息来应用深度提取步骤(110);以及产生(112)深度图,以在三维显示器上呈现二维视频应用。
2. 按照权利要求1所述的方法,另外还包括执行间隙填充步骤 (106),其中所述多个帧的多个运动矢量是通过对解码前一帧得到的所述多个运动矢量进行外推得到的; 通过对解码前一帧得到的所述多个运动矢量进行复制得到的;或者利用来自多个相邻帧的所述多个运动矢量进行内插得到的。
3. 按照任何一项前述的权利要求的方法,其中,解码运动步骤 包括对所述的多个运动矢量进行解码,所述多个运动矢量包括在按照 视频压縮标准的压縮视频流中。
4. 按照权利要求3所述的方法,其中,视频压縮标准包括运动 图像专家组标准。
5. 按照任何一项前述的权利要求的方法,其中,所述的编码视频位流的多个帧包括"I" 、"P"或"B"类型的帧。
6. 按照任何一项前述的权利要求的方法,其中,深度提取步骤包括按照关系式D=l/M将从所述多个运动矢量中得到的信息转换成 深度值,其中,D表示所述深度值,M表示所述的与多个帧相关联的 运动。
7. 按照任何一项前述的权利要求的方法,另外还包括稳定步骤 (115),其包括对产生自视频应用的寄生运动的所述多个运动矢量的平移和旋转运动进行校正。
8. 按照任何一项前述的权利要求的方法,另外还包括深度滤波 步骤(117),其产生一个粗略的深度图,该粗略的深度图适于利用 去块滤波器进行滤波,以消除编码视频位流的视频图像的可感知的图 像退化效应。
9. 按照任何一项前述的权利要求的方法,其中,为三维显示器 产生深度图包括在透镜形液晶显示器上显示该深度图。
10. —种视频装置,其被配置用于为三维显示器处理视频图像, 其中,该视频装置包括接收模块,其被配置用于接收包含有视频图像的二维视频应用 的编码视频位流;视频解码器,其被配置用于对与编码视频位流的多个帧相关联 的运动进行解码,以由多个帧的块单元提取多个运动矢量;一种模块,其被配置用于处理运动图,所述运动图是利用运动 矢量而产生的,其中通过将具有相似运动矢量类型的块单元分入各个 区域以使得具有相似运动矢量类型的块单元被一起分入所述各个区 域,其中在所述各个区域中的所述块单元包括各自的深度信息;深度提取模块,其被配置用来基于与视频图像的块单元相关联的运动矢量的类型集成运动图的各个区域的深度信息;以及一种模块,其被配置用于产生深度图(112),以在三维显示器 上呈现二维视频应用。
11. 按照权利要求IO所述的装置,其中,该装置是数字移动电话。
12. 按照权利要求IO所述的装置,其中,该装置是影片播放器。
13. 按照权利要求10或12所述的装置,其中,该装置还包括间隙填充模块,其被配置用于从前一帧解码得到的所述多个运动矢量 中外推出所述的多个运动矢量。
14. 按照权利要求10-13所述的装置,其中,视频解码器对包 括在按照视频压縮标准的压縮视频流中的所述多个运动矢量进行解 码。
15. 按照权利要求14所述的装置,其中,视频压縮标准是运动 图像专家组标准。
16. 按照前述权利要求10-15任何一项所述的装置,其中,所 述的编码视频位流的多个帧包括"I" 、 "P"或"B"类型的帧。
17. 按照前述权利要求10-16任何一项所述的装置,其中,深 度提取模块被配置用于按照关系式D=l/M将从所述的多个运动矢量 中得到的信息转换成深度值,其中,D是所述深度值,M是所述的与 多个帧相关联的运动。
18. 按照前述权利要求10-17任何一项所述的装置,其中,该 装置还包括一个稳定模块,其被配置以对所述多个运动矢量的由视频应用的寄生运动产生的平移和旋转运动进行校正。
19. 按照前述权利要求10-18任何一项所述的装置,其中,该装置还包括一个深度滤波模块,其被配置用于产生一个粗略的深度 图,该粗略的深度图适于利用去块滤波器进行滤波,以消除编码视频 位流的视频图像的可感知的图像退化效应。
20. 按照前述权利要求10-19任何一项所述的装置,其中,三 维显示器是透镜形液晶显示器。
21. —种计算机可读介质,其包含存储于其上的指令序列,当 该指令序列由前述装置的微处理器执行时,使得该处理器接收(102)包含有视频图像的二维视频应用的编码视频位流; 对与编码视频位流的多个帧相关联的运动进行解码(104),以 由多个帧的块单元提取多个运动矢量; 产生运动图;处理(108)运动图,所述运动图是利用多个运动矢量产生的, 其中通过将具有相似运动矢量类型似的块单元分入各个区域以使得 具有相似运动矢量类型的块单元被一起分入所述各个区域,其中在所 述各个区域中的所述块单元包括各自的深度信息;基于与视频图像的块单元相关联的运动矢量的类型,通过集成 运动图的各个区域的深度信息,应用深度提取步骤(110);以及产生(112)深度图,以在三维显示器上呈现二维视频应用。
全文摘要
本发明提供一种改进的方法和装置,该方法和装置通过从编码视频位流(102)的运动矢量中提取三维深度信息,产生深度图(112),以在一个三维显示器上显示二维视频序列。特别地,本发明通过在视频位流中已经被编码的内部编码宏块的运动矢量进行后处理来执行深度提取(110),从而显著地减少与传统运动估计技术相关的繁重的处理要求。
文档编号G06T7/00GK101223552SQ200680026060
公开日2008年7月16日 申请日期2006年8月10日 优先权日2005年8月17日
发明者热罗·普拉涅 申请人:Nxp股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1