三维转换信息与二维视频序列的编码的制作方法

文档序号:7911611阅读:215来源:国知局
专利名称:三维转换信息与二维视频序列的编码的制作方法
技术领域
本发明涉及视频编码,及二维QD)视频数据到三维(3D)视频数据的转换。
背景技术
数字多媒体能力可并入到广泛范围的装置中,包括数字电视、数字直接广播系统、 无线通信装置、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、数码相机、数字记录装置、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、数字媒体播放器及其类似者。数字多媒体装置可实施例如MPEG-2、ITU-H. ^3、MPEG_4或ITU-Η. 264/MPEG-4 第10部分(进阶视频编码(AVC))等视频编码技术,以更有效地发射和接收或存储和检索数字视频数据。视频编码技术可经由空间及时间预测执行视频压缩以减少或移除视频序列中固有的冗余。提供呈二维QD)检视格式的大多数常规视频序列。然而,三维(3D)序列也是可能的,在此状况下,视频序列具有与每一视频帧相关联的两个或两个以上视图。在此状况下,可在3D显示器上组合所述两个或两个以上视图以呈现3D视频。相对于2D视频序列, 3D视频序列的传达可需要大量额外数据。举例来说,为了传达3D视频序列,可能需要两个单独视频帧以提供每一 2D视频帧的两个不同的视图,因此大致使经传达的数据的量加倍。

发明内容
本发明描述用于编码视频帧的二维OD)视频序列连同三维(3D)转换信息的技术,所述三维(3D)转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D 视频数据的参数集合。本发明还描述所述2D视频序列及所述3D转换信息的传达及解码。 所述参数集合可包含可应用于所述2D序列的原始视频帧中的每一者以产生所述原始视频帧中的每一者的二次视图视频帧的相对较少量的数据。所述原始视频帧及所述二次视图视频帧可共同地定义立体3D视频序列。所述2D序列及所述参数集合可包含比另外传达3D 序列将需要的数据显著较少的数据。所述2D序列及所述参数集合可包含对传达原始2D序列所需的所述数据的很小的增加。本发明还描述可用以以有效且高效率的方式编码所述参数集合的一些示范性语法。即使在接收装置不支持3D解码或3D呈现的情况下,所述接收装置也可解码并呈现所述2D序列。另一方面,如果所述接收装置支持与本发明一致的3D解码及3D呈现,则所述接收装置可基于所述2D序列及所述参数集合产生并呈现所述3D序列。以此方式,本发明的所述技术可支持向后兼容的2D到3D视频编码及转换,其中相同位流可用以呈现2D 视频输出或3D视频输出。此外,如所提及,所述所描述的技术可减少用于传达3D视频序列所需的数据量。
在一个实例中,本发明描述一种方法,其包含在视频编码器中编码视频帧的2D 序列;经由所述视频编码器编码3D转换信息,其中所述3D转换信息包含可应用于所述2D 序列的所述视频帧中的每一者以产生3D视频数据的参数集合;及传达所述经编码的2D序列与所述3D转换信息。在另一实例中,本发明描述一种方法,其包含在视频解码器处接收视频帧的2D 序列;在所述视频解码器处与所述2D序列一起接收3D转换信息,其中所述3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合;经由所述视频解码器解码所述2D序列;及基于所述2D序列及所述3D转换信息经由所述视频解码器产生所述3D视频数据。在另一实例中,本发明描述一种包含视频编码器的设备,所述视频编码器编码视频帧的2D序列,且编码3D转换信息与所述2D序列,其中所述3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合。在另一实例中,本发明描述一种包含视频解码器的设备,所述视频解码器接收视频帧的2D序列;与所述2D序列一起接收3D转换信息,其中所述3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合;解码所述2D序列; 且基于所述2D序列及所述3D转换信息产生所述3D视频数据。在另一实例中,本发明描述一种装置,其包含用于在视频编码器中编码视频帧的 2D序列的装置;用于经由所述视频编码器编码3D转换信息的装置,其中所述3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合;及用于传达所述经编码的2D序列与所述经编码的参数的装置。在另一实例中,本发明描述一种装置,其包含用于在视频解码器处接收视频帧的 2D序列的装置;用于在所述视频编码器处与所述2D序列一起接收3D转换信息的装置,其中所述3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合;用于解码所述2D序列的装置;及用于基于所述2D序列及所述3D转换信息产生所述3D视频数据的装置。在另一实例中,本发明描述将3D转换信息应用于2D序列以产生3D视频数据的方法、设备或装置,其中所述3D转换信息包含可应用于所述2D序列的每一视频帧以产生所述 3D视频数据的参数集合。可以硬件、软件、固件或其任何组合来实施本发明中所描述的技术。如果以软件实施,则软件可在一个或一个以上处理器中执行,例如,微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或数字信号处理器(DSP)。执行所述技术的软件最初可存储于计算机可读媒体中且加载于处理器中并在处理器中执行。因此,本发明还预期包含指令的计算机可读存储媒体,所述指令在由处理器执行时使所述处理器编码视频帧的2D序列,且编码3D转换信息,其中所述3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生所述3D视频数据的参数集合。另外,本发明描述一种包含指令的计算机可读存储媒体,所述指令在由处理器执行时使所述处理器在接收视频帧的2D序列且与所述2D序列一起接收3D转换信息时(其中所述3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合),解码所述2D序列,及基于所述2D序列及所述3D转换信息产生所述3D视频数据。在随附图式及下文的描述中阐述本发明的一个或一个以上方面的细节。本发明中所描述的技术的其它特征、目标及优点将从描述及图式及从权利要求书显而易见。


图1为说明可实施本发明的技术的示范性视频编码及解码系统的框图。图2为说明可执行与本发明一致的二维OD)及三维(3D)视频编码的示范性视频编码器的框图。图3为说明可执行与本发明一致的2D及3D视频解码的示范性视频解码器的框图。图4到图6为说明可基于3D转换参数而应用的2D到3D转换的方面的概念图。图7为说明与本发明一致的由视频编码装置执行的示范性过程的流程图。图8为说明与本发明一致的由视频解码装置执行的示范性过程的流程图。
具体实施例方式本发明描述用于编码视频帧的二维QD)视频序列连同三维(3D)转换信息的技术,三维(3D)转换信息包含可应用于2D序列的视频帧中的每一者以产生3D视频数据的参数集合。3D转换信息关于视频序列的不同帧并没有不同,而包含形成相对较少量的数据的共同参数集合,其可应用于2D序列的原始视频帧中的每一者以产生所述原始视频帧中的每一者的二次视图视频帧。原始视频帧及二次视图视频帧可共同地定义可呈现于3D显示器上的立体3D视频序列。根据本发明,2D序列及参数集合可包含比将以其它方式传达3D 序列需要的数据显著较少的数据。在一个实例中,3D转换信息可包含小于20个字节的数据,其可应用于2D序列的原始视频帧中的每一者以产生所述原始视频帧中的每一者的二次视图。本发明的技术可在例如MPEG-2、MPEG-4、ITU H. 263, ITU H.沈4、专用编码标准或未来编码标准等许多编码设定中为有用的。根据ITU H. 264架构,本发明可使用补充增强信息(SEI)消息作为用于通过符合视频标准的2D视频序列来传达3D转换信息的机制。即使在接收装置不支持3D解码或3D呈现的情况下,所述接收装置也可解码并呈现2D序列。然而,如果接收装置支持与本发明一致的3D解码及3D呈现,则所述接收装置可基于2D序列及参数集合而产生并呈现3D序列。以此方式,本发明的技术可支持可扩充的2D到3D视频编码,其中相同位流可用以呈现2D视频输出或3D视频输出。此外,如所提及,所描述的技术可减少传达3D视频序列所需要的数据的量。本发明还描述可用以以有效且高效率的方式编码参数集合的一些示范性语法。举例来说,在一些实施方案中,语法元素可用于ITU H. 264的SEI消息中以用于传达3D转换信息。在一个实例中(下文更详细论述),3D转换信息可包含第一旗标,其指示3D参数的显式集合是否包括于3D转换信息中或是否应使用3D参数的默认集合,其中在所述第一旗标经设定时,3D参数的显式集合包括于3D转换信息中。在此状况下,如果第一旗标未经设定,则解码器仍可应用默认3D参数。3D转换信息还可包含第二旗标,其指示2D序列的第二视图是应在所述2D序列的
10左侧还是在所述2D序列的右侧产生。在此状况下,第二旗标可通过提供将在解码器处产生的二次视图的定向(例如,原始视频帧的左侧或右侧)而帮助3D呈现。此外,3D转换信息可包含第三旗标,其识别是否应从3D视频数据移除裁剪区,其中在所述第三旗标经设定时,定义裁剪区的信息包括于3D转换信息中。如果第三旗标未经设定,则可在产生3D视频数据及3D呈现的过程中避免裁剪。在一些状况下,如果第一旗标未经设定,则可从位流排除第二及第三旗标。所述旗标可包含单位或多位旗标。图1为说明可实施本发明的技术的示范性视频编码及解码系统10的框图。如图 1所示,系统10包括源装置12,其将经编码的视频经由通信信道15发射到目的地装置16。 源装置12及目的地装置16可包含广泛范围装置中的任一者,其包括移动装置或大体固定装置。在一些状况下,源装置12及目的地装置16包含无线通信装置,例如,无线手持机、 所谓的蜂窝式或卫星无线电电话、个人数字助理(PDA)、移动媒体播放器或可经由通信信道 15传达视频信息的任何装置,通信信道15可能为无线的或可能不为无线的。然而,关于3D 转换信息连同2D视频序列的产生、传达及使用的本发明的技术可用于许多不同的系统及设定中。图1仅为所述系统的一个实例。在图1的实例中,源装置12可包括视频源20、视频编码器22、调制器/解调器(调制解调器)23及发射器M。目的地装置16可包括接收器沈、调制解调器27、视频解码器 28及显示装置30。根据本发明,源装置12的视频编码器22可经配置以编码视频帧的2D 序列且编码3D转换信息,其中3D转换信息包含可应用于2D序列的视频帧中的每一者以产生3D视频数据的参数集合。调制解调器23及发射器M可调制无线信号且将无线信号发射到目的地装置。以此方式,源装置12将经编码的2D序列连同3D转换信息一起传达到目的地装置16。接收器沈及调制解调器27从源装置12接收无线信号且将所接收的无线信号解调。因此,视频解码器观可接收2D序列及3D转换信息,将2D序列解码。根据本发明,视频解码器观可基于2D序列及3D转换信息而产生3D视频数据。又,3D转换信息可包含可应用于2D序列的视频帧中的每一者以产生3D视频数据的参数集合,其可包含比将以其它方式传达3D序列需要的数据显著较少的数据。如所提及,图1的所说明的系统10仅为示范性的。本发明的技术可扩展到支持基于一阶块的视频编码的任何编码装置或技术。源装置12及目的地装置16仅为所述编码装置的实例,其中源装置12产生经编码的视频数据以用于发射到目的地装置16。在一些状况下,装置12、16可以实质上对称的方式操作,使得装置12、16中的每一者包括视频编码及解码组件。因此,系统10可支持视频装置12、16之间的单向或双向视频发射,以(例如)用于视频串流、视频重放、视频广播或视频电话。源装置12的视频源20可包括视频俘获装置,例如,摄像机、含有先前俘获的视频的视频档案,或来自视频内容提供者的视频馈送。作为另一替代例,视频源20可产生基于计算机图形的数据作为源视频,或实况视频、经归档视频及计算机产生的视频的组合。在一些状况下,如果视频源20为摄像机,则源装置12及目的地装置16可形成所谓的相机电话或视频电话。在每一状况下,可通过视频编码器22编码经俘获、经预俘获或计算机产生的视频。接着可由调制解调器23根据通信标准(例如,码分多址(CDMA)或另一通信标准) 调制经编码的视频信息,且将其经由发射器M发射到目的地装置16。调制解调器23可包括各种混频器、滤波器、放大器或经设计用于信号调制的其它组件。发射器M可包括经设计用于发射数据的电路,包括放大器、滤波器及一个或一个以上天线。目的地装置16的接收器沈经由信道15接收信息,且调制解调器27解调所述信息。又,视频编码过程可实施本文中所描述的技术中的一者或一者以上,以确定可应用于2D 序列的视频帧中的每一者以产生3D视频数据的参数集合。经由信道15所传达的信息可包括由视频编码器22定义的信息(其可由与本发明一致的视频解码器观使用)。显示装置 30向用户显示经解码的视频数据,且可包含多种显示装置中的任一者,例如,阴极射线管、 液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。在图1的实例中,通信信道15可包含任何无线或有线通信媒体,例如,射频(RF) 频谱或一个或一个以上物理传输线,或无线与有线媒体的任何组合。因此,调制解调器23 及发射器M可支持许多可能的无线协议、有线协议,或有线与无线协议。通信信道15可形成例如局域网(LAN)、广域网(WAN)或包含一个或一个以上网络的互连的全球网络(例如, 因特网)等基于包的网络的一部分。通信信道15大体上表示用于将视频数据从源装置12 发射到目的地装置16的任何合适通信媒体或不同通信媒体的集合。通信信道15可包括路由器、交换器、基站,或可用于促进从源装置12到目的地装置16的通信的任何其它设备。本发明的技术未必需要将经编码的数据从一个装置传达到另一装置,且可在无互逆解码的情况下应用于编码情况。又,本发明的方面可在无互逆编码的情况下应用于解码情况。视频编码器22及视频解码器28可在符合视频压缩标准(例如,ITU-T H. 264标准,或者被描述为MPEG-4第10部分,进阶视频编码(AVC))的情况下进行操作。然而,本发明的技术不限于任何特定编码标准或其扩展。尽管未在图1中展示,但在一些方面中,视频编码器22及视频解码器观可各自与音频编码器及解码器整合,且可包括适当的MUX-DEMUX 单元或其它硬件及软件,以处置共同数据流或单独数据流中的音频与视频两者的编码。如果适用,则MUX-DEMUX单元可遵守ITU H. 223多路复用器协议或例如用户数据报协议(UDP) 等其它协议。通过ITU-T视频编码专家组(VCEG)连同IS0/IEC动画专家组(MPEG)将ITU-T H. 264/MPEG-4(AVC)标准制定为被称为联合视频小组(JVT)的集体合作的产物。H. 264标准由ITU-T研究组于2005年3月在ITU-T建议案H.沈4“用于一般视听服务的高级视频编石马(Advanced Video Coding for generic audiovisual services),,中描述,其可在本文中被称作H. 264标准或H. 264规范或H. 264/AVC标准或规范。联合视频小组(JVT)继续致力于对H. 264/MPEG-4AVC的扩展。ITU-T的各种论坛(例如,关键技术领域(KTA)论坛)致力于推进H. 264/ MPEG-4AVC标准。KTA论坛在某种程度上探求开发展现比H. 264/AVC标准所展现的编码效率高的编码效率的编码技术。本发明中所描述的技术可提供相对于H. ^4/AVC标准(尤其针对3D视频)的编码改善。在一些方面中,本发明预期在ITU-T H. 264架构内使用补充增强信息(SEI)消息作为用于编码及传达本文中所描述的3D转换信息的机制。视频编码器22及视频解码器观各自可实施为一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、执行于微处理器或其它平台上的软件、硬件、固件,或其任何组合。视频编码器22及视频解码器观中的每一者可包括于一个或一个以上编码器或解码器中,其中任一者可整合为相应移动装置、订户装置、广播装置、服务器或其类似者中的组合的编码器/解码器(CODEC)的一部分。视频序列通常包括一系列视频帧。视频编码器22及视频解码器观可对个别视频帧内的视频块进行操作以便编码及解码视频数据。视频块可具有固定或变化的大小,且可根据所指定编码标准而在大小上不同。每一视频帧可包括一系列片段或其它可独立解码的单元。每一片段可包括一系列宏块,所述宏块可布置成子块。作为一实例,ITU-T H. 264标准支持在各种块大小情况下的帧内预测,例如,针对亮度分量的16乘16、8乘8或4乘4 及针对色度分量的8X8 ;以及在各种块大小情况下的帧间预测,例如,针对亮度分量的16 乘16、16乘8、8乘16、8乘8、8乘4、4乘8及4乘4及针对色度分量的对应按比例缩放的大小。视频块可包含像素数据的块,或(例如)在例如离散余弦变换或概念上类似的变换过程等变换过程之后的变换系数的块。较小视频块可提供较好的分辨率,且可用于定位包括高等级细节的视频帧。一般来说,宏块及各种子块或分割区可全都被视为视频块。另外,片段可被视为一系列视频块, 例如,宏块及/或子块或分割区。一般来说,宏块可指代定义16乘16像素区域的色度值及亮度值的集合。亮度块可包含16乘16的值集合,但可经进一步分割成较小视频块,例如, 8乘8块、4乘4块、8乘4块、4乘8块或其它大小。两个不同色度块可定义宏块的颜色,且可各自包含8乘8经子取样的块,所述8乘8经子取样的块的颜色值与16乘16像素区域相关联。宏块可包括用以定义应用于所述宏块的编码模式及/或编码技术的语法信息。可将宏块或其它视频块分组到可解码单元(例如,片段、帧或其它独立单元)中。 每一片段可为视频帧的可独立解码的单元。或者,帧自身可为可解码单元,或帧的其它部分可被定义为可解码单元。在本发明中,术语“经编码单元”指代视频帧的任何可独立解码的单元,例如,整个帧、帧的片段、图片群组(GOP),或根据所使用的编码技术而定义的另一可独立解码单元。在基于帧内或帧间的预测性编码之后及在任何变换(例如,用于H. ^4/AVC中的 4X4或8X8整数变换或离散余弦变换或DCT)之后,可执行量化。量化大体上指代其中将系数量化以可能地减少用以表示所述系数的数据量的过程。量化过程可减少与所述系数中的一些或全部相关联的位深度。举例来说,16位值在量化期间可下舍入到15位值。在量化之后,可(例如)根据内容适应性可变长度编码(CAVLC)、上下文适应性二进制算术编码 (CABAC)或另一熵编码方法来执行熵编码。3D视频可需要与每一经原始编码的帧相关联的一个或一个以上额外视频帧(例如,额外视图)。举例来说,两个不同的视图可用以定义视频帧的立体3D再现。多个视图 (其可包含三个或三个以上视图)还可支持多视图3D再现。3D视频的不同视图可具有类似时序以使得两个或两个以上视图对应于视频序列的同一时间实例。以此方式,两个或两个以上视图可大体上定义一起形成3D序列的两个或两个以上2D序列,其可经共同地呈现以提供3D视频。为了支持3D视频的高效率编码、传达及解码,本发明使用包含可应用于2D序列的视频帧中的每一者以产生3D视频数据的参数集合的3D转换信息。可与2D序列一起传达所述3D转换信息。因此,接收装置可产生并显示2D序列,或在接收装置支持3D视频的情况下,所述接收装置可产生并显示3D序列。在一些实例中,本发明的3D转换信息可包含小于100个字节的数据,且更特定来说,小于20个字节的数据,其可应用于2D序列的2D帧中的一些或全部以产生3D立体视频的二次视图。以此方式,通过消除至少一些帧的两个视图的发射,本发明的技术提供传达3D视频的高效率方式。图2为说明可执行与本发明一致的技术的视频编码器50的一实例的框图。视频编码器50可对应于源装置12的视频编码器22,或不同装置的视频编码器。视频编码器50 可执行视频帧内的块的帧内编码及帧间编码。帧内编码依赖于空间预测以减少或移除给定视频帧内的视频的空间冗余。帧间编码依赖于时间预测以减少或移除视频序列的邻近帧内的视频的时间冗余。帧内模式(I模式)可指代基于空间的压缩模式,且例如预测(P模式) 或双向(B模式)的帧间模式可指代基于时间的压缩模式。如图2中所示,视频编码器50接收视频帧或片段内的待编码的当前视频块。在图 2的实例中,视频编码器50包括预测单元35、存储器34、加法器48、变换单元38、量化单元 40及熵编码单元46。对于视频块重建构来说,视频编码器50还包括逆量化单元42、逆变换单元44及加法器51。此外,根据本发明,视频编码器50可包括产生本文中所描述的3D转换信息的2D到3D转换单元36。视频编码器50还可包括其它组件,例如,用以对块边界进行滤波以从经重建构的视频移除方块效应假影的解块滤波器(未图示)。如果需要,则所述解块滤波器将通常对加法器51的输出进行滤波。在编码过程期间,视频编码器50接收待编码的视频块,且预测单元35执行帧内或帧间预测性编码。举例来说,编码器50的预测单元35可执行对经编码的单元(例如,帧或片段)的每一视频块或视频块分割区的运动估计及运动补偿。预测单元35可计算与编码特定块相关联的每一适用模式的速率-失真成本(rdcost),且可选择产生最低成本的编码模式。rdcost可量化在经编码的数据中所使用的位数目及相对于原始视频数据的失真度方面的成本。速率-失真(RD)分析在视频编码中相当常见,且大体上涉及指示编码成本的成本量度的计算。成本量度可平衡编码所需的位数目(速率)及与编码相关联的质量水平(失真)。典型的速率-失真成本计算可大体上对应于以下格式J(A) = λ R+D,其中J(A)为成本,R为位速率,D为失真,且λ为拉格朗日乘数。预测单元35可应用此类型的成本函数以比较可用以执行视频块编码的各种帧内及帧间编码模式(及适用的分割区大小)。一旦由预测单元35识别了所要预测数据,视频编码器50就通过从经编码的原始视频块减去预测数据以产生残余块而形成残余视频块。加法器48表示执行这些减法运算的(多个)组件。变换单元38将变换(例如,离散余弦变换(DCT)或概念上类似的变换) 应用于残余块,从而产生包含残余变换块系数的视频块。变换单元38可执行概念上类似于 DCT的变换,例如,由H. 264标准定义的变换。还可使用小波变换、整数变换、次频带变换或其它类型的变换。在任何状况下,变换单元38将变换应用于残余块,从而产生残余变换系数的块。所述变换可将残余信息从像素域转换到频域。量化单元40量化残余变换系数以进一步减少位速率。量化过程可减少与所述系数中的一些或全部相关联的位深度。举例来说,9位值在量化期间可下舍入到8位值。另外,量化单元40还可量化不同偏移(对于在使用偏移的状况下)。在量化之后,熵编码单元46对经量化的变换系数进行熵编码。举例来说,熵编码单元46可执行内容适应性可变长度编码(CAVLC)、上下文适应性二进制算术编码(CABAC) 或另一熵编码方法。在通过熵编码单元46进行的熵编码之后,可将经编码的视频发射到另一装置或经归档以供稍后发射或检索。经编码的位流可包括经熵编码的残余块、所述块的运动向量,及其它语法(例如,本文中所描述的用于支持2D到3D视频的语法)。逆量化单元42及逆变换单元44分别应用逆量化及逆变换以在像素域中重建构残余块,(例如)以用上文所描述的方式供稍后用作参考数据。加法器51将经重建构的残余块加到由运动补偿单元35产生的一阶预测块及/或二阶预测块,以产生经重建构的视频块以供存储于存储器;34中。经重建构的视频块及残余数据可由运动补偿单元35用作参考块以对后续视频帧或其它经编码的单元中的块进行帧间编码。为了支持3D视频,视频编码器50可进一步包括2D到3D转换单元36,其相对于存储在存储器34中的经重建构的2D视频序列进行操作。以此方式,2D到3D转换单元36对将在解码器处在解码过程之后可用的相同经重建构的数据进行操作。根据本发明,2D到3D 转换单元36识别、确定或另外产生3D转换信息,3D转换信息包含可应用于2D序列的视频帧中的每一者以产生3D视频数据的参数集合。针对给定2D序列可产生一次3D转换信息。3D转换信息所应用于的2D序列可包含整个视频序列、场景,或可能地形成可解码集合的图片群组。图片群组的实例包括IBPBP情况中的五个帧的集合或IBBPBBP情况中的七个帧的集合,其中I指示帧内编码,P指示预测性帧间编码或单向帧间编码,及B指示前后预测性(bi-predictive)帧间编码或双向帧间编码。在这些状况下,图片群组中的帧可相互依赖并共同地解码。在一些状况下,每图片群组可发送一次3D转换信息,但也可每场景发送一次3D转换信息或每整个视频序列发送一次3D转换信息。然而,重要的是,3D转换信息相对于多个帧而应用,以便所述多个帧中的每一个别帧不需要不同的3D转换信息。视频编码器50可根据ITU H. 264视频编码标准编码2D序列,且2D到3D转换单元可编码由ITU H. 264视频编码标准支持的3D转换信息SEI消息。参数集合可应用于第一 2D序列的视频帧中的每一者以产生视频帧的第二 2D序列,其中第一与第二 2D序列共同地定义3D立体视频序列。3D转换信息可包括识别待应用于2D序列以产生3D视频数据的 3D转换过程的信息。在一些状况下,3D转换信息可包括与俘获2D序列相关联的相机参数及值。举例来说,如下文更详细解释,3D转换信息可包括焦距值,其指示与俘获2D序列的相机相关联的焦距;近深度值,其指定3D视频数据中的最小深度;远深度值,其指定3D视频数据中的最大深度;及平移值,其量化与3D视频数据相关联的两个相机之间的假定距离。为了编码3D转换信息,2D到3D转换单元36可使用旗标,其为可经设定以指示特定情况的位。作为实例,3D转换信息可包括指示3D参数的显式集合是否包括于3D转换信息中或是否应使用3D参数的默认集合的旗标。在此状况下,在所述旗标经设定时,3D参数的显式集合包括于3D转换信息中。又,3D转换信息可包括指示2D序列的第二视图是应在所述2D序列的左侧还是在所述2D序列的右侧产生的旗标。另外,3D转换信息可包括识别应从3D视频数据移除的裁剪区的旗标。在此状况下,在所述旗标经设定时,定义裁剪区的信息包括于3D转换信息中。这些旗标中的每一者可用以共同地编码3D转换信息,且还可使用或定义与本发明一致的其它旗标。图3为说明示范性视频解码器70的框图,所述示范性视频解码器70可执行与上文所描述的编码技术互逆的解码技术。视频解码器70可包括熵解码单元72、预测单元75、
15逆量化单元76、逆变换单元78、存储器74及加法器79。预测单元75可包括运动补偿单元以及空间预测组件。视频解码器70可接收包括以本文中所描述的方式编码的2D序列的经编码的视频位流,及可由解码器70使用以促进视频块的适当解码的各种语法元素。更特定来说,视频位流可包括本文中所描述的用以促进基于视频帧的2D序列产生3D视频数据的3D转换信息。3D转换信息可包含可应用于2D序列的视频帧中的每一者以产生3D视频数据的参数集合。又,3D转换信息针对视频序列的不同帧并没有不同,而包含形成相对较少量的数据的共同参数集合,其可应用于2D序列的原始视频帧中的每一者以产生所述原始视频帧中的每一者的二次视图。短语2D序列指代多个视频帧,其可包含整个视频文件、视频剪辑、较大视频文件内的视频场景,或可能地在较大视频序列内形成可解码帧集合的图片群组。熵解码单元72执行位流的熵解码以产生2D序列的残余视频块的经量化的系数。 熵编码单元72可剖析来自位流的语法元素且将所述语法元素转发到视频解码器70的各种单元。举例来说,运动信息(例如,运动向量)及其它语法信息可经转发到预测单元75。此外,可通过熵解码单元72剖析来自位流的3D转换信息,且接着将所述3D转换信息转发到 2D到3D转换单元79。以虚线说明2D到3D转换单元79,因为此单元79为任选的。不具有任何2D到3D转换单元79的视频解码器可能仅解码2D视频序列且丢弃3D转换信息。以此方式,3D转换信息促进了可扩充的2D到3D视频的产生,其中一些装置可解码2D视频,而其它装置可解码2D视频且还应用3D转换信息以产生3D视频。为了解码2D视频序列,预测单元75使用运动信息或其它语法元素以识别在编码中所使用的预测块。对于基于帧间的解码来说,运动向量可应用于运动补偿过程中以从预测数据的一个或一个以上列表产生预测块。对于基于帧间的解码来说,语法可包含帧内模式,其可定义应如何基于来自与经解码的视频块的帧相同的帧的数据来产生预测块。逆量化单元76将来自熵解码单元72的数据逆量化,且逆变换单元执行逆变换以在像素域中产生残余块。加法器79接着将残余块与由预测单元75产生的预测块组合以产生原始视频块的重建构,其可存储于存储器74中及/或作为经解码的2D视频数据输出到显示器。可以此方式解码许多视频块以重建构视频帧,且最终将视频帧的整个2D序列重建构于存储器74中。以此方式,视频解码器70执行相对于先前所描述的由视频编码器50执行的编码的互逆解码。根据本发明,2D到3D转换单元79可将在位流中所发送的3D转换信息应用于存储在存储器74中的经解码的2D视频序列。举例来说,在将3D转换信息应用于存储在存储器 74中的经解码的2D视频序列的情况下,2D到3D转换单元79可产生与所述2D序列中的视频帧中的一些或全部相关联的二次视图。可接着将原始视图及二次视图作为3D视频数据从2D到3D转换单元79输出。多视图视频编码(MVC)可形成对H. 264/AVC的扩展,但MVC也可关于其它视频编码标准而应用。MVC的一个联合草案描述于JVT-AB204( “关于多视图视频编码的联合草案 8. OQoint Draft 8.0 on Multiview Video Coding)”)中,其是在 2008 年 7 月于德国汉诺威(Hannover,Germany)召开的第28届JVT会议中提出的。与H. 264/AVC 一致,经编码的视频位可经组织到网络抽象层(NAL)单元中,其提供解决例如视频电话、存储、广播或串流等应用的“网络亲和性(network-friendly)”视频表示。可将NAL单元分类成视频编码层(VCL) NAL单元及非VCL NAL单元。VCL单元可含有核心压缩引擎且包含块、MB及片段层级。其它NAL单元是非VCL NAL单元。遵照H. 264/AVC,补充增强信息(SEI)消息可含有对从VCL NAL单元解码经编码的图片的样本并非必要的信息。SEI消息还包含于非VCL NAL单元中。SEI消息为H.沈4/ AVC的标准规范的标准化部分。虽然未强制用于符合标准的解码器实施方案,但SEI消息可帮助与解码、显示、错误恢复及其它目的有关的过程。虽然已最后定下H. 264/AVC的强制部分,但H. ^4/AVC规范对于SEI消息仍为开放的。在一些方面中,本发明提议使用SEI消息或其它类似消息作为用于本文中所描述的编码、传达及解码3D转换信息的机制。为了支持3D视频格式,JVT及MPEG可引入新标准及特征。举例来说,与MPEG-2 多视图轮廓一致,一个视图(例如,左视图)可以减小的帧速率(例如,每秒15个帧)经编码,且另一视图可经编码为需要高帧速率(例如,每秒30个帧)的时间增强层。然而,这需要在位流中传达两个视图,此相对于传达常规2D序列可显著增加位流中的数据量。H. 264/AVC还可应用立体视频内容方法。举例来说,在H. 264/AVC中,可采用立体视频信息SEI消息以指示如何将两个视图布置于一个位流中。在此状况下,所述两个视图可为交替帧或互补场对。当两个视图为交替帧时,以时间交错模式将两个视图定序,且当两个视图为互补场对时,来自两个视图的图像对实际上行交错于一个图片中。然而,又,这需要在位流中传达两个视图,此相对于传达常规2D序列可显著增加位流中的数据量。有可能采用图片的空间交错且可能在SEI中用信号通知空间交错的存在,其将两个视图从时间交错及行交错的支持扩展到更灵活的空间交错模式中。或者,SEI消息可支持图像对组合为并排的交错、上/下交错、列交错或棋盘型交错。在这些方法(与其它不合需要的方法一样)中的每一者中,不同视图实际上以某种方式在位流中发射,此相对于常规2D序列急剧增加3D视频所需的信息量。本发明的技术可实质上通过避免二次视图的实际发射而减少位流中需要用以传达3D视频的信息量。在此状况下,本发明发送包含可在解码器处应用于原始2D序列以在所述解码器处产生二次视图的参数集合的3D转换信息,而非实际上编码并发射二次视图。 以此方式,避免了实际上传送二次视图的需要,且更确切来说,可在解码器处应用参数集合以产生二次视图,而无需在位流中传送二次视图。H. ^4/AVC中的SEI消息还可支持接受3D输入好像其为2D视频序列且利用SEI消息来告知解码器如何分离两个交错的视图以便可将一个视频序列分割成两个视图的状况。 然而,应再次强调,在所述状况下的输入是由两个视图表示的3D输入。相比来说,本发明的技术避免了在位流中发送两个视图的需要,且更确切来说,依赖解码器以基于位流中的3D 转换信息而产生任何二次视图。—些MVC解码次序可被称作时间优先编码。在此状况下,将每一存取单元定义成含有在一个输出时间实例中的全部视图的经编码的图片。然而,存取单元的解码次序可能与输出或显示次序不同。MVC预测可包括每一视图内的图片间预测及视图间预测两者。MVC可包括可由 H. ^4/AVC解码器解码的所谓的基本视图,且MVC也可支持两个视图。在此状况下,MVC的优点是其可支持将两个以上视图当作3D视频输入且将此由多个视图表示的3D视频解码的状况。通过MVC解码器进行的解码可预期具有多个视图的3D视频内容。
MPEG标准还已在MPEG-C第3部分中规定用于附加规则视频流的深度图的格式。 此规范包括于以下文献中"IS0/IEC FDIS 23002-3文章辅助视频和补充信息的表示(Text of IS0/IEC FDIS 23002-3 Representation of Auxiliary Video and Supplemental Information),,, IS0/IEC JTC 1/SC 29/WG 11,MPEG 文挡,N8768,摩洛哥马拉喀什(Marrakech,Morocoo), 2007年1月。在MPEG-C第3部分中,所谓的辅助视频可为深度图或视差图。表示深度图可提供在用以表示深度图的每一深度值及分辨率的位数目方面的灵活性。举例来说,深度图可为给定图像的宽度的四分之一且为给定图像的高度的二分之一。遗憾地是,序列的每一帧通常需要深度图。也就是说,同一深度图并未应用于视频序列的每一帧。因此,深度图的传达可需要极大量数据,因为在整个视频序列上需要若干深度图。MPEG视频子组已定义在3D视频编码中的探测实验以便研究3D情况。MPEG视频子组已指示使深度图用于每一视图潜在地有助于视图合成,但MPEG中的此活动可能不是标准化的一部分。与MPEG 3D视频一致的两个重要概念包括深度估计及视图合成。可假定,大多数视频内容是由多相机系统俘获且深度图必须在编码之前产生以便可通过纹理视频序列来发射所述深度图。然而,根据本发明的视图合成是可在视频呈现时应用以产生未在位流中发射的更多视图的工具。因此,视图合成的概念可通过促进本文中所描述的3D转换信息而形成本发明的技术的一部分。在3D视频通信系统中,可在编码之前俘获并预处理原始视频数据。可编码可具有深度图的原始数据,且可存储或发射经编码的视频内容。目的地装置可解码并显示3D视频。然而,如上文所解释,从通信及带宽观点来说,传达关于视频序列的若干图像的额外视图或深度图可能为不合需要的。根据本发明,较好的方法可为(例如)传达3D转换信息, 所述3D转换信息可由解码器应用于2D序列的每一视频帧来产生二次视图,而无需实际上在位流中传达二次视图。3D内容的获取可通过一个相机或通过相机阵列执行,或可能甚至与可产生深度图的装置相关联。作为几个实例,可在以下类别中的至少一者内将内容获取分类-2D视频俘获,其通常不提供3D内容。-双相机系统,其可俘获及/或提供立体视频。-相机阵列,其俘获多个视图。-一个视图俘获加深度。举例来说,一些装置可俘获与经俘获的图像相关联的深度。-其它技术可俘获深度信息及/或产生3D模型。还可在编码器处执行3D预处理及编码。此处,3D预处理并不指代与噪声抑制或场景检测有关的典型处理。3D预处理可产生深度图,其将经编码为3D视频内容的一部分。此过程可针对每一经俘获的视图产生一个深度图或针对若干经发射的视图产生若干深度图。 然而,又,从带宽观点来说,传达深度图可能为不合需要的。在视频内容由解码器接收时,可将所述视频内容解码以获得经发射的数据,经发射的数据可包括一个或一个以上视图以及经重建构的深度图(如果存在)。当深度图可用于解码器处时,可采用视图合成算法以产生未经发射的其它视图的纹理。常规3D显示器可
18呈现两个或两个以上视图。在快门眼镜(shuttle glasses)的帮助下,能够显示高帧速率视频的一些2D显示器也可用作3D显示器。偏光是提供两个视图作为输出的3D显示技术。 虽然一些显示器或3D电视将深度当作输入的一部分,但可能总是存在负责产生两个或两个以上视图作为输出的内建式“视图合成”模块。3D扭曲变形(3D warping)是可对本发明的技术有用的视图合成的一种形式。图 4到图7是将用以解释3D扭曲变形及其它视图合成概念的概念图。基于取样理论的视图合成可为取样问题,其需要经密集取样的视图以极佳地产生在任何视角上的任何视图。然而, 在实践应用中,经密集取样的视图所需的存储或发射带宽通常太巨大而不能被实现。因此, 一些研究已聚焦于基于经稀疏取样的视图及深度图的视图合成。基于经稀疏取样的视图的视图合成算法可依赖3D扭曲变形的概念。图4说明3D 扭曲变形的概念。如图4所示,在3D扭曲变形中,在给出深度及相机模型的情况下,参考视图的f中的像素可从2D相机坐标投影到世界空间坐标系统中的点P。所述点P可接着沿着
PO2的方向投影到目的地视图(其为待产生的虚拟视图)。在此状况下,尸O2的方向对应于目的地视图的视角。通过假定投影的坐标为 ,则参考视图中的f的像素值(在不同颜色分量中)可被视为虚拟视图中的G的像素值。有时,一个以上视图可被视为参考视图。换句话说,上文所提及的从 到G的投影未必为一对一投影。然而,当一个以上像素投影到目的地像素G时,可能出现可见度问题。 另一方面,当一个像素投影到目的地像素G时,可在虚拟视图的图片中显现或存在一孔。所谓的可见度问题可能需要决定哪些像素将用以建构G的像素值。如果若干孔在图片中存在于连续区域中,则所述现象称为遮挡(occlusion)。另外,如果若干孔稀疏地分布于图片中, 则所述孔可称为针孔。可通过在不同方向上引入一个参考视图来解决遮挡。针孔填充(例如,用以填充针孔的像素值)通常将相邻像素当作孔的候选者。用于针孔填充的技术也可用以解决遮挡问题。在针对U2的像素值考虑一个以上像素时,可采用加权平均方法。通常将这些过程命名为视图合成的重建构。总计来说,可见度、遮挡、针孔填充及重建构表示在实施基于3D 扭曲变形的视图合成过程中的主要难题及障碍。相机模型可有助于解决所述难题。举例来说,含有固有参数及外来参数的相机模型可用以描述从世界坐标系统到相机平面的变换,或从相机平面到世界坐标系统的变换。为简单起见,本发明中所描述的全部所提及的坐标系统均为正交坐标系统,但本发明的技术未必在此方面进行限制。外来参数可基于以下变换来定义在世界坐标中相机中心的位置及相机的机首方向
权利要求
1.一种方法,其包含在视频编码器中编码视频帧的二维2D序列;经由所述视频编码器编码三维3D转换信息,其中所述3D转换信息包含可应用于所述 2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合;及传达所述经编码的2D序列与所述3D转换信息。
2.根据权利要求1所述的方法,其中编码所述2D序列包含根据ITUH. 264视频编码标准来编码所述2D序列,且其中编码所述3D转换信息包含将所述3D转换信息编码到由所述 ITU H. 264视频编码标准支持的一个或一个以上补充增强信息SEI消息中。
3.根据权利要求1所述的方法,其中所述2D序列为第一2D序列,所述参数集合可应用于所述第一 2D序列的所述视频帧中的每一者以产生视频帧的第二 2D序列,且所述第一 2D 序列及所述第二 2D序列共同地定义3D立体视频序列。
4.根据权利要求1所述的方法,其中所述3D转换信息包括识别待应用于所述2D序列以产生所述3D视频数据的3D转换过程的信息。
5.根据权利要求1所述的方法,其中所述3D转换信息包括与俘获所述2D序列相关联的相机参数及值。
6.根据权利要求1所述的方法,其中所述3D转换信息包括 焦距值,其指示与俘获所述2D序列的相机相关联的焦距,近深度值,其指定所述3D视频数据中的最小深度,远深度值,其指定所述3D视频数据中的最大深度,及平移值,其量化与所述3D视频数据相关联的两个相机之间的假定距离。
7.根据权利要求1所述的方法,其中所述3D转换信息包括 焦距值,其指示与俘获所述2D序列的相机相关联的焦距,近深度值,其指定所述3D视频数据中的最小深度, 远深度值,其指定所述3D视频数据中的最大深度,及平移值,其量化与所述3D视频数据相关联的两个相机之间的假定距离, 会聚深度值,其量化会聚图像平面到所述两个相机的假定距离。
8.根据权利要求1所述的方法,其中所述3D转换信息包括指示3D参数的显式集合是否包括于3D转换信息中或是否应使用3D参数的默认集合的旗标。
9.根据权利要求1所述的方法,其中所述3D转换信息包括指示所述2D序列的第二视图是应在所述2D序列的左侧还是在所述2D序列的右侧产生的旗标。
10.根据权利要求1所述的方法,其中所述3D转换信息包括识别应从所述3D视频数据移除的裁剪区的旗标。
11.根据权利要求1所述的方法,其中所述3D转换信息包括第一旗标,其指示3D参数的显式集合是否包括于所述3D转换信息中或是否应使用3D 参数的默认集合,其中在所述第一旗标经设定时,3D参数的所述显式集合包括于所述3D转换信息中,第二旗标,其指示所述2D序列的第二视图是应在所述2D序列的左侧还是在所述2D序列的右侧产生,及第三旗标,其识别是否应从所述3D视频数据移除裁剪区,其中在所述第三旗标经设定时,定义所述裁剪区的信息包括于所述3D转换信息中。
12.一种方法,其包含在视频解码器处接收视频帧的二维2D序列;在所述视频解码器处与所述2D序列一起接收三维3D转换信息,其中所述3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合; 经由所述视频解码器解码所述2D序列;及基于所述2D序列及所述3D转换信息经由所述视频解码器产生所述3D视频数据。
13.根据权利要求12所述的方法,其中所述2D序列是根据ITUH. 264视频编码标准而编码的,且其中在由所述ITU H. 264视频编码标准支持的一个或一个以上补充增强信息 SEI消息中接收所述3D转换信息。
14.根据权利要求12所述的方法,其中所述2D序列为第一2D序列,所述参数集合可应用于所述第一 2D序列的所述视频帧中的每一者以产生视频帧的第二 2D序列,所述第一 2D 序列及所述第二 2D序列共同地定义3D立体视频序列,且产生所述3D视频数据包含产生用以定义所述3D立体视频序列的所述第二 2D序列。
15.根据权利要求12所述的方法,其中所述3D转换信息包括识别待应用于所述2D序列以产生所述3D视频数据的3D转换过程的信息。
16.根据权利要求12所述的方法,其中所述3D转换信息包括与俘获所述2D序列相关联的相机参数及值。
17.根据权利要求12所述的方法,其中所述3D转换信息包括 焦距值,其指示与俘获所述2D序列的相机相关联的焦距,近深度值,其指定所述3D视频数据中的最小深度,远深度值,其指定所述3D视频数据中的最大深度,及平移值,其量化与所述3D视频数据相关联的两个相机之间的假定距离。
18.根据权利要求12所述的方法,其中所述3D转换信息包括 焦距值,其指示与俘获所述2D序列的相机相关联的焦距,近深度值,其指定所述3D视频数据中的最小深度, 远深度值,其指定所述3D视频数据中的最大深度,及平移值,其量化与所述3D视频数据相关联的两个相机之间的假定距离, 会聚深度值,其量化会聚图像平面到所述两个相机的假定距离。
19.根据权利要求12所述的方法,其中所述3D转换信息包括指示3D参数的显式集合是否包括于3D转换信息中或是否应使用3D参数的默认集合的旗标。
20.根据权利要求12所述的方法,其中所述3D转换信息包括指示所述2D序列的第二视图是应在所述2D序列的左侧还是在所述2D序列的右侧产生的旗标。
21.根据权利要求12所述的方法,其中所述3D转换信息包括识别应从所述3D视频数据移除的裁剪区的旗标。
22.根据权利要求12所述的方法,其中所述3D转换信息包括第一旗标,其指示3D参数的显式集合是否包括于所述3D转换信息中或是否应使用3D 参数的默认集合,其中在所述第一旗标经设定时,3D参数的所述显式集合包括于所述3D转换信息中,第二旗标,其指示所述2D序列的第二视图是应在所述2D序列的左侧还是在所述2D序列的右侧产生,及第三旗标,其识别是否应从所述3D视频数据移除裁剪区,其中在所述第三旗标经设定时,定义所述裁剪区的信息包括于所述3D转换信息中。
23.根据权利要求12所述的方法,其进一步包含 确定接收装置是否可产生并呈现所述3D视频数据;在所述接收装置可产生并呈现所述3D视频数据时,基于所述2D序列及所述3D转换信息而产生并呈现所述3D视频数据;及在所述接收装置不能产生或呈现所述3D视频数据时,呈现所述2D序列。
24.一种设备,其包含视频编码器,其编码视频帧的二维2D序列,且编码三维3D转换信息与所述2D序列,其中所述3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合。
25.根据权利要求M所述的设备,其进一步包含发射器,所述发射器将所述经编码的 2D序列与所述3D转换信息传达到另一装置。
26.根据权利要求M所述的设备,其中所述视频编码器根据ITUH. 264视频编码标准来编码所述2D序列,且将所述3D转换信息编码到由所述ITU H. 264视频编码标准支持的一个或一个以上补充增强信息SEI消息中。
27.根据权利要求M所述的设备,其中所述2D序列为第一2D序列,所述参数集合可应用于所述第一 2D序列的所述视频帧中的每一者以产生视频帧的第二 2D序列,且所述第一 2D序列及所述第二 2D序列共同地定义3D立体视频序列。
28.根据权利要求M所述的设备,其中所述3D转换信息包括识别待应用于所述2D序列以产生所述3D视频数据的3D转换过程的信息。
29.根据权利要求M所述的设备,其中所述3D转换信息包括与俘获所述2D序列相关联的相机参数及值。
30.根据权利要求M所述的设备,其中所述3D转换信息包括 焦距值,其指示与俘获所述2D序列的相机相关联的焦距,近深度值,其指定所述3D视频数据中的最小深度,远深度值,其指定所述3D视频数据中的最大深度,及平移值,其量化与所述3D视频数据相关联的两个相机之间的假定距离。
31.根据权利要求M所述的设备,其中所述3D转换信息包括 焦距值,其指示与俘获所述2D序列的相机相关联的焦距,近深度值,其指定所述3D视频数据中的最小深度, 远深度值,其指定所述3D视频数据中的最大深度,及平移值,其量化与所述3D视频数据相关联的两个相机之间的假定距离, 会聚深度值,其量化会聚图像平面到所述两个相机的假定距离。
32.根据权利要求M所述的设备,其中所述3D转换信息包括指示3D参数的显式集合是否包括于3D转换信息中或是否应使用3D参数的默认集合的旗标。
33.根据权利要求M所述的设备,其中所述3D转换信息包括指示所述2D序列的第二视图是应在所述2D序列的左侧还是在所述2D序列的右侧产生的旗标。
34.根据权利要求M所述的设备,其中所述3D转换信息包括识别应从所述3D视频数据移除的裁剪区的旗标。
35.根据权利要求M所述的设备,其中所述3D转换信息包括第一旗标,其指示3D参数的显式集合是否包括于所述3D转换信息中或是否应使用3D 参数的默认集合,其中在所述第一旗标经设定时,3D参数的所述显式集合包括于所述3D转换信息中,第二旗标,其指示所述2D序列的第二视图是应在所述2D序列的左侧还是在所述2D序列的右侧产生,及第三旗标,其识别是否应从所述3D视频数据移除裁剪区,其中在所述第三旗标经设定时,定义所述裁剪区的信息包括于所述3D转换信息中。
36.根据权利要求M所述的设备,其中所述设备包含以下各项中的至少一者集成电路;微处理器;及包括所述视频编码器的无线通信装置。
37.一种设备,其包含视频解码器,其接收视频帧的二维2D序列;与所述2D序列一起接收三维3D转换信息, 其中所述3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合;解码所述2D序列;且基于所述2D序列及所述3D转换信息产生所述3D视频数据。
38.根据权利要求37所述的设备,其中所述2D序列是根据ITUH. 264视频编码标准而编码的,且其中在由所述ITU H. 264视频编码标准支持的一个或一个以上补充增强信息 SEI消息中接收所述3D转换信息。
39.根据权利要求37所述的设备,其中所述2D序列为第一2D序列,所述参数集合可应用于所述第一 2D序列的所述视频帧中的每一者以产生视频帧的第二 2D序列,所述第一 2D序列及所述第二 2D序列共同地定义3D立体视频序列,且在产生所述3D视频数据的过程中,所述视频解码器产生用以定义所述3D立体视频序列的所述第二 2D序列。
40.根据权利要求37所述的设备,其中所述3D转换信息包括识别待应用于所述2D序列以产生所述3D视频数据的3D转换过程的信息。
41.根据权利要求37所述的设备,其中所述3D转换信息包括与俘获所述2D序列相关联的相机参数及值。
42.根据权利要求37所述的设备,其中所述3D转换信息包括焦距值,其指示与俘获所述2D序列的相机相关联的焦距,近深度值,其指定所述3D视频数据中的最小深度,远深度值,其指定所述3D视频数据中的最大深度,及平移值,其量化与所述3D视频数据相关联的两个相机之间的假定距离。
43.根据权利要求37所述的设备,其中所述3D转换信息包括焦距值,其指示与俘获所述2D序列的相机相关联的焦距,近深度值,其指定所述3D视频数据中的最小深度,远深度值,其指定所述3D视频数据中的最大深度,及平移值,其量化与所述3D视频数据相关联的两个相机之间的假定距离,会聚深度值,其量化会聚图像平面到所述两个相机的假定距离。
44.根据权利要求37所述的设备,其中所述3D转换信息包括指示3D参数的显式集合是否包括于3D转换信息中或是否应使用3D参数的默认集合的旗标。
45.根据权利要求37所述的设备,其中所述3D转换信息包括指示所述2D序列的第二视图是应在所述2D序列的左侧还是在所述2D序列的右侧产生的旗标。
46.根据权利要求37所述的设备,其中所述3D转换信息包括识别应从所述3D视频数据移除的裁剪区的旗标。
47.根据权利要求37所述的设备,其中所述3D转换信息包括第一旗标,其指示3D参数的显式集合是否包括于所述3D转换信息中或是否应使用3D 参数的默认集合,其中在所述第一旗标经设定时,3D参数的所述显式集合包括于所述3D转换信息中,第二旗标,其指示所述2D序列的第二视图是应在所述2D序列的左侧还是在所述2D序列的右侧产生,及第三旗标,其识别是否应从所述3D视频数据移除裁剪区,其中在所述第三旗标经设定时,定义所述裁剪区的信息包括于所述3D转换信息中。
48.根据权利要求37所述的设备,其中所述设备包括显示器,且其中所述设备确定所述设备是否可产生并呈现所述3D视频数据;在所述设备可产生并呈现所述3D视频数据时,基于所述2D序列及所述3D转换信息而产生所述3D视频数据并在所述显示器上呈现所述3D视频数据;及在所述设备不能产生或呈现所述3D视频数据时,在所述显示器上呈现所述2D序列。
49.根据权利要求37所述的设备,其中所述设备包含以下各项中的至少一者集成电路;微处理器;及包括所述视频解码器的无线通信装置。
50.一种设备,其包含用于在视频编码器中编码视频帧的二维2D序列的装置;用于经由所述视频编码器编码三维3D转换信息的装置,其中所述3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合;及用于传达所述经编码的2D序列与所述经编码的参数的装置。
51.一种装置,其包含用于在视频解码器处接收视频帧的二维2D序列的装置;用于在所述视频编码器处与所述2D序列一起接收三维3D转换信息的装置,其中所述 3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合;用于解码所述2D序列的装置;及用于基于所述2D序列及所述3D转换信息产生所述3D视频数据的装置。
52.一种包含指令的计算机可读存储媒体,所述指令在由处理器执行时使所述处理器编码视频帧的二维2D序列;及编码三维3D转换信息,其中所述3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合。
53.一种包含指令的计算机可读存储媒体,所述指令在由处理器执行时使所述处理器在接收到视频帧的二维2D序列且与所述2D序列一起接收到三维3D转换信息时,其中所述3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合,解码所述2D序列;及基于所述2D序列及所述3D转换信息产生所述3D视频数据。
54.一种方法,其包含将3D转换信息应用于2D序列以产生3D视频数据,其中所述3D转换信息包含可应用于所述2D序列的每一视频帧以产生所述3D视频数据的参数集合。
全文摘要
本发明描述用于编码视频帧的二维2D视频序列连同三维3D转换信息的技术,所述三维3D转换信息包含可应用于所述2D序列的所述视频帧中的每一者以产生3D视频数据的参数集合。所述参数集合可包含可应用于所述2D序列的原始视频帧中的每一者以产生所述原始视频帧中的每一者的二次视图的相对少量的数据。所述原始视频帧及所述二次视图可共同地定义立体3D视频序列。所述2D序列及所述参数集合可包含比传达3D序列原本会需要的数据显著少的数据。本发明还描述可用以以有效且高效率的方式编码所述参数集合的一些示范性语法。
文档编号H04N13/00GK102450015SQ201080024362
公开日2012年5月9日 申请日期2010年6月5日 优先权日2009年6月5日
发明者陈英, 马尔塔·卡切维奇 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1