用于多视图视频译码mvc兼容三维视频译码3dvc的深度分量去除的制作方法

文档序号:7993491阅读:165来源:国知局
用于多视图视频译码mvc兼容三维视频译码3dvc的深度分量去除的制作方法
【专利摘要】一股来说,本发明描述用于单独译码视频数据的深度和纹理分量的技术。一种经配置以译码视频数据的视频译码装置可执行所述技术。所述视频译码装置可包括经解码图片缓冲器和处理器,所述处理器经配置以:将深度分量存储在所述经解码图片缓冲器中;分析视图依赖性以确定所述深度分量是否用于视图间预测;以及响应于确定所述深度分量不用于视图间预测而将所述深度分量从所述经解码图片缓冲器去除,以用于处理包括由深度分量和纹理分量组成的视图分量的视频数据。
【专利说明】用于多视图视频译码MVC兼容三维视频译码3DVC的深度分量去除
[0001]本发明主张2011年11月30日申请的第61/565,376号美国临时申请案、2011年12月I日申请的第61/565,938号美国临时申请案、2011年12月22日申请的第61/579,631号美国临时申请案以及2012年I月6日申请的第61/584,009号美国临时申请案的优先权,上述申请案中的每一者的内容特此以全文引用的方式并入本文中。

【技术领域】
[0002]本发明涉及视频译码,且更明确地说,涉及三维视频译码(3DVC)。

【背景技术】
[0003]数字视频能力可并入到较宽范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、e书籍阅读器、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式发射装置等。数字视频装置实施视频压缩技术,例如由 MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4,第 10 部分,高级视频译码(AVC)界定的标准,或目前正在开发的高效视频译码(HEVC)标准或此些标准的扩展中所描述的那些技术。视频装置可通过实施此些视频压缩技术来更高效地发射、接收、编码、解码且/或存储数字视频信息。
[0004]视频压缩技术执行空间(图片内)预测和/或时间(图片间)预测以减少或去除视频序列中固有的冗余。对于基于块的视频译码,可将视频片(即,图片或图片的一部分)分割为视频块,其也可称为树块、译码单元(CU)和/或译码节点。相对于图片中的相邻块中的参考样本,使用空间预测来编码同一图片的经帧内译码(I)片中的视频块。图片的经帧间译码(P或B)片中的视频块可相对于同一图片中的相邻块中的参考样本使用空间预测,或相对于其它参考图片中的参考样本使用时间预测。
[0005]空间或时间预测得出待译码的块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。根据指向形成所述预测性块的参考样本块的运动向量以及指示经译码块与预测性块之间的差的残余数据来编码经帧间译码的块。根据帧内译码模式和残余数据来编码经帧内译码的块。为了进一步压缩,可将残余数据从像素域变换到变换域,从而得出接着可量化的残余变换系数。可扫描经量化的变换系数(最初布置成二维阵列),以便产生变换系数的一维向量,且可应用熵译码来实现更多的压缩。


【发明内容】

[0006]一股来说,本发明描述用于三维视频译码(3DVC)的技术。更明确地说,本发明描述用于使用H.264/高级视频译码(AVC)标准的3DVC扩展来执行3DVC的技术。所述3DVC扩展界定用于用深度数据来编码视频数据的多个视图的视频译码技术。每一视图对应于一不同视角或角度,以此视角或角度捕获共同场景的对应视频数据。在3DVC的上下文中,每一视图可含有纹理视图和深度视图。一个时刻中视图的经译码表示为视图分量。视图分量可含有深度视图分量和纹理视图分量。本发明的技术通常涉及在译码多视图视频数据加深度数据时,启用用于3DVC的视图的纹理分量和深度分量两者的处置。所述技术可促进3DVC与MVC的兼容性。
[0007]在一个实例中,一种译码包含包括深度分量和纹理分量的视图分量的视频数据的方法包括:为所述视图分量的所述纹理分量激活作为纹理参数集的参数集;以及基于所述所激活的纹理参数集译码所述视图分量的所述纹理分量。
[0008]在另一实例中,一种用于译码包含由深度分量和纹理分量组成的视图分量的视频数据的视频译码装置包括处理器,其经配置以:为所述视图分量的所述纹理分量激活作为纹理参数集的参数集;以及基于所述所激活的纹理参数集译码所述视图分量的所述纹理分量。
[0009]在另一实例中,一种用于译码包含由深度分量和纹理分量组成的视图分量的视频数据的视频译码装置包括:用于为所述视图分量的所述纹理分量激活作为纹理参数集的参数集的装置;以及用于基于所述所激活的纹理参数集译码所述视图分量的所述纹理分量的
>J-U ρ?α装直。
[0010]在另一实例中,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令在被执行时致使视频译码装置的一个或一个以上处理器:为所述视图分量的所述纹理分量激活作为纹理参数集的参数集;以及基于所述所激活的纹理参数集译码所述视图分量的所述纹理分量。
[0011]在另一实例中,描述一种处理包含包括深度分量和纹理分量的视图分量的视频数据的方法。所述方法包括:确定在处理所述视频数据的所述视图分量时应用的补充增强信息消息;以及确定除补充增强信息消息之外,应用于视图分量的深度分量的嵌套式补充增强信息消息。
[0012]在另一实例中,描述一种用于处理包含由深度分量和纹理分量组成的视图分量的视频数据的装置。所述装置包括处理器,其经配置以:确定在处理所述视频数据的所述视图分量时应用的补充增强信息消息;以及确定除补充增强信息消息之外,在处理所述视图分量的所述深度分量时应用的嵌套式补充增强信息消息。
[0013]在另一实例中,描述一种用于处理包含由深度分量和纹理分量组成的视图分量的视频数据的装置。所述装置包括:用于确定在处理所述视频数据的所述视图分量时应用的补充增强信息消息的装置;以及用于确定除补充增强信息消息之外在处理所述视图分量的所述深度分量时应用的嵌套式补充增强信息消息的装置。
[0014]在另一实例中,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令在被执行时致使用于处理包含由深度分量和纹理分量组成的视图分量的视频数据的装置的一个或一个以上处理器:确定在处理所述视频数据的所述视图分量时应用的补充增强信息消息,其中所述视图分量包含深度分量和纹理分量两者;以及确定除补充增强信息消息之夕卜,在处理所述视图分量的所述深度分量时应用的嵌套式补充增强信息消息。
[0015]在另一实例中,一种用于视频译码的方法包括:将深度分量存储在经解码图片缓冲器中;分析视图依赖性以确定深度分量是否用于视图间预测;以及响应于确定深度分量不用于视图间预测而将深度分量从经解码图片缓冲器去除。
[0016]在另一实例中,一种经配置以译码视频数据的视频译码装置包括经解码图片缓冲器和处理器,所述处理器经配置以:将深度分量存储在经解码图片缓冲器中;分析视图依赖性以确定深度分量是否用于视图间预测;以及响应于确定深度分量不用于视图间预测而将深度分量从经解码图片缓冲器去除。
[0017]在另一实例中,一种用于译码视频数据的视频译码装置包括:用于将深度分量存储在经解码图片缓冲器中的装置;用于分析视图依赖性以确定深度分量是否用于视图间预测的装置;以及用于响应于确定深度分量不用于视图间预测而将深度分量从经解码图片缓冲器去除的装置。
[0018]在另一实例中,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令在被执行时致使视频译码装置的一个或一个以上处理器:将深度分量存储在经解码图片缓冲器中;分析视图依赖性以确定深度分量是否用于视图间预测;以及响应于确定深度分量不用于视图间预测而将深度分量从经解码图片缓冲器去除。
[0019]在另一实例中,一种处理包含包括一个或一个以上深度分量和一个或一个以上纹理分量的视图分量的视频数据的方法,所述方法包括:确定描述所述深度分量的特性的第一序列等级信息;以及确定描述所述视频数据的操作点的特性的第二序列等级信息。
[0020]在另一实例中,描述一种用于处理包含包括一个或一个以上深度分量和一个或一个以上纹理分量的视图分量的视频数据的视频译码装置。所述视频译码装置包括一个或一个以上处理器,其经配置以确定描述深度分量的特性的第一序列等级信息,且确定描述视频数据的操作点的特性的第二序列等级信息。
[0021 ] 在另一实例中,描述一种用于处理包含包括一个或一个以上深度分量和一个或一个以上纹理分量的视图分量的视频数据的视频译码装置。所述视频译码装置包括:用于确定描述深度分量的特性的第一序列等级信息的装置;以及用于确定描述视频数据的操作点的特性的第二序列等级信息的装置。
[0022]在另一实例中,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令在被执行时致使视频译码装置的一个或一个以上处理器:确定描述视频数据的一个或一个以上深度分量的特性的第一序列等级信息,其中所述视频数据包含包括一个或一个以上深度分量和一个或一个以上纹理分量的视图分量;且确定描述视频数据的操作点的特性的第二序列等级信息。
[0023]在附图及下文描述中陈述本发明的一个或一个以上方面的细节。将从描述和图式且从所附权利要求书明白本发明中所描述的技术的其它特征、目标和优点。

【专利附图】

【附图说明】
[0024]图1是说明可利用本发明中所描述的技术的实例视频编码和解码系统的框图。
[0025]图2是更详细地说明图1的实例中所示的视频编码器的框图。
[0026]图3是更详细地说明图1的实例中所示的视频解码器的框图。
[0027]图4是更详细地说明图1的实例中所示的包封单元的框图。
[0028]图5是说明实例多视图视频译码(MVC)预测模式的概念图。
[0029]图6是说明根据本发明中所描述的技术的各个方面的视频译码装置在实施MVC兼容3DVC的参数集激活中的操作的流程图。
[0030]图7是说明根据本发明中所描述的技术的处理多视图视频数据以产生用于MVC兼容3DVC的嵌套式补充增强信息(SEI)消息的实例操作的流程图。
[0031]图8是说明根据本发明中所描述的技术的视频译码装置在单独地将纹理和深度分量从经解码图片缓冲器去除以用于MVC兼容3DVC中的实例操作的流程图。
[0032]图9是说明根据本发明中所描述的技术的视频译码装置在确定用于MVC兼容3DVC的序列等级信息中的实例操作的流程图。

【具体实施方式】
[0033]根据某些视频译码系统,可使用运动估计和运动补偿来减少视频序列中的时间冗余,以便实现数据压缩。在此情况下,可产生运动向量,其识别预测性视频数据块,例如来自另一视频图片或片的块,其可用来预测正译码的当前视频块的值。将预测性视频块的值从当前视频块的值减去,以产生残余数据块。将运动信息(例如,运动向量、运动向量索引、预测方向或其它信息)连同残余数据一起从视频编码器传送到视频解码器。解码器可定位相同预测性块(基于运动向量),且通过将残余数据与预测性块的数据组合来重构经编码视频块。
[0034]多视图视频译码(MVC)是用于译码视频数据的多个视图的视频译码过程。一股来说,每一视图对应于一不同视角或角度,以此视角或角度捕获共同场景的对应视频数据。可使用MVC加深度译码来执行三维视频译码(3DVC)。对ITU-T H.264/AVC标准的3DVC扩展目前正在开发。对H.264/AVC标准进行修正以添加3DVC扩展的工作草案在2011年11月在瑞士日内瓦进行的“关于对包含深度图的MVC扩展的工作草案(WD on MVC Extens1nsfor Inclus1n of Depth Maps) ”IS0/IEC/JTC1/SC29/WG11/N12351 ( “3DVC TO”)中描述。3DVC扩展(也称为用于包含深度图的MVC扩展)界定用于译码视图以支持3D视频数据的显示的技术)。
[0035]举例来说,在3D视频中,可使用光的不同偏振同时或几乎同时显示两个视图(例如,人类观看者的左眼和右眼视图),且观看者可佩戴被动偏振眼镜,使得观看者的每只眼睛接收所述视图中的相应一者。或者,观看者可佩戴独立地遮蔽每只眼睛的主动眼镜,且显示器可与眼镜同步在每只眼睛的图像之间快速地交替。
[0036]虽然可个别地译码每一视图(例如,左眼和右眼视图),但在3DVC中,使用所述视图的深度分量从其它视图重构所述视图中的一者。出于此原因,这种形式的3DVC也可称为多视图视频译码加深度(MVC+D)。为了说明,可将视图的特定图片(其中视图的此特定图片可称为视图的“视图分量”)的深度图计算为左眼视图与右眼视图之间的差。编码器可例如将左眼视图编码为视频分量的所谓的“纹理分量”,且可将深度图编码为视图分量的所谓的“深度分量”。
[0037]解码器可接着解码视图分量的纹理分量和视图分量的深度分量,且使用深度分量从纹理分量(其表示左眼视图)重构右眼视图。与独立地作为3DVC数据的单独视图来编码左眼视图和右眼视图两者相比,通过以此方式仅编码一个视图和对应的深度图,3DVC可较高效地编码左眼和右眼视图。
[0038]当编码视图的纹理和深度分量时,视频编码器通常将纹理和深度分量处置或以其它方式处理为视图分量,而不提供藉此区分纹理与深度分量的任何方式。就是说,3DVC用以处置或译码视图分量,而不提供藉此个别地从同一视图分量的深度分量单独地处理纹理分量的方式。3DVC中差别的此缺乏可导致较小的译码效率和/或经重构视频数据的较低质量。
[0039]举例来说,当前可要求深度分量以与对应的纹理分量相同的分辨率指定,以便适应此视图分量的联合处置。然而,较高分辨率深度分量(与纹理分量的分辨率相比)可导致三维(3D)视频重放,因为较好、较沉浸式3D视频可产生观看者的视觉系统预期的较佳模仿。此外,较低分辨率深度分量(与纹理分量的分辨率相比)在某些例子中可提供相同或类似的沉浸式3D体验,但在译码时消耗较少的位,且藉此增加译码效率。因为未能启用深度和纹理分量的单独处置,3DVC可降低译码效率且/或提供所重构视频数据的较低质量(通常,依据观看体验)。
[0040]本发明的技术通常涉及在处理或译码3DVC视频数据时,启用视图的纹理分量和深度分量的单独或独立处置。举例来说,本发明提出用信号通知序列参数集(SPS)中的深度图序列的图片大小。这些信令技术可在视频编码和/或解码过程期间由编码器应用且由解码器使用。所描述的技术与视频内容的图片的译码有关。根据本发明的技术,经编码图片可具有单位大小,例如选定高度和宽度的块,其可作为序列参数集中的语法元素用信号通知。可在序列参数集中用信号通知纹理视图序列和深度图序列的语法元素。
[0041]更具体地说,所述技术涉及在深度图序列具有与对应的纹理视图序列不同的分辨率时,用信号通知语法信息。3DVC可包含用每一视图的深度图序列来译码多个视图。这些深度图序列可具有与纹理视图序列不同的分辨率。在此情况下,当纹理和深度网络抽象层(NAL)单元简单地一起多路复用时,深度视图分量和纹理视图分量无法共享同一序列参数集(SPS)。在当前SPS MVC扩展中,指示不同等级(有或没有深度)可为不可能的。在AVC设计原理中,激活一个以上序列参数集(其含有图片大小)可为不可能的。因此,具有两个不同图片大小可能导致激活多个序列参数集。
[0042]当3DVC序列包含具有与对应的纹理视图不同的空间分辨率的深度图时,本发明的技术可用以基于AVC和MVC立体声指示3DVC序列。通过启用此单独处理,本发明中所描述的技术的各个方面可促进位节省(或换句话说,多视图视频数据的较高效译码)和/或经重构视频数据的较佳质量(其再次可依据感觉到的观看体验来测量)。
[0043]应将以下描述理解为在3DVC的上下文中,其中将对MVC的参考理解为如其涉及3DVC扩展中的MVC加深度译码那样对MVC的参考。就是说,在给定MVC为H.264的扩展,且3DVC为H.264的利用MVC的进一步扩展的情况下,3DVC并入有或以其它方式可被视为“继承”MVC的所有方面。3DVC可以本文所述的方式扩展或另外在适当的情况下添加到WC,以提供还包含支持3DVC的那些视频解码器的深度图的MVC顺应位流。换句话说,在一些实例,所述技术可用于产生与MVC反向兼容的3DVC位流(或,换句话说,能够由不支持3DVC但确实支持MVC的视频解码器解码)。虽然以下技术各自在3DVC的上下文中描述,但在一些例子中,这些技术可扩展到译码具有纹理视图分量和深度视图分量的3D视频数据的其它方式。
[0044]图1是说明可利用用于多视图译码中的运动向量预测的实例视频编码和解码系统10的框图。如图1中所示,系统10包含源装置12,其提供稍后时间将由目的地装置14解码的经编码视频数据。明确地说,源装置12经由计算机可读媒体16向目的地装置14提供视频数据。源装置12和目的地装置14可包括各种各样的装置中的任一者,包含桌上型计算机、笔记本型(即,膝上型)计算机、平板计算机、平板触摸计算机、机顶盒、电话手持机(例如所谓的“智能”电话)、所谓的“智能”板、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式发射装置等。在一些情况下,源装置12和目的地装置14可为无线通信而配备。
[0045]目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码视频数据从源装置12传送到目的地装置14的任何类型的媒体或装置。在一个实例中,计算机可读媒体16可包括通信媒体,以使源装置12能够实时或近实时地将经编码视频数据直接发射到目的地装置14。
[0046]可根据通信标准(例如,无线通信协议)来调制经编码视频数据,且将其发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一个或一个以上物理传输线。通信媒体可形成例如局域网、广域网或例如因特网等全局网络的基于包的网络的部分。通信媒体可包含可用于促进从源装置12到目的地装置14的通信的路由器、交换器、基站或任何其它设备。
[0047]在一些实例中,可将经编码数据从源装置24的发射器24输出到存储装置。类似地,可通过目的地装置14的接收器26从存储装置存取经编码数据。所述存储装置可包含多种分布式或本地存取数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器,或用于存储经编码视频数据的任何其它合适数字存储媒体。在另一实例中,存储装置可对应于可存储源装置12所产生的经编码视频的文件服务器或另一中间存储装置。
[0048]目的地装置14可经由流式发射或下载从存储装置存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置,或本地磁盘驱动器。目的地装置14可通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。这可包含无线信道(例如,W1-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或两者的组合,其适合存取存储在文件服务器上的经编码视频数据。经编码视频数据从存储装置的发射可为流式发射、下载发射或其组合。
[0049]本发明的技术不一定限于无线应用或设定。所述技术可应用于支持多种多媒体应用(例如空中电视广播、有线电视发射、卫星电视发射、因特网流式视频发射,例如经由HTTP的动态自适应流式发射(DASH))中的任一者的视频译码,编码到数据存储媒体上的数字视频、解码存储在数据存储媒体上的数字视频,或其它应用。在一些实例中,源装置10可经配置以支持单向或双向视频发射以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。
[0050]在图1的实例中,源装置12包含视频源18、视频编码器20、包封单元21和输出接口 22。目的地装置14包含输入接口 28、去包封单元29、视频解码器30和显示装置32。在一些实例中,源装置12和目的地装置14可包含其它组件或布置。举例来说,源装置12可从外部视频源18 (例如外部相机)接收视频数据。同样地,目的地装置14可与外部显示装置介接,而不是包含集成显示装置32。
[0051]图1所说明的系统10仅为一个实例。用于多视图译码(包含3DVC)中的运动向量预测的技术可由任何数字视频编码和/或解码装置执行。尽管通常本发明的技术由视频编码装置执行,但所述技术还可由视频编码器/解码器(通常称为“CODEC”)执行。此外,本发明的技术还可由视频预处理器执行。源装置12及目的地装置14仅为此些译码装置的实例,其中源装置12产生经译码视频数据以供发射到目的地装置14。在一些实例中,装置12、14可以大体上对称的方式操作,使得装置12、14中的每一者包含视频编码和解码组件。因此,系统1可支持视频装置12、14之间的单向或双向视频发射,例如用于视频流式发射、视频重放、视频广播或视频电话。
[0052]源装置12的视频源18可包含视频捕获装置,例如视频相机、含有先前捕获的视频的视频档案,和/或用以接收来自视频内容提供者的视频的视频馈送接口。作为另一替代方案,视频源18可产生基于计算机图形的数据作为源视频,或直播视频(live video)、存档视频与计算机产生的视频的组合。在一些情况下,如果视频源18为视频相机,那么源装置12和目的地装置14可形成所谓的相机电话或视频电话。然而,如上文所提到,本发明中所描述的技术一股可适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,可由视频编码器20来编码所捕获的、所预先捕获的或计算机产生的视频。经编码的视频信息可接着由输出接口 22输出到计算机可读媒体16上。
[0053]视频源24可通常将场景的多个视图提供到视频编码器28。视频源24还可提供指示所述视图的相机视角的位置的信息。视频源24可将此信息提供给视频编码器28,或可将信息直接提供给包封单元21。
[0054]包封单元21可使用指示所述视图的相机视角的相对位置的信息,以将视图识别符指派给多媒体内容的视图。包封单元21可形成多媒体内容的一个或一个以上表示,其中所述表示中的每一者可包含一个或一个以上视图。在一些实例中,视频编码器20可以不同方式编码每一视图,例如以不同帧速率、不同位速率、不同分辨率或其它此类差。因此,包封单元21可形成具有各种特性(例如,位速率、帧速率、分辨率等)的各种表示。
[0055]所述表示中的每一者可对应于可由目的地装置14接收的相应位流。包封单元21可提供用于包含在每一表示中(例如,多媒体内容的媒体呈现描述(MPD)数据结构内)的视图的视图识别符(view_id)的范围的指示。举例来说,包封单元21可提供表示的视图的最大视图识别符和最小视图识别符的指示。MPD可进一步提供目标用于多媒体内容的多个表示中的每一者的输出的视图的最大数目的指示。在一些实例中,MH)或其数据可存储在表示的清单中。
[0056]计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络传输,或存储媒体(即,非暂时性存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘,或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可从源装置12接收经编码视频数据,且例如经由网络传输将经编码视频数据提供给目的地装置14。类似地,媒体生产设施(例如,光盘冲压设施)的计算装置可从源装置12接收经编码视频数据,且产生含有所述经编码视频数据的光盘。因此,在各种实例中,可将计算机可读媒体16理解为包含各种形式的一个或一个以上计算机可读媒体。
[0057]目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20界定的语法信息,其还可由视频解码器30使用,所述语法信息包含描述块和其它经译码单元(例如,G0P)的特性和/或处理的语法元素。目的地装置14的去包封单元29可表示对来自位流(或在MVC的上下文中称为“操作点”的位流的子集)的SEI消息去包封的单元。去包封单元29可以包封单元29所执行的操作相反的次序执行操作,以对来自经包封的经编码位流的数据(例如SEI消息)进行去包封。显示装置32向用户显示经解码的视频数据,且可包括多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
[0058]视频编码器20和视频解码器30各自可实施为多种合适编码器或解码器电路中的任一者(如适用),例如一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器20和视频解码器30中的每一者可包含在一个或一个以上编码器或解码器中,其中的任一者可集成为组合式视频编码器/解码器(CODEC)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置,例如蜂窝式电话。
[0059]尽管图1中未展示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器和解码器集成,且可包含适当的多路复用器-多路分用器(MUX-DEMUX)单元或其它硬件及软件,以处置对共同数据流或单独数据流中的音频与视频两者的编码。如果适用,MUX-DEMUX单元可符合ITU H.223多路复用器协议或例如用户数据报协议(UDP)等其它协议。
[0060]在图1中所示的实例中,系统10还包含具有路由器36的服务器/内容递送网络34。在一些实例中,如上文所述,源装置12可经由多种无线和/或有线发射或存储媒体,与服务器/内容递送网络34通信。此外,虽然在图1的实例中单独展示,但在一些实例中,源装置12和服务器/内容递送网络34包括相同装置。服务器/内容递送网络34可存储经译码视频数据(来自源装置12的视频编码器20)的一个或一个以上版本,且可使此经译码视频数据可用于供目的地装置14和视频解码器30存取。在一些实例中,路由器36可负责以所请求的格式将经译码视频数据提供到目的地装置14。
[0061]视频编码器20和视频解码器30可根据视频译码标准来操作,例如目前在开发的高效视频译码(HEVC)标准,且可符合HEVC测试模型(HM)。或者,视频编码器20和视频解码器30可根据其它专有或行业标准来操作,例如ITU-T H.264标准,或者称为MPEG4,部分10,高级视频译码(AVC),或此些标准的扩展,包含H.264的MVC扩展和/或3DVC扩展。然而,本发明的技术不限于任何特定译码标准。视频压缩标准的其它实例包含MPEG-2和ITU-TH.263。
[0062]ITU-T H.264/MPEG-4 (AVC)标准是由 ITU-T 视频译码专家组(Video CodingExperts Group, VCEG)连同IS0/IEC动画专家组(MPEG)制定以作为被称为联合视频小组(Joint Video Team7JVT)的集体伙伴关系的产品。在一些方面中,本发明中所描述的技术可应用于通常符合H.264标准的装置。ITU-T研究组在2005年3月在ITU-T建议H.264“用于通用视听服务的高级视频译码(Advanced Video Coding for generic aud1visualservices) ”中描述了 Η.264标准,其在本文中可被称作H.264标准或H.264规范或H.264/AVC标准或规范。H.264/AVC包含可缩放视频译码(SVC)扩展和MVC扩展。另外,存在进一步开发以提供3DVC扩展,其利用包含深度图的MVC。联合视频小组(JVT)继续从事于H.264/MPEG-4AVC的扩展。虽然在3DVC的上下文内描述,但本发明中所描述的技术可相对于能够编码和解码涉及纹理和深度分量两者的3D视频的其它视频译码算法来实施。
[0063]视频编码器20可例如在图片标头、块标头、片标头或GOP标头中将语法数据(例如,基于块的语法数据、基于图片的语法数据以及基于GOP的语法数据)发送到视频解码器30。GOP语法数据可描述相应GOP中的图片的数目,且图片语法数据可指示用以编码对应图片的编码/预测模式。
[0064]在一些实例中,视频编码器20可产生且视频解码器30可接收某些参数集,其可在解码视频数据时使用。举例来说,参数集可含有序列等级标头信息(在序列参数集(SPS)中),以及很少改变的图片等级标头信息(在图片参数集(PPS)中)。对于参数集(例如,PPS和SPS),无需针对每一序列(例如,图片序列)或图片重复很少改变的信息;因此可改进译码效率。此外,参数集合的使用可实现重要标头信息的带外发射,从而不需要冗余发射来进行误差恢复。在带外发射实例中,可在与其它NAL单元(例如补充增强信息(SEI)NAL单元)不同的信道上发射参数集NAL单元。
[0065]SEI NAL单元(称为SEI消息)可含有对解码来自视频译码层(VCL)NAL单元的经译码图片样本来说不必要的信息,但可辅助与解码、显示、误差恢复和其它目的有关的过程。SEI消息可包含在非VCL NAL单元中。SEI消息可包含在一些标准规范的标准部分中,且因此对于符合标准的解码器实施方案来说,不总是强制性的。SEI消息可为序列级SEI消息或图片级SEI消息。一些序列级信息可包含于SEI消息中,例如SVC的实例中的可缩放性信息SEI消息,以及MVC中的视图可缩放性信息SEI消息。视图可缩放性信息SEI消息还可提供用于H.264的3DVC扩展的序列等级信息。包封单元21可形成这些SEI消息,且将这些SEI消息提供给服务器/内容递送网络34,以用于(作为一个实例)协商经编码视频数据的递送。
[0066]包封单元30可形成NAL单元,其包括识别NAL所属的程序的标头、以及有效负载(例如,音频数据、视频数据或描述NAL单元所对应的输送或程序流的数据)。举例来说,在H.264/AVC中,NAL单元包含I字节标头以及不同大小的有效负载。在一个实例中,NAL单元标头包括 pr1rity_id 元素、temporal_id 元素、anchor_pic_flag 元素、view_id 元素、non_idr_flag元素和inter_view_flag元素。在常规MVC中,保持由H.264界定的NAL单元,除了前缀NAL单元和MVC经译码片NAL单元,其包含4字节MVC NAL单元标头和NAL单元有效负载。
[0067]在一些实例中,视频编码器20可使用MVC加深度信息来编码符合H.264的3DVC扩展的3DVC位流。2010年3月的“用于一般视听服务的高级视频译码(Advanced videocoding for generic aud1visual services),,ITU-T 建议 H.264 中描述 MVC 的最新联合草案,而上文描述的2011年11月在瑞士日内瓦进行的“关于用于包含深度图的MVC扩展的工作草案(WD on MVC Extens1ns for Inclus1n of Depth Maps),,IS0/IEC/JTC1/SC29/WG11/N12351中描述3DVC的工作草案。并且,本发明内对MVC的参考应理解为对3DVC的上下文内的MVC加深度的参考。就是说,本发明中将MVC称为其在3DVC并入有或“建立”MVC的意义上与3DVC有关。
[0068]在H.264的3DVC扩展中,视图包含纹理和深度。视图的纹理部分称为纹理视图,且视图的深度部分称为深度视图。一个存取单元中的视图的纹理部分(即,存取单元中的纹理视图)称为纹理视图分量。一个存取单元中的视图的深度部分(即,存取单元中的深度视图)称为深度视图分量。术语视图分量为一个存取单元中的视图,且共同指代同一存取单元中的纹理视图分量和深度视图分量两者。
[0069]在H.264/AVC的扩展中,可在NAL单元标头扩展中添加语法元素,以将NAL单元标头从一个字节扩展到四个字节,以在多个维度中描述VCL NAL单元的特性。因此,MVC扩展中的VCL NAL单元可包含比H.264/AVC标准中的NAL单元标头长的NAL单元标头。在本发明中,可将H.264/AVC的MVC扩展称为“MVC/AVC”。
[0070]MVC/AVC NAL单元可含有一字节NAL单元标头,其包含NAL单元类型,以及MVC/AVCNAL单元标头扩展。作为一个实例,MVC/AVC NAL单元标头扩展可包含下表中的语法元素:
[0071]NAL单元标头扩展语法
[0072]
nal—unit—header—extens1n() {_C_描述符
reserved—zero—Mt_全部 u(l)_
idr—flag_全部 u(l)_
pr1rity—id?部 u(6)
view Jd令部 u(10)
IemporaLiiI八部 u(3)
anchor—pie—flag_—令部 u(l)_
inter—view—flag_全部 u(l)_
raserved_one_Wt企部 e(l)
I
[0073]
[0074]在上表中,idr_flag元素可指示NAL单元是否属于瞬时解码器刷新(IDR)或视图1DR(V-1DR),其可用作闭合GOP随机存取点。举例来说,IDR图片和在显示次序和位流次序两者中在IDR图片之后的所有图片可适当地解码,而不以位流次序或显示次序解码先前图片。
[0075]可结合根据视频解码器30和/或显示装置32的改变的网络条件和/或能力而改变位流的位流适应过程(例如,单遍次适应过程)使用pr1rity_id元素。可使用view_id元素来指示NAL单元所属的视图的视图识别符,其可在MVC解码器内使用,例如用于视图间预测,且可在解码器外使用,例如用于渲染。在一些例子中,可将View_id设定为等于预定义相机id,且可相对较大。可使用temporaljd元素来指示当前NAL单元的时间等级,其可对应于特定帧速率。
[0076]可使用anchor_pic_flag元素来指示NAL单元是否属于可用作开放GOP随机存取点的锚图片。举例来说,锚图片以及在显示次序中在所述锚图片之后的所有图片可适当地解码,而不解码解码次序(即,位流次序)中的先前图片,且因此可用作随机存取点。锚图片和非锚图片可具有不同的视图依赖性,其两者均可在SPS中用信号通知。
[0077]就是说,如本文所述,视图依赖性可通常指代当前正译码的视图所取决于的视图。换句话说,视图依赖性可陈述可从中预测当前正译码的视图的视图。根据一些实例,可在SPS MVC扩展中用信号通知视图依赖性。在此些实例中,可在SPS MVC扩展所指定的范围内进行所有视图间预测。可使用inter_View_flag元素来指示NAL单元是否用于其它视图中的NAL单元的视图间预测。
[0078]为了传达MVC位流的基础视图的NAL单元标头信息(其可为四字节的),可在MVC中界定前缀NAL单元。在MVC的上下文中,基础视图存取单元可包含特定视图的当前时刻的VCL NAL单元,以及用于基础视图存取单元的前缀NAL单元,其可仅含有NAL单元标头。如果解码(例如,解码单个视图)不需要前缀NAL单元,那么解码器可忽略和/或丢弃前缀NAL单元。
[0079]相对于SPS MVC/AVC扩展,MVC SPS可指示可用于视图间预测的目的的视图。举例来说,潜在视图间参考可在SPS MVC/AVC扩展中用信号通知,且可通过参考图片列表构造过程来修改,其实现帧间预测或视图间预测参考的灵活排序。下文的表中陈述实例MVC/AVCSPS:
[0080]实例MVC SPS
[0081]

【权利要求】
1.一种用于视频译码的方法,所述方法包括: 将深度分量存储在经解码图片缓冲器中, 分析视图依赖性以确定所述深度分量是否用于视图间预测;以及响应于确定所述深度分量不用于视图间预测而将所述深度分量从所述经解码图片缓冲器去除。
2.根据权利要求1所述的方法, 其中所述深度分量与视频数据的视图的视图分量相关联, 其中纹理分量也与所述视图分量相关联,且 其中去除所述深度分量包括响应于确定所述深度分量不用于视图间预测而将所述深度分量从所述经解码图片缓冲器去除,而不去除所述纹理分量。
3.根据权利要求1所述的方法,其中所述深度分量不属于目标输出视图,且是非参考图片或标记为“不用于参考”的图片。
4.根据权利要求1所述的方法, 其中在子集序列参数集的视频译码序列参数集扩展中用信号通知所述视图依赖性,且其中所述子集序列参数集含有三维视频简档,且在分析所述视图依赖性时被激活为活动视图视频译码序列参数集。
5.根据权利要求1所述的方法, 其中所述深度分量与视频数据的视图的视图分量相关联, 其中纹理分量也与所述视图分量相关联,且 其中所述方法进一步包括确定用于不同于所述纹理分量的所述深度分量的一个或一个以上参考图片。
6.根据权利要求1所述的方法, 其中所述深度分量与视频数据的视图的视图分量相关联, 其中纹理分量也与所述视图分量相关联,且 其中所述方法进一步包括: 用视频解码器来确定所述深度分量和所述纹理分量属于待输出以供显示的目标输出视图;以及 用所述视频解码器同时输出所述深度分量和所述纹理分量。
7.根据权利要求1所述的方法,其中所述深度分量与所述纹理分量具有不同分辨率。
8.根据权利要求1所述的方法,其中所述视图数据符合对H.264/高级视频译码标准的三维视频译码扩展,且与对所述H.264/高级视频译码标准的多视图视频译码扩展反向兼容。
9.一种经配置以译码视频数据的视频译码装置,所述视频译码装置包括: 经解码图片缓冲器;以及 处理器,其经配置以:将深度分量存储在所述经解码图片缓冲器中,分析视图依赖性以确定所述深度分量是否用于视图间预测,且响应于确定所述深度分量不用于视图间预测而将所述深度分量从所述经解码图片缓冲器去除。
10.根据权利要求9所述的视频译码装置, 其中所述深度分量与视频数据的视图的视图分量相关联, 其中纹理分量也与所述视图分量相关联,且 其中所述一个或一个以上处理器进一步经配置以在去除所述深度分量时,响应于确定所述深度分量不用于视图间预测而将所述深度分量从所述经解码图片缓冲器去除,而不去除所述纹理分量。
11.根据权利要求9所述的视频译码装置,其中所述深度分量不属于目标输出视图,且是非参考图片或标记为“不用于参考”的图片。
12.根据权利要求9所述的视频译码装置, 其中在子集序列参数集的视频译码序列参数集扩展中用信号通知所述视图依赖性,且其中所述子集序列参数集含有三维视频简档,且在分析所述视图依赖性时被激活为活动视图视频译码序列参数集。
13.根据权利要求9所述的视频译码装置, 其中所述深度分量与视频数据的视图的视图分量相关联, 其中纹理分量也与所述视图分量相关联,且 其中所述一个或一个以上处理器进一步经配置以确定用于不同于所述纹理分量的所述深度分量的一个或一个以上参考图片。
14.根据权利要求9所述的视频译码装置, 其中所述深度分量与视频数据的视图的视图分量相关联, 其中纹理分量也与所述视图分量相关联, 其中所述视频译码装置包括视频解码器,且 其中所述一个或一个以上处理器进一步经配置以确定所述深度分量和所述纹理分量属于待输出以供显示的目标输出视图,且同时输出所述深度分量和所述纹理分量。
15.根据权利要求9所述的视频译码装置,其中所述深度分量与所述纹理分量具有不同分辨率。
16.根据权利要求9所述的视频译码装置,其中所述视图数据符合对H.264/高级视频译码标准的三维视频译码扩展,且与对所述H.264/高级视频译码标准的多视图视频译码扩展反向兼容。
17.一种用于译码视频数据的视频译码装置,所述视频译码装置包括: 用于将深度分量存储在经解码图片缓冲器中的装置; 用于分析视图依赖性以确定所述深度分量是否用于视图间预测的装置;以及用于响应于确定所述深度分量不用于视图间预测而将所述深度分量从所述经解码图片缓冲器去除的装置。
18.根据权利要求17所述的视频译码装置, 其中所述深度分量与视频数据的视图的视图分量相关联, 其中纹理分量也与所述视图分量相关联,且 其中所述用于去除所述深度分量的装置包括用于响应于确定所述深度分量不用于视图间预测而将所述深度分量从所述经解码图片缓冲器去除而不去除所述纹理分量的装置。
19.根据权利要求17所述的视频译码装置,其中所述深度分量不属于目标输出视图,且是非参考图片或标记为“不用于参考”的图片。
20.根据权利要求17所述的视频译码装置, 其中在子集序列参数集的视频译码序列参数集扩展中用信号通知所述视图依赖性,且其中所述子集序列参数集含有三维视频简档,且在分析所述视图依赖性时被激活为活动视图视频译码序列参数集。
21.根据权利要求17所述的视频译码装置, 其中所述深度分量与视频数据的视图的视图分量相关联, 其中纹理分量也与所述视图分量相关联,且 其中所述视频译码装置进一步包括用于确定用于不同于所述纹理分量的所述深度分量的一个或一个以上参考图片的装置。
22.根据权利要求17所述的视频译码装置, 其中所述深度分量与视频数据的视图的视图分量相关联, 其中纹理分量也与所述视图分量相关联, 其中所述视频译码装置包括视频解码器,且 其中所述视频解码器进一步包括: 用于确定所述深度分量和所述纹理分量属于待输出以供显示的目标输出视图的装置;以及 用于同时输出所述深度分量和所述纹理分量的装置。
23.根据权利要求17所述的视频译码装置,其中所述深度分量与所述纹理分量具有不同分辨率。
24.根据权利要求17所述的视频译码装置,其中所述视图数据符合对H.264/高级视频译码标准的三维视频译码扩展,且与对所述H.264/高级视频译码标准的多视图视频译码扩展反向兼容。
25.—种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在被执行时致使视频译码装置的一个或一个以上处理器: 将深度分量存储在经解码图片缓冲器中; 分析视图依赖性以确定所述深度分量是否用于视图间预测;以及响应于确定所述深度分量不用于视图间预测而将所述深度分量从所述经解码图片缓冲器去除。
26.根据权利要求25所述的非暂时性计算机可读存储媒体, 其中所述深度分量与视频数据的视图的视图分量相关联, 其中纹理分量也与所述视图分量相关联,且 其中在被执行时致使所述一个或一个以上处理器去除所述深度分量的所述指令包括在被执行时致使所述一个或一个以上处理器响应于确定所述深度分量不用于视图间预测而将所述深度分量从所述经解码图片缓冲器去除而不去除所述纹理分量的指令。
27.根据权利要求25所述的非暂时性计算机可读存储媒体,其中所述深度分量不属于目标输出视图,且是非参考图片或标记为“不用于参考”的图片。
28.根据权利要求25所述的非暂时性计算机可读存储媒体, 其中在子集序列参数集的视频译码序列参数集扩展中用信号通知所述视图依赖性,且其中所述子集序列参数集含有三维视频简档,且在分析所述视图依赖性时被激活为活动视图视频译码序列参数集。
29.根据权利要求25所述的非暂时性计算机可读存储媒体, 其中所述深度分量与视频数据的视图的视图分量相关联, 其中纹理分量也与所述视图分量相关联,且 其中所述非暂时性计算机可读存储媒体上进一步存储有在被执行时致使所述一个或一个以上处理器确定用于不同于所述纹理分量的所述深度分量的一个或一个以上参考图片的指令。
30.根据权利要求25所述的非暂时性计算机可读存储媒体, 其中所述深度分量与视频数据的视图的视图分量相关联, 其中纹理分量也与所述视图分量相关联, 其中所述视频译码装置包括视频解码器,且 其中所述非暂时性计算机可读存储媒体上进一步存储有在被执行时致使所述一个或一个以上处理器进行以下操作的指令: 确定所述深度分量和所述纹理分量属于待输出以供显示的目标输出视图;以及 同时输出所述深度分量和所述纹理分量。
31.根据权利要求25所述的非暂时性计算机可读存储媒体,其中所述深度分量与所述纹理分量具有不同分辨率。
32.根据权利要求25所述的非暂时性计算机可读存储媒体,其中所述视图数据符合对H.264/高级视频译码标准的三维视频译码扩展,且与对所述H.264/高级视频译码标准的多视图视频译码扩展反向兼容。
【文档编号】H04N19/423GK104137550SQ201280059048
【公开日】2014年11月5日 申请日期:2012年11月30日 优先权日:2011年11月30日
【发明者】陈英, 王益魁 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1