多视图译码和3d译码中的视图相依性的制作方法

文档序号:7792665阅读:203来源:国知局
多视图译码和3d译码中的视图相依性的制作方法
【专利摘要】本发明描述用于对视频数据块的层相依性进行译码的技术。根据这些技术,视频编码器产生与给定层相关联的层相依性。视频编码器还产生与所述层相依性中的一或多者相关联的预测类型。在一些实例中,所述视频编码器可产生用以用信号表示层相依性的第一语法元素,以及用以用信号表示与所述层相依性中的一或多者相关联的预测类型的第二语法元素。视频解码器可获得与给定层相关联的所述层相依性以及与所述层相依性中的一或多者相关联的所述预测类型。
【专利说明】多视图译码和3D译码中的视图相依性
[0001] 本申请案主张以下申请案的权益:
[0002] 2012年4月23日申请的第61/637, 197号美国临时专利申请案,其整个内容以引 用方式并入本文。

【技术领域】
[0003] 本发明涉及视频译码,且更特定来说涉及在视频数据预测中使用的视图相依性。

【背景技术】
[0004] 数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广 播系统、个人数字助理(PDA)、膝上型或桌上型计算机、数码相机、数字记录装置、数字媒体 播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置,及 其类似物。数字视频装置实施视频压缩技术,例如在由MPEG-2、MPEG-4、ITU-TH.263 或 ITU-T H. 264/MPEG-4第10部分高级视频译码(AVC)、当前在开发的高效视频译码(HEVC) 标准所定义的标准和这些标准的扩展中所描述的技术,以更有效地发射和接收数字视频信 肩、。
[0005] 视频压缩技术执行空间预测(图片内)和/或时间预测以减少或移除视频序列中 固有的冗余。针对基于块的视频译码,视频帧或切片(即,图片或图片的一部分)可分割为 若干视频块,所述视频块可被称为树块、译码单元(CU)和/或译码节点。每一块可经进一 步分割。图片的经帧内译码(I)帧或切片中的视频块是相对于同一图片中的相邻块中的参 考样本使用空间预测来编码。图片的经帧间译码(P或B)帧或切片中的视频块可相对于同 一图片中的相邻块中的参考样本使用空间预测,或相对于其它参考图片中的参考样本使用 时间预测。
[0006] 空间或时间预测针对待译码的块产生预测性块。残余数据表示在待译码的原始块 与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本的块的运动 向量及指示在经译码块与预测性块之间的差的残余数据来编码。经帧内译码块是根据帧内 译码模式及残余数据来编码。为进行进一步压缩,可将残余数据从像素域变换到变换域,从 而产生接着可被量化的残余变换系数。最初以二维阵列布置的经量化变换系数可经扫描, 以便产生变换系数的一维向量,且可应用熵译码以实现甚至更多的压缩。
[0007] 视频译码标准包含 ITU-T H. 261、IS0/IEC MPEG-1 视觉、ITU-T H. 262 或 ISO/ IEC MPEG-2 视觉、ITU-T Η· 263、IS0/IEC MPEG-4 视觉和 ITU-T Η· 264(也称为 IS0/IEC MPEG-4AVC),包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。MVC的最新联合 草案在"用于一般视听服务的高级视频译码"(ITU-T推荐H.264, 2010年3月)中描述,其 整个内容以引用方式并入本文。
[0008] 另外,存在新的视频译码标准,即高效视频译码(HEVC),其由ITU-T视频译码专家 组(VCEG)和IS0/IEC动画专家组(MPEG)的视频译码联合合作组(JCT-VC)开发。此外,一 直在努力形成用于HEVC的可缩放视频译码、多视图视频译码和3DV扩展。对HEVC的多视图 扩展,即MV-HEVC,正在由JCT-3V开发。泰克(Tech)等人的"MV-HEVC草案文本3 (ISO/IEC 23008-2 :201x/PDAM2) "(ITU-T SG16WP3 和 ISO/IEC JTC1/SC29/WG11 的视频译码联合合作 组(JCT-VC),第12次会议,瑞士日内瓦,2013年1月,下文称为MV-HEVC WD 3)在2013年4 月 22 日可从 http://phenix. it_sudparis.eu/jct2/doc_end_user/documents/3_Geneva/ wgll/JCT3 V-C1004-v4.zip得到,其整个内容以引用方式并入本文。对HEVC的可缩放扩 展,g卩SHVC,也正在由JCT-VC开发。陈(Chen)等人的"SHVC草案文本1"(ITU-T SG16WP3 和ISO/IEC JTC1/SC29/WG11的视频译码联合合作组(JCT-VC),第12次会议,瑞士日内瓦, 2013 年 1 月,下文称为 SHVC WD1)在 2013 年 4 月 22 日可从http ://phenix. int-evry. fr/ jct/doc_end_user/documents/12_Geneva/wgll/JCTVC-L1008-vl. zip 得到,其整个内容以 引用方式并入本文。HEVC的最近规范草案,HEVC文本规范草案10且在下文称为HEVC,其 以引用方式并入本文且在2013年4月22日可从以下地方得到 :
[0009] http://Dhenix.it-sudDaris.eu/ict/doc end user/documents/12 Geneva/ wgll/TCTVC-L1003-v34. zip.


【发明内容】

[0010] 大体上,本发明描述用于对包含多个层的视频数据进行译码的技术。更特定来说, 本发明描述用于执行可缩放视频译码、多视图视频译码和三维视频译码(3DVC)的技术。可 缩放视频译码可大体上界定用于对多个层进行译码的视频译码技术。多视图视频译码可大 体上界定用于对视频数据的多个视图进行译码的视频译码技术,而3DVC可大体上界定用 于对包括多个视图分量(即,纹理分量和深度分量)的视频数据的一或多个视图进行译码 的视频译码技术。每一视图是单独的视频切片或图片,但可对应于俘获到共同场景的对应 视频数据的不同视角或角度。在一个时间实例中的视图的经译码表示是视图分量。在一些 实例中,视图可含有纹理分量和深度视图分量。本发明的技术大体上涉及视图相依性的处 置和信令以用于当前视频切片或图片的预测。更具体来说,本发明的技术涉及用信号表示 与相依性切片或图片相关联的帧间预测的类型且基于用信号表示的帧间预测类型来产生 参考图片集。
[0011] 在一个实例中,本发明描述一种对视频数据进行解码的方法,所述方法包括:从经 译码位流获得与给定层相关联的层相依性;以及从经译码位流获得与所述层相依性中的一 或多者相关联的预测类型。
[0012] 在另一实例中,本发明描述一种对视频数据进行编码的方法,所述方法包括:产生 与给定层相关联的层相依性;以及产生与所述层相依性中的一或多者相关联的预测类型。
[0013] 在另一实例中,一种用于对视频数据进行译码的设备包括经配置以进行以下操作 的一或多个处理器:对与给定层相关联的层相依性进行译码;以及对与所述层相依性中的 一或多者相关联的预测类型进行译码。
[0014] 在另一实例中,本发明描述一种对视频数据进行译码的装置,所述装置包括:用于 对与给定层相关联的层相依性进行译码的装置;以及用于对与所述层相依性中的一或多者 相关联的预测类型进行译码的装置。
[0015] 在另一实例中,本发明描述一种其上存储有指令的非暂时性计算机可读存储媒 体,所述指令在执行时致使用于对视频数据进行译码的设备的一或多个处理器进行以下操 作:对与给定层相关联的层相依性进行译码;以及对与所述层相依性中的一或多者相关联 的预测类型进行译码。
[0016] 在附图和以下描述中陈述本发明的一或多个方面的细节。本发明中描述的技术的 其它特征、对象和优点将从描述和附图以及从权利要求书显而易见。

【专利附图】

【附图说明】
[0017] 图1是说明实例性视频编码和解码系统的框图。
[0018] 图2是说明实例性首先时间译码的概念图。
[0019] 图3是说明实例性多视图译码时间和视图间预测结构的概念图。
[0020] 图4是说明可实施本发明的技术的实例性视频编码器的框图。
[0021] 图5是说明可实施本发明的技术的实例性视频解码器的框图。
[0022] 图6是说明对多视图位流进行编码的实例性方法的流程图。
[0023] 图7是说明对多视图位流进行解码的实例性方法的流程图。
[0024] 图8是说明对多视图位流进行编码的实例性方法的流程图。
[0025] 图9是说明对多视图位流进行解码的实例性方法的流程图。

【具体实施方式】
[0026] 根据某些视频译码系统,可使用运动估计和运动补偿来减少视频序列中的时间冗 余,以便实现数据压缩。在此情况下,可产生识别视频数据的预测性块(例如,来自另一视 频切片或图片的块)的运动向量,其可用以预测正译码的当前视频块的值。将预测性视频 块的值从当前视频块的值减去以产生残余数据块。运动信息(例如,运动向量、运动向量索 弓丨、预测方向或其它信息)连同残余数据一起从视频编码器传送到视频解码器。解码器可 定位同一预测性块(基于运动向量)且通过组合残余数据与预测性块的数据来重构经编码 视频块。
[0027] 可缩放视频译码指其中使用一基本层和一或多个可缩放增强层的视频译码。对于 可缩放视频译码,基本层通常载运具有基本质量水平的视频数据。一或多个增强层载运额 外视频数据以支持较高的空间、时间和/或信噪比SNR水平(有时称为"质量"水平,如贯 穿本说明书的惯例)。增强层可相对于先前经编码层来界定。即使可缩放视频译码技术引 入层的概念,但所述技术仍基于切片或帧来译码。举例来说,具有最低时间层的帧或切片可 形成时间基本层,其可用较高时间层处的切片或帧来增强。
[0028] 在支持时间可缩放性的一些可缩放视频译码过程中,基本层可包含支持7. 5Hz的 重放帧速率的视频数据。视频译码过程可对支持较高重放帧速率的额外层进行译码。举例 来说,视频译码过程可对支持15Hz和30Hz重放帧速率的一或多个额外层进行译码。基于 层,视频译码过程可支持提取器工具,所述工具根据应用要求在帧速率方面调适实际递送 的内容。所述要求可取决于客户端装置或发射信道。
[0029] 在支持空间可缩放性的一些可缩放视频译码过程中,基本层可包含表示特定基本 分辨率的视频数据。视频译码过程可对包含表示较高分辨率的视频数据的一或多个额外层 进行译码。类似于时间可缩放性,提取器工具可基于应用要求在实际分辨率方面调整实际 递送的内容。
[0030] 在支持质量可缩放性的一些可缩放视频译码过程中,基本层可包含表示特定基本 质量(有时称为基本SNR水平)的视频数据。视频译码过程可对包含表示较高SNR水平的 视频数据的一或多个额外层进行译码。类似于时间可缩放性,提取器工具可基于应用要求 在实际分辨率方面调整实际递送的内容。
[0031] 最终,可缩放视频译码过程可组合地使用全部三种类型的层,通过提取必要的层 且将层加在一起来产生符合应用要求的结果。
[0032] 多视图视频译码是用于对视频数据的多个视图进行译码的视频译码过程。大体 上,每一视图对应于包括共同场景的对应视频数据被俘获的不同视角或角度的不同视频切 片或图片。举例来说,可俘获在单个时间实例处来自对应于共同场景的多个角度的视图,进 而产生包括对应于单个时间实例的多个视图的视频数据。与单个时间实例相关联的所有视 图可分组为"存取单元"。在多视图视频译码中,每一视图可仅包括纹理数据(即,纹理分 量)。三维视频译码是用于对视频数据的多个视图进行译码的另一视频译码过程。多视图 视频译码中的视频数据可仅包含用于每一视图的纹理分量,而3D视频数据可包含用于每 一视图的纹理分量和深度分量两者。纹理分量可包含常规图片。深度分量可表示对应纹理 分量中展示的对象的三维深度。
[0033] 在一些实例中,类似于多视图视频译码技术,3DVC技术可使用每一存取单元中的 多个视图(即,所述技术可提供多个视图)。在此些实例中,3DVC技术可采用多视图视频中 使用的许多译码技术。举例来说,在对H. 264/AVC和HEVC的3DVC扩展中,视频编码器可以 与存取单元的其它视图相同的方式对深度分量进行编码。也就是说,除了用于不同视图的 纹理分量之外,存取单元还可包含深度分量。术语"视图分量"可用以指代存取单元的纹理 视图分量或深度视图分量。
[0034] 此外,一些视频译码技术可使用基于深度图像的再现(DIBR)来基于可用的纹理 和深度视图分量而产生合成纹理视图分量。合成纹理视图分量可为基于一深度图和一或多 个纹理视图分量合成的纹理视图分量。在一些实例中,合成纹理视图分量可用作用于存取 单元间预测或视图间预测的参考图片。用作参考图片的合成纹理视图分量可称为视图合成 参考图片(VSRP)。视频译码器可在参考图片列表中包含VSRP。在一些特定设计中,视频译 码器可使用多个视图分量(具有深度)来通过DIBR产生一个VSRP。
[0035] 因此,在一般意义上,多视图视频数据可与3D视频数据可互换地使用。举例来说, 视频编码器和解码器可将多视图视频位流的一个视图视为深度分量。在其它实例中,编码 器和解码器可操作以从多视图视频位流产生深度视图分量。
[0036] 在3DVC技术中,可使用不同的光极化同时地或接近同时地显示两个或两个以上 视图(例如,人观看者的左眼和右眼视图),且观看者可佩戴无源极化眼镜以使得观看者的 每一只眼睛接收到视图中的相应一者。或者,观看者可佩戴独立地遮挡每一只眼睛的有源 眼镜,且显示器可与眼镜同步地在每一只眼睛的图像之间快速交替。
[0037] 虽然每一视图(例如,左眼和右眼视图)可经个别地译码,但在3DVC中,可使用视 图的深度分量从视图中的一者重构另一视图。为此原因,此形式的3DVC也可称为多视图视 频译码加深度(MVC+D)。为了说明,视图的特定图片的深度分量或"深度图"(其中视图的 此特定图片可称为视图的"视图分量")可计算为左眼视图与右眼视图之间的差。编码器可 将例如左眼视图编码为视图分量的所谓的"纹理分量",且可将深度图编码为视图分量的所 谓的"深度分量"。
[0038] 解码器可随后对视图分量的纹理分量和视图分量的深度分量进行解码,且使用深 度分量从纹理分量(表示左眼视图)重构右眼视图。通过以此方式仅对一个视图和对应 深度图进行编码,与将左眼视图和右眼视图两者独立地编码为3DVC数据的单独视图相比, 3DVC可更有效地对左眼和右眼视图进行编码。
[0039] 如上文简要论述,某些视频译码系统可产生运动估计和补偿数据,以便减少视频 序列中的冗余。此运动数据可包含对参考视频块位于其中的其它视频图片或视图的特定参 考。在一些实例中,特定参考块将在同一图片中(帧内预测)。在其它实例中,特定参考块 可在不同图片中(帧间预测),所述不同图片在最终输出次序上在含有当前视频块的图片 之前或之后(即,与相对于当前图片在过去或未来的时间实例相关联)。在多视图视频译码 和3DVC中,此概念可经延伸以包含不同视图中的预测性块。举例来说,预测性块可在和与 当前图片相同的时间实例相关联的不同图片中(视图间预测)。
[0040] 视图间预测通常实现为如同另一视图中的视图分量是帧间预测参考。并非使用 "运动"向量用于预测,视图间预测利用"视差运动"向量,其概念上类似于运动向量但描述 位移而不是运动。可能的视图间参考是在序列参数集(SPS)中用信号表示,且可通过参考 图片列表构造过程来修改,所述过程实现帧间预测或视图间预测参考的灵活排序。
[0041] 在支持可缩放视频译码的视频译码技术中,那些视频译码技术也可采用层间预 测。举例来说,类似于多视图和3D视频译码,特定切片或帧的所有层(即,基本层和任何增 强层)可形成类似于上文相对于多视图和3D视频译码描述的存取单元的存取单元。因此, 给定特定层,另一层可为帧间预测参考。如同视图间参考,这些层间参考可在SPS中用信号 表示,且可通过参考图片列表构造过程来修改,所述过程实现帧间预测或视图间预测参考 的灵活排序。
[0042] 在一般意义上,相对于本发明,纹理视图分量、深度视图分量以及各种时间、空间 和质量层可视为在某种程度上可互换。举例来说,无论视频译码技术是否在解决纹理视图 分量、深度视图分量或各种层中的任一者,所述技术都可执行各种分量和层之间的帧间预 测。因此,本发明的技术可视为适用于一般意义上的"层",其中层可为纹理视图分量、深度 视图分量、时间可缩放层、空间可缩放层和质量可缩放层中的任一者。下文中,主要相对于 视图和视图分量来描述本发明的技术。另外,在一些区域中,相对于SVC可缩放层(例如时 间可缩放层、空间可缩放层和质量可缩放层)来描述本发明的技术。然而,这只是为了便于 说明和理解。不应将其视为将所描述的技术限制为仅适用于视图和视图分量或一定适用于 可缩放层。相反,应了解本文描述的技术较广地适用于如上文描述的术语的一般"层"。
[0043] 作为帧间预测过程的部分,视频编码器在位流中用信号表示特定视图分量的参考 图片集(RPS)。特定视图分量的参考图片集可包含可用于特定视图分量内的块的帧间预测 的参考图片。在多视图译码和3维视频译码(3DVC)中,视频编码器可使用与特定视图分 量相同的存取单元的视图分量作为参考图片来对特定视图分量进行编码。然而,在一些视 频译码技术中,视频编码器不可在视图分量的参考图片集中用信号表示此些视图间参考图 片。这可降低对位流进行解码的视频解码器的效率。此外,在视频编码器确实在视图分量 的参考图片集中用信号表示此些视图间参考图片的一些视频译码技术中,视频编码器不可 进一步用信号表示与视图间参考图片相关联的帧间预测的类型。这可因为不允许视频编码 器基于与视图间参考图片相关联的帧间预测的类型选择视图间参考图片以包含在RPS中 而降低译码效率。
[0044] 视频数据可经组织为网络抽象层(NAL)单元,其将"网络友好的"视频表示提供到 例如视频电话、存储、广播或流式传输等地址应用。举例来说,视频编码器通常将视频数据 的每一图片编码为一或多个可独立解码的切片。切片可封装为NAL单元以用于在网络上发 射。包含视频译码层(VCL)数据的NAL单元可包含图片的数据或图片的切片的数据。举例 来说,NAL单元可包含例如经译码单元(例如帧、切片、块或序列)的经译码块模式(CBP) 值、块类型、译码模式、最大块大小等语法信息,或其它信息。
[0045] 每一 NAL单元包含识别存储在NAL单元中的数据的类型的标头。实例多视图视频 译码NAL单元标头可包含语法元素,其指示NAL单元所属于的视图的视图识别符、NAL单元 是否属于可用作随机存取点(用于其它视图分量参考)的所谓的锚点图片、NAL单元是否 用于其它视图中的NAL单元的视图间预测,和多种其它信息。如本文描述,锚点图片可一般 对应于随机存取图片,且此些术语可以可互换地使用。也就是说,"随机存取"一般指代在除 了流的开始之外的点开始用于位流的解码过程的动作。随机存取图片一般涉及仅含有经帧 内译码切片(I切片)的图片。在解码次序和输出次序上均跟随随机存取图片的经译码图 片不是从在解码次序或输出次序上在随机存取图片之前的图片预测。
[0046] 大体上,存取单元可包含特定时间实例的所有视图分量。特定视图分量包含在特 定时间实例处的特定视图的所有NAL单元。多视图视频译码NAL单元可含有单字节NAL单 元标头(包含NAL单元类型)且可进一步包含多视图视频译码NAL单元标头扩展。
[0047] 最终,编码器可产生且编码运动信息用于当前图片的重构。因此,编码器可产生且 编码与当前图片内的每一个别视频块相关联的运动信息。由于每一视频块可独立于每一其 它视频块,因此编码器可能需要以用于适当重构整个当前图片的次序来用信号表示各种不 同参考图片。基于每一视频块的运动信息中包含的参考图片(其中一些可为视图),编码器 可建立包括从残余数据重建当前图片所必要的图片的参考图片列表。
[0048] 本发明的技术大体上涉及对与相依视图相关联的帧间预测的类型进行译码以及 用于视图间预测的参考图片列表构造过程。举例来说,在最终参考图片列表中包含仅用于 视图间纹理预测而不用于其它视图间预测类型(例如视图间运动预测和视图间残余预测) 的参考视图可能是低效的。通过将最终参考图片列表中包含的视图识别且限制于在视图间 纹理预测和至少另一类型的视图间预测两者中使用的那些视图,可以在可能的程度上增加 视频译码效率。
[0049] 举例来说,根据本发明的至少一些方面,所描述的视频译码技术可在序列参数集 (SPS)中用信号表示相依性。对于每一视图,如果另一视图(S卩,和与当前图片相同的时间 实例相关联的图片)用于任一种视图间预测,那么将其作为相依视图来用信号表示。然而, 另一指示也可用信号表示哪一或哪些视图可用于视图间纹理预测,或等效地,哪些视图仅 用于视图间运动和/或残余预测。
[0050] 以下描述应在多视图视频译码技术和3D视频译码技术两者的上下文中来理解。 虽然3D视频数据可包含额外信息(S卩,深度视图分量),但本文描述的技术一般涉及视图分 量。然而,所描述的技术可进一步在深度视图分量的上下文中唯一地应用于3DVC。举例来 说,编码器可进一步用信号表示参考视图可用于视图间深度预测。
[0051] 图1是说明实例性视频编码和解码系统10的框图。如图1中所示,系统10包含 源装置12,其经由计算机可读媒体16将经编码视频提供到目的地装置14。源装置12和目 的地装置14可包括广范围装置中的任一者。本发明的技术可应用于空中电视广播、有线电 视发射、卫星电视发射、因特网视频发射、经编码到存储媒体上的经编码数字视频,或其它 情形。因此,计算机可读媒体16可包括适合于发射经编码视频数据的无线或有线媒体的任 一组合,或例如光盘、硬驱动器或类似物等计算机可读存储媒体。
[0052] 在图1的实例中,源装置12包含视频源18、视频编码器20和输出接口 22。目的 地装置14包含输入接口 28、视频解码器30和显示装置32。根据本发明,源装置12的视频 编码器20可经配置以应用用于多视图译码或三维(3D)视频译码的技术。在其它实例中, 源装置和目的地装置可包含其它组件或布置。举例来说,源装置12可从外部视频源18 (例 如,外部相机)接收视频数据。同样,目的地装置14可与外部显示装置介接,而非包含集成 显示装置。
[0053] 图1的所说明系统10仅为一个实例。用于多视图视频译码或3D视频译码的技术 可由任何数字视频编码和/或解码装置执行。虽然通常本发明的技术由视频编码装置执 行,但所述技术也可由通常称为"CODEC (编解码器)"的视频编码器/解码器执行。而且, 也可通过视频预处理器来执行本发明的技术。源装置12和目的地装置14仅为这些译码装 置的实例,其中源装置12产生经译码视频数据以供发射到目的地装置14。在一些实例中, 装置12、14可以实质上对称的方式操作,使得装置12、14中的每一者包含视频编码和解码 组件。因此,系统10可支持视频装置12、14之间的单向或双向视频发射,例如,以用于视频 流式传输、视频重放、视频广播,或视频电话。
[0054] 源装置12的视频源18可包含例如摄像机的视频俘获装置、含有先前俘获的视频 的视频存档,和/或来自视频内容提供者的视频馈送。作为又一替代,视频源18可产生基 于计算机图形的数据作为源视频,或直播视频、经存档视频与计算机产生的视频的组合。在 一些情况下,如果视频源18为摄像机,那么源装置12和目的地装置14可形成所谓的像机 电话或视频电话。然而,如上文所提及,本发明中所述的技术一般可适用于视频译码,且可 应用于无线和/或有线应用。在每一情况下,可通过视频编码器20编码所俘获、预先俘获 或计算机产生的视频。经编码视频信息可接着通过输出接口 22输出到计算机可读媒体16 上。
[0055] 计算机可读媒体16可包含:暂时性媒体,例如无线广播或有线网络发射;或存储 媒体(即,非暂时性存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘 或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可从源装置12接收经编码 视频数据,且(例如)经由网络发射将经编码视频数据提供到目的地装置14。类似地,媒体 生产设施(例如,光盘压印设施)的计算装置可从源装置12接收经编码视频数据且产生含 有经编码视频数据的光盘。因此,在各种实例中,可将计算机可读媒体16理解为包含各种 形式的一或多个计算机可读媒体。
[0056] 目的地装置14的输入接口 28从计算机可读媒体16接收信息。计算机可读媒体 16的信息可包含由视频编码器20所定义的语法信息(其也由视频解码器30使用),所述 语法信息包含描述块和其它经译码单元(例如,G0P)的特性和/或处理的语法元素。显示 装置32向用户显示经解码视频数据,且可包括多种显示装置中的任一者,例如阴极射线管 (CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器,或另一类型的显 示装置。
[0057] 在图1的实例中,计算机可读媒体16可包括任何无线或有线通信媒体,例如射频 (RF)频谱或者一或多个物理传输线,或无线和有线媒体的任一组合。计算机可读媒体16可 形成例如局域网、广域网或全球网(例如,因特网)的基于包的网络的部分。计算机可读媒 体16通常表示用于将视频数据从源装置12发射到目的地装置14的任何合适通信媒体或 不同通信媒体的集合,包含有线或无线媒体的任一合适组合。计算机可读媒体16可包含路 由器、交换器、基站,或可用以促进从源装置12到目的地装置14的通信的任何其它设备。
[0058] 在图1所示的实例中,系统10还包含服务器/内容递送网络34,其可包含例如一 或多个路由器36等网络元件。在一些实例中,源装置12可经由如上所述的多种无线和/ 或有线发射或存储媒体与服务器/内容递送网络34通信。而且,虽然图1的实例中单独地 展示,但在一些实例中,源装置12和服务器/内容递送网络34包括同一装置。服务器/内 容递送网络34可存储经译码视频数据的一或多个版本(来自源装置12的视频编码器20), 且可使此经译码视频数据可用于由目的地装置14和视频解码器30存取。在一些实例中, 路由器36可负责以所请求格式将经译码视频数据提供到目的地装置14。
[0059] 虽然图1中未图示,但在一些方面中,视频编码器20和视频解码器30可各自与音 频编码器和解码器集成,且可包含适当的MUX-DEMUX单元或其它硬件和软件,以处置共同 数据流或单独数据流中的音频和视频两者的编码。如果适用,那么MUX-DEMUX单元可符合 ITU H. 223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
[0060] 在一些实例中,视频编码器20和视频解码器30根据视频压缩标准操作,例如ISO/ IEC MPEG-4视觉和ITU-T H. 264(也称为IS0/IEC MPEG-4AVC),包含其可缩放视频译码 (SVC)扩展、多视图视频译码(MVC)扩展和基于MVC的3DV扩展。在一些实例中,符合基于 MVC的3DV的任何合法位流总是含有顺应于MVC简档(例如,立体高简档)的子位流。此 夕卜,一直在努力形成对H. 264/AVC的三维视频(3DV)译码扩展,即基于AVC的3DV。在其它 实例中,视频编码器20和视频解码器30可根据ITU-T H. 261、IS0/IEC MPEG-1视觉、ITU-T H. 262 或 IS0/IEC MPEG-2 视觉、ITU-T H. 263、IS0/IEC MPEG-4 视觉和 ITU-T H. 264、ISO/ IEC视觉或即将到来的HEVC标准而操作,如本文所述。
[0061] ITU-T H. 264/MPEG-4(AVC)标准由 ITU-T视频译码专家组(VCEG)连同 IS0/IEC动 画专家组(MPEG) -起制定为被称为联合视频小组(JVT)的集体合作的产品。在一些方面 中,本发明中所述的技术可应用于大体符合H. 264标准的装置。H. 264标准通过ITU-T研 究组且在日期2005年3月描述于ITU-T推荐H. 264 "用于一般视听服务的高级视频译码 (Advanced Video Coding for generic audiovisual services)" 中,其在本文中可被称 为Η. 264标准或Η. 264规范,或H. 264/AVC标准或规范。联合视频小组(JVT)继续致力于 对 H. 264/MPEG-4AVC 的扩展。
[0062] 可将视频编码器20和视频解码器30各自实施为多种合适的编码器电路中的任一 者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门 阵列(FPGA)、离散逻辑、软件、硬件、固件,或其任何组合。可将视频编码器20和视频解码器 30中的每一者包含于一或多个编码器或解码器中,其中任一者可集成为组合式编码器/解 码器(CODEC)的部分。包含视频编码器20和/或视频解码器30的设备可包括集成电路、 微处理器和/或无线通信装置,例如蜂窝式电话。其它设备可包含相机、计算机、移动装置、 订户装置、广播装置、机顶盒、服务器或类似物。
[0063] 根据下文更详细描述的本发明的实例,图1的视频解码器30可经配置以接收与给 定视图相关联的视图相依性,且接收与视图相依性中的一或多者相关联的预测类型。
[0064] 起初,将论述H. 264/高级视频译码(AVC)标准的扩展的多视图视频译码技术。多 视图视频译码的此特定实施方案在本发明中可称为"MVC/AVC"。然而,本发明的技术可适用 于支持多视图译码的任何视频译码标准或技术,包含用于新兴的HEVC标准的多视图建议。 如上所述,本发明的技术可进一步适用于包含3DVC能力的任何视频译码标准或技术,因为 3D视频数据可包含与单个时间实例相关联的多个视图或样本,或多个视图或样本可从至少 一个视图分量和一个深度分量产生。
[0065] 图2中展示典型的MVC/AVC解码次序(S卩,位流次序)。解码次序布置称为首先时 间译码。应注意,存取单元的解码次序可能不同于输出或显示次序。在图2中,S0到S7各 自涉及多视图视频的不同视图。T0到T8各自表示一个输出时间实例。存储单元可包含用 于一个输出时间实例的所有视图的经译码图片。举例来说,第一存取单元可包含用于时间 实例T0的所有视图S0到S7,第二存取单元可包含用于时间实例T1的所有视图S0到S7, 以此类推。
[0066] 如上文简要论述,本发明可使用以下定义:
[0067] 视图分量:单个存取单元中的视图的经译码表示。当视图包含经译码纹理和深度 表示两者时,视图分量由纹理视图分量和深度视图分量组成。
[0068] 纹理视图分量:单个存取单元中的纹理的经译码表示。
[0069] 深度视图分量:单个存取单元中的深度的经译码表示。
[0070] 在图2中,视图中的每一者包含若干图片集合。举例来说,视图S0包含图片0、8、 16、24、32、40、48、56 和 64 的集合,视图 S1 包含图片 1、9、17、25、33、41、49、57 和 65 的集合, 以此类推。每一集合包含两个图片:一个图片称为纹理视图分量,且另一图片称为深度视图 分量。视图的图片集合内的纹理视图分量和深度视图分量可视为彼此对应。举例来说,视 图的图片集合内的纹理视图分量视为对应于视图的所述图片集合内的深度视图分量,且反 之亦然(即,集合中的深度视图分量对应于其纹理视图分量,且反之亦然)。如本发明中使 用,对应于深度视图分量的纹理视图分量可视为作为单个存取单元的同一视图的部分的纹 理视图分量和深度视图分量。
[0071] 纹理视图分量包含显示的实际图像内容。举例来说,纹理视图分量可包含亮度(Y) 和色度(Cb和Cr)分量。深度视图分量可指示其对应纹理视图分量中的像素的相对深度。 作为一个实例,深度视图分量是仅包含亮度值的灰度级图像。换句话说,深度视图分量可不 传达任何纹理图像内容,而是,深度视图分量可提供纹理视图分量中界定的不同像素的相 对深度的量度。深度视图分量中的深度值可界定相应像素相对于零视差平面或可能某个其 它参考的深度。
[0072] 概念上,深度视图分量中的纯白像素指示对应纹理视图分量中的其对应一或多个 像素从观看者的视角来看较靠近,且深度视图分量中的纯黑像素指示对应纹理视图分量中 的其对应一或多个像素从观看者的视角来看较远离。黑色与白色之间的各种灰度指示不同 的深度水平。举例来说,深度视图分量中的极灰像素指示纹理视图分量中的其对应像素比 深度视图分量中的浅灰像素更远离。因为仅需要灰度级来识别像素的深度,所以深度视图 分量无需包含色度分量,因为用于深度视图分量的颜色值无法用于任何目的。仅使用亮度 值(例如,强度值)来识别深度的深度视图分量是为了说明目的提供且不应视为限制性的。
[0073] 在较一般意义上,深度视图分量可包括范围从最小值到最大值的值。根据一个特 定参考帧,相对于纹理视图分量中对应于深度视图分量中具有较低值的像素的像素,深度 视图分量中具有最大深度值的像素可将纹理视图分量中的相应像素的深度界定为较远离 观看者。因此,相对于纹理视图分量中对应于深度视图分量中具有较高值的像素的像素,深 度视图分量中具有最小深度值的像素可将纹理视图分量中的相应像素的深度界定为较靠 近观看者。在其它实例中,可不同地界定参考帧。举例来说,可界定参考帧以使得相对较高 和较低值的意义保留。也就是说,相对较低值可对应于较远离观看者的深度,且较高值可对 应于较靠近视图的深度。在其它实例中,可利用任何技术来指示纹理视图分量中的像素的 相对深度。
[0074] 图3中展示用于多视图视频译码的典型MVC/AVC预测结构(包含每一视图内的图 片间预测和视图间预测两者)。预测方向由箭头指示,被指向的对象使用指向来自的对象作 为预测参考。在MVC/AVC中,视图间预测由视差运动补偿支持,其使用H. 264/AVC运动补偿 的语法,但允许将不同视图中的图片用作参考图片。
[0075] 图3是说明实例性MVC/AVC预测模式的概念图。在图3的实例中,说明八个视图, 且针对每一视图说明十二个时间位置。大体上,图3中的每一行对应于一视图,而每一列指 示时间位置。视图中的每一者可使用视图识别符("view_id")来识别,其可用以指示相对 于其它视图的相对相机位置。在图3中所示的实例中,将视图ID指示为"S0"到"S7",但也 可使用数字视图ID。另外,时间位置中的每一者可使用图片次序计数(P0C)值来识别,其指 示图片的显示次序。在图3中所示的实例中,将P0C值指示为"T0"到"T11"。
[0076] 虽然MVC/AVC具有可由H. 264/AVC解码器解码的所谓的基本视图,且立体视图对 也可由MVC/AVC支持,但MVC/AVC的优点在于其可支持使用两个以上视图作为3D视频输入 且对由多个视图表示的此3D视频进行解码的实例。具有MVC/AVC解码器的客户端的再现 器可预期具有多个视图的3D视频内容。
[0077] 图3中的图片是在每一行与每一列的交叉点处指示。H. 264/AVC标准可使用术语 帧来表示视频的一部分。本发明可以可互换方式使用术语图片和帧。
[0078] 图3中的图片是使用包含字母的带阴影块来指示,所述字母指定对应图片是否经 帧内译码(即,I帧)或者在一个方向上(即,作为P帧)或在多个方向上(即,作为B帧) 经帧间译码。大体上,预测由箭头指示,其中被指向的图片使用指向来自的对象用于预测参 考。举例来说,在时间位置T0处的视图S2的P帧是从在时间位置T0处的视图S0的I帧 预测。图3中所示的图片中的每一者可称为视图分量。也就是说,视图的视图分量对应于 视图的特定时间实例。
[0079] 如同单个视图视频编码,多视图视频译码视频序列的图片可相对于在不同时间位 置处的图片预测性地编码。举例来说,在时间位置T1处的视图S0的b图片具有从在时间 位置T0处的视图S0的I图片指向其的箭头,指示b图片是从I图片预测。然而另外,在多 视图视频编码的上下文中,图片可经视图间预测。也就是说,视图分量可使用其它视图中的 视图分量用于参考。在例如MVC/AVC中,视图间预测经实现为如同另一视图中的视图分量 是预测间参考。可能的视图间参考是在序列参数集(SPS)MVC/AVC扩展中用信号表示,且 可通过参考图片列表构造过程来修改,所述过程实现帧间预测或视图间预测参考的灵活排 序。视图间预测也是HEVC的建议多视图扩展的特征,包含3D-HEVC(多视图加深度)。
[0080] 图3提供视图间预测的各种实例。在图3的实例中,视图S1的图片说明为从在视 图S1的不同时间位置处的图片预测,以及从在相同时间位置处的视图S0和S2的图片中的 图片经视图间预测。举例来说,在时间位置T1处的视图S1的b帧是从在时间位置T0和T2 处的视图S1的B帧中的每一者以及在时间位置T1处的视图S0和S2的b帧预测。
[0081] 在图3的实例中,大写字母"B"和小写字母"b"既定指示图片之间的不同阶层关 系,而不是不同的编码方法。大体上,大写字母"B"帧在预测阶层中比小写字母"b"帧相对 更高。图3还使用不同水平的阴影来说明预测阶层中的变化,其中较大量阴影(S卩,相对较 暗)图片在预测阶层中比具有较少阴影的那些图片(即,相对较亮)更高。举例来说,图3 中的所有I帧说明为具有满阴影,而P帧具有稍微较亮的阴影,且B帧(和小写字母b帧) 具有相对于彼此的各种水平的阴影,但总是比P帧和I帧的阴影更亮。大体上,预测阶层涉 及视图次序索引,因为在预测阶层中相对较高的图片应在对阶层中相对较低的图片进行解 码之前解码,使得在阶层中相对较高的那些图片可在阶层中相对较低的图片的解码器间用 作参考图片。视图次序索引是指示存取单元中的视图分量的解码次序的索引。视图次序索 引可在例如SPS等参数集中暗示。
[0082] 以此方式,用作参考图片的图片可在对参照参考图片编码的图片进行解码之前解 码。视图次序索引是指示存取单元中的视图分量的解码次序的索引。根据MVC/AVC,针对 每一视图次序索引i,用信号表示对应的view_id。视图分量的解码遵循视图次序索引的升 序。如果呈现所有视图,那么视图次序索引集合包括从零到视图的全部数目减一的连续排 序集合。
[0083] 在一些实例中,整个位流的子集可经提取以形成仍符合MVC/AVC的子位流。存在 许多可能的子位流,特定应用可能基于例如由服务器提供的服务、一或多个客户端的解码 器的容量、支持和能力和/或一或多个客户端的偏好而需要所述子位流。举例来说,客户端 可能仅需要三个视图,且可能存在两种情形。在一个实例中,一个客户端可需要平稳的观看 体验且可能偏好具有view_id值SO、S1和S2的视图,而另一客户端可需要视图可缩放性且 偏好具有view_id值SO、S2和S4的视图。这些子位流两者可经解码为独立MVC位流且可 同时得到支持。
[0084] 大体上,不同视图之间的相机位置、定向和几何关系可从视图ID或视图次序索引 推断。为此目的,内在和外在相机参数均可使用多视图获取信息SEI消息而包含在位流中。
[0085] 虽然图3展示如上所述的八个视图(S0到S7),但MVC/AVC扩展支持多达1024个 视图且使用NAL单元标头中的viewjd来识别NAL单元所属于的视图。根据本发明的方 面,视图次序索引可作为NAL单元标头的部分而用信号表示。也就是说,为了比较的目的, 视图次序索引可代替在MVC/AVC扩展的NAL单元标头中用信号表示的view_id。视图次序 大体上描述存取单元中的视图的排序,且视图次序索引识别存取单元的视图次序中的特定 视图。也就是说,视图次序索引描述存取单元的对应视图分量的解码次序。
[0086] 在一些实例中,图3可视为说明纹理视图分量。举例来说,图2中说明的I、P、B和 b图片可视为视图中的每一者的纹理视图分量。根据本发明中描述的至少一些技术,针对 图3中说明的纹理视图分量中的每一者,可存在对应深度视图分量。举例来说,如上所述, 本发明的技术可应用于包含并入了纹理和深度视图分量两者的3DV译码标准的视频译码 标准。或者,在至少一些实例中,本发明的技术也可涉及包含多视图兼容性且仅并入纹理视 图分量的译码标准。在一些实例中,深度视图分量可以与图3中针对对应纹理视图分量说 明的方式类似的方式预测。
[0087] 两个视图的译码也可由MVC/AVC支持。MVC/AVC的优点之一在于MVC/AVC编码器 可取两个以上视图作为3D视频输入且MVC/AVC解码器可对此多视图表示进行解码。由此, 具有MVC/AVC解码器的任何再现器可对具有两个以上视图的3D视频内容进行解码。
[0088] 如上文论述,在MVC/AVC中,在同一存取单兀(在一些实例中意味着具有同一时间 实例)中的图片当中允许视图间预测。当对非基本视图中的一者中的图片进行译码时,如 果图片在不同视图中但在同一时间实例内,那么可将图片添加到参考图片列表中。视图间 预测参考图片可放在参考图片列表的任何位置中,恰似任何预测间参考图片。如图3所示, 视图分量可使用其它视图中的视图分量用于参考。在MVC/AVC中,视图间预测经实现为如 同另一视图中的视图分量是预测间参考。
[0089] 视频序列通常包含一系列视频帧。图片群组(G0P)通常包括一系列一或多个视频 帧。G0P可在G0P的标头、G0P的一或多个帧的标头或别处包含描述G0P中包含的帧的数目 的语法数据。每一帧可包含描述用于相应帧的编码模式的帧语法数据。视频编码器20通常 对个别视频帧内的视频块操作以便对视频数据进行编码。视频块可对应于块或块的分区。 视频块可具有固定或变化的大小,且可根据指定译码标准而大小不同。每一视频帧可包含 多个切片。每一切片可包含多个块,所述块可经布置为若干分区,也称为子块。
[0090] 作为实例,ITU-T H. 264标准支持各种块大小的帧内预测,例如用于亮度分量的16 乘16、8乘8或4乘4和用于色度分量的8x8,以及各种块大小的帧间预测,例如用于亮度 分量的16xl6、16x8、8xl6、8x8、8x4、4x8和4x4和用于色度分量的对应缩放大小。在本发明 中,"NxN"和"N乘N"可以可互换地使用以在垂直和水平尺寸方面指代块的像素尺寸,例如 16x16像素或16乘16像素。大体上,16x16块将在垂直方向上具有16个像素 (y = 16)且 在水平方向上具有16个像素 (x = 16)。同样,NxN块通常在垂直方向上具有N个像素且在 水平方向上具有N个像素,其中N表示非负整数值。块中的像素可以布置成行和列。而且, 块不需要一定在水平方向上与在垂直方向上具有相同数目的像素。举例来说,块可包括NxM 像素,其中Μ不一定等于N。
[0091] 当前一直在努力开发新视频译码标准,当前称为高效视频译码(HEVC)。新兴的 HEVC标准也可称为ITU Η. 265标准。标准化努力是基于称为HEVC测试模型(ΗΜ)的视频译 码装置的模型。ΗΜ假设视频译码装置优于根据例如ITU-T H.264/AVC的装置的若干能力。
[0092] ΗΜ将视频数据块称为译码单元(CU)。位流内的语法数据可界定最大译码单元 (LCU),其为在像素数目方面的最大译码单元。大体上,CU具有与Η. 264的宏块类似的目的, 不同的是CU不具有大小区别。因此,CU可经分裂为若干子CU。大体上,本发明中对CU的 参考可指代图片的最大译码单元(LCU)或LCU的子CU。LCU可经分裂为若干子CU,且每一 子CU可经分裂为若干子CU。用于位流的语法数据可界定LCU可经分裂的最大次数,称为 ⑶深度。因此,位流也可界定最小译码单元(S⑶)。本发明还使用术语"块"来指代⑶、PU 或TU中的任一者。
[0093] IXU可与四叉树数据结构相关联。大体上,四叉树数据结构包含每⑶一个节点,其 中根节点对应于IXU。如果⑶经分裂为四个子⑶,那么对应于⑶的节点包含四个叶节点, 所述叶节点中的每一者对应于子CU中的一者。四叉树数据结构的每一节点可提供用于对 应CU的语法数据。举例来说,四叉树中的节点可包含分裂旗标,其指示对应于所述节点的 CU是否经分裂为若干子CU。用于CU的语法元素可以递归方式界定,且可取决于CU是否经 分裂为若干子CU。如果CU并不进一步分裂,那么其被称为叶CU。在本发明中,叶CU的四个 子CU也将被称为叶CU,即使不存在原始叶CU的明显分裂也是如此。举例来说,如果16x16 大小的⑶并不进一步分裂,那么四个8x8子⑶也将被称为叶⑶,但16x16⑶从不分裂。
[0094] CU具有与H. 264的宏块类似的目的,不同的是CU不具有大小区别。举例来说,树 块可经分裂为四个子代节点(也被称为子CU),且每一子代节点可又为父代节点且经分裂 为另外四个子代节点。被称为四叉树的叶节点的最终的未分裂子代节点包括译码节点,所 述译码节点也被称为叶CU。与经译码位流相关联的语法数据可界定可分裂树块的最大次数 (其被称为最大CU深度),且也可界定译码节点的最小大小。因此,位流也可界定最小译码 单元(SCU)。本发明使用术语"块"指代在HEVC的上下文中的⑶、PU或TU中的任一者,或 在其它标准的上下文中的类似数据结构(例如,在H. 264/AVC中的宏块及其子块)。
[0095] 未经分裂的⑶可包含一或多个预测单元(PU)。大体上,PU表示对应⑶的全部或 一部分,且包含用于检索PU的参考样本的数据。举例来说,当PU经帧内模式编码时,PU可 包含描述用于PU的帧内预测模式的数据。作为另一实例,当ro经帧间模式编码时,PU可 包含界定用于PU的运动向量的数据。界定运动向量的数据可描述例如运动向量的水平分 量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精 度)、运动向量指向的参考帧,和/或运动向量的参考列表(例如,列表0或列表1)。界定 ro的用于CU的数据也可描述例如CU分割为一或多个PU。分割模式可在CU是否未经译码、 经帧内预测模式编码或经帧间预测模式编码之间不同。
[0096] CU包含译码节点以及与译码节点相关联的预测单元(PU)和变换单元(TU)。CU的 大小对应于译码节点的大小,且形状必须为正方形。CU的大小的范围可从8x8像素直到具有 最大64x64像素更大的树块的大小。每一⑶可含有一或多个TO及一或多个TU。与⑶相关 联的语法数据可描述(例如)cu到一或多个ro的分割。分割模式可在cu是否经跳过或直接 模式编码、经帧内预测模式编码或经帧间预测模式编码之间不同。PU的形状可分割为非正方 形。与CU相关联的语法数据也可描述(例如)CU根据四叉树到一或多个TU的分割。TU的 形状可为正方形或非正方形(例如,矩形)。另外,TU不一定限于ro的大小。因此,TU可大 于或小于同一 cu的对应ro。在一些实例中,τυ的最大大小可对应于对应cu的大小。
[0097] HEVC标准允许根据TU的变换,所述变换针对不同的CU可为不同的。通常基于针 对经分割LCU所界定的给定CU内的PU的大小而对TU定大小,但可能并非始终如此。TU通 常具有与PU相同的大小,或小于PU。在一些实例中,可使用被称为"残余四叉树"(RQT)的 四叉树结构将对应于CU的残余样本再分为若干较小单元。RQT的叶节点可被称为变换单元 (TU)。可变换与TU相关联的像素差值以产生可量化的变换系数。
[0098] 叶⑶可包含一或多个预测单元(PU)。大体上,PU表示对应于对应⑶的全部或一 部分的空间区域,且可包含用于检索PU的参考样本的数据。而且,PU包含与预测相关的数 据。举例来说,当PU经帧内模式编码时,用于PU的数据可包含于残余四叉树(RQT)中,残 余四叉树可包含描述对应于PU的TU的帧内预测模式的数据。作为另一实例,当PU经帧间 模式编码时,PU可包含界定所述ro的一或多个运动向量的数据。界定用于PU的运动向量 的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例 如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片,和/或用于运 动向量的参考图片列表(例如,列表0、列表1,或列表C)。
[0099] 具有一或多个ro的叶⑶也可包含一或多个变换单元(TU)。可使用RQT(也被称 为TU四叉树结构)指定变换单元,如上文所论述。举例来说,分裂旗标可指示叶CU是否分 裂为四个变换单元。接着,每一变换单元可进一步分裂为另外的子TU。当TU并不进一步 分裂时,其可被称为叶TU。一般来说,针对帧内译码,属于一叶CU的所有叶TU共享相同帧 内预测模式。也就是说,相同帧内预测模式大体应用于计算叶CU的所有TU的预测值。针 对帧内译码,视频编码器20可使用帧内预测模式计算用于每一叶TU的残余值,作为在对应 于TU的CU的部分与原始块之间的差。TU不一定限于PU的大小。因此,TU可大于或小于 PU。针对帧内译码,PU可与用于同一⑶的对应叶TU位于同一地点。在一些实例中,叶TU 的最大大小可对应于对应叶CU的大小。
[0100] 而且,叶⑶的TU也可与被称为残余四叉树(RQT)的相应四叉树数据结构相关联。 也就是说,叶⑶可包含指示叶⑶分割为若干TU的方式的四叉树。TU四叉树的根节点一般 对应于叶CU,而CU四叉树的根节点一般对应于树块(或LCU)。RQT的不分裂的TU被称为 叶TU。一般来说,本发明分别使用术语CU及TU来指代叶CU及叶TU,除非另外注释。
[0101] 如上所述,帧内预测包含从图片的经先前译码⑶预测同一图片的当前⑶的PU。 更具体来说,视频编码器可使用特定帧内预测模式来帧内预测图片的当前CU。HM编码器可 以多达三十三个帧内预测模式来配置。因此,为了支持方向性帧内预测模式与方向性变换 之间的一对一映射,HM编码器和解码器针对每一支持的变换大小可能需要存储66个矩阵。 此外,支持全部三十三个帧内预测模式的块大小可为相对大的块,例如32x32像素、64x64 像素或甚至更大。
[0102] 视频序列通常包含一系列图片(或可互换地,"帧")。图片群组(G0P)通常包括 一系列一或多个视频图片。G0P可在G0P的标头、图片中的一或多者的标头或别处包含描述 G0P中包含的图片的数目的语法数据。图片的每一切片可包含描述相应切片的编码模式的 切片语法数据。视频编码器20通常对个别视频切片内的视频块操作以便对视频数据进行 编码。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,且可根据指定 译码标准而大小不同。
[0103] 作为实例,HM支持以各种PU大小进行预测。假设特定CU的大小为2Nx2N,则HM 支持以2Nx2N或NxN的PU大小进行帧内预测,及以2Nx2N、2NxN、Nx2N或NxN的对称PU大 小进行帧间预测。HM也支持以2NxnU、2NxnD、nLx2N和nRx2N的PU大小进行帧间预测的非 对称分割。在非对称分割中,CU的一个方向未分割,而另一方向分割为25%及75%。CU的 对应于25%分割的部分是通过"η"跟随有"上"、"下"、"左"或"右"的指示来指示。因此, 举例来说,"2NxnU"指代以顶部2ΝχΟ. 5Ν PU及底部2Nxl. 5Ν PU水平分割的2Nx2N CU。
[0104] 在本发明中,"NxN"和"Ν乘Ν"可以可互换地使用以在垂直和水平尺寸方面指代 视频块的像素尺寸,例如16x16像素或16乘16像素。大体上,16x16块将在垂直方向上具 有16个像素(y= 16)且在水平方向上具有16个像素(x= 16)。同样,NxN块通常在垂直 方向上具有N个像素且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素 可以布置成行和列。而且,块不需要一定在水平方向上与在垂直方向上具有相同数目的像 素。举例来说,块可包括NxM像素,其中Μ不一定等于N。
[0105] 在使用CU的PU进行帧内预测性或帧间预测性译码之后,视频编码器20可计算用 于CU的TU的残余数据。残余值通常对应于块的预测数据与块的真实数据之间的差。为了 进一步压缩块的残余值,可将残余值变换为将尽可能多的数据(也称为"能量")压缩到尽 可能少的系数中的变换系数的集合。变换系数对应于可与原始块大小相同的二维系数矩 阵。换句话说,可存在与原始块中的像素一样多的变换系数。然而,由于变换,许多变换系 数可具有等于零的值。
[0106] PU可包括描述在空间域(也被称为像素域)中产生预测性像素数据的方法或模 式的语法数据,且TU可包括在对残余视频数据应用变换之后在变换域中的系数,所述变换 例如离散余弦变换(DCT)、整数变换、小波变换,或概念上类似的变换。残余数据可对应于 未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含用于 CU的残余数据的TU,且接着变换所述TU以产生用于CU的变换系数。
[0107] 在应用任何变换以产生变换系数之后,视频编码器20可执行变换系数的量化。量 化通常涉及将相对大范围内的值映射到相对小范围中的值,因此减少表示经量化变换系数 所需的数据量。量化过程可减少与系数中的一些或全部相关联的位深度。举例来说,η位 值可在量化期间舍入到m位值,其中η大于m。
[0108] 在量化之后,视频编码器可扫描变换系数,从而从包含经量化变换系数的二维矩 阵产生一维向量。扫描可经设计以将较高能量(且因此较低频率)系数置于阵列的前部, 且将较低能量(且因此较高频率)系数置于阵列的后部。在一些实例中,视频编码器20可 利用预定义扫描次序来扫描经量化变换系数,以产生可经熵编码的串行化向量。在其它实 例中,视频编码器20可执行自适应性扫描。
[0109] 在扫描经量化变换系数以形成一维向量之后,视频编码器20可(例如)根据上下 文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下 文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法来对所 述一维向量进行熵编码。视频编码器20也可对与经编码视频数据相关联的语法元素进行 熵编码,以供视频解码器30用于对视频数据进行解码。举例来说,经表示为经量化变换系 数的量值和对应正负号(例如,"+1"或"-1")的系数值可使用熵译码技术来编码。
[0110] 为了执行CABAC,视频编码器20可将上下文模型内的上下文指派给待发射的符 号。所述上下文可与(例如)符号的相邻值是否为非零相关。为了执行CAVLC,视频编码 器20可针对待发射的符号选择可变长度码。可将VLC中的码字建构成使得相对较短码对 应于更有可能的符号,而较长码对应于较不可能的符号。以此方式,与(例如)针对待发射 的每一符号使用相等长度的码字相比较,使用VLC可实现位节省。概率确定可基于指派给 符号的上下文。
[0111] 视频编码器20可(例如)在图片标头、块标头、切片标头或G0P标头中进一步将 语法数据(例如,基于块的语法数据、基于图片的语法数据和基于G0P的语法数据)发送到 视频解码器30。G0P语法数据可描述相应G0P中的图片的数目,且图片语法数据可指示用 以对对应图片进行编码的编码/预测模式。
[0112] 在一些实例中,视频编码器20可产生且视频解码器30可接收某些参数集,所述参 数集可在对视频数据进行解码时使用。举例来说,参数集可含有序列层级标头信息(序列 参数集(SPS)中)和不经常改变的图片层级标头信息(图片参数集(PPS)中)。借助参数 集(例如,PPS和SPS),无需针对每一序列(例如,图片序列)或图片重复不经常改变的信 息,因此可改善译码效率。此外,参数集的使用可实现重要标头信息的带外发射,从而避免 了对用于错误恢复的冗余发射的需要。在带外发射实例中,参数集NAL单元可在与其它NAL 单元不同的信道上发射,所述其它NAL单元例如为补充增强信息(SEI)NAL单元。
[0113] SEI NAL单元(称为SEI消息)可含有对于对来自VCL NAL单元的经译码图片样 本进行解码并非必要但可有助于涉及解码、显示、错误恢复和其它目的的过程的信息。SEI 消息可包含在非VCL NAL单元中。SEI消息可包含在一些标准规范的标准部分中,且因此对 于标准顺应性解码器实施方案并不总是强制性的。SEI消息可为序列层级SEI消息或图片 层级SEI消息。一些序列层级信息可包含在SEI消息中,例如SVC的实例中的可缩放性信 息SEI消息和MVC中的视图可缩放性信息SEI消息。
[0114] 在一些实例中,视频编码器20可对符合MVC/AVC的多视图视频位流进行编码。同 样,视频解码器30可对符合MVC/AVC的多视图视频位流进行解码。MVC/AVC的最新联合草 案在"用于一般视听服务的高级视频译码"(ITU-T推荐H.264, 2010年3月)中描述,其全 文以引用方式并入本文。
[0115] MVC/AVC NAL单元可含有包含NAL单元类型的单字节NAL单元标头,以及MVC/AVC NAL单元标头扩展,从而将NAL单元标头扩展到4字节。作为一个实例,MVC/AVC NAL单元 标头扩展可包含以下表1中的语法元素:
[0116] 表1-NAL单元标头扩展语法
[0117]

【权利要求】
1. 一种对视频数据进行解码的方法,所述方法包括: 从经译码位流获得与给定层相关联的层相依性;以及 从经译码位流获得与所述层相依性中的一或多者相关联的预测类型。
2. 根据权利要求1所述的方法,其中所述层是以下各项中的一者: 视图; 视图的纹理分量; 视图的深度分量; 空间可缩放层;以及 质量可缩放层。
3. 根据权利要求1所述的方法,其进一步包括: 从经译码位流获得用以用信号表示所述层相依性的第一语法元素;以及 从经译码位流获得用以用信号表示与所述层相依性中的一或多者相关联的所述预测 类型的第二语法元素。
4. 根据权利要求1所述的方法,其中获得所述预测类型包括获得可用于层间纹理预测 的一或多个层的指示。
5. 根据权利要求1所述的方法,其中获得所述预测类型包括获得不可用于层间纹理预 测的一或多个层的指示。
6. 根据权利要求1所述的方法,其中获得所述预测类型包括获得可仅用于层间运动预 测或可仅用于残余预测的一或多个层的指示。
7. 根据权利要求1所述的方法,其中获得层相依性和获得所述预测类型两者在序列参 数集中发生。
8. -种对视频数据进行编码的方法,所述方法包括: 产生与给定层相关联的层相依性;以及 产生与所述层相依性中的一或多者相关联的预测类型。
9. 根据权利要求8所述的方法,其中所述层是以下各项中的一者: 视图; 视图的纹理分量; 视图的深度分量; 空间可缩放层;以及 质量可缩放层。
10. 根据权利要求8所述的方法,其中所述产生包含在经译码位流中用信号表示。
11. 根据权利要求8所述的方法,其进一步包括: 产生用以用信号表示所述层相依性的第一语法元素;以及 产生用以用信号表示与所述层相依性中的一或多者相关联的所述预测类型的第二语 法元素。
12. 根据权利要求8所述的方法,其中产生所述预测类型包括产生可用于层间纹理预 测的一或多个层的指示。
13. 根据权利要求8所述的方法,其中产生所述预测类型包括产生不可用于层间纹理 预测的一或多个层的指示。
14. 根据权利要求8所述的方法,其中产生所述预测类型包括产生可仅用于层间运动 预测或可仅用于残余预测的一或多个层的指示。
15. 根据权利要求8所述的方法,其中所述产生包括在序列参数集中产生且用信号表 示所述层相依性和所述预测类型。
16. -种用于对视频数据进行译码的设备,其包括经配置以进行以下操作的一或多个 处理器: 对与给定层相关联的层相依性进行译码;以及 对与所述层相依性中的一或多者相关联的预测类型进行译码。
17. 根据权利要求16所述的设备,其中所述层是以下各项中的一者: 视图; 视图的纹理分量; 视图的深度分量; 空间可缩放层;以及 质量可缩放层。
18. 根据权利要求16所述的设备,其进一步包括经配置以存储视频数据且与所述处理 器通信的存储器。
19. 根据权利要求16所述的设备,其中对视频数据进行译码包括编码,且其中所述编 码包括在经译码位流中产生和用信号表示,所述产生包括: 产生用以用信号表示所述层相依性的第一语法元素;以及 产生用以用信号表示与所述层相依性中的一或多者相关联的所述预测类型的第二语 法元素。
20. 根据权利要求16所述的设备,其中对视频数据进行译码包括解码,且其中所述解 码包括: 从经译码位流获得用信号表示所述层相依性的第一语法元素;以及 从经译码位流获得用信号表示与所述层相依性中的一或多者相关联的所述预测类型 的第二语法元素。
21. 根据权利要求16所述的设备,其中对所述预测类型进行译码包括对可用于层间纹 理预测的一或多个层的指示进行译码。
22. 根据权利要求16所述的设备,其中对所述预测类型进行译码包括对不可用于层间 纹理预测的一或多个层的指示进行译码。
23. 根据权利要求16所述的设备,其中对所述预测类型进行译码包括对可仅用于层间 运动预测或可仅用于残余预测的一或多个层的指示进行译码。
24. 根据权利要求16所述的设备,其中所述译码包括在序列参数集中译码且用信号表 示所述层相依性和所述预测类型。
25. -种对视频数据进行译码的装置,所述装置包括: 用于对与给定层相关联的层相依性进行译码的装置;以及 用于对与所述层相依性中的一或多者相关联的预测类型进行译码的装置。
26. 根据权利要求25所述的装置,其中所述层是以下各项中的一者: 视图; 视图的纹理分量; 视图的深度分量; 空间可缩放层;以及 质量可缩放层。
27. 根据权利要求25所述的装置,其中所述用于对层相依性进行译码的装置包括: 用于产生用以用信号表示所述层相依性的第一语法元素的装置;且 其中用于对预测类型进行译码的装置包括用于产生用以用信号表示与所述层相依性 中的一或多者相关联的所述预测类型的第二语法元素的装置。
28. 根据权利要求25所述的装置,其中所述用于对所述预测类型进行译码的装置包括 用于对可用于层间纹理预测的一或多个层的指示进行译码的装置。
29. 根据权利要求25所述的装置,其中所述用于对所述预测类型进行译码的装置包括 用于对不可用于层间纹理预测的一或多个层的指示进行译码的装置。
30. 根据权利要求25所述的装置,其中所述用于对所述预测类型进行译码的装置包括 用于对可仅用于层间运动预测或可仅用于残余预测的一或多个层的指示进行译码的装置。
31. 根据权利要求25所述的装置,其中所述用于对层相依性进行译码的装置和所述用 于对所述预测类型进行译码的装置两者包括用于产生序列参数集的一部分的装置。
32. -种其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使用 于对视频数据进行译码的设备的一或多个处理器进行以下操作: 对与给定层相关联的层相依性进行译码; 对与所述层相依性中的一或多者相关联的预测类型进行译码。
33. 根据权利要求32所述的非暂时性计算机可读存储媒体,其中所述层是以下各项中 的一者: 视图; 视图的纹理分量; 视图的深度分量; 空间可缩放层;以及 质量可缩放层。
34. 根据权利要求32所述的非暂时性计算机可读存储媒体,其进一步包括致使所述一 或多个处理器进行以下操作的指令: 产生用以用信号表示所述层相依性的第一语法元素;以及 产生用以用信号表示与所述层相依性中的一或多者相关联的所述预测类型的第二语 法元素。
35. 根据权利要求32所述的非暂时性计算机可读存储媒体,其中用信号表示所述预测 类型包括用于用信号表示可用于层间纹理预测的一或多个层的指示的装置。
36. 根据权利要求32所述的非暂时性计算机可读存储媒体,其中对所述预测类型进行 译码包括对不可用于层间纹理预测的一或多个层的指示进行译码。
37. 根据权利要求32所述的非暂时性计算机可读存储媒体,其中对所述预测类型进行 译码包括对可仅用于层间运动预测或可仅用于残余预测的一或多个层的指示进行译码。
38. 根据权利要求32所述的非暂时性计算机可读存储媒体,其中对层相依性进行译码 和对所述预测类型进行译码两者包括对序列参数集的部分进行译码。
【文档编号】H04N19/30GK104272741SQ201380021044
【公开日】2015年1月7日 申请日期:2013年4月23日 优先权日:2012年4月23日
【发明者】陈颖, 王益魁 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1