深度图估计的推导的制作方法

文档序号:7793438阅读:311来源:国知局
深度图估计的推导的制作方法
【专利摘要】在用于产生和更新用于对多视图视频数据进行译码的视图间运动预测和/或视图间残余预测的深度图估计的一些实例性技术中,多个相依视图中的每一者与相依深度视图估计相关联,所述相依深度视图估计可基于相对于基本视图对所述相依视图的纹理数据的译码而产生或更新。在此些实例中,相依深度图估计中的每一者可经变形到基本视图以产生多个基本深度图估计中的相应一者。用于深度图估计对的每一相依深度图估计和相应基本深度图估计与多个相依视图中的相应一者相关联。
【专利说明】深度图估计的推导
[0001] 本申请案主张2012年6月13日申请的第61/659, 290号美国临时申请案的权益, 所述申请案的整个内容以引用方式并入本文。

【技术领域】
[0002] 本发明涉及视频译码,且更特定来说涉及用于多视图视频译码的深度图的推导。【背景技术】
[0003] 数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广 播系统、个人数字助理(PDA)、膝上型或桌上型计算机、数码相机、数字记录装置、数字媒体 播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置,及 其类似物。数字视频装置实施视频压缩技术,例如在由MPEG-2、MPEG-4、ITU-TH. 263、ITU-T H. 264/MPEG-4第10部分高级视频译码(AVC)、当前在开发的高效视频译码(HEVC)标准所 定义的标准和这些标准的扩展中所描述的技术。视频装置可通过实施此类视频译码技术来 更有效地发射、接收、编码、解码和/或存储数字视频信息。
[0004] 视频译码技术包含空间(图片内)预测和/或时间或视图(图片间)预测以减少 或移除视频序列中固有的冗余。针对基于块的视频译码,视频切片(例如,图片或图片的一 部分)可分割为若干视频块,所述视频块也可被称为树块、译码单元(CU)和/或译码节点。 图片的经帧内译码(I)切片中的视频块是相对于同一图片中的相邻块中的参考样本使用 空间预测来编码。图片的经帧间译码(P或B)切片中的视频块可相对于同一图片中的相邻 块中的参考样本使用空间预测,或相对于其它参考图片中的参考样本使用时间预测。图片 可称为帧,且参考图片可称为参考帧。
[0005] 空间或时间预测针对待译码的块产生预测性块。残余数据表示在待译码的原始块 与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本的块的运动 向量及指示在经译码块与预测性块之间的差的残余数据来编码。经帧内译码块是根据帧内 译码模式及残余数据来编码。为进行进一步压缩,可将残余数据从像素域变换到变换域,从 而产生接着可被量化的残余变换系数。最初以二维阵列布置的经量化变换系数可经扫描, 以便产生变换系数的一维向量,且可应用熵译码以实现甚至更多的压缩。


【发明内容】

[0006] 大体上,本发明描述用于多视图视频译码的视图间运动预测和/或视图间残余预 测的技术。更特定来说,本发明描述用于产生和更新用于视图间运动预测和/或视图间残 余预测的深度图估计的技术。在一些实例中,多个相依视图中的每一者与相依深度视图估 计相关联,所述相依深度视图估计可基于相对于基本视图的相依视图的纹理数据的译码而 产生或更新。在此些实例中,相依深度图估计中的每一者可经变形到基本视图以产生多个 基本深度图估计中的相应一者。每一相依深度图估计和相应基本深度图估计用于与多个相 依视图中的相应一者相关联的深度图估计对。
[0007] 在一些实例中,在对共同视图中的非锚点图片的解码之后更新深度图估计对的基 本深度图估计中的每一者。可将经更新基本深度图估计变形到相应相依视图以产生经更新 相依深度图估计。在一些实例中,对于相依视图中的锚点图片,可停用视图间运动预测,而 对于相依视图中的非锚点图片,启用视图间运动预测。
[0008] 相依视图的视图间运动预测和/或视图间残余预测可基于其经更新相依深度图 估计。本文描述的技术可通过避免不同相依视图的深度图估计之间的相依性来促进相依视 图的独立解码。举例来说,用于一个相依视图的视图间运动预测和/或视图间残余预测的 深度图估计将不取决于变形另一相依视图的深度图估计。因此,在经译码多视图视频数据 中可用的各种视图的位流提取功能性可改善。
[0009] 在一个实例中,一种对视频数据进行译码的方法,所述视频数据包括至少一个基 本视图和多个相依视图,其中所述多个相依视图取决于所述基本视图,所述方法包括:对于 所述相依视图中的每一者,相对于存取单元的所述基本视图的纹理数据使用所述相依视图 的视差运动信息对所述存取单元的所述相依视图的纹理数据进行译码。所述方法进一步包 括对于所述相依视图中的每一者,基于所述相依视图的所述视差运动信息产生所述存取单 元的相依深度图估计;以及将所述相依深度图估计中的每一者变形到所述基本视图以产生 所述存取单元的多个基本深度图估计中的相应一者。所述相依深度图估计中的每一者和所 述相应基本深度图估计形成所述存取单元的多个深度图估计对中的相应一者且与所述多 个相依视图中的相应一者相关联。
[0010] 在另一实例中,一种装置包括用于对视频数据进行译码的视频译码器,所述视频 数据包括至少一个基本视图和多个相依视图,其中所述多个相依视图取决于所述基本视 图。所述视频译码器经配置以对于所述相依视图中的每一者,相对于存取单元的所述基本 视图的纹理数据使用所述相依视图的视差运动信息对所述存取单元的所述相依视图的纹 理数据进行译码,且对于所述相依视图中的每一者,基于所述相依视图的所述视差运动信 息产生所述存取单元的相依深度图估计。所述视频译码器进一步经配置以将所述相依深度 图估计中的每一者变形到所述基本视图以产生所述存取单元的多个基本深度图估计中的 相应一者。所述相依深度图估计中的每一者和所述相应基本深度图估计形成所述存取单元 的多个深度图估计对中的相应一者且与所述多个相依视图中的相应一者相关联。
[0011] 在另一实例中,一种用于对视频数据进行译码的装置,所述视频数据包括至少一 个基本视图和多个相依视图,其中所述多个相依视图取决于所述基本视图,所述装置包括: 用于对于所述相依视图中的每一者相对于存取单元的所述基本视图的纹理数据使用所述 相依视图的视差运动信息对所述存取单元的所述相依视图的纹理数据进行译码的装置。所 述装置进一步包括用于对于所述相依视图中的每一者基于所述相依视图的所述视差运动 信息产生所述存取单元的相依深度图估计的装置,以及用于将所述相依深度图估计中的每 一者变形到所述基本视图以产生所述存取单元的多个基本深度图估计中的相应一者的装 置。所述相依深度图估计中的每一者和所述相应基本深度图估计形成所述存取单元的多个 深度图估计对中的相应一者且与所述多个相依视图中的相应一者相关联。
[0012] 在另一实例中,一种计算机可读存储媒体具有存储于其上的指令,所述指令当由 经配置以对包括至少一个基本视图和多个相依视图的视频数据进行译码的视频译码器的 一或多个处理器执行时致使所述视频译码器进行以下操作,其中所述多个相依视图取决于 所述基本视图:对于所述相依视图中的每一者,相对于存取单元的所述基本视图的纹理数 据使用所述相依视图的视差运动信息对所述存取单元的所述相依视图的纹理数据进行译 码。所述指令进一步致使所述视频译码器对于所述相依视图中的每一者,基于所述相依视 图的所述视差运动信息产生所述存取单元的相依深度图估计;以及将所述相依深度图估计 中的每一者变形到所述基本视图以产生所述存取单元的多个基本深度图估计中的相应一 者。所述相依深度图估计中的每一者和所述相应基本深度图估计形成所述存取单元的多个 深度图估计对中的相应一者且与所述多个相依视图中的相应一者相关联。
[0013] 在附图和以下描述中陈述一或多个实例的细节。从描述和附图以及从权利要求书 将明了其它特征、目标和优点。

【专利附图】

【附图说明】
[0014] 图1是说明实例性视频编码和解码系统的框图,所述系统可经配置以利用本发明 中描述的技术来产生深度图估计以用于多视图视频译码中的视图间运动预测和/或视图 间残余预测。
[0015] 图2是说明相对于多个空间相邻块的实例性当前视频块的概念图,用于当前块的 空间运动向量预测符可从所述空间相邻块推导。
[0016] 图3是说明包含当前视频块的实例性图片和包含可从其推导时间运动向量预测 符(TMVP)的参考块的时间参考图片的概念图。
[0017] 图4是说明各自包含多个视图的多个存取单元的实例性图片以及基于估计深度 图的视图间运动向量预测符(IVMP)的推导的概念图。
[0018] 图5是说明如当前界定且根据本发明的技术用于视图间运动预测和/或视图间残 余预测的深度图估计的产生之间的实例性差异的概念图。
[0019] 图6是说明根据本发明的技术用于视图间运动预测和/或视图间残余预测的深度 图估计的产生的实例的概念图。
[0020] 图7是说明根据本发明的用于深度图估计的产生的实例性技术的流程图。
[0021] 图8是说明根据本发明的用于对纹理数据进行译码且产生锚点图片的深度图估 计的实例性技术的流程图。
[0022] 图9是说明根据本发明的用于对纹理数据进行译码且产生非锚点图片的深度图 估计的实例性技术的流程图。
[0023] 图10是说明视频编码器的实例的框图,所述视频编码器可实施本发明中描述的 技术来产生深度图估计以用于多视图视频译码中的视图间运动预测和/或视图间残余预 测。
[0024] 图11是说明视频解码器的实例的框图,所述视频编码器可实施本发明中描述的 技术来产生深度图估计以用于多视图视频译码中的视图间运动预测和/或视图间残余预 测。

【具体实施方式】
[0025] 本发明中描述的技术大体上涉及多视图视频译码,例如两个或两个以上视图的译 码。更特定来说,所述技术涉及使用多视图译码(MVC)过程的视频译码,所述过程例如MVC 加深度过程。举例来说,所述技术可应用于3D-HEVC编码器-解码器(编解码器),其中使 用MVC或MVC加深度译码过程。用于3D-HEVC译码过程的HEVC扩展当前在开发中,且如当 前建议,利用了MVC或MVC加深度译码过程。另外,本发明中描述的技术涉及在例如根据 3D-HEVC的视频译码等多视图视频译码的上下文中的运动向量预测和/或残余预测。本文 描述的技术可由根据包含本发明中描述的标准的多种视频译码标准中的任一者配置的视 频编解码器实施。
[0026] 作为一个实例,本发明中描述的技术可由经配置以执行如上文论述的3D-HEVC译 码过程的高效视频译码(HEVC)编解码器实施。然而,可能可经扩展或修改以与本发明的 技术一起使用的其它实例性视频译码标准包含ITU-TH. 261、IS0/IECMPEG-1视觉、ITU-T H. 262 或IS0/IECMPEG-2 视觉、ITU-TH. 263、IS0/IECMPEG-4 视觉和ITU-TH. 264(也称 为IS0/IECMPEG-4AVC),包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。MVC 的联合草案在"用于一般视听服务的高级视频译码"(ITU-T推荐H. 264, 2010年3月)中描 述,其在 2012 年 6 月 6HbJAAhttp://www.itu.int/ITU-T/recommendations/rec.aspx? id= 10635 下载。
[0027] 高效视频译码(HEVC)当前正由ITU-T视频译码专家组(VCEG)和IS0/IEC动画专 家组(MPEG)的视频译码联合合作组(JCT-VC)开发。HEVC的新近草案可得自:
[0028] http://wgll.sc29.org/ict/docenduser/currentdocument,php?id= 5885/TCTVC-I1003-v2〇称为"HEVC工作草案7"的HEVC标准的另一新近草案在2012 年6 月 6 日可从以下地址下载:http://phenix.it~sudparis.eu/ict/docenduser/ documents/9Geneva/wgll/.TCTVC-I1003-v3.zip〇HEVC工作草案 7 的完整弓|用是布罗斯 (Bross)等人文献HCTVC-I1003,"高效视频译码(HEVC)文字规范草案7"(ITU-TSG16WP3 和IS0/IECJTC1/SC29/WG11的视频译码联合合作组(JCT-VC),瑞士日内瓦第9次会议, 2012年4月27日到2012年5月7日)。HEVC标准的AVC兼容视频加深度扩展的新近草案 可从 http://phenix.it-sudparis.eu/ict2/docenduser/currentdocument,php?id= 456下载。此文献的完整引用是哈努克色拉(Hannuksela)等人的JCT3V-B1002,"3D-AVC 草案文本4"(ITU-TSG16和ISO/IEC/JDTC1/SC29/WG11的3D视频译码扩展开发联合合 作组(JCT3V),第2次会议,中国上海,2012年10月13日到2012年10月19日)。3D-HEVC 的最新参考软件HM版本3. 0可从以下链接下载:https: //hevc.hhi.fraunhofer.de/svn/ svn3DVCSoftware/tags/HTM-3. 0/〇 用于 3D-HEVC的软件HM版本 3. 0 的软件描述在wl2559 号文献中描述。wl2559的完整引用是舒瓦茨(Schwarz)等人的"基于HEVC的3D视频译码 的考虑下的测试模型"(MPEG会议IS0/IECJTC1/SC29/WG11MPEG2011/N12559,加利福尼亚 州圣何塞,2012年2月)。
[0029] 当前由动画专家组(MPEG)开发的基于HEVC的3D视频译码(3D-HEVC)编解码器 的实例在MPEG文献m22570、m22571和m23698中描述。m22570的完整引用为:舒瓦茨等 人的"夫琅和费HHI的3D视频译码技术建议的说明(HEVC兼容配置A) "(MPEG会议ISO/ IECJTC1/SC29/WG11 文献MPEG11/M22570,瑞士日内瓦,2011 年 11 月 /12 月)。m22571 的完整引用为:舒瓦茨等人的"夫琅和费HHI的3D视频技术建议的说明(HEVC兼容配置 B)"(MPEG会议IS0/IECJTC1/SC29/WG11 文献MPEG11/M22571,瑞士日内瓦,2011 年 11 月 /12月)。m23698的完整引用为:舒瓦茨等人的"HHI的视图间运动参数预测的3D-HEVC-CE3 结果"(MPEG会议ISO/IECJTC1/SC29/WG11 文献MPEG12/M23698,美国圣何塞,2012 年 2 月)。
[0030] 先前参考中的每一者以其相应全文引用的方式并入本文。本发明中描述的技术不 限于这些标准,且可扩展到其它标准,包含依赖于运动向量预测和/或残余预测来视频译 码的技术。
[0031] 图1是说明实例性视频编码和解码系统10的框图,所述系统可经配置以利用本发 明中描述的技术来产生深度图估计以用于多视图视频译码中的视图间运动预测和/或视 图间残余预测。如图1的实例中所示,系统10包含源装置12,其产生经编码视频以用于由 目的地装置14解码。源装置12可将经编码视频经由通信信道16发射到目的地装置14, 或可将经编码视频存储在存储装置36 (例如存储媒体或文件服务器)上,使得经编码视频 可在需要时由目的地装置14存取。源装置12和目的地装置14可包括广泛多种的装置中 的任一者,包含桌上型计算机、笔记本(即,膝上型)计算机、平板计算机、机顶盒、电话手持 机(包含蜂窝式电话或手持机和所谓的智能电话)、电视机、相机、显示装置、数字媒体播放 器、视频游戏控制台或类似物。
[0032] 在许多情况下,此些装置可经配备以用于无线通信。因此,通信信道16可包括无 线信道。或者,通信信道16可包括有线信道、无线与有线信道的组合,或适合于经编码视频 数据的发射的任一其它类型的通信信道或通信信道组合,例如射频(RF)频谱或者一或多 个物理传输线。在一些实例中,通信信道16可形成例如局域网(LAN)、广域网(WAN)或全球 网(例如,因特网)的基于包的网络的部分。通信信道16因此通常表示用于将视频数据从 源装置12发射到目的地装置14的任何合适通信媒体或不同通信媒体的集合,包含有线或 无线媒体的任一合适组合。通信信道16可包含路由器、交换器、基站,或可用以促进从源装 置12到目的地装置14的通信的任何其它设备。
[0033] 如图1的实例中进一步展示,源装置12包含视频源18、视频编码器20和输出接口 22。视频源18可包含视频俘获装置。视频俘获装置例如可包含以下各项中的一或多者:摄 像机,含有先前俘获视频的视频存档,用以从视频内容提供者接收视频的视频馈送接口,和 /或用于产生计算机图形数据作为源视频的计算机图形系统。作为一个实例,如果视频源 18为摄像机,那么源装置12和目的地装置14可形成所谓的像机电话或视频电话,例如,如 智能电话或平板计算机或其它移动计算装置中那样。然而本发明中描述的技术不限于无线 应用或设定,且可应用于包含视频编码和/或解码能力的非无线装置。源装置12和目的地 装置14因此仅为可支持本文描述的技术的译码装置的实例。
[0034] 视频编码器20可对所俘获、预俘获或计算机产生的视频进行编码,如下文将更详 细描述。视频编码器20可将经编码视频输出到输出接口 22,所述输出接口可经由通信信道 16将经编码视频提供到目的地装置14。输出接口 22在一些实例中可包含调制器/解调器 ("调制解调器")和/或发射器。
[0035] 输出接口 22可另外或替代地将由视频编码器20编码的所俘获、预俘获或计算机 产生的视频提供到存储装置36以用于稍后检索、解码和消耗。存储装置36可包含蓝光光 盘、DVDXD-R0M、快闪存储器或用于存储经编码视频的任一其它合适的数字存储媒体。目的 地装置14可存取存储在存储装置上的经编码视频,对此经编码视频进行解码以产生经解 码视频且重放此经解码视频。
[0036] 存储装置36可另外或替代地包含能够存储经编码视频且将所述经编码视频发射 到目的地装置14的任一类型的服务器。实例文件服务器、网络服务器(例如,用于网站)、 FTP服务器、网络附接存储(NAS)装置、本地磁盘驱动器,或能够存储经编码视频数据且将 其发射到目的地装置的任一其它类型的装置。经编码视频数据从存储装置36的发射可为 流式传输发射、下载发射或两者的组合。目的地装置14可根据任一标准数据连接(包含因 特网连接)存取存储装置36。此连接可包含无线信道(例如,Wi-Fi连接或无线蜂窝式数 据连接)、有线连接(例如,DSL、电缆调制解调器等等)、有线与无线信道的组合,或适合于 存取存储在文件服务器上的经编码视频数据的任一其它类型的通信信道。
[0037] 在图1的实例中,目的地装置14包含用于接收信息(包含经译码视频数据)的输 入接口 28、视频解码器30和显示装置32。由输入接口 28接收的信息可包含多种语法信息, 其由视频编码器20产生以供视频解码器30用于对相关联经编码视频数据进行解码。视频 编码器20和视频解码器30中的每一者可形成能够对视频数据进行编码或解码的相应编码 器-解码器(编解码器)的部分。
[0038] 目的地装置14的显示装置32表示能够呈现视频数据供观看者消耗的任一类型的 显示器。虽然展示为与目的地装置14集成,但显示装置32可与目的地装置14集成或在目 的地装置14外部。在一些实例中,目的地装置14可包含集成显示装置且还经配置以与外 部显示装置介接。在其它实例中,目的地装置14可为显示装置。大体上,显示装置32向用 户显示经解码视频数据,且可包括多种显示装置中的任一者,例如液晶显示器(LCD)、等离 子显示器、有机发光二极管(0LED)显示器,或另一类型的显示装置。
[0039] 如上文论述,本发明中描述的技术大体上涉及多视图或3D视频译码,例如涉及两 个或两个以上纹理视图和/或包含纹理和深度分量的视图的译码。在一些实例中,3D视频 译码技术可使用多视图译码(MVC)或MVC加深度过程,例如当前在开发的3D-HEVC标准中 那样。在一些实例中,由视频编码器20编码且由视频解码器30解码的视频数据在任一给 定时间实例处(即,"存取单元"内)包含两个或两个以上图片,或在任一给定时间实例处两 个或两个以上图片可从中推导的数据。
[0040] 在一些实例中,例如视频源18的装置可例如通过使用两个或两个以上空间偏移 相机或其它视频俘获装置来俘获共同场景而产生所述两个或两个以上图片。从稍微不同的 水平位置同时或近似同时俘获的同一场景的两个图片可用以产生三维效果。在一些实例 中,视频源18 (或源装置12的另一组件)可使用深度信息或视差信息来从在给定时间实例 处的第一视图的第一图片产生在所述给定时间实例处的第二(或其它额外)视图的第二 (或其它额外)图片。在此情况下,存取单元内的视图可包含对应于第一视图的纹理分量, 和可与所述纹理分量一起用以产生第二视图的深度分量。深度或视差信息可由俘获第一视 图的视频俘获装置例如基于相机参数或关于视频俘获装置的配置和第一视图的视频数据 的俘获的其它已知信息而确定。深度或视差信息可另外或替代地例如由视频源18或源装 置12的另一组件根据相机参数和/或第一视图中的视频数据来计算。
[0041] 为了呈现3D视频,显示装置32可同时或近似同时显示与共同场景的不同视图相 关联的两个图片,所述不同视图是同时或近似同时俘获的。在一些实例中,目的地装置14 的用户可佩戴有源眼镜来快速且交替地关闭左镜片和右镜片,且显示装置32可与有源眼 镜同步地在左视图与右视图之间快速切换。在其它实例中,显示装置32可同时显示所述两 个视图,且用户可佩戴例如具有极化镜片的无源眼镜,其对视图进行过滤以致使适当视图 通过到用户的眼睛。在其它实例中,显示装置32可包括自动立体显示器,其不需要用户佩 戴眼镜来感知3D效果。
[0042] 视频编码器20和视频解码器30可根据本文提到的视频译码标准中的任一者来操 作,例如HEVC标准和当前在开发的3D-HEVC扩展。当根据HEVC标准操作时,视频编码器20 和视频解码器30可符合HEVC测试模型(HM)。然而本发明的技术不限于任一特定译码标 准。
[0043] HM将视频数据块称为译码单元(⑶)。大体上,⑶具有与根据H. 264译码的宏块类 似的目的,不同的是CU不具有与H. 264的宏块相关联的大小区别。因此,CU可经分裂为若 干子CU。大体上,本发明中对CU的参考可指代图片的最大译码单元(LCU)或LCU的子CU。 举例来说,位流内的语法数据可界定LCU,其为在像素数目方面的最大译码单元。LCU可经 分裂为若干子⑶,且每一子⑶可经分裂为若干子⑶。位流内的语法数据可界定IXU可经 分裂的最大次数,称为最大CU深度。因此,位流也可界定最小译码单元(SCU)。
[0044] IXU可与阶层式四叉树数据结构相关联。大体上,四叉树数据结构包含每⑶一个 节点,其中根节点对应于IXU。如果⑶经分裂为四个子⑶,那么对应于⑶的节点包含用于 对应于所述子CU的四个节点中的每一者的参考。四叉树数据结构的每一节点可提供用于 对应CU的语法数据。举例来说,四叉树中的节点可包含分裂旗标,其指示对应于所述节点 的CU是否经分裂为若干子CU。用于CU的语法元素可以递归方式界定,且可取决于CU是否 经分裂为若干子⑶。
[0045] 未经分裂的⑶可包含一或多个预测单元(PU)。大体上,PU表示对应⑶的全部或 一部分,且包含用于对与PU相关联的视频数据块进行译码的数据。举例来说,PU可包含指 示用于对相关联视频数据块进行译码的预测模式的数据,例如所述块是经帧内译码还是帧 间译码。经帧内译码块是基于同一图片中的已经译码块来译码。经帧间译码块是基于不同 图片的已经译码块来译码。所述不同图片可为时间上不同的图片,即在视频序列中在当前 图片之前或之后的图片。
[0046] 在多视图译码的情况下,例如在3D-HEVC中,所述不同图片可为来自与当前图片 相同的存取单元但与不同于当前图片的视图相关联的图片。在此情况下,帧间预测可称为 视图间译码。当对非基本视图(例如,相依视图)的图片进行译码时,可将来自同一存取单 元但不同视图(例如,来自参考视图)的图片添加到参考图片列表中。可将视图间参考图 片放到参考图片列表的任一位置,如任一帧间预测(例如,时间或视图间)参考图片的情况 那样。
[0047] 所述不同图片的用于预测当前图片的块的块由预测向量识别。在多视图译码中, 存在两种预测向量。一种是指向时间参考图片中的块的运动向量,且对应帧间预测称为运 动补偿预测(MCP)。另一类型的预测向量是视差向量,其指向在同一存取单元当前图片中的 图片中但不同视图的块。关于视差向量,对应帧间预测称为视差补偿预测(DCP)。
[0048] 界定运动向量或视差向量的数据可描述例如预测向量的水平分量、预测向量的 垂直分量以及预测向量的分辨率(例如,整数精度、四分之一像素精度或八分之一像素精 度)。PU的数据也可包含指示预测方向的数据,例如用以识别应使用参考图片列表L0和L1 中的哪一者。PU的数据还可包含指示运动向量或视差运动向量指向的参考图片的数据,例 如到参考图片列表中的参考图片索引。界定PU的用于CU的数据也可描述例如CU分割为 一或多个PU。分割模式可在CU是否未经译码、经帧内预测模式编码或经帧间预测模式编码 之间不同。
[0049] 除了具有一或多个ro之外,⑶还可包含一或多个变换单元(TU)。在使用PU的 预测之后,视频编码器可针对⑶的对应于PU的部分计算残余值,其中这些残余值也可称为 残余数据。残余值可包括像素差值,例如经译码像素与预测性像素之间的差,其中经译码像 素可与待译码像素块相关联,且预测性像素可与用以预测经译码块的一或多个像素块相关 联。TU不一定限于PU的大小。因此,TU可大于或小于同一⑶的对应PU。在一些实例中, TU的最大大小可为对应CU的大小。本发明使用术语"块"或"视频块"来指代CU、PU和/ 或TU中的任一者或组合。
[0050] 为了进一步压缩块的残余值,可将残余值变换为将数据(也称为"能量")尽可能 压缩到系数中的变换系数的集合。变换技术可包括离散余弦变换(DCT)过程或概念上类似 的过程、整数变换、小波变换或其它类型的变换。所述变换将像素的残余值从空间域转换到 变换域。变换系数对应于通常与原始块大小相同的二维系数矩阵。换句话说,存在恰好与 原始块中的像素一样多的变换系数。然而,由于变换,许多变换系数可具有等于零的值。
[0051] 视频编码器20可随后量化变换系数的值以进一步压缩视频数据。量化通常涉及 将相对大范围内的值映射到相对小范围中的值,因此减少表示经量化变换系数所需的数据 量。量化过程可减少与系数中的一些或全部相关联的位深度。
[0052] 在量化之后,视频编码器20可扫描变换系数,从而从包含经量化变换系数的二维 矩阵产生一维向量。视频编码器20可随后对一维向量进行熵编码以更进一步压缩数据。 大体上,熵译码包括共同地压缩经量化变换系数序列和/或其它语法信息的一或多个过 程。熵译码可包含例如内容自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码 (CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码, 或另一熵编码方法。
[0053] 如上文论述,界定视频数据块的运动向量或视差向量的数据可包含预测向量的水 平和垂直分量以及预测向量的分辨率。在其它实例中,界定运动向量或视差向量的数据可 在称为运动向量预测符(MVP)的方面描述向量。用于当前PU的MVP可为空间相邻PU、即 邻近于当前正译码TO的PU的运动向量。替代地,用于当前PU的MVP可为另一图片中的位 于同一地点的块或此位于同一地点的块的相邻块的运动向量。作为又一替代,用于当前PU 的MVP可为从视图间参考图片(S卩,与当前图片在同一存取单元中但来自不同视图的参考 图片)中的参考块推导的运动向量或视差向量。
[0054] 通常,MVP的候选列表以经界定方式形成,例如通过以具有最小振幅的MVP到具有 最大振幅的MVP(S卩,待译码当前PU与参考PU之间的最小到最大位移)列出MVP,或基于参 考块的位直(例如,空间左边、空间上方、视图间参考图片或时间参考图片)列出MVP。
[0055] 在形成MVP的列表之后,视频编码器20可评估MVP中的每一者以确定哪一者提供 最佳地匹配于为对视频进行编码而选择的给定速率与失真简档的最佳速率与失真特性。视 频编码器20可相对于MVP中的每一者执行速率-失真优化(RD0)程序,选择MVP中具有最 佳RD0结果的一者。替代地,视频编码器20可选择存储到列表的MVP中最佳地近似为当前 PU确定的运动向量的一者。在任一情况下,视频编码器20可使用索引来指定选定MVP,所 述索引识别MVP中在MVP候选列表中的选定一者。视频编码器20可在经编码位流中用信 号发送此索引以由视频解码器30使用。
[0056] 根据用于使用MVP的一个技术,视频编码器20和视频解码器30可实施称为"合并 模式"的模式。大体上,根据合并模式,当前块(例如,PU)从另一先前经译码块(例如,相 邻块)或者时间或视图间参考图片中的块继承预测向量。当实施合并模式时,视频编码器 20以经界定方式构造候选MVP列表(参考图片和运动向量),选择候选MVP中的一者,且在 位流中将识别选定MVP的候选列表索引用信号发送到视频解码器30。视频解码器30在实 施合并模式中接收此候选列表索引,根据经界定方式重构MVP候选列表,且在候选列表中 选择由所述索引指示的MVP中的所述一者。视频解码器30随后例示MVP中的所述选定一 者作为在与MVP中的所述选定一者相同分辨率下且指向MVP中的所述选定一者所指向的同 一参考图片的用于当前PU的预测向量。在解码器侧,一旦候选列表索引经解码,便继承选 定候选的对应块的所有运动参数,例如运动向量、预测方向和参考图片索引。合并模式通过 允许视频编码器20用信号发送到候选MVP列表中的索引而不是界定预测向量的所有信息, 来促进位流效率。
[0057] 视频编码器20和视频解码器30利用MVP的另一技术称为"高级运动向量预 测"(AMVP)。类似于合并模式,当实施AMVP时,视频编码器20以经界定方式构造候选MVP 列表,选择候选MVP中的一者,且在位流中将识别选定MVP的候选列表索引用信号发送到视 频解码器30。类似于合并模式,当实施AMVP时,视频解码器30以经界定方式重构候选MVP 列表,对来自编码器的候选列表索引进行解码,且基于候选列表索引选择且例示MVP中的 一者。
[0058] 然而,与合并模式相反,当实施AMVP时,视频编码器20还用信号发送参考图片列 表和到参考图片列表中的参考图片索引,因此指定由候选列表索引指定的MVP所指向的参 考图片。另外,对于AMVP,视频编码器20和视频解码器30两者基于选定参考图片列表和到 选定列表中的参考图片索引来构造候选列表。特定来说,选择哪些候选以包含在列表中是 基于选定参考图片列表和到选定列表中的参考图片索引来确定。此外,视频编码器20确定 当前块的运动向量差(MVD),其中MVD是MVP与原本将用于当前块的实际运动向量或视差运 动向量之间的差。
[0059] 对于AMVP,除了参考图片索引和候选列表索引之外,视频编码器20在位流中用信 号发送用于当前块的MVD。由于给定块的参考图片索引和预测向量差的信令,AMVP可能不 如合并模式那样高效,但可提供经译码视频数据的改善保真度。大体上,将本文描述的技术 描述为在使用AMVP的视频译码器中实施。然而,技术在一些实例中可由使用合并模式、跳 过模式或使用MVP来表示图片间预测向量的任一其它模式的视频译码器应用。
[0060] 最有效译码工具中的一者是例如使用视图间运动向量预测符(IVMP)用于合并模 式或AVMP的视图间运动预测,其中相依视图中的块的运动参数是基于同一存取单元中的 另一视图中的已经译码运动参数来预测或推断。为了推导相依视图中的当前块的候选运动 参数,例如视频编码器20或视频解码器30将与当前块相关联的深度值转换为视差向量。 视频译码器使用视差向量来识别参考(例如,基本)视图的参考图片中的参考(即,预测) 块。视频译码器可使用参考块的运动参数或视差向量作为当前块的运动参数,例如用于当 前块的IVMP。
[0061] 另一译码工具是视图间残余预测,其为当前HEVC3D视频译码扩展的部分。在视 图间残余预测中,基本上存在两种预测:正从参考块译码的当前块的预测;以及从残余参 考块的残余值对当前块的残余值的预测。残余参考块是来自同一存取单元中的参考视图中 的参考图片的块,且可以类似于识别用于视图间运动预测的参考块的方式基于当前块的视 差向量来识别。在视图间残余预测中,从参考块对当前块的第一预测可为(但不一定为) 基于通过当前块的视差向量识别的参考块的视图间运动预测。换句话说,视图间运动预测 和视图间残余预测中的一者或两者可用以对特定块进行译码。视图间运动预测和视图间残 余预测两者分别利用当前块的视差向量来识别参考块或残余参考块。
[0062] 3D-HEVC支持两种方法来构造用于视图间运动预测和视图间残余预测的视差向 量。根据所述方法中的一者,视频译码器直接从经译码深度视图分量推导视差向量。根据 由3D-HEVC支持的另一方法,视频译码器仅从视差向量和运动向量产生每一像素的视差向 量。这后一种方法在上文参考的m23698中简化。
[0063] 由3D-HEVC支持的后一种方法的一个问题在于,一或多个相依视图的视图间运动 预测译码取决于一或多个其它相依视图的译码。更特定来说,根据3D-HEVC的当前实施方 案,视频译码器基于用于相依视图的纹理数据的译码来推导用于第一相依视图的相依深度 图估计。视频译码器随后将相依深度图估计变形到基本(或参考)视图以产生由所有相依 视图共享的共同基本深度图估计。视频译码器随后将基本深度图估计变形到第二相依视图 以产生用于第二视图的相依深度图估计,且基于用于第二视图的相依深度图估计来实现第 二相依视图的纹理数据的视图间运动预测译码。
[0064] 以此方式,根据3D-HEVC的当前实施方案,第二相依视图的纹理数据的译码不独 立于第一相依视图的纹理数据的译码。第二相依视图的译码取决于第二相依深度图估计, 所述第二相依深度图估计是通过将第一相依深度图估计经由基本视图变形到第二相依视 图来推导。第一相依深度图又取决于第一相依视图的纹理数据的解码。3D-HEVC的当前实 施方案中的相依视图之间的此相依性即使当假设相依视图由于停用视图之间的纹理预测 而经独立译码时也存在。相依视图之间的此相依性导致缺乏位流提取功能性,例如共享同 一基本视图的两个立体操作点。举例来说,每当例如在第一相依视图中以DCP或其它方式 对特定CU或其它块进行译码之后推导相依深度图估计时,使用相依深度图估计来更新基 本深度图估计,其可用以推导较晚存取单元中的另一相依视图的深度图估计。
[0065] 本文描述的技术可通过避免不同视图的深度图估计之间的相依性来促进相依视 图的独立解码。举例来说,用于一个相依视图的视图间运动预测或视图间残余预测的深度 图估计将不取决于变形另一相依视图的深度图估计。因此,在经译码多视图视频数据中可 用的各种视图的位流提取功能性可改善。
[0066] 在根据本文描述的技术的一些实例中,多个相依视图中的每一者与相依深度视图 估计相关联,所述相依深度视图估计可基于相对于基本视图的相依视图的纹理数据的译码 而产生或更新。在此些实例中,相依深度图估计中的每一者可经变形到基本视图以产生多 个基本深度图估计中的相应一者。每一相依深度图估计和相应基本深度图估计用于与多个 相依视图中的相应一者相关联的深度图估计对。因此,与3D-HEVC的当前实施方案相反,共 同基本深度图估计未由相依视图中的每一者共享。而是,根据本发明的技术,每一相依视图 与包含相依深度图估计和基本深度图估计的相应深度图估计对相关联。
[0067] 在根据本发明的一些实例中,视频译码器(例如,视频编码器20或视频解码器30) 在基本视图中的非锚点图片的解码之后更新深度图估计对的基本深度图估计中的每一者。 视频译码器可将经更新基本深度图估计变形到相应相依视图以产生经更新相依深度图估 计。视频译码器可基于其经更新相依深度图估计来对相依视图的纹理数据进行视图间运动 预测译码。在一些实例中,对于相依视图中的锚点图片,可停用视图间运动预测,而对于相 依视图中的非锚点图片,启用视图间运动预测。
[0068] 虽然图1中未图示,但在一些方面中,视频编码器20和视频解码器30可各自与 音频编码器和解码器集成,且可包含适当的MUX-DEMUX单元或其它硬件和软件,以处置 共同数据流或单独数据流中的音频和视频两者的编码。如果适用,那么在一些实例中, MUX-DEMUX单元可符合ITUH. 223多路复用器协议,或例如用户数据报协议(UDP)等其它协 议。
[0069] 可将视频编码器20和视频解码器30各自实施为多种合适的编码器电路中的任一 者,例如一或多个微处理器、数字信号处理器OSP)、专用集成电路(ASIC)、现场可编程门 阵列(FPGA)、离散逻辑、软件、硬件、固件,或其任何组合。当所述技术部分地以软件实施时, 装置可将用于所述软件的指令存储在合适的非暂时性计算机可读媒体中,且使用一或多个 处理器以硬件执行所述指令以执行本发明的技术。可将视频编码器20和视频解码器30中 的每一者包含于一或多个编码器或解码器中,其中任一者可集成为相应装置中的组合式编 码器/解码器(CODEC)的部分。
[0070] 图2是说明相对于多个空间相邻(例如,邻近)块102A到102B和104A到104C 块的实例性当前视频块100的概念图,用于当前块的空间运动向量预测符可从所述空间相 邻块推导。空间相邻块102A到102B在当前块100的左边,且空间相邻块104A到104C在 当前块100上方。在一些实例中,视频块100以及视频块102A到102B和104A到104C可 为如当前在开发的HEVC标准中一般界定。
[0071] 空间相邻块102A到102B和104A到104C中的每一者与当前块100的空间关系可 如下描述。使用亮度位置(xP,yP)来相对于当前图片的左上方样本指定当前块的左上方亮 度样本。变量nPSW和nPSH表示亮度的当前块的宽度和高度。空间相邻块102A的左上方 亮度样本为xP-l,yP+nPSH。空间相邻块102B的左上方亮度样本为xP-l,yP+nPSH-l。空间 相邻块104A的左上方亮度样本为xP+nPSW,yP-1。空间相邻块104B的左上方亮度样本为 XP+nPSW-l,yP_l。空间相邻块104C的左上方亮度样本为xP-l,yP_l。虽然相对于亮度位 置来描述,但当前和参考块可包含色度分量。
[0072] 空间相邻块102A到102B和104A到104C中的每一者可提供候选空间运动向量预 测符(MVP),例如空间候选运动向量,以用于块100的例如根据合并模式或AVMP的运动向量 预测译码。通常,视频译码器选择当前块100左边的空间相邻块102A到102B中的一者来 提供第一空间MVP,称为块100的"mvA"。视频译码器随后选择当前块100上方的空间相邻 块104A到104C中的一者来提供第二空间MVP,称为块100的"mvB"。
[0073] 为了从空间相邻块102A到102B和104A到104C当中选择mvA和mvB,视频译码器 可确定空间相邻块102A到102B和104A到104C中的哪一者可用。再次,视频译码器可为 视频编码器(例如视频编码器20)或视频解码器(例如视频解码器30)。视频编码器和视 频解码器均可以相同预定方式构造用于合并模式或AVMP的MVP候选列表,使得例如编码器 可仅需要用信号发送到候选列表中的索引以用信号发送选定MVP。块102A到102B和104A到104C中的一些例如在所述块经帧内译码的情况下或在当前块100接近图片或切片边界 而定位的情况下可能不可用于提供候选MVP。视频译码器可基于预定偏好、速率-失真优化 (RDO)或其它因素从可用的空间相邻块102A到102B和104A到104C当中选择mvA和mvB。
[0074] 在说明的实例中,空间相邻块102A到102B和104A到104C分别在块100的左边 和上方。此布置是典型的,因为大多数视频译码器从图片的左上方以光栅扫描次序对视频 块进行译码。因此,在此些实例中,空间相邻块102A到102B和104A到104C将通常在当前 块100之前译码。然而在其它实例中,例如当视频译码器以不同次序对视频块进行译码时, 空间相邻块102A到102B和104A到104C可位于当前块100的右边或下方。
[0075] 图3是说明视频序列内的包含当前视频块100的实例性图片200A和时间参考图 片200B的概念图。时间参考图片200B是在图片200A之前译码的图片。而且,假定时间参 考图片200B和图片200A在同一视图内。时间参考图片200B不一定是在译码次序中紧邻 于图片200A之前的图片,且可在显示次序中在图片200A之后。视频译码器可从多个可能 的时间参考图片当中选择时间参考图片200B,且参考图片列表和参考图片索引值可指示将 选择时间参考图片中的哪一者。举例来说,如果当前切片是B切片,那么视频译码器可对切 片标头中的collocated_from_10_flag进行译码以指不参考图片图片是来自RefPicListO 还是RefPicListl。视频译码器还可对切片标头中的collocated_ref_idx进行译码以识别 列表中的图片中的图片。
[0076] 时间参考图片200B包含位于同一地点的块110,其相对于图片200A中当前块100 的位置在图片200B中位于同一地点。时间参考图片200B还包含用于图片200A中的当前 块100的时间参考块112。视频译码器可基于参考块112的预测参数来推导用于当前块100 的TMVP。替代地,视频译码器可基于位于同一地点的块110的右下角分区中的PU的预测参 数来推导用于当前块100的TMVP。大体上,在HEVC的命名中,视频译码器可使用右下方PU 到含有与当前块1〇〇位于同一地点的PU的CU的运动信息或含有与当前块100位于同一地 点的PU的⑶的PU内的右下方PU的运动信息来预测当前块100的运动信息。
[0077] 时间参考块112是位于同一地点的块110的空间相邻块。在说明的实例中,参考 块112在位于同一地点的块110的右边和下方。在一些实例中,参考块可为含有位于同一 地点的PU(例如,位于同一地点的块110)的⑶的右下方PU,或含有位于同一地点的PU的 ⑶的中心TO内的右下方PU。在其它实例中,参考块112可为位于同一地点的块110的任 一空间相邻(例如,邻近)块。在一些实例中,视频译码器可替代于或除了位于同一地点的 块的相邻块之外,从位于同一地点的块110推导用于当前块100的TMVP。
[0078] 为了从时间参考图片200B中的多个候选当中选择用于当前块100的TMVP,视频译 码器可确定哪些候选时间参考块可用。候选时间参考块中的一些例如在所述块经帧内译码 的情况下或在位于同一地点的块110接近图片或切片边界而定位的情况下可能不可用于 提供候选TMVP。如果一个以上TMVP候选可用,那么视频译码器可基于预定偏好、速率-失 真优化(RD0)或其它因素来选择候选中的一者。对于合并模式或AMVP经识别为用于当前 块的TMVP候选的运动向量可能需要基于时间位置按比例缩放,例如由当前图片和参考图 片的图片次序计数(P0C)值所反映。
[0079] 图4是说明多个存取单元的图片的概念图,每一存取单元包含多个视图。特定来 说,图4包含存取单元400A和400B,其各自可表示视频序列中的不同时间点(S卩,显示时间 或输出时间)。虽然说明两个存取单元400A和400B,但视频数据可包含在序列中相对于存 取单元400A向前和向后的许多额外存取单元,且存取单元400A和400B不需要为邻近或连 续的存取单元。
[0080] 包含存取单元400A和400B的视频数据为MVC视频数据,即包含共同场景的多个 视图。图4说明两个视图V(^PV\的图片。视频数据可包含图4中未图不的额外视图。
[0081] 存取单元400A包含Vi的图片200A。图片200A包含当前块100。存取单元400A 可称为当前存取单元,%可称为当前视图,且图片200A可称为当前图片。存取单元400A还 包含V。的图片202A。V。可称为相对于Vi的参考视图,且图片202A可称为相对于图片200A 的视图间参考图片。存取单元400B包含Vi的图片200B和V。的图片202B。Vi的图片200B 可称为用于图片200A的时间参考图片。
[0082] 3D-HEVC中的最有效译码工具中的一者是视图间运动预测(MP),其中相依视图 中的块的运动参数是基于同一存取单元中的另一视图(即,参考视图)中的已经译码运动 参数来预测或推断。为了包含视图间运动预测,用于3D-HEVC的AMVP模式以及合并模式已 经以将IVMP(视图间运动向量预测符)候选添加到用于待译码块的MVP的候选列表的方式 扩展。
[0083] 为了在AVMP中推导用于当前块100的IVMP,视频译码器识别块100中的样本 120A,以及视图间参考图片202A中的位于同一地点的样本120B。基于相对于视图间参考图 片202A的图片200A的视差信息,视频译码器确定视差向量122。视差信息可从图片200A 的深度图或其它深度信息推导。在图4说明的实例中,视频译码器从当前图片200A的深度 图估计300A(例如,深度图估计图片(DMEP))推导视差信息。更特定来说,视频译码器基于 深度图估计300A的对应于当前图片200A的块100中的样本120A的位置130A处的估计深 度值来确定视差向量122。如本文例如相对于图5到9更详细描述,视频译码器可基于使另 一图片(例如,参考(或基本)视图%的参考图片202A)的深度图估计变形来推导相依视 图Vi的纹理图片200A的深度图估计300A。
[0084] 基于视差向量122,视频译码器识别参考视图(V。)的视图间参考图片202A中的参 考块124。如果用于当前块100的参考图片索引参考视图间参考图片202A,那么视频译码器 将用于当前块100的IVMP设定为等于视差向量122,所述视差向量随后变为块100的所谓 的视差运动向量。特定来说,视差运动向量指向图片202A中作为用于图片200A中的块100A 的预测的参考块的块124。视差向量也可称为用于视图间运动预测的视差向量(DVIVMP), 其为经构造且用于视图间运动预测的视差向量。
[0085] 如果用于当前块100的当前参考图片索引参考存取单元400B中的时间参考图 片200B,那么视频译码器确定参考块124是否是基于参考与当前参考索引相同的存取单元 400B的运动向量而译码。在图4说明的实例中,参考块124是基于指向存取单元400B中 的图片202B中的块128B的运动向量126B而译码。在此些情况下,视频译码器将用于当前 块100的IVMP设定为等于指向Vi的时间参考图片200B中的时间参考块128A的运动向量 126A。运动向量126A对应于运动向量126B,例如所述运动向量的X、Y和其它值是相同的, 但运动向量126A和126B参考与同一存取单元中的不同视图相关联的不同图片。在一些实 例中,如果参考块124的运动向量指向与用于当前块100的参考图片索引不同的存取单元, 那么视频译码器可将IVMP视为不可用于当前块100。
[0086]对于合并模式(和跳过模式)中的视图间运动向量预测,以给定次序调查参考图 片列表的前两个参考索引。以与AMVP模式相同的方式推导针对参考索引0的运动向量候 选。如果所推导运动向量有效,那么参考索引0和所推导运动向量用于所考虑的假设。否 贝U,以相同方式测试参考索引1。如果其还导致无效运动向量,那么将运动假设标记为不可 用。为了偏好时间预测,在第一索引参考视图间参考图片的情况下可反转测试参考索引的 次序。如果所有潜在的运动假设均经标记为不可用,那么可不选择且在一些实例中无法选 择视图间候选,即IVMP。
[0087] 3D-HEVC中的另一译码工具是视图间残余预测。对于当前块100的视图间残余预 测,可基于视差向量122识别残余参考块。视差向量122识别参考视图V。中的图片202A的 块124,其在视图间残余预测的情况下充当残余参考块124。如上文论述,视频译码器可基 于深度图估计300A的对应于当前图片200A的块100中的样本120A的位置130A处的估计 深度值来确定视差向量122。如本文例如相对于图5到9更详细描述,视频译码器可基于使 另一图片(例如,参考(或基本)视图\的参考图片202A)的深度图估计变形来推导相依 视图%的纹理图片200A的深度图估计300A。
[0088] 对于当前块100的视图间残余预测,基本上存在两种预测。当前块100的第一预测 是相对于参考块,其可根据本文描述的技术中的任一者,例如时间或视图间运动预测。举例 来说,当前块的第一预测可基于根据如上所述的视图间运动预测的参考块124的预测。当 前块100的第二预测是基于参考块124的残余值(基于视差向量122而识别)的残余值的 预测。对于视图间残余预测,从视频编码器用信号发送到视频解码器的残余值是在参考块 和来自残余参考块的残余均从当前块减去之后的余数,例如在参考块124和对参考块124 进行译码之后的残余均从当前块100减去之后。以此方式,当前块100的残余通过视图间 残余预测可相对于当前块与参考块之间的差而减少,且因此,经变换、逆变换、量化、熵译码 和用信号发送以用于块100的译码的信息量可减少。
[0089] 图5是说明如3D-HEVC中当前界定且根据本发明的技术用于视图间运动预测和/ 或视图间残余预测的深度图估计(例如,深度图估计300A)的产生之间的实例性差异的概 念图。更特定来说,图5说明其中视频数据包含三个视图的实例:由%表示的基本(参考) 视图,第一相依(非基本)视图%和第二相依(非基本)视图V2。在图5的实例中,三个视 图的译码次序是:基本视图V〇,相依视图V\,和相依视图V2。虽然图5的实例包含二个视图, 但本发明的技术可应用于包含任一数目的视图的视频数据,包含任一数目的基本和参考视 图。
[0090] 图5说明视频流中在表示为I;和TN的两个不同时间点处的两个存取单元。存取 单元中的每一者包含用于视图中的每一者的相应纹理图片。L处的存取单元包含基本视图 V。的图片202B、相依视图Vi的图片200B和相依视图V2的图片204B。TN处的存取单元包 含基本视图V。的图片202A、相依视图Vi的图片200A和相依视图V2的图片204A。T。处的 存取单元可为锚点存取单元或随机存取单元,且I;处的存取单元的纹理图片200B、202B和 204B可称为锚点图片或随机存取图片。TN处的存取单元的纹理图片200A、202A和204A可 称为非锚点图片或非随机存取图片,且TN处的存取单元可称为非锚点存取单元或非随机存 取单元。
[0091] 在图5的实例中,纹理图片中的每一者与一个估计深度图相关联。举例来说,I; 处的基本视图V。的图片202B与基本深度图估计302B相关联,T。处的相依视图Vi的图片 200B与相依深度图估计300B相关联,且T。处的相依视图V2的图片204B与相依深度图估 计304B相关联。类似地,TN处的基本视图%的图片202A与基本深度图估计302A相关联, TN处的相依视图Vi的图片200A与相依深度图估计300A相关联,且TN处的相依视图V2的 图片204A与相依深度图估计304A相关联。
[0092] 在随机存取单元中,例如根据3D-HEVC,锚点基本视图纹理图片(例如,图片202B) 的所有块经帧内译码。通常,相依视图的锚点纹理图片(例如,图片200B和204B)的大多 数块是使用DCP译码的,且剩余块经帧内译码。因此,如图5中说明,视频译码器(例如,视 频编码器20或视频解码器30)使用DCP相对于基本视图V。的锚点图片202B的块对相依 视图%的锚点图片200B的块中的至少一些进行译码(402),且使用DCP相对于基本视图V。 的锚点图片202B的块对相依视图V2的锚点图片204B的块中的至少一些进行译码(404)。
[0093] 当对相依视图Vi中的锚点图片200B进行译码时,其经帧内译码或在视图间运动 预测和视图间残余预测经停用的情况下以DCP帧间译码,因为不存在深度信息(例如,相依 深度图估计300B)可用。在对相依视图 ' 中的锚点图片200B进行译码之后,视频译码器 可例如通过将相依深度图估计300B中对应于纹理图片200B的经视差补偿块的块的所有深 度样本设定为等于所推导深度值,来将用于DCP的经译码视差向量转换为深度值(406)。也 就是说,视频译码器可从对应视差向量计算深度值以产生深度图估计300B的块。通常,相 对小视差向量对应于在与屏幕(有时称为汇聚平面)相同的深度处显示的对象,而相对大 视差向量对应于在相对远离屏幕的位置(例如,在屏幕前方远处或在屏幕后方远处,或汇 聚平面)显示的对象。以此方式,视频译码器可基于 ' 中的锚点图片200B的经译码运动 信息来产生或更新相依深度图估计300B。
[0094] 根据当前3D-HEVC实施方案,视频译码器可利用深度图估计300B用于对相依视图 %中的随后纹理图片(例如,非锚点纹理图片300A)进行译码且对V2中的纹理图片(例如, 纹理图片204B和204A)进行译码。举例来说,视频译码器可将相依深度图估计300B变形 到基本视图%以产生基本深度图估计302B(408),且随后将基本深度图估计302B变形到相 依视图V2以产生相依深度图估计304B(410)。将单个共同基本深度图估计302B变形到第 二相依视图V2以产生相依深度图估计304B(410)在图5中以虚线箭头说明,以指示共同基 本深度图估计到额外相依视图的此变形不是根据本发明的技术来执行。
[0095] 深度图估计的变形可包含基于相机参数或指示视图之间的空间关系的其它信息, 例如通过应用变换来修改深度图估计的深度值。变形可另外包含已知的技术,例如应用孔 填充算法。用于变形的实例性技术在本文参考的W12559中描述,例如W12559的章节3. 2. 1 内。
[0096] 在一个实例中,3D变形过程涉及将来自第一视图的点投影到第二视图的图像平面 中。为此,需要内在相机参数A和外在相机参数E=[R|t]。内在矩阵A将3D相机坐标变 换为其2D图像坐标。外在矩阵E= [R|t]将世界坐标变换为相机坐标,其由旋转矩阵R和 平移向量t组成。两步骤变形可以两个等式公式化,例如以下等式(1)和(3)。
[0097] 使用第一视图的深度将第一视图中的第一像素(\,^)变形到世界坐标(Xw,Yw, Zw): 乂] f M 、
[0098]Yw =R^3rzrA^rvr -t3xUr (1) UJ l lu J
[0099] 其中下标r指示第一视图,且%是第一视图中在位置(w,\)处的深度值,如下计 算 二_1_
[0100] (Jl-___L]+丄 (2) 255vZnearZfaryZfai
[0101] 其中V是深度图值的8位强度。
[0102] 应注意,假定值z、Znem和Zto为全正或全负值。
[0103] 随后将3D点映射到第二视图: 'If、
[0104] zvvv -A3x3vR3x3vYw +t3xlr (3) VUvv^-yj
[0105] 其中下标V指代虚拟视图。
[0106] 如果多个像素变形到第二视图中的同一位置,那么最靠近相机的像素获胜,因此 前景像素将遮挡背景像素。
[0107] 视频译码器可使用视图间运动预测和/或视图间残余预测以及例如上文相对于 图4描述的相依深度图估计304B,相对于基本视图V。的锚点纹理图片202B对相依视图V2 的锚点纹理图片204B进行译码(412)。例如使用视图间运动预测和/或视图间残余预测与 相依深度图估计304B相对于基本纹理图片202B对相依纹理图片204B的译码在图5中以 虚线箭头说明,以指示相依视图中的锚点图片的此视图间运动预测和/或视图间残余预测 不是根据本发明的实例性技术来执行。在根据本发明的技术的一些实例中,视图间运动预 测和视图间残余预测针对对相依视图中的锚点图片进行译码而停用,且针对对相依视图中 的非锚点图片进行译码而启用。
[0108] 在相依视图V2中的锚点纹理图片204B经完全译码之后,视频译码器可使用经译 码运动信息来更新相依深度图估计304B(414)。视频译码器可根据用以对纹理图片204B 的空间对应块进行译码的预测类型基于逐块基础来更新相依深度图估计304B。举例来说, 对于使用DCP译码的纹理图片204B的块,视频译码器可通过将用于DCP的视差向量转换为 深度值来获得深度图样本。总之,如上所述,图5中说明的在三个视图的情况下用于锚点图 片的当前3D-HEVC深度图估计过程要求深度图估计更新两次(406,414),且变形两次(408, 410)。虽然图5中未说明,但在其中视频数据包含额外相依视图的实例中,视频译码器可将 相依深度图估计304B变形回到基本视图%以更新基本深度图估计302B,且随后将基本深 度图估计302B变形到下一相依视图以产生另一相依深度图估计以用于额外相依视图的锚 点纹理图片的视图间运动预测和/或视图间残余预测。
[0109] 时间TN处的存取单元包含非锚点纹理图片200A、202A和204A,其可为(但不一定 为)每一视图中的第一非锚点图片。第一非锚点图片可能不在邻近于L的存取单元中,且 可改为例如在T16处的存取单元中。视频译码器(例如,视频编码器20或视频解码器30) 可使用帧内预测或时间帧间预测(例如,MCP)对基本视图V。的非锚点纹理图片202A的块 进行译码(例如,编码或解码)。视频译码器可随后基于对基本视图%的纹理图片202A的 译码而更新基本深度图估计302B以产生基本深度图估计302A(416)。
[0110] 举例来说,对于使用MCP译码的纹理图片202A的每一块,视频译码器可应用相关 联运动向量以确定深度图估计302A的空间对应块的深度值。特定来说,视频译码器可应用 运动向量来识别先前基本深度图估计(例如,基本深度图估计302B)中的参考块,且基于先 前基本深度图估计的参考块中的深度值来推导深度图估计302A的块的深度值。用于对纹 理图片进行译码的运动向量可在用以更新深度图估计之前舍入到样本精度。对于经帧内译 码的纹理图片202A的块,视频译码器可例如根据用以对纹理图片202A的空间对应块进行 译码的帧内预测模式,通过从基本深度图估计302A的相邻块的空间预测来确定基本深度 图估计302A的空间对应块的深度值。
[0111] 视频译码器可随后将与基本视图V。中的非锚点纹理图片202A相关联的经更新基 本深度图估计302A变形到相依视图%以产生相依深度图估计300A(418)。视频译码器可 随后例如以上文相对于图4描述的方式,使用相依深度图估计300A用于相对于基本视图V。 的纹理图片202A对相依视图%的纹理图片200A的视图间运动预测和/或视图间残余预 测译码(420)。在对相依视图 ' 的纹理图片200A的译码之后,视频译码器可基于纹理图片 200A的译码来更新相依深度图估计300A(422)。
[0112] 视频译码器可根据用以对纹理图片200A的空间对应块进行译码的预测类型基于 逐块基础来更新相依深度图估计300A。举例来说,对于使用DCP译码的纹理图片200B的 块,视频译码器可通过将用于DCP的视差向量转换为深度值来获得深度图样本。对于使用 MCP译码的纹理图片200A的每一块,视频译码器可应用相关联运动向量以确定深度图估计 300A的空间对应块的深度值。特定来说,视频译码器可应用运动向量来识别用于相依视图 Vi的先前相依深度图估计(例如,相依深度图估计300B)中的参考块,且基于先前基本深度 图估计的参考块中的深度值来推导深度图估计300A的块的深度值。用于对纹理图片进行 译码的运动向量可在用以更新深度图估计之前舍入到样本精度。对于经帧内译码的纹理图 片200A的块,视频译码器可例如根据用以对纹理图片200A的空间对应块进行译码的帧内 预测模式,通过从基本深度图估计300A的相邻块的空间预测来确定基本深度图估计300A 的空间对应块的深度值。
[0113] 视频译码器可随后存储经更新相依深度图估计300A与经重构非锚点纹理图片 200A,以及将相依视图%的经更新相依深度图估计300A变形到基本视图V。以更新基本视 图%的基本深度图估计302A(424)。视频译码器可随后将基本视图\的经更新基本深度 图估计302A变形到相依视图V2以产生相依深度图估计304A(426)。视频译码器可以上文 相对于图4描述的方式,使用相依深度图估计304A用于相对于基本视图%的非锚点纹理 图片202A对相依视图V2的非锚点纹理图片204A的视图间运动预测和/或视图间残余预 测译码(428)。视频译码器可随后以上文相对于相依深度图估计300A和纹理图片200A描 述的方式,根据用以对纹理图片204A的空间对应块进行译码的预测类型例如基于逐块基 础来更新相依深度图估计304A(430)。虽然图5中未说明,但在其中视频数据包含额外相依 视图的实例中,视频译码器可将相依深度图估计304A变形回到基本视图%以更新基本深 度图估计302A,且随后将基本深度图估计302A变形到下一相依视图以产生另一相依深度 图估计以用于额外相依视图的非锚点纹理图片的视图间运动预测和/或视图间残余预测。
[0114] 对于所有随后的非锚点存取单兀,重复相对于图5描述的实例性过程。在下一随 机存取单元处,视图间运动参数预测和视图间残余预测可针对经译码的第一相依视图停 用,且随后在对第一相依视图进行译码且再初始化用于第一相依视图的相依深度图估计之 后启用,例如上文相对于相依视图 ' 和I;处的存取单元所述。
[0115] 例如上文相对于图5描述的3D-HEVC中的深度图估计推导过程的当前设计可能存 在问题。举例来说,甚至当例如通过停用从彼此的纹理预测来假设两个相依视图独立地解 码时,以一个相依视图依赖于另一相依视图来进行正确译码的方式设计深度图估计。这导 致缺乏位流提取功能性,例如共享同一基本视图的两个立体操作点。举例来说,每当例如在 第一非基本视图中例如以DCP对特定CU进行译码之后推导深度图信息时,使用所述信息来 更新基本视图深度,其可用以推导较晚存取单元中的另一非基本视图的深度信息。
[0116] 根据本发明中描述的实例,在本发明中建议涉及基于HEVC(作为非限制性实例) 的多视图视频译码中的深度图估计的技术。本发明的技术可适用于包含至少一个共同视图 (可为基本视图)和各自取决于共同视图的N(其中N> 1)个相依视图的视频数据。
[0117] 在本发明中描述的一些实例性技术中,相依视图可能不取决于任何其它相依视 图。当多个(N)相依视图存在时,对于存取单元的每一相依视图,针对所述相依视图产生一 个相依深度图估计,且产生与基本视图相关联且对应于特定相依深度图估计的一个基本深 度图估计。相依视图中的相依深度图估计和所述多个基本深度图估计中与相依视图相关联 的所述一者形成与相依视图相关联的深度图估计对。每一深度图估计对是独立于任何其它 深度图估计对而产生和更新。根据本发明当在视频数据中存在多个相依视图时深度图估计 对的深度图估计的产生和更新可类似于当仅一个基本视图和一个相依视图经译码时根据 当前设计3D-HEVC设计的深度图估计的产生和更新。
[0118] 根据本发明的技术,对于相依视图中的锚点图片,可停用视图间运动预测和视图 间残余预测。在对第i(i从1到N)相依视图中的锚点图片进行解码之后,基于经译码信息, 更新与第i相依视图相关联的相依深度图估计。随后将经更新相依深度图估计变形到共同 视图以产生深度图估计对中的基本深度图估计。
[0119] 对于基本视图中的非锚点图片,在对基本视图中的非锚点图片进行解码之后更新 N个深度图估计对的所有基本深度图估计。对于相依视图中的非锚点图片,启用视图间运动 预测。为了对第i相依视图中的非锚点图片进行解码,首先将同一存取单元中的第i深度 图估计对的基本深度图估计变形到当前相依视图以产生第i相依视图的相依深度图估计。 在对第i相依视图中的非锚点图片进行解码之后,更新相依深度图估计且将其变形回到共 同视图以更新相关联基本深度图估计。深度图估计的分辨率可与纹理图片相同,或可不同 于纹理视图的分辨率。在一些实例中,相依深度图估计的分辨率可不同于基本深度图估计 的分辨率。
[0120] 图6是说明根据本发明的技术用于视图间运动预测和/或视图间残余预测的深度 图估计的产生的实例的概念图。更特定来说,图6说明其中如同图5的实例的情况视频数 据包含三个视图的实例:由V。表示的基本(参考)视图,第一相依(非基本)视图 ' 和第 二相依(非基本)视图V2。在图6的实例中,如同图5的实例的情况,三个视图的译码次序 是:基本视图%,相依视图Vi,和相依视图V2。虽然图6的实例包含三个视图,但本发明的技 术可应用于包含任一数目的视图的视频数据,包含任一数目的基本和参考视图。
[0121] 类似于图5的实例,图6说明视频流中在表示为1;和TN的两个不同时间点处的两 个存取单元,其各自包含视图中的每一者的相应纹理图片。L处的存取单元包含基本视图 V。的图片202B、相依视图Vi的图片200B和相依视图V2的图片204B。TN处的存取单元包 含基本视图V。的图片202A、相依视图Vi的图片200A和相依视图V2的图片204A。T。处的 存取单元可为随机存取单元,且随机存取单元的纹理图片200B、202B和204B可称为锚点图 片。T。处的存取单元的纹理图片200A、202A和204A可称为非锚点图片。
[0122] 在图6的实例中,类似于图5的实例,相依视图的纹理图片中的每一者与一个深度 图估计相关联。然而,不同于图5的实例,在图6的实例中,存在针对相依视图中的每一者 的相应基本深度视图估计。因此,I处基本视图%的图片202B与从相依视图Vi的基本深 度图估计300B推导的基本深度图估计302B以及从相依视图V2的基本深度图估计304B推 导的基本深度图估计303B相关联。类似地,TN处基本视图V。的图片202A与和相依视图Vi 的基本深度图估计300A配对的基本深度图估计302A以及和相依视图V2的基本深度图估 计304A配对的基本深度图估计303A相关联。在图6的实例中,视频译码器针对每一相依 视图产生和更新包含基本深度图估计和相依深度图估计的深度图估计对。
[0123] 作为根据本发明的技术对锚点纹理图片进行译码的实例,如同图5的实例中的情 况,视频译码器在图6的实例中对基本视图%的锚点纹理图片202B的块进行帧内预测译 码,例如视频编码器20进行编码或视频解码器30进行解码。视频译码器可使用DCP相对 于基本视图的图片202B对相依视图Vi和V2的锚点纹理图片200B和204B的块进行译码 (402,404),或可对所述块中的一些进行帧内译码。不同于当前HEVC实施方案,针对对所有 相依视图的锚点纹理图片(例如,相依视图%和V2的锚点纹理图片200B和204B两者)进 行译码停用视图间运动预测和/或视图间残余预测。
[0124] 在对相依视图%中的锚点图片200B进行译码之后,视频译码器可例如通过将相 依深度图估计300B中对应于纹理图片200B的经视差补偿块的块的所有深度样本设定为等 于所推导深度值,来将用于DCP的经译码视差向量转换为深度值(406),且将相依深度图估 计300B变形到基本视图%以产生基本深度图估计302B(408),如图5的实例中的情况。然 而,视频译码器不会随后将基本深度图估计302B变形到相依视图V2以产生相依深度图估 计 304B(图 5 的 410)。
[0125] 而是,视频译码器例如以基于纹理图片200B的译码针对相依视图%的相依深度 图300B所完成的方式,基于用以对纹理图片204B进行DCP译码的视差信息来产生相依视 图V2的相依深度图估计304B(414)。视频译码器可随后将相依深度图估计300B变形到基 本视图%以产生基本深度图估计303B(500)。因此,根据本发明的技术,视频译码器可针对 每一相依视图产生深度图估计对,且避免相依视图之间的译码相依性。与锚点图片202B相 关联的基本深度图估计302B和303B可用以更新与基本视图中的非锚点纹理图片相关联的 对应基本深度图估计。
[0126] 作为根据本发明的技术对锚点纹理图片进行译码的实例,如同图5的实例中的情 况,视频译码器对基本视图%的非锚点纹理图片202进行帧内预测或MCP译码。视频译 码器可随后基于基本视图V。的纹理图片202A的译码而更新基本深度图估计302B和303B 以产生基本深度图估计302A和303A(416, 502)。举例来说,对于使用MCP译码的纹理图片 202A的每一块,视频译码器可应用相关联运动向量以确定深度图估计302A和303A中的每 一者的空间对应块的深度值。特定来说,视频译码器可应用运动向量来识别先前基本深度 图估计(例如,基本深度图估计302B)中的参考块,且基于先前基本深度图估计的参考块中 的深度值来推导深度图估计302A和303A的块的深度值。用于对纹理图片进行译码的运动 向量可在用以更新深度图估计之前舍入到样本精度。对于经帧内译码的纹理图片202A的 块,视频译码器可例如根据用以对纹理图片202A的空间对应块进行译码的帧内预测模式, 通过从基本深度图估计302A的相邻块的空间预测来确定基本深度图估计302A的空间对应 块的深度值。视频译码器可随后将基本深度图估计302A变形到相依视图%以产生相依深 度图估计300A(418),且将基本深度图估计303A变形到相依视图V2以产生相依深度图估计 304A(504)。根据本发明的技术,用于第二相依视图V2的相依深度图估计304A的产生不取 决于第一相依视图%的深度图估计300A或纹理图片200A的译码。以此方式,本发明的技 术可避免相依视图之间的相依性。
[0127] 根据本发明的技术,可针对对相依视图的非锚点纹理图片进行译码启用视图间运 动预测和/或视图间残余预测。因此,在图6的实例中,视频译码器可使用相依深度图估计 300A用于相对于基本视图V。的纹理图片202A对相依视图Vi的纹理图片200A的视图间运 动预测和/或视图间残余预测译码(420)。视频译码器可类似地使用相依深度图估计304A 用于相对于基本视图V〇的纹理图片202A对相依视图V2的纹理图片204A的视图间运动预 测和/或视图间残余预测译码(506)。当相依视图纹理图片经译码时,视频译码器可基于相 依视图纹理图片的译码更新相依深度图估计300A和304A(422,508)。
[0128] 视频译码器可根据用以对纹理图片200A和204A的空间对应块进行译码的预测类 型基于逐块基础来更新相依深度图估计300A和304A。举例来说,对于使用DCP译码的相 依纹理图片的块,视频译码器可通过将用于DCP的视差向量转换为深度值来获得深度图样 本。对于使用MCP译码的纹理图片的每一块,视频译码器可应用相关联运动向量以确定深 度图估计的空间对应块的深度值。特定来说,视频译码器可应用运动向量来识别相依视图 的先前相依深度图估计中的参考块,且基于相依视图的先前基本深度图估计的参考块中的 深度值来推导相依视图的深度图估计的块的深度值。用于对纹理图片进行译码的运动向 量可在用以更新深度图估计之前舍入到样本精度。对于经帧内译码的相依视图纹理图片 200A和204A的块,视频译码器可例如根据用以对纹理图片的空间对应块进行译码的帧内 预测模式,通过从基本深度图估计300A和304A的相邻块的空间预测来确定基本深度图估 计300A和304A的空间对应块的深度值。
[0129] 视频译码器可随后存储经更新相依深度图估计300A和304A与经重构非锚点纹理 图片200A和204A。视频译码器还可将相依视图%的经更新相依深度图估计300A变形到 基本视图\以更新基本视图%的基本深度图估计302A(424),且将相依视图V2的经更新相 依深度图估计304A变形到基本视图V。以更新基本视图V。的基本深度图估计303A(510)。 因此,根据本发明的技术,视频译码器基于相应的相依深度图估计独立地更新每一深度图 估计对的基本深度图估计。
[0130] 对于所有随后的存取点,可重复图6的实例说明的技术。在对基本视图纹理图片 进行译码之后,使用所发射的运动参数通过MCP确定针对基本视图图片的N个基本深度图 估计。将第i基本深度图估计变形到\且用于视图间运动预测和/或视图间残余预测。在 对\的图片进行解码之后,使用实际使用的译码参数更新深度图估计,且将其变形回到基 本视图。在下一随机存取单元处,可停用针对相依视图的视图间运动参数预测和/或视图 间残余预测,且在对所述随机存取单元的第i非基本视图进行解码之后,如上所述再初始 化深度图。
[0131] 图7是说明根据本发明的用于深度图估计的产生的实例性技术的流程图。图7的 实例性技术可由视频译码器采用,所述视频译码器可为视频编码器(例如视频编码器20) 或视频解码器(例如视频解码器30)。
[0132] 根据图7的实例性技术,视频译码器对基本视图中的图片的数据进行译码(例如, 编码或解码)(600)。视频译码器可确定图片是锚点图片还是非锚点图片(602)。如果图 片是锚点图片,那么视频译码器可停用相依视图锚点图片的视图间运动预测和/或视图间 残余预测(604)。视频译码器可随后例如使用DCP对相依视图的锚点纹理图片进行译码 (606)。也就是说,视频译码器可停用相依视图锚点图片的运动和/或残余信息的预测,但 仍可使用视图间预测(本文也称为DCP)来预测相依视图锚点图片。视频译码器还可基于 例如通过将用于DCP的视差向量转换为深度值的译码而产生相依视图中的每一者的相依 深度图估计(608)。视频译码器可随后将相依深度图估计中的每一者变形到基本视图以产 生多个基本深度图估计中的相应一者(610)。相依深度图估计和相应基本深度图估计可视 为与相应相依视图相关联的深度图估计对。
[0133] 对于非锚点图片(602的否),视频译码器可启用基本视图中的非锚点图片的视图 间运动预测和/或视图间残余预测(612)。为了推导相依视图图片的视图间运动预测和/ 或视图间残余预测的相依深度图估计,视频译码器可基于基本视图的非锚点纹理图片的译 码来更新基本深度图估计(614)。举例来说,视频译码器可将用以对纹理图片进行译码的 预测信息应用于基本深度图估计以更新基本深度图估计。视频译码器可随后将基本深度图 估计中的每一者变形到相应相依视图以产生相依视图中的每一者的相应相依深度图估计 (616)。
[0134] 视频译码器可随后对相依视图中的非锚点纹理图片进行译码(618)。因为根据本 发明中描述的技术针对相依视图中的非锚点图片启用视图间运动预测和/或视图间残余 预测,所以译码可包含相对于非锚点纹理图片基本视图的块对相依视图纹理图片的块的视 图间运动预测和/或视图间残余预测。基于用以对相依视图中的纹理图片进行译码的预测 参数,视频译码器可更新相应相依深度图估计(620)。视频译码器可随后将相依深度图估计 变形回到基本视图以更新所述多个基本深度图估计中的相应者(622)。
[0135] 图8是说明根据本发明的对纹理数据进行译码且产生锚点图片的深度图估计的 实例性技术的流程图。图8的实例性技术可由视频译码器采用,所述视频译码器可为视频 编码器(例如视频编码器20)或视频解码器(例如视频解码器30)。
[0136] 根据图8的实例,视频译码器可对基本视图的纹理数据(例如,纹理图片)进行图 片内译码(700)。视频译码器可随后参考基本视图中的纹理数据块对相依视图的纹理数据 块进行DCP译码(702)。视频译码器可基于相依视图的纹理数据的译码产生相依视图中的 每一者的多个相依深度图估计中的相应一者(704)。举例来说,视频译码器可基于用以对相 依视图的纹理数据进行译码的视差向量推导相依深度图估计的深度值。视频译码器可随后 将相依深度图估计中的每一者变形到基本视图以产生多个基本深度图估计中的相应一者 (706)。
[0137] 图9是说明根据本发明的对纹理数据进行译码且产生非锚点图片的深度图估计 的实例性技术的流程图。图9的实例性技术可由视频译码器采用,所述视频译码器可为视 频编码器(例如视频编码器20)或视频解码器(例如视频解码器30)。
[0138] 根据图9的实例,视频译码器可应用图片内或MCP译码以对基本视图的纹理数据 (例如,非锚点图片)的块进行译码(800)。如本文描述,视频译码器可基于用以对基本视 图的纹理数据进行译码的预测参数来更新所述多个基本深度图估计中的每一者(802)。视 频译码器可随后将基本深度图估计变形到其相应相依视图以产生相依视图的相依深度图 估计(804)。
[0139] 视频译码器可随后应用视图间运动预测和/或视图间残余预测以基于其相应相 依深度图估计相对于基本视图的纹理数据对相依视图的例如非锚点图片的纹理数据进行 译码(806)。视频译码器可随后使用本文例如相对于图6描述的技术基于用以对相依视图 的纹理数据进行译码的预测参数来更新相依深度图估计(808)。视频译码器可随后将相依 深度图估计中的每一者变形回到基本视图以产生多个经更新基本深度图估计中的相应一 者(810)。
[0140] 本文描述的用于产生和更新用于视图间运动预测和/或视图间残余预测译码的 深度图估计的技术可由例如视频编码器20或视频解码器30等视频译码器执行。编码器和 解码器均可产生深度图估计作为互逆的编码和解码过程的部分。举例来说,编码器和解码 器均可利用视图间运动预测,其可包含运动向量预测符候选列表的IVMP候选的识别。编码 器和解码器均可识别IVMP候选且以相同方式产生候选。编码器可用信号发送经由到列表 中的索引从列表选择的候选。
[0141] 图10是说明视频编码器20的实例的框图,所述视频编码器可实施本发明中描述 的技术来产生和更新深度图估计以用于视图间运动预测和/或视图间残余预测译码。视频 编码器20可经配置以执行本发明的技术中的任一者或全部,例如执行图6到9中说明的实 例性技术中的任一者。
[0142] 视频编码器20可执行视频切片内的视频块的帧内和帧间译码。帧内译码依赖于 空间预测来减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预 测来减少或移除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可 涉及若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式) 等帧间模式可涉及若干基于时间的译码模式中的任一者。
[0143] 如图10中所示,视频编码器20接收视频数据。在图10的实例中,视频编码器20 预测处理单元1000、求和器1010、变换处理单元1012、量化单元1014、熵编码单元1016和 参考图片存储器1024。预测处理单元1000包含运动估计单元1002、运动补偿单元1004和 帧内预测单元1006。
[0144] 针对视频块重构,视频编码器20还包含逆量化单元1018、逆变换单元1020以及求 和器1022。还可包含解块滤波器(图10中未图示)以对块边界进行滤波以从经重构视频 移除成块假象。如果需要,解块滤波器将通常对求和器1022的输出进行滤波。除了解块滤 波器之外还可使用额外滤波器(环路内或环路后)。为了简明而未图示此些滤波器,但如果 需要,则可对求和器1010的输出进行滤波(作为环路内滤波器)。
[0145] 在编码过程期间,视频编码器20接收待译码的视频图片或切片。预测处理单元 1000将图片或切片划分为多个视频块。运动估计单元1002和运动补偿单元1004相对于存 储在参考图片存储器1024中的一或多个参考图片中的一或多个块执行对所接收视频块的 帧间预测性译码,以提供时间或视图间预测。帧内预测单元1006或者可相对于与待译码的 块相同的图片或切片中的一或多个相邻块执行对所接收视频块的帧内预测性译码,以提供 空间预测。视频编码器20可执行多个译码遍次,(例如)以选择用于每一视频数据块的适 当译码模式。
[0146] 而且,预测处理单元1000可基于先前译码遍次中的先前分割方案的评估而将视 频数据块分割为若干子块。举例来说,预测处理单元1000可最初将图片或切片分割为若干 LCU,且基于速率-失真分析(例如,速率-失真优化)根据不同预测模式将所述LCU中的 每一者分割为若干子⑶。预测处理单元1000可产生指示IXU到子⑶的分割的四叉树数据 结构。四叉树的叶节点⑶可包含一或多个TO和一或多个TU。
[0147] 预测处理单元1000可(例如)基于错误结果而选择译码模式(帧内译码或帧间 译码)中的一者,且将所得的经帧内译码或帧间译码的块提供到求和器1010以产生残余块 数据,且提供到求和器1022以重构经编码块以用作存储在参考图片存储器1024中的参考 图片的部分。预测处理单元1000还将例如运动向量、帧内模式指示符、分区信息、参考图片 索引值、MVP候选列表索引值和其它此类语法信息等语法元素提供到熵编码单元1016以供 视频解码器30用于对视频块进行解码,例如用于如本文描述的视图间运动预测。
[0148] 预测处理单元1000 (例如,运动估计单元1002和/或运动补偿单元1004)可执行 本发明中描述的技术来产生和更新深度图估计以用于视图间运动预测和/或视图间残余 预测译码。举例来说,预测处理单元1000 (例如,运动估计单元1002和/或运动补偿单元 1004)可执行图6到9的实例性技术中的任一者。运动估计单元1002与运动补偿单元1004 可为高度集成的,但为了概念性目的而单独说明。
[0149] 由运动估计单元1002执行的运动估计是产生运动向量或视差运动向量的过程, 所述向量估计视频块的运动。运动向量或视差运动向量可指示当前图片内的当前视频块 的当前PU相对于参考图片(例如,时间参考图片或视图间参考图片)内的预测性块的位 移。预测性块为就像素差来说被发现紧密匹配待译码的块的块,所述像素差可通过绝对差 和(SAD)、平方差和(SSD)或其它差量度来确定。在一些实例中,视频编码器20可计算存储 在参考图片存储器1024中的参考图片的子整数像素位置的值。
[0150] 举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位 置或其它分数像素位置的值。因此,运动估计单元1002可执行相对于全像素位置和分数像 素位置的运动搜索,且输出具有分数像素精度的运动向量。运动估计单元1002可从参考图 片列表(例如,列表〇或列表1)选择参考图片,其识别存储在参考帧存储器1024中的一或 多个参考图片。运动估计单元1002将所计算的运动向量或视差运动向量发送到熵编码单 元1016和运动补偿单元1004。在本文描述的其中采用AVMP或合并模式的一些实例中,并 非将所计算预测向量发送到熵编码单元,运动估计单元1002将到运动向量预测符候选列 表中的索引和参考图片索引发送到熵编码单元。解码器可使用与编码器20相同的技术来 构造候选运动向量预测符候选列表,且可基于由运动估计单元1002用信号发送的索引来 选择运动向量预测符,所述运动向量预测符可为用于视图间运动预测的IVMP。
[0151] 由运动补偿单元1004执行的运动补偿可涉及基于由运动估计单元1002确定的预 测向量而取得或产生预测性块。再次,在一些实例中,运动估计单元1002与运动补偿单元 1004可在功能上集成。在接收到当前视频块的PU的预测向量后,运动补偿单元1004可即 刻在参考图片列表中的一者中定位预测向量指向的预测性块。求和器1010通过从正经译 码的当前视频块的像素值减去预测性块的像素值从而形成像素差值,来形成残余视频块。 大体上,运动估计单元1002执行相对于亮度分量的运动估计,且运动补偿单元1004使用基 于亮度分量计算的预测向量用于色度分量和亮度分量两者。
[0152] 作为对由运动估计单元1002和运动补偿单元1004执行的帧间预测的替代,帧内 预测单元1006可帧内预测当前块。特定来说,帧内预测单元1006可确定使用帧内预测模 式来编码当前块。在一些实例中,帧内预测单元1006可(例如)在单独的编码遍次期间使 用各种帧内预测模式来编码当前块,且帧内预测单元1006可从所测试的模式选择将使用 的适当的帧内预测模式。
[0153] 举例来说,帧内预测单元1006可使用针对各种经测试的帧内预测模式的速率-失 真分析计算速率-失真值,且在经测试模式当中选择具有最好的速率-失真特性的帧内预 测模式。速率-失真分析一般确定经编码块与经编码以产生所述经编码块的原始未经编码 块之间的失真(或错误)的量以及用以产生经编码块的位率(即,位的数目)。帧内预测单 元1006可从失真和速率计算各种经编码块的比率,以确定哪一帧内预测模式展现块的最 好的速率 -失真值。
[0154] 在为块选择帧内预测模式之后,帧内预测单元1006可将指示块的所选择帧内预 测模式的信息提供到熵编码单元1016。熵编码单元1016可对指示选定帧内预测模式的信 息进行编码以供视频解码器30用于对视频块进行解码。视频编码器20可在所发射位流中 包含配置数据,其可包含多个帧内预测模式索引表和多个经修改帧内预测模式索引表(也 称为码字映射表)、各种块的编码上下文的定义,以及将用于所述上下文中的每一者的最可 能帧内预测模式、帧内预测模式索引表和经修改帧内预测模式索引表的指示。
[0155] 视频编码器20通过从正译码的原始视频块减去来自预测模块1001的预测数据而 形成残余视频块。求和器1010表示执行此减法运算的一或多个组件。变换处理单元1012 将变换(例如,离散余弦变换(DCT)或概念上类似的变换)应用于残余块,从而产生包括残 余变换系数值的视频块。变换处理单元1012可执行概念上类似于DCT的其它变换。也可 使用小波变换、整数变换、子带变换或其它类型的变换。在任何状况下,变换处理单元1012 将变换应用于残余块,从而产生残余变换系数的块。变换可将残余信息从像素值域转换到 变换域,例如频域。变换处理单元1012可将所得变换系数发送到量化单元1014。
[0156] 量化单元1014量化变换系数的值以进一步减小位率。量化过程可减少与系数中 的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量 化单元1014可随后执行对包含经量化变换系数的矩阵的扫描。替代地,熵编码单元1016 可执行扫描。
[0157] 在量化之后,熵编码单元1016对经量化变换系数进行熵译码。举例来说,熵编 码单元1016可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码 (CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码, 或另一熵译码技术。在基于上下文的熵译码的情况下,上下文可基于相邻块。在通过熵编 码单元1016熵译码之后,可将经编码位流发射到另一装置(例如,视频解码器30)或加以 存档以供稍后发射或检索。
[0158] 逆量化单元1018和逆变换单元1020分别应用逆量化和逆变换,以在像素域中重 构残余块,且随后将残余添加到对应预测性块以重构经译码块,例如以供稍后用作参考块。 运动补偿单元1004可通过将残余块加到参考图片存储器1024的参考图片中的一者的预测 性块而计算参考块。运动补偿单元1004也可将一或多个内插滤波器应用于经重构的残余 块,以计算用于运动估计中的子整数像素值。求和器1022将经重构的残余块加到由运动补 偿单元1004产生的经运动补偿预测块,以产生经重构的视频块以用于存储在参考图片存 储器1024中。经重构视频块可由运动估计单元1012和运动补偿单元1014用作参考块,以 例如使用本文描述的运动向量预测和视图间译码技术对后续图片中的块进行帧间译码。
[0159] 图11是说明视频解码器30的实例的框图,所述视频编码器可实施本发明中描述 的技术来产生和更新深度图估计以用于视图间运动预测和/或视图间残余预测译码。视频 解码器30可经配置以执行本发明的技术中的任一者或全部,例如执行图6到9中说明的实 例性技术中的任一者。
[0160] 在图11的实例中,视频解码器30包含熵解码单元1040、预测处理单元1041、逆量 化单元1046、逆变换单元1048、参考图片存储器1052以及求和器1050。预测处理单元1041 包含运动补偿单元1042和帧内预测单元1044。在一些实例中,视频解码器30可执行与相 对于视频编码器20 (图10)所述的编码遍次大体上互逆的解码遍次。运动补偿单元1042 可基于预测向量或基于从熵解码单元1040接收的参考图片和运动向量预测符候选列表索 引来产生预测数据。帧内预测单元1044可基于从熵解码单元1040接收的帧内预测模式指 示符来产生预测数据。
[0161] 在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视 频块和相关联语法元素的经编码视频位流。视频解码器30的熵解码单元1000对位流进行 熵解码以产生经量化系数、预测向量、参考图片和运动向量预测符候选列表索引、帧内预测 模式指示符和其它语法元素,其经转发到预测处理单元1041。视频解码器30可在视频切片 层级和/或视频块层级处接收语法元素。
[0162] 当视频切片经译码为经帧内译码(I)切片时,帧内预测单元1044可基于用信号 发送的帧内预测模式和来自当前图片的先前经解码块的数据而产生当前视频切片的视频 块的预测数据。当视频切片经译码为经帧间译码(即,B、P或GPB)切片时,运动补偿单元 1042基于预测向量或参考图片和MVP候选列表索引以及从熵解码单元1040接收的其它语 法元素而产生当前视频切片的视频块的参考块。参考块可从参考图片存储器1052内的时 间或视图间参考图片中的一者产生。参考图片可在由视频解码器30使用默认构造技术构 造的参考图片列表(例如,列表〇和列表1)中的一者中列出。
[0163] 预测处理单元1041 (例如,运动补偿单元1042)可执行所述技术中的任一者来产 生和更新深度图估计以用于本文描述的视图间运动预测和/或视图间残余预测译码。举例 来说,预测处理单元1041 (例如,运动补偿单元1042)可执行图6到9说明的实例性技术中 的任一者。
[0164] 运动补偿单元1042也可执行基于内插滤波器的内插。运动补偿单元1042可使用 在视频块的编码期间由视频编码器20使用的内插滤波器来计算参考块的子整数像素的经 内插值。在此情况下,运动补偿单元1042可根据所接收语法元素确定由视频编码器20使 用的内插滤波器且使用内插滤波器来产生预测性块。
[0165] 逆量化单元1046逆量化(即,解量化)在位流中提供且由熵解码单元1040解码 的经量化变换系数。逆量化过程可包含针对视频切片中的每一视频块使用由视频解码器 30计算出的量化参数QPY来确定量化程度和(同样)应应用的逆量化的程度。逆变换单元 1048将逆变换(例如,逆DCT、逆整数变换或概念上类似的逆变换过程)应用于变换系数, 以便在像素域中产生残余块。
[0166] 在运动补偿单元1042产生当前视频块的预测性块之后,视频解码器30通过将来 自逆变换单元1048的残余块与由运动补偿单元1042产生的对应预测性块进行求和而形成 经解码视频块。求和器1050表示执行此求和运算的一或多个组件。如果需要,那么还可应 用解块滤波器以对经解码块进行滤波以便移除成块假象。也可使用其它环路滤波器(译码 环路中或在译码环路之后)来平滑像素转变或另外改善视频质量。随后将给定图片中的经 解码视频块存储在参考图片存储器1052中,所述参考图片存储器存储用于后续运动补偿 的参考图片。参考图片存储器1052还可存储经解码视频以用于稍后呈现在显示装置(例 如图1的显示装置32)上。
[0167] 应认识到,取决于实例,本文描述的技术中的任一者的某些动作或事件可以不同 顺序执行,可相加、合并或完全省去(例如,并非所有描述的动作或事件对于所述技术的实 践都是必要的)。而且,在某些实例中,动作或事件可例如通过多线程处理、中断处理或多个 处理器同时执行,而不是循序地执行。
[0168] 在一或多个实例中,所描述功能可以硬件、软件、固件或其任一组合实施。如果以 软件来实施,那么功能可作为一或多个指令或代码存储于计算机可读媒体上或经由计算机 可读媒体传输。计算机可读媒体可包含计算机数据存储媒体或通信媒体两者,所述通信媒 体包含促进计算机程序从一处转移到另一处的任何媒体。数据存储媒体可为可由一或多个 计算机或者一或多个处理器存取以检索指令、代码和/或数据结构以用于实施本发明中描 述的技术的任何可用媒体。举例来说且并非限制,计算机可读媒体可包括RAM、R0M、EEPR0M、 CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以载 运或存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。而 且,将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞 线、数字订户线OSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程 源发射软件,那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波等无线技 术包含于媒体的定义中。如本文所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光 盘、数字多功能光盘0WD)、软磁盘和蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘 用激光以光学方式再生数据。以上各项的组合也应包含在计算机可读媒体的范围内。
[0169] 可通过例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路 (ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器 来执行代码。因此,如本文使用的术语"处理器"可指代前述结构或适于实施本文所述的技 术的任何其它结构中的任一者。另外,在一些方面中,可将本文描述的功能性提供于经配置 以用于编码和解码的专用硬件和/或软件模块内,或并入于组合式编解码器中。而且,可将 所述技术完全实施于一或多个电路或逻辑元件中。
[0170] 本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(1C) 或一组1C(例如,芯片组)。本发明中描述各种组件、模块或单元以强调经配置以执行所揭 示技术的装置的功能方面,但未必需要通过不同硬件单元来实现。而是如上文所述,各种单 元可组合于编解码器硬件单元中,或通过互操作性硬件单元(包含如上文所述的一或多个 处理器)的集合结合合适的软件和/或固件来提供。
[0171] 已描述各种实例。这些和其它实例在所附权利要求书的范围内。
【权利要求】
1. 一种对视频数据进行译码的方法,所述视频数据包括至少一个基本视图和多个相依 视图,其中所述多个相依视图取决于所述基本视图,所述方法包括: 对于所述相依视图中的每一者,相对于存取单元的所述基本视图的纹理数据使用所述 相依视图的视差运动信息对所述存取单元的所述相依视图的纹理数据进行译码; 对于所述相依视图中的每一者,基于所述相依视图的所述视差运动信息产生所述存取 单元的相依深度图估计;以及 将所述相依深度图估计中的每一者变形到所述基本视图以产生所述存取单元的多个 基本深度图估计中的相应一者,其中所述相依深度图估计中的每一者和所述相应基本深度 图估计形成所述存取单元的多个深度图估计对中的相应一者且与所述多个相依视图中的 相应一者相关联。
2. 根据权利要求1所述的方法,其中所述深度图估计中的每一者包括深度图估计图片 DMEP。
3. 根据权利要求1所述的方法,其中所述相依视图中的每一者不取决于所述相依视图 中的任一其它者。
4. 根据权利要求1所述的方法,其中所述视差运动信息包括用于视差补偿预测DCP的 视差向量,且产生相依深度图估计包括将所述视差向量转换为深度值。
5. 根据权利要求1所述的方法,其中所述存取单元包括第一存取单元,所述方法进一 步包括: 对第二存取单元的所述基本视图的纹理数据进行译码;以及 基于所述第二存取单元的所述基本视图的所述纹理数据的所述译码来更新所述多个 基本深度图估计中的每一者。
6. 根据权利要求5所述的方法, 其中对所述第二存取单元的所述基本视图的纹理数据进行译码包括使用图片内预测 或运动补偿预测MCP中的至少一者对所述纹理数据进行译码,且 其中基于所述译码更新所述第二存取单元的所述多个基本深度图估计中的每一者针 对所述基本深度图估计中的每一者包括: 对于所述基本深度图估计的对应于所述第二存取单元的所述基本视图的所述纹理数 据的使用图片内预测译码的块的块,应用所述图片内预测来从所述基本深度图估计的一或 多个其它块推导所述基本深度图估计的所述块;以及 对于所述基本深度图估计的对应于所述第二存取单元的所述基本视图的所述纹理数 据的使用MCP译码的块的块,应用所述MCP来从先前存取单元的所述基本深度图估计的先 前版本的一或多个块推导所述基本深度图估计的所述块。
7. 根据权利要求5所述的方法,其针对所述相依视图中的每一者进一步包括: 将所述多个基本深度图估计中的相应一者变形到所述相依视图以产生相应相依深度 图估计;以及 基于所述相应相依深度图估计相对于所述第二存取单元的所述基本视图的所述纹理 数据对所述第二存取单元的所述相依视图的纹理数据进行译码。
8. 根据权利要求7所述的方法,其中基于所述相应相依深度图估计相对于所述第二存 取单元的所述基本视图的所述纹理数据对所述第二存取单元的所述相依视图的所述纹理 数据进行译码包括在视图间运动预测或视图间残余预测中的至少一者经启用的情况下相 对于所述第二存取单元的所述基本视图的所述纹理数据对所述第二存取单元的所述相依 视图的所述纹理数据进行译码。
9. 根据权利要求7所述的方法,其针对所述相依视图中的每一者进一步包括: 基于所述第二存取单元的所述相依视图的所述纹理数据的所述经译码信息来更新所 述相应相依深度图估计;以及 将所述相应相依深度图估计变形回到所述基本视图以更新所述多个基本深度图估计 中的所述相应一者。
10. 根据权利要求9所述的方法, 其中对所述第二存取单元的所述相依视图的纹理数据进行译码包括使用图片内预测、 运动补偿预测MCP或视差补偿预测DCP中的至少一者对所述纹理数据进行译码,且 其中更新所述相应相依深度图估计包括: 对于所述相依深度图估计的对应于所述第二存取单元的所述相依视图的所述纹理数 据的使用图片内预测译码的块的块,应用所述图片内预测来从所述相依深度图估计的一或 多个其它块推导所述相依深度图估计的所述块; 对于所述相依深度图估计的对应于所述第二存取单元的所述相依视图的所述纹理数 据的使用MCP译码的块的块,应用所述MCP来从先前存取单元的所述相依深度图估计的先 前版本的一或多个块推导所述相依深度图估计的所述块;以及 对于所述相依深度图估计的对应于所述第二存取单元的所述相依视图的所述纹理数 据的使用DCP译码的块的块,将用于所述DCP的视差向量转换为深度值。
11. 根据权利要求9所述的方法,其中将所述基本深度图估计变形到所述相依视图以 产生相依深度图估计、对所述相依视图的纹理数据进行译码、更新所述相依深度图估计以 及将所述相依深度图估计变形回到所述基本视图以更新所述基本深度图估计包括: 针对所述多个相依视图中的每一者,独立地将所述基本深度图估计变形到所述相依视 图以产生相依深度图估计、对所述相依视图的纹理数据进行译码、更新所述相依深度图估 计以及将所述相依深度图估计变形回到所述基本视图以更新所述基本深度图估计。
12. 根据权利要求5所述的方法,其中第一存取单元包括所述视图中的每一者的相应 锚点图片,且所述第二存取单元包括所述视图中的每一者的相应非锚点图片。
13. 根据权利要求12所述的方法,其中所述第一存取单元包括随机存取单元,所述锚 点图片包括随机存取图片,所述第二存取单元包括非随机存取单元,且所述非锚点图片包 括非随机存取图片。
14. 根据权利要求1所述的方法,其中: 当所述存取单元包括所述视图中的每一者的相应锚点图片时,对所述相依视图的所述 纹理数据进行译码包括停用所述存取单元的所述相依视图的所述纹理数据的视图间运动 预测译码或视图间残余预测译码中的至少一者;且 当所述存取单元包括所述视图中的每一者的相应非锚点图片时,对所述相依视图的所 述纹理数据进行译码包括启用所述存取单元的所述相依视图的所述纹理数据的视图间运 动预测译码或视图间残余预测译码中的至少一者。
15. 根据权利要求1所述的方法,其中所述深度图估计的分辨率与所述纹理数据的分 辨率相同。
16. 根据权利要求1所述的方法,其中所述深度图估计的分辨率与所述纹理数据的分 辨率不同。
17. 根据权利要求1所述的方法,其中所述相依深度图估计的分辨率与所述基本深度 图估计的分辨率不同。
18. 根据权利要求1所述的方法,其中对纹理数据进行译码包括以解码器对纹理数据 进行解码,且产生和变形所述相依深度图估计包括以所述解码器产生和变形所述相依深度 图估计。
19. 根据权利要求1所述的方法,其中对纹理数据进行译码包括以编码器对纹理数据 进行编码,且产生和变形所述相依深度图估计包括以所述编码器产生和变形所述相依深度 图估计。
20. -种包括用于对视频数据进行译码的视频译码器的装置,所述视频数据包括至少 一个基本视图和多个相依视图,其中所述多个相依视图取决于所述基本视图,所述视频译 码器经配置以: 对于所述相依视图中的每一者,相对于存取单元的所述基本视图的纹理数据使用所述 相依视图的视差运动信息对所述存取单元的所述相依视图的纹理数据进行译码; 对于所述相依视图中的每一者,基于所述相依视图的所述视差运动信息产生所述存取 单元的相依深度图估计;以及 将所述相依深度图估计中的每一者变形到所述基本视图以产生所述存取单元的多个 基本深度图估计中的相应一者,其中所述相依深度图估计中的每一者和所述相应基本深度 图估计形成所述存取单元的多个深度图估计对中的相应一者且与所述多个相依视图中的 相应一者相关联。
21. 根据权利要求20所述的装置,其中所述深度图估计中的每一者包括深度图估计图 六DMEP。
22. 根据权利要求20所述的装置,其中所述相依视图中的每一者不取决于所述相依视 图中的任一其它者。
23. 根据权利要求20所述的装置,其中所述视差运动信息包括用于视差补偿预测DCP 的视差向量,且所述视频译码器经配置以将所述视差向量转换为深度值以产生所述相依深 度图估计。
24. 根据权利要求20所述的装置,其中所述存取单元包括第一存取单元,且所述视频 译码器进一步经配置以: 对第二存取单元的所述基本视图的纹理数据进行译码;以及 基于所述第二存取单元的所述基本视图的所述纹理数据的所述译码来更新所述多个 基本深度图估计中的每一者。
25. 根据权利要求24所述的装置, 其中所述视频译码器经配置以使用图片内预测或运动补偿预测MCP中的至少一者对 所述第二存取单元的所述基本视图的所述纹理数据进行译码,且 其中对于所述基本深度图估计中的每一者,所述视频译码器经配置以通过至少经配置 以进行以下操作而基于所述译码更新所述第二存取单元的所述基本深度图估计: 对于所述基本深度图估计的对应于所述第二存取单元的所述基本视图的所述纹理数 据的使用图片内预测译码的块的块,应用所述图片内预测来从所述基本深度图估计的一或 多个其它块推导所述基本深度图估计的所述块;以及 对于所述基本深度图估计的对应于所述第二存取单元的所述基本视图的所述纹理数 据的使用MCP译码的块的块,应用所述MCP来从先前存取单元的所述基本深度图估计的先 前版本的一或多个块推导所述基本深度图估计的所述块。
26. 根据权利要求24所述的装置,其中对于所述相依视图中的每一者,所述视频译码 器进一步经配置以: 将所述多个基本深度图估计中的相应一者变形到所述相依视图以产生相应相依深度 图估计;以及 基于所述相应相依深度图估计相对于所述第二存取单元的所述基本视图的所述纹理 数据对所述第二存取单元的所述相依视图的纹理数据进行译码。
27. 根据权利要求26所述的装置,其中所述视频译码器经配置以在视图间运动预测或 视图间残余预测中的至少一者经启用的情况下基于所述相应相依深度图估计相对于所述 第二存取单元的所述基本视图的所述纹理数据对所述第二存取单元的所述相依视图的所 述纹理数据进行译码。
28. 根据权利要求26所述的装置,其中对于所述相依视图中的每一者,所述视频译码 器进一步经配置以: 基于所述第二存取单元的所述相依视图的所述纹理数据的所述经译码信息来更新所 述相应相依深度图估计;以及 将所述相应相依深度图估计变形回到所述基本视图以更新所述多个基本深度图估计 中的所述相应一者。
29. 根据权利要求28所述的装置, 其中对于所述相依视图中的每一者,所述视频译码器经配置以使用图片内预测、运动 补偿预测MCP或视差补偿预测DCP中的至少一者对所述第二存取单元的所述相依视图的所 述纹理数据进行译码,且 其中对于所述相依深度图估计中的每一者,所述视频译码器经配置以通过至少经配置 以进行以下操作而更新所述相依深度图估计: 对于所述相依深度图估计的对应于所述第二存取单元的所述相依视图的所述纹理数 据的使用图片内预测译码的块的块,应用所述图片内预测来从所述相依深度图估计的一或 多个其它块推导所述相依深度图估计的所述块; 对于所述相依深度图估计的对应于所述第二存取单元的所述相依视图的所述纹理数 据的使用MCP译码的块的块,应用所述MCP来从先前存取单元的所述相依深度图估计的先 前版本的一或多个块推导所述相依深度图估计的所述块;以及 对于所述相依深度图估计的对应于所述第二存取单元的所述相依视图的所述纹理数 据的使用DCP译码的块的块,将用于所述DCP的视差向量转换为深度值。
30. 根据权利要求28所述的装置,其中所述视频译码器经配置以: 针对所述多个相依视图中的每一者,独立地将所述基本深度图估计变形到所述相依视 图以产生相依深度图估计、对所述相依视图的纹理数据进行译码、更新所述相依深度图估 计以及将所述相依深度图估计变形回到所述基本视图以更新所述基本深度图估计。
31. 根据权利要求24所述的装置,其中第一存取单元包括所述视图中的每一者的相应 锚点图片,且所述第二存取单元包括所述视图中的每一者的相应非锚点图片。
32. 根据权利要求31所述的装置,其中所述第一存取单元包括随机存取单元,所述锚 点图片包括随机存取图片,所述第二存取单元包括非随机存取单元,且所述非锚点图片包 括非随机存取图片。
33. 根据权利要求20所述的装置,其中所述视频译码器进一步经配置以: 当所述存取单元包括所述视图中的每一者的相应锚点图片时,停用所述存取单元的所 述相依视图的所述纹理数据的视图间运动预测译码或视图间残余预测译码中的至少一者; 且 当所述存取单元包括所述视图中的每一者的相应非锚点图片时,启用所述存取单元的 所述相依视图的所述纹理数据的视图间运动预测译码或视图间残余预测译码中的至少一 者。
34. 根据权利要求20所述的装置,其中所述深度图估计的分辨率与所述纹理数据的分 辨率相同。
35. 根据权利要求20所述的装置,其中所述深度图估计的分辨率与所述纹理数据的分 辨率不同。
36. 根据权利要求20所述的装置,其中所述相依深度图估计的分辨率与所述基本深度 图估计的分辨率不同。
37. 根据权利要求20所述的装置,其中视频译码器包括视频解码器,所述视频解码器 经配置以对纹理数据进行解码且产生和变形所述相依深度图估计。
38. 根据权利要求20所述的装置,其中视频译码器包括视频编码器,所述视频编码器 经配置以对纹理数据进行编码且产生和变形所述相依深度图估计。
39. 根据权利要求20所述的装置,其中所述装置包括以下各项中的至少一者: 集成电路,其实施所述视频译码器; 微处理器,其实施所述视频译码器;以及 无线通信装置,其包含所述视频译码器。
40. -种用于对视频数据进行译码的装置,所述视频数据包括至少一个基本视图和多 个相依视图,其中所述多个相依视图取决于所述基本视图,所述装置包括: 用于对于所述相依视图中的每一者相对于存取单元的所述基本视图的纹理数据使用 所述相依视图的视差运动信息对所述存取单元的所述相依视图的纹理数据进行译码的装 置; 用于对于所述相依视图中的每一者基于所述相依视图的所述视差运动信息产生所述 存取单元的相依深度图估计的装置;以及 用于将所述相依深度图估计中的每一者变形到所述基本视图以产生所述存取单元的 多个基本深度图估计中的相应一者的装置,其中所述相依深度图估计中的每一者和所述相 应基本深度图估计形成所述存取单元的多个深度图估计对中的相应一者且与所述多个相 依视图中的相应一者相关联。
41. 根据权利要求40所述的装置,其中所述存取单元包括第一存取单元,所述装置进 一步包括: 用于对第二存取单元的所述基本视图的纹理数据进行译码的装置;以及 用于基于所述第二存取单元的所述基本视图的所述纹理数据的所述译码来更新所述 多个基本深度图估计中的每一者的装置。
42. 根据权利要求41所述的装置,其进一步包括: 用于对于所述相依视图中的每一者将所述多个基本深度图估计中的相应一者变形到 所述相依视图以产生相应相依深度图估计的装置;以及 用于对于所述相依视图中的每一者基于所述相应相依深度图估计相对于所述第二存 取单元的所述基本视图的所述纹理数据对所述第二存取单元的所述相依视图的纹理数据 进行译码的装置。
43. 根据权利要求42所述的装置,其中所述用于基于所述相应相依深度图估计相对于 所述第二存取单元的所述基本视图的所述纹理数据对所述第二存取单元的所述相依视图 的纹理数据进行译码的装置包括用于在视图间运动预测或视图间残余预测中的至少一者 经启用的情况下基于所述相应相依深度图估计相对于所述第二存取单元的所述基本视图 的所述纹理数据对所述第二存取单元的所述相依视图的纹理数据进行译码的装置。
44. 根据权利要求42所述的装置,其进一步包括: 用于对于所述相依视图中的每一者基于所述第二存取单元的所述相依视图的所述纹 理数据的所述经译码信息来更新所述相应相依深度图估计的装置;以及 用于对于所述相依视图中的每一者将所述相应相依深度图估计变形回到所述基本视 图以更新所述多个基本深度图估计中的所述相应一者的装置。
45. 根据权利要求41所述的装置,其中第一存取单元包括所述视图中的每一者的相应 锚点图片,且所述第二存取单元包括所述视图中的每一者的相应非锚点图片。
46. 根据权利要求40所述的装置,其进一步包括: 用于当所述存取单元包括所述视图中的每一者的相应锚点图片时对所述相依视图的 所述纹理数据进行译码的装置包括停用所述存取单元的所述相依视图的所述纹理数据的 视图间运动预测译码或视图间残余译码中的至少一者;且 用于当所述存取单元包括所述视图中的每一者的相应非锚点图片时对所述相依视图 的所述纹理数据进行译码的装置包括启用所述存取单元的所述相依视图的所述纹理数据 的视图间运动预测译码或视图间残余译码中的至少一者。
47. -种具有存储于其上的指令的计算机可读存储媒体,所述指令当由经配置以对包 括至少一个基本视图和多个相依视图的视频数据进行译码的视频译码器的一或多个处理 器执行时致使所述视频译码器进行以下操作,其中所述多个相依视图取决于所述基本视 图: 对于所述相依视图中的每一者,相对于存取单元的所述基本视图的纹理数据使用所述 相依视图的视差运动信息对所述存取单元的所述相依视图的纹理数据进行译码; 对于所述相依视图中的每一者,基于所述相依视图的所述视差运动信息产生所述存取 单元的相依深度图估计;以及 将所述相依深度图估计中的每一者变形到所述基本视图以产生所述存取单元的多个 基本深度图估计中的相应一者,其中所述相依深度图估计中的每一者和所述相应基本深度 图估计形成所述存取单元的多个深度图估计对中的相应一者且与所述多个相依视图中的 相应一者相关联。
48. 根据权利要求47所述的计算机可读存储媒体,其中所述存取单元包括第一存取单 元,且所述指令进一步致使所述视频译码器: 对第二存取单元的所述基本视图的纹理数据进行译码;以及 基于所述第二存取单元的所述基本视图的所述纹理数据的所述译码来更新所述多个 基本深度图估计中的每一者。
49. 根据权利要求48所述的计算机可读存储媒体,其中所述指令进一步致使所述视频 译码器对于所述相依视图中的每一者: 将所述多个基本深度图估计中的相应一者变形到所述相依视图以产生相应相依深度 图估计;以及 基于所述相应相依深度图估计相对于所述第二存取单元的所述基本视图的所述纹理 数据对所述第二存取单元的所述相依视图的纹理数据进行译码。
50. 根据权利要求49所述的计算机可读存储媒体,其中所述致使所述视频译码器基于 所述相应相依深度图估计相对于所述第二存取单元的所述基本视图的所述纹理数据对所 述第二存取单元的所述相依视图的纹理数据进行译码的指令包括致使所述视频译码器在 视图间运动预测或视图间残余预测中的至少一者经启用的情况下基于所述相应相依深度 图估计相对于所述第二存取单元的所述基本视图的所述纹理数据对所述第二存取单元的 所述相依视图的所述纹理数据进行译码的指令。
51. 根据权利要求49所述的计算机可读存储媒体,其中所述指令进一步致使所述视频 译码器对于所述相依视图中的每一者: 基于所述第二存取单元的所述相依视图的所述纹理数据的所述经译码信息来更新所 述相应相依深度图估计;以及 将所述相应相依深度图估计变形回到所述基本视图以更新所述多个基本深度图估计 中的所述相应一者。
52. 根据权利要求48所述的计算机可读存储媒体,其中第一存取单元包括所述视图中 的每一者的相应锚点图片,且所述第二存取单元包括所述视图中的每一者的相应非锚点图 片。
53. 根据权利要求47所述的计算机可读存储媒体,其中所述指令进一步致使所述视频 译码器: 当所述存取单元包括所述视图中的每一者的相应锚点图片时,停用所述存取单元的所 述相依视图的所述纹理数据的视图间运动预测译码或视图间残余预测译码中的至少一者; 且 当所述存取单元包括所述视图中的每一者的相应非锚点图片时,启用所述存取单元的 所述相依视图的所述纹理数据的视图间运动预测译码或视图间残余预测译码中的至少一 者。
【文档编号】H04N19/597GK104350749SQ201380030528
【公开日】2015年2月11日 申请日期:2013年5月10日 优先权日:2012年6月13日
【发明者】张莉, 陈颖, 马尔塔·卡切维奇 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1