使用不对称运动分割的视频译码技术的制作方法

文档序号:9872759阅读:352来源:国知局
使用不对称运动分割的视频译码技术的制作方法
【专利说明】使用不对称运动分割的视频译码技术
[0001 ] 本申请案主张2013年9月13日申请的第61/877,793号美国临时申请案和2013年9月23日申请的第61/881,383号美国临时申请案的权益,以上美国临时申请案两者的整个内容以引用的方式并入本文中。
技术领域
[0002]本发明涉及视频译码,即,视频数据的编码或解码。
【背景技术】
[0003]数字视频能力可以并入到多种多样的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话(所谓的“智能电话”)、视频电话会议装置、视频流式传输装置及其类似者。数字视频装置实施视频译码技术,例如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/]\0^6-4第10部分高级视频译码(AVC)定义的标准、目前正在开发的高效率视频译码(HEVC)标准及此类标准的扩展中所描述的视频译码技术。视频装置可通过实施此些视频译码技术而更有效地发射、接收、编码、解码和/或存储数字视频信息。
[0004]视频译码技术包含空间(图片内)预测和/或时间(图片间)预测以减少或去除视频序列中固有的冗余。对于基于块的视频译码,视频切片(即,视频帧或视频帧的一部分)可分割成视频块,所述视频块还可被称作树块、译码单元(CU)和/或译码节点。使用关于同一图片中的相邻块中的参考样本的空间预测编码图片的经帧内译码(I)切片中的视频块。图片的经帧间编码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可被称作帧,且参考图片可被称作参考帧。
[0005]空间或时间预测导致待译码块的预测性块。残余数据表示待译码原始块与预测性块的间的像素差。经帧间译码块是根据指向形成预测块的参考样本块的运动向量和指示经译码块与预测块之间的差的残余数据编码的。根据帧内译码模式和残余数据来编码经帧内译码块。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生残余变换系数,可接着量化所述残余变换系数。可扫描一开始按二维阵列排列的经量化变换系数,以便产生变换系数的一维向量,且可应用熵译码以实现更多压缩。

【发明内容】

[0006]一般来说,本发明涉及基于高级编解码器的三维(3D)视频译码,在一些实例中包含深度译码技术。本发明描述当结合不对称运动分割使用时用于视图合成预测译码的技术,包含块大小的确定。本发明还描述当结合不对称运动分割使用时用于高级运动预测的技术。
[0007]在本发明的一个实例中,一种对视频数据进行解码的方法包括:接收对应于视频数据块的残余数据,其中所述视频数据块是使用不对称运动分割经编码,是使用后向视图合成预测(BVSP)经单向预测,且具有16x12、12x16、16x4或4x16的大小;将所述视频数据块分割为子块,每一子块具有8x4或4x8的大小;从对应于参考图片的深度图片中的对应深度块导出所述子块中的每一者的相应视差运动向量;使用所述相应导出的视差运动向量合成所述子块中的每一者的相应参考块;以及通过使用所述残余数据和所述经合成相应参考块对所述子块中的每一者执行运动补偿而对所述视频数据块进行解码。
[0008]在本发明的另一实例中,一种对视频数据进行编码的方法包括:使用不对称运动分割产生视频数据块,其中所述视频数据块是使用后向视图合成预测(BVSP)经单向预测且具有16xl2、12xl6、16x4或4x16的大小;将所述视频数据块分割为子块,每一子块具有8x4或4x8的大小;从对应于参考图片的深度图片中的对应深度块导出所述子块中的每一者的相应视差运动向量;使用所述相应导出的视差运动向量合成所述子块中的每一者的相应参考块;以及通过使用所述经合成相应参考块对所述子块中的每一者执行运动补偿而对所述视频数据块进行编码。
[0009]在本发明的另一实例中,一种经配置以对视频数据进行解码的设备包括:视频存储器,其经配置以存储对应于视频数据块的信息;以及一或多个处理器,其经配置以:接收对应于所述视频数据块的残余数据,其中所述视频数据块是使用不对称运动分割经编码,是使用后向视图合成预测(BVSP)经单向预测,且具有16x12、12x16、16x4或4x16的大小;将所述视频数据块分割为子块,每一子块具有8x4或4x8的大小;从对应于参考图片的深度图片中的对应深度块导出所述子块中的每一者的相应视差运动向量;使用所述相应导出的视差运动向量合成所述子块中的每一者的相应参考块;以及通过使用所述残余数据和所述经合成相应参考块对所述子块中的每一者执行运动补偿而对所述视频数据块进行解码。
[0010]在本发明的另一实例中,一种经配置以对视频数据进行解码的设备包括:用于接收对应于视频数据块的残余数据的装置,其中所述视频数据块是使用不对称运动分割经编码,是使用后向视图合成预测(BVSP)经单向预测,且具有16xl2、12xl6、16x4或4x16的大小;用于将所述视频数据块分割为子块的装置,每一子块具有8x4或4x8的大小;用于从对应于参考图片的深度图片中的对应深度块导出所述子块中的每一者的相应视差运动向量的装置;用于使用所述相应导出的视差运动向量合成所述子块中的每一者的相应参考块的装置;以及用于通过使用所述残余数据和所述经合成相应参考块对所述子块中的每一者执行运动补偿而对所述视频数据块进行解码的装置。
[0011]在附图和下文描述中陈述本发明的一或多个实例的细节。其它特征、目标和优点将从所述描述、图式以及权利要求书显而易见。
【附图说明】
[0012]图1是说明可利用本发明的帧间预测技术的实例视频编码及解码系统的框图。
[0013]图2是说明用于多视图视频的实例解码次序的概念图。
[0014]图3是说明用于多视图视频的实例预测结构的概念图。
[0015]图4是说明用于3D视频的纹理和深度值的概念图。
[0016]图5是说明实例分割类型的概念图。
[0017]图6是说明合并模式运动向量候选者的概念图。
[0018]图7是指示合并候选者索引的实例规范的表。
[0019]图8是说明用于实例视差向量导出过程的相邻块的概念图。
[0020]图9是说明相邻块视差向量导出过程的概念图。
[0021]图10是说明8x8深度块的四个拐角像素的概念图。
[0022]图11是说明用于合并/跳过模式的经视图间预测的运动向量候选者的实例导出的概念图。
[0023]图12是指示3D-HEVC中的参考索引的实例规范的表。
[0024]图13是说明用于深度译码的运动向量继承候选者的实例导出的概念图。
[0025]图14说明多视图视频译码中的高级残余预测(ARP)的预测结构。
[0026]图15是说明当前块、参考块和运动补偿块之间的实例关系的概念图。
[0027]图16是说明子预测单元视图间运动预测的概念图。
[0028]图17是描绘当使用不对称运动分割时本发明的后向视图合成预测和运动补偿技术的概念图。
[0029]图18是说明用于4x16和16x4的不对称运动分区大小的运动向量继承和运动补偿技术的概念图。
[0030]图19是说明可实施本发明的帧间预测技术的视频编码器的实例的框图。
[0031]图20是说明可实施本发明的帧间预测技术的视频解码器的实例的框图。
[0032]图21是说明本发明的实例编码方法的流程图。
[0033]图22是说明本发明的另一实例编码方法的流程图。
[0034]图23是说明本发明的另一实例编码方法的流程图。
[0035]图24是说明本发明的实例解码方法的流程图。
[0036]图25是说明本发明的实例解码方法的流程图。
[0037]图26是说明本发明的实例解码方法的流程图。
【具体实施方式】
[0038]—般来说,本发明描述与基于高级编解码器的3D视频译码相关的技术,包含使用3D-HEVC(高效率视频译码)编解码器对一或多个视图连同深度块的译码。确切地说,本发明描述用于将使用不对称运动分割技术分割的预测单元(PU)进一步划分为较小子块的技术。本发明的技术包含用于导出和/或继承使用不对称运动分割分割的PU的子块的运动向量和视差运动向量的技术。
[0039]图1是说明可利用本发明的技术的实例视频编码和解码系统1的框图。如图1中所展示,系统10包含源装置12,其提供待在稍后时间由目的地装置14解码的经编码视频数据。具体地说,源装置12可经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12及目的地装置14可包括广泛范围的装置中的任一者,包含桌上型计算机、笔记型(S卩,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话的电话手持机、所谓的“智能”板、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或类似者。在一些情况下,可装备源装置12和目的地装置14以用于无线通信。
[0040]目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码的视频数据从源装置12移动到目的地装置14的任一类型的媒体或装置。在一个实例中,计算机可读媒体16可包括通信媒体以使源装置12能够实时地将经编码的视频数据直接发射到目的地装置14。可根据通信标准(例如,无线通信协议)调制经编码的视频数据,并将其发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成分组网络(例如,局域网。广域网或全球网络,例如因特网)的部分。通信媒体可包含路由器、交换器、基站或任何其它可用于促进从源装置12到目的地装置14的通信的设备。
[0041]在一些实例中,经编码数据可以从输出接口22输出到存储装置。类似地,经编码数据可由输入接口从存储装置存取。存储装置可包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或任何其它用于存储经编码的视频数据的合适的数字存储媒体。在另一实例中,存储装置可对应于可保持由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可从存储装置经由流式传输或下载来存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可以通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线信道(例如,W1-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的发射可能是流式传输发射、下载发射或其组合。
[0042]本发明的技术未必限于无线应用或设定。所述技术可以应用于视频译码以支持多种多媒体应用中的任一者,例如空中协议电视广播、有线电视发射、卫星电视发射、因特网流式视频发射(例如,经由HTTP的动态自适应流式传输(DASH))、经编码到数据存储媒体上的数字视频、存储在数据存储媒体上的数字视频的解码或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频传输,以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。
[0043]在图1的实例中,源装置12包含视频源18、深度估计单元19、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30、基于深度图像的再现(DIBR)单元31及显示装置32。在其它实例中,源装置和目的地装置可包含其它组件或布置。举例来说,源装置12可从外部视频源18(例如外部相机)接收视频数据。同样,目的地装置14可与外部显示装置介接,而非包含集成式显示装置。
[0044]图1的说明的系统10只是一个实例。本发明的技术可由任何数字视频编码及/或解码装置执行。尽管本发明的技术一般通过视频编码装置来执行,但是所述技术还可通过视频编码器/解码器(通常被称作“编解码器”)来执行。此外,本发明的技术还可由视频预处理器执行。源装置12及目的地装置14仅为源装置12产生经译码视频数据用于发射到目的地装置14的所述译码装置的实例。在一些实例中,装置12、14可以实质上对称的方式操作,使得装置12、14中的每一者包含视频编码及解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频传播以例如用于视频流式传输、视频回放、视频广播或视频电话。
[0045]源装置12的视频源18可以包含视频俘获装置,例如摄像机、含有先前所俘获视频的视频存档和/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案,视频源18可以产生基于计算机图形的数据作为源视频,或直播视频、存档视频与计算机产生的视频的组合。在一些情况下,如果视频源18为摄像机,那么源装置12和目的地装置14可形成所谓的相机电话或视频电话。然而,如上文所提及,本发明中所描述的技术可大体上适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,俘获、预先俘获或计算机产生的视频可由视频编码器20编码。经编码视频信息可接着由输出接口 22输出到计算机可读媒体16上。
[0046]视频源18可将视频数据的一或多个视图提供到视频编码器20。举例来说,视频源18可对应于摄像机阵列,所述摄像机各自具有相对于所拍摄的特定场景的独特水平位置。或者,视频源18可例如使用计算机图形产生来自不同水平相机视角的视频数据。深度估计单元19可经配置以确定对应于纹理图像中的像素的深度像素的值。举例来说,深度估计单元19可表示声音导航与测距(SONAR)单元、光检测与测距(LIDAR)单元或能够在记录场景的视频数据时实质上同时直接确定深度值的其它单元。
[0047]另外或替代地,深度估计单元19可经配置以通过比较在实质上相同时间从不同水平摄像机视角俘获的两个或两个以上图像来间接计算深度值。通过计算图像中的实质上类似像素值之间的水平视差,深度估计单元19可近似估计场景中的各种对象的深度。在一些实例中,深度估计单元19可在功能上与视频源18集成。举例来说,在视频源18产生计算机图形图像时,深度估计单元19可例如使用用以再现纹理图像的像素及对象的z坐标提供用于图形对象的实际深度图。
[0048]计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络发射,或存储媒体(也就是说,非暂时性存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可以从源装置12接收经编码的视频数据,并且例如经由网络发射将经编码的视频数据提供到目的地装置14。类似地,媒体生产设施(例如,光盘冲压设施)的计算装置可从源装置12接收经编码的视频数据且生产含有经编码的视频数据的光盘。因此,在各种实例中,计算机可读媒体16可以理解为包含各种形式的一或多个计算机可读媒体。
[0049]目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息,所述语法信息也被视频解码器30使用,所述语法信息包含描述块和其它经译码单元(例如,G0P)的特性和/或处理的语法元素。显示装置32将经解码视频数据显示给用户,且可包括多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(IXD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。在一些实例中,显示装置32可包括能够同时或实质上同时显示两个或两个以上视图例如以向观察者产生3D视觉效果的装置。
[0050]目的地装置14的DIBR单元31可使用从视频解码器30接收的经解码视图的纹理及深度信息再现合成视图。举例来说,DIBR单元31可依据对应深度图中的像素的值确定纹理图像的像素数据的水平视差。DIBR单元31接着可通过使纹理图像中的像素向左或向右偏移所确定的水平视差而产生合成图像。以此方式,显示装置32可以任何组合显示可对应于经解码视图及/或合成视图的一或多个视图。根据本发明的技术,视频解码器30可将深度范围及摄像机参数的原始及更新精度值提供到DIBR单元31,所述DIBR单元可使用深度范围及摄像机参数来恰当地合成视图。
[0051 ]尽管图1中未图示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器及解码器集成,且可包含适当多路复用器-多路分用器单元或其它硬件和软件以处置共同数据流或单独数据流中的音频和视频两者的编码。如果适用,则多路复用器-多路分用器单元可符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
[0052]视频编码器20和视频解码器30各自可实施为多种合适的编码器和解码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地用软件实施所述技术时,装置可将用于所述软件的指令存储在合适的非暂时计算机可读媒体中,且使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(CODEC)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置(例如,蜂窝式电话)。
[0053]视频编码器20和视频解码器30可以根据一种视频译码标准(例如目前正在开发的高效视频译码(HEVC)标准)来操作,并且可以符合HEVC测试模型(HM)。替代地,视频编码器20及视频解码器30可根据例如替代地被称作MPEG-4第10部分高级视频译码(AVC)的ITU-TH.264标准等其它专属或工业标准或此类标准的扩展(例如,ITU-T H.264/AVC的MVC扩展)操作。MVC的最新联合草案描述于2010年3月的“用于通用视听服务的高级视频译码”(ITU-T建议H.264)中。确切地说,视频编码器20及视频解码器30可根据3D和/或多视图译码标准操作,包含HEVC标准的3D扩展(例如,3D-HEVC)。
[0054]被称作“HEVC工作草案10”或“WD10”的HEVC标准的一个草案在布洛斯等人的文献JCTVC-L1003v34“高效率视频译码(HEVC)文本规范草案10(用于roiS和最后呼叫)”(ITU-TSG16 WP3和IS0/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),瑞士日内瓦第12次会议,2013年I月14-23日)中描述,其从2014年8月22日起可从http://phenix.1nt-evry.fr/jct/doc_end_user/documents/12_Geneva/wgll/JCTVC-L1003_v34.zip下载。
[0055]HEVC标准的另一草案在本文中被称作“WD10修订本”,在布洛斯等人的“HEVC版本I的编者提议的校正”(ITU-T SG16WP3和IS0/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC) 2013年4月韩国仁川第13次会议)中描述,其从2014年8月22日起从http://phenix.1nt-evry.fr/jet/doc_end_user/documents/13_Incheon/wgl1/JCTVC-M0432-v3.zip可用。对HEVC的多视图扩展(S卩MV-HEVC)也正由JCT-3V开发。
[0056]当前,VCEG及MPEG的3D视频译码联合合作小组(JCT-3C)正在开发基于HEVC的3DV标准,其标准化努力的部分包含基于HEVC的多视图视频编解码器(MV-HEVC)的标准化及用于基于HEVC的3D视频译码(3D-HEVC)的另一部分。对于MV-HEVC,应保证其中仅存在高级语法(HLS)改变,以使得HEVC中的译码单元/预测单元层级中的模块不需要再设计,且可完全再用于MV-HEVC。对于3D-HEVC,可包含并支持用于纹理和深度视图两者的包含译码单元/预测单元层级中的工具的新译码工具。
[0057]用于3D-HEVC的一个版本软件3D-HTM可从以下链接下载:[3D-HTM版本8.0]:https://hevc.hh1.fraunhofer.de/svn/svn_3DVCSoftware/tags/HTM-8.0/。3D-HEVC的一个工作草案(文档编号:E1001)从http: //phenix.1t-sudparis.eu/ jct2/doc_end_user/current_document.php?id= 1361可用。最亲jf 软件描述(文档编号:E1005)从http://phenix.1t-sudparis.eu/jct2/doc_end_user/current_document.php?id = 1360可用。
[0058]用于3D-HEVC的软件3D-HTM的更为新近版本可从以下链接下载:[3D-HTM版本12.0]:https://hevc.hh1.fraunhofer.de/svn/svn_3DVCSoftware/tags/HTM-12.0/。3D_HEVC的对应工作草案(文档编号:11001)从http: //phenix.1nt-evry.fr/jct3v/doc_end_user/current_document.php? id = 2299 可用。最亲if 软件描述(文档编号:11005)从 http://phenix.1nt-evry.fr/jct3v/doc_end_user/current_document.php?id = 2301 可用 o
[0059]最初,将论述HEVC的实例译码技术。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的演进模型。HM假设视频译码装置根据例如ITU-T H.264/AVC相对于现有装置的若干额外能力。举例来说,虽然H.264提供9种帧内预测编码模式,但HM可提供多达三十三种角度帧内预测编码模式加DC及平面模式。
[0060]在HEVC及其它视频译码
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1