用于视频译码的经解码图片缓冲器操作的制作方法

文档序号：9650908阅读：433来源：国知局

用于视频译码的经解码图片缓冲器操作的制作方法
【专利说明】
[0001] 本申请案主张2013年7月15日申请的第61/846, 576号美国临时专利申请案的权益，其整个内容W引用的方式并入本文中。
技术领域
[0002] 本发明设及用于视频译码的技术，且更特定来说设及用于多层视频译码的技术。
【背景技术】
[0003] 数字视频能力可并入到广泛多种装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理（PDA)、膝上型或桌上型计算机、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置及其类似者。数字视频装置实施视频压缩技术，例如由MPEG-2、MPEG-4、口U-TH. 263、口U-T 比264/MPEG-4第10部分、高级视频译码（AVC)、高效率视频译码（肥VC)标准及此类标准的扩展定义的标准中所描述的技术，W便更有效地发射、接收并存储数字视频信息。
[0004] 前述标准中的一些的扩展（包含H. 264/AVC)提供用于多层视频译码的技术。多层视频译码技术可包含可缩放视频译码技术、多视图视频译码技术及多视图加上深度视频译码技术。为了产生立体或S维（"3D")视频，举例来说，已提出用于AVC的多视图译码技术W及可缩放视频译码（SVC)标准（其为H. 264/AVC的可缩放扩展）及多视图视频译码 (MVC)标准（其已变成H. 264/AVC的多视图扩展）。

【发明内容】

[0005] -般来说，本发明描述用于多层视频译码的技术。具体来说，本发明设及用于多层视频译码的经解码图片缓冲器值PB)管理。
[0006] 在本发明的一个实例中，一种解码视频数据的方法包括将经解码图片缓冲器值PB)分割成多个子DPB，及接收用于多层视频译码过程的一或多个操作点的所述多个子 DPB的子DPB大小的至少一个指示。
[0007] 在本发明的另一实例中，一种经配置W解码视频数据的设备包括经配置W存储视频数据的DPB及视频解码器，其经配置W将所述DPB分割成多个子DPB，及接收用于多层视频译码过程的一或多个操作点的所述多个子DPB的子DPB大小的至少一个指示。
[0008] 在本发明的另一实例中，一种经配置W解码视频数据的设备包括用于将DPB分割成多个子DPB的装置，及用于接收用于多层视频译码过程的一或多个操作点的所述多个子 DPB的子DPB大小的至少一个指示的装置。
[0009] 在另一实例中，本发明描述一种存储指令的计算机可读存储媒体，所述指令在经执行时致使经配置W解码视频数据的装置的一或多个处理器将DPB分割成多个子DPB，及接收用于多层视频译码过程的一或多个操作点的所述多个子DPB的子DPB大小的至少一个指示。
[0010] 在本发明的另一实例中，一种编码视频数据的方法包括重建构多个不同层类型的多个图片；将所述多个图片存储于DPB中，其中所述Dro被分割成多个子DPB;及产生用于多层视频译码过程的一或多个操作点的所述多个子DPB的子DPB大小的至少一个指示。
[0011] 在本发明的另一实例中，一种经配置W编码视频数据的设备包括经配置W存储视频数据的DBP及视频编码器，其经配置W重建构多个不同层类型的多个图片；将所述多个图片存储于所述DPB中，其中所述DPB被分割成多个子DPB;及产生用于多层视频译码过程的一或多个操作点的所述多个子DPB的子DPB大小的至少一个指示。
[0012] 在本发明的另一实例中，一种经配置W编码视频数据的设备包括用于重建构多个不同层类型的多个图片的装置；用于将所述多个图片存储于DPB中的装置，其中所述DPB 被分割成多个子DPB;及用于产生用于多层视频译码过程的一或多个操作点的所述多个子 DPB的子DPB大小的至少一个指示的装置。
[0013] 在另一实例中，本发明描述一种存储指令的计算机可读媒体，所述指令在经执行时致使经配置W编码视频数据的装置的一或多个处理器重建构多个不同层类型的多个图片；将所述多个层图片存储于DPB中，其中所述DPB被分割成多个子DPB;及产生用于多层视频译码过程的一或多个操作点的所述多个子DPB的子DPB大小的至少一个指示。
[0014] 附图及下文描述中阐述一或多个实例的细节。其它特征、目标及优势将从所述描述及图式W及权利要求书而显而易见。
【附图说明】
[0015] 图1为说明可利用本发明中描述的技术的实例视频编码及解码系统的框图。
[0016] 图2为说明实例多视图解码次序的概念图。
[0017] 图3为说明用于多视图译码的实例预测结构的概念图。
[001引图4为说明实例可缩放视频译码层的概念图。
[0019] 图5为展示根据本发明的实例的实例DPB的概念图。
[0020] 图6为说明可实施本发明中描述的技术的实例视频编码器的框图。
[0021] 图7为说明可实施本发明中描述的技术的实例视频解码器的框图。
[0022] 图8为展示根据本发明的技术的实例编码方法的流程图。
[0023] 图9为展示根据本发明的技术的实例解码方法的流程图。
【具体实施方式】
[0024] -般来说，本发明描述用于在多层视频译码中管理经解码图片缓冲器值PB)的技术。具体来说，本发明描述用于管理DPB的子单元（也被称为子DPB)的各种技术。如将在下文更详细地描述，在本发明的不同实例中，DBP可被分割成多个子DPB，且每一子DPB可经配置W保存一种类型的经解码视频数据层的图片。
[0025] 在本发明的上下文中，层可为可缩放视频译码过程中的基础层或一或多个增强层。实例可缩放视频译码过程包含H. 264/SVC(可缩放视频译码）及高效率视频译码（肥VC) 标准的可缩放扩展（例如，可缩放肥VC(SHVC))。另外，层可指多视图或3D视频译码中的一或多个纹理视图。另外，3D视频译码中的深度视图也可被视为层。作为另一实例，层可对应于包含纹理视图分量及深度视图分量两者的单一视图。实例多视图译码过程包含H. 264/ MVC(多视图译码）及肥VC标准的多视图扩展（例如，多视图肥VC(MV-肥VC))。
[0026] 因此，术语"层"在本发明中一般用W在可缩放视频译码的意义上指基础及/或增强层，或在3D及多视图视频译码的意义上用W指纹理视图及/或深度视图。因此，术语多层视频译码一般是指可缩放视频译码技术、多视图视频译码技术及3D视频译码技术，包含多视图加上深度译码。本发明的技术可适用于任何此类视频译码情境，包含肥VC及/或比264/AVC的多视图扩展、3D视频扩展及可缩放扩展。
[0027] 下文所描述的技术可应用于基于高级编解码器的可缩放、多视图及3D视频译码技术，包含译码具有深度图的图片的两个或两个W上视图。视频译码标准包含口U-T 比 26UIS0/IECMPEG-lVisual、ITU-T比 262 或IS0/IECMPEG-2Visual、ITU-TH. 263、IS0/ IECMPEG-4Visual及mJ-TH. 264(也被称为ISO/IECMPEG-4AVC)，包含其可缩放视频译码 (SVC)及多视图视频译码（MVC)扩展。另外，已由ITU-T视频译码专家组（VCEG)及IS0/IEC 动画专家组（MPEG)的视频译码联合合作小组（JCT-VC)开发新视频译码标准，亦即，高效率视频译码（肥VC)。肥VC标准描述于口U-TH. 265 (序列H:视听及多媒体系统，视听服务的基础结构一一移动视频译码，"高效率视频译码"，2013年4月）中（在下文中称"肥VC")。
[0028] 已提出对肥VC的各种扩展。一个此类扩展为描述于"高效率视频译码（肥VC) 范围扩展文本规范：草案4" (JCTVC-N1005_vl，2013年4月（下文中称"JCTVC-N1005")) 中的肥VC范围扩展。标题为"高效率视频译码（肥VC)可缩放扩展草案3"的可缩放肥VC(SHVC)标准的最近工作草案（WD)(mJ-TSG16WP3及IS0/IECJTC1/SC29/WG11 的视频译码联合合作小组（JCT-VC)，第14次会议：奥地利维也纳，2013年7月25日至8 月2 曰，且在下文中被称作甜VCWD3)可自http://phenix.it-sudparis.eu/ict/doc enduser/do州ments/14Yienna/wRll/'TCTYC-N1008-v3.zip巧得。对肥VC的多视图扩展（亦即，MV-肥VC)也由JCT-3V开发。MV-肥VC的一个工作草案（在下文中称WD4)可自http://phenix.it-sudparis.eu/ict2/docenduser/documents/4Incheon/wRlI/ TCT3V-D1004-V3.ZiD巧得。标题为"MV-HEVC草案文本8"的MV-HEVC的最新工作草案 (ITU-TSG16WP3及IS0/IECJTC1/SC29/WG11的3D视频译码扩展联合合作小组，第8次会议：西班牙己伦西亚，2014年3月29日至4月4日）可自111:1口://地6]1；[^;.;[1：-311化日1'王3. eu/jc1:3v/doc_end_use;r/do州ments/8_Valencia/wgll/JCT3V-册002-vl.zip获得。
[0029] 图1为说明可利用本发明中描述的用于多层视频译码中的经解码图片缓冲器管理的技术的实例视频编码及解码系统10的框图。如图1中所展示，系统10包含源装置12，其产生在稍后时间待由目的地装置14解码的经编码视频数据。源装置12及目的地装置14 可包括广泛范围的装置中的任一者，包含桌上型计算机、笔记型（即，膝上型）计算机、平板计算机、机顶盒、电话手持机（例如，所谓的"智能"电话）、所谓的"智能"平板、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或其类似者。在一些情况下，可装备源装置12及目的地装置14W用于无线通信。
[0030]目的地装置14可经由链路16接收待解码的经编码视频数据。链路16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中，链路16可包括使得源装置12能够实时地将经编码视频数据直接发射到目的地装置14的通信媒体。可根据通信标准（例如，无线通信协议）调制经编码视频数据，并将其发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体，例如射频（R巧频谱或一或多个物理发射线。通信媒体可形成分组网络（例如，局域网、广域网或全球网络，例如因特网）的部分。通信媒体可包含路由器、交换器、基站或任何其它可用于促进从源装置12 到目的地装置14的通信的设备。
[0031] 替代性地，可将经编码数据从输出接口 22输出到存储装置34。类似地，可由输入接口从存储装置34接入经编码数据。存储装置34可包含多种分布式或本地接入的数据存储媒体中的任一者，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或任何其它用于存储经编码视频数据的合适数字存储媒体。在另一实例中，存储装置34可对应于可保存由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可从存储装置34经由流式传输或下载来接入所存储的视频数据。文件服务器可为能够存储经编码视频数据并将经编码视频数据发射到目的地装置14的任何类型服务器。实例文件服务器包含万维网服务器（例如，用于网站）、FTP服务器、网络附接存储（NA巧装置或本地磁盘驱动器。目的地装置14可通过任何标准数据连接（包含因特网连接）来接入经编码视频数据。此连接可包含适于接入存储于文件服务器上的经编码视频数据的无线信道（例如，Wi-Fi连接）、有线连接（例如，D化、电缆调制解调器等）或两者的组合。经编码视频数据从存储装置34的发射可为流式传输发射、下载发射或两者的组合。
[0032] 用于多层视频解码中的经解码图片缓冲器管理的本发明技术未必限于无线应用或设定。所述技术可应用于视频译码W支持多种多媒体应用中的任一者，例如空中电视广播、有线电视发射、卫星电视发射、流式视频发射（例如，经由因特网）、编码数字视频W存储于数据存储媒体上、解码存储于数据存储媒体上的数字视频或其它应用。在一些实例中，系统10可经配置W支持单向或双向视频发射，W支持例如视频流式传输、视频重放、视频广播及/或视频电话的应用。
[0033] 在图1的实例中，源装置12包含视频源18、视频编码器20及输出接口 22。在一些情况下，输出接口 22可包含调制器/解调器（调制解调器）及/或发射器。在源装置 12中，视频源18可包含例如视频俘获装置（例如，摄像机）、含有先前所俘获视频的视频存档、用于从视频内容提供者接收视频的视频馈入接口及/或用于产生计算机图形数据作为源视频的计算机图形系统，或此类源的组合的源。作为一个实例，如果视频源18为摄像机，则源装置12及目的地装置14可形成所谓的相机电话或视频电话。然而，本发明中所描述的技术一般来说可适用于视频译码，且可应用于无线及/或有线应用。
[0034] 可由视频编码器20编码所俘获、预俘获或计算机产生的视频。可经由源装置12 的输出接口 22将经编码视频数据直接发射到目的地装置14。还可（或替代性地）将经编码视频数据存储到存储装置34上W供稍后由目的地装置14或其它装置接入W用于解码及 /或重放。
[0035]目的地装置14包含输入接口 28、视频解码器30及显示装置32。在一些情况下，输入接口 28可包含接收器及/或调制解调器。目的地装置14的输入接口 28经由链路16 接收经编码视频数据。经由链路16传达或在存储装置34上提供的经编码视频数据可包含由视频编码器20所产生的多种语法元素W供由例如视频解码器30的视频解码器在解码视频数据时使用。此类语法元素可与在通信媒体上发射、存储于存储媒体上或存储文件服务器的经编码视频数据包含在一起。
[0036] 显示装置32可与目的地装置14集成或在所述目的地装置外部。在一些实例中，目的地装置14可包含集成显示装置，且还经配置W与外部显示装置介接。在其它实例中，目的地装置14可为显示装置。一般来说，显示装置32将经解码视频数据显示给用户，且可包括多种显示装置中的任一者，例如液晶显示器化CD)、等离子显示器、有机发光二极管 (OLED)显示器或另一类型的显示装置。
[0037] 视频编码器20及视频解码器30可根据例如高效率视频译码（肥VC)标准的视频压缩标准操作，且可符合肥VC测试模型（HM)。具体来说，在一些实例中，视频编码器20及视频解码器可根据支持可缩放、多视图及/或多视图加上深度视频译码的肥VC的扩展操作。在其它实例中，视频编码器20及视频解码器30可根据其它专有或行业标准来操作，例如口U-TH. 264标准（替代性地被称为MPEG-4第10部分）、高级视频译码（AVC)或此类标准的扩展（包含H.264/SVC)。然而，本发明的技术不限于任何特定译码标准。视频压缩标准的其它实例包含MPEG-2及口U-TH. 263。具体来说，根据本发明的技术，视频编码器20 及视频解码器30可根据能够可缩放（例如，SHVC)及/或多视图编码（例如，MV-HEVC)的视频译码标准操作。
[0038] 尽管图1中未展示，但在一些方面中，视频编码器20及视频解码器30可各自与音频编码器及解码器集成，且可包含适当多路复用器-多路分用器单元或其它硬件及软件W 处置共同数据流或单独数据流中的音频及视频两者的编码。在一些实例中，如果适用，贝U 多路复用器-多路分用器单元可符合ITUH. 223多路复用器协议，或例如用户数据报协议 OJD巧的其它协议。
[0039] 视频编码器20及视频解码器30各自可实施为多种合适的编码器电路中的任一者，例如一或多个微处理器、数字信号处理器值SP)、专用集成电路（ASIC)、现场可编程口阵列（FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地用软件实施所述技术时，装置可将用于所述软件的指令存储于合适的非暂时性计算机可读媒体中且使用一或多个处理器用硬件执行所述指令W执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中，所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器（编解码器）的部分。
[0040] 本发明的W下章节将提供肥VC标准的背景。肥VC标准化努力是基于被称作肥VC 测试模型（HM)的视频译码装置的演进模型。歷假设视频译码装置根据（例如HTU-T 比264/AVC相对于现有装置的若干额外能力。举例来说，虽然H. 264提供九种帖内预测编码模式，但歷可提供多达S十S种帖内预测编码模式。
[0041] 一般来说，HM的工作模型描述视频帖或图片可划分成包含明度及色度样本两者的树块（也被称为译码树块（CTB)或最大译码单元化CU))序列。树块具有与H. 264标准的宏块类似的目的。切片包含按译码次序的若干连续树块。视频帖或图片可被分割成一或多个切片。每一树块可根据四叉树分裂成译码单元（CU)。举例来说，作为四叉树的根节点的树块可分裂成四个子节点，且每一子节点又可为父节点并分裂成另外四个子节点。最后未经分裂子节点（作为四叉树的叶节点）包括译码节点，即，经译码视频块。与经译码位流相关联的语法数据可定义树块可分裂的最大次数，且还可定义译码节点的最小大小。
[0042] CU包含译码节点及与所述译码节点相关联的预测单元（PU)及变换单元（TU)。CU 的大小一般对应于译码节点的大小，且通常必须为正方形形状。CU的大小范围可从8X8像素到具有最大64X64像素或更大的树块的大小。每一CU可含有一或多个PU及一或多个 TU。举例来说，与CU相关联的语法数据可描述将CU分割成一或多个PU。分割模式可在CU 被跳过或经直接模式编码、经帖内预测模式编码或经帖间预测模式编码之间有所不同。PU可被分割成非正方形形状。举例来说，与CU相关联的语法数据还可描述将CU根据四叉树分割成一或多个TU。TU可为正方形或非正方形形状。
[0043] 肥VC标准允许根据TU的变换，TU可针对不同CU而有所不同。TU的大小通常是基于针对经分割LCU所定义的给定CU内的PU的大小而确定，但情况可能并不总是如此。TU 通常与PU大小相同或小于PU。在一些实例中，对应于CU的残余样本可使用被称为"残余四叉树"（RQT)的四叉树结构细分成较小单元。RQT的叶节点可被称为变换单元（TU)。可变换与TU相关联的像素差值W产生可经量化的变换系数。
[0044] -般来说，PU包含与预测过程相关的数据。举例来说，当PU经帖内模式编码时， PU可包含描述PU的帖内预测模式的数据。作为另一实例，当PU经帖间模式编码时，PU可包含定义PU的运动向量的数据。定义PU的运动向量的数据可描述（例如）运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率（例如，四分之一像素精度或八分之一像素精度）、运动向量指向的参考图片及/或可由预测方向指示的运动向量的参考图片列表 (例如，列表0、列表1或列表C)。
[0045] 一般来说，TU用于变换及量化过程。具有一或多个PU的给定CU还可包含一或多个变换单元（TU)。在预测之后，视频编码器20可根据PU从由译码节点所识别的视频块计算残余值。接着更新译码节点W参考残余值而非原始视频块。残余值包括像素差值，所述像素差值可使用TU中所指定的变换及其它变换信息被变换为变换系数、经量化且经扫描 W产生串行化变换系数W用于赌译码。可再次更新译码节点W参考运些串行化变换系数。本发明通常使用术语"视频块"来指CU的译码节点。在一些特定情况下，本发明还可使用术语"视频块"来指包含译码节点W及PU及TU的树块，即，CTB、LCU或CU。
[0046] 视频序列通常包含一系列视频帖或图片。图片群组（GO巧一般包括一系列一或多个视频图片。GOP可包含GOP的标头、图片中的一或多者的标头或其它地方中的语法数据，其描述GOP中包含的图片数目。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作W便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小，且根据指定译码标准可在大小上有所不同。
[0047] 作为实例，歷支持各种PU大小的预测。假设特定CU的大小为2NX2N，则歷支持2NX2N或NXN的PU大小的帖内预，及2NX2N、2NXN、NX2N或NXN的对称PU大小的帖间预测。HM还支持用于2NXnU、2NXnD、nLX2N及nRX2N的PU大小的帖间预测的不对称分割。在不对称分割中，不分割CU的一个方向，而将另一方向分割成25%及75%。CU 的对应于25%分区的部分由"n"继之W"上方"、"下方"、"左侧"或"右侧"的指示来指示。因此，举例来说，"2NXnU"是指经水平分割的2NX2NCU,其中顶部为2NX0. 5NPU且底部为 2NX1. 5NPUo
[004引在本发明中，"NXN"与"N乘N"可互换使用来指在垂直及水平尺寸方面的视频块的像素尺寸，例如，16X16像素或16乘16像素。一般来说，16X16块将在垂直方向上具有 16个像素（y= 16)，且在水平方向上具有16个像素（X= 16)。同样，NXN块一般在垂直方向上具有N个像素，且在水平方向上具有N个像素，其中N表示非负整数值。块中的像素可布置成行及列。此外，块未必需要在水平方向与垂直方向上具有相同数目个像素。举例来说

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：阿达许·克里许纳·瑞玛苏布雷蒙尼安;陈颖;王益魁;
技术所有人：高通股份有限公司;
我是此专利的发明人

上一篇：用于样本自适应偏移滤波的编码器侧决策的制作方法
上一篇：高效率视频译码扩展中的目标输出层的选择的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。