用于上下文自适应二进制算术译码的上下文数目缩减的制作方法

文档序号:7993090阅读:187来源:国知局
用于上下文自适应二进制算术译码的上下文数目缩减的制作方法
【专利摘要】本发明提出缩减在用于视频译码的上下文自适应二进制算术译码CABAC中使用的二进制化和/或上下文的数目。特定来说,本发明提出可使CABAC中使用的上下文数目降低多达56的技术。一种对视频数据进行编码的方法包括:确定视频数据块的预测模式的分区类型;使用具有单个上下文的上下文自适应二进制算术译码对所述视频数据块的预测类型语法元素的分区类型二进位进行编码,其中所述单个上下文对于任一分区类型是相同的;且在旁路模式中使用CABAC对所述视频数据块的所述预测类型语法元素的分区大小二进位进行编码。所述分区类型是不对称分区。所述分区类型二进位指示所述不对称分区是否为垂直分割或水平分割。所述分区大小二进位指示第一分区是否为所述视频数据块的大小的四分之一或所述第一分区是否为所述视频数据块的所述大小的四分之三。还有编码设备以及解码方法和设备。
【专利说明】用于上下文自适应二进制算术译码的上下文数目缩减
[0001]本申请案主张2011年11月8日申请的第61/557,325号美国临时申请案和2011年11月20日申请的第61/561,911号美国临时申请案的权益,以上两个美国临时申请案以全文引用方式并入本文。
【技术领域】
[0002]本发明涉及视频译码,且特定来说涉及在视频译码中使用的上下文自适应二进制算术译码(CABAC)。
【背景技术】
[0003]数字视频能力可并入到广泛多种装置中,包含数字电视机、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置和类似装置。数字视频装置实施视频压缩技术,例如由 MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4 第 10 部分高级视频译码(AVC)界定的标准、当前在开发的高效视频译码(HEVC)标准以及此些标准的扩展中描述的那些技术。视频装置可通过实施此些视频压缩技术来较有效地发射、接收、编码、解码和/或存储数字视频信息。
[0004]视频压缩技术执行空间(图片内)预测和/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码,可将视频切片(即,视频图片或视频图片的一部分)分割为若干视频块,所述视频块也可称为树块、译码单元(CU)和/或译码节点。图片的经帧内译码(I)切片中的视频块是使用相对于同一图片中的相邻块中的参考样本的空间预测来编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可称为帧,且参考图片可称为参考帧。
[0005]空间或时间预测得到待译码块的预测块。残余数据表示待译码的原始块与预测块之间的像素差。经帧间译码块是根据指向形成预测块的参考样本的块的运动向量以及指示经译码块与预测块之间的差的残余数据来编码。经帧内译码块是根据帧内译码模式和残余数据来编码。为了进一步压缩,可将残余数据从像素域变换到变换域,从而得到残余变换系数,所述系数随后可经量化。可扫描初始以二维阵列布置的经量化变换系数以便产生变换系数的一维向量,且可应用熵译码以实现甚至更多的压缩。

【发明内容】

[0006]大体上,本发明描述用于视频译码过程中的上下文自适应二进制算术译码(CABAC)的技术。特定来说,本发明提出用于一个或多个语法元素的CABAC上下文的数目的缩减,所述语法元素的非限制性实例包含pred_type、merge_idx、inter_pred_flag、ref_idx_lx> cbf_cb> cbf_cr> coeff_abs_level_greaterl_flag 和 coeff_abs_level_greater2_flago所述修改可缩减多达56个上下文,其中译码效率改变可忽略。所提出的语法元素的上下文缩减可单独使用或以任一组合使用。
[0007]在本发明的一个实例中,一种对视频进行编码的方法可包含:确定P切片中的视频数据块的第一预测类型,将第一预测类型表示为P切片预测类型语法元素,确定B切片中的视频数据块的第二预测类型,将第二预测类型表示为B切片预测类型语法元素,确定P切片预测类型语法元素的P切片二进制化,确定B切片预测类型语法元素的B切片二进制化,其中P切片预测类型语法元素和B切片预测类型语法元素是使用相同二进制化逻辑来确定,且基于P切片预测类型语法元素和B切片预测语法元素的二进制化对所述视频数据进行编码。
[0008]在本发明的另一实例中,一种对视频进行解码的方法可包含:使用P切片中的视频数据块的二进制化映射将经二进制化P切片预测类型语法元素映射到预测类型,使用B切片中的视频数据块的相同二进制化映射将经二进制化B切片预测类型语法元素映射到预测类型,且基于经映射预测类型对所述视频数据进行解码。
[0009]在本发明的另一实例中,一种对视频数据进行编码的方法包括:确定视频数据块的预测模式的分区类型,使用具有单个上下文的CABAC对视频数据块的预测类型语法元素的分区类型二进位进行编码,其中所述单个上下文对于任一分区类型是相同的,且在旁路模式中使用CABAC对视频数据块的预测类型语法元素的分区大小二进位进行编码。
[0010]在本发明的另一实例中,一种对视频数据进行解码的方法包括:接收已使用CABAC译码的视频数据块的预测类型语法元素,所述预测类型语法元素包含表示分区类型的分区类型二进位和表示分区大小的分区大小二进位,使用具有单个上下文的上下文自适应二进制算术译码对预测类型语法元素的分区类型二进位进行解码,其中所述单个上下文对于任一分区类型是相同的,且在旁路模式中使用CABAC对所述预测类型语法元素的分区大小二进位进行解码。
[0011]在本发明的另一实例中,一种对视频数据进行译码的方法包括:使用CABAC对视频数据块的Cb色度经译码块旗标进行译码,其中对Cb色度经译码块旗标进行译码包括使用包含一个或多个上下文的上下文集合作为CABAC的部分,且使用CABAC对Cr色度经译码块进行译码,其中对Cr色度经译码块旗标进行译码包括使用与Cb色度经译码块旗标相同的上下文集合作为CABAC的部分。
[0012]本发明还鉴于经配置以执行所述技术的设备以及鉴于存储指令的计算机可读存储媒体来描述上述技术,所述指令在执行时致使一个或多个处理器执行所述技术。
[0013]在附图和以下描述中陈述一个或一个以上实例的细节。从描述和图式以及从权利要求书将明了其它特征、目的和优点。
【专利附图】

【附图说明】
[0014]图1是图解说明可利用本发明中描述的技术的实例性视频编码和解码系统的框图。
[0015]图2是图解说明可实施本发明中描述的技术的实例性视频编码器的框图。
[0016]图3是图解说明可实施本发明中描述的技术的实例性视频解码器的框图。
[0017]图4是展示正方形和非正方形分区类型的概念图。[0018]图5是展示不对称分区类型的概念图。
[0019]图6是图解说明本发明的实例性视频编码方法的流程图。
[0020]图7是图解说明本发明的实例性视频解码方法的流程图。
[0021]图8是图解说明本发明的实例性视频编码方法的流程图。
[0022]图9是图解说明本发明的实例性视频解码方法的流程图。
[0023]图10是图解说明本发明的实例性视频译码方法的流程图。
【具体实施方式】
[0024]本发明描述用于对例如视频数据等数据进行译码的技术。特定来说,本发明描述可促进使用上下文自适应熵译码过程对视频数据的有效译码的技术。更具体来说,本发明提出用于对语法元素进行译码的CABAC上下文的数目的缩减,所述语法元素例如pred_type、merge_idx、inter_pred_flag> ref_idx_lx> cbf_cb> cbf_cr> coeff_abs_level_greaterl_f lag 和 coeff_abs_level_greater2_f lag。所述修改缩减多达 56 个上下文,其中译码效率改变可忽略。本发明为了说明而描述视频译码。然而,本发明中描述的技术也可适用于对其它类型数据进行译码。
[0025]图1是图解说明根据本发明的实例可经配置以利用用于上下文自适应二进制算术译码(CABAC)的技术的实例性视频编码和解码系统10的框图。如图1所示,系统10包含源装置12,所述源装置12经由通信信道16将经编码视频发射到目的地装置14。经编码视频数据也可存储在存储媒体34或文件服务器36上,且可按需要由目的地装置14存取。当存储到存储媒体或文件服务器时,视频编码器20可将经译码视频数据提供到另一装置,例如网络接口、压缩光盘(CD)、蓝光或数字视频光盘(DVD)烧录器或冲压设施装置,或其它装置,用于将经译码视频数据存储到存储媒体。同样,与视频解码器30分离的装置,例如网络接口、CD或DVD读取器或类似物,可从存储媒体检索经译码视频数据且将所检索数据提供到视频解码器30。
[0026]源装置12和目的地装置14可包括广泛多种装置中的任一者,包含桌上型计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、例如所谓的智能电话等电话手持机、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台或类似装置。在许多情况下,此些装置可经装备以用于无线通信。因此,通信信道16可包括适合于发射经编码视频数据的无线信道、有线信道或无线与有线信道的组合。类似地,文件服务器36可由目的地装置14通过任何标准数据连接(包含因特网连接)存取。这可包含适于存取存储在文件服务器上的经编码视频数据的无线信道(例如,W1-Fi连接)、有线连接(例如,DSL、电缆调制解调器等等)或两者的组合。
[0027]根据本发明的实例的用于CABAC的技术可应用于视频译码以支持多种多媒体应用中的任一种,例如空中电视广播、闭路电视发射、卫星电视发射、流式视频发射(例如,经由因特网)、为存储在数据存储媒体上对数字视频的编码、对存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频发射以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。
[0028]在图1的实例中,源装置12包含视频源18、视频编码器20、调制器/解调器22和发射器24。在源装置12中,视频源18可包含例如以下各项的源:例如摄像机等视频俘获装置、含有先前俘获视频的视频档案、用以从视频内容提供者接收视频的视频馈送接口,和/或用于产生计算机图形作为源视频的计算机图形系统,或此些源的组合。作为一个实例,如果视频源18是摄像机,则源装置12和目的地装置14可形成所谓的相机电话或视频电话。然而,本发明中描述的技术可大体上适用于视频译码,且可适用于无线和/或有线应用,或其中经编码视频数据存储在本地磁盘上的应用。
[0029]所俘获、预俘获或计算机产生的视频可由视频编码器20编码。经编码视频信息可由调制解调器22根据例如无线通信协议等通信标准而调制,且经由发射器24发射到目的地装置14。调制解调器22可包含为了信号调制而设计的各种混频器、滤波器、放大器或其它组件。发射器24可包含为了发射数据而设计的电路,包含放大器、滤波器和一个或一个以上天线。
[0030]由视频编码器20编码的所俘获、预俘获或计算机产生的视频也可存储到存储媒体34或文件服务器36上以供日后使用。存储媒体34可包含蓝光光盘、DVD、⑶-ROM、快闪存储器或任何其它合适的用于存储经编码视频的数字存储媒体。存储在存储媒体34上的经编码视频可随后由目的地装置14存取以用于解码和重放。虽然图1中未图示,但在一些实例中,存储媒体34和/或文件服务器36可存储发射器24的输出。
[0031]文件服务器36可为能够存储经编码视频且将所述经编码视频发射到目的地装置14的任一类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置、本地磁盘驱动器,或能够存储经编码视频数据且将其发射到目的地装置的任一其它类型的装置。经编码视频数据从文件服务器36的发射可为流式发射、下载发射或两者的组合。文件服务器36可由目的地装置14通过任何标准数据连接(包含因特网连接)存取。这可包含适于存取存储在文件服务器上的经编码视频数据的无线信道(例如,W1-Fi连接)、有线连接(例如,DSL、电缆调制解调器、以太网、USB等等)或两者的组合。
[0032]在图1的实例中,目的地装置14包含接收器26、调制解调器28、视频解码器30和显示装置32。目的地装置14的接收器26经由信道16接收信息,且调制解调器28对所述信息进行解调以产生用于视频解码器30的经解调位流。经由信道16传送的信息可包含由视频编码器20产生以供视频解码器30用于对视频数据进行解码的多种语法信息。此语法也可与存储在存储媒体34或文件服务器36上的经编码视频数据一起包含。视频编码器20和视频解码器30中的每一者可形成能够对视频数据进行编码或解码的相应编码器-解码器(CODEC)的部分。
[0033]显示装置32可与目的地装置14集成或在目的地装置14的外部。在一些实例中,目的地装置14可包含集成显示装置,且还经配置以与外部显示装置介接。在其它实例中,目的地装置14可为显示装置。大体上,显示装置32向用户显示经解码视频数据,且可包括多种显示装置中的任一者,例如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器,或另一类型的显示装置。
[0034]在图1的实例中,通信信道16可包括任何无线或有线通信媒体,例如射频(RF)频谱或者一种或一种以上物理传输线,或无线与有线媒体的任何组合。通信信道16可形成基于包的网络的部分,所述网络例如为局域网、广域网或例如因特网的全球网。通信信道16大体上表示用于将视频数据从源装置12发射到目的地装置14的任何合适的通信媒体或不同通信媒体的集合,包含有线或无线媒体的任何合适组合。通信信道16可包含路由器、交换机、基站或可用于促进从源装置12到目的地装置14的通信的任何其它设备。
[0035]视频编码器20和视频解码器30可根据例如由ITU-T视频译码专家组(VCEG)的视频译码联合合作组(JCT-VC)和IS0/IEC动画专家组(MPEG)当前在开发的高效视频译码(HEVC)标准等视频压缩标准来操作。称为“HEVC工作草案6”或“WD6”的HEVC标准的最新草案在布洛斯(Bross)等人的文献JCTVC-H1003 “高效视频译码(HEVC)文本规范草案 6 (High efficiency video coding (HEVC) text specificat1n draft6)(ITU-T SG16WP3 和IS0/IEC JTC1/SC29/WG11的视频译码联合合作组(JCT-VC),第8次会议:美国加利福尼亚圣何塞,2012年2月)中描述,其从2012年6月I日起可从http://phenix.1nt-evry.fr/jet/doc_end_user/documents/8_San% 20Jose/wglI/JCTVC-H1003-v22.zip 下载。
[0036]或者,视频编码器20和视频解码器30可根据例如ITU-T H.264标准(或者称为MPEG4第10部分高级视频译码(AVC))等其它专门或行业标准或此些标准的扩展来操作。然而本发明的技术不限于任何特定译码标准。其它实例包含MPEG-2和ITU-T H.263。
[0037]虽然图1中未图示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器和解码器集成,且可包含适当的多路复用器-多路分用器(MUX-DEMUX)单元或其它硬件和软件,以处置共同数据流或单独数据流中的音频和视频两者的编码。如果适用,在一些实例中,MUX-DEMUX单元可符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
[0038]视频编码器20和视频解码器30各自可实施为多种合适编码器电路中的任一者,例如一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任一组合。当所述技术部分地以软件实施时,装置可将用于所述软件的指令存储在合适的非暂时性计算机可读媒体中,且使用一个或多个处理器执行硬件中的指令以执行本发明的技术。视频编码器20和视频解码器30中的每一者可包含于一个或一个以上编码器或解码器中,其中任一者可集成为相应装置中的组合式编码器/解码器(CODEC)的部分。
[0039]视频编码器20可实施本发明的技术中的任一者或全部以用于视频译码过程中的CABAC0视频编码器30可实施本发明的技术中的任一者或全部以用于视频译码过程中的CABAC0如本发明中描述的视频译码器可指代视频编码器或视频解码器。类似地,视频译码单元可指代视频编码器或视频解码器。同样,视频译码可指代视频编码或视频解码。
[0040]在本发明的一个实例中,视频编码器20可经配置以确定P切片中的视频数据块的第一预测类型,将第一预测类型表示为P切片预测类型语法元素,确定B切片中的视频数据块的第二预测类型,将第二预测类型表示为B切片预测类型语法元素,确定P切片预测类型语法元素的P切片二进制化,确定B切片预测类型语法元素的B切片二进制化,其中P切片预测类型语法元素和B切片预测类型语法元素是使用相同二进制化逻辑来确定,且基于P切片预测类型语法元素和B切片预测语法元素的二进制化对所述视频数据进行编码。
[0041 ] 在本发明的另一实例中,视频解码器30可经配置以使用P切片中的视频数据块的二进制化映射将经二进制化P切片预测类型语法元素映射到预测类型,使用B切片中的视频数据块的相同二进制化映射将经二进制化B切片预测类型语法元素映射到预测类型,且基于经映射预测类型对所述视频数据进行解码。[0042]在本发明的另一实例中,视频编码器20可经配置以确定视频数据块的预测模式的分区类型,使用具有单个上下文的CABAC对视频数据块的预测类型语法元素的分区类型二进位进行编码,其中所述单个上下文对于任一分区类型是相同的,且在旁路模式中使用CABAC对视频数据块的预测类型语法元素的分区大小二进位进行编码。
[0043]在本发明的另一实例中,视频解码器30可经配置以接收已使用CABAC译码的视频数据块的预测类型语法元素,所述预测类型语法元素包含表示分区类型的分区类型二进位和表示分区大小的分区大小二进位,使用具有单个上下文的CABAC对预测类型语法元素的分区类型二进位进行解码,其中所述单个上下文对于任一分区类型是相同的,且在旁路模式中使用CABAC对所述预测类型语法元素的分区大小二进位进行解码。
[0044]在本发明的另一实例中,视频编码器20和视频解码器30可经配置以使用CABAC对视频数据块的Cb色度经译码块旗标进行译码,其中对Cb色度经译码块旗标进行译码包括使用包含一个或多个上下文的上下文集合作为CABAC的部分,且使用CABAC对Cr色度经译码块旗标进行译码,其中对Cr色度经译码块旗标进行译码包括使用与Cb色度经译码块旗标相同的上下文集合作为CABAC的部分。
[0045]JCT-VC正致力于HEVC标准的开发。HEVC标准化努力是基于称为HEVC测试模型(HM)的视频译码装置的演进模型。HM假设视频译码装置相对于符合例如ITU-TH.264/AVC的现存装置的若干额外能力。举例来说,H.264提供9种帧内预测编码模式,而HM可提供多达33种帧内预测编码模式。以下部分将更详细论述HM的某些方面。
[0046]大体上,HM的工作模型描述了可将视频帧或图片划分为包含亮度和色度样本两者的树块或最大译码单元(LCU)的序列。树块具有与H.264标准的宏块类似的目的。切片包含若干在译码次序上连续的树块。视频帧或图片可经分割为一个或多个切片。每一树块可根据四叉树而分裂为若干译码单元(CU)。举例来说,作为四叉树的根节点的树块可分裂为四个子节点,且每一子节点又可为母节点且分裂为另外四个子节点。作为四叉树的叶节点,最终未经分裂的子节点包括译码节点,即经译码视频块。与经译码位流相关联的语法数据可界定树块可经分裂的最大次数,且也可界定译码节点的最小大小。
[0047]CU包含译码节点以及与译码节点相关联的预测单元(PU)和变换单元(TU)。CU的大小大体上对应于译码节点的大小且形状通常必须为正方形。CU的大小的范围可为从8x8像素直到具有最大64x64像素或更大的树块的大小。每一⑶可含有一个或多个PU和一个或多个TU。与CU相关联的语法数据可描述例如CU分割为一个或多个PU。分割模式在CU经跳过或直接模式编码、经帧内预测模式编码还是经帧间预测模式编码之间可不同。PU可经分割为非正方形的形状。与CU相关联的语法数据还可描述例如CU根据四叉树而分割为一个或多个TU。TU可为正方形或非正方形的形状。
[0048]新兴的HEVC标准允许根据TU的变换,所述TU对于不同⑶可为不同的。TU通常基于为经分割LCU界定的给定CU内的PU的大小来定大小,但情况可能并非总是这样。TU通常与PU大小相同或小于PU。在一些实例中,使用称为“残余四叉树”(RQT)的四叉树结构,对应于CU的残余样本可经再分为较小的单元。RQT的叶节点可称为变换单元(TU)。与TU相关联的像素差值可经变换以产生可经量化的变换系数。
[0049]大体上,PU指代与预测过程相关的数据。举例来说,当经帧内模式编码时,PU可包含描述PU的帧内预测模式的数据。作为另一实例,当PU经帧间模式编码时,PU可包含定义PU的运动向量的数据。界定PU的运动向量的数据可描述例如运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片,和/或运动向量的参考图片列表(例如,列表O、列表I或列表C)。
[0050]大体上,TU用于变换和量化过程。具有一个或一个以上I3U的给定⑶还可包含一个或一个以上变换单元(TU)。在预测之后,视频编码器20可根据PU从由译码节点识别的视频块计算残余值。随后更新译码节点以参考残余值而非原始视频块。残余值包括像素差值,所述像素差值可使用变换和TU中指定的其它变换信息而变换为变换系数、经量化且经扫描以产生用于熵译码的经串行化变换系数。可再次更新译码节点以参考这些经串行化变换系数。本发明通常使用术语“视频块”来指代⑶的译码节点。在一些特定情况下,本发明也可使用术语“视频块”来指代树块,即IXU或⑶,其包含译码节点以及和TU。
[0051]视频序列通常包含一系列视频帧或图片。图片群组(GOP)通常包括一系列一个或多个视频图片。GOP可在GOP的标头、一个或多个图片的标头或其它地方包含描述所述GOP中包含的图片数目的语法数据。图片的每一切片可包含描述相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作以便对视频数据进行编码。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,且可根据指定译码标准而大小不同。
[0052]作为一实例,HM支持各种I3U大小下的预测。假定特定⑶的大小为2Nx2N,则HM支持2Nx2N或NxN的PU大小的帧内预测以及2Nx2N、2NxN、Nx2N或NxN的对称I3U大小的帧间预测。HM还支持2NxnU、2NxnD、nLx2N和nRx2N的PU大小的帧间预测的不对称分割。在不对称分割中,⑶的一个方向未分割,而另一方向分割为25%和75%。⑶的对应于25%分割的部分由“η”指示,随后是“上”、“下”、“左”或“右”的指示。因此,举例来说,“2NxnU”指代经水平分割的2Nx2N CU,其中顶部为2Nx0.5NPU且底部为2Nxl.5N PU。
[0053]图4是展示用于帧内预测和帧间预测的正方形和非正方形分区类型的概念图。分区102是2Nx2N分区,且可用于帧内预测和帧间预测两者。分区104是NxN分区,且可用于帧内预测和帧间预测两者。分区106是2NxN分区,且当前在HEVC中用于帧间预测。分区108是Nx2N分区,且当前在HEVC中用于帧间预测。
[0054]图5是展示不对称分区类型的概念图。分区110是2NxnU分区,且当前在HEVC中用于帧间预测。分区112是2NxnD分区,且当前在HEVC中用于帧间预测。分区114是nLx2N分区,且当前在HEVC中用于帧间预测。分区116是nRx2N分区,且当前在HEVC中用于帧间预测。
[0055]在本发明中,“NxN”和“N乘N”可以互换地使用以在垂直和水平尺寸方面指代视频块的像素尺寸,例如16x16像素或16乘16像素。大体上,16x16块将在垂直方向上具有16个像素(y = 16)且在水平方向上具有16个像素(X = 16)。同样,NxN块通常在垂直方向上具有N个像素且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可以若干行和列布置。而且,块无需一定在水平方向上具有与垂直方向上相同数目的像素。举例来说,块可包括NxM个像素,其中M不一定等于N。
[0056]在使用CU的PU的帧内预测或帧间预测译码之后,视频编码器20可计算由CU的TU指定的变换所应用于的残余数据。残余数据可对应于未经编码图片的像素之间的像素差和对应于CU的预测值。视频编码器20可形成CU的残余数据,且随后变换残余数据以产生变换系数。
[0057]在任何变换以产生变换系数后,视频编码器20可执行变换系数的量化。量化大体上指代其中变换系数经量化以可能地减少用以表示所述系数的数据量从而提供进一步压缩的过程。量化过程可减小与系数中的一些或全部相关联的位深度。举例来说,在量化期间可将η位值下舍入到m位值,其中η大于m。
[0058]在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化变换系数以产生可经熵编码的经串行化向量。在其它实例中,视频编码器20可执行自适应扫描。在扫描经量化变换系数以形成一维向量之后,视频编码器20可例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法对所述一维向量进行熵编码。视频编码器20还可对与经编码视频数据相关联的语法元素进行熵编码以供视频解码器30用于对视频数据进行解码。
[0059]为了执行CABAC,视频编码器20可将上下文模型内的上下文指派于待发射的符号。所述上下文可例如涉及符号的相邻值是否为非零。为了执行CAVLC,视频编码器20可针对待发射符号选择可变长度译码。VLC中的码字可经构造以使得相对较短的码对应于较可能的符号,而较长的码对应于较不可能的符号。以此方式,VLC的使用可例如针对待发射的每一符号使用相等长度码字来实现位节省。概率确定可基于对符号指派的上下文。
[0060]本发明是用于上下文自适应二进制算术译码(CABAC)熵译码器或例如概率区间分割熵译码(PIPE)或相关译码器等其它熵译码器的相关技术。算术译码是在具有高译码效率的许多压缩算法中使用的一种形式的熵译码,因为其能够将符号映射到非整数长度码字。算术译码算法的实例是在H.264/AVC中使用的基于上下文的二进制算术译码(CABAC)。
[0061]大体上,使用CABAC对数据符号进行译码涉及以下步骤中的一者或多者:
[0062](I) 二进制化:如果待译码符号是非二进制值的,那么将其映射到所谓的“二进位”的序列。每一二进位可具有“O”或“ I ”的值。
[0063](2)上下文指派:(在常规模式中)将每一二进位指派于一上下文。上下文模型确定如何基于可用于给定二进位的信息来计算用于所述二进位的上下文,所述信息例如先前经编码符号或二进位数的值。
[0064](3) 二进位编码:以算术编码器对二进位进行编码。为了对二进位进行编码,算术编码器需要二进位的值的概率作为输入,所述概率即二进位的值等于“O”的概率以及二进位的值等于“I”的概率。每一上下文的(估计)概率由称为“上下文状态”的整数值表示。每一上下文具有一状态,且因此所述状态(即,估计概率)对于指派于一个上下文的二进位是相同的,且在上下文之间不同。
[0065](4)状态更新:用于选定上下文的概率(状态)是基于二进位的实际经译码值(例如,如果二进位值为“1”,那么“I”的概率增加)来更新。
[0066]应注意,概率区间分割熵译码(PIPE)使用类似于算术译码原理的原理,且可因此还利用本发明的技术。
[0067]H.264/AVC和HEVC中的CABAC使用若干状态,且每一状态隐含地涉及概率。存在CABAC的变体,其中直接使用符号的概率(“O”或“I”),即概率(或其整数版本)是状态。举例来说,CABAC的此些变体在“法国电信、NTT、NTT DOCOMO、松下和特艺公司(Technicolor)的视频译码技术提案的说明(Descript1n ofvideo coding technology proposal byFrance Telecom, NTT, NTT DOCOMO, Panasonic and Technicolor) ” (2010 年 4 月德国德累斯顿,JCTVC-Al 14,第 I 次 JCT-VC 会议,下文称为“JCTVC-A114”)以及 A.阿尔新(A.Alshin)和E.阿尔新那(E.Alshina)的“用于CABAC的多参数概率更新(Mult1-parameterprobability update for CABAC) ” (2011 年 7 月意大利托里诺,JCTVC-F254,第 6 次 JCT-VC会议,下文称为“JCTVC-F254”)中描述。
[0068]在本发明中,提出缩减在CABAC中使用的二进制化和/或上下文的数目。特定来说,本发明提出可使CABAC中使用的上下文数目降低多达56的技术。通过减少56个上下文,实验结果展示分别在高效率仅帧内、随机存取和低延迟测试条件中有0.00%,0.01%和-0.13%位失真(BD)速率改变。由此,所需上下文数目的缩减减少了编码器和解码器两者处的存储需要,而不实质上影响译码效率。
[0069]在本发明中,提出缩减用于语法元素的CABAC上下文的数目,所述语法元素为pred_type、merge_idx、inter_pred_flag>ref_idx_lx> cbf_cb> cbf_cr> coeff_abs_level_greaterl_flag和 coeff_abs_level_greater2_flag。所述修改缩减多达 56 个上下文,其中译码效率改变可忽略。以上提出的语法元素的上下文缩减可单独使用或以任一组合使用。
[0070]语法元素pred_type包含每一译码单元的预测模式(pred_mode_flag)和分区类型(part_mode)。等于O的语法元素pred_mode_f lag指定当前译码单元是在巾贞间预测模式中译码。等于I的语法元素pred_m0de_flag指定当前译码单元是在帧内预测模式中译码。语法元素part_mode指定当前译码单元的分割模式。
[0071]语法元素merge_idX[X0] [y0]指定合并候选列表的合并候选索引,其中x0、y0指定所考虑预测块的左上方亮度样本相对于图片的左上方亮度样本的位置(x0,y0)。当merge_idx[x0] [y0]不存在时,推断其等于O。合并候选列表是与运动信息可从其复制到当前单元邻近的译码单元的列表。
[0072]语法元素inter_pred_flag[x0] [y0]指定是否单向预测或双向预测用于当前预测单元。阵列索引x0、y0指定所考虑预测块的左上方亮度样本相对于图片的左上方亮度样本的位置(x0,y0)。
[0073]语法元素ref_idX_lX指代参考图片列表内的特定参考图片。
[0074]语法元素cbf_cb、cbf_cr指示色度(分别为Cb和Cr)变换块是否含有非零变换系数。等于I的语法元素cbf_cb[x0] [y0] [trafoDepth]指定Cb变换块含有不等于O的一个或多个变换系数层级。阵列索引x0、y0指定所考虑变换块的左上方亮度样本相对于图片的左上方亮度样本的位置(x0,y0)。阵列索引trafoD印th指定为了变换译码将译码单元变为块的当前细分层级。对于对应于译码单元的块,阵列索引trafoDepth等于O。当cbf_cb[x0] [y0] [trafoDepth]不存在且预测模式不是巾贞内预测时,推断cbf_cb[x0] [y0][trafoDepth]的值等于 O。
[0075]等于I的语法元素cbf_cr [x0] [y0] [trafoDepth]指定Cr变换块含有不等于O的一个或多个变换系数层级。阵列索引x0、y0指定所考虑变换块的左上方亮度样本相对于图片的左上方亮度样本的位置(x0,y0)。阵列索引trafoD印th指定为了变换译码将译码单元变为块的当前细分层级。对于对应于译码单元的块,阵列索引trafoDepth等于O。当cbf_cr [xO] [yO] [trafoDepth]不存在且预测模式不是帧内预测时,推断cbf_cr[xO] [yO][trafoDepth]的值等于 O。
[0076]语法兀素coeff_abs_level_greaterl_flag[n]对于扫描位置η指定是否存在大于I的变换系数层级。当coeff_abs_level_greaterl_flag[n]不存在时,推断其等于O。
[0077]语法兀素coeff_abs_level_greater2_flag[n]对于扫描位置η指定是否存在大于2的变换系数层级。当coeff_abs_level_greater2_flag[n]不存在时,推断其等于O。
[0078]在针对HEVC的一个提议中,在P和B切片中使用对语法元素pred_type的不同二进制化,如表1所示。本发明提出针对P和B切片使用相同的二进制化。表2到4中展示实例。表5展示在共同测试条件(例如,参见F.博森,“共同测试条件和软件参考配置(Common test condit1ns and software reference configurat1ns),,,JCTVC-F900)下对 P
切片的译码性能影响。
[0079]
【权利要求】
1.一种对视频数据进行编码的方法,其包括: 确定视频数据块的预测模式的分区类型; 使用具有单个上下文的上下文自适应二进制算术译码CABAC对所述视频数据块的预测类型语法元素的分区类型二进位进行编码,其中所述单个上下文对于任一分区类型是相同的;以及 在旁路模式中使用CABAC对所述视频数据块的所述预测类型语法元素的分区大小二进位进行编码。
2.根据权利要求1所述的方法,其中所述分区类型为不对称分区。
3.根据权利要求2所述的方法,其中所述分区类型二进位指示所述不对称分区是否为垂直分割或水平分割。
4.根据权利要求2所述的方法,其中所述分区大小二进位指示第一分区是否为所述视频数据块的大小的四分之一或所述第一分区是否为所述视频数据块的所述大小的四分之三。
5.一种对视频数据进行解码的方法,其包括: 接收已使用上下文自适应二进制算术译码CABAC译码的视频数据块的预测类型语法元素,所述预测类型语法元素包含表示分区类型的分区类型二进位和表示分区大小的分区大小二进位; 使用具有单个上下文的CABAC对所述预测类型语法元素的所述分区类型二进位进行解码,其中所述单个上下文对于任一分区类型是相同的;以及 在旁路模式中使用CABAC对所述预测类型语法元素的所述分区大小二进位进行解码。
6.根据权利要求5所述的方法,其中所述分区类型为不对称分区。
7.根据权利要求6所述的方法,其中所述分区类型二进位指示所述不对称分区是否为垂直分割或水平分割。
8.根据权利要求6所述的方法,其中所述分区大小二进位指示第一分区是否为所述视频数据块的大小的四分之一或所述第一分区是否为所述视频数据块的所述大小的四分之_- O
9.一种经配置以对视频数据进行编码的设备,其包括: 视频编码器,其经配置以: 确定视频数据块的预测模式的分区类型; 使用具有单个上下文的上下文自适应二进制算术译码CABAC对所述视频数据块的预测类型语法元素的分区类型二进位进行编码,其中所述单个上下文对于任一分区类型是相同的;以及 在旁路模式中使用CABAC对所述视频数据块的所述预测类型语法元素的分区大小二进位进行编码。
10.根据权利要求9所述的设备,其中所述分区类型为不对称分区。
11.根据权利要求10所述的设备,其中所述分区类型二进位指示所述不对称分区是否为垂直分割或水平分割。
12.根据权利要求10所述的设备,其中所述分区大小二进位指示第一分区是否为所述视频数据块的大小的四分之一或所述第一分区是否为所述视频数据块的所述大小的四分之三。
13.—种经配置以对视频数据进行解码的设备,其包括: 视频解码器,其经配置以: 接收已使用上下文自适应二进制算术译码CABAC译码的视频数据块的预测类型语法元素,所述预测类型语法元素包含表示分区类型的分区类型二进位和表示分区大小的分区大小二进位; 使用具有单个上下文的CABAC对所述预测类型语法元素的所述分区类型二进位进行解码,其中所述单个上下文对于任一分区类型是相同的;以及 在旁路模式中使用CABAC对所述预测类型语法元素的所述分区大小二进位进行解码。
14.根据权利要求13所述的设备,其中所述分区类型为不对称分区。
15.根据权利要求 14所述的设备,其中所述分区类型二进位指示所述不对称分区是否为垂直分割或水平分割。
16.根据权利要求14所述的设备,其中所述分区大小二进位指示第一分区是否为所述视频数据块的大小的四分之一或所述第一分区是否为所述视频数据块的所述大小的四分之三。
17.—种经配置以对视频数据进行解码的设备,其包括: 用于确定视频数据块的预测模式的分区类型的装置; 用于使用具有单个上下文的上下文自适应二进制算术译码CABAC对所述视频数据块的预测类型语法元素的分区类型二进位进行编码的装置,其中所述单个上下文对于任一分区类型是相同的;以及 用于在旁路模式中使用CABAC对所述视频数据块的所述预测类型语法元素的分区大小二进位进行编码的装置。
18.根据权利要求17所述的设备,其中所述分区类型为不对称分区。
19.根据权利要求18所述的设备,其中所述分区类型二进位指示所述不对称分区是否为垂直分割或水平分割。
20.根据权利要求18所述的设备,其中所述分区大小二进位指示第一分区是否为所述视频数据块的大小的四分之一或所述第一分区是否为所述视频数据块的所述大小的四分之三。
21.—种经配置以对视频数据进行解码的设备,其包括: 用于接收已使用上下文自适应二进制算术译码CABAC译码的视频数据块的预测类型语法元素的装置,所述预测类型语法元素包含表示分区类型的分区类型二进位和表示分区大小的分区大小二进位; 用于使用具有单个上下文的CABAC对所述预测类型语法元素的所述分区类型二进位进行解码的装置,其中所述单个上下文对于任一分区类型是相同的;以及 用于在旁路模式中使用CABAC对所述预测类型语法元素的所述分区大小二进位进行解码的装置。
22.根据权利要求21所述的设备,其中所述分区类型为不对称分区。
23.根据权利要求22所述的设备,其中所述分区类型二进位指示所述不对称分区是否为垂直分割或水平分割。
24.根据权利要求22所述的设备,其中所述分区大小二进位指示第一分区是否为所述视频数据块的大小的四分之一或所述第一分区是否为所述视频数据块的所述大小的四分之三。
25.一种存储指令的计算机可读存储媒体,所述指令在执行时致使经配置以对视频数据进行编码的一个或多个处理器: 确定视频数据块的预测模式的分区类型; 使用具有单个上下文的上下文自适应二进制算术译码CABAC对所述视频数据块的预测类型语法元素的分区类型二进位进行编码,其中所述单个上下文对于任一分区类型是相同的;以及 在旁路模式中使用CABAC对所述视频数据块的所述预测类型语法元素的分区大小二进位进行编码。
26.根据权利要求25所述的计算机可读存储媒体,其中所述分区类型为不对称分区。
27.根据权利要求26所述的计算机可读存储媒体,其中所述分区类型二进位指示所述不对称分区是否为垂直分割或水平分割。
28.根据权利要求26所述的计算机 可读存储媒体,其中所述分区大小二进位指示第一分区是否为所述视频数据块的大小的四分之一或所述第一分区是否为所述视频数据块的所述大小的四分之三。
29.一种存储指令的计算机可读存储媒体,所述指令在执行时致使经配置以对视频数据进行解码的一个或多个处理器: 接收已使用上下文自适应二进制算术译码CABAC译码的视频数据块的预测类型语法元素,所述预测类型语法元素包含表示分区类型的分区类型二进位和表示分区大小的分区大小二进位; 使用具有单个上下文的CABAC对所述预测类型语法元素的所述分区类型二进位进行解码,其中所述单个上下文对于任一分区类型是相同的;以及 在旁路模式中使用CABAC对所述预测类型语法元素的所述分区大小二进位进行解码。
30.根据权利要求29所述的计算机可读存储媒体,其中所述分区类型为不对称分区。
31.根据权利要求30所述的计算机可读存储媒体,其中所述分区类型二进位指示所述不对称分区是否为垂直分割或水平分割。
32.根据权利要求30所述的计算机可读存储媒体,其中所述分区大小二进位指示第一分区是否为所述视频数据块的大小的四分之一或所述第一分区是否为所述视频数据块的所述大小的四分之三。
【文档编号】H04N19/00GK104040900SQ201280054988
【公开日】2014年9月10日 申请日期:2012年10月5日 优先权日:2011年11月8日
【发明者】钱威俊, 霍埃尔·索赖·罗哈斯, 马尔塔·卡切维奇 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1