用于视频译码的自适应颜色变换的制作方法_2

文档序号:9553562阅读:来源:国知局
空间的第二视频块进行译码。
[0050] 明确地说,源装置12经由计算机可读媒体16将视频数据提供到目的地装置14。 源装置12及目的地装置14可包括多种多样的装置中的任一者,包含桌上型计算机、笔记型 (即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的"智能"电话)、所谓 的"智能"平板计算机、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流 式传输装置或类似者。在一些情况下,源装置12和目的地装置14可经装备以用于无线通 {目。
[0051] 目的地装置14可经由计算机可读媒体16接收待解码的经编码的视频数据。计算 机可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类 型的媒体或装置。在一个实例中,计算机可读媒体16可包括使得源装置12能够实时将经 编码的视频数据直接发射到目的地装置14的通信媒体。计算机可读媒体16可包含瞬时媒 体,例如无线广播或有线网络发射,或存储媒体(即,非暂时性存储媒体),例如硬盘、快闪 驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服 务器(未图示)可以从源装置12接收经编码视频数据,并且例如经由网络发射将经编码视 频数据提供到目的地装置14。类似地,媒体生产设施(例如光盘冲压设施)的计算装置可 以从源装置12接收经编码的视频数据并且生产容纳经编码的视频数据的光盘。因此,在各 种实例中,计算机可读媒体16可以理解为各种形式的一或多个计算机可读媒体。
[0052] 经编码视频数据可以根据通信标准(例如,无线通信协议)来调制,并且被发射到 目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多 个物理发射线路。通信媒体可形成基于包的网络(例如局域网、广域网或全球网络,例如因 特网)的一部分。通信媒体可包含路由器、交换器、基站或任何其它可以用于促进从源装置 12到目的地装置14的通信的设备。
[0053] 在一些实例中,输出接口 22可将经编码数据输出到存储装置。类似地,输入接口 28可从存储装置存取经编码数据。存储装置可包含多种分布式或本地存取的数据存储媒体 中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储 器或任何其它用于存储经编码的视频数据的合适的数字存储媒体。在另一实例中,存储装 置可以对应于文件服务器或可存储由源装置12产生的经编码视频的另一中间存储装置。 目的地装置14可(例如,经由流式传输或下载)从存储装置存取经存储的视频数据。文件 服务器可为能够存储经编码的视频数据且将经编码的视频数据发射到目的地装置14的任 何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附 接存储(NAS)装置、超文本传送协议(HTTP)流式传输服务器或局部磁盘驱动器。目的地装 置14可通过标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含适合于 存取存储于文件服务器上的经编码的视频数据的无线信道(例如,Wi-Fi连接)、有线连接 (例如,DSL、电缆调制解调器等)或两者的组合。经编码视频数据从存储装置的传输可能 是流式传输发射、下载发射或其组合。
[0054] 本发明的技术不必限于无线应用或设置。所述技术可以应用于视频译码并且支持 多种多媒体应用中的任一者,例如空中协议电视广播、有线电视发射、卫星电视发射、因特 网流式传输视频发射(例如动态自适应HTTP流式传输(DASH))、经编码到数据存储媒体上 的数字视频,存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统 10可经配置以支持单向或双向视频发射,以支持例如视频流式传输、视频重放、视频广播和 /或视频电话等应用。
[0055] 图1的系统10仅是一个实例。用于使用多个颜色变换中的颜色变换将具有第一 颜色空间的数据块变换到具有第二颜色空间的第二视频数据块的技术可由任何数字视频 编码和/或解码装置执行。尽管本发明的技术总体上由视频编码装置执行,但是所述技术 还可通过视频编码器/解码器(通常被称作"编解码器")执行。此外,本发明的技术还可 通过视频预处理器执行。源装置12及目的地装置14仅为这些译码装置的实例,其中源装 置12产生用于发射到目的地装置14的经译码视频数据。在一些实例中,装置12、14可以 实质上对称的方式操作,使得装置12、14中的每一者包含视频编码和解码组件。因此,系统 10可支持视频装置12、14之间的单向或双向视频发射,例如用于视频流式传输、视频重放、 视频广播或视频电话。
[0056] 源装置12的视频源18可包含视频俘获装置,例如摄像机、含有先前所俘获视频的 视频存档及/或用于从视频内容提供者接收视频的视频馈送接口。在一些实例中,视频源 18产生基于计算机图形的数据作为源视频,或实况视频、所存档视频和计算机产生的视频 的组合。在一些情况下,视频源18可为摄像机。在一些实例中,视频源18可为摄像机。在 一些实例中,源装置12和目的地装置14可为所谓的相机电话或视频电话。在各种实例中, 视频源18可输出具有RGB颜色空间的输入信号。然而,如上文所提及,本发明中所描述的 技术可大体上适用于视频译码,且可应用于无线及/或有线应用。在每一情况下,可由视频 编码器20来编码经俘获的、经预先俘获的或计算机产生的视频。输出接口 22可将经编码 视频信息输出到计算机可读媒体16上。
[0057] 计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络发射,或存储媒体 (即,非暂时性存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其 它计算机可读媒体。在一些实例中,网络服务器(未图示)可以从源装置12接收经编码视 频数据,并且例如经由网络发射将经编码视频数据提供到目的地装置14。类似地,媒体生产 设施(例如光盘冲压设施)的计算装置可以从源装置12接收经编码的视频数据并且生产 容纳经编码的视频数据的光盘。因此,在各种实例中,计算机可读媒体16可以理解为包含 各种形式的一或多个计算机可读媒体。
[0058]在图1的实例中,目的地装置14的输入接口 28从计算机可读媒体16接收信息。 计算机可读媒体16的信息可包含由视频编码器20界定的语法信息,其包含描述块和其它 经译码单元(例如,G0P)的特性和/或处理的语法元素。显示装置32向用户显示经解码视 频数据。显示装置32可包括多种显示装置中的任一者,例如阴极射线管(CRT)显示器、液 晶显示器(IXD)、等离子显示器、有机发光二极管(0LED)显示器,或另一类型的显示装置。
[0059] 视频编码器20及视频解码器30可根据由视频译码联合合作小组(JCT-VC)开 发的视频译码标准操作,所述视频译码标准例如最近完成的高效率视频译码(HEVC)以及 HEVC范围扩展。或者,视频编码器20和视频解码器30可以根据其它专有或业界标准来操 作,所述标准例如是ITU-TH. 264标准,也被称为MPEG-4第10部分高级视频译码(AVC),或 此类标准的扩展。然而,本发明的技术不限于任何特定译码标准。视频译码标准的其它实 例包含MPEG-2 和ITU-TH. 263。
[0060] 尽管图1中未展示,但在一些方面中,视频编码器20及视频解码器30可各自与音 频编码器及解码器集成,并且可包含适当多路复用器-多路分用器(MUX-DEMUX)单元或其 它硬件及软件,以处置对共同数据流或单独数据流中的音频及视频两者的编码。如果适用 的话,MUX-DEMUX单元可符合ITUH. 223多路复用器协议,或例如用户数据报协议(UDP)等 其它协议。
[0061] 视频编码器20和视频解码器30各自可实施为例如一或多个微处理器、数字信号 处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固 件或其任何组合等多种合适的编码器电路中的任一者。当部分以软件实施所述技术时,装 置可将用于所述软件的指令存储于合适的非暂时性计算机可读媒体中并使用一或多个处 理器用硬件执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每一 者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可以集成为相应 装置中的组合编码器/解码器(编解码器)的部分。
[0062] 视频序列通常包含一系列视频帧或图片。图片群组(G0P) -般包括一系列的视频 图片中的一或多者。G0P可包含描述G0P中所包含的图片数目的G0P的标头中、图片中的一 或多者的标头中或别处的语法数据。图片的每一切片可包含描述用于相应的切片的编码模 式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作以便编码视 频数据。
[0063] HEVC描述视频帧或图片可划分成树块(S卩,最大译码单元(LCU)或"译码树单 元"(CTU))的序列。树块可包含明度和/或色度样本。位流内的语法数据可界定LCU的大 小,LCU是在像素数目方面的最大译码单元。在一些实例中,CTU中的每一者包括明度样本 的译码树块、色度样本的两个对应的译码树块,以及用以对译码树块的样本进行译码的语 法结构。在单色图片或具有三个单独颜色平面的图片中,CTU可包括单个译码树块及用于 对所述译码树块的样本进行译码的语法结构。译码树块可为样本的NxN块。视频帧或图片 可以被分割成一或多个切片。切片包含呈译码次序(例如,光栅扫描次序)的若干连续树 块。
[0064] 每一树块可根据四叉树分裂成一或多个译码单元(CU)。总的来说,四叉树数据结 构包含每个CU-个节点,其中根节点对应于所述树块。如果CU分裂成四个子CU,那么对应 于CU的节点包含四个叶节点,其中叶节点中的每一者对应于所述子CU中的一者。
[0065] 四叉树数据结构的每一节点可提供对应CU的语法数据。举例来说,四叉树中的节 点可包含分裂旗标,从而指示对应于所述节点的所述CU是否分裂成子CU。用于CU的语法 元素可以递归地来定义,且可以取决于CU是否分裂成子CU。如果CU未进一步分裂,那么所 述⑶称为叶⑶。
[0066] 视频编码器20可对CTU的译码树块递归地执行四叉树分割以将译码树块划分为 译码块,因此名称为"译码树单元"。译码块可以是样本的NxN块。在一些实例中,CU包括 具有明度样本阵列、Cb样本阵列和Cr样本阵列的图片的明度样本的译码块以及色度样本 的两个对应的译码块,以及用以对译码块的样本进行译码的语法结构。在单色图片或具有 三个单独颜色平面的图片中,CU可包括单个译码块及用于对所述译码块的样本进行译码的 语法结构。
[0067] ⑶具有类似于H. 264标准的宏块的用途,但是⑶并不具有大小区别。举例来说, 树块可分裂成四个子节点(也被称作子CU),且每一子节点又可为父节点且可分裂成另外 四个子节点。最后的未经分裂子节点(被称作四叉树的叶节点)包括译码节点,也称为叶 CU。与经译码位流相关联的语法数据可界定树块可分裂的最大次数,被称作最大CU深度, 且还可界定译码节点的最小大小。因此,位流还可定义最小译码单元(SCU)。本发明使用 术语"块"指代HEVC的上下文中可进一步包含一或多个预测单元(PU)或变换单元(TU)的 CU或其它标准的上下文中的相似数据结构(例如,H. 264/AVC中的宏块及其子块)中的任 一者。
[0068] ⑶包含一或多个预测单元(PU)和一或多个变换单元(TU)。⑶的大小对应可为正 方形或矩形形状。CU的大小范围可从8x8像素到具有最大64x64像素或更大的树块的大 小。举例来说,与CU相关联的语法数据可描述CU到一或多个PU的分割。分割模式可在CU 被跳过或经直接模式编码、帧内预测模式编码或帧间预测模式编码之间有区别。CU可经分 割以使得CU的PU可为非正方形形状。举例来说,与CU相关联的语法数据还可描述CU根 据四叉树分割成一或多个TU。
[0069] 视频编码器20可以将CU的译码块分割成一或多个预测块。预测块可为应用相同 预测的样本的矩形(即,正方形还是非正方形)块。CU的PU可包括图片的明度样本的预测 块、图片的色度样本的两个对应的预测块,以及用以对预测块样本进行预测的语法结构。在 单色图像或具有三个单独彩色平面的图片中,PU可包括单个预测块,及用以对预测块样本 进行预测的语法结构。
[0070] 变换块可以是对其应用相同变换的样本的矩形块。CU的变换单元(TU)可包括明 度样本的变换块、色度样本的两个对应变换块及用以对变换块样本进行变换的语法结构。 因此,CU的每一TU可具有明度变换块、Cb变换块以及Cr变换块。TU的明度变换块可为CU 的明度残余块的子块。Cb变换块可以是CU的Cb残余块的子块。Cr变换块可以是CU的Cr 残余块的子块。在单色图像或具有三个单独彩色平面的图片中,TU可包括单个变换块,及 用以对变换块样本进行变换的语法结构。TU可以是正方形或非正方形(例如,矩形)形状。 换句话说,对应于TU的变换块可为正方形或非正方形形状。
[0071]HEVC标准允许根据TU进行的变换,TU可针对不同⑶而有所不同。TU的大小通 常是基于针对经分割LCU定义的给定CU内的PU的大小而确定,但情况可能并非始终如此。 TU通常与PU大小相同或小于PU。在一些实例中,对应于CU的残余样本可使用被称为"残 余四叉树"(RQT)的四叉树结构细分成较小单元。RQT的叶节点可被称作变换单元(TU)。可 变换与TU相关联的像素差值以产生可经量化的变换系数。
[0072] 总的来说,表示对应于对应⑶的全部或一部分的空间区域,并且可包含用于检 索PU的参考样本的数据。此外,PU包含与预测有关的数据。在一些实例中,可使用帧内模 式或帧间模式对PU进行编码。作为另一实例,当经帧间模式编码时,PU可包含界定PU 的一或多个运动向量的数据。界定PU的运动向量的数据可描述(例如)运动向量的水平 分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素 精度)、运动向量所指向的参考图片,及/或运动向量的参考图片列表(例如,列表0、列表 1或列表C)。
[0073] 如上文所指出,具有一或多个的叶⑶也可包含一或多个TU。TU可以使用RQT(还被称作TU四叉树结构)来指定,如上文所论述。举例来说,分裂旗标可以指示叶CU 是否分裂成四个变换单元。随后,每一TU可进一步分裂为另外的若干子TU。当TU未进一 步分裂时,其可被称作叶TU。通常,对于帧内译码,所有属于叶CU的叶TU共享相同的帧内 预测模式。也就是说,通常应用相同帧内预测模式来计算叶CU的所有TU的预测值。对于 帧内译码,视频编码器可以使用帧内预测模式针对每一叶TU计算残余值,作为CU的对应于 TU的部分与原始块之间的差。TU不一定限于PU的大小。因此,TU可比PU大或小。对于 帧内译码,可与同一⑶的对应叶TU位于同一地点。在一些实例中,叶TU的最大大小可 以对应于对应的叶CU的大小。
[0074] 此外,叶⑶的TU也可以与称为RQT的相应四叉树数据结构相关联。S卩,叶⑶可 包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点总体上对应于叶CU,而CU四 叉树的根节点总体上对应于树块。未经分裂的RQT的TU被称作叶TU。一般来说,除非另有 陈述,否则本发明分别使用术语CU和TU来指代叶CU和叶TU。
[0075] 和TU两者可含有(S卩,对应于)对应于与所述块相关联的颜色空间的通道中的 每一者的一或多个样本块。PU的块可包含预测性块的样本,且TU的块可为包含对应于原始 块与预测性块之间的差的残余样本的块。对于与YCbCr颜色空间相关联的块,明度样本的 块可对应于"Y"通道,且色度块的两个不同通道可分别对应于Cb和Cr通道。
[0076] 作为一实例,HEVC支持各种PU大小的预测。假设特定⑶的大小为2Nx2N,那么 HEVC支持2Nx2N或NxN的PU大小的帧内预测,及2Nx2N、2NxN、Nx2N或NxN的对称PU大小 的帧间预测。HEVC还支持用于2NxnU、2NxnD、nLx2N和nRx2N的PU大小的帧间预测的不对 称分割。在不对称分割中,不分割CU的一个方向,而另一方向分割成25%及75%。CU的对 应于25%分区的部分通过"η"接着是"向上"、"向下"、"左"或"右"的指示来指示。因而,举 例来说,"2NxnU"是指水平地分割的2Nx2NCU,其中上方有2ΝχΟ. 5ΝPU,而下方有2Nxl. 5Ν PU〇
[0077] 在本发明中,"NxN"与"N乘N"可互换地使用以依据垂直和水平尺寸来指代视频 块的像素尺寸,例如,16x16像素或16乘16像素。一般来说,16x16块在垂直方向上具有16 个像素(y= 16),且在水平方向上具有16个像素(X= 16)。同样地,NxN块一般在垂直方 向上具有N个像素,且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可 按行及列布置。此外,块未必需要在水平方向与垂直方向上具有相同数目个像素。举例来 说,块可包括NxM像素,其中Μ未必等于N。
[0078] 在使用⑶的进行帧内预测译码或帧间预测译码之后,视频编码器20或视频解 码器30可计算用于CU的TU的残余数据。PU可包括描述在空间域(还称为像素域)中产 生预测性像素数据的方法或模式的语法数据,并且TU可包括在对残余视频数据应用了变 换(例如离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)变换域中的系数。 残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器 20或视频解码器30可形成包含用于⑶的残余数据的TU,且接着变换TU以生成用于⑶的 变换系数。换句话说,视频编码器20可将变换应用于TU的变换块以产生TU的变换系数块。 视频解码器30可将逆变换应用于TU的变换系数块以重构TU的变换块。
[0079] 在应用变换(如果存在)以产生变换系数后,视频编码器20或视频解码器30可 执行变换系数的量化。换句话说,视频编码器20可量化变换系数块的变换系数。视频解 码器30可解量化变换系数块的变换系数。量化通常是指变换系数经量化以可能减少用于 表示系数的数据量从而提供进一步压缩的过程。量化过程可减少与系数中的一些或全部相 关联的位深度。举例来说,η位值可在量化期间被下舍入到m位值,其中η大于m。逆量化 (即,解量化)可增加系数中的一些或全部的位深度。
[0080] 在量化之后,视频编码器20可扫描变换系数,从包含经量化变换系数的二维矩阵 产生一维向量。所述扫描可经设计以将较高能量(并且因此较低频率)系数放置在阵列的 前面,并且将较低能量(并且因此较高频率)系数放置在阵列的后面。在一些实例中,视频 编码器20或视频解码器30可利用预定义的扫描次序来扫描经量化的变换系数以产生可经 熵编码的串行化向量。在其它实例中,视频编码器20或视频解码器30可执行自适应扫描。 在扫描经量化的变换系数以形成一维向量之后,视频编码器20或视频解码器30可以例如 根据上下文自适应二进制算术译码(CABAC)、上下文自适应可变长度译码(CAVLC)、基于语 法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方 法来熵编码一维向量。视频编码器20还可熵编码与经编码视频数据相关联的语法元素以 供视频解码器30在解码视频数据时使用。
[0081] 为了执行CABAC,视频编码器20可向待发射的符号指派上下文模型内的上下文。 上下文可涉及(例如)符号的相邻值是否为非零。为执行CAVLC,视频编码器20可选择用 于待发射的符号的可变长度码。可变长度译码(VLC)中的码字可经构造使得相对较短码对 应于更可能的符号,而较长码对应于较不可能的符号。以此方式,使用VLC可与例如对待发 射的每一符号使用等长码字相比实现位节省。概率确定可基于指派到符号的上下文。
[0082] 视频编码器20可例如在帧标头、块标头、切片标头或G0P标头中进一步将例如基 于块的语法数据、基于帧的语法数据及基于G0P的语法数据等语法数据发送到视频解码器 30。G0P语法数据可描述相应G0P中的数个帧,且帧语法数据可指示用以对对应帧进行编码 的编码/预测模式。
[0083] 本发明的技术中的一或多者是针对用于将视频数据从第一颜色空间变换到第二 颜色空间的技术。因此,视频编码器20表示视频译码器的实例,所述视频译码器经配置以: 确定与关联于译码单元的多个颜色变换相关联的成本,选择所述多个颜色变换中具有最低 相关联成本的颜色变换,使用所述多个颜色变换中的选定颜色变换变换具有第一红、绿、蓝 (RGB)颜色空间的第一视频数据块以产生具有第二颜色空间的第二视频数据块,且对具有 第二颜色空间的第二视频块进行编码。
[0084] 视频解码器30表示视频译码器的实例,所述视频译码器经配置以:在位流中接收 与经译码单元
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1