用于不同颜色取样格式的基于模式的系数扫描和对角变换的制作方法

文档序号:7792770阅读:176来源:国知局
用于不同颜色取样格式的基于模式的系数扫描和对角变换的制作方法
【专利摘要】一种编码4:2:2或4:4:4视频数据的方法包括:根据与要预测的取样相关联的预测模式,从源自相同图像的其他各个参考取样中预测图像的亮度和/或色度取样,从两个以上候选预测模式构成的组中,为多个取样区块的每个选择所述预测模式;检测在取样与各个预测取样之间的差值;使用在变换与预测模式之间的映射,根据与取样的当前区块相关联的预测模式,从两个以上候选频率分离变换中选择频率分离变换,至少对于4:4:4格式,在色度与亮度取样之间,所述映射不同;并且使用所选择的频率分离变换,通过频率分离所述差值,来将所检测的差值编码。
【专利说明】用于不同颜色取样格式的基于模式的系数扫描和对角变换
[0001] 交叉引用相关申请
[0002] 本申请要求分别于更早提交日期2012年6月29日以及2012年4月26日在英国 知识产权局提交的GB 1211628. 1和GB 1207459. 7以及于更早提交日期2012年6月29日 在英国知识产权局提交的GB 1211629. 9和GB 1211623. 2的权益,上述申请的全部内容通 过引用被结合在本文中。

【技术领域】
[0003] 本公开有关数据编码及解码。

【背景技术】
[0004] 文中所提出的「【背景技术】」描述为了一般性地呈现本公开的背景的目的。目前具 名的发明人的工作(达其在此先前技术段落中所描述的程度、以及其无法另合格为申请时 的习知技术的描述的形态)不被明确地或暗示性地承认为对抗本公开的习知技术。
[0005] 有数种视频数据编码及解码系统,其涉及将视频数据变换为频域表示、将频域系 数量化及接着将某形式的熵(entropy)编码应用至已量化的系数。如此可获得视频数据的 压缩。相应的解码或解压缩技术被应用以恢复原始视频数据的已重建版本。
[0006] 诸如那些于H. 264/MPEG-4高阶视频编码(AVC)中所使用的当前的视频编解码器 (编码器-解码器)主要藉由仅将介于连续视频帧之间的差异编码来获得数据压缩。这些 编解码器使用所谓宏区块的规律数组,其每个被使用为与先前视频帧中的相应宏区块的比 较区,且宏区块内的图像区接着依据介于视频序列中的相应的当前与先前宏区块间、或者 介于视频序列的单一帧内的相邻宏区块间所发现的移动等级(level)而被编码。
[0007] 高效率视频编码(HEVC),亦已知为 H. 265 或 MPEG-H Part 2,是 H. 264/MPEG-4AVC 的一种已提议的后继者。期望HEVC得以增进质量及加倍数据压缩比(相较于H. 264),并期 望其可缩放从128X96至7680X4320像素分辨率,约略等于从128kbit/s至800Mbit/s的 比特率。
[0008] 于HEVC中,一种所谓的4 :2 :0区块结构被提议给消费者设备,其中各色度 (chroma)频道中所使用的数据的量为亮度(luma)频道中所使用的四分之一。这是因为主 观地人类对于亮度变化较颜色变化更为敏感,而因此得以使用较大的压缩及/或较少的数 据于颜色频道中而不会有主观的质量丧失。
[0009] HEVC以一种基于编码单元(CU,其为可变尺寸结构)的更有弹性技术来取代现存 H. 264及MPEG标准中所发现的宏区块。
[0010] 因此,当编码视频帧中的图像数据时,⑶尺寸可响应于明显的图像复杂度或检测 的移动等级而被选择,以取代使用均匀分布的宏区块。结果,可获得明显较大的压缩于具有 少量移动于帧之间的区中以及具有少量变化于帧之内的区中,而同时可保留较佳的图像质 量于高帧间移动或图像复杂度的区域中。
[0011] 各⑶含有:图像内或图像间预测类型的任一者的一个以上可变区块尺寸的预测 单元(PU)、及其含有针对空间区块变换及量化的系数的一个以上变换单元(τυ)。
[0012] 再者,PU和TU区块被提供给三个频道的每一个:亮度(Υ),其为亮度或亮度频道、 且其可被视为灰阶频道;及两颜色差异或色彩(色度)频道Cb和Cr。这些频道提供亮度 频道的灰阶图像的颜色。术语Y、亮度(luminance)及亮度被交替地使用于本说明书中,而 类似的术语Cb和Cr、色彩(chrominance)及色度被适当地交替使用,注意其色彩或色度通 常可被用于Cr和Cb的一者或两者;而当讨论特定色彩频道时其将由术语Cb或Cr来识别。
[0013] 一般而言,PU被视为频道独立的,除了其PU具有亮度部分及色度部分。一般而言, 此表示形成各频道的PU的部分的样本代表图像的相同区,以致有固定的关系介于三个频 道间的PU之间。例如,针对4 :2 :0视频,亮度之8X8PU永远具有色度的相应的4X4PU,其 TO的色度部分代表如亮度部分的相同区域,但由于4 :2 :0视频中相较于亮度数据的4 :2 :0 色度数据之次取样本质而含有较少数的像素。两色度频道共享预测内信息;而三个频道共 享预测间信息。类似地,TU结构亦具有固定关系于三个频道之间。
[0014] 然而,针对专业的广播及数字剧院设备,希望具有较少的压缩(或较多的信息)于 色度频道中,且此可影响当前及已提议的HEVC处理将如何运作。


【发明内容】

[0015] 本公开应对或减缓由此处理所发生的问题。
[0016] 本公开的形态及特征限定于后附申请专利范围中。
[0017] 应理解之前的一般性描述及之后的详细描述为本技术的范例性的,而非限制性 的。

【专利附图】

【附图说明】
[0018] 本公开的更完整的理解以及许多其伴随的优点将随着其藉由参考以下的详细描 述(当配合后附图形而考虑时)变得更为了解而被轻易地获得,其中 :
[0019] 图1概略地阐明一种使用视频数据压缩及解压缩的音频/视频(A/V)数据传输及 接收系统;
[0020] 图2概略地阐明一种使用视频数据解压缩的视频显示系统;
[0021] 图3概略地阐明一种使用视频数据压缩及解压缩的音频/视频储存系统;
[0022] 图4概略地阐明一种使用视频数据解压缩的视频相机;
[0023] 图5提供视频数据压缩及解压缩设备的概略概视图;
[0024] 图6概略地阐明预测图像的产生;
[0025] 图7概略地阐明最大编码单元(IXU);
[0026] 图8概略地阐明一组四个编码单元(CU);
[0027] 图9和10概略地阐明将图8的编码单元次分割为较小的编码单元;
[0028] 图11概略地阐明预测单元(PU)的数组;
[0029] 图12概略地阐明变换单元(TU)的数组;
[0030] 图13概略地阐明部分编码图像;
[0031] 图14概略地阐明一组可能的预测内方向;
[0032] 图15概略地阐明一组预测模式;
[0033] 图16概略地阐明笔直对角扫描;
[0034] 图17概略地阐明视频压缩设备;
[0035] 图18a和18b概略地阐明可能的区块尺寸;
[0036] 图19概略地阐明来自色度及亮度区块的共置信息的使用;
[0037] 图20概略地阐明一种情况,其中来自一色度频道的共置信息被用于另一色度频 道;
[0038] 图21概略地阐明用于LM-CHR0MA模式的像素;
[0039] 图22概略地阐明一组亮度预测方向;
[0040] 图23概略地阐明图22的方向,如应用于水平上稀疏的色度频道;
[0041] 图24概略地阐明映射至矩形色度像素数组的图22的方向;
[0042] 图25-28概略地阐明亮度及色度像素内插;
[0043] 图29a和2b各自的概略地阐明4 :2 :0及4 :2 :2的量化参数表;
[0044] 图30和31概略地阐明量化变异表;及
[0045] 图32概略地阐明用以修改角度步进的配置;
[0046] 图33概略地阐明角度步进的修改;
[0047] 图34和35概略地阐明扫描型态;
[0048] 图36概略地阐明依据预测模式的扫描型态的选择;
[0049] 图37概略地阐明依据预测模式的扫描型态的选择,针对矩形色度区块;
[0050] 图38概略地阐明用以选择扫描型态的配置;
[0051] 图39概略地阐明用以选择频率分离变换的配置;
[0052] 图40概略地阐明CABAC编码器;
[0053] 图41A-41D概略地阐明先前提议的邻近分配(allocation);及
[0054] 图42A至45概略地阐明依据本公开的实施例的背景可变分配。

【具体实施方式】
[0055] 现在参考图形,图1-4被提供以给出利用压缩及/或解压缩设备的设备或系统的 概略图标,以供配合本公开的实施例而描述于下。
[0056] 所有将描述于下的数据压缩及/或解压缩可被实施以硬件、以运作在诸如通用计 算机等通用数据处理设备上的软件,当成诸如特定应用集成电路(ASIC)或场可编程门阵 列(FPGA)等可编程硬件或当成这些的组合。于其中实施例藉由软件及/或固件来实施的 情况下,应理解此类软件及/或固件、及藉以储存或提供此类软件及/或固件的非瞬时数据 储存媒体被视为本公开的实施例。
[0057] 图1概略地阐明一种使用视频数据压缩及解压缩的音频/视频数据传输及接收系 统。
[0058] 输入音频/视频信号10被供应至视频数据压缩设备20,其压缩音频/视频信号 10的至少视频成分以供传输沿着传输路由30,诸如缆线、光纤、无线链路等等。已压缩信号 由解压缩设备40所处理以提供输出音频/视频信号50。针对返回路径,压缩设备60压缩 音频/视频以供传输沿着传输路由30而至解压缩设备70。
[0059] 压缩设备20及解压缩设备70可因此形成传输链路的一节点。解压缩设备40及 压缩设备60可形成传输链路的另一节点。当然,于其中传输链路为单向的例子中,仅有节 点之一需要压缩设备而另一节点仅需要解压缩设备。
[0060] 图2概略地阐明一种使用视频数据解压缩的视频显示系统。特别地,已压缩音频/ 视频信号100由解压缩设备110所处理以提供其可被显示于显示器120上的解压缩信号。 解压缩设备110可被实施为显示器120的部分,例如被提供于与显示设备相同的外壳内。另 一方面,解压缩设备110可被提供为(例如)所谓得机顶盒(STB),注意:用词「机上」并非 暗示机盒需设置相对于显示器120之任何特定方位或位置;其仅为用以指示可连接至显示 以当作周边装置之装置的本技术中所使用的术语。
[0061] 图3概略地阐明一种使用视频数据压缩及解压缩的音频/视频储存系统。输入音 频/视频信号130被供应至压缩设备140,其产生已压缩信号以供由储存装置150所储存, 诸如磁盘装置、光盘装置、磁带装置、固态储存装置(如半导体内存或其他储存装置)。为了 播放,已压缩数据被读取自储存装置150并传递至解压缩设备160以供解压缩,以提供输出 音频/视频信号170。
[0062] 应理解:已压缩或已编码信号、及储存该信号之储存媒体被视为本公开的实施例。
[0063] 图4概略地阐明一种使用视频数据解压缩的视频相机。于图4中,图像捕获设备 180,诸如电荷耦合装置(CCD)图像电感器及相关的控制和读出电子电路,产生视频信号, 其被传递至压缩设备190。一麦克风(或复数麦克风)200产生一音频信号以供被传递至压 缩设备190。压缩设备190产生已压缩音频/视频信号210以便被储存及/或传输(通常 显示为储存及/或传输220)。
[0064] 将描述于下的技术主要有关于视频数据压缩及解压缩。应理解:许多现有的技术 可配合将被描述的视频数据压缩技术而被用于音频数据压缩,以产生已压缩音频/视频信 号。因此,将不提供音频数据压缩之各自的讨论。亦应理解:与视频数据(特别是广播质量 视频数据)相关的数据率一般是极高于与音频数据相关的数据率(无论已压缩或未压缩)。 因此应理解:未压缩音频数据可伴随已压缩视频数据以形成已压缩音频/视频信号。应进 一步理解:虽然目前的范例(图1-4中所显示者)有关音频/视频数据,但以下将描述的技 术可发现其应用于仅处理(亦即,压缩、解压缩、储存、显示及/或传输)视频数据的系统。 换言之,实施例可应用于视频数据压缩而不一定具有任何相关的音频数据处置。
[0065] 图5提供视频数据压缩及解压缩设备的概略概视图。
[0066] 控制器343控制设备的整体操作及;特别当针对压缩模式时,控制试验编码程序 (将描述于下)以选择诸如CU、PU和TU区块尺寸的操作的各种模式。
[0067] 输入视频信号300的连续图像被供应至相加器310及图像预测器320。图像预测 器320将参考图6而被更详细地描述于下。相加器310事实上执行相减(负相加)操作, 其中其输入视频信号300于「+」输入上及图像预测器320的输出于「-」输入上,以致从输 入图像减去预测图像。结果为产生代表介于实际与预测图像间的差异的所谓残留图像信号 330。
[0068] 残留图像信号为何被产生的一原因说明如下。将描述的数据编码方案(亦即将应 用于残留图像信号的技术)倾向于更有效率地作用在当待编码的图像中有较少「能量」时。 于此,术语「有效率地」指的是少量已编码数据的产生;针对特定图像质量等级,希望产生 实际上尽可能少的数据。残留图像中所谓「能量」是有关残留图像中所含有的信息量。假 如预测图像将全同于实际图像,则两者之间的差异(亦即,残留图像)将含有零信息(零能 量)且将极易于编码成少量的已编码数据。通常,假如可使预测程序合理地作用良好,则预 期残留图像数据将含有较输入图像更少的信息(较少能量)而因此将较易于编码成少量的 已编码数据。
[0069] 残留图像信号330被耦合至变换单元340,其产生残留图像数据的离散余弦变换 (DCT)表示。DCT技术本身是众所周知的且将不会详细地描述于此。然而,仍有将被更详细 地描述于下的本设备中所使用的技术的形态,特别是有关于可应用DCT操作的不同区块的 数据的选择。这些将参考图7-12而被描述于下。于一些实施例中,不同的频率分离变换可 被选择性地使用以取代DCT,于一种已知为MDDT (模式取决的方向性变换)的系统中,其将 被描述于下。现在,将假设DCT变换正使用中。
[0070] 变换单元340的输出(亦即,针对图像数据的各变换区块的一组DCT系数)被供 应至量化器350。各种量化技术为视频数据压缩之领域中所已知的,范围涵盖从藉由量化标 度因子的简单相乘直至复杂查找表之应用,于量化参数的控制下。一般目标是两倍。首先, 量化程序减少已变换数据之可能值的数目。其次,量化程序可增加其已变换数据为零的值 的可能性。这两者可使得熵编码程序(将描述于下)更有效率地作用于产生少量的已压缩 视频数据。
[0071] 由扫描单元360施加一数据扫描程序。扫描程序的目的为重新排列量化的已变换 数据以将尽可能多的非零已量化已变换系数收集在一起,而当然因而将尽可能多的零值系 数收集在一起收集。这些特征可容许有效率地施加所谓的运行长度编码或类似技术。因此, 扫描程序涉及从已量化已变换数据选择系数,且特别是从相应于一已依据「扫描顺序」或扫 描模式而被变换并量化的图像数据的区块的系数的区块,以致:(a)所有系数当作扫描的 部分而被选择一次;及(b)扫描常提供所欲的重新排列。一种可常提供有用结果的范例扫 描顺序是一种所谓的笔直对角扫描顺序。于一些实施例中,可使用一种所谓的MDCS(模式 取决的系数扫描)系统,以致扫描型态可随区块而改变。此类配置将被更详细地描述于下。 现在,假设其使用笔直对角扫描。
[0072] 已扫描系数被接着传递至熵编码器(EE) 370。再次地,可使用各种类型的熵编码。 两个范例是所谓的CABAC (背景适应二进制算术编码)系统的变异及所谓的CAVLC(背景适 应可变长度编码)系统的变异。一般而言,CABAC被视为提供较佳的效率,且于某些研究中 已显示出针对相当图像质量(相较于CAVLC)之已编码输出数据的量提供10-20%的减少。 然而,CAVLC被视为代表相较于CABAC之复杂度更低甚多的等级(依照其实施方式)。注 意:扫描程序及熵编码程序被显示为分离的程序,但事实上可被结合或一起处理。亦即,数 据之读入熵编码器可发生以扫描顺序。相应的考虑适于以下将描述的各自的反向程序。注 意:本案申请时于考虑下的当前的HEVC文件不再包括CAVLC系数编码器之可能性。
[0073] 熵编码器370的输出,连同额外数据(以上所提及/或以下所讨论),例如限定其 中预测器320产生预测图像的方式,提供已压缩的输出视频信号380。
[0074] 然而,亦提供返回路径,因为预测器320本身的操作取决于已压缩输出数据的解 压缩版本。
[0075] 此特征之原因如下。于适当阶段,在解压缩程序(以下将描述)中,产生残留数据 的解压缩版本。此已解压缩的残留数据需被加至预测图像以产生输出图像(因为原始残留 数据为介于输入图像与预测图像之间的差异)。为了使此程序是相当的,如介于压缩侧与 解压缩侧之间,则由预测器320所产生的预测图像应是相同的于压缩程序期间及于解压缩 程序期间。当然,在解压缩时,设备对于原始输入图像不具有存取权,而仅对于解压缩图像 有。因此,于压缩时,预测器320以压缩图像的解压缩版本为其预测(至少,针对图像间编 码)的基础。
[0076] 由熵编码器370所执行的熵编码程序被视为「无损」,也就是说其可被反转以达成 与其被首先供应至熵编码器370的完全相同的数据。因此,返回路径可被实施在熵编码阶 段之前。确实,由扫描单元360所执行的扫描程序亦被视为无损的,但于本实施例中,返回 路径390是从量化器350的输出至一互补反向量化器420的输入。
[0077] -般而言,熵解码器410、反转扫描单元400、反向量化器420及反向变换单元430 提供熵编码器370、扫描单元360、量化器350及变换单元340之各自的反向功能。现在,将 继续遍及压缩程序的讨论;用以解压缩输入已压缩视频信号的程序将被分离地讨论于下。
[0078] 于压缩程序中,扫描系数由返回路径390从量化器350传递至反向量化器420,其 执行扫描单元360之反向操作。反向量化及反向变换程序由单元420、430所执行以产生压 缩解压缩的残留图像信号440。
[0079] 图像信号440被加(于相加器450)至预测器320的输出以产生重建的输出图像 460。此形成图像预测器320的输入,如以下将描述者。
[0080] 现在回到用以解压缩一接收的已压缩视频信号470的程序,信号被供应至熵解码 器410并从该处至反转扫描单元400、反向量化器420及反向变换单元430之链,在藉由相 加器450而被加至图像预测器320的输出以前。明确地,相加器450的输出460形成输出 的解压缩视频信号480。实际上,可在信号被输出之前施加进一步过滤。
[0081] 因此,图5及6的设备可作用为压缩设备或解压缩设备。两种类型的设备的功能 非常大量地重迭。扫描单元360及熵编码器370未被使用于解压缩模式,而预测器320 (其 将被详细地描述于下)及其他单元的操作依循所接收的已压缩比特流中所含有的或者与 其关联的模式及参数,而非产生其本身的此类信息。
[0082] 图6概略地阐明预测图像的产生,及更明确地为图像预测器320的操作。
[0083] 有两种预测的基本模式:所谓的图像内预测及所谓的图像间(或运动补偿(MC)) 预测。
[0084] 图像内预测基于来自相同图像内的数据以执行图像的一区块的内容的预测。这相 应于其他视频压缩技术中的所谓的I帧编码。相对于I帧编码(其中整个图像均被内编 码),于本实施例中,可以逐区块的方式来进行介于内-与间-编码之间的选择,虽然于本公 开的其他实施例中仍以逐图像的方式进行选择。
[0085] 运动补偿预测为图像间预测的范例且利用其尝试限定将被编码于当前图像中的 图像细节的来源(于另一邻接或附近图像中)的运动信息。因此,于一理想范例中,于预测 图像中的图像的一区块的内容可极简单被编码为一参考(运动向量),其指向一相邻图像 中位于相同或稍微不同位置上的相应区块。
[0086] 回到图6,显示两个图像预测配置(相应于图像内及图像间预测),其结果为于模 式信号510的控制下由多任务器500所选择以提供预测图像的区块,以便供应至相加器310 及450。其选择的进行根据哪个选择提供最低「能量」(其,如上所讨论,可被视为需要编码 的信息内容),且该选择被发送给编码器于已编码输出数据流之内。图像能量(于本文中) 可被检测,例如,藉由从输入图像执行预测图像之两版本的区域的试验相减、将差异图像的 各像素值平方、加总平方值、及识别两版本的哪个为导致相关于该图像区域的差异图像的 较低均方根值。
[0087] 于内编码系统中,实际预测基于其被接收为信号460的部分的图像区块来进行, 换言之,预测基于已编码-已解码图像区块,以致可于解压缩设备上进行完全相同的预测。 然而,数据可由内模式选择器520获取自输入视频信号300,以控制图像内预测器530的操 作。
[0088] 针对图像间预测,运动补偿(MC)预测器540使用运动信息,诸如由运动估计器550 从输入视频信号300所取得的运动向量。这些运动向量。那些运动向量藉由运动补偿预测 器540而被施加至重建图像460之已处理版本,以产生图像间预测的区块。
[0089] 现在将描述施加至信号460的处理。首先,信号由过滤器单元560所过滤,其将被 更详细地描述于下。此涉及应用「除区块」过滤器以移除或至少尝试减少由变换单元340 所执行的区块为基的处理及后续操作。亦可使用样本调适补偿(SA0)过滤器(进一步描述 于下)。同时,应用一种使用藉由处理重建信号460及输入视频信号300所取得的系数的样 本回路过滤器。调适回路过滤器是一种过滤器类型,其(使用已知的技术)将调适过滤器 系数应用于待过滤的数据。亦即,过滤器系数可根据各种因子而改变。定义应使用哪些过 滤器系数的数据被包括为已编码输出数据流的部分。
[0090] 调适过滤代表用于图像复原的回路内过滤。IXU可由高达16个过滤器过滤,其针 对LCU内的各CU取得过滤器的选择及ALF开/关状态。目前控制在于LCU等级,而非CU 等级。
[0091] 来自过滤器单元560的已过滤输出实际上形成输出视频信号480,当设备操作为 压缩设备时。其亦被缓冲于一个以上图像或帧储存570中;连续图像之储存为运动补偿预 测处理的必要条件,且特别是运动向量的产生。为了节省储存需求,图像储存570中的储存 图像可被保持以压缩形式并接着解压缩以用于产生运动向量。为了此特定目的,可使用任 何已知的压缩/解压缩系统。储存图像被传递至内插过滤器580,其产生已储存图像之较高 分辨率版本;于此范例中,中间样本(次样本)被产生以致:由内插过滤器580所输出的内 插图像的分辨率为针对4 :2 :0的亮度频道而储存于图像储存570中的图像的分辨率的4倍 (于各维度);以及为针对4 :2 :0之色彩频道而储存于图像储存570中的图像的分辨率的8 倍(于各维度)。内插图像被传递为送至运动估计器550及亦送至运动补偿预测器540的 输入。
[0092] 于本公开的实施例中,提供进一步的可选择阶段,其使用乘法器600而将输入视 频信号的数据值乘以四的因子(效果上仅将数据值向左移两位);及使用除法器或右移器 610而施加一相应的除法操作(右移两位)于设备的输出处。因此,左移及右移纯粹针对设 备的内部操作而改变数据。此处置可提供较高的计算准确度于设备内,当作减少任何数据 舍入误差的效果。
[0093] 现在将描述其中图像针对压缩处理而被分割的方式。于基本等级上,一待压缩图 像被视为样本的区块的数组。针对本讨论的目的,考虑下的最大此类区块是所谓的最大编 码单元〇XU)700,其代表通常为64X64样本的方形数组(IXU尺寸可由编码器配置,高达诸 如由HEVC文件所定义的最大尺寸)。于此,讨论有关亮度样本。根据色彩模式,诸如4 :4: 4、4 :2 :2、4 :2 :0或4 :4 :4 :4 (GBR+密钥数据),将有相应于亮度区块的不同数目的相应色 彩样本。
[0094] 将描述三种基本的区块类型:编码单元、预测单元及变换单元。一般而言,IXU的 递归次划分容许输入图像被分割成使得区块尺寸及区块编码参数(诸如预测或残留编码 模式)可依据待编码图像的特定特性而被设定。
[0095] IXU可被次划分为所谓的编码单元(⑶)。编码单元总是方形的且具有介于8X8 样本与LCU 700的完整尺寸间的尺寸。编码单元可被配置为一种树状结构,以致第一次划 分可发生如图8中所示者,给定32X32样本的编码单元710 ;后续次划分可接着依选择性 方式而发生,以给定16X16样本之某些编码单元720 (图9)及8X8样本的潜在的某些编 码单元730 (图10)。总之,此程序可提供CU区块的内容调适的编码树状结构,其每一者可 如LCU -般大或者如8X8样本一般小。输出视频数据的编码基于编码单元结构而发生,也 就是说一 IXU被编码、及接着该程序移至下一 IXU,依此类推。
[0096] 图11概略地阐明预测单元(PU)的数组。预测单元为一基础单元,用以携载关于 图像预测程序的信息、或者(换言之)被加至熵编码残留图像数据以形成来自图5的设备 的输出视频信号的额外数据。一般地,预测单元不限于形状为方形。其可具有其他形状,特 别是形成方形编码单元之一的一半的矩形形状(例如,8X8⑶可具有8X4或4X8PU)。利 用其匹配图像特征之PU并非HEVC系统之强制部分,但一般目标将是容许良好的编码器匹 配相邻预测单元的边界以吻合(尽可能地)图像中的实际物体的边界,以致不同的预测参 数可被应用于不同的实际物体。各编码单元可含有一个以上预测单元。
[0097] 图12概略地阐明变换单元(TU)的数组。变换单元为变换和量化程序的基础单元。 变换可或不可为方形并得以具有4X4至32X32样本的尺寸。各编码单元可含有一个以上 变换单元。图12中的缩写SDIP-P表示一种所谓的短距离内预测分割。于此配置中,仅使 用一维变换,所以4XN区块被传递通过N变换,其中这些变换的输入数据基于当前SDIP-P 内之先前解码的相邻区块及先前解码的相邻线。在本案提出申请时SDIP-P尚未被包括于 HEVC 中。
[0098] 如上所述,编码以一 IXU、接着下一 IXU的方式进行,依此类推。于IXU内,编码以 ⑶接⑶地被执行。于⑶内,编码的针对一 TU、接着下一 TU地执行,依此类推。
[0099] 现在将讨论内预测程序。一般而言,内预测涉及从相同图像中之先前编码及解码 的样本产生样本的当前区块的预测(预测单元)。图13概略地阐明部分编码图像800。于 此,图像基于IXU而从左上至右下被编码。部分透过完整图像之处置而编码的范例IXU被 显示为区块810。区块810的左上半的阴影区820已被编码。区块810的内容的图像内预 测可利用阴影区820的任一个但无法利用其下方的无阴影区域。然而,注意其针对当前LCU 内之各自的TU,以上所讨论的编码的阶层顺序(CU接CU然后TU接TU)表示可能有于当前 LCU中并可用于的该TU的编码的先前已编码样本,其为(例如)该TU的右上或左下。
[0100] 区块810代表IXU ;如以上所讨论,针对内图像预测处理的目的,此可被次划分为 一组较小的预测单元及变换单元。当前TU 830的一范例被显示于IXU 810内。
[0101] 内图像预测考虑在考虑当前TU之前被编码的样本,诸如那些当前TU的上方及/ 或左方的那些。来源样本(从这些样本预测所需样本)可被置于不同位置上或者相对于当 前TU的方向。为了决定候选预测模式的哪个方向(预测模式)适于当前预测单元,一样本 编码器的模式选择器520可测试各候选方向的可用TU结构的所有组合并选择具有最佳压 缩效率之PU方向及TU结构。
[0102] 图象也可被编码以「片(Slice)」为基础。于一范例中,一片为一水平相邻族群的 IXU。但更一般而言,完整残留图像可形成一片,或者一片可为单一 IXU,或者一片可为一列 LCU,依此类推。片可提供对误差的韧性,因为其被编码为独立单元。编码器及解码器被完 全地重设于片边界。例如,内预测不被执行跨越片边界;片边界被视为针对此目的的图像边 界。
[0103] 图14概略地阐明一组可能的(候选)预测方向。整组34个候选方向可用于8X8、 16X 16、32X32样本的预测单元。4X4及64X64样本的预测单元尺寸的特殊情况具有其 可用的一减少组的候选方向(各自的为17个候选方向及5个候选方向)。这些方向由相对 于当前区块位置的水平及垂直位移所决定,但被编码为预测「模式」,其一组被显示于图15 中。注意:所谓的DC模式代表周围的上及左边样本之简单算术平均值。
[0104] 图16概略地阐明所谓的笔直对角扫描,其为可由扫描单元360所应用的范例扫描 型态。于图16中,该型态被显示针对一范例区块的8X8DCT系数,以其DC系数被置于该区 块的左上位置840上,且增加水平和垂直空间频率由在朝下及朝向左上位置840增加距离 时的系数所表示。可取代地使用其他替代的扫描顺序。
[0105] 区块配置和⑶、PU及TU结构的变化将被讨论如下。这些将被讨论以图17的设备 的背景,其在许多方面类似于如上讨论的图5及6中所阐明者。确实,已使用了许多相同的 参考数字,且将不进一步地讨论这些部分。
[0106] 针对图5及6的主要显著差异关于过滤器560 (图6),其在图17中被更详细地显示 为包括除区块过滤器1000及相关的编码决定区块1030、样本调适补偿(SA0)过滤器1010 及相关的系数产生器1040、和调适回路过滤器(ALF) 1020及相关的系数产生器1050。
[0107] 除区块过滤器1000尝试减少失真并增进视觉质量和预测性能,藉由使其当使用 区块编码方案时可形成于CU、PU与TU边界之间的尖锐边缘平顺化。
[0108] SA0过滤器1010将重建的像素分类为不同的范畴并接着尝试藉由仅为各范畴的 像素增加补偿以减少失真。像素强度及边缘性质被用于像素分类。为了进一步增进编码效 率,一图像可被划分为用于补偿参数之局部化的区。
[0109] ALF 1020尝试复原已压缩图像,以致介于重建的与来源帧之间的差异被减至最 小。ALF的系数以帧为基础来计算及传输。ALF可被应用于整个帧或者局部区域。
[0110] 如上所述,已提议的HEVC文件使用已知为4 :2 :0技术的特定的色度取样技术。4 : 2 :0方案可被用于本地/消费者设备。然而,数种其他技术亦为可能的。
[0111] 特别地,一种所谓的4 :4 :4方案将适于专业广播、主控(mastering)及数字剧院, 且理论上将具有最高的质量及数据率。
[0112] 类似地,一种所谓的4 :2 :2方案可被用于具有某些保真度丧失的专业广播、主控 及数字剧院。
[0113] 这些技术及其相应可能的TO和TU区块结构被描述如下。
[0114] 此外,其他的技术包括4 :0:0单色技术。
[0115] 于4 :4 :4方案中,三个Y、Cb及Cr频道的每一个均具有相同的样本率。因此,原 则上,于此技术中将有如亮度数据的两倍般多的色度数据。
[0116] 因此于HEVC中,于此技术中,三个Y、Cb及Cr频道的每一个将具有其为相同尺寸 的相应的PU和TU区块;例如,8X8亮度区块将具有针对两个色度频道的每一个的相应的 8X8色度区块。
[0117] 因此,于此技术中,通常将有直接的1 :1关系于各频道中的区块尺寸之间。
[0118] 于4:2:2方案中,两个色度成分被取样以亮度的取样率的一半(例如,使用垂直 或水平次取样,但为了本说明的目的,假设为水平次取样)。因此,原则上,于此技术中将有 如亮度数据一般多的色度数据,虽然色度数据将被分开于两个色度频道之间。
[0119] 因此于HEVC中,于此技术中,Cb及Cr频道将具有针对亮度频道的不同尺寸的PU 和TU区块;例如,8X8亮度区块将具有针对各色度频道的相应的宽4X高8色度区块。
[0120] 因此,应注意:于次技术中,色度区块可为非方形的,即使其相应于方形亮度区块。
[0121] 于当前已提议的HEVC 4 :2 :0方案中,两个色度成分被取样以亮度的取样率的四 分之一(例如,使用垂直及水平次取样)。因此,原则上,于此技术中将有如亮度数据的一半 的色度数据,色度数据将被分裂于两个色度频道之间。
[0122] 因此于HEVC中,于此技术中,再次地Cb及Cr频道将具有针对亮度频道的不同尺 寸的PU和TU区块。例如,8X8亮度区块将具有针对各色度频道的相应的4X4色度区块。
[0123] 上述技术于本技艺中口语地已知为「频道比」,如以「4:2:0频道比」;然而,从以上 描述应理解:事实上此并非永远表示其Y、Cb及Cr频道以该比例被压缩或者被提供。因此 虽称之为频道比,此不应被假设为照字面的。事实上,4 :2 :0技术的正确比例为4 :1 :1 (4 : 2 :2方案和4 :4 :4技术的比例是事实上正确的)。
[0124] 在参考图18A和18B以讨论特定的配置前,将概述或重述一些一般性术语。
[0125] 最大编码单元(IXU)是根图像标的。通常,其涵盖相当于64X64亮度像素的区域。 其被递归地分裂以形成树状阶层的编码单元(⑶)。一般而言,三个频道(一亮度频道及二 色度频道)具有相同的⑶树状阶层。然而,如此一来,根据频道比,一特定的亮度⑶可包 括针对相应色度CU的不同数目的像素。
[0126] 于数状阶层的末端上的CU,亦即,得自递归分裂程序的最小CU被接着分裂为预测 单元(PU)。三个频道(一亮度频道及二色度频道)具有相同的PU结构,除了当色度频道的 相应PU将具有太少样本时,于此情况下该频道仅有一 ro可用。此为可配置的,但常见地一 内ro的最小尺寸为4样本;一间PU的最小尺寸为4亮度样本(或针对4 :2 :0为2色度样 本)。针对任何频道的至少一 PU最小⑶尺寸的限制总是够大的。
[0127] 叶⑶亦被分裂为变换单元(TU)。TU可以,及当其为太大时(例如,超过32X32 样本)时必须,被分裂为进一步的TU。加诸一限制以致TU可被向下分裂至最大的树状深 度,目前配置为2层。亦即,针对各⑶不得有多于16个TU。一例示性的最小可容许TU尺 寸为4 X 4样本及最大可容许TU尺寸为32 X 32样本。再次,只要有可能则三个频道具有相 同的TU结构,但假如由于尺寸限制而使TU无法被分裂为针对既定频道的特定深度,则其保 持于较大尺寸。所谓的非方形四倍树状变换配置(NSQT)是类似的,但分裂为四个TU的方 法无需为2X2而可为4X 1或1X4。
[0128] 参考图18A及18B,针对⑶、PU及TU区块概述可能的不同区块尺寸,以「Y」指称 亮度区块而「C」一般性地指称色度区块的一代表者,及数字指称像素。「间」指称帧间预测 PU(相对于帧内预测ro)。于许多情况下,仅显示亮度区块的区块尺寸。相关色度区块的相 应尺寸关于依据频道比的亮度区块尺寸。因此,针对4 :4 :4,色度频道具有如图18A和18B 中所示的亮度区块般的相同区块尺寸。针对4 :2 :2及4 :2 :0,色度区块将各具有较相应亮 度区块更少的像素,依据频道比。
[0129] 图18A和18B中所示的配置考虑四种可能的⑶尺寸:64X64、32X32、16X16及 8X8亮度像素,各自地。这些⑶的每一个均具有PU选项(显示于行1140中)及TU选项 (显示于行1150中)的一相应列。针对如上所限定的可能⑶尺寸,这些列选项各自被参照 为 1100、1110、1120 及 1130。
[0130] 注意:64X64为当前的最大⑶尺寸,但此限制可能会改变。
[0131] 于各列1100…1130中,不同的PU选项被显示可应用于该⑶尺寸。可应用于那些 PU配置的TU选项被显示水平地与各自的PU选项对齐。
[0132] 注意:于数种情况下,提供多重TO选项。如以上所讨论,设备选择PU配置的目标 在于匹配(尽可能地接近)图像中之真实对象的边界,以致不同的预测参数可被应用于不 同的真实对象。
[0133] 区块尺寸和形状及TO是基于编码器的决定,于控制器343的控制下。当前方法涉 及针对许多方向进行许多TU树状结构的试验、取得各等级上的最佳「成本」。于此,成本可 被表示为得自各区块结构之失真、或噪声、或误差、或比特率的测量。因此,编码器可尝试在 以上所讨论之树状结构和阶层下所容许者之内的区块尺寸和形状之两个以上(或及甚至 所有可能的)排列,在选择其针对某所需的质量测量提供最低比特率、或针对所需的比特 率提供最低失真(或误差、或噪声、或这些测量的组合)、或这些测量的组合的试验之一以 N / . 刖。
[0134] 给定特定TO配置的选择,则各种等级的分裂可被应用以产生相应的TU。参考列 1100,于64X64PU的情况下,此区块尺寸针对使用为TU是太大的,而因此第一等级的分裂 (从「等级〇」(未分裂)至「等级1」)是必要的,其导致四个32X32亮度TU的数组。这些 的每一个可接受树状阶层中的进一步分裂(从「等级1」至「等级2」)如所需,以其分裂在 变换或量化该TU被执行前被履行。TU树中之等级的最大数目由HEVC文件所限制(举例而 言)。
[0135] 其他的选项被提供给TO尺寸及形状于64X64亮度像素⑶的情况。这些被限制 仅使用以内编码图像,以及(于某些情况下)以所谓的AMP选项启用。AMP指的是非对称运 动分割并容许PU被非对称地分割。
[0136] 类似地,于某些情况下,选项被提供给TU尺寸及形状。假如NQST(非方形四倍树 状变换,基本上容许非方形TU)被启用,则分裂为等级1及/或等级2可被执行如所示,而 假如NQST未被启用,则TU尺寸依循该CU尺寸的各自的最大TU的分裂形态。
[0137] 类似的,选项被提供给其他⑶尺寸。
[0138] 除了图18A和18B中所示的图形表示以外,相同信息的数字部分被提供于后续表 中,虽然图18A和18B中的表示被视为限定性的。「n/a」指示其不容许的模式。水平像素尺寸 被首先引述。假如第三数字被提供,则其有关该区块尺寸的例子的数目,如于(水平)X (垂 直)X (例子数)区块。N为整数。
[0139]

【权利要求】
1. 一种用于将视频数据解码的设备,其中,预测取样与原始取样之间的差值被频率分 离和编码,所述设备包括: 预测器,被配置为根据与要预测的取样相关联的预测模式,从源自相同图像的其他各 个参考取样中预测图像的亮度和/或色度取样,从两个以上候选预测模式构成的组中,为 多个取样区块的每个选择所述预测模式; 选择器,被配置为使用在扫描型态与预测模式之间的映射,根据用于所述取样区块的 所述预测模式,从两个以上候选扫描型态构成的组中选择扫描型态,每个扫描型态限定将 这组频率分离的系数编码的顺序,在色度与亮度取样之间,所述映射不同;以及 解码器,被配置为按照根据所选择的扫描型态的频率分离的系数的顺序,将频率分离 的差值数据解码,所述频率分离的差值数据表示表明在要解码的取样与各个预测取样之间 的差值的频率分离版本的数据。
2. -种用于将视频数据编码的设备,其中,预测取样与原始取样之间的差值被频率分 离并且编码,所述设备包括: 预测器,被配置为根据与要预测的取样相关联的预测模式,从源自相同图像的其他各 个参考取样中预测图像的亮度和/或色度取样,从两个以上候选预测模式构成的组中,为 多个取样区块的每个选择所述预测模式; 检测器,被配置为检测在取样与各个预测取样之间的差值; 变换单元,被配置为使用频率分离变换,来频率分离取样区块的所检测的差值,以便生 成相应的一组频率分离的系数; 选择器,被配置为根据用于所述取样区块的预测模式,从两个以上候选扫描型态构成 的组中选择扫描型态,每个扫描型态限定将这组频率分离的系数编码的顺序;以及 编码器,被配置为按照根据所选择的扫描型态的频率分离的系数的顺序,将频率分离 的差值数据编码。
3. -种用于将视频数据编码的方法,其中,预测取样与原始取样之间的差值被频率分 离并且被编码,所述方法包括: 根据与要预测的取样相关联的预测模式,从源自相同图像的其他各个参考取样中预测 图像的亮度和/或色度取样,从两个以上候选预测模式构成的组中,为多个取样区块的每 个选择所述预测模式; 检测在取样与各个预测取样之间的差值; 使用频率分离变换,来频率分离取样区块的所检测的差值,以便生成相应的一组频率 分离的系数; 使用在扫描型态与预测模式之间的映射,根据用于所述取样区块的预测模式,从两个 以上候选扫描型态构成的组中选择扫描型态,每个扫描型态限定将这组频率分离的系数编 码的顺序,在色度与亮度取样之间,所述映射不同;以及 按照根据所选择的扫描型态的频率分离的系数的顺序,将频率分离的差值数据编码。
4. 根据权利要求3所述的方法,其中,与要预测的取样区块相关联的预测模式表示限 定一个或多个其他参考取样的预测方向,要通过所述预测方向,来预测所述区块的每个取 样。
5. 根据权利要求3或4所述的方法,包括: 提供预测模式与扫描型态之间的映射。
6. 根据权利要求5所述的方法,其中,所述视频数据包括4:2:2和/或4:4:4视频数 据,并且对于4:2:2亮度和4:2:2色度数据,所述映射不同。
7. 根据权利要求5或6所述的方法,其中,所述视频数据包括4:2:2和/或4:4:4视频 数据,并且对于4:2:2和4:4:4视频数据,所述映射不同。
8. 根据权利要求3到7中任一项所述的方法,其中,亮度取样的当前区块的尺寸是4x4 或8x8取样。
9. 根据权利要求3到8中任一项所述的方法,包括: 从一组候选尺寸中,选择取样的当前区块的尺寸; 如果所选择的区块尺寸是这组候选尺寸的预定子集中的一个,那么应用选择扫描型态 的步骤。
10. 根据权利要求3到9中任一项所述的方法,包括: 仅仅在亮度取样中应用选择扫描型态的步骤。
11. 根据权利要求3到10中任一项所述的方法,其中,这组候选扫描型态不同,以供亮 度和色度取样使用。
12. 根据权利要求3到11中任一项所述的方法,其中,所述选择步骤被配置为在一组 主要水平的预测模式中选择水平扫描型态,在一组主要垂直的预测模式中选择垂直扫描型 态,并且在其他预测模式中选择对角线扫描型态。
13. -种用于将视频数据解码的方法,其中,预测取样与原始取样之间的差值被频率分 离并且编码,所述方法包括: 根据与要预测的取样相关联的预测模式,从源自相同图像的其他各个参考取样中预测 图像的亮度和/或色度取样,从两个以上候选预测模式构成的组中,为多个取样区块的每 个选择所述预测模式; 使用扫描型态与预测模式之间的映射,根据用于所述取样区块的预测模式,从两个以 上候选扫描型态构成的组中选择扫描型态,每个扫描型态限定将这组频率分离的系数编码 的顺序,在色度与亮度取样之间,所述映射不同;以及 按照根据所选择的扫描型态的频率分离的系数的顺序,将频率分离的差值数据解码, 所述频率分离的差值数据表示表明在要解码的取样与各个预测取样之间的差值的频率分 离版本的数据。
14. 根据权利要求3到13中任一项所述的方法,其中,所述视频数据是4:2:2或4:4:4 视频数据。
15. 根据权利要求3到14中任一项所述的方法,其中,至少对于4:4:4格式,在色度与 亮度取样之间,所述映射不同。
16. -种将4:2:2或4:4:4视频数据编码的方法,包括: 根据与要预测的取样相关联的预测模式,从源自相同图像的其他各个参考取样中预测 图像的亮度和/或色度取样,从两个以上候选预测模式构成的组中,为多个取样区块的每 个选择所述预测模式; 检测在取样与各个预测取样之间的差值; 使用在变换与预测模式之间的映射,根据与取样的当前区块相关联的预测模式,从两 个以上候选频率分离变换中选择频率分离变换,至少对于4:4:4格式,在色度与亮度取样 之间,所述映射不同;以及 使用所选择的频率分离变换,通过频率分离所述差值,将所检测的差值编码。
17. 根据权利要求16所述的方法,其中,所述候选频率分离变换包括两个以上变换,选 自由以下变换构成的列表: 离散余弦变换; 离散正弦变换; Karhunen-Loeve 变换;以及 由各行和列矩阵限定的变换,用于与取样的当前区块进行矩阵乘法。
18. 根据权利要求17所述的方法,其中,与要预测的取样区块相关联的预测模式表示 限定一个或多个其他参考取样的预测方向,要通过所述预测方向,来预测所述区块的每个 取样。
19. 根据权利要求16到18中任一项所述的方法,包括: 提供预测模式与频率分离变换之间的映射。
20. 根据权利要求19所述的方法,其中,对于4:2:2格式,所述映射在亮度与色度数据 之间不同。
21. 根据权利要求16到20中任一项所述的方法,其中,亮度取样的当前区块的尺寸是 4x4取样。
22. 根据权利要求16到21中任一项所述的方法,包括: 从一组候选尺寸中,选择取样的当前区块的尺寸; 如果所选择的区块尺寸是这组候选尺寸的预定子集中的一个,那么应用选择频率分离 变换的步骤。
23. 根据权利要求16到22中任一项所述的方法,其中,将所检测的差值编码的步骤包 括: 根据用于所述取样区块的预测模式,从两个或多个候选扫描型态构成的组中选择扫描 型态,每个扫描型态限定将这组频率分离的系数编码的顺序;以及 按照根据所选择的扫描型态的频率分离的系数的顺序,将频率分离的差值数据编码。
24. -种将4:2:2或4:4:4视频数据解码的方法,包括: 根据与要预测的取样相关联的预测模式,从源自相同图像的其他各个参考取样中预测 图像的亮度和/或色度取样,从两个以上候选预测模式构成的组中,为多个取样区块的每 个选择所述预测模式; 使用在变换与预测模式之间的映射,根据与取样的当前区块相关联的预测模式,从两 个以上候选频率分离变换中选择频率分离变换,至少对于4:4:4格式,在色度与亮度取样 之间,所述映射不同;以及 使用所选择的频率分离变换,将表明在要解码的取样与各个预测取样之间的差值的差 值数据解码。
25. -种计算机软件,在由计算机执行时,其促使计算机执行根据权利要求3到24中任 一项所述的方法。
26. -种机器可读永久性储存介质,其储存根据权利要求25所述的软件。
27. -种数据信号,其包括根据权利要求3到24中任一项所述的方法生成的编码数据。
28. -种将4:2:2或4:4:4视频数据编码的设备,包括: 预测器,被配置为根据与要预测的取样相关联的预测模式,从源自相同图像的其他各 个参考取样中预测图像的亮度和/或色度取样,从两个以上候选预测模式构成的组中,为 多个取样区块的每个选择所述预测模式; 检测器,被配置为检测在取样与各个预测取样之间的差值; 选择器,被配置为使用在变换与预测模式之间的映射,根据与取样的当前区块相关联 的预测模式,从两个以上候选频率分离变换中选择频率分离变换,至少对于4:4:4格式,在 色度与亮度取样之间,所述映射不同;以及 编码器,被配置为使用所选择的频率分离变换,通过频率分离所述差值,将所检测的差 值编码。
29. -种将4:2:2或4:4:4视频数据解码的设备,包括: 预测器,被配置为根据与要预测的取样相关联的预测模式,从源自相同图像的其他各 个参考取样中预测图像的亮度和/或色度取样,从两个以上候选预测模式构成的组中,为 多个取样区块的每个选择所述预测模式; 选择器,被配置为使用在变换与预测模式之间的映射,根据与取样的当前区块相关联 的预测模式,从两个以上候选频率分离变换中选择频率分离变换,至少对于4:4:4格式,在 色度与亮度取样之间,所述映射不同;以及 解码器,被配置为使用所选择的频率分离变换,将表明在要解码的取样与各个预测取 样之间的差值的差值数据解码。
30. -种视频储存、传输、捕获或显示设备,包括根据权利要求1、2、28以及29中任一项 所述的设备。
【文档编号】H04N19/11GK104272739SQ201380022421
【公开日】2015年1月7日 申请日期:2013年4月26日 优先权日:2012年4月26日
【发明者】詹姆斯·亚历山大·戈梅, 尼古拉斯·里安·桑德斯, 卡尔·詹姆斯·沙曼, 保罗·詹姆斯·西尔考克 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1