用于视频编解码的方法和装置与流程

文档序号:32172751发布日期:2022-11-12 08:19阅读:214来源:国知局
用于视频编解码的方法和装置与流程
用于视频编解码的方法和装置
引用并入
1.本技术要求于2021年6月28日提交的第17/360,840号美国专利申请,“用于视频编解码的方法和装置(method and apparatus for video coding)”的优先权,该美国专利申请要求于2020年11月12日提交的第63/113,120号美国临时申请,“改进的交叉分量样本偏移(improved cross-component sample offset)”的优先权。这些在先申请的全部公开内容在此通过引用整体并入本文。
技术领域
2.本公开描述了总体上涉及视频编解码的实施例。


背景技术:

3.本文所提供的背景描述旨在整体呈现本技术的背景。在背景技术部分以及本说明书的各个方面中所描述的目前已署名的发明人的工作所进行的程度,并不表明其在本技术提交时作为现有技术,且从未明示或暗示其被承认为本技术的现有技术。
4.可以使用具有运动补偿的帧间图片预测来进行视频编码和解码。未压缩的数字视频可包括一系列图片,每个图片具有例如1920
×
1080亮度样本及相关色度样本的空间维度。所述系列图片具有固定的或可变的图片速率(也非正式地称为帧率),例如每秒60个图片或60hz。未压缩的视频具有非常大的比特率要求。例如,每个样本8比特的1080p60 4:2:0的视频(1920x1080亮度样本分辨率,60hz帧率)要求接近1.5gbit/s带宽。一小时这样的视频就需要超过600gb的存储空间。
5.视频编码和解码的一个目的,是通过压缩减少输入视频信号的冗余信息。视频压缩可以帮助降低对上述带宽或存储空间的要求,在某些情况下可降低两个或更多数量级。无损和有损压缩,以及两者的组合均可采用。无损压缩是指从压缩的原始信号中重建原始信号精确副本的技术。当使用有损压缩时,重建信号可能与原始信号不完全相同,但是原始信号和重建信号之间的失真足够小,使得重建信号可用于预期应用。有损压缩广泛应用于视频。容许的失真量取决于应用。例如,相比于电视应用的用户,某些消费流媒体应用的用户可以容忍更高的失真。可实现的压缩比反映出:较高的允许/容许失真可产生较高的压缩比。
6.视频编码器和解码器可利用几大类技术,例如包括:运动补偿、变换、量化和熵编码。
7.视频编解码器技术可包括已知的帧内编码技术。在帧内编码中,在不参考先前重建的参考图片的样本或其它数据的情况下表示样本值。在一些视频编解码器中,图片在空间上被细分为样本块。当所有的样本块都以帧内模式编码时,该图片可以为帧内图片。帧内图片及其衍生(例如独立解码器刷新图片)可用于复位解码器状态,并且因此可用作编码视频比特流和视频会话中的第一图片,或用作静止图像。帧内块的样本可用于变换,且可在熵编码之前量化变换系数。帧内预测可以是使预变换域中的样本值最小化的技术。在某些情
形下,变换后的dc值越小,且ac系数越小,则在给定的量化步长尺寸下需要越少的比特来表示熵编码之后的块。
8.如同从诸如mpeg-2代编码技术中所获知的,传统帧内编码不使用帧内预测。然而,一些较新的视频压缩技术包括:试图从例如周围样本数据和/或元数据中得到数据块的技术,其中周围样本数据和/或元数据是在空间相邻的编码和/或解码期间、且在解码顺序之前获得的。这种技术后来被称为"帧内预测"技术。需要注意的是,至少在某些情形下,帧内预测仅使用正在重建的当前图片的参考数据,而不使用参考图片的参考数据。
9.可以存在许多不同形式的帧内预测。当在给定的视频编码技术中可以使用超过一种这样的技术时,所使用的技术可以按帧内预测模式进行编码。在某些情形下,模式可具有子模式和/或参数,且这些模式可单独编码或包含在模式码字中。将哪个码字用于给定模式,子模式和/或参数组合会通过帧内预测影响编码效率增益,因此用于将码字转换成比特流的熵编码技术也会出现这种情况。
10.h.264引入了一种帧内预测模式,其在h.265中进行了改进,在更新的编码技术中,例如,联合探索模型(jem)、通用视频编码(vvc)、基准集合(bms)等等,对其进一步进行了改进。通过使用属于已经可用的样本的相邻样本值可以形成预测块。将相邻样本的样本值按照某一方向复制到预测块中。对所使用方向的引用可以被编码在比特流中,或者本身可以被预测。
11.参照图1a,右下方描绘了来自h.265的33个可能的预测方向(对应于35个内部模式中的33个角度模式)中已知的九个预测方向的子集。箭头会聚的点(101)表示正在被预测的样本。箭头表示样本正在被预测的方向。例如,箭头(102)表示根据右上方与水平方向成45度角的一个或多个样本,预测样本(101)。类似地,箭头(103)表示根据左下方与水平方向成22.5度角的一个或多个样本,预测样本(101)。
12.仍然参考图1a,在左上方示出了一个包括4
×
4个样本的正方形块(104)(由粗虚线表示)。正方形块(104)由16个样本组成,每个样本用“s”、以及其在y维度(例如,行索引)上的位置和在x维度(例如,列索引)上的位置来标记。例如,样本s21是y维度上的第二个样本(从顶部开始)和x维度上的第一个(从左侧开始)样本。类似地,样本s44在y维度和x维度上都是块(104)中的第四个样本。由于该块为4
×
4尺寸的样本,因此s44位于右下角。还示出了遵循类似编号方案的参考样本。参考样本用"r"、以及其相对于块(104)的y位置(例如,行索引)和x位置(例如,列索引)来标记。在h.264与h.265中,预测样本与正在重建的块相邻,因此不需要使用负值。
13.通过从信号通知的预测方向所占用的相邻样本来复制参考样本值,可以进行帧内图片预测。例如,假设编码视频比特流包括信令,对于该块,该信令指示与箭头(102)一致的预测方向,即,根据右上方与水平方向成45度角的一个或多个预测样本来预测样本。在这种情况下,根据同一参考样本r05,预测样本s41、s32、s23和s14。然后,根据参考样本r08,预测样本s44。
14.在某些情况下,例如通过插值,可以合并多个参考样本的值,以便计算参考样本,尤其是当方向不能被45度整除时。
15.随着视频编码技术的发展,可能的方向的数量已经增加了。在h.264(2003年)中,可以表示九种不同的方向。在h.265(2013年)和jem/vvc/bms中增加到了33个,而在此申请
时,可以支持多达65个方向。已经进行了实验来识别最可能的方向,并且熵编码中的某些技术被用于使用少量比特来表示那些可能的方向,对于较不可能的方向则接受某些代价。此外,有时可以根据在相邻的、已经解码的块中所使用的相邻方向来预测方向本身。
16.图1b是一种示意图(105),其描述了根据jem的65种帧内预测方向,以说明随着时间的推移预测方向的数量增加。
17.表示方向的编码视频比特流中的帧内预测方向比特的映射可以因视频编码技术的不同而不同,并且,例如可以从对帧内预测模式到码字的预测方向的简单直接映射,到包括最可能的模式和类似技术的复杂的自适应方案。然而,在所有情况下,视频内容中可能存在某些方向,其在统计学上比其它方向更不可能出现。由于视频压缩的目的是减少冗余,所以在运行良好的视频编码技术中,与更可能的方向相比,那些不太可能的方向将使用更多数量的比特来表示。
18.运动补偿可以是有损压缩技术,并且可以涉及以下技术:来自先前重建图片或其部分(参考图片)的样本数据块,在由运动矢量(下文为mv)指示的方向上空间移位之后,用于新重建图片的预测或图片部分的预测。在一些情况下,参考图片可以与当前正在重建的图片相同。mv可以具有两个维度x和y,或三个维度,第三个维度指示使用中的参考图片(间接地,后者可以是时间维度)。
19.在一些视频压缩技术中,能够应用于样本数据的某一区域的mv可以从其它mv预测,例如从与空间上邻近正在重建的区域的样本数据的另一区域相关的,并且按照解码顺序在该mv之前的那些mv。这样做可以显著减少对mv进行编码所需的数据量,从而消除冗余并增加压缩。mv预测可以有效地工作,例如,因为当对从摄像机导出的输入视频信号(称为自然视频)进行编码时,比单个mv适用的区域大的区域在统计上有可能在类似方向上移动。因此,在一些情况下这些区域(比单个mv适用的区域大的区域)可以使用从相邻区域的mv导出的类似mv来预测。这导致针对给定区域找到的mv与从周围mv预测的mv类似或相同,并且与直接对mv进行编码相比,在熵编码后,反过来mv可以用更少的比特数来表示用比直接编码mv时使用的更少的比特数来表示。在一些情况下,mv预测可以是从原始信号(即:样本流)导出的信号(即:mv)的无损压缩的示例。在其它情况下,mv预测本身可能是有损的,例如由于当从若干周围mv计算预测值时存在舍入误差。
20.h.265/hevc(itu-t h.265建议书,“高效视频编解码(high efficiency video coding)”,2016年12月)中描述了各种mv预测机制。在h.265提供的多种mv预测机制中,本技术描述的是下文称作“空间合并”的技术。
21.请参考图1c,当前块(111)包括在运动搜索过程期间已由编码器发现的样本,根据已产生空间偏移的相同尺寸的先前块,可预测所述样本。另外,可从一个或多个参考图片相关联的元数据中导出所述mv,而非对mv直接编码。例如,使用关联于a0、a1和b0、b1、b2(分别对应112到116)五个周围样本中的任一样本的mv,(按解码次序)从最近的参考图片的元数据中导出所述mv。在h.265中,mv预测可使用相邻块也正在使用的相同参考图片的预测值。


技术实现要素:

22.本公开的各方面提供了用于视频编码/解码的装置。一种装置包括处理电路。处理电路对当前图片中的当前块的预测信息进行解码。所述当前图片为已编码视频序列的一部
分。所述预测信息指示已处理重建样本的多个组合,以及滤波过程的对应输出值。处理电路对所述当前块的第一颜色分量的已处理重建样本执行所述滤波过程。所述第一颜色的所述已处理重建样本不被包括在所述预测信息中指示的所述已处理重建样本的所述多个组合中。处理电路基于默认值、预测输出值和所述预测信息中指示的输出值之一中的一个来确定所述滤波器过程的输出值。处理电路基于所述输出值被应用于所述当前块的第二颜色分量的重建样本,重建所述当前块。所述第二颜色分量与所述第一颜色分量不同。
23.在一个实施例中,处理电路将第一值和第二值中的一个确定为所述滤波过程的所述输出值。所述第一值是所述预测信息中指示的输出值之一,并且所述第二值是所述第一值的相反数。
24.在一个实施例中,所述第一颜色分量的所述已处理重建样本中的每一个已处理重建样本是所述预测信息中指示的已处理重建样本的所述多个组合中的一个组合中的对应的已处理重建样本的相反数,并且所述预测信息中指示的所述输出值之一对应于所述预测信息中指示的已处理重建样本的所述多个组合中的所述一个组合。
25.在一个实施例中,所述滤波过程的映射表中的所述第一颜色分量的所述已处理重建样本的索引与所述滤波器过程的所述映射表中的所述预测信息中指示的所述输出值中的所述一个输出值的索引的总和等于所述映射表的最大索引。
26.在一个实施例中,处理电路基于所述预测信息将所述默认值确定为所述滤波器过程的所述输出值,所述预测信息指示所述预测信息中指示的已处理重建样本的所述多个组合是所述滤波过程中的已处理重建样本的组合的总数的子集。
27.在一个实施例中,所述预测输出值是由基于所述滤波处理的输出值被应用于另一编码块的滤波处理的输出值来确定的。
28.在一个实施例中,所述第一颜色分量的所述已处理重建样本是基于从第一编码模块输出的所述第一颜色分量的重建样本来确定的,并且所述第二颜色分量的所述重建样本是从所述第一编码模块输出的或从所述第一编码模块之后应用的第二编码模块输出的。
29.本公开的各方面提供了用于视频编码/解码的方法。在该方法中,对当前图片中的当前块的预测信息进行解码。所述当前图片为已编码视频序列的一部分。所述预测信息指示已处理重建样本的多个组合,以及滤波过程的对应输出值。对所述当前块的第一颜色分量的已处理重建样本执行所述滤波过程。所述第一颜色的所述已处理重建样本不被包括在所述预测信息中指示的所述已处理重建样本的所述多个组合中。基于默认值、预测输出值和所述预测信息中指示的输出值之一中的一个来确定所述滤波器过程的输出值。基于所述输出值被应用于所述当前块的第二颜色分量的重建样本,重建所述当前块。所述第二颜色分量与所述第一颜色分量不同。
30.本公开的各方面还提供存储指令的非易失性计算机可读介质,这些指令在由至少一个处理器执行时致使至少一个处理器执行视频解码的方法中的任一个或其组合。
附图说明
31.根据以下具体实施方式和附图,所公开的主题的另外的特征、性质和各种优点将更加明显,在附图中:
32.图1a是帧内预测模式的示例性子集的示意图;
33.图1b是示例性帧内预测方向的图示;
34.图1c是一个示例中的当前块及其周围的空间合并候选的示意图;
35.图2是根据实施例的通信系统的简化框图的示意图;
36.图3是根据实施例的通信系统的简化框图的示意图;
37.图4是根据实施例的解码器的简化框图的示意图;
38.图5是根据实施例的编码器的简化框图的示意图;
39.图6示出了根据另一实施例的编码器的框图;
40.图7示出了根据另一实施例的解码器的框图;
41.图8a至图8b示出了根据一些实施例的自适应环路滤波器(alf)的示例性菱形滤波器形状;
42.图9a至图9d示出了根据一些实施例的分别用于垂直方向、水平方向和两个对角线方向的梯度计算的示例性子采样位置;
43.图10示出了根据实施例的应用于亮度分量的示例性修改的块分类;
44.图11示出了根据一些实施例的虚拟边界处的亮度分量的示例性修改的alf;
45.图12示出了根据实施例的示例性最大编码单元(lcu)对齐的图片四叉树分割;
46.图13示出了根据实施例的以z顺序编码的示例性四叉树分割标志;
47.图14a图示了根据实施例的交叉分量自适应环路滤波器(cc-alf)的示例性布置;
48.图14b示出了根据实施例的在cc-alf操作期间应用于每个色度分量的亮度信道的示例性线性菱形滤波器;
49.图15示出了根据一些实施例的色度样本相对于亮度样本的示例性位置;
50.图16示出了根据实施例的8
×
8块的示例性方向搜索;
51.图17示出了根据实施例的示例性子空间投影;
52.图18示出了根据实施例的交叉分量样本偏移(ccso)滤波器的示例性滤波器支持区域;
53.图19a至图19b示出了根据实施例的表格,该表格列出了ccso滤波器中非线性映射的81个示例性组合;
54.图19c示出了根据实施例的表格,该表格列出了非线性映射的40个示例性组合,该组合未用信号通知并且可以基于图19a中所示的表格来导出;
55.图19d示出了根据实施例的另一表格,该表格列出了非线性映射的40个示例性组合,,该组合未用信号通知并且可以基于图19a中所示的表格来导出;
56.图19e示出了根据实施例的表格,该表格列出了ccso滤波器中非线性映射的17个用信号通知的组合;
57.图19f示出了根据实施例的表格,该表格列出了ccso滤波器中非线性映射的16个用信号通知的组合;
58.图19g示出了根据实施例的表格,该表格列出了ccso滤波器中非线性映射的33个用信号通知的组合;
59.图19h示出了根据实施例的表格,该表格列出了ccso滤波器中非线性映射的32个用信号通知的组合;
60.图20示出了根据实施例的示例性流程图;以及
61.图21是根据实施例的计算机系统的示意图。
具体实施方式
62.i.视频解码器和编码器系统
63.图2是根据本技术公开的实施例的通信系统(200)的简化框图。通信系统(200)包括多个终端装置,所述终端装置可通过例如网络(250)彼此通信。举例来说,通信系统(200)包括通过网络(250)互连的第一对终端装置(210)和(220)。在图2的实施例中,第一对终端装置(210)和(220)执行单向数据传输。举例来说,终端装置(210)可对视频数据(例如由终端装置(210)采集的视频图片流)进行编码以通过网络(250)传输到另一个终端装置(220)。已编码的视频数据以一个或多个已编码视频码流形式传输。终端装置(220)可从网络(250)接收已编码视频数据,对已编码视频数据进行解码以恢复视频数据,并根据恢复的视频数据显示视频图片。单向数据传输在媒体服务等应用中是较常见的。
64.在另一实施例中,通信系统(200)包括执行已编码视频数据的双向传输的第二对终端装置(230)和(240),所述双向传输可例如在视频会议期间发生。对于双向数据传输,终端装置(230)和终端装置(240)中的每个终端装置可对视频数据(例如由终端装置采集的视频图片流)进行编码,以通过网络(250)传输到终端装置(230)和终端装置(240)中的另一终端装置。终端装置(230)和终端装置(240)中的每个终端装置还可接收由终端装置(230)和终端装置(240)中的另一终端装置传输的已编码视频数据,且可对所述已编码视频数据进行解码以恢复视频数据,且可根据恢复的视频数据在可访问的显示装置上显示视频图片。
65.在图2的实施例中,终端装置(210)、终端装置(220)、终端装置(230)和终端装置(240)可为服务器、个人计算机和智能电话,但本技术公开的原理可不限于此。本技术公开的实施例适用于膝上型计算机、平板电脑、媒体播放器和/或专用视频会议设备。网络(250)表示在终端装置(210)、终端装置(220)、终端装置(230)和终端装置(240)之间传送已编码视频数据的任何数目的网络,包括例如有线(连线的)和/或无线通信网络。通信网络(250)可在电路交换和/或分组交换信道中交换数据。该网络可包括电信网络、局域网、广域网和/或互联网。出于本技术的目的,除非在下文中有所解释,否则网络(250)的架构和拓扑对于本技术公开的操作来说可能是无关紧要的。
66.作为实施例,图3示出视频编码器和视频解码器在流式传输环境中的放置方式。本技术所公开主题可同等地适用于其它支持视频的应用,包括例如视频会议、数字tv、在包括cd、dvd、存储棒等的数字介质上存储压缩视频等等。
67.流式传输系统可包括采集子系统(313),所述采集子系统可包括数码相机等视频源(301),所述视频源创建未压缩的视频图片流(302)。在实施例中,视频图片流(302)包括由数码相机拍摄的样本。相较于已编码的视频数据(304)(或已编码的视频码流),视频图片流(302)被描绘为粗线以强调高数据量的视频图片流,视频图片流(302)可由电子装置(320)处理,所述电子装置(320)包括耦接到视频源(301)的视频编码器(303)。视频编码器(303)可包括硬件、软件或软硬件组合以实现或实施如下文更详细地描述的所公开主题的各方面。相较于视频图片流(302),已编码的视频数据(304)(或已编码的视频码流(304))被描绘为细线以强调较低数据量的已编码的视频数据(304)(或已编码的视频码流(304)),其可存储在流式传输服务器(305)上以供将来使用。一个或多个流式传输客户端子系统,例如
图3中的客户端子系统(306)和客户端子系统(308),可访问流式传输服务器(305)以检索已编码的视频数据(304)的副本(307)和副本(309)。客户端子系统(306)可包括例如电子装置(330)中的视频解码器(310)。视频解码器(310)对已编码的视频数据的传入副本(307)进行解码,且产生可在显示器(312)(例如显示屏)或另一呈现装置(未描绘)上呈现的输出视频图片流(311)。在一些流式传输系统中,可根据某些视频编码/压缩标准对已编码的视频数据(304)、视频数据(307)和视频数据(309)(例如视频码流)进行编码。该些标准的实施例包括itu-t h.265。在实施例中,正在开发的视频编码标准非正式地称为下一代视频编码(versatile video coding,vvc),本技术可用于vvc标准的上下文中。
68.应注意,电子装置(320)和电子装置(330)可包括其它组件(未示出)。举例来说,电子装置(320)可包括视频解码器(未示出),且电子装置(330)还可包括视频编码器(未示出)。
69.图4是根据本技术公开的实施例的视频解码器(410)的框图。视频解码器(410)可设置在电子装置(430)中。电子装置(430)可包括接收器(431)(例如接收电路)。视频解码器(410)可用于代替图3实施例中的视频解码器(510)。
70.接收器(431)可接收将由视频解码器(410)解码的一个或多个已编码视频序列;在同一实施例或另一实施例中,一次接收一个已编码视频序列,其中每个已编码视频序列的解码独立于其它已编码视频序列。可从信道(401)接收已编码视频序列,所述信道可以是通向存储已编码的视频数据的存储装置的硬件/软件链路。接收器(431)可接收已编码的视频数据以及其它数据,例如,可转发到它们各自的使用实体(未标示)的已编码音频数据和/或辅助数据流。接收器(431)可将已编码视频序列与其它数据分开。为了防止网络抖动,缓冲存储器(415)可耦接在接收器(431)与熵解码器/解析器(420)(此后称为“解析器(420)”)之间。在某些应用中,缓冲存储器(415)是视频解码器(410)的一部分。在其它情况下,所述缓冲存储器(415)可设置在视频解码器(410)外部(未标示)。而在其它情况下,视频解码器(410)的外部设置缓冲存储器(未标示)以例如防止网络抖动,且在视频解码器(410)的内部可配置另一缓冲存储器(415)以例如处理播出定时。而当接收器(431)从具有足够带宽和可控性的存储/转发装置或从等时同步网络接收数据时,也可能不需要配置缓冲存储器(415),或可以将所述缓冲存储器做得较小。当然,为了在互联网等业务分组网络上使用,也可能需要缓冲存储器(415),所述缓冲存储器可相对较大且可具有自适应性大小,且可至少部分地实施于操作系统或视频解码器(410)外部的类似元件(未标示)中。
71.视频解码器(410)可包括解析器(420)以根据已编码视频序列重建符号(421)。这些符号的类别包括用于管理视频解码器(410)的操作的信息,以及用以控制显示装置(412)(例如,显示屏)等显示装置的潜在信息,所述显示装置不是电子装置(430)的组成部分,但可耦接到电子装置(430),如图4中所示。用于显示装置的控制信息可以是辅助增强信息(supplemental enhancement information,sei消息)或视频可用性信息(video usability information,vui)的参数集片段(未标示)。解析器(420)可对接收到的已编码视频序列进行解析/熵解码。已编码视频序列的编码可根据视频编码技术或标准进行,且可遵循各种原理,包括可变长度编码、霍夫曼编码(huffman coding)、具有或不具有上下文灵敏度的算术编码等等。解析器(420)可基于对应于群组的至少一个参数,从已编码视频序列提取用于视频解码器中的像素的子群中的至少一个子群的子群参数集。子群可包括图片群
组(group of pictures,gop)、图片、图块、切片、宏块、编码单元(coding unit,cu)、块、变换单元(transform unit,tu)、预测单元(prediction unit,pu)等等。解析器(420)还可从已编码视频序列提取信息,例如变换系数、量化器参数值、mv等等。
72.解析器(420)可对从缓冲存储器(415)接收的视频序列执行熵解码/解析操作,从而创建符号(421)。
73.取决于已编码视频图片或一部分已编码视频图片(例如:帧间图片和帧内图片、帧间块和帧内块)的类型以及其它因素,符号(421)的重建可涉及多个不同单元。涉及哪些单元以及涉及方式可由解析器(420)从已编码视频序列解析的子群控制信息控制。为了简洁起见,未描述解析器(420)与下文的多个单元之间的此类子群控制信息流。
74.除已经提及的功能块以外,视频解码器(410)可在概念上细分成如下文所描述的数个功能单元。在商业约束下运行的实际实施例中,这些单元中的许多单元彼此紧密交互并且可以彼此集成。然而,出于描述所公开主题的目的,概念上细分成下文的功能单元是适当的。
75.第一单元是缩放器/逆变换单元(451)。缩放器/逆变换单元(451)从解析器(420)接收作为符号(421)的量化变换系数以及控制信息,包括使用哪种变换方式、块大小、量化因子、量化缩放矩阵等。缩放器/逆变换单元(451)可输出包括样本值的块,所述样本值可输入到聚合器(455)中。
76.在一些情况下,缩放器/逆变换单元(451)的输出样本可属于帧内编码块;即:不使用来自先前重建的图片的预测性信息,但可使用来自当前图片的先前重建部分的预测性信息的块。此类预测性信息可由帧内图片预测单元(452)提供。在一些情况下,帧内图片预测单元(452)采用从当前图片缓冲器(458)提取的已重建信息生成大小和形状与正在重建的块相同的周围块。举例来说,当前图片缓冲器(458)缓冲部分重建的当前图片和/或完全重建的当前图片。在一些情况下,聚合器(455)基于每个样本,将帧内预测单元(452)生成的预测信息添加到由缩放器/逆变换单元(451)提供的输出样本信息中。
77.在其它情况下,缩放器/逆变换单元(451)的输出样本可属于帧间编码和潜在运动补偿块。在此情况下,运动补偿预测单元(453)可访问参考图片存储器(457)以提取用于预测的样本。在根据符号(421)对提取的样本进行运动补偿之后,这些样本可由聚合器(455)添加到缩放器/逆变换单元(451)的输出(在这种情况下被称作残差样本或残差信号),从而生成输出样本信息。运动补偿预测单元(453)从参考图片存储器(457)内的地址获取预测样本可受到运动矢量控制,且所述运动矢量以所述符号(421)的形式而供运动补偿预测单元(453)使用,所述符号(421)例如是包括x、y和参考图片分量。运动补偿还可包括在使用子样本精确运动矢量时,从参考图片存储器(457)提取的样本值的插值、运动矢量预测机制等等。
78.聚合器(455)的输出样本可在环路滤波器单元(454)中被各种环路滤波技术采用。视频压缩技术可包括环路内滤波器技术,所述环路内滤波器技术受控于包括在已编码视频序列(也称作已编码视频码流)中的参数,且所述参数作为来自解析器(420)的符号(421)可用于环路滤波器单元(456)。然而,在其他实施例中,视频压缩技术还可响应于在解码已编码图片或已编码视频序列的先前(按解码次序)部分期间获得的元信息,以及响应于先前重建且经过环路滤波的样本值。
79.环路滤波器单元(456)的输出可以是样本流,所述样本流可输出到显示装置(412)以及存储在参考图片存储器(457),以用于后续的帧间图片预测。
80.一旦完全重建,某些已编码图片就可用作参考图片以用于将来预测。举例来说,一旦对应于当前图片的已编码图片被完全重建,且已编码图片(通过例如解析器(420))被识别为参考图片,则当前图片缓冲器(458)可变为参考图片存储器(457)的一部分,且可在开始重建后续已编码图片之前重新分配新的当前图片缓冲器。
81.视频解码器(410)可根据例如itu-t h.265标准中的预定视频压缩技术执行解码操作。在已编码视频序列遵循视频压缩技术或标准的语法以及视频压缩技术或标准中记录的配置文件的意义上,已编码视频序列可符合所使用的视频压缩技术或标准指定的语法。具体地说,配置文件可从视频压缩技术或标准中可用的所有工具中选择某些工具作为在所述配置文件下可供使用的仅有工具。对于合规性,还要求已编码视频序列的复杂度处于视频压缩技术或标准的层级所限定的范围内。在一些情况下,层级限制最大图片大小、最大帧率、最大重建取样率(以例如每秒兆(mega)个样本为单位进行测量)、最大参考图片大小等。在一些情况下,由层级设定的限制可通过假想参考解码器(hypothetical reference decoder,hrd)规范和在已编码视频序列中用信号表示的hrd缓冲器管理的元数据来进一步限定。
82.在实施例中,接收器(431)可连同已编码视频一起接收附加(冗余)数据。所述附加数据可以是已编码视频序列的一部分。所述附加数据可由视频解码器(410)用以对数据进行适当解码和/或较准确地重建原始视频数据。附加数据可呈例如时间、空间或信噪比(signal noise ratio,snr)增强层、冗余切片、冗余图片、前向纠错码等形式。
83.图5是根据本技术公开的实施例的视频编码器(503)的框图。视频编码器(503)设置于电子装置(520)中。电子装置(520)包括传输器(540)(例如传输电路)。视频编码器(503)可用于代替图3实施例中的视频编码器(303)。
84.视频编码器(503)可从视频源(501)(并非图5实施例中的电子装置(520)的一部分)接收视频样本,所述视频源可采集将由视频编码器(503)编码的视频图像。在另一实施例中,视频源(501)是电子装置(520)的一部分。
85.视频源(501)可提供将由视频编码器(503)编码的呈数字视频样本流形式的源视频序列,所述数字视频样本流可具有任何合适位深度(例如:8位、10位、12位
……
)、任何色彩空间(例如bt.601y crcb、rgb
……
)和任何合适取样结构(例如y crcb 4:2:0、y crcb 4:4:4)。在媒体服务系统中,视频源(501)可以是存储先前已准备的视频的存储装置。在视频会议系统中,视频源(501)可以是采集本地图像信息作为视频序列的相机。可将视频数据提供为多个单独的图片,当按顺序观看时,这些图片被赋予运动。图片自身可构建为空间像素阵列,其中取决于所用的取样结构、色彩空间等,每个像素可包括一个或多个样本。所属领域的技术人员可以很容易理解像素与样本之间的关系。下文侧重于描述样本。
86.根据实施例,视频编码器(503)可实时或在由应用所要求的任何其它时间约束下,将源视频序列的图片编码且压缩成已编码视频序列(543)。施行适当的编码速度是控制器(550)的一个功能。在一些实施例中,控制器(550)控制如下文所描述的其它功能单元且在功能上耦接到这些单元。为了简洁起见,图中未标示耦接。由控制器(550)设置的参数可包括速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值等)、图片大小、图片群组
(group of pictures,gop)布局,允许的最大运动矢量参考区域等。控制器(550)可用于具有其它合适的功能,这些功能涉及针对某一系统设计优化的视频编码器(503)。
87.在一些实施例中,视频编码器(503)在编码环路中进行操作。作为简单的描述,在实施例中,编码环路可包括源编码器(530)(例如,负责基于待编码的输入图片和参考图片创建符号,例如符号流)和嵌入于视频编码器(503)中的(本地)解码器(533)。解码器(533)以类似于(远程)解码器创建样本数据的方式重建符号以创建样本数据(因为在本技术所考虑的视频压缩技术中,符号与已编码视频码流之间的任何压缩是无损的)。将重建的样本流(样本数据)输入到参考图片存储器(534)。由于符号流的解码产生与解码器位置(本地或远程)无关的位精确结果,因此参考图片存储器(534)中的内容在本地编码器与远程编码器之间也是按比特位精确对应的。换句话说,编码器的预测部分“看到”的参考图片样本与解码器将在解码期间使用预测时所“看到”的样本值完全相同。这种参考图片同步性基本原理(以及在例如因信道误差而无法维持同步性的情况下产生的漂移)也用于一些相关技术。
[0088]“本地”解码器(533)的操作可与例如已在上文结合图4详细描述视频解码器(410)的“远程”解码器相同。然而,另外简要参考图4,当符号可用且熵编码器(545)和解析器(420)能够无损地将符号编码/解码为已编码视频序列时,包括缓冲存储器(415)和解析器(420)在内的视频解码器(410)的熵解码部分,可能无法完全在本地解码器(533)中实施。
[0089]
此时可以观察到,除存在于解码器中的解析/熵解码之外的任何解码器技术,也必定以基本上相同的功能形式存在于对应的编码器中。出于此原因,本技术侧重于解码器操作。可简化编码器技术的描述,因为编码器技术与全面地描述的解码器技术互逆。仅在某些区域中需要更详细的描述,并且在下文提供。
[0090]
在操作期间,在一些实施例中,源编码器(530)可执行运动补偿预测编码。参考来自视频序列中被指定为“参考图片”的一个或多个先前已编码图片,所述运动补偿预测编码对输入图片进行预测性编码。以此方式,编码引擎(532)对输入图片的像素块与参考图片的像素块之间的差异进行编码,所述参考图片可被选作所述输入图片的预测参考。
[0091]
本地视频解码器(533)可基于源编码器(530)创建的符号,对可指定为参考图片的图片的已编码视频数据进行解码。编码引擎(532)的操作可为有损过程。当已编码视频数据可在视频解码器(图5中未示)处被解码时,重建的视频序列通常可以是带有一些误差的源视频序列的副本。本地视频解码器(533)复制解码过程,所述解码过程可由视频解码器对参考图片执行,且可使重建的参考图片存储在参考图片高速缓存(534)中。以此方式,视频编码器(503)可在本地存储重建的参考图片的副本,所述副本与将由远端视频解码器获得的重建参考图片具有共同内容(不存在传输误差)。
[0092]
预测器(535)可针对编码引擎(532)执行预测搜索。即,对于将要编码的新图片,预测器(535)可在参考图片存储器(534)中搜索可作为所述新图片的适当预测参考的样本数据(作为候选参考像素块)或某些元数据,例如参考图片运动矢量、块形状等。预测器(535)可基于样本块逐像素块操作,以找到合适的预测参考。在一些情况下,根据预测器(535)获得的搜索结果,可确定输入图片可具有从参考图片存储器(534)中存储的多个参考图片取得的预测参考。
[0093]
控制器(550)可管理源编码器(530)的编码操作,包括例如设置用于对视频数据进行编码的参数和子群参数。
[0094]
可在熵编码器(545)中对所有上述功能单元的输出进行熵编码。熵编码器(545)根据例如霍夫曼编码、可变长度编码、算术编码等技术对各种功能单元生成的符号进行无损压缩,从而将所述符号转换成已编码视频序列。
[0095]
传输器(540)可缓冲由熵编码器(545)创建的已编码视频序列,从而为通过通信信道(560)进行传输做准备,所述通信信道可以是通向将存储已编码的视频数据的存储装置的硬件/软件链路。传输器(540)可将来自视频编码器(503)的已编码视频数据与要传输的其它数据合并,所述其它数据例如是已编码音频数据和/或辅助数据流(未示出来源)。
[0096]
控制器(550)可管理视频编码器(503)的操作。在编码期间,控制器(550)可以为每个已编码图片分配某一已编码图片类型,但这可能影响可应用于相应的图片的编码技术。例如,通常可将图片分配为以下任一种图片类型:
[0097]
帧内图片(i图片),其可以是不将序列中的任何其它图片用作预测源就可被编码和解码的图片。一些视频编解码器容许不同类型的帧内图片,包括例如独立解码器刷新(independent decoder refresh,“idr”)图片。所属领域的技术人员了解i图片的变体及其相应的应用和特征。
[0098]
预测性图片(p图片),其可以是可使用帧内预测或帧间预测进行编码和解码的图片,所述帧内预测或帧间预测使用至多一个运动矢量和参考索引来预测每个块的样本值。
[0099]
双向预测性图片(b图片),其可以是可使用帧内预测或帧间预测进行编码和解码的图片,所述帧内预测或帧间预测使用至多两个运动矢量和参考索引来预测每个块的样本值。类似地,多个预测性图片可使用多于两个参考图片和相关联元数据以用于重建单个块。
[0100]
源图片通常可在空间上细分成多个样本块(例如,4
×
4、8
×
8、4
×
8或16
×
16个样本的块),且逐块进行编码。这些块可参考其它(已编码)块进行预测编码,根据应用于块的相应图片的编码分配来确定所述其它块。举例来说,i图片的块可进行非预测编码,或所述块可参考同一图片的已经编码的块来进行预测编码(空间预测或帧内预测)。p图片的像素块可参考一个先前编码的参考图片通过空间预测或通过时域预测进行预测编码。b图片的块可参考一个或两个先前编码的参考图片通过空间预测或通过时域预测进行预测编码。
[0101]
视频编码器(503)可根据例如itu-t h.265建议书的预定视频编码技术或标准执行编码操作。在操作中,视频编码器(503)可执行各种压缩操作,包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此,已编码视频数据可符合所用视频编码技术或标准指定的语法。
[0102]
在实施例中,传输器(540)可在传输已编码的视频时传输附加数据。源编码器(530)可将此类数据作为已编码视频序列的一部分。附加数据可包括时间/空间/snr增强层、冗余图片和切片等其它形式的冗余数据、sei消息、vui参数集片段等。
[0103]
采集到的视频可作为呈时间序列的多个源图片(视频图片)。帧内图片预测(常常简化为帧内预测)利用给定图片中的空间相关性,而帧间图片预测则利用图片之间的(时间或其它)相关性。在实施例中,将正在编码/解码的特定图片分割成块,正在编码/解码的特定图片被称作当前图片。在当前图片中的块类似于视频中先前已编码且仍被缓冲的参考图片中的参考块时,可通过称作运动矢量的矢量对当前图片中的块进行编码。所述运动矢量指向参考图片中的参考块,且在使用多个参考图片的情况下,所述运动矢量可具有识别参考图片的第三维度。
[0104]
在一些实施例中,双向预测技术可用于帧间图片预测中。根据双向预测技术,使用两个参考图片,例如按解码次序都在视频中的当前图片之前(但按显示次序可能分别是过去和将来)第一参考图片和第二参考图片。可通过指向第一参考图片中的第一参考块的第一运动矢量和指向第二参考图片中的第二参考块的第二运动矢量对当前图片中的块进行编码。具体来说,可通过第一参考块和第二参考块的组合来预测所述块。
[0105]
此外,合并模式技术可用于帧间图片预测中以改善编码效率。
[0106]
根据本技术公开的一些实施例,帧间图片预测和帧内图片预测等预测的执行以块为单位。举例来说,根据hevc标准,将视频图片序列中的图片分割成编码树单元(coding tree unit,ctu)以用于压缩,图片中的ctu具有相同大小,例如64
×
64像素、32
×
32像素或16
×
16像素。一般来说,ctu包括三个编码树块(coding tree block,ctb),所述三个编码树块是一个亮度ctb和两个色度ctb。更进一步的,还可将每个ctu以四叉树拆分为一个或多个编码单元(coding unit,cu)。举例来说,可将64
×
64像素的ctu拆分为一个64
×
64像素的cu,或4个32
×
32像素的cu,或16个16
×
16像素的cu。在实施例中,分析每个cu以确定用于cu的预测类型,例如帧间预测类型或帧内预测类型。此外,取决于时间和/或空间可预测性,将cu拆分为一个或多个预测单元(prediction unit,pu)。通常,每个pu包括亮度预测块(prediction block,pb)和两个色度pb。在实施例中,编码(编码/解码)中的预测操作以预测块为单位来执行。以亮度预测块作为预测块为例,预测块包括像素值(例如,亮度值)的矩阵,例如8
×
8像素、16
×
16像素、8
×
16像素、16
×
8像素等等。
[0107]
图6是根据本技术公开的另一实施例的视频编码器(603)的图。视频编码器(603)用于接收视频图片序列中的当前视频图片内的样本值的处理块(例如预测块),且将所述处理块编码到作为已编码视频序列的一部分的已编码图片中。在本实施例中,视频编码器(603)用于代替图3实施例中的视频编码器(303)。
[0108]
在hevc实施例中,视频编码器(603)接收用于处理块的样本值的矩阵,所述处理块为例如8
×
8样本的预测块等。视频编码器(603)使用例如率失真(rate-distortion)优化来确定是否使用帧内模式、帧间模式或双向预测模式来编码所述处理块。当在帧内模式中编码处理块时,视频编码器(603)可使用帧内预测技术以将处理块编码到已编码图片中;且当在帧间模式或双向预测模式中编码处理块时,视频编码器(603)可分别使用帧间预测或双向预测技术将处理块编码到已编码图片中。在某些视频编码技术中,合并模式可以是帧间图片预测子模式,其中,在不借助预测值外部的已编码运动矢量分量的情况下,从一个或多个运动矢量预测值导出运动矢量。在某些其它视频编码技术中,可存在适用于主题块的运动矢量分量。在实施例中,视频编码器(603)包括其它组件,例如用于确定处理块模式的模式决策模块(未示出)。
[0109]
在图6的实施例中,视频编码器(603)包括如图6所示的耦接到一起的帧间编码器(630)、帧内编码器(622)、残差计算器(623)、开关(626)、残差编码器(624)、通用控制器(621)和熵编码器(625)。
[0110]
帧间编码器(630)用于接收当前块(例如处理块)的样本、比较所述块与参考图片中的一个或多个参考块(例如先前图片和后来图片中的块)、生成帧间预测信息(例如根据帧间编码技术的冗余信息描述、运动矢量、合并模式信息)、以及基于帧间预测信息使用任何合适的技术计算帧间预测结果(例如预测块)。在一些实施例中,参考图片是基于已编码
的视频信息解码的已解码参考图片。
[0111]
帧内编码器(622)用于接收当前块(例如处理块)的样本、在一些情况下比较所述块与同一图片中已编码的块、在变换之后生成量化系数、以及在一些情况下还(例如根据一个或多个帧内编码技术的帧内预测方向信息)生成帧内预测信息。在实施例中,帧内编码器(622)还基于帧内预测信息和同一图片中的参考块计算帧内预测结果(例如预测块)。
[0112]
通用控制器(621)用于确定通用控制数据,且基于所述通用控制数据控制视频编码器(603)的其它组件。在实施例中,通用控制器(621)确定块的模式,且基于所述模式将控制信号提供到开关(626)。举例来说,当所述模式是帧内模式时,通用控制器(621)控制开关(626)以选择供残差计算器(623)使用的帧内模式结果,且控制熵编码器(625)以选择帧内预测信息且将所述帧内预测信息添加在码流中;以及当所述模式是帧间模式时,通用控制器(621)控制开关(626)以选择供残差计算器(623)使用的帧间预测结果,且控制熵编码器(625)以选择帧间预测信息且将所述帧间预测信息添加在码流中。
[0113]
残差计算器(623)用于计算所接收的块与选自帧内编码器(622)或帧间编码器(630)的预测结果之间的差(残差数据)。残差编码器(624)用于基于残差数据操作,以对残差数据进行编码以生成变换系数。在实施例中,残差编码器(624)用于将残差数据从时域转换到频域,且生成变换系数。变换系数接着经由量化处理以获得量化的变换系数。在各种实施例中,视频编码器(603)还包括残差解码器(628)。残差解码器(628)用于执行逆变换,且生成已解码残差数据。已解码残差数据可适当地由帧内编码器(622)和帧间编码器(630)使用。举例来说,帧间编码器(630)可基于已解码残差数据和帧间预测信息生成已解码块,且帧内编码器(622)可基于已解码残差数据和帧内预测信息生成已解码块。适当处理已解码块以生成已解码图片,且在一些实施例中,所述已解码图片可在存储器电路(未示出)中缓冲并用作参考图片。
[0114]
熵编码器(625)用于将码流格式化以产生已编码的块。熵编码器(625)根据hevc等合适标准产生各种信息。在实施例中,熵编码器(625)用于获得通用控制数据、所选预测信息(例如帧内预测信息或帧间预测信息)、残差信息和码流中的其它合适的信息。应注意,根据所公开的主题,当在帧间模式或双向预测模式的合并子模式中对块进行编码时,不存在残差信息。
[0115]
图7是根据本技术公开的另一实施例的视频解码器(710)的图。视频解码器(710)用于接收作为已编码视频序列的一部分的已编码图像,且对所述已编码图像进行解码以生成重建的图片。在实施例中,视频解码器(710)用于代替图3实施例中的视频解码器(310)。
[0116]
在图7实施例中,视频解码器(710)包括如图7中所示耦接到一起的熵解码器(771)、帧间解码器(780)、残差解码器(773)、重建模块(774)和帧内解码器(772)。
[0117]
熵解码器(771)可用于根据已编码图片来重建某些符号,这些符号表示构成所述已编码图片的语法元素。此类符号可包括例如用于对所述块进行编码的模式(例如帧内模式、帧间模式、双向预测模式、后两者的合并子模式或另一子模式)、可分别识别供帧内解码器(772)或帧间解码器(780)用以进行预测的某些样本或元数据的预测信息(例如帧内预测信息或帧间预测信息)、呈例如量化的变换系数形式的残差信息等等。在实施例中,当预测模式是帧间或双向预测模式时,将帧间预测信息提供到帧间解码器(780);以及当预测类型是帧内预测类型时,将帧内预测信息提供到帧内解码器(772)。残差信息可经由逆量化并提
供到残差解码器(773)。
[0118]
帧间解码器(780)用于接收帧间预测信息,且基于所述帧间预测信息生成帧间预测结果。
[0119]
帧内解码器(772)用于接收帧内预测信息,且基于所述帧内预测信息生成预测结果。
[0120]
残差解码器(773)用于执行逆量化以提取解量化的变换系数,且处理所述解量化的变换系数,以将残差从频域转换到空间域。残差解码器(773)还可能需要某些控制信息(用以获得量化器参数qp),且所述信息可由熵解码器(771)提供(未标示数据路径,因为这仅仅是低量控制信息)。
[0121]
重建模块(774)用于在空间域中组合由残差解码器(773)输出的残差与预测结果(可由帧间预测模块或帧内预测模块输出)以形成重建的块,所述重建的块可以是重建的图片的一部分,所述重建的图片继而可以是重建的视频的一部分。应注意,可执行解块操作等其它合适的操作来改善视觉质量。
[0122]
应注意,可使用任何合适的技术来实施视频编码器(303)、视频编码器(503)和视频编码器(603),以及视频解码器(310)、视频解码器(410)和视频解码器(710)。在实施例中,可使用一个或多个集成电路来实施视频编码器(303)、视频编码器(503)和视频编码器(603)以及视频解码器(310)、视频解码器(410)和视频解码器(710)。在另一实施例中,可使用执行软件指令的一个或多个处理器来实施视频编码器(303)、视频编码器(503)和视频编码器(603)以及视频解码器(310)、视频解码器(410)和视频解码器(710)。
[0123]
ii.自适应环路滤波器
[0124]
在诸如vvc草案8的一些相关示例中,可以应用具有基于块的滤波器自适应的自适应环路滤波器(alf)。对于亮度分量,可以基于各个4
×
4块的方向性和局部梯度活动性,为每个4
×
4块选择25个滤波器当中的一个滤波器。
[0125]
图8a至图8b示出了根据本公开的一些实施例的alf的示例性菱形滤波器形状。图8a示出了可以应用于色度分量的5
×
5菱形形状,并且图8b示出了可以应用于亮度分量的7
×
7菱形形状。
[0126]
在一些相关示例中,对于亮度分量,每个4
×
4块可以被分类成25个类别中的一个。可以基于4
×
4块的活动性的量化值和方向性d,如下导出4
×
4块的分类索引c:
[0127]
为了计算d和可以首先使用1-d拉普拉斯算子如下计算4
×
4块的水平方向、垂直方向和两个对角线方向的梯度:直方向和两个对角线方向的梯度:直方向和两个对角线方向的梯度:
其中,索引i和j是指4
×
4块内左上样本的坐标,并且r(i,j)指示坐标(i,j)处的重建样本。
[0128]
为了降低块分类的复杂度,可以应用子采样的1-d拉普拉斯算子计算。图9a至图9d分别示出了用于垂直方向、水平方向和两个对角线方向的梯度计算的示例性子采样位置。
[0129]
然后,水平方向和垂直方向的梯度的最大值和最小值可以被设置为:然后,水平方向和垂直方向的梯度的最大值和最小值可以被设置为:
[0130]
两个对角线方向的梯度的最大值和最小值可以被设置为:两个对角线方向的梯度的最大值和最小值可以被设置为:
[0131]
为了导出方向性d的值,可以将这些值彼此进行比较,并且与两个阈值t1和t2进行比较。
[0132]
步骤1:如果和两者为真,则将d设置为0。
[0133]
步骤2:如果从步骤3继续;否则,从步骤4继续。
[0134]
步骤3:如果则将d设置为2;否则,将d设置为1。
[0135]
步骤4:如果则将d设置为4;否则,将d设置为3。
[0136]
活动性值a计算为:
[0137]
a被进一步量化到0到4(包含端值)的范围,并且量化值被表示为
[0138]
对图片中的色度分量不应用分类方法。例如,可以对每个色度分量应用单组alf系数。
[0139]
在对每个4
×
4亮度块进行滤波之前,取决于为各个块计算的梯度值,将诸如旋转、对角线翻转和垂直翻转的几何变换应用于滤波器系数f(k,l)和对应的滤波器限幅值c(k,l)。这相当于将这些变换应用于滤波器支持区中的样本,以便通过对齐alf的方向来使应用alf的不同块更相似。
[0140]
三种几何变换(包括对角线翻转、垂直翻转和旋转)可以描述如下:对角线:fd(k,l)=f(l,k),cd(k,l)=c(l,k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
等式(11)垂直翻转:fv(k,l)=f(k,k-l-1),cv(k,l)=c(k,k-l-1)
ꢀꢀꢀꢀꢀꢀ
等式(12)旋转:fr(k,l)=f(k-l-1,k),cr(k,l)=c(k-l-1,k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
等式(13)其中,k是滤波器的大小,并且0≤k,l≤k-1是变换系数的坐标,使得位置(0,0)在左上角处并且位置(k-1,k-1)在右下角处。根据为相应块计算的梯度值,对滤波器系数f(k,
l)和限幅值c(k,l)进行变换。变换与四个方向的梯度之间的关系可以总结在表1中。表1梯度值变换g
d2
<g
d1
并且gh<gv无变换g
d2
<g
d1
并且gv<gh对角线g
d1
<g
d2
并且gh<gv垂直翻转g
d1
<g
d2
并且gv<gh旋转
[0141]
在诸如vvc草案8的一些相关示例中,在自适应参数集(aps)中用信号通知alf的滤波器参数。在一个aps中,可以用信号通知多达25组亮度滤波器系数和限幅值索引,以及多达8组色度滤波器系数和限幅值索引。为了减少比特开销,可以合并亮度分量的不同分类的滤波器系数。在切片头中,用信号通知用于当前切片的aps的索引。在vvc草案8中,alf的信令是基于ctu的。
[0142]
从aps解码的限幅值索引,允许使用亮度分量和色度分量的限幅值表来确定限幅值。这些限幅值取决于内部比特深度。例如,限幅值的表可以通过下式获得:alfclip={round(2
b-α*n
)for n∈[0..n-1]}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
等式(14)其中,b等于内部比特深度,α为等于2.35的预定义常数值,”且n等于4,n是vvc草案8中所允许的限幅值的数目。表2示出了等式(14)的输出的示例。表2
[0143]
在切片头中,可以用信号通知多达7个aps索引,以指定用于当前切片的亮度滤波器集合。滤波过程可以进一步控制在ctb级。可以用信号通知标志以指示alf是否应用于亮度ctb。亮度ctb可以从16个固定滤波器集合和来自aps的滤波器集合当中选择一个滤波器集合。用信号通知用于亮度ctb的滤波器集合索引,以指示应用哪个滤波器集合。在编码器和解码器中预先定义和硬编码16个固定滤波器集合。
[0144]
对于色度分量,可以在切片头中用信号通知aps索引,以指示用于当前切片的色度滤波器集合。在ctb级上,如果在aps中存在多于一个色度滤波器集合,则可以为用信号通知用于每个色度ctb的滤波器索引。
[0145]
滤波器系数可以用等于128的范数来量化。为了限制乘法运算复杂度,可以应用码
流一致性,使得非中心位置的系数值可以在-27至27-1(包含端值)的范围内。在码流中不用信号通知中心位置系数,并且中心位置系数被认为等于128。
[0146]
在诸如vvc草案8的一些相关示例中,限幅索引和相应值的语法和语义可以定义如下。
[0147]
alf_luma_clip_idx[sfidx][j]指定在乘以由sfidx指示的用信号通知的亮度滤波器的第j个系数之前,要使用的限幅值的限幅索引。码流一致性的要求是,其中sfidx=0..alf_luma_num_filters_signalled_minus1并且j=0..11的alf_luma_clip_idx[sfidx][j]的值应在0至3(包含端值)的范围内。
[0148]
根据bitdepth被设置为等于bitdepthy并且clipidx被设置为alf_luma_clip_idx[alf_luma_coeff_delta_idx[filtidx]][j],在表2中导出具有元素alfclipl[adaptation_parameter_set_id][filtidx][j](其中filtidx=0..numalffilters-1并且j=0..11)的亮度滤波器限幅值alfclipl[adaptation_parameter_set_id][filtidx]。
[0149]
alf_chroma_clip_idx[altidx][j]指定在乘以具有索引altidx的可选色度滤波器的第j个系数之前,要使用的限幅值的限幅索引。码流一致性的要求是alf_chroma_clip_idx[altidx][j]的值(其中altidx=0..alf_chroma_num_alt_filters_minus1,j=0..5)应在0至3(包含端值)的范围内。
[0150]
根据bitdepth被设置为等于bitdepthc并且clipidx被设置为等于alf_chroma_clip_idx[altidx][j],在表2中导出具有元素alfclipc[adaptation_parameter_set_id][altidx][j](其中altidx=0..alf_chroma_num_alt_filters_minus1,j=0..5)的色度滤波器限幅值alfclipc[adaptation_parameter_set_id][altidx]。
[0151]
在解码器端,当针对ctb启用alf时,对cu内的每个样本r(i,j)进行滤波,从而产生如下所示的对应样本值r

(i,j)。其中,f(k,l)表示已解码滤波器系数,k(x,y)是限幅函数,并且c(k,l)表示已解码限幅参数。变量k和l在与之间变化,其中,l表示滤波器长度。限幅函数k(x,y)=min(y,max(-y,x)),其对应于函数clip3(-y,y,x)。通过结合该限幅函数,该环路滤波方法变为非线性过程,被称为非线性alf。通过使用与表2中的限幅值的索引相对应的哥伦布(golomb)编码方案,在“alf_data”语法元素中对所选择的限幅值进行编码。该编码方案与用于滤波器索引的编码方案相同。
[0152]
图10示出了根据本公开的实施例的示例性的应用于亮度分量的修改的块分类。修改的块分类和滤波,用于水平ctu边界附近的样本,可以减少alf的线缓冲器要求。如图10中所示,通过移位具有“n”个样本的水平ctu边界,将虚拟边界定义为线,其中,用于亮度分量的n等于4,并且用于色度分量的n等于2。
[0153]
对于虚拟边界以上的4
×
4块的1d拉普拉斯梯度的计算,仅使用虚拟边界以上的样本。类似地,对于虚拟边界以下的4
×
4块的1d拉普拉斯梯度的计算,仅使用虚拟边界以下的样本。考虑到在1d拉普拉斯梯度计算中使用的样本数量减少,对活动值a的量化进行相应地
缩放。
[0154]
图11示出了根据一些实施例的示例性的虚拟边界处的亮度分量的修改的alf。对于滤波处理,虚拟边界处的对称填充操作可以用于亮度分量和色度分量两者。如图11中所示,当被滤波的样本位于虚拟边界以下时,位于虚拟边界以上的相邻样本被填充。同时,在另一侧的对应样本也被对称地填充。
[0155]
为了提高编解码效率,在一些相关示例中使用基于编码单元同步图片四叉树的alp。将亮度图片分割成若干多级四叉树分区,并且对齐每个分区边界与最大编码单元(lcu)的边界。每个分区具有其自己的滤波过程,并且因此可以被称为滤波器单元(fu)。
[0156]
2次编码流描述如下。在第一次中,确定每个fu的四叉树分割模式和最佳滤波器。在决策过程期间,通过快速滤波失真估计(ffde)来估计滤波失真。根据所确定的四叉树分割模式和所选择的所有fu的滤波器,对已重建的图片进行滤波。在第二次中,执行cu同步alf开/关控制。根据alf开/关结果,来自第一次的已滤波图片由已重建图片部分地恢复。
[0157]
图12示出了根据实施例的示例性lcu对齐的图片四叉树分割。采用自上向下的分割策略,以利用率失真准则将图片划分成多级四叉树分区。每个分区被称为滤波器单元。分割过程将四叉树分区与lcu边界对齐。fu的编码顺序遵循z扫描顺序。例如,如图12中所示,图片被分割成10个fu,并且编码顺序是fu0、fu1、fu2、fu3、fu4、fu5、fu6、fu7、fu8和fu9。
[0158]
图13示出了对应于图12的示例性四叉树分割模式。为了指示图片四叉树分割模式,可以按z顺序对分割标志进行编码和传输。
[0159]
可以基于率失真准则,从两个滤波器集合中选择每个fu的滤波器。第一集合具有为当前fu新导出的1/2对称正方形滤波器和菱形滤波器。第二集合来自时延滤波器缓冲器,该时延滤波器缓冲器存储先前为先前图片的fu导出的滤波器。可以为当前fu选择具有这两个集合的最小率失真成本的滤波器。类似地,如果当前fu不是最小fu并且可以进一步被分割成4个子fu,则计算4个子fu的率失真成本。通过递归地比较分割情况和非分割情况的率失真成本,可以确定图片四叉树分割模式。
[0160]
在一些相关示例中,最大四叉树分割级别是2,这意味着fu的最大数目是16。在四叉树分割决策期间,可以重复使用相关值,相关值用于导出在底部四叉树级处的16个fu(最小fu)的维纳(wiener)系数。剩余的fu可以从底部四叉树级处的16个fu的相关性中导出维纳滤波器。因此,仅有一个帧缓冲器访问用于导出所有fu的滤波器系数。
[0161]
在确定四叉树分割模式之后,为了进一步减小滤波失真,可以执行cu同步alf开/关控制。通过比较滤波失真和非滤波失真,叶cu可以在其局部区中显式地接通/断开alf。可以通过根据alf开/关结果重新设计滤波器系数来进一步改进编解码效率。然而,重新设计过程需要附加的帧缓冲器访问。在一些相关示例中,在cu同步alf开/关决策之后不存在重新设计过程,以最小化帧缓冲器访问的次数。
[0162]
iii.交叉分量自适应环路滤波器
[0163]
在一些相关示例中,采用了交叉分量自适应环路滤波器(cc-alf)。cc-alf利用亮度样本值来修正每个色度分量。
[0164]
图14a图示了根据本公开的实施例的cc-alf的示例性布置。图14b示出了示例性线性菱形滤波器,该线性菱形滤波器在cc-alf操作期间应用于每个色度分量的亮度信道。滤波器系数可以在aps中传输,例如,按照因子2
10
进行缩放并且进行取整,以便用于定点表示。
滤波器的应用在可变块大小上进行控制,并且通过为每个样本块接收的上下文编码标志来用信号通知。在切片级别上为每个色度分量接收块大小以及cc-alf使能标志。在示例中,支持以下块大小(在色度样本中):16
×
16、32
×
32和64
×
64。
[0165]
表3示出了与cc-alf相关的语法元素。表3
[0166]
在表3中,语法元素alf_ctb_cross_component_cb_idc[xctb》》ctblog2sizey][yctb》》ctblog2sizey]等于0指示不将交叉分量cb滤波器应用于亮度位置(xctb,yctb)处的cb颜色分量中的样本块。语法元素alf_ctb_cross_component_cb_idc[xctb》》ctblog2sizey][yctb》》ctblog2sizey]不等于0指示将第alf_ctb_cross_component_cb_idc[xctb》》ctblog2sizey][yctb》》ctblog2sizey]个交叉分量cb滤波器应用于亮度位置(xctb,yctb)处的cb颜色分量中的样本块。
[0167]
语法元素alf_ctb_cross_component_cr_idc[xctb》》ctblog2sizey][yctb》》ctblog2sizey]等于0指示不将交叉分量cr滤波器应用于亮度位置(xctb,yctb)处的cr颜色分量中的样本块。语法元素alf_ctb_cross_component_cr_idc[xctb》》ctblog2sizey][yctb》》ctblog2sizey]不等于0指示将第alf_ctb_cross_component_cr_idc[xctb》》ctblog2sizey][yctb》》ctblog2sizey]个交叉分量cr滤波器应用于亮度位置(xctb,yctb)处的cr颜色分量中的样本块。
[0168]
iv.色度采样格式
[0169]
图15示出了当chroma_format_idc等于1(4:2:0色度格式)并且chroma_sample_loc_type_top_field或chroma_sample_loc_type_bottom_field等于变量chromaloctype的值时,左上色度样本的示例性相对位置。相对于由左上亮度样本表示的区,示出了由左上4:2:0色度样本表示的区。
[0170]
v.约束定向增强滤波器
[0171]
环内约束定向增强滤波器(cdef)的一个目标是滤除编码伪像,同时保留图像的细节。在诸如hevc的一些相关示例中,样本自适应偏移(sao)算法可以通过针对不同类别的像素定义信号偏移来实现类似目标。与sao不同,cdef是非线性空间滤波器。该滤波器的设计被限制为易于矢量化(例如可利用单指令多数据(simd)操作来实现),而对于诸如中值滤波器和双边滤波器的其它非线性滤波器来说,则滤波器的设计不是这种情况。
[0172]
cdef设计源自以下观察结果。已编码图像中的振铃伪像的量倾向于与量化步长大致成比例。细节的量是输入图像的属性,但是保留在量化图像中的最小细节也倾向于与量化步长成比例。对于给定的量化步长,振铃的幅度通常小于细节的幅度。
[0173]
cdef的工作为:通过识别每个块的方向,然后沿着所识别的方向自适应地滤波,并且沿着从所识别的方向旋转45度的方向较小程度地滤波。显式地用信号通知滤波器强度,这允许对模糊化进行高度控制。为滤波强度设计有效的编码器搜索。cdef基于两个先前提出的环内滤波器,并且将组合滤波器用于新兴的aomedia video 1(av1)编解码器。
[0174]
图16示出了根据本公开实施例的8
×
8块的示例性方向搜索。方向搜索正好在去块滤波器之后对已重建像素进行操作。由于这些像素可用于解码器,因此方向不需要信令。对8
×
8块进行搜索,8
×
8块足够小以充分处理非直线边缘,同时足够大以在应用于量化图像时可靠地估计方向。在8
×
8区上具有恒定方向也使得滤波器的矢量化更容易。对于每个块,通过使量化块与最接近的完全定向块之间的平方差的总和(ssd)最小化,确定与相应块中的模式最佳匹配的方向。完全定向块是沿一个方向的一条线的所有像素具有相同值的块。
[0175]
识别方向的一个原因是沿着该方向对齐滤波器抽头以减少振铃,同时保持定向边缘或模式。然而,单独的定向滤波有时不能充分地减少振铃。还期望在不沿着主方向的像素上使用滤波器抽头。为了降低模糊化的风险,这些额外的抽头被更谨慎地处理。出于此原因,cdef定义了主抽头和次抽头。完整的2-d cdef滤波器表示如下:其中,d是阻尼参数,s
(p)
和s
(s)
分别是主抽头和次抽头的强度,并且round(
·
)按远离零进行取整(rounds ties away from zero),并且和是滤波器权重,并且f(d,s,d)是对滤波后的像素与每个相邻像素之间的差进行操作的约束函数。对于小的差值,f(d,s,d)=d,使得滤波器像线性滤波器一样工作。当差值大时,f(d,s,d)=0,这实际上忽略了滤波器抽头。
[0176]
vi.av1中的环路恢复
[0177]
除了传统去块操作之外,在视频编码后去块中还可以使用一组环内恢复方案,以在总体上去噪并且提高边缘质量。这些方案可在每个适当大小的图块的帧内切换。所描述
的特定方案基于可分离的对称维纳滤波器和具有子空间投影的双自导滤波器。因为内容统计可以在帧内显著变化,所以这些工具被集成在可切换框架内。在帧的不同区中触发可切换框架中不同的工具。
[0178]
对于维纳滤波器,退化帧中的每个像素可以被重建为各个像素周围的w
×
w窗口内的各个像素的非因果滤波版本,其中w=2r+1对于整数r是奇数。如果2d滤波器抽头以列矢量化形式由w2×
1个元素矢量f表示,则直接线性最小均方误差(lmmse)优化使得滤波器参数由f=h-1
m给出,其中,h=e[xx
t
]是x的自协方差(像素周围的w
×
w窗口中w2个样本的列矢量化版本),并且m=e[yx
t
]是待估计的x与标量源样本y的互相关性。编码器可以根据已去块的帧和源中的实现来估计h和m,并且将所得到的滤波器f发送到解码器。然而,这不仅会在传输w2抽头时导致相当大的比特率成本,而且导致不可分离的滤波,该滤波使得解码过于复杂。因此,对f的性质施加了几个附加约束。第一,f被约束为可分离的,使得滤波可以实现为可分离的水平和垂直w抽头卷积。第二,每个水平滤波器和垂直滤波器被约束为对称的。第三,假设水平滤波器系数和垂直滤波器系数两者的总和是1。
[0179]
针对引导滤波过程,局部线性模型可以表示如下:y=f x+g
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
等式(17)
[0180]
局部线性模型用于从未滤波的样本x计算已滤波的输出y,其中,基于退化图像和滤波的像素的邻域中的引导图像的统计来确定f和g。如果引导图像与退化图像相同,则所得到的所谓的自引导滤波具有边缘保持平滑的效果。自引导滤波的特定形式取决于两个参数:半径r和噪声参数e,并且列举如下。
[0181]
(1)获得每个像素周围的(2r+1)
×
(2r+1)窗口中的像素的均值μ和方差σ2。这可以通过基于积分成像的箱式滤波来有效地实现。
[0182]
(2)为每个像素计算:f=σ2/(σ2+e);g=(1-f)μ。
[0183]
(3)将每个像素的f和g计算为像素周围的3
×
3窗口中的f值和g值的平均值,以供使用。
[0184]
滤波由r和e控制,其中较高的r意味着较高的空间变化,并且较高的e意味着较高的范围变化。
[0185]
图17示出了根据实施例的示例性子空间投影。即使廉价的恢复x1和x2中没有一个接近源y,适当的乘数{α,β}可以使它们更接近源,只要它们在正确的方向上稍微移动。廉价的恢复表示应用相对低复杂度的计算的恢复。
[0186]
vii.交叉分量样本偏移滤波器
[0187]
交叉分量样本偏移(ccso)滤波器是减少重建样本的失真的环路滤波方法。在一些实施例中,重建样本可以是从聚合器(455)输出的样本。重建样本可以输入到环路滤波器(456)中。在ccso滤波器中,给定第一颜色分量的已处理输入重建样本,可以使用非线性映射来导出输出偏移,并且可以在ccso滤波器的滤波过程中将输出偏移添加到第二颜色分量的重建样本上。第一颜色分量的输入重建样本位于滤波器支持区域中。
[0188]
图18示出了根据本公开的实施例的示例性滤波器支持区。滤波器支持区包括四个重建样本:p0、p1、p2和p3。四个输入重建样本在垂直方向和水平方向上遵循十字形状。第一颜色分量中的中心样本(由c表示)和第二颜色分量中的要滤波的样本位置相同。在处理所述输入重建样本时,应用以下步骤:
[0189]
步骤1:首先计算p0-p3与c之间的增量值,表示为m0、m1、m2和m3。
[0190]
步骤2:将增量值m0-m3进一步量化。量化值表示为d0、d1、d2和d3。基于以下量化过程,量化值可以是-1、0和1:(a)如果m《-n,则d=-1;(b)如果-n《=m《=n,则d=0;以及(c)如果m》n,则d=1,其中,n被称为量化步长,并且n的示例值包括4、8、12和16。
[0191]
量化值d0-d3可以用于识别非线性映射的一个组合。例如,图8中的ccso滤波器具有四个滤波器抽头d0-d3,并且每个滤波器抽头可以具有三个量化值(例如,-1、0和1)中的一个,因此总共可以有34=81个组合。
[0192]
图19a至图19b示出了根据实施例的表格,该表格列出了ccso滤波器中非线性映射的81个示例性组合。该表的最后一列表示每个组合的输出偏移值。示例偏移值是整数,诸如0、1、-1、3、-3、5、-5和-7。
[0193]
ccso滤波器的最终滤波过程可以应用如下:f

=clip(f+s)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
等式(18)其中,f是要滤波的重建样本,并且s是从图19a至图19b中的表中检索的输出偏移值。滤波后的样本值f

被进一步限幅到与比特深度相关联的范围中。
[0194]
viii.改进的交叉分量样本偏移滤波器
[0195]
本公开包括改进ccso滤波器的性能的方法,比如改进的交叉分量样本偏移方法。
[0196]
根据本公开的各方面,ccso滤波器的非线性映射可以包括某些属性,该属性允许指示待压缩映射关系的信令开销。映射关系的大小减小可以导致较小的信令开销。因此,可以实现改进的编码效率。
[0197]
在本公开中,ccso滤波器可以被定义为一个滤波过程,该滤波过程使用第一颜色分量的重建样本作为输入(例如,y、cb或cr),并且将输出应用于与第一颜色分量不同的第二颜色分量上。
[0198]
在ccso滤波器中,可以在编码器端导出非线性映射。非线性映射描述了一个颜色分量的输入重建样本与要添加到另一颜色分量的偏移之间的关系。非线性映射的域可以由已处理输入重建样本(诸如已执行线性处理的输入重建样本)的不同组合来确定。
[0199]
根据本公开的各方面,可以压缩ccso滤波器的非线性映射,以便减少信令开销,而不会显着地影响ccso滤波器关于失真减少的性能。因此,可以提高整体编码效率。
[0200]
在一些实施例中,当应用ccso滤波器时,非线性映射可以用于在给定的已处理输入重建样本的情况下导出输出偏移。可以减少用信号通知非线性映射的开销比特。例如,不是显式地用信号通知非线性映射的每个条目,而是仅用信号通知非线性映射的子集。
[0201]
根据本公开的各方面,输入组合a的输出偏移值可以不用信号通知。相反,输入组合a的输出偏移值可以从另一输入组合b导出。该导出过程可以被称为镜像导出。一个输入组合是指如上描述的已处理输入重建样本的组合(例如,d0-d3)。
[0202]
在一个实施例中,输入组合a的输出偏移值可以被推导为输入组合b的输出偏移值的相反数(例如,具有相同绝对值和不同符号的数字),其中a和b具有输入组合d0-d3的相反符号值。例如,如果输入组合b(d0=a,d1=b,d2=c,d3=d)的输出偏移值是s,则输入组合a(d0=-a,d1=-b,d2=-c,d3=-d)的输出偏移值是-s。
[0203]
在一个实施例中,输入组合a的输出偏移值可以被推导为输入组合b的输出偏移值的相同数,其中a和b1具有已处理输入重建样本d0-d3的相反符号值。例如,如果输入组合b
(d0=a,d1=b,d2=c,d3=d)的输出偏移值是s,则输入组合a(d0=-a,d1=-b,d2=-c,d3=-d)的输出偏移值是s。
[0204]
在一个实施例中,可以用信号通知输入组合b的输出偏移值。可以在诸如aps、切片头、帧头、pps、sps、视频参数集(vps)等的高级语法元素中提供信令。
[0205]
根据本公开的各方面,可以使用查找表来描述已压缩的非线性映射。查找表的每一行对应于一个输入组合d0-d3和一个相关联的输出偏移值。在一些实施例中,图19a至图19b中所示的表的一部分可以用于描述已压缩的非线性映射。在实施例中,可以用信号通知图19a中所示的表格的前41行的输出偏移值,并且可以基于前41行的用信号通知的输出偏移值来推导剩余40行的输出偏移值。图19c示出了一个示例,其中剩余40行的第n行中的输出偏移值可以被推导为在前41行中用信号通知的第(80-n)行中的输出偏移值的相同数。例如,如图19c所示,第41行中的输出偏移值是图19a中第39行中的输出偏移值s39。图19d示出了另一示例,其中剩余40行的第n行中的输出偏移值可以被推导为在前41行中用信号通知的第(80-n)行中的输出偏移值的相反数。例如,如图19d中所示,第41行中的输出偏移值是-s39,其是图19a中第39行中的输出偏移值的相反数。
[0206]
在一个实施例中,可以用信号通知指示启用镜像导出的参数。可以在诸如aps、切片头、帧头、pps、sps、vps等高级语法元素中提供信令。
[0207]
根据本公开的各方面,仅用信号通知非线性映射的子集。对于未用信号通知的输入组合,输出偏移值可以被推导为默认值。默认值的示例为整数,诸如0、1、-1、3、-3、5、-5和-7。
[0208]
在一些实施例中,可以使用不同的子集,并且可以针对不同的子集切换用信号通知的子集。例如可以在块级或高级语法元素(诸如aps、切片头、帧头、pps、sps、vps等)中,用信号通知对非线性映射的用信号通知的子集的选择。在一个示例中,支持具有图19a至图19b中所示的表中的非线性映射的16个和81个组合的两个子集,并且用信号将选择表示为标志。在另一示例中,支持具有图19a至图19b中所示的表中的非线性映射的17个和81个组合的两个子集,并且用信号将选择表示为标志。在另一示例中,支持具有图19a至图19b中所示的表中的非线性映射的33个和81个组合的两个子集,并且将选择用信号通知为标志。在另一示例中,支持具有图19a至图19b中所示的表中的非线性映射的16个、32个和81个组合的三个子集,并且通过索引来用信号通知选择。在另一示例中,支持具有图19a至图19b中所示的表中的非线性映射的17个、33个和81个组合的三个子集,并且通过索引来用信号通知选择。在另一示例中,支持具有图19a至图19b中所示的表中的非线性映射的16个、17个、32个、33个和81个组合的五个子集,并且通过索引来用信号通知选择。
[0209]
图19e示出了一个例子,在该例子中仅用信号通知图19a至图19b中所示的表中的非线性映射的17个组合,并且可以将剩余组合的输出偏移值推导为默认值(例如,0)。
[0210]
图19f示出了一个例子,在该例子中仅用信号通知图19a至图19b中所示的表中的非线性映射的16个组合,并且可以将剩余组合的输出偏移值推导为默认值(例如,0)的示例。
[0211]
图19g示出了一个例子,在该例子中仅用信号通知图19a至图19b中所示的表中的非线性映射的33个组合,并且可以将剩余组合的输出偏移值推导为默认值(例如,0)的示例。
[0212]
图19h示出了一个例子,在该例子中仅用信号通知图19a至图19b中所示的表中的非线性映射的32个组合,并且其余组合的输出偏移值可以被推导为默认值(例如,0)的示例。
[0213]
根据本公开的各方面,非线性映射可以划分成多个子集,诸如三个子集a、b和c,其中仅用信号通知子集b。子集a中的输入组合的输出偏移值可以从子集b导出。子集c中的输入组合的输出偏移值可以被推导为默认值。默认值的示例是整数,诸如0、1、-1、3、-3、5、-5和-7。
[0214]
在一个实施例中,子集a中的输入组合a1的输出偏移值可以被推导为子集b中的输入组合b1的输出偏移值的相反数,其中a1和b1具有输入组合d0-d3的相反符号值。子集c中的输入组合的输出偏移值可以被推导为默认值(例如,0)。例如,如果子集b中的输入组合b1(d0=a,d1=b,d2=c,d3=d)的输出偏移值是s,则子集a中的输入组合a1(d0=-a,d1=-b,d2=-c,d3=-d)的输出偏移值是-s。
[0215]
在一个实施例中,子集a中的输入组合a1的输出偏移值可以被推导为子集b中的输入组合b1的输出偏移值的相同数,其中a1和b1具有输入组合d0-d3的相反符号值。子集c中的输入组合的输出偏移值可以被推导为默认值(例如,0)。例如,如果子集b中的输入组合b1(d0=a,d1=b,d2=c,d3=d)的输出偏移值是s,则子集a中的输入组合a1(d0=-a,d1=-b,d2=-c,d3=-d)的输出偏移值是s。
[0216]
在一个实施例中,可以用信号通知参数,该参数指示启用非线性映射的子集的镜像导出。可以在诸如aps、切片头、帧头、pps、sps、vps等高级语法元素中提供信令。
[0217]
根据本公开的各方面,在非线性映射中仅支持有限组的选定输出偏移值。
[0218]
在一个实施例中,支持的输出偏移值的范围可以包括[-4,+3]、[-8,+7]、[-16,+15]、[-2k,2k]、[k,l]、预定义整数、0和奇数整数、以及0和偶数整数,其中k和l是整数。
[0219]
在一个示例中,一组支持的输出偏移值可以包括0和一组具有不同符号值的奇数整数,诸如0、1、-1、3、-3、5、-5和-7。在另一示例中,支持的输出偏移值的集合可以包括0和一组具有不同符号值的偶数整数,诸如0、2、-2、4、-4、6、-6和-8。
[0220]
在一个实施例中,可以用信号通知一组支持的输出偏移值。可以在诸如aps、切片头、帧头、pps、sps、vps等高级语法元素中提供信令。
[0221]
在一个实施例中,可以在非线性映射中支持偏移值阵列,并且可以用信号通知索引。可以在高级语法元素(诸如aps、切片头、帧头、pps、sps、vps等)中提供信令,以指示阵列中针对输入组合而选择的输出偏移值。
[0222]
在一个实施例中,不同的输入组合可以具有不同组的支持的输出偏移值。
[0223]
在一个实施例中,一组支持的偏移值可以取决于量化参数。
[0224]
在一个实施例中,可以使用固定长度编码来用信号通知输出偏移值或输出偏移值的索引。
[0225]
根据本公开的各方面,可以从应用于不同图片、不同切片或不同编码块的输出偏移值,预测应用于当前图片的当前切片中的当前编码块的输入组合的输出偏移值。
[0226]
在一个实施例中,不用信号通知输出偏移值,而是用信号通知输出偏移值与预测的输出偏移值之间的增量值。
[0227]
在一个实施例中,不用信号通知至少一个输入组合的输出偏移值,并且可以从预
测的输出偏移值导出该输出偏移值。
[0228]
在一个实施例中,通过标志,用信号通知输出偏移值是否被预测。可以在高级语法元素(诸如aps、切片头、帧头、pps、sps、vps等)中提供标志。
[0229]
输出偏移值的预测可以取决于已编码信息,包括但不限于帧类型、时间层和量化参数。
[0230]
在一些相关示例中,可以将一个或多个滤波过程应用于已编码块的重建样本。例如,可以将去块模块应用于已编码块的重建样本。然后,可以将cdef模块应用于从去块模块输出的已滤波的重建样本,并且可以将环路恢复滤波器模块应用于从cdef模块输出的已滤波的重建样本。
[0231]
根据本公开的各方面,当将ccso滤波器应用于已编码块的重建样本时,ccso滤波器的输入位置和输出位置是灵活的。ccso滤波器的输入位置是ccso滤波器的输入重建样本被选择的位置。ccso滤波器的输出位置是ccso滤波器的输出偏移值被应用(例如,ccso滤波被应用)的位置。
[0232]
在一些实施例中,输入和输出可以共享相同的位置。也就是说,在ccso滤波器的输入位置与输出位置之间不存在其它编码模块。在一个示例中,输入位置和输出位置都可以正好在去块模块之前。在另一示例中,输入位置和输出位置都可以在去块模块之后并且在cdef模块之前。在另一示例中,输入位置和输出位置都可以在cdef模块之后并且在环路恢复滤波器(lr)模块之前。在另一示例中,输入位置和输出位置都可以在lr模块之后。
[0233]
在一些实施例中,输入位置和输出位置可以不同,并且输入位置在输出位置之前。也就是说,在ccso滤波器的输入位置与输出位置之间放置至少一个编码模块。在一个示例中,输入位置可以正好在去块模块之前,并且输出位置可以在去块模块之后并且在cdef模块之前。在另一示例中,输入位置可以在去块模块之后并且在cdef模块之前,并且输出位置可以在cdef模块之后并且在lr模块之前。在另一示例中,输入位置可以在cdef模块之后并且在lr模块之前,并且输出位置可以在lr模块之后。
[0234]
在一个实施例中,上述实施例中的cdef模块和lr模块可以分别由sao模块和alf模块代替。以上实施例中的相同方法可以被应用于该实施例。
[0235]
ix.流程图
[0236]
图20示出概述根据本公开的实施例的示例性方法(2000)的流程图。在各种实施例中,方法(2000)由处理电路执行,诸如终端设备(210)、(220)、(230)和(240)中的处理电路、执行视频编码器(303)的功能的处理电路、执行视频解码器(310)的功能的处理电路、执行视频解码器(410)的功能的处理电路、执行帧内预测模块(452)的功能的处理电路、执行视频编码器(503)的功能的处理电路、执行预测器(535)的功能的处理电路、执行帧内编码器(622)的功能的处理电路、执行帧内解码器(772)的功能的处理电路等等。在一些实施例中,方法(2000)用软件指令实现,因此当处理电路执行软件指令时,处理电路执行方法(2000)。
[0237]
方法(2000)通常可以开始于步骤(s2010),在该步骤中,方法(2000)对当前图片中的当前块的预测信息进行解码,所述当前图片为已编码视频序列的一部分。预测信息指示已处理重建样本的多个组合,以及滤波过程的对应输出值。滤波过程可以用于减少重建样本的压缩伪像和失真。滤波过程可以使用第一颜色分量的已处理重建样本作为输入(例如,y、cb或cr),并且将输出应用于与第一颜色分量不同的第二颜色分量。在一些实施例中,可
以在环路滤波器单元(456)中执行滤波过程。滤波器过程的示例包括但不限于ccso和cc-alf。然后,方法(2000)进行到步骤(s2020)。
[0238]
在步骤(s2020)处,方法(2000)对当前块的第一颜色分量的已处理重建样本执行滤波过程。第一颜色的已处理重建样本不被包括在预测信息中指示的已处理重建样本的多个组合中。然后,方法(2000)进行到步骤(s2030)。
[0239]
在步骤(s2030)处,方法(2000)基于默认值、预测输出值和预测信息中指示的输出值之一中的一个来确定滤波器过程的输出值。然后,过程(2000)进行到步骤(s2040)。
[0240]
在步骤(s2040)处,方法(2000)基于输出值被应用于当前块的第二颜色分量的重建样本来重建当前块。第二颜色分量与第一颜色分量不同。然后,方法(2000)结束。
[0241]
在一个实施例中,方法(2000)将第一值和第二值中的一个确定为所述滤波过程的所述输出值,所述第一值是所述预测信息中指示的输出值之一,并且所述第二值是所述第一值的相反数。
[0242]
在一个实施例中,所述第一颜色分量的所述已处理重建样本中的每一个已处理重建样本是所述预测信息中指示的已处理重建样本的所述多个组合中的一个组合中的对应的已处理重建样本的相反数,并且所述预测信息中指示的所述输出值之一对应于所述预测信息中指示的已处理重建样本的所述多个组合中的所述一个组合。
[0243]
在一个实施例中,所述第一颜色分量的所述已处理重建样本中的每一个已处理重建样本是所述预测信息中指示的已处理重建样本的所述多个组合中的一个组合中的对应的已处理重建样本的相反数,并且所述预测信息中指示的所述输出值之一对应于所述预测信息中指示的已处理重建样本的所述多个组合中的所述一个组合。
[0244]
在一个实施例中,方法(2000)基于所述预测信息将所述默认值确定为所述滤波器过程的所述输出值,所述预测信息指示所述预测信息中指示的已处理重建样本的所述多个组合是所述滤波过程中的已处理重建样本的组合的总数的子集。
[0245]
在一个实施例中,所述预测输出值是由基于所述滤波处理的输出值被应用于另一编码块的滤波处理的输出值来确定的。
[0246]
在一个实施例中,所述第一颜色分量的所述已处理重建样本是基于从第一编码模块输出的所述第一颜色分量的重建样本来确定的,并且所述第二颜色分量的所述重建样本是从所述第一编码模块输出的或从所述第一编码模块之后应用的第二编码模块输出的。
[0247]
x.计算机系统
[0248]
上述技术可以通过计算机可读指令实现为计算机软件,并且物理地存储在一个或多个计算机可读介质中。例如,图21示出了计算机系统(2100),其适于实现所公开主题的某些实施例。
[0249]
所述计算机软件可通过任何合适的机器代码或计算机语言进行编码,通过汇编、编译、链接等机制创建包括指令的代码,所述指令可由一个或多个计算机中央处理单元(cpu),图形处理单元(gpu)等直接执行或通过译码、微代码等方式执行。
[0250]
所述指令可以在各种类型的计算机或其组件上执行,包括例如个人计算机、平板电脑、服务器、智能手机、游戏设备、物联网设备等。
[0251]
图21所示的用于计算机系统(2100)的组件本质上是示例性的,并不用于对实现本技术实施例的计算机软件的使用范围或功能进行任何限制。也不应将组件的配置解释为与
计算机系统(2100)的示例性实施例中所示的任一组件或其组合具有任何依赖性或要求。
[0252]
计算机系统(2100)可以包括某些人机界面输入设备。这种人机界面输入设备可以通过触觉输入(如:键盘输入、滑动、数据手套移动)、音频输入(如:声音、掌声)、视觉输入(如:手势)、嗅觉输入(未示出),对一个或多个人类用户的输入做出响应。所述人机界面设备还可用于捕获某些媒体,气与人类有意识的输入不必直接相关,如音频(例如:语音、音乐、环境声音)、图像(例如:扫描图像、从静止影像相机获得的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。
[0253]
人机界面输入设备可包括以下中的一个或多个(仅绘出其中一个):键盘(2101)、鼠标(2102)、触控板(2103)、触摸屏(2110)、数据手套(未示出)、操纵杆(2105)、麦克风(2106)、扫描仪(2107)、照相机(2108)。
[0254]
计算机系统(2100)还可以包括某些人机界面输出设备。这种人机界面输出设备可以通过例如触觉输出、声音、光和嗅觉/味觉来刺激一个或多个人类用户的感觉。这样的人机界面输出设备可包括触觉输出设备(例如通过触摸屏(2110)、数据手套(未示出)或操纵杆(2105)的触觉反馈,但也可以有不用作输入设备的触觉反馈设备)、音频输出设备(例如,扬声器(2109)、耳机(未示出))、视觉输出设备(例如,包括阴极射线管屏幕、液晶屏幕、等离子屏幕、有机发光二极管屏的屏幕(2110),其中每一个都具有或没有触摸屏输入功能、每一个都具有或没有触觉反馈功能——其中一些可通过诸如立体画面输出的手段输出二维视觉输出或三维以上的输出;虚拟现实眼镜(未示出)、全息显示器和放烟箱(未示出))以及打印机(未示出)。这些视觉输出设备(例如屏幕(2110))可以通过图形适配器(2150)连接到系统总线(2148)。
[0255]
计算机系统(2100)还可以包括人可访问的存储设备及其相关介质,如包括具有cd/dvd的高密度只读/可重写式光盘(cd/dvd rom/rw)(2120)或类似介质(2121)的光学介质、拇指驱动器(2122)、可移动硬盘驱动器或固体状态驱动器(2123),诸如磁带和软盘(未示出)的传统磁介质,诸如安全软件保护器(未示出)等的基于rom/asic/pld的专用设备,等等。
[0256]
本领域技术人员还应当理解,结合所公开的主题使用的术语“计算机可读介质”不包括传输介质、载波或其它瞬时信号。
[0257]
计算机系统(2100)还可以包括通往一个或多个通信网络(2155)的网络接口(2154)。所述一个或多个通信网络(2155)可以是无线的、有线的、光学的。所述一个或多个通信网络(2155)还可为局域网、广域网、城域网、车载网络和工业网络、实时网络、延迟容忍网络等等。所述一个或多个通信网络(2155)的示例包括以太网、无线局域网、蜂窝网络(gsm、3g、4g、5g、lte等)等局域网、电视有线或无线广域数字网络(包括有线电视、卫星电视、和地面广播电视)、车载和工业网络(包括canbus)等等。某些网络通常需要外部网络接口适配器,用于连接到某些通用数据端口或外围总线(2149)(例如,计算机系统(2100)的usb端口);其它系统通常通过连接到如下所述的系统总线集成到计算机系统(2100)的核心(例如,以太网接口集成到pc计算机系统或蜂窝网络接口集成到智能电话计算机系统)。通过使用这些网络中的任何一个,计算机系统(2100)可以与其它实体进行通信。所述通信可以是单向的,仅用于接收(例如,无线电视),单向的仅用于发送(例如can总线到某些can总线设备),或双向的,例如通过局域或广域数字网络到其它计算机系统。上述的每个网络和
网络接口可使用某些协议和协议栈。
[0258]
上述的人机界面设备、人可访问的存储设备以及网络接口可以连接到计算机系统(2100)的核心(2140)。
[0259]
核心(2140)可包括一个或多个中央处理单元(cpu)(2141)、图形处理单元(gpu)(2142)、以现场可编程门阵列(fpga)(2143)形式的专用可编程处理单元、用于特定任务的硬件加速器(2144)等。这些设备以及只读存储器(rom)(2145)、随机存取存储器(2146)、内部大容量存储器(例如内部非用户可存取硬盘驱动器、固态硬盘等)(2147)等可通过系统总线(2148)进行连接。在某些计算机系统中,可以以一个或多个物理插头的形式访问系统总线(2148),以便可通过额外的中央处理单元、图形处理单元等进行扩展。外围装置可直接附接到核心的系统总线(2148),或通过外围总线(2149)进行连接。在一个示例中,屏幕(2110)可以连接到图形适配器(2150)。外围总线的体系结构包括外部控制器接口pci、通用串行总线usb等。
[0260]
cpu(2141)、gpu(2142)、fpga(2143)和加速器(2144)可以执行某些指令,这些指令组合起来可以构成上述计算机代码。该计算机代码可以存储在rom(2145)或ram(2146)中。过渡数据也可以存储在ram(2146)中,而永久数据可以存储在例如内部大容量存储器(2147)中。通过使用高速缓冲存储器可实现对任何存储器设备的快速存储和检索,高速缓冲存储器可与一个或多个cpu(2141)、gpu(2142)、大容量存储器(2147)、rom(2145)、ram(2146)等紧密关联。
[0261]
所述计算机可读介质上可具有计算机代码,用于执行各种计算机实现的操作。介质和计算机代码可以是为本技术的目的而特别设计和构造的,也可以是计算机软件领域的技术人员所熟知和可用的介质和代码。
[0262]
作为实施例而非限制,具有体系结构(2100)的计算机系统,特别是核心(2140),可以作为处理器(包括cpu、gpu、fpga、加速器等)提供执行包含在一个或多个有形的计算机可读介质中的软件的功能。这种计算机可读介质可以是与上述的用户可访问的大容量存储器相关联的介质,以及具有非易失性的核心(2140)的特定存储器,例如核心内部大容量存储器(2147)或rom(2145)。实现本技术的各种实施例的软件可以存储在这种设备中并且由核心(2140)执行。根据特定需要,计算机可读介质可包括一个或一个以上存储设备或芯片。该软件可以使得核心(2140)特别是其中的处理器(包括cpu、gpu、fpga等)执行本文所述的特定过程或特定过程的特定部分,包括定义存储在ram(2146)中的数据结构以及根据软件定义的过程来修改这种数据结构。另外或作为替代,计算机系统可以提供逻辑硬连线或以其它方式包含在电路(例如,加速器(2144))中的功能,该电路可以代替软件或与软件一起运行以执行本文所述的特定过程或特定过程的特定部分。在适当的情况下,对软件的引用可以包括逻辑,反之亦然。在适当的情况下,对计算机可读介质的引用可包括存储执行软件的电路(如集成电路(ic)),包含执行逻辑的电路,或两者兼备。本技术包括任何合适的硬件和软件组合。
[0263]
虽然本技术已对多个示例性实施例进行了描述,但实施例的各种变更、排列和各种等同替换均属于本技术的范围内。因此应理解,本领域技术人员能够设计多种系统和方法,所述系统和方法虽然未在本文中明确示出或描述,但其体现了本技术的原则,因此属于本技术的精神和范围之内。
附录a:首字母缩略词alf:自适应环路滤波器(adaptive loop filter)amvp:高级运动矢量预测(advanced motion vector prediction)aps:自适应参数集(adaptation parameter set)asic:专用集成电路(application-specific integrated circuit)atmvp:可选/高级时间运动矢量预测(alternative/advanced temporal motion vector prediction)av1:开放媒体联盟视频1(aomedia video 1)av2:开放媒体联盟视频2(aomedia video 2)bms:基准集合(benchmark set)bv:块矢量(block vector)canbus:控制器局域网络总线(controller area network bus)cb:编码块(coding block)cc-alf:交叉分量自适应环路滤波器(cross-component adaptive loop filter)cd:光盘(compact disc)cdef:约束定向增强滤波器(constrained directional enhancement filter)cpr:当前图片参考(current picture referencing)cpu:中央处理单元(central processing unit)crt:阴极射线管(cathode ray tube)ctb:编码树块(coding tree block)ctu:编码树单元(coding tree unit)cu:编码单元(coding unit)dpb:解码器图片缓冲器(decoder picture buffer)dpcm:差分脉码调制dps:解码参数集(decoding parameter set)dvd:数字化视频光盘(digital video disc)fpga:现场可编程门阵列(field programmable gate area)jccr:联合蓝红色度残差编码(joint cbcr residual coding)jvet:联合视频开发组(joint video exploration team)gop:图片群组(group of pictures)gpu:图形处理单元(graphics processing unit)gsm:全球移动通信系统(global system for mobile communications)hdr:高动态范围图像(high dynamic range)hevc:高效视频编码(high efficiency video coding)hrd:假想参考解码器(hypothetical reference decoder)ibc:帧内块复制(intra block copy)ic:集成电路(integrated circuit)isp:帧内子分区(intra sub-partitions)jem:联合开发模型(joint exploration model)
lan:局域网(local area network)lcd:液晶显示器(liquid-crystal display)lr:环路重建滤波器(loop restoration filter)lru:环路重建单元(loop restoration unit)lte:长期演进(long-term evolution)mpm:最可能模式(most probable mode)mv:运动矢量(motion vector)oled:有机发光二极管(organic light-emitting diode)pbs:预测块(prediction blocks)pci:外围设备互连(peripheral component interconnect)pdpc:位置决定的联合预测(position dependent prediction combination)pld:可编程逻辑设备(programmable logic device)pps:图片参数集(picture parameter set)pu:预测单元(prediction unit)ram:随机存取存储器(random access memory)rom:只读存储器(read-only memory)sao:样本自适应偏移量(sample adaptive offset)scc:屏幕内容编码(screen content coding)sdr:标准动态范围(standard dynamic range)sei:辅助增强信息(supplementary enhancement information)snr:信噪比(signal noise ratio)sps:序列参数集(sequence parameter set)ssd:固态驱动器(solid-state drive)tu:变换单元(transform unit)usb:通用串行总线(universal serial bus)vps:视频参数集(video parameter set)vui:视频可用性信息(video usability information)vvc:通用视频编码(versatile video coding)waip:宽角度帧内预测(wide-angle intra prediction)
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1