用于逐块图像压缩中的去块的内容自适应在线训练方法和装置与流程

文档序号:34640867发布日期:2023-06-29 16:53阅读:22来源:国知局
用于逐块图像压缩中的去块的内容自适应在线训练方法和装置与流程

本公开内容描述了总体上涉及视频编码的实施方式。


背景技术:

1、本文中提供的背景技术描述的目的在于总体上呈现本公开内容的背景。就在该背景技术部分中描述的工作的程度而言,目前署名的发明人的工作以及在提交时可能未以其他方式描述为现有技术的描述的各方面既没有明确地也没有隐含地被承认为针对本公开内容的现有技术。

2、可以使用带有运动补偿的图片间预测来执行图像和/或视频编码和解码。未压缩的数字图像和/或视频可以包括一系列图片,每个图片具有例如,1920×1080的亮度样本和相关联的色度样本的空间维度。这一系列图片可以具有例如,每秒60幅图片或60hz的固定或可变的图片速率(非正式地也称为帧速率)。未压缩的图像和/或视频具有特定的比特率要求。例如,每个样本8比特的1080p60 4:2:0视频(60hz帧速率下的1920×1080亮度样本分辨率)需要接近1.5gbit/s的带宽。一小时这样的视频需要超过600千兆字节的存储空间。

3、图像和/或视频编码和解码的一个目的可以是通过压缩减少输入图像和/或视频信号中的冗余。压缩可以有助于降低前面提到的带宽和/或存储空间要求,在一些情况下可以降低两个数量级或更多。尽管本文中的描述使用视频编码/解码作为说明性示例,但是在不脱离本公开内容的精神的情况下,相同的技术可以以类似的方式应用于图像编码/解码。可以采用无损压缩和有损压缩两者,以及其组合。无损压缩是指可以根据压缩的原始信号重构原始信号的精确副本的技术。当使用有损压缩时,重构的信号可能与原始信号不同,但是原始信号与重构的信号之间的失真足够小,以使得重构的信号能够用于预期应用。在视频的情况下,广泛地采用有损压缩。容忍的失真量取决于应用;例如,某些消费者流媒体应用的用户可能比电视分配应用的用户容忍更高的失真。可实现的压缩比可以反映出:越高的可允许/可容忍的失真可以产生越高的压缩比。

4、视频编码器和解码器可以利用来自包括例如,运动补偿、变换、量化和熵编码的若干大类的技术。

5、视频编解码器技术可以包括被称为帧内编码的技术。在帧内编码中,在不参考来自先前重构的参考图片的样本或其他数据的情况下表示样本值。在一些视频编解码器中,图片在空间上被细分为样本块。当所有的样本块都以帧内模式编码时,该图片可以是帧内图片。帧内图片及其派生(例如,独立解码器刷新图片)可以用于重置解码器状态,并且因此可以用作编码视频比特流和视频会话中的第一幅图片,或用作静止图像。可以使帧内块的样本经受变换,并且可以在熵编码之前对变换系数进行量化。帧内预测可以是使预变换域中的样本值最小化的技术。在一些情况下,变换之后的dc值越小并且ac系数越小,在给定量化步长下表示熵编码之后的块所需的比特就越少。

6、传统的帧内编码,例如从例如mpeg-2代编码技术中已知的帧内编码,不使用帧内预测。然而,一些较新的视频压缩技术包括根据周围样本数据和/或例如在对空间上邻近并且解码顺序在先的数据块的编码和/或解码期间获得的元数据进行尝试的技术。这样的技术在下文中称为“帧内预测”技术。注意,在至少一些情况下,帧内预测使用仅来自重构下的当前图片的参考数据,而不使用来自参考图片的参考数据。

7、可以存在许多不同形式的帧内预测。当在给定视频编码技术中可以使用多于一种的这样的技术时,使用的技术可以在帧内预测模式下进行编码。在某些情况下,模式可以具有子模式和/或参数,并且这些子模式和/或参数可以被单独编码或被包括在模式码字中。针对给定模式、子模式和/或参数组合使用哪个码字可以通过帧内预测影响编码效率增益,并且因此用于将码字转换成比特流的熵编码技术也可以通过帧内预测影响编码效率增益。

8、帧内预测的某些模式通过h.264引入、在h.265中被细化,并且在诸如联合开发模型(joint exploration model,jem)、通用视频编码(versatile video coding,vvc)和基准集(benchmark set,bms)的较新编码技术中被进一步细化。使用属于已可用样本的邻近样本值,可以形成预测器块。根据方向将邻近样本的样本值复制到预测器块中。可以将对使用的方向的参考编码在比特流中,或者可以自己预测对使用的方向的参考。

9、参照图1a,右下方描绘的是从h.265的33个可能预测器方向(对应于35个帧内模式的33个角度模式)已知的九个预测器方向的子集。箭头相交的点(101)表示正被预测的样本。箭头表示对样本进行预测的方向。例如,箭头(102)指示根据右上方的与水平线成45度角的一个或多个样本对样本(101)进行预测。类似地,箭头(103)指示根据样本(101)左下方的与水平线成22.5度角的一个或多个样本对样本(101)进行预测。

10、仍然参照图1a,左上方描绘的是4×4个样本的正方形块(104)(由黑体虚线指示)。正方形块(104)包括16个样本,每个样本均用“s”、其在y维度上的位置(例如,行索引)以及其在x维度上的位置(例如,列索引)来标记。例如,样本s21是y维度上(从顶部起)的第二样本并且是x维度上(从左侧起)的第一样本。类似地,样本s44是在y维度和x维度两者上块(104)中的第四个样本。由于块的大小是4×4个样本,因此s44在右下方。另外示出的是遵循类似的编号方案的参考样本。参考样本用r、其相对于块(104)的y位置(例如,行索引)和x位置(列索引)来标记。在h.264和h.265二者中,预测样本与重构下的块相邻;因此不需要使用负值。

11、帧内图片预测可以通过从沿着用信令通知的预测方向合适的相邻样本复制参考样本值来工作。例如,假设编码视频比特流包括信令,针对该块,该信令指示与箭头(102)一致的预测方向——即,根据与水平线成45度角的右上方的一个或多个预测样本来预测样本。在这种情况下,根据同一参考样本r05来预测样本s41、s32、s23和s14。然后,根据参考样本r08来预测样本s44。

12、在某些情况下,可以例如,通过插值将多个参考样本的值进行组合以便计算参考样本;尤其是当方向不能以45度均匀可分割时。

13、随着视频编码技术的发展,可能的方向的数量也在增加。在h.264(2003年)中,可以表示九个不同的方向。在h.265(2013年)中,增加到33个,并且jem/vvc/bms在公开时可以支持多至65个方向。已经进行了实验来识别最可能的方向,并且熵编码中的某些技术被用于以少量的比特表示这些可能的方向,代价是较少的可能的方向。此外,有时可以根据在相邻的已解码的块中使用的相邻方向来预测方向本身。

14、图1b示出了示意图(110),其描绘根据jem的65个帧内预测方向以示出预测方向的数量随时间增加。

15、编码视频比特流中表示方向的帧内预测方向比特的映射可以根据不同的视频编码技术而不同;并且该映射的范围可以例如从预测方向的简单直接映射到帧内预测模式,码字,涉及最可能模式的复杂自适应方案以及类似技术。然而,在所有情况下,可能存在与某些其他方向相比统计上较不可能在视频内容中出现的某些方向。由于视频压缩的目标是减少冗余,因此在运转良好的视频编码技术中,与更可能的方向相比,那些较不可能的方向将由更大数量的比特来表示。

16、运动补偿可以是有损压缩技术,并且可以涉及下述技术:在该技术中,来自先前重构的图片或其部分(参考图片)的样本数据的块,在由运动矢量(下文中为mv)指示的方向上空间移位之后,被用于预测重新重构的图片或图片部分。在一些情况下,参考图片可以与当前重构下的图片相同。mv可以具有两个维度x和y,或者具有三个维度,第三个维度是使用中的参考图片的指示(间接地,第三个维度可以是时间维度)。

17、在一些视频压缩技术中,可以根据其他mv预测适用于样本数据的特定区域的mv,例如根据与样本数据的与重构下的区域在空间上相邻的另一区域有关并且在解码顺序上在该mv之前的mv,来预测该mv。上述预测可以大幅减少对mv进行编码所需的数据量,从而消除冗余并且增加压缩。mv预测可以有效地工作,例如,原因是在对从摄像机得出的输入视频信号(称为自然视频)进行编码时,存在比可适用单个mv的区域更大的区域在相似方向上移动的统计上的可能性,并且因此在一些情况下可以使用从相邻区域的mv得出的相似运动矢量来预测所述更大的区域。这使得针对给定区域得到的mv与根据周围mv预测的mv相似或相同,并且又可以在熵编码之后以与在直接对mv进行编码的情况下将使用的比特相比更少数量的比特来表示mv。在一些情况下,mv预测可以是根据原始信号(即,样本流)得出的信号(即,mv)的无损压缩的示例。在其他情况下,mv预测本身可以是有损的,例如由于在根据若干周围mv计算预测器时的舍入误差而是有损的。

18、在h.265/hevc(itu-t h.265建议书,“high efficiency video coding”,2016年12月)中描述了各种mv预测机制。在h.265提供的多种mv预测机制中,在此描述的是在下文中称为“空间合并”的技术。

19、参照图2,当前块(201)包括能够根据已经空间移位的相同大小的先前块预测的在运动搜索过程期间由编码器得到的样本。代替直接对该mv进行编码,可以使用与用a0、a1和b0、b1、b2(分别对应202至206)表示的五个周围样本中的任一样本相关联的mv,从与一个或更多个参考图片相关联的例如从最近(在解码顺序上)的参考图片得出mv。在h.265中,mv预测可以使用来自相邻块正在使用的同一参考图片的预测器。


技术实现思路

1、本公开内容的各方面提供了用于视频编码和解码的方法和装置。在一些示例中,一种用于视频解码的装置包括处理电路系统。该处理电路系统被配置成对要从编码视频比特流重构的图像的块进行重构。处理电路系统可以对编码视频比特流中的第一去块信息进行解码,该第一去块信息包括视频解码器中的深度神经网络(deep neural network,dnn)的第一去块参数。dnn的第一去块参数是先前已经通过内容自适应训练过程确定的更新参数。处理电路系统可以基于包括在第一去块信息中的第一去块参数针对包括重构块中的样本子集的第一边界区域确定视频解码器中的dnn。处理电路系统可以基于对应于第一去块参数的所确定的dnn来对包括重构块中的样本子集的第一边界区域进行去块。

2、在实施方式中,重构块包括第一相邻重构块,第一相邻重构块具有第一共享边界并且包括在第一共享边界的两侧上的样本的第一边界区域。第一相邻重构块还包括在第一边界区域之外的非边界区域。用去块后的第一边界区域替换第一相邻重构块中的第一边界区域。

3、在实施方式中,第一去块参数是dnn中的偏置项或权重系数。

4、在实施方式中,dnn配置有初始参数。处理电路系统可以基于第一去块参数更新初始参数中的一个初始参数。

5、在实施方式中,第一去块信息指示第一去块参数与初始参数中的所述一个初始参数之间的差。处理电路系统可以根据该差和初始参数中的所述一个初始参数的和来确定第一去块参数。

6、在实施方式中,重构块包括第二相邻重构块,第二相邻重构块具有第二共享边界并且包括在第二共享边界的两侧上的样本的第二边界区域。处理电路系统可以对与第二边界区域对应的编码视频比特流中的第二去块信息进行解码。第二去块信息指示先前已经通过内容自适应训练过程确定的第二去块参数。第二边界区域可以不同于第一边界区域。处理电路系统可以基于第一去块参数和第二去块参数更新dnn。更新的dnn对应于第二边界区域,并且被配置有第一去块参数和第二去块参数。处理电路系统可以基于对应于第二边界区域的更新的dnn来对第二边界区域进行去块。

7、在实施方式中,重构块包括重构块的第二相邻重构块,第二相邻重构块具有第二共享边界并且包括具有在第二共享边界的两侧上的样本的第二边界区域。处理电路系统可以基于对应于第一边界区域的所确定的dnn来对第二边界区域进行去块。

8、在实施方式中,dnn的层的数目取决于第一边界区域的大小。

9、在实施方式中,第一边界区域还包括在第三共享边界的两侧上的样本,第三共享边界在包括在重构块中的第三两个相邻重构块之间。第一两个相邻重构块不同于第三两个相邻重构块。

10、本公开内容的各方面还提供了一种存储程序的非暂态计算机可读存储介质,所述程序能够由至少一个处理器执行以执行用于视频解码的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1