调整运动矢量差的自适应分辨率的方案的制作方法

文档序号:35651762发布日期:2023-10-06 11:55阅读:35来源:国知局
调整运动矢量差的自适应分辨率的方案的制作方法

本公开总体上涉及视频编解码,更具体地涉及在针对运动矢量差实施自适应分辨率时提供用于设置允许运动矢量差值的方案的方法和系统。


背景技术:

1、本文中提供的背景技术描述是为了大体上呈现本技术的上下文。在此背景技术部分描述的程度上,当前署名的发明人的工作,以及在本技术提交时可能不具有作为现有技术的资格的描述的各方面,既不明确认为也不隐含认为是本技术的现有技术。

2、视频编码和解码可以使用具有运动补偿的图片间预测,未压缩的数字视频可包括一系列的图片,每个图片具有一定的空间维度,例如,具有1920×1080的亮度样本和相关的全色度样本或子采样的色度样本。所述一系列的图片可以具有固定的或可变的图片速率(可替换地称为帧率),例如,每秒60个图片或每秒60个帧。未压缩的视频对于流式传输或数据处理有着特定的比特率要求。例如,具有1920×1080的像素分辨率、每秒60帧的帧率以及每个颜色通道每个像素8比特的4:2:0的色度下采样的视频需要接近1.5gbit/s的带宽。这样的视频一小时需要超过600gb的存储空间。

3、视频编码和解码的一个目的可以是通过压缩来减少未压缩的输入视频信号中的冗余。压缩可有助于降低上述带宽和/或存储空间的要求,在一些情况下,可降低两个或更多的数量级。无损压缩和有损压缩以及其组合均可以用于视频编码和解码。无损压缩是指可以由压缩的原始信号通过解码过程重建原始信号的精确副本的技术。有损压缩是指原始视频信号在编码过程中未完全保持、在解码过程中未完全恢复的编码/解码过程。当使用有损压缩时,重建的信号可能与原始信号不完全一致,但是使原始信号与重建的信号之间的失真小得足以致使重建的信号可以用于预期应用,虽然有一些信息损失。对于视频,有损压缩广泛应用于许多应用中。有损压缩可容许的失真量取决于应用。例如,与电影或电视广播应用的用户相比,某些视频流式传输应用的消费者用户可以容忍较高的失真。特定的编码算法可实现的压缩比可以选择或调节,以反应各种失真容差:可容许的失真越高,通常允许使用可产生较高损失和较高压缩比的编码算法。

4、视频编码器和解码器可以使用几大类技术和步骤,包括例如运动补偿、傅里叶变换、量化和熵编码。

5、视频编解码技术可以包括帧内编码技术。在帧内编码技术中,样本值的表示不参考先前已重建的参考图片中的样本或其它数据。在一些视频编解码技术中,将图片从空间上划分为样本块。当所有的样本块都是通过帧内模式进行编码时,该图片可以称作帧内图片。帧内图片以及他们的衍生图片,例如,独立解码器刷新的图片,可以用于对解码器的状态进行重置,因此可以用作已编码视频码流和视频会话中的第一幅图片,或者作为一副静止图片。然后可以将经过帧内预测的块的样本变换到频域,并且可以在进行熵编码之前,对如此生成的变换系数进行量化。帧内预测表示一种将样本值在预变换域最小化的技术。在一些情况下,变换后的dc值越小以及ac系数越小,给定量化步长大小的情况下,表示熵编码后的块所需的比特数目越少。

6、传统的帧内编码技术,例如,已知的mpeg-2编码技术并不使用帧内预测。然而,一些较新的视频压缩技术包括尝试基于例如邻近的样本数据和/或元数据对块进行编码/解码的技术,所述邻近的样本数据和/或元数据是在对与正在帧内编码或解码中的数据快空间上相邻且解码顺序上在先的数据块进行编码和/或解码的过程中获得的。因此,这种技术称为“帧内预测”技术。请注意,至少在一些情况下,帧内预测仅使用正在重建的当前图片中的参考数据,而不使用其他参考图片中的参考数据。

7、帧内预测可以有很多种不同的形式。当给定的视频编码技术中有一个以上的这种技术可用时,该使用中的技术可以称作帧内预测模式。一个或多个帧内预测模式可以提供在特定的编解码中。在某些情况下,一些模式具有子模式和/或与各种参数相关联,视频块的模式/子模式信息和帧内编码参数可以单独编码或者可以集体包含在模式码字中。某个给定模式/子模式和/或参数的组合使用何种码字,会通过帧内预测影响到编码效率增益,将码字转译为码流所用的熵编码技术同样对其也会产生影响。

8、h.264标准引入了某个模式的帧内预测,h.265标准对其进行了改进,在较新的编码技术中,例如,联合探索模型(jem)、通用视频编码(vvc)、基准集合(bms)等等,对其进一步进行了改进。通常,对于帧内预测,预测子(predictor)块可以使用已经可用的相邻的样本值形成。例如,可以将沿着特定方向和/或行的特定集合的相邻样本的可用值复制到预测子块中。所使用的方向的参考可以编码到码流中,或者其本身可以预测。

9、参考图1a,在其右下方描绘的是h.265标准的33个可能的帧内预测子方向(predictor direction)(对应于h.265标准中规定的35个帧内模式的33个角度模式)中已知的一个具有9个预测子方向的子集。其中,各箭头的汇聚点(101)表示正在预测中的样本。箭头表示使用相邻样本对101处的样本进行预测的方向。例如,箭头(102)表示根据与水平轴成45度角度的右上角的一个或多个相邻样本,对样本(101)进行预测。类似地,箭头(103)表示根据与水平方向成22.5度角度的左下角的一个或多个相邻样本,对样本(101)进行预测。

10、仍参考图1a所示,图1a的左上方描绘的是一个具有4×4个样本的正方形块(104)(用加粗的虚线表示)。正方形块(104)包括16个样本,每个样本标记有“s”、其在y维度上的位置(例如,行索引)以及其在x维度上的位置(例如,列索引)。例如,样本s21是在y维度上的第二个(从上往下数)、x维度上的第一个(从左往右数)样本。类似地,样本s44是在块(104)中x维度和y维度上都是第四的样本。因为该块的大小是4×4个样本,所以s44是在其右下角。图1a进一步示出了示例参考样本,参考样本遵循类似的编号方法。参考样本标记有r、其相对于所述块(104)的y位置(例如,行索引)和x位置(例如,列索引)。在h.264标准和h.265标准中,使用与重建中的块紧邻的预测样本。

11、块104的帧内图片预测可以开始于根据信号表示的预测方向,通过复制相邻样本的参考样本值。例如,假设已编码视频码流中包含有信令,对于所述块104,该信令表示了箭头(102)的预测方向,即,根据与水平方向成45度角度的右上角的一个或多个参考样本对所述块中的样本进行预测。在这种情况下,样本s41、s32、s23、s14是根据同一个参考样本r05进行预测的。样本s44是根据参考样本r08进行预测的。

12、在某些情况下,可以例如通过插值,组合多个参考样本的值,以便计算一个参考样本;特别是当方向不能被45度整除时。

13、随着视频编码技术的不断发展,可能的方向的数目也在增加。在h.264标准(2003年)中,例如,9个不同的方向可用于帧内预测。在h.265标准(2013年)中,增加到33个方向。到本技术发明时,jem/vvc/bms可以支持多达65个方向。目前已经进行了一些实验研究帮助识别最合适的帧内预测方向,一些熵编码技术用很少的比特数对这些最合适的方向进行编码,对于方向,接受一定的比特代价。此外,有时候这些方向本身是可以根据相邻的已解码的块在帧内预测时所使用的相邻方向进行预测的。

14、图1b示出了一个描绘根据jem的65个帧内预测方向的示意图(180),用于说明各种编码技术中预测方向的数目随着时间的变化而增加。

15、在已编码视频码流中将表示帧内预测方向的比特映射到预测方向随视频编码技术的不同而不同;例如,变化范围可以是从简单直接地将帧内预测模式的预测方向映射到码字,到涉及最有可能的模式和类似技术的复杂的自适应方案。然而,在所有这些情况下,依据统计,相对于其它方向而言,某些用于帧内预测的方向比较不可能出现在视频内容中。由于视频压缩的目的是减少冗余,因此,在性能较好的视频编码技术中,与比较可能的方向相比,这些比较不可能出现的方向会用较多的比特来表示。

16、帧内预测或帧间预测可以基于运动补偿。在运动补偿中,来自先前已重建图片或其一部分(参考图片)的样本数据块,在由运动矢量(此后称为mv)指示的方向上空间移位之后,可以用于预测新重建的图片或图片部分(例如,块)。在一些情况下,参考图片可与当前正在重建的图片相同。mv可具有两个维度x和y,或三个维度,第三维度指示使用中的参考图片(即时间维度)。

17、在一些视频压缩技术中,适用于某一样本数据区域的当前mv,可根据其它mv进行预测,例如,根据与正在重建的区域空间相邻、且解码顺序在所述mv之前的另一样本数据区域相关的其它mv进行预测。这样做,通过消除相关联mv冗余,可充分减少对所述mv编码所需的总数据量,从而提高压缩效率。举例来说,mv预测可有效地运作,因为当对源自相机的输入视频信号(称为天然视频)进行编码时,存在如下的统计可能性:比单个mv适用的区域大的区域,在视频序列中类似方向上移动,且因此,可在一些情况下使用从相邻区域的mv导出的类似运动矢量进行预测。这使得给定区域中的实际mv与根据周围mv预测的mv类似或相同。这样的mv,在熵编码之后,与在直接对mv编码而不是根据相邻mv预测的情况下所使用的比特数目相比,可以用较少的比特数表示。在一些情况下,mv预测可以是从原始信号(即:样本流)导出的信号(即:mv)的无损压缩的实例。在其它情况下,mv预测本身可能是有损的,例如是由于在根据周围若干mv计算预测子时的取整误差导致的。

18、h.265/hevc(itu-t h.265建议书,“高效视频编解码(high efficiency videocoding)”,2016年12月)中描述了各种mv预测机制。在h.265规定的多种mv预测机制中,下文描述的是称为“空间合并”的技术。

19、具体地,参考图2所示,当前块(201)包括编码器在运动搜索过程中找到的、可从与当前块大小相同的前一个块(已经空间移位)预测的样本。所述mv不是直接进行编码,而是可以使用与五个周围样本(记作a0、a1、b0、b1、b2(分别是202至206))中任何一个周围样本相关联的mv,从与一个或多个参考图片(例如,最近的(按解码顺序)参考图片)相关联的元数据推导出。在h.265中,mv预测可以使用与其相邻块使用的参考图片相同的参考图像的预测子。


技术实现思路

1、本公开总体上涉及视频编码,特别是涉及基于是否应用了帧间预测中的运动矢量差的取决于量值的自适应分辨率,信令各种运动矢量或运动矢量差相关的语法的方法和系统。

2、在示例实施方式中,公开了一种处理视频流的当前视频块的方法。所述方法包括:接收视频流;基于预测块和运动矢量(mv),确定当前视频块是帧间编码,其中,所述mv待从用于当前视频块的参考运动矢量(rmv)和运动矢量差(mvd)导出。所述方法进一步包括:响应于确定mvd是用自适应mvd像素分辨率编码的:确定用于当前视频块的参考mvd像素精度;识别最大允许的mvd像素精度;基于参考mvd像素精度和最大允许的mvd像素精度,确定用于当前视频块的允许mvd级集;以及根据在所述视频流中发信号通知的用于当前视频块的至少一个mvd参数和允许mvd级集,从视频流中导出mvd。

3、在上述实施方式中,用于当前视频块的参考mvd像素精度是在序列级、图片级、帧级、超块级或编码块级指定/发信号通知/导出。

4、在上述任一实施方式中,用于当前视频块的参考mvd像素精度取决于与当前视频块的mvd相关联的mvd类别。

5、在上述任一实施方式中,用于当前视频块的参考mvd像素精度取决于当前视频块的mvd的mvd量值。在上述任一实施方式中,最大允许的mvd像素精度是预定义的。

6、在上述任一实施方式中,所述方法可以进一步包括:从预定义mvd类别集中确定当前mvd类别。基于参考mvd像素精度和最大允许的mvd像素精度,确定用于mvd的允许mvd级集,可以包括:从基于参考mvd像素精度和当前mvd类别确定的参考mvd级集中,排除与等于或高于最大允许的mvd像素精度的mvd像素精度相关联的mvd级,以确定用于当前视频块的允许mvd级集。

7、在上述任一实施方式中,最大允许的mvd像素精度是1/4像素。

8、在上述任一实施方式中,将与1/8像素或更高精度相关联的mvd级,排除在用于当前视频块的允许mvd级集之外。

9、在上述任一实施方式中,所述方法可以进一步包括:从预定义mvd类别集中确定当前mvd类别。当当前mvd类别等于或低于阈值mvd类别时,无论参考mvd精度如何,与分数mvd精度相关联的mvd级可以是包括在允许mvd级集中。

10、在上述任一实施方式中,阈值mvd类别可以是预定义mvd类别集中的最低mvd类别。

11、在上述任一实施方式中,所述方法可以进一步包括:确定mvd的量值,其中,仅当mvd的量值等于或低于阈值mvd量值时,才允许在允许mvd级集中使用与高于阈值mvd精度的mvd精度相关联的mvd级。

12、在上述任一实施方式中,阈值mvd量值为2像素或更小。

13、在上述任一实施方式中,阈值mvd精度为1像素。

14、在上述任一实施方式中,仅当mvd的量值等于或低于1/2像素时,才允许使用与1/4像素或更高的mvd精度相关联的mvd级。在上述任一实施方式中,最大允许的mvd像素精度不大于参考mvd像素精度。

15、在另一实施方式中,提供了一种用于处理视频流的当前视频块的方法。所述方法包括:接收视频流;确定当前视频块是帧间编码且与多个参考帧相关联;以及基于视频流中的信令,确定自适应运动矢量差(mvd)像素分辨率是否应用于多个参考帧中的至少一个。

16、在上述实施方式中,所述信令可以包括单个比特标志,以指示自适应mvd像素分辨率是应用于所有多个参考帧,还是不应用于多个参考帧中的任何一个。

17、在上述任一实施方式中,所述信令包括分开的标志,每个标志对应于多个参考帧中的一个参考帧,以指示是否应用自适应mvd像素分辨率。

18、在上述任一实施方式中,对于多个参考帧中的每一个,所述信令包括:隐式指示,当对应于多个参考帧中的每一个的mvd为零时,用于指示不应用自适应mvd像素分辨率;以及单个比特标志,当对应于多个参考帧中的每一个的mvd为非零时,用于指示是否应用自适应mvd像素分辨率。

19、在另一实施方式中,提供了一种用于处理视频流的当前视频块的方法。所述方法包括:接收视频流;基于预测块和运动矢量(mv),确定当前视频块是帧间编码,其中,所述mv待从用于当前视频块的参考运动矢量(rmv)和运动矢量差(mvd)导出;从预定义mvd类别集中确定mvd的当前mvd类别;基于当前mvd类别,导出用于对视频流中的至少一个显式信令进行熵解码的至少一个上下文,至少一个显式信令包括在视频流中,以指定用于mvd的至少一个分量的mvd像素分辨率;以及使用至少一个上下文,对所述视频流中的所述至少一个显式信令进行熵解码,以确定用于mvd的至少一个分量的mvd像素分辨率。

20、在上述实施方式中,mvd的至少一个分量可以包括mvd的水平分量和垂直分量,至少一个上下文可以包括两个单独的上下文,每个上下文与mvd的水平分量和垂直分量中的一者相关联,水平分量和垂直分量与单独的mvd像素分辨率相关联。

21、本公开的各个方面还提供一种视频编码或解码设备或装置,包括被配置为执行上述任一方法实施方式的电路。

22、本公开的各个方面还提供了存储指令的非易失性计算机可读介质,所述指令当由用于视频解码和/或编码的计算机执行时,使计算机执行视频解码和/或编码的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1