用于限制运动矢量差的方法和设备与流程

文档序号:35073446发布日期:2023-08-09 17:27阅读:33来源:国知局
用于限制运动矢量差的方法和设备与流程

本公开总体上涉及视频编码,尤其涉及用于提供用于限制运动矢量差(motionvector difference,mvd)的信令方案的方法和系统。


背景技术:

1、本文所提供的背景描述是出于总体上呈现本公开的内容的目的。在背景技术部分以及本说明书的各个方面中所描述的目前已署名的发明人的工作所进行的程度,并不表明其在本技术提交时作为现有技术,且从未明示或暗示其被承认为本公开的现有技术。

2、视频编码和解码可使用带有运动补偿的图片间预测来执行。未压缩的数字视频可包括一系列图片,每个图片具有例如为1920×1080的亮度样本及相关联的全色度样本或二次采样的色度样本的空间尺寸。该一系列图片可具有例如每秒60幅图片或每秒60帧的固定或可变的图片速率(或者称为帧率)。未压缩的视频具有用于流或数据处理的特定比特率要求。例如,像素分辨率为1920×1080、帧率为每秒60帧以及在每个颜色通道的每个像素为8位下色度二次采样为4:2:0的视频需要接近1.5gbit/s的带宽。一小时的此类视频需要600gb以上的存储空间。

3、视频编码和解码的一个目的可以是通过压缩来减少输入未压缩视频信号中的冗余。压缩可有助于减小上述带宽和/或存储空间需求,在一些情况下可减小两个数量级或大于两个数量级。可采用无损压缩和有损压缩以及它们的组合。无损压缩指的是可以通过解码处理从已压缩的原始信号中重建原始信号的精确副本的技术。有损压缩指的是在编码过程中原始视频信息不能完全保留并且在解码过程中不能完全恢复的编码/解码过程。当使用有损压缩时,已重建的信号可能与原始信号不同,但是原始信号和已重建的信号之间的失真足够小,以使已重建的信号虽然有一些信息丢失但可用于预期的应用。在视频的情况下,在许多应用中广泛采用有损压缩。可容忍的失真量取决于应用。例如,某些消费视频流式应用的用户相比电影或电视广播应用的用户来说可以容忍更高的失真。可以选择或调整通过特定编码算法可实现的压缩比来反映各种失真容忍度:较高的可容忍失真通常允许产生较高损耗和较高压缩比的编码算法。

4、视频编码器和解码器可利用来自多个宽泛类别和步骤的技术,这些技术包括例如运动补偿、傅里叶变换、量化和熵编码。

5、视频编解码器技术可包括称为帧内编码的技术。在帧内编码中,在不参考来自先前重建的参考图片的样本或其它数据的情况下表示样本值。在一些视频编解码器中,图片在空间上细分成样本块。当所有样本块都以帧内模式编码时,该图片可以被称为帧内图片。帧内图片及其派生物(例如,独立解码器刷新图片)可用于重置解码器状态,因此可用作已编码视频码流和视频会话中的第一张图片,或者用作静止图像。然后,帧内预测之后的块的样本可以经受到频域的变换,并且可以在熵编码之前量化这样产生的变换系数。帧内预测表示一种使预变换域中的样本值最小化的技术。在一些情况下,变换之后的dc值越小,且ac系数越小,则在给定的量化步长下表示熵编码之后的块所需的位越少。

6、例如从诸如mpeg-2代编码技术已知的传统帧内编码不使用帧内预测。然而,一些更新的视频压缩技术包括基于例如在空间相邻的编码和/或解码期间获得的、按解码次序在帧内编码或解码的数据块之前的周围样本数据和/或元数据来进行尝试块的编码/解码的技术。在下文中这样的技术称为“帧内预测”技术。应注意,至少在一些情况下,帧内预测仅使用来自正在重建的当前图片的参考数据,而不使用来自其他参考图片的参考数据。

7、帧内预测可以有许多不同形式。当在给定的视频编码技术中可使用不止一种这样的技术时,使用中的技术可以称为帧内预测模式。可以在特定的编解码器中提供一个或多个帧内预测模式。在一些情况下,模式可具有子模式和/或可以与各种参数关联,并且用于视频块的模式/子模式信息和帧内编码参数可以被单独地编码或集体地包括在模式码字中编码。给定的模式、子模式和/或参数组合使用哪个码字,可能会影响通过帧内预测的编码效率增益,因此可能会影响用于将码字转换成码流的熵编码技术。

8、h.264引入了某种帧内预测模式,该帧内预测模式在h.265中得到完善,且在诸如联合探索模型(jem)、下一代视频编码(vvc)和基准集(bms)的更新的编码技术中进一步得到完善。通常,对于帧内预测,可使用属于已经变成可用的相邻样本值来形成预测块。例如,可以将沿着特定方向和/或线的特定相邻样本组的可用值复制到预测器块中。对使用中的方向的参考可以在码流中进行编码,或者可以对其本身进行预测。

9、参考图1a,在右下方描绘了在h.265的33种可能的帧内预测方向(对应于在h.265中指定的35个帧内模式的33个角模式)中指定的9个预测方向的子集。箭头汇聚的点(101)表示正在被预测的样本。箭头表示用于从其预测在101处的样本的相邻样本的方向。例如,箭头(102)指示从在右上方、与水平方向成45度角的一个或多个相邻样本预测样本(101)。类似地,箭头(103)指示从在样本(101)的左下方、与水平方向成22.5度角的一个或多个相邻样本预测样本(101)。

10、仍然参考图1a,在左上方描绘了4×4个样本的正方形块(104)(由粗体虚线指示)。正方形块(104)包括16个样本,每个样本用“s”、其在y维度上的位置(例如,行索引)和其在x维度上的位置(例如,列索引)来标记。例如,样本s21是在y维度上(从顶部开始)的第二个样本和在x维度上(从左侧开始)的第一个样本。类似地,样本s44是在y和x维度上、块(104)中的第四个样本。由于块的尺寸为4×4个样本,因此s44位于右下角。还示出了遵循类似编号方案的示例性参考样本。参考样本用r、其相对于块(104)的y位置(例如,行索引)和x位置(列索引)来标记。在h.264和h.265中,使用了与正在重建的块紧密相邻的预测样本。

11、块104的帧内图片预测可通过根据用信号表示的预测方向从相邻样本复制参考样本值来开始。例如,假设已编码视频码流包括信令,该信令针对该块104指示箭头(102)的预测方向,即从在右上方、与水平方向成45度角的一个或多个预测样本来预测样本。在这种情况下,从同一个参考样本r05预测样本s41、s32、s23和s14。然后从参考样本r08预测样本s44。

12、在一些情况下,可例如通过插值来组合多个参考样本的值,以计算参考样本;尤其是当方向无法以45度均匀分开时。

13、随着视频编码技术继续发展,可能的方向的数量增加。在h.264(2003年)中,例如九个不同的方向可用于帧内预测。在h.265(2013年)中,增加到33个方向,以及在本公开时,jem/vvc/bms可支持多达65个方向。已进行实验研究来帮助识别最合适的帧内预测方向,且熵编码中的一些技术可用于以少量比特编码那些最合适的方向,对于方向,接受一定位的代价。此外,有时可以根据在已经解码的相邻块的帧内预测中使用的相邻方向来预测方向本身。

14、图1b示出了示意图(180),其描绘了根据jem的65个帧内预测方向,以说明随着时间的推移开发的在各种编码技术中的预测方向的数量增加。

15、表示帧内预测方向的位向已编码视频码流中的预测方向映射的方式,可能因视频编码技术的不同而不同;例如,其范围可以从预测方向简单直接映射到帧内预测模式,映射到码字,映射到涉及最可能模式的复杂自适应方案,以及类似技术。然而,在所有情况下,可存在某些用于帧内预测的方向,这些方向与某些其它方向相比,在统计上在视频内容中出现的可能性较小。由于视频压缩的目标是减少冗余,因此在一种设计良好的视频编码技术中,那些不太可能的方向相比更可能的方向来说,将由更多的位数表示。

16、图片间预测或帧间预测可以基于运动补偿。在运动补偿中,来自先前重建的图片或其部分(参考图片)的样本数据块在沿着由运动矢量(此后称为mv)指示的方向在空间上偏移之后,可以用于预测新重建的图片或图片部分(例如,块)。在一些情况下,参考图片可与当前正在重建的图片相同。mv可具有x和y两个维度,或具有三个维度,第三个维度指示正在使用的参考图片(与时间维度类似)。

17、在一些视频压缩技术中,可根据其它mv,例如根据在空间上与正在重建的区域相邻的且按解码次序在当前mv之前的样本数据的其他区域相关的其它mv来预测适用于样本数据的某个区域的当前mv。这样做可大大减少通过依赖去除相关mv中的冗余对mv进行编码所需的数据量,从而提高压缩效率。mv预测可有效地工作,例如,由于在对从相机获得的输入视频信号(称为自然视频)进行编码时,存在以下统计可能性:比单个mv适用的区域更大的区域沿着在视频序列中相似的方向移动,因此在一些情况下,可使用从相邻区域的mv导出的相似运动矢量来预测该更大的区域。这使得被认为是用于给定区域的实际的mv与根据周围mv所预测的mv相似或相同。在熵编码之后,这样的mv又可以用比直接对mv进行编码而非从相邻的mv中预测时使用的位数更少的位数来表示。在其他情况下,mv预测可以是无损压缩从原始信号(即:样本流)中导出的信号(即:mv)的示例。在其它情况下,例如由于根据多个周围mv计算预测值时出现舍入误差,使得mv预测本身可以是有损的。

18、h.265/hevc(itu-t h.265建议书,“high efficiency video coding(高效视频编码)”,2016年12月)中描述了各种mv预测机制。在h.265指定的多种mv预测机制中,本文描述的是下文称为“空间合并”的技术。

19、具体地,参考图2,当前块(201)包括在运动搜索过程期间已由编码器找到的样本,可根据已产生空间偏移的相同尺寸的先前块来预测该样本。可以从与一个或多个参考图片相关联的元数据中导出mv,而非直接对该mv进行编码,例如使用与被标记为a0、a1和b0、b1、b2(分别对应202到206)的五个周围样本中的任一样本相关联的mv,(按解码次序)从最近的参考图片中导出该mv。在h.265中,mv预测可使用来自相邻块使用的相同参考图片的预测值。


技术实现思路

1、本公开描述了用于限制运动矢量差(mvd)的方法、装置和计算机可读存储介质的各种实施例。

2、根据一方面,本公开的实施例提供了一种用于解码视频比特流的当前视频块的方法。该方法包括由设备接收编码的视频比特流。该设备包括存储指令的存储器和与存储器通信的处理器。该方法还包括由该设备从编码的视频比特流获得针对当前视频块的运动矢量差(mvd),其中,当前视频块是处在复合参考模式中的帧间编码块;该设备确定mvd是否是针对仅一个预测方向发信令通知的;响应于确定mvd是针对仅一个预测方向发信令通知的,该设备将mvd限制为预定义的方向;以及该设备基于mvd解码当前视频块。

3、根据另一方面,本公开的实施例提供了一种用于解码视频比特流的当前视频块的装置。该装置包括存储指令的存储器和与存储器通信的处理器。当处理器执行指令时,处理器被配置为使装置执行用于视频解码和/或编码的上述方法。

4、在另一方面,本公开的实施例提供了存储指令的非暂态计算机可读介质,当由计算机执行指令以进行视频解码和/或编码时,使计算机执行用于视频解码和/或编码的上述方法。

5、在附图、说明书和权利要求中更详细地描述了上述的方面和其他方面及其实现方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1