基于合并色度块的亮度色度预测的制作方法

文档序号:37314534发布日期:2024-03-13 21:07阅读:55来源:国知局
基于合并色度块的亮度色度预测的制作方法

本技术描述了一组高级视频编码技术。更具体地,所公开的技术涉及亮度色度预测。


背景技术:

1、本文提供的背景描述是为了总体呈现本技术的上下文。在该背景技术部分中描述的程度上,目前署名的发明人的工作以及该描述的在提交本技术时可能不符合现有技术所描述的方面,既不明确也不暗示地认定为是本技术的现有技术。

2、可以使用具有运动补偿的帧间图片预测来执行视频编码和解码。未压缩的数字视频可以包括一系列图片,每个图片具有例如1920×1080的亮度样本和相关的全采样或二次采样色度样本的空间维度。该系列图片可以具有固定或可变的图片速率(或者称为帧速率),例如,每秒60个图片或每秒60帧。未压缩视频对流或数据处理有特定的比特率要求。例如,像素分辨率为1920×1080、帧速率为60帧/秒、色度二次采样为4:2:0、每颜色信道每像素8位的视频需要接近1.5gbit/s的带宽。一小时这样的视频需要超过600g字节的存储空间。

3、视频编码和解码的一个目的是通过压缩来减少未压缩的输入视频信号中的冗余。在某些情况下,压缩有助于将上述带宽和/或存储空间需求降低两个数量级或更多。可以采用无损压缩和有损压缩及其组合。无损压缩是指这样的技术,其中,可以经由解码过程从压缩的原始信号中重构出原始信号的精确副本。有损压缩是指编码/解码过程,其中,原始视频信息在编码期间没有完全保留,并且在解码期间不能完全恢复。当使用有损压缩时,重构信号可能与原始信号不同,但是原始信号和重构信号之间的失真足够小,使得重构信号对预期应用有用,尽管有一些信息损失。在视频的情况下,在许多应用中广泛采用的是有损压缩。被容许的失真量取决于应用。例如,某些消费者视频流应用的用户可能比电影或电视广播应用的用户容忍更高的失真。可以选择或调整特定编码算法可实现的压缩比,以反映各种失真容限:较高的可容忍失真通常允许产生较高损失和较高压缩比的编码算法。

4、视频编码器和解码器可以利用几大类和步骤的技术,包括例如运动补偿、傅立叶变换、量化和熵编码。

5、视频编解码器技术可以包括称为帧内编码的技术。在帧内编码中,样本值是在不参考来自先前重构的参考图片的样本或其他数据的情况下表示的。在某些视频编解码器中,图片在空间上被细分为样本块。当所有样本块都以帧内模式编码时,该图片可以被称为帧内图片。帧内图片及其派生图片(例如,独立的解码器刷新图片)可以用于重置解码器状态,因此可以用作编码视频比特流和视频会话中的第一图片,或者用作静止图像。在帧内预测之后,块的样本然后可以进行到频域的变换,并且如在熵编码之前对如此生成的变换系数进行量化。帧内预测表示一种在预变换域中最小化样本值的技术。在一些情况下,变换后的dc值越小,ac系数越小,在给定量化步长下表示熵编码后的块所需的比特就越少。

6、例如,从mpeg-2代编码技术中已知的传统帧内编码不使用帧内预测。然而,一些较新的视频压缩技术包括尝试基于诸如周围样本数据和/或元数据对块进行编码/解码的技术,周围样本数据和/或元数据是在对空间上相邻的块进行编码和/或解码期间获得的,并且在解码顺序上在被帧内编码或解码的数据块之前。这种技术此后被称为“帧内预测”技术。注意,至少在一些情况下,帧内预测所使用的参考数据来自重构中的当前图片,而不是来自其他参考图片。

7、可以有许多不同形式的帧内预测。当在给定的视频编码技术中有一种以上这样的技术可用时,所使用的技术可以被称为帧内预测模式。在特定编解码器中可以提供一种或多种帧内预测模式。在某些情况下,模式可具有子模式和/或可与各种参数相关联,并且视频块的模式/子模式信息和帧内编码参数可被单独编码或集体编码,包括在模式码字中。对于给定的模式、子模式和/或参数组合,使用哪个码字会对通过帧内预测获得的编码效率产生影响,并且对于将码字转换成比特流的熵编码技术也会产生影响。

8、h.264引入了特定的帧内预测模式,在h.265中进行了改进,并在更新的编码技术中进一步改进,例如,联合探索模型(joint exploration model,简称jem)、通用视频编码(versatile video coding,简称vvc)和基准集(benchmark set,简称bms)。通常,对于帧内预测,可以使用已经变得可用的相邻样本值来形成预测块。例如,沿着特定方向和/或线的特定相邻样本集的可用值可以被复制到预测器块中。对使用中的方向的参考可以被编码进比特流中,或者可以被其本身预测出。

9、参考图1a,右下方描绘了h.265的33个可能的帧内预测方向(对应于h.265中指定的35个帧内模式的33个角度模式)中指定的9个预测方向的子集。箭头会聚的点101表示被预测的样本。箭头表示相邻样本用于预测101处的样本的方向。例如,箭头102指示样本101是从与水平方向成45o角的右上方的一个或多个相邻样本预测到的。类似地,箭头103指示样本101是从与水平方向成22.5o角的样本101左下方的一个或多个相邻样本预测到的。

10、仍然参考图1a,在左上方描绘了4×4样本的正方形块104(由粗虚线表示)。正方形块104包括16个样本,每个样本标有“s”,其在y维度上的位置(例如,行索引)和其在x维度上的位置(例如,列索引)。例如,样本s21是y维度中的第二个样本(从顶部算起)和x维度中的第一个样本(从左侧算起)。类似地,样本s44在y和x维度上都是块104中的第四个样本。由于该块的大小为4×4个样本,所以s44位于右下角。还示出了遵循类似编号方案的参考样本。参考样本用r标记、其相对于块的y位置(例如,行索引)和x位置(列索引)来标记104。在h.264和h.265中,使用与重构中的块相邻的预测样本。

11、块104的帧内图片预测可以从信令的预测方向指示的相邻样本中复制参考样本值来开始。例如,假设经编码的视频比特流包含信令,其针对此块104指示箭头102的预测方向——即,从与水平方向成45o角的右上方的样本来预测一个或多个预测样本。在这种情况下,从相同的参考样本r05预测样本s41、s32、s23和s14。然后从参考样本r08预测样本s44。

12、在某些情况下,多个参考样本的值可以组合,例如,通过插值,以便计算参考样本;尤其是当方向不能被45o整除时。

13、随着视频编码技术的持续发展,可能的方向的数量已经增加。例如,在h.264(2003年)中,九个不同方向可用于帧内预测。这在h.265(2013年)中增加到33个,并且在本技术时,jem/vvc/bms可以支持多达65个方向。已经进行了实验研究,来帮助识别最合适的帧内预测方向,并且熵编码中的某些技术可以用于以少量比特对那些最合适的方向进行编码,接受方向的某个比特损失。此外,有时可以根据已经解码的相邻块的帧内预测中使用的相邻方向来预测方向本身。

14、图1b示出了示意图180,描绘了根据jem的65个帧内预测方向,以说明随着时间发展的各种编码技术中预测方向的数量增加。

15、将表示帧内预测方向的比特映射到编码视频比特流中的预测方向的方式可以根据视频编码技术的不同而不同;并且范围可以从例如预测方向到帧内预测模式的简单直接映射到码字,到涉及最可能模式的复杂自适应方案,以及类似的技术。然而,在所有情况下,与某些其他方向相比,帧内预测的某些方向在统计上不太可能出现在视频内容中。由于视频压缩的目标是减少冗余,在设计良好的视频编码技术中,那些不太可能的方向将由比更可能的方向更多的比特来表示。

16、帧间图片预测或帧间预测可以基于运动补偿。在运动补偿中,来自先前重构的图片或其一部分(参考图片)的样本数据在由运动矢量(此后称为mv)指示的方向上进行空间移位之后,可以用于预测新重构的图片或图片部分(例如,块)。在某些情况下,参考图片可以与当前正在重构的图片相同。mv可以具有两个维度x和y,或者三个维度,第三个维度是使用中的参考图片的指示(类似于时间维度)。

17、在一些视频压缩技术中,可应用于样本数据的某一区域的当前mv可从其他mv中预测,例如,从与样本数据的其他区域相关的那些其他mv中预测,其他区域在空间上与重构中的区域相邻并且在解码顺序上在当前mv之前。这样做可以通过去除相关mv中的冗余来显著减少编码mv所需的数据总量,从而提高压缩效率。mv预测可以有效地工作,例如,因为当对从相机导出的输入视频信号(称为自然视频)进行编码时,存在统计可能性,即比单个mv可应用的区域大的区域在视频序列中的相似方向上移动,因此,在某些情况下,可以使用从相邻区域的mv导出的相似运动矢量来预测。这导致对于给定区域发现的mv与从周围mv预测的mv相似或相同。在熵编码之后,这种mv又可以用比直接编码mv而不是从相邻mv预测的更少的比特数来表示。在某些情况下,mv预测可以是从原始信号(即:样本流)导出的信号(即:mv)的无损压缩的示例。在其他情况下,mv预测本身可能是有损耗的,例如,当从几个周围的mv计算预测值时,由于舍入误差。

18、在h.265/hevc(itu-t rec.h.265,“high efficiency video coding”,2016年12月)中描述各种mv预测机制。在h.265指定的许多mv预测机制中,下面描述一种此后被称为“空间合并”的技术。

19、具体地,参考图2,当前块(201)包括编码器在运动搜索过程中发现的样本,以便可从已经空间移位的相同大小的先前块中预测。并非直接编码该mv,可以使用与五个周围样本(表示为a0、a1和b0、b1、b2(分别为202至206))中的任一个相关联的mv,从与一个或多个参考图片相关联的元数据中导出该mv,例如,从最近的(按照解码顺序)参考图片中导出。在h.265中,mv预测可以使用来自相邻块正在使用的相同参考图片的预测器。


技术实现思路

1、本技术的方面提供了用于亮度色度(cfl)预测的方法和装置。

2、在一些实施方式中,用于视频处理的方法包括:确定将以亮度色度cfl预测模式预测来自视频比特流的多个色度块,其中,多个色度块中每一个色度块的第一宽度或第一高度小于或等于第一预定阈值;将多个色度块组合成组合色度块,其中,组合色度块的第二宽度或第二高度大于或等于第二预定阈值;确定与组合色度块相对应的一个或多个亮度块的多个重建的相邻亮度样本;对多个重建的相邻亮度样本进行平均计算,以生成相邻亮度平均值;以及至少基于相邻亮度平均值对多个色度块执行亮度色度cfl预测。

3、在一些其他实施方式中,用于视频处理的方法包括:比较以下至少一项:色度块的大小与至少一个大小阈值,或色度块的变换单元tu深度与对应亮度块的变换单元tu深度;基于比较,从多个类型的亮度色度cfl预测过程中确定用于色度块的亮度色度cfl预测过程的类型;以及根据亮度色度cfl预测过程的类型,对色度块执行亮度色度cfl预测过程。

4、在一些其他实施方式中,公开了一种用于处理视频信息的设备。该设备可以包括被配置为执行上述方法实施方式中的任何一个的电路。

5、本技术的方面还提供了存储指令的非暂时性计算机可读介质,当由计算机执行指令以进行视频解码和/或编码时,这些指令使得计算机执行用于视频解码和/或编码的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1