视频编码中并行处理的改进的制作方法

文档序号:32746442发布日期:2022-12-30 22:22阅读:224来源:国知局
视频编码中并行处理的改进的制作方法
视频编码中并行处理的改进
1.交叉引用
2.本技术要求于2021年10月12日提交的题为“视频编码中并行处理的改进”的美国专利申请第17/499,700号(其要求了于2021年3月23日提交的标题为“并行处理的改进”的美国临时申请第63/164,633号的优先权权益)的优先权权益。这些在先申请的公开内容通过引用整体并入本文中。
技术领域
3.本公开描述了总体上与视频编码有关的实施例。


背景技术:

4.本文所提供的背景描述是出于总体上呈现本公开的内容的目的。在该背景技术部分以及本说明书的各个方面中所描述的目前已署名的发明人的工作所进行的程度,并不表明其在本技术提交时作为现有技术,且从未明示或暗示其被承认为本公开的现有技术。
5.可以使用具有运动补偿的帧间图片预测来执行视频编码和解码。未压缩的数字视频可以包括一系列图片,每个图片具有例如为1920
×
1080的亮度样本和相关的色度样本的空间尺度。该一系列图片可以具有例如每秒60幅图片或60hz的固定的或可变的图片速率(也非正式地也称为帧率)。未压缩的视频具有特定的位率要求。例如,每样本8位的1080p60 4:2:0的视频(60hz帧率的1920
×
1080亮度样本分辨率)需要接近1.5gbit/s带宽。一小时的此类视频需要600gb以上的存储空间。
6.视频编码和解码的一个目的可以是通过压缩来减少输入视频信号中的冗余。压缩可以有助于减少上述带宽或存储空间需求,在某些情况下可以减小两个数量级或大于两个数量级。可以采用无损压缩和有损压缩,以及它们的组合。无损压缩是指可以从已压缩的原始信号中重构原始信号的精确副本的技术。当使用有损压缩时,已重构的信号可能与原始信号不同,但是原始信号和已重构的信号之间的失真足够小,以使已重构的信号可用于预期的应用。在视频的情况下,广泛使用有损压缩。可容忍的失真量取决于应用,例如某些消费流式应用的用户相比电视分布应用的用户来说可以容忍更高的失真。可达到的压缩率可以反映:更高的可允许/接受的失真可以产生更高的压缩率。
7.视频编码器和解码器可利用来自若干广泛类别的技术,包括例如运动补偿、变换、量化和熵编码。
8.视频编解码技术可以包括称为帧内编码的技术。在帧内编码中,样本值在没有参考来自先前已重构参考图片的样本或其他数据的情况下被表示。在一些视频编解码器中,图片在空间上被细分成样本块。当以帧内模式对所有样本块进行编码时,该图片可以是帧内图片。帧内图片及其派生物(例如,独立的解码器刷新图片)可用于重置解码器状态,且因此可用作已编码的视频比特流和视频会话中的第一图片,或用作静止图像。帧内块的样本可暴露于变换,且变换系数可在熵编码之前量化。帧内预测可以是最小化预变换域中的样本值的技术。在一些情况下,变换之后的dc值越小且ac系数越小,在给定的量化步长下表示
熵编码之后的块所需的比特越少。
9.传统的帧内编码(例如,从例如mpeg-2代编码技术中已知的帧内编码)不使用帧内预测。然而,一些较新的视频压缩技术包括从例如周围样本数据和/或元数据进行尝试的技术,该样本数据和/或元数据在进行空间上相邻的编码/解码期间获得且解码顺序在数据块之前。这种技术此后被称为“帧内预测”技术。需要注意的是,在至少一些情况下,帧内预测仅使用来自正在重构的当前图片的参考数据,而不使用来自参考图片的参考数据。
10.可以有许多不同形式的帧内预测。当在给定的视频编码技术中可使用一种以上这样的技术时,可以以帧内预测模式对所使用的技术进行编码。在某些情况下,模式可以具有子模式和/或参数、以及模式可以被单独编码或包括在模式码字中。哪个码字用于给定的模式/子模式/参数组合,可能对通过帧内预测的编码效率增益具有影响,且熵编码技术也可以用于将码字转换为比特流。
11.某些帧内预测模式随着h.264被引入,在h.265中进行改进,并进一步在更新的编码技术(例如,联合探测模型(jem)、下一代视频编码(vvc)和基准集(bms))中进行改进。可以使用属于已有的可用样本的相邻样本值来形成预测器块。根据方向将相邻样本的样本值复制到预测器块中。对使用中的方向的参考可被编码在比特流中或者自身可被预测。
12.参考图1,在右下方描绘了从h.265的33个可能的预测器方向(对应于35个帧内模式的33个角模式)获知的9个预测器方向的子集。箭头汇聚的点(101)表示被预测的样本。箭头表示预测样本所用的方向。例如,箭头(102)表示从一个或多个样本到与水平方向成45度角的右上方来预测样本(101)。类似地,箭头(103)表示从一个或多个样本到与水平方向成22.5度角的样本(101)的左下方来预测样本(101)。
13.仍然参考图1,在左上方描绘了4
×
4样本的方形块(104)(由虚的粗线表示)。方形块(104)包括16个样本,每个样本用“s”标记其在y维度中的位置(例如,行索引)和其在x维度中的位置(例如,列索引)。例如,样本s21是y维度中(从顶部开始)的第二个样本和x维度中(从左边开始)的第一个样本。类似地,样本s44是块(104)中在y维度和x维度中都是第四个样本。由于块的大小是4
×
4样本,因此s44位于右下方。进一步示出了遵循类似编号方案的参考样本。参考样本用r标记其相对于块(104)的y位置(例如,行索引)和x位置(列索引)。在h.264和h.265中,预测样本与正在重构的块相邻;因此,不需要使用负值。
14.帧内图片预测可以通过复制来自相邻样本的参考样本值来工作,如用信号表示的预测方向所适合的。例如,假设已编码的视频比特流包括信令,对于该块,信令指示与箭头(102)一致的预测方向-也就是说,以与水平方向成45度角从一个或多个预测样本到右上方来预测样本。在这种情况下,从相同参考样本r05预测样本s41、s32、s23和s14。然后从参考样本r08预测样本s44。
15.在某些情况下,多个参考样本的值可以例如通过内插被组合,以计算参考样本;特别是当方向无法均匀地被45度整除时。
16.随着视频编码技术的发展,可能的方向的数量已经增加。在h.264(2003年)中,可以表示9个不同的方向。在h.265(2013年)中增加到33个方向,以及在jem/vvc/bms公开时可支持多达65个方向。已进行实验来识别最可能的方向,并使用熵编码中的某些技术来以少量比特表示那些可能的方向,从而对于不太可能的方向接受一定的惩罚。进一步地,有时可以从相邻的、已解码的块中使用的相邻方向来预测方向本身。
17.图2示出了根据jem描绘65个帧内预测方向的示意图(201),以示出预测方向的数量随着时间推移而增加。
18.已编码视频比特流中表示方向的帧内预测方向比特的映射可以因视频编码技术的不同而不同;且范围可以例如从预测方向的简单直接映射到帧内预测模式、到码字、到涉及最可能模式的复杂自适应方案、以及类似的技术。然而,在所有情况下,可能存在与某些其他方向相比,在视频内容中统计上不太可能发生的某些方向。由于视频压缩的目标是减少冗余,在良好工作的视频编码技术中,那些不太可能的方向将通过比更可能的方向的比特更多的比特来表示。
19.运动补偿可以涉及下述技术:来自先前重构的图片或其部分(参考图片)的样本数据的块在沿着由运动矢量(此后称为mv)指示的方向上空间偏移之后,被用于预测新重构的图片或图片部分。在一些情况下,参考图片可以与当前正在重构的图片相同。mv可以具有x和y两个维度,或具有三个维度,第三个维度指示正在使用的参考图片(后者间接地可以是时间维度)。
20.在一些视频压缩技术中,可以根据其他mv例如根据在空间上与正在重构的区域相邻的样本数据的另一个区域相关的、且解码顺序在该mv之前的mv来预测适用于样本数据的某个区域的mv。这样做可以大大减少编码mv所需的数据量,从而消除冗余并增加压缩率。mv预测可以有效地工作,例如,由于在对从相机获得的输入视频信号(称为自然视频)进行编码时,存在以下统计可能性:比适用单个mv的区域更大的区域在相似的方向上移动,因此,在某些情况下,可以使用从相邻区域的mv导出的相似运动矢量来预测该更大的区域。这使得为给定区域找到的mv与根据周围mv所预测的mv相似或相同,进而在熵编码之后,该为给定区域找到的mv可以用比直接编码mv时使用的位数更少的位数来表示。在一些情况下,mv预测可以是无损压缩从原始信号(即样本流)中导出的信号(即mv)的示例。在其他情况下,例如由于根据多个周围mv计算预测值时出现舍入误差,mv预测本身可以是有损的。
21.h.265/hevc(itu-t h.265建议书,“高效视频编解码(high efficiency video coding)”,2016年12月)中描述了各种mv预测机制。在h.265提供的多种mv预测机制外,h.265提供了一种称为“空间合并”的技术。在空间合并中,当前块包括在运动搜索过程期间已由编码器发现的样本,该样本根据已经空间移位的相同大小的前一个块是可预测的。可以使用与若干合并候选位置中的任一个相关联的mv,从与一个或多个参考图片相关联的元数据中导出mv,而不是直接对该mv进行编码,例如,从最近的(按解码顺序)参考图片中导出mv。在h.265中,mv预测能够使用相邻块正在使用的相同参考图片的预测器。


技术实现要素:

22.本公开的各方面提供了一种由视频处理器执行的视频处理方法。该方法包括接收已编码视频比特流中的第一语法元素。第一语法元素可以是高级语法元素,并且所述第一语法元素用于指示已编码视频比特流的视频序列中的多个图片中的每个图片的高度是否保证等于或大于已编码视频比特流的视频序列中的相应图片的宽度。在根据指示已编码视频的视频序列中的多个图片中的每个图片的高度是否等于或大于视频序列中的相应图片的宽度的第一语法元素所确定的方位上对已编码视频的视频序列中的图片进行处理。
23.在实施例中,在补充增强信息(sei)消息、视频可用性信息(vui)参数集或序列参
数集(sps)中传输第一语法元素。在实施例中,第一语法元素的第一值指示视频序列中的图片中的每个图片的宽度小于视频序列中相应图片的高度。第一语法元素的第二值指示视频序列中的图片的宽度能小于或不小于视频序列中的图片的高度。当未在比特流中用信号发送第一语法元素时,推断第一语法元素具有第二值。
24.在实施例中,与编码器处的已编码视频比特流的视频序列对应的输入视频序列具有小于宽度的高度。将输入视频序列的高度编码为已编码视频比特流的视频序列中的图片的宽度,将输入视频序列的宽度编码为已编码视频比特流的视频序列中的图片的高度。
25.该方法的实施例还可以包括接收指示视频序列中的图片的宽度的第二语法元素;以及接收指示视频序列中的图片的高度与视频序列中的图片的宽度之间的差值的第三语法元素,该差值为无符号整数。例如,可以将视频序列中的图片的高度确定为由第二语法元素指示的宽度的值与无符号整数的和。
26.在实施例中,响应于第一语法元素指示已编码视频比特流的视频序列中的图片中的每个图片的高度等于或大于视频序列中的图片中的每个图片的宽度,可以使用波前并行处理wpp对视频序列中的图片中一个或多个图片进行处理。
27.在实施例中,可以接收在编码视频比特流中以切片级用信号发送的第四语法元素。第四语法元素可以指示视频序列中片的编码树单元(ctu)大小。在实施例中,可以接收多个第四语法元素,该多个第四语法元素中的每个第四语法元素都可以与视频序列中的多个切片中的相应切片相关联。多个第四语法元素可以指示不同类型的各个切片的不同ctu大小。在实施例中,在多个切片中,i型切片具有比其他切片类型更小的ctu大小。
28.在实施例中,可以在已编码视频比特流中接收以图片级用信号发送的第五语法元素。第五语法元素可以指示视频序列中的图片中的一个图片的ctu大小。在实施例中,可以接收包括在已编码视频比特流中的序列参数集(sps)中、并指示视频序列的第一ctu大小的第六语法元素。可以接收第七语法元素,第七语法元素以图片级或切片级用信号发送、并指示视频序列中的相应图片或相应切片的第二ctu大小。例如,第一ctu大小是视频序列的最大ctu大小,以及第二ctu大小小于最大ctu大小。
29.本公开的各方面提供了一种视频处理的装置。该装置包括被配置为接收已编码视频比特流中的第一语法元素的电路。第一语法元素可以是高级语法元素并且第一语法元素用于指示已编码视频比特流的视频序列中的多个图片中的每个图片的高度是否保证等于或大于已编码视频比特流的视频序列中的相应图片的宽度。在根据指示已编码视频的视频序列中的多个图片中的每个图片的高度是否等于或大于视频序列中的相应图片的宽度的第一语法元素所确定的方位上对已编码视频的视频序列中的图片进行处理。
30.本公开的各方面还提供了另一种由视频处理器执行的视频处理的方法。该方法包括:在已编码视频比特流中包括第一语法元素,第一语法元素是高级语法元素,并且第一语法元素用于指示已编码视频比特流的视频序列中的多个图片中的每个图片的高度是否保证等于或大于已编码视频比特流的视频序列中的相应图片的宽度。在根据指示已编码视频的视频序列中的多个图片中的每个图片的高度是否等于或大于视频序列中的相应图片的宽度的第一语法元素所确定的方位上对已编码视频的视频序列中的图片进行处理。
附图说明
31.通过以下详细描述和附图,所公开主题的其他特征、性质和各种优点将更加明显,在附图中:
32.图1是帧内预测模式的示例性子集的示意图。
33.图2是示例性帧内预测方向的示意图。
34.图3是根据实施例的通信系统(300)的简化框图的示意图。
35.图4是根据实施例的通信系统(400)的简化框图的示意图。
36.图5是根据实施例的解码器的简化框图的示意图。
37.图6是根据实施例的编码器的简化框图的示意图。
38.图7示出了根据另一实施例的编码器的框图。
39.图8示出了根据另一实施例的解码器的框图。
40.图9示出了具有两个编码树单元(ctu)的延迟的波前并行处理(wpp)的示例。
41.图10示出了具有一个ctu的延迟的wpp的另一示例。
42.图11示出了根据本公开实施例的概述过程(1100)的流程图。
43.图12是根据实施例的计算机系统的示意图。
具体实施方式
44.i.编码器和解码器系统
45.图3示出了根据本公开的实施例的通信系统(300)的简化框图。通信系统(300)包括能够例如通过网络(350)彼此通信的多个终端装置。例如,通信系统(300)包括通过网络(350)互连的一对终端装置(310)和终端装置(320)。在图3的示例中,第一对终端装置(310)和终端装置(320)执行数据的单向传输。例如,终端装置(310)可以对视频数据(例如,由终端装置(310)捕获的视频图片流)进行编码,以通过网络(350)传输到另一终端装置(320)。已编码视频数据可以以一个或多个已编码视频比特流的形式进行传输。终端装置(320)可以从网络(350)接收已编码视频数据,对已编码视频数据进行解码以恢复视频图片,并根据恢复的视频数据显示视频图片。单向数据传输在媒体服务应用等中可能是常见的。
46.在另一示例中,通信系统(300)包括执行已编码视频数据的双向传输的第二对终端装置(330)和终端装置(340),该双向传输可例如在视频会议期间发生。对于双向数据传输,在一示例中,终端装置(330)和终端装置(340)中的每个终端装置可对视频数据(例如由终端装置采集的视频图片流)进行编码,以通过网络(350)传输到终端装置(330)和终端装置(340)中的另一终端装置。终端装置(330)和终端装置(340)中的每个终端装置还可接收由终端装置(330)和终端装置(340)中的另一终端装置传输的已编码视频数据,且可对该已编码视频数据进行解码以恢复视频图片,且可根据恢复的视频数据在可访问的显示装置上显示视频图片。
47.在图3的示例中,终端装置(330)和终端装置(340)可被示出为服务器、个人计算机和智能电话,但本公开的原理可不限于此。本公开的实施例适用于膝上型计算机、平板电脑、媒体播放器和/或专用视频会议设备。网络(350)表示在终端装置(310)、(320)、(330)和(340)之间传送已编码视频数据的任何数量的网络,包括例如有线(连线的)和/或无线通信网络。通信网络(350)可以在电路交换和/或分组交换信道中交换数据。代表性网络包括电
信网络、局域网、广域网和/或因特网。出于本讨论的目的,除非在下文中解释,否则网络(350)的体系结构和拓扑对于本公开的操作可能是不重要的,
48.作为所公开的主题的应用的示例,图4示出了视频编码器和视频解码器在流式传输环境中的放置方式。所公开的主题可同等地适用于其他支持视频的应用,包括例如视频会议、数字tv、在包括cd、dvd、存储棒等的数字介质上存储压缩视频等等。
49.流式系统可以包括采集子系统(413),该采集子系统可包括例如数码相机的视频源(401),该视频源创建例如未压缩的视频图片流(402)。在示例中,视频图片流(402)包括由数码相机拍摄的样本。相较于已编码视频数据(404)(或已编码视频比特流),被描绘为粗线以强调高数据量的视频图片流(402)可由电子装置(420)处理,该电子装置(420)包括耦接到视频源(401)的视频编码器(403)。视频编码器(403)可包括硬件、软件或软硬件组合以实现或实施如下文更详细地描述的所公开的主题的各方面。相较于视频图片流(402),被描绘为细线以强调较低数据量的已编码视频数据(404)(或已编码视频比特流(404))可存储在流式传输服务器(405)上以供将来使用。一个或多个流式客户端子系统,例如,图4中的客户端子系统(406)和客户端子系统(408),可访问流式传输服务器(405)以检索已编码视频数据(404)的副本(407)和副本(409)。客户端子系统(406)可以包括例如在电子设备(430)中的视频解码器(410)。视频解码器(410)对已编码视频数据的传入副本(407)进行解码,且产生可在显示器(412)(例如显示屏)或另一呈现装置(未描绘)上呈现的输出视频图片流(411)。在一些流式传输系统中,可根据某些视频编码/压缩标准对已编码视频数据(404)、已编码视频数据(407)和已编码视频数据(409)(例如视频比特流)进行编码。这些标准的示例包括itu-t h.265建议书。在示例中,正在开发的视频编码标准非正式地称为通用视频编码(versatile video coding,vvc)。所公开的主题可用于vvc的上下文中。
50.可以理解的是,电子设备(420)和电子设备(430)可以包括其他组件(未示出)。例如,电子装置(420)可以包括视频解码器(未示出),以及电子装置(430)可以包括视频编码器(未示出)。
51.图5示出了根据本公开的实施例的视频解码器(510)的框图。视频解码器(510)可包括在电子装置(530)中。电子装置(530)可包括接收器(531)(例如接收电路)。视频解码器(510)可用于代替图4示例中的视频解码器(410)。
52.接收器(531)可接收将由视频解码器(510)解码的一个或多个已编码视频序列;在同一实施例或另一实施例中,一次接收一个已编码视频序列,其中每个已编码视频序列的解码独立于其他已编码视频序列的解码。可从信道(501)接收已编码视频序列,该信道可以是通向存储已编码视频数据的存储装置的硬件/软件链路。接收器(531)可接收可转发到它们各自的使用实体(未描绘)的已编码视频数据以及其他数据,例如,已编码音频数据和/或辅助数据流。接收器(531)可将已编码视频序列与其他数据分开。为了防止网络抖动,缓冲存储器(515)可耦接在接收器(531)与熵解码器/解析器(520)(此后称为“解析器(520)”)之间。在某些应用中,缓冲存储器(515)是视频解码器(510)的一部分。在其他情况下,该缓冲存储器(515)可设置在视频解码器(510)外部(未描绘)。而在其他情况下,在视频解码器(510)的外部可设置缓冲存储器(未描绘)以例如防止网络抖动,且在视频解码器(510)的内部可配置另一缓冲存储器(515)以例如处理播出定时。当接收器(531)从具有足够带宽和可控性的存储/转发装置或从等时同步网络接收数据时,可能不需要缓冲存储器(515),或可
以将该缓冲存储器做得较小。为了在互联网等业务分组网络上使用,可能需要缓冲存储器(515),该缓冲存储器可相对较大且可有利地具有自适应性大小,且可至少部分地实施于操作系统或视频解码器(510)外部的类似元件(未描绘)中。
53.视频解码器(510)可包括解析器(520),以根据已编码视频序列重构符号(521)。这些符号的类别包括用于管理视频解码器(510)的操作的信息,以及用以控制显示装置(512)(例如,显示屏)等显示装置的潜在信息,该显示装置不是电子装置(530)的整体部分,但可耦接到电子装置(530),如图5中所示。用于一个(或多个)显示装置的控制信息可以是辅助增强信息(supplemental enhancement information,sei消息)或视频可用性信息(video usability information,vui)的参数集片段(未描绘)的形式。解析器(520)可对接收到的已编码视频序列进行解析/熵解码。已编码视频序列的编码可根据视频编码技术或标准进行,且可遵循各种原理,包括可变长度编码、霍夫曼编码(huffman coding)、具有或不具有上下文灵敏度的算术编码等等。解析器(520)可基于对应于群组的至少一个参数,从已编码视频序列提取用于视频解码器中的像素的子群中的至少一个子群的子群参数集。子群可包括图片群组(group of pictures,gop)、图片、图块、切片、宏块、编码单元(coding unit,cu)、块、变换单元(transform unit,tu)、预测单元(prediction unit,pu)等等。解析器(520)还可从已编码视频序列提取信息,例如变换系数、量化器参数值、运动矢量等等。
54.解析器(520)可以对从缓冲存储器(515)接收的视频序列执行熵解码/解析操作,从而创建符号(521)。
55.取决于已编码视频图片或一部分已编码视频图片(例如:帧间图片和帧内图片、帧间块和帧内块)的类型以及其他因素,符号(521)的重构可以涉及多个不同的单元。涉及哪些单元以及涉及方式可由解析器(520)从已编码视频序列解析的子群控制信息来控制。为了简洁起见,未描绘解析器(520)与下文的多个单元之间的此类子群控制信息流。
56.除已经提及的功能块以外,视频解码器(510)可以在概念上细分成如下文所描述的数个功能单元。在商业约束下运行的实际实施方式中,这些单元中的许多单元彼此紧密交互并且可以至少部分地彼此集成。然而,出于描述所公开的主题的目的,概念上细分成下文的功能单元是适当的。
57.第一单元是缩放器/逆变换单元(551)。缩放器/逆变换单元(551)从解析器(520)接收作为符号(521)的量化变换系数以及控制信息,包括使用哪种变换方式、块大小、量化因子、量化缩放矩阵等。缩放器/逆变换单元(551)可输出包括样本值的块,该样本值可输入到聚合器(555)中。
58.在一些情况下,缩放器/逆变换(551)的输出样本可以属于帧内编码块;即:不使用来自先前重构的图片的预测性信息,但可使用来自当前图片的先前重构部分的预测性信息的块。此类预测信息可以由帧内图片预测单元(552)提供。在一些情况下,帧内图片预测单元(552)使用从当前图片缓冲器(558)提取的周围已重构信息生成大小和形状与正在重构的块相同的块。例如,当前图片缓冲器(558)缓冲部分重构的当前图片和/或完全重构的当前图片。在一些情况下,聚合器(555)基于每个样本,将帧内预测单元(552)生成的预测信息添加到由缩放器/逆变换单元(551)提供的输出样本信息中。
59.在其他情况下,缩放器/逆变换单元(551)的输出样本可以属于帧间编码的和潜在运动补偿块。在这种情况下,运动补偿预测单元(553)可以访问参考图片存储器(557)以提
取用于预测的样本。在根据属于块的符号(521)对所提取的样本进行运动补偿之后,这些样本可以由聚合器(555)添加到缩放器/逆变换单元(551)的输出(在这种情况下被称为残差样本或残差信号),从而生成输出样本信息。运动补偿预测单元(553)从参考图片存储器(557)内的地址获取预测样本可受到运动矢量控制,且该运动矢量以符号(521)的形式而供运动补偿预测单元(553)使用,符号(521)可以具有例如x、y和参考图片分量。运动补偿还可以包括当使用子样本精确运动向量时,从参考图片存储器(557)提取的样本值的内插、运动向量预测机制等。
60.聚合器(555)的输出样本可经受环路滤波器单元(556)中的各种环路滤波技术。视频压缩技术可包括环路内滤波器技术,该环路内滤波器技术受控于包括在已编码视频序列(也称作已编码视频码比特流)中并且作为来自解析器(520)的符号(521)可用于环路滤波器单元(556)的参数,然而,视频压缩技术还可响应于在解码已编码图片或已编码视频序列的先前(按解码次序)部分期间获得的元信息,以及响应于先前重构且经过环路滤波的样本值。
61.环路滤波器单元(556)的输出可以是样本流,该样本流可输出到渲染装置(512)以及存储在参考图片存储器(557)中,以用于后续的帧间图片预测。
62.一旦完全重构,某些已编码图片就可用作参考图片以用于将来预测。举例来说,一旦对应于当前图片的已编码图片被完全重构,且已编码图片(通过例如解析器(520))被识别为参考图片,则当前图片缓冲器(558)可变为参考图片存储器(557)的一部分,且可在开始重构后续已编码图片之前重新分配新的当前图片缓冲器。
63.视频解码器(510)可根据例如itu-t h.265建议书标准中的预定视频压缩技术执行解码操作。h.265在已编码视频序列遵循视频压缩技术或标准的语法以及视频压缩技术或标准中记录的配置文件的意义上,已编码视频序列可符合所使用的视频压缩技术或标准指定的语法。具体地说,配置文件可从视频压缩技术或标准中可用的所有工具中选择某些工具作为在该配置文件下可供使用的仅有工具。对于合规性,还可要求已编码视频序列的复杂度处于视频压缩技术或标准的层级所限定的范围内。在一些情况下,层级限制最大图片大小、最大帧率、最大重构取样率(以例如每秒兆(mega)个样本为单位进行测量)、最大参考图片大小等。在一些情况下,由层级设定的限制可通过假想参考解码器(hypothetical reference decoder,hrd)规范和在已编码视频序列中用信号表示的hrd缓冲器管理的元数据来进一步限定。
64.在一实施例中,接收器(531)可连同已编码视频一起接收附加(冗余)数据。该附加数据可以被包括作为已编码视频序列的一部分。该附加数据可由视频解码器(510)使用以对数据进行适当解码和/或较准确地重构原始视频数据。附加数据可呈例如时间、空间或信噪比(signal noise ratio,snr)增强层、冗余切片、冗余图片、前向纠错码等形式。
65.图6示出了根据本公开的实施例的视频编码器(603)的框图。视频编码器(603)包括在电子装置(620)中。电子装置(620)包括发射器(640)(例如传输电路)。视频编码器(603)可用于代替图4示例中的视频编码器(403)。
66.视频编码器(603)可从视频源(601)(并非图6示例中的电子装置(620)的一部分)接收视频样本,该视频源可采集将由视频编码器(603)编码的视频图像。在另一示例中,视频源(601)是电子装置(620)的一部分。
67.视频源(601)可提供将由视频编码器(603)编码的呈数字视频样本流形式的源视频序列,该数字视频样本流可具有任何合适位深度(例如:8位、10位、12位
……
)、任何色彩空间(例如,bt.601y crcb、rgb
……
)和任何合适采样结构(例如y crcb 4:2:0、y crcb 4:4:4)。在媒体服务系统中,视频源(601)可以是存储先前已准备的视频的存储装置。在视频会议系统中,视频源(601)可以是采集本地图像信息作为视频序列的相机。可将视频数据提供为多个单独的图片,当按顺序观看时,这些图片被赋予运动。图片自身可构建为空间像素阵列,其中取决于所用的采样结构、色彩空间等,每个像素可包括一个或多个样本。所属领域的技术人员可以很容易理解像素与样本之间的关系。下文侧重于描述样本。
68.根据一实施例,视频编码器(603)可实时或在由应用所要求的任何其他时间约束下,对源视频序列的图片进行编码并压缩成已编码视频序列(643)。施行适当的编码速度是控制器(650)的一个功能。在一些实施例中,控制器(650)控制如下文所描述的其他功能单元且在功能上耦接到所述其他功能单元。为了简洁起见,图中未描绘耦接。由控制器(650)设置的参数可包括速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值
……
)、图片大小、图片群组(group of pictures,gop)布局、最大运动矢量搜索范围等。控制器(650)可被配置为具有其他合适的功能,这些功能涉及针对某一系统设计优化的视频编码器(603)。
69.在一些实施例中,视频编码器(603)被配置为在编码环路中进行操作。作为简单的描述,在示例中,编码环路可包括源编码器(630)(例如,负责基于待编码的输入图片和一个(或多个)参考图片创建符号,例如符号流)和嵌入于视频编码器(603)中的(本地)解码器(633)。解码器(633)重构符号以用类似于(远程)解码器还可创建样本数据的方式创建样本数据(因为在所公开的主题所考虑的视频压缩技术中,符号与已编码视频比特流之间的任何压缩是无损的)。将重构的样本流(样本数据)输入到参考图片存储器(634)。由于符号流的解码产生与解码器位置(本地或远程)无关的位精确结果,因此参考图片存储器(634)中的内容在本地编码器与远程编码器之间也是按比特位精确对应的。换句话说,编码器的预测部分“看到”的参考图片样本与解码器将在解码期间使用预测时所“看到”的样本值完全相同。这种参考图片同步性基本原理(以及在例如因信道误差而无法维持同步性的情况下产生的漂移)也用于一些相关技术。
[0070]“本地”解码器(633)的操作可与例如已在上文结合图5详细描述的视频解码器(510)的“远程”解码器的操作相同。然而,另外简要参考图5,当符号可用且熵编码器(645)和解析器(520)可能够无损地将符号编码/解码为已编码视频序列时,包括缓冲存储器(515)和解析器(520)在内的视频解码器(510)的熵解码部分,可能无法完全在本地解码器(633)中实施。
[0071]
此时可以观察到,除存在于解码器中的解析/熵解码之外的任何解码器技术,也必定以基本上相同的功能形式存在于对应的编码器中。出于此原因,所公开的主题侧重于解码器操作。可简化编码器技术的描述,因为编码器技术与全面地描述的解码器技术互逆。仅在某些区域中需要更详细的描述,并且在下文提供。
[0072]
在操作期间,在一些示例中,源编码器(630)可执行运动补偿预测编码,参考来自视频序列中被指定为“参考图片”的一个或多个先前已编码图片,该运动补偿预测编码对输入图片进行预测性编码。以此方式,编码引擎(632)对输入图片的像素块与一个(或多个)参
考图片的像素块之间的差异进行编码,该参考图片可被选作该输入图片的预测参考。
[0073]
本地视频解码器(633)可以基于源编码器(630)创建的符号,对可指定为参考图片的图片的已编码视频数据进行解码。编码引擎(632)的操作可有利地为有损过程。当已编码视频数据可在视频解码器(图6中未示)处被解码时,已重构的视频序列通常可以是带有一些误差的源视频序列的副本。本地视频解码器(633)复制解码过程,该解码过程可由视频解码器对参考图片执行,且可使重构的参考图片存储在参考图片高速缓存(634)中。以此方式,视频编码器(603)可在本地存储重构参考图片的副本,该副本与将由远端视频解码器获得的重构参考图片具有共同内容(不存在传输误差)。
[0074]
预测器(635)可针对编码引擎(632)执行预测搜索。也就是说,对于要编码的新图片,预测器(635)可在参考图片存储器(634)中搜索可作为该新图片的适当预测参考的样本数据(作为候选参考像素块)或某些元数据,例如参考图片运动矢量、块形状等。预测器(635)可基于样本块逐像素块操作,以找到合适的预测参考。在一些情况下,如由预测器(635)获得的搜索结果所确定的那样,输入图片可具有从参考图片存储器(634)中存储的多个参考图片取得的预测参考。
[0075]
控制器(650)可以管理源编码器(630)的编码操作,包括例如设置用于对视频数据进行编码的参数和子群参数。
[0076]
可以在熵编码器(645)中对所有上述功能单元的输出进行熵编码。熵编码器(645)根据例如霍夫曼编码、可变长度编码、算术编码等技术对各种功能单元生成的符号进行无损压缩,从而将该符号变换成已编码视频序列。
[0077]
发射器(640)可缓冲由熵编码器(645)创建的已编码视频序列,从而为通过通信信道(660)进行传输做准备,该通信信道可以是通向将存储已编码视频数据的存储装置的硬件/软件链路。发射器(640)可将来自视频编码器(603)的已编码视频数据与要传输的其他数据合并,该其他数据例如是已编码音频数据和/或辅助数据流(未示出来源)。
[0078]
控制器(650)可以管理视频编码器(603)的操作。在编码期间,控制器(650)可以为每个已编码图片分配某一已编码图片类型,但这可能影响可应用于相应的图片的编码技术。例如,通常可将图片分配为以下任一种图片类型:
[0079]
帧内图片(i图片),其可以是不将序列中的任何其他图片用作预测源就可被编码和解码的图片。一些视频编解码器容许不同类型的帧内图片,包括例如独立解码器刷新(independent decoder refresh,“idr”)图片。所属领域的技术人员了解i图片的变体及其相应的应用和特征。
[0080]
预测性图片(p图片),其可以是可使用帧内预测或帧间预测进行编码和解码的图片,该帧内预测或帧间预测使用至多一个运动矢量和参考索引来预测每个块的样本值。
[0081]
双向预测性图片(b图片),其可以是可使用帧内预测或帧间预测进行编码和解码的图片,该帧内预测或帧间预测使用至多两个运动矢量和参考索引来预测每个块的样本值。类似地,多个预测性图片可使用多于两个参考图片和相关联元数据以用于重构单个块。
[0082]
源图片通常可在空间上细分成多个样本块(例如,4
×
4、8
×
8、4
×
8或16
×
16个样本的块),且逐块进行编码。这些块可参考其他(已编码)块进行预测性编码,该其他块由应用于块的相应图片的编码分配来确定。例如,i图片的块可进行非预测性编码,或该块可参考同一图片的已编码块来进行预测性编码(空间预测或帧内预测)。p图片的像素块可参考
一个先前编码的参考图片通过空间预测或通过时间域预测进行预测性编码。b图片的块可参考一个或两个先前编码的参考图片通过空间预测或通过时间预测进行预测性编码。
[0083]
视频编码器(603)可根据例如itu-t h.265建议书的预定视频编码技术或标准执行编码操作。在操作中,视频编码器(603)可执行各种压缩操作,包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此,已编码视频数据可符合所使用的视频编码技术或标准指定的语法。
[0084]
在一实施例中,发射器(640)可在传输已编码的视频时传输附加数据。源编码器(630)可将此类数据作为已编码视频序列的一部分。附加数据可包括时间/空间/snr增强层、冗余图片和切片等其他形式的冗余数据、sei消息、vui参数集片段等。
[0085]
可以将视频采集为呈时间序列的多个源图片(视频图片)。帧内图片预测(常常简化为帧内预测)利用给定图片中的空间相关性,而帧间图片预测则利用图片之间的(时间或其他)相关性。在示例中,将正在编码/解码的特定图片分割成块,正在编码/解码的特定图片被称作当前图片。在当前图片中的块类似于视频中先前已编码且仍被缓冲的参考图片中的参考块时,可通过称作运动矢量的矢量对当前图片中的块进行编码。该运动矢量指向参考图片中的参考块,且在使用多个参考图片的情况下,该运动矢量可具有识别参考图片的第三维度。
[0086]
在一些实施例中,双向预测技术可用于帧间图片预测中。根据双向预测技术,使用两个参考图片,例如按解码次序都在视频中的当前图片之前(但按显示次序可能分别是过去和将来)的第一参考图片和第二参考图片。可通过指向第一参考图片中的第一参考块的第一运动矢量和指向第二参考图片中的第二参考块的第二运动矢量对当前图片中的块进行编码。可通过第一参考块和第二参考块的组合来预测该块。
[0087]
此外,合并模式技术可用于帧间图片预测中以改善编码效率。
[0088]
根据本公开的一些实施例,例如帧间图片预测和帧内图片预测的预测以块为单位执行。举例来说,根据hevc标准,将视频图片序列中的图片分割成编码树单元(coding tree unit,ctu)以用于压缩,图片中的ctu具有相同大小,例如64
×
64像素、32
×
32像素或16
×
16像素。一般来说,ctu包括三个编码树块(coding tree block,ctb),该三个编码树块是一个亮度ctb和两个色度ctb。可将每个ctu递归地以四叉树拆分为一个或多个编码单元(cu)。例如,可将64
×
64像素的ctu拆分为一个64
×
64像素的cu,或4个32
×
32像素的cu,或16个16
×
16像素的cu。在示例中,分析每个cu以确定用于cu的预测类型,例如帧间预测类型或帧内预测类型。取决于时间和/或空间可预测性,将cu拆分为一个或多个预测单元(pu)。通常,每个pu包括亮度预测块(prediction block,pb)和两个色度pb。在实施例中,编码(编码/解码)中的预测操作以预测块为单位来执行。以亮度预测块作为预测块的示例,预测块包括针对像素的值(例如,亮度值)的矩阵,所述像素为例如8
×
8像素、16
×
16像素、8
×
16像素、16
×
8像素等等。
[0089]
图7示出了根据本公开的另一实施例的视频编码器(703)的图。视频编码器(703)被配置为接收视频图片序列中的当前视频图片内的样本值的处理块(例如预测块),且将该处理块编码到作为已编码视频序列的一部分的已编码图片中。在示例中,视频编码器(703)用于代替图4示例中的视频编码器(403)。
[0090]
在hevc示例中,视频编码器(703)接收用于处理块的样本值的矩阵,该处理块为例
如8
×
8样本的预测块等。视频编码器(703)使用例如率失真(rate-distortion,rd)优化来确定是否使用帧内模式、帧间模式或双向预测模式来最佳地编码该处理块。当在帧内模式中编码处理块时,视频编码器(703)可使用帧内预测技术以将处理块编码到已编码图片中;且当在帧间模式或双向预测模式中编码处理块时,视频编码器(703)可分别使用帧间预测或双向预测技术将处理块编码到已编码图片中。在某些视频编码技术中,合并模式可以是帧间图片预测子模式,其中,在不借助预测器外部的已编码运动矢量分量的情况下,从一个或多个运动矢量预测器导出运动矢量。在某些其他视频编码技术中,可存在适用于主题块的运动矢量分量。在示例中,视频编码器(703)包括其他组件,例如用于确定处理块的模式的模式决策模块(未示出)。
[0091]
在图7的示例中,视频编码器(703)包括如图7所示的耦接到一起的帧间编码器(730)、帧内编码器(722)、残差计算器(723)、开关(726)、残差编码器(724)、通用控制器(721)和熵编码器(725)。
[0092]
帧间编码器(730)被配置为接收当前块(例如处理块)的样本、比较该块与参考图片中的一个或多个参考块(例如先前图片和后来图片中的块)、生成帧间预测信息(例如根据帧间编码技术的冗余信息描述、运动矢量、合并模式信息)、以及基于帧间预测信息使用任何合适的技术计算帧间预测结果(例如已预测块)。在一些示例中,参考图片是基于已编码的视频信息解码的已解码参考图片。
[0093]
帧内编码器(722)被配置为接收当前块(例如处理块)的样本、在一些情况下比较该块与同一图片中已编码的块、在变换之后生成量化系数、以及在一些情况下还(例如根据一个或多个帧内编码技术的帧内预测方向信息)生成帧内预测信息。在示例中,帧内编码器(722)还基于帧内预测信息和同一图片中的参考块计算帧内预测结果(例如已预测块)。
[0094]
通用控制器(721)被配置为确定通用控制数据,且基于该通用控制数据控制视频编码器(703)的其他组件。在示例中,通用控制器(721)确定块的模式,且基于该模式将控制信号提供到开关(726)。例如,当该模式是帧内模式时,通用控制器(721)控制开关(726)以选择供残差计算器(723)使用的帧内模式结果,且控制熵编码器(725)以选择帧内预测信息且将该帧内预测信息包括添加在比特流中;以及当该模式是帧间模式时,通用控制器(721)控制开关(726)以选择供残差计算器(723)使用的帧间预测结果,且控制熵编码器(725)以选择帧间预测信息且将该帧间预测信息添加在比特流中。
[0095]
残差计算器(723)被配置为计算所接收的块与选自帧内编码器(722)或帧间编码器(730)的预测结果之间的差(残差数据)。残差编码器(724)被配置为基于残差数据操作,以对残差数据进行编码以生成变换系数。在示例中,残差编码器(724)被配置为将残差数据从空间域转换至频域,且生成变换系数。变换系数接着经受量化处理以获得量化的变换系数。在各种实施例中,视频编码器(703)还包括残差解码器(728)。残差解码器(728)被配置为执行逆变换,且生成已解码残差数据。已解码残差数据可适当地由帧内编码器(722)和帧间编码器(730)使用。例如,帧间编码器(730)可基于已解码残差数据和帧间预测信息生成已解码块,且帧内编码器(722)可基于已解码残差数据和帧内预测信息生成已解码块。适当处理已解码块以生成已解码图片,且在一些示例中,该已解码图片可在存储器电路(未示出)中缓冲并用作参考图片。
[0096]
熵编码器(725)被配置为将比特流格式化以产生已编码的块。熵编码器(725)被配
置为根据例如hevc标准的合适标准产生各种信息。在示例中,熵编码器(725)被配置为将通用控制数据、所选预测信息(例如帧内预测信息或帧间预测信息)、残差信息和其他合适的信息包括在比特流中。应注意,根据所公开的主题,当在帧间模式或双向预测模式的合并子模式中对块进行编码时,不存在残差信息。
[0097]
图8示出了根据本公开的另一实施例的视频解码器(810)的图。视频解码器(810)被配置为接收作为已编码视频序列的一部分的已编码的图片,且对该已编码的图片进行解码以生成重构的图片。在示例中,视频解码器(810)用于代替图4示例中的视频解码器(410)。
[0098]
在图8示例中,视频解码器(810)包括如图8所示的耦接到一起的熵解码器(871)、帧间解码器(880)、残差解码器(873)、重构模块(874)和帧内解码器(872)。
[0099]
熵解码器(871)可被配置为根据已编码图片来重构某些符号,这些符号表示构成该已编码图片的语法元素。此类符号可包括例如用于对该块进行编码的模式(例如帧内模式、帧间模式、双向预测模式、后两者的合并子模式或另一子模式)、可识别分别供帧内解码器(872)或帧间解码器(880)用以进行预测的某些样本或元数据的预测信息(例如帧内预测信息或帧间预测信息)、呈例如量化的变换系数形式的残差信息等等。在一个示例中,当预测模式是帧间或双向预测模式时,将帧间预测信息提供到帧间解码器(880);以及当预测类型是帧内预测类型时,将帧内预测信息提供到帧内解码器(872)。残差信息可经受逆量化并提供到残差解码器(873)。
[0100]
帧间解码器(880)被配置为接收帧间预测信息,且基于该帧间预测信息生成帧间预测结果。
[0101]
帧内解码器(872)被配置为接收帧内预测信息,且基于该帧内预测信息生成预测结果。
[0102]
残差解码器(873)被配置为执行逆量化以提取解量化的变换系数,且处理该解量化的变换系数,以将残差从频域变换到空间域。残差解码器(873)还可能需要某些控制信息(用以包括量化器参数(qp)),且该信息可由熵解码器(871)提供(未描绘数据路径,因为这仅仅是低量控制信息)。
[0103]
重构模块(874)被配置为在空间域中组合由残差解码器(873)输出的残差与预测结果(根据具体情况可由帧间预测模块或帧内预测模块输出)以形成重构的块,该重构的块可以是重构的图片的一部分,该重构的图片继而可以是重构的视频的一部分。应注意,可执行例如解块操作的其他合适的操作来改善视觉质量。
[0104]
应注意,可使用任何合适的技术来实施视频编码器(403)、视频编码器(603)和视频编码器(703)以及视频解码器(410)、视频解码器(510)和视频解码器(810)。在一个实施例中,可使用一个或多个集成电路来实施视频编码器(403)、视频编码器(603)和视频编码器(703)以及视频解码器(410)、视频解码器(510)和视频解码器(810)。在另一实施例中,可使用执行软件指令的一个或多个处理器来实施视频编码器(403)、视频编码器(603)和视频编码器(603)以及视频解码器(410)、视频解码器(510)和视频解码器(810)。
[0105]
ii.波前并行处理
[0106]
在一些实施例中,波前并行处理(wpp)用于并行化。wpp使得能够创建可以并行处理而不会产生高编码损失的图片划分。图9示出了wpp的示例。图片(或切片或图块)(900)可
以被划分为例如4行ctu。每行ctu可以以两个ctu的延迟并行处理。在对相邻块(左、上、左上、右上)解码之后,可以对ctu(901)进行解码。因此,可以采用相邻ctu行之间的图片内预测。例如,如箭头(902)所示,ctu(901)内的块的解码可以参考左、上、左上、右上ctu内的相邻块。
[0107]
此外,如箭头(903)所示,在每个ctu行的开始处,使用右上ctu末尾的上下文重置基于上下文自适应二进制算数代码(cabac)上下文。因此,与其他并行编码工具相比,例如,基于图块或切片划分,可以保留相邻ctu行之间的编码依赖性(图片内预测和cabac上下文建模)。因此,可以实现更高的编码效率。
[0108]
在一些实施例中,允许更大的ctu大小,例如,128x128像素。可以使用具有一个ctu延迟的wpp。对于较大的ctu大小,因为128x128 ctu中处理的像素的数量大于两个64x64 ctu中处理的像素的数量,因此一个ctu足以用于cabac学习。图10示出了具有一个ctu延迟的wpp的另一示例。与图9的示例类似,图片(或切片或图块)(1000)可以被划分为例如4行ctu。每行ctu可以以一个ctu的延迟并行处理。在对相邻块(左、上、及左上)解码之后,可以对ctu(1001)进行解码。如交叉箭头(1002)所示,不能参考右上ctu内的块。当处理第一行ctu之后的每行ctu中的第一个ctu时,cabac概率可以从第一个ctu的上面的ctu继承,如箭头(1003)所示。
[0109]
iii.wpp中的问题
[0110]
使用较大的ctu大小在wpp中有一个坏处。对于具有一定分辨率的图片,使用较大的ctu大小会降低并行处理性能。例如,较大的ctu大小将导致更少的ctu行数,而这又会导致可并行化的处理线程数较少。此外,由于ctu大小较大,wpp的流水线延迟可能较长。此外,较大的ctu大小可以在处理(例如,编码/解码)ctu的处理时间上具有较大的方差,从而导致并行处理中的延迟增加。
[0111]
在ctu行级别上对wpp进行处理。在一些实施例中,ctu大小在例如包含在序列参数集(sps)中的序列级上用信号发送,这意味着在图片层面或切片层面上没有适应ctu大小的灵活性。
[0112]
当图片的高度小于宽度时,由于图片行缓冲器依赖于水平像素的数量和相关的边信息,所以图片行缓冲器的大小相对较大。
[0113]
iv.wpp的改进
[0114]
1.保证高度大于宽度的图片
[0115]
为了解决上述问题,在一些实施例中,编码器可以被配置为在对视频序列进行编码的过程中以较长的图片侧作为高以及较短的图片侧作为宽来对图片进行编码。这样,视频序列中的图片的每个图片可以被划分成比以较短的图片侧作为高的情况更多的ctu行。因此,当启用wpp时,可以利用更多的并行线程来获得更好的并行处理性能。此外,由于更短的图片宽度,该过程可能产生更小的行缓冲器大小。
[0116]
以上述编码模式对视频序列进行编码的决定可以基于某些条件,例如解码器能力的知识。例如,当目标解码器配置有多核cpu并且足以进行并行处理(可能是wpp)时,可以启用上述编码模式。
[0117]
当上述编码模式被启用时,可以用信号发送语法元素以通知解码器已编码视频序列中的图片保证具有大于(或等于)高度的宽度。例如,语法元素指示已编码视频序列中的
图片的每个图片具有大于高度的宽度。基于该信号,解码器可相应地对后续语法元素进行解码或确定wpp是否可用于对已编码视频序列进行解码。
[0118]
在一些实施例中,使用高级语法元素来指示是否保证已编码视频序列中的图片的高度不小于已编码视频序列中的图片的宽度。例如,高级语法元素可用于保证视频序列中的图片的高度大于或等于图片的宽度。
[0119]
高级语法元素可以在视频编码器处生成并用信号发送到解码器。在示例中,在补充增强信息(sei)消息中用信号发送高级语法元素。在示例中,高级语法元素作为视频可用性信息(vui)参数集的一部分用信号发送。
[0120]
例如,sei消息和vui参数的示例性语法和语义可以由针对已编码视频比特流的多功能补充增强信息消息标准(versatile supplemental enhancement information messages for coded video bitstreams,草案5)(jvet-s2007-v7,itu-tsg 16wp 3的jvet与iso/iec jtc 1/sc 29/wg 11,第18次会议:2020年4月15日至24日举行的远程会议)来限定。本标准草案全部内容通过引用并入本文。例如,在上述标准草案中定义的vui参数和sei消息可以以视频编码规范中规定的方式在已编码视频比特流中传送,或者可以通过由使用这种已编码视频比特流的系统的规范所确定的其他方式传送。例如,sei消息和vui参数可以与rec.itu-t h.266、iso/iec 23090-3或其他类型的已编码视频比特流规定的已编码视频比特流一起使用。
[0121]
在示例中,高级语法元素以例如包含在已编码视频比特流中的sps中的视频序列级用信号发送。在示例中,高级语法元素以例如包含在pps中的图片级用信号发送。在各种示例中,高级语法元素可以作为在对图片解码时可以参考的任何类型的高级语法元素用信号发送。
[0122]
在一些实施例中,高级语法元素是表示为width_smaller_than_height_flag的标志。该标志可以以已编码视频比特流的任何级或在已编码视频比特流之外用信号发送。在示例中,当标志具有第一值,例如值为1,该标志可以指示视频序列或参考该标志的图片具有小于图片高度的图片宽度。当标志具有第二值,例如值为0,该标志可以指示视频序列或参考该标志的图片可以具有或者不具有小于图片高度的图片宽度。例如,第二值可以指示从解码器的角度来看不知道图片宽度是否小于图片高度。
[0123]
在示例中,当在已编码视频比特流中没有用信号发送标志时,解码器可以推断该标志具有某个值。在一个示例中,可以推断标志具有指示视频序列或参考该标志的图片可以具有或者不具有小于图片高度的图片宽度的值。在另一示例中,当在已编码视频比特流中没有用信号发送标志时,解码器可以推断标志具有指示视频序列或参考该标志的图片具有小于图片高度的图片宽度的值。
[0124]
在示例中,width_smaller_than_height_flag可以在sps中用信号发送,如下表1所示。
[0125]
表1
[0126][0127]
在一些实施例中,在接收到或推断出width_smaller_than_height_flag之后,解码器可以相应地参考该标志对视频序列或图片进行解码。例如,基于width_smaller_than_height_flag的值,解码器可以对语法元素进行解码以确定视频序列或图片的宽度和高度。
[0128]
在实施例中,当width_smaller_than_height_flag具有指示保证图片宽度小于视频序列(或图片)的图片高度的值时,可以用第一语法元素(例如,在sps或pps中)用信号发送图片宽度,以及用第二语法元素(例如,在sps或pps中)用信号发送图片高度和图片宽度之间的差值。由于图片高度总是大于(或等于)图片宽度,并且不需要差值的符号,因此第二语法元素可以作为无符号整数用信号发送。在示例中,在已编码视频比特流中,在第二语法元素之前用信号发送第一语法元素。在示例中,在第一语法元素之前用信号发送第二语法元素。在一些示例中,第一语法元素用于表示图片高度而不是图片宽度,以及第二语法元素仍然用于表示差值。
[0129]
假定上述发送第一和第二语法元素的信号的配置,基于第一和第二语法元素的预定义语义,响应于接收到具有指示保证图片宽度小于视频序列(或图片)的图片高度的值的width_smaller_than_height_flag,解码器可以相应地正确解释第一和第二语法元素。
[0130]
在实施例中,当width_smaller_than_height_flag具有指示图片宽度可以小于或不小于参考该标志的视频序列(或图片)的图片高度的值时,可以分别用不同的语法元素用信号发送图片宽度和图片高度。例如,图片宽度由第一语法元素指示,而图片高度由第二语法元素指示。因此,解码器可以在接收到标志时对这两个语法元素进行解码以确定图片宽度和图片高度。
[0131]
在示例中,在接收到或推断出width_smaller_than_height_flag之后,解码器可以基于width_smaller_than_height_flag的值来确定使用哪种并行处理编码方法来对视频序列或图片进行解码。例如,用于并行处理的候选编码方法可以包括图块、wpp、切片、子图片等。在实施例中,当标志指示保证图片高度大于图片宽度时,解码器可以确定wpp将用于对视频序列进行解码。可以结合width_smaller_than_height_flag来考虑其他因素(例如,ctu大小)以进行上述选择。在一个实施例中,当width_smaller_than_height_flag用信号发送时,指示启用除wpp之外的某些并行处理方法的语法元素可以不用信号发送,并且可以由解码器进行推断以节约编码的比特。
[0132]
在一些实施例中,当在编码器处的输入视频序列的高度小于宽度时,可以对输入视频序列执行预处理,以保证预处理的视频序列的宽度大于高度。例如,作为预处理的结果,方位可以改变,并且输入视频序列的宽度和高度变成预处理视频序列的高度和宽度。
[0133]
在示例中,可以在输入视频序列上执行旋转操作以生成预处理视频序列。例如,输入视频序列可以顺时针或逆时针旋转90度。当顺时针旋转90度时,输入视频序列中图片左侧的像素将移动到预处理视频序列中图片的顶部。当逆时针旋转90度时,输入视频序列中
图片左侧的像素将移动到预处理视频序列中图片的底部。在任一情况下,输入视频序列的宽度和高度变成预处理的视频序列的高度和宽度。
[0134]
对应于上述预处理的视频序列,宽度信息可以首先例如在sps中用信号发送。然后,高度和宽度之间的差值可以例如在sps中作为无符号整数用信号发送。因此可以节省用于用信号发送高度和宽度的编码的比特。
[0135]
在示例中,在与预处理视频序列对应的已编码视频比特流中,没有关于是否在编码器处发生旋转操作的信号。在另一示例中,指示是否执行旋转操作的语法可以在对应于预处理视频序列的已编码视频比特流中用信号发送。
[0136]
在一些实施例中,结合预处理以保证图片宽度小于已编码视频序列的图片高度,可以用信号发送上述高级语法元素(例如,width_smaller_than_height_flag),以指示是否保证高度不小于已编码视频序列中的宽度。对应于预处理,高级语法元素可以设置为例如1的值。例如,无论是否执行预处理(例如,旋转操作)(取决于输入视频序列的高度和宽度的长度),高级语法元素都可以用信号发送以指示保证高度不小于已编码视频序列中的宽度。
[0137]
相反,当在编码器处不启用预处理时,高级语法元素可以用信号发送以指示宽度能小于或不小于已编码视频序列中的高度。或者,高级语法元素没有用信号发送,并且可以由解码器推断为具有指示宽度能小于或不小于高度的值。
[0138]
在示例中,在保证图片高度大于已编码视频序列的图片宽度的预处理中,不用信号发送高级语法元素来指示是否保证高度不小于已编码视频序列中的宽度。例如,可以在视频编码标准(例如vvc)中指定预处理。因此,解码器和编码器可以具有相同的理解,即保证高度不小于宽度。因此,解码器可以解码一些语法元素,例如,在假设图片高度大于图片宽度的情况下获得图片宽度和高度,或者决定如何从多个候选并行处理方法中选择合适的并行处理方法。
[0139]
2.灵活ctu大小
[0140]
如上所述,在一些实施例中,ctu大小可以影响wpp编码性能,并可以例如在sps中用信号发送。为了实现针对特定图片或图片中的区域的更好的wpp编码性能,在一些实施例中,ctu大小可以在图片级或切片级用信号发送,而不是在序列级用信号发送。例如,ctu大小可以在pps或切片头中用信号发送。因此,不同的图片或切片可以具有不同的ctu大小,从而产生不同数量的ctu行。这样就可以实现不同粒度的wpp。
[0141]
在一些示例中,不同类型的切片可以使用不同的ctu大小。在一些实施例中,可以有三种类型的切片:i切片、p切片、b切片。i切片使用帧内预测,p切片可以使用具有一个参考图片列表的帧内预测和帧间预测,而b切片可以使用具有两个参考图片列表的帧内预测和帧间预测。在示例中,较小的ctu大小可用于帧内已编码切片(i切片),从而可使用更多的wpp线程来加速帧内已编码切片的处理速度。在示例中,较大的ctu大小用于具有较高时域水平的其他类型的切片(例如p切片或b切片),以便需要较少的wpp线程。在一些情况下,i切片的处理复杂度高于b或p切片。在一些示例中,对不同类型的切片应用不同的ctu大小(不同的线程数)可以平衡针对不同切片的处理时间(或工作负载),从而使得包括这些切片的图片的总体处理时间更短。
[0142]
在一些示例中,ctu大小可以在图块级或子图片级用信号发送,使得不同的图块或
子图片可以具有不同的ctu大小,从而具有不同的ctu行和wpp线程。
[0143]
在一些实施例中,在图片级(pps级)和切片级用信号发送ctu大小可以与在序列级(sps级)用信号发送ctu大小相结合。在示例中,最大ctu大小可以在sps级用信号发送,而在其他级上,例如图片级和/或切片级,可以进一步用信号发送更小的ctu大小以使得能够在该级上有更多的wpp线程。对于使用在sps级用信号发送最大ctu大小的图片或切片,可以不对这些图片或切片的ctu大小用信号发送以节约编码的比特。
[0144]
在示例中,在序列级用信号发送ctu大小,而在其他级上,例如图片级和/或切片级,可以进一步用信号发送更小或更大的ctu大小,以使得能够在该级上有更多或更少的wpp线程。类似地,对于与在序列级用信号发送的相同ctu大小的图片或切片,可以不用信号发送ctu大小。
[0145]
v.保证图片宽度小于图片高度的处理
[0146]
图11示出了根据本公开实施例的概述过程(1100)的流程图。过程(1100)可用于块的重构。在各实施例中,处理(1100)由处理电路执行,例如,终端装置(310)、(320)、(330)和(340)中的处理电路,例如视频解码器(410)中的执行视频处理功能的处理电路,执行视频解码器(510)功能的处理电路等。在一些实施例中,过程(1100)在软件指令中实现,因此当处理电路执行软件指令时,处理电路执行过程(1100)。过程从(s1101)开始并进行到(s1110)。
[0147]
在(s1110),可以在已编码视频比特流中接收第一语法元素。第一语法元素可以指示已编码视频比特流的视频序列中的多个图片中的每个图片的高度是否等于或大于视频序列中的相应图片的宽度。第一语法元素可以作为高级语法元素来传输。例如,第一语法元素可以在sei消息、vui参数集(或称为vui语法结构)、sps等中传输。
[0148]
在示例中,第一语法元素的第一值指示视频序列中的图片中的每个图片的宽度小于视频序列中相应图片的高度,以及第一语法元素的第二值指示视频序列中的图片的宽度能小于或不小于视频序列中的图片的高度。在实施例中,不在比特流中用信号发送第一语法元素。解码器可以推断第一语法元素的值为第二值。
[0149]
在实施例中,与编码器处的已编码视频比特流的视频序列对应的输入视频序列具有小于宽度的高度。将输入视频序列的高度编码为已编码视频比特流的视频序列中的图片的宽度,将输入视频序列的宽度编码为已编码视频比特流的视频序列中的图片的高度。例如,可以在编码器处执行旋转预处理以转换输入视频序列中的图片的高度和宽度。
[0150]
在实施例中,还可以接收指示视频序列中的图片的宽度的第二语法元素。还可以接收指示视频序列中的图片的高度与视频序列中的图片的宽度之间的差值的第三语法元素。该差值为可以是无符号整数。例如,当第一语法元素指示已编码视频的视频序列保证视频序列中图片的高度等于或大于视频序列中图片的宽度时,可以在比特流中用信号发送第二语法和第三语法。
[0151]
在实施例中,可以在已编码视频比特流中接收多个第四语法元素。多个第四语法元素中的每个第四语法元素都可以与视频序列中的多个切片中的相应切片相关联。多个第四语法元素可以指示不同类型的相应切片的不同ctu大小。例如,在多个切片中,i型切片具有比其他切片类型更小的ctu大小。
[0152]
在实施例中,可以接收第五语法元素。第五语法元素可以在已编码视频比特流中
以图片级用信号发送。第五语法元素可以指示视频序列中的图片中的一个图片的ctu大小。在示例中,第四语法元素和第五语法元素都是针对视频序列传输。在示例中,对于第四和第五语法元素的使用,针对视频序列仅传输第四语法元素或仅传输第五语法。
[0153]
在一些实施例中,序列级中的ctu大小的用信号发送和图片或切片级中的ctu大小的用信号发送可以结合,使得不同的图片或切片可以使用不同的ctu大小。例如,可以接收第六语法元素。第六元素可以包括在比特流中的sps中并指示视频序列的第一ctu大小。可以与第六语法元素一起接收在图片级或切片级用信号发送的第七语法元素。第七语法可以指示视频序列中相应图片或相应切片的第二ctu大小。例如,所述第一ctu大小是所述视频序列的最大ctu大小,以及所述第二ctu大小小于所述最大ctu大小。
[0154]
在(s1120),在根据指示已编码视频的视频序列中的多个图片中的每个图片的高度是否等于或大于视频序列中的相应图片的宽度的第一语法元素所确定的方位上对已编码视频的视频序列中的图片进行处理。
[0155]
例如,当第一语法元素具有或者被推断为具有指示不能保证视频序列中的图片的高度等于或大于视频序列中的图片的宽度的值时,解码器可以继续以与当前hevc或vvc标准中规定的类似的方式对视频序列进行解码。
[0156]
当第一语法元素具有或被推断为具有指示保证视频序列中的图片的高度等于或大于视频序列中的图片的宽度的值时,解码器可以基于第二和第三语法元素来确定图片的宽度和高度。此外,基于第一语法元素和可选的其他因素,解码器可以从多个候选并行处理方法中确定选择wpp,以对视频序列中的图片进行处理。
[0157]
解码器还可以基于第四和第五语法元素或第六和第七语法元素来确定图片或切片的ctu大小。随后,解码器可以确定用于处理图片或切片的线程的数量。解码器可以相应地配置软件或硬件资源以使用wpp方法来处理图片或切片。因此,可以生成与视频序列相应的已重构图片。过程(1100)可以进行到(s1199)并在(s1199)终止。
[0158]
vi.计算机系统
[0159]
可以将上述技术实现为计算机软件,该计算机软件使用计算机可读指令,且物理地存储在一个或多个计算机可读介质中。例如,图12示出了适于实施所公开主题的某些实施例的计算机系统(1200)。
[0160]
可以使用任何合适的机器代码或计算机语言对计算机软件进行编码,任何合适的机器代码或计算机语言可以经受汇编、编译、链接或类似的机制以创建包括指令的代码,该指令可以由一个或多个计算机中央处理单元(cpu)、图形处理单元(gpu)等直接执行或通过解释、微代码等执行。
[0161]
指令可以在各种类型的计算机或其组件上执行,例如包括个人计算机、平板计算机、服务器、智能电话、游戏装置、物联网装置等。
[0162]
图12中所示的计算机系统(1200)的组件本质上是示例性的,并且不旨在对实施本公开的实施例的计算机软件的用途或功能的范围提出任何限制。组件的配置也不应被解释为具有与计算机系统(1200)的示例性实施例中所示的组件中的任何一个组件或组件的组合有关的任何依赖或要求。
[0163]
计算机系统(1200)可以包括某些人机接口输入装置。此类人机接口输入装置可以响应于一个或多个人类用户通过例如下述的输入:触觉输入(例如:击键、划动,数据手套移
动)、音频输入(例如:语音、拍手)、视觉输入(例如:手势)、嗅觉输入(未描绘)。人机接口装置还可以用于捕获不一定与人的意识输入直接相关的某些媒介,例如音频(例如:语音、音乐、环境声音)、图像(例如:扫描的图像、从静止图像相机获取摄影图像)、视频(例如二维视频、包括立体视频的三维视频)等。
[0164]
输入人机接口设备可以包括下述中的一项或多项(每种中仅示出一个):键盘(1201)、鼠标(1202)、触控板(1203)、触摸屏(1210)、数据手套(未示出)、操纵杆(1205)、麦克风(1206)、扫描仪(1207)、相机(1208)。
[0165]
计算机系统(1200)可以包括某些人机接口输出装置。这样的人机接口输出装置可以例如通过触觉输出、声音、光和气味/味道来刺激一个或多个人类用户的感官。此类人机接口输出装置可以包括触觉输出装置(例如触摸屏(1210)的触觉反馈、数据手套(未示出)或操纵杆(1205),但也可以是不作为输入装置的触觉反馈装置)、音频输出装置(例如:扬声器(1209)、耳机(未描绘))、视觉输出装置(例如包括crt屏幕、lcd屏幕、等离子屏幕、oled屏幕的屏幕(1210),每种屏幕都有或没有触摸屏输入功能,每种屏幕都有或没有触觉反馈功能-其中的一些屏幕能够通过诸如立体图像输出之类的装置、虚拟现实眼镜(未描绘)、全息显示器和烟箱(未描绘)以及打印机(未描绘)来输出二维视觉输出或超过三维的输出。
[0166]
计算机系统(1200)还可以包括人类可访问存储装置及其关联介质,例如,包括具有cd/dvd等介质(1221)的cd/dvd rom/rw(1220)的光学介质、指状驱动器(1222),可拆卸硬盘驱动器或固态驱动器(1223)、诸如磁带和软盘之类的传统磁性介质(未描绘)、诸如安全软件狗之类的基于专用rom/asic/pld的装置(未描绘)等。
[0167]
本领域技术人员还应该理解,结合当前公开的主题使用的术语“计算机可读介质”不涵盖传输介质、载波或其他暂时性信号。
[0168]
计算机系统(1200)还可以包括到一个或多个通信网络(1255)的接口(1254)。网络可以例如是无线网络、有线网络、光网络。网络还可以是本地网络、广域网络、城域网络、车辆和工业网络、实时网络、延迟容忍网络等。网络的示例包括诸如以太网之类的局域网、无线lan、包括gsm、3g、4g、5g、lte等的蜂窝网络、包括有线电视、卫星电视和地面广播电视的电视有线或无线广域数字网络、包括canbus的车辆和工业用电视等等。某些网络通常需要连接到某些通用数据端口或外围总线(1249)的外部网络接口适配器(例如,计算机系统(1200)的usb端口);如下所述,其他网络接口通常通过连接到系统总线而集成到计算机系统(1200)的内核中(例如,连接到pc计算机系统中的以太网接口或连接到智能手机计算机系统中的蜂窝网络接口)。计算机系统(1200)可以使用这些网络中的任何一个网络与其他实体通信。此类通信可以是仅单向接收的(例如,广播电视)、仅单向发送的(例如,连接到某些canbus装置的canbus)或双向的,例如,使用局域网或广域网数字网络连接到其他计算机系统。如上所述,可以在那些网络和网络接口中的每个上使用某些协议和协议栈。
[0169]
上述人机接口装置、人机可访问的存储装置和网络接口可以附接到计算机系统(1200)的内核(1240)。
[0170]
内核(1240)可以包括一个或多个中央处理单元(cpu)(1241),图形处理单元(gpu)(1242),现场可编程门区域(fpga)(1243)形式的专用可编程处理单元、用于某些任务的硬件加速器(1244),图形适配器(1250)等。这些装置以及只读存储器(rom)(1245)、随机存取存储器(1246)、诸如内部非用户可访问的硬盘驱动器、ssd等之类的内部大容量存储器
(1247)可以通过系统总线(1248)连接。在一些计算机系统中,可以以一个或多个物理插头的形式访问系统总线(1248),以能够通过附加的cpu、gpu等进行扩展。外围装置可以直接连接到内核的系统总线(1248)或通过外围总线(1249)连接到内核的系统总线(1848)。在一个示例中,屏幕(1210)可以连接到图形适配器(1250)。外围总线的体系结构包括pci、usb等。
[0171]
cpu(1241)、gpu(1242)、fpga(1243)和加速器(1244)可以执行某些指令,这些指令可以组合来构成上述计算机代码。该计算机代码可以存储在rom(1245)或ram(1246)中。过渡数据也可以存储在ram(1246),而永久数据可以例如存储在内部大容量存储器(1247)中。可以通过使用高速缓存来进行到任何存储装置的快速存储及检索,该高速缓存可以与下述紧密关联:一个或多个cpu(1241)、gpu(1242)、大容量存储器(1247)、rom(1245)、ram(1246)等。
[0172]
计算机可读介质可以在其上具有用于执行各种由计算机实现的操作的计算机代码。介质和计算机代码可以是出于本公开的目的而专门设计和构造的介质和计算机代码,或者介质和计算机代码可以是计算机软件领域的技术人员公知且可用的类型。
[0173]
作为非限制性示例,可以由于一个或多个处理器(包括cpu、gpu、fpga、加速器等)执行包含在一种或多种有形的计算机可读介质中的软件而使得具有架构(1200),特别是内核(1240)的计算机系统提供功能。此类计算机可读介质可以是与如上所述的用户可访问的大容量存储相关联的介质,以及某些非暂时性的内核(1240)的存储器,例如内核内部大容量存储器(1247)或rom(1245)。可以将实施本公开的各实施例的软件存储在此类装置中并由内核(1240)执行。根据特定需要,计算机可读介质可以包括一个或多个存储器装置或芯片。软件可以使得内核(1240),特别是其中的处理器(包括cpu、gpu、fpga等)执行本文所描述的特定过程或特定过程的特定部分,包括定义存储在ram(1246)中的数据结构以及根据由软件定义的过程来修改此类数据结构。附加地或替换地,可以由于硬连线或以其他方式体现在电路(例如,加速器(1244))中的逻辑而使得计算机系统提供功能,该电路可以替换软件或与软件一起运行以执行本文描述的特定过程或特定过程的特定部分。在适当的情况下,提及软件的部分可以包含逻辑,反之亦然。在适当的情况下,提及计算机可读介质的部分可以包括存储用于执行的软件的电路(例如集成电路(ic))、体现用于执行的逻辑的电路或包括两者。本公开包括硬件和软件的任何合适的组合。
[0174]
附录:首字母缩略语
[0175]
jem:联合探索模型
[0176]
vvc:通用视频编码
[0177]
bms:基准集
[0178]
mv:运动矢量
[0179]
hevc:高效视频编码
[0180]
sei:补充增强信息
[0181]
vui:视频可用性信息
[0182]
gop:图片群组
[0183]
tu:变换单元
[0184]
pu:预测单元
[0185]
ctu:编码树单元
[0186]
ctb:编码树块
[0187]
pb:预测块
[0188]
hrd:假想参考解码器
[0189]
snr:信噪比
[0190]
cpu:中央处理单元
[0191]
gpu:图形处理单元
[0192]
crt:阴极射线管
[0193]
lcd:液晶显示器
[0194]
oled:有机发光二极管
[0195]
cd:光盘
[0196]
dvd:数字视频光盘
[0197]
rom:只读存储器
[0198]
ram:随机存取存储器
[0199]
asic:专用集成电路
[0200]
pld:可编程逻辑器件
[0201]
lan:局域网
[0202]
gsm:全球移动通信系统
[0203]
lte:长期演进
[0204]
canbus:控制器局域网总线
[0205]
usb:通用串行总线
[0206]
pci:互连外围设备
[0207]
fpga:现场可编程门区域
[0208]
ssd:固态硬盘
[0209]
ic:集成电路
[0210]
cu:编码单元
[0211]
尽管本公开已经描述了多个示例性实施例,但是存在落入本公开的范围内的修改、置换和各种替换等效物。因此,应当理解,本领域技术人员将能够设计出许多虽然未在本文中明确示出或描述但是体现了本公开的原理并因此落入本公开的精神和范围内的系统和方法。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1