用于对高保真编码器中的低保真编码进行仿真的方法和设备的制造方法_2

文档序号：9602860阅读：来源：国知局

视频源的适合编码模式，例如主体帧/切片是I、P还是B类型，以及帧/切片内的特定编码单元（例如宏块、编码单元等）是帧内还是帧间编码，即，预测是来自运动预测器36(帧间编码）还是空间预测器21 (帧内编码）。变换处理器22执行对空间域数据的变换。具体地，变换处理器22应用基于块的变换来将空间域数据转换为频谱分量。例如，在很多实施例中，使用离散余弦变换（DCT)。在一些实例中可以使用其他变换，例如离散正弦变换、小波变化等。可以对变换单元执行基于块的变换。变换单元可以和编码单元大小相同，或者可以将编码单元分为多个变换单元。在H. 264标准中，例如，典型的16x16宏块（编码单元）包含16个4x4的变换单元，并对4x4的块执行DCT处理。变换单元（TU)可以具有其他大小。在一些情形中，TU可以是非正方形的，例如非正方形正交变换（NSQT)。
[0029] 将基于块的变换应用于像素数据块得到变换域系数的集合。在该上下文中，"集合"是有序集合，在该集合中系数具有系数位置。在一些实例中，变换域系数的集合可被认为是系数的"块"或矩阵。在本文的描述中，短语"变换域系数的集合"或"变换域系数的块" 可互换地使用，并且用于指示变换域系数的有序集合。
[0030] 量化器24对变换域系数的集合进行量化。然后，熵编码器26对量化后的系数和相关联的信息进行编码。
[0031] 在不参考其他帧/切片的情况下，对帧内编码的帧/切片（即，I型）进行编码。换言之，它们不使用时间预测。然而，帧内编码的帧依赖于通过如图1所示的空间预测器21 进行的帧/切片内的空间预测。也就是说，当对特定块进行编码时，可以将该块中的数据和已经针对该帧/切片编码的块内的相邻像素的数据进行比较。通过使用预测操作，编码器 10基于相邻像素的数据创建预测块或单元。存在各种预测模式或预测方向。在一些情形中，可以使用速率失真优化来选择模式/方向。预测操作中使用的相邻像素是先前已被编码和解码并存储在反馈环路内的线缓冲器35中的重构像素。块的实际像素数据和预测块之间的差是残差块，即，误差信号。对残差数据进行变换、量化和编码，以在比特流14中传输。
[0032] 帧间编码的帧/块依赖于时间预测，S卩，使用来自其他帧/图片的重构数据对其进行预测。编码器10具有反馈环路，反馈环路包括：解量化器28、逆变换处理器30和解块处理器32。解块处理器32可以包括解块处理器和滤波处理器。这些元件反映了解码器50执行以再现帧/图像片的解码过程。使用帧存储器34来存储再现帧。通过这种方式，运动预测基于解码器50处的重构帧将是什么，而不基于原始的帧，由于编码/解码中所涉及的有损压缩，原始帧与重构帧可能不同。运动预测器36使用帧存储器34中存储的帧/切片作为源帧/图片，来与当前帧进行比较，以识别相似块。换句话说，实施运动向量搜索以识别另一个帧/图片内的块。该块是预测块或单元的源。预测块和原始块之间的差变为残差数据，然后对残差数据进行变换、量化和编码。
[0033] 本领域普通技术人员将认识到用于实现视频编码器的细节和可能变化。
[0034] 解码器50包括熵解码器52、解量化器54、逆变换处理器56和解块处理器60。解块处理器60可以包括解块处理器和滤波处理器。当帧/图片被解码以便空间补偿器57在帧内编码中使用时，线缓冲器59存储重构像素数据。帧缓冲器58存储完全重构和解块的帧以便运动补偿器62在应用运动补偿时使用。
[0035] 熵解码器52接收并解码比特流14,以恢复量化系数。在熵解码处理期间还可以恢复辅助信息，包括编码模式信息，并且可以将其中的一些提供给反馈环路，以便在创建预测时使用。例如，熵解码器52可以恢复用于帧间编码块的运动向量和/或参考帧信息，或者用于帧内编码块的帧内编码模式方向信息。
[0036] 然后，解量化器54对量化后的系数进行解量化，以产生变换域系数，然后，逆变换处理器56对变换域系数进行逆变换，以重建/重构残差像素域数据。空间补偿器57根据残差数据和使用空间预测创建的预测块来产生视频数据。根据来自相同帧的先前重构的像素数据，空间预测使用与编码器已使用的相同的预测模式/方向。基于先前解码的帧/图片和从比特流解码的运动向量，通过创建预测块来重构帧间编码块。然后，将重构残差数据添加到预测块中以产生重构像素数据。本文中，空间和运动补偿均可以称为"预测操作"。
[0037]然后，可以对重构帧/切片应用解块/滤波处理，如解块处理器60所示。在解块 /滤波后，输出帧/切片作为解码视频帧16,例如以在显示设备上显示。将理解的是，视频回放机（如计算机、机顶盒、DVD或蓝光播放器和/或移动手持设备）可以在输出设备上显示之前在存储器中缓冲解码帧。
[0038]在H. 265/HEVC和一些其他编码标准中，图片被分为不重叠的块集合。在H. 265/HEVC中，例如，每个图片被分为64x64编码树块（CTB)(有时也称为"编码树单元")。然后，使用四叉树结构分割进一步将每个CTB分为编码树节点，最终分为编码单元。需要注意的是，该结构中的"叶节点"（即，编码单元（CU))不必具有相同的大小。例如，CTB可以分为 32x32的块，其中两个可以是⑶（叶节点）并且其中两个还可以进一步分为16x16的块。其中一些可以是⑶，并且一些还可以进一步分为8x8的块，等等。
[0039] 虽然上述描述参考像素，但是将认识到，很多视频编码系统对每个像素都使用亮度数据（Y)和色度数据（U和V，或者Cb和Cr)。事实上，在数字视频系统中，将像素数据分为亮度和色度允许色度子采样的使用。因为人眼对自然视频场景中的色度细节不敏感，可以对色度数据进行子采样并以较低的分辨率发送，从而实现更大的压缩。在当前视频编码标准中，4 : 4 : 4的色度采样格式指示没有色度子采样，4 : 4 : 2指示因子为2的水平色度子采样，4 : 2 : 0指示因子为2的水平和垂直色度子采样。
[0040] 因为人感知自然场景中颜色空间局部性的有限能力，所以在日常用途中使用 4 : 2 : 0色度子采样的数字视频压缩。然而，数字视频更常规地用于对计算机生成的内容或者计算机生成的内容和自然场景的混合进行编码/解码。计算机生成的内容的特征是锐利的边缘、脉冲和高频。示例是文本或者计算机图形。需要高保真以避免该内容中亮度和色度分量的锐利边缘的模糊。需要注意的是，在本方面中"计算机生成"的内容不必然指代 "计算机生成的图像"或"CGI"，其中，计算创建的内容旨在设计为混入或呈现为电影或电视节目中的自然场景。
[0041] 当前编码的一个问题是，在低色度保真视频中，当对相同视频源进行编码时， 4:4:4系统看起来无法实现4:2:0系统或者甚至4:2:2系统的相同速率失真性能。因为一部分视频需要更高保真，所以整个视频都以4 : 4 : 4格式来编码。原本就是4 : 2 : 0格式的一部分，例如自然场景图像或视频，被上采样为4 : 4 : 4并根据该格式来编码。当4 : 2 : 0格式视频被上采样并以4 : 4 : 4格式编码时，确实得到略好的色度保真，但是比特率提高了约10%。由于较小的感知提高（如有的话），所以比特率方面的成本往往并不合适。
[0042]额外的比特率成本一部分是因为额外的色度系数，还有一部分是因为额外的开销。例如，在H. 265/HEVC的4 : 2 : 0编码中，8x8变换单元将得到4x4色度变换块，该 4x4色度变换块将不继承同一位置的8x8亮度变换块的任何分割。当色度被上采样并以 4 : 4 : 4格式编码时，得到8x8色度变换块并且其获得同一位置的亮度变换块的分割（以及额外的首部开销和额外的帧内模式信令）。此外，当使用较大的色度变换块时，使用较小的量化步长来量化这些块中的系数，得到较多的用于编码的系数数据。由于HEVC量化操作的结构，相比较小变换块的情形，相同的量化参数针对较大的变换块得到较小的量化步长。换句话说，相比较小变换块的情形，利用较大的变换块，编码器被配置为保持较高精度（较大/较多的系数）。因此，上采样和以4 : 4 : 4格式编码得到附加的系数数据。
[0043] 提交于2013年1月7日的与本申请相同申请人的美国专利申请（序列号 no. 13/735,782，）描述了具有混合保真要求的视频中的问题。在该申请中提出在使用预测块前对预测块进行滤波以移除较高的频率分量，从而产生残差数据。每个块的标志控制是否针对该块进行预测进行滤波。
[0044] 在一个方面中，本公开提出修改在图片的低保真区中使用的量化和/或其他编码参数。一方面，在4 : 4 : 4格式编码处理中，对应于低保真区的块或块组可能对它们的量化参数进行调整，从而以仿真什么可能从4 : 2 : 0格式编码得到的方式来处理这些区。例如，针对色度分量，可以

完整全部详细技术资料下载

当前第2页1 2 3 4 5