用中间层运动数据预测产生编码的视频序列的设备和方法

文档序号：7578050阅读：114来源：国知局

专利名称：用中间层运动数据预测产生编码的视频序列的设备和方法
技术领域：
本发明涉及视频编码系统，具体地涉及可缩放(scalable)视频编码系统，可结合视频编码标准H. 264/AVC或新的MPEG视频编码系统一起使用。
背景技术：
标准H. ^4/AVC是IUT-T视频编码专家组VCEG和IS0/IEC运动图像专家组(MPEG) 的视频标准化计划的结果。该标准化计划的主要目标是提供一种具有非常良好的压缩行为、同时产生网络友好的视频表征的清晰视频编码概念，包括例如视频电话的具有“通话特征”的应用以及没有通话特征的应用(存储、广播、流传输)。除了上述标准IS0/IEC 14496-10之外，还存在与该标准有关的多种出版物。仅作为示例，参考"The Emerging H. 264-AVC standard，，，Ralf Schafer, Thomas Wiegand and Heiko Schwarz, EBU Technical Review, January 2003。此夕卜，专家出版物"Overview ofthe H. 264/AVC Video Coding Standard，，，Thomas ffiegand, Gary J. Sullivan, Gesle Bjontegaard and Ajay Lothra,IEEE Transactions on Circuits and Systems for Video Technology, July 2003 i^R^MtHfk^ "Context-based adaptive Binary Arithmethic Coding in the H. 264/AVC Video Compression Standard，，，Detlev Marpe, Heiko Schwarz and Thomas ffiegand,IEEE Transactions on Circuits and Systems for Video Technology, September 2003，包括视频编码标准的不同方面的概述。然而，为了更好地理解，将参考图9至11给出视频编码/解码算法的概述。图9示出了视频编码器的完整结构，视频编码器通常包括两个不同级。通常，第一级通常进行有关视频的操作，产生输出数据，然后输出数据经过第二级的熵编码，第二级在图9中由80表示。数据是数据81a、量化变换系数81b以及运动数据81c，其中，将这些数据81a、81b、81c提供给熵编码器80，以在熵编码器80的输出处产生编码的视频信号。具体地，将输入视频信号分别分割划分为宏块，其中每个宏块具有16X16象素。然后，选择宏块与片组和片的关联，根据该关联，由图8所示的操作块网络来处理每个片的每个宏块。应该注意，当视频图像中存在不同的片时，可能高效并行处理宏块。经由图8中的块编码器控制82来执行宏块与片组和片的关联。存在不同的片，这些片定义如下I片1片是其中片的所有宏块都是使用帧内预测来编码的片。P片除了 I片的编码类型之外，P片的某些宏块也可利用每个预测块的至少一个运动补偿预测信号，使用帧间预测来编码。B片除了 P片中可用的编码类型之外，B片的某些宏块也可利用每个预测块的两个运动补偿预测信号，使用帧间预测来编码。上述三种编码类型与早期的标准中的编码类型非常类似，但是如下面所述的，使用参考图像。下面片的两种编码类型在标准H. 264/AVC中是新的SP片该片也被称为切换P片，其编码成可在不同预编码图像之间有效地切换。SI片SI片也被称为切换I片，其使SP片中的宏块精确地适应直接随机存取和错误恢复目的。总而言之，片是宏块序列，如果不使用灵活宏块排序FMO的属性，则按照光栅扫描的顺序对片进行处理，标准中同样定义了 FM0。如

图11所示，可将图像分割为一个或多个片。因此，图像是一个或多个片的集合。在这点上，由于可根据比特流来分析(解析)片的语法单元，所以片是彼此独立的，其中，可在片所表示的图像范围内正确地对采样值进行解码，只要所用的参考图像在编码器和解码器中是相同的。然而，需要来自其它片的某些信息来在片边界上应用解块滤波器(deblocking filter)。FMO特性通过使用片组的概念，来修改将图像划分为片的方式。每个片组是由宏块到片组的映射所定义的宏块的集合，宏块到片组的映射由图像参数集的内容和来自片头的某些信息规定。该宏块到片组的映射包括图像中每个宏块的片组标识号，该标识号规定了有关宏块所属的片组。可将每个片组划分为一个或多个片，因此片是相同片组中的宏块的序列，该序列按照特定片组的宏块集合中的光栅抽样的顺序来处理。取决于片编码器的类型，可以以一个或多个编码器类型来发送每个宏块。在所有片编码器类型中，支持被称为intra_4x4或intra_16X16类型的帧内编码，此外，还支持色度预测模式和I_rcM预测模式。intra_4x4模式基于独立的每个4X4色度块的预测，并且非常适用于对具有突出细节的图像部分进行编码。另一方面，intra_16X16模式执行整个16X16色度块的预测，并更适用于对图像的“柔和，，区域进行编码。除了这两个色度预测类型之外，还执行独立的色度预测。作为intra_4x4* intra_16X16的备选，I_4X4编码类型使得编码器简单地省略预测以及变换编码，而直接发送编码的采样的值。Ι—κ 模式具有以下目的其是编码器精确地表征采样的值。其提供一种精确地表征非常异常的图像内容的值而不放大数据的方式。此外，其可以确定比特数的确切边界，编码器需要具有该确切边界以处理宏块而不损失编码效率。与在变换域中执行帧内预测的早期的视频编码标准(即H.沈3+和MPEG-4Visual) 相反，H. ^4/AVC中的帧内预测总是通过参考分别在要预测的块的左侧和上方的先前编码的块的相邻采样，在空间域中执行的(图10)。在出现传输错误的某些情况下，这会引起错误传播，其中，由于帧内编码的宏块中的运动补偿而发生该错误传播。因此，可用信号通知受限的帧内编码模式，受限的帧内编码模式仅能够预测帧内编码的相邻宏块。在使用intra_4x4模式时，预测空间相邻采样的每个4X4块。通过使用相邻块中先前解码的采样，来预测4X4块的16个采样。可对每个4X4块使用9种预测模式之一。除了 “DC预测”(其中一值用于预测整个4X4块)之外，规定8个方向预测模式。这些模式适用于预测图像中的方向结构，例如不同角度的边缘。除了帧内宏块编码类型之外，将不同预测或运动补偿编码类型规定为P宏块类型。每个P宏块类型与将宏块具体分为块形式相对应，块形式用于运动补偿预测。语法支持以16 X 16、16 X 8、8 X 8或者8 X 16采样的小块尺寸进行划分。在8 X 8采样的划分中，对于每个8X8划分，发送附加的语法单元。该语法单元规定了是否将各个8X8划分进一步划分为8X4、4X8或者4X4亮度采样和相应的色度采样。通过将各个参考图像的区域移动由平移矢量和图像参考指标规定的量，获得每个预测编码的MXM小块的预测信号。因此，如果使用四个8X8划分来编码宏块，并且在将每个8X8划分进一步划分为四个4X4划分时，可在所谓运动场内传输单个P宏块的最大量为16的运动矢量。在H. 264/AVC中，量化参数片QP用于确定变换系数的量化。该参数可假定52个值。设置这些值，使得量化参数增加1则意味着量化器步长宽度增加大约12%。这意味着量化参数增加6则使量化器步长宽度恰好增加因子2。应该注意，步长大小改变大约12% 也意味着比特率减少大约12%。块的量化变换系数通常以Z字形路径来采样，并通过使用熵编码方法来处理。按照光栅扫描顺序来采样色度分量的2X 2DC次数，并且可通过使用16比特整数值的加法和移位运算来实现H. ^4/AVC中的所有逆变换运算。参考图9，对于视频序列中的每个图像，首先逐个图像将输入信号划分为16X16 象素的宏块。然后，将每个图像提供给减法器84，减法器84减去由包含在编码器中的解码器85提供的原始图像。然后对减法结果(即空间域的残留信号)进行变换、缩放和量化 (块86)，以获得线81b熵的量化变换系数。为了产生要馈入减法器84的减法信号，首先再次对量化变换系数进行缩放和逆变换(块87)，以提供给加法器88，加法器88的输出馈入解块滤波器89，其中，例如，在解块滤波器的输出处监视将要由解码器进行解码的输出视频信号，以用于控制目的(输出90)。通过使用输出90处的解码的输出信号，在块91中执行运动估计。对于块90中的运动估计，从图9中可见，提供原始视频信号的图像。标准允许两种不同的运动估计，即前向运动估计和后向运动估计。在前向运动估计中，关于前一图像来估计当前图像的运动。然而，在后向运动估计中，使用将来的图像来估计当前图像的运动。将运动估计的结果(块 91)提供给运动补偿块92，特别地，在开关93切换到帧间预测模式时，就像在图9的情况下一样，运动补偿块92执行运动补偿帧间预测。然而，如果开关93切换到帧内预测，则使用块490来执行帧内预测。因此，由于对于帧内预测，不执行运动补偿，所以不需要运动数据。运动估计块91分别产生运动数据和运动场，其中，将分别包括运动矢量的运动数据和运动场发送到解码器，从而可执行相应的逆预测，即使用变换系数和运动数据的重构。应该注意，在前向预测中，可分别根据紧接的前一图像和多个在前的图像来计算运动矢量。除此之外，还应该注意，在后向预测中，可使用紧接的相邻的将来图像，当然也可使用其它的将来图像，来计算当前图像。图9所示的视频编码概念的缺点在于，其未提供简单的可缩放性的可能。如本领域公知的，术语“可缩放性(scalability)，，表示编码器/解码器概念，其中，编码器提供缩放的数据流。缩放的数据流包括基本缩放层以及一个或多个增强缩放层。基本缩放层包括要编码的信号的表征，通常具有较低质量，但同时具有较低数据率。增强缩放层包含视频信号的另一表征，其提供相对于基本缩放层有提高质量的表征，典型地伴随着基本缩放层的视频信号表征。另一方面，当然，增强缩放层具有各自的比特需求，因此用于表示要编码的信号的比特数随每个增强层而增加。取决于设计和可能性，解码器仅对基本缩放层进行解码，以提供由解码信号表示的图像的相当差质量的表征。然而，随着每次“增加”另一缩放层，解码器可逐步提高信号的质量(在有损比特率的情况下)。取决于实现方式和编码器到解码器的传输通道，由于典型地基本缩放层的比特率很低而有限的传输通道足够，所以传输至少一个基本缩放层。如果传输通道不再有更多的带宽，则仅传输基本缩放层而不传输增强缩放层。结果，解码器可只产生图像信号的低质量表征。与数据率太高而使得传输系统不太可能的未缩放情况相比，低质量表征是有利的。如果传输通道运动传输一个或多个增强层，则编码器将向解码器传输一个或多个增强层，因此可根据请求，逐步地提高输出视频信号的质量。关于视频序列的编码，可区分两种不同的缩放。一种缩放是时间缩放，因此未传输视频序列的所有视频帧，而是为了减小数据率，例如，仅传输了每第二个帧、每第三个帧、每第四个帧等。另一种缩放是SNR缩放(SNR=信噪比)，其中，基本缩放层和第一、第二、第三、...增强缩放层包括所有的时间信息，但是具有不同的质量。因此，基本缩放层具有低数据率，但是具有低信噪比，其中，可通过每次增加一个增强缩放层来逐步地提高该信噪比。图9所示的编码器概念的问题在于，它是基于残留值仅由减法器84产生、然后被处理的事实。在图9所示的通过使用块86、87、88、93、94和84而形成闭合回路的设置中，基于预测算法来计算这些残留值，其中，量化参数进入闭合回路，即进入块86、87。如果现在实现简单的SNR缩放，即例如首先用粗量化步来量化预测残留信号，然后通过使用增强层，用细量化器步长来逐步量化预测残留信号，这将具有以下结果。由于逆量化和预测，特别地，关于一方面使用原始图像且另一方面使用量化图像而进行的运动估计(块91)和运动补偿(块92)，将在编码器和解码器中导致量化器步长的“发散”。这导致在解码器一侧产生增强缩放层非常困难。此外，在解码器一侧处理增强缩放层变得不可能，至少是关于在标准H. 264/AVC中定义的单元不可能。因此，原因是图9所示的视频编码器中的闭合回路包含量化。在Mn Diego2003年12月2日到5日的第九届JVT会议介绍的HsikoSctiwarz， Detlev Marpe 和 Thomas Wiegand 的题为 “SNR-Scalable Extension of H. 264/AVC” 的标准化文献JVT-I 032tl中，介绍了对H. ^4/AVC的可缩放扩展，其中包括关于时间和信噪比的可缩放性(具有相等或不同时间精度)。因此，引入了时间子带划分的提升表征，这允许使用运动补偿预测的公知方法。在 J.-R. Ohm, "Complexity and delay analysis of MCTF interframewavelet structures”，I SO/1 EC JTCl/WG11 Doc. M8520, July 2002 中描述了其中提升表征用于小波分析和小波合成的基于小波的视频编码算法。在D. Taubman, "Successive refinement of video fundamental issues, past efforts and new directions，，，Proc. of SPIE (VCIP，03)，vol. 5150，pp. 649-663，2003中可以找到与可缩放性有关的评述，然而，其中需要显著的编码器结构改变。根据本发明，一方面实现了编码器/解码器的概念，另一方面，可缩放的可能性可基于与标准一致的单元，尤其是对于运动补偿。在详细参考图3的编码器/解码器机构之前，首先，参考图4来分别描述编码6器一侧的基本提升方案和解码器一侧的逆提升方案。在W. Sweldens，“A custom design construction of biorthogonal wavelets", J. Appl. Comp. Harm. Anal. , vol. 3 (no. 2), pp.186-200,1996 禾口 I.Daubechies and W. Sweldens, "Factoring wavelet transforms into lifting Steps", J. Fourier Anal. Appl.，vol. 4 (no. 3)，pp. 247-269，1998 可找到与提升方案和小波变换的组合的背景技术有关的详细解释。通常，提升方案包括三步，即多相分解步骤、预测步骤和更新步骤。分解步骤包括将输入侧的数据流划分为下分支40a的相同第一拷贝以及上分支 40b的相同拷贝。此外，将上分支40b的相同拷贝延迟一时间级(广)，使得具有奇数索引k 的采样s2k+1与具有偶数索引^t的采样分别经过各个抽取器和下采样器42a、42b。抽取器 42a和42b分别通过去除每第二个采样，来减少上和下分支40b、40a中的采样数。涉及预测步骤的第二区域II包括预测算子43和减法器44。表示更新步骤的第三区域包括更新算子45和加法器46。在输出侧，存在两个归一化器47、48，用于归一化高通信号hk (归一化器47)和归一化低通信号Ik (归一化器48)。具体地，多相分解导致给定信号s [k]的奇偶采样的划分。由于相关性结构典型地示出了局部特性，所以奇偶多相分量高度相关。因此，在最后的步骤中，通过使用整数采样来执行奇数采样的预测(P)。每个奇数采样s。dd[k] = s[2k+l]的相应预测算子(P)是相邻偶数采样= s [2k]的线性组合，即
权利要求
1.一种用于对具有基本缩放层(100 和增强缩放层(1004)的编码的视频序列进行解码的设备，包括基本图像解码器(1060)，用于对基本缩放层进行解码，以获得残差图像的解码基本序列和基本运动数据；增强图像解码器(1066)，用于对增强缩放层进行解码以获得与残差图像的增强序列有关的信息以及与增强运动数据有关的信息；增强运动数据计算器(1078)，用于通过估计与增强运动数据有关的信息，并由于与增强运动数据有关的评估信息，通过使用与基本运动数据有关的信息，来计算增强运动数据；以及增强运动组合器(1076)，形成为通过使用残差图像的增强序列和增强运动数据，来获得增强缩放层的图像序列；其中，增强图像解码器(1066)形成为提供来自增强缩放层的运动数据接收信号，还设置上采样器(1086)，用于将基本缩放层分辨率的基本运动数据转换为增强缩放层分辨率；以及增强运动数据计算器(1078)形成为基于运动数据接收信号(1098)，提供转换的基本运动数据，作为增强运动数据。
2.一种用于对具有基本缩放层(100 和增强缩放层(1004)的编码的视频序列进行解码的方法，包括步骤对基本缩放层进行解码(1060)，以获得残差图像的解码基本序列和基本运动数据；对增强缩放层进行解码(1066)以获得与残差图像的增强序列有关的信息以及与增强运动数据有关的信息；通过估计与增强运动数据有关的信息，并由于与增强运动数据有关的评估信息，通过使用与基本运动数据有关的信息，来计算(1078)增强运动数据；以及通过使用残差图像的增强序列和增强运动数据，执行增强运动组合(1076)，来获得增强缩放层的图像序列；其中，解码步骤(1066)提供来自增强缩放层的运动数据接收信号，上采样步骤(1086)将基本缩放层分辨率的基本运动数据转换为增强缩放层分辨率；以及计算增强运动数据的步骤(1078)基于运动数据接收信号(1098)，提供转换的基本运动数据，作为增强运动数据。
全文摘要
用中间层运动数据预测产生编码的视频序列的设备和方法，在基本层(1002)和增强层的可缩放视频编码以及运动补偿(1006，1014)中，通过使用基本层(1002)的运动数据来执行增强层(1004)的运动数据的预测(1014，1016)，以获得可缩放的概念，一方面，这提供了计算不同层的运动数据的最大灵活性，另一方面，这实现了较低的比特率。
文档编号H04N7/36GK102055986SQ20111003259
公开日2011年5月11日申请日期2005年9月21日优先权日2004年10月15日
发明者德特勒夫·马尔佩, 托马斯·威甘德, 海科·施瓦茨申请人:弗劳恩霍夫应用研究促进协会

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：海科·施瓦茨;德特勒夫·马尔佩;托马斯·威甘德
技术所有人：弗劳恩霍夫应用研究促进协会
我是此专利的发明人

上一篇：用中间层运动数据预测产生编码的视频序列的设备和方法
上一篇：一种自动感应和拍照相机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。