用中间层运动数据预测产生编码的视频序列的设备和方法

文档序号:7949143阅读:306来源:国知局
专利名称:用中间层运动数据预测产生编码的视频序列的设备和方法
技术领域
本发明涉及视频编码系统,具体地涉及可缩放(scalable)视频编码系统,可结合视频编码标准H.264/AVC或新的MPEG视频编码系统一起使用。
背景技术
标准H.264/AVC是IUT-T视频编码专家组VCEG和ISO/IEC运动图像专家组(MPEG)的视频标准化计划的结果。该标准化计划的主要目标是提供一种具有非常良好的压缩行为、同时产生网络友好的视频表征的清晰视频编码概念,包括例如视频电话的具有“通话特征”的应用以及没有通话特征的应用(存储、广播、流传输)。
除了上述标准ISO/IEC 14496-10之外,还存在与该标准有关的多种出版物。仅作为示例,参考“The Emerging H.264-AVC standard”,RalfSchfer,Thomas Wiegand and Heiko Schwrz,EBU Technical Review,January 2003。此外,专家出版物“Overview of the H.264/AVC VideoCoding Standard”,Thomas Wiegand,Gary J.Sullivan,Gesle Bjontegaardand Ajay Lothra,IEEE Transactions on Circuits and Systems for VideoTechnology,July 2003以及专家出版物“Context-based adaptive BinaryArithmethic Coding in the H.264/AVC Video Compression Standard”,Detlev Marpe,Heiko Schwarz and Thomas Wiegand,IEEE Transactionson Circuits and Systems for Video Technology,September 2003,包括视频编码标准的不同方面的概述。
然而,为了更好地理解,将参考图9至11给出视频编码/解码算法的概述。
图9示出了视频编码器的完整结构,视频编码器通常包括两个不同级。通常,第一级通常进行有关视频的操作,产生输出数据,然后输出数据经过第二级的熵编码,第二级在图9中由80表示。数据是数据81a、量化变换系数81b以及运动数据81c,其中,将这些数据81a、81b、81c提供给熵编码器80,以在熵编码器80的输出处产生编码的视频信号。
具体地,将输入视频信号分别分割划分为宏块,其中每个宏块具有16×16象素。然后,选择宏块与片组和片的关联,根据该关联,由图8所示的操作块网络来处理每个片的每个宏块。应该注意,当视频图像中存在不同的片时,可能高效并行处理宏块。经由图8中的块编码器控制82来执行宏块与片组和片的关联。存在不同的片,这些片定义如下I片I片是其中片的所有宏块都是使用帧内预测来编码的片。
P片除了I片的编码类型之外,P片的某些宏块也可利用每个预测块的至少一个运动补偿预测信号,使用帧间预测来编码。
B片除了P片中可用的编码类型之外,B片的某些宏块也可利用每个预测块的两个运动补偿预测信号,使用帧间预测来编码。
上述三种编码类型与早期的标准中的编码类型非常类似,但是如下面所述的,使用参考图像。下面片的两种编码类型在标准H.264/AVC中是新的SP片该片也被称为切换P片,其编码成可在不同预编码图像之间有效地切换。
SI片SI片也被称为切换I片,其使SP片中的宏块精确地适应直接随机存取和错误恢复目的。
总而言之,片是宏块序列,如果不使用灵活宏块排序FMO的属性,则按照光栅扫描的顺序对片进行处理,标准中同样定义了FMO。如图11所示,可将图像分割为一个或多个片。因此,图像是一个或多个片的集合。在这点上,由于可根据比特流来分析(解析)片的语法单元,所以片是彼此独立的,其中,可在片所表示的图像范围内正确地对采样值进行解码,只要所用的参考图像在编码器和解码器中是相同的。然而,需要来自其它片的某些信息来在片边界上应用解块滤波器(deblocking filter)。
FMO特性通过使用片组的概念,来修改将图像划分为片的方式。每个片组是由宏块到片组的映射所定义的宏块的集合,宏块到片组的映射由图像参数集的内容和来自片头的某些信息规定。该宏块到片组的映射包括图像中每个宏块的片组标识号,该标识号规定了有关宏块所属的片组。可将每个片组划分为一个或多个片,因此片是相同片组中的宏块的序列,该序列按照特定片组的宏块集合中的光栅抽样的顺序来处理。
取决于片编码器的类型,可以以一个或多个编码器类型来发送每个宏块。在所有片编码器类型中,支持被称为intra-4×4或intra-16×16类型的帧内编码,此外,还支持色度预测模式和I-PCM预测模式。
intra-4×4模式基于独立的每个4×4色度块的预测,并且非常适用于对具有突出细节的图像部分进行编码。另一方面,intra-16×16模式执行整个16×16色度块的预测,并更适用于对图像的“柔和”区域进行编码。
除了这两个色度预测类型之外,还执行独立的色度预测。作为intra-4×4和intra-16×16的备选,I-4×4编码类型使得编码器简单地省略预测以及变换编码,而直接发送编码的采样的值。I-PCM模式具有以下目的其是编码器精确地表征采样的值。其提供一种精确地表征非常异常的图像内容的值而不放大数据的方式。此外,其可以确定比特数的确切边界,编码器需要具有该确切边界以处理宏块而不损失编码效率。
与在变换域中执行帧内预测的早期的视频编码标准(即H.263+和MPEG-4 visual)相反,H.264/AVC中的帧内预测总是通过参考分别在要预测的块的左侧和上方的先前编码的块的相邻采样,在空间域中执行的(图10)。在出现传输错误的某些情况下,这会引起错误传播,其中,由于帧内编码的宏块中的运动补偿而发生该错误传播。因此,可用信号通知受限的帧内编码模式,受限的帧内编码模式仅能够预测帧内编码的相邻宏块。
在使用intra-4×4模式时,预测空间相邻采样的每个4×4块。通过使用相邻块中先前解码的采样,来预测4×4块的16个采样。可对每个4×4块使用9种预测模式之一。除了“DC预测”(其中一值用于预测整个4×4块)之外,规定8个方向预测模式。这些模式适用于预测图像中的方向结构,例如不同角度的边缘。
除了帧内宏块编码类型之外,将不同预测或运动补偿编码类型规定为P宏块类型。每个P宏块类型与将宏块具体分为块形式相对应,块形式用于运动补偿预测。语法支持以16×16、16×8、8×8或者8×16采样的小块尺寸进行划分。在8×8采样的划分中,对于每个8×8划分,发送附加的语法单元。该语法单元规定了是否将各个8×8划分进一步划分为8×4、4×8或者4×4亮度采样和相应的色度采样。
通过将各个参考图像的区域移动由平移矢量和图像参考指标规定的量,获得每个预测编码的M×M小块的预测信号。因此,如果使用四个8×8划分来编码宏块,并且在将每个8×8划分进一步划分为四个4×4划分时,可在所谓运动场内传输单个P宏块的最大量为16的运动矢量。
在H.264/AVC中,量化参数片QP用于确定变换系数的量化。该参数可假定52个值。设置这些值,使得量化参数增加1则意味着量化器步长宽度增加大约12%。这意味着量化参数增加6则使量化器步长宽度恰好增加因子2。应该注意,步长大小改变大约12%也意味着比特率减少大约12%。
块的量化变换系数通常以Z字形路径来采样,并通过使用熵编码方法来处理。按照光栅扫描顺序来采样色度分量的2×2DC次数,并且可通过使用16比特整数值的加法和移位运算来实现H.264/AVC中的所有逆变换运算。
参考图9,对于视频序列中的每个图像,首先逐个图像将输入信号划分为16×16象素的宏块。然后,将每个图像提供给减法器84,减法器84减去由包含在编码器中的解码器85提供的原始图像。然后对减法结果(即空间域的残留信号)进行变换、缩放和量化(块86),以获得线81b熵的量化变换系数。为了产生要馈入减法器84的减法信号,首先再次对量化变换系数进行缩放和逆变换(块87),以提供给加法器88,加法器88的输出馈入解块滤波器89,其中,例如,在解块滤波器的输出处监视将要由解码器进行解码的输出视频信号,以用于控制目的(输出90)。
通过使用输出90处的解码的输出信号,在块91中执行运动估计。对于块90中的运动估计,从图9中可见,提供原始视频信号的图像。标准允许两种不同的运动估计,即前向运动估计和后向运动估计。在前向运动估计中,关于前一图像来估计当前图像的运动。然而,在后向运动估计中,使用将来的图像来估计当前图像的运动。将运动估计的结果(块91)提供给运动补偿块92,特别地,在开关93切换到帧间预测模式时,就像在图9的情况下一样,运动补偿块92执行运动补偿帧间预测。然而,如果开关93切换到帧内预测,则使用块490来执行帧内预测。因此,由于对于帧内预测,不执行运动补偿,所以不需要运动数据。
运动估计块91分别产生运动数据和运动场,其中,将分别包括运动矢量的运动数据和运动场发送到解码器,从而可执行相应的逆预测,即使用变换系数和运动数据的重构。应该注意,在前向预测中,可分别根据紧接的前一图像和多个在前的图像来计算运动矢量。除此之外,还应该注意,在后向预测中,可使用紧接的相邻的将来图像,当然也可使用其它的将来图像,来计算当前图像。
图9所示的视频编码概念的缺点在于,其未提供简单的可缩放性的可能。如本领域公知的,术语“可缩放性(scalability)”表示编码器/解码器概念,其中,编码器提供缩放的数据流。缩放的数据流包括基本缩放层以及一个或多个增强缩放层。基本缩放层包括要编码的信号的表征,通常具有较低质量,但同时具有较低数据率。增强缩放层包含视频信号的另一表征,其提供相对于基本缩放层有提高质量的表征,典型地伴随着基本缩放层的视频信号表征。另一方面,当然,增强缩放层具有各自的比特需求,因此用于表示要编码的信号的比特数随每个增强层而增加。
取决于设计和可能性,解码器仅对基本缩放层进行解码,以提供由解码信号表示的图像的相当差质量的表征。然而,随着每次“增加”另一缩放层,解码器可逐步提高信号的质量(在有损比特率的情况下)。
取决于实现方式和编码器到解码器的传输通道,由于典型地基本缩放层的比特率很低而有限的传输通道足够,所以传输至少一个基本缩放层。如果传输通道不再有更多的带宽,则仅传输基本缩放层而不传输增强缩放层。结果,解码器可只产生图像信号的低质量表征。与数据率太高而使得传输系统不太可能的未缩放情况相比,低质量表征是有利的。如果传输通道运动传输一个或多个增强层,则编码器将向解码器传输一个或多个增强层,因此可根据请求,逐步地提高输出视频信号的质量。
关于视频序列的编码,可区分两种不同的缩放。一种缩放是时间缩放,因此未传输视频序列的所有视频帧,而是为了减小数据率,例如,仅传输了每第二个帧、每第三个帧、每第四个帧等。
另一种缩放是SNR缩放(SNR=信噪比),其中,基本缩放层和第一、第二、第三、...增强缩放层包括所有的时间信息,但是具有不同的质量。因此,基本缩放层具有低数据率,但是具有低信噪比,其中,可通过每次增加一个增强缩放层来逐步地提高该信噪比。
图9所示的编码器概念的问题在于,它是基于残留值仅由减法器84产生、然后被处理的事实。在图9所示的通过使用块86、87、88、93、94和84而形成闭合回路的设置中,基于预测算法来计算这些残留值,其中,量化参数进入闭合回路,即进入块86、87。如果现在实现简单的SNR缩放,即例如首先用粗量化步来量化预测残留信号,然后通过使用增强层,用细量化器步长来逐步量化预测残留信号,这将具有以下结果。由于逆量化和预测,特别地,关于一方面使用原始图像且另一方面使用量化图像而进行的运动估计(块91)和运动补偿(块92),将在编码器和解码器中导致量化器步长的“发散”。这导致在解码器一侧产生增强缩放层非常困难。此外,在解码器一侧处理增强缩放层变得不可能,至少是关于在标准H.264/AVC中定义的单元不可能。因此,原因是图9所示的视频编码器中的闭合回路包含量化。
在San Diego2003年12月2日到5日的第九届JVT会议介绍的HsikoSchwarz,Detlev Marpe和Thomas Wiegand的题为“SNR-ScalableExtension of H.264/AVC”的标准化文献JVT-I 032 t1中,介绍了对H.264/AVC的可缩放扩展,其中包括关于时间和信噪比的可缩放性(具有相等或不同时间精度)。因此,引入了时间子带划分的提升表征,这允许使用运动补偿预测的公知方法。
在J.-R.Ohm,“Complexity and delay analysis of MCTF interframewavelet structures”,ISO/IECJTC1/WG11 Doc.M8520,July 2002中描述了其中提升表征用于小波分析和小波合成的基于小波的视频编码算法。在D.Taubman,“Successive refinement of videofundamental issues,past efforts and new directions”,Proc.of SPIE(VCIP’03),vol.5150,pp.649-663,2003中可以找到与可缩放性有关的评述,然而,其中需要显著的编码器结构改变。根据本发明,一方面实现了编码器/解码器的概念,另一方面,可缩放的可能性可基于与标准一致的单元,尤其是对于运动补偿。
在详细参考图3的编码器/解码器机构之前,首先,参考图4来分别描述编码器一侧的基本提升方案和解码器一侧的逆提升方案。在W.Sweldens,“A custom design construction of biorthogonal wavelets”,J.Appl.Comp.Harm.Anal.,vol.3(no.2),pp.186-200,1996和I.Daubechies and W.Sweldens,“Factoring wavelet transforms into liftingSteps”,J.Fourier Anal.Appl.,vol.4(no.3),pp.247-269,1998可找到与提升方案和小波变换的组合的背景技术有关的详细解释。通常,提升方案包括三步,即多相分解步骤、预测步骤和更新步骤。
分解步骤包括将输入侧的数据流划分为下分支40a的相同第一拷贝以及上分支40b的相同拷贝。此外,将上分支40b的相同拷贝延迟一时间级(z-1),使得具有奇数索引k的采样s2k+1与具有偶数索引s2k的采样分别经过各个抽取器和下采样器42a、42b。抽取器42a和42b分别通过去除每第二个采样,来减少上和下分支40b、40a中的采样数。
涉及预测步骤的第二区域II包括预测算子43和减法器44。表示更新步骤的第三区域包括更新算子45和加法器46。在输出侧,存在两个归一化器47、48,用于归一化高通信号hk(归一化器47)和归一化低通信号lk(归一化器48)。
具体地,多相分解导致给定信号s[k]的奇偶采样的划分。由于相关性结构典型地示出了局部特性,所以奇偶多相分量高度相关。因此,在最后的步骤中,通过使用整数采样来执行奇数采样的预测(P)。每个奇数采样sodd[k]=s[2k+1]的相应预测算子(P)是相邻偶数采样seven[k]=s[2k]的线性组合,即P(seven)[k]=Σlplseven[k+l].]]>作为预测步骤的结果,奇数采样由它们各自的预测残留值替代h[k]=sodd[k]-P(seven)[k]。
应该注意,预测步骤等效于执行两个通道的滤波器组的高通滤波,如在I.Daubechies and W.Sweldens,“Factoring wavelet transformsinto lifting steps”,J.Fourier Anal.Appl.vol 4(no.3),pp.247-269,1998中所示。
在提升方案的第三步骤中,通过用预测残留值h[k]的线性组合来替代偶数采样seven[k],来执行低通滤波。各个更新算子U给出如下U(h)[k]=Σlulh[k+l].]]>通过用以下值替代偶数采样l[k]=seven[k]+U(h)[k]给出的信号s[k]最终可由l[k]和h[k]表示,其中,每个信号具有二分之一采样率。由于更新步骤和预测步骤都是完全可逆的,所以可将相应的变换解释为严格采样理想重构滤波器组。实际上,可以看出,可由一个或多个预测步骤和一个或多个更新步骤的序列来实现任意双正交族的小波滤波器。对于低通和高通分量的归一化,如已经解释的,给归一化器47和48提供适当选择的缩放因子Fl和Fh。
图4在右手边示出了与合成滤波器组相对应的逆提升方案。该方案只包括以相反顺序以及相反符号来应用预测和更新算子,之后通过使用奇偶多相分量来进行重构。具体地,图4所示的右边的解码器也包括第一解码器区域I、第二解码器区域II以及第三解码器区域III。第一解码器区域抵消更新算子45的效果。这通过向更新算子45提供由另一归一化器50归一化的高通信号来实现。然后,与图4的加法器46相反地,将解码器侧的更新算子45的输出信号提供给减法器52。相应地,处理预测器43的输出信号,然后将该输出信号提供给加法器53,而不是与编码器侧一样提供给减法器。现在,在每个分支中进行因子2的信号上采样(块54a、54b)。然后,将上分支向将来移位一个采样,这等效于延迟下分支,来在加法器55中执行上分支和下分支上的数据流的加法,以在合成滤波器组的输出处获得重构的信号sk。
可分别由预测器43和更新算子45来实现多个小波。如果要实现所谓hair小波,则预测算子和更新算子给出如下PHair(seven)[k]=s[2k]和UHair(h)[k]=12h[k],]]>使得h[k]=s[2k+1]-s[2k]以及l[k]=s[2k]+12h[k]=12(s[2k]+s[2k+1])]]>分别与hair滤波器的非归一化高通和低通(分析)输出信号相对应。
在5/3双正交样条小波的情况下,该小波的低通和高通分析滤波器分别具有5和3个滤波器抽头,其中,相应的缩放函数是二阶B样条。在诸如JPEG200的静止图像的编码器应用中,该小波用于时间子带编码器方案。在提升情况下,5/3变换的相应预测和更新算子给出如下P5/3(seven)[k]=12(s[2k]+s[2k+2])]]>以及U5/3(h)[k]=14(h[k]+h[k-1])]]>图3示出了在编码器一侧和解码器一侧都具有示范性的四个滤波器级的编码器/解码器结构的方框图。从图3可见,编码器的第一滤波器级、第二滤波器级、第三滤波器级和第四滤波器级是相同的。解码器的滤波器级也是相同的。在编码器一侧,每个滤波器级包括后向预测Mi060以及前向预测Mi161作为中心单元。后向预测器60在原理上与图4的预测器43相对应,而前向预测器61与图4的更新算子相对应。
与图4相反,应该注意,图4涉及采样流,其中采样具有奇数索引2k+1,而另一采样具有偶数索引2k。然而,如已经参考图1所解释的,图3中的注释涉及一组图像而不是一组采样。如果图像分别具有多个采样和图像,则完全馈入该图像。然后,馈入下一图像等。因此,不再有奇数和偶数采样,而只有奇数和偶数图像。根据本发明,将针对奇数和偶数采样所描述的提升方案分别应用于每个都具有多个采样的奇数和偶数图像。现在,图4的逐个采样预测器43变为后向运动补偿预测60,而逐个采样更新算子45变为逐个图像前向运动补偿预测61。
应该注意,针对两个相继的有关图像来计算运动滤波,运动滤波包括运动矢量且表示块60和61的系数,并将其作为辅助信息从编码器发送到解码器。然而,本发明概念的主要优点在于,结合图9所描述的且在标准H.264/AVC中标准化的单元91、92可容易地用于计算运动场Mi0和运动场Mi1。因此,对于本发明概念,不需要使用新的预测器/更新算子,而可将在针对功能和效率所检查的视频标准中提到的已有算法用于前向或后向的运动补偿。
具体地,图3所示的所用滤波器组的一般结构示出了在输入64处馈入的具有16个图像组的视频信号的时间分解。该分解是视频信号的二元时间分解,其中,在图3所示的实施例中,需要四极24=16个图像(表示组大小为16个图像)来实现最小时间分辨率的表征,该表征即输出28a和输出28b处的信号。因此,如果将16个图像分组,则导致16个图像的延迟,这使图3所示的具有四级的概念对于交互式应用更加困难。因此,如果目的是交互式应用,则优选地形成更小的图像组,例如四个或八个图像的组。然后,相应地减小延迟,从而可能用于交互式应用。在不需要交互的情况下,例如用于存储等的情况下,可相应地增加组中图像数目,即组大小,例如增加到32个、64个图像等。
在这种方式下,使用基于hair运动补偿提升方案的交互式应用,该应用包括H.264/AVC中的后向运动补偿预测(Mi0),并还包括更新步骤,更新步骤包括前向运动补偿(Mi1)。如H.264/AVC所示的,预测步骤和更新步骤都使用运动补偿过程。此外,不仅使用运动补偿,还使用由图9中的附图标记89所表示的解块滤波器89。
第二滤波器级还包括下采样器66a、66b、减法器69、后向预测器67、前向预测器68以及加法器70和另一处理装置,该另一处理装置用于在所述另一处理装置的输出处输出第二级的第一和第二高通图像,并在加法器70的输出处输出第二级的第一和第二低通图像。
此外,图3的编码器包括第三级和第四级,其中,将16个图像的组馈入第四级输入64。在也被称为HP4的第四级高通输出72处,输出用量化参数Q量化且相应处理的八个高通图像。相应地,在第四滤波器级的低通输出73处,输出八个低通图像,这八个低通图像馈入第三滤波器级的输入74。该级同样用于在也被称为HP3的高通输出75处产生四个高通图像,并在低通输出76处产生四个低通图像,这四个低通图像馈入第二滤波器级的输入10并被分解。
特别地,应该注意,由滤波器级处理的图像组并不一定必须是来源于原始视频序列的视频图像,而可以是由下一更高滤波器级在滤波器级的低通输出处输出的低通图像。
此外,还应该注意,当简单地省略第四滤波器级并将图像组馈入输入74时,图3所示针对16个图像的编码器概念可容易地减少为针对八个图像。以相同的方式,可通过添加第五滤波器级、然后在第五滤波器级的高通输出处输出16个高通图像、并将第五滤波器级的输出处的十六个低通图像馈入第四滤波器级的输入74,将图3所示的概念扩展为针对32图像组。
编码器一侧的树式概念同样适用于解码器一侧,但是不像编码器一侧一样从高级到低级,而是在解码器一侧从低级到高级。因此,示意地被称为网络抽象层100的从传输介质接收数据流,所接收的比特流首先经过另一逆处理装置的另一逆处理,在装置30a的输出处获得第一级的第一高通图像的重构版本,并在图3的块30b的输出处获得第一级低通图像的重构版本。然后,与图4的右半部相同,经由预测器61,首先将前向运动补偿预测反转,然后从低通信号的重构版本中减去预测器61的输出信号(减法器101)。
减法器101的输出信号馈入后向补偿预测器60,产生预测结果,在加法器102中将预测结果与高通图像的重构版本相加。然后,通过使用上采样器104a、104b,使两个信号(即下分支103a、上分支103b中的信号)变为双倍采样率,然后根据实现方式,使上分支的信号延迟或“加速”。应该注意,仅通过插入与图像的采样数相对应的数目的零,由桥104a、104b来执行上采样。以z-1示出的单元使上分支103b相对于下分支103a的图像延迟移动使得两个第二级低通图像依次出现在相对于加法器106的输出侧。
第一和第二第二级低通图像的重构版本然后馈入解码器一侧的第二级逆滤波器,通过逆滤波器组的相同实现,再次与发送的第二级高通图像组合,在第二级的输出101处获得四个第三级低通图像序列。四个第三级低通图像然后在第三级的逆滤波器级中与发送的第三级高通图像组合,在逆第三级滤波器的输出110处获得序列格式的八个第四级低通图像。在逆第四级滤波器中,这八个第四级低通图像再次与经由输入HP4从传输介质100接收的八个第四级高通图像组合,在逆第四级滤波器的输出112处获得16个图像的重构组。
因此,在分析滤波器组的每一级中,将两个图像(原始图像或者表示低通信号并在下一更高级中产生的图像)分解为低通信号和高通信号。低通信号可以当作输入图像的共有特性的表征,而高通信号可当作输入图像之间的差异的表征。在合成滤波器组的相应级中,通过使用低通信号和高通信号,再次重构两个输入图像。
由于在合成步骤中执行分析步骤的逆运算,所以分析/合成滤波器组(当然没有量化)确保了理想的重构。
损耗仅发生在其它处理装置中的量化中,例如26a、26b、18。如果非常精精细地执行量化,则可实现良好的信噪比。然而,如果非常粗略地执行量化,则实现相对差的信噪比,但是具有低的比特率,即要求低。
没有SNR可缩放性,利用图3所示的概念,已经实现了时间缩放控制。因此,使用时间缩放控制120,其形成为在输入侧分别获得高通和低通输出以及其它处理装置(26a、26b、18、…)的输出,以从这些部分数据流TP1、HP1、HP2、HP3、HP4中产生缩放的数据流,该缩放的数据流具有基本缩放层的第一低通图像和第一高通图像。然后,第二高通图像的处理版本容纳在第一增强缩放层中。第三级高通图像的处理版本会被容纳在第二增强缩放层中,而第四级高通图像的处理版本会被引入第三增强缩放层。因此,仅根据基本缩放层,解码器可产生具有较低时间质量的低级低通图像序列,即每个图像组的两个第一级低通图像。随着每个增强缩放层的添加,可一直使每组的重构图像数目翻倍。解码器的功能典型地由缩放控制来控制,缩放控制形成为检测在数据流中包含多少缩放层以及解码器在解码期间要考虑多少缩放层。
Heiko Schwarz,Detlev Marpe and Thomas Wiegand在2003年12月8日至12日在Waikoloa Hawaii的第十届JVT会议中介绍的题为“SNR-Scalable Extension of H.264/AVC”的JVT文献JVT-J 035示出了图3和图4所示的时间分解方案的SNR可缩放扩展。具体地,将时间缩放层划分为各个“SNR缩放子层”,其中,用第一粗量化器步长来量化某个时间缩放层,来获得SNR基本层。然后,执行逆量化,并从原始信号中减去逆量化的结果信号,获得差值信号,然后用细量化器步长对差值信号进行量化,获得第二缩放层。然而,用细量化器步长对第二缩放层进行再次量化,从原始信号中减去再次量化后获得的信号,获得另一差值信号,在用细量化器步长进行量化之后,该差值信号分别表示第二SNR缩放层和SNR增强层。
因此,可以发现,基于运动步长时间滤波(MCTF)的上述可缩放性方案已经提供了关于时间可缩放性以及SNR可缩放性的高度灵活性。但是还有一个问题,即多个缩放层的总比特率仍然远大于在不能够缩放的情况下编码最高质量的图像时所实现的比特率。由于不同缩放层的辅助信息,可缩放的编码器也许永远不能够获得未缩放情况下的比特率。然而,具有多个缩放层的数据流的比特率应该尽可能地接近未缩放情况的比特率。
此外,可缩放性概念应该对于所有可缩放性类型都提供高度灵活性,这意味着关于时间和空间的高度灵活性以及关于SNR的高度灵活性。
在具有低分辨率的图像已足够但是希望更高时间分辨率的情况下,高灵活性尤其重要。例如,当图像中存在快速改变,例如在团体性运动的视频中,除了球之外,还有许多人同时运动时,会产生这种情况。
已有可缩放性概念的另一缺点是它们针对所有缩放层使用相同的运动数据,这限制了可缩放性的灵活性,或者分别导致非最佳的运动预测以及运动预测的残留信号增加。
另一方面,两个不同缩放层的完全不同运动数据的传输导致大量开销,尤其是在考虑相对较低的SNR缩放层时,其中,相对粗略地执行了量化,而整个比特流中的运动数据部分变得显著。因此,由附加比特率来补偿灵活的可缩放性概念,其中不同的运动数据和不同的缩放层变为可能,但是这对于所有努力都是致力于减小比特率的事实尤其不利。此外,用于传输运动数据的附加比特与运动预测残留值的比特相比,在较低缩放层中尤其突出。然而,精确地说,由于在较低缩放层中,致力于获得充分可接受的质量,即至少使用充分合理的量化参数,同时致力于获得较低比特率,所以这是尤其恼人的。

发明内容
本发明的目的是提供一种提供较低数据率并仍然显示出灵活性的可缩放的视频编码器系统的概念。
该目的由根据权利要求1的用于产生编码的视频序列的设备、根据权利要求15的用于产生编码的视频虚夸列的方法、根据权利要求16的用于对编码的视频序列进行解码的设备、根据权利要求21的用于对编码的视频序列进行解码的方法、根据权利要求22的计算机程序或者根据权利要求23的计算机可读介质来实现。
本发明基于以下认识关于不同SNR或空间缩放层,通过在增强缩放层的增强运动补偿中的增强运动数据的计算中使用基本运动数据,节约了数据率,同时具有灵活性。因此,根据本发明,在增强运动数据的计算中,并不是没有基本层的运动数据,而是将基本层的运动数据并入计算中。
这里,根据本发明的优选实施例,使用自适应概念,即对于图像的不同块,可以不同方式考虑基本运动数据,并且对于一个块,当预测没有减少数据时,完全可省略利用基本运动数据作为预测器的增强运动数据预测。以具有与块相关联且指示给解码器的信号标志信息的比特流,来传输是否使用基本运动数据而执行了增强运动数据预测以及预测的类型。因而,解码器能够借助于在解码器中已经重构的基本运动数据来重构块的运动数据,其中,必须借助并且借助的方式由逐个块传输的比特流中的信号标志信息表示。
取决于实现方式,可在增强运动数据的实际计算中考虑基本运动数据,增强运动数据随后可由增强运动补偿器使用。然而,根据本发明,还优选地与基本运动数据无关地,计算增强运动数据,仅在对增强运动数据进行后处理以获得实际传输到增强图像编码器的增强运动数据时使用基本运动数据。因此,根据本发明,在高灵敏度方面,执行增强运动数据的独立计算,其中,对于编码器一侧的运动预测,与从基本运动数据计算出的增强运动数据无关地使用增强运动数据,而基本运动数据仅用于计算任意类型的残留信号,以减少传输增强运动矢量所需的比特。
在本发明的优选实施例中,由中间层残留值预测来补充运动数据中间层预测,以在运动补偿预测的残留值中尽可能好地利用不同缩放层之间的冗余,并将冗余用于减小数据率。
在本发明的优选实施例中,通过在缩放层中执行的运动补偿预测,还在较低层(例如基本层)到较高层(例如增强层)的运动补偿预测之后,利用残留图像的中间缩放层预测,来获得比特率减小。
可以发现,在相同的时间缩放层中,优选地关于分辨率和关于信噪比(SNR)而缩放的单独考虑的其它缩放层的残留值也在运动补偿预测之后的残留值之间具有相关性。根据本发明,有利地在针对增强缩放层,在编码器一侧设置与解码器一侧的中间层组合器相对应的中间层预测器的情况下使用这些相关性。优选地,自适应地设置该中间层预测器,以便针对每个宏块,判决中间层预测是否值得,或者预测会导致比特率增加。在关于后继的熵编码器,预测残留信号大于增强层的原始运动补偿残留信号时,会出现后一种情况。然而,多数情况下不会发生这种情况,因此激活中间层预测器,并显著地减小比特率。


现在参考附图来解释本发明的优选实施例,其中图1a是本发明的编码器的优选实施例;图1b是图1a的基本图像编码器的细节表示;图1c是中间层预测标志的功能的讨论;
图1d是运动数据标志的描述;图1e是图1a的增强运动补偿器的优选实施方式;图1f是图2的增强运动数据确定装置1078的优选实施方式;图1g是用于计算增强运动数据和如果需要则为了信号通知和残留数据传输而进行的增强运动数据处理的三个优选实施例的整体表示;图2是本发明解码器的优选实施例;图3是具有四极的解码器的方框图;图4是示出了时间子带滤波器组的提升分解的方框图;图5a是图4所示的提升方案的功能的表示;图5b是单向预测(hair小波)和双向预测(5/3变换)的两个优选提升规定的表示;图5c是用于任意选择要由提升方案处理的两个图像的具有运动步长和参考标记的预测和更新算子的优选实施例;图5d是可逐个宏块将原始图像信息插入高通图像的帧内模式的表示;图6a是用于信号通知宏块模式的示意表示;图6b是根据本发明优选实施例,用于以空间可缩放性来对运动数据进行上采样的示意表示;图6c是运动矢量差的数据流语法的示意表示;图6d是根据本发明优选实施例的残留值语法增强的示意表示;图7是例如8个图像的图像组的时间移位的整体视图;图8是16个图像的图像组的低通图像的优选时间设置;图9是根据针对宏块的标准H.264/AVC,示出了编码器的基本编码器结构的整体框图;图10是包括分别在当前语法单元C的左边和上边的两个相邻象素单元A和B的环境设置;以及图11是图像分为片的划分的表示。
具体实施例方式
图1a示出了用于产生编码的视频序列的设备的优选实施例,该视频序列具有基本缩放层和增强缩放层。具有8、16或任意数目图像的图像组的原始视频序列馈入输入1000。在输出侧,编码的视频序列包含基本缩放层1002和增强缩放层1004。增强缩放层1004和基本缩放层1002可提供给比特流复用器,该复用器在输出侧产生单个可缩放的比特流。然而,取决于实施方式,两个缩放层的分离传输也是可以的,并且在一些情况下是有用的。图1a示出了用于产生基本缩放层和增强缩放层这两个缩放层的编码器。为了获得编码器,如果需要,则产生一个或多个其它增强层,重复增强缩放层的功能,其中,总是由紧接的更低的增强缩放层给更高增强缩放层提供数据,如图1所示,由基本缩放层1002给增强缩放层1004提供数据。
在详细参考诸如SNR可缩放性或空间可缩放性或者空间和SNR可缩放性的组合可缩放性之类的不同缩放类型之前,首先来示出本发明的基本原理。首先,编码器包括基本运动补偿器或基本运动估计器1006,用于计算基本运动数据,基本运动数据表示宏块在当前图像中相对于基本运动补偿器1006在输入侧获得的图像组中另一图像怎样运动。已知用于计算运动数据的技术,尤其是用于计算宏块的运动矢量的技术,宏块是数字视频图像中的象素区域。优选地,如在视频编码标准H.264/AVC标准化一样,使用运动补偿计算。因而,考虑后一图像的宏块,并确定宏块相对于前一图像怎样“运动”。该运动(在xy方向)由二维运动矢量表示,该矢量是由块1006针对每个宏块计算的,并经由运动数据线1008提供给基本图像编码器1010。然后,针对下一图像来计算宏块怎样从前一图像运动到下一图像。
在一种实施方式中,在某种程度上表示从第二到第三图像的运动的新的运动矢量可再次作为二位矢量来传输。然而,为了效率的原因,优选地仅传输运动矢量差,运动矢量差表示宏块从第二到第三图像的运动矢量与宏块从第一到第二图像的运动矢量之间的差。可选地,还可使用并不是参考紧接的先前图像而是参考其它先前图像的运动矢量差。
然后将块1006所计算的运动数据提供给基本运动预测器1012,基本运动预测器1012设计用于使用运动数据和图像组来计算残差图像的基本序列。因此,基本运动预测器执行运动补偿。在某种程度上,分别由运动补偿器和运动估计器进行运动补偿。然后将残差图像的基本序列提供给基本图像编码器。基本图像编码器形成为在其输出处提供基本缩放层1002。
此外,本发明的编码器包括增强运动补偿器或增强运动估计器1014,用于检测增强运动数据。将这些增强运动数据提供给增强运算预测器1016,增强运动预测器1016在输出侧产生残差图像的增强序列,并将增强序列提供给下游的中间层预测器1018。因此,增强运动预测器执行运动补偿,在某种程度上,分别由运动补偿器和运动估计器来进行运动补偿。
中间层预测器形成为计算输出侧的增强预测残差图像。取决于实现方式,除了从块1016获得的数据,即残差图像的增强序列之外,中间层预测器还使用经由点状的旁路线1020由块1012提供的残差图像的基本序列。可选地,块1018还使用在块1012的输出处提供并由插值器1022插值的残差图像的插值序列。此外,可选地,中间层预测器还可在基本图像编码器1010的输出1024处提供残差图像的重构基本序列。从图1a可见,该残差图像的重构基本序列可以是插值1022的,或者未插值1020的。因此,通常,中间层预测器使用残差图像的基本序列来工作,其中,例如,通过块1012的输出处的残差图像的基本序列的重构或插值,来得到中间层预测器输入1026处的信息。
在中间层预测器1018的下游是增强图像编码器1028,增强图像编码器1028形成为对增强预测残差图像进行编码以获得编码的增强缩放层1004。
在本发明的优选实施例中,中间层预测器形成为从中间层预测器1018从增强运动预测器1016获得的各个信号中逐个宏块且逐个图像地减去在其输出1026处的信号。在该减法中获得的结果信号表示增强预测残差图像的图像的宏块。
在本发明的优选实施例中,自适应地形成中间层预测器。对于每个宏块,提供中间层预测标志1030,该标志1030表示中间层预测器必须执行预测,或者在另一状态下表示不必执行预测,但是要将增强运动预测器1016的输出处的相应宏块在没有预测的情况下提供给增强图像编码器1028。该自适应的实现方式具有以下优点中间层预测仅在有用时才执行,即在与未执行中间层预测、而直接对增强运动预测器1016的输出数据进行编码的情况相比预测残留信号导致较低输出图像速率的情况下才执行中间层预测。
在空间可缩放性的情况下,抽取器1032设置在增强缩放层和基本缩放层之间,形成为将在其输入处的具有某种空间分辨率的视频序列转换为在其输出处的具有较低分辨率的视频序列。如果想要完全的SNR可缩放性,则意味着如果两个缩放层的基本图像编码器1010和1028分别利用不同的量化参数1034和1036进行操作,则不设置抽取器1032。这在图1a中通过旁路线1038示意地示出了。
此外,在空间可缩放性的情况下,必须设置插值器1022。在完全的SNR可缩放性的情况下,不设置插值器1022。而是,采用旁路线1020,如图1a所示。
在一个实施方式中,增强运动补偿器1014形成为完整地计算各个运动场,或者直接或在上采样器1042的上采样之后,使用基本运动补偿器1006所计算的运动场(旁路线1040)。在空间可缩放性的情况下,必须设置上采样器1042,将基本运动数据的运动矢量上采样到更高的分辨率,即缩放。如果增加分辨率是基本分辨率的高和宽的两倍,则增强层中的宏块(16×16亮度采样)覆盖与基本层中的子宏块(8×8亮度采样)相对应的图像区域。
因此,为了能够使用增强缩放层的宏块的基本运动矢量,使基本运动矢量的x分量和y分量加倍,即以因子2进行缩放。这将参考图6b详细进行讨论。
然而,如果只有SNR可缩放性,则对于所有缩放层而言运动场都是相同的。因此,仅必须计算一次,并可在低缩放层计算之后,由每个更高缩放层直接使用。
对于中间层预测,也可使用基本运动预测1012的输出处的信号。可选地,可使用线1024上的重构信号。由开关1044来选择这两个信号中的哪一个用于预测。线1024上的信号与块1012的输出处的信号的不同之处在于,该信号已经经过了量化。这意味着线1024上的信号与块1012的输出处的信号相比具有量化误差。对于中间层预测而选择性地使用线1024上的信号在单独使用SNR可缩放性或结合空间可缩放性使用SNR可缩放性时尤其有用,因为块1018处的输出信号包含由第一缩放层产生的量化误差,然后在输入1036处由增强图像编码器以典型的细量化器步长和改变的量化参数2进行量化,然后写入增强缩放层1004,所以由基本图像编码器1010所产生的量化误差将“伴随”到更高缩放层。
与中间层预测标志1030类似地,将运动数据标志1048馈入图像编码器,因此与此有关的相应信息包含在增强缩放层1004中,然后由解码器使用,下面将参考图2来进行讨论。
如果使用理想空间可缩放性,可使用基本运动预测器1012的输出信号,即残差图像的基本序列,代替基本残差图像的重构序列。
基于实现方式,可手动地或基于预测效益函数(prediction benefitfunction)来进行该开关的控制。
这里,应该注意,优选地,自适应地设计所有预测,即运动预测、增强运动数据预测和中间层残留值预测。这意味着例如对于残差图像的基本序列的图像中的每个宏块或子宏块,并不一定要有运动数据预测残留值。因此,尽管被称为“残差图像”,残差图像的基本序列的图像还可分别包含未预测的宏块和子宏块。当图像中出现新的对象时会发生这种情况。这里,由于预测残留信号变得大于图像中的原始信号,所以运动补偿预测无用。在这种情况下,在块1016中的增强运动预测中,将停用针对该块(例如宏块或子宏块)的预测算子和最终的更新算子。
此外,为了清楚,提到了残差图像的基本序列,但是也许仅仅残差图像的基本序列的单个残差图像具有单个实际上包括运动预测残留信号的块。然而,在典型的应用中,每个残差图像实际上包含大量具有运动预测残留信号的块。
在本发明中,这同样应用于残差图像的增强序列。因而,增强层的情况与基本层的情况类似。因此,在本发明中,残差图像的增强序列是图像序列,其中,在极限情况下,仅仅单个“残差图像”的单个块具有运动预测残留值,而在该图像的所有其它块以及所有其它“残差图像”中,由于对于所有这些图像/块,已经停用了运动补偿预测、如果不必要的话还有运动补偿更新,所以实际上不存在残留误差。
根据本发明,这同样适用于计算增强预测残差图像的中间层预测器。典型地,增强预测残差图像出现在序列中。然而,优选地,自适应地形成中间层预测器。例如,如果发现从基本层到增强层的基本层的残留数据预测仅对于单个“残差图像”的单个块有用,而对于该图像的所有其它块、甚至对于增强预测残差图像的序列的其它图像,停用中间层残留数据预测,则在本发明上下文中,为了清楚,将该序列称为增强预测残差图像。在这点上,应该注意,当在基本层中的残差图像的相应块中,已经计算了运动补偿残留值,并且对于与该块相对应的块(例如在相同的x、y位置),在增强序列的残差图像中已经执行了运动补偿预测时,中间层预测器可仅预测残留数据,因此,在该块中,由于运动补偿预测,在增强层中存在残差。仅在所考虑的两个块中均存在实际的运动补偿预测残留值时,中间层预测器才优选地变为活动的,来使用基本层的图像中的残差值的块作为增强层的图像中的残差值的块的预测器,然后仅向增强图像编码器发送该预测的残留值,即,所考虑的图像的该块中的增强预测残差数据。
下面,参考图1b来分别讨论基本图像编码器100或增强图像编码器1028和任意图像编码器的详细视图。在输入侧,图像编码器接收残差图像组并逐个宏块地将其提供给变换器1050。然后在块1052中对变换的宏块进行缩放,并使用量化参数1034、1036、...来量化。在块1052的输出处,输出所用的量化参数,即宏块的所用量化器步长以及宏块的频谱值的量化指标。然后将该信息提供给图1b中未示出的熵编码器级,熵编码器级包括Huffman编码器或优选地包括运算编码器,其根据H.264/AVC,利用已知的CABAC概念来工作。还将装置1052的输出信号提供给块1054,块1054执行逆缩放和重新量化,以将量化指标和量化参数再次转换为数字值,然后将数字值提供给块1056的逆变换,以获得重构的残差图像组,现在,与原始的残差图像组相比,在变换块1050的输入处存在量化误差,量化误差取决于量化参数和量化器步长。取决于开关1044的控制,将一个信号或另一个信号提供给插值器1022或中间层预测器1018,以便执行本发明的残留值预测。
图1c示出了中间层预测器标志1030的简单实现方式。如果中间层预测标志置位,则激活中间层预测器1018。然而,如果该标志未置位,则停用中间层预测器,从而针对该宏块或从属于该宏块的子宏块来执行同时的操作。原因也许是预测的编码器增益实际上是编码器损耗,这意味着在块1016的输出处的相应宏块的传输在随后的熵编码中提供了比使用预测残留值更好的编码器增益。
图1d示出了运动数据标志1048的简单实现方式。如果标志置位,则从基本层的上采样运动数据中得到增强层的运动数据。在SNR可缩放性的情况下,不需要上采样器1042。这里,当标志1048置位时,可直接从基本运动数据中得到增强层的运动数据。应该注意,该运动数据“得到”可以是直接接收运动数据或实际预测,其中,块1014从块1014所计算机的增强缩放层的相应运动矢量中减去从基本层获得的运动矢量,以便获得运动数据预测值。经由图1a所示的输出,将增强层的运动数据(如果未执行任何预测)或预测的残留值(如果执行了实际的预测)提供给增强图像编码器1028,因此它们最终将包含在增强缩放层比特流1004中。然而,如果执行从缩放了或未缩放的基本缩放层完全接收运动数据,则不必将增强运动数据写入增强缩放层比特流1004。在增强缩放层比特流中用运动数据标志1048来通知该事实就足够了。
图2示出了用于对编码的视频序列进行解码的设备,该序列包括基本缩放层1002和增强缩放层1004。增强缩放层1004和基本缩放层1002可来源于比特流解复用器,该解复用器对具有相应的缩放层的可缩放比特流进行解复用,从共同的比特流中提取基本缩放层1002和增强缩放层1004。将基本缩放层1002提供给基本图像解码器1060,基本图像解码器1060形成为对基本缩放层进行解码,以获得解码的残差图像的基本序列和基本运动数据,并将其提供给输出线1062。然后将线1062处的输出信号提供给基本运动组合器1064,基本运动组合器1064抵消在块1012中的编码器中引入的基本运动预测器,在输出侧输出解码的第一缩放层的图像。此外,本发明的解码器包括增强图像解码器1066,用于对增强缩放层1004进行解码,以在输出线1068处获得增强预测残差图像。此外,输出线1068包括运动数据信息,例如运动数据标志1070,如果实际上在增强缩放层1004中存在增强运动数据或增强运动数据残留值,则还包括这些增强运算数据。现在,线1062上的解码的基本序列由插值器1070进行插值,或者不变地(线1072)提供给中间层组合器1074,以便抵消由图1a的中间层预测器1018所执行的中间层预测。因此,中间层组合器形成为组合增强预测残差图像和插值了的(1070)或未插值的(1072)与线1062上的解码的基本序列有关的信息,以获得残差图像的增强序列,最终将该序列提供给增强运动组合器1076,与基本运动组合器1064相同,增强运动组合器1076抵消在增强层中执行的运动补偿。增强运动组合器1076与运动数据确定装置1078相连,提供用于块1076中的运动组合的运动数据。运动数据实际上可以是增强图像解码器在输出1068处提供的增强层的完整增强运动数据。可选地,增强运动数据还可以是运动数据残留值。在两种情况下,经由增强运动数据线1080,将相应数据提供给运动数据确定装置1078。然而,如果运动数据标志1070用信号通知对于增强层未传输增强运动数据,则取决于直接的(1084)或由上采样器1086的上采样之后的所用可缩放性,从基本层中获取所需运动数据。
此外,在块内的中间层预测的情况下,即没有运动数据残留值的情况下,在解码器一侧提供增强运动组合器1076与基本运动组合器1064之间的相应连接,取决于空间可缩放性,该连接具有插值器1090,或在仅使用SNR可缩放性时,该连接具有旁路线。在两层之间的可选块内预测的情况下,仅将预测残留信号发送到该宏块内的增强层,这由比特流中的相应信号化信息表示。在这种情况下,除了下面所述的功能之外,增强运动组合器还执行该宏块的累加,即执行宏块残留值与来自较低缩放层的宏块值之间的组合,并将所组合的宏块提供给实际的逆运动补偿处理。
下面,参考图3至5d,分别来解释基本运动预测器1012或增强运动预测器1016的优选实施例,即增强运动组合器1076或基本运动补偿器1064。
基本上,可使用任何运动补偿预测算法,这意味着也包括图9的92处所示的运动补偿算法。因此,传统的运动补偿算法也遵从图1所示的系统,然而,其中,停用图4以附图标记45所示的更新算子U。这导致将图像组分别转换为原始图像、和残留图像以及预测残留信号或者基于其的残差信号。然而,如果在以已知运动补偿方案实现了如图4所示的更新算子有效且被计算的增强,如图5a至5d所示,则正常的运动补偿预测计算变为所谓的MCTF处理,该处理还被称为运动补偿时间滤波。这里,由于原始图像与由更新算子加权的预测残留信号组合,所以传统运动补偿的正常图像和中间图像通过更新运算分别变为低通图像。
如已经参考图1a和2所述的,在本发明的优选实施例中,针对每个缩放层来执行MCTF处理,其中,优选地按照参考图3至5a以及7至8所述的方式来执行MCTF处理。
下面,参考图4以及随后的图5a-5来描述运动补偿滤波器的优选地实施例。如已经解释的,运动补偿时间滤波器(MCTF)由常见提升方案组成,该方案包括三步,即多相分解、预测和更新。图4示出了相应的分析/合成滤波器组结构。在分析一侧,通过对预测残留值使用预测算子P和高通信号H,将给定信号的奇数采样滤除偶数采样的线性组合。通过使用更新算子,将预测残留值h的线性组合与输入信号s的偶数采样相加,来形成相应的低通信号l。图5a示出了图4所示的变量h和l的等式关系以及算子P和U的基本实施例。
由于可完全逆转预测步骤和更新步骤,所以可将相应的变换当作严格采样的理想重构滤波器组。合成滤波器组包括预测算子和更新算子以与求和过程相反的符号、按照相反的顺序的应用,其中,使用偶数和奇数多相分量。对于高通/低通分量的归一化,使用相应的缩放因子Fl和Fh。不一定要使用这些缩放因子,但是在编码期间选择了量化器步长时可使用这些缩放因子。
f[x,k]示出了空间坐标x=(x,y)T的视频信号,其中,k是时间坐标。如图5b的左手边所示,给出了使用hair小波的提升表征的时间分解的预测算子P和更新算子U。对于5/3变换,相应的算子如图5b的右手边所示。通过如图5c所示修改预测算子和更新算子,获得对运动补偿时间滤波的增强。具体地,参见参考指标r>0,其允许一般的图像自适应运动补偿滤波。通过这些参考指标,可确保在图4所示的场景中,不仅两个时间紧随的图像被分解为高通图像和低通图像,而且可利用序列的第三图像,按照运动补偿的方式对第一图像进行滤波。可选地,参考指标的适当选择使得可将序列的同一个图像用作运动矢量的基准。这意味着参考指标允许在八个图像的序列中,所有运动矢量与序列的第四个图像相关联,从而通过图4中的滤波方案,通过处理这八个图像,最终获得单个低通图像,并且产生七个高通图像(增强图像),并且在一个增强图像与每个运动矢量相关联的情况下,所有运动矢量与原始序列的同一个图像相关联。
因此,如果将序列的同一个图像用作对多个其它图像进行滤波的基准,则这导致时间分辨率缩放并不遵循因子2,这对于某些应用是有利的。总是将同一个图像,即八个图像的序列的第四个图像馈入图4的分析滤波器组的下分支。低通图像在每次滤波中都是相同的,即最终产生图像序列的所希望的单个低通图像。当更新参数为零时,基本图像仅仅是“通过”下分支。与之相比较,高通图像总是取决于原始序列的相应另一个图像和预测算子,其中,在预测中使用与该输入图像相关联的运动矢量。因此,在这种情况下,最终获得的低通图像与原始图像序列的某个图像相关联,并且每个高通图像与原始序列的图像相关联,其中,原始图像与序列的所选基本图像(馈入图4的分析滤波器组的下分支的图像)的偏差对应于序列(运动补偿)。当每个更新参数M01,M11,M21和M31等于零时,这导致馈入第四级的下分支73的图像仅仅是“通向”底部。以某种方式,将低通图像TP1“重复地”馈入滤波器组,而由参考指标控制的其它图像一个接一个地引入图3的输入64。
从上述等式可见,运动补偿滤波的预测和更新算子分别提供两个不同小波的不同预测。当使用hair小波时,实现了单向运动补偿预测。然而,如果使用5/3样条小波,则两个算子规定了双向运动补偿预测。
由于与单向预测相比,双向补偿预测通常减少预测残留值的能量,但是增加运动矢量速率,所以希望在单项和双向预测之间动态地切换,这意味着可根据基于图像的控制信号,在hair小波的提升表征和5/3样条小波之间切换。针对时间滤波并不使用闭合反馈回路的本发明概念可容易地逐个宏块地在两个小波之间切换,从而支持灵活性和数据流节约,这可最优地以信号自适应方式执行。
为了表示运动场或通常的预测数据场Mp和Mu,理想地,可使用H.264/AVC中已有的B片的语法。
通过级联配对的图像分解级,获得二值树结构,其将2n个图像的组分为2n-1个残留图像和单个低通(或中间)图像,如图7针对八个图像的组所示的。具体地,图7示出了在第一级滤波器的输出22处的第一级高通图像HP1以及在第一级滤波器的输出24处的第一级低通图像。图7还示出了从第二级获得的在第二级滤波器的输出16处的两个低通图像TP2以及高通图像,作为第二级图像。第三级低通图像被提供给第三级滤波器的输出76,而第三级高通图像以已处理的形式被提供给输出75。八个图像的组最初可包括八个视频图像,其中使用图3的解码器而不使用第四滤波器级。然而,如果八个图像的组是八个低通图像的组,如在第四级滤波器的输出73处所用的,则可将本发明的MCTF分解分别用作基本运动预测器、增强运动预测器,并用作基本运动组合器或增强运动组合器。
因此,通常,在分解2n个图像的组中,传输(2n+1-2)个运动场描述、(2n-1)残留图像以及单个低通(或中间)图像。
优选地,分别通过基本控制参数和增强控制参数来控制基本运动补偿器和增强运动补偿器,来计算量化参数(1034或1036)和运动信息的最佳组合,该组合基于某一速率是固定的。根据以下方法来执行计算以获得关于某一最大比特率的最佳比。因此,可以发现,对于较低的比特率,即相对粗略的量化参数,运动矢量比采用相对精细的量化参数的更高缩放层更加重要。因此,对于粗量化因而低比特率的情况,计算比更高缩放层少的运动数据。因此,优选地,在更高缩放层中,变为子宏块模式来计算大量运动数据,以用于高比特率的良好质量和最佳情况,而不是较低比特率,其中,运动数据关于残留数据的重要性比更高缩放层的情况成比例地增加。这将在下面加以讨论。
给定图像A和B,它们是原始图像或表示在先前的分析级中产生的低通信号的图像。此外,提供亮度采样a[]和b[]的相应阵列。如下逐个宏块地估计运动描述Mi0对于图像B中所有可能的宏块和宏块i的子宏块划分,通过使拉格朗日函数mi=argminm∈S{DSAD(i,m)+λ·R(i,m)}]]>最小化,来确定有关的运动矢量mi=[mx,my]T其中,退化项给出如下DSAD(i,m)=Σ(x,y)∈P|b[x,y]-a[x-mx,y-my]|]]>这里,S规定了参考图像A内的运动矢量搜索区域。P是由所考虑的宏块划分或子宏块划分覆盖的区域。R(i,m)规定了传输运动矢量m的所有分量所需的比特数,其中,λ是固定的拉格朗日乘子。
首先,运动搜索在给定搜索区域S中的所有整数采样的精确运动矢量上进行。然后,通过使用最佳的整数运动矢量,来测试八个环绕二分之一采样的精确运动矢量。最后,通过使用最佳二分之一采样的精确运动矢量,来测试八个环绕四分之一采样的精确运动矢量。对于二分之一和四分之一精确运动矢量改进,以下项a[x-mx,y-my]被解释为插值算子。
通常,宏块模式和子宏块模式的模式判决遵循相同的方法。从给定的一组可能的宏块或子宏块模式Smode中选择使以下拉格朗日函数最小化的模式pipi=argminp∈Smode{DSAD(i,p)+λ·R(i,p)}]]>衰减项给出如下DSAD(i,p)=Σ(x,y)∈P|b[x,y]-a[x-mx[p,x,y],y-my[p,x,y]]|]]>其中,P规定了宏块或子宏块区域,m[p,x,y]是与宏块或子宏块模式p以及划分或子宏块划分相关联的运动矢量,包括亮度位置(x,y)。
速率项表示比特数,与编码器模式p的选择相关联。对于运动补偿编码器模式,其还分别包括宏块模式(如果适用)、子宏块模式(如果适用)以及运动矢量。对于帧内模式,其还包括宏块模式的比特和量化的亮度和色度变换系数水平的阵列。
所述一组可能的子宏块模式由下式给出
{P_8×8,P_8×4,P_4×8,P_4×4}。
所述一组可能的宏块模式由下式给出{P_16×16,P_16×8,P_8×16,P_8×8,INTRA},其中,仅在估计用于预测步骤的运动场描述Mi0时才使用INTRA(帧内)模式。
根据以下等式,基于要估计运动场的分解级的高通图像的基本层量化参数来设置拉格朗日乘子λλ=0.33·2^(QPHi/3-4)根据本发明,使用图8所示的分解方案,假设能够在时间可缩放性和编码器效率之间做出明智的折衷。将原始图像序列当作输入图像序列A、B、A、B、A、B、...、A、B。因此,该方案提供了具有最佳时间可缩放性的一级(低通图像之间具有相等距离)。将用作所有后继分解级的输入信号的低通图像序列当作输入图像序列B、A、A、B、B、A、...、A、B,从而被分解的低通图像之间的间距在后继的两个通道分析方案中保持较小,如从图8可见。
接下来,关于图6a至6d,参考运动数据中间层预测和残留数据中间层预测的优选实施方式。为了分别获得空间和SNR可缩放性,基本上,将较低的缩放层的运动数据和纹理数据用于预测更高的缩放层。这里,具体地,在空间可缩放性方面,在运动数据可用于预测空间增强层的解码之前,需要对运动数据进行上采样。通过使用AVC的已有B片语法来传输基本层表征的运动预测数据。优选地,在对增强层的运动场的编码中引入两个附加宏块模式。
第一宏块模式是“base_layer_mode”,第二模式是“qpel_refinement_mode”。为了用信号表示这两个附加宏块模式,如图1所示,将两个标志BLFlag和QrefFlag添加到宏块层语法中,在语法元素mb_mode之前。因此,第一标志BLFlag1098用信号表示基本层模式,而另一个标志1100用符号表示qpel精细模式。如果这种标志置位,则其值为1,并且数据流如图6a所示。因此,如果标志1098值为1,则标志1100和语法元素宏块模式1102不再重要。然而,如果标志1098值为零,则其未置位,并且使用标志1100。然而,如果标志1098和1100的值均为零,则意味着两者都未置位,将在语法元素1102中估计宏块模式。
当BLFlag=1时,使用基本层模式,对于相应宏块则不再使用其它信息。该宏块模式表示包括基本层的相应宏块的宏块划分的运动预测信息直接用于增强层。应该注意,在这里且在整个说明书中,术语“基本层”用于表示关于当前所考虑的层(即增强层)的相邻下一层。当基本层表示具有二分之一空间分辨率的层时,如图6b所示,相应地缩放运动矢量场(即包括宏块划分的运动矢量场)。在这种情况下,当前宏块包括与8×8子宏块的基本层运动场相同的区域。因此,如果以直接的16×16、16×8或8×16模式来编码相应的基本层宏块,或者以8×8模式或直接的8×8模式来编码相应基板层子宏块,则将16×16模式用于当前宏块。另一方面,如果以8×4、4×8或4×4模式编码基本层子宏块,则当前宏块的宏块模式是16×8、8×16或8×8(所有子宏块模式是8×8)。当基本层宏块表示INTRA宏块时,将当前宏块设置为INTRA_BASE,这表示当前宏块时从基本层预测的宏块。对于当前宏块的宏块划分,将相同的参考指标用于基本层块的相应宏块/子宏块划分。将有关的运动矢量乘以因子2。该因子适用于图6b所示的情况,其中基本层1102包括增强层1104的区域和象素数的二分之一。如果基本层的空间分辨率与增强层的空间分辨率之比不等于1/2,则将相应的缩放因子用于运动矢量。
然而,如果标志1098等于零且标志1100等于1,则用信号表示宏块模式qpel_refinement_mode。标志1100优选地仅在基本层表示具有二分之一的当前层的空间分辨率的层时才出现。否则,宏块模式(qpel_refinement_mode)并未包含在所述一组可能的宏块模式中。该宏块模式与基本层模式类似。与基本层模式一样,导出宏块划分以及参考指标和运动矢量。然而,对于每个运动矢量,对于每个运动矢量分量,存在附加的四分之一采样运动矢量改进-1.0或+1,还附加地将其传输且添加到导出的运动矢量。
当标志1098等于零且标志1100等于零时,或者当标志1100不存在时,照常规定宏块模式以及相应参考指标和运动矢量差。这表示按照与基本层相同的方式对增强层传输完整的一组运动数据。然而,根据本发明,可能将基本层运动矢量用作当前增强层运动矢量的预测器(代替空间运动矢量预测器)。因此,列表X(其中X在0和1之间)拥有规定所考虑的运动矢量的参考指标列表。如果所有以下条件均为真,则如图6c所示,针对每个运动矢量差,传输标志MvPrdFlag-未以INTRA宏块模式来编码包括当前宏块/子宏块划分的基本层宏块;-覆盖当前宏块/子宏块划分的左上采样的基本层宏块/子宏块划分使用列表X或双向预测;-包括当前宏块/子宏块划分的左上采样的基本层宏块/子宏块划分的列表X参考指标等于当前宏块/子宏块划分的列表X参考指标。
如果图6c的标志1106不存在,或者如果该标志1106等于零,则按照标准AVC的情况来规定空间运动矢量预测器。否则,当标志1106存在且等于1时,将相应的基本层矢量用作运动矢量预测器。在这种情况下,通过向基本层宏块/子宏块划分的可能缩放的列表X运动矢量添加所传输的列表X运动矢量差,来获得当前宏块/子宏块划分的列表X运动矢量(其中X=0或1)。
因此,标志1098、1100和1106共同表示可能实现图1a大致示出的运动数据标志1048以及运动数据控制信号1048。当然,可使用不同的其它可能的信号标志,其中使用发送机和接收机之间的固定协议,这可以减少用信号表示的信息。
总之,关于图1e、1f和1g,详细示出了图1a的增强运动补偿器1014和图2的增强运动数据确定装置1078的详细实施方式。
参考图1e,可见,增强运动补偿器1014基本上必须进行两件事。因此,首先它必须计算增强运动数据,典型地即整个运动矢量,并将其提供给增强运动预测器1016,以使增强运动预测器1016可使用未编码形式的这些矢量来获得残差图像的增强序列,在现有技术中,典型地逐个块自适应地获得残差图像的增强序列。然而,另一件事是增强运动数据处理,即尽可能地压缩用于运动补偿预测的运动数据,并写入比特流。为了写入比特流,如图1e所示,必须使各个数据进入增强图像编码器1028。因此,增强运动数据处理装置1014b具有关于基本层尽可能地减少增强运动数据计算装置1014a所确定的增强运动数据中包含的冗余的功能。
根据本发明,基本运动数据或上采样的基本运动数据可由增强运动数据计算装置1014a用来计算实际要使用的增强运动数据,或者还可仅用于增强运动数据处理,即增强运动数据压缩,而它们对于计算增强运动数据不重要。图1g的1.)和2.)两种可能示出了基本运动数据和上采样的基本运动数据已经用于增强运动数据的实施例,而图1b的实施例3.)示出了与基本运动数据有关的信息未用于计算增强运动数据而仅用于分别对残留数据进行编码和捕获的情况。
图1f示出了增强运动数据确定装置1078的编码器一侧的实施方式,具有用于逐个块进行控制的控制模块1078a,包含分别来自比特流和来自增强图像编码器1066的信号表示信息。此外,增强运动数据确定装置1078包括增强运动数据重构装置1078b,用于仅通过使用解码的基本运动数据或解码的上采样基本运动数据,或通过组合与解码的基本运动数据有关且来自增强运动解码器1066从增强缩放层1104中提取出的残留数据的信息,实际确定增强运动数据场的运动矢量,然后运动矢量可由增强运动组合器1076使用,组合器1076可形成为常用组合器,用于逆转编码器一侧的运动补偿预测。
接下来,参考图1g所示的不同实施例。如图6a已经示出的,BLFlag1098表示增强运动预测的上采样的基本运动数据的完整接收。在这种情况下,装置1014a形成为完整地接收基本运动数据,并且在不同层有不同分辨率的情况下,接收放大形式的运动数据,并将其发送到装置1016。然而,不向增强图像编码器发送任何与运动场或运动矢量有关的信息。而是,针对每个块(宏块或者子宏块),发送各个标志1098。
在解码器一侧,这意味着图1f的装置178a对一个块的标志1098进行解码,如果标志1098是有效的,则使用来自基本层的解码的基本运动数据或解码的上采样基本运动数据来计算增强运动数据,然后将其提供给块1076。在这种情况下,装置1078不需要运动矢量残留数据。
在由标志QrefFlag 1100表示的本发明第二实施例中,将基本运动矢量并入装置1014a所执行的增强运动数据计算中。如图1g中部分2.)所示,并且如上所述,分别通过搜索以下项的最小值来执行运动数据计算和运动矢量m的计算(D+λR)。
将当前图像的块B与移位了特定位置运动矢量的先前和/或后继图像的块之间的差引入失真项D。将图1a中由1036表示的增强图像编码器的量化参数引入因子λ。项R提供了与用于对位置运动矢量进行编码的比特数有关的信息。
通常,在不同位置运动矢量中进行搜索,其中,针对每个新的运动矢量来计算失真项D,并计算速率项R,并考虑优选地为固定的但是也可改变的增强量化参数1036。针对不同位置运动矢量来估计所述求和项,从而使用提供最小求和结果的运动矢量。
现在,根据本发明,还将来自基本层的相应块的基本运动矢量并入该迭代搜索中。如果满足搜索标准,则仅需要传输标志1100,而不必传输该块的残留值或任意其它信息。因此,当基本运动矢量满足块的标准(最小的先前项),则装置1041a使用基本运动矢量来将其传输到装置1016。然而,仅将标志1100传输到增强图像编码器。
在解码器一侧,由于增强图像解码器不必传输残留数据,所以这意味着装置1078a在根据基本运动数据而解码标志1100以确定该块的运动矢量时控制装置1078b。
在第二实施例的变体中,不仅将基本运动矢量,而且将从基本运动矢量中导出并(稍有)改变的多个基本运动矢量并入搜索中。取决于实现方式,运动矢量的任意分量可独立地增加或减少一个量,或保持相同。该量可表示运动矢量的特定粒度,例如分辨率步长、二分之一分辨率步长或四分之一分辨率步长。如果这种改变的基本运动矢量满足搜索标准,则附加地将改变量(所述量),即+1、0或-1传输到标志1100。
由标志1100激活,解码器然后在数据流中搜索该量,并恢复基本运动矢量或上采样的基本运动矢量,并在块1078b中将该量与相应的基本运动矢量组合,以获得增强层中的相应块的运动矢量。
在由标志1107表示的第三实施例中,基本上可随意地执行运动矢量的确定。关于完整的灵活性,装置1014a可例如根据在第二实施例中提到的最小化目标,确定增强运动数据。然后,将所确定的运动矢量用于编码器一侧的运动补偿预测,而不考虑来自基本层的信息。然而,在这种情况下,增强运动数据处理1014a形成为在实际运算编码之前将基本运动矢量并入运动矢量处理以降低冗余。
因此,根据标准H.264/AVC,执行运动矢量差的传输,其中确定图像内的相邻块之间的差。在实现中,该差可形成在不同的相邻块之间,用以选择最小的差。现在,根据本发明,将图像中相应块的基本运动矢量并入针对运动矢量差的最佳预测器的搜索中。如果满足提供最小残差值作为预测器的标准,则这由标志1106进行标志,并仅将残差值传输到块1028。如果基本运动矢量不满足该标准,则不对标志1016进行置位,并执行空间运动矢量差计算。
然而,对于更简单的编码器实现,代替迭代搜索,总是针对块自适应地确定基本运动矢量,并将其上采样版本用作预测器。
根据本发明,还执行残留数据的中间层预测。下面将对此进行讨论。当运动信息在层之间改变时,根据基本层来预测残留信息以及(在MCTF分解的情况下)增强层的高通信息是有利或不利的。当当前层的块的运动矢量与相应基本层的运动矢量类似,并且逐个宏块地与相应基本层的相应运动矢量类似时,在编码的基本层残留信息(高通信号)用于预测增强残留信号(增强高通信号)时编码器的效率有可能增加,因此仅对增强残留信号和基本层重构(图1a的线1024)之间的差进行编码。然而,当运动矢量不类似时,对残留信号的预测不太可能提高编码器效率。因此,将自适应方法用于预测残留信号和高通信号。可根据差信号,通过对受益的实际计算,或者根据对宏块的基本缩放层的运动矢量与增强缩放层中相应宏块的运动矢量之差的估计,来执行该自适应方法,即中间层预测器是否有效。如果该差小于特定阈值,则经由控制线130来激活中间层预测器。然而,如果该差高于特定阈值,则使针对该块的中间层预测器去激活(deactivated)。
传输标志ResPrdFlag 1108。当标志1108等于1时,将基本层的重构的残留信号用于预测增强层的当前宏块的残留信号,其中,仅对增强层的当前残留信号与其基本层的重构之间的差的近似进行编码。否则,标志1108不存在或等于零。这时,对增强层中当前宏块的残留信号进行编码,而不根据基本层来预测。
当基本层表示具有二分之一的增强层的空间分辨率的层时,在将基本层的上采样的残留信号用作预测信号之前,通过使用插值滤波器来对残留信号进行上采样。该滤波器是具有六个抽头的插值滤波器,用于对由于较低分辨率而在基本层中不存在的增强层的较高空间分辨率的值进行插值,周围的值用于获得尽可能好的插值结果。
然而,如果对变换块的边缘处的值进行插值,并且插值滤波器将仅使用另一变换块的值来进行插值,则优选地并不这么做,而是对所考虑块之外的插值滤波器的值进行合成,以进行伪像尽可能小的插值。
根据所谓核心试验(core experiment),发现运动和残留值的中间层预测显著地提高了基于AVC的MCTF方法的编码器效率。对于特定的测试点,获得了大于1dB的PSNR增益。尤其是对于每个空间分辨率(除了基本层)有非常低的比特率,可清楚地看到重构质量的提高。
取决于情况,本发明的方法可以硬件或软件来实现。可在数字存储介质中执行该实现,具体地在具有电可读控制信号的盘或CD中实现,该数字存储介质可与可编程计算机系统进行协作来执行该方法。因此,通常,本发明还包括具有存储在机器可读载体中的程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,所述程序代码用于执行本发明方法。换言之,本发明还可实现为具有程序代码的计算机程序,当该计算机程序在计算机上运行时,所述程序代码执行本发明方法。
此外,本发明涉及一种计算机可读介质,其中针对不同的解码器侧的装置,存储了具有第一缩放层和第二缩放层的可缩放数据流以及有关的控制字符。因此,计算机可读介质可以是数据载体或因特网,在因特网上将数据流从提供方传输到接收机。
权利要求
1.一种用于产生具有基本缩放层(1002)和增强缩放层(1004)的编码的视频序列的设备,包括基本运动补偿器(1006),用于计算基本运动数据,所述基本运动数据表示当前图像中的宏块相对于图像组中另一图像怎样运动;基本运动预测器(1012),用于通过使用基本运动数据来计算残差图像的基本序列;基本图像编码器(1010),形成为根据残差图像的基本序列来计算编码的基本缩放层;增强运动补偿器(1014),用于确定增强运动数据;其中,所述增强运动补偿器形成为通过使用基本运动数据,自适应地且逐个块地确定增强运动数据,并逐个块地提供信号标志信息;增强运动预测器(1016),用于通过使用增强运动数据,计算残差图像的增强序列;以及增强图像编码器(1028),用于对与残差图像的增强序列有关的信息进行编码,并逐个块地对信号标志信息进行编码,以获得编码的增强缩放层。
2.根据权利要求1所述的设备,其中,基本运动补偿器形成为计算空间分辨率比图像更低的图像的基本运动数据,增强运动补偿器基于所述基本运动数据来确定增强运动数据,其中,还设置上采样器(1042),用于根据图像组的空间分辨率之差来缩放基本运动数据,以及增强运动补偿器(1014)形成为根据缩放的基本运动数据来计算增强运动数据。
3.根据权利要求2所述的设备,其中,增强运动补偿器(1014)形成为接收块的缩放的基本运动数据,作为增强运动数据,并将接收信号(1098)提供给该块的增强图像编码器(1028)。
4.根据权利要求2所述的设备,其中,增强运动补偿器(1014)形成为使用缩放的基本运动数据作为增强运动数据的块的预测器,用以计算增强运动数据残留信号,并将增强运动数据残留信号以及预测信号标志提供给增强图像编码器(1028)。
5.根据权利要求1或2所述的设备,其中,基本图像编码器(1010)形成为利用基本量化参数(1034)来进行量化,其中,基本运动补偿器形成为基于基本控制参数(1034),来计算基本运动数据,而基本控制参数可基于基本量化参数,其中,增强图像编码器(1028)形成为利用增强量化参数(1036)来进行量化,以及增强运动补偿器(1014)形成为基于增强控制参数(1036)来计算增强运动数据,而增强控制参数可基于增强量化参数,并且不同于基本图像编码器的基本控制参数。
6.根据权利要求5所述的设备,其中,增强运动补偿器形成为使用基本运动数据,作为增强运动数据的预测器,并将增强运动数据残留信号以逐个块的信号标志的形式提供给增强图像编码器(1028)。
7.根据权利要求5所述的设备,其中,增强运动补偿器(1014)形成为在确定宏块的运动矢量时,根据搜索标准,在多个位置运动矢量中执行搜索,其中,增强运动补偿器(1014)形成为在搜索中使用已经针对基本层的相应块确定了的运动矢量,并且在基本层的运动矢量满足搜索标准时,接收基本层的运动矢量,并将关于此的信息(1100)提供给增强图像编码器(1028)。
8.根据权利要求5至7之一所述的设备,其中,增强运动补偿器(1014)还形成为考虑基本层的递增变化的运动矢量,并在基本层的递增变化的运动矢量满足搜索标准时,将运动矢量的递增变化以及块的信号标志(1100)提供给块的增强图像编码器(1028)。
9.根据前述权利要求之一所述的设备,其中,增强运动补偿器(1014)形成为确定图像的块的运动矢量,并对运动矢量进行进一步的后处理,以确定两个运动矢量之间的运动矢量差,并将其提供给增强图像编码器(1028),以及增强运动补偿器(1014)还形成为基于代价函数,而不是同一图像的两个块的运动矢量之间的差,来使用来自增强层的一个图像的块的运动矢量和基本层的图像的相应块的修改或未修改的运动矢量之间差,并将该差以及块的信号标志(1106)提供给增强图像编码器(1028)。
10.根据权利要求9所述的设备,其中,增强运动补偿器(1014)形成为使用矢量差的量作为代价函数。
11.根据前述权利要求之一所述的设备,还具有中间层预测器(1018),形成为通过使用残差图像的增强序列和与残差图像的基本序列有关的信息,来计算增强预测残差图像。
12.根据权利要求11所述的设备,其中,基本图像编码器(1010)形成为利用基本量化参数(1034)来执行量化,增强图像编码器(1028)形成为利用增强量化参数(1036)来执行量化,其中,增强量化参数(1036)可产生比基本量化参数(1034)更精细的量化,基本图像编码器(1010)形成为重构利用第一量化参数量化的残差图像的基本序列,以获得重构基本序列,以及中间层预测器(1026)形成为通过使用残差图像的增强序列,并使用残差图像的重构基本序列作为与残差图像的基本序列有关的信息,来计算增强预测残差图像。
13.根据权利要求11或12所述的设备,还包括抽取器(1032),用于对图像组的分辨率进行抽取,其中,抽取器(1032)形成为给基本补偿器(1006)提供具有基本分辨率的图像组,所述基本分辨率小于提供给增强运动补偿器(1014)的图像组的增强分辨率;以及插值器(1022),用于对残差图像基本序列或残差图像的重构基本图像进行空间插值,以获得残差图像的插值基本序列,可将残差图像的插值基本序列作为与残差图像的基本序列有关的信息(1026)提供给中间层预测器(1018)。
14.一种用于产生具有基本缩放层(1002)和增强缩放层(1004)的编码的视频序列的方法,包括步骤计算(1006)基本运动数据,基本运动数据表示当前图像中的宏块相对于图像组中另一图像怎样运动;通过使用基本运动数据来计算(1012)残差图像的基本序列;根据残差图像的基本序列,执行基本图像编码(1010),来产生编码的基本缩放层;确定(1014)增强运动数据;其中,通过使用基本运动数据,自适应地且逐个块地确定增强运动数据,并自适应地且逐个块地提供信号标志信息;通过使用增强运动数据,计算(1016)残差图像的增强序列;以及通过对与残差图像的增强序列有关的信息进行编码,并逐个块地对信号标志信息进行编码,来执行增强图像编码(1028),以获得编码的增强缩放层。
15.一种用于对具有基本缩放层(1002)和增强缩放层(1004)的编码的视频序列进行解码的设备,包括基本图像解码器(1060),用于对基本缩放层进行解码,以获得残差图像的解码基本序列和基本运动数据;基本运动组合器(1064),用于通过使用基本运动数据和残差图像的解码序列,来获得基本缩放层的图像序列;增强图像解码器(1066),用于对增强缩放层进行解码以获得与残差图像的增强序列有关的信息以及与增强运动数据有关的信息;增强运动数据计算器(1078),用于通过估计与增强运动数据有关的信息,并由于与增强运动数据有关的评估信息,通过使用与基本运动数据有关的信息,来计算增强运动数据;以及增强运动组合器(1076),形成为通过使用残差图像的增强序列和增强运动数据,来获得增强缩放层的图像序列。
16.根据权利要求15所述的设备,其中,增强图像解码器(1066)形成为提供来自增强缩放层的运动数据接收信号,还设置上采样器(1086),用于将基本缩放层分辨率的基本运动数据转换为增强缩放层分辨率;以及增强运动数据计算器(1078)形成为基于运动数据接收信号(1098),提供转换的基本运动数据,作为增强运动数据。
17.根据权利要求15所述的设备,其中,增强图像解码器(1066)形成为提供预测信号标志(1100,1106)以及来自增强缩放层的增强运动数据残留信号,增强运动数据计算器(1078)形成为基于预测信号标志(1100,1106),将增强运动数据残留信号与基本运动数据或分辨率转换的基本运动数据组合,以获得增强运动数据。
18.根据权利要求15所述的设备,其中,增强图像解码器(1066)形成为提供差预测信号标志(1106)以及来自增强缩放层的块的运动矢量差形式的增强运动数据残留信号,以及增强运动数据计算器(1078)形成为基于差预测信号标志(1106),将运动矢量差与相应块的基本运动矢量组合,以用于计算块的运动矢量。
19.根据权利要求15至18之一所述的设备,还具有中间层组合器(1074),用于将增强层中包含的增强预测残差数据与残差图像的解码基本序列或残差图像的插值基本序列组合,以获得残差图像的增强序列。
20.一种用于对具有基本缩放层(1002)和增强缩放层(1004)的编码的视频序列进行解码的方法,包括步骤对基本缩放层进行解码(1060),以获得残差图像的解码基本序列和基本运动数据;通过使用基本运动数据和残差图像的解码序列,执行基本运动组合(1064),来获得基本缩放层的图像序列;对增强缩放层进行解码(1066)以获得与残差图像的增强序列有关的信息以及与增强运动数据有关的信息;通过估计与增强运动数据有关的信息,并由于与增强运动数据有关的评估信息,通过使用与基本运动数据有关的信息,来计算(1078)增强运动数据;以及通过使用残差图像的增强序列和增强运动数据,执行增强运动组合(1076),来获得增强缩放层的图像序列。
21.一种计算机程序,用于在计算机上运行根据权利要求15或20所述的方法时,执行该方法。
22.一种计算机可读介质,具有包括基本缩放层(1002)和增强缩放层(1004)的编码的视频序列,其中,编码的视频序列形成使得当在根据权利要求15所述的解码设备中进行解码时,产生解码的第一缩放层和解码的第二缩放层。
全文摘要
在基本层(1002)和增强层的可缩放视频编码以及运动补偿(1006,1014)中,通过使用基本层(1002)的运动数据来执行增强层(1004)的运动数据的预测(1014,1016),以获得可缩放的概念,一方面,这提供了计算不同层的运动数据的最大灵活性,另一方面,这实现了较低的比特率。
文档编号H04N7/46GK101095357SQ200580035323
公开日2007年12月26日 申请日期2005年9月21日 优先权日2004年10月15日
发明者海科·施瓦茨, 德特勒夫·马尔佩, 托马斯·威甘德 申请人:弗劳恩霍夫应用研究促进协会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1