用中间层运动数据预测产生编码的视频序列的设备和方法

文档序号:7578053阅读:76来源:国知局
专利名称:用中间层运动数据预测产生编码的视频序列的设备和方法
技术领域
本发明涉及视频编码系统,具体地涉及可缩放(scalable)视频编码系统,可结合 视频编码标准H. 264/AVC或新的MPEG视频编码系统一起使用。
背景技术
标准H. 264/AVC是IUT-T视频编码专家组VCEG和IS0/IEC运动图像专家组(MPEG) 的视频标准化计划的结果。该标准化计划的主要目标是提供一种具有非常良好的压缩行 为、同时产生网络友好的视频表征的清晰视频编码概念,包括例如视频电话的具有“通话特 征”的应用以及没有通话特征的应用(存储、广播、流传输)。除了上述标准IS0/IEC 14496-10之外,还存在与该标准有关的多种出版物。仅作 为示例,参考"The Emerging H. 264-AVC standard,,,Ralf Schafer, Thomas Wiegand and Heiko Schwarz, EBU Technical Review, January 2003。此夕卜,专家出版物"Overview of the H. 264/AVC Video Coding Standard,,,Thomas ffiegand, Gary J. Sullivan, Gesle Bjontegaard and Ajay Lothra, IEEE Transactions on Circuits and Systems for Video Technology, July 2003 以出片反· “Context—based adaptive Binary Arithmethic Coding in the H. 264/AVC Video Compression Standard,,,Detlev Marpe, Heiko Schwarz and Thomas ffiegand,IEEE Transactions on Circuits and Systems for Video Technology, September 2003,包括视频编码标准的不同方面的概述。然而,为了更好地理解,将参考图9至11给出视频编码/解码算法的概述。图9示出了视频编码器的完整结构,视频编码器通常包括两个不同级。通常,第一 级通常进行有关视频的操作,产生输出数据,然后输出数据经过第二级的熵编码,第二级在 图9中由80表示。数据是数据81a、量化变换系数81b以及运动数据81c,其中,将这些数 据81a、81b、81c提供给熵编码器80,以在熵编码器80的输出处产生编码的视频信号。具体地,将输入视频信号分别分割划分为宏块,其中每个宏块具有16X16象素。 然后,选择宏块与片组和片的关联,根据该关联,由图8所示的操作块网络来处理每个片的 每个宏块。应该注意,当视频图像中存在不同的片时,可能高效并行处理宏块。经由图8中 的块编码器控制82来执行宏块与片组和片的关联。存在不同的片,这些片定义如下I片1片是其中片的所有宏块都是使用帧内预测来编码的片。P片除了 I片的编码类型之外,P片的某些宏块也可利用每个预测块的至少一个 运动补偿预测信号,使用帧间预测来编码。B片除了 P片中可用的编码类型之外,B片的某些宏块也可利用每个预测块的两个运动补偿预测信号,使用帧间预测来编码。上述三种编码类型与早期的标准中的编码类型非常类似,但是如下面所述的,使 用参考图像。下面片的两种编码类型在标准H. 264/AVC中是新的SP片该片也被称为切换P片,其编码成可在不同预编码图像之间有效地切换。SI片SI片也被称为切换I片,其使SP片中的宏块精确地适应直接随机存取和错 误恢复目的。总而言之,片是宏块序列,如果不使用灵活宏块排序FMO的属性,则按照光栅扫描 的顺序对片进行处理,标准中同样定义了 FM0。如

图11所示,可将图像分割为一个或多个 片。因此,图像是一个或多个片的集合。在这点上,由于可根据比特流来分析(解析)片的 语法单元,所以片是彼此独立的,其中,可在片所表示的图像范围内正确地对采样值进行解 码,只要所用的参考图像在编码器和解码器中是相同的。然而,需要来自其它片的某些信息 来在片边界上应用解块滤波器(deblocking filter)。FMO特性通过使用片组的概念,来修改将图像划分为片的方式。每个片组是由宏块 到片组的映射所定义的宏块的集合,宏块到片组的映射由图像参数集的内容和来自片头的 某些信息规定。该宏块到片组的映射包括图像中每个宏块的片组标识号,该标识号规定了 有关宏块所属的片组。可将每个片组划分为一个或多个片,因此片是相同片组中的宏块的 序列,该序列按照特定片组的宏块集合中的光栅抽样的顺序来处理。取决于片编码器的类型,可以以一个或多个编码器类型来发送每个宏块。在所有 片编码器类型中,支持被称为intra_4x4或intra_16X16类型的帧内编码,此外,还支持色度预 测模式和I_rcM预测模式。intra_4x4模式基于独立的每个4X4色度块的预测,并且非常适用于对具有突出 细节的图像部分进行编码。另一方面,intra_16X16模式执行整个16X16色度块的预测,并 更适用于对图像的“柔和,,区域进行编码。除了这两个色度预测类型之外,还执行独立的色度预测。作为intra_4x4* intra_16X16的备选,I_4X4编码类型使得编码器简单地省略预测以及变换编码,而直接发送 编码的采样的值。Ι—κ 模式具有以下目的其是编码器精确地表征采样的值。其提供一种 精确地表征非常异常的图像内容的值而不放大数据的方式。此外,其可以确定比特数的确 切边界,编码器需要具有该确切边界以处理宏块而不损失编码效率。与在变换域中执行帧内预测的早期的视频编码标准(即H. 263+和MPEG-4Visual) 相反,H. 264/AVC中的帧内预测总是通过参考分别在要预测的块的左侧和上方的先前编码 的块的相邻采样,在空间域中执行的(图10)。在出现传输错误的某些情况下,这会引起错 误传播,其中,由于帧内编码的宏块中的运动补偿而发生该错误传播。因此,可用信号通知 受限的帧内编码模式,受限的帧内编码模式仅能够预测帧内编码的相邻宏块。在使用intra_4x4模式时,预测空间相邻采样的每个4X4块。通过使用相邻块中 先前解码的采样,来预测4X4块的16个采样。可对每个4X4块使用9种预测模式之一。 除了 “DC预测”(其中一值用于预测整个4X4块)之外,规定8个方向预测模式。这些模 式适用于预测图像中的方向结构,例如不同角度的边缘。除了帧内宏块编码类型之外,将不同预测或运动补偿编码类型规定为P宏块类 型。每个P宏块类型与将宏块具体分为块形式相对应,块形式用于运动补偿预测。语法支持以16 X 16、16 X 8、8 X 8或者8 X 16采样的小块尺寸进行划分。在8 X 8采样的划分中,对 于每个8X8划分,发送附加的语法单元。该语法单元规定了是否将各个8X8划分进一步 划分为8X4、4X8或者4X4亮度采样和相应的色度采样。通过将各个参考图像的区域移动由平移矢量和图像参考指标规定的量,获得每个 预测编码的MXM小块的预测信号。因此,如果使用四个8X8划分来编码宏块,并且在将每 个8X8划分进一步划分为四个4X4划分时,可在所谓运动场内传输单个P宏块的最大量 为16的运动矢量。在H. 264/AVC中,量化参数片QP用于确定变换系数的量化。该参数可假定52个 值。设置这些值,使得量化参数增加1则意味着量化器步长宽度增加大约12%。这意味着 量化参数增加6则使量化器步长宽度恰好增加因子2。应该注意,步长大小改变大约12% 也意味着比特率减少大约12%。块的量化变换系数通常以Z字形路径来采样,并通过使用熵编码方法来处理。按 照光栅扫描顺序来采样色度分量的2X 2DC次数,并且可通过使用16比特整数值的加法和 移位运算来实现H. 264/AVC中的所有逆变换运算。参考图9,对于视频序列中的每个图像,首先逐个图像将输入信号划分为16X16 象素的宏块。然后,将每个图像提供给减法器84,减法器84减去由包含在编码器中的解码 器85提供的原始图像。然后对减法结果(即空间域的残留信号)进行变换、缩放和量化 (块86),以获得线81b熵的量化变换系数。为了产生要馈入减法器84的减法信号,首先再 次对量化变换系数进行缩放和逆变换(块87),以提供给加法器88,加法器88的输出馈入 解块滤波器89,其中,例如,在解块滤波器的输出处监视将要由解码器进行解码的输出视频 信号,以用于控制目的(输出90)。通过使用输出90处的解码的输出信号,在块91中执行运动估计。对于块90中的 运动估计,从图9中可见,提供原始视频信号的图像。标准允许两种不同的运动估计,即前 向运动估计和后向运动估计。在前向运动估计中,关于前一图像来估计当前图像的运动。 然而,在后向运动估计中,使用将来的图像来估计当前图像的运动。将运动估计的结果(块 91)提供给运动补偿块92,特别地,在开关93切换到帧间预测模式时,就像在图9的情况下 一样,运动补偿块92执行运动补偿帧间预测。然而,如果开关93切换到帧内预测,则使用 块490来执行帧内预测。因此,由于对于帧内预测,不执行运动补偿,所以不需要运动数据。运动估计块91分别产生运动数据和运动场,其中,将分别包括运动矢量的运动数 据和运动场发送到解码器,从而可执行相应的逆预测,即使用变换系数和运动数据的重构。 应该注意,在前向预测中,可分别根据紧接的前一图像和多个在前的图像来计算运动矢量。 除此之外,还应该注意,在后向预测中,可使用紧接的相邻的将来图像,当然也可使用其它 的将来图像,来计算当前图像。图9所示的视频编码概念的缺点在于,其未提供简单的可缩放性的可能。如本领 域公知的,术语“可缩放性(scalability),,表示编码器/解码器概念,其中,编码器提供缩 放的数据流。缩放的数据流包括基本缩放层以及一个或多个增强缩放层。基本缩放层包括 要编码的信号的表征,通常具有较低质量,但同时具有较低数据率。增强缩放层包含视频信 号的另一表征,其提供相对于基本缩放层有提高质量的表征,典型地伴随着基本缩放层的 视频信号表征。另一方面,当然,增强缩放层具有各自的比特需求,因此用于表示要编码的信号的比特数随每个增强层而增加。取决于设计和可能性,解码器仅对基本缩放层进行解码,以提供由解码信号表示 的图像的相当差质量的表征。然而,随着每次“增加”另一缩放层,解码器可逐步提高信号 的质量(在有损比特率的情况下)。取决于实现方式和编码器到解码器的传输通道,由于典型地基本缩放层的比特率 很低而有限的传输通道足够,所以传输至少一个基本缩放层。如果传输通道不再有更多的 带宽,则仅传输基本缩放层而不传输增强缩放层。结果,解码器可只产生图像信号的低质量 表征。与数据率太高而使得传输系统不太可能的未缩放情况相比,低质量表征是有利的。如 果传输通道运动传输一个或多个增强层,则编码器将向解码器传输一个或多个增强层,因 此可根据请求,逐步地提高输出视频信号的质量。关于视频序列的编码,可区分两种不同的缩放。一种缩放是时间缩放,因此未传输 视频序列的所有视频帧,而是为了减小数据率,例如,仅传输了每第二个帧、每第三个帧、每 第四个帧等。另一种缩放是SNR缩放(SNR=信噪比),其中,基本缩放层和第一、第二、第 三、.· ·增强缩放层包括所有的时间信息,但是具有不同的质量。因此,基本缩放层具有低数 据率,但是具有低信噪比,其中,可通过每次增加一个增强缩放层来逐步地提高该信噪比。图9所示的编码器概念的问题在于,它是基于残留值仅由减法器84产生、然后被 处理的事实。在图9所示的通过使用块86、87、88、93、94和84而形成闭合回路的设置中, 基于预测算法来计算这些残留值,其中,量化参数进入闭合回路,即进入块86、87。如果现在 实现简单的SNR缩放,即例如首先用粗量化步来量化预测残留信号,然后通过使用增强层, 用细量化器步长来逐步量化预测残留信号,这将具有以下结果。由于逆量化和预测,特别 地,关于一方面使用原始图像且另一方面使用量化图像而进行的运动估计(块91)和运动 补偿(块92),将在编码器和解码器中导致量化器步长的“发散”。这导致在解码器一侧产 生增强缩放层非常困难。此外,在解码器一侧处理增强缩放层变得不可能,至少是关于在标 准H. 264/AVC中定义的单元不可能。因此,原因是图9所示的视频编码器中的闭合回路包 含量化。在San Diego2003年12月2日到5日的第九届JVT会议介绍的HsikoSchwarz, Detlev Marpe 和 Thomas Wiegand 的题为 “SNR-Scalable Extension of H. 264/AVC” 的标 准化文献JVT-I 032tl中,介绍了对H. 264/AVC的可缩放扩展,其中包括关于时间和信噪比 的可缩放性(具有相等或不同时间精度)。因此,引入了时间子带划分的提升表征,这允许 使用运动补偿预测的公知方法。在 J.-R. Ohm, "Complexity and delay analysis of MCTF interframewavelet structures”,I SO/1 EC JTCl/WG11 Doc. M8520, July 2002 中描述了其中提升表征用于小 波分析和小波合成的基于小波的视频编码算法。在D. Taubman, "Successive refinement of video fundamental issues, past efforts and new directions,,,Proc. of SPIE (VCIP,03),vol. 5150,pp. 649-663,2003中可以找到与可缩放性有关的评述,然而,其 中需要显著的编码器结构改变。根据本发明,一方面实现了编码器/解码器的概念,另一方 面,可缩放的可能性可基于与标准一致的单元,尤其是对于运动补偿。在详细参考图3的编码器/解码器机构之前,首先,参考图4来分别描述编码器一侧的基本提升方案和解码器一侧的逆提升方案。在W. Sweldens,“A custom design construction of biorthogonal wavelets", J. Appl. Comp. Harm. Anal. , vol. 3 (no. 2), pp.186-200,1996 禾口 I.Daubechies and W. Sweldens, "Factoring wavelet transforms into lifting Steps", J. Fourier Anal. Appl.,vol. 4 (no. 3),pp. 247-269,1998 可找到与 提升方案和小波变换的组合的背景技术有关的详细解释。通常,提升方案包括三步,即多相 分解步骤、预测步骤和更新步骤。分解步骤包括将输入侧的数据流划分为下分支40a的相同第一拷贝以及上分支 40b的相同拷贝。此外,将上分支40b的相同拷贝延迟一时间级(广),使得具有奇数索引k 的采样s2k+1与具有偶数索引s2k的采样分别经过各个抽取器和下采样器42a、42b。抽取器 42a和42b分别通过去除每第二个采样,来减少上和下分支40b、40a中的采样数。涉及预测步骤的第二区域II包括预测算子43和减法器44。表示更新步骤的第三 区域包括更新算子45和加法器46。在输出侧,存在两个归一化器47、48,用于归一化高通 信号hk (归一化器47)和归一化低通信号Ik (归一化器48)。具体地,多相分解导致给定信号s [k]的奇偶采样的划分。由于相关性结构典型地 示出了局部特性,所以奇偶多相分量高度相关。因此,在最后的步骤中,通过使用整数采样 来执行奇数采样的预测(P)。每个奇数采样s。dd[k] = s[2k+l]的相应预测算子(P)是相邻 偶数采样s_n[k] = s[2k]的线性组合,即
权利要求
1.一种用于对具有基本缩放层(1002)和增强缩放层(1004)的编码的视频序列进行解 码的设备,包括基本图像解码器(1060),用于对基本缩放层进行解码,以获得残差图像的解码基本序 列和基本运动数据;增强图像解码器(1066),用于对增强缩放层进行解码以获得与残差图像的增强序列有 关的信息以及与增强运动数据有关的信息;增强运动数据计算器(1078),用于通过估计与增强运动数据有关的信息,并由于与增 强运动数据有关的评估信息,通过使用与基本运动数据有关的信息,来计算增强运动数据; 以及增强运动组合器(1076),形成为通过使用残差图像的增强序列和增强运动数据,来获 得增强缩放层的图像序列;其中,所述设备还包括中间层组合器(1074),用于将增强层中包含的增强预测残差数 据与残差图像的解码基本序列或残差图像的插值基本序列组合,以获得残差图像的增强序 列。
2.一种用于对具有基本缩放层(1002)和增强缩放层(1004)的编码的视频序列进行解 码的方法,包括步骤对基本缩放层进行解码(1060),以获得残差图像的解码基本序列和基本运动数据; 对增强缩放层进行解码(1066)以获得与残差图像的增强序列有关的信息以及与增强 运动数据有关的信息;通过估计与增强运动数据有关的信息,并由于与增强运动数据有关的评估信息,通过 使用与基本运动数据有关的信息,来计算(1078)增强运动数据;以及通过使用残差图像的增强序列和增强运动数据,执行增强运动组合(1076),来获得增 强缩放层的图像序列;其中,所述方法还包括中间层组合步骤(1074),用于将增强层中包含的增强预测残差 数据与残差图像的解码基本序列或残差图像的插值基本序列组合,以获得残差图像的增强 序列。
全文摘要
用中间层运动数据预测产生编码的视频序列的设备和方法,在基本层(1002)和增强层的可缩放视频编码以及运动补偿(1006,1014)中,通过使用基本层(1002)的运动数据来执行增强层(1004)的运动数据的预测(1014,1016),以获得可缩放的概念,一方面,这提供了计算不同层的运动数据的最大灵活性,另一方面,这实现了较低的比特率。
文档编号H04N7/36GK102082952SQ201110032620
公开日2011年6月1日 申请日期2005年9月21日 优先权日2004年10月15日
发明者德特勒夫·马尔佩, 托马斯·威甘德, 海科·施瓦茨 申请人:弗劳恩霍夫应用研究促进协会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1