用于生成具有恒定质量的可缩放编码视频比特流的方法

文档序号:7721537阅读:152来源:国知局
专利名称:用于生成具有恒定质量的可缩放编码视频比特流的方法
技术领域
本发明总的涉及视频代码转换的领域,更具体地,涉及可缩放的视频数据的代码转换。
背景技术
视频压缩能够以较少的存储、网络和处理器资源来存储、传输和处理可视信息。最广泛使用的视频压缩标准包括用于存储和恢复活动图象的MPEG-1,用于数字电视的MPEG-2,和用于电视会议的H.263,见ISO/IEC 11172-21993,“Information Technology-Coding ofMoving Picture and Associated Audio for Digital Storage Mediaup to about 1.5 Mbit/s-Part2Video(信息技术-用于高到约1.5Mbit/s的数字贮存媒体的活动图象和相关的音频的编码-第2部分视频)”,D.LeGall,“MPEGA Video Compression Standard forMultimedia Applications(用于多媒体应用的视频压缩标准)”,Communications of the ACM,第34卷,No.4,第46-58页,1991,ISO/IEC 13818-21996,“Information Technology-GenericCoding of Moving Picture and Associated Audio Information-Part2Video(信息技术-活动图象和相关的音频的通用编码-第2部分视频)”,1994,ITU-T SG XV,DRAFT H.263,“Video Codingfor Low Bitrate Communication(用于低比特率通信的视频编码)”,1996,和ITU-T SG XVI,DRAFT13 H.263+Q15-A-60 rev.0,“Video Coding for Low Bitrate Communication(用于低比特率通信的视频编码)”,1997。
这些标准是相对较低级别的技术规范,它主要处理图象或帧的空间压缩以及帧序列的空间与时间压缩。作为共同的特性,这些标准按照每个帧执行压缩。这些标准达到高的压缩比,用于各种各样的应用。
对于通过具有固定的带宽的通信信道进行的视频传输,视频常常以恒定的比特率(CBR)被编码。为了计及对于每个帧所产生的比特中的微小起伏,编码器的输出比特首先被发送到缓存器。随后,缓存器以恒定的比特率释放输出比特到信道。
CBR编码的视频具有许多优点,然而,CBR编码也有某些缺点。一个缺点是,感知的图象质量由于比特流内的起伏失真而起伏。当失真增加时,感知的图象质量降低。作为另一个缺点,CBR编码没有提供通过非均匀时变网络发送视频的有效的方法。这样的网络的特征在于,或者改变带宽或者根据在许多中间可提供的比特率(ABR)建立进程或二者的组合。在两种情形下,或者为了提供恒定的或最大的质量视频,或为了充分利用通信信道的容量,常常考虑可变比特率(VBR)编码。
在2001年3月6日授权给Blawat等人的美国专利No.6,198,878中,“Method and apparatus for encoding and decoding digitalvideo data(用于编码和译码数字视频数据的方法和设备)”,描述了用于被存储在固定容量的媒体中的VBR编码的视频的缓存器控制策略。Blawat等人提高整个序列的第一部分(例如,总的重放时间的80%)的质量,同时保持在序列的第二部分(例如,总的重放时间的20%)的质量的可忽略的损失。虽然产生VBR编码的视频,但没有描述保证恒定质量的方法。而是,它们的聚焦点是使得在重建的视频中的失真最小化。
在2001年3月20日授权给Fert等人的美国专利No.6,205,174中,“Variable bit-rate video coding method and correspondingvideo coder(可变比特率视频编码方法和相应的视频编码器)”,描述了VBR视频编码方法,包括分析过程,预测过程,和图象重新安排。它们超过先前的VBR编码器之处在于,来自第一过程的数据影响最后的量化步骤尺寸以及图象类型的安置,即,I,P和B帧,它们被称为帧的编组分配。它们需要多次迭代,达到合理的恒定质量,并表示更大数目的迭代将进一步改进质量。然而,每次迭代消耗附加的处理功率和增加的延时。
在1999年11月2日授权给Boice等人的美国专利No.5,978,029中,“Real-time encoding of video sequence employing twoencoders and statistical analysis(采用两个编码器和统计分析的视频序列的实时编码)”,描述了用于分析视频帧序列和用于得出信息编码子系统。子系统包括控制处理器,用于分析收集的信息和用于产生一组控制参量。第二编码子系统通过使用相应的组的控制参量来编码每个帧。它们通过在第一过程收集统计资料,然后在第二过程使用统计资料执行编码,而克服与许多现有的VBR编码器有关的延时。虽然在原理上,所描述的编码系统与现有的多过程编码器没有很大的不同,但它们确实描述两个编码器借以互相耦合保证实时运行的方法。
总之,现有技术方法主要描述VBR编码器,它们在比特率起伏不是主要关心的问题时使得失真最小化。
现有技术可以证实,在第一阶段期间从编码的比特流中提取数据,和在编码的第二阶段使用提取的数据,是共同的技术。这由Lin等人在他们的文章中进一步描述“Bit-rate control usingpiece-wise approximated rate-distortion characteristics(使用逐片近似的速率-失真特性的比特率控制)”,IEEE Trans.Circuitsand Systems for Video Technology,August 1998。他们描述用来编码视频的大的组的量化尺度。相应的速率量化器数据和失真量化器数据也被记录。使用该记录的数据,通过线性或立方内插方法来内插一条曲线。该曲线最后被使用来选择一组量化尺度,它使得在给定速率限制下的平均失真或失真变化最小化。然而,他们的方法在计算速率均衡器数据时是计算上昂贵的,而且,需要对于最佳量化尺度的复杂的搜索。因此,这个方法不能使用于实时应用,特别是,对于低的比特率流的数据。


图1显示大多数现有技术VBR编码器的基础的概念。在编码器100的一个分支中,源编码统计资料111由统计资料生成器110从输入源101被提取。统计资料生成器110的特别的事例是视频编码器,它通过使用很大的一组量化参量从许多速率失真样本中提取实际的速率失真(R-D)统计资料111。R-D统计资料111被发送到统计分析器120,在其中确定用于编码的R-D参量121。R-D参量121被使用来对于被延时的、输入视频101的副本执行单层VBR编码130。结果是VBR编码的比特流131,它可被存储或通过网络被传输。
图2显示VBR编码的统计的复接应用,正如在2000年12月26日授权给Wang等人的美国专利No.6,167,084中,“Dynamic bit-allocation for statistical multiplexing of compressed anduncompressed digital video signals(用于统计复接压缩的和未压缩的数字视频信号的动态比特分配)”中描述的。动态比特分配方法200分配速率给在CBS信道262上传输的多个节目201。每个节目(视频)201具有压缩的或未压缩的比特流的形式,多半被存储在软盘220上。
分级结构动态比特分配通过使用速率控制处理器240被执行。速率控制处理器首先以超级帧的组(GOP)级别分配比特,然后最终下降到帧级别。速率控制处理器240使用由多个单层VBR代码转换机231-232和编码器233-234提取的速率失真参量241。目标的比特数在速率控制处理器240中按照帧的形式和节目优先权被确定。对于目标比特率的约束条件也在速率控制处理器中被考虑,防止缓存器260的过流和欠流。所以,线261上的信号表示缓存器260的“充满度”。每个视频节目的目标比特数被发送到多个编码器的每个编码器,传输多个单层VBR比特流235-238。这些比特流被复接250,被缓存260,和典型地通过CBR信道262被传输。
对于从视频服务器到接收机(例如电视机或计算机)的视频传输,外部带宽起伏是主要关心的问题。起伏不单影响质量,而且也影响传输期间的延时和抖动。2000年7月4日授权给Graf的美国专利No.6,085,221,“File server for multimedia file distribution(用于多媒体文件分布的文件服务器)”描述了用于从文件服务器发送多媒体文件的方法。VBR编码器被使用来压缩多媒体。Graf没有详述他的VBR编码的细节。他只假设,不管编码格式可以得到恒定的感觉的质量。然而,他确实描述一种调度视频传输的方法。另外,没有提到可被使用来使得重建的视频的感觉的质量最佳化的方法。
对于大多数部分,上述的方法具有两个隐含的假设。首先,假设了单层编码方案,第二,具有可被调节来满足速率或失真约束条件(例如用于MPEG-2)的有限的参量组,仅仅考虑量化参量和GOP结构,即,帧类型和位置。
视频编码标准,诸如用于多媒体应用的MPEG-4(参阅ISO/IEC14496-21999,“Information technology-coding ofaudio/visual objects,Part2Visual(信息技术-音频/可视的目标的编码-第2部分可视的)”,提供几个新的编码工具,包括改进编码效率的工具和支持基于目标的编码与错误回弹的工具。
在网络上传递视频内容时一个主要的问题是调节内容满足由用户和网络施加的特定的约束条件。用户要求以感觉的质量的最小的变化进行重放。然而,动态网络条件常常造成这种困难。
MPEG-4标准采用了细粒子可缩放(FGS)编码。支持FGS编码的工具在MPEG-4标准的修改例中被规定,ISO/IEC 14496-21999/FDAM4,“Information Technology-coding of audio/visualobjects,Part2Visual(信息技术-音频/可视的目标的编码-第2部分可视的)”。FGS编码的综述由Li在他的文章中进行描述“Overview of Fine Granularity Scalability in MPEG-4 VideoStandard(MPEG-4视频标准中细粒度可缩放度综述)”,IEEE Trans.Circuits and Systems for Video Technology,March 2001.
FGS编码根本地背离传统的缩放编码。对于传统的可缩放编码,内容被编码成一个基本层比特流以及可能几个增强层比特流,其中粒度仅仅与被形成的增强层比特流的数目一样细。最后得到的速率失真曲线类似于阶跃函数。
相反,FGS编码提供可连续缩放的增强层比特流。可连续缩放的增强层比特流是藉助于使用离散余弦变换(DCT)系数的位面编码方法而被提供的。位面编码允许在任何点截断增强层比特流。这样,重建的视频的质量正比于被译码的增强层比特流的比特数。
图3显示传统的FGS编码器300。输入的视频301被提供到典型的基本层编码器310。基本层编码器包括DCT311,量化(Q)312,运动补偿(MC)318,逆量化(Q-1)313,逆DCT(IDCT)314,运动补偿317,截幅315,帧存储器316,和可变长度编码器(VLC)319部件。基本层编码器310的输出是具有每个预定的最小恒定的比特率的基本层比特流301。典型地,CBR是非常低的,例如,20kbps或更低。因此,基本层比特流可以在高带宽和低带宽的信道上进行传输。
增强层比特流是通过从输入视频301减去基本层比特流310的重建的帧被生成的。这产生在空间域中的FGS剩余信号322。然后,对于剩余信号322施加增强层编码。增强编码包括DCT330,后面跟随位面移位340,最大运行350,和位面VLC编码360,以产生增强层比特流303。
图4显示FGS译码器400,它可以应用到基本层比特流302和增强层比特流303,以产生重建的基本层视频491和重建的增强层视频492。译码器400包括可变长度译码器(VLD)410,逆量化器415,逆DCT420,运动补偿425,帧存储器430,和截幅435部件。FGS剩余信号456由增强层比特流传送通过位面VLD445,位面移位450和IDCT455部件而被重建。然后,FGS剩余信号456可被加到457重建的基本层喜好36,产生增强视频492。组合的信号被限幅460,以确保信号是有界的,即,8比特象素数值必须处在
范围内。
在增强层的FGS编码的视频比特流中控制位面移位的选择性增强方法在2001年7月17日授权给Chen等人的美国专利No.6,263,022中被描述,“System and Method for fine granular scalable videowith selective quality enhancement(用于选择性质量增强的细粒度可缩放的视频的系统和方法)”。这里,被使用来编码基本层视频的量化参量也确定相应的移位因子。与被认为在视觉上更重要的宏块有关的位面被移位更高。
要指出的关键点是,基本层比特流的比特率是某个预先规定的最小值。增强层比特流覆盖从最小值到接近于无损的重建的速率和失真的范围。另外,在增强层比特流被生成后,它可以被存储和被重新使用许多次。按照网络特性,适当的比特数可被分配给一个帧,以及通过网络被传输,考虑当前的网络条件。然而,重要的是指出,在该方案中不调节量化参量。
标准没有说明如何完成速率分配,或等价地,按每个帧的比特截断。标准只说明如何译码可缩放的比特流。另外,被使用来为速率-失真(R-D)特性建模(例如,根据量化参量)的传统的方法,对于由FGS编码使用的位面编码方案不再成立。结果,重建的视频的质量可明显地改变。
因为不同的灵敏度是我们人类视觉感觉的关键,重要的是感觉的质量的变化最小化,而不是总的失真。最佳速率分配可以通过使得用于指数R-D模型的花费最小化而被完成。这导致帧之间的恒定的质量,参阅Wang等人,“A new rate allocation scheme for progressivefine granular scalable coding(用于逐步地细粒度可缩放的编码的新的速率分配)”,Proc.International Symposium on Circuits andSystems,2001。然而,这个现有技术的、基于模型的方法对于低的比特率信号行不通。
所以,需要一种可提供具有恒定的质量的输出比特流的可缩放编码器。而且,希望提供可测量位面编码的比特流中R-D特性的技术,这样,可以调节速率以便满足实时的质量需求。

发明内容
本发明提供一种用于对于输入视频的输出比特流进行编码以使得译码的输出比特流具有恒定感觉的质量的方法。从输入视频生成具有恒定的比特率的基本层比特流,以及从输入视频与基本层比特流之间的差值生成输入的增强层比特流。替换地,基本的和输入的增强层比特流被预先存储。
从基本层比特流和增强层比特流中提取速率和失真特性,以及按照速率和失真特性从输入增强层比特流生成具有可变比特率的输出增强层比特流。基本层比特流与增强层比特流相组合,形成具有可变比特率和恒定失真的输出比特流。
附图简述图1是现有技术单层VBR编码器的方框图;图2是现有技术的、具有统计复接的输出的多个单层VBR编码器的方框图;图3是现有技术的、细粒度可缩放(FGS)编码器的方框图;图4是现有技术FGS译码器的方框图;图5是按照本发明的、恒定质量的多层VBR编码器的方框图;图6a是用于在空间域中FCS增强层编码的速率-失真提取器的方框图;图6b是用于频域中的FCS增强层比特流的速率-失真提取器的方框图;图7是具有统计复接的输出的多个FGS和VBR编码器的方框图;图8a-c是比较多层编码方法的图;图9a是与现有技术方法相比较,按照本发明的、使用第一组编码参量的、基于一帧的恒定质量的图;图9b是显示与现有技术方法相比较,按照本发明的、使用第二组编码参量的、基于一帧的恒定质量的图;图10是显示使用现有技术均匀比特分配方法的、统计复接的输出比特流的基于一帧的可变质量的图;以及图11是显示使用按照本发明的均匀比特分配方法的、统计复接的输出比特流的基于一帧的可变质量的图。
本发明的最佳实现模式系统结构图5显示按照本发明的视频编码器500。编码器500取源视频501作为输入,以及产生由基本层比特流和增强层比特流组成的比特流作为输出。作为一个优点,组合的基本层比特流和增强层比特流使能重建具有恒定的感知的质量的视频。
按照本发明的视频编码器500包括细粒度可缩放的编码器510,被耦合到速率-失真提取器520和增强层VBR代码转换机540。
系统运行FGS编码器510生成基本层比特流511和增强层比特流512。基本层比特流511具有预定的最小比特率和相应的失真。输入的增强层比特流512是通过使用位面编码,局部或完全译码基本层比特流511,从输入视频501与基本层比特流511之间的差值生成的。
速率-失真提取器520采样基本层和增强层比特流,确定速率-失真(R-D)特性521。具体地,测量一组R-D样本,正如下面更详细地描述的。样本被线性地内插,估计出一条曲线,用于为基本层和输入增强层比特流的R-D特性正确地建模。
增强层VBR代码转换机540按照速率和失真特性521,通过使用滑窗541和可提供的网络带宽521从输入的增强层比特流512生成输出的增强层比特流519。正如下面描述的,窗口541的尺寸(M)可以是固定的或可以适配于视频复杂性和网络条件。
基本层比特流51l和输出的增强层比特流519相组合,被存储在软盘上,用于以后的异步传输,或当这两个比特流被代码转换时,可以通过网络550被同步地发送。在任一个事例中,比特流511和519的重建产生具有最小的失真的变化的视频。因此,我们的方法有效地保持重建的视频中恒定的感觉的质量。
另一种方案是,基本层比特流511和输入的增强层比特流512由FGS编码器510提前生成以及被预先存储在贮存单元515。FGS编码器510也可预先生成速率-失真特性521,而同时在这个预先的代码转换阶段期间产生基本层和输入的增强层比特流511-512。这些连同相关的基本层比特流511和输入的增强层比特流512也可被存储在贮存单元515。然后,速率-失真提取器520被旁路,以及增强层VBR代码转换机540实时地同步运行,正如上面描述的。
FGS比特流的最佳速率分配以前的、用于最佳速率分配的方法提供了使得受到速率(R)限制的总的失真(D)最小化的解决方案。大多数通常的方法通过使用Lagrange乘法因子λ而使得总的失真最小化。所以,我们也使得花费函数J(λ)最小化,J(λ)=Σi=0N-1Di(Ri)+λΣi=0N-1RisubjecttoΣi=0N-1Ri≤Rbudget,---(1)]]>其中N是序列中帧的数目。
求解方程(1),在低的比特率条件下可直接导致负的速率分配,即,当速率预算Rbudget是小的,正如在可缩放的比特流的情形下。因为这是不实际的,所以加上熟知的Karush-Kuhn-Tucker(KKT)约束条件。例如,给定熟知的模型,D(R)=aσ22-2R,解是Ri=(-12logλ2aσi2)+---(2)]]>其中(x)+表示x的正的部分,以及Σi(-12log2λ2aσi2)+=Rbudget.]]>速率-失真提取器我们的R-D提取器520作用在基本层比特流511和输入的增强层比特流512上,提供R-D特性521。我们的方法克服由于在低的比特率下现有技术封闭形式模型的不精确性造成的问题。
用于速率分配的基于模型方法的性能依赖于选择的模型的精度。现有技术的指数模型对于在低的比特率下的速率-失真性质没有精确地建模,正如在FGS比特流511-512中给出的,参阅以上Wang的文章。这是与关于这个主题的经典理论一致的,参阅Jayant and Noll,Digital Coding of Waveforms(波形的数字编码),Prentice Hall,1984。
为了克服现有技术的问题,我们的R-D特性521估计FGS比特流中完全的R-D关系。我们使用在R-D样本之间的线性内插,估计对于R-D关系正确建模的曲线。因为实际的R-D曲线典型地是平滑的,为了精确地估计R-D曲线只需要小量R-D样本。实际上,我们发现两个R-D样本就足以近似每个位面的R-D关系。
作为一个优点,我们的R-D提取器520不仅可以确定对于存储的比特流的R-D特性521,也可以确定对于实时运行在流动的视频的R-D特性。另外,可以在频域通过使用DCT系数或在空域中得出我们的R-D特性,因为信号的方差通常是DCT不变的。我们可以通过使用传统的技术从基本层比特流511中提取R-D特性,然而,我们也从输入的增强层比特流512中提取R-D特性。
空间R-D提取图6a是测量空域中的R-D失真样本的R-D提取器的方框图。增强层比特流519首先被传送到比特流控制器610,以便测量速率样本611。速率样本可被线性地间隔开,或按照预定的函数被选择。速率样本作为每个R-D样本对{R,D}的第一部分被记录。根据每个速率样本,特定的数目的比特被使用来通过位面VLD620,位面移位630和IDCT而重建FGS剩余信号641。从原先的FGS剩余信号602中减去645重建的FGS剩余信号641(见图3的信号322),产生误差信号646。然后根据空域误差646,估计650失真651,产生失真样本651,它们形成每个R-D对{R,D}的第二部分。这个处理过程对于多个速率样本点重复进行,产生一组R-D对。
频率提取图6b是测量DCT域中的R-D样本的R-D提取器的方框图。处理过程类似于图6a上描述的处理过程,除了没有进行IDCT640来产生在DCT域中的重建的FGS剩余信号631以外。这个重建的FGS从原先的FGS剩余信号602中减去645这个重建的FGS(见图3的信号322),产生误差信号646’。然后根据频域误差646’,估计650失真651,产生失真样本651,它们形成每个R-D对{R,D}的第二部分。这个处理过程对于多个速率样本点重复进行,产生一组R-D对。
与其中R-D样本只从基本层比特流中得出的现有技术相反,我们也从位面编码的增强层比特流中提取样本。现有技术的方法需要输入的视频用各种均衡器进行编码。这在计算上有高的要求,不适用于实时应用,正如这里描述的。我们的方法能够从位面编码的增强层比特流中进行实时R-D样本提取。
对于具有恒定的失真的单个FGS视频的比特率分配我们提取的R-D特性521足以用于VBR代码转换机540中最佳的速率分配。在给定这个信息后,我们再次进行方程(1)的花费函数的最小化,但这时约束失真。在现有技术方法中,典型地使用穷举搜索来找出方程(1)的最佳解。相反,我们提供实际的速率分配方法。
根据恒定的失真的适当的初始估值,可以在一个过程中得出最佳解。滑窗技术被使用来适配于网络中随时间的变化。
对于恒定的失真D的初始估值,我们考虑两个相邻的R-D样本{Rmi,Dmi}和{Rni,Dni},以使得Dmi≥D≥Dni和Rmi≤R≤Rni,其中Ri是要被分配到帧i的最佳速率,达到恒定的失真D。我们通过使用测量的失真样本的平均值,即,D=1NΣi=0N-1Di,]]>(其中Di是与恒定的比特分配有关的失真),来确定D的初始估值。使用与恒定的比特分配有关的速率,提供了一种用来近似其中存在最佳速率的邻居的、计算上有效的方法。
实际上,对于每个帧的可提供的带宽随变化的网络条件而变化。所以,我们使用利用滑窗的比特率分配方案。对于从时间a的帧开始的、M帧的窗口的速率预算Wa是 其中Rbudget是在时间a的可提供的带宽,以及Fs是输入的序列的帧的速率。速率预算是对于窗口中的每个帧被确定的,以及当前帧的速率分配是根据下面给出的方程组进行的, 其中ΔRi=Rmi-Rni和ΔDi=Dmi-Dni分别代表两个相邻的R-D样本的速率和失真的差值。这产生具有M个未知数的一组M个方程,它可以通过使用已知的方法求解。
如果以上的方程的解对于帧i的是负的,则我们令Ri=0,以及重新计算解。因为被分配给每个窗的速率是基于每个帧改变的,我们只对于当前的帧Ri求解以上的方程。
我们的方法的计算的复杂性大大地低于现有技术中完成的穷举搜索。然而,我们通过确定对于每个M帧的组的速率,而不是基于每个帧,而进一步减小计算花费。这样,在每步中滑窗移动M个帧,而不是一次一个帧。在每步中,被分配给窗口中的每个帧的速率是对于该组的帧的速率。这个改进的方法对于具有慢变化的条件的网络最管用。另外,通过最佳滑窗的尺寸M,可进一步减小失真的变化,我们发现,大约20个帧左右的尺寸的窗运行得很好。然而,M的数值可以根据视频复杂性和/或网络的动态特性的变化量自适应地进行选择。
对于大的窗口尺寸,在传输之前必须知道更多的帧的R-D信息。如果R-D信息被离线地得到和被存储,则速率控制处理器720瞬时接入到这个数据。因为我们的方法的计算复杂性是非常低的,O(M),计算延时实际上可以忽略。在稳定的网络条件下,希望选择更大的窗口来平滑由于视频的变化的复杂性引起的起伏。
另一方面,如果网络条件是不稳定的,我们宁愿以初始的延时为代价得到平滑性。在这种情形下,可以使用缓存器来临时存储当前的M个帧。然后,比特率分配可以在当前的帧中间进行调节。在实时应用情形下,窗口尺寸可以根据帧之间的最大变化,对于初始延时的敏感性,和目标平滑性,自适应地被确定。最佳解是这些因素的折衷。
对于具有恒定的失真的多个FGS视频的比特率分配在现代通信系统中,视频流的发射机通常通过具有高带宽的CBR信道,例如同轴电缆或光缆,被连接到接收机。当多个视频在这种网络中传输时,各个比特流被复接到具有恒定的集合的比特率的单个信道。
为了有效地利用高带宽的信道,而同时保持每个多个视频的恒定的感觉的质量,每个视频被如上所述地进行VBR编码。而且,多个VBR生成比特流的和值,在任何时间都小于或等于恒定的集合的比特率。事实上,为了充分利用带宽,该和值尽可能地接近于信道的集合的CBR。
我们的方法不单使得每个视频中的失真变化最小化,也使得全部视频的总的失真最小化,而同时使得信道利用最大化。
图7显示按照本发明的多视频FGS的统计的编码器700的方框图。加到编码器700的同时的输入是多个视频701,以及输出是在满足以上的条件时的CBR信道741上的复接的VBR比特流。
首先,每个输入视频701被单独地编码成510如上所述的VBR FGS比特流511和512。可以测量相应的R-D特性521。对于异步的应用,即,非实时应用,输出被存储在贮存单元515。R-D特性521被发送到速率控制处理器720。速率控制处理器确定对于每个增强层VBR代码转换机540的速率分配721。对于同步的应用,即,实时应用,贮存装置515被旁路,以及基本层和输入增强层比特流直接传送到增强层VBR代码转换机540。
来自代码转换机540的输出比特流被复接730,被缓存740和在CBS信道741上被同步地传输,或被存储用于以后的异步传输。缓存器在缓存器充满后把反馈信号742提供到速率控制处理器720。
速率控制处理器速率控制处理器720把上述的用于单个视频的公式扩展到多个视频。作出类似的假设。即,多个视频的最小失真方差导致最小的总的失真。对于从时间b的帧开始的、M个帧和K个源的二维窗口的速率预算Wb是 其中Rbudget是现在是对于K个源的总的预算,以及Rj,i是在帧i中被使用于视频j的比特数。速率预算是对于每个视频的窗口中的每个帧被确定的,以及当前帧的速率分配是根据下面的方程组进行的,
其中ΔRj,i=Rmj,i-Rnj,i和ΔDj,i=Dmj,i-Dnj,i分别代表来自视频j的两个相邻的R-D样本的速率和失真的差值。这产生具有M×K个未知数的一组M×K个方程,它们可以通过使用已知的方法求解。
结果和效果为了验证我们的单个视频方法的有效性,我们通过使用FGS和FGS-临时(FGST)编码法以共同-中间-格式(CIF)分辨率编码在MPEG-4标准中使用的熟知的“Foreman”视频序列。用于基本层比特流的编码的帧速率对于FGS和FGST编码被固定在10fps。我们测试三个速率分配方法均匀比特分配方法,基于高斯模型的最佳比特分配方法,和按照本发明的方法。
图8a-c分别显示相应于比特的速率802的每个帧的最后得到的失真801,其中每个组的三个帧800进行比较,以及划阴影线的横条803表示该三个帧的组的第一帧。从这些图可以看到,只有按照本发明的方法,如图8c所示,在很宽的比特率的范围内达到在帧中的恒定的失真。
图9a和9b比较我们的滑窗方法901与现有技术的均匀的比特分配。基本层比特流用两组量化参量进行编码,以及增强层比特流被分配以每秒75k字节的速率,这对于均匀比特分配允许每个FGS-VOP2.5k字节。画出了在100个接连的帧912上对于每个方法的失真911。
结果明显地表示,通过使用我们的方法901,仅仅在几个帧后失真就变为恒定的,而采用均匀比特分配方法902的失真在整个100帧的序列上包含很大的变化。这对于其中“射程(shots)”的长度典型地是在1到10秒的范围内(即,30到300帧)的许多视频是重要的。
而且,失真的平均的均方差(MSE)在图9a上从35.14减小到34.91,以及在图9b上从46.31减小到45.50。
图10和11比较现有技术均匀比特分配1000与我们的滑窗方法1100,以验证我们的多个视频方法的有效性。我们通过使用FGS和FGST编码法以CIF分辨率编码Foreman 1001,CoastguaR-D 1002,Carphone1003和Mobile 1004序列。用于基本层比特流的编码的帧速率对于FGS和FGST编码法被固定在10fps。增强层比特流被分配以1320kbps的速率,这对于均匀比特分配允许每个FGS-VOP 5.5k字节。画出了在100个接连的帧上对于每个方法的失真。
使用现有技术均匀比特分配的结果1000表示,序列具有很大的质量差。这是由于与每个序列有关的不同的复杂性。除了序列之间相互的差值以外,通过均匀速率分配不能避免在同一个序列内的帧之间的内部的起伏。另一方面,通过按照本发明的方法得到几乎恒定的质量1100。平均失真减小约10%,从30.70减小到27.66。
虽然本发明是藉助于优选实施例的例子进行描述的,但应当看到,可以在本发明的精神和范围内作出各种其他改变和修正。所以,所附权利要求的目的是覆盖属于本发明的真实的精神和范围内所有的这样的改变和修正。
权利要求
1.一种用于生成代表具有可测量的速率和失真特性的输入视频的输出比特流的方法,输出比特流被重建为恒定的质量的输出视频,包括提供代表输入视频的基本层比特流和输入的增强层比特流;按照速率和失真特性从输入增强层比特流生成具有可变比特率的输出增强层比特流;以及把基本层比特流与输出增强层比特流相组合,形成具有可变比特率和恒定失真的输出比特流。
2.权利要求1的方法,还包括在细粒度可缩放编码器中从恒定的比特率的输入视频生成基本层比特流;在细粒度可缩放编码器中从输入视频与基本层比特流之间的差值生成输入增强层比特流;以及把基本层比特流和输入增强层比特流存储在第一贮存单元。
3.权利要求1的方法,还包括在细粒度可缩放译码器中从基本层比特流和输出增强层比特流重建输出视频。
4.权利要求1的方法,还包括把输出比特流存储在第二贮存单元,用于异步传输。
5.权利要求1的方法,还包括把输出比特流呈给网络,用于同步传输。
6.权利要求1的方法,还包括在生成输入增强层比特流之前,局部地译码基本层比特流。
7.权利要求1的方法,还包括在生成输入增强层比特流之前,完全地译码基本层比特流。
8.权利要求1的方法,还包括位面编码输入增强层比特流。
9.权利要求1的方法,还包括从输入视频测量速率和失真特性。
10.权利要求1的方法,还包括从基本层比特流和输入增强层比特流测量速率和失真特性。
11.权利要求10的方法,还包括线性地内插测量的速率和失真样本,估计出一条曲线,用于为基本层和输入增强层比特流的速率与失真特性正确地建模。
12.权利要求10的方法,还包括比较两对相邻的速率与失真样本;将在速率与失真样本对之间的测量的失真进行平均,以估计恒定的失真值;确定保持在信道的可用带宽上的恒定失真的、可用的最大速率;以及通过使用M帧的滑窗,适配于随时间的速率样本的变化。
13.权利要求10的方法,还包括测量频域中速率与失真特性。
14.权利要求13的方法,还包括测量输入增强层的速率样本;记录每个速率样本作为速率-失真样本对的第一部分;通过对于规定的数目的比特的位面可变长度译码和位面移位,根据每个速率样本重建频域中细粒度可缩放的剩余信号;从原先的细粒度可缩放的剩余信号中减去重建的细粒度可缩放的剩余信号,产生误差信号;以及根据误差信号估计失真值,产生失真样本作为每个速率-失真样本对的第二部分。
15.权利要求8的方法,还包括以小于逐帧的频率测量速率与失真样本对。
16.权利要求12的方法,还包括在每步中移动滑窗大于1的帧的数目。
17.权利要求10的方法,还包括测量空域中速率与失真特性。
18.权利要求17的方法,还包括通过对于规定的数目的比特的逆离散余弦变换,根据每个速率样本重建空域中细粒度可缩放的剩余信号。
19.权利要求12的方法,其中在窗口中的帧的数目按照窗口内帧的复杂性被调节。
20.权利要求12的方法,其中在窗口中的帧的数目按照被使用来发送输出比特流的网络的条件被调节。
21.权利要求10的方法,其中输入增强层包括多个位面,以及还包括用两个速率失真样本近似每个位面。
22.权利要求1的方法,其中多个同时输出比特流是从多个输入视频被生成的,每个输入视频具有相应的速率失真特性,以及还包括提供代表每个输入视频的基本层比特流和相应的输入增强层比特流;按照相应的速率和失真特性从输入增强层比特流生成具有可变比特率的输出增强层比特流;把基本层比特流与输出增强层比特流相组合,形成对于每个输入视频的、具有可变比特率和恒定失真的输出比特流;以及复接多个生成比特流,以使得多个输出比特流的可变比特率的和值在任何时间小于或等于恒定集合的比特率。
23.权利要求15的方法,其中和值尽可能地接近于信道的集合CBR。
全文摘要
本发明提供一种用于对于输入视频的输出比特流进行编码以使得译码的输出比特流具有恒定感觉的质量的方法。从输入视频生成具有恒定比特率的基本层比特流,以及从输入视频与基本层比特流之间的差值生成输入的增强层比特流。另一方案是,基本的和输入的增强层比特流被预先存储。从基本层比特流和增强层比特流中提取速率和失真特性,以及按照速率和失真特性从输入增强层比特流中生成具有可变比特率的输出增强层比特流。基本层比特流与增强层比特流相组合,形成具有可变比特率和恒定失真的输出比特流。
文档编号H04N7/58GK1476727SQ02802994
公开日2004年2月18日 申请日期2002年9月18日 优先权日2001年9月24日
发明者张习民, A·维特罗, 芈, 施云庆, 孙惠方 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1