视频压缩的无偏舍入的制作方法

文档序号:7947504阅读:341来源:国知局
专利名称:视频压缩的无偏舍入的制作方法
技术领域
本发明涉及用于压缩活动图像的数字方法,具体来说,涉及利用了之间的或内部预测以提高压缩效率的压缩技术的比较准确的舍入方法。本发明不仅包括方法,而且还包括对应的计算机程序实现方式和设备实现方式。
背景技术
视频图像的数字表示法包括量化到某特定比特深度的图像强度和/或颜色的空间样本。此比特深度的最流行的值是8比特,该值提供了合理的图像质量,每一个样本都完美地适合单字节数字存储器。然而,对以更高的比特深度(如每个样本10和12个比特)操作的系统的需求越来越大,如MPEG-4 Studio and N-bit profiles and theFidelity Range Extensions to H.264所说明的(参见下面的引用)。
在整个压缩中,比特深度越大,保真度就越高,或误差就越小。误差的最常见的度量是均方误差标准,或MSE。其空间样本是testx,y的测试图像和其空间样本是refx,y的参考图像之间的MSE是MSE=1(NX)(NY)ΣxNXΣyNY(testx,y-refx,y)2---(1)]]>其中,NX和NY是x轴方向和y轴方向的样本数量。当参考图像是输入图像,并且测试图像是压缩图像时,MSE叫做“失真”。在此情况下,这两个图像的空间样本都是数字值。压缩图像的保真度通过此失真或MSE(规范化为最大可能的(峰值)振幅)和对数单元来度量。简而言之,以dB表示的失真PSNR(峰值信噪比)是PSNR=10log(peak2/MSE) (2)比特深度越大,PSNR的值就越大。可以使用MSE标准的普遍性来显示这一点。假设将一个模拟输入量化到N比特。这里,计算了模拟输入和其数字近似值之间的MSE。N比特采样的量化误差通常被模型化为在时间间隔[-1/2,1/2]内的独立的、均匀分布的随机噪声,以便MSE相对于最低有效位是1/12。由于输入样本在范围
内是整数,因此,峰值是2N-1。如此,对应于此MSE的PSNR是PSNR=10log((2N-1)2/(1/12)) (3)由于这代表原始图像的模拟样本和其量化表示形式之间的误差,因此,与原始模拟图像相比,它是压缩结果的保真度的上限。表1显示了某些典型的比特深度的这一上限

表1作为比特深度的函数的最大PSNR图1和图2分别显示了H.264编码器和解码器的方框图。H.264,也称为MPEG-4/AVC,被视为现代视频编码中最先进的技术。这里特别相关的有当前正在为H.264开发的统称为“保真度范围扩展”的一组扩展。
本发明可以特别适用于“H.264 FRExt”编码环境。在“DraftITU-T Recommendation and Final Draft International Standard ofJoint Video Specification(ITU-T Rec.H.264|ISO/IEC 14496-10AVC),″Joint Video Team(JVT)of ISO/IEC MPEG & ITU-T VCEG(ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6)(2003年5月23-27在瑞士日内瓦召开的第8次会议中通过)中阐述了H.264编码的细节。在″Draft Text of H.264/AVC Fidelity Range ExtensionsAmendment,″Joint Video Team(JVT)of ISO/IEC MPEG & ITU-TVCEG(ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6)(在2004年德国慕尼黑召开的第11次会议中通过)阐述了对基本H.264规范的“保真度范围扩展”的细节(因此称为“H.264 FRExt”)这里引用了这两个文件作为参考。“保真度范围扩展”将通过支持更高的样本准确性(包括10比特和12比特编码)来支持更高的保真度的视频编码。本发明特别适用于实施这样的更高的样本准确性。有关H.264标准以及其实施方式的更多细节可以在各种出版的文献中找到,例如,2003年1月出版的EBU Technical Review中的Ralf Schafer等人所著的“The emerging H.264/AVC standard”(12页)以及2002年10月07日发布在www.vcodex.com中的Iain E G Richardson所著的“H.264/MPEG-4 Part 10 White PaperOverview of H.264”。这里引用了所述Schafer等人以及Richardson的出版物作为参考。如下面进一步说明的,本发明也可以和修改的MPEG-2编码环境一起使用。
如图1所示的H.264或H.264 FRExt编码器(它们在方框图级别相同)具有目前在视频编码器中常见的元件转换和量化进程、熵(无损耗)编码、运动估计(ME)和运动补偿(MC),以及用于存储重建的帧的缓冲器。H.264和H.264 FRExt在许多方面不同于以前的编解码器内循环解块过滤器、多种模式的内部预测、新的整数转换、两种模式的熵编码(可变长度编码和算术编码)、下至4×4像素的运动块大小等等。
熵解码步骤除外,如图2所示的H.264或H.264 FRExt解码器可以很容易被视为编码器的一部分。
Fidelity Range Extensions to H.264(对H.264的保真度范围扩展(FRExt))提供了以最多每个样本12个比特的样本比特深度编码和解码的工具。这是以统一的方式集成了以大于每个样本8个比特的比特深度编码和解码的工具的第一个视频编解码器。具体来说,Fidelity Range Extensions to H.264(对H.264的保真度范围扩展)中采用的量化方法产生了压缩的比特流,该比特流潜在地在不同样本比特深度之间兼容,如Walter C.Gish和Christopher J.Vogt于2004年5月19日提出的标题为“Quantization Control forVariable Bit Depth”的待审批的美国临时专利申请S.N.60/573,017以及相同的发明人于2005年5月11日提出的相同标题的美国非临时专利申请S.N.11/128,125(该非临时申请优先于所述S.N.60/573,017临时申请)中所描述的。这里引用了Gish和Vogt的所述临时和非临时申请作为参考。所述临时和非临时专利申请的技术有助于以不同比特深度操作的编码器和解码器的互操作性,特别是在解码器以比编码器的比特深度低的比特深度操作的情况下。Gish和Vogt的所述非临时和临时申请中所说明的技术的某些细节发布在描述了Fidelity Range Extensions to H.264(对H.264的保真度范围扩展)中采用的量化方法的一个文件中″Extended Sample DepthImplementation and Characterization,″Joint Video Team(JVT)ofISO/DEC MPEG & ITU-T VCEG(ISO7IEC JTC1/SC29/WG11 andITU-T SG16 Q.6),Document JVT-H016(2003年在瑞士日内瓦召开的第8次会议),发布在网络上http://ftp3.itu.ch/av-arch/jvt-site/2003_05_Geneva/JVT-H016.doc,。这里引用了所述JVT-H016文件作为参考。
本发明的目的是不仅能够从高的比特深度输入对以高的比特深度编码的比特流以相同的高比特深度进行解码,而且能够以较低的比特深度进行解码,提供承载与原始高的比特深度图像比较近似的解码图像。这将允许8比特或10比特H.264 FRExt解码器合理地对传统上分别需要10比特或12比特H.264 FRExt解码器的比特流进行解码。或者,这将允许常规的8比特MPEG-2解码器(如下面所描述的图9中的)合理地对由下面参考图10a所描述的修改的MPEG-2编码器所产生的比特流进行解码,否则,该解码过程将需要诸如下面参考图10b所描述的修改的MPEG-2解码器。
图3显示了,当以原始高比特深度和以较低的比特深度对从高比特深度源编码的单一比特流进行解码时,较低的比特深度解码相对于高比特深度参考,具有某些误差,以MSE度量。在图3的示例中,对较低的比特深度近似的比特率进行解码,好像编码器比特深度是较低的,即,它是常规解码器(参见下面的图6)或使用了本发明的无偏舍入的常规解码器(参见下面的图7)。
尽管会预期以不同比特深度进行解码的结果由于舍入误差而稍微有点不同,但是,对于现有技术的编码器和解码器所观察到的实际差异会大得多。之所以会发生这样大的差异,是因为舍入误差在当前执行舍入的过程从预测到预测日益严重地累积起来。图4显示了存在于编码器和解码器两者中的预测循环的简图,标识了发生舍入的位置计算预测(内部和之间),解块过滤器,以及残数解码。可以看出,在由帧存储器、预测、加法器以及解块过滤器形成的反馈回路中误差从预测到预测地累积。如下面进一步说明的,主要的误差来源是预测之间和预测内部产生的。循环解块过滤器是可选的,与解码中的舍入一起,残数将产生较小的误差。然后,问题是最小化这些误差,以便高比特深度输出和较低的比特深度近似输出之间的MSE最小化。高比特深度解码输出相对于编码器是没有误差的,因为它们两者都具有相同的高比特深度预测循环。因此,它和较低的比特深度近似输出之间的MSE的降低表示,较低的比特深度解码更密切地近似于高比特深度解码。
对于之间预测的情况,来自一个帧的舍入的结果被用来预测另一个帧中的图像。因此,误差在连续的帧中不断地增大,因为反馈回路包括帧存储器(缓冲器),根据运动补偿过滤器的预测累积了误差。结果是,如图3所示的不同比特深度的解码帧在每一个预测的帧中或宏模块中增大。在现有技术中,从一个帧到另一个帧累积的这样的误差在处理MPEG-2中的IDCT之间的允许的不匹配时首次遇到。因为误差将从一个帧到另一个帧地增大,因此,它叫做“漂移”。H.264中的内部预测模式的行为类似;只在此情况下,像素的舍入结果被用来预测同一个帧中的其他相邻像素。内部预测和之间预测两者的相同之处在于,误差从预测到预测地累积,预测计算的形式是相同的。在两种情况下,预测是其总和是1的分数系数加权的帧存储器的整数值的舍入总和。即,预测的值pred(x,y)是pred(x,y)=Σi,jc(i,j)FS(x′,y′)+1/2]]>Σi,jc(i,j)=1---(4)]]>其中,FS(x′,y′)是帧存储器值,c(i,j)是加权系数。(x,y),(x′,y′)和(i,j)和c(i,j)的值之间的关系取决于预测器的类型之间的或特定的内部模式。因为系数c(i,j)是分数值,因此,此计算通常使用整数系数C(i,j)来进行,该系数的总和为2的幂,带最后的右移,以将结果截断为最后的比特深度。
pred(x,y)=[Σi,jC(i,j)FS(x′,y′)+2M-1]>>M]]>Σi,jC(i,j)=2M---(5)]]>在此形式中,被舍去的分数比特的数量是M,以便为了舍入而添加的1/2被放大到2M-1。此形式是重要的,不仅仅因为它是实际使用的最常见形式,而且还因为M的值确定了舍入误差的严重性(即,公式9)。
使用不同样本比特深度的系统最好尽可能地可互操作。即,希望能够合理地对比特流进行解码,不管编码器或解码器的比特深度如何。当解码器具有等于或大于输入信号的比特深度时,模仿与编码器具有相同比特深度的解码器是无足轻重的。当解码器具有小于编码器的比特深度时,一定会有一些损失,但解码结果应该具有适合于该较低的比特深度的PSNR,理想情况下,不小。要取得不同比特深度之间的互操作性,需要小心注意算术细节。美国专利申请出版物US2002/0154693 A1说明了通过以较大的精度执行所有中间计算而改善编码准确性和效率的方法。这里引用了所述发布的申请作为参考。一般而言,当与以更高的比特深度的计算相比时,以较低的比特深度进行的合理和常见的近似可能变得无法接受。本发明的一个方面是提供用于改善这样的中间计算中的舍入的方法,以便当以比编码器的输入信号较低的比特深度对比特流进行解码时最小化误差。

发明内容
在一个方面,本发明旨在减少或最小化由于以较低的比特深度对以较高的比特深度编码的视频比特流进行解码而产生的误差(与以较高的比特深度对这样的比特流进行解码相比)。具体来说,已经表明,造成这样的误差的主要原因是在现有技术压缩方案中使用的简单但有偏舍入。根据本发明的一个方面,在解码器中使用无偏舍入,或者,在编码器和解码器两者中都可以使用无偏舍入,以改善以比编码器的比特深度较低的比特深度进行解码所造成的总精度。这样的结果可以通过以与编码器的比特深度相同的比特深度的解码结果和以较低的比特深度的解码结果之间的误差减少或最小化来表示。阅读和理解本文档时,可以领会本发明的其他方面。


图1是H.264或H.264 FRExt视频编码器的示意功能方框图。
图2是H.264或H.264 FRExt视频解码器的示意功能方框图。
图3是用于比较两个解码器的输出的质量的方案的示意功能方框图。
图4是编码器和解码器中的预测循环的示意功能方框图,标识了发生舍入的位置。
图5是运动补偿反馈回路的示意功能方框图(为了简洁起见,删除了如图4的所示编码的残数的解块过滤器和加法器)。
图6是显示了对于相对于参考解码器(以编码器的比特深度操作的解码器)以比编码器的比特深度低的比特深度操作的常规解码器的情况的累积误差数量(垂直比尺)对视频帧数量(水平比尺)的图形表示。
图7是显示了对于相对于参考解码器(以编码器的比特深度操作的解码器)以比编码器的比特深度低的比特深度操作的并使用了无偏舍入的常规解码器的情况的累积误差数量(垂直比尺)对视频帧数量(水平比尺)的图形表示。
图8是显示了可以用来预测另一个像素(阴影)的像素(非阴影的)的连续的视频线中的像素的表示形式。
图9是采用现有技术的MPEG-2编码器(图9a)和解码器(图9b)的示意功能方框图。
图10是修改的MPEG-2编码器(图10a)和解码器(图10b)的示意功能方框图。
图11是MPEG-2类型设备中的输入、残数、转换的残数,以及量化的转换的残数的8比特和10比特版本的比较。
具体实施例方式
有偏的和无偏舍入的基本原理本发明提议在解码器中使用无偏舍入,或者,在编码器和解码器两者中都可以使用无偏舍入,用于进行视频压缩,特别是用于其中在误差容易在预测循环中累积的之间预测和内部预测中。如此,可以从对舍入方法和它们引入的误差的分析开始。具体来说,由误差所引起平均误差和方差是有关系的。因为视频压缩中的计算通常是利用不同精度的整数进行的,因此,整数的舍入是有特别关系的。
最常使用的舍入方法是加1/2,然后截断结果。即,给定(N+M)比特值s,其中,二进制点在N和M比特部分之间,已舍入的N比特r由下列公式给出r=.s+1/2(6)其中,等号暗指截断。假设M是2。在此情况下,s中的M个分数比特有四种可能性/////////

表2有偏舍入即,对于.00和.01,1不进位舍入,对于.10和.11,1进位舍入。对于s中的分数比特的1/2,在本示例中是.10的情况,发生了问题。已知(例如,在数值分析领域),舍入1/2值需要作特殊处理。即,虽然.01和.11的情况两相抵消,但是,没什么来平衡.10的情况。这种不平衡的状况导致平均误差为非零值。
因为这四种情况中的每一个情况的可能性都是相等的,因此平均误差和方差是m=14(0+14-12-14)=-18]]>σ2=14(0+116+14+116)=332---(7)]]>误差方差3/32接近于连续的情况的方差1/12。因为平均误差是非零的,因此,这叫做“有偏舍入”。没有办法缩小误差方差,因为对于舍入,非零的误差方差是不可避免的。然而,已知有办法将平均误差缩小为零。当分数正好是1/2时,所有这些解决方案一半时间进位舍入,而一半时间不进位舍入。进位舍入或不进位舍入的决定可以以许多方式作出,既可确定地,又可随机地。例如(a)舍入到偶数如果s的整数部分是奇数,则对r进行进位舍入,否则,不进位舍入(b)交替在每一次舍入时,1比特计数器加1,如果计数器是1,则进位舍入,否则,不进位舍入(c)随机在
中挑选一个随机数,如果此数字大于1/2,则进位舍入,否则,不进位舍入利用这些方法,表2中显示的可能的结果变为

表3无偏舍入如此,平均误差和方差是m=14(0+14-14)+18(12-12)=0]]>σ2=14(0+116+116)+18(14+14)=332---(8)]]>因为这会将平均误差缩小为零,因此,叫做“无偏舍入”。
尽管这是术语“无偏舍入”的一般用法,但是,已知有以不同的方式使用该术语的示例。无偏舍入是特别注意到分数部分1/2的值的舍入,以便以相等的频率对其进行进位舍入和不进位舍入。在Giacalone等人所著的标题为“Rounding Mechanisms in Processors”的美国专利申请2003/0055860 A1中发布了以相同的方式使用“无偏舍入”这一术语的现有技术的示例。此申请描述了用于当将32比特整数舍入到16比特时实现无偏舍入的“舍入到偶数”形式的电路。另一方面,Wong所著的标题为“Right-Shifting an Integer Operand andRounding a Fractional Intermediate Result to Obtain a RoundedInteger Result”的美国专利5,930,159描述了如MPEG-1和MPEG-2标准所描述的朝零或朝无穷大“舍入”的“无偏”方法的特征是什么。然而,Wong所描述的方法与其说是舍入,不如说是截断法更恰当。此外,它们仅对于正值和负值的相等的混合才是无偏;它们对于非负的值,是高度有偏的(如所有的截断法那样)。如这里所使用的无偏舍入,分别对于正值和负值是无偏,而不只是在组合中。
由有偏舍入所产生的误差的大小取决于分数比特的数量M。在上面给出的示例中,M是2,25%的时间发生偏差。如果M是1,则50%的时间发生这种情况,因此,平均误差是两倍。类似地,如果M是3,则12.5%的时间发生这种情况,因此,平均误差是一半。如此,一般而言,有偏舍入的平均误差是m=-12M+1---(9)]]>此结果有点不直观,它显示了,由有偏舍入产生的平均误差是,对于较小的(即,M较小)舍入,平均误差更大。
对于其结果在图6和图7中显示出来的测试,使用结合图10a所描述的修改的MPEG-2编码器以10比特对每个样本10比特的视频进行编码,然后,以三种方式进行解码(1)使用修改的MPEG-2解码器进行10比特解码,如结合图10b所描述的(此解码被用作下面所描述的按图3测试配置的方式进行的两个8比特解码过程的参考),(2)使用常规的MPEG-28比特解码器进行8比特解码,如结合图9b所描述的,以及(3)使用否则为常规MPEG-2的8比特解码器(如图9b中的那样)(但经过修改以使用根据本发明的无偏舍入)进行8比特解码。以如图3所示的方式,参考10比特解码,分别计算没有无偏舍入的8比特解码器的MSE和具有无偏舍入的8比特解码器的MSE。为限制总体漂移MSE,每隔48个帧,由修改的MPEG-2编码器插入I-帧。通过比较图6和7,发现无偏舍入将MSE缩小了大约四的因子(75%减少)。此外,在图7中,图6的MSE的略微的二次增长(即,正的二阶导数)替换为线性的甚至子线性的增长率。这完全是由于使用无偏舍入,以将平均误差(即,等式(12)和(13)中占主导地位(即,二次项)项缩小到零。
无偏舍入对之间预测的影响(运动补偿)一般而言,无偏舍入优于有偏舍入,因为平均误差被降低到零,而方差保持不变。我们将证明,有偏舍入的影响在运动补偿是特别不利的,因为反馈回路导致误差累积。图5是这样的运动补偿反馈回路的必需组件的示意功能方框图(为了简洁起见,删除了如图4所示的编码的残数的解块过滤器和加法器)。
图5中的帧存储器被一些初始图像初始化。在常见的实践中,此初始图像对应于内部宏模块或内部帧图像。运动补偿过滤器插入被运动矢量的整数部分位移的帧存储器的一部分。此过滤器具有等式(4)和(5)所显示的总体线性形式。过滤系数本身一般是有窗的正弦函数,具有由运动矢量的分数部分确定的相位,而(x′,y′)由运动矢量的整数部分确定。给定分数系数c(i,j)或它们的整数版本C(i,j),舍入误差是不可避免的。只有在c(i,j)是整数的情况下,才会没有舍入误差。
由于图5中的反馈回路,误差方差从迭代到迭代不连贯地相加,但平均误差连贯地相加,以致于平均误差最终在帧存储器中的总的均方误差(MSE)中占主要地位。下面的表4列出了平均误差和方差误差从迭代到迭代对总的MSE的相对贡献。每一个迭代都对应于下一个P帧或P宏模块,即,从以前的帧或宏模块预测的那一个。当使用B帧作为参考帧时,它们也构成了迭代。在第K个迭代中,累积平均误差是m=K(-18)---(10)]]>累积方差误差是σ2=K(332)---(11)]]>所产生的MSE由已知的公式给出MSE=m2+σ2(12)对于M=2的情况(两个比特的舍入),公式(10)和(11)所示范的情况变为MSE=164K2+332K---(13)]]>这些方程显示了,有偏舍入是总体MSE的渐近的主要(即,K的二次项)贡献者。
/////////

表4预测循环中的误差增长从表4可以看出,最初来自平均误差的贡献是来自方差误差的贡献的1/6。然而,它们在第六次迭代时相等,到第32次迭代时,平均误差是方差误差的5倍多。
因为运动补偿中的实际过滤是2维的,舍去的分数比特的数量取决于编解码器特定的细节,前面的示例只是说明性的。其中平均误差占主导地位的迭代,可以不同于此简单的示例,但不管细节如何,在少量的迭代之后,平均误差就会占主导地位。
通过改变为无偏舍入,来自平均误差的贡献可以被减少到零。图6和图7分别显示了,对于使用如图10(a)所示的MPEG-2的修改版本,以8比特对从10比特源编码的比特流进行解码的情况,现有技术中的有偏舍入以及根据本发明的无偏舍入所存在的MSE或漂移误差的增长。
无偏舍入对内部预测的影响H.264和H.264 FRExt在现代编解码器中是独特的,因为它们具有用于内部预测的许多模式。这些模式中的大多数将许多相邻像素(最通常的是两个或四个)平均起来,以取得给定像素的初始估计值。这些平均值计算具有利用有偏舍入的方程4和5所显示的相同的线性形式。由于只组合了少量的值,所以,来自有偏舍入的误差特别显著,因为这对应于方程6中的M=1,2。
图8显示了H.264和H.264 FRExt系统中可以影响给定块(黑色)的内部预测值的块(白色)。由于这些预测可以在4×4像素的那么小的块上进行,因此,内部预测的误差传播可以一而再,再而三地发生许多次。例如,在1080×1920的HDTV分辨率中,在水平和垂直两个方向,可能会有成百上千的迭代。通过比较,如图6和图7所示的之间预测的误差传播仅对于16次迭代发生,而表4只达到32次迭代。
当尝试使用常规的8比特H.264 FRExt解码器来对由10比特FRExt编码器产生的比特流进行解码时,所产生的图像是可识别的,但颜色不同。由于内部预测中的舍入误差,甚至最开始的I帧显示了这一点。此外,如果从参考10比特解码图像减去8比特解码图像,则可以看出误差向下和向右传播,如图8所示。由于内部预测的误差在二维图像上以复杂的方式增长,因此,没有类似于图6和图7的增大误差的简单图表。然而,无偏舍入的影响是相同的。例如,无偏舍入可以将初始I帧(该帧只具有内部预测)的MSE从大约20dB的较低的PSNR减少到接近于50dB的高PSNR。
诸如MPEG-2之类的视频压缩技术,当今已经广泛地被采用。图9a和9b分别显示了MPEG-2编码器和解码器(b)的采用现有技术的实现方式。在最常使用的MPEG-2视频压缩配置(叫做“配置文件”)中,应用了具有8比特的输入精度或比特深度的视频数据。此输入精度随后确定在压缩中使用的各种内部变量的最小精度。如此,通常,向减法器(“-”)应用具有8比特的精度或比特深度的输入视频。减法器的整数输出也具有8比特精度,但由于它可以是负数,因此,它需要总共9比特的符号位,显示为“s8”(带符号的8)。减法器的差值输出叫做“残数”。然后,将整数输出应用于2-D DCT,其输出需要带符号的11比特(“s11”)格式的三个额外的比特或12比特。这些12比特被量化,然后用其他参数进行熵(可变长度编码)(“VLC”)编码,以产生编码的比特流。经过量化的、被转换的系数也相反地量化(“IQ”)、相反地转换(“IDCT”),并添加(带有饱和)到原始减法中所使用的相同预测中。注意,编码器的此部分模仿了如图9b所示的解码器。由于熵编码(“VLC”)和解码(“VLD”)是无损耗的,因此,输入到VLC的量化DCT系数与从VLD块输出的那些相同。如果解码器和编码器中的IDCT相同,则编码器和解码器中的解码残数也相同。解码残数是原始残数的近似值。通过将此解码残数添加到预测中并饱和到原始范围(对于MPEG-2,
),产生解码帧,该帧是输入帧的近似值。这样的解码帧存储在帧存储器(“FS”)中,其内容在编码器和解码器中相同(在IDCT误差容差内)。然后,解码帧用于创建预测,以便在原始减法中使用。如此,概括地说,采用现有技术的MPEG-2系统具有如下比特深度精度输入 8比特(无符号)帧存储器(用于预测) 8比特(无符号)残数(输入减去预测) 9比特(带符号的)转换的残数 12比特(带符号的)量化数据 12比特(带符号的)在如图10a和10b所示的MPEG-2修改方案中,以比在常规MPEG-2中更高的精度对视频序列进行编码,同时保持与额定8比特流的兼容性。这是通过提高用于进行计算的精度取得的,以便最佳地利用经过转换和量化的残数所携带的精度。这特别适用于MPEG-2,该MPEG-2为经过转换和量化的残数使用12比特,而输入视频只是8比特。在图10和10b的修改方案中,所有内部编码器和解码器计算的精度都增大两个比特,输入源具有大了两个比特的比特深度,而量化数据精度仍保持不变,即
输入 10比特(无符号)帧存储器(用于预测)10比特(无符号)残数(输入减去预测)11比特(带符号的)转换的残数14比特(带符号的)量化数据 12比特(带符号的)编码器和解码器的被改变的那些部分在图10a和10b中的每一个图形中被虚线围了起来。
此外,量化和相反的量化(由*表示)被改变,以便量化值的比例不变化。由于10比特编码器中的内部变量具有额外的两个比特的精度,因此,此变化是,对于量化,额外的右移位2或除以4,对于去量化,额外的左移位2,或乘以4。由于8比特量化只不过是除以量化比例QS,等效的10比特量化只不过是除以四乘量化比例或4*QS。类似地,由于8比特的相反的量化基本上是乘以量化比例QS,在10比特时,我们只需乘以四乘量化比例。如此,Q*和IQ*所需的变化只不过是根据比特深度,改变量化比例QS。
Snell & Wilcox Limited的Cotton和Knee提出的国际公开号为WO 03/063491 A2的申请描述了MPEG-2编码器和解码器的另一个修改方案。根据Cotton和Knee出版物,视频压缩编码器和解码器中的计算精度增大,帧存储器的精度除外。当在否则为常规MPEG-2解码器中使用无偏舍入时,这样的方案对于编码也可能很有用。
小结无偏舍入对同一个比特流的高低比特深度解码之间的误差具有显著的影响。有偏舍入产生平均误差和方差。平均误差是连贯的,从预测到预测快速地增长(MSE增长是方程式(12)和(13)所示的K的二次项,并且是相当直观的。方差误差增长比较慢(MSE增长是线性的),并且直观性差得多,因为它是随机的,具有较低的振幅。当需要进行舍入时,无偏舍入更加准确。根据本发明,为了进行接近于以较高比特深度进行相同计算的较低比特深度计算,可以在预测循环中,特别是之间预测和内部预测中,可以向计算应用无偏舍入。
实现方式本发明可以以硬件或软件或两者的组合(例如,可编程逻辑阵列)来实现。除非另作说明,否则,作为本发明的一部分包括的算法不天生地涉及任何特定计算机或其他设备。具体来说,各种通用机器都可以与根据这里的原理编写的程序一起使用,构建更加专业化的设备(例如,集成电路)来执行所需的步骤是比较方便的。如此,本发明可以在一个或多个在一个或多个可编程计算机系统上执行的计算机程序中实现,每一个可编程计算机系统都包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备或端口,以及至少一个输出设备或端口。向输入数据应用程序代码以执行这里所描述的功能并产生输出信息。以已知的方式向一个或多个输出设备应用输出信息。
每一个这样的程序都可以以任何所需要的计算机语言(包括机器语言、汇编语言或高级别过程语言、逻辑语言或面向对象的编程语言),以与计算机系统进行通信。在任何情况下,语言都可以是编译的或解释的语言。
优选情况下,每一个这样的计算机程序都存储在可以由通用或特殊用途的可编程计算机读取的存储介质或设备(例如,固态存储器或介质,或磁性或光学介质)中或下载到其中,用于当由计算机系统读取存储介质或设备执行这里所描述的过程时配置和操作计算机。本发明的系统还可以被视为作为计算机可读的存储介质来实现,利用计算机程序来进行配置,其中,如此配置的存储介质使计算机系统以特定和预先定义的方式进行操作,以执行这里所描述的功能。
描述了本发明的许多实施例。尽管如此,可以理解,在不偏离本发明的精神或范围的情况下,可以作出各种修改。
权利要求
1.一种用于对代表以第一比特深度编码的数据压缩视频的数字比特流进行解码的方法,包括以第二较低的比特深度进行解码,所述解码过程包括在中间处理过程中对无符号数据进行无偏舍入。
2.根据权利要求1所述的方法,其中,所述解码过程包括预测循环中的处理,所述处理包括所述对无符号数据进行无偏舍入。
3.根据权利要求1或权利要求2所述的方法,其中,数据压缩视频以帧来代表,所述对无符号数据进行无偏舍入包括对帧之间的和/或帧内部的数据进行无偏舍入。
4.一种用于对代表数据压缩视频的数字比特流进行编码的方法,其中,所述编码过程包括在中间处理过程中对无符号数据进行无偏舍入。
5.根据权利要求4所述的方法,其中,所述编码过程包括预测循环中的处理,所述处理包括所述对无符号数据进行无偏舍入。
6.根据权利要求4或权利要求5所述的方法,其中,数据压缩视频以帧来代表,所述对无符号数据进行无偏舍入包括对帧之间的和/或帧内部的数据进行无偏舍入。
7.一种用于对代表数据压缩视频的数字比特流进行编码和解码的方法,包括以第一比特深度编码,所述编码过程包括在中间处理过程中对无符号数据进行无偏舍入,以及以第二较低的比特深度进行解码,所述解码过程包括在中间处理过程中对无符号数据进行无偏舍入。
8.根据权利要求7所述的方法,其中,所述编码过程包括预测循环中的处理,所述处理包括所述对无符号数据进行无偏舍入,其中,所述解码过程包括预测循环中的处理,所述处理包括所述对无符号数据进行无偏舍入。
9.根据权利要求7或权利要求8所述的方法,其中,数据压缩视频以帧来代表,所述对无符号数据进行无偏舍入包括对帧之间的和/或帧内部的数据进行无偏舍入。
10.用于执行权利要求1到9中的任何一个权利要求的方法的设备。
11.存储在计算机可读的介质中的用于使计算机执行权利要求1到9中的任何一个权利要求的方法的计算机程序。
12.一种用于对代表以第一比特深度编码的数据压缩视频的数字比特流进行解码的解码器,包括用于接收数字比特流的装置,以及以第二较低的比特深度进行解码的装置,该装置包括用于在中间处理过程中对无符号数据进行无偏舍入的装置。
13.根据权利要求12所述的解码器,其中,所述用于进行解码的装置包括用于在预测循环中进行处理的装置,所述用于进行处理的装置包括所述用于对无符号数据进行无偏舍入的装置。
14.根据权利要求13或权利要求14所述的解码器,其中,数据压缩视频以帧来代表,所述对无符号数据进行无偏舍入的装置包括对帧之间的和/或帧内部的数据进行无偏舍入的装置。
15.一种用于对代表数据压缩视频的数字比特流进行编码的编码器,包括用于在预测循环中进行处理的装置,该处理包括在中间处理过程中对无符号数据进行无偏舍入,以及用于输出所述数字比特流的装置。
16.根据权利要求15所述的编码器,其中,所述用于进行编码的装置包括用于在预测循环中进行处理的装置,所述用于进行处理的装置包括所述用于对无符号数据进行无偏舍入的装置。
17.根据权利要求15或权利要求16所述的编码器,其中,数据压缩视频以帧来代表,所述对无符号数据进行无偏舍入的装置包括对帧之间的和/或帧内部的数据进行无偏舍入的装置。
18.一种用于对代表数据压缩视频的数字比特流进行编码和解码的系统,包括用于以第一比特深度编码的装置,所述编码过程包括用于在预测循环中进行处理的装置,该用于进行处理的装置包括在中间处理过程中对无符号数据进行无偏舍入的装置,以及用于以第二较低的比特深度进行解码的装置,所述用于解码的装置包括用于在预测循环中进行处理的装置,该用于进行处理的装置包括在中间处理过程中对无符号数据进行无偏舍入的装置。
19.根据权利要求18所述的系统,其中,用于进行编码的装置包括用于在预测循环中进行处理的装置,所述用于进行处理的装置包括所述用于对无符号数据进行无偏舍入的装置,其中,用于进行解码的装置包括用于在预测循环中进行处理的装置,所述用于进行处理的装置包括所述对无符号数据进行无偏舍入的装置。
20.根据权利要求18或权利要求19所述的系统,其中,数据压缩视频以帧来代表,所述对无符号数据进行无偏舍入的装置包括对帧之间的和/或帧内部的数据进行无偏舍入的装置。
全文摘要
当以第一比特深度对视频进行编码以及以低于第一比特深度的第二比特深度对视频进行解码时,在对代表数据-视频的数字比特流进行编码和解码的过程使用了无符号数据的无偏舍入。在使用了预测循环的处理过程中可以使用无偏舍入。当以帧代表数据压缩视频时,可以对帧之间的和/或帧内部的数据进行无偏舍入。
文档编号H04N7/26GK1973549SQ200580020485
公开日2007年5月30日 申请日期2005年7月12日 优先权日2004年7月13日
发明者沃尔特·C.·吉什, 金宏苏 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1