将数字信号编码成可扩缩比特流的方法和对可扩缩比特流解码的方法

文档序号:2819097阅读:276来源:国知局
专利名称:将数字信号编码成可扩缩比特流的方法和对可扩缩比特流解码的方法
背景技术
目前,随着计算机的发展,在诸如因特网、无线局域网、家庭网络和商业蜂窝电话系统的网络上对音频内容进行联网和通信流,正在成为传送音频服务的主流方法。相信随着包括xDSL、光纤和宽带无线接入的宽带网络设施的发展,这些信道的比特率会很快接近用于传送高采样率、高幅值分辨率(例如96kHz,24比特/采样)的无损音频信号的信道的比特率。另一方面,仍然存在需要诸如MPEG-4(如[1]中所述)的高压缩数字音频格式的应用领域。因此,非常需要能桥接当前信道和迅速出现的宽带信道的能共同使用的解决方法。另外,即使在宽带信道广泛可使用并且带宽限制最终消除时,能够产生比特率可在传输过程中动态变化的分层比特流的比特率可扩缩编码系统仍是非常有益的。例如,对于因故障或资源共享要求有时发生分组丢失的应用,当前诸如PCM(脉冲编码调制)的宽带波形表示和无损编码格式可能在流情况中受到严重的失真。但是,如果可以在网络资源动态变化的情况下设置分组的优先级,就可以解决这个问题。最后,比特率可扩缩编码系统还提供对音频流服务有利的服务器,其中,如果来自客户机站点的需求的数量过多,则可以实现适度的QoS降低。
之前,已经提出许多无损音频编码算法(见[2]-[8])。大多数方法依赖预测滤波器以除去原始音频信号的冗余,而残差被熵编码(如[5]至[12]中所述的)。由于预测滤波器的存在,因此将由这些基于预测的方法产生的比特流进行扩缩以实现比特率可扩缩性是困难且效率不高的(见[5],[6]),如果可能的话。其它如[3]中所述的方法通过两层法建立无损音频编码器,其中,原始音频信号首先用有损编码器进行编码,然后,其残差用残差编码器进行无损编码。尽管这种两层设计提供了某种比特率可扩缩性,但是其粒度过粗而不适于音频流应用。之前,在[4]和[18]中提出了对比特率提供细粒度可扩缩性的音频编解码器,但是,与在此将要讨论的系统不同,那些编解码器不提供后向兼容性,即由这两个编解码器产生的有损比特流与任何现有的音频编解码器都不兼容。
在[21]、[22]、[23]中描述了感知模型。
本发明的目的在于提供一种用于将数字信号编码成可扩缩比特流的方法,其中保持后向兼容性。

发明内容
提供一种用于将数字信号编码成可扩缩比特流的方法,该方法包括量化数字信号,并对量化信号编码以形成核心层比特流;基于数字信号和核心层比特流执行误差映射以除去已被编码成核心层比特流的信息,产生误差信号;基于数字信号的感知信息对误差信号进行比特平面编码,产生增强层比特流,其中数字信号的感知信息使用感知模型确定;以及复用核心层比特流和增强层比特流,从而产生可扩缩比特流。
另外,根据上述方法,提供一种将数字信号编码成可扩缩比特流的编码器、计算机可读介质、计算机程序元件、一种将可扩缩比特流解码成数字信号的方法、一种将可扩缩比特流解码成数字信号的解码器、另一种计算机可读介质以及另一种计算机程序元件。
在一个实施例中,提出一种无损音频编解码器,其实现具有以下特征的细粒度比特率可扩缩性(FGBS)-后向兼容性在无损比特流中嵌入诸如MPEG-4AAC比特流的高压缩核心层比特流。
-在感知上嵌入的无损比特流在重构的音频中,无损比特流可被截断成任何有损速率,而不损失感知最优性。
-低复杂度它在AAC(二进制算术编解码器)上仅增加了非常有限的计算以及非常有限的存储器。
本音频编解码器所提供的丰富的功能性提出其能够用作“通用”音频格式,以满足不同音频流或存储应用的各种速率/质量的要求。例如,用作核心层比特流的遵循MPEG-4AAC的比特流可以很容易从使用该编解码器产生的比特流中提取,用于传统的MPEG-4AAC音频服务。另一方面,也可以由该编解码器提供无损压缩,以用于具有无损重构要求的音频编辑或存储应用。在需要FGBS的音频流应用中,该编解码器的无损比特流可以进一步被截断成在编码器/解码器或在通信信道中较低的比特率,以用于任何可以在实际系统中出现的速率/保真度/复杂度限制。
在一个实施例中,提供一种对数字信号进行编码以形成可扩缩比特流的方法,其中可扩缩比特流可以在被解码器解码时在任何点被截断以产生较低质量(有损的)信号。所述方法可用于对任何类型的数字信号进行编码,例如音频、图像或视频信号。与物理被测信号对应的数字信号可以通过扫描对应的模拟信号的至少一个特性特征(例如,视频信号的亮度和色度值,模拟声音信号的幅值,或者来自传感器的模拟传感信号)产生。例如,麦克风可以用于捕捉模拟音频信号,然后通过对捕捉的模拟音频信号进行采样和量化将其转换成数字音频信号。摄影机可以用于捕捉模拟视频信号,然后使用适合的模数转换器将其转换成数字视频信号。可选择地,数码相机可用于直接将图像或视频信号捕捉到图像传感器(CMOS或CCD)上作为数字信号。
数字信号被量化和编码以形成核心层比特流。核心层比特流形成可扩缩比特流的最小比特率/质量。
增强层比特流用于提供可扩缩比特流的附加比特率/质量。根据本发明,通过基于变换信号和核心层比特流执行误差映射以产生误差信号,形成增强层比特流。执行误差映射的目的在于除去已被编码成核心层比特流的信息。
对误差信号进行比特平面编码以形成增强层比特流。误差信号的比特平面编码是基于数字信号的感知信息即被感知或感知的重要性而执行的。本发明中使用的感知信息是指与人类感觉系统相关的信息,例如人类视觉系统(即人眼)和人类听觉系统(即人耳)。这种数字信号(视频或音频)的感知信息使用感知模型获得,例如MPEG-1音频中用于音频信号的心理声学模型I或II(如[21]中所述的)、用于图像的人类视觉系统模型(如[22]中所述的)以及在视频中使用的时空模型(如[23]中所述的)。
心理声学模型是基于人耳只能获取依赖各种环境条件的某一频段内的声音的效果的。类似地,HVM(人类视觉模型)是基于人眼更注意确定的动作、颜色和对比的效果的。
核心层比特流和增强层比特流被复用以形成可扩缩比特流。
可扩缩比特流可以被解码以无损地重构数字信号。如上所述,核心层比特流是形成可扩缩比特流的最小比特率/质量的嵌入式比特流,并且增强层比特流形成可扩缩比特流的有损到无损部分。由于增强层比特流在感知上进行比特平面编码,因此增强层比特流可按照使得增强层比特流中在感知上不太重要的数据首先被截断的方式被截断,以便提供可扩缩比特流的感知可扩缩性。换句话说,可扩缩比特流可通过截断增强层比特流进行扩缩,这样增强层比特流以及因此的可扩缩比特流即使在被截断成较低的比特率/质量时,也可以在感知上最优化。
根据本发明的方法可在高带宽或高保真系统中用作诸如图像、视频或音频信号的数字信号的无损编码器。当带宽要求改变时,由编码器产生的比特流的比特率可以相应地改变,以满足带宽要求的变化。这种方法可在许多应用和系统中实现,例如JPEG 2000的MEG音频、图像和视频压缩。
根据本发明的实施例,在对数字信号进行量化以形成量化信号之前,将数字信号变换到适合域。数字信号可以在相同的域内进行变换,或者从一个域变换到另一个域以更好地表示数字信号,并从而允许对数字信号进行容易和有效的量化和编码以形成核心层比特流。这样的域可包括但不限于时域、频域以及时域与频域的混合。数字信号的变换甚至可以用酉矩阵I执行。
在一个实施例中,使用整数修正离散余弦变换(intMDCT)将数字信号变换成变换信号。intMDCT是对通常在MPEG-4AAC编码器中使用的修正离散余弦变换(MDCT)滤波器组的可逆近似。也可以使用其它变换用于将数字信号变换到用于进一步处理的适合域,包括但不限于离散余弦变换、离散正弦变换、快速傅里叶变换和离散小波变换。
当intMDCT用于将数字信号变换成变换信号时,优选地,将变换信号(具体指描述变换信号的intMDCT系数)进行归一化或扩缩以近似MDCT滤波器组的输出。当例如AAC量化器的用于量化变换信号的量化器具有MDCT滤波器组,并且该MDCT滤波器组的全局增益与intDMCT滤波器组的全局增益不同时,intMDCT变换信号的归一化是有用的。这种归一化过程使intMDCT变换信号近似于MDCT滤波器组,使得intMDCT变换信号适合于由量化器直接量化和编码以形成核心层比特流。
对于对音频数字信号进行编码,优选地,数字/变换信号根据MPEGAAC规范进行量化和编码以产生核心层比特流。这是因为AAC是用于产生低比特率但高质量的音频比特流的最有效的感知音频编码算法之一。因此,使用AAC产生的核心层比特流(称为AAC比特流)具有低比特率,甚至在可扩缩比特流被截断成核心层比特流时,被截断的比特流的感知质量仍然很高。应当注意,也可以使用其它量化和编码算法/方法,例如MPEG-1音频层3(MP3)或其它用于产生核心层比特流的专有的编码/量化方法。
除去已被编码成核心层比特流的信息和产生残差信号(或误差信号)的误差映射通过从变换信号中减去量化信号的每个量化值的较低量化阈值(接近零)来进行。这种基于量化阈值的误差映射过程具有这样的优点,即残差信号的值总是正的,并且残差信号的幅值独立于量化阈值。这允许实现低复杂度和有效的嵌入式编码方案。但是,也可以从变换信号中减去重构的变换信号以产生残差信号。
为了确定用于误差信号的比特平面编码的数字信号的感知信息,可以将心理声学模型用作感知模型。心理声学模型可以基于在MPEG-1音频中使用的心理声学模型I或II(如[21]中所述的),或MPEG-4音频中的心理声学模型(如[19]中所述的)。当诸如根据AAC使用的那种感知量化器用于对数字/变换信号进行量化和编码时,在该感知量化器中使用的感知模型也可用于确定用于误差信号的比特平面编码的感知信息。换句话说,在这种情况下不需要单独的感知模型来提供用于误差信号的比特平面编码的感知信息。
优选地,还将用于误差信号的比特平面编码的感知信息作为附加信息与核心层和增强层比特流复用,以形成可扩缩比特流。该附加信息可用于解码器重构误差信号。
误差信号被排列在多个比特平面中,每一个比特平面具有多个比特平面符号。
在本发明的实施例中,误差信号的比特平面的排列或顺序被改变或位移,并且随后比特平面以连续的顺序的方式被扫描和编码。比特平面以某种方式进行位移,使得当比特平面编码在位移后的比特平面上执行时,包含在感知上更重要的比特平面符号的比特平面首先被扫描和编码。在本实施例中,在对随后相邻的比特平面的比特平面符号进行编码之前,比特平面中的所有比特平面符号都被编码。
在本发明的另一个实施例中,比特平面的比特平面符号基于感知信息顺序地进行扫描和编码。换句话说,在对来自另一个比特平面的比特平面符号进行编码之前,不是比特平面中的所有比特平面符号都被编码。来自多个比特平面的比特平面符号的扫描和编码顺序基于感知信息确定,使得在感知上更重要的比特平面符号首先被编码。
由感知模型确定的数字信号的感知信息可包括用于误差信号的比特平面编码的多个比特平面的第一(或最大)比特平面M(s)(即指定第一比特平面的数字(索引)),和/或数字信号的恰可察觉失真(Just NoticeableDistortion,JND)级别。应当注意,感知信息与数字信号的每个不同的域特性(例如频率、时间、信号振幅等等)或域特性的范围相关。例如,当数字信号被变换到频域时,数字信号在每个频率或频带(频带s,或更一般地,域频带s)值中的感知信息可以不同,这表示信号可以在某些频率处在感知上更重要。
在本发明的实施例中,对应于每个频带s的数字信号的感知重要度P(s)被确定为感知信息。在本实施例中,确定与误差信号的比特平面对应的数字信号的JND级别τ(s)。然后,对应于JND级别τ(s)的比特平面从用于误差信号的比特平面编码的多个比特平面的第一比特平面的索引M(s)中减去,以产生感知重要度P(s)。感知重要度P(s)可用于控制比特平面的位移,使得包含在感知上更重要的比特平面符号的比特平面首先被扫描和编码。更有利地,感知重要度P(s)可用于控制来自多个比特平面的比特平面符号的扫描和编码顺序,使得在感知上更重要的比特平面符号首先被编码。
在本发明的另一个实施例中,感知重要度P(s)被归一化以形成归一化的感知重要度Ps′(s)。在本实施例中,基于感知重要度Ps(s)的函数定义数字信号的公共感知重要度Ps(s)_common。这种感知重要度Ps(s)的函数的例子包括感知重要度Ps(s)的平均值、最大值、最小值或归一化值。公共感知重要度Ps(s)_common从感知重要度Ps(s)中减去以产生每个频带s的归一化的感知重要度Ps′(s)。当频带s包含至少一个非零值量化信号时,频带s是重要频带。否则,频带s是非重要频带s。对于重要频带,对应的感知重要度Ps(s)的值被设置成公共感知重要度Ps(s)_common的值。对于非重要频带,将对应的归一化的感知重要度Ps′(s)与核心层比特流和增强层比特流进行复用,以产生用于传输的可扩缩比特流。该归一化的感知重要度Ps′(s)作为附加信息在可扩缩比特流中传输,用于在解码器中对可扩缩比特流进行解码。
通过定义公共感知重要度Ps(s)_common对感知重要度Ps(s)进行归一化具有这样的优点,即通过利用在量化数字/变换信号以产生核心层比特流时得到的信息,减少将要在可扩缩比特流中传输的感知信息的量。因此,只需要对非重要频带将感知信息尤其是归一化的感知重要度Ps′(s)传输到解码器侧,因为重要频带的这种感知信息可以很容易地由解码器再生。
用于误差信号的比特平面编码的多个比特平面的第一(或最大)比特平面的索引M(s)是数字信号的感知信息的一部分,可以根据用于量化数字/变换信号的最大量化间隔确定。对于重要频带,确定最大量化间隔(对应于量化信号的每一个量化值的在较高和较低量化阈值之间的差),并因此确定所述第一比特平面(由M(s)指定)。这个最大量化间隔也可以在解码器侧确定,因此在这种情况下(对于重要频带),所述第一比特平面(由M(s)指定)不需要作为可扩缩比特流的一部分传输。
尽管描述了将数字信号编码成可扩缩比特流,但还应理解,本发明还包括通过使上述方法逆转而将可扩缩比特流解码成被解码的数字信号。
在本发明的一个实施例中,提供一种将可扩缩比特流解码成数字信号的方法,所述方法包括将可扩缩比特流解复用成核心层比特流和增强层比特流;对核心层比特流进行解码和解量化以产生核心层信号;基于数字信号的感知信息对增强层进行比特平面解码;基于被比特平面解码的增强层信号和被解量化的核心层信号执行误差映射以产生重构的变换信号,其中所述重构的变换信号是数字信号。应当注意,所述用于对可扩缩比特流解码的方法可与上述用于将数字信号编码成可扩缩比特流的方法结合使用,但是也可以单独使用。
如果数字信号在与重构的变换信号不同的域中,则可以对重构的变换信号进行变换以产生数字信号。解码可扩缩比特流以产生数字信号的准确实现取决于可扩缩比特流如何被编码器编码。在一个例子中,可以使用intMDCT对重构的变换信号进行变换以产生数字信号。核心层比特流可以根据MPEG AAC规范进行解码和解量化。误差映射通过加上用于解量化变换信号和被比特平面解码的增强层比特流的较低量化阈值执行,以产生重构的变换信号。解码器的优点和其它实现与上述的编码器类似。
如果感知信息已经作为附加信息被复用到可扩缩比特流中,那么数字信号的感知信息可以通过解复用可扩缩比特流获得。可选择地,如果核心层比特流在感知上被编码,那么通过对核心层比特流解码和解量化而获得的感知信息可用于增强层比特流的比特平面解码。
在本发明的实施例中,增强层比特流以连续的顺序进行比特平面解码以产生包含多个比特平面符号的多个比特平面,并且这些比特平面基于数字信号的感知信息进行位移,以产生被比特平面解码的增强层比特流。
在本发明的另一个实施例中,基于数字信号的感知信息,增强层比特流顺序地进行比特平面解码以产生包含多个比特平面符号的多个比特平面,从而产生被比特平面解码的增强层比特流。
数字信号的感知信息可以是以下的至少一个-当增强层比特流的比特平面解码开始时与增强层比特流对应的比特平面M(s);以及-数字信号的恰可察觉失真(JND)级别,其中s对应于数字信号的频带。
当增强层比特流的比特平面解码开始时与增强层比特流对应的比特平面M(s)根据用于解量化核心层比特流的最大量化间隔确定。
本发明的第二个方面不仅涉及一种将可扩缩比特流解码成数字信号的方法,而且包括用于实现所述方法的计算机程序、计算机可读介质和装置。


现将参照附图详细描述本发明的各种实施例和实现,其中图1示出了根据本发明的实施例的编码器;图2示出了根据本发明的实施例的解码器;图3例举了比特平面编码过程的结构;图4示出了根据本发明的实施例的编码器;图5示出了根据本发明的实施例的解码器;图6示出了根据本发明的实施例的编码器;图7示出了根据本发明的实施例的解码器。
具体实施例方式
图1示出了根据本发明的实施例的编码器100。
编码器100用于产生可扩缩比特流,并且包括两个不同的层,即产生核心层比特流的核心层和产生增强层比特流的无损增强(LLE)层。
编码器包括域变换器101、量化器102、误差映射单元103、感知比特平面编码器104和复用器105。
在编码器100中,数字信号首先被域变换器101变换到诸如频域的适合域,产生变换信号。变换信号的系数被量化器102量化和编码以产生核心层比特流。误差映射由与LLE层对应的误差映射单元103执行,以从变换信号的系数中除去已经在核心层中使用或编码以形成核心层比特流的信息。所产生的残差或误差信号,具体地指误差系数,由比特平面编码器104进行比特平面编码以产生嵌入式LLE比特流。该嵌入式比特流可以在编码器100或对应的解码器(如图2所示且在下面描述的解码器200)或者在通信信道中被进一步截断成较低的比特率以满足速率/保真度的要求。感知模型106用于控制误差系数的比特平面编码,使得在感知上更重要的误差系数的比特首先被编码。
最后,复用器105将所产生的LLE层比特流与核心层比特流进行复用,以产生可扩缩比特流。另外,用于控制误差系数的比特平面编码的感知信息还可以作为附加信息传输,使得对应的比特平面解码器能够以正确的顺序重构误差系数。
当LLE比特流被截断成较低的速率时,被解码的信号是原始输入信号的有损形式。
图2示出了根据本发明的实施例的解码器200。
解码器200对由编码器100产生的可扩缩比特流进行解码,以重构被编码器100编码的数字信号。
解码器200包括域变换器201、解量化器202、误差映射单元203、感知比特平面解码器204和解复用器205。
解复用器205接收可扩缩比特流作为输入,并且将可扩缩比特流分成如编码器100所产生的核心层比特流和增强层比特流。核心层比特流被解量化器202进行解码和解量化以形成核心层信号。基于由感知模型206提供的感知信息,增强层比特流被感知比特平面解码器204进行感知比特平面解码,并且随后与核心层信号一起由误差映射单元203进行误差映射以产生增强层信号。最后,增强层信号由域变换器201变换回数字信号的域,产生增强层变换信号,即被重构的数字信号。
下面详细说明由编码器100和解码器200执行的处理。
在输入信号被量化器102(核心层编码器的一部分)量化以产生核心层比特流之前,通常输入信号先由域变换器101变换到频域。各种变换函数可用于将输入信号变换到频域,例如离散余弦变换(DCT)、修正离散余弦变换(MDCT)、整数修正离散余弦变换(IntMDCT)或快速傅里叶变换(FFT)。
当MPEG-4AAC编码器被用作(用于音频信号的)核心层编码器时,通常使用MDCT以将输入音频信号变换到频域,如[1]中所述的。在[13]中提出将整数MDCT(IntMDCT)作为对与MPEG-4AAC编码器一起使用的修正离散余弦变换(MDCT)的滤波器组的可逆近似。实现IntMDCT的通用方法是将MDCT滤波器组分解成如下形式的吉文斯(Givens)旋转级联cosα-sinαsinαcosα,]]>该级联被进一步分解成三个提升步(lifting step)cosα-sinαsinαcosα=1cosα-1sinα0110sinα11cosα-1sinα01.]]>每个提升步可以由具有对最近的整数取整的操作的可逆的整数到整数映射rR→Z近似。例如,最后一个提升步用下式近似(x1,x2)→(x1+r(cosα-1sinαx2),x2),]]>其可用下式无损可逆(x′1,x′2)→(x′1-r(cosα-1sinαx′2),x′2).]]>
这样,通过用如上所述的可逆的整数映射实现所有Givens旋转,获得IntMDCT。
在解码器中,intMDCT可再次由域变换器102用于将增强层信号变换成(重构的)数字信号。
在核心层,变换信号的系数c(k)被量化器102量化并被编码成核心层比特流,其中k是核心层比特流的帧的长度且k=1,...,1024。在输入音频信号的上下文中,变换信号系数可根据MPEG-4AAC编码器、MPEG-1层3音频(MP3)编码器或任何专有音频编码器的量化值进行量化。
当MPEG-4AAC编码器与IntMDCT联合使用时,首先变换信号系数(也称为IntMDCT系数)c(k)被归一化为c′(k)=α·c(k),以使归一化的输出近似MDCT滤波器组的输出。然后,归一化的IntMDCT系数c′(k)例如根据AAC量化器(见[19])进行量化和编码,该AAC量化器如下 此处 表示将浮点操作数截断成整数的取底(flooring)操作,i(k)是AAC量化系数,scale_factor(s)是系数c(k)所属比例因子频带s的比例因子。比例因子可通过噪声成形过程进行适应性地调整,使得量化噪声被人类听觉系统的掩蔽阈值最佳掩蔽。该噪声成形过程广泛采用的方法是如[1]中详细描述的嵌套量化和编码循环。
量化系数i(k)例如使用霍夫曼编码或者如[17]中所述的比特时间片算术编码(BSAC)进行无噪声地编码(在本实施例中由量化器102进行)。如果在核心层比特流中还要求比特率可扩缩性,那么优选BSAC。比例因子例如通过如[1]中所述的DPCM编码过程或使用霍夫曼编码进行微分编码。然后,核心层比特流可根据AAC比特流语法通过复用所有被编码的信息来产生。
关于MPEG AAC的更详尽的描述可在[1]中或在关于MPEG AAC的国际标准文件[19]中找到。
应当注意,尽管描述了嵌入遵循MPEG AAC的比特流的机制,但是也可以使用遵循其它编码器的比特流,例如MPEG 1/2层I、II、III(MP3)、杜比AC3或如[20]中所述的索尼的ATRAC专有编码器。
当量化器102根据MPEG AAC编码器工作时,优选地,解量化器202根据MPEG AAC解码器工作,用于在解码器200中对核心层比特流进行解码和解量化。具体地,解量化器202用于产生核心层信号,随后该信号由解码器200中的误差映射单元203用于误差映射以产生增强层比特信号,如将在下面描述的。但是,应当注意,在解码器200中可以使用根据其它规范的解量化器,例如MP3或其它专有解码器。
在LLE层,误差映射过程用于除去已经被编码成核心层比特流的信息。建立这种误差映射过程的一种可能的方法是从对应的变换输入信号系数中减去每个量化系数的较低(接近零)的量化阈值。
这可表示为e(k)=c(k)-thr(k),其中,thr(k)是c(k)的较低(接近零)的量化阈值,e(k)是代表误差信号的误差系数。
当MPEG-4AAC编码器用作量化器时 在实际的应用中,为了保证稳健重构,可以使用查找表执行从整数i(k)到整数thr(k)的映射。正如从上述公式可以清楚看到的,对于不同的比例因子的值总共需要4个表(因为如果不同值的比例因子通过比特位移具有模4,则它们可以共享同一个表),其中每一个表都包含在来自模为4的比例因子集合的任一比例因子的i(k)的所有可能值与对应的thr(k)之间的映射。
如[3]所述,也可以通过从变换信号系数中减去变换输入信号系数的重构系数来执行误差映射过程,可表示为(k)=c(k)-c^(k),]]>其中, 是重构的变换信号系数。
通常,也可以使用e(k)=c(k)-f(k)执行误差映射过程,其中f(k)是对应于c(k)的任一函数,例如f(k)=12(thr(k+1)-thr(k)).]]>显然,对于在核心层中已经重要的c(k)(thr(k)≠0),IntMDCT残差e(k)的标志可以根据核心层重构确定,因此只需将其振幅编码到LLE层中。另外,众所周知,对于大多数音频信号,c(k)可由拉普拉斯随机变量近似,其概率密度函数(pdf)为f(c(k))=e-|c(k)|2/σ2/2σ2,]]>其中σ是c(k)的方差。根据拉普拉斯pdf的“无记忆”特性,很容易证明e(k)的振幅呈几何分布,为f(|e(k)|)=β·θ(k)|e(k)|, (1)其中分布参数θ(k)由c (k)的方差和核心层量化器的步长确定。该特性使得诸如用于对误差信号编码的比特平面Golomb编码(BPGC)0的非常有效的比特平面编码方案能够应用。
在解码器200中,变换信号的系数可根据下面的等式通过由误差映射单元203执行的误差映射过程重构c(k)=e′(k)+thr(k),其中e′(k)是被解码的误差系数,其描述对应于编码器100中的误差系数e(k)的被比特平面解码的增强层比特流。因此可以看出,变换信号系数c(k)可以根据被解码的误差系数e′(k)(如果LLE比特流被截短成低速率,则可能是有损的形式)和以相同方式在编码器中用包含在嵌入式核心层(AAC)比特流中的量化指数i(k)产生的量化阈值thr(k)再生。
与编码器100类似的,解码器200中的变换信号系数c(k)也可以使用(加上)被解码的误差系数e′(k)和核心层比特流的重构系数产生。同样,变换信号系数c(k)可以使用(加上)被解码的误差系数e′(k)和c(k)的函数产生。
为了对最终的嵌入式无损比特流的无损部分产生扩缩,残差或误差信号进一步在LLE层中被感知比特平面编码器104使用比特平面编码进行编码,比特平面编码是一种在音频编码[3]或图像编码[5]中广泛采用的嵌入式编码技术。
一般的比特平面编码过程的描述可参见[4]和[15]。假设输入n维数据向量xn={x1,...,xn},其中xi是从某些字符集 的某些随机源中提取的。显然,xi可以通过级联二进制比特平面符号以二进制形式表示xi=(2si-1)·Σj=∞-∞bi,j·2j,i=1,...,k,]]>其中二进制比特平面符号的级联包括标志符号si=Δ1xi≥00xi<0,]]>和振幅符号bi,j∈{0,1}。实际上,如果xn是整数向量,则比特平面编码可以从向量xn的最大比特平面M开始,其中M是整数并满足2M-1≤max{|xi|}<2M,i=1,...,k,,并在比特平面0停止。
下面参考图3说明根据本发明的一个实施例的并且作为例子由感知比特平面编码器104和感知比特平面解码器204执行的比特平面编码和解码过程。
图3例举了上述比特平面编码(BPC)过程的结构,其中,每个输入向量首先被分解成二进制标志和振幅符号,然后以期望的顺序由比特平面扫描单元301扫描,并且被熵编码器302编码(为例如算术编码、霍夫曼编码或游程长度编码)。另外,例如基于输入信号的拉普拉斯分布的统计模型303通常用于确定每个将要被编码的二进制符号的概率分配。在相应的解码器中,数据流程是相反的,即熵编码器302的输出由熵解码器303使用相应的统计模型304解码,其结果由比特平面重构单元304用于重建比特平面,其中被解码以重建数据向量的比特平面的标志和振幅符号遵循与编码器中相同的扫描顺序。
具有上述的比特平面编码系统的最重要的优点在于,所产生的压缩比特流可以容易地截断成任何期望的速率,其中再生数据向量 仍然可以通过从该被截断的比特流中解码的部分重构的比特平面获得。为了最佳的编码性能,在BPC中通常采用嵌入式原则(见[24]),根据该原则,比特平面符号以减小速率失真斜率的顺次进行编码,使得对最终的每单位速率失真贡献最重要的符号总是首先被编码。
比特平面扫描顺序的选择取决于期望的失真量度。当使用均方误差(MSE)或方差函数的期望作为失真量度时,如下所示d(x‾n,x‾^n)=1nΣi=1n(xi-x^i)2]]>其中 是失真值,xn是原始数据向量, 是在解码器的xn的重构向量。根据[24]的结果显示通过对除了比特平面符号分布非常不对称的源的大多数源执行顺序的比特平面扫描和编码过程,可以很好地满足嵌入式原则。
简单的顺序的比特平面扫描和编码过程的例子包括以下步骤1.从最重要的比特平面j=M-1开始;2.仅对bi,j编码,并且bi,M-1=bi,M-2=…=bi,j+1=0。如果在重要性扫描中bi,j=1,则对si编码;(重要性过程);3.对在重要性过程中没有被编码的bi,j进行编码(精炼过程);4.前进到比特平面j-1。
迭代上述过程直至达到某一终止标准,其通常是预先定义的速率/失真限制。另外,如果发现比特平面符号具有不对称的分布,则可要求在重要性过程中进一步调整编码顺序。
上述顺序的编码过程的一个例子通过假设4维数据向量x{9,-7,14,2}进行说明。因此,从最重要的比特平面4开始对其进行比特平面编码。由于所有元素还是非重要的,因此从重要性过程开始。(X表示旁路符号)。对标志编码如下正的被编码为1,负的被编码为0。
列表1.比特平面扫描和编码过程

这样,输出二进制流为11011010001001111110,然后被熵编码并发送到解码器。在解码器,原始数据向量的比特平面结构被重构。如果解码器接收到完整的二进制流,那么原始数据向量的比特平面可以被恢复,并因此获得原始数据向量的无损重构。如果仅收到二进制流的子集(最重要的部分),则解码器仍然能够恢复原始数据向量的部分比特平面,获得原始数据向量的粗重构(量化)形式。
以上仅为比特平面扫描和编码过程的一个简例。实际上,重要性过程可被进一步细分以探究数据向量中的元素的统计相关性,例如JPEG2000中的比特平面编码过程,或[4]中描述的嵌入式音频编码器(EAC)中的比特平面编码过程。
上述顺序的比特平面扫描和编码过程仅提供努力以最优化MSE性能。在音频、图像或视频编码的领域中,最小化感知失真而非MSE通常是一种用于在重构的音频、图像或视频信号中获得最佳感知质量的更有效的编码方法。因此,误差信号的顺序的比特平面编码无疑是次优的选择。
在编码器100中,优选地,误差系数按频带分组,使得每个频带s包含多个连续顺序的误差系数。(如果感知编码器被用作量化器102,则比例因子频带分组可基于量化器102中采用的频带分组。但是,也可以是其它的频带分组)。
如果在频带s中存在误差系数使得来自量化器的量化系数thr(k)不为零,则称频带s是重要的。换句话说,如果e(k)是频带s中的误差系数e(k)=c(k)-thr(k),则如果thr(k)≠0(当i(k)=0时thr(k)=0),则频带s是重要的,因此e(k)=c(k),则认为其它的频带s是不重要的。
误差系数的比特的感知重要度可以通过在频率位置i的恰可察觉失真(JND)的级别确定。该JND级别Ti可根据诸如心理声学模型(I或II)或任何专有的感知模型的感知模型确定。当感知量化器用于形成核心层比特流时,在量化器中使用的感知模型也可用于产生用于误差系数的感知比特平面编码的JND。
为了简洁,在同一频带s中的误差系数的比特的感知重要度可设置为同一个值。
下面参考图4解释感知比特平面编码的一种可能的实现。
图4示出了根据本发明的实施例的编码器400。
类似于编码器100,编码器400包括域变换器401、量化器402、误差映射单元403、感知比特平面编码器404(使用感知模型406)和复用器405。
感知BPC模块,即感知比特平面编码器404包括比特平面位移模块407和传统的BPC模块408。
在比特平面位移模块407中,比特平面被在感知上位移,被在感知上位移的比特平面在BPC模块408中以传统的顺序扫描和编码方式进行编码。
假设如下的(修正)感知加权的失真量度d(x‾n,x‾^n)=1nΣi=1n(xi-x^i)2wi(xi).]]>在感知音频编码的上下文中,音频信号通常在频域中进行量化和编码,使得数据向量xn是变换后的音频信号,并且权重函数wi(xi)是在不同频率位置i的xi的重要性,即wi(xi)=1Ti.]]>上述感知加权的失真函数可以改写为d(x‾n,x‾^n)=1nΣi=1n1Ti(xi-x^i)2=1nΣi=1n(1Tixi-1Tix^i)2]]>=1nΣi=1n(xi′-x^i′)2,]]>其中,xi′=Δ1Tixi,i=1,...,n]]>因此,加权方差函数现在变成被扩缩的向量x‾′n={x1′,···,xn′}]]>的方差函数。所以,通过仅对x′n进行顺序的比特平面编码就可实现xn的感知优化编码。在相应的解码器中,被比特平面解码的数据向量 的每个元素可扩缩回来,以获得重构的数据向量 如下x^i=Ti·x^i′,i=1,...,n.]]>显然,优选地,如果权重Ti在解码器中是未知的,那么将其作为附加信息传输到解码器。wj被进一步量化为2的偶整数幂,变成Ti=22τi,]]>其中,τi=12log2Ti,]]>
这样,被扩缩的数据向量可以通过对原始数据向量中的每个元素进行比特位移来获得,如下xi′=2-τixi.]]>这可通过对xi右移τi容易地获得。例如,如果xi=00010011且τi=-2,则被扩缩的数据向量元素xi′为01001100;如果τi=2,则为00000100.11。
这样,误差系数的比特平面以某种方式被在感知上位移,使得当在被位移的比特平面上进行顺序的比特平面编码时,在感知上更重要(而非具有最高MSE)的比特首先被编码。
显然,如果原始数据向量中的每个元素都是具有有限字长的整数,例如,如果x中的每个元素都具有最大比特平面L,那么如果被扩缩的向量中的每一个xi′都从比特平面-τi至L-τi进行比特平面编码,则可以实现x的无损编码。
如前所述,诸如JND的级别的关于感知重要度的信息可以从感知模型中提供给比特平面位移模块。
在比特平面编码过程中,最大比特平面M(s)可用于指定开始比特平面,比特平面扫描和编码应当在该比特平面开始。优选地,最大比特平面M(s)和τi应作为可扩缩比特流中的附加信息传输给对应的解码器,以便解码器能够正确地解码比特流。为了减少附加信息的量,M(s)和τi可以限制为在编码器中同一个比例因子频带s的同一个值。
每个频带s中的最大比特平面M(s)的值可以使用如下的表达式根据误差系数e(k)确定2M(s)-1≤max(|e(k)|)<2M(s),k ∈s。
此外,每个重要频带s中的误差系数的最大绝对值maX(|e(k)|)受限于感知量化器的量化间隔max(|e(k)|)≤thr(i(k)+1)-thr(i(k))。
因此,这使得每个重要频带s的最大比特平面M(s)根据如下的表达式确定
2M(s)-1≤max(|thr(i(k)+1)-|thr(i(k))||)<2M(s),k∈s。
由于感知量化器的量化系数i(k)对于解码器是已知的,因此,对于重要频带s,不需要将最大比特平面M(s)作为附加信息传输到解码器。
图5示出了根据本发明的实施例的解码器500。
解码器500实现感知比特平面解码器,其包括比特平面位移和传统(顺序)的比特平面编码。
类似于解码器200,解码器500包括域变换器501、解量化器502、误差映射单元503、感知比特平面解码器504(使用感知模型506)和解复用器505。
与感知比特平面编码器404相似,感知比特平面解码器504包括比特平面位移模块507和传统的BPC模块508。
由编码器400产生的增强层比特流被解码器500以连续的顺序的方式(与编码器400相同的顺序的比特平面扫描过程)进行比特平面解码,以重构比特平面。基于所接收的或再生的值τi,重构的比特平面以与编码器400相反的方式进行位移,以产生被解码的误差系数e′(k),其描述被比特平面解码的增强层比特流。
图6示出了根据本发明的实施例的编码器600。
编码器600使用感知比特平面编码。
编码器600包括域变换器(intMDCT)601、量化器(AAC量化器和编码器)602、误差映射单元603、感知重要度计算单元604(使用心理声学模型605)、感知比特平面编码单元606和复用器607。
在本实现中,比特平面和比特平面符号的扫描顺序不需要是顺序的,但是基于对应于不同频带的比特平面符号的感知重要性。比特平面符号的感知重要性通过计算与感知信息相关的参数确定,例如感知重要度和用于比特平面解码的第一(最大)比特平面。感知信息参数的计算表示为感知重要度计算模块,即感知比特平面编码单元604。
有很多方法用于确定对应于不同频带的比特平面符号的感知重要性或具体地指感知重要度。一种广泛采用的方法是使用输入数字信号的诸如在[19]中所述的心理声学模型2的心理声学模型。使用心理声学模型确定的每个频带的恰可察觉失真(JND)级别T(s)可变换成比特平面级别τ(s)的单位,如下τ(s)=12log2(T(s)).]]>但是本发明并不限制如何获得T(s)或τ(s)的方法。
现在令Ps(s)代表频带s的感知重要度,其可以通过从M(s)到τ(s)的距离确定,如下Ps(s)=M(s)-τ(s)进一步指出,对于重要频带,噪声级别或IntMDCT误差系数e(k)的级别会相对于JND级别趋向平坦(作为核心编码器中的噪声成形机制的结果)。换句话说,对于重要频带,Ps(s)的值如果不相等则会非常接近。这个事实可在根据本发明的方法中通过对所有重要频带共享公共因子PS_common证明。PS_common可选择所有重要的s的平均值、最大值、最小值或任何其它合理的Ps(s)的函数。然后,Ps(s)可以被归一化为Ps′(s)=Ps(s)-Ps_common由于已知对于重要频带s,Ps′(s)为零,因此不需要传输到解码器。否则,对于非重要频带s,优选地,Ps′(s)应作为附加信息传输到相应的解码器。
在某些其它例子中,当没有重要频带时,PS_common可设为0。
也可以在核心编码器中使用噪声成形过程以满足感知编码的需要。因此,在增强层中不需要另外实现任何噪声成形,或感知重要的识别。在这种情况下,对于所有s,可设置Ps′(s)=0。通常,如果解码器知道Ps′(s)全部为零,则不需要将其传输到解码器。
感知比特平面编码机制的一种可能的实现可以使用下面的伪代码描述。这里,频带的总数表示为s_total。
1.寻找具有最大Ps′(s)的频带s;
2.在频带s中对e(k)的比特平面M(s)的比特平面符号进行编码;3.M(s)=M(s)-1;Ps′(s)=Ps′(s)-1;4.如果存在M(s)≥0的频带s,则跳转到1。
这里描述一种用于获得最大比特平面M(s)的方法。
对于重要频带,如果使用诸如AAC量化器的感知量化器,那么M(s)可以根据量化器的最大量化间隔确定。具体地,M(s)是整数,其满足2M(s)-1≤max(|thr(i(k)+1)-|thr(i(k))||)<2M(s),k∈s在这种情况下,由于解码器知道i(k),因此M(s)不需要被传输到解码器。
对于非重要频带,M(s)可以根据e(k)计算,如下2M(s)-1≤max(|e(k)|)<2M(s),k∈s并且对于那些频带,优选地,M(s)应作为附加信息被发送到解码器,因为在核心层比特流中不包括该信息。
最大比特平面M(s)的值也可在编码器600和相应的解码器中预先定义,因此不需要作为附加信息被传输。
也可以有其它可选择的方法以朝着某些期望的噪声成形目标在比特平面编码方法中探测参数Ps(s)。通常,Ps(s)也可以通过M(s)和τ(s)的任何函数获得,例如以下Ps(s)=M(s)-2τ(s),或Ps(s)=M(s)-τ(s)2.]]>图7示出了根据本发明的实施例的解码器700。
解码器700是编码器600的对应解码器,其中,感知比特平面解码使用如上所述的感知比特平面扫描过程实现。
解码器700相应地包括域变换器(反向intMDCT)701、解量化器(ACC解量化器和解码器)702、误差映射单元703、感知重要度计算单元704、感知比特平面解码单元706和解复用器707。
在解码器700中,对于重要频带,Ps′(s)被设置为零,并且M(s)可采用与编码器相同的方式根据AAC量化指数i(k)计算,即2M(s)-1≤max(|thr(i(k)+1)-|thr(i(k))||)<2M(S),k ∈s对于非重要频带,Ps(s)和M (s)可以简单地从所传输的附加信息中恢复。一旦对于所有频带都恢复了Ps(s)和M(s),就可以通过对接收到的比特流进行解码并按照与编码器700中严格相同的顺序重构其比特平面符号,容易地重构IntMDCT误差系数 例如,上述编码实例的解码过程为1.寻找具有最大Ps′(s)的频带s;2.在频带中对 的比特平面M(s)的比特平面符号进行解码;3.M(s)=M(s)-1;Ps′(s)=Ps′(s)-1;4.如果存在M(s)≥0的频带s,则跳转到1。
确定用于误差系数的比特平面编码的最大比特平面。
对于重要频带s(即误差系数e(k)≠c(k)或k∈s,i(k)≠0),e(k)的最大绝对值受限于AAC量化器中的量化间隔,如下max(|e(k)|)≤thr(i(k)+1)-thr(i(k))因此,最大比特平面M(k)可使用下面的式子确定2M(k)-1≤max(|thr(i(k)+1)-|thr(i(k))||)<2M(k),k∈s由于解码器已经知道i(k),因此,对于重要频带s,M(k)不需要被传输到解码器,因为解码器能够根据i(k)再生thr(k)以及M(k)。
对于非重要频带,M(k)可以根据e(k)计算,如下2M(s)-1≤max(|e(k)|)<2M(s),k∈s优选地,所计算的M(s)作为增强层比特流的附加信息与增强层比特流一起传输,以正确地进行比特平面解码。
为了减少附加信息的量,对于在核心层量化器中的相同的比例因子频带s,M(k)被进一步限制为对于k具有相同的值。因此,M(k)也可以表示为M(s)。
在解码器700中,对应于误差信号的误差系数可以基于M(s)使用与编码器相同的比特平面扫描过程,通过增强层比特流的比特平面解码重构。对于重要频带,M(s)可以使用下面的式子再生2M(k)-1≤max(|thr(i(k)+1)-|thr(i(k))||)<2M(k),k∈s。
对于非重要频带,解码器使用作为附加信息由编码器传输的M(s)。
参考文献[1]M.Bosi等人,“ISO/IEC Mpeg-2Advanced Audio Coding”,J.AudioEng.Soc.,Vol.45,No.10,pp.789-814,1997OCT. Jr.Stuart等人,“MLP lossless compression,”AES 9thRegionalConvention Tokyo. R.Geiger,J.Herre,J.Koller和K.Brandenburg,“INTMDCT-A linkbetween perceptual and lossless audio coding,”IEEE proc.ICASSP2002. J.Li,“Embedded audio coding(EAC)with implicit auditory masking”,ACM Mutimedia 2002,Nice,France,Dec.2002. T.Moriya,N.Iwakami,T.Mori和A.Jin,“A design of lossy andlossless scalable audio coding,”IEEE Proc.ICASSP 2000. T.Moriya等人,“Lossless Scalable Audio Coder and QualityEnhancement,”Proceeding of ICASSP 2002. M.Hans and R.W.Schafer,“Lossless Compression of Digital Audio,”IEEE Signal processing magazine.Vol.18 No.4,pp.21-32,2001. Lin Xiao,Li Gang,Li Zhengguo,Chia Thien King,Yoh Ai Ling,“ANovel Prediction Scheme for Lossless Compression of AudioWaveform”,Proe.IEEE ICME2001,Aug.Japan. Shortenhttp//www.softsound.com/Shorten.html[10]WaveZiphttp://www.gadgetlabs.com/wavezip.html[11]LPAChttp//www-ft.ee.tu-berlin.de/~liebchen/[12]Wave Arehiverwww.ecf.utoronto.ca/~denlee/wavarc.html[13]R.Geiger,T.Sporer,J.Koller和K.Brandenburg,“Audio Codingbased on Integer Transform,”111thAES Convention,Sep.2001. J.Johnston,“Estimation of Perceptual Entropy,”Proc.ICASSP 1988. R.Yu,C.C.Ko,X.Lin和S.Rahardja,“Bit-plane Golomb code forsources with Laplacian distributions,”proceeding of ICASSP 2003. Monkey’s Audio,http//www.monkeysaudio.com[17]S.H.Park等人,“Multi-Layer Bit-Sliced Bit Rate Scalable MPEG-4Audio Coder”,presented at the 103th Convention of AES,New York,Sep.1997(preprint 4520)[18]Ralf Geiger等人,“FINE GRAIN SCALABLE PERCEPTUAL ANDLOSSLESS AUDIO CODING BASED ON INTMDCT,”Proceeding ofICASSP2003. ISO/IEC 14496-3Subpart 4,Information Technology-Coding ofAudiovisual Objects,Part 3.Audio,Subpart 4[20]T.Painter,A.Spanias,“Perceptual Coding of Digital Audio”,IEEEProceedings,vol.88,no.4,Apr 2000. ISO/IEC 11172-3,“CODING OF MOVING PICTURES ANDASSOCIATED AUDIO FOR DIGITAL STORAGE MEDIA AT UPTO ABOUT 1.5MBIT/s,”Part 3AUDIO[22]Westen,S.J.P.,R.L.Lagendijk和J.Biemond,“Optimization of JPEGcolor image coding using a human visual system model”,SPIEconference on Human Vision and Electronic Imaging[23]Westen,S.J.P.,R.L.Lagendijk和J.Biemond,“Spatio-TemporalModel of Human Vision For Digital Video Compression,”SPIEProceeding of Electronic Imaging 97. J.Li and S.Lie,“An embedded still image coder with rate-distortionoptimization,”IEEE Trans.On Image Processing,vol.8,no.7,pp.913-924,July 1999
权利要求
1.一种用于将数字信号编码成可扩缩比特流的方法,包括-量化数字信号,并对量化信号进行编码以形成核心层比特流;-基于数字信号和核心层比特流执行误差映射以除去已被编码成核心层比特流的信息,产生误差信号;-基于数字信号的感知信息对误差信号进行比特平面编码,产生增强层比特流,其中数字信号的感知信息使用感知模型确定;以及-复用核心层比特流和增强层比特流,从而产生可扩缩比特流。
2.如权利要求1所述的方法,还包括-将数字信号变换到适合域,其中在对量化信号进行编码之前对变换信号进行量化以形成量化信号。
3.如权利要求1或2所述的方法,其中,数字信号的感知信息进一步与核心层比特流和增强层比特流进行复用,以产生可扩缩比特流。
4.如权利要求2所述的方法,其中,使用整数修正离散余弦变换将数字信号变换成变换数字信号。
5.如权利要求4所述的方法,其中,对变换信号进行归一化以近似MDCT滤波器组的输出。
6.如权利要求1到5任一所述的方法,其中,数字信号或变换数字信号根据运动图像专家组(MPEG)先进音频编码(AAC)规范进行量化和编码。
7.如权利要求1到6任一所述的方法,其中,误差映射通过从数字信号或变换数字信号中减去与量化信号的每个量化值对应的较低量化阈值执行,从而产生误差信号。
8.如权利要求1到7任一所述的方法,其中,心理声学模型被用作用于确定数字信号的感知信息的感知模型。
9.如权利要求1到8任一所述的方法,其中,误差信号被表示在包含多个比特平面符号的比特平面中,并且所述比特平面基于数字信号的感知信息进行位移,使得当所述比特平面在误差信号的比特平面编码过程中以连续的顺序进行扫描和编码时,在感知上更重要的比特平面首先被编码。
10.如权利要求1到8任一所述的方法,其中,误差信号被表示在包含多个比特平面符号的比特平面中,并且所述比特平面和比特平面符号基于数字信号的感知信息在误差信号的比特平面编码过程中顺序地进行扫描和编码,使得在感知上更重要的比特平面的比特平面符号首先被编码。
11.如权利要求9或10所述的方法,其中,以下信息中的至少一个被感知模型确定为数字信号的感知信息-误差信号的比特平面编码开始的误差信号的比特平面M(s),;以及-数字信号的恰可察觉失真(JND)级别,其中s对应于数字信号或变换数字信号的频带。
12.如权利要求11所述的方法,其中,数字信号的感知重要度Ps(s)被进一步确定为感知信息,所述感知重要度通过以下步骤确定-确定与数字信号的JND级别τ(s)对应的误差信号的比特平面;-从误差信号的比特平面编码开始的误差信号的比特平面M(s)中减去与数字信号的JND级别τ(s)对应的误差信号的比特平面,从而确定感知重要度Ps(s),其中感知重要度Ps(s)用于控制至少比特平面或比特平面的比特平面符号的扫描和编码顺序。
13.如权利要求12所述的方法,其中,感知重要度Ps(s)通过以下步骤进行归一化-基于感知重要度Ps(s)的函数定义公共感知重要度Ps(s)_common;以及-从感知重要度Ps(s)中减去公共感知重要度Ps(s)_common,从而产生归一化的感知重要度Ps′(s),其中对于量化值不全为零的频带s,感知重要度Ps(s)的值被设置为公共感知重要度Ps(s)_common的值;其中,对于量化值全为零的频带s,将归一化的感知重要度Ps′(s)与核心层比特流和增强层比特流复用,以产生可扩缩比特流。
14.如权利要求11所述的方法,其中,误差信号的比特平面编码开始的误差信号的比特平面根据在频带s中用于量化数字信号或变换信号的最大量化间隔确定。
15.一种用于将数字信号编码成可扩缩比特流的编码器,包括-量化单元,用于量化数字信号,并对量化信号进行编码以形成核心层比特流;-误差映射单元,用于基于数字信号和核心层比特流执行误差映射以除去已被编码成核心层比特流的信息,产生误差信号;-感知比特平面编码单元,用于基于数字信号的感知信息对误差信号进行比特平面编码,产生增强层比特流,其中数字信号的感知信息使用感知模型确定;以及-复用单元,用于复用核心层比特流和增强层比特流,从而产生可扩缩比特流。
16.一种计算机可读介质,具有在其上记录的程序,其中当通过计算机执行所述程序时,所述程序使计算机执行用于将数字信号编码成可扩缩比特流的过程,所述过程包括-量化数字信号,并对量化信号进行编码以形成核心层比特流;-基于数字信号和核心层比特流执行误差映射以除去已被编码成核心层比特流的信息,产生误差信号;-基于数字信号的感知信息对误差信号进行比特平面编码,产生增强层比特流,其中数字信号的感知信息使用感知模型确定;以及-复用核心层比特流和增强层比特流,从而产生可扩缩比特流。
17.一种计算机程序元件,当通过计算机执行所述元件时,所述元件使计算机执行用于将数字信号编码成可扩缩比特流的过程,所述过程包括-量化数字信号,并对量化信号进行编码以形成核心层比特流;-基于数字信号和核心层比特流执行误差映射以除去已被编码成核心层比特流的信息,产生误差信号;-基于数字信号的感知信息对误差信号进行比特平面编码,产生增强层比特流,其中数字信号的感知信息使用感知模型确定;以及-复用核心层比特流和增强层比特流,从而产生可扩缩比特流。
18.一种用于将可扩缩比特流解码成数字信号的方法,包括-将可扩缩比特流解复用成核心层比特流和增强层比特流;-对核心层比特流进行解码和解量化,以产生核心层信号;-基于数字信号的感知信息对增强层比特流进行比特平面解码;以及-基于被比特平面解码的增强层比特流和被解量化的核心层信号执行误差映射,产生重构的变换信号,其中所述重构的变换信号是数字信号。
19.如权利要求18所述的方法,还将所述重构的变换信号变换成重构信号,其中所述重构信号是数字信号。
20.如权利要求18或19所述的方法,其中,数字信号的感知信息通过可扩缩比特流的解复用获得。
21.如权利要求19或20所述的方法,其中,核心层信号和增强层信号使用整数修正离散余弦变换(MDCT)进行变换。
22.如权利要求18到21任一所述的方法,其中,核心层比特流根据运动图像专家组(MPEG)先进音频编码(AAC)规范进行解码和解量化。
23.如权利要求18到22任一所述的方法,其中,误差映射通过加上用于对变换信号和被比特平面解码的增强层比特流进行解量化的较低量化阈值执行,从而产生增强层信号。
24.如权利要求18到23任一所述的方法,其中,增强层比特流以连续的顺序进行比特平面解码,以产生包含多个比特平面符号的多个比特平面,并且所述比特平面基于数字信号的感知信息进行位移以产生被比特平面解码的增强层比特流。
25.如权利要求18到23任一所述的方法,其中,增强层比特流基于数字信号的感知信号顺序地进行比特平面解码,以产生包含多个比特平面符号的多个比特平面,从而产生被比特平面解码的增强层比特流。
26.如权利要求24或25的方法,其中,以下信息中的至少一个被接收为数字信号的感知信息-当增强层比特流的比特平面解码开始时与增强层比特流对应的比特平面,所述比特平面用数字M(s)指定;以及-数字信号的恰可察觉失真(JND)级别,其中s对应于数字信号的频带。
27.如权利要求26所述的方法,其中,当增强层比特流的比特平面解码开始时与增强层比特流对应的比特平面M(s)根据在频带s中用于对核心层比特流进行解量化的最大量化间隔确定。
28.一种用于将可扩缩比特流解码成数字信号的解码器,包括-解复用单元,用于将可扩缩比特流解复用成核心层比特流和增强层比特流;-解量化单元,用于对核心层比特流进行解码和解量化,以产生核心层信号;-比特平面解码单元,用于基于数字信号的感知信息对增强层比特流进行比特平面解码;以及-误差映射单元,用于基于被比特平面解码的增强层比特流和被解量化的核心层信号执行误差映射,产生重构的变换信号,其中所述重构的变换信号是数字信号。
29.一种计算机可读介质,具有在其上记录的程序,其中当通过计算机执行所述程序时,所述程序使计算机执行用于将可扩缩比特流解码成数字信号的过程,所述过程包括-将可扩缩比特流解复用成核心层比特流和增强层比特流;-对核心层比特流进行解码和解量化,以产生核心层信号;-基于数字信号的感知信息对增强层比特流进行比特平面解码;以及-基于被比特平面解码的增强层比特流和被解量化的核心层信号执行误差映射,产生重构的变换信号,其中所述重构的变换信号是数字信号。
30.一种计算机程序元件,当通过计算机执行所述元件时,所述元件使计算机执行用于将可扩缩比特流解码成数字信号的过程,所述过程包括-将可扩缩比特流解复用成核心层比特流和增强层比特流;-对核心层比特流进行解码和解量化,以产生核心层信号;-基于数字信号的感知信息对增强层比特流进行比特平面解码;以及-基于被比特平面解码的增强层比特流和被解量化的核心层信号执行误差映射,产生重构的变换信号,其中所述重构的变换信号是数字信号。
全文摘要
一种用于将数字信号编码成可扩缩比特流的方法,包括量化数字信号,并对量化信号进行编码以形成核心层比特流;基于数字信号和核心层比特流执行误差映射以除去已被编码成核心层比特流的信息,产生误差信号;基于数字信号的感知信息对误差信号进行比特平面编码,产生增强层比特流,其中数字信号的感知信息使用感知模型确定;以及复用核心层比特流和增强层比特流,从而产生可扩缩比特流。一种用于将可扩缩比特流解码成数字信号的方法,包括将可扩缩比特流解复用成核心层比特流和增强层比特流;对核心层比特流进行解码和解量化以产生核心层信号;基于数字信号的感知信息对增强层比特流进行比特平面解码;以及基于被比特平面解码的增强层比特流和被解量化的核心层信号执行误差映射,产生重构的变换信号,其中重构的变换信号是数字信号。
文档编号G10L21/00GK1890711SQ200480036482
公开日2007年1月3日 申请日期2004年10月6日 优先权日2003年10月10日
发明者俞容山, 林晓, 王逸平 申请人:新加坡科技研究局
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1