低比特速率音频编码的制作方法

文档序号:7505427阅读:188来源:国知局
专利名称:低比特速率音频编码的制作方法
技术领域
本发明总体上涉及数字音频编码系统和方法,更具体而言涉及提高从非常低比特速率的音频编码系统和方法得到的音频信号的感觉质量。
背景技术
音频编码系统被使用来把音频信号编码成适合于传输或贮存的编码的信号,以及随后接收或恢复编码信号和译码它,以得到原先的音频信号的版本用于播放。感知的音频编码系统试图把音频信号编码成具有比起原先的音频信号更低的信息容量要求的编码信号,随后译码该编码的信号,以提供感觉上与原先的音频信号不能区分的输出。感知的音频编码技术在Bosi等人的“ISO/IEC MPEG-2 Advanced AudioCoding(ISO/IEC MPEG-2高级音频编码)”,J.AES,Vol.45,No.10,October1997,pp.789-814中描述,它被称为高级音频编码(AAC)。
像AAC那样的感知编码技术把分析滤波器库加到音频信号上,得到数字信号分量,它典型地具有范围为16-24比特的高精度级别,以及被安排在频率子频带。子频带宽度典型地是变化的,以及通常是与人的听觉系统的所谓的临界频带的带宽相当的。通过把子频带信号分量量化成低得多的精度级别,可以减小信号的信息容量要求。另外,量化的分量也可以通过诸如Huffman编码那样的熵编码过程被编码。量化会注入噪声到量化的信号,但感知音频编码系统使用心理声学模型,试图控制量化噪声的幅度,这样,它被信号中的谱分量掩蔽或使人听不见。子频带信号分量的不精确的复制品是通过互补的熵译码和去量化从编码信号得出的。
许多传统的感知编码系统的目标是量化子频带信号分量,以及以最佳或实际上尽量接近最佳的方式把熵编码过程加到量化的信号分量。量化和熵编码通常被设计成以尽可能高的数学效率运行。
最佳或接近最佳的量化器的设计取决于要被量化的信号分量数值的统计特性。在使用变换来实施分析滤波器库的感知编码系统中,信号分量数值是从频域变换系数得出的,这些频域变换系数被分组为子频带,然后相对于在每个子频带中最大幅度分量进行归一化或缩放。缩放的一个例子是被称为块压缩的过程。被分组为每个子频带的系数的数目典型地随子频带频率增加,以使得子频带带宽近似人的听觉系统的临界带宽。心理声学模型和比特定位过程确定对于每个子频带的缩放量。分组和缩放将改变要被量化的信号分量数值的统计特性;所以,量化效率通常是对于分组的和缩放的信号分量的特性被最佳化。
在像上述的AAC系统那样的典型的感知编码系统中,较宽的子频带往往具有几个主要的、有相对较大的幅度的子频带信号分量和许多更小的、有相对较小的幅度的信号分量。均匀的量化器不能以高效率量化这样的数值分布。量化器效率可以通过以较大的精度量化较小的信号分量和以较小的精度量化较大的信号分量而被提高。这常常是通过使用诸如μ定律或A定律量化器那样的压缩量化器而完成的。压缩量化器可以由压缩器后面跟随均匀量化器来实施,或它可以由等价于两个步骤的过程的非均匀量化器来实施。扩展的去量化器被使用来颠倒压缩量化器的效果。扩展的去量化器提供扩展,它基本上是在压缩量化器中提供的压缩的逆过程。
压缩量化器通常在感知音频编码系统中提供有益的结果,它用量化精度级别表示所有的信号分量,该精度级别基本上等于或大于由掩蔽量化噪声所需要的心理声学模型规定的精度。压缩通常通过把信号分量数值更均匀地重新分布在量化器的输入范围内而提高量化效率。
非常低比特速率(VLBR)的音频编码系统通常不能用足以掩蔽量化噪声的量化精度来表示所有的信号分量。某些VLBR编码系统试图通过发送或记录只具有一部分输入信号带宽的基带信号和在播放期间通过从基带信号复制频谱分量而再生信号带宽的丢失的播放,来播放具有高的感知质量级别的输出信号。这个技术有时称为“频谱变换”或“频谱再生”。本发明人看到,压缩量化器当被使用于诸如使用频谱再生的系统那样的VLBR编码系统中,通常无法提供有益的结果。
诸如被使用于典型的音频编码系统中的那样的最佳的或接近最佳的编码器的设计取决于要被编码的数值的统计特性。在典型的系统中,量化的信号分量组通过Huffman编码过程被编码,Huffman编码过程使用一个或多个码本来生成表示量化的信号分量的可变长度的代码。最短的代码被使用来表示预期最经常出现的那些量化的数值。每个代码由整数个比特表示。
Huffman编码常常在可以用足以掩蔽量化噪声的量化精度来表示所有的信号分量的音频编码系统中提供良好的结果。然而,本发明人看到,Huffman编码具有严重的限制,这使得它不适用于许多VLBR编码系统。这些限制在下面说明。

发明内容
本发明的目的是提供克服使用压缩量化器和像Huffman编码那样的熵编码的典型的音频编码的缺点的、改进的音频编码系统和方法。
按照本发明的一个方面,音频编码发送器包括分析滤波器库,生成表示具有子频带信号分量的音频信号的频率子频带的多个子频带信号;被耦合到分析滤波器库的量化器,对于在第一数值区间内的子频带信号分量使用第一量化精度和对于在第二数值区间内的子频带信号分量使用第二量化精度量化一个或多个子频带信号的子频带信号分量,其中第一量化精度低于第二量化精度,第一区间是与第二区间相邻的,以及在第一区间内的数值小于在第二区间内的数值;被耦合到量化器的编码器,通过使用无损编码过程把量化的子频带信号分量编码成编码的子频带信号;以及被耦合到编码器的格式化器,把编码的子频带信号装配成输出信号。
按照本发明的另一个方面,音频译码接收机包括去格式化器,从输入信号得出一个或多个编码的子频带信号;被耦合到去格式化器的译码器,通过使用无损译码过程译码编码的子频带信号而生成一个或多个译码的子频带信号;被耦合到译码器的去量化器,去量化子频带信号分量,其中去量化器是与对于在第一数值区间内的数值使用第一量化精度和对于在第二数值区间内的数值使用第二量化精度的量化器互补的,其中第一量化精度低于第二量化精度,第一区间是与第二区间相邻的,以及在第一区间内的数值小于在第二区间内的数值;以及被耦合到去量化器的合成滤波器库,根据该一个或多个去量化的子频带信号生成输出信号。
按照本发明的又一个方面,音频编码发送器包括分析滤波器库,生成表示具有子频带信号分量的音频信号的频率子频带的多个子频带信号;被耦合到分析滤波器库的量化器,对于具有其幅度小于一个或多个第一子频带信号分量的、一个或多个第二子频带信号分量的子频带信号,通过把第二子频带信号分量推压到一个数值范围,以使得第二子频带信号数值被量化成比起不推压时出现的更少的量化级别,由此降低量化精度和减小量化的第二子频带信号分量的熵,而量化一个或多个子频带信号,生成量化的子频带信号;被耦合到量化器的编码器,通过使用熵编码过程编码该一个或多个量化的子频带信号;以及被耦合到编码器的格式化器,把编码的子频带信号装配成输出信号。
按照本发明的再一个方面,音频译码接收机包括去格式化器,从输入信号得出一个或多个编码的子频带信号;被耦合到去格式化器的译码器,通过使用无损译码过程译码编码的子频带信号而生成一个或多个译码的子频带信号;被耦合到译码器的去量化器,去量化译码的子频带信号分量的子频带信号分量,其中去量化器是与对于具有一个或多个第一子频带信号分量和其幅度小于一个或多个第一子频带信号分量的、一个或多个第二子频带信号分量的子频带信号,把第二子频带信号分量推压到一个数值范围,以便把它们量化成比起不推压时出现的更少的量化级别,由此降低量化精度和减小量化的第二子频带信号分量的熵的量化器互补的;以及被耦合到去量化器的合成滤波器库,根据该一个或多个去量化的子频带信号生成输出信号。
通过参考以下的讨论和附图,可以更好地理解本发明的各种特征和它的优选实施例。以下的讨论和附图的内容仅仅是作为例子阐述的,不应当看作为表示为对于本发明的范围的限制。


图1是音频编码发送器的示意性方框图。
图2是音频译码接收机的示意性方框图。
图3是假设的子频带信号分量的压缩和扩展的图形表示。
图4A-4C是图3所示的子频带信号分量的量化的图形表示。
图5是压缩量化函数的图形表示。
图6是压缩函数的图形表示。
图7是均匀量化函数的图形表示。
图8是扩展函数的图形表示。
图9是扩展量化函数的图形表示。
图10是扩展/压缩量化函数的图形表示。
图11是算术编码的图形表示。
图12是可被使用来实施本发明的各个方面的设备的示意方框图。
具体实施例方式
A.发送器1.综述图1显示可以引用本发明的各种方面的音频编码发送器的一个实施方案。在这个实施方案中,分析滤波器库12从路径11接收表示音频信号的音频信息,以及作为响应,提供表示音频信号的频率子频带的数字信息。在每个频率子频带中的数字信息被各个量化器14、15、16量化,以及被传送到编码器17。编码器17生成量化信息的编码表示,它被传送到格式化器18。在一个实施方案中,在量化器14、15、16中的量化函数根据从量化器控制器接收的量化控制信息被调整,该量化器控制器根据从路径11接收的音频信息生成量化控制信息。格式化器18把量化信息的编码的表示和量化控制信息装配成适合于传输或贮存的输出信号,以及沿着路径19传送输出信号。
图1所示的发送器显示三个频率子频带的分量。在典型的应用中使用多得多子频带,但这里为了说明清晰起见只显示三个子频带。在本发明的原理中具体数目并不重要。
分析滤波器库12实际上可以以想要的任何方式来实施,包括各种各样的数字滤波器技术、块变换、和小波变换。例如,分析滤波器库12可以通过一个或多个正交镜像滤波器(QMF)的级联,各种离散傅立叶型变换,诸如离散余弦变换(DCT)、或被称为时域混淆抵销(TDAC)变换的特定的修正的DCT,它在Princen等人的“Subband/Transform Coding Using Filter Bank Designs Based onTime Domain Aliasing Cancellation(使用基于时域混淆抵销的滤波器库的子频带/变换编码)”,ICASSP 1987 Conf.Proc.,May1987,pp.2161-64中描述。
通过块变换实施的分析滤波器库把输入信号的块或区间变换成一组变换系数,它表示该信号区间的谱内容。一个或多个相邻的变换系数的组表示在具有与组中的系数数目相当的带宽的特定的频率子频带内的谱内容。
由诸如多相滤波器的某些类型的数字滤波器--而不是块变换--实施的分析滤波器库把输入信号分离成一组子频带信号。每个子频带信号是在特定的频率子频带内输入信号的谱内容的基于时间的表示。优选地,子频带信号被分样,以使得每个子频带信号具有具有与单位时间区间内子频带信号中样本数目相当的带宽。
在本讨论中,术语“子频带信号”是指一个或多个相邻的变换系数的组,以及术语“子频带信号分量”是指变换系数。然而,本发明的原理可以应用于其他类型的实施方案,所以,术语“子频带信号”可以总的理解为也是指信号的特定的频率子频带的谱内容,以及术语“子频带信号分量”可以总的理解为是指基于时间的子频带信号的样本。
下面更详细地讨论量化器14、15、16和编码器17。
量化器控制器13可以执行可能想要的、基本上任何类型的处理。一个例子是把心理声学模型应用到音频信息,以估计音频信号中不同的谱分量的心理声学掩蔽效应的过程。例如,量化器控制器13可以根据在分析滤波器库12的输出端处--代替在分析滤波器库12的输出端处,或除了在分析滤波器库12的输出端处以外--可提供的频率子频带信息生成量化控制信息。作为另一个例子,可以消除量化器控制器13,以及量化器14、15、16使用不调整的量化函数。本发明不需要特定的过程。
格式化器18把量化的和编码的信号分量装配成适合于沿路径传送的形式,用于传输或贮存。被格式化的信号可包括如想要的同步图案、错误检测/纠正信息,以及控制信息。
2.量化器(a)压缩量化器许多典型的音频编码系统中的量化器14、15、16是压缩量化器,因为压缩可提高量化效率。对于这种效率提高的原因在下面段落中说明。
图3的线31表示假设的子频带信号分量的分量数值。为了显示清晰起见,直线段连接相邻的数值。在这个图以及其他的图上只显示正的数值;然而,这里讨论的原理可应用于具有正的和负的分量数值的实施方案。分量数值相对于子频带信号中最大的分量的数值被归一化或被缩放。八个量化级别覆盖从零到一的归一化数值范围。
图4A是使用诸如图7所示的、把信号分量数值舍入最接近的量化级别的函数那样的均匀量化函数的、在线31上的子频带信号分量的八级别量化的图形表示。正的量化级别可以由3比特二进制数表示。被量化成低于“4”级别的级别的分量数值不能有效地量化,因为这些量化级别只能由2比特表示。实际上,对于被量化成低于“4”级别的每个信号分量,一个比特是浪费的。
图4B是使用图5所示的、把信号分量数值舍入最接近的量化级别的压缩量化函数的、在线31上的子频带信号分量的八级别量化的图形表示。压缩量化器比起均匀量化器具有更高的量化效率,因为较少的信号分量被量化成低于“4”级别。压缩量化器可以通过诸如图5所示的那样的非均匀量化函数被实施,或它可以通过诸如图6所示的函数那样的压缩函数,后面跟随图7所示的均匀量化器被实施。图3上的线32表示在被图6所示的函数压缩后线32的信号值。
压缩量化器的量化精度对于所有的输入值是不均匀的。对于小的幅度值的区间的量化精度高于对于较大的幅度值的相邻的区间的量化精度。
压缩通过减小数值的动态范围而改变子频带信号样本的统计分布。压缩与归一化或缩放相组合,通过把这些数值推压实际上使用更多的比特的更高的量化级别而提高许多较小的数值的精度。在接收机中使用扩展和反向缩放过程,颠倒由缩放和压缩造成的结果。
图6所示的压缩函数是以下形式的幂函数y=c(x)=xn(Ia)其中c(x)=x的压缩函数y=压缩的数值;和n=是小于1的正的实数值。
互补的扩展函数显示于图8上,以及具有以下的形式x=e(y)=y1/n(1b)其中e(y)=y的扩展函数。
压缩和扩展函数的另一个例子是以下形式的函数y=c(x)=logb(x) (2a)x=e(y)=by(2b)在传统的编码系统中使用许多压缩和扩展函数的形式,以及实际上任何形式可以在引用本发明的方面的编码系统中使用。
(b)非常低比特速率的系统像在公共计算机网络上流动的音频那样的应用需要这样慢的比特速率的编码的数字音频流,以使得所有的主要的信号分量不能以保证量化噪声被掩蔽的、足够的精度被量化。
提供非常低的比特速率(VLBR)编码系统的许多尝试,试图通过编码和发送只表示输入信号的带宽的一部分的基带信号和使用技术再生在重新播放期间丢失的带宽的部分而提供良好的发声音频。典型地,高频分量从基带信号中被排除,以及在重新播放期间被再生。这个技术取可被使用来编码高频分量的比特和使用这些比特来提高较低的频率分量的量化精度。
这种基带/再生技术不能提供满意的结果。提高这种类型的VLBR编码系统的质量的许多努力试图改进再生技术;然而,本发明人确定已知的频谱再生技术不能很好地起作用,因为由于至少两个原因,比特无法最佳地分配到频谱分量。
第一个原因是基带信号太窄。这具有把比特从基带信号以外的所有的信号分量--包括重要的大幅度分量--移开,以编码基带内的信号分量--包括不重要的低幅度分量--的效果。本发明人确定,基带信号应当具有约5kHz或更多的带宽。不幸地,在许多VLBR应用中,比特速率限制是如此严重,以致于对于具有5kHz带宽的信号的每个频谱分量只有约1比特可被传输。因为每个频谱系数1比特不足以允许重新播放高质量输出信号,所以已知的编码系统减小基带信号的带宽到远低于5kHz,以使得在较窄的基带信号中剩余的信号分量可以以较高的精度被量化。
第二个原因在于,太多的比特被分配给具有小幅度的基带信号的信号分量。这这具有把比特从重要的大幅度分量移开,更精确地编码不重要的低幅度分量的效果。这个问题被使用缩放和压缩量化器的编码系统加剧,因为如上所述,缩放和压缩把小的分量数值推压较大的量化级别。
由这些原因的每个原因引起的问题可以通过把不太重要的小的数值的信号分量推压被量化到较少的数目的量化级别的数值范围而被缓和。这个处理过程降低小的数值的分量的量化精度,但它也把量化后的小数值信号的熵减小到比起没有推压时的熵更小的水平。所有的信号分量被熵编码成表示不太重要的小数值的分量的代码,具有比起没有把它们推压较少的量化级别时的可能的更少的比特,以及剩余的比特被使用来更加精确地量化其他信号分量。被推压较少的量化级别的信号分量的数目可以通过使用扩展量化器被控制。
(c)扩展量化器图4C是使用图9所示的、把信号分量数值舍入最接近的量化级别的扩展量化函数的、在线31上的子频带信号分量的八级别量化的图形表示。扩展量化器比起均匀量化器具有更低的量化效率,因为较多的信号分量被量化成低于“4”级别。扩展量化器可以通过如图9所示的非均匀量化函数被实施,或它可以通过诸如图8所示的函数那样的压缩函数,后面跟随图7所示的均匀量化器被实施。图3上的线33表示在被图8所示的函数扩展后线31的信号值。
扩展量化器的量化精度对于所有的输入值是不均匀的。对于小的幅度值的区间的量化精度低于对于较大的幅度值的相邻的区间的量化精度。
在接收机中使用压缩和反向缩放过程,颠倒由缩放和扩展造成的结果。
扩展通过加大数值的动态范围而改变子频带信号样本的统计分布。扩展与归一化或缩放相组合,通过把这些数值推压实际上更低的量化级别而降低许多较小的数值的精度。更多的数目的较小的数值的信号分量例如被推压“0”量化级别。通过增加被量化为包括“量化到零”(QTZ)信号分量的低的量化级别和通过有效地使用表示这些较小的和QTZ分量的代码,更多的比特是可提供来更加精确地量化较大的数值的信号分量。
实际上,扩展和量化被使用来识别在较宽的带宽上重要的信号分量,以便更精确地编码。这使得比特的分配最佳化,以使得可以从VLBR编码的信号再生较高质量的信号。
量化器可以仅仅为要被量化的整个数值范围的一部分提供扩展。扩展对于较小的数值是重要的。如果想要的话,量化器也可以对于诸如具有较大的数值的那些信号分量的某些信号分量,提供压缩。图10显示提供按照函数41的扩展和压缩的量化函数42。扩展被提供给具有最小的幅度的数值,以及压缩被提供给具有最大的幅度的数值。对于具有中等幅度的数值,既不提供扩展也不提供压缩。
扩展和压缩的量,如果有的话,可以根据任何或所有的各种各样的条件--包括信号特性、可提供用来编码量化的信号分量的比特的数目、以及与主要的大幅度分量的靠近性--进行调整。例如,对于具有相对较平坦的频谱的、像噪声的子频带信号通常需要更多的扩展。如果相对较大的数目的比特是可提供用于编码的,则需要较小的扩展。对于接近主要的大幅度信号分量的信号分量应当使用较小的扩展。如何调整扩展和压缩的指示,应当以某种方式提供给接收机,以使得它能调整太多互补的过程。
量化器14、15、16每个可应用相同的或不同的扩展函数和量化函数。而且,用于特定的子频带信号的量化器可以以独立的或至少与在量化器中对于其他子频带信号完成的不同的方式被调整或变化。另外,对于所有的子频带信号不需要提供扩展。
3.编码器编码器17对于量化的信号分量施加熵编码,以减小信息容量要求。Huffman编码被使用于许多已知的编码系统,但它由于至少两个原因不适合于在许多VLBR系统中使用。
第一个原因在于,Huffman代码由整数个比特组成,以及最短的代码是1比特的长度。Huffman编码使用最短的代码,用于具有最高的发生概率的量化的码元。合理的假设,最可能的要编码的量化的数值是零,因为本发明有助于增加子频带信号中QTZ信号分量的数目。本发明可以很大地提高VLBR系统中的信号质量,如果QTZ分量可以由长度上小于1比特的代码表示的话。
通过使用具有多维代码簿的Huffman编码可以得到更加短的有效的代码长度。这允许Huffman编码使用1比特代码来表示多个量化的数值。例如,二维代码簿允许1比特代码表示两个数值。不幸地,多维代码对于大多数子频带信号不是非常有效的,以及需要相当大量的存储器了存储代码簿。Huffman编码可以在单维和多维代码簿之间自适应地切换,但在编码信号中需要控制比特来识别哪个代码簿被使用来编码信号的部分。这些控制比特偏移通过使用多维代码簿得到的增益。
Huffman编码不适用于许多VLBR编码系统的第二个原因是因为编码效率对于要编码的信号的统计值非常敏感。如果代码簿被使用,被设计来编码比起实际被编码的信号值具有非常不同的统计值的数值,则Huffman可以通过增加编码信号的信息容量需要而施加惩罚。这个问题可以通过从一组代码簿选择最好的代码簿被缓和,但需要控制比特识别被使用的代码簿。这些控制比特偏移通过使用多个代码簿得到的增益。
各种编码技术,诸如运行长度代码,可以单独地使用或结合其他的编码形式被使用。然而,在优选实施例中,使用算术编码,因为它可被自动地适合于实际的信号统计值,以及它能够生成比起对于Huffman编码经常可能的更短的代码。
算术编码过程计算在半封闭区间[0,1)内的实数来表示一个或多个“符号”的“消息”。在这方面,符号是信号分量的量化的数值以及消息是对于多个信号分量的量化的级别组。“字母表”是在消息中可能出现的所有的可能的符号组或量化的数值组。可以由实数表示的、在消息中符号的数目由可以由编码器表达的实数的精度限制。由实数代码表示的符号数目以某些方式提供给译码器。
如果M表示在字母表中符号的数目,则在一个算术编码过程中的步骤为如下1.把区间[0,1)划分成M个分组,其中每个分段相应于字母表中特定的符号。对于各个符号的分段具有正比于该符号的出现的概率的长度。
2.从消息得出第一符号,以及选择相应的分段。
3.把选择的分段以类似于步骤(1)中进行的方式划分成M个分段。每个分段相应于在字母表中的各个符号,以及具有正比于该符号的出现概率的长度。
4.从消息得出下一个符号和选择相应的分段。
5.继续进行步骤(3)和(4),直至整个消息被编码或直至达到精度极限为止。
6.生成表示在最后选择的分段内的任何数的最短的可能的二进制分数。
图11显示在加到表示四个量化级别0、1、2和3的四符号的字母表内的四个符号“1300”的消息时的这个过程。这些符号的每个符号的出现概率分别是0.55、0.20、0.15和0.10。
图的左面的第一个方块表示步骤(1),其中半闭合的区间[0,1)被划分成对于字母表的每个符号的四个分段,具有正比于相应的符号的出现概率的长度。
在步骤(2),表示“1”量化级别的第一个符号是从子频带消息得出的,以及选择相应的半闭合分段[0.55,0.75)。
紧接在第一方块的右面的第二个方块表示步骤(3),其中选择的分段被划分成对于字母表中每个符号的四个分段。
在步骤(4),表示“3”量化级别的第二个符号是从子频带消息得出的,以及选择相应的半闭合分段[0.73,0.75)。
步骤(5)迭代步骤(3)和(4)。紧接在第二方块的右面的第三个方块表示步骤(3)的迭代,其中以前选择的分段被划分成对于字母表中每个符号的四个分段。
在步骤(4)的迭代中,表示“0”量化级别的第三个符号是从消息得出的,以及选择相应的半闭合分段[0.730,0.741)。
步骤(5)再次迭代步骤(3)和(4)。在图的右面的第四个方块表示步骤(3)的迭代,其中以前选择的分段被划分成对于字母表中每个符号的四个分段。
在步骤(4)的迭代中,表示“0”量化级别的第四个和最后的符号是从消息得出的,以及选择相应的半闭合分段[0.73000,0.73605)。
到达消息的末端,步骤(6)生成表示最后选择的分段内某个数目的最短的可能的二进制分数。生成6比特的二进制分数0.1011112=0.73437510。
上述的编码过程需要符号字母表的概率分布,以及这个分布必须以某个方式被提供到译码器。如果概率分布改变,则编码过程变为次最佳的。编码器17可以从对于编码接收的符号的实际的概率计算新的分布。这个计算可以连续进行,当每个码元从消息被得出时,或它可以不太经常地被计算。译码器23可以执行同一个计算,以及保持它的分布与编码器17同步。编码过程可以从任何想要的概率分布开始。
有关算术编码的附加信息可以从Bell,Cleary和Witten.,“TextCompression(文本压缩)”,Prentice Hall,Englewood Cliffs,NJ,1990,pp.109-120,和从Saywood,“Introduction to Data Compression(数据压缩入门)”,Morgan Kaufmann Publishers,Inc.,San Francisco,1996,pp.61-96.得到。
B.接收机图2显示可以引用本发明的各个方面的音频译码接收机的一个实施方案。在本实施方案中,去格式化器22从路径21接收输送表示音频信号的频率子频带的量化的数字信息的编码表示的输入信号。去格式化器22从输入信号得到编码表示,以及把它传送到译码器23。译码器23把编码表示译码成量化的信息的频率子频带。在某个频率子频带中的量化的数字信息被各个去量化器25、26、27去量化,以及被传送到合成滤波器库28,它生成沿路径29的表示音频信号的音频信息。在去量化器25、26、27中的去量化函数根据从去量化控制器24接收的去量化控制信息被调整,该去量化控制器24根据由去格式化器22从输入信号得到的控制信息生成去量化控制信息。
译码器23施加与由编码器17施加的过程互补的过程。
去量化器25、26、27提供与在量化器14、15、16提供到扩展互补的压缩。压缩去量化器可以通过非均匀去量化函数被实施,或它可以通过均匀去量化函数,后面跟随压缩函数而被实施。分均匀和均匀去量化可以通过查找表实施。非均匀去量化可以通过仅仅把适当的数目的不太附着到量化的数值的过程而实施。附着的比特可以具有零值或它们可以具有某些其他数值,诸如来自颤抖信号或伪随机噪声信号的样本。
如果量化器14、15、16没有在全部数值范围内提供扩展,则在全部数值范围内不应当提供压缩。
去量化控制器24实际上可以执行可能想要的任何类型的处理。一个例子是把心理声学模型加到从输入信号得出的信息,以估计在音频信号中不同的谱分量的心理声学掩蔽效应的过程。作为另一个例子,去量化控制器24被消除,以及去量化器25、26、27可以或者使用不作调整的去量化函数或它们可以使用根据直接从由去格式化器22从输入信号得到的去量化控制信息被调整的去量化函数。本发明不需要特定的处理过程。
图2所示的接收机显示对于三个频率子频带的分量。在典型的应用中使用多得多子频带,但这里为了说明清晰起见只显示三个子频带。在本发明的原理中具体数目并不重要。
合成滤波器库28实际上可以以想要的任何方式来实施,包括与以上对于分析滤波器库12讨论的技术的颠倒的方式。由块变换实施的合成滤波器库28合成来自变换系数组的输出信号。由诸如多相滤波器那样的某些类型的数字滤波器—而不是块变换--实施的合成滤波器库28合成来自子频带信号组的输出信号。每个子频带信号是在特定的频率子频带内输入信号的谱内容的基于时间的表示。
C.实施方案本发明的各个方面可以以各种各样的方式被实施,包括在通用计算机系统中的软件或在某些其他设备,包括更专用的部件,诸如被耦合到类似于在通用计算机系统中发现的那些的部件的数字信号处理器(DSP)电路。图12是在音频编码发送器或音频编码接收机中可被使用来实施本发明的各个方面的设备70的方框图。DSP72提供计算资源。RAM73是被DSP72使用于信号处理的系统随机存取存储器(RAM)。ROM74表示永久贮存的某种形式,诸如用于存储对于运行设备71所需要的程序的只读存储器(ROM)。I/O控制75表示接口电路,通过通信信道76、77接收和发送信号。模拟-数字变换器和数字-模拟变换器可被包括在I/O控制75中,如想要地接收和或发送模拟音频信号。在所示的实施例中,所有的主要系统部件连接到总线71,它可表示一条以上的物理总线;然而,并不需要总线结构来实施本发明。
在通用计算机系统中实施的实施例,附加部件可被包括用来接口到诸如键盘或鼠标和显示器那样的装置,以及用来控制具有诸如磁带、磁盘、或光媒体那样的贮存媒体的贮存设备。贮存媒体可被使用来记录用于操作系统的指令的程序、公共事业和应用,以及可包括实施本发明的各个方面的程序的实施例。
对于实施本发明所需要的功能可以由专用部件来执行,该专用部件可以由包括分立式逻辑元件、一个或多个ASIC和或程序控制的处理器的各种各样的方式被实施。这些部件被实施的方式对于本发明并不重要。
本发明的软件实施方案可以通过各种各样的机器可读的媒体——诸如在包括从超声波到紫外线频率的全部频谱上的基带或调制的通信路径,或通过贮存媒体——包括使用基本上任何磁的或光的记录技术输送信息的包括磁带、磁盘、和光盘的那些媒体被输送。各个方面也可以在计算机系统70的各个部件中由诸如由以ROM或RAM的各种形式体现的程序控制的ASIC、通用集成电路、微处理器那样的处理电路实施。
权利要求
1.一种音频编码发送器,其接收表示音频信号的输入信号和生成输送所述音频信号的编码的表示的输出信号,该音频编码发送器包括分析滤波器库,响应输入信号生成表示音频信号的频率子频带的多个子频带信号,其中每个子频带信号包括一个或多个子频带信号分量;被耦合到分析滤波器库的量化器,通过对在第一数值区间内的子频带信号分量数值使用第一量化精度且对在第二数值区间内的子频带信号分量数值使用第二量化精度量化一个或多个子频带信号的子频带信号分量,产生一个或多个量化子频带信号,其中第一量化精度低于第二量化精度,第一区间是与第二区间相邻的,以及在第一区间内的数值小于在第二区间内的数值;被耦合到量化器的编码器,通过使用减小量化的子频带信号的信息容量要求的无损编码过程编码该一个或多个量化的子频带信号而生成一个或多个编码的子频带信号;以及被耦合到编码器的格式化器,把该一个或多个编码的子频带信号装配成输出信号。
2.权利要求1的音频编码发送器,其中分析滤波器库通过一个或多个变换实施,以及子频带信号分量是变换系数。
3.权利要求1或2的音频编码发送器,其中量化器包括扩展器,具有被耦合到分析滤波器库的输入端和具有输出端;以及均匀量化器,具有被耦合到扩展器输出端的输入端和具有被耦合到编码器的输出端。
4.权利要求1到3的任一项的音频编码发送器,其中该量化器是非均匀量化器。
5.权利要求1到4的任一项的音频编码发送器,其中量化器对在第三数值区间内的子频带信号分量,使用第三量化精度,第三量化精度低于第二量化精度,以及在第二区间内的数值小于在第三区间内的数值。
6.权利要求1到5的任一项的音频编码发送器,其中编码器生成可变长度代码以及编码过程适合于被编码的量化的子频带信号的统计值。
7.权利要求1到6的任一项的音频编码发送器,其中编码过程是算术编码。
8.权利要求1到7的任一项的音频编码发送器,该音频编码发送器响应子频带信号分量数值的特性相对于第二量化精度调整第一量化精度。
9.一种音频译码接收机,它接收输送音频信号的编码的表示的输入信号和生成表示音频信号的输出信号,音频译码接收机包括去格式化器,从输入信号得出一个或多个编码的子频带信号;被耦合到去格式化器的译码器,通过使用增加编码的子频带信号的信息容量要求的无损译码过程译码一个或多个编码的子频带信号而生成一个或多个译码的子频带信号,其中每个译码的子频带信号包括一个或多个子频带信号分量和表示音频信号的各个频率子频带;被耦合到译码器的去量化器,通过去量化一个或多个译码的子频带信号的子频带信号分量而生成一个或多个去量化的子频带信号,其中去量化器是与对在第一数值区间内的数值使用第一量化精度和对在第二数值区间内的数值使用第二量化精度的量化器互补的,其中第一量化精度低于第二量化精度,第一区间是与第二区间相邻的,以及在第一区间内的数值小于在第二区间内的数值;以及被耦合到去量化器的合成滤波器库,响应包括一个或多个去量化的子频带信号的多个子频带信号生成输出信号。
10.权利要求9的音频译码接收机,其中合成滤波器库通过一个或多个变换被实施,以及子频带信号分量是变换系数。
11.权利要求9或10的音频译码接收机,其中去量化器包括均匀去量化器,具有被耦合到译码器的输入端和具有输出端;以及压缩器,具有被耦合到均匀去量化器输出端的输入端和具有被耦合到合成滤波器库的输出端。
12.权利要求9到11的任一项的音频译码接收机,其中去量化器是非均匀去量化器。
13.权利要求9到12的任一项的音频译码接收机,其中去量化器是与对在第三数值区间内的子频带信号分量数值使用第三量化精度的量化器互补的,第三量化精度低于第二量化精度,以及在第二区间内的数值小于在第三区间内的数值。
14.权利要求9到13的任一项的音频译码接收机,其中译码器译码可变长度代码以及译码过程适合于被译码的量化的子频带信号的统计值。
15.权利要求9到14的任一项的音频译码接收机,其中译码过程是算术译码。
16.权利要求9到15的任一项的音频译码接收机,其响应从输入信号得到的控制信息调整去量化器,其中去量化器适合于与相对于第二量化精度调整第一量化精度的量化器互补。
17.一种设备可读的和输送可由设备执行以执行音频编码方法的指令的程序的媒体,该音频编码方法包括执行以下行动的步骤把分析滤波器库施加到输入信号,生成表示音频信号的频率子频带的多个子频带信号,其中每个子频带信号包括一个或多个子频带信号分量;通过对在第一数值区间内的子频带信号分量数值使用第一量化精度和对在第二数值区间内的子频带信号分量数值使用第二量化精度量化一个或多个子频带信号的子频带信号分量,以生成一个或多个量化的子频带信号,其中第一量化精度低于第二量化精度,第一区间是与第二区间相邻的,以及在第一区间内的数值小于在第二区间内的数值;通过使用减小量化的子频带信号的信息容量要求的无损编码过程编码该一个或多个量化的子频带信号,生成一个或多个编码的子频带信号;以及把该一个或多个编码的子频带信号装配成输出信号。
18.权利要求17的媒体,其中分析滤波器库通过一个或多个变换被实施,以及子频带信号分量是变换系数。
19.权利要求17或18的媒体,其中量化包括扩展子频带信号分量以及用均匀量化函数量化扩展的子频带信号分量。
20.权利要求17到19的任一项的媒体,其中量化按照非均匀量化函数。
21.权利要求17到20的任一项的媒体,其中量化对在第三数值区间内的子频带信号分量使用第三量化精度,第三量化精度低于第二量化精度,以及在第二区间内的数值小于在第三区间内的数值。
22.权利要求17到21的任一项的媒体,其中编码生成可变长度代码以及编码过程适合于被编码的量化的子频带信号的统计值。
23.权利要求17到22的任一项的媒体,其中编码过程是算术编码。
24.权利要求17到23的任一项的媒体,其中该方法响应子频带信号分量数值的特性相对于第二量化精度调整第一量化精度。
25.一种设备可读的和输送可由设备执行以执行音频译码方法的指令的程序的媒体,该音频译码方法包括执行以下行动的步骤从输入信号得出一个或多个编码的子频带信号;通过使用增加编码的子频带信号的信息容量要求的无损译码过程译码一个或多个编码的子频带信号,生成一个或多个译码的子频带信号,其中每个译码的子频带信号包括一个或多个子频带信号分量和表示音频信号的各个频率子频带;去量化一个或多个译码的子频带信号的子频带信号分量,以生成一个或多个去量化的子频带信号,其中去量化是与对在第一数值区间内的数值使用第一量化精度和对在第二数值区间内的数值使用第二量化精度的量化互补的,其中第一量化精度低于第二量化精度,第一区间是与第二区间相邻的,以及在第一区间内的数值小于在第二区间内的数值;以及把合成滤波器库施加到包括一个或多个去量化的子频带信号的多个子频带信号,以生成输出信号。
26.权利要求25的媒体,其中合成滤波器库通过一个或多个变换被实施,以及子频带信号分量是变换系数。
27.权利要求25或26的媒体,其中去量化包括均匀去量化和压缩子频带信号分量。
28.权利要求25到27的任一项的媒体,其中去量化按照非均匀去量化函数。
29.权利要求25到28的任一项的媒体,其中去量化是与对在第三数值区间内的子频带信号分量数值使用第三量化精度的量化互补的,第三量化精度低于第二量化精度,以及在第二区间内的数值小于在第三区间内的数值。
30.权利要求25到29的任一项的媒体,其中译码过程适合于被译码的量化的子频带信号的统计值。
31.权利要求25到30的任一项的媒体,其中译码过程是算术译码。
32.权利要求25到31的任一项的媒体,其中该方法响应从输入信号得到的控制信息调整去量化,其中去量化适合于与相对于第二量化精度调整第一量化精度的量化互补。
33.一种音频编码发送器,接收表示音频信号的输入信号和生成输送音频信号的编码的表示的输出信号,音频编码发送器包括分析滤波器库,响应输入信号生成表示音频信号的频率子频带的多个子频带信号,其中每个子频带信号包括一个或多个子频带信号分量;被耦合到分析滤波器库的量化器,量化一个或多个子频带信号,生成量化的子频带信号,其中对于具有一个或多个第一子频带信号分量和其幅度小于一个或多个第一子频带信号分量的一个或多个第二子频带信号分量的子频带信号,第二子频带信号分量被推压到一个数值范围,这个数值范围被量化成比起不推压时出现的量化级别更少的量化级别,由此降低量化精度和减小量化的第二子频带信号分量的熵;被耦合到量化器的编码器,通过使用减小量化的子频带信号的信息容量要求的熵编码过程编码该一个或多个量化的子频带信号而生成一个或多个编码的子频带信号;以及被耦合到编码器的格式化器,把一个或多个编码的子频带信号装配成输出信号。
34.权利要求33的音频编码发送器,其中分析滤波器库通过一个或多个变换被实施,以及子频带信号分量是变换系数。
35.权利要求33或34的音频编码发送器,其中量化器包括扩展器,具有被耦合到分析滤波器库的输入端和具有输出端;以及均匀量化器,具有被耦合到扩展器输出端的输入端和具有被耦合到编码器的输出端。
36.权利要求33到35的任一项的音频编码发送器,其中量化器是非均匀量化器。
37.权利要求33到36的任一项的音频编码发送器,其中编码过程适合于被编码的量化的子频带信号的统计值。
38.权利要求33到37的任一项的音频编码发送器,其中编码过程是算术编码。
39.权利要求33到38的任一项的音频编码发送器,它响应子频带信号分量数值的特性调整第二子频带信号分量被推压到的数值的范围。
40.一种音频译码接收机,接收输送音频信号的编码的表示的输入信号和生成表示音频信号的输出信号,音频译码接收机包括去格式化器,从输入信号得出一个或多个编码的子频带信号;被耦合到去格式化器的译码器,通过使用增加编码的子频带信号的信息容量要求的熵译码过程译码一个或多个编码的子频带信号而生成一个或多个译码的子频带信号,其中每个译码的子频带信号包括一个或多个子频带信号分量和表示音频信号的各个频率子频带;被耦合到译码器的去量化器,通过去量化一个或多个译码的子频带信号的子频带信号分量而生成一个或多个去量化的子频带信号,其中去量化器是与对于具有一个或多个第一子频带信号分量和其幅度小于一个或多个第一子频带信号分量的一个或多个第二子频带信号分量的子频带信号而把第二子频带信号分量推压到一个数值范围以便把它们量化成比起不推压时出现的量化级别更少的量化级别从而降低量化精度和减小量化的第二子频带信号分量的熵的量化器互补的;以及合成滤波器库,响应包括一个或多个去量化的子频带信号的多个子频带信号生成输出信号。
41.权利要求40的音频译码接收机,其中合成滤波器库通过一个或多个变换被实施,以及子频带信号分量是变换系数。
42.权利要求40或41的音频译码接收机,其中去量化器包括均匀去量化器,具有被耦合到译码器的输入端和具有输出端;以及压缩器,具有被耦合到均匀去量化器输出端的输入端和具有被耦合到合成滤波器库的输出端。
43.权利要求40到42的任一项的音频译码接收机,其中去量化器是非均匀去量化器。
44.权利要求40到43的任一项的音频译码接收机,其中译码过程适合于被译码的量化的子频带信号的统计值。
45.权利要求40到44的任一项的音频译码接收机,其中译码过程是算术译码。
46.权利要求40到45的任一项的音频译码接收机,其响应从输入信号得到的控制信息调整去量化器,其中去量化器适合于与响应子频带信号分量数值的特性调整第二子频带信号分量被推压到的数值范围的量化器互补。
47.一种设备可读的和输送可由设备执行以执行音频编码方法的指令的程序的媒体,该音频编码方法包括执行以下行动的步骤把分析滤波器库施加到输入信号,生成表示音频信号的频率子频带的多个子频带信号,其中每个子频带信号包括一个或多个子频带信号分量;量化一个或多个子频带信号的子频带信号分量,生成量化的子频带信号,其中对于具有一个或多个第一子频带信号分量和其幅度小于一个或多个第一子频带信号分量的一个或多个第二子频带信号分量的子频带信号,第二子频带信号分量被推压到一个数值范围,该数值范围被量化成比起不推压时出现的量化级别更少的量化级别,由此降低量化精度和减小量化的第二子频带信号分量的熵;通过使用减小量化的子频带信号的信息容量要求的熵编码过程编码该一个或多个量化的子频带信号,生成一个或多个编码的子频带信号;以及把该一个或多个编码的子频带信号装配成输出信号。
48.权利要求47的媒体,其中分析滤波器库通过一个或多个变换被实施,以及子频带信号分量是变换系数。
49.权利要求47或48的媒体,其中量化包括扩展子频带信号分量以及用均匀量化函数量化扩展的子频带信号分量。
50.权利要求47到49的任一项的媒体,其中量化按照非均匀量化函数。
51.权利要求47到50的任一项的媒体,其中熵编码过程适合于被编码的量化的子频带信号的统计值。
52.权利要求47到51的任一项的媒体,其中熵编码过程是算术编码。
53.权利要求47到52的任一项的媒体,其中该方法响应子频带信号分量数值的特性调整第二子频带信号分量被推压到的数值的范围。
54.一种设备可读的和输送可由设备执行以执行音频译码方法的指令的程序的媒体,该音频译码方法包括执行以下行动的步骤从输入信号得出一个或多个编码的子频带信号;通过使用增加编码的子频带信号的信息容量要求的无损译码过程译码一个或多个编码的子频带信号,生成一个或多个译码的子频带信号,其中每个译码的子频带信号包括一个或多个子频带信号分量和表示音频信号的各个频率子频带;去量化一个或多个译码的子频带信号的子频带信号分量,生成一个或多个去量化的子频带信号,其中去量化是与对在第一数值区间内的数值使用第一量化精度和对在第二数值区间内的数值使用第二量化精度的量化互补的,其中第一量化精度低于第二量化精度,第一区间是与第二区间相邻的,以及在第一区间内的数值小于在第二区间内的数值;以及把合成滤波器库施加到包括一个或多个去量化的子频带信号的多个子频带信号,以生成输出信号。
55.权利要求54的媒体,其中合成滤波器库通过一个或多个变换被实施,以及子频带信号分量是变换系数。
56.权利要求54或55的媒体,其中去量化包括均匀去量化和压缩子频带信号分量。
57.权利要求54到56的任一项的媒体,其中去量化按照非均匀去量化函数。
58.权利要求54到57的任一项的媒体,其中熵译码过程适合于被译码的量化的子频带信号的统计值。
59.权利要求54到58的任一项的媒体,其中熵译码过程是算术译码。
60.权利要求54到59的任一项的媒体,其中该方法响应从输入信号得到的控制信息调整去量化,其中去量化适合于与响应子频带信号分量数值的特性调整第二子频带信号分量被推压到的数值的范围的量化互补。
全文摘要
从非常低的比特速率音频编码系统得到的音频信号的感知的质量,通过使用在发送器中的扩展量化器和算术编码和使用在接收机中的互补的压缩和算术译码而被改进。扩展量化器被使用来控制被量化到零的信号分量的数目,以及算术编码被使用来有效地编码被量化到零的系数。这允许更宽的带宽的和更精确地量化的基带信号被输送到接收机,接收机通过合成丢失的分量再生输出信号。
文档编号H03M7/30GK1669072SQ03816833
公开日2005年9月14日 申请日期2003年7月8日 优先权日2002年7月16日
发明者马克·S.·温登, 迈克尔·M.·杜鲁门 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1