使用频谱孔填充的音频编码系统的制作方法

文档序号：2821062阅读：268来源：国知局

专利名称：使用频谱孔填充的音频编码系统的制作方法
技术领域：
本发明通常涉及音频编码系统，尤其涉及改善得自音频编码系统的音频信号的感知质量。
背景技术：
音频编码系统用于将音频信号编码为适合于传输或存储的编码信号，然后接收或检索编码信号并解码以获得用于回放的原始音频信号的一个版本。感知音频编码试图将原始音频信号编码为比原始音频信号信息容量要求更低的编码信号，然后将编码信号解码并提供在感知上与原始音频信号难以区别的输出。感知音频编码系统的一个实例参见高级电视标准化委员会(ATSC)A52文件(1994)，称之为杜比AC-3。另一个实例参见Bodi等人的文献，“ISO/IEC MPEG-2Advanced Audio Coding，”J.AES，vol.45，no.10，October 1997，pp.789-814，称之为高级音频编码(AAC)。这两个编码系统和其它许多感知编码系统都对音频信号使用分析滤波器组以获得按聚类或频带排列的频谱分量。其带宽通常是变化的并且通常与人类听觉系统所谓临界带的宽度相当。
感知编码系统可以用于减少音频信号的信息容量需求同时保留音频质量的主观或感知度量，所以音频信号的编码表示能够以更少的带宽通过信道传输或以更少的空间存储在记录媒体上。通过量化频谱分量可以减少信息容量需求，量化将噪声引入被量化信号，但是感知音频编码系统通常使用心理声学模型控制量化噪声的幅度，以通过信号中的频谱分量掩蔽噪声或使其不可闻。
已知频带中的频谱分量通常以相同的量化分辨率进行量化，并使用心理声学模型确定最大的最小量化分辨率或最小信噪比(SNR)，引入听不见的量化噪声是可能的。该技术在窄带下运行得相当好，但该技术在较宽频带下，当信息容量需求促使编码系统采用相对粗糙的量化分辨率时就不能很好的运行。在宽带中较大值的频谱分量通常量化为所需精度的非零值，而如果频带中较小值的频谱分量幅度小于最小量化水平则被量化为零。随着带宽的增加，随着频带内最大和最小频谱分量差值的增加以及随着最小量化水平的增加，频带内量化为零的频谱分量的数目随之增加。
不幸的是，即使保持最终的量化噪声充分低于可听阈或通过信号的频谱分量在心理声学上被掩蔽了，编码信号中量化为零(QTZ)频谱分量的大量存在仍然会降低音频信号的感知质量。质量降低的原因至少有三个，第一个原因是因为心理声学掩蔽的水平实际上低于用于确定量化分辨率的心理声学模型的预测，量化噪声并不是听不见的；第二个原因是与原始音频信号的功率或能量相比，大量QTZ频谱分量的产生实际在听觉上降低了解码音频信号的功率或能量；第三个原因与使用失真抵消滤波器组的编码过程有关，如量化镜像滤波器(QMF)或修改的离散余弦变换(DCT)和修改的离散余弦逆变换(IDCT)，即所谓的时域假信号抵消(TDAC)变换，其说明参见Princen等人的文献，“Subband/Transform Coding Using Filter BankDesigns Based on Time Domain Aliasing Cancellation，”ICASSP 1987Conf.Proc.，May 1987，pp.2161-64。
使用失真抵消滤波器组如QMF或TDAC变换的编码系统在编码过程中使用了分析滤波器组，从而在编码信号中引入了失真或寄生分量，但在解码过程中使用合成滤波器至少在理论上可以消除失真。但在实践中如果一个或更多频谱分量的值在编码的过程中发生重大的变化，那么合成滤波器消除失真的能力就会大大削弱。为此，因为频谱分量的值会削弱合成滤波器组消除由分析滤波器组引入的失真的能力，QTZ频谱分量即使在听不见量化噪声的情况下也会降低解码音频信号的感知质量。
已知编码系统采用的技术提供了部分解决这些问题的方法。例如，杜比AC-3和AAC变换编码系统在解码器中用噪声代替该特定QTZ频谱分量，从而在某种程度上能够从保留了原始音频信号幅度的编码信号中产生输出信号。这两种系统都在编码信号中提供了频带的功率指示并在解码器中利用功率指示用适当水平的噪声代替频带中的该特定QTZ频谱分量。杜比AC-3编码器提供了短时功率谱的粗略估计，可以用于产生噪声的适当水平。当频带所有的频谱分量都设置为零时，解码器用在短时功率谱中粗略估计所指示的近似相同功率的噪声填充该频带。AAC系统采用称为感知噪声替代(PNS)的技术明确传递给定频带的功率。解码器用该信息添加与该功率匹配的噪声。两种系统都仅仅在那些没有非零频谱分量的频带添加噪声。
不幸的是，这些系统不能在那些混合了QTZ与非零频谱分量的频带中保留功率水平。表1示出了频谱分量一个假设频带的原始音频信号，每个频谱分量合成在编码信号中的3比特量化表示以及用解码器从编码信号中获得的相应频谱分量。在编码信号中量化频带包含QTZ与非零频谱分量的组合。
表1

表的第一列显示的是一组无符号二进制数，表示原始音频信号中分布在单个频带中的频谱分量。第二列显示的是量化为三比特的频谱分量表示。在该例子中每个频谱分量低于3比特精度的部分被截除。量化频谱分量传递给解码器后通过补零恢复原始信号分量的长度完成去量化。第三列显示的就是去量化分量。因为频谱分量的大部分量化为零，去量化频谱分量所包含的能量小于原始频谱分量频带的能量且能量集中在少数几个非零频谱分量中。如前所述，能量的减少降低了解码信号的感知质量。

发明内容
本发明的一个目的就是通过避免或减轻与零值量化频谱分量相关的恶化以修改得自音频编码系统的音频信号的感知质量。
本发明的一个方面，通过以下步骤获得音频信息接收输入信号并从中获得一组子带信号，每个子带信号包含代表音频信号频谱内容的一个或多个频谱分量；从该组子带信号中识别该特定子带信号，其中的一个或多个频谱分量具有非零值并用最小量化水平对应于一个阈值的量化器将其量化，其中的多个频谱分量的值是零；生成分别对应于该特定子波带中零值频谱分量的合成频谱分量，并按照小于或等于阈值的比例包络进行量化；在该特定子带信号中用合成频谱分量代替相应的零频谱分量生成一组修改的子带信号；用合成滤波器组针对修改的子带信号生成音频信息。
本发明的另一个方面，通过以下步骤提供输出信号，最好是编码输出信号将分析滤波器组应用于音频信息获得量化信息并用该量化信息生成一组子带信号，每个子带信号包含代表音频信号频谱内容的一个或多个频谱分量；从该组子带信号中识别该特定子带信号，其中的一个或多个频谱分量具有非零值并用最小量化水平对应于一个阈值的量化器将其量化，其中的多个频谱分量的值是零；从音频信号的频谱内容中导出比例控制信息，其中比例控制信息控制合成频谱分量的量化以用于合成和代替接收机中的零频谱分量，该接收机产生对应于输出信号的音频信息；将比例控制信息和代表该组子带信号的信息合成在一起以产生输出信号。
通过参考下面的说明和附图，可以更好的理解本发明的各分量特征及其最佳实施例，附图的几个图中相同的编号是指相同的单元。下面说明的内容仅仅作为实例而不能理解为对本发明范畴的限定。
附图简述

图1a是一个音频编码器的示意框图。
图1b是一个音频解码器的示意框图。
图2a-2c是量化函数的示意图。
图3是一假设音频信号的频谱示意图。
图4是一假设音频信号有几个频谱分量设置为零时的频谱示意图。
图5是一假设音频信号用合成频谱分量代替零值频谱分量时的频谱示意图。
图6是分析滤波器组中的一滤波器的假设频率响应示意图。
图7示出了与图6所示频谱泄漏衰减近似的比例包络。
图8示出了由可适应滤波器的输出导出的比例包络。
图9是一假设音频信号的频谱示意图，其合成频谱分量用近似于图6所示频谱泄漏衰减的比例包络加权。
图10是假设心理声学掩蔽阈值的示意图。
图11是一假设音频信号的频谱示意图，其合成频谱分量用近似于心理声学掩蔽阈值的比例包络加权。
图12是一假设子带信号的示意图。
图13是一假设子带信号有几个频谱分量设置为零时的频谱示意图。
图14是一假设时间心理声学掩蔽阈值的示意图。
图15是一假设子带信号的频谱示意图，其合成频谱分量用近似于时间心理声学掩蔽阈值的比例包络加权。
图16是一假设音频信号当含有通过谱复制产生的合成频谱分量时的频谱图。
图17是一个可以用于在编码器或解码器中实现本发明各个方面的装置的示意框图。
具体实施例方式
A.概述本发明的各个方面可以与各种信号处理技术和包括如同图1a和图1b所示那些装置的装置广泛地结合在一起。有些方面可以仅仅在解码技术或装置中得以实施。其它方面则需要在编码和解码技术或装置中共同处理。下面提供可以用于实施本发明这些方面的过程说明，随后提出可以用于执行这些过程的典型装置的综述。
1.编码器图1a示出了分频带音频编码器的一个实施例，其中分析滤波器组12接收来自通道11代表音频信号的音频信息，并作为响应提供代表音频信号频率子带的数字化信息。每个频率子带的数字化信息用各自的量化器14，15，16量化并传递给编码器17。编码器17生成量化信息的编码表示并传递给格式器18。图中所示的特殊实施例中，量化器14，15，16的量化函数与从模型13接收的比例控制信息相适应，模型13针对从通道11接收的音频信息生成比例控制信息。格式器18将量化信息的编码表示和比例控制信息合成为适合于传输或存储的输出信号，并将输出信号沿通道19传递。
许多音频应用使用均匀的线性量化函数q(x)，如图2a所示的3-比特中趋势(mid-tread)非对称量化函数；但是对于本发明重要的是量化的非精确形式。可以采用的另外两个函数q(x)的例子如图2b和图2c所示。在每个例子中，量化函数q(x)对于任何在点30的值与点31的值之间的输入值x的输出值都等于零。在许多应用中，点30，31的值相等且符号相反；但这不是必需的，如图2b所示。为了便于论述，用该特定量化函数q(x)量化为零(QTZ)的输入值区间内的值x是指小于该量化函数最小量化水平的值。
在本说明中，如“编码器”和“编码”的术语不是特意暗示信息处理的任何类型。例如，编码通常用于减少信息容量需求；但是这些术语不是必须指这种处理类型。编码器17可以执行基本上所需的任何处理类型。在一种实施例中，将量化信息编码为具有相同比例因子的量化值的集合。例如在杜比AC-3系统中，将量化频谱分量安排在浮点数的集合或频带中，每个频带的数值都分享一个浮点指数。在AAC编码系统中采用了熵编码，如哈夫曼编码。在其它实施例中，编码器17就不存在了，而量化信息直接合成到输出信号中。对于本发明任何特殊类型的编码都是不重要的。
模型13可以执行基本上所需的任何处理类型。一个例子是对音频信息应用心理声学模型估计音频信号中不同频谱分量的心理声学掩蔽效应。可能有许多变化，例如，模型13可以生成对应于频率子带信息的在分析滤波器组12的输出端有效的比例控制信息，以代替或附加于在滤波器组输入端有效的音频信息。对另一个例子，模型13可以不存在而量化器14、15、16使用不经过适应的量化函数。对于本发明任何特殊建模过程都是不重要的。
2.解码器图1b示出了分频带音频解码器的一个实施例，其中解格式器22接收来自通道21的输入信号，该信号是表征音频信号频率子带的量化数字信息的编码表示。解格式器从输入信号得到编码表示并将其传递给解码器23。解码器将编码表示解码为量化信息的频率子带。用各自的去量化器25，26，27将每个频率子带的量化数字信息去量化并传递给合成滤波器组28，该滤波器组产生代表音频信号的音频信息并沿通道29传递。在如图所示的特殊实施例中，去量化器25，26，27的去量化函数与从模型24接收的比例控制信息相适应，该模型针对解格式器22从输入信号获得的控制信息生成比例控制信息。
在本说明中，如“解码器”和“解码”的术语不是特意暗示信息处理的任何类型。解码器23可以执行基本上所需的任何处理类型。在一种实施例中它与上面描述的编码过程相反，在浮点数集合中具有共享指数的量化信息解码为不再共享指数的单个量化分量。在另一个实施例中，解码器23不存在且量化信息直接由解格式器22得到。对于本发明任何特殊类型的解码都是不重要的。
模型24可以执行基本上所需的任何处理类型。一个例子是对音频信息应用心理声学模型估计音频信号中不同频谱分量的心理声学掩蔽效应。对另一个例子，模型24可以不存在而去量化器25，26，27可以使用不经过适应的量化函数或使用与解格式器22直接从输入信号得到的比例控制信息相适应的量化函数。对于本发明任何特殊的处理都是不重要的。
3.滤波器组图1a和1b中的装置示出了三个频率子带分量。在应用中通常使用更多的子带，但为了解释清楚仅仅示出三个。对于本发明任何特殊数字都是不重要的。
分析和合成滤波器组基本上可以用所需的任何方法实现，包括数字滤波器技术，块变换和小波变换等很宽的范围。在一个含有如前所述编码器和解码器的音频编码系统中，分析滤波器组12是由TDAC修改的DCT实现的而合成滤波器组28是由前面提及的TDAC修改IDCT实现的。但原则上没有特殊实现是重要的。
用块变换实现的分析滤波器组将输入信号的一块或一段分为代表该段信号频谱内容的一组变换系数。一个或多个相邻变换系数的集合表征了该特定频率子带内的频谱内容，该子带的带宽与该集合中系数的数目相当。
用某种类型的数字滤波器如多相位滤波器，而不是块变换实现的分析滤波器组将输入信号分为一组子带信号。每个子带信号是该特定频率子带内的频谱内容基于时间的表示。子带信号最好按十分之一抽取以使每个子带信号的带宽与单位时间内子带信号样本的数目相当。
下面的论述尤其是指使用如同前面提及的TDAC变换的块变换实现。在该论述中，术语“子带信号”是指一个或多个相邻变换系数的集合，术语“频谱分量”是指变换系数。但是本发明的原理可以应用于其它类型的实现，所以术语“子带信号”通常也可以理解为表征信号该特定频率子带频谱内容的基于时间的信号，而术语“频谱分量”通常也可以理解为基于时间的子带信号的样本。
4.实施本发明的各个方面可以用很多种方法实施，包括通用计算机中或其它一些装置中的软件，这些装置包括更专门化的器件如数字信号处理(DSP)电路，其元件类似于通用计算机中的那些元件。图17是可以用于实施本发明在音频编码器或音频解码器中各个方面的装置70的框图，DSP 72提供计算资源；RAM 73是信号处理时DSP 72使用的系统随机存取存储器(RAM)；ROM 74表示永久存储的某种结构，如只读存储器(ROM)，它存储操作装置70以及实施本发明各个方面所需的程序。I/O控制器75表示的是通过通信信道76，77接收和发送信号的接口电路。当需要接收和/或发送模拟音频信号时，I/O控制器75可以包含模-数转换器或数-模转换器。如实施例所示，所有主要的系统组件都与总线71相连，该总线代表的物理总线可能不止一种；但总线结构对于本发明的实施不是必需的。
在通用计算机系统中实施例中，可以包含附加的元件，如连接键盘或鼠标以及显示器等装置的接口，以及含有存储媒体的存储控制装置如磁带或磁盘或光学媒体等。存储媒体可以用于记录操作系统，应用程序及应用的指令程序，可以包含实施本发明各个方面的程序本身。
实践本发明各个方面所需的功能可以通过由很多种方法实现的元器件来完成，这包括离散逻辑元件，一个或多个ASIC和/或可编程控制器。这些元器件的实现方式对于本发明都是不重要的。
本发明的软件实施可以通过多种机器可读媒介传输，如覆盖从超声到紫外频段频率范围的基带或调制通信线路，或通过使用基本上任何磁性或光学记录技术且包含那些传送信息的存储媒体传送，包括磁带，磁盘和光盘。也可以在计算机系统70的各个组件中采用处理电路实施各个方面，如ASIC，通用集成电路，由包含在各种ROM或RAM中的嵌入程序控制的微处理器以及其它技术。
B.解码器本发明在解码器中实施的各个方面不需要任何来自编码器的特殊处理或信息。本说明书在本节说明这些方面，其它需要来自编码器的特殊处理或信息的方面将在下一节说明。
1.频谱孔图3是一段用变换编码系统编码的假设音频信号的频谱示意图。频谱41表示变换系数或频谱分量幅值的包络。在编码过程中，所有幅值低于阈值40的频谱分量都量化为零。如果使用如图2a所示q(x)函数作为量化函数，阈值40对应于最小量化水平30，31。为便于说明，整个频率范围内阈值40都显示为统一的值，这在许多编码系统中并不特殊。例如，在每个子带信号内均匀量化频谱分量的感知音频编码系统中，阈值40在每个频率子带中是统一的但在子带与子带之间是变化的。在其它实施例中，阈值40也可以在给定的频率子带内变化。
图4是用量化频谱分量表示的假设音频信号频谱示意图。频谱42表示量化频谱分量幅值的包络。该图与其它图所示的频谱没有显示频谱分量的幅值大于或等于阈值40时的量化效果。量化信号中QTZ频谱分量与原始信号中相应的频谱分量之间的差用阴影显示，这些阴影区域代表了在量化表示中需要用合成频谱分量填充的“频谱孔”。
在本发明的一个实施例中，解码器接收的输入信号表达了如图4所示量化子带信号的编码表示。解码器对该编码表示进行解码并识别出这些子带信号中一个或多个频谱分量是非零值而多个频谱分量的值是零。所有子带信号的频率范围最好对解码器是先验已知的或定义在输入信号的控制信息中。使用如下所述的处理过程，解码器产生对应于零频谱分量的合成频谱分量。合成分量按照低于或等于阈值40的比例包络进行调整，然后用调整的合成频谱分量代替子带信号的零频谱分量。如果用于量化频谱分量的量化函数的最小量化水平30，31是已知的，那么解码器不需要来自编码器明确指示阈值40水平的任何信息。
2.按比例缩放建立比例包络的方法可以有很多种，下面将说明几种方法。可以使用多种方法，例如复合比例包络的导出可以是从多种途径获得的所有包络的最大值，或者用不同的方法建立比例包络的上界和/或下界。这些方法可以与编码信号向适应或进行选择，也可以作为频率的函数进行适应或选择。
a)均匀包络建立比例包络的第一种方法适合于音频变换编码系统和使用其它滤波器组实现的系统中的解码器。该方法通过设定包络等于阈值40建立均匀比例包络。这种比例包络的一个实例如图5所示，它用阴影区域表示用合成频谱分量填充的频谱孔。频谱43表示音频信号的频谱分量包络，它含有用合成频谱分量填充的频谱孔。该图与上图所示的阴影区域上界不代表合成频谱分量本身的实际等级，而仅仅代表合成频谱分量的按比例包络。用于填充频谱孔的合成频谱分量的频谱等级不超过比例包络b)频谱泄漏建立比例包络的第二种方法非常适合于块变换音频编码系统的解码器，但是其原理可以应用于滤波器组的其它实现类型。该方法提供随着块变换中原型滤波器频率响应的频谱泄漏特征变化的非均匀比例包络。
图6所示响应50示出了一个变换原型滤波器的假设频率响应图形，显示了系数间的频谱损耗。该响应包括一个主瓣，通常是指原型滤波器的通带，和一些与主瓣相邻的旁瓣，其大小随着频率离开通带中心而减小。旁瓣表示频谱能量从通带泄漏至相邻的频带。这些旁瓣的大小减小的比率称为频谱泄漏的衰减比。
滤波器的频谱泄漏特征制约了相邻频率子带的频谱隔离。如果滤波器具有大量的频谱泄漏，那么相邻子带的频谱水平就不能象频谱泄漏较低的滤波器那样区分开。图7所示的包络51是图6所示频谱泄漏衰减的近似。合成频谱分量可以用这样一个包络调整或者可以将该包络用作比例包络的下界以用于其它技术的导出。
图9中的频谱44示出了假设音频信号含有按近似频谱泄漏衰减包络调整的合成频谱分量的频谱图。频谱孔通过能量在每边进行限制，其比例包络是两个单独包络的复合，一边一个。该复合的构成是取两个单独包络较大一方。
c)滤波器建立比例包络的第三种方法非常适合于块变换音频编码系统的解码器，但是其原理可以应用于滤波器组的其它实现类型。该方法提供的非均匀比例包络是由频域滤波器的输出导出的，该滤波器用于频域中变换系数。该滤波器可以是一个预测滤波器，低通滤波器或提供所需比例包络的其它任何滤波器。该方法通常需要比上面描述的两种方法所需更多的的计算资源，但它允许比例包络按照频率的函数变化。
图8示出了从可适应频域滤波器输出导出的两个比例包络。例如，比例包络52可以用于填充信号或更像音调的部分信号中的频谱孔，而比例包络53可以用于填充信号或更像噪声的部分信号中的频谱孔。信号的音调和噪声特性可以用多种方法估计，后面将论述其中的一些方法。另一方面，比例包络52可以用于填充较低频率处的频谱孔，其音频信号通常更象音调；而比例包络53可以用于填充较高频率处的频谱孔，其音频信号通常更象噪声。
d)感知掩蔽建立比例包络的第四种方法可以应用于用块变换滤波器组和其它类型滤波器组实现的音频编码系统的解码器。该方法提供了非均匀比例包络，其变化符合估计的心理声学掩蔽效应。
图10示出了两个假设心理声学掩蔽阈值。阈值61表示较低频率频谱分量60的心理声学掩蔽效应，阈值64表示较高频率频谱分量63的心理声学掩蔽效应。类似的这些掩蔽阈值可以用于导出比例包络的形状。
图11中的频谱45示出了假设音频信号含有按照基于心理声学的包络调整的合成频谱替代分量的频谱图。该实施例显示，低频频谱孔中的比例包络是由掩蔽阈值61的较低部分导出。中间频谱孔中的比例包络是掩蔽阈值61的较高部分与掩蔽阈值64的较低部分复合而成。最高频率的频谱孔中的比例包络是由掩蔽阈值64的较高部分导出。
e)音调建立比例包络的第五种方法是基于对整个音频信号或信号的一部分入一个或多个子带信号的音调估计。音调可以用多种方法估计，包括频谱平坦度量(SFM)的计算，即信号样本的算术平均值除以信号样本的几何平均值的规格化商。该值接近1表明信号非常象噪声，而该值接近于零表明信号非常象音调。SFM可直接用于调整比例包络。当SFM等于零时，就不用合成分量填充频谱孔。当SFM等于1时，用允许的最大合成频谱分量填充频谱孔。但通用来说，因为编码器在编码之前可以访问整个原始音频信号所以能够计算一个更好的SFM值。因为QTZ频谱分量的出现解码器可能计算不出一个准确的SFM值。
解码器通过分析非零值和零频谱分量的排列或分布也可以估计音调。在一个实施例中，如果在几个大的非零值频谱乡之间分布着一长段零频谱分量，那么可以认为该信号更可能是音调而不是噪声，这是因为这种排列意味着一个谱峰结构。
在另一个实施例中，解码器将预测滤波器应用于一个或多个子带信号并确定预测增益。当预测增益增加时可以认为该信号更可能是音调。
f)时间按比例调整图12示出了一个待编码的假设子带信号。线条46表示频谱分量幅值的时间包络。该子带信号可以由通用的频谱分量或者由从方块变换分析滤波器组获得的块序列中的变换系数组成，或者它可以是另一种类型的分析滤波器组得到的子带信号，该滤波器组是用数字滤波器而不是类似QMF的块变换实现的。在编码过程中，所有幅值低于阈值40的频谱分量量化为零。为便于说明，整个时间间隔内阈值40都显示为统一的值，这在许多使用方块变换滤波器组的编码系统中并不特殊。
图13示出了用量化频谱分量表示的假设子带信号。线条47表示量化频谱分量幅值的时间包络。该图和其它图所示的线条没有显示频谱分量的幅值大于或等于阈值40时的量化效果。量化信号中QTZ频谱分量与原始信号中相应的频谱分量之间的差用阴影显示，这些阴影区域代表了在一段时间中需要用合成频谱分量填充的频谱孔。
在本发明的一个实施例中，解码器接收的输入信号表达了如图13所示量化子带信号的编码表示。解码器对该编码表示进行解码并识别出这些子带信号中多个频谱分量的值是零，其前面和/或后面是具有非零值的频谱分量。使用如下所述的处理过程，解码器产生对应于零频谱分量的合成频谱分量。合成分量按照比例包络进行调整。该比例包络最好考虑到人类听觉系统的时间隐蔽特征。
图14示出了一种假设的时间心理声学掩蔽阈值。阈值68表示频谱分量67的时间心理声学掩蔽效应。该阈值在频谱分量67左边的部分表示预-时间掩蔽特征，或领先于频谱分量出现的掩蔽。该阈值在频谱分量67右边的部分表示后-时间掩蔽特征，或跟随频谱分量出现的掩蔽。后-掩蔽效应的持续时间通用大大长于预-掩蔽效应。这样的时间掩蔽阈值可以用于导出比例包络的时间形状。
图15的线条48是含有按照基于时间心理声学掩蔽效应的包络调整的合成频谱替代分量的假设子带信号图形。该实施例显示，比例包络是两个单独包络的组合。频谱孔低频部分的单独包络是由阈值68的后-掩蔽部分导出的，频谱孔高频部分的单独包络是由阈值68的预-掩蔽部分导出的。
3.合成分量的产生合成频谱分量可以由多种方法产生。下面说明两种方法，可以采用多种方法。例如，不同方法的选择可以对应于编码信号的特征或者作为频率的函数。
第一种方法产生类似噪声的信号。产生伪噪声信号的很多种方法基本上都可以使用。
第二种方法使用一种称为谱平移或谱复制的技术，从一个或多个频率子带中复制频谱分量。因为较高频率分量通常以某种方式与较低频率分量相联系，所以较低频率的频谱分量通常复制并填充较高频率的频谱孔。但原则上，频谱分量可以复制到较低或较高的频率。
图16中的频谱49一假设音频信号当含有通过谱复制产生的合成频谱分量时的频谱图。谱峰的一部分在频率上下复制了多次以分别填充低频和中间频率的频谱孔。接近频谱高端频谱分量的一部分在频率上方复制并填充了频谱高端的频谱孔。在所示的实例中，复制分量用统一的比例包络进行调整；但是基本上可以采用任何形式的比例包络。
C.编码器前面描述的本发明多个方面可以在不对现存编码器作任何修改的前提下在解码器中实施。如果修改编码器以提供附加的控制信息则可以增强这些方面，否则该信息对解码器是不可靠的。附加的控制信息可以用于修改解码器中合成频谱分量产生和按比例调整的方法。
1.控制信息编码器可以提供多种解码器用于调整合成频谱分量比例包络的比例控制信息。下面说明的每个实例都可以用于整个信号和/或该信号的频率子带。
如果子带包含的频谱分量都大大低于最小量化水平，那么编码器可以为解码器提供指示该状态的信息。该信息可以是一种索引，解码器可以用它从两个或多个缩放比例中选择，或者该信息可以传达某种频谱幅度的度量，如平均或均方根(RMS)功率。解码器可以针对这个信息调整比例包络。
如前所述，解码器可以针对由编码信号本身估计的心理声学掩蔽效应调整比例包络。但是当编码器可以访问那些在编码过程中丢失的信号特征时，就有可能由编码器提供这些掩蔽效应的更佳估计。为此可以由模型13为格式器18提供心理声学信息，否则来自编码信号的信息是不可靠的。使用这种信息，解码器能够调整比例包络以按照一个或多个心理声学标准约束合成频谱分量的形状。
还可以针对信号或子带信号象噪声或象音调的估计调整比例包络。这种估计可以由编码器或者解码器以多种方式进行，但是编码器通常能获得更好的估计。该估计结果可以与编码信号合成在一起。一种估计就是前面描述的SFM。
解码器还可以使用SFM指示选择用于生成合成频谱分量的过程。如果SFM接近于1，可以采用噪声生成技术。如果SFM接近于零，可以采用谱复制技术。
编码器可以针对非零和QTZ频谱分量提供功率的某种指示，如这两个功率的比值。解码器可以计算非零频谱分量的功率，然后使用该比值或其它指示适当调整比例包络。
2.零频谱系数因为在编码信号中量化是零值分量的通用来源，前面的论述有时将零值频谱分量称为QTZ(量化为零)分量。实质上不是这样，基本上任何处理都可能将编码信号中频谱分量的值设置为零。例如，编码器可以在高于该特定频率的每个子带信号中识别出一个或两个频谱分量，然后将那些子带信号的中其它频谱分量设置为零。另外，编码器可以将低于该特定阈值的该特定子带中的所有频谱分量设置为零。结合如前所述本发明各个方面的解码器能够填充不管是哪个处理过程造成的频谱孔。
权利要求
1.一种产生音频信息的方法，其中该方法包括接收输入信号并从中获得一组子带信号，每个子带信号包含代表音频信号的频谱内容的一个或多个频谱分量；在该组子带信号中识别一个特定子带信号，其中的一个或多个频谱分量具有非零值并用具有对应于一个阈值的最小量化水平的量化器将其量化，其中的多个频谱分量的值是零；生成对应于该特定子波带中各零值频谱分量的合成频谱分量，并按照小于或等于阈值的比例包络进行比例调整；通过在该特定子带信号中用合成频谱分量代替相应的零值频谱分量来生成一组修改的子带信号；以及通过将合成滤波器组应用于该修改的子带信号来生成音频信息。
2.权利要求1的方法，其中比例包络是均匀的。
3.权利要求1或2的方法，其中合成滤波器组由在相邻频谱分量之间存在频谱泄漏的块变换实现，比例包络按照一个基本上等于块变换频谱泄漏的衰减率的比率变化。
4.权利要求1至3中任一个的方法，其中合成滤波器组由块变换实现，该方法包括对该组子带信号的一个或多个频谱分量使用频域滤波器；以及由频域滤波器的输出导出比例包络。
5.权利要求4的方法，包括随着频率改变频域滤波器的响应。
6.权利要求1至5中任何一个的方法，包括获得由该组子带信号代表的音频信号音调的度量；以及根据音调的度量适配比例包络。
7.权利要求6的方法，从输入信号中获得音调的度量。
8.权利要求6的方法，包括由零值频谱分量在该特定子带信号中的排列方式导出音调的度量。
9.权利要求1至8中任何一个的方法，其中合成滤波器组由块变换实现，该方法包括从输入信号获得一序列子带信号组；在子带信号组序列中识别出通用子带信号，其中对于序列中的每一组有一个或多个频谱分量是非零值而多个频谱分量的值是零。在通用子带信号中识别出通用频谱分量，其值在序列的多个相邻组中为零，所述多个相邻组或者其前面或后面是具有非零值的通用频谱分量；按照比例包络比例调整对应于零频谱分量的合成频谱分量，比例包络按照人类听觉系统的时间掩蔽特征随序列中的组变化。通过在各组子带信号中用合成频谱分量代替相应的零值频谱分量来生成修改的子带信号组序列；以及通过将合成滤波器组应用于该修改的子带信号组序列来生成音频信息。
10.权利要求1至9中任何一个的方法，其中合成滤波器组由块变换实现，并且该方法通过子带信号中其它频谱分量的谱平移生成合成频谱分量。
11.权利要求1至10中任何一个的方法，其中比例包络按照人类听觉系统的时间掩蔽特征变化。
12.一种生成输出信号的方法，其中该方法包括通过对将分析滤波器组应用于音频信息获得的信息量化来生成一组子带信号，每个子带信号包含代表音频信号频谱内容的一个或多个频谱分量；在该组子带信号中识别一个特定子带信号，其中的一个或多个频谱分量具有非零值并用具有对应于一个阈值的最小量化水平的量化器将其量化，其中的多个频谱分量的值是零；从音频信号的频谱内容中导出比例控制信息，其中比例控制信息控制合成频谱分量的比例以用于合成和代替接收机中的零频谱分量，该接收机响应于输出信号产生音频信息；以及将比例控制信息和代表该组子带信号的信息装配在一起以产生输出信号。
13.权利要求12的方法，包括获得由该组子带信号代表的音频信号音调的度量；以及由音调的度量导出比例控制信息。
14.权利要求12或13的方法，包括获得由该组子带信号代表的音频信号的心理声学掩蔽估计阈值；以及由该心理声学掩蔽估计阈值导出比例控制信息。
15.权利要求12至14中任何一个的方法，包括获得由非零值和零值频谱分量代表的部分音频信号的频谱水平的两个度量；以及由频谱水平的这两个度量导出比例控制信息。
16.一种生成音频信息的装置，其中该装置包括；解格式器，该解格式器接收输入信号并从中获得一组子带信号，每个子带信号包含代表音频信号的频谱内容的一个或多个频谱分量；与该解格式器连接的解码器，该解码器在该组子带信号中识别一个特定子带信号，其中的一个或多个频谱分量具有非零值并用具有对应于一个阈值的最小量化水平的量化器将其量化，其中的多个频谱分量的值是零，该解码器生成分别对应于该特定子波带中零值频谱分量的合成频谱分量，并按照小于或等于阈值的比例包络进行比例调整，该解码器通过在该特定子带信号中用合成频谱分量代替相应的零值频谱分量来生成一组修改的子带信号；以及与该解码器连接的合成滤波器组，响应于该修改的子带信号生成音频信息。
17.权利要求16的装置，其中比例包络是均匀的。
18.权利要求16或17的装置，其中合成滤波器组由在相邻频谱分量之间存在频谱泄漏的块变换实现，比例包络按照一个基本上等于块变换频谱泄漏的衰减率的比率变化。
19.权利要求16至18中任何一个的装置，其中合成滤波器组由块变换实现，该解码器对该组子带信号中的一个或多个频谱分量使用频域滤波器；以及由频域滤波器的输出导出比例包络。
20.权利要求19的装置，其中解码器随着频率改变频域滤波器的响应。
21.权利要求16至20中任何一个的装置，其中解码器获得由该组子带信号代表的音频信号音调的度量；以及根据音调的度量适配比例包络。
22.权利要求21的装置，从输入信号中获得音调的度量。
23.权利要求21的装置，其中解码器由零频谱分量在该特定子带信号中的排列方式导出音调的度量。
24.权利要求16至23中任何一个的装置，其中合成滤波器组由块变换实现以及解格式器从输入信号中获得一个子带信号组序列；解码器在子带信号组序列中识别出通用子带信号，其中对于序列中的每一组有一个或多个频谱分量是非零值而多个频谱分量的值是零，在通用子带信号中识别出通用频谱分量，其值在序列的多个相邻组中为零，所述多个相邻组或者其前面或后面是具有非零值的通用频谱分量，按照比例包络比例调整对应于零频谱分量的合成频谱分量，比例包络按照人类听觉系统的时间掩蔽特征随序列中的组变化，通过在各组子带信号中用合成频谱分量代替相应的零频谱分量生成修改的子带信号序列；以及合成滤波器组根据该修改的子带信号序列生成音频信息。
25.权利要求16至24中任何一个的装置，其中合成滤波器组由块变换实现并且该解码器通过子带信号中其它频谱分量的谱平移生成合成频谱分量。
26.权利要求16至25中任何一个的装置，其中比例包络按照人类听觉系统的时间掩蔽特征变化。
27.一种生成输出信号的装置，其中该装置包括分析滤波器组，该滤波器组根据音频信息生成一组子带信号，每个子带信号包含代表音频信号频谱内容的一个或多个频谱分量；与分析滤波器组连接的量化器，该量化器量化频谱分量；与量化器连接的编码器，该编码器从该组子带信号中识别一个特定子带信号，其中的一个或多个频谱分量具有非零值并用具有对应于一个阈值的最小量化水平的量化器将其量化，其中的多个频谱分量的值是零，该编码器从音频信号的频谱内容中导出比例控制信息，其中比例控制信息控制合成频谱分量的比例以用于合成和代替接收机中的零频谱分量，该接收机产生响应于输出信号的音频信息；以及与该编码器连接的格式器，该格式器通过组合比例控制信息和代表该组子带信号的信息来产生输出信号。
28.权利要求27的装置，获得由该组子带信号代表的音频信号音调的度量；以及由音调的度量导出比例控制信息。
29.权利要求27或28的装置，包括一个建模组件用于获得由该组子带信号代表的音频信号的心理声学掩蔽估计阈值；以及由该心理声学掩蔽估计阈值导出比例控制信息。
30.权利要求27至29中任何一个的装置，获得由非零值和零值频谱分量代表的部分音频信号的频谱水平的两个度量；以及由频谱水平的这两个度量导出比例控制信息。
31.一种媒体，该媒体传送指令程序且对于运行该指令程序并实施生成音频信息方法的装置是可读的，其中该方法包括接收输入信号并从中获得一组子带信号，每个子带信号包含代表音频信号频谱内容的一个或多个频谱分量；从该组子带信号中识别该特定子带信号，其中的一个或多个频谱分量具有非零值并用最小量化水平对应于一个阈值的量化器将其量化，其中的多个频谱分量的值是零；生成分别对应于该特定子波带中零值频谱分量的合成频谱分量，并按照小于或等于阈值的比例包络进行量化；在该特定子带信号中用合成频谱分量代替相应的零频谱分量生成一组修改的子带信号；以及用合成滤波器组针对修改的子带信号生成音频信息。
32.权利要求31的媒体，其中比例包络是均匀的。
33.权利要求31或32的媒体，其中合成滤波器组由在相邻频谱分量之间存在频谱泄漏的块变换实现，比例包络按照一个基本上等于块变换频谱泄漏的衰减比例的比率变化。
34.权利要求31至33中任何一个的媒体，其中合成滤波器组由块变换实现，该方法包括在子带信号中对一个或多个频谱分量使用频域滤波器；以及由频域滤波器的输出导出比例包络。
35.权利要求34的媒体，包括频域滤波器响应的变化是频率的函数。
36.权利要求31至35中任何一个的媒体，其中的方法包括获得由一组子带信号代表的音频信号音调的度量；以及针对音调的度量调整比例包络。
37.权利要求36的媒体，其中的方法从输入信号中获得音调的度量。
38.权利要求36的媒体，其中的方法包括由零频谱分量在该特定子带信号中的排列方式导出音调的度量。
39.权利要求31至38中任何一个的媒体，其中合成滤波器组由块变换实现，该方法包括从输入信号获得一组子带信号；由子带信号序列识别出通用子带信号，其中对于序列中的每一组有一个或多个频谱分量是非零值而多个频谱分量的值是零。由通用子带信号中识别出通用频谱分量，其值在序列的多个相邻组中为零，或者其前面或后面是具有非零值的通用频谱分量；按照比例包络针对零频谱分量调整合成频谱分量，比例包络按照人类听觉系统的时间掩蔽特征随序列中的组变化。在各组子带信号中用合成频谱分量代替相应的零频谱分量生成修改的子带信号序列；以及用合成滤波器组针对修改的子带信号序列生成音频信息。
40.权利要求31至39中任何一个的媒体，其中合成滤波器组由块变换实现并且该方法通过子带信号中其它频谱分量的谱平移生成合成频谱分量。
41.权利要求31至40中任何一个的媒体，其中比例包络按照人类听觉系统的时间掩蔽特征变化。
42.一种媒体，该媒体传送指令程序且对于运行该指令程序并实施生成输出信号方法的装置是可读的，其中该方法包括将分析滤波器组应用于音频信息获得量化信息并用该量化信息生成一组子带信号，每个子带信号包含代表音频信号频谱内容的一个或多个频谱分量；从该组子带信号中识别该特定子带信号，其中的一个或多个频谱分量具有非零值并用最小量化水平对应于一个阈值的量化器将其量化，其中的多个频谱分量的值是零；从音频信号的频谱内容中导出比例控制信息，其中比例控制信息控制合成频谱分量的量化以用于合成和代替接收机中的零频谱分量，该接收机产生对应于输出信号的音频信息；以及将比例控制信息和代表该组子带信号的信息合成在一起以产生输出信号。
43.权利要求42的媒体，其中的方法包括获得由一组子带信号代表的音频信号音调的度量；以及由音调的度量导出比例控制信息。
44.权利要求42或43的媒体，其中的方法包括获得由子带信号代表的音频信号的心理声学掩蔽估计值；以及由该心理声学掩蔽估计值导出比例控制信息。
45.权利要求42至44中任何一个的媒体，其中的方法包括获得由非零值和零值频谱分量代表的部分音频信号频谱水平的两个度量；以及由频谱水平的这两个度量导出比例控制信息。
全文摘要
音频编码过程如量化能够使得编码信号的频谱分量被设置为零，从而在信号中产生频谱孔。这些频谱孔会降低由音频编码系统再生的音频信号的感知质量。一种改进的解码器通过用合成频谱分量填充频谱孔避免或减轻了恶化。一种改进的编码器还可以用于实现解码器的进一步改进。
文档编号G10L19/02GK1662958SQ03813967
公开日2005年8月31日申请日期2003年5月30日优先权日2002年6月17日
发明者迈克尔·M.·杜鲁门, 格兰特·A.·戴维森, 马修·C.·费勒斯, 马克·S.·文顿, 马修·A.·沃森, 查尔斯·Q.·鲁宾逊申请人:杜比实验室特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：迈克尔.M..杜鲁门;格兰特.A..戴维森;马修.C..费勒斯;马克.S..文顿;马修.A..沃森;查尔斯.Q..鲁宾逊
技术所有人：杜比实验室特许公司
我是此专利的发明人