用于使用谐波后置滤波器来处理音频信号的装置及方法与流程

文档序号：11161293阅读：699来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及音频处理，且具体地涉及使用谐波后置滤波器的音频处理。

背景技术：

基于变换的音频编解码器在处理谐波音频信号时，特别是在低比特率时，一般引入间谐波噪声(inter-harmonic noise)。

由于由较短的变换大小和/或较差的窗口频率响应引入的较差的频率分辨率和/或选择性，当基于变换的音频编解码器以低延迟操作时，这种影响进一步恶化。

这种间谐波噪声一般被感知为非常恼人的失真(artifact)，当在高度音音频材料上主观评估时，其显著降低基于变换的音频编解码器的性能。

存在若干种解决方案来改善基于变换的音频编解码器对于谐波音频信号的主观质量。所有这些都以基于预测的技术为基础，无论是在变换域中还是在时域中。

变换域方法的示例如下：

●[1]H.Fuchs，“Improving MPEG Audio Coding by Backward Adaptive Linear Stereo Prediction”，99th AES Convention，New York 1995，Preprint 4086.

●[2]L.Yin，M.Suonio，M.“A New Backward Predictor for MPEG Audio Coding”，103rd AES Convention，New York 1997，Preprint 4521

●[3]Juha MauriLin Yin，“Long Term Predictor for Transform Domain Perceptual Audio Coding”，107th AES Convention，New York 1999，Preprint 5036.

时域方法的示例如下：

●[4]Philip J.Wilson，Harprit Chhatwal，“Adaptive transform coder having long term predictor”，U.S.Patent 5,012,517，April 30，1991.

●[5]Jeongook Song，Chang-Heon Lee，Hyen-O Oh，Hong-Goo Kang，“Harmonic Enhancement in Low Bitrate Audio Coding Using and Efficient Long-Term Predictor”.EURASIP Journal on Advances in Signal Processing 2010.

●[6]Juin-Hwey Chen，“Pitch-based pre-filtering and post-filtering for compression of audio signals”，U.S.Patent 8,738,385，May 27，2014.

技术实现要素：

本发明的目的是提供用于处理音频信号的改善型构思。

通过权利要求1的用于处理音频信号的装置、权利要求12的用于处理音频信号的方法、权利要求13的系统、权利要求17的用于操作系统的方法或权利要求18的计算机程序来实现该目的。

本发明基于如下发现：通过使用具有包括分子和分母在内的传递函数的谐波后置滤波器，可以充分地改善音频信号的主观质量。传递函数的分子包括由发送增益信息指示的增益值，并且分母包括由音调滞后信息指示的音调滞后的整数部分和取决于音调滞后的小数部分的多抽头滤波器。

因此，可以去除由典型的域变化音频解码器引入的作为失真的间谐波噪声。这种谐波后置滤波器的特别有用之处在于其依赖于发送的信息，即在解码器中始终可用的音调增益和音调滞后，因为该信息是经由解码器输入信号从相应的编码器接收的。此外，后置滤波因为以下事实而具有特定的精度：不仅考虑音调滞后的整数部分，而且还考虑音调滞后的小数部分。音调滞后的小数部分可以经由多抽头滤波器特别地引入到后置滤波器中，其中该多抽头滤波器具有实际上取决于音调滞后的小数部分的滤波器系数。该滤波器可以实现为FIR滤波器，或者也可以实现为诸如IIR滤波器之类的任何其他滤波器或不同的滤波器实现。可以通过本发明的后置滤波器概念来有利地改进任何域变化，诸如时间到频率变化或LPC到时间变化或时间到LPC变化或频率到时间变化。然而，优选地，域变化是频率到时间域变化。

因此，本发明的实施例降低了由基于在时域中工作的长期预测器的变换音频编解码器所引入的间谐波噪声。与使用变换编码之前的前置滤波器和变换解码之后的后置滤波器二者的[04]-[6]相比，本发明优选地仅应用后置滤波器。

此外，已经注意到，在[04]-[6]中采用的前置滤波器具有在给予变换编码器的输入信号中引入不稳定性的趋势。这些不稳定性是由于帧之间的增益和/或音调滞后的变化所引起的。变换编码器难以对这种不稳定性进行编码，特别是在低比特率下，并且与没有任何前置或后置滤波器的情况相比，有时在解码信号中将引入更多的噪声。

优选地，本发明根本不采用任何前置滤波器，因此完全避免了涉及前置滤波器的问题。

此外，本发明依赖于在变换编码之后应用于解码信号的后置滤波器。该后置滤波器基于考虑音调滞后的整数部分和小数部分的长期预测滤波器，这减少了由变换音频编解码器引入的间谐波噪声。

为了更好的鲁棒性，后置滤波器参数音调滞后和音调增益在编码器侧被估计，并在比特流中被发送。然而，在其他实现中，还可以基于由音频解码器获得的解码音频信号在解码器侧估计音调滞后和音调增益，其中所述音频解码器包括用于将音频信号的频率表示转换为音频信号的时域表示的频率-时间转换器。

在优选实施例中，分子还包括用于音调滞后的零小数部分的多抽头滤波器，以便补偿由分母中的多抽头滤波器引入的取决于音调滞后的小数部分的频谱倾斜。

优选地，后置滤波器被配置为抑制帧中谐波之间的能量的量，其中抑制的能量的量小于帧中的时域表示的总能量的20％。

在另一实施例中，分母包括多抽头滤波器和增益值之间的乘积。

在另一实施例中，滤波器分子还包括第一标量值和第二标量值的乘积，其中分母仅包括第二标量值而非第一标量值。这些标量值被设置为预定值，并且具有大于0且小于1的值；并且另外，第二标量值低于第一标量值。因此，可以以非常有效的方式来设置通常不期望的能量移除特性，并且附加地设置滤波器强度，即滤波器对变换域解码器输出信号中的间谐波失真加以衰减的强度。

在优选实施例中，该装置还包括滤波器控制器，用于根据比特率来设置至少第二标量值，使得对较低比特率设置较高的值，反之亦然。

此外，滤波器控制器被配置为根据音调滞后的小数部分以信号相关的方式来选择相应的多抽头滤波器，以便信号自适应地(即依赖于实际提供的音调滞后的小数部分值)设置谐波后置滤波器。

附图说明

以下在附图的上下文中讨论本发明的优选实施例，附图中：

图1示出了用于对音频信号进行处理的本发明装置的实施例；

图2示出了表示为z域中的传递函数的谐波后置滤波器的优选实现；

图3示出了由z域中的传递函数表示的谐波后置滤波器的另一优选实施例；

图4示出了用于生成要由图1所示的变换域音频解码器来解码的编码信号的编码器的优选实现；

图5示出了作为由滤波器控制器控制的FIR滤波器的多抽头滤波器的优选实现；

图6示出了滤波器控制器和具有根据小数部分预先存储的抽头权重的存储器之间的协作；

图7a示出了具有零α值的滤波器的频率响应；

图7b示出了α值等于1的优选谐波后置滤波器的频率响应；

图7c示出了α值为0.8的优选谐波后置滤波器的频率响应；

图8a示出了β值等于0.4的谐波后置滤波器的优选实施例；以及

图8b示出了β值为0.2的谐波后置滤波器的频率响应。

具体实施方式

图1示出了用于处理具有相关联的音调滞后信息和增益信息的音频信号的装置。该增益信息可以经由接收编码信号的解码器输入102被发送到解码器100，或者备选地，当该信息不可用时，可以在解码器本身中计算该信息。然而，对于更鲁棒的操作，优选地在编码器侧计算音调滞后信息和音调增益信息。

解码器100包括例如用于将音频信号的频率-时间表示转换为音频信号的时域表示的频率-时间转换器。因此，解码器不是纯时域语音编解码器，而包括纯变换域解码器或混合变换域解码器或在与时域不同的域中操作的任何其他编码器。此外，优选地，第二域是时域。

该装置还包括用于对音频信号的时域表示进行滤波的谐波后置滤波器104，并且该谐波后置滤波器基于包括分子和分母在内的传递函数。具体地，分子包括由增益信息指示的增益值，并且分母包括由音调滞后信息指示的音调滞后的整数部分，以及重要地，还包括取决于音调滞后的小数部分的多抽头滤波器。

图2中示出了具有传递函数H(z)的该谐波后置滤波器的优选实现。该滤波器接收解码器输出信号106，并让该解码输出信号经过后置滤波操作以获得后置滤波输出信号108。该后置滤波输出信号可以作为处理信号输出，或者可以通过用于去除由后置滤波操作引入的任何不连续性的任何过程来进一步处理，当然，该后置滤波操作是信号相关的，即，可以逐帧地变化。该不连续性去除操作可以是任何公知的不连续性去除操作，例如交叉衰落(cross-fading)，这意味着较早的帧被淡出并且同时新的帧被淡入，并且优选地，衰落特性使得在整个交叉衰落操作中各衰落因子加起来为一。然而，也可以应用诸如低通滤波或LPC滤波之类的其他不连续性去除。

图1所示的用于处理音频信号的装置还包括多抽头滤波器信息存储器112和滤波器控制器114。具体地，滤波器控制器114从解码器100接收边信息(side information)116，并且该边信息例如可以是音调增益信息g和音调滞后信息，即，关于音调滞后的整数部分T_int和音调滞后的小数部分T_fr的信息。该信息对于逐帧地设置谐波后置滤波器以及附加地对于选择多抽头滤波器信息B(z，T_fr)是有用的。此外，诸如由解码器应用的比特率或解码信号下的采样率之类的附加信息也可以由滤波器控制器114使用，以便尤其是相对于比特率和采样率来设置用于特定编码器和/或解码器设置的标量值α、β。

图2示出了本领域中已知的z域中的滤波器传递函数H(z)的极(pole)/零表示。自然地，存在全部是滤波器表示的谐波后置滤波器的许多其他表示，其可以被转换为z域中的这种极/零表示。因此，本发明可应用于可通过如说明书中所示的这种传递函数以任何方式描述的每个滤波器。

图3示出了谐波后置滤波器的优选实施例，其再次被描述为z域中的极/零表示法中的传递函数。

该滤波器可以被如下描述：

其中，g是解码增益，T_int和T_fr是解码音调滞后的整数和小数部分，α和β是对增益进行加权的两个标量，并且B(z，T_fr)是其系数取决于解码音调滞后的小数部分的低通FIR滤波器。

注意到，H(z)的分子中的B(z，0)用于补偿由B(z，T_fr)引入的倾斜。

β用于控制后置滤波器的强度。β等于1产生全效，从而抑制谐波之间的最大可能量的能量。β等于0禁用后置滤波器。一般，相当低的值被用于不抑制谐波之间太多的能量。该值还可以取决于比特率，在较低比特率时具有较高值，例如，低比特率时为0.4，高比特率时为0.2。

α用于向H(z)的频率响应添加轻微的倾斜，以便补偿能量在低频中的轻微损失。α的值一般选为接近1，例如0.8。

图6中给出了B(z，T_fr)的示例。B(z，T_fr)的阶数和系数还可以取决于比特率和输出采样率。可以针对比特率和输出采样率的每个组合来设计和调谐不同的频率响应。

具体地，已经发现甚至0.6和小于1.0之间的α的值也是有用的，并且附加地，0.1和0.5之间的β值也已被证明是有用的。

此外，多抽头滤波器可以具有可变数量的抽头。已经发现，对于某些实现，四个抽头是足够的，其中一个抽头是z⁺¹。然而，仅具有两个抽头的较小滤波器或者甚至具有多于四个抽头的更大滤波器对于某些实现是有用的。

图6示出了针对音调滞后的不同小数值的滤波器B(z)的优选实现，特别是针对1/4的音调滞后分辨率。对于该实现，示出了对于谐波后置滤波器的传递函数的分母中的多抽头滤波器的四个不同的滤波器描述。然而，已经发现，滤波器系数不必精确地指示图6中所示的值，而是+/-0.05的某些变化也可在其他实现中是有用的。

具体地，如图1中所示，将图6中所示的抽头权重存储在用于多抽头滤波器信息的存储器112内。滤波器控制器114从图1的线116接收小数部分T_fr，并且响应于该值，寻址存储器112，以便经由检索线200来检索用于音调滞后的特定小数部分的特定滤波器信息。然后，该信息经由输出线202被转发到谐波后置滤波器104，使得谐波后置滤波器被正确地设置。图5中示出了多抽头FIR滤波器的特定实现。权重指示w₁至w₄对应于图6中的符号，并且滤波器控制器114响应于音调滞后的实际小数部分而应用特定音频帧的对应权重。诸如延迟部分501、502、503和组合器505之类的其他部分可以如图所示地实现。在此上下文中，强调的是，延迟值501在z符号中是负延迟值，因为已经发现除了诸如503和504之类的正延迟值之外还具有负延迟值的FIR滤波器表示是特别有用的。

随后，图4中示出了具有某些功能块并且在没有任何前置滤波器的情况下操作的优选编码器实现。图4中示出的滤波器部分包括音调估计器402、音调求精器404、小数部分估计器406、瞬态检测器408、增益估计器410和增益量化器412。由增益量化器412、小数部分估计器406、音调求精器404提供的信息和由瞬态检测器408生成的判定比特(decision bit)被输入到编码信号形成器414中。编码信号形成器提供编码信号102，其随后被输入到图1所示的解码器100中。编码信号102将包括图4中未示出的附加信号信息。

随后，描述音调估计器402的功能。

估计每帧的一个音调滞后(整数部分+小数部分)(帧大小，例如20ms)。这通过3个步骤来实现，以降低复杂性并提高估计精度。

使用产生平滑音调演进轮廓的音调分析算法(例如在Rec.ITU-T G.718的第6.6节中描述的Open-loop pitch analysis(开环音调分析))。该分析一般逐子帧(子帧大小，例如10ms)进行，且产生每子帧一个的音调滞后估计。注意，这些音调滞后估计不具有任何小数部分，并且一般针对下采样信号(采样率，例如6400Hz)进行估计。所使用的信号可以是任何音频信号，例如在Rec.ITU-T G.718的第6.5节中描述的LPC加权音频信号。

音调求精器如下操作：

针对以核心编码器采样率运行的音频信号x[n]来估计音调滞后的最终整数部分，该核心编码器采样率一般高于在a中使用的下采样信号的采样率(例如12.8kHz、16kHz、32kHz...)。信号x[n]可以是任何音频信号，例如LPC加权音频信号。

音调滞后的整数部分则是使得自相关函数最大化的滞后d_m

其中，d在步骤1.a中估计的音调滞后T附近。

T-δ₁≤d≤T+δ₂

小数部分估计器406如下操作：

通过对在步骤2.b中计算的自相关函数C(d)进行插值并选择使得插值后的自相关函数最大化的小数音调滞后，来找到小数部分。可以使用例如在Rec.ITU-T G.718的第6.6.7节中描述的低通FIR滤波器来执行插值。

图4中所示的瞬态检测器408被配置为生成判定比特。

如果输入音频信号不包含任何谐波含量，则在比特流中没有参数被编码。只发送1比特，使得解码器知晓其是否必须对后置滤波器参数进行解码。基于以下若干参数进行判定：

a.在步骤1.b中估计的整数音调滞后处的归一化相关。

如果输入信号可由整数音调滞后所完美预测，则归一化相关为1，如果根本不可预测，则归一化相关为0。然后，高值(接近1)将指示谐波信号。对于更鲁棒的判定，还可以在判定中使用过去帧的归一化相关，例如：

如果(norm.corr(curr.)*norm.corr.(prev.))＞0.25，则当前帧包含某些谐波含量(比特＝1)

b.由瞬态检测器计算的特征(例如，时间平坦度(Temporal flatness)测量、最大能量变化)，以避免对包含瞬态的信号激活后置滤波器，例如：

如果(tempFlatness＞3.5或maxEnergychange＞3.5)，则设置比特＝0，并且不发送任何参数。

此外，增益估计器410计算要输入到增益量化器412中的增益。

一般以核心编码器采样率针对输入音频信号来估计增益，但是它也可以是像LPC加权音频信号的任何音频信号。该信号记为y[n]，并且可以与x[n]相同或不同。

首先通过使用以下滤波器对y[n]进行滤波来找到y[n]的预测y_P[n]

其中，T_int是(在1.b中估计的)音调滞后的整数部分，并且B(z，T_fr)是其系数取决于(在1.c中估计的)音调滞后T_fr的小数部分的低通FIR滤波器。

当音调滞后分辨率为1/4时B(z)的一个示例如下：

然后，如下计算增益g：

并且限制在0和1之间。

最后，使用例如均匀量化，在例如2比特上对增益进行量化。

如果增益被量化为0，则在比特流中没有参数被编码，只有一个判定比特(比特＝0)。

如前所述，后置滤波器在变换解码器之后应用于输出音频信号。它逐帧处理信号，且与在编码器侧使用的相同的帧大小，例如20ms。如图所示，它基于长期预测滤波器H(z)，长期预测滤波器H(z)的参数是根据在编码器侧估计的并且从比特流中解码的参数来确定的。该信息包括判定比特、音调滞后和增益。如果判定比特为0，则音调滞后和增益不被解码，并且被假设为0，根本未被写入比特流中。

如所讨论的，如果滤波器参数从一个帧到下一个帧不同，则可在两个帧之间的边界处引入不连续性。为了避免不连续性，应用不连续性去除器，例如交叉衰落器或用于该目的的任何其他实现。

此外，图7a至图8b中示出了用于设置谐波后置滤波器的若干种不同方式。曲线图示出了频域传递函数。横轴与归一化频率1相关，且纵轴是以dB为单位的滤波器响应的幅度。要强调的是：在除图7b以外的所有图示中，滤波器对低频引入放大，即特定正dB幅度值。

具体地，图7a示出了实现图3中的滤波器的传递函数，具有如上所示的特定参数值。此外，α值(即第一标量值)被设置为0。图7b示出了类似情况，但是现在α值等于1。其他参数与图7a相同。

图7c示出了α等于0.8的另一实现，其具有轻微的倾斜以及较低频率的提升。再次，图7具有与图7a所示相同的其他参数。变得清楚的是，α等于1去除了倾斜，并且所有谐波频率的增益为1。这种设置的缺点是在谐波之间的频率处的能量损失。因此，优选地，如图7c所示，α的值等于0.8。与图7b的α等于1的情况相比，该值添加了轻微的倾斜。为了补偿谐波之间的频率处的能量损失，优选地使用这种轻微的倾斜。

此外，图8a和图8b示出了针对α的值等于0.8和不同β值(即，图8a中的β值为0.4，图8b中的β值为0.2)的滤波器设置。变得清楚的是，与0.2的β值相比，0.4的β值具有更强的后置滤波效果，且因此在较低比特率处使用0.4的β值，以去除由这样的低比特率引入的间谐波噪声。

另一方面，β等于0.2对于抑制谐波之间的能量具有没那么强的效果，因此，由于在这种较高比特率处并不存在如此多的间谐波噪声的事实，该β值对于高比特率是优选的。

虽然已经在装置的上下文中描述了一些方面，但是将清楚的是，这些方面还表示对相应方法的描述，其中，框或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对相应装置的相应块或项或者特征的描述。可以由(或使用)硬件装置(诸如，微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中，可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。

本发明的经发送或经编码的信号可以存储在数字存储介质上或可以在诸如无线发送介质或有线发送介质之类的发送介质(例如，互联网)上发送。

取决于某些实现要求，可以在硬件中或在软件中实现本发明的实施例。可以通过使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、Blu-Ray、CD、ROM、PROM和EPROM、EEPROM或闪存)来执行所述实现方案，所述控制信号与可编程计算机系统合作(或能够与之合作)，使得执行各个方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。

一般地，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的计算机程序，该计算机程序用于执行本文所述的方法之一。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本发明方法的另一实施例是数据载体(或诸如数字存储介质或计算机可读介质之类的非暂时性存储介质)，包含记录于其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非暂时性的。

因此，本发明方法的另一实施例是表示用于执行本文所述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传送。

另一实施例包括处理装置，例如，被配置为或适用于执行本文所述的方法之一的计算机或可编程逻辑器件。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

根据本发明的另一实施例包括被配置为向接收机(例如，以电子方式或以光学方式)传输计算机程序的装置或系统，该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。该装置或系统可以例如包括用于向接收机传输计算机程序的文件服务器。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。

上述实施例对于本发明的原理仅是说明性的。应当理解的是：本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：以马利·拉韦利;克里斯汀·赫姆瑞希;戈兰·马尔科维奇;马蒂亚斯·诺伊辛格;萨沙·迪施;曼努埃尔·扬德尔;马丁·迪茨;
技术所有人：弗劳恩霍夫应用研究促进协会;
我是此专利的发明人

上一篇：声音处理装置、声音处理方法及程序与制造工艺
上一篇：用于在音频处理装置处切换取样率的概念的制造方法