利用自适应滤波改善高频重建编码方法的感知性能的制作方法

文档序号：2823857阅读：210来源：国知局

专利名称：利用自适应滤波改善高频重建编码方法的感知性能的制作方法
技术领域：
本发明涉及一种音源编码系统，该系统利用了高频重建(HFR)如谱带复制，SBR[WO 98/57436]或相关方法。它改善了高质量方法(SBR)以及低质量方法[U.S.Pat.5127054]的性能。它可以应用在语音编码和自然音频编码系统中。
背景技术：
音频信号的高频重建是指由(信号的)低频带估算出高频带，在高频重建中，重要的是要有能够控制重建高频带中的音频成分的装置，它应该比HFR系统中常用的粗略包络调节在更大程度上实现对音频成分的控制。这一点是很有必要的，因为对于大多数音频信号如语音信号以及大多数声学设备来说，在低频区域(也就是低于4-5kHz)音频成分比在高频区域中要强。一个极端的例子是在低频带中为发音很明显的一系列谐音，在高频带中就差不多成了纯粹的噪声。实现这一点的一种途径是自适应地向重建高频带中加入噪声(自适应噪声添加[PCT/SE00/00159])。然而，有时这样做不足以抑制低频带的音频特性，使得重建的高频带具有重复的“嗡嗡”声。另外，也很难正确地实现噪声的时间特性。当两个谐音序列，一个具有高调谐密度(低音调)而另一个具有低调谐密度(高音调)，被混合在一起时，会出现另一个问题。如果高音调谐音序列在低频带中相对于另一个谐音序列占优势，但在高频带中却非如此，那么HFR会使得高音调信号的谐音占据高频带，造成重建的高频相对于原始信号听起来更像“重金属”。上述的情况都不能利用HFR系统中所常用的包络调节的方法加以控制。在一些实施例中，在对HFR信号进行谱包络调节期间，引入一个固定度数的频谱白化。对某一特定度数的频谱白化，这样做能产生满意的结果，但却向不能受益于该特定度数的频谱白化的信号片断中引入了严重的人为噪声。

发明内容
本发明涉及高频重建(High Frequency Reconstruction)方法中常常会引入的“嗡嗡作响”及“重金属”声音的问题。它在编码器端使用一种复杂的检验算法来估算应该应用于解码器中的频谱白化的优选量。频谱白化随着时间和频率而改变，保证以最佳方法来控制复制的高频带中的谐音内容。本发明可以在一个时域实施方式中实现，也可以在子带滤波器组实施方式中实现。
本发明具有以下特性●在编码器中，估算原始信号在给定时刻对于不同频率区域的音频特性。
●在编码器中，在给定了解码器中所使用的HFR方法的情况下，估算在给定时刻不同频率区域所需的频谱白化量，以便在解码器的HFR之后获取相似的音频特性。
●把关于频谱白化优选度数的信息从编码器发送给解码器。
●在解码器中，根据编码器发送来的信息，在时域或是子带滤波器组中执行频谱白化。
●解码器中用于频谱白化的自适应滤波器是利用线性预测获得的。
●所需要的频谱白化度数是在编码器中通过预测来估定的。
●对频谱白化度数的控制是通过改变预测器阶数、或是改变LPC多项式的带宽扩展系数、或是将经过滤波的信号与未经处理的配对信号以给定的程度混合起来而实现的。
●使用子带滤波器组来实现低阶预测器的能力提供了非常高效的实施方式，特别是在已经使用滤波器组进行包络调节的系统中。
●有了本发明中新颖的滤波器组实施方式，就很容易获取具有频率选择性的频谱白化度数。

下面将参照附图，以图示例子的方式描述本发明，但并不限制本发明的范围或指导思想，其中图1示出了一个LPC频谱的带宽扩展；图2示出了一个原始信号在时刻t0和时刻t1的绝对频谱；图3示出了一种未使用自适应滤波的已有技术复制型HFR系统的输出在时刻t0和时刻t1的绝对频谱；图4示出了根据本发明使用了自适应滤波的复制型HFR系统的输出在时刻t0和时刻t1的绝对频谱；图5a示出了相应于本发明的最差情况的信号；图5b示出了最差情况信号的高频带与低频带的自相关；图5c示出了依照本发明对于不同频率的音频-噪声比例q；图6示出了依照本发明的解码器中自适应滤波的时域实施方式；图7示出了依照本发明的解码器中自适应滤波的子带滤波器组
具体实施例方式
下述实施例只是举例说明了本发明用于改进高频重建系统的原理。可以理解，对于那些精通本技术的人而言，很明显可以对这里所述的结构配置与细节进行改进与变化。因此，我们意图仅受限于后面的专利权利要求范围，而不受限于这里通过描述与说明所提供的具体细节。
当调节一个信号的频谱包络使之成为某个指定的频谱包络时，通常会应用一定量的频谱白化。如果用HenvRef(z)来表示发射的未经处理的频谱包络，而用HenvCur(z)来表示当前信号片断的频谱包络，那么应用的滤波器函数应该是W(z)=HenvRef(z)HenvCur(z)........(1)]]>在本发明中，对于HenvRef(z)的频率分辨率不必与HenCur(z)相同。本发明将HenvCur(z)的自适应频率分辨率用于HFR信号的包络调节中。用HenvCur(z)的反向滤波器对信号片断进行滤波，以便根据方程1对信号进行频谱白化。如果HenvCur(z)是利用线性预测获得的，那么可以用下式说明HenvCur(z)=GA(z).......(2)]]>其中A(z)=1-Σk=1Pαkz-k.........(3)]]>是利用自相关方法或协方差方法[Digital Processing of SpeechSignal，Rabiner & Schafer，Prentice Hall，Inc.，Englewood Cliffs，NewJersey 07632，ISBN 0-13-213603-1，Chapter 8]获得的多项式，G是增益。给出该式以后，就可以通过改变预测器阶数来控制频谱白化的度数，也就是限制多项式A(z)的阶数，从而限制了HenvCur(z)所能描述的细微结构的数量；或是通过向多项式A(z)应用一个带宽扩展系数来实施控制。带宽扩展是如下定义的如果带宽扩展系数是ρ，那么可以求得多项式A(z)为A(ρz)＝a0z0ρ0+a1z1ρ1+a2z2ρ2+...+aPzPρP(4)这样就如图1中所示地扩展了HenvCur(z)估算出来的共振峰的带宽。因此，依照本发明的反向滤波器可以用下式进行描述Hinv(z,p,ρ)=1-Σk=1Pαk(zρ)-kG..........(5)]]>
其中P是预测器阶数，而ρ是带宽扩展系数。
如上所述，系数αk可以多种不同方式获取，比如自相关方法或是协方差方法。如果在常规包络调节之前使用Hinv，那么增益系数G可以被设置为1。一般的做法是向估算中加入某种松弛条件，以保证系统的稳定性。在使用自相关方法时，可以通过偏置相关向量的零相位延迟值轻松地实现这一点。这相当于向被用来估算A(z)的信号中加入固定水平的白噪声。参数P和ρ都是根据编码器传送来的信息计算出来的。
另一种带宽扩展的方法可以是Ab(z)＝1-b+b·A(z) (6)其中b是混合系数。这样就产生了以下自适应滤波器Hinv(z,p,b)=1-b+b·(1-Σk=1Pαk(z)-k)G........(7)]]>很明显，当b＝1时，方程7等价于ρ＝1时的方程5，而当b＝0时，方程7等价于一个恒定的非频率选择性的增益系数。
本发明以非常低的额外比特率为代价，极大地提高了HFR系统的性能，这是由于在解码器中要用到的白化度数的信息可以非常高效地被传送。图2-4利用绝对频谱的图示，展示出使用了本发明的系统与未使用本发明的系统之间性能的对比。在图2中，示出了原始信号在时刻t0和时刻t1的绝对频谱。很明显，在时刻t0信号的低频带与高频带中的音频特性相似，而在时刻t1就相差甚远。在图3中，示出了使用基于复制的而且不带有本发明的HFR的系统在时刻t0和时刻t1的输出。这里没有使用频谱白化，它在时刻t0给出了正确的音频特性，而在时刻t1则完全错误。这样会引起令人讨厌的人为噪声。任何固定度数的频谱白化也会得到类似的结果，但产生的人为噪声将具有不同的特性，而且会出现在不同的阶段。在图4中示出了使用本发明的一个系统在时刻t0和时刻t1的输出。很明显，这里的频谱白化量会随时间而改变，从而带来了远好于未使用本发明的系统的音质。
编码器端的检测器在本发明中，用编码器端的一个检测器来确定解码器中所应使用的最佳频谱白化度数(LPC阶数、带宽扩展系数以及/或混合系数)，以便在给定了当前使用的HFR方法的情况下，获得与原始信号尽可能相似的高频带。可以使用多种方法来获取对于解码器中应该应用的频谱白化度数的正确估计。在下面的说明中，假定HFR算法在生成高频期间不会显著改变低频带频谱的音频结构，也就是说，所生成的高频带具有与低频带相同的音频特性。如果这种假定不能成立，那么可以利用综合分析来执行以下检测，也就是说，在编码器中对原始信号执行HFR，并对两个信号的高频带进行比较研究，而不是对原始信号的低频带和高频带进行比较研究。
一种方法是利用自相关来估算适当的频谱白化量。检测器为源范围(也就是解码器中HFR基于的频率范围)以及目标范围(也就是在解码器中要重建的频率范围)估算出自相关函数。在图5a中示出了一个最差情况信号，在它的低频带中是谐音序列而在高频带中则是白噪声。图5b中示出了不同的自相关函数。很明显，这里的低频带高度相关，而高频带则非如此。对于任何大于某个最小延时的延时，分别获取高频带以及低频带的最大相关值。这两个数值的商被用来计算解码器中应该使用的最佳频谱白化度数。当实施上面所描述的本发明时，最好用FFT来进行相关计算。序列x(n)的自相关被定义为rxx(m)＝FFT-1(|X(k)|2) (8)其中X(k)＝FFT(x(n)) (9)由于目标在于比较高频带与低频带中自相关的差别，因此可以在频域进行滤波。这样就产生了其中HLp(k)和HHp(k)是LP和HP滤波器冲击响应的傅立叶变换。
由上式可如下计算出低频带与高频带的自相关函数对大于最小延时的延时，各个自相关向量的最大值如下计算这两者的比例可直接被用作合适的带宽扩展系数。
以上说明了估算一个可预测性的通用量度—也就是指定时刻在给定频段中的音频-噪声比例—是有好处的，以便获取一个在指定时刻用于给定频段的正确的反向滤波电平。这也可以利用下述更精确的方法实现。这里假定使用了子带滤波器组，但是可以理解本发明并不局限于此。
一个滤波器组的各个子频带的音频-噪声比例q可以通过对子带样本段进行线性预测来定义。大的q值表示有大量的音频，而小的q值则表示在相应的时间和频率上信号类似于噪声。q值可以利用协方差方法以及自相关方法获取。
对于协方差方法而言，对子带信号段[x(0)，x(1)，...，x(N-1)]的线性预测系数和预测误差可以通过Cholesky分解[Digital Processing ofSpeech Signal，Rabiner & Schafer，Prentice Hall，Inc.，EnglewoodCliffs，New Jersey 07632，ISBN 0-13-213603-1，Chapter 8]有效地计算出来。音频-噪声比例q被定义为q=ψ-EE..............(13)]]>
其中＝|x(0)|2+|x(1)|2+...+|x(N-1)|2是信号段的能量，E是预测误差段的能量。
对于自相关方法而言，更自然的方法是使用Levinson-Durbin算法[Digital Signal Processing，Principles，Algorithms and Applications，Third Edition，John G.Proakis，Dimitris G.Manolakis，Prentice Hall，International Editions，ISBN-0-13-394338-9，Chapter 11]，其中q被定义为q=(Πi=1P(1-|Ki|2))-1-1..........(14)]]>其中Ki是从预测多项式中获取的相应网格滤波器结构的反射系数，P是预测器阶数。
高频带与低频带值之间的比例q被用来调节频谱白化度数，使得重建高频带的音频-噪声比例接近原始高频带。这里利用混合系数b来控制白化度数是很方便的(方程6)。
假定在高频带测得音频-噪声比例q＝qH，而在低频带测得q＝qL≥qH，那么合适的白化系数b应该由下式给出b=1-qHqL.............(15)]]>要理解该式，第一步先要把方程6写成下列形式Ab(z)＝A(z)+(1-b)(1-A(z)) (16)这表示如果被用来估算A(z)的信号经过滤波器Ab(z)的滤波，那么预测信号就会受到增益系数1-b的抑制，而预测误差则不会被改变。由于音频-噪声比例是预测信号均方值与预测误差均方值的比值，滤波之前的q值会在滤波处理之后变为(1-b)2q。对低频带信号使用该滤波处理会产生音频-噪声比例为(1-b)2qL的信号，而且在所应用的HFR方法不会改变音频的假定下，如果根据方程15选择b，就能达到高频带中的目标值qH。
在图5c中示出了对应于图5a中所示信号的一个64通道滤波器组中各个子频带基于预测阶数p＝2的q值。在谐音部分达到的值显著高于噪声部分所达到的值。谐音部分中估算的可变性归因于所选择的频率分辨率和预测阶数。
时域中基于LPC的自适应白化解码器中的自适应滤波可以在高频重建之前或之后进行。如果在HFR之前进行滤波，那么就要考虑所用的HFR方法的特性。当进行频率选择性的自适应滤波时，系统必须推算出从什么样的低频带区域可以建立起某个特定的高频带区域，以便在HFR单元之前对那个低频带区域施加正确的频谱白化量。在下面所述的本发明的时域实施方式的例子中，简要说明了一种非频率选择性的频谱白化。对于精通本技术的人来说很明显的是，本发明的时域实施方式并不局限于下述的实施例。
在时域进行自适应滤波时，优先选择使用自相关方法的线性预测。自相关方法需要对用来估算系数αk的输入段进行加窗，而协方差方法不需要。根据本发明，用于频谱白化的滤波器是Hinv(z,p,ρ)=1-Σk=1Pαk(zρ)-k..........(19)]]>其中增益系数G(方程5中)被设置为1。如果在HFR单元之前进行自适应频谱白化，那么自适应滤波器就能工作在较低的采样率上，从而实现一种高效的实施方式。根据图6，低频带信号在适当的时间基础上被加窗和滤波，预测器阶数与带宽扩展系数都由编码器提供。在本发明的本实施例中，信号被低通滤波601及抽取602。603示出了自适应滤波器。窗606被用来为估算多项式A(z)选取合适的时间段，其中使用了50％的叠加。LPC程序607结合给定的当前优选LPC阶数以及带宽扩展系数、并加入适当的松弛(条件)来提取A(z)。FIR滤波器608被用来对信号段进行自适应性的滤波。对经过频谱白化的信号段进行升采样率处理604、605并加窗，一同形成HFR单元的输入信号。
子带滤波器组中基于LPC的自适应白化利用滤波器组可以高效可靠地实现自适应滤波。对于滤波器组产生的各个子带信号分别独立地进行线性预测和滤波。子带信号的混叠部分受到抑制，所以用滤波器组是很有利的。这可以通过例如对滤波器组进行过采样来实现。混叠所引起的人为噪声是从对子带信号进行的独立改变中出现的，比如是由自适应滤波导致的，这些噪声可以被极大地消除。对于子带信号的白化是通过与上述时域方法类似的线性预测获得的。如果子带信号是复数值的，那么就要在线性预测和滤波中使用复系数。因为对于具有合理的滤波器组通道数量的系统来说，预计各个频带内的音频成分数量都非常小，所以线性预测的阶数可以保持得非常低。为了与时域LPC对应于相同的时基，各个片断内的子带样本数量要小一个与滤波器组的降采样率系数相等的因子。给定了低滤波器阶数和小片断长度时，最好利用协方差方法来取得预测滤波器系数。滤波器系数计算和频谱白化可以用子带采样时间步长L在一个片断一个片断的基础上实现，该步长L小于片断长度N。经过频谱白化的片断应该用合适的综合窗叠加到一起。
把白高斯噪声构成的输入信号送入一个最大抽取滤波器组，就能产生具有白化频谱密度的子带信号。将白噪声送入过采样的滤波器组，就能产生有色频谱密度的子带信号。这是由解析滤波器的频率响应造成的效果。当输入了类似于噪声的信号时，滤波器组通道中的LPC预测器能够追踪滤波器的特性。这是一种不需要的特性，并能从补偿中受益。一种可能的解决方案是对线性预测器的输入信号进行预滤波。线性滤波应该是解析滤波器的反向或是近似反向滤波，以便补偿解析滤波器的频率响应。如上所述，原始子带信号被送入白化滤波器。图7示出了子带信号的白化过程。对应于通道l的子带信号被送入预滤波模块701，然后被送入一个延时链，延时链的深度取决于滤波器阶数702。延时后的信号以及它们的共轭703被送入线性预测模块704，在该模块中计算出系数。每第L个计算结果的系数被抽取器705保留下来。子带信号最终通过滤波器模块706滤波，其中对每第L个样本使用并更新预测系数。
实用实施方式本发明可以使用特定的编译码器在硬件芯片及DSP中实现，用于各种不同的系统，以及用于模拟或数字信号的储存与传输。图8和图9示出了本发明一种可行的实施方式。在图8中示出了编码器一端。模拟输入信号先被送入A/D转换器801，再被送入特定的音频编码器802，以及反向滤波电平估算单元803和包络提取单元804。编码后的信息被复合成一路串行比特流805，并被传输与储存。在图9中示出了一种典型的解码器实施例。串行比特流被解除复合901，包络数据—也就是高频带的频谱包络—也被解码902。利用特定的音频解码器对解复后的源编码信号进行解码903。解码后的信号被送入频谱白化单元905，该单元执行自适应频谱白化。随后，信号被送入包络调节器906。包络调节器的输出与经过一个延时的解码信号合并在一起907。最后，数字输出被转换回模拟波形908。
权利要求
1.一种用于改进利用了高频重建的音源编码系统的方法，其中所述的音源编码系统包括一个编码器，它代表了储存或传输之前进行的所有处理；还包括一个解码器，它代表了储存或传输之后进行的所有处理，该方法的特征在于在所述的编码器，估算某一给定时刻原始信号的音频特性；以及在所述的编码器，估算某一给定时刻所需的频谱白化量，以便在给定了所述解码器中所用的HFR方法的情况下，在所述解码器中HFR之后获得相似的音频特性；将所述的频谱白化量从所述的编码器传送给所述的解码器；在所述的解码器，在高频重建(HFR)之前或之后，根据从所述编码器获取的频谱白化信息，自适应地对信号进行频谱白化。
2.根据权利要求1所述的一种方法，其特征在于所述的对原始信号音频特性的估算是对不同的频率区域进行的。
3.根据权利要求1所述的一种方法，其特征在于所述的对所需要的频谱白化量的估算是对不同的频率区域进行的。
4.根据权利要求1所述的一种方法，其特征在于所述的频谱白化是在时域中进行的。
5.根据权利要求1所述的一种方法，其特征在于所述的频谱白化是在子带滤波器组中进行的。
6.根据权利要求1所述的一种方法，其特征在于所述的对所需要的频谱白化量的估算是通过比较不同子带信号的音频-噪声比例q进行的，子带信号是对所述的原始信号进行子带滤波而获取的，其中所述的比例是通过对所述子带信号进行线性预测而获得的。
7.根据权利要求1所述的一种方法，其特征在于所述的对所需要的频谱白化量的估算是通过比较不同子带信号的音频-噪声比例q进行的，子带信号是对所述的原始信号及一个HFR信号进行子带滤波而获取的，其中所述的比例是通过对所述子带信号进行线性预测而获得的，而所述的HFR信号是以与所述解码器中的所述HFR相同的方式产生的。
8.根据权利要求1所述的一种方法，其特征在于频谱白化量由LPC预测器阶数控制。
9.根据权利要求1所述的一种方法，其特征在于频谱白化量由LPC多项式的带宽扩展系数控制。
10.根据权利要求1所述的一种方法，其特征在于频谱白化量由混合系数b控制。
11.根据权利要求5所述的一种方法，其特征在于在LPC中包括预滤波，以补偿滤波器组中解析滤波器的特性。
12.一种用于改进利用了高频重建的音源编码系统的装置，其中所述的音源编码系统包括一个编码器，它代表了储存或传输之前进行的所有处理；还包括一个解码器，它代表了储存或传输之后进行的所有处理，该装置的特征在于在所述的编码器，用来估算某一给定时刻原始信号的音频特性的装置；以及在所述的编码器，用来估算某一给定时刻所需的频谱白化量的装置，以便在给定了所述解码器中所用的HFR方法的情况下，在所述解码器中HFR之后获得相似的音频特性；在所述的解码器，用来在高频重建(HFR)之前或之后，根据从所述编码器获取的频谱白化信息，自适应地对信号进行频谱白化的装置。
全文摘要
本发明提出了一种新的方法和一种新的装置，用于改善利用了高频重建的音源编码系统。它利用自适应滤波来减小人为噪声，这些人为噪声是由被使用了HFR的音频信号的不同频率范围中不同的音频特性引起的。本发明可以应用在语音编码及自然音频编码系统中。
文档编号G10L21/038GK1481545SQ0182057
公开日2004年3月10日申请日期2001年11月13日优先权日2000年11月14日
发明者克利斯托弗·克约尔灵, 克利斯托弗克约尔灵, 克斯特兰德, 珀·埃克斯特兰德, 弗莱德里克·汉, 里克汉, 维勒牟斯, 拉尔斯·维勒牟斯申请人:编码技术瑞典股份公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：克利斯托弗.克约尔灵;珀.埃克斯特兰德;弗莱德里克.汉;拉尔斯.维勒牟斯
技术所有人：编码技术股份公司
我是此专利的发明人