音频编码的制作方法

文档序号：2819093阅读：234来源：国知局

专利名称：音频编码的制作方法
技术领域：
本发明涉及对音频信号的编码和译码。
背景技术：
现在参考

图1，在美国公开申请No.2001/0032087A1中描述了一种参数编码方案，尤其是正弦编码器。在该编码器中，从通道10接收的输入音频信号x(t)被分成长度通常为20ms的几段或几帧。每一段被分解为瞬态(CT)、正弦(CS)和噪声(CN)分量。(也可以导出输入音频信号的其它分量，例如谐波复合体，虽然这些与本发明目的无关。)编码器的第一级包括瞬态编码器11，瞬态编码器11包括瞬态检测器(TD)110、瞬态分析器(TA)111和瞬态合成器(TS)112。检测器110估算是否存在瞬态信号分量及其位置。该信息被馈送到瞬态分析器111。如果确定了瞬态信号分量的位置，那么，瞬态分析器111将试图提取瞬态信号分量(的主要部分)。它使形状函数与最好在估算的起始位置开始的信号段一致，并通过应用例如一些(少量)正弦分量来确定该形状函数中的内容。该信息被包含在瞬态代码CT中。
瞬态代码CT被提供给瞬态合成器112。在减法器16中从输入信号x(t)减去合成的瞬态信号分量，产生信号x2。
信号x2被提供给正弦编码器13，在此处，在正弦分析器(SA)130中分析信号x2，正弦分析器130确定(决定性的)正弦分量。正弦编码的最终结果为正弦代码CS，在PCT专利申请No.WO00/79519A1中提供说明示范性正弦代码CS的传统的产生过程的更详细的例子。
正弦合成器(SS)131根据用正弦编码器产生的正弦代码CS重构正弦信号分量。在减法器17中从正弦编码器13的输入信号x2中减去该信号，产生没有(大的)瞬态信号分量和(主要的)决定性的瞬态分量的剩余信号x3。
如PCT专利申请No.WO01/89086A1中所述，假设剩余信号x3主要包括噪声，并且噪声分析器14产生表示该噪声的噪声代码CN。
图2(a)和(b)示出适合用作图1所示噪声分析器14的编码器(NE)和适合用作图6(后面说明)所示噪声合成器33的对应的译码器(ND)的一般形式。与图1所示残余信号x3对应的第一音频信号r1输入给包括第一线性预测(SE)级的噪声编码器，所述第一线性预测级使信号的谱线平直，并产生给定阶的预测系数。更一般地说，如E.G.P.Schuijers，A.W.J.Oomen，A.C.den Brinker和A.J.Gerrits，”Advances in parameric coding for hagh-qualityaudio.”，Proc.1st IEEE Benelux Workshop on Model based Processingang Coding of Audio(MPCA-2002)，Leuven，Belgium，15 November2002，pp.73-79中公开的，Laguerre滤波器可以用来提供频率敏感的平直信号。残余信号x2输入给时间包络估算器(TE)产生一组参数Pt以及也许还有时间平直的残余信号r3。参数Pt可以是一组描述时间包络的增益。或者，它们可以是从频率域中的线性预测，例如与增益包络一起描述规一化时间包络的线谱对(LSP)或线谱频率(LSF)中得到的参数。
在参数译码器(ND)中产生合成的白噪声序列(在WNG中)，产生具有时间和谱线平直包络的信号r3’。时间包络发生器(TEG)将根据接收的量化参数Pt’增加时间包络，而谱包络发生器(SEG，时变滤波器)将根据接收的量化参数PS’增加谱包络，产生与图6的信号yn对应的噪声信号r1’。
在复用器15中构成包括代码CT、CS和CN的音频流AS。
正弦编码器13和噪声分析器14用于所有或大多数段并占比特率预算的最大部分。
众所周知，在相对低的比特率例如20kbit/s下，参数音频编码器可以给出中等到优等的质量。但是在较高的比特率下，随着比特率的增加，质量的提高相当小。因此，要获得优良的或透明的(transparent)质量需要极高的比特率。因此，以可以与例如波形编码器的比特率相比的比特率使用参数编码，很难获得透明性。这意味着，在没有过量使用比特预算的情况下很难构成具有优良到透明质量的参数音频编码器。
实现透明性的参数编码中的基本困难的原因在于确定的目标。参数编码器在编码音频分量(正弦波)和噪声分量(噪声编码器)中是非常有效的。但是在实际的音频中，许多信号分量落在灰色区域它们既不能由噪声来精确模拟又不能模拟以(少量)正弦信号的形式来模拟。因此，对于媒体质量水平，虽然从比特率的观点看有很多好处，但是在参数音频编码器中，一确定目标就会在达到优良或透明的质量水平方面出现瓶颈。
同时，传统的音频编码器(子频带及变换)在某些比特率下(对于以44.1kHz采样的立体信号通常大约为80-130kbit/s)给出优良到透明的编码质量。已经建议一种变换和参数编码器的组合(所谓混合编码器)，例如在2002年5月提交的欧洲专利申请No.02077032.7(Attorney Docket No.ID 609811/PHNL020478)中所公开的。这里，在降低比特率同时保持音频质量的努力中，利用噪声参数对音频信号的频谱-时间间隔进行选择性编码(否则将对其进行子频带编码)。
或者，可以把变换或子频带编码器与图1所示类型的参数编码器级联。但是，对于这种配置(其中参数编码器在变换或子频带编码器之前)，预期的编码增益是最小的。这是因为感觉上正弦编码器捕获了音频信号的最重要区域，几乎没有给变换/子频带编码器的编码增益留下可能性。
在A.Harma和U.K.Laine，”Warped low-delay CELP for wide-band audio coding”Proc.AES 17th Int.Conf.High Quality AudioCoding，pages207-215，Florence，Italy，2-5 Sep，1999；S.Singhal，”High quality audio coding using multi-pulse LPC”，Proc.1990Int.Conf.，Acoustic Speech Signal Process.(ICASSP90)，pages1101-1104，Atlanta GA，1990，IEEE Picataway，Nj；和X.Lin，“Highquality audio coding using analysis-by synthesistechnique”，Proc.1991 Int.Conf.Acoustic Speed SignalProcess.(ICASSP91)，pages 3617-3620，Atlanta GA，1991，IEEEPicataway，NJ.中公开了使用频谱平直和利用每个样值值小比特数的残余信号模拟的音频编码器。在一些研究中已经证明，对于单信号在与2比特/样值对应的比特率(44.1KHz音频的88.2Kbite/s)下，该编码策略使优良到透明的质量成为可能。在所述方面，它们不会超过子频带或变换编码器的性能。
本发明的目的是提供一种参数音频编码器，其比特率在整个范围都是可控的，并且在与传统编码器可以相比的比特率下，该参数音频编码器提供高质量水平。

发明内容
根据本发明，提供一种权利要求1的方法。
本发明通过在噪声编码器添加脉冲序列编码器而在参数编码器中提供可量测性。这就提供了一种大范围的比特率操作点和把两种策略并入一个编码器中，而在复杂性上没有引入大的开销。
噪声编码器中的各种编码策略在长处和短处方面是互补的。例如，脉冲序列编码器中的线性预测器在描述音调音频段方面是无效的，但是正弦编码器在这方面是有效的。因此，对于象拨弦古钢琴一样的音调项，脉冲序列编码器不能为残余信号的粗略量化提供透明质量。对于其它信号，脉冲序列编码器的线性预测级的预测量级必须非常高，以便允许残余信号的粗略量化。对于象信号一样的噪声，残余信号的抽选是一个问题并会丢失亮度。
在最佳实施例中，将各种编码策略组合而形成一种利用参数编码器和附加的(可控比特率)脉冲序列层基本层。由于两种方法都应用频谱平直，所以组合方法所需的比特率源比每种方法的比特率要求低，因此该级所需的比特仅仅必须被投入一次。在所述最佳实施例的情况下，20-120kbit/s(对于立体信号)的比特率范围可以充满优于或者可以与先有技术编码器相比的性能。
附图的简要说明现在将参照附图，用实例说明本发明实施例，附图中图1示出传统的参数编码器；图2(a)和(b)分别示出传统的参数噪声编码器(NE)和对应的噪声译码器(ND)；图3示出本发明最佳实施例的单编码器的概观；图4示出本发明第一实施例的单译码器的概观；以及图5示出本发明第二实施例的单译码器的概观。
最佳实施例的说明在最佳实施例中，在图1所示类型的参数音频编码器中添加以下文献中所描述的脉冲序列编码器P.Kroon，E.F.Deprettere和R.J.Sluijter，“Regular Pulse Excitation-A novel approach toeffective and effient multipulse coding of speech”，IEEE Trans.Acoust.Speech，Signal Process，34，1986。尽管如此，将会看到，虽然以规则脉冲激励(RPE)编码器来说明实施例，但是同样可以以美国专利No.4,932,061中所描述的多脉冲激励(MPE)方法或下面文献中所描述的代数码激励线性预测(ACELP)编码器来实现本发明K.Jarvinen，J.Vainio，P.Kapanen，T.Honkanen，P.Haavisto，R.Salami，C.Laflamme，J-P.Adoul，“GSM enhanced full rate speechcode”，Proc.ICASSP-97，Munich(Germany)，21-24 April 1997，Volume2，pp.771-774，其中每一个都包括基于第一LP的频谱平直级。
在最佳实施例中，把根据编码器所要求的质量确定的总比特率预算分成可以由参数编码器使用的比特率B和RPE编码预算，所述RPE编码预算与RPE抽选因子D成反比。
现在参考图3，首先在与图1所示的参数编码器的块11和13对应的块TSA(瞬态和正弦分析)中处理输入音频信号x。这样，该块产生图1所述瞬态和噪声的相关参数。在给定比特率B的情况下，块BRC(比特率控制)最好限制正弦波的数目并且最好保存瞬态速率，使得正弦波和瞬态的总比特率最多等于B(通常设置在大约20kbit/s)。
与图1所示的块112和131对应的块TSS(瞬态和正弦合成器)利用由块TSA产生并由块BRC修改的瞬态和正弦参数(CT和CS)产生波形。从输入信号x减去该信号，得到与图1所示的残余信号x3对应的信号r1。通常，信号r1不包含正弦和瞬态信号。
象在图2(a)中所示的先有技术那样，在块(SE)中，根据信号r1，使用线性预测和Laguerre滤波器估算和消除谱包络。把选择滤波器的预测系数PS写到比特流AS中，以便将其传统类型的噪声编码(CN)的一部分的形式传送给译码器。然后，还是如图2(a)先有技术那样，在块(TE)中消除时间包络，例如产生线谱对(LSP)或线谱频率(LFS)系数以及增益。在任何情况下，把从时间平直得到的系数Pt写到比特流AS中，以便以传统噪声编码CN的一部分的形式传送给译码器。一般地说，系数PS和PT需要4-5kbit/s的比特率预算。
由于脉冲序列编码器使用第一频谱平直级，所以RPE编码器可以根据比特率预算是否分配给RPE编码器而选择性地应用于由块SE产生的频谱平直信号r2。在用虚线表示的供选择的实施例中，RPE编码器应用于由块TE产生的频谱和时间平直信号r3。
如从
背景技术：
中涉及的文档可以知道的，RPE编码器用合成分析法在残余信号r2/r3上执行搜索。在给定抽选因子D的情况下，RPE的搜索过程产生偏差(0和D-1之间的值)、RPE脉冲的幅度(例如，具有-1、0和1值的三态脉冲)和增益参数。该信息存放在包含在音频流AS中的层L0中，以便在应用RPE编码时通过多路复用器(MUX)传送给译码器。
一般地说，RPE编码器要求至少40kbit/s左右的比特率并且随着质量要求而改变，因而编码器的比特预算向质量范围的高端增加。对于开始应用RPE编码器的质量范围的较低部分，比特率B减小到比单独应用参数编码器时考虑到的最大比特率小。这使得单调地增加规定用于编码器的总比特率预算范围成为可能，其中质量与所述预算成比例地提高。
试验证明，RPE编码器导致重构信号的亮度损失，特别是在使用高抽选因子(例如D＝8)时。把某种低电平噪声加到RPE序列上可以减轻这个问题。为了确定噪声电平，根据例如从编码的RPE序列产生的信号和残余信号r2/r3之间的能量/功率差异来计算增益(g)。该增益也作为层L0的信息的一部分传送给译码器。
现在参考图4，该图示出与图1的实施例兼容的译码器的第一实施例，在图1的实施例中RPE块处理残余信号r2。多路分解器(DeM)读出输入的音频流AS’，并象先有技术一样将正弦、瞬态和噪声代码(CS、CT和CN(PS，PT))提供给各个合成器SiS、TrS和TEG/SEG。如先有技术那样，白噪声发生器(WNG)为时间包络发生器TEG提供输入信号。在应用该信息的实施例中，脉冲序列发生器(PTG)从层L0产生脉冲序列，并在块Mx中将所述脉冲序列混频以便提供激励信号r2’。可以从编码器中将看到，由于噪声代码CN(PS，PT)和层L0是从相同的残余信号r2’独立产生的，所以需要对它们产生的信号进行增益修改，以便为合成的激励信号r2’提供正确的能量电平。在该实施例中，在混合器(Mx)中，由块TEG和PTG产生的信号被频率加权，使得对于低频，信号r2’的大部分是从脉冲编码信息L0导出的，而对于高频，信号r2’的大部分是从合成的噪声源WNG/TEG导出的。
然后，把激励信号r2’馈送到谱包络发生器(SEG)，谱包络发生器根据代码PS产生合成噪声信号r1’。该信号加到由传统的瞬态和正弦合成器产生的合成信号上，以产生输出信号在供选择的实施例中，由脉冲序列发生器PTG产生的信号而不是由WNG产生的信号被用作时间包络发生器的输入信号(如虚线所示)。
现在参考图5，译码器的第二实施例与图1所示的实施例对应，其中RPE块处理残余信号r3。这里，把由白噪声发生器(WNG)产生的并且由块We根据编码器确定的增益(g)处理的信号和由脉冲序列发生器(PTG)产生的脉冲序列相加，以便构成激励信号r3’。在层L0的信息可用的情况下，在块We中，对噪声序列进行高通滤波以便滤除在感觉上使重构的激励信号退化的低频，如在译码器的第一实施例中那样，合成的噪声信号的这些分量是以脉冲序列发生器的输出信号为基础的而不是以基于激励信号的噪声为基础的。当然，在层L0的信息不可用的情况下，白噪声就通过所提供的块We作为激励信号r3’馈送到时间包络发生器块(TEG)。
然后，通过块TEG把时间包络系数(PT)加在激励信号r3’上，以便提供如前所述那样处理的合成信号r2’。如上所述，这是有利的，因为脉冲序列激励通常产生某种亮度损失，而可以利用适当加权的附加的噪声序列来抵消这种亮度损失。所述加权可以包括各自基于增益因子g的简单幅度加权或频谱成形加权。
如前所述，信号在块SEG(谱包络发生器)中被例如Laguerre滤波器滤波，所述滤波器将谱包络加到信号上。然后，如前所述，结果信号被加到合成的正弦和瞬态信号中。
可以看到，在图4或者图5中，如果没有使用PTG，译码方案类似于只使用噪声编码器的传统正弦编码器。如果使用PTG，则加入了RPE序列，这增强了重构的信号，即，提供更高的音频质量。
应当指出，在图5的实施例中，与标准脉冲编码器(RPE或MPE)(其中使用在整个帧中固定的增益)相反，时间包络被包含在信号r2’中。通过使用这样的时间包络，能获得更好的声音质量，这是因为与每帧固定的增益相比有较高的增益分布灵活性。
权利要求
1.一种对音频信号(x)进行编码的方法，对于所述信号的多个段中的每一段，所述方法包括以下步骤分析(TSA)采样信号值，以便提供与所述音频信号的各个正弦分量对应的一个或多个正弦代码(Cs)；从所述音频信号中减去与所述正弦分量对应的信号以便提供第一残余信号(r1)；通过确定具有与所述第一残余信号的频谱近似的频率响应的滤波器的第一滤波参数(Ps)来模拟(SE)所述第一残余信号(r1)的频谱；从所述第一残余信号中减去与所述第一滤波参数对应的信号以便提供第二残余信号(r2)；利用脉冲序列编码器(RPE)模拟第二残余信号分量(r2，r3)以便提供各个脉冲序列参数(L0)；以及产生(15)包括所述正弦代码(Cs)、所述第一滤波参数(Ps)和所述脉冲序列参数(L0)的编码音频流(AS)。
2.如权利要求1所述的方法，其中还包括以下步骤通过确定第二参数(Pt)来模拟(TE)每一个第二残余信号的时间包络；以及通过从所述第二残余信号消除与所述第二参数对应的时间包络来提供第三残余信号(r3)；其中，所述第二残余信号的所述分量包括相应的第三残余信号(r3)，以及其中，所述产生步骤包括所述编码音频流(AS)中的所述第二参数。
3.如权利要求1所述的方法，其中还包括以下步骤通过确定第二参数(PT)来模拟(TEG)所述第二残余信号的时间包络，以及其中，每一个第二残余信号的所述分量包括所述第二残余信号(r2)；以及其中，所述产生步骤包括所述编码音频流(AS)中的所述第二参数。
4.如权利要求2或3所述的方法，其中还包括以下步骤估算与所述脉冲序列参数对应的信号和每一个第二残余信号的所述分量(r2，r3)之间的差值；以及其中所述产生步骤包括所述编码音频流(AS)中的所述差值(g)。
5.如权利要求1所述的方法，其中所述脉冲序列编码器是规则脉冲激励(RPE)编码器；多脉冲激励(MPE)编码器；或代数码激励线性预测(ACELP)编码器中的一个。
6.如权利要求1所述的方法，其中所述第一滤波参数(Ps)包括Laguerre或线性预测滤波参数中的一个。
7.如权利要求2或3所述的方法，其中所述第二参数(PT)包括线性预测参数或线谱对(LSP)或线谱频率(LSF)系数以及各自的增益中的一个。
8.如权利要求1所述的方法，其中所述方法包括以下步骤估算(TSA)所述音频信号中瞬态信号分量的位置；使具有形状参数和位置参数的形状函数与所述瞬态信号匹配；以及将描述所述形状函数的所述位置和形状参数包括(15)在所述音频流(AS)中。
9.如权利要求1所述的方法，其中所述正弦分量的数目受第一比特率预算(B)限制，其中所述脉冲序列编码器被限制在第二比特率预算范围内产生所述脉冲序列参数(L0)，并且其中根据所需的编码质量在一定范围内选择所述第一和第二比特率预算之和。
10.一种对音频流进行译码的方法，所述方法包括以下步骤读出(DeM)编码音频流(AS’)，对于音频信号的多个段中的每一段，所述编码音频流(AS’)包括正弦代码(Cs)、脉冲序列参数(L0)和第一滤波参数(Ps)；以及把所述正弦代码用于(SiS)合成所述音频信号的各个正弦分量；把所述脉冲序列参数(L0)用于(PTG)产生激励信号；根据所述第一滤波参数(Ps)将谱包络加在(SEG)第一信号(r2’)上，所述第一信号(r2’)的分量包括所述激励信号；以及将所述合成的正弦分量和所述频谱滤波信号相加以便提供合成的音频信号
11.如权利要求10所述的方法，其中所述编码音频流包括第二参数(PT)，所述方法包括以下步骤根据所述第二滤波参数(PT)把时间包络加在(TEG)第二信号(r3’)上，所述第二信号(r3’)的分量包括所述激励信号；以及其中，所述第一信号包括所述时间滤波信号(r2’)。
12.如权利要求11所述的方法，其中还包括以下步骤产生(WNG)白噪声信号；以及将所述白噪声信号加到所述激励信号上以便提供所述第二信号(r3’)。
13.如权利要求12所述的方法，其中还包括对所述白噪声信号进行高通滤波(We)。
14.如权利要求12所述的方法，其中从所述音频流中读出加到所述白噪声信号的增益(g)。
15.如权利要求10所述的方法，其中所述编码音频流包括第二滤波参数(PT)，所述方法包括以下步骤根据所述第二滤波参数(Ps)把时间域包络加在所述激励信号上；以及其中把所述谱包络加在所述时间滤波信号(r2’)上。
16.如权利要求10所述的方法，其中所述编码音频流包括第二滤波参数(Pt)，所述方法包络以下步骤产生(WNG)白噪声信号；根据所述第二滤波参数(Ps)把时间域包络加在所述白噪声信号上；以及把所述时间滤波后的白噪声信号与所述激励信号混频，以便提供所述第二信号(r2’)；把所述谱包络加在所述第二信号(r2’)上。
17.如权利要求16所述的方法，其中所述混频步骤包括对所述时间滤波后的白噪声信号和所述激励信号进行频谱加权。
18.一种音频编码器，它配置成处理用于音频信号(x)的多个顺序的段中的每一个段的各自的采样值组，所述编码器包括分析器(TSA)，它配置成分析所述采样信号值，以便提供与所述音频信号的各个正弦分量对应的一个或多个正弦代码(Cs)；减法器，它配置成从所述音频信号中减去与所述正弦分量对应的信号，以便提供第一残余信号(r1)；模拟器(SEG)，它配置成通过确定的滤波器的第一滤波参数(Ps)来模拟所述第一残余信号(r1)的频谱，所述滤波器具有近似于所述第一残余信号频谱的频率响应；减法器，它配置成从第一残余信号中减去与所述第一滤波参数对应的信号，以便提供第二残余信号(r2)；模拟器(RPE)，它配置成利用脉冲序列编码器(RPE)来模拟第二残余信号分量(r2，r3)，以便产生各个脉冲序列参数(L0)；以及比特流发生器(15)，用于产生包括所述正弦代码(Cs)、所述第一滤波参数(Ps)和所述脉冲序列参数(L0)的编码音频流(AS)。
19.一种音频重放机，它包括用于读出(DeM)编码音频流(AS’)的装置，对于音频信号的多个段中的每一个段，所述编码音频流包括正弦代码(Cs)、脉冲序列参数(L0)和第一滤波参数(Ps)；以及合成器(SiS)，它配置成应用所述正弦代码来合成所述音频信号的各个正弦分量；用于从所述脉冲序列参数(L0)产生激励信号的装置(PTG)；用于根据所述第一滤波参数(Ps)把谱包络加在(SEG)第一信号(r2’)上的装置，所述第一信号(r2’)的分量包括所述激励信号；以及加法器，用于将所述合成的正弦分量和所述频谱滤波后的信号相加，以便提供合成音频信号
20.一种音频系统，它包括权利要求18的音频编码器和权利要求19的音频重放机。
21.一种音频流(AS)，它包括与音频信号(x)的各个正弦分量对应的正弦代码(Cs)；滤波器的第一滤波参数(Ps)，所述滤波器具有近似于第一残余信号的频谱的频率响应，所述第一残余信号对应于从其中减去与所述正弦分量对应的信号的所述音频信号；以及根据第二残余信号分量(r2，r3)模拟的脉冲序列参数(L0)，所述第二残余信号对应于从其中减去与所述第一滤波参数对应的信号的第一残余信号。
22.一种存储媒体，在该存储媒体上已经存储权利要求21的音频流(AS)。
全文摘要
一种音频编码器配置成处理用于音频信号(x)的多个顺序的段中每一段的各自的采样信号值组。所述编码器包括配置成分析采样信号值以便提供与音频信号的相应的正弦分量对应的一个或多个正弦代码(C
文档编号G10L19/093GK1886783SQ200480035473
公开日2006年12月27日申请日期2004年11月24日优先权日2003年12月1日
发明者A·J·杰里特斯, A·C·登布林克, F·里拉帕劳申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A.J.杰里特斯;A.C.登布林克;F.里拉帕劳
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人