用于编码采样音频信号的帧的音频编码器和解码器的制作方法

文档序号：2823161阅读：288来源：国知局

专利名称：用于编码采样音频信号的帧的音频编码器和解码器的制作方法
技术领域：
本发明为音频编码/解码的领域，特别地为采用多个编码域的音频编码概念。
背景技术：
在现有技术中，例如MP3或AAC的频域编码方案是已知的。这些频域编码器基于时域/频域变换、随后的量化阶段和编码阶段，其中，在随后的量化阶段中，使用来自心理里声学模块的信息控制该量化误差，在编码阶段中，使用编码表熵编码量化的频谱系数与相对应的边信息。另一方面，存在非常适合语音处理的编码器，如在3GPP TS沈.290中所描述的 AMR-WB+。这类语音编码方案执行时域信号的LP (LP=线性预测)滤波。这样的LP滤波从输入的时域信号的线性预测分析得到。接着，对产生的LP滤波器系数进行量化/编码并将其作为边信息传输。这个处理被称为LPC(LPC=线性预测编码)。在滤波器的输出端，采用 ACELP编码器的合成/分析阶段或可替换地采用变换编码器对也称作激励信号的预测残余信号或预测误差信号进行编码，其中变换编码器采用具有重叠的傅立叶转变换。采用闭环或开环算法进行ACELP编码和变换编码的激励励编码(也称为TCX编码)之间的决策。频域音频编码方案，如高效AAC编码方案，将AAC编码方案与频带复制技术相结合，AAC编码方案也可与联合立体声或多声道编码工具相结合，其中多声道编码工具已知属于“MPEG环绕”条款。另一方面，语音编码器如AMR-WB+也具有高频加强阶段和立体声功能。频域编码方案的优点在于它们对于音乐信号在低比特率展示高质量。但是，问题在于在低比特率的语音信号的质量。语音编码方案对于即使是在低比特率的语音信号也展示高质量，但对在低比特率的音乐信号展示了差的质量。频域编码方案经常利用所谓的MDCT(MDCT =改进离散余弦变换)。MDCT已最初在 IEEE Trans. ASSP, ASSP-34(5) :1153-1161,1986，J.Princen.A. Bradley 的“Analysis/ Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation(基于时域混叠消除的分析/合成滤波器组设计)”中描述。MDCT或MDCT滤波器组现今已被广泛使用且是高效能的音频编码器。这种信号处理提供如下优点处理块之间的平滑的交叉衰减即使在每个处理块中的信号不同地改变(例如由于频谱系数的量化)，由于窗口化的重叠/相加操作，因此没有因从块至块的突然变换而发
(blocking artifact)。临界采样在滤波器组的输出端的频谱值数目等于在其输入端的时域输入值数目，且必须传送额外的负担值。MDCT滤波器组提供高频选择性和编码增益。这些优良性质通过利用时域混叠消除技术来实现。通过重叠相加两个相邻的窗口化信号来在合成时完成时域混叠消除。如果在MDCT的分析与合成阶段之间不施加量化，则获得了对原始信号的完美重建。但是，MDCT用于特定地适于音乐信号的编码方案。如前所述，这类的频域编码方案对于语音信号在低比特率具有降低的质量，而与频域编码方案相比，特定适用的语音编码器在相当的比特率具有更高的质量，或者对于相同的质量甚至具有明显更低的比特率。语音编码技术，如在技术规格书3GPP TS 26. 290V6. 3. 0,2005-06 “自适应多速率带宽扩展(AMR-WB+)编解码器”中所定义的AMR-WB+(AMR-WB+ =自适应多速率宽带扩展) 编解码器，没有应用MDCT，因此没有得到来自MDCT的优异性能的任何优点，特别地，MDCT的优异性能一方面依赖于临界采样处理，另一方面依赖于从一个块到另一个块的交越。因此，在没有与比特率有关的任何损失的情况下，通过MDCT获得从一个块至另一个块的交越，因此还没有在语音编码器中获得MDCT的临界采样性能。当人们将语音编码器与音频编码器结合至单一的混合编码方案中时，仍存在着在低比特率及高质量下如何获得从一个编码模式至另一个编码模式的切换的问题。传统的音频编码概念通常设计为在音频文件或通信开始处启动。采用这些传统的概念，滤波器结构，例如预测滤波器，在编码或解码程序开始的某一时间达到稳定状态。但是，对于切换音频编码系统，一方面采用例如基于变换的编码，另一方面采用根据输入的先前分析的语音编码，各自的滤波器结构不是主动且持续更新的。例如，语音编码器可在短时间周期内频繁地请求重新启动。一旦重新启动，启动周期再次开始，将内部状态重置为零。例如语音编码器到达稳定状态所需要的期间可能是关键的，特别地对于变换的质量而言。当在基于变换的编码器与语音编码器之间变换或切换时，例如AMR_WB+(参见技术规格书3GPP TS 26. 290 V6. 3. 0，2005-06“扩展自适应多速率带宽(AMR-WB+)编解码器”) 的传统概念使用语音编码器的完全重置。AMR-WB+在这样的条件下是最佳化的，S卩当信号淡入时，假设不存在中间的停止或重置，其只启动一次。因此，可根据逐帧的准则更新编码器的所有存储。如果在信号的中间采用AMR-WB+，则必须调用重置，且将在编码侧或解码侧上使用的所有存储设定为零。因此，传统的概念具有这样的问题，即在到达语音编码器的稳定状态之前，应用了太长期间并且在非稳定阶段引入了极大的失真。传统概念的另一个缺点在于当切换编码域引入负担时，它们利用冗长的重叠段，这不利地影响编码效率。

发明内容
本发明的目的是提供一种使用编码域切换进行音频编码的改进概念。上述目的通过根据权利要求1所述的音频编码器、根据权利要求7所述的音频编码方法、根据权利要求8所述的音频解码器、根据权利要求14所述的音频解码方法以及根据权利要求15所述的计算机程序来实现。本发明是基于这样的发现，即通过考虑重置后的相应滤波器的状态信息，上面提到的问题可在解码器中解决。例如，重置后，当某个滤波器的状态已被设定为零时，所述滤波器的启动或预热程序可缩短，如果所述滤波器不是自零开始，即所有的状态或存储设定为零，而是提供有关于某个状态的信息，则自其开始可实现较短的启动或预热周期。本发明的另一个发现是可在编码器侧或解码器侧产生关于切换状态的所述信息。例如，当在基于预测的编码概念与基于变换的编码概念之间切换时，可在切换前提供额外的信息以使得所述解码器在实际上必须使用预测合成滤波器的输出之前将所述预测合成滤波器带至稳定状态。换句话说，本发明的发现是，特别地当在切换音频编码器中进行从所述变换域至所述预测域的切换时，在至所述预测域的实际切换不久前的关于滤波器状态的额外信息可解决产生切换假信号的问题。本发明的另一个发现是，关于所述切换的这类信息可只在所述解码器产生，通过考虑在所述实际切换发生不久前的所述解码器输出，以及基本上关于所述输出运行编码处理，以在所述切换不久前确定关于滤波器或存储状态的信息。此外，一些实施例可使用传统的编码器并仅仅通过解码器的处理减小切换假信号的问题。将所述信息考虑进来，例如，预测滤波器可在所述实际切换之前已被预热，例如通过分析相对应的变换域解码器的输出。

下面将使用附图详细描述本发明的实施例，其中图1示出音频编码器的实施例；图2示出音频解码器的实施例；图3示出被实施例使用的窗口形状；图如与图4b示出MDCT与时域混叠；图5示出用于时域混叠消除的实施例的模块图；图6a-图6g示出将被处理以用于实施例中的时域混叠消除的信号；图7a_图7g示出当使用线性预测解码器时，用于实施例中的时域混叠消除的信号处理链；图8a_图8g示出具有时域混叠消除的实施例中的信号处理链；以及图9a与图9b示出在实施例中的编码器侧与解码器侧上的信号处理。
具体实施例方式图1示出音频编码器100的实施例。该音频编码器100适用于编码采样音频信号的帧以获得已编码帧，其中一帧包括多个时域音频采样。音频编码器的实施例包括预测编码分析阶段110，其基于音频采样的一帧确定关于合成滤波器的系数的信息和关于预测域帧的信息。在实施例中，预测域帧可与激励帧或激励帧的滤波版本相对应。以下，当基于音频采样的帧编码关于合成滤波器的系数的信息与关于预测域帧的信息时，可称为预测域编码。而且，音频编码器100的实施例包括频域变换器120，用于将音频采样的帧变换至频域以获得帧频谱。以下，当编码帧频谱时可称为变换域编码。此外，音频编码器100的实施例包括编码域判定器130，用于判定针对帧的编码数据是基于关于系数的信息和关于预测域帧的信息还是基于帧频谱。音频编码器100的实施例包括控制器140，用于当编码域判定器判定当前帧的编码数据基于关于系数的信息和关于预测域帧的信息时，，确定关于切换系数的信息，其中当先前帧的编码数据是基于先前帧的频谱进行的编码时，编码域判定器判定当前帧的编码数据是基于关于系数的信息和关于预测域帧的信息。音频编码器100 的实施例还包括冗余减少编码器150，用于编码关于预测域帧的信息、关于系数的信息、关于切换域系数的信息和/或帧频谱。换句话说，编码域判定器130判定编码域，而当从变换域切换至预测域时，控制器140提供关于切换系数的信息。在图1中有一些虚线显示的连接。这些表示实施例中的不同选择。例如，可单纯地通过一直运行预测编码分析阶段110以使得在其输出端的关于系数的信息和关于预测域帧的信息始终有效，从而获得关于切换系数的信息。然后，在编码域判定器130已经作出切换判定后，控制器140指示冗余减少编码器150何时编码来自预测编码分析阶段110的输出以及何时编码频域变换器120的帧频谱输出。因此，当从变换域切换至预测域时，控制器140可控制冗余减少编码器150编码关于切换系数的信息。如果发生切换，控制器140可指示冗余减少编码器150编码重叠帧，在先前帧期间，控制器140可以这样的方式控制冗余减小编码器150，即对于先前帧，比特流既包括关于系数的信息和关于预测域帧的信息，也包括帧频谱。换句话说，在实施例中，控制器可以这样的方式控制冗余减少编码器150，即使得已编码帧包括上面描述的信息。在其它实施例中，编码域判定器130可判定改变编码域且在预测编码分析阶段110与频域变换器120 之间切换。在这些实施例中，控制器140可内部地实施一些分析以提供切换系数。在实施例中，关于切换系数的信息可与关于滤波器状态的信息、自适应的码本内容、存储状态、关于激励信号的信息、LPC系数等相对应。关于切换系数的信息可包括使预测合成阶段220能够预热或初始化的任何信息。编码域判定器130可基于音频信号的帧或采样确定出何时切换编码域的决策，其也在图1中用虚线示出。在其它实施例中，可基于关于系数的信息、关于预测域帧的信息和 /或帧频谱做出所述决策。通常，实施例不应限定编码域判定器130判定何时改变编码域所采用的方式，更重要的是，在上面描述的问题发生的期间，通过编码域判定器130判定编码域的改变的期间，，并且其中在一些实施例中，音频编码器100以这样的方式调整，即至少部分地补偿上面描述的不利影响。在实施例中，编码域判定器130可适于基于信号性能或音频帧的多个性能来进行判定。如已知，音频信号的音频性能可确定编码效率，即对于音频信号的某些特性，采用基于变换的编码可能更有效，而对于其它特性，采用预测域编码可能更有利。在一些实施例中，编码域判定器130可适于当信号极有声调或无声时判定采用基于变换的编码。如果信号是瞬时信号或声音状信号，编码域判定器130可适于判定采用所述的预测域帧用于编码。根据图1中的其它虚线和箭头，可关于系数的信息、关于预测域帧的信息和帧频谱提供给控制器400，并且控制器140可适于根据所述信息确定关于切换系数的信息。在其它实施例中，控制器140可将信息提供给预测编码分析阶段110以确定切换系数。在实施例中，切换系数可与关于系数的信息相对应，在其它实施例中，切换系数可以以不同的方式确定。图2示出音频解码器200的实施例。音频解码器200的实施例适于解码已编码帧以获得采样音频信号的帧，其中一帧包括多个时域音频采样。音频解码器200的实施例包括冗余恢复解码器210，用于解码已编码帧以获得关于预测域帧的信息、关于用于合成滤波器的系数的信息和/或帧频谱。而且，音频解码器200的实施例包括预测合成阶段220和时域变换器230，预测合成阶段220用于基于关于用于合成滤波器的系数的信息和关于预测域帧的信息确定音频采样的预测帧，时域变换器230用于将帧频谱变换至时域以从帧频谱获得变换帧。音频解码器200的实施例还包括组合器M0，用于组合变换帧和预测帧以获得采样音频信号的帧。此外，音频解码器200的实施例包括控制器250，用于控制切换过程，当先前帧基于变换帧且当前帧基于预测帧时，切换过程产生，控制器250被配置用于将切换系数提供给预测合成阶段220用于训练、初始化或预热预测合成阶段220，以便当切换过程发生时，初始化预测合成阶段220。根据图2的虚线所示，控制器250可适于控制音频解码器200的部分组件或所有组件。例如，控制器250可适于支配冗余恢复解码器210以恢复关于切换系数的额外信息或关于先前预测域帧的信息等。在其它实施例中，控制器250可适于通过自身得到所述关于切换系数的信息，例如通过将通过组合器240的解码帧提供给控制器250帧，通过实施基于组合器240的输出的LP分析。接着，控制器250可适于支配或控制预测合成阶段220和时域变换器230以建立上面描述的重叠帧、定时、时域分析和时域分析消除等。在下面，考虑包括预测器和内部滤波器的基于LPC的域编解码器，在启动期间预测器与内部滤波器需要一定时间来到达确保准确的滤波器合成的状态。换句话说，在音频编码器100的实施例中，预测编码分析阶段110可适于基于LPC分析确定关于合成滤波器的系数的信息和关于预测域帧的信息。在音频解码器200的实施例中，预测合成阶段220 可适于基于LPC合成滤波器确定预测帧。在第一 LPD (LPD =线性预测域)帧的开始处采用矩形窗口，并将基于LPD的编解码器重置为零状态，显然地不为这些变换提供理想的选择，因为没有为LPD编解码器留下足够的时间建立优良信号，这将引入块失真。在实施例中，为了处理从非LPD模式到LPD模式的变换，可采用重叠窗口。换句话说，在音频编码器100的实施例中，频域变换器120可适于基于FFT(FFT =快速傅立叶变换)或MDCT(MDCT =改进离散余弦变换)变换音频采样的帧。在音频解码器200的实施例中，时域变换器230可适于基于IFFT(IFFT =反相FFT)或IMDCT (IMDCT =反相MDCT)将帧频谱变换至时域。此外，实施例可在也可称为基于变换的模式的非LPD模式中或者在也称为预测分析与合成的LPD模式中运行。通常，实施例可采用重叠窗口，特别地采使用MDCT与IMDCT 时。换句话说，在非LPD模式中，可采用具有混叠TDA (TDA=时域混叠)的重叠窗口。此外，当从非LPD模式切换到LPD模式时，可补偿最后的非LPD帧的时域混叠。实施例可在实施 LPD编码之前在原始信号中引入时域混叠，但是，时域混叠可能不与如ACELP(ACELP =代数码本激励线性预测)的基于预测的时域编码兼容。实施例可在LPD段的开始处头引入人工混叠并以与用于ACELP至非LPD的变换的方式相同的方式来施加时域消除。换句话说，在实施例中，预测分析与合成可基于ACELP。在一些实施例中，从合成信号而非原始信号产生人工混叠。由于合成信号，特别地在LPD启动处的合成信号不准确，因此这些实施例可通过引入人工TDA略微补偿块失真，然而，人工TDA的引入可能伴随着假信号的减少而产生不正确的错误。
图3示出在一个实施例中的切换过程。在图3所示的实施例中，假设切换过程从非LPD模式如MDCT模式切换至LPD模式。如图3所示，考虑2048个采样的总窗口长度。在图3的左手边，示出延伸贯穿512个采样的MDCT窗口的上升边缘。在MDCT与IMDCT的处理期间，MDCT窗口的上升边缘的这512个采样将与下一 512个采样折叠，如在图3中指定为MDCT核心，MDCT核心包括在完整的2048个采样窗口内的位于中心的IOM个采样。如下面将详细解释的，当先前帧也在非LPD模式中编码时，由MDCT及IMDCT的处理所引入的时域混叠不是严重的，因为MDCT的一个有利性质是，可通过各个连续的重叠MDCT窗口固有地补偿时域混叠。但是，当切换至LPD模式时，即现在考虑图3中所示的MDCT窗口的右手边部分，这类时域混叠消除并非自动地实施，因此在LPD模式中解码的第一帧不会自动地具有时域混叠来补偿先前的MDCT帧。因此，在重叠区域，实施例可引入人工时域混叠，如图3所示，在以MDCT核心窗口的末端为中心，即以第1536个采样为中心的128个采样的区域中引入人工时域混叠。换句话说，在图3中，假设人工时域混叠被引入至LPD模式的开始处，即在这个实施例中的第一 1 个采样，以补偿在最后MDCT帧的末端引入的时域混叠。在优选实施例中，施加MDCT以获得从一个域中的编码操作至不同的其它域中的编码操作的临界采样切换，即在频域变换器120和/或时域变换器230的实施例中所实施的。但是，也可施加所有其它的变换。但是，由于MDCT是优选实施例，因此将结合图如与图4b详细讨论MDCT。图如示出窗口 470，其具有左边的上升部分及右边的下降部分，其中可将窗口划分成a、b、c、d四部分。由图可见，窗口 470在所示的50%的重叠/相加情况下只具有混叠部分。特定地，第一部分具有与先前窗口 469的第二部分相对应的零至N个采样，且在窗口 470的采样N与采样2N之间延伸的第二半部与窗口 471的第一部分重叠，窗口 471在所示出的实施例中是窗口 i+Ι，而窗口 470是窗口 i。MDCT操作可看作窗口化及折叠操作及随后的变换操作的串联，并且特定地，随后的变换操作为DCT (DCT=离散余弦变换)操作，其中应用类型四的DCT (DCT-IV)。特定地，通过计算折叠块的第一部分N/2()与计算折叠输出的第二部分的Ν/2采样(a-bR)获取折叠操作，其中R为反向运算符。因此，折叠操作产生N个输出值而接收2N个输入值。在图如中也以方程式的形式示出了解码器侧上的相对应的展开操作。通常，(a、b、c、d)上的MDCT操作产生与如图4a所示的(-cR-d，a-bR)的DCT- IV 完全相同的输出值。相对应地，采用展开操作(IMDCT操作)产生施加在DCT- IV反相变换的输出上的展开操作的输出。因此，通过在编码器侧上执行折叠操作引入时间混叠。接着，采用需要N个输入值的DCT- IV块变换将窗口化与折叠操作的结果变换至频域。在解码器侧，采用DCT- IV操作将N个输入值变换回时域，并且因此将这个反相变换操作的输出改变至展开操作以获得2N个输出值，但是这2N个输出值是混叠的输出值。为了移除由折叠操作引入的且仍存在于随后的展开操作的混叠，可实施重叠/相加操作来实现时域混叠消除。因此，当将重叠的一半中的先前IMDCT结果加入至展开操作的结果中时，图如的底部的方程式中的相反项相消，并且可简单地获得例如b与d，因此恢复原始数据。为了获得用于窗口化MDCT的TDAC，存在称为“Princen-Bradley”条件的需求， “Princen-Bradley”条件的意思是对于在时域混叠消除器中组合的相对应采样，将窗口系数升至2，以导致每个采样的归一(1)。当图如示出例如在AAC-MDCT(AAC=高阶音频编码，Advanced Audio Coding)中施加的长窗口或短窗口窗口序列时，图4b示出不同的窗口函数，其除了具有混叠部分的外，还具有非混叠部分。图4b示出分析窗口函数472，其具有零部分al与d2、具有混叠部分472a、472b且具有非混叠部分472c。延伸遍布c2、dl的混叠部分472b具有随后的窗口 473的相对应混叠部分(指示为47 )。相对应地，窗口 473额外地包括非混叠部分473a。当图4b与图如相比较时，很明显的是，由于存在有窗口 472的零部分al、dl和窗口 473的零部分cl的事实，因此两个窗口都接收非混叠部分，并且混叠部分中的窗口函数比图4a中的更陡。鉴于此，在图4b中，混叠部分47 对应于Lk，非混叠部分472c对应于部分Mk，混叠部分472b对应于Rk。当将折叠操作施加到通过窗口 472窗口化的采样块时，获得如图4b所示的情况。延伸遍布第一 N/4采样的左部分具有混叠。因为将折叠操作施加到具有零值的窗口部分，延伸遍布N/2采样的第二部分免受混叠，，滨海且最后N/4采样又被混叠影响。由于折叠操作，折叠操作的输出值的数目等于N，而输入为2N，但是，事实上采于使用窗口 472的窗口化操作，在实施例中，N/2个值被设定为零。现在，将DCT- IV施加在折叠操作的结果上，但是重要地，对在从一个编码模式至另一个编码模式的变换处的混叠部分47 与非混叠部分进行不同的处理，尽管这两个部分属于音频采样的同一块，并且重要地输入到相同的块变换操作。图4b还示出窗口 472、473、474的窗口序列，其中窗口 473是从确实存在非混叠部分的情况至只存在混叠部分的情况的过渡窗口。这通过非对称地成形窗口函数而获得。窗口 473的右边部分与图如的窗口序列中的窗口的右边部分相类似，而左边部分具有非混叠部分及相对应的零部分(在Cl)。因此，图4b示出当要采用完全重叠的窗口执行AAC时，从MDCT-TCX到AAC的变换，或可替换地，示出当窗口 474以完全重叠的方式窗口化TCX数据块时，从AAC到MDCT-TCX的变换，当没有理由从一个模式切换至另一个模式时，其一方面是MDCT-TCX的常规操作，另一方面是MDCT-AAC的常规操作，。因此，窗口 473可称为“停止窗口”，其另外具有优选特性，即这个窗口的长度等于至少一个相邻窗口的长度，以便当将块设定为具有与窗口系数相同的数目，即图如或图 4b的例子中的2N个采样时，保持一般的块样式或帧光栅，。下面将详细描述人工时域混叠与时域混叠消除的方法。图5示出了可在实施例中利用的模块图，其显示信号处理链。图6a至图6g与图7a至图7g示出采样信号，其中图6a 至图6g在假设采用原始信号的情况下说明时域混叠消除的原理过程，其中图7a至图7g说明基于这样的假设确定的信号采样，即第一 LPD帧在完全重置后产生且没有任何的调整。换句话说，图5示出在从非LPD模式变换至LPD模式的情况下，对于LPD模式中的第一帧引入人工时域混叠与时域混叠消除的处理的实施例。图5示出，首先在块510中将窗口化施加到当前LPD帧。如图6a、6b与图7a、7b所示，窗口化与各个信号的淡入相对应。如在图5的窗口化块510的上方的小视图所示，假定将窗口化施加到Lk个采样。在窗口化510之后的是产生Lk/2个采样的折叠操作520。在图6c与图7c中示出折叠操作的结果。可见的是，由于采样数目的减少，在各个信号的开始处存在有延伸经过Lk/2个采样的零周期。块510中的窗口化操作与块520中的折叠操作可概述为通过MDCT引入的时域混叠。但是，通过IMDCT进行反相变换时出现进一步的混叠效应。由IMDCT引发的效应在图 5中用块530与540概述，这又可概述为反相时域混叠。如图5所示，接着，在块530中实施展开，导致采样数目翻两倍，即产生Lk个采样结果。在图6d与图7d中显示各自的信号。由图6d与图7d可见的是，采样的数目已翻两倍，且已引入时间混叠。展开操作530之后是另一个窗口化操作讨0以淡入信号。在图6e与图7e中显示第二次窗口化MO的结果。最后，将图6e与图7e中显示将人工时域混叠的信号重叠到及加入到在非LPD模式中编码的先前帧，这通过图5中通过的块550表示，在图6f与图7f中显示各自的信号。换句话说，在音频解码器200的实施例中，组合器240可适于实施图5中的块550 的功能。在图6g与图7g中显示产生的信号。总之，在这两种情况中，窗口化各自帧的左边部分，如图6a、6b、7a与7b图所示。接着，折叠窗口的左边部分，如图6c与图7c所示。展开(参考图6d与图7d)后，施加另一个窗口化，参考图6e与图7e。图6f与图7f示出具有先前非LPD帧的形状的当前处理帧，并且图6g与图7g示出重叠与相加操作之后的结果。从图6a至图6g，可以看出，在将人工TDA施加在LPD帧上并对该LPD帧与先前帧施加重叠与相加后，实施例可实现完美重建。但是，在第二种情况下，即在图7a至图7g所述的情况下，重建并不完美。如上已述，假设在第二种情况下，完全重置LPD模式，即将LPC合成的状态与存储设定为零。这导致合成信号在第一采样期间不准确。在这种情况下，人工TDA加上重叠相加导致失真与假信号，而不是参考图6g与图7g的完美重建。图6a至图6g与图8a至图8g示出对于人工时域混叠与时域混叠消除，使用原始信号与使用LPD启动信号的另一个情况之间的另一个比较，但是，在图8a至图8g中，假设 LPD启动周期占用的时间比图7a至图7g中的长。图6a至图6g与图8a至图8g示出在其上施加有如结合图5所解释的相同操作的采样信号图。比较图6g与图8g，可以看出，引入到图8g中显示的信号中的失真与假信号比图7g中的那些更加明显。图8g中显示的信号在相对长的时间期间包括许多失真。只是出于比较的目的，当考虑用于时域混叠消除的原始信号时，图6g示出完美重建。本发明的实施例可加快例如LPD核心编解码器的启动周期，LPD核心编解码器分别作为预测编码分析阶段110、预测合成阶段220的实施例。实施例可更新所有相关的存储和状态以将合成信号降低至尽可能接近原始信号，并减少如图7g与图8g所示的失真。而且，在实施例中，可允许较长的重叠与相加周期，这可能是因为时域混叠与时域混叠消除的引入的改进。如上已述，在第一或当前LPD帧的开始处使用矩形窗口并将基于LPD的编解码器重置为零状态，这可能不是变换的理想选择。由于没有为LPD编解码器留下足够的时间建立优良信号，因此可能出现失真与假信号。类似的考虑适用于将编解码器的内部状态变量设定为任何定义的初始值，因为这样的编码器的稳定状态依赖于多个信号性能而定，并且来自任何预先定义的但非固定的初始状态的启动时间可以较长。
在音频编码器100的实施例中，控制器140可适于基于LPC分析确定关于用于合成滤波器的系数的信息和关于切换预测域帧的信息。换句话说，实施例可使用矩形窗口并重置LPD编解码器的内部状态。在一些实施例中，编码器可包括关于滤波器存储的信息和 /或为ACELP所使用的自适应码本、从先前非LPD帧到编码帧中的合成采样信息，并将这些信息提供给解码器。换句话说，音频编码器100的实施例可解码先前非LPD帧，执行LPC分析并施加LPC分析滤波器到非LPD合成信号以将LPC分析滤波器上的信息提供给解码器。如上所述，控制器140可适于确定关于切换系数的信息，以便所述信息可表示与先前帧重叠的音频采样的帧。在实施例中，音频编码器100可适于采用冗余减少编码器150编码关于切换系数的这类信息。作为一个实施例的部分，可通过这样的方式加强重新启动程序，即在比特流中传输或包括关于先前帧所计算的LPC的额外参数信息。额外的一组LPC系数在下面可称为 LPCO。在一个实施例中，编解码器可采用称作LPCl至LPC4的四个LPC滤波器在其LPD 核心编码模式中操作，其中四个LPC滤波器用于每个帧的估计或确定。在实施例中，在从非 LPD编码到LPD编码的变换处，也可确定或估计额外的LPC滤波器LPC0，额外的LPC滤波器 LPCO与以先前帧的末端为中心的LPC分析相对应的一。换句话说，在实施例中，与先前帧重叠的音频采样的帧可以先前帧的末端为中心。在音频解码器200的实施例中，冗余恢复解码器210可适于解码来自已编码帧的关于切换系数的信息。因此，预测合成阶段220可适于确定与先前帧重叠的切换预测帧。在另一个实施例中，切换预测帧可以先前帧的末端为中心。在实施例中，可采用与非LPD段或帧的末端相对应的LPC滤波器，即LPCO用于LPC 系数的内插或者ACELP情况下的零输入响应的计算。如上所述，这个LPC滤波器可以向前的方式估计，即基于输入信号估计，通过编码器量化并传送至解码器。在其它实施例中，LPC 滤波器可以向后的方式估计，即由解码器基于过去合成的信号估计。向前估计可采用额外的比特率但也可实现更有效可靠的启动周期。换句话说，在其它实施例中，音频解码器200的实施例中的控制器250可适于分析先前帧以获得关于合成滤波器的系数的先前帧信息和/或关于预测域帧的先前帧信息。控制器250还可适于将关于系数的先前帧信息提供给预测合成阶段220作为切换系数。控制器250还可将关于预测域帧的先前帧信息提供给预测合成阶段220用于训练。在音频编码器100提供关于切换系数的信息的实施例中，可稍微增加比特流中的比特数。在解码器处实施分析可不增加比特流中的比特数。但是，在解码器处实施分析可引入额外的复杂性。因此，在实施例中，可通过减少频谱动态加强LPC分析的分辨率，即可首先通过预增强(pre-emphasis)滤波器预处理信号的帧。可在解码器200的实施例处处施加反相低频增强，如同音频编码器100，以允许获得对于编码接下来的帧所必须的激励信号或预测域帧。所有这些滤波器可给出零状态响应，即取决于当前输入的滤波器输出，假定没有提供过去的输入，即假定在完全重置后滤波器中的状态信息被设定为零。通常，当LPD 编码模式正常运行时，在先前帧的滤波后，用最后状态更新滤波器中的状态信息。在实施例中，为了设定以这样的方式编码的LPD的内部滤波器状态，即对于第一 LPD帧，所有的滤波器和预测器已被初始化以在对于第一帧的最佳或改进模式中运行，可通过音频编码器100提供关于切换系数/多个切换系数的信息，或者可在解码器200处实施额外的处理。通常，用于分析的滤波器与预测器，如音频编码器100中实施的预测编码分析阶段110，与音频解码器200侧所采用的用于合成的滤波器与预测器不同。为了分析，可以将先前帧的适当原始采样提供给这些滤波器的所有或至少一个如预测编码分析阶段Iio以更新存储。图9a示出用于分析使用的滤波器结构的实施例。第一滤波器是预增强滤波器1002，预增强滤波器1002可用于加增强LPC分析滤波器1006的分辨率，即预测编码分析阶段110的分辨率。在实施例中，LPC分析滤波器1006可采用例如分析窗口内的高通滤波语音采样计算或评估短期滤波器系数。换句话说，在实施例中，控制器140可适于基于先前帧的解码帧频谱的高通滤波版本确定关于切换系数的信息。在类似的方式中，假设在音频解码器200的实施例中实施分析，控制器250可适于分析先前帧的高通滤波版本。如图9a所示，感知加权滤波器1004在LP分析滤波器1006之前。在实施例中，可在码本的合成/分析搜索中使用感知加权滤波器1004。滤波器可通过这样的方式采用共振峰的噪声掩蔽性能作为例如声道共振，即在越接近共振峰频率的区域中越少地加权误差，而在越远离共振峰频率的区域中越多地加权误差。在实施例中，冗余减少编码器150可适于基于码本进行编码，码本可自适应于各个预测域帧/多个预测域帧。相对应地，冗余引入解码器210可适于基于自适应于多个帧的采样的码本进行解码。图9b示出在合成情况下的信号处理的模块图。在合成情况下，在实施例中，可以将先前帧的适当合成采样提供给所有滤波器或者至少一个滤波器以更新存储。在音频解码器200的实施例中，这可能是直接的，因为先前非LPD帧的合成是直接可得的。但是，在音频编码器100的实施例中，可不按照预设来实施合成，相对应地，合成采样可能不可得。因此，在音频编码器100的实施例中，控制器140可适于解码先前非LPD帧。一旦非LPD帧已被解码，在两个实施例中，即音频编码器100与音频解码器200，可根据图9b中的块1012来实施先前帧的合成。而且，LP合成滤波器1012的输出可输入到反相感知加权滤波器1014，在反相感知加权滤波器1014之的后应用解增强滤波器(de-emphasis) 1016。在实施例中，可使用自适应的码本并可用来自先前帧的合成采样来填充所述自适应的码本。在进一步的实施例中，自适应的码本可包括适于每个子帧的激励向量。自适应的码本可从长期滤波器状态得到。可使用滞后值作为进入自适应码本的索引。在实施例中，为了填充自适应码本，可通过将量化加权信号滤波至具有零存储的反相加权滤波器来最终计算激励信号或残余信号。在该编码器100中激励可能是尤其需要的，以便更新长期预测器的存储。本发明的实施例可提供这样的优点即通过提供额外的参数和/或提供具有通过基于变换的编码器所编码的先前帧的采样的编码器或解码器的内部存储器，，可推进或加速滤波器的重启过程。实施例可通过更新所有的或部分的相关存储，产生合成信号来提供加速LPC核心编解码器的启动过程的优点，其中合成信号可比当使用传统的观念特别地当使用完全重置时更接近原始信号。而且，实施例可允许更长的重叠及相加窗口并因而实现时域混叠消除的改进使用。实施例可提供这样的优点，即可缩短语音编码器的不稳定相，可减少在从基于变换的编码器至语音编码器的变换期间所产生的假信号。根据本发明方法的某些实施需求，本发明的方法可在硬件中或者在软件中实施。实施例的操作可使用具有在其上存储的可电子读取的控制信号的数字储存媒体，特别地，磁盘、DVD和CD电子可读取的控制信号与可编程的计算机系统合作(或者能够合作)使得各个方法被操作。通常，本发明因此为具有储存在机读载体上的程序代码的计算机程序产物，当计算机程序产物在计算机上执行时，程序代码可操作用于执行方法中的一个。换句话说，当计算机程序在计算机上运行时，本发明的方法因此为具有用于执行本发明的方法中的至少一个的程序代码的计算机程序。尽管前面已经参考特定实施例特定地示出及描述了本发明，但是本领域的技术人员应理解，在不背离本发明的精神与范围的情况下可在形式及细节上作各种其它改变。应理解的是，在不背离本文及附加的权利要求所公开的广泛概念的情况下，可做出各种改变以适应不同的实施例。
权利要求
1.一种适于编码采样音频信号的帧以获得已编码帧的音频编码器(100)，其中一帧包括多个时域音频采样，所述音频编码器包括预测编码分析阶段(110)，所述预测编码分析阶段用于基于音频采样的帧确定关于合成滤波器的系数的信息和关于预测域帧的信息；频域变换器(120)，所述频域变换器用于将音频采样的帧变换至频域以获得帧频谱；编码域判定器(130)，所述编码域判定器用于判定用于帧的编码数据是基于所述关于系数的信息和所述关于预测域帧的信息，还是基于所述帧频谱；控制器(140)，所述控制器用于当所述编码域判定器判定当前帧的编码数据是基于所述关于系数的信息和所述关于预测域帧的信息时，当先前帧的编码数据是基于先前帧频谱进行编码时，确定关于切换系数的信息；以及冗余减少编码器(150)，所述冗余减少编码器用于编码所述关于预测域帧的信息、所述关于系数的信息、所述关于切换系数的信息和/或所述帧频谱。
2.如权利要求1所述的音频编码器(100)，其中所述预测编码分析阶段(110)适于基于线性预测编码(LPC)分析确定所述关于合成滤波器的系数的信息和所述关于预测域帧的信息，和/或其中所述频域变换器(120)适于基于快速傅立叶变换(FFT)或改进离散余弦变换(MDCT)变换所述音频采样的帧。
3.如权利要求1或2所述的音频编码器(100)，其中所述控制器(140)适于基于LPC 分析确定所述关于切换系数的信息、关于合成滤波器的系数的信息和关于切换预测域帧的 fn息ο
4.如权利要求1至3中任一项所述的音频编码器(100)，其中所述控制器(140)适于确定所述关于切换系数的信息，以便所述切换系数表示与所述先前帧重叠的音频采样的帧。
5.如权利要求4所述的音频编码器(100)，其中所述与所述先前帧重叠的音频采样的帧以所述先前帧的末端为中心。
6.如权利要求1至4中任一项所述的音频编码器(100)，其中所述控制器(140)适于基于所述先前帧的解码帧频谱的高通滤波版本确定所述关于切换系数的信息。
7.一种用于编码采样音频信号的帧以获得已编码帧的方法，其中一帧包括多个时域音频采样，所述方法包括以下步骤基于音频采样的帧确定关于合成滤波器的系数的信息和关于预测域帧的信息；将音频采样的帧变换至频域以获得帧频谱；判定用于帧的编码数据是基于所述关于系数的信息和所述关于预测域帧的信息，还是基于所述帧频谱；当判定当前帧的编码数据是基于所述关于系数的信息和所述关于预测域帧的信息时，当先前帧的编码数据是基于先前帧的频谱进行编码时，确定关于切换系数的信息；以及编码所述关于预测域帧的信息、所述关于系数的信息、所述关于切换系数的信息和/ 或所述帧频谱。
8.一种用于解码已编码帧以获得采样音频信号的帧的音频解码器000)，其中一帧包括多个时域音频采样，所述音频解码器包括冗余恢复解码器O10)，所述冗余恢复解码器用于解码所述已编码帧以获得关于预测域帧的信息、关于用于合成滤波器的系数的信息和/或帧频谱；预测合成阶段O20)，所述预测合成阶段用于基于所述关于用于合成滤波器的系数的信息和所述关于预测域帧的信息，确定音频采样的预测帧；时域变换器O30)，所述时域变换器用于将所述帧频谱变换至时域以从所述帧频谱获得变换帧；组合器O40)，所述组合器用于组合所述变换帧和所述预测帧以获得所述采样音频信号的帧；以及控制器O50)，所述控制器用于控制切换过程，当先前帧是基于变换帧且当前帧是基于预测帧时，发生所述切换过程，所述控制器(250)被配置用于将切换系数提供给所述预测合成阶段用于训练所述预测合成阶段，以便当所述切换过程发生时，所述预测合成阶段被初始化。
9.如权利要求8所述的音频解码器000)，其中所述冗余减少解码器(210)适于解码来自所述已编码帧的关于所述切换系数的信息。
10.如权利要求8或9中任一项所述的音频解码器000)，其中所述预测合成阶段 (220)适于基于LPC合成确定所述预测帧，和/或其中所述时域变换器(230)适于基于反相 FFT或者反相MDCT将所述帧频谱变换至时域。
11.如权利要求8至10中任一项所述的音频解码器020)，其中所述控制器(250)适于分析所述先前帧以获得关于用于合成滤波器的系数的先前帧信息和关于预测域帧的先前帧信息，并且其中所述控制器(250)适于将所述关于系数的先前帧信息提供给所述预测合成阶段(220)作为切换系数，和/或其中所述控制器(250)适于还将所述关于预测域帧的先前帧信息提供给所述预测合成阶段(220)用于训练。
12.如权利要求8至11中任一项所述的音频解码器000)，其中所述预测合成阶段 (220)适于确定以所述先前帧的末端为中心的切换预测帧。
13.如权利要求8至12中任一项所述的音频解码器O20)，其中所述控制器(250)适于分析所述先前帧的高通滤波版本。
14.一种用于解码已编码帧以获得采样音频信号的帧方法，其中一帧包括多个时域音频采样，所述方法包括以下步骤解码所述已编码帧以获得关于预测域帧的信息和关于用于合成滤波器的系数的信息和/或帧频谱；基于所述关于用于合成滤波器的系数的信息与所述关于预测域帧的信息，确定音频采样的预测帧；将所述帧频谱变换至时域以从所述帧频谱获得变换帧；组合所述变换帧与所述预测帧以获得所述采样音频信号的帧；以及控制切换过程，当先前帧是基于所述变换帧且当前帧是基于所述预测帧时，所述切换过程发生；和提供切换系数用于训练，以便当所述切换过程发生时，所述预测合成阶段被初始化。
15.一种具有程序代码的计算机程序，当计算机程序在计算机或处理器上运行时，所述程序代码用于执行权利要求7或权利要求14所述的方法。
全文摘要
一种适于编码采样音频信号的帧以获得已编码帧的音频编码器(100)，其中一帧包括多个时域音频采样，音频编码器包括预测编码分析阶段(110)，用于基于音频采样的帧确定关于合成滤波器的系数的信息和关于预测域帧的信息。音频编码器(100)还包括频域变换器(120)和编码域判定器(130)，频域变换器(120)用于将音频采样的帧变换至频域以获得帧频谱。而且，音频编码器(100)包括控制器(140)，用于当编码域判定器判定当前帧的编码数据是基于关于系数的信息和关于预测域帧的信息时，当先前帧的编码数据是基于先前帧频谱进行编码时，确定关于切换系数的信息。
文档编号G10L19/14GK102105930SQ200980127097
公开日2011年6月22日申请日期2009年7月8日优先权日2008年7月11日
发明者尼古拉斯·里特尔博谢, 斯特凡·拜尔, 杰雷米·勒孔特, 菲利普·古尔奈, 马库斯·马特拉斯申请人:弗朗霍夫应用科学研究促进协会, 沃伊斯亚吉公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杰雷米·勒孔特
技术所有人：弗朗霍夫应用科学研究促进协会
我是此专利的发明人