用于编码和解码音频样本的音频编码器和解码器的制作方法

文档序号：2823160阅读：273来源：国知局

专利名称：用于编码和解码音频样本的音频编码器和解码器的制作方法
用于编码和解码音频样本的音频编码器和解码器本发明属于在不同编码域进行音频编码的领域，例如在时域和变换域中。在低比特率音频和语音编码技术的背景中，传统中已采用数个不同编码技术以获得在给定的比特率下具有可能最佳主观质量的如此低比特率编码信号。一般的音乐/声音信号的编码器旨在根据使用一种感知模型(“感知音频编码”)估算输入信号而获得的掩蔽临界曲线以通过塑造量化误差的频谱(及时间)形状来优化主观质量。另一方面，极低比特率下的语音编码已经显示出在其基于人类语音的产生模式时高效运行，即采用线性预测编码(LPC)以模型化与残差激发信号的有效编码一起的人类声道的共振效应。作为这两种不同方式的结果，常用音频编码器例如MPEG-ILayer 3(MPEG=运动图像专家组)，或MPEG-2/4先进音频编码(AAC)通常对于非常低数据率下的语音信号执行的效果不如像专用LPC式语音编码器一样好，由于缺乏对声源模型的利用。相反地，LPC式语音编码器在被应用于常见音乐信号时，由于其无法根据掩蔽临界曲线灵活地形成编码失真的频谱包络而通常不能实现令人信服的结果。下面，描述了将LPC式编码和感知式音频编码二者优点结合进单一架构中的概念，并因此描述了对常见音频和语音信号二者都有效的统一语音编码。传统地，感知语音编码器使用一种基于滤波器组的方法以根据掩蔽曲线的估算有效地编码音频信号以及形成量化失真。

图16a示出了一种单声道感知编码系统的基本方框图。分析滤波器组1600被用于将时域样本映射成子采样频谱分量。基于频谱分量的数量，该系统也被称作子带编码器 (数量小的子频带，例如32)或变换编码器(数量大的频率线，例如512)。感知(心理声学)模型1602被用来估算实际时间所依的掩蔽阈值。该频谱(“子带”或“频域”)分量被量化和编码1604，以将量化噪声隐藏在实际传输信号下且在解码后无法察觉的方式。这通过改变时间及频率上频谱值的量化粒度而实现。量化和熵编码后的频谱系数或子频带值，与边信息一起，输入进提供了适于被传输和存储的已编码音频信号的比特流格式器1606中。方框1606的输出比特流可被 Internet网传输，或可被存储在任意可机读数据载体上。在解码器端，解码器输入接口 1610接收已编码。方框1610将熵编码后和量化后的频谱/子频带值从边信息处分离。该已编码的频谱值被输入如霍夫曼解码器的熵解码器中，其位于1610和1620之间。该熵解码器的输出是量化后的频谱值。这些量化频谱值被输入到再量化器中，其执行一种如图16a中1620处所示的“反”量化。该方框1620的输出被输入到合成滤波器组1622中，其执行包括频率/时间变换以及典型地如重叠和相加的时域混叠消除操作和/或合成端窗口操作的分析滤波，以最后获得该输出音频信号。传统地，有效语音编码已经基于线性预测编码(LPC)以模型化与残差激发信号的有效编码一起的人类声道的共振效应。LPC和激发参数二者被从编码器传输到解码器。这一原理如图17a和17b所示。图17a指示了基于线性预测编码的编码/解码系统的编码器端。语音输入被输入到LPC分析器1701中，其在其输出端提供LPC滤波器系数。基于这些LPC滤波器系数，调整LPC滤波器1703。该LPC滤波器输出了一种频谱白化音频信号，其也被称作“预测误差信号”。该频谱白化音频信号被输入到产生激发参数的残差/激发编码器1705中。因此，该语音输入一方面被编码成激发参数，以及另一方面为LPC系数。在图17b中的解码端上，激发参数被输入进激发解码器1707，其产生可被输入到 LPC合成滤波器中的激发信号。使用该被传输的LPC滤波器系数对该LPC合成滤波器进行调整。因此，该LPC合成滤波器1709产生了一种重建或合成后的语音输出信号。随着时间的推移，已经提出了许多对于如多脉冲激发(MPE)、规则脉冲激发 (RPE)，以及码激式线性预测(CELP)的残差(激发)信号的有效和感知上令人信服再现的方法。线性预测编码试图基于对特定数量的过去值的观察作为对过去观察的线性组合，以对序列的当前采样值产生估计值。为了减少该输入信号中的冗余，编码器LPC滤波器“白化”其频谱包络中的输入信号，即，其是该信号的频谱包络的反相的模型。相反地，解码器 LPC合成滤波器是信号的频谱包络的模型。具体地，公知的自回归(AR)线性预测分析已知是通过全极点接近来对信号的频谱包络模型化。典型地，窄频带语音编码器(即采用8kHz采样率的语音编码器)使用具有8到12 之间的阶数的LPC滤波器。由于该LPC滤波器的性质，相同的频率解析度在全频率范围内是有效的。这与感知频率标度不相对应。为了将传统LPC/CELP式编码(对于语音信号具有最佳质量)与传统的滤波器组式感知音频编码方法(对于音乐最佳)的长处相结合，已经提出了一种在这些架构之间的
石马。= Adaptive Multi-Rate WideBand) coder B. Bessette, R. Lefebvre, R. Salami, "UNIVERSAL SPEECH/AUDIO CODING USING HYBRID ACELP/TCX TECHNIQUES, ” Proc. IEEE ICASSP 2005，pp. 301-304，2005 中，两交替编码核心操作于 LPC 残差信号上。一个编码核心基于ACELP (ACELP=代数编码激发线性预测)且因此对于语音信号的编码非常有效。另一个编码核心基于TCX (TCX =变换编码激发)，即类似传统音频编码技术的滤波器组式编码方法，以获得音乐信号的良好质量。基于该输入信号的特性，可选该两种编码方式之一以在短时间期间传输该LPC残差信号。以这样的方式，80ms持续时间的帧可被分割为40ms或20ms的子帧，其中在该两种编码模式之间做出决策。参见2005年6月，版本号为6. 3. 0的3GPP (3GPP =第三代伙伴合作计划)技术规范编号26. 290,该AMR-WB+(AMR-WB+ =扩展自适应多速率宽频编解码器)可在两种本质上不同的模式ACELP与TCX之间切换。在ACELP模式中，时域信号通过代数编码激发而被编码。在该TCX模式中，快速傅利叶变换(FFT=快速傅利叶变换)予以使用且LPC加权信号的频谱值(LPC激发可源于此)基于向量量化而被编码。使用哪一模式的决策，可通过尝试和解码两种选择且比较产生的部分信噪比(SNR =信噪比)来实现。这种情况也被称为闭环决策，因为具有闭合控制环路，分别评估二者的编码性能或效率，以及随后选择具有较佳SNR的那个。公知的是对于音频和语音编码应用，未开窗口的块变换是不可行的。因而，对于 TCX模式，信号以具有1/8叠加的低叠加窗口予以打开窗口。为了淡出先前块或帧而淡入下一个以例如抑制由于在后续音频帧中不相关的量化噪声所产生的失真，这个叠加区域是必要的。与非关键取样相比较，额外负担的方式可保持相当低，且对于该闭环决策所必须的解码以当前帧的样本的至少7/8进行再现。AMR-WB+在TCX模式中引入了 1/8的额外负担，即需编码的频谱值的数量闭输入样本的数量高1/8。这提出了一种增加的额外负担数据的缺陷。而且，对应带通滤波器的频率基于是不利的，归因于连续帧的1/8的陡峭叠加区域。为了更详细地说明连续帧的额外负担代码以及叠加，图18示出了窗口参数的定义。图18中所示的窗口具有在左手端的上升边缘部分，其被标注为“L”且也被称为左叠加区域，被标注为“1”的中心区域，其也被称为区域1或旁通部分，以及下降边缘部分，其被标注为“R”且也被称为右叠加区域。而且，图18示出了指示在一帧内完美重建的区域“PR” 的箭头。进一步地，图18示出了指示由“T”表示的变换核心的长度的箭头。图19示出了 AMR-WB+窗口序列的视窗以及在底部根据图18的窗口参数表。在图 19顶部所示的窗口序列是ACELP，TCX20 (对于持续20ms的帧)，TCX20, TCX40 (对于持续 40ms 的帧)，TCX80 (对于持续 80ms 的帧)，TCX20，TCX20, ACELP, ACELP0从该窗口序列处可以看到变化的叠加区域，其通过中心部分M的精确1/8进行叠加。在图19底部的表格也显示出该变换长度“T”总是以1/8大于新完美重建样本区域 "PR"o然而，应注意的是，这不仅仅用于ACELP至TCX变换的情况，而且用于TCXx至TCXx (其中“X”是任意长度的TCX帧)的变换。因此，在每一块中引入了 1/8的额外负担，即决不会实施临界采样。当从TCX变换至ACELP时候，窗口样本在重叠区域中从FFT-TCX处被丢弃，如例如在图19顶部由1900标记的区域所指示的一样。当从ACELP切换至TCX时，零输入基于 (Z^=零输入基于)，其也在图19的顶部处由虚线1910所指示，在打开窗口之前从编码器处被移除且在解码器处加入用于恢复。当从TCX切换到TCX帧时，打开窗口的样本被用来交叉衰减。由于TCX帧可被不同地量化，在连续帧之间的量化误差或量化噪声可以是有差异的和/或独立的。此外，当从一帧处切换到下一个而没有交叉衰减的帧时，可能产生明显的失真，以及因此，为了实现特定的质量，交叉衰减是必要的。从图19的底部处的表格中可以看出，交叉衰减区域随着帧的递增长度而增长。图 20提供了说明在ARM-WB+中可能变换的不同窗口的另一表格。当从TCX变换为ACELP时，可丢弃重叠样本。当从ACELP转变为TCX时，来自ACELP的零输入基于可在编码器处予以移除且在解码器处予以加入以用于恢复。下面将说明利用时域(TD =时域)及频域(FD =频域)编码的音频编码。而且，在种编码域之间，可以进行切换。图21中，显示了一种时间线，其间第一帧2101由FD编码器编码，其后是由TD编码器编码且与该第一帧2101叠加于区域2102中的另一帧2103。时域已编码帧2103之后是帧2105，其在频域中被再次编码且与先前帧2103在区域2104中重叠。该重叠区域2102和2104无论何时切换编码域都会产生。这些叠加区域用来平滑上述变换。但是，重叠区域仍可能易于产生编码效率的损失和失真。因此，通常将叠加区域或变换选作为在被传输信息的一些额外负担，即编码效率，以及传输质量，即已解码信号的音频质量，之间的妥协。为了建立该妥协，当处理该变换及设计图21所指示的变换窗口 2111、2113及2115时应当小心。与管理在频域和时域编码模式之间的变换相关的常见概念是，例如使用交叉衰减窗口，即引入与叠加区域一样大的额外负担。使用淡出先前窗口的同时淡入下一窗口的交叉衰减窗口。这种方法，由于其额外负担，在解码效率中引入了缺陷，由于无论何时发生变换时，该信号都不再被临界取样。临界地取样重叠变换例如被揭露于J. I^incen， A. Bradley,"Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation”，IEEE Trans. ASSP, ASSP_34(5) :1153-1161,1986 中，且例如用于 AAC(AAC =先进音频编码)中，参见运动图像和相关音频的通用编码先进音频编码，国际标准 13818-7，IS0/IECJTC1/SC29/WG11 运动图像专家组，1997。而且，无混叠交叉衰减转化被揭露于Fielder，Louis D.，Todd, Craig C.，“The Design of a Video Friendly Audio Coding System for Distribution Applications，，， Paper Number 17—008, The AES 17th International Conference :High_Quality Audio Coding(August 1999)and in Fielder, Louis D., Davidson, Grant A. , "Audio Coding Tools for Digital Television Distribution，，,Preprint Number 5104,108 Convention of the AES(January 2000)。W02008/071353揭露了用于在时域和频域编码器之间切换的概念。该概念可适于基于时域/频域切换的任何编解码器。例如，该概念可适于根据AMR-WB+编解码器的ACELP 模式的时域编码以及作为频域编解码器的示例的AAC。图22示出了使用在顶部分支中的频域解码器及在底部分支中的时域解码器的常见编码器的方框图。频率解码部分示范地被表示为包含再量化方框2202和反相改进离散余弦变换方框2204的AAC编码器。在AAC中改进离散余弦变换(MDCT =改进离散余弦变换)用作在时域和频域之间的变换。在图22中，时域解码路径被示范地表示为AMR-WB+解码器2206，其后是MDCT方框2208，为了将解码器 2206的结果和再量化器2202的结果结合在频域中。这在频域中实现结合，其中在图22中未显示的重叠和相加阶段，能够在反MDCT 2204后被使用，为了结合及交叉衰减相邻块而不必考虑他们是否已被编码在时域或频域中。在揭露于W02008/071353中的另一常用方法中，为了避免图22中的MDCT2208，即在时域解码的情况下的DCT-IV及IDCT-IV，可使用所谓的时域混叠消除(TDAC =时域混叠消除)的另一方法。该方法被显示在图23中。图23显示了具有示范表示为包含再量化方框2302和IMDCT方框2304的AAC解码器的频域解码器的另一解码器。时域路径被再次示范表示为AMR-BW+解码器2306和TDAC方框2308。由于TDAC 2308引入了用于正确结合的必要时间混叠，即用于直接在时域中的时间混叠消除，因此图23中的解码器允许在时域中将已解码块结合，即在IMDCT2304之后。为了节省一些计算且替代在每一第一及最后超帧上使用MDCT，即在每一个AMR-WB+音段的每10 个样本上，TDAC可仅仅被用于在1 样本上的叠加区或区域中。在引入在AMR-BW+部分中相对应的反时域混叠时，可保持由AAC处理引入的正常时域混叠。无混叠交叉衰减窗口具有因为产生非临界取样的已编码系数而不能有效编码和加入需编码信息的额外负担的缺点。在例如W02008/071353中的时域解码器处引入了 TDA(TDA =时域混叠)，减少了上述额外负担，但仅仅可适于当两个编码器的时间帧化相互匹配时。否则，编码效率被再次减小。进一步地，在解码器端的TDA可能是有问题的，特别是在时域编码器的起点处。在可能的重置后，时域编码器或解码器将通常产生量化噪声的触发，由于使用例如LPC(LPC=线性预测编码)而使时域编码器或解码器清空存储体。随后解码器将在处于永久或稳定的状态之前消耗一段时间，并且随着时间的推移而发送更相似的量化噪声。触发误差由于其通常是可听见的因而是不利的。因此，本发明的目的在于提供在多个域中音频编码内进行切换的一种改良概念。该目的通过根据权利要求1的编码器，根据权利要求16的编码方法，根据权利要求18的音频解码器，以及根据权利要求32的音频解码方法来实现。本发明的一个发现是当相应编码域的帧化是合适的或使用修改后的交叉衰减窗口时，可实现在使用时域和频域编码的音频编码概念中的改良切换。在实施例中，例如 AMR-WB+可被用作时域编解码器且AAC可用作频域编解码器的一个示例，在这两种编解码器之间可通过实施例实现更有效的切换，通过适合AMR-WB+部分的帧化或通过为各个AAC 编码部分使用已修改的开始或停止窗口。本发明的另一发现是TDAC可用于上述解码器以及可使用非混叠的交叉衰减窗本发明的实施例可提供额外负担信息能被减少的优点，在重叠变换中引入而保持中度交叉衰减区域具有确凿的交叉衰减质量。本发明的实施例将使用附图进行具体描述，其中图Ia示出了音频编码器的一个实施例；图Ib示出了音频编码器的一个实施例；图 2a_2j 示出了 MDCT/IMDCT 的公式；图3示出了使用已修改帧化的一个实施例；图如示出了在时域中的准周期信号；图4b示出了在频域中的有声信号；图fe示出了在时域中的类似噪声信号；图恥示出了在频域中的无声信号；图6示出了分析合成CELP ；图7示出了在一个实施例中的LPC分析阶段的示例；图示出了具有已修改停止窗口的一个实施例；图8b示出了具有已修改停止-开始窗口的一个实施例；图9示出了原理窗口；图10示出了更先进的窗口；图11示出了已修改停止窗口的一个实施例；图12示出了具有不同重叠区或区域的一个实施例；图13示出了已修改的开始窗口的一个实施例；图14示出了用于编码器的无混叠的已修改停止窗口的一个实施例；图15示出了用于解码器的无混叠的已修改停止窗口；图16示出了常见的编码器和解码器的示例；图17a、17b示出了用于有声和无声信号的LPC ；图18示出了现有技术的交叉衰减窗口；图19示出了现有技术的AMR-WB+窗口序列；
图20示出了用于在AMR-WB+中在ACELP和TCX之间进行传输的窗口；图21示出了在不同编码域中连续音频帧的示范序列；图22示出了用于在不同域中音频解码的常用方法；以及图23示出了时域混叠消除的示例。图Ia示出了用于编码音频样本的音频编码器100。该音频编码器100包括用于在第一编码域中编码音频样本的第一时域混叠引入编码器110，该第一时域混叠引入编码器 110具有第一帧化规则、开始窗口和停止窗口。而且，该音频编码器100包含用于在第二编码域中编码音频样本的第二编码器120。该第二编码器120具有音频样本的预定帧大小数量和音频样本的编码暖机(warm-up)期数量。该编码暖机期可以是特定或预定的，其可根据音频样本、音频样本的帧或音频信号的序列而定。该第二编码器120具有不同的第二帧化规则。该第二编码器120的帧是一定数量的在时间上连续的音频样本的编码表示，该在时间上连续的音频样本的数量等于音频样本的预定帧大小数量。音频编码器100进一步包括控制器130，用于根据音频样本的特性从第一时域混叠引入编码器110切换到第二编码器120，并且用于根据从第一时域混叠引入编码器110切换至第二编码器120修改第二帧化规则或用于修改第一时域混叠引入编码器110的开始窗口或停止窗口，其中第二帧化规则保持未被修改。在实施例中，控制器130可适于基于输入音频样本或基于第一时域混叠引入编码器110或第二编码器120的输出来判定音频样本的特性。这在图Ia中以虚线予以指示，由此可将输入音频样本提供给控制器130。下面将提供切换决策的进一步的细节。在实施例中，控制器130可以平行编码音频样本的方式来控制第一时域混叠引入编码器110和第二编码器120，且控制器130基于各个结果来确定切换决策，在切换之前实施修改。在其他实施例中，控制器130可分析音频样本的特征并且确定使用哪一个编码分支并且切换关闭另一分支。在这样的实施例中，第二编码器120的编码暖机期在切换之前是相应的，必须把编码暖机期考虑在内，这在下面将进一步进行描述。在实施例中，第一时域混叠引入编码器110可包含用于将后续音频样本的第一帧变换至频域的频域变换器。第一时域混叠引入编码器110可适于当通过第二编码器120编码后续帧时以开始窗口加权第一已编码帧，并且可进一步地适于当需由第二编码器120编码先前帧时以停止窗口加权第一已编码帧。应注意的是可使用不同的符号，第一时域混叠引入编码器110使用开始窗口或停止窗口。此处，对于其他，假设开始窗口在切换至该第二编码器120之前予以使用，且当从第二编码器120切换回该第一时域混叠引入编码器120时，停止窗口用于第一时域混叠引入编码器110处。在没有丧失一般性的情况下，相反关于第二编码器120同样可使用该表示。为了避免混淆，此处“开始”和“停止”的表达涉及在第二编码器120开始时或其停止之后用于第一编码器110处的窗口。在实施例中，如在第一时域混叠引入编码器110中所使用的频域变换器可适于基于MDCT将第一帧变换为频域，以及第一时域混叠引入编码器110可适于使MDCT大小适应开始和停止或已修改的开始和停止窗口。MDCT的细节和其大小将在下面被提出。在实施例中，该第一时域混叠引入编码器110从而可适于使用具有无混叠部分的开始及/或停止窗口，即在该窗口内存在不具有时域混叠的部分。而且，该第一时域混叠引入编码器110可适于当该先前帧由该第二编码器120编码时，使用在该窗口的上升边缘部分处具有无混叠部分的开始窗口及/或停止窗口，即该第一时域混叠引入编码器110使用具有无混叠的上升边缘部分的停止窗口。因而，该第一时域混叠引入编码器110可适于当后续帧由该第二编码器120编码时，使用具有无混叠的下降边缘部分的窗口，即使用具有无混叠的下降边缘部分的停止窗口。在实施例中，控制器130可适于启动第二编码器120以便第二编码器120的帧序列的第一帧包含在第一时域混叠引入编码器110的先前无混叠部分中所处理样本的编码表示。换句话说，第一时域混叠引入编码器110和第二编码器120的输出可以由控制器130 来协调，采用使来自第一时域混叠引入编码器110的已编码音频样本的无混叠部分与由第二编码器120所输出的已编码音频样本重叠的方式。控制器130可进一步适于交叉衰减，即淡出一编码器而淡入另一编码器。控制器130可适于启动该第二编码器120，以便音频样本的编码暖机期数量叠加于第一时域混叠引入编码器110的开始窗口的无混叠部分，并且第二编码120的后续帧与停止窗口的混叠部分重叠。换句话说，控制器130可协调第二编码器120以便对于编码暖机期，来自第一编码器110的无混叠的音频样本是可用的，且仅当来自第一时域混叠引入编码器110的混叠音频样本可用时，第二编码器120的暖机期已被终止，并且已编码音频样本可以常规方式用于第二编码器120的输出处。控制器130可进一步地适于启动第二编码器120，以便编码暖机期与开始窗口的混叠部分重叠。在此实施例中，在叠加部分期间，来自第一时域混叠引入编码器110的输出的已混叠音频样本是可用的，且在第二编码器120的输出处，会经历增加的量化噪音的暖机期的已编码音频样本可能是可用的。控制器130还可适于在叠加期间在两个非最优化的已编码音频序列之间交叉衰减。在另外一些实施例中，控制器130可进一步适于基于该音频样本的不同特性从第一编码器110处进行切换，并且用于响应于从第一时域混叠引入编码器110至第二编码器 120的切换来修改第二帧化规则，或用于修改第一编码器的开始窗口或停止窗口，其中第二帧化规则保持未被修改。换句话说，控制器130可适于在二个音频编码器之间来回切换。在其他实施例中，控制器130可适于开始第一时域混叠引入编码器110以便停止窗口的无混叠部分与第二编码器120的帧重叠。换句话说，在实施例中，控制器可适于在两个编码器的输出之间交叉衰减。在一些实施例中，第二编码器的输出被淡出，而仅仅被非最优化编码，即来自第一时域混叠引入编码器110的已混叠音频样本被淡入。在其他实施例中，控制器130可适于在第二编码器120的帧与该第一编码器110的非经混叠帧之间交叉衰减。在实施例中，第一时域混叠引入编码器110可包括根据运动图像及相关联音频的通用编码先进音频编码，国际标准为13818-7，IS0/IEC JTC1/Sa9/WG11运动图像专家组，1997的AAC编码器。在实施例中，第二编码器120可包含根据3GPP(3GPP =第三代伙伴计划)的技术规范 26.四0，版本 6. 3. 0，其为 2005 年 6 月 “Audio Codec Processing Function ；Extended Adaptive Multi-Rate-ffide Band Codec ；Transcoding Functions，，,release 6 的AMR-WB+
编码器。
控制器130可适于修改AMR或AMR-WB+的帧化规则，以便第一 AMR超帧包含五个 AMR帧，其中根据上面所提及的技术规范，将上面所提及的技术规范的第18页上的图4及表格10与第20页上的图5进行比较，超帧包含四个常规AMR帧。如下进一步进行具体描述，控制器130可适于将额外帧增加至AMR超帧中。应注意的是，在实施例中，超帧可通过在任何超帧的开始或末端处来附加帧以进行修改，即帧化规则也可匹配于超帧的末端处。图Ib显示了用于把音频样本的已编码帧进行解码的音频解码器150的实施例。音频解码器150包含第一时域混叠引入解码器160，用于于第一解码域中解码音频样本。第一时域混叠引入编码器160具有第一帧化规则、开始窗口和停止窗口。音频解码器150进一步包含第二解码器170，用于在第二解码域中解码音频样本。第二解码器170具有音频样本的预定帧大小数量以及音频样本的编码暖机期数量。进一步地，第二解码器170具有不同的帧化规则。第二解码器170的帧可与一定数量的在时间上连续的音频样本的已解码表示相对应，其中该在时间上连续的音频样本的数量等于音频样本的预定帧大小数量。音频解码器150进一步包含控制器180，用于基于在音频样本的已编码帧中的指示，从第一时域混叠引入解码器160切换至第二解码器170，其中控制器180适于响应于从第一时域混叠引入解码器160切换至第二解码器170以修改第二帧化规则，或用于修改第一解码器160的开始窗口或停止窗口，其中第二帧化规则保持未被修改。根据上面的描述，例如在AAC编码器及解码器中，开始及停止窗口用于编码器处及解码器处。根据上面音频编码器100的描述，音频解码器150提供相对应的解码元件。控制器180的切换指示可根据比特、标志或与已编码帧一起的任意边信息而予以提供。在实施例中，第一解码器160可包含用于将已解码音频样本的第一帧变换为时域的时域变换器。第一时域混叠引入解码器160可适于当后续帧由第二解码器170解码时以开始窗口加权第一经解码帧，及/或用于当先前帧需由第二解码器170解码时以停止窗口加权第一经解码帧。时域变换器可适于基于反相MDCT(IMDCT =反相MDCT)将第一帧变换为时域及/或第一时域混叠引入解码器160可适于使IMDCT大小适应开始及/或停止或经修改的开始及/或停止窗口。IMDCT大小将在下面进行更详细地描述。在实施例中，第一时域混叠引入解码器160可适于使用具有无混叠或无混叠部分的开始窗口及/或停止窗口。第一时域混叠引入解码器160可进一步适于在先前帧已由第二解码器170解码时，使用在窗口的上升部分处具有无混叠部分的停止窗口，及/或第一时域混叠引入解码器160在后续帧由第二解码器170解码时可具有在下降边缘处具有无混叠部分的开始窗口。根据上面所描述的音频编码器100的实施例，控制器180可适于启动第二编码器 170,以便第二解码器170的帧序列的第一帧被包含于第一解码器160的先前无混叠部分中所处理样本的已解码表示中。控制器180可适于启动第二解码器170，以便音频样本的编码暖机期数量与第一时域混叠引入解码器160的开始窗口的无混叠部分重叠，并且第二解码器170的后续帧与停止窗口的混叠部分重叠。在其他实施例中，控制器180可适于启动第二解码器170以便该编码暖机期与开始窗口的混叠部分重叠。在其他实施例中，控制器180可进一步适于基于来自已编码音频样本的指示，从第二解码器170切换至第一解码器160，并且用于响应于从第二解码器170至第一解码器160的切换，来修改第二帧化规则或用于修改第一解码器160的开始窗口或停止窗口，其中第二帧化规则保持未被修改。该指示可根据标志、比特或与已编码帧一起的任何边信息而予以提供。在实施例中，控制器180可适于启动第一时域混叠引入解码器160以便停止窗口的混叠部分与第二解码器170的帧重叠。控制器180可适于在不同解码器的已解码音频样本的连续帧之间使用交叉衰减。另外，控制器108可适于确定来自第二解码器170的已解码帧的开始或停止窗口的混叠部分中的混叠，并且控制器108可适于基于所判定的混叠来减少在混叠部分中的混叠。在实施例中，控制器180可进一步适于丢弃来自第二解码器170的音频样本的编码暖机期。下面，将描述改进离散余弦变换(MDCT =改进离散余弦变换)及IMDCT的细节。 MDCT在图2a-2j所显示的等式的帮助下被予以更详细的解释。改进离散余弦变换是基于类型IV的离散余弦变换(DCT-IV =离散余弦变换类型IV)的傅利叶相关变换，具有被重叠的附加特性，即其被设计以执行于较大型数据集的连续区块上，其中后续区块被叠加以便例如区块的后半部与下一区块的前半部相符。该叠加，除了 DCT的能量集中性质以外，使 MDCT特别地吸引信号压缩，因为他帮助避免了来自该区块边界的失真。因而，MDCT被用于 MP3(MP3 =MPEG2/4第 3层)、AC-3(AC-3 =杜比音频编解码器 3)、0gg Vorbis 以及 AAC(AAC =先进音频编码)中用于例如音频压缩。MDCT 由 Princen, Johnson 和 Bradley 于 1987 年提出，其稍早(1986)的工作由 Princen和Bradley做出，用以发展MDCT的时域混叠消除(TDAC)的基本原理，下面进一步进行描述。还存在基于离散正弦变换的类似变换MDST (MDST =已修改DST，DST =离散正弦变换)以及基于不同类型的DCT或DCT/DST结合(其也可由时域混叠引入变换用于实施例中)的MDCT所很少使用的其他形式。在MP3中，MDCT不直接地用于音频信号，而是用于32频带多相正交滤波器(PQF = 多相正交滤波器)组的输出。此MDCT的输出由混叠简化公式进行后处理以简化PQF滤波器组的常见混叠。滤波器组与MDCT的这一结合被称为混合滤波器组或子频带MDCT。另一方面，AAC通常使用纯粹的MDCT ；仅(很少使用)MPEG-4AAC-SSR变形(Sony所用)使用了后面是MDCT的四频带PQF滤波器组。ATRAC (ATRAC =自适应变换音频编码)使用后面是 MDCT的堆叠正交镜像滤波器(QMF)。作为重叠变换，相比于其他的傅利叶相关变换，MDCT是有点不寻常的，因为其具有输入数量的一半(而不是相同数量)的输出。特别地，他是线性函数F :R2N-> Rn，其中R表示实数组。2N个实数&，…，X21^1根据图加中的公式变换为N个实数)(。，…，XN_lt)该变换前端中的归一化系数，此处统一，为任意约定且在处理之间有所不同。仅下面的MDCT及IMDCT的归一化乘积受约束。反相MDCT被称为IMDCT。因为具有不同数量的输入及输出，所以乍看之下MDCT好像不应该是可逆的。然而，完美的可逆性通过增加后续叠加区块的所叠加的IMDCT而获实现，以便误差被消除别且获取了原始数据；该技术被称为时域混叠消除(TDAC)。IMDCT根据图2b中的公式将N个实数X0, ...,V1变换为2N个实数y0,…，y·。与对DCT-IV进行的正交变换相同，该反相具有与正向变换相同的形式。
在已开窗MDCT具有通常窗口归一化(如下所示)的情况下，IMDCT的前端的归一化系数应乘以2，即成为2/N。虽然直接使用MDCT公式将需要0(N2)操作，但是可能通过如在快速傅利叶变换 (FFT)中递归分解运算，仅以0(N log N)的复杂性来运算同一 MDCT公式。也可通过其他变换来运算MDCT，典型地，采用与O(N)前处理及后处理步骤相结合的DFT (FFT)或DCT。而且，如下所述，用于DCT-IV的任意算法立即提供了用以运算偶数大小的MDCT和IMDCT的方法。在典型的信号压缩应用中，变换性质通过使用与上面MDCT及IMDCT公式中的^cn及 yn相乘的窗口函数wn(n = 0，…，2N-1)而进一步改良，以避免在η = 0及2N边界处的不连续性，即通过使该函数在这些点处平滑地到达0。也就是说，数据在MDCT之前且在IMDCT 之后被予以打开窗口。理论上，χ及y可具有不同的窗口函数，且窗口函数也可从一区块到下一方块改变，特别是在将不同大小之数据区块相结合的情况下，但是为了简明起见，对于相同大小的区块首先考虑相同窗口函数的共用情况。该变换保持可逆，即TDAC对对称窗口 Wn = w2N+n起作用，只要w满足根据图2c中的 Princen-Bradley 条件。各种不同的窗口函数是共用的，在图2d给出了对于MP3及MPEG-2AAC的示例，且在图 2e 中对于 Vorbis。AC-3 使用了 Kaiser-Bessel 衍生(KBD = Kaiser-Bessel 衍生) 窗口，且MPEG-4AAC也可使用KBD窗口。应注意的是用于MDCT的窗口不同于用于其他类型的信号分析的窗口，因为他们必须满足I^rincen-Bradley条件。该不同的原因之一是MDCT窗口被两次用于MDCT (分析滤波器)和IMDCT (合成滤波器)二者。如通过对上述定义的检查可发现，对于偶数的N，MDCT本质上等效于DCT-IV，其中输出移位N/2且二个N-区块的数据被立即变换。通过更仔细地检查此等效，可轻易得到类似TDAC的重要性质。为了定义与DCT-IV的精确关系，必须认识到DCT-IV相对应于交替的偶数/奇数边界条件，在其左边界(大约η = -1/2)处为偶数，在其右边界(大约η = Ν-1/2)处为奇数等(替代如对于DFT的周期性边界)。这来自于图2f所给出的恒等式。因而，如果其输入是长度为N的阵列X，那么可设想将此阵列扩展至可想像的(χ，-χΕ, -χ, xE,…)等，其中 Xe以相反次序来表示X。考虑MDCT具有2N个输入和N个输出，其中该输入可分为四个区块(a，b，c，d)，每一个的大小为N/2。如果这些移位N/2(来自该MDCT定义中+N/2项)，那么(b，c，d)扩展经过N个DCT-IV输入的末端，所以他们必须根据上面所描述的边界条件“被折叠”回去。因此，具有2N个输入(a，b，c, d)的MDCT准确地等效于具有N个输入的DCT-IV (-cE-d, a-bE)，其中R表示取逆，如上所述。这样，任意用以运算DCT-IV的算法可顺利地被用于MDCT。类似地，上面所提及的IMDCT公式准确地是DCT-IV (其为其自身的反相)的1/2，其中输出移位N/2并且扩展至(经由边界条件)2N的长度。反相的DCT-IV将仅仅返回以上所述的输入(-cK-d，a-bK)。当在此被移位并且通过边界条件予以扩展时，获得的是图2g 所显示的结果。因此，IMDCT输出的一半是冗余的。
现在能够了解TDAC是如何起作用的。假设运算具有后续50%叠加的2N个区块 (c，d，e，f)的MDCT。随后IMDCT如上所述将产生(c-dE, d-cE, e+fE, eK+f)/2。当其与叠加的一半中的先前IMDCT结果相加时，反相的项目被消除，并且获取简单(c，d)，恢复原始数据。现在清楚了“时域混叠消除”术语的起源。扩展超过逻辑DCT-IV边界的输入数据的使用导致数据以与超过奈奎斯特(Nyquist)频率的频率遭混叠至下方频率完全相同的方式遭混叠，除了混叠发生在时域中而不是频域中以外。因此，组合c-dK等，在他们被相加时精确地具有结合的正确符号以消去。对于奇数N (其很少使用于实际中)，N/2不是一整数，所以MDCT不只是DCT-IV的移位置换。在这种情况下，将样本额外移位一半意味着MDCT/IMDCT等效于DCT-III/II，且该分析类似于以上所述。上面，对普通的MDCT证实了 TDAC的性质，显示了在他们叠加半部分中，加入后续区块的IMDCT恢复了原始数据。对已开窗MDCT的该反相特性的推导只是稍微复杂些。回顾上面，当(a, b，c, d)和(c，d，e, f)是MDCT处理过、IMDCT处理过，以及被增加在他们的叠加半部分中时，获得(c+dK，cE+d)/2+(c-dE, d-cE)/2 = (c，d)，即原始数据。现在，假设通过长度为2N的窗口函数将MDCT输入与IMDCT输出相乘。如上，假定对称窗口函数，其因此是(W，z, ZE, We)形式，其中《及2是长度为N/2的向量，并且R表示取逆，如上述。那么该Princen-Bradley条件可写为
权利要求
1.一种用于编码音频样本的音频编码器(100)，包括第一时域混叠引入编码器(110)，用于在第一编码域中编码音频样本，所述第一时域混叠引入编码器(110)具有第一帧化规则、开始窗口和停止窗口；第二编码器(120)，用于在第二编码域中编码样本，所述第二编码器(120)具有音频样本的预定帧大小数量，和音频样本的编码暖机期数量，所述第二编码器(120)具有不同的第二帧化规则，所述第二编码器(120)的帧是一定数量的在时间上连续的音频样本的编码表示，所述在时间上连续的音频样本的数量等于所述音频样本的预定帧大小数量；以及控制器(130)，用于响应于所述音频样本的特性从所述第一编码器(110)切换到所述第二编码器(120)，以及用于响应于从所述第一编码器(110)到所述第二编码器(120)的切换来修改所述第二帧化规则，或用于修改所述第一编码器(110)的开始窗口或停止窗口，其中所述第二帧化规则保持未被修改。
2.如权利要求1所述的音频编码器(100)，其中所述第一时域混叠引入编码器(110) 包括用于将后续音频样本的第一帧变换到频域的频域变换器。
3.如权利要求2所述的音频编码器(100)，其中所述第一时域混叠引入编码器(110) 适于当通过所述第二编码器(120)对后续帧编码时使用所述开始窗口加权所述最后帧，和 /或适于当通过所述第二编码器(120)对先前帧编码时使用所述停止窗口加权所述第一帧。
4.如权利要求2或3之一所述的音频编码器(100)，其中所述频域变换器适于基于改进离散余弦变换(MDCT)将所述第一帧变换到所述频域，以及其中所述第一时域混叠引入编码器(110)适于将MDCT大小适应所述开始和/或停止和/或已修改开始和/或停止窗□。
5.如权利要求1至4之一所述的音频编码器(100)，其中所述第一时域混叠引入编码器(110)适于使用具有混叠部分和/或无混叠部分的开始窗口和/或停止窗口。
6.如权利要求1至5之一所述的音频编码器(100)，其中所述第一时域混叠引入编码器(Iio)适于使用当通过所述第二编码器(120)编码所述先前帧时在窗口的上升边缘部分处具有无混叠部分且当通过所述第二编码器(120)编码所述后续帧时在下降边缘部分处具有无混叠部分的开始窗口和/或停止窗口。
7.如权利要求5或6之一所述的音频编码器(100)，其中所述控制器(130)适于启动所述第二编码器(120)，以便所述第二编码器(120)的帧序列的第一帧包括在所述第一编码器(110)的先前无混叠部分中被处理的样本的编码表示。
8.如权利要求5或6之一所述的音频编码器(100)，其中所述控制器(130)适于启动所述第二编码器(120)，以便所述音频样本的编码暖机期数量与所述第一时域混叠引入编码器(110)的开始窗口的无混叠部分重叠，以及所述第二编码器(120)的后续帧与所述停止窗口的混叠部分重叠。
9.如权利要求5至7之一所述的音频编码器(100)，其中所述控制器(130)适于启动所述第二编码器(120)，以便所述编码暖机期与所述开始窗口的混叠部分重叠。
10.如权利要求1至9之一所述的音频编码器(100)，其中所述控制器(130)进一步适于响应于所述音频样本的特性从所述第二编码器(120)切换到所述第一编码器(110)，以及适于响应于从所述第二编码器(120)到所述第一编码器(110)的切换而修改所述第二帧化规则，或修改所述第一编码器(110)的开始窗口或停止窗口，其中所述第二帧化规则保持未被修改。
11.如权利要求10所述的音频编码器，其中所述控制器(130)适于启动所述第一时域混叠引入编码器(110)，以便所述停止窗口的混叠部分重叠所述第二编码器(120)的帧。
12.如权利要求11所述的音频编码器(100)，其中所述控制器(130)适于启动所述第一时域混叠引入编码器(110)，以便所述停止窗口的无混叠部分重叠所述第二编码器 (120)的帧。
13.如权利要求1至12之一所述的音频编码器(100)，其中所述第一时域混叠编码器 (110)包括根据运动图像和相关音频的通用编码先进音频编码，国际标准13818-7，ISO/ IEC JTC1/SC29/WG11运动图像专家组，1997的AAC编码器。
14.如权利要求1至13之一所述的音频编码器(100)，其中所述第二编码器包括根据第三代伙伴计划(3GPP)，技术规范(TS)，26^90，2005年6月的版本6. 3.0的AMR或 AMR-WB+编码器。
15.如权利要求14所述的音频编码器，其中所述控制器适于修改所述AMR帧化规则，以便所述第一 AMR超帧包括5个AMR帧。
16.一种用于编码音频帧的方法，包括以下步骤使用第一帧化规则、开始窗口和停止窗口在第一编码域中编码音频样本；使用音频样本的预定帧大小数量和音频样本的编码暖机期数量以及使用不同的第二帧化规则，在第二编码域中用于编码音频样本，所述第二编码域的帧是一定数量的在时间上连续的音频样本的编码表示，所述在时间上连续的音频样本的数量等于音频样本的所述预定帧大小数量；从第一编码域切换到第二编码域；以及响应于所述第一编码域到第二编码域的切换修改所述第二帧化规则，或修改所述第一编码域的开始窗口或停止窗口，其中所述第二帧化规则保持未被修改。
17.一种具有程序代码的计算机程序，当所述程序代码运行在计算机或处理器上时执行如权利要求16所述方法。
18.一种音频解码器(150)，用于解码音频样本的已编码帧，包括第一时域混叠引入解码器(160)，用于在第一解码域中解码音频样本，所述第一时域混叠引入编码器(160)具有第一帧化规则、开始窗口和停止窗口；第二解码器(170)，用于在第二解码域中解码音频样本，所述第二解码器(170)具有音频样本的预定帧大小数量和音频样本的编码暖机期数量，所述第二解码器(170)具有不同的第二帧化规则，所述第二解码器(170)的帧是一定数量的在时间上连续的音频样本的编码表示，所述在时间上连续的音频样本的数量等于音频样本的所述预定帧大小数量；以及控制器(180)，用于基于在音频样本的已编码帧中的指示从所述第一解码器(160)切换到所述第二解码器(170)，其中所述控制器(180)适于响应于从所述第一解码器(160)到所述第二解码器(170)的切换修改所述第二帧化规则，或修改所述第一解码器(160)的开始窗口或停止窗口，其中所述第二帧化规则保持未被修改。
19.如权利要求19所述的音频解码器(150)，其中所述第一解码器(160)包括时域变换器，用于将已解码音频样本的第一帧变换到时域。
20.如权利要求18或19之一所述的音频解码器(150)，其中所述第一解码器(160)适于当通过所述第二解码器(170)解码后续帧时使用所述开始窗口加权最后已解码帧，和/ 或适于当通过所述第二解码器(170)解码先前帧时使用所述停止窗口加权所述第一已解码帧。
21.如权利要求19或20之一所述的音频解码器(150)，其中所述时域变换器适于基于反相IMDCT(IMDCT)将所述第一帧变换到所述时域，以及其中所述第一时域混叠引入解码器(160)适于将IMDCT大小适应所述开始和/或停止和/或已修改开始和/或停止窗口。
22.如权利要求18至21之一所述的音频解码器(150)，其中所述第一时域混叠引入解码器(160)适于使用具有混叠部分和无混叠部分的开始窗口和/或停止窗口。
23.如权利要求18至22之一所述的音频解码器(150)，其中所述第一时域混叠引入解码器(Iio)适于使用当所述第二解码器(170)解码所述先前帧时在上升边缘部分处具有无混叠部分且当所述第二解码器(170)编码所述后续帧时在下降边缘部分处具有无混叠部分的开始窗口和/或停止窗口。
24.根据权利要求22或23之一所述的音频解码器(150)，其中所述控制器(180)适于启动所述第二解码器(170)，以便所述第二解码器(170)的帧序列的第一帧包括在所述第一编码器(160)的先前无混叠部分中被处理的样本的编码表示。
25.如权利要求22至M之一所述的音频解码器(150)，其中所述控制器(180)适于启动所述第二解码器(170)，以便所述音频样本的编码暖机期数量与所述第一时域混叠引入解码器(160)的开始窗口的无混叠部分重叠，以及所述第二解码器(170)的后续帧与所述停止窗口的混叠部分重叠。
26.如权利要求22至M之一所述的音频解码器(150)，其中所述控制器(180)适于启动所述第二解码器(170)，以便所述编码暖机期与所述停止窗口的混叠部分重叠。
27.如权利要求18至沈之一所述的音频解码器(150)，其中所述控制器(180)进一步适于响应于来自所述音频样本的指示从所述第二解码器(170)切换到所述第一解码器 (160)，相应于从所述第二解码器(170)到所述第一解码器(160)的切换修改所述第二帧化规则，或修改所述第一解码器(160)的开始窗口或停止窗口，其中所述第二帧化规则保持未被修改。
28.如权利要求27所述的音频解码器(150)，其中所述控制器(180)适于启动所述第一时域混叠引入解码器(160)，以便所述停止窗口的混叠部分重叠所述第二编码器(170) 的帧。
29.如权利要求18至观之一所述的音频解码器(150)，其中所述控制器(180)适于在不同解码器的已解码音频样本的连续帧之间应用交叉衰减。
30.如权利要求18至四之一所述的音频解码器(150)，其中所述控制器(180)适于从所述第二解码器(170)的已解码帧确定在所述开始或停止窗口的混叠部分中的混叠，以及适于基于所确定的混叠来减少所述混叠部分中的混叠。
31.如权利要求18至30之一所述的音频解码器(150)，其中所述控制器(180)适于丢弃来自所述第二解码器(170)的音频样本的编码暖机期。
32.一种用于解码音频样本的已编码帧的方法，包括以下步骤在第一解码域中解码音频样本，所述第一解码域引入时间混叠并具有第一帧化规则、开始窗口和停止窗口；在第二解码域中解码音频样本，所述第二解码域具有音频样本的预定帧大小数量和音频样本的编码暖机期数量，所述第二解码域具有不同的第二帧化规则，所述第二解码域的帧是一定数量的在时间上连续的音频样本的已解码表示，所述在时间上连续的音频样本的数量等于音频样本的所述预定帧大小数量；以及基于来自音频样本的已编码帧处的指示，从第一解码域切换到第二解码域；响应于从所述第一编码域到第二编码域的切换修改第二帧化规则，或修改第一解码域的开始窗口和/或停止窗口，其中所述第二帧化规则保持未被修改。
33. 一种具有程序代码的计算机程序，当所述程序代码运行在计算机或处理器上时执行用来执行如权利要求32所述方法。
全文摘要
一种用于编码音频样本的音频编码器(100)，包括第一时域混叠引入编码器(110)，用于在第一编码域中编码音频样本，该第一时域混叠引入编码器(110)具有第一帧化规则、开始窗口和停止窗口。音频编码器(100)进一步包括第二编码器(120)，用于在第二编码域中编码样本，该第二编码器(120)具有音频样本的预定帧大小数量，和音频样本的编码暖机期数量，该第二编码器(120)具有不同的第二帧化规则，该第二编码器(120)的帧是一定数量的在时间上连续的音频样本的编码表示，该数量等于音频样本的预定帧大小数量；音频编码器(100)进一步包控制器(130)，基于音频样本的特性从第一编码器(110)切换到第二编码器(120)，并且响应于从第一编码器(110)到第二编码器(120)的切换来修改第二帧化规则，或修改第一编码器(110)的开始窗口或停止窗口，其中第二帧化规则保持未被修改。
文档编号G10L19/14GK102089811SQ200980127096
公开日2011年6月8日申请日期2009年6月26日优先权日2008年7月11日
发明者伯恩哈特·格里尔, 布鲁诺·贝塞特, 斯特凡·拜尔, 杰雷米·勒孔特, 菲利普·古尔奈, 马库斯·马特拉斯申请人:弗朗霍夫应用科学研究促进协会, 沃伊斯亚吉公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杰雷米·勒孔特
技术所有人：弗朗霍夫应用科学研究促进协会
我是此专利的发明人

上一篇：用于编码采样音频信号的帧的音频编码器和解码器的制作方法
上一篇：音频信号合成器及音频信号编码器的制作方法