从变换编码/解码过渡到预测编码/解码的制作方法

文档序号：9932719阅读：1264来源：国知局

从变换编码/解码过渡到预测编码/解码的制作方法
【技术领域】
[0001 ]本发明设及数字信号编码领域。
[0002] 根据本发明的编码具体被适配成用于传输和/或存储如音频信号(语音、音乐或其他)的数字音频信号。
【背景技术】
[0003] 本发明借助于交替至少两种编码模式并且其算法延迟被适配成用于会话应用(通常< 40ms)的多模技术有利地适用于语音、音乐和混合内容信号的统一编码。
[0004] 为了有效地对语音声音进行编码，主张 CELPr码激励线性预测"）类型或其变体 ACELPr代数码激励线性预测"）技术，最近也更多地提出了 CELP编码的替代方案，如BV16、 BV32、iLBC或SILK编码器。另一方面，主张变换编码技术W有效地对音乐声音进行编码。
[0005] 线性预测编码器并且更具体地CELP类型的编码器是预测编码器。它们的目标是基于W下元素中的至少某部分对语音产生进行建模：用于对声道进行建模的短期线性预测、用于在有声期中对声带的振动进行建模的长期预测、W及来源于一般被称为固定字典的向量量化字典的用于表示不可能通过预测对其进行建模的"新事物"的激励（白噪声、代数激励)。
[0006] 使用最多的变换编码器（例如MPEG AAC或ITU-T G. 722.1 Annex C编码器）使用 MDCTr经修改的离散变换"）类型的临界采样变换W便在变换域中压缩信号。"临界采样变换"指针对其在变换域中的系数的数量等于所分析的时间样本的数量的变换。
[0007] 用于有效地对包含运两种类型的内容的信号进行编码的解决方案在于随着时间过去（一帖一帖地)选择最佳技术。运种解决方案已经具体地由3GPP("第S代合作伙伴计划标准主体通过被称为AMR WB+(或增强型AMR-WB)的技术并且最近更多地通过MPEG-H USACr统一语音音频编码"）编解码器而主张。在对算数延迟没有严苛限制的情况下，由 AMR-W化和USAC设想的运些应用不是会话式的，但是对应于广播和存储服务。
[000引 USAC标准是在IS0/IEC文件23003-3: 2012，信息技术--M阳G音频技术--部分3:统一语音和音频编码中公布的。
[0009] 举例说明，在M.诺伊恩多夫(Neuendorf)等人的文章《针对低比特率统一语音和音频编码的新方案-MPEG RM0》，2009年5月7-10日，第126届AES会议中描述了被称为RMO(参考模型0)的USAC编解码器的初始版本。此编解码器在至少两种编码模式之间交替：
[0010] ?针对语音类型的信号:使用ACELP技术的LPD("线性预测域"）模式
[0011] ?针对音乐类型的信号：使用MDCTr经修改的离散变换"）技术的FD("频域"）模式。
[0012] 在下文回忆ACELP和MDCT编码的原理。
[0013] 一方面，(ELP编码(包括其AC化P变体)是基于源滤波器模型的预测编码。通常，滤波器对应于具有通过线性预测化PC，线性预测编码)获得的传递函数1/A(z)的全极点滤波器。实际上，合成使用滤波器1/A(z)的量化版本1/J(到。源（也就是说，预测线性滤波器的激励)通常是通过对声带振动进行建模的长期预测获得的预测与W噪声字典等的代数编码(ACELP)的形式描述的随机激励(或创新）的组合。通过在由滤波器用传递函数W (Z)加权的信号域中的平方误差标准的最小化执行对"最优"激励的捜索，A(Z)该传递函数通常源自具有形式胖^)=4^/7 1)/4^/7 2)的线性预测滤波器。将注意的是，已经提出了 CELP模型的许多变体并且在此将保留UIT-T G. 718标准的CELP编码的示例，其中，两个LPC 滤波器每一帖被量化并且LPC激励是根据分类被编码的，其中，模式是针对有声的、无声的、瞬态的声音等适配的。此外，CELP编码的替代方案也已经被提出，包括仍然基于线性预测的 BV16、BV32、iLBC或SILK编码器。通常，预测编码(包括CELP编码）出于历史的和其他的原因 (宽频带线性预测限制、针对高频的算法复杂性等受限制的采样频率（< 16kHz)进行操作；因此，为了 W典型的16至48曲Z的频率进行操作，还使用重采样操作(通过FIR滤波器、滤波器组或IIR滤波器）W及可选地针对可W是参数频带扩展的高频带的单独编码-在此不再回顾运些重采样和高频带编码操作。
[0014]另一方面，MDCT变换编码于编码器处在S个步骤之间被划分：
[00巧]1.在对应于2个块的长度之上通过在此被称为"MDCT窗"的窗对信号进行加权
[0016] 2.时间混叠(或"时域混叠"）W形成缩减的块(其长度除W2)
[0017] 3.对缩减的块进行DCT-Ivr离散余弦变换"）变换。
[0018] 将注意的是，TDAC变换类型的计算变体可W使用例如傅里叶变换(FFT)而不是DCT 变换。
[0019] MDCT窗通常被划分为具有相等长度的被称为"夸特(quader)"的4个相邻的部分。
[0020] 信号乘W分析窗并且然后执行混叠：第一夸特(被加窗的）在第二夸特上混叠（也就是说，时间翻转并且重叠)而第四夸特在第=夸特上混叠。
[0021] 更确切地，一个夸特在另一个夸特上的混叠是通过W下方式执行的：第一夸特的第一个样本与第二夸特的最后一个样本相加(或相减），第一夸特的第二个样本与第二夸特的倒数第二个样本相加(或相减），并且如此运般直到第一夸特的最后一个样本与第二夸特的第一个样本相加(或相减）。
[0022] 因此，从4个夸特获得2个混叠的夸特，其中，每个样本是有待编码的信号的2个样本的线性组合的结果。此线性组合被称为时间混叠。将注意的是，时间混叠对应于混合两个时间区段并且两个时间区段在每个"混叠的夸特"中的相对水平取决于分析窗/合成窗。
[0023] 运2个混叠的夸特此后在DCT变换之后被共同地编码。针对后面的帖存在半个窗的移位(即，50%重叠），前一个帖的第=和第四夸特变成当前帖的第一和第二夸特。在混叠之后，与在前一帖中相同的样本对的第二线性组合被派遣，但是具有不同的权重。
[0024] 在解码器处，在逆DCT变换之后，因此获得运些混叠信号的经解码的版本。两个连续的帖包含相同的2个夸特的巧巾不同的混叠结果，也就是说，针对每个样本对我们具有拥有不同的但已知的权重的巧巾线性组合结果:方程组因此被求解W获得输入信号的经解码的版本，通过使用2个连续的经解码的帖可W因此免去时间混叠。
[0025] 所提及的方程组通常是通过去混叠、乘W合理选择的合成窗并且然后重叠相加公共部分而求解的。此重叠相加同时确保2个连续的经解码的帖之间的平缓过渡(没有由于量化误差引起的中断），实际上运个操作表现得像淡入淡出。当第一夸特或第四夸特的窗针对每个样本为零时，值得一提的是在窗的运个部分中没有时间混叠的MDCT变换。在运种情况中，平缓过渡不是由MDCT变换确保的，其必须通过其他手段完成，如，例如，外部淡入淡出。 [00%]如由在包括G.722.1编码的G.722.1的附件C中的组合实现方式所展示的，变换编码(包括MDCT类型的编码)理论上可W轻易地适配成用于各种输入和输出采样频率;然而，还有可能使用具有与重采样一起的预/后处理操作的变换编码(通过FIR滤波器、滤波器组或IIR滤波器），其中可选地，可W是参数频带扩展的高频带的单独编码-在此不再回顾运些重采样和高频带编码操作，但是3GPP e-AAC+编码器给出了运种组合的示例性实施例(重采样、低频带变换编码和频带扩展）。
[0027]应当注意，通过各种模式(基于线性预测的时间LPD、基于变换的频率FD)编码的声频带可W根据所选模式和比特率变化。此外，可W针对每个帖在开放回路中或者如在AMR-WB+编码中在闭合回路中执行模式决定，也就是说，先验地根据数据并且根据可用的观察值做出决定。
[00%]在使用至少两种编码模式的编解码器中，LPD与FD模式之间的过渡在确保没有切换缺陷的充分的质量中是重要的，已知FD和LTO模式是不同的种类-一个依赖于在信号的频域中的变换编码，而另一个使用具有滤波器记忆的（时间）预测线性编码，该滤波器记忆在每个帖处进行更新。管理对应于USAC RMO编解码器的内部模式切换的示例在J.勒孔特 (Lecomte)等人的文章"针对基于LPC与基于非LPC的音频编码之间的过渡的高效淡入淡出窗（Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio codingr ,2009年5月7-10日，第126届AES会议中被详细说明。如在此文章中解释的，主要困难在于LTO到抑模式(并且反之亦然)之间的过渡。
[0029] 为了处理在FD类型的核与Lro类型的核之间的过渡问题，在编号W02013/016262下公布的专利申请（图1中所展示)提出通过使用对帖m进行编码的FD类型（140)的编码器与解码器的合成来更新对帖m+1进行编码的WD类型（130)的编解码器的滤波器的记忆，所述记忆更新仅在对FD类型的帖进行编码的过程中是必需的。运项技术因此使得有可能在110处选择编码模式并且(在150处)触发从FD到Lro类型的编码的过程中来运样操作而没有过渡缺陷（伪像），因为当用LTO技术对帖进行编码时，(ELP(LPD)编码器的记忆(或状态）已经由发生器160基于帖m的重构信号4(讀进行了更新。在两个核(抑和LDP)不W相同的采样频率操作的情况中，在专利申请W02013/016262中描述的技术提出对FD类型的编码器的记忆进行重采样的步骤。
[0030] 运项技术的缺点一方面是其使得需要在编码器处访问经解码的信号并且因此在编码器中强制本地合成。另一方面，其使得需要在FD类型的编码和解码过程中执行对滤波器的记忆进行更新的操作(可能包括重采样步骤），W及总共用于在FD类型的前一帖中执行 CEL

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J.福尔;S.拉戈特;
技术所有人：奥兰治;
我是此专利的发明人