用于对采样音频信号的帧进行编码和解码的音频编码器和解码器的制作方法

文档序号:6594219阅读:319来源:国知局
专利名称:用于对采样音频信号的帧进行编码和解码的音频编码器和解码器的制作方法
技术领域
本发明涉及来源编码,特别涉及音频来源编码,其中,音频信号由具有不同的编码 算法的两个不同的音频编码器来处理。
背景技术
在低比特率音频及语音编码技术的上下文中,传统上采用若干不同的编码技术, 来达成这种信号的低比特率编码,这种信号在给定比特率下具有最佳可能主观质量。一般 音乐/声音信号的编码器目的在于,根据掩蔽阈值曲线,形成量化误差的频谱形状(及时间 形状),来优化主观质量,该掩蔽阈值曲线是利用感知模型(“感知音频编码”)根据输入信 号来估计的。另一方面,当极低比特率下的语音编码基于人类语音的产生模型,即,采用线 性预测编码(LPC)来对人类声道的共振效应进行建模连同残差激励信号的高效编码时,已 经显示效率非常高。由于这两种不同方法,一般音频编码器,例如MPEG-I层3 (MPEG =运动图像专家 组)或MPEG-2/4高级音频编码(AAC)由于缺乏对语音来源模型的开发,因而通常无法如同 专用的基于LPC的语音编码器一样,对于极低数据速率下的语音信号也发挥良好效果。相 反地,基于LPC的语音编码器当应用于一般音乐信号时,无法实现动听结果,原因在于其不 能根据掩蔽阈值值曲线而灵活地形成编码失真的频谱包络。后文将描述一种构想,其将基 于LPC的编码及感知音频编码的优点组合到单个框架中,因此描述可有效用于一般音频信 号及语音信号二者的统一音频编码。传统上,感知音频编码器使用基于的滤波器组的方法,来高效地编码音频信号,并 且根据掩蔽曲线的估值而形成量化失真。第16a图示出了单声感知编码系统的基本方块图。分析滤波器组1600用来将时 域采样映射成子采样频谱分量。依据频谱分量的数目,系统也称作为子带编码器(少数子 带,例如32个)或变换编码器(大量频率线,例如512条)。感知(“心理声学”)模型1602 用来估计实际时间相关掩蔽阈值值。频谱(“子带”或“频域”)分量经过量化及编码1604, 使得量化噪声隐藏于实际传输的信号下,而解码后不可被感知。这可以通过随时间和频率 改变频谱值的量化粒度来实现。除了辅助信息之外,将已量化且已经熵编码频谱系数或子带值输入比特流格式化 器1606,比特流格式化器1606提供适合于传输或储存的已编码音频信号。方块1606的输 出比特流可以经由因特网传输,或可以储存于任何机器可读取数据载体上。在解码器侧上,解码器输入接口 1610接收已编码的比特流。方块1610将已熵编 码且已量化的频谱/子带值与辅助信息分离。将已编码频谱值输入到置于1610与1620之 间的熵解码器中,例如霍夫曼解码器,这种熵解码器的输出信号是已量化的频谱值。将这些 已量化的频谱值输入到再量化器中,再量化器如第16图中1620所指示,执行“逆”量化。将 方块1620的输出输入到合成滤波器组1622中,合成滤波器组1622执行合成滤波,包括频率/时间变换且典型地执行时域混叠消除操作,例如交叠和加法,和/或合成侧加窗操作来 最终获得输出音频信号。传统上,有效语音编码基于线性预测编码(LPC),对人类声带的共振效果进行建 模,并且基于残差激励信号的有效编码。LPC参数及激励参数二者从编码器传输至解码器。 第17a图和第17b图示出了本原理。第17a图指示基于线性预测编码的编码/解码系统的编码器侧。将语音输入输入 到LPC分析器1701中,LPC分析器1701在其输出处提供LPC滤波器系数。基于这些LPC滤 波器系数,调整LPC滤波器1703。LPC滤波器输出频谱白化的音频信号,也称作为“预测误 差信号”。将该频谱白化音频信号输入到残差/激励编码器1705,残差/激励编码器1705 产生激励参数。因此,语音输入信号一方面被编码成激励参数,而另一方面被编码成LPC系 数。在第17b图所示解码器侧上,激励参数输入激励解码器1707,激励解码器1707产 生激励信号,将该激励信号输入到LPC合成滤波器中。使用所传输的LPC滤波器系数来调 整LPC合成滤波器。如此,LPC合成滤波器1709产生重构或合成的语音输出信号。随着时间的经过,关于残差(激励)信号的有效且感知上动听的呈现提出了多种 方法,诸如多脉冲激励(MPE)、规则脉冲激励(RPE)、以及代码激励线性预测(CELP)。线性预测编码试图基于观察特定数目的过去值作为过去观察的线性组合,来产生 序列目前采样值的估计。为了减少输入信号的冗余,编码器LPC滤波器将其频谱包络中的 输入信号“白化”,即,信号的频谱包络的反相模型。相反地,解码器LPC合成滤波器是信号 的频谱包络的模型。特别,已知众所周知的自动回归(AR)线性预测分析利用全极点近似值 来对信号的频谱包络进行建模。典型地,窄带语音编码器(即,具有8kHz采样率的语音编码器)采用具有8至12 阶之间的LPC滤波器。由于LPC滤波器的本质,均勻频率分辨率在全频率范围上有效。着 并不与感知频率标度相对应。为了组合传统基于LPC/CELP编码(用于语音信号的质量为最佳)与传统基于滤 波器组的感知音频编码办法(用于音乐信号的质量为最佳)的强度,已经提出了这些架 构之间的组合编码。在AMR-WB+(AMR-WB =自适应多速率宽带)编码器中,B. Bessette, R.Lefebvre, R.Salami,"UNIVERSAL SPEECH/AUDIO CODING USING HYBRID ACELP/TCX TECHNIQUES, ”,Proc. IEEE ICASSP 2005,301-304 页 2005 年,两种交错编码核对 LPC 残差 信号进行操作。一种基于ACELP(ACELP =代数代码激励线性预测),因此对于语音信号的编 码非常有效。另一种编码核是基于TCX(TCX =变换编码激励),即,基于滤波器组的编码方 法类似传统音频编码技术,以便实现音乐信号的良好质量。依据输入信号的特性,短时间段 选择两种编码模式之一来传输LPC残差信号。这样,将80毫秒持续时间的帧拆分成40毫 秒或20毫秒的子帧,其中在两种编码模式之间作判定。AMR-WB+ (AMR-ffB+ =扩充自适应性多速率宽带编码解码器),例如参考3GPP (3GPP =第三代伙伴计划)技术说明书号码26.四0,版本6. 3. 0,2005年6月可以在两种实质上不 同的模式ACELP与TCX之间切换。在ACELP模式中,时域信号由代数代码激励来编码。在 TCX模式中,使用快速傅立叶变换(FFT =快速傅立叶变换),并且基于向量量化编码,来编 码LPC加权信号(由该信号在解码器处导出激励信号)的频谱值。
通过尝试和解码两个选项且比较获得的信噪比(SNR =信噪比),可以判定使用哪 一个模式。此种情况也称作为闭环判定,原因在于有闭合控回路,分别评估编码性能和/或 效率,及然后通过丢弃另一个而选择有较佳SNR的一个。众者周知对音频和语音编码应用,没有加窗的块变换是不可行的。因此对TCX模 式,利用具有1/8交叠的低交叠窗对进行加窗。该交叠区是必要的,以便淡出先前块或帧, 同时淡入下一个块或帧,例如用来抑制连续音频帧中因不相关量化噪声所造成的伪像。这 样,与非临界采样可比的开销保持合理地低量,且闭环判定所需解码重构当前帧的至少7/8 的采样。在TCX模式中,AMR-WB+导入1/8的开销,即,要编码的频谱值数目比输入采样数 目高1/8。这产生增加数据开销的缺点。此外,由于连续帧的1/8陡峭交叠区,对应带通滤 波器的频率响应是有缺陷的。为了对连续帧的代码开销和交叠作更进一步说明,第18图示出了窗参数的定义。 第18图所示窗在左手侧有上升沿部分,表示为“L”,也称作为左交叠区;中心区表示为“1”, 也称作为1区或旁路部分;以及下降沿部分,表示为“R”,也称作为右交叠区。此外,第18图 示出了指示帧内理想重构区“PR”的箭头。第18图示出了指示变换核的长度的箭头,表示 为 “T”。第19图示出了 AMR-WB+窗序列的视图,在底部示出了根据第18图的窗参数表。第 19图顶部所示窗序列为ACELP、TCX20 (用于20毫秒持续时间的帧)、TCX20、TCX40 (用于40 毫秒持续时间的帧)、TCX80 (用于80毫秒持续时间的帧)、TCX20、TCX20、ACELP、ACELP。根据该窗序列,可以看到变化的交叠区,该交叠区与正好交叠了中心部分M的 1/8。在第19图底部的表也示出了变换长度“T”始终比新理想重构的采样“PR”区大1/8。 此外,应注意,不仅对ACELP至TCX变化为如此,对TCXx至TCXx (此处“X”指示任意长度的 TCX帧)变换亦如此。如此,在每个块中,导入1/8开销,S卩,永远不会达到临界采样。当从TCX切换至ACELP时,在交叠区中从FFT-TCX帧丢弃窗采样,例如在第19图 顶部以1900标记的区所示。当从ACELP切换至TCX时,同样如第19图顶部以虚线1910指 示的加窗零输入响应(Z^=零输入响应)在编码器处被移除以用于加窗,而在解码器处被 加入以用于恢复。当从TCX切换至TCX帧时,加窗采样用于交叉衰减。由于可以以不同方 式对TCX帧进行量化,连续帧之间量化误差或量化噪声可以不同和/或无关。当从一个帧 切换至下一帧而无交叉衰减时,可能出现显著伪像,需要交叉衰减来实现特定质量。从第19图底部的表可以看到,交叉衰减区随着帧长度的增加而增加。第20图提 供另一个表,示意AMR-WB+中可能的转变的不同窗。当从TCX转变至ACELP时,可以抛弃交 叠采样。当从ACELP转变至TCX时,来自ACELP的零输入响应在编码器处被移除,并在解码 器处增加以用于恢复。AMR-WB+的显著缺点为始终导入1/8开销。

发明内容
本发明的目的是提供一种音频编码的更有效的构想。该目的可以通过根据权利要求1所述的音频编码器、根据权利要求14所述的用于音频编码的方法、根据权利要求16所述的音频解码器、以及根据权利要求25所述的用于音 频解码的方法来实现。本发明的实施例基于以下发现如果例如使用时间混叠导入变换用于TCX编码, 则可以执行更有效的编码。时间混叠导入变换允许实现临界采样,而同时仍能够在相邻帧 之间交叉衰减。例如,在一个实施例中,修改的离散余弦变换(MDCT =修改的离散余弦变 换)用于将交叠时域帧变换至频域。由于该特定变换对于2N个时域采样产生N个频域采 样,则即使时域帧较低50%,仍可以维持临界采样。在解码器或时间混叠导入逆变换处,交 叠和加法级适合于组合时间混叠交叠采样与逆变换的时域采样,因而可以进行时域混叠消 除(TDAC=时域混叠消除)。实施例可以使用在利用低交叠窗的切换频域和时域编码(例如AMR-WB+)的上下 文中。实施例可以使用MDCT替代非临界采样的滤波器组。这样,基于例如MDCT的临界采 样特性可以有利地降低因非临界采样导致的开销。此外,可能有较长的交叠,而不会导入额 外开销。实施例可以提供优点,基于较长的交叠,可更平滑地进行交叉衰减,换言之可以在 解码器处提高声音质量。在一个详细实施例中,在AMR-WB+TCX模式中FFT可以由MDCT来代替,同时保持 AMR-WB+的功能,尤其是,基于闭环或开环判定的ACELP模式与TCX模式之间的切换。实施例 针对ACELP帧后的第一个TCX帧可以使用非临界采样方式的MDCT,随后针对所有后续TCX 帧可以使用临界采样方式的MDCT。实施例可以使用类似未经修改AMR-WB+、具有低交叠窗 的MDCT,保持闭环判定的特征,但具有较长的交叠。这可以提供与未经修改的TCX窗相比更 佳的频率响应的优势。


将使用

本发明的实施例的细节,在附图中 第1图示出了音频编码器的实施例; 第图示出了用于时域混叠导入变换的实施例的方程; 第3a图示出了音频编码器的另一个实施例; 第北图示出了音频编码器的另一个实施例; 第3c图示出了音频编码器的又一个实施例; 第3d图示出了音频编码器的又一个实施例; 第如图示出了用于浊音语音的时域语音信号的采样; 第4b图示意了浊音语音信号采样的频谱; 第fe图示意了清音语音的采样的时域信号; 第恥图示出了清音语音信号的采样的频谱; 第6图示出了合成分析CELP的实施例;
第7图示意了提供短期预测信息和预测误差信号的编码器侧ACELP级; 第8a图示出了音频编码器的实施例; 第8b图示出了音频编码器的另一个实施例; 第8c图示出了音频编码器的另一个实施例; 第9图示出了窗函数的实施例;
第10图示出了窗函数的另一个实施例;第11图示出了现有技术窗函数和实施例的窗函数的图示和延迟图;第12图示意了窗参数;第13a图示出了窗函数序列和对应的窗参数表;第13b图示出了基于MDCT的实施例可能转变;第14a图示出了实施例中可能转变的表;第14b图示意了根据一个实施例的从ACELP转变至TCX80的转变窗;第14c图示出了根据一个实施例的从TCXx帧至TCX20帧至TCXx帧的转变窗的实 施例;第14d图示意了根据一个实施例的从ACELP至TCX20的转变窗的实施例;第14e图示出了根据一个实施例的从ACELP至TCX40的转变窗的实施例;第14f图示意了根据一个实施例由TCXx帧转变至TCX80帧至TCXx帧的转变窗的 实施例;第15图示意了根据一个实施例的ACELP至TCX80的转变;第16图示意了传统编码器和解码器示例;第17a,b图示意了 LPC编码和解码;第18图示意了现有技术交叉衰减窗;第19图示意了现有技术的AMR-WB+窗序列;第20图示意了 AMR-WB+中用于在ACELP和TCX之间传输的窗。
具体实施例方式在下文中,将详细描述本发明的实施例。应注意,下列实施例不应限制本发明的范 围,反而应视为多个不同实施例之中可能的实现或实现方式。第1图示出了适合于编码采样音频信号帧来获得编码帧的音频编码器10,其中, 帧包含多个时域音频采样。音频编码器10包含预测编码分析级12用于测定与合成滤波 器的系数有关的信息;以及基于音频采样帧的预测域帧,例如该预测域帧可以基于激励帧, 该预测域帧可以包含LPC域信号的采样或加权采样,由此可以获得合成滤波器的激励信 号。换言之,在实施例中,预测域帧可以基于激励帧,激励帧包含合成滤波器的激励信号的 采样。在实施例中,预测域帧可以与激励帧的滤波版本相对应。例如感知滤波可应用于激 励帧,来获得预测域帧。在其它实施例中,高通滤波或低通滤波可以应用于激励帧,来获得 预测域帧。又一实施例中,预测域帧可以直接与激励帧相对应。音频编码器10进一步包含时间混叠导入变换器14,时间混叠导入变换器14用于 将交叠预测域帧变换至频域而获得预测域帧频谱,其中,该时间混叠导入变换器14适合于 以临界采样方式变换交叠预测域帧。音频编码器10进一步包含冗余减少编码器16,冗余减 少编码器16用于编码该预测域帧频谱,来获得基于系数的已编码帧以及已编码预测域帧 频谱。冗余减少编码器16可以适用于使用霍夫曼编码或熵编码,以便编码预测域帧频 谱和/或与系数有关的信息。在实施例中,时间混叠导入变换器14可以适于变换交叠预测域帧,使得预测域帧频谱采样的平均数目等于预测域帧中采样的平均数目,从而实现临界采样变换。此外,时间 混叠导入变换器14可以适于根据修改的离散余弦变换(MDCT =修改的离散余弦变换),来 变换交叠预测域帧。在下文中,通过第图所示意的方程进一步详细说明MDCT。修改的离散余弦 变换(MDCT)为基于IV型离散余弦变换(DCT-IV =离散余弦变换型IV)的傅立叶相关变 换,具有额外重迭性质,即,被设计成在大型数据集合的连续块上执行,其中,后续块是交叠 的,使得例如一个块的后半部分与下一个块的前半部分一致。除了 DCT的能量精简质量之 外,此种交叠使得MDCT对于信号压缩应用特别具有吸引力,原因在于有助于避免因块边界 所造成的伪像。因此,例如,在MP3 (MP3 = MPEG2/4层3)、AC-3 (AC-3 =杜比音频编码解码 器3)、Ogg Vorbis,以及AAC(AAC =高级音频编码)中采用DMCT以用于音频压缩。MDCT由Princen、Johnson和Bradley于1洲7年提出,遵循更早期(I986年)由 Princen及Bradley开发MDCT的时域混叠消除(TDAC)基本原理的工作,容后进一步详述。 也存在有基于离散正弦变换的类似变换,亦即MDST,及其它不常用的基于不同类型DCT或 DCT/DST(DST =离散正弦变换)组合的MDCT,这也可用于时间混叠导入变换器14的实施 例。在MP3中,MDCT不能直接应用于音频信号,而是应用于32频带多相正交滤波器 (PQF=多相正交滤波器)组的输出。该MDCT的输出由混叠减少公式进行后处理,来减少 PQF滤波器组的典型混叠。滤波器组与MDCT的这种组合称作为混合滤波器组或子带MDCT。 另一方面,AAC通常使用纯粹MDCT ;只有(很少使用的)MPEG-4 AAC-SSR变型(Sony公司) 在MDCT之前使用四频带PQF组。ATRAC (ATRAC =自适应变换音频编码)在MDCT之前使用 堆叠的正交镜像滤波器(QMF)。至于重迭变换,MDCT与其它傅立叶相关变换相比有点不寻常,原因在于其输出是 输入的一半(而非相等)。具体地,MDCT为线性函数F :R2N->RN,此处R表示实数集合。2N 个实数&,...,X2n^1根据第加图的公式变换成N个实数&,...,Xm 0在该变换之前的归一化系数(此处为1),为任意惯用的系数,在相应处理之间不 同。只有后文MDCT与IMDCT的归一化乘积是受限制的。逆MDCT称作为IMDCT。由于有不同数目的输入和输出,最初可能认为MDCT应该是 不可逆的。然而,通过增加随后交叠块的交叠的IMDCT,使得消除误差,获取原始数据,可实 现理想的可逆性;本技术称作为时域混叠消除(TDAC)。IMDCT根据第沘图的公式将N个实数)(。,...,Xn^1变换成2N个实数yQ,. . .,y2N_lt) 类似DCT-IV的正交变换,逆变换与正相变换具有相同形式。在有一般窗归一化的加窗MDCT的情况下(参见后文),在IMDCT之前的归一化系 数可以乘以2,亦,即变成2/N。虽然MDCT公式的直接应用要求0 (N2)次运算,但可如同于快速傅立叶变换(FFT), 通过递归地将计算分解为简单计算,而只以0 (N log N)复杂度来计算。也可以经过与其它 变换(典型为DFT (FFT)或DCT)组合O(N)前处理步骤及后处理步骤来计算MDCT。同样,如 下所述,针对DCT-IV的任何算法即刻提供运算一致尺寸的MDCT的IMDCT的方法。在典型信号压缩应用中,使用窗函数Wn (n = 0,... 2N-1)来进一步提高变换特性, 该窗函数在前述MDCT公式和IMDCT公式中乘以^和yn,以便让该函数在那些点处平滑变成零,以避免η = 0和η = 2Ν边界处的不连续。换言之,在MDCT之前且在IMDCT之后,对 数据加窗。原则上,χ和1能够具有不同的窗函数,窗函数也可以从一个块到下一个块而变 化,特别对组合不同尺寸的数据块的情况尤为如此,但为简化起见,首先考虑相等尺寸的块 的相同窗函数的情况。变换保持可逆,即,针对对称窗Wn = w2N+n,可进行TDAC,只要w满足根据第2c图 的 Princen-Bradley 条件。常见多种不同窗函数,在用于MP3和MPEG-2 AAC的第2d图以及在用于Vorbis的 第2e图中给出了示例。AC-3使用导出的Kaiser-Bessel (KBD =导出的Kaiser-Bessel) 窗,MPEG-4 AAC也可以使用KBD窗。注意应用于MDCT的窗与用于其它类型信号分析的窗不同,原因在于其必须满足 Princen-Bradley条件。该差异的理由之一在于,针对MDCT (分析滤波器)和IMDCT (合成 滤波器)两次应用MDCT窗。观察定义可以看出,对于偶数N,MDCT实质上等于DCT-IV,其中,输入信号位移 N/2, 一次变换两个数据N块。通过该更小心检验此种相等情况,容易导出类似TDAC的重要 特性。为了定义与DCT-IV的精确关系,必须实现DCT-IV与交错偶/奇边界条件相对应, 其左边界为偶数(约为η = -1/2),其右边界为奇数(约为η = Ν-1/2),以此类推(替代关 于DFT的周期性边界)。这遵照第2f图示出了的恒等式。因此,如果其输入为长度N的数 组X,可设想将该数组扩充至(X、iK、-XjK、...)等,其中,如表示与χ顺序相反。考虑有2N个输入和N个输出的MDCT,其中,可以将输入划分成四个块(a、b、c、d), 每个块大小为Ν/2。如果这些块位移Ν/2(根据MDCT定义中的+Ν/2项),则(b、c、d)扩充 超过N个DCT-IV输入的末端,因此根据上述边界条件(b、c、d)被必须“折叠”。因此,2N个输入(a、b、c、d)的 MDCT 恰等于 N 个输入的 DCT-IV (-cK_d、a_bK),其 中R表示如前述的逆。这样,任何计算DCT-IV的算法则一般可应用于MDCT。类似地,如前述的IMDCT公式恰为DCT-IV的1/2 (本身的逆),其中输出位移N/2 且扩充(经由边界条件)至长度2N。逆DCT-IV简单回到前文说明的输入(-cK-d、a-bE)。 当经由边界条件位移和扩充时,获得第2g图所示结果。因此,IMDCT输出的一半为冗余。现在了解TDAC如何操作。假设运算后续50 %交叠的2N块(c、d、e、f)的MDCT。 则类似前文IMDCT将获得(-CfcUd-c^e+f^eZf)/^。当这与一半交叠的先前IMDCT结果 相加时,相反的各项互相抵消,获得简单(c、d),恢复原始数据。现在已经明白“时域混叠消除” 一词的起源。使用扩充超过逻辑DCT-IV边界的 输入数据,以与引起超过尼奎斯特(Nyquist)频率的频率混叠至较低频的相同方式混叠数 据,但该混叠发生于时域而非发生于频域。因此组合c-dK等,在相加时对于要消除的组合 具有精确的正号。对于奇数N(实际上很少使用),N/2并非整数,因此MDCT不是简单的DCT-IV位移 置换。此种情况下,半个采样的额外位移表示MDCT/IMDCT变成等于DCT-II1/11,而分析系 类似前文。以上,已经对普通MDCT证实TDAC特性,示出了在它们一半交叠部分中加上后续块 的IMDCT可以恢复原始数据。这种加窗MDCT的逆特性的导出只略微较复杂。
由前文回想,当对(a, b,c,d)和(c,d,e,f)进行MDCT、IMDCT,且对它们一半交叠 部分进行相加,获得(c+dK,cE+d)/2+(c-dE, d-cE)/2 = (c,d),即原始数据。现在假设将MDCT输入和IMDCT输出乘以长度2N的窗函数。如前文说明,假设对称 窗函数,因此具有形式(W,z, zK,wK),此处《和2为长度-N/2向量,R表示如前述的逆。则 Princen-Bradley条件可写成W2 + 4 = (1,1,),乘法和加法逐元素进行,或相等地w%+Z2= (1,1,...)对w和ζ取反。因此,替代对(a、b、c、d)进行MDCT,对(wa、zb、zKc、wEd)进行MDCT,全部乘法逐 元素进行。当对上述进行IMDCT且再次与窗函数相乘(逐元素)时,后N半部分结果如第 2h图所示。注意不再进行与1/2的乘法,原因在于在加窗情况下,IMDCT归一化相差2倍。类 似地,(c,d,e, f)的加窗MDCT和IMDCT在前N半部分获得根据第2i图所示结果。当这两 半部分加在一起时,获得第2j图的结果,恢复原始数据。第3a图示出了音频编码器10的另一个实施例。在第3a图所示实施例中,时间混 叠导入变换器14包含加窗滤波器17,对交叠预测域帧应用窗函数;以及变换器18,用于 将加窗交叠预测域帧转换成预测域频谱。根据前述的多个窗函数可设想的,其中部分函数 如后进一步详细说明。第: 图示出了音频编码器10的另一个实施例。在第: 图所示实施例中,时间混 叠导入变换器14包含处理器19 用于检测事件,且若检测到事件时提供窗序列信息,并且 加窗滤波器17适于根据窗序列信息应用窗函数。例如,可以依据从采样音频信号帧分析得 的特定信号特性发生事件。例如可以根据信号、音调、瞬变等自相关特性,应用不同的窗长 度或不同的窗边缘等。换言之,因采样音频信号帧的不同性质,可能发生不同事件,处理器 19可依据该音频信号帧的特性而提供不同的窗序列。后文将说明窗序列的序列及参数的进 一步细节。第3c图示出了音频编码器10的另一个实施例。在第3d图所示实施例中,预测域 帧不仅提供给时间混叠导入变换器14同时也提供给码簿编码器13,码簿编码器13适于基 于预定码簿来编码预测域帧,从而获得码簿编码帧。此外,第3c图所示实施例包含判定 器,用于基于编码效率独立判定使用码簿编码帧还是编码帧来获得最终编码帧。第3c图所 示实施例也称作闭合情况。在这种情况下,判定器15能够从两个分支获得编码帧,一个分 支基于变换,而另一个分支基于码簿。为了确定编码效率度量,判定器可以解码来自二个分 支的编码帧,然后经由评估来自不同分支的误差统计,而确定编码效率度量。换言之,判定器15适于进行与编码过程相反的操作,即针对两个分支进行全解 码。已经对帧进行完全解码之后,判定器15适于比较已解码采样与原始采样,如第3c图以 虚线箭头指示。在第3c图所示实施例中,还向判定器15提供预测域帧,利用该预测域帧使 得能够对来自冗余减少编码器16的编码帧进行解码,也可以对来自码簿编码器13的码簿 编码帧进行解码,且将结果与先前已编码的预测域帧相比较。在一个实施例中,经由比较差 异,可以确定例如信噪比或统计误差或最小误差等编码效率度量。在一些实施例中,也与相应码率有关,即编码帧所需的比特数目。然后判定器15适于基于该编码效率度量,选择来 自冗余减少编码器16的编码帧或码簿编码帧作为最终编码帧。第3d图示出了音频编码器10的另一个实施例。在第3d图所示实施例中,存在耦 合至判定器15的开关20,开关20用于基于编码效率度量在时间混叠导入变换器14与码 簿编码器13之间切换预测域帧。判定器15适于基于采样音频信号的帧来确定编码效率度 量,以便确定开关20的位置,即,使用具有时间混叠导入变换器14和冗余减少编码器16的 基于变换的编码分支,或使用具有码簿编码器13的基于码簿的编码分支。如前文说明,编 码效率度量可以基于采样音频信号帧的特性来确定,即,音频特性的本身,例如该帧是更像 音调还是更像噪声。第3d图所示实施例的配置也称作为开环组态配置,原因在于判定器15可以基于 输入帧进行判定,而无须得知相应编码分支的结果。在又一实施例中,判定器可以基于预测 域帧进行判定,如第3d图以虚线箭头指示。换言之,在一个实施例中,判定器15可能并非 基于采样音频信号帧进行判定,反而基于预测域帧进行判定。后文将举例说明判定器15的判断过程。总体上,经由应用信号处理操作,可以在 音频信号的脉冲状部分与稳态信号的稳态部分之间区别,其中测量脉冲状特性,也测量稳 态状特性。这种测量例如可经由分析音频信号的波形进行。为了达成此项目的,可进行任 何基于变换的处理或LPC处理或任何其它处理。一种直观方式是确定该部分是否为脉冲 状,例如观察时域波形,且确定此时域波形在规则间隔还是在或不规则间隔具有波峰,规则 间隔的波峰甚至更适合于语音状编码器,即码簿编码器。注意,甚至在语音内部可区别浊音 部分和清音部分。码簿编码器13对于浊音信号部分或浊音帧更有效,其中,包含时间混叠 导入变换器14和冗余减少编码器16的基于变换的分支更适合于清音帧。通常基于变换的 编码也更适合于稳态信号,而非语音信号。示例性地,分别参考第如和4b图、第fe和第恥图。举例说明讨论脉冲状信号节 段或信号部分及稳态信号节段或信号部分。总体上,判定器15适于基于不同标准判定例如 稳态、瞬变、频谱白度等。后文将示出示例标准作为实施例的一部分。具体地,说明于第如 图的时域和第4b图的频域中示出了浊音语音,并且讨论作为脉冲状信号部分的示例,而结 合第fe和恥图讨论作为稳态信号部分的示例的清音语音节段。语音通常可分类为浊音、清音或混合。在第如、仙、如和恥图中示出了采样的浊音 节段和清音节段的时域和频域图。浊音语音在时域中为准周期性,而在频域为谐波结构的; 而清音语音为类似于随机的且宽带。此外,浊音节段的能量通常高于清音节段的能量。浊 音语音的短期频谱以其精细和共振峰结构表征。精细谐波结构是语音的准周期性的结果, 且可归因于声带的振动。共振峰结构也称作为频谱包络,是由于声音来源与声道交互作用 的结果。声道包含咽及口腔。“适合”池音语音的短期频谱的频谱包络的形状与声道和由于 声门脉冲导致频谱倾斜(6分贝/八音度)的传输特性相关联。频谱包络由一组称作为共振峰得波峰表征。共振峰为声道的共振模式。一般声道 有3至5个低于5kHz的共振峰。通常出现低于3kHz的前三个共振峰的振幅和位置就语音 的合成和感知而言相当重要。较高共振峰对宽带和清音语音的呈现相当重要。语音的特性 与物理语音产生系统相关,说明如下。以振动声带产生的准周期性声门空气脉冲激励声道, 产生浊音语音。周期性脉冲的频率称作为基本频率或音高。强制空气通过声道的狭窄部分产生清音语音。鼻音是由于鼻道与声道的声学耦合的结果,而爆破音由突然间减少堆积于 声道闭合处后方的空气压而产生。因此,音频信号的稳态部分可为如第fe图所示时域的稳态部分或于频率的稳态 部分,由于时域的稳态部分并未示出了持久重复脉冲,故系与第如图所示脉冲状部分不 同。如后详述,稳态部分与脉冲状部分之间的差异也使用LPC方法进行,该方法对声道和声 道的激励建模。当考虑信号的频域时,脉冲状信号示出了各个单独共振峰的主要表现,即第 4b图的主要峰,而稳态频谱具有如第恥图所示的宽频谱;或在谐波信号的情况下,具有相 当连续的本底噪声,本底噪声具有主峰,表示例如音乐信号中可能出现的特殊音调,但不具 有如第4b图中的脉冲状信号的彼此间规则距离。此外,脉冲状部分及稳态部分可能以定时方式发生,即表示时间上音频信号的一 部分为稳态,而时间上音频信号的另一部分为脉冲状。备选或此外,信号的特性在不同频带 可能不同。如此,音频信号是稳态还是脉冲状的确定也可以频率选择进行,使得特定频带或 若干个频带被视为稳态,而其它频带被视为脉冲状。此种情况下,音频信号的特定时间部分 包括脉冲状部分或稳态部分。回头参考第3d图所示实施例,判定器15可以分析音频帧、预测域帧或激励信号, 以便确定其是脉冲状(即,更适合于码簿编码器13),还是稳态(即更适于基于变换的编码 分支)。随后将就第6图讨论合成分析的CELP编码器。CELP编码器的细节也参考“Speech Coding :A tutorial review,,,Andreas Spaniers, IEEE 会议,84 卷,第 10 期,1994 年 10 月,1541-1582页。第6图所示CELP编码器包括长期预测组件60和短期预测组件62。此 外,使用以64指示的码簿。在66处实现感知加权滤波器W(Z),在68处提供误差最小化控 制器。s(n)为输入音频信号。在被感知加权后,将加权的信号输入到减法器69中,减法器 69计算加权合成信号(方块66的输出)与实际加权预测误差信号Sw(η)间的误差。通常短期预测A(Z)由LPC分析级计算,容后详述。依据该信息,长期预测包 括长期预测增益b和延迟T (也称作为音高增益和音高延迟)。CELP算法则使用例如高斯 序列的码簿编码激励或预测域帧。ACELP算法则,其中“A”表示具有特定代数设计的码簿的 “代数”。码簿含有或多或少个向量,其中每个向量具有根据采样数目的长度。增益因子g 缩放激励向量,而激励采样由长期合成滤波器和短期合成滤波器来滤波。选择“最优“向量, 使得最小化感知加权均方误差。CELP的搜索过程根据第6图示例说明的合成分析方案变得 显而易见。须注意,第6图只示例说明分析合成CELP的示例,该实施例不限于第6图所示 结构。在CELP中,长期预测器经常实施为含有前激励信号的自适应码簿。长期预测延迟 和增益由自适应码簿索引和增益表示,也通过最小化均方加权误差来选择。在此种情况下, 激励信号由两个增益缩放的向量相加所组成,一个向量来自自适应码簿而另一个向量来自 固定码簿。AMR-WB+的感知加权滤波器基于LPC滤波器,因此感知加权信号为LPC域信号形 式。在AMR-WB+中使用的变换域编码器中,变换应用于已加权信号。在解码器处,通过由反 合成和加权滤波器所组成的滤波器对已解码加权信号进行滤波,获得激励信号。重构的TCX目标x(n)可以通过零态逆加权合成滤波器来滤波A(Z)Cl-OZ-1)//ikz/λ))来找出可应用于合成滤波器的激励信号。注意在滤波中使用每子帧或每帧的插值 LP滤波器。一旦确定激励,可以通过合成滤波器1/人滤波激励信号,以及然后例如通过滤波 器1/(1-0. 68Z-1)滤波去加重而重构该信号。注意激励也可用来更新ACELP自适应码簿,允 许在后续帧中从TCX切换至ACELP。还应注意,TCX合成的长度可以由TCX帧长度给出(不 含交叠)对1、2或3的mod[]分别为256、512或IOM采样。随后将根据第7图的实施例,在相应实施例中使用判定器15中的LPC分析及LPC 合成,讨论预测编码分析级12的实施例功能。第7图示例说明LPC分析块12的实施例的进一步细节。将音频信号输入到滤波 器确定块,该滤波器确定块确定滤波器信息A(Z),即与合成滤波器的系数有关的信息。对信 息进行量化,且输出作为解码器所需的短期预测信息。在减法器786中,输入信号的当前采 样,减去当前采样的预测值,使得对于该采样,在线784处产生预测误差信号。注意预测误 差信号也称作为激励信号或激励帧(通常在编码之后)。在第8a图中示出了用于解码编码帧来获得采样音频信号帧的音频解码器80的实 施例,其中帧包含多个时域采样。音频解码器80包含冗余获取解码器82,冗余获取解码器 82用于解码已编码帧来获得与合成滤波器的系数有关的信息和预测域帧频谱,或预测频谱 域帧。音频解码器80进一步包含时间混叠导入逆变换器84,用于将预测频谱域帧变换至时 域而获得交叠预测域帧,其中,时间混叠导入逆变换器84适于根据连续的预测域帧频谱确 定交叠预测域帧。此外,音频解码器80包含交叠/加法组合器86,用于组合交叠预测域帧 而用于以临界采样方式获得预测域帧。该预测域帧由基于LPC的加权信号组成。交叠/加 法组合器86也包括转换器,用于将预测域帧转换为激励帧。音频解码器80进一步包含预 测合成级88,用以基于系数和激励帧来确定合成帧。交叠/加法组合器86适于组合交叠预测域帧,使得预测域帧的采样的平均数目等 于该预测域帧频谱的采样的平均数。在实施例中,反相时间混叠导入逆变换器84适于根据 前述细节,根据IMDCT,将预测域帧频谱变换至时域。在方块86中,通常在“交叠/加法组合器”之后,在实施例中可选地存在“激励恢 复”,第8a_c图以括号中所示。在实施例中,交叠/加法可以在LPC加权域中进行,然后可 以通过逆加权合成滤波器进行滤波,将加权信号转换成激励信号。此外,在实施例中,预测合成级88适于基于线性预测,即LPC来确定帧。在第8b图 中示出了音频解码器80的另一个实施例。第8b图所示的音频解码器80示出了类似于第 8a图所示音频解码器80的组件,然而,在实施例中,第8b图所示时间混叠导入逆变换器84 进一步包含转换器84a,用于将预测域帧频谱转换成转换交叠预测域帧;加窗滤波器84b, 用于对转换交叠预测域帧应用加窗函数而获得交叠预测域帧。第8c图示出了具有类似于第8b图所示的组件的音频解码器80的另一个实施例。 在第8c图所示实施例中,时间混叠导入逆变换器84进一步包含处理器84c,用于检测事 件,以及如果检测到事件为加窗滤波器84b提供窗序列信息,并且加窗滤波器84b适于根据窗序列信息应用加窗函数。该事件可为由编码帧或任何辅助信息所导出的或所提供的指
7J\ ο在音频编码器10和音频解码器80的实施例中,相应加窗滤波器17和84适于根 据窗序列信息应用加窗函数。第9图示出了一般矩形窗,其中该窗序列信息包含第一零 部分,其中该窗掩蔽采样;第二旁路部分,其中帧(即预测域帧或交叠预测域帧)的采样可 未经修改地通过;以及第三零部分,其中再次掩蔽帧结束处的采样。换言之,可应用加窗函 数,该加窗函数在第一零部分中抑制帧的多个采样,在第二旁路部分通过采样,然后在第三 零部分中抑制帧结束处的采样。在上下文中,遏止也表示在窗的旁路部分的起点和/或结 束处附加零序列。第二旁路部分可使得加窗函数简单具有1值,即采样未经修改而通过,即 加窗函数通过该帧的采样切换。第10图示出了加窗序列或加窗函数的另一个实施例,其中该加窗序列进一步包 含第一零部分与第二旁路部分之间的上升沿,及第二旁路部分与第三零部分之间的下降 沿。上升沿部分也视为淡入部分,而下降沿部分可视为淡出部分。在实施例中,第二旁路部 分包含丝毫也不修改LPC域帧的采样的序列。换言之,基于MDCT的TCX可从算术解码器请求多个量化频谱系数,lg,其系由最后 模式的mod□及last_lpd_mode值确定。这二值也定义将应用于逆MDCT的窗长度和形状。 窗可由三个部分组成,L个采样的左侧交叠部分、M个采样的中间部分、以及R个采样的右侧 交叠部分。为了获得长2*lg的MDCT窗,可在左侧天界ZL个零及在右侧添加观个零。下表示出了针对若干实施例的根据last_lpd_m0de和mod[]的频谱系数的数目
权利要求
1.一种适于编码采样音频信号的帧来获得编码帧的音频编码器(10),其中,帧包括多 个时域音频采样,所述音频编码器包括预测编码分析级(12),用于基于音频采样的帧确定与合成滤波器的系数有关的信息以 及预测域帧;时间混叠导入变换器(14),用于将交叠预测域帧变换到频域,来获得预测域帧频谱,其 中,所述时间混叠导入变换器(14)适于以临界采样方式变换交叠预测域帧;以及冗余减少编码器(16),用于编码预测域帧频谱来基于系数和编码预测域帧频谱获得编 码帧。
2.如权利要求1所述的音频编码器(10),其中,预测域帧基于包括用于合成滤波器的 激励信号的采样的激励帧。
3.如权利要求1或2之一所述的音频编码器(10),其中,时间混叠导入变换器(14)适 于变换交叠预测域帧,使得预测域帧频谱的采样的平均数等于预测域帧的采样的平均数。
4.如权利要求1至3中任一项所述的音频编码器(10),其中,时间混叠导入变换器 (14)适于根据修改的离散余弦变换(MDCT)来变换交叠预测域帧。
5.如权利要求1至4中任一项所述的音频编码器(10),其中,时间混叠导入变换器 (14)包括加窗滤波器(17),用于对交叠预测域帧应用加窗函数;以及转换器(18),用于将 加窗的交叠预测域帧转换成预测域帧频谱。
6.如权利要求5所述的音频编码器(10),其中,时间混叠导入变换器(14)包括处理 器(19),用于检测事件;以及如果检测到所述事件,则提供窗序列信息,并且所述加窗滤波 器(17)适于根据所述窗序列信息应用所述加窗函数。
7.如权利要求6所述的音频编码器(10),其中,所述窗序列信息包括第一零部分、第二 旁路部分以及第三零部分。
8.如权利要求7所述的音频编码器(10),其中,所述窗序列信息包括在第一零部分与 第二旁路部分之间的上升沿部分,以及在第二旁路部分与第三零部分之间的下降沿部分。
9.如权利要求8所述的音频编码器(10),其中,第二旁路部分包括1的序列,不修改 预测域帧频谱的采样。
10.如权利要求1至9中任一项所述的音频编码器(10),其中,预测编码分析级(12) 适于基于线性预测编码(LPC)来确定与系数有关的信息。
11.如权利要求1至10中任一项所述的音频编码器(10),还包括码簿编码器(13), 用于基于预定的码簿来编码预测域帧,从而获得码簿编码预测域帧。
12.如权利要求11所述的音频编码器(10),还包括判定器(15),用于基于编码效率 度量判定使用码簿编码预测域帧还是编码预测域帧,来获得最终编码帧。
13.如权利要求12所述的音频编码器(10),还包括耦接至判定器(15)的开关(20), 用于基于编码效率度量,在时间混叠导入变换器(14)与码簿编码器(13)之间切换预测域 帧。
14.一种用于编码采样音频信号的帧来获得编码帧的方法,其中,帧包括多个时域音频 采样,所述方法包括以下步骤基于音频采样的帧确定与合成滤波器的系数有关的信息;基于音频采样的帧确定预测域帧;以导入时间混叠的临界采样方式,将交叠预测域帧变换到频域来获得预测域帧频谱;以及编码预测域帧频谱,来基于所述系数和编码预测域帧频谱获得编码帧。
15.一种计算机程序,具有当在计算机或处理器上运行时用于执行如权利要求14所述 的方法的程序代码。
16.一种用于对编码帧进行解码来获得采样音频信号的帧的音频解码器(80),其中, 帧包括多个时域音频采样,所述音频解码器包括冗余获取解码器(82),用于对编码帧进行解码来获得与合成滤波器的系数有关的信息 以及预测域帧频谱;时间混叠导入逆变换器(84),用于将预测域帧频谱变换到时域来获得交叠预测域帧, 其中,所述时间混叠导入逆变换器(84)适于根据连续的预测域帧频谱确定交叠预测域帧; 交叠/加法组合器(86),用来以临界采样方式组合交叠预测域帧,来获得预测域帧;以及预测合成级(88),用于基于所述系数和预测域帧确定音频采样的帧。
17.如权利要求16所述的音频解码器(80),其中,交叠/加法组合器(86)适于组合交 叠预测域帧,使得预测域帧的采样的平均数等于预测域帧频谱的采样的平均数。
18.如权利要求16或17中任一项所述的音频解码器(80),其中,时间混叠导入变换器 (84)适于根据修改的离散余弦逆变换(IMDCT)将预测域帧频谱变换到时域。
19.如权利要求16至18中任一项所述的音频解码器(80),其中,预测合成级(88)适 于基于线性预测编码(LPC)来确定音频采样的帧。
20.如权利要求16至19中任一项所述的音频解码器(80),其中,时间混叠导入逆变换 器(84)还包括转换器(8 ),用于将预测域帧频谱变换成变换的交叠预测域帧;以及加窗 滤波器(84b),用于对转换的交叠预测域帧应用加窗函数,以获得交叠预测域帧。
21.如权利要求20所述的音频解码器(80),其中,时间混叠导入逆变换器(84)包括 处理器(8 ),用于检测事件;以及如果检测到所述事件,则向加窗滤波器(84b)提供窗序 列信息,并且所述加窗滤波器(84b)适于根据窗序列信息应用加窗函数。
22.如权利要求20或21中任一项所述的音频解码器(80),其中,所述窗序列信息包括 第一零部分、第二旁路部分以及第三零部分。
23.如权利要求22所述的音频解码器(80),其中,所述窗序列信息包括在第一零部 分与第二旁路部分之间的上升沿部分,以及在第二旁路部分与第三零部分之间的下降沿部 分。
24.如权利要求23所述的音频解码器(80),其中,该第二旁路部分包括1的序列,用 于修改预测域帧的采样。
25.一种用于对编码帧进行解码来获得采样音频信号的帧的方法,其中,帧包括多个时 域音频采样,所述方法包括以下步骤对编码帧进行解码来获得与合成滤波器的系数有关的信息以及预测域帧频谱; 将预测域帧频谱变换到时域,来根据连续的预测域帧频谱获得交叠预测域帧; 以临界采样方式组合交叠预测域帧来获得预测域帧;以及 基于所述系数以及预测域帧来确定帧。
26. 一种计算机程序产品,用于当所述计算机程序运行在计算机或处理器上时执行如 权利要求25所述的方法。
全文摘要
一种适于编码采样音频信号的帧来获得编码帧的音频编码器,其中,框包括多个时域音频采样。音频编码器(10)包括预测编码分析级(12),用于基于音频采样的帧来确定与分析滤波器的系数有关的信息以及预测域帧。音频编码器(10)还包括时间混叠导入变换器(14),用于将交叠预测域帧变换到频域来获得预测域帧频谱,其中时间混叠导入变换器(14)适于以临界采样方式变换交叠预测域帧。此外,音频编码器(10)包括冗余减少编码器(16),用于基于所述系数和编码预测域帧频谱,来编码预测域帧频谱,从而获得编码帧。
文档编号G06F17/14GK102089758SQ200980127089
公开日2011年6月8日 申请日期2009年6月4日 优先权日2008年7月11日
发明者伯恩哈德·格瑞, 布鲁诺·贝塞特, 拉尔夫·盖格尔, 杰拉尔德·舒勒, 纪尧姆·福克斯, 菲利普·古尔奈, 马克斯·诺伊恩多夫, 马库斯·马特拉斯 申请人:弗劳恩霍夫应用研究促进协会, 沃伊斯亚吉公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1