用于在音频信号解码器中进行频带扩展的优化缩放因子的制作方法

文档序号:9621056阅读:512来源:国知局
用于在音频信号解码器中进行频带扩展的优化缩放因子的制作方法
【专利说明】用于在音频信号解码器中进行频带扩展的优化缩放因子
[0001] 本发明涉及为了对音频信号(如语音、音乐或其他此类信号)进行传输或存储而 对其进行编码/解码和处理的领域。
[0002] 更具体而言,本发明涉及一种用于确定优化缩放因子的方法和装置,作为在解码 器或处理器中增强音频信号的频带扩展的一部分,该优化缩放因子可用来对激励信号的电 平进行调整或者以等效方式对滤波器的电平进行调整。
[0003] 存在许多技术用于压缩(有损耗)音频信号(如语音或音乐)。
[0004] 通常将用于对话式应用的常规编码方法分类为:波形编码("脉冲编码调制"PCM、 "自适应差分脉冲编码调制"ADCPM、变换编码等);参数编码("线性预测编码"LPC、正弦编 码等);以及通过"合成分析(analysisbysynthesis)"对参数进行量化的参数混合编码, 其中,CELP( "码激励线性预测")编码是最著名的示例。
[0005] 对于非对话式应用,(单)音频信号编码的现有技术由通过变换或以子频带进行 的感知编码与通过频带复制进行的对高频的参数编码所组成。
[0006] 可以在以下这些著作中找到对常规语音和音频编码方法的回顾:W.B.克莱因 (W.B.Kleijn)和Κ·K.帕利埃尔(Κ·K.Paliwal)(编辑),《语音编码与合成》(Speech CodingandSynthesis),愛思唯尔出版社,1995 ;Μ·博瑟(Μ·Bosi)、R.Ε·高德博 格(R.E.Goldberg),《数字音频编码和标准介绍》(IntroductiontoDigitalAudio CodingandStandards),斯普林格出版社,2002 ;J.贝尼斯提(J.Benesty)、Μ·M.松 迪(Μ·Μ·Sondhi)、Υ·黄(Υ·Huang)(编辑),《语音处理手册》(HandbookofSpeech Processing),斯普林格出版社,2008。
[0007] 在此,更具体地关注3GPP标准化AMR-WB( "宽带自适应多速率")编解码器(编码 器和解码器),该编解码器在16kHz的输入/输出频率上进行操作并且其中信号被分成两个 子频带:低频带(OkHz-6. 4kHz)和高频带(6. 4kHz-7kHz),该低频带以12. 8kHz进行采样并 且由CELP模型进行编码,而该高频带取决于当前帧的模式在有附加信息或者没有附加信 息的情况下通过"频带扩展"(或者"带宽扩展"BWE)参数化地进行重建。在此,可以注意到 的是,在7kHz上对AMR-WB编解码器的编码频带的限制实质上与以下事实相关联:根据在标 准ITU-TP. 341中所定义的频率掩模并且更具体地通过使用在标准ITU-TG. 191中所定义 的截断7kHz以上的频率的所谓"P341"滤波器(此滤波器遵循在P. 341中所定义的掩模) 在进行标准化(ETSI/3GPP,然后ITU-T)时近似估计在宽带终端的传输过程中的频率响应。 然而,理论上,众所周知的是,以16kHz采样的信号可以具有所限定的从0Hz到8000Hz的音 频频带;因此,AMR-WB编解码器通过与8kHz的理论带宽进行比较来引入对高频带的限制。
[0008] 在2001年,主要针对关于GSM(2G)和UMTS(3G)的电路模式(CS)电话技术应用对 3GPPAMR-WB语音编解码器进行了标准化。还在2003年由ITU-T以建议G. 722. 2 "使用自 适应多速率宽带(AMR-WB)以大约16kbit/s进行宽带编码语音"的形式对这种相同的编解 码器进行了标准化。
[0009]它包括从6. 6kbit/s到23. 85kbit/s的九种比特率(称为模式),并且包括多种 连续传输机制(DTX,"不连续传输")以及多种丢失帧校正机制("帧擦除隐藏"FEC,有时也 称为"包丢失隐藏"PLC),这些连续传输机制具有语音活动检测(VAD)以及来自静音描述帧 (SID,"静音插入描述符")的舒适噪音生成(CNG)。
[0010] 在此不再重复AMR-WB编码和解码算法的细节。可以在以下文献中找到对这种 编解码的详细说明:3GPP规范(TS26. 190、26. 191、26. 192、26. 193、26. 194、26. 204); ITU-T-G.722.2(以及相应的附件和附录);Β·贝塞特(B.Bessette)等人的题为《自适 应多速率宽带语音编解码器(AMR-WB)》("Theadaptivemultiratewidebandspeech codec(AMR-WB)")的文章,IEEE语音和音频处理会刊,第10卷,第8期,2002年,620-636 页;以及相关联的3GPP标准和ITU-T标准的源代码。
[0011] AMR-WB编解码器中的频带扩展原理是相当基础的。实际上,高频带(6. 4kHz-7kHz) 是通过时间(以每子帧增益的形式应用的)和频率(通过应用线性预测合成滤波器或"线 性预测编码"LPC)包络对白噪声进行整形而生成的。在图1中展示了这种频带扩展技术。
[0012] 由线性同余生成器针对每5ms子帧以16kHz生成白噪声uHB1 (η),n= 0,…,79 (框 100)。通过对每个子帧应用增益而及时地对此噪声uHB1 (η)进行格式化。此操作被分解为 两个处理步骤(框102、106或109):
[0013] ?计算第一因子(框101)以将白噪声uHB1(n)设置(框102)在与在低频带中以 12. 8kHz解码的激励,η= 0·…· 63,的电平类似的电平处:
[0014]
[0015] 在此可以注意到的是,在不对多个米样频率(12. 8kHz或16kHz)的差异进彳丁补偿 的情况下,通过对具有不同尺寸的块(针对u(η)为64并且针对uHB1 (η)为80)进行比较来 完成对能量的归一化。
[0016] ?然后,获得高频带中的激励(框106或109),形式如下:
[0017] uHB(n)r=gHBuHB1{n)
[0018] 其中,增益堯廊是根据比特率以不同的方式获得的。如果当前帧的比特率 〈23. 85kbit/s,那么增益被估计为"盲式(blind) "(也就是说,没有附加信息);在这种 情况下,框103通过具有400Hz的截止频率的高通滤波器对在低频带中所解码的信号进行 滤波来获得信号,η= 0, "·,63-一此高通滤波器消除了非常低频率的可以使在框 104中所作出的估计发生偏移的影响一一然后,通过归一化的自相关(框104)来计算信号 的被表示为etllt的"倾斜度(tilt) "(频谱斜率指示符):
[0019]
[0020] 并且最终,用以下形式来计算会拙:
[0021 ] ?拙=UspSsp + 容se
[0022] 其中,gSP=l_etllt是应用于有效语音(SP)帧的增益,gBG= 1. 25gSP是应用于与背 景(BG)噪声相关联的无效语音帧的增益,并且wSP是取决于语音活动检测(VAD)的加权函 数。应理解的是,对倾斜度(etllt)的估计使得有可能根据信号的频谱性质对高频带的电平 进行适配;当CELP解码信号的频谱斜率为使得在频率增加时平均能量减少时(语音信号的 情况,其中,etllt接近于1,因此,gSP= 1-etllt被由此减小),这种估计尤其重要。还应注意 的是,AMR-WB解码中的因子是有界的,在范围[0.1,1.0]内取值。实际上,对于在频率 增加时能量增加的信号(etllt接近于-1,gSP接近于2),增益通常被低估。
[0023] 以23. 85kbit/s,校正信息项由AMR-WB编码器所传输并且被解码(框107、框108) 以便改进针对每个子帧所估计的增益(每5毫秒4比特或0. 8kbit/s)。然后,通过具有传 递函数l/AHB(z)并且以16kHz的采样频率进行操作的LPC合成滤波器(框111)来对人工 激励uHB (η)进行滤波(框111)。这种滤波器的构造取决于当前帧的比特率:
[0024] ?以6. 6kbit/s,通过按照因子γ= 0. 9对阶数为20的LPC滤波器1 / ⑵进行 加权来获得滤波器1/ΑΗΒ (ζ),这对在低频带中(以12. 8kHz)所解码的阶数为16的LPC滤波 器l/2(z)进行"外插"--在标准G. 722. 2第6. 3. 2. 1节中描述了在ISF(导抗频谱频率) 参数领域中进行的外插的细节。在这种情况下,
[0025] MAm(z) = \!A^izfγ)
[0026] ?以比特率>6. 6kbit/s,滤波器1/ΑΗΒ(ζ)的阶数为16,并且简单对应于:
[0027] \{ΑΗΒ(β)=·\ΙΑ{ζ1γ)
[0028] 其中,γ= 0. 6。应注意的是,在这种情况下,在16kHz上使用滤波器1, , 这导致此滤波器的频率响应从[0kHz,6. 4kHz]扩展(通过比例变换)至[0kHz,8kHz]。
[0029] 结果sHB(n)最终由FIR("有限脉冲响应")类型的带通滤波器(框112)处理以仅 保留6kHz-7kHz的频带;以23. 85kbit/s,同样为FIR类型的低通滤波器(框113)被添加 到处理过程中以进一步衰减7kH以上的频率。高频(HF)合成最终被添加(框130)到通过 框120至框122所获得的低频(LF)合成中并且被以16kHz进行再采样(框123)。从而,即 使在AMR-WB编解码器中高频带理论上从6. 4kHz扩展至7kHz,HF合成在与LF合成相加之 前而是被包含在6kHz-7kHz频带中。
[0030] 可以对AMR-WB编解码器的频带扩展技术的许多缺点进行标识,具体而言:
[0031] ?对每个子帧的增益(框101、框103至框105)的估计不是最佳的。部分地,它是 基于对不同频率上的信号之间的每子帧"绝对"能量所进行的均衡(框101) :16kHz上的人 工激励(白噪声)以及12. 8kHz上的信号(经解码的ACELP激励)。具体地,可注意到的 是,这种方法隐含地引起了对高频带激励的衰减(按照比例12. 8/16 = 0. 8进行);实际上, 还将注意的是,在AMR-WB编解码器中未对高频带进行去加重,这隐含地引起了相对接近于 0. 6的放大(这对应于1八1-0. 68z》在6400Hz处的频率响应的值)。实际上,因子1/0. 8 与0.6得到了近似补偿。
[0032] ?关于语音,记录于3GPP报告TR26. 976中的3GPPAMR-WB编解码器特征化测试 已经示出以23. 85kbit/s的模式具有与在23. 05kbit/s上的模式相比不是很好的质量,其 质量实际上类似于以15. 85kbit/s的模式的质量。这具体地示出了必须非常谨慎地控制人 工HF信号的电平,因为质量在23. 85kbit/s上降低,而每帧4比特被认为是最有可能使得 可以接近于原始高频的能量。
[0033] ?在7kHz上的低通滤波器(框113)在低频带与高频带之间引入了几乎lms的 偏移,这可能会通过以23. 85kbit/s对这两个频带稍微进行去同步而降低某些信号的质 量--这种去同步还会在将比特率从23. 85kbit/s切换至其他模式时带来多种问题。
[0034] 在描述AMR-WB+编解码器的3GPP标准TS26. 290 (标准化于2005年)中描述了通 过时间方式进行频带扩展的示例。在图2a的框图(一般框图)和图2b的框图(通过响应 电平校正进行的增益预测)中展示了本示例,这两个框图分别对应于3GPP规范TS26.290 的图16和图10。
[0035] 在AMR-WB+编解码器中,以频率Fs(Hz)采样的(单)输入信号被分成两个单独的 频带,其中,两个LPC滤波器被单独地计算和编码:
[0036] ?-个LPC滤波器(被表示为A(z))在低频带(O-Fs/4)上一一其量化版本被表示 为A(y-)
[0037] ?另一个LPC滤波器(被表示为AHF(z))在频谱混叠的高频带(Fs/4-Fs/2)上一一 其量化版本被表示为(z)
[0038] 如在3GPP规范TS26. 290的第5. 4节(HF编码)和第6. 2节(HF解码)中所详 细描述的,在AMR-WB+编解码器中完成频带扩展。其原理概述于此:该扩展在于使用在低频 处所解码的激励(LFC激励)并且通过每子帧时间增益(框205)和LPC合成滤波(框207) 将此激励格式化;此外,如在图2a中所展示的那些实现对激励进行增强(后处理)(框206) 以及对重建的HF信号的能量进行平滑处理(框208)的那些处
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1