用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧...的制作方法

文档序号:9383158阅读:782来源:国知局
用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧 ...的制作方法
【专利说明】用于产生频率增强音频信号的译码器、译码方法、用于产生 编码信号的编码器以及使用紧密选择边信息的编码方法
[0001] 说明书
[0002] 本发明涉及音频编码,且特别涉及在频率增强(即,译码器输出信号相比于编码 信号具有较多数目个频带)的上下文中的音频编码。该过程包含带宽扩展、频谱复制或智 能间隙填充。
[0003] 当前的语音编码系统能够在低至6千位/秒的位速率下对宽带(wideband, WB)数 字音频内容(亦即,具有高达7kHz至8kHz的频率的信号)编码。经最广泛论述的实例为 ITU-T建议G. 722. 2 [1],以及经新近开发的G. 718 [4、10]及MPEG-D统一语音与音频编码 (Unified Speech and Audio Coding, USAC) [8]。6· 722. 2(亦被称为AMR-WB)及G. 718两者 使用介于6. 4kHz与7kHz间的带宽扩展(BWE)技术以允许基础ACELP核心编码器"集中"于 感知上较相关的较低频率(特别是人类听觉系统为相位灵敏处的频率),且由此尤其在极 低位速率下实现足够质量。在USAC扩展高效率进阶音频编码(extended High Efficiency Advanced Audio Coding, xHE-AAC)规格中,使用增强频谱带复制(enhanced spectral band replication, eSBR)以将音频带宽扩展成超出通常在16千位/秒下低于6kHz的核心 编码器带宽。当前现有技术BWE处理通常可被划分成两种概念性方式:
[0004] ?盲或人工BWE,其中高频(high-frequency, HF)分量仅从解码低频 (low-frequency, LF)核心编码器信号重新建构,亦即,无需自编码器传输的边信息。此方案 由在16千位/秒及16千位/秒以下的AMR-WB及G. 718以及对传统窄带电话语音[5、9、 12]操作的一些向前兼容BWE后处理器使用(实例:图15)。
[0005] ?导引式BWE,其不同于盲BWE之处在于:用于HF内容重新建构的参数中的一些作 为边信息被传输至译码器,而非根据译码核心信号来估计。AMR-WB、G.718、xHE-AAC以及一 些其它编译码器[2、7、11]使用此方式,但不在极低位速率下(图16)。
[0006] 图 15 不出了如 Bernd Geiser、Peter Jax 及 Peter Vary 的公开物 "ROBUST WIDEBAND ENHANCEMENT OF SPEECH BY COMBINED CODING AND ARTIFICIAL BANDWIDTH EXTENSION"(国际声学回音与噪声控制工作组(International Workshop on Acoustic Echo and Noise Control, IWAENC)学报,2005年)中描述的此盲或人工带宽扩展。图15 所示的独立带宽扩展算法包含插值程序1500、分析滤波1600、激励扩展1700、合成滤波器 1800、特征提取程序1510、包络估计程序1520及统计模型1530。在窄带信号至宽带取样 率的内插之后,计算特征向量。接着,借助于经预训练的统计隐式马尔可夫模型(hidden Markov model, HMM),依据线性预测(linear prediction, LP)系数来判定针对宽带频谱包 络的估计。将该宽带系数用于内插窄带信号的分析滤波。在所得激励的扩展之后,应用反 向合成滤波器(inverse synthesis filter)。选择不会更改窄带的激励扩展对于窄带分量 是明显的。
[0007] 图16示出如上述公开物中描述的具有边信息的带宽扩展,该带宽扩展包含电话 带通1620、边信息提取块1610、(联合)编码器1630、译码器1640及带宽扩展块1650。用 于借由组合式编码及带宽扩展而对误差带语音信号进行宽带增强的该系统在图16中示 出。在传输端处,分析宽带输入信号的高频带频谱包络且判定边信息。分离地或与窄带语 音信号联合地对所得消息m编码。在接收机处,使用译码器边信息以支持带宽扩展算法内 的宽带包络的估计。消息m通过若干程序而获得。自仅在发送侧处可得到的宽带信号提取 3, 4kHz至7kHz的频率的频谱表示。
[0008] 该子带包络通过选择性线性预测而计算,即计算宽带功率谱,其后是其上部频带 分量的IDFT,以及随后的阶8的Levinson-Durbin递归。将所得子带LPC系数转换成倒谱 域,且最后由具有大小M = 2N的码本的向量量化器来量化。对于20ms的帧长度,此情形引 起300位/秒的边信息数据速率。一组合式估计方式扩展后验机率的计算且重新引入对窄 带特征的依赖性。因此,获得改良形式的误差隐藏(error concealment),其使用一个以上 信息源用于其参数估计。
[0009] 可在低位速率(通常低于10千位/秒)下观察到WB编译码器中的某一质量两难 推论(quality dilemma)。一方面,该速率已经太低而不能使甚至中等量的BWE数据的传输 合法化,从而排除具有1千位/秒或更大的边信息的典型导引式BWE系统。另一方面,可行 盲BWE被发现为由于不能够自核心信号进行适当参数预测而使得对至少一些类型的语音 或音乐材料看起来显著地较差。对于诸如具有HF与LF间的低相关性的摩擦音的一些口声 尤其如此。因此,期望将导引式BWE方案的边信息速率减小至远低于1千位/秒的位准,此 情形将允许其甚至在极低位速率编码中被使用。
[0010] 近年来已记载各种BWE方式[1-10]。一般而言,所有这些方式在给定操作点处为 完全盲或完全导引式,而不管输入信号的瞬时特性如何。此外,许多盲BWE系统[1、3、4、5、 9、10]特定地针对语音信号而非针对音乐而最佳化,且因此可提供对于音乐不令人满意的 结果。最后,大多数BWE实现在计算上相对复杂,其使用边信息的傅立叶(Fourier)变换、 LPC滤波器计算或向量量化(MPEG-D USAC中的预测性向量编码[8])。这在移动电信市场 中采用新编码技术方面会是劣势,在大多数移动装置提供非常有限的计算能力和电池容量 的情况下。
[0011] [12]中呈现且图16中示出了通过小边信息来扩展盲BWE的方式。然而,边信息 "m"限于带宽扩展频率范围的频谱包络的传输。
[0012] 图16所示的程序的另外问题为一方面使用低频带特征且另一方面使用额外包络 边信息的包络估计的极复杂方式。两个输入(亦即,低频带特征及额外高频带包络)影响 统计模型。此情形引起复杂的译码器侧实施,这由于增加的电力消耗而对于移动器件尤其 是个问题。此外,由于统计模型并非仅受到额外高频带包络数据影响,统计模型甚至更难以 更新。
[0013] 本发明的目的是提供音频编码/译码的改进概念。
[0014] 此目的通过以下来实现:一种根据权利要求1的译码器、一种根据权利要求15的 编码器、一种根据权利要求20的译码方法、一种根据权利要求21的编码方法、一种根据权 利要求22的计算机程序,或一种根据权利要求23的编码信号。
[0015] 本发明基于如下发现:为了甚至更多地减小边信息的量,且另外,为了使整个编码 器/译码器不过度地复杂,必须通过实际上关于与特征提取器一起用于频率增强译码器上 的统计模型的选择边信息来替换或至少增强高频带部分的先前技术参数编码。由于结合统 计模型的特征提取提供尤其针对某些语音部分具有模糊度的参数表示替代例,已发现实际 上控制译码器侧上的参数生成器(其在所提供的替代例中为最佳例)内的统计模型优于实 际上以参数方式对信号的某一特性编码,尤其是在用于带宽扩展的边信息受到限制的极低 位速率应用中。
[0016] 因此,通过具有小额外边信息的扩展而改进盲BWE(其利用用于被编码信号的源 模型),尤其是在该信号自身不允许以可接受的感知质量水平来重新建构HF内容的情况 下。该程序因此通过额外信息来组合自编码的核心编码器内容产生的、该源模型的参数。此 情形特别有利于增强难以在此源模型内编码的声音的感知质量。该声音通常呈现HF成分 与LF成分间的低相关性。
[0017] 本发明解决传统BWE在极低位速率音频编码中的问题以及已存现有技术BWE技术 的缺点。通过提议一最低限度导引式BWE作为盲BWE与导引式BWE的信号调适性组合、而 提供对上述质量两难推论的解决方案。本发明的BWE将一些小边信息加至信号,其允许进 一步鉴别以其它方式有问题的编码声音。在语音编码中,这特别适用于齿音或摩擦音。
[0018] 已发现,在WB编译码器中,核心编码器区域上方的HF区域的频谱包络表示执行具 有可接受的感知质量的BWE所必要的最关键数据。所有其它参数(诸如,频谱精细结构及 时间包络)常常可相当准确地自译码核心信号得到,或具有很少感知重要性。然而,摩擦音 在BWE信号中常常缺乏适当再现。边信息因此可包括区别诸如"广、",、"(*"及"此"的不 同齿音或摩擦音的额外信息。
[0019] 当出现诸如"t"或"tsch"的爆破音或塞擦音时,存在用于带宽扩展的其它有问题 声学信息。
[0020] 本发明允许仅使用此边信息,且实际上在必要的情况下传输此边信息且在统计模 型中不存在预期模糊度
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1