通过在频域插入时间预整形噪声进行音频带宽扩展的制作方法

文档序号：9925380阅读：467来源：国知局

通过在频域插入时间预整形噪声进行音频带宽扩展的制作方法
【技术领域】
[0001 ]本发明涉及语音和音频编码，具体地，涉及音频带宽扩展(BWE)。
【背景技术】
[0002]带宽扩展技术关注于通过使音频编解码器的有效输出带宽变宽，来增强音频编解码器的感知质量。代替用底层核编码器进行全带宽范围编码，使用带宽扩展技术的编解码器允许在感知上较不重要的高频(HF)范围内消耗较少比特。因此，可将更多的比特提供给核编码器来以更高精度处理更重要的低频(LF)范围。为此，带宽扩展技术被广泛用于需要以低比特率来实现适当感知质量的编解码器。
[0003]通常，存在两种不同的基本带宽扩展方法，需要区分如下:盲目式带宽扩展和引导式带宽扩展。在盲目式带宽扩展中，不发送附加的边信息。因此，仅通过使用从核编码器的解码LF信号获得的信息，来产生要在解码器侧插入的HF内容。由于不需要传输高昂的边信息，盲目式带宽扩展技术非常适于以最低比特率操作的编解码器或后向兼容后处理过程。另一方面，缺少可控性仅允许使用盲目式带宽扩展对带宽进行相对较小的有效扩展(例如，【I】中的6.4-7.0kHz)。与盲目式方法相反，在引导式带宽扩展中，通过使用在编码器侧提取的并在比特流中被发送到解码器作为边信息的参数，来重构HF内容。因此，引导式带宽扩展使得能够更好地控制HF重构，从而可能呈现较宽的有效带宽。由于额外的比特消耗，引导式带宽扩展技术通常用于以较高比特率操作的编解码器，作为结合盲目式带宽扩展的系统。
[0004]更具体地，存在不同的方法来实现带宽扩展:
[0005]在语音编码中，通常使用基于源-滤波器模型的带宽扩展方法，所述方法与它们的底层核编码器紧密相关，例如，在G.722.2(AMR-WB)【I】中。在AMR-WB中，通过向激励域中注入白噪声，ACELP(代数编码激励线性预测)核编码器的输出带宽6.4kHz被扩展到7.0kHzt^后，通过从核编码器的线性预测(LP)滤波器获得的滤波器对扩展后的激励进行整形。根据比特率，通过仅使用核编码器信息来估计用于对插入噪声进行缩放的增益，或在编码器中提取所述增益并进行发送。这种带宽扩展方法严重依赖于它的底层编码方案，这是由于使用它的合成机制，因此，附加地必须在相同域内执行。
[0006]音频编码中公知的独立于带宽扩展技术的核编码器是频带复制(SBR)【2】。与先前示例相反，可以独立于底层核编码器来应用频带复制。作为第一步，在编码器侧将输入信号分为LF部和HF部，例如，通过使用正交镜像滤波器分析滤波器组(QMF)。当通过频带复制处理HF部时，将LF部馈送给核编码器。因此，提取描述HF信号的时间-频率包络的参数以及HF信号相对LF信号的调性/噪声特性，并进行发送。在解码之后，通过使用与编码器中使用的相同类型的分析滤波器组，对所述信号进行变换。为了重构HF内容，考虑到所发送的参数，对解码信号逐部分地进行拷贝、镜像或变调到HF范围，后处理以便与原始的、且时间上和频率上整形后的音调性/噪声特性相匹配。然后，通过相应的合成滤波器组，产生时域输出信号。
[0007]与先前所述的(半)参量方法相反，还存在使用多个比特率选择层来进行带宽扩展的多层方法。这种原理同样与可缩放的编码方案紧密相关。这些技术通常用于以互操作的方式扩展现有的编码系统。在【3】中，提出了针对G.711.1和G.722的超宽带(SWB)带宽扩展，其使用独立于核编码器的、基于修正的离散余弦变换(MDCT)的编码方案来处理附加带宽(8.0-14.4kHz)。这种方法能够精确重构HF部，但是以附加必需的较高比特消耗为代价。
[0008]尽管上述带宽扩展方法广泛应用于现有的语音和音频编码系统，然而，它们全部分别展露出特定缺点或不足。

【发明内容】

[0009]本发明的目的是提供一种用于带宽扩展的改善型构思。
[0010]通过用于对比特流进行解码的解码器设备来实现这种目的，其中音频解码器设备包括:
[0011 ]比特流接收机，配置为接收比特流并从所述比特流获得编码音频信号；
[0012]核解码器模块，配置为从所述编码音频信号获得解码时域音频信号；
[0013]时间包络产生器，配置为确定解码音频信号的时间包络；
[0014]带宽扩展模块，配置为产生频域带宽扩展信号，其中所述带宽扩展模块包括配置为在时域上产生噪声信号的噪声产生器，其中所述带宽扩展模块包括预整形模块，配置用于根据解码音频信号的时间包络来对所述噪声信号进行时间整形以便产生整形后的噪声信号，以及其中所述带宽扩展模块包括时频转换器，配置为将整形后的噪声信号变换为频域噪声信号;其中所述频域带宽扩展信号依赖于所述频域噪声信号；
[0015]时频转换器，配置为将所述解码音频信号变换为频域解码音频信号；
[0016]组合器，配置为组合频域解码音频信号和频域带宽扩展信号，以便产生带宽扩展的频域音频信号；以及
[0017]频时转换器，配置为将带宽扩展的频域音频信号变换为带宽扩展的时域音频信号。
[0018]本发明提供了一种带宽扩展构思，能够基本上独立于底层核编码技术来使用。此夕卜，所述构思提供了一种针对较低比特率操作点高达超宽带频率范围的频带扩展，尤其对于语音信号具有较高的感知质量。这是通过在时域产生时间整形后的噪声信号来实现的，其中对所述时间整形后的噪声信号进行变换并插入频域解码音频信号。
[0019]术语频域带宽扩展信号是指包括解码音频信号中未包括的频率在内的信号。
[0020]在合并了超过一个单核编码器的灵活的信号自适应系统(例如，如统一语音和音频编码(MPEG-D USAC)中包含的)中，发生在不同核编码器之间的过渡处的切换假象可能加重，因为必须也同时切换带宽扩展。根据本发明，可以通过应用独立于核编码器的带宽扩展技术的来克服上述问题。
[0021]频带复制由于LF分量对HF部的修补(patching)而引入可能令人讨厌的假象，尤其当对语音编码时。一方面，由于LF内容和修补后的HF内容的相关性而产生那些假象。另一方面，LF部和HF部之间的可能的频谱失配导致尖锐鸣响、不和谐失真。与此相反，根据本发明的解码器设备避免产生假象和尖锐鸣响。
[0022]频带复制的另一缺点在于操控修补后的HF部的时间结构的有限可能性。由于需要所述内容的比特率有效的参量时频表示，时间分辨率是受限的。这可能不利于例如处理女性语音，在女性语音中，声门脉冲的音调较高，且还展示出较高的时间变化性。与频带复制相反，根据本发明的解码器设备非常适合于再现女性语音。
[0023]最后，基于多个层的带宽扩展能够在频域和时域二者上精确地重构HF内容，但在另一方面，它必须消耗的比特明显多于参量方法的比特。根据本发明的解码器设备相较于这种方法提供较少的强制性比特消耗。
[0024]因此，本发明提供了一种新的带宽扩展构思，结合上述公知的带宽扩展技术的优点并消除它们的缺点。更具体地，提供了一种构思，能够以低比特率进行高质量、超宽带语音编码，同时独立于底层核编码器。
[0025]本发明特别为输出带宽上至超宽带范围的语音提供了较高的感知质量。根据本发明的带宽扩展是基于噪声插入的。附加地，新的带宽扩展独立于其底层核编解码器。因此，与标准的语音编码带宽扩展相反，所述构思适合用于包括根本不同的编码方案的切换式系统之上。
[0026]由于在可与频带复制相比的时频表示中执行新提出的带宽扩展的和核解码器的信号的混合，可以在组合式系统中方便地组合这两种技术，其中逐帧地进行无缝切换或在给定帧内的融合是可能的。由于新的带宽扩展主要关注于语音，这种方法可能对于处理包含音乐或混合内容的信号而言是期望的。可以通过所发送的边信息或通过经由分析核信号在解码器中获得的参数，来控制切换。
[0027]根据本发明，在时域上进行噪声的产生和后续整形，这是由于在时域中时间分辨率可以高于在时频表示中产生噪声并对噪声整形的方案的分辨率，这种方案类似于在频带复制处理中所应用的方法，由于滤波器组限制了对再现高音调(例如，女性)语音而言必要的时间分辨率。
[0028]为了避免上述问题并满足要求，新的带宽扩展执行以下处理步骤:首先，在时域上产生单个噪声信号，其中样本的数量源自系统的帧率以及所选的采样率和噪声信号的带宽。然后，基于解码的核编码器信号的时间包络，对噪声信号进行时间预整形。此外，通过逆变换将组合的时频表示的信号转换为带宽扩展的时域音频信号。
[0029]带宽扩展技术通常用于语音和音频编码，以通过加宽有效的输出带宽来增强感知质量。因此，可以在核编码器中使用大部分可用比特，从而能够在更重要的低频范围中获得更高精度。尽管存在多种方法，其中一部分方法赢得广泛认可，但它们都缺少用于由包括多个可切换的、基于不同编码方案的核编码器的系统进行语音处理的可行性。由于根据本发明的带宽扩展独立于核解码器技术，本发明提出了一种完美适于上述应用和其他应用的带宽扩展技术。
[0030]在根据本发明的带宽扩展中，可以产生完全合成的扩展信号，其中可以对所述扩展信号的时间包络进行预整形，且从而将所述完全合成的扩展信号调整为适应底层核编码器信号。可以以比在真正滤波器组中或在带宽扩展后整形处理中使用的变换域内可获得的的时间分辨率高得多的时间分辨率，对扩展信号的时间包络进行整形。
[0031]根据本发明的优选实施例，产生了频域带宽扩展信号，而无需频带复制。通过这些特征，可以使必需的计算工作量最小化。
[0032]根据本发明的优选实施例，带宽扩展模块配置为使得以过加重方式进行噪声信号的时间整形。代替基于解码音频信号的原始时间包络对噪声信号进行整形;还有可能以过加重的方式执行这种整形。这可以如下实现:通过在以时间包络为基础获得预整形增益之前，在幅度上展开时间包络，换言之，通过动态扩展，具体地通过修改测量的包络来代表比已测量到的脉冲更尖锐的脉冲。尽管这种过加重不表示实际的原始包络，但是针对非常低的比特率，改善了一些信号部分(例如，元音)的可懂性。
[0033]根据本发明的优选实施例，带宽扩展模块配置如下:通过由带通滤波器组将噪声信号分为若干子带噪声信号，并对所述子带噪声信号中的每一个进行特定时间整形，来逐子带地进行噪声信号的时间整形。
[0034]代替统一地对噪声信号进行预整形，可以通过由带通滤波器组将该噪声信号分为若干子带并对每个子带信号进行特定整形，来更精确地进行整形。
[0035]根据本发明的优选实施例，带宽扩展模块包括配置用于设置频域带宽

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：萨沙·迪施;马库斯·马特拉斯;本杰明·舒伯特;马库斯·施内尔;
技术所有人：弗劳恩霍夫应用研究促进协会;
我是此专利的发明人

上一篇：有语音的话音检测方法和装置的制造方法
上一篇：用于多声道音频编码的噪声填充的制作方法