通过在频域插入时间预整形噪声进行音频带宽扩展的制作方法_3

文档序号：9925380阅读：来源：国知局

点在于缺少操控修补后的HF部的时间结构的可能性。由于需要所述内容的比特率有效的参量时频表示，时间分辨率是受限的。这可能不利于例如处理女性语音，在女性语音中，声门脉冲的音调较高，且还展示出较高的时间变化性。与频带复制相反，根据本发明的解码器设备I非常适合于再现女性语音。
[0085]最后，基于多个层的带宽扩展能够在频域和时域二者上精确地重构HF内容，但在另一方面，它必须消耗的比特明显多于参量方法的比特。根据本发明的解码器设备I相较于这种方法提供较少的强制性比特消耗。
[0086]因此，本发明提供了一种新的带宽扩展构思，结合上述公知的带宽扩展技术的优点并消除它们的缺点。更具体地，提供了一种构思，能够以低比特率进行高质量、超宽带语音编码，同时独立于底层核编码器3。
[0087]本发明特别为输出带宽上至超宽带范围的语音提供了较高的感知质量。根据本发明的带宽扩展是基于噪声插入的。附加地，新的带宽扩展独立于其底层核编解码器。因此，与标准的语音编码带宽扩展相反，所述构思适合用于包括根本不同的编码方案的切换式系统之上。
[0088]由于在可与频带复制相比的时频表示中执行新提出的带宽扩展的和核解码器的信号的混合，可以在组合式系统中方便地组合这两种技术，其中逐帧地进行无缝切换或在给定帧内的融合是可能的。由于新的带宽扩展主要关注于语音，这种方法可能对于处理包含音乐或混合内容的信号而言是期望的。可以通过所发送的边信息或通过经由分析核信号DAS在解码器3中获得的参数，来控制切换。
[0089]根据本发明，在时域上进行噪声的产生和后续整形，这是由于在时域中时间分辨率可以高于在时频表示中产生噪声并对噪声整形的方案的分辨率，这种方案类似于在频带复制处理中所应用的方法，由于滤波器组限制了对再现高音调(例如，女性)语音而言必要的时间分辨率。
[0090]为了避免上述问题并满足要求，新的带宽扩展执行以下处理步骤:首先，在时域上产生单个噪声信号N0S，其中样本的数量源自系统的帧率以及所选的采样率和噪声信号的带宽。然后，基于解码的核编码器信号DAS的时间包络TED，对噪声信号NOS进行时间预整形。此外，通过逆变换将组合的时频表示的信号BFS转换为带宽扩展的时域音频信号B AS。
[0091]带宽扩展技术通常用于语音和音频编码，以通过加宽有效的输出带宽来增强感知质量。因此，可以在核编码器3中使用大部分可用比特，从而能够在更重要的低频范围中获得更高精度。尽管存在多种方法，其中一部分方法赢得广泛认可，但它们都缺少用于由包括多个可切换的、基于不同编码方案的核编码器的系统进行语音处理的可行性。由于根据本发明的带宽扩展独立于核解码器技术，本发明提出了一种完美适于上述应用和其他应用的带宽扩展技术。
[0092]在根据本发明的带宽扩展中，可以产生完全合成的扩展信号，其中可以对所述扩展信号的时间包络进行预整形，且从而将所述完全合成的扩展信号调整为适应底层核编码器信号DAS。可以以比在真正滤波器组中或在带宽扩展后整形处理中使用的变换域内可获得的的时间分辨率高得多的时间分辨率，对扩展信号SNS的时间包络进行整形。
[0093]根据本发明的优选实施例，产生了频域带宽扩展信号BEF，而无需频带复制。通过这些特征，可以使必需的计算工作量最小化。
[0094]根据本发明的优选实施例，带宽扩展模块5配置为使得以过加重方式进行噪声信号NOS的时间整形。代替基于解码音频信号DAS的原始时间包络TED对噪声信号NOS进行整形;还有可能以过加重的方式执行这种整形。这可以如下实现:通过在以时间包络为基础获得预整形增益之前，在幅度上展开时间包络TED。尽管这种过加重不表示实际的原始包络TED，但是针对非常低的比特率，改善了一些信号部分(例如，元音)的可懂性。
[0095]根据本发明的优选实施例，带宽扩展模块5配置为使得通过由带通滤波器组将噪声信号NOS分为若干子带噪声信号，并对所述子带噪声信号中的每一个进行特定时间整形，来逐子带地进行噪声信号NOS的时间整形。
[0096]代替统一地对噪声信号NOS进行预整形，可以通过由带通滤波器组将该噪声信号NOS分为若干子带并对每个子带信号进行特定整形，来更精确地进行整形。
[0097]此外，本发明涉及一种用于对比特流BS进行解码的方法，其中所述方法包括以下步骤:
[0098]使用比特流接收机2接收比特流BS并从所述比特流BS中获得编码音频信号EAS;
[0099]使用核解码器模块3从所述编码音频信号EAS获得在时域上的解码音频信号DAS;
[0100]使用时间包络产生器4确定所述解码音频信号DAS的时间包络TED；
[0101]使用带宽扩展模块5执行以下步骤来产生频域带宽扩展信号BEF:
[0102]使用带宽扩展模块5的噪声产生器6在时域上产生噪声信号N0S，
[0103]使用所述带宽扩展模块5的预整形模块7，根据所述解码音频信号DAS的时间包络TED，对所述噪声信号NOS进行时间整形，以产生整形后的噪声信号SNS，
[0104]使用带宽扩展模块5的时频转换器8，将整形后的噪声信号SNS变换为频域噪声信号FNS，其中所述频域带宽扩展信号BEF取决于所述频域噪声信号FNS;
[0105]使用另一时频转换器9将解码音频信号DAS转换为频域解码音频信号n)S;
[0106]使用组合器10组合频域解码音频信号n)S和频域带宽扩展信号BEF，以便产生带宽扩展的频域音频信号BFS;以及
[0107]使用频时转换器11将所述带宽扩展的频域音频信号BFS转换为带宽扩展的时域音频信号BAS。
[0108]此外，本发明涉及一种计算机程序，当在处理器上运行时所述计算机程序执行根据本发明的方法。
[0109]图2示出了根据本发明的音频解码器设备的第二实施例的示意图。
[0110]根据本发明的优选实施例，带宽扩展模块5包括配置用于设置频域带宽扩展信号BEF的频率范围的频率范围选择器12。在将整形后的噪声信号SNS变换为时频表示FNS之后，可以选择带宽扩展的频域音频信号BEF的目标带宽，且如果需要，则可以将目标带宽移至所期望的频带位置。通过这些特征，可以容易地选择带宽扩展的时域音频信号BAS的频率范围。
[0111]根据本发明的优选实施例，带宽扩展模块5包括配置用于在所述频域带宽扩展信号BEF的频域中进行时间整形和/或频谱整形的后整形模块。通过这些特征，可以相对附加时间趋势和/或频谱包络，调整频域带宽扩展信号BEF，以便改进。
[0112]根据本发明的优选实施例，比特流接收机2配置为从所述比特流BS获得边信息信号SIS，其中带宽扩展模块5配置为根据所述边信息信号SIS来产生频域带宽扩展信号BEF。换言之，在编码器中提取的并经由所述比特流BS发送的附加边信息可以用于进一步改进频域带宽扩展信号BEF。通过这些特征，还可以提高带宽扩展的时域音频信号BAS的感知质量。
[0113]根据本发明的优选实施例，噪声产生器6配置为根据所述边信息信号SIS来产生噪声信号N0S。在这种实施例中，可以控制所述噪声产生器6，以便获得频谱倾斜的噪声信号，而不是频谱平坦的白噪声，以便进一步改善带宽扩展的时域音频信号BAS的感知质量。
[0114]根据本发明的优选实施例，预整形模块7配置用于根据所述边信息信号SIS来对噪声信号NOS进行时间整形。在预整形中，可以将边信息用于例如选择核解码器信号DAS的特定目标带宽，用于预整形。
[0115]根据本发明的优选实施例，后整形模块13配置用于根据所述边信息信号SIS对频域输出噪声信号BEF进行时间整形和/或频谱整形。在后整形中使用边信息可以确保所述频域带宽扩展信号BEF的粗糙时频包络遵循原始包络TED。
[0116]图3示出了根据本发明的音频解码器设备的第三实施例的示意图。
[0117]根据本发明的优选实施例，带宽扩展模块5包括另一噪声产生器14，配置为在时域上产生另一噪声信号N0SF;另一预整形模块15，配置用于根据解码音频信号DAS的时间包络TED来对所述另一噪声信号NOSF进行时间整形以便产生另一整形后的噪声信号SNSF;以及另一时频转换器16，配置为将所述另一整形后的噪声信号SNSF变换为另一频域噪声信号FNSF;其中所述频域带宽扩展信号BEF依赖于所述另一频域噪声信号FNSF。使用两个频域噪声信号FNS、FNSF来产生频域带宽扩展信号BEF可以使得提高带宽扩展的时域音频信号BAS的感知质量。
[0118]根据本发明的优选实施例，带宽扩展模块5配置为使得以过加重方式进行另一噪声信号NOSF的时间整形。这可以通过在获得以时间包络为基础获得预整形增益之前，在幅度上展开时间包络来实现。尽管这种过加重不表示实际的原始包络，但是针对非常低的比特率，改善了一些信号部分(例如，元音)的可懂性。
[0119]根据本发明的优选实施例，带宽扩展模块5配置为使得通过由带通滤波器组将另一噪声信号NOSF分为若干其他子带噪声信号，并对所述其他子带噪声信号中的每一个进行特定时间整形，来逐子带地进行对所述另一噪声信号NOSF的时间整形。
[0120]代替统一地对所述另一噪声信号进行预整形，可以通过由带通滤波器组将该另一噪声信号分为若干子带并对每个子带信号进行特定整形，来更精确地进行整形。
[0121 ]根据本发明的优选实施例，带宽扩展模块5包括音调产生器17，配置为在时域上产生音调信号T0S;音调预整形模块18，配置用于根据解码音频信号DAS的时间包络TED来对所述音调信号TOS进行时间整形以便产生整形后的音调信号STS;以及时频转换器19，配置为将所述整形后的音调信号STS变换为频域音调信号FTS;其中所述频域带宽扩展信号BEF依赖于所述频域音调信号FTS。除了处理合成噪声信号N0S、N0SF之外，还有可能在时域上产生合成音调分量，所述合成音调分量经过时间整形并接着变换为频率表示FTS。在这种情况下，时域中的整形有利于例如对音调的ADSR(攻击、衰减、维持、释放)阶段进行精确建模，这在通常的频域表示中是不可能的。附加使用频域音调信号FTS可以进一步提高带宽扩展的时域信号BAS的数量。
[0122]可以通过组合器20来组合频域噪声信号FNS、另一频域噪声信号FNSF和/或频域音调信号。
[0123]图4示出了根据本发明的音频解码器设备的第四实施例的示意图。
[0124]根据本发明的优选实施例，核解码器模块5包括:时域核解码器21和频域核解码器2

完整全部详细技术资料下载

当前第3页1 2 3 4 5