用于使用垂直相位校正处理音频信号的音频处理器及方法与流程

文档序号:11161287阅读:1023来源:国知局
用于使用垂直相位校正处理音频信号的音频处理器及方法与制造工艺

本发明涉及用于处理音频信号的音频处理器及方法、用于对音频信号进行解码的解码器及方法以及用于对音频信号进行编码的编码器及方法。此外,描述用于确定相位校正数据、音频信号的计算器及方法以及用于执行先前提及的方法中的一个的计算机程序。换言之,本发明示出相位导数校正及带宽扩展(BWE)用于感知的音频编解码器或用于基于感知重要性校正QMF域中的带宽扩展信号的相位谱。



背景技术:

感知音频编码

至今所见的感知音频编码遵循多个常见主题,包括时域/频域处理、冗余度缩减(熵编码)及通过感知效果的发音开发的不相关性移除的使用[1]。通常,输入信号由分析滤波器组分析,该分析滤波器组将时域信号转换为谱(时间/频率)表示。转换为谱系数允许根据信号分量的频率内容(例如具有其独特泛音结构的不同乐器)选择性地处理信号分量。

平行地,关于输入信号的感知特性分析输入信号,即(特别地)计算时间相依及频率相依的掩蔽阈值。通过用于每个频带并对时间帧进行编码的绝对能量值或掩蔽信号比(MSR)形式的目标编码阈值将时间相依/频率相依掩蔽阈值传输至量化单元。

对由分析滤波器组传输的谱系数进行量化以降低表示信号所需要的数据速率。此步骤意味着信息损失并将编码失真(误差、噪声)引入信号中。为了最小化此编码噪声的可听影响,根据用于每个频带及帧的目标编码阈值控制量化器步长。理想地,注入至每个频带中的编码噪声低于编码(掩蔽)阈值,且因此主观音频中的降级为不可感知的(不相干性的移除)。根据心理声学要求对频率及时间上的量化噪声的此控制导致复杂噪声成形效应,且使编码器成为感知音频编码器。

随后,现代音频编码器对量化的谱数据执行熵编码(例如,霍夫曼编码、算术编码)。熵编码为无损编码步骤,其可进一步节省比特率。

最后,所有的编码的谱数据及相关额外参数(旁侧信息,如例如用于每个频带的量化器设置)一起打包至比特流中,其为用于文件存储或传输的最终编码表示。

带宽扩展

在基于滤波器组的感知音频编码中,所消耗的比特率的主要部分通常消耗在量化的谱系数上。因此,以极低的比特率,不足的比特可用于以达到感知上未受损的再现所需的精度表示所有系数。因此,低比特率要求有效地设定对可通过感知音频编码获取的音频带宽的限制。带宽扩展[2]消除此长期存在的基本限制。带宽扩展的中心思想在于通过额外高频率处理器补充有限带宽感知编解码器,该额外高频率处理器以紧凑参数形式传输并恢复缺失的高频内容。可基于基带信号的单个边频带调制、基于如在谱带复制(SBR)[3]中使用的备份技术或基于音高移位(pitch shifting)技术的应用(例如声码器[4])生成高频内容。

数字音效

通常可通过应用时域技术(如同步叠加(SOLA))或频域技术(声码器)获取时间拉伸或音高移位效果。另外,已提出了在子带中应用SOLA处理的混合系统。声码器及混合系统通常因可归因于垂直相位相干性的损失的被称为相位错乱(phasiness)[8]的人为现象(artifact)而受损。一些出版物涉及通过在垂直相位相干性重要的情况下保留垂直相位相干性而对时间拉伸算法的音质的改良[6][7]。

最新技术的音频编码器[1]通常通过忽略待编码信号的重要相位特性而对音频信号的感知品质作出妥协。[9]中探讨了在感知音频编码器中校正相位相干性的一般提议。

然而,并非所有种类的相位相干性误差可同时校正,且并非所有相位相干性误差在感知上都是重要的。例如,在音频带宽扩展中,自最新技术无法明确哪些相位相干性有关的误差应当以最高优先权校正,及哪些误差可仅被部分校正或关于其不重要的感知影响而被完全忽略。

特别地,由于音频带宽扩展的应用[2][3][4],频率上及相位对时间的相干性常常是受损的。结果为展现听觉粗糙度并可包括从原始信号中的听觉对象分裂的额外感知音调的浊音,并因此被视为原始信号之外的听觉对象。此外,声音可似乎是来自远距离,“嗡嗡声”较低,并因此唤醒少数听众参与[5]。

因此,需要改进的方法。



技术实现要素:

本发明的目标在于提供一种用于处理音频信号的改进的概念。通过独立权利要求的主题实现此目标。

本发明基于可根据由音频处理器或解码器计算的目标相位校正音频信号的相位的发现。目标相位可被视为未处理的音频信号的相位的表示。因此,调整处理的音频信号的相位以更好地适应未处理的音频信号的相位。具有例如音频信号的时间频率表示,音频信号的相位可在子带中调整用于后续时间帧,或可在时间帧中调整用于后续频率子带。因此,发现计算器以自动检测并选择最适合的校正方法。可在不同实施例中实施或在解码器和/或编码器中共同实施所述发现。

实施例示出用于处理音频信号的音频处理器,该音频处理器包括音频信号相位测量计算器,该音频信号相位测量计算器用于计算用于时间帧的音频信号的相位测量。此外,音频信号包括目标相位测量确定器,其用于确定用于所述时间帧的目标相位测量;以及相位校正器,其用于使用计算的相位测量及目标相位测量校正用于时间帧的音频信号的相位,从而获取处理的音频信号。

根据另一实施例,音频信号可包括用于时间帧的多个子带信号。目标相位测量确定器用于确定用于第一子带信号的第一目标相位测量以及用于第二子带信号的第二目标相位测量。此外,音频信号相位测量计算器确定用于第一子带信号的第一相位测量及用于第二子带信号的第二相位测量。相位校正器用于使用音频信号的第一相位测量及第一目标相位测量校正第一子带信号的第一相位,并用于使用音频信号的第二相位测量及第二目标相位测量校正第二子带信号的第二相位。因此,音频处理器可包括音频信号合成器,其用于使用校正的第一子带信号及校正的第二子带信号合成校正的音频信号。

根据本发明,音频处理器用于在水平方向上校正音频信号的相位,即时间上的校正。因此,音频信号可细分为成组的时间帧,其中可根据目标相位调整每个时间帧的相位。目标相位可以是原始音频信号的表示,其中音频处理器可以是用于解码作为原始音频信号的编码表示的音频信号的解码器的部分。可选地,如果音频信号在时间-频率表示中可用,可针对音频信号的多个子带分别地应用水平相位校正。可通过从音频信号的相位减去目标相位的相位对时间的导数与音频信号的相位的偏差,执行音频信号的相位的校正。

因此,由于相位对时间的导数为频率(其中为相位),所描述的相位校正对于音频信号的每个子带执行频率调整。换言之,可减少音频信号的每个子带与目标频率的差异从而获取音频信号的较佳品质。

为了确定目标相位,目标相位确定器用于获取用于当前时间帧的基本频率估计,且用于使用用于时间帧的基本频率估计计算用于时间帧的多个子带中的每个子带的频率估计。可使用音频信号的子带的总数以及抽样频率将频率估计转换为相位对时间的导数。在另一实施例中,音频处理器包括:目标相位测量确定器,其用于确定用于时间帧中的音频信号的目标相位测量;相位误差计算器,其用于使用音频信号的相位及目标相位测量的时间帧计算相位误差;以及相位校正器,其用于使用相位误差校正音频信号的相位及时间帧。

根据另一实施例,音频信号在时间频率表示中可用,其中音频信号包括用于时间帧的多个子带。目标相位测量确定器确定用于第一子带信号的第一目标相位测量及用于第二子带信号的第二目标相位测量。此外,相位误差计算器形成相位误差的向量,其中向量的第一元素代表第一子带信号的相位与第一目标相位测量的第一偏差,且其中向量的第二元素代表第二子带信号的相位与第二目标相位测量的第二偏差。另外,此实施例的音频处理器包括音频信号合成器,其用于使用校正的第一子带信号及校正的第二子带信号合成校正的音频信号。此相位校正平均地产生校正的相位值。

附加地或可选地,多个子带分为基带及频率修补(patch)的集合,其中基带包括音频信号的一个子带,且频率修补的集合包括在比基带中的至少一个子带的频率高的频率处的基带的至少一个子带。

另一实施例示出相位误差计算器,其用于计算表示第二数量的频率修补中的第一修补的相位误差的向量的元素的平均值,从而获取平均相位误差。相位校正器用于使用加权的平均相位误差校正修补信号的频率修补集合中的第一频率修补及后续频率修补中的子带信号的相位,其中根据频率修补的索引除以平均相位误差以获取修改的修补信号。此相位校正提供在交越频率(两个后续频率修补之间的边界频率)处的良好品质。

根据另一实施例,可组合两个在先描述的实施例以获取包括校正的音频信号,该校正的音频信号平均起来良好且位于交越频率处的相位校正的值。因此,音频信号相位导数计算器用于计算用于基带的相位对频率的导数的平均值。相位校正器通过将由当前子带索引加权的相位对频率的导数的平均值与音频信号的基带中具有最高子带索引的子带信号的相位相加,计算具有优化的第一频率修补的另一修改的修补信号。此外,相位校正器可用于计算修改的修补信号与另一修改的修补信号的加权平均值以获取组合修改的修补信号,并用于通过将由当前子带的子带索引加权的相位对频率的导数的平均值与组合修改的修补信号的先前频率修补中具有最高子带索引的子带信号的相位相加,基于频率修补递归地更新组合修改的修补信号。

为确定目标相位,目标相位测量确定器可包括数据流提取器,该数据流提取器用于从数据流中提取音频信号的当前时间帧中的峰位及峰位的基本频率。可选地,目标相位测量确定器可包括音频信号分析器,其用于分析当前时间帧从而计算当前时间帧中的峰位及峰位的基本频率。此外,目标相位测量确定器包括目标谱生成器,其用于使用峰位及峰位的基本频率估计当前时间帧中的其他峰位。具体地,目标谱生成器可包括用于生成时间的脉冲序列的峰值检测器、用于根据峰位的基本频率调整脉冲序列的频率的信号形成器、用于根据位置调整脉冲序列的相位的脉冲定位器以及用于生成调整的脉冲序列的相位谱的谱分析器,其中时域信号的相位谱为目标相位测量。目标相位测量确定器的所描述的实施例对于生成用于包括具有峰值的波形的音频信号的目标谱是有益的。

第二音频处理器的实施例描述垂直相位校正。垂直相位校正在所有子带上调整一个时间帧中的音频信号的相位。针对每个子带独立应用的音频信号的相位的调整,在合成音频信号的子带之后导致不同于未校正音频信号的音频信号的波形。因此,例如可能重新成形模糊的峰值或瞬态。

根据另一实施例,示出用于确定用于音频信号的相位校正数据的计算器,该计算器具有用于在第一变化模式及第二变化模式中确定音频信号的相位的变化的变化确定器、用于比较使用相位变化模式确定的第一变化及使用第二变化模式确定的第二变化的变化比较器,以及用于基于比较的结果根据第一变化模式或第二变化模式计算相位校正的校正数据计算器。

另一实施例示出变化确定器,其用于在第一变化模式中确定作为相位的变化的用于音频信号的多个时间帧的相位对时间的导数(PDT)的标准差测量,或在第二变化模式中确定作为相位的变化的用于多个子带的相位对频率的导数(PDF)的标准差测量。变化比较器针对音频信号的时间帧比较作为第一变化模式的相位对时间的导数的测量以及作为第二变化模式的相位对频率的导数的测量。根据另一实施例,变化确定器用于在第三变化模式中确定音频信号的相位的变化,其中第三变化模式为瞬态检测模式。因此,变化比较器比较三个变化模式,且校正数据计算器基于比较的结果根据第一变化模式、第二变化或第三变化模式计算相位校正。

校正数据计算器的决策规则可描述如下。如果检测到瞬态,则根据用于瞬态的相位校正对相位进行校正,从而恢复瞬态的形状。否则,如果第一变化小于或等于第二变化,则应用第一变化模式的相位校正,或如果第二变化大于第一变化,则应用根据第二变化模式的相位校正。在检测到无瞬态且第一变化及第二变化均超过阈值时,则不应用相位校正模式。

计算器可用于分析音频信号(例如在音频编码阶段中)以确定最佳相位校正模式并计算用于确定的相位校正模式的有关参数。在解码阶段中,可使用参数以获取具有比使用现有技术的编解码器解码的音频信号更好的品质的解码的音频信号。应注意的是,计算器针对音频信号的每个时间帧自主地检测合适的校正模式。

实施例示出用于对音频信号进行解码的解码器,该解码器具有用于使用第一校正数据生成用于音频信号的第二信号的第一时间帧的目标谱的第一目标谱生成器,及用于以相位校正算法校正所确定的音频信号的第一时间帧中的子带信号的相位的第一相位校正器,其中通过减少音频信号的第一时间帧中的子带信号的测量与目标谱之间的差异来执行校正。另外,解码器包括音频子带信号计算器,其用于使用用于时间帧的校正的相位计算用于第一时间帧的音频子带信号,且用于使用第二时间帧中的子带信号的测量或使用根据不同于相位校正算法的另一相位校正算法的校正的相位计算,计算用于不同于第一时间帧的第二时间帧的音频子带信号。

根据另一实施例,解码器包括等效于第一目标谱生成的第二目标谱生成器及第三目标谱生成器,以及等效于第一相位校正器的第二相位校正器及第三相位校正器。因此,第一相位校正器可执行水平相位校正,第二相位校正器可执行垂直相位校正,且第三相位校正器可执行相位校正瞬态。根据另一实施例,解码器包括核心解码器,其用于对具有关于音频信号的减少数量的子带的时间帧中的音频信号进行解码。此外,解码器可包括修补器,其用于使用具有减少数量的子带的核心解码的音频信号的子带的集合修补相邻于减少数量的子带的时间帧中的其他子带,其中子带的集合形成第一修补,以获取具有正常数量的子带的音频信号。此外,解码器可包括用于处理时间帧中的音频子带信号的幅值的幅度处理器,及用于合成音频子带信号或处理的音频子带信号的幅度以获取合成解码的音频信号的音频信号合成器。此实施例可建立用于包括解码的音频信号的相位校正的带宽扩展的解码器。

因此,用于对音频信号进行编码的编码器包括:相位确定器,其用于确定音频信号的相位;计算器,其用于基于音频信号的确定的相位确定用于音频信号的相位校正数据;核心编码器,其用于对音频信号进行核心编码,以获取具有关于音频信号的减少数量的子带的核心编码的音频信号;以及参数提取器,其用于提取音频信号的参数,以获取用于不包括在核心编码的音频信号中的第二子带集合的低分辨率参数表示;以及音频信号形成器,其形成输出信号,该输出信号包括参数、核心编码的音频信号以及相位校正数据。该编码器可形成用于带宽扩展的编码器。

所有在先描述的实施例可全部或以组合方式可参见(例如)于用于具有解码的音频信号的相位校正的带宽扩展的编码器及/或解码器中。可选地,也有可能不互相参见独立地考虑所有描述的实施例。

附图说明

随后将参考附图论述本发明的实施例,其中:

图1a在时间频率表示中示出小提琴信号的幅度谱;

图1b示出与图1a的幅度谱对应的相位谱;

图1c在时间频率表示中示出QMF域中的长号信号的幅度谱;

图1d示出与图1c的幅度谱对应的相位谱;

图2示出包括由时间帧及子带定义的时间频率频块(tile)(例如,QMF频格(bin)、正交镜相滤波器组频格)的时间频率图;

图3a示出音频信号的示例性频率图,其中在十个不同子带上绘示频率的幅度;

图3b示出在接收之后(例如在中间步骤的解码过程期间)的音频信号的示例性频率表示;

图3c示出重构的音频信号Z(k,n)的示例性频率表示;

图4a在时间-频率表示中示出使用直接备份SBR的QMF域中的小提琴信号的幅度谱;

图4b示出与图4a的幅度谱对应的相位谱;

图4c在时间-频率表示中示出使用直接备份SBR的QMF域中的长号信号的幅度谱;

图4d示出与图4c的幅度谱对应的相位谱;

图5示出具有不同相位值的单个QMF频格的时域表示;

图6示出信号的时域及频域呈现,该信号具有一个非零频带以及以π/4(上)及3π/4(下)的固定值变化的相位;

图7示出信号的时域及频域呈现,该信号具有一个非零频带以及随机变化的相位;

图8在四个时间帧及四个频率子带的时间频率表示中示出关于图6所描述的效果,其中仅第三子带包括非零的频率;

图9示出信号的时域及频域呈现,该信号具有一个非零时间帧以及以π/4(上)及3π/4(下)的固定值变化的相位;

图10示出信号的时域及频域呈现,该信号具有一个非零时间帧以及随机变化的相位;

图11示出与图8中所示的时间频率图类似的时间频率图,其中仅第三时间帧包括非零的频率;

图12a在时间-频率表示中示出QMF域中的小提琴信号的相位对时间的导数;

图12b示出与图12a中所示的相位对时间的导数对应的相位导数频率;

图12c在时间-频率表示中示出QMF域中的长号信号的相位对时间的导数;

图12d示出与图12c的相位对时间的导数对应的相位对频率的导数;

图13a在时间-频率表示中示出使用直接备份SBR的QMF域中的小提琴信号的相位对时间的导数;

图13b示出与图13a中所示的相位对时间的导数对应的相位对频率的导数;

图13c在时间-频率表示中示出使用直接备份SBR的QMF域中的长号信号的相位对时间的导数;

图13d示出与图13c中所示的相位对时间的导数对应的相位对频率的导数;

图14a在单位圆中示意性地示出例如后续时间帧或频率子带的四个相位;

图14b示出SBR处理之后的图14a中所示的相位并以虚线示出校正的相位;

图15示出音频处理器50的示意性框图;

图16示出根据另一实施例的示意性框图中的音频处理器;

图17在时间-频率表示中示出使用直接备份SBR的QMF域中的小提琴信号的PDT中的平滑化误差;

图18a在时间-频率表示中示出用于校正的SBR的QMF域中的小提琴信号的PDT中的误差;

图18b示出与图18a中所示的误差对应的相位对时间的导数;

图19示出解码器的示意性框图;

图20示出编码器的示意性框图;

图21示出可作为音频信号的数据流的示意性框图;

图22示出根据另一实施例的图21的数据流;

图23示出用于处理音频信号的方法的示意性框图;

图24示出用于解码音频信号的方法的示意性框图;

图25示出用于编码音频信号的方法的示意性框图;

图26示出根据另一实施例的音频处理器的示意性框图;

图27示出根据优选实施例的音频处理器的示意性框图;

图28a示出音频处理器中的相位校正器的示意性框图,该示意性框图更详细地示出信号流;

图28b从与图26-28a相比的另一观点示出相位校正的步骤;

图29示出音频处理器中的目标相位测量确定器的示意性框图,该示意性框图更详细地示出目标相位测量确定器;

图30示出音频处理器中的目标谱生成器的示意性框图,该示意性框图更详细地示出目标谱生成器;

图31示出解码器的示意性框图;

图32示出编码器的示意性框图;

图33示出可作为音频信号的数据流的示意性框图;

图34示出用于处理音频信号的方法的示意性框图;

图35示出用于解码音频信号的方法的示意性框图;

图36示出用于解码音频信号的方法的示意性框图;

图37在时间-频率表示中示出使用直接备份SBR的QMF域中的长号信号的相位谱中的误差;

图38a在时间-频率表示中示出使用校正的SBR的QMF域中的长号信号的相位谱中的误差;

图38b示出与图38a中所示的误差对应的相位对频率的导数;

图39示出计算器的示意性框图;

图40示出计算器的示意性框图,该示意性框图更详细地示出变化确定器中的信号流;

图41示出根据另一实施例的计算器的示意性框图;

图42示出用于确定用于音频信号的相位校正数据的方法的示意性框图;

图43a在时间-频率表示中示出QMF域中的小提琴信号的相位对时间的导数的标准差;

图43b示出与关于图43a所示的相位对时间的导数的标准差对应的相位对频率的导数的标准差;

图43c在时间-频率表示中示出QMF域中的长号信号的相位对时间的导数的标准差;

图43d示出与图43c中所示的相位对时间的导数的标准差对应的相位对频率的导数的标准差;

图44a在时间-频率表示中示出QMF域中的小提琴+鼓掌信号的幅度;

图44b示出对应于图44a中所示的幅度谱的相位谱;

图45a在时间-频率表示中示出QMF域中的小提琴+鼓掌信号的相位对时间的导数;

图45b示出与图45a中所示的相位对时间的导数对应的相位对频率的导数;

图46a在时间频率表示中示出使用校正的SBR的QMF域中的小提琴+鼓掌信号的相位对时间的导数;

图46b示出与图46a中所示的相位对时间的导数对应的相位对频率的导数;

图47在时间-频率表示中示出QMF频带的频率;

图48a在时间-频率表示中示出与所示的原始频率相比的QMF频带直接备份SBR的频率;

图48b在时间-频率表示中示出与原始频率相比的使用校正的SBR的QMF频带的频率;

图49在时间-频率表示中示出与原始信号的QMF频带的频率相比的谐波的估计频率;

图50a在时间-频率表示中示出具有压缩的校正数据的使用校正的SBR的QMF域中的小提琴信号的相位对时间的导数中的误差;

图50b示出与图50a中所示的相位对时间的导数的误差对应的相位对时间的导数;

图51a在时间图中示出长号信号的波形;

图51b示出与图51a中的长号信号对应的时域信号,该时域信号仅含有估计峰值;其中已使用所传输元数据获取到峰值的位置;

图52a在时间-频率表示中示出具有压缩的校正数据的使用校正的SBR的QMF域中的长号信号的相位谱中的误差;

图52b示出与图52a中所示的相位谱中的误差对应的相位对频率的导数;

图53示出解码器的示意性框图;

图54示出根据优选实施例的示意性框图;

图55示出根据另一实施例的解码器的示意性框图;

图56示出编码器的示意性框图;

图57示出可用于图56中所示的编码器中的计算器的框图;

图58示出用于解码音频信号的方法的示意性框图;以及

图59示出用于编码音频信号的方法的示意性框图。

具体实施方式

下面将更详细地描述本发明的实施例。各个图中所示的具有相同或类似功能的元件具有与其相关的相同附图标记。

关于特定信号处理描述本发明的实施例。因此,图1-14描述应用于音频信号的信号处理。即使关于此特殊信号处理描述实施例,本发明也不限于此处理,并可进一步应用于许多其他处理方案。此外,图15-25示出可用于音频信号的水平相位校正的音频处理器的实施例。图26-38示出可用于音频信号的垂直相位校正的音频处理器的实施例。此外,图39-52示出用于确定用于音频信号的相位校正数据的计算器的实施例。计算器可分析音频信号并确定应用先前提及的音频处理器中的哪些,或在没有适用于音频信号的音频处理器的情况下则不将音频处理器应用至音频信号。图53-59示出可包括第二处理器及计算器的解码器及编码器的实施例。

1介绍

感知音频编码已激增成为使得数字技术能够用于使用具有有限容量的传输或储存信道向消费者提供音频及多媒体的所有类型的应用的主流。要求现代感知音频编解码器以越来越低的比特率传输令人满意的音频品质。相应地,不得不忍受大多数听众在最大程度上所能容忍的某些编码人为现象。音频带宽扩展(BWE)是通过以引入某些人为现象为代价将传输的低频带信号部分谱转移或换位至高频带而人工地扩展音频编码器的频率范围的技术。

发现,这些人为现象中的一些与人工扩展的高频带内的相位导数的变化有关。这些人为现象的一个为相位对频率的导数(参见“垂直”相位相干性)[8]的变化。所述相位导数的保留对于具有诸如时域波形的脉冲序列及相当低的基本频率的音调(tonal)信号是感知上重要的。与垂直相位导数的变化有关的人为现象对应于时间上的能量的局部逸散,且常见于已通过BWE技术处理的音频信号中。另一人为现象为对于任何基本频率的多陪音(overtone-rich)音调信号是感知上重要的相位对时间的导数(参见“水平”相位相干性)的变化。与水平相位导数的变化有关的人为现象对应于音高上的局部频率偏移,且常见于已通过BWE技术处理的音频信号中。

本发明呈现用于在已通过所谓的音频带宽扩展(BWE)的应用在此性质上作出妥协时重新调整此类信号的垂直相位导数或水平相位导数的手段。提供其他手段以决策相位导数的恢复是否是感知有益的,以及是调整垂直相位导数还是调整水平相位导数是感知较佳的。

带宽扩展方法如谱带复制(SBR)[9]通常用于低比特率编解码器中。其允许仅将关于较高频带的参数信息与相对窄的低频区域一同传输。由于参数信息的比特率较小,可获取编码效率的显著改善。

通常,用于较高频带的信号通过从传输的低频区域中简单复制来获取。通常在复杂调制的正交镜象滤波器组(QMF)[10]域中执行处理,在下文中也作此假设。通过基于传输参数将备份信号的幅度谱与适合增益相乘,处理备份信号。目标在于获取与原始信号的幅度谱类似的幅度谱。相反,通常根本不对备份信号的相位谱进行处理而直接使用备份相位谱。

下面探讨直接使用备份相位谱的感知结果。基于观察的效果,提出用于检测在感知上最显著效果的两个度量。此外,提出如何基于此两个度量校正相位谱的方法。最后,提出用于将用于执行校正的传输参数值的量最小化的策略。

本发明涉及相位导数的保留或恢复能够补救由音频带宽扩展(BWE)技术引起的显著人为现象的发现。例如,典型信号(其中相位导数的保留是重要的)是具有多谐波陪音内容的音调(如有声语音、铜管乐器或弓弦)。

本发明进一步提供用于决策:对于给定信号帧,相位导数的恢复是否是感知有益的,以及是调整垂直相位导数还是调整水平相位导数是感知较佳的。

本发明结合以下方面使用BWE技术教示一种用于音频编解码器中的相位导数校正的装置及方法:

1.相位导数校正的“重要性”的量化

2.垂直(“频率”)相位导数校正或水平(“时间”)相位导数校正的信号相依优先化

3.校正方向(“频率”或“时间”)的信号相依切换

4.用于瞬态的专用垂直相位导数校正模式

5.获取用于平滑校正的稳定参数

6.校正参数的紧凑旁侧信息传输格式

2在QMF域中的信号的呈现

例如,使用复杂调制的正交镜象滤波器组(QMF),可在时间-频率域中呈现时域信号x(m)(其中m为离散时间)。结果信号为X(k,n),其中k为频带索引且n为时间帧索引。为了可视化和实施例,假设64个频带的QMF及48kHz的抽样频率fs。因此,每个频带的带宽fBW为375Hz,且时间跳跃大小thop(图2中的17)为1.33ms。然而,处理不限于此变换。可选地,可替代地使用MDCT(改进离散余弦变换)或DFT(离散傅立叶变换)。

结果信号为X(k,n),其中k为频带索引且n为时间帧索引。X(k,n)为复杂信号。因此,可使用幅度Xmag(k,n)及相位分量Xpha(k,n)呈现该信号,其中j为复数:

主要使用Xmag(k,n)及Xpha(k,n)呈现音频信号(参见用于两个示例的图1)。

图1a示出小提琴信号的幅度谱Xmag(k,n),其中图1b示出对应相位谱Xpha(k,n),两者皆在QMF域中。此外,图1c示出长号信号的幅度谱Xmag(k,n),其中图1d在对应QMF域中再次示出对应相位谱。关于图1a及图1c中的幅度谱,颜色渐变指示从红色=0dB至蓝色=-80dB的幅度。此外,对于图1b及图1d中的相位谱,颜色渐变指示从红色=π至蓝色=-π的相位。

3音频数据

用于示出所描述的音频处理的效果的音频数据对于长号的音频信号被命名为“长号”,对于小提琴的音频信号被命名为“小提琴”,以及对于中间增添有鼓掌的小提琴信号被命名为“小提琴+鼓掌”。

4SBR的基本操作

图2示出包括由时间帧15及子带20定义的时间频率频块10(例如QMF频格、正交镜象滤波器组频格)的时间频率图5。可使用QMF(正交镜象滤波器组)变换、MDCT(改进离散余弦变换)或DFT(离散傅立叶变换)将音频信号变换为如此的时间频率表示。音频信号在时间帧中的划分可包括音频信号的重叠部分。在图1的下部,示出时间帧15的单个重叠,其中最多两个时间帧同时重叠。此外,即如果需要更多冗余,也可使用多重叠来划分音频信号。在多重叠算法中,三个或更多个时间帧可包括在某个时间点处的音频信号的相同部分。重叠的持续时间为跳跃大小thop 17。

假设信号X(k,n),通过备份所传输的低频频带的某些部分从输入信号X(k,n)获取带宽扩展(BWE)信号Z(k,n)。通过选择待传输频率区域,开始执行SBR算法。在此示例中,选择从1至7的频带:

待传输频带的数量取决于期望比特率。使用7个频带生成附图及公式,且从5至11的频带用于对应音频数据。因此,传输的频率区域与较高频带之间的交越频率分别为从1875Hz至4125Hz。根本不传输此区域以上的频带,而是产生参数元数据来描述它们。编码并传输Xtrans(k,n)。为简单起见,尽管需要看到进一步的处理不限于假设的情况,仍假设编码不以任何方式修改信号。

在接收端中,将传输的频率区域直接用于对应频率。

对于较高频带,可使用传输的信号以某种方式产生信号。一种方法是简单地将传输的信号复制至较高频率。在此使用稍微修改版本。首先,选择基带信号。该基带信号可为整个传输的信号,但在此实施例中,省略第一频带。对此的原因在于,在许多情况下都注意到,相位谱对于第一频带是不规则的。因此,定义待备份的基带为

其他带宽也可用于传输的信号及基带信号。使用基带信号,产生用于较高频率的未经处理的信号

Yraw(k,n,i)=Xbase(k,n) (4)

其中Yraw(k,n,i)为用于频率修补i的复杂QMF信号。通过将未经处理的频率修补信号与增益g(k,n,i)相乘,根据传输的元数据操作未经处理的频率修补信号

Y(k,n,i)=Yraw(k,n,i)g(k,n,i) (5)

应当注意的是,增益为实值,并因此仅幅度谱受到影响且借此适于期望目标值。已知方法示出如何获取增益。目标相位在所述已知方法中保持未校正。

通过串接传输的信号及修补信号(用于无缝扩展带宽)获取待再现的最终信号以获取期望带宽的BWE信号。在此实施例中,假设i=7。

图3以图解表示示出描述的信号。图3a示出音频信号的示例性频率图,其中在十个不同子带上绘示频率的幅度。前七个子带反映传输频带Xtrans(k,n)25。通过选择第二至第七子带从传输频带得到基带Xbase(k,n)30。图3a示出原始音频信号,即传输或编码之前的音频信号。图3b示出在接收之后(例如在中间步骤的解码过程期间)的音频信号的示例性频率表示。音频信号的频谱包括传输频带25和被复制至频谱的较高子带的七个基带信号30以形成包括比基带中的频率较高的频率的音频信号32。完整的基带信号也被称为频率修补。图3c示出重构的音频信号Z(k,n)35。与图3b相比,将基带信号的修补与增益因数分别相乘。因此,音频信号的频谱包括主频谱25及多个幅度校正的修补Y(k,n,1)40。此修补方法被称为直接备份修补。尽管本发明不限于此修补算法,直接备份修补示例性地用于描述本发明。可使用的另一修补算法为,例如谐波修补算法。

假设较高频带的参数表示是理想的,即重构信号的幅度谱与原始信号的幅度谱相同

Zmag(k,n)=Xmag(k,n) (7)

然而,应当注意的是,相位谱并未通过该算法以任何方式校正,因此即使算法运行良好相位谱仍不正确。因此,实施例示出如何将Z(k,n)的相位谱额外调节并校正为目标值,以获取感知品质的提升。在实施例中,可使用三种不同的处理模式(即“水平”、“垂直”及“瞬态”)执行校正。在下文中单独论述这些模式。

图4中针对小提琴及长号信号绘示Zmag(k,n)及Zpha(k,n)。图4示出具有直接备份修补的使用谱带宽复制(SBR)的重构的音频信号35的示例性谱。图4a中示出小提琴信号的幅度谱Zmag(k,n),其中图4b示出对应相位谱Zpha(k,n)。图4c及图4d示出用于长号信号的对应谱。在QMF域中呈现所有信号。如在图1中已看到的,颜色渐变指示从红色=0dB至蓝色=80dB的幅度及从红色=π至蓝色=-π的相位。可看出,它们的相位谱不同于原始信号的谱(见图1)。由于SBR,小提琴被感知为含有不和谐性,且长号被感知为在交越频率处含有调制噪声。然而,相位图看起来很随机,且难以说明其如何不同以及差异的感知效果是什么。此外,发送用于此类随机数据的校正数据在需要低比特率的编码应用中是不可行的。因此,需要理解相位谱的感知效果并找到用于描述感知效果的度量。在以下章节中论述此主题。

5QMF域中的相位谱的意义

通常认为频带的索引定义单个音调分量的频率,幅度定义单个音调分量的等级,以及相位定义单个音调分量的“时序(timing)”。然而,QMF带的带宽相对较大,且数据是过抽样的。因此,时间-频率频块(即,QMF频格)之间的交互实际上定义所有这些性质。

图5中绘示具有三个不同相位值(即,Xmag(3,1)=1且Xpha(3,1)=0,π/2或π)的单个QMF频格的时域表示。结果为具有13.3ms长度的类辛格函数(sinc-like function)。函数的精确形状由相位参数定义。

对于所有时间帧考虑仅有一个频带是非零的情况,即,

通过以固定值α改变时间帧之间的相位,即,

Xpha(k,n)=Xpha(k,n-1)+α (9)

产生正弦曲线。在图6中以α=π/4(顶部)及3π/4(底部)的值示出结果信号(即,逆QMF变换后的时域信号)。可看出,正弦曲线的频率受相位变化的影响。图6右侧示出信号的频域且左侧示出信号的时域。

相应地,若随机地选择相位,结果为窄带噪声(见图7)。因此,可以说QMF频格的相位控制对应频带内部的频率内容。

图8在四个时间帧及四个频率子带的时间频率表示中示出关于图6所描述的效果,其中仅第三子带包括非零的频率。此导致在图8的右侧示意性呈现的来自图6的频域信号,且导致在图8的底部示意性呈现的图6的时域表示。

对于所有频带考虑仅一个时间帧为非零的情况,即,

通过以固定值α改变频带之间的相位,即

Xpha(k,n)=Xpha(k-1,n)+α (11)

产生瞬态。在图9中以α=π/4(顶部)及3π/4(底部)的值示出结果信号(即,逆QMF变换后的时域信号)。可看出,瞬态的时间位置受相位变化影响。图9的右侧示出信号的频域且左侧示出信号的时域。

相应地,若随机地选择相位,则结果为短突发噪声(见图10)。因此,可以说QMF频格的相位也控制对应时间帧内部的谐波的时间位置。

图11示出类似于图8中所示的时间频率图的时间频率图。在图11中,仅第三时间帧包括不同于零的值,具有从一个子带至另一子带的π/4的时移。变换至频域,获取来自图9右侧的频域信号,示意性地呈现于图11的右侧。在图11的底部示出图9左部的时域表示的示意图。通过将时间频率域变换成时域信号得到此信号。

6用于描述相位谱的感知上相关性质的测量

如第4章中所论述,相位谱本身上看起来相当混乱,且难以直接看出相位谱对感知的影响是什么。第5章呈现可由操纵QMF域中的相位谱引起的两个影响:(a)时间上的恒定相位变化产生正弦曲线且相位变化的量控制正弦曲线的频率,及(b)频率上的恒定相位变化产生瞬态且相位变化的量控制瞬态的时间位置。

显然,分音(partial)的频率及时间位置对于人类感知显然是重要的,因此检测这些性质是潜在有用的。可通过计算相位对时间的导数(PDT)

Xpdt(k,n)=Xpha(k,n+1)-Xpha(k,n) (12)

及通过计算相位对频率的导数(PDF)

Xpdf(k,n)=Xpha(k+1,n)-Xpha(k,n) (13)

估计这些性质。Xpdt(k,n)与频率有关且Xpdf(k,n)与分音的时间位置有关。由于QMF分析的性质(相邻时间帧的调制器的相位如何在瞬态的位置处匹配),为可视化目的,在图中将π添加至Xpdf(k,n)的偶数时间帧,以产生平滑曲线。

然后,检查这些测量对于示例性信号看起来如何。图12示出用于小提琴及长号信号的导数。更具体地,图12a示出QMF域中的原始(即,未处理的)小提琴音频信号的相位对时间的导数Xpdt(k,n)。图12b示出对应的相位对频率的导数Xpdf(k,n)。图12c及图12d分别示出用于长号信号的相位对时间的导数及相位对频率的导数。颜色渐变指示从红色=π至蓝色=-π的相位值。对于小提琴,幅度谱基本上为噪声,直至约0.13秒为止(见图1),且因此导数也是有噪的。从大约0.13秒开始,Xpdt显现为具有随时间的相对稳定值。此意味信号含有强烈的、相对稳定的正弦曲线。通过Xpdt值确定这些正弦曲线的频率。相反地,Xpdf图显现为相对有噪的,因此使用它未发现用于小提琴的相关数据。

对于长号,Xpdt是相对有噪的。相反地,Xpdf显现为在所有频率处具有大约相同的值。实际上,此意味所有谐波分量在时间上一致,从而产生类瞬态信号。通过Xpdf值确定瞬态的时间位置。

也可针对SBR处理的信号Z(k,n)计算同样的导数(见图13)。图13a至图13d与图12a至图12d直接有关,通过使用在先描述的直接备份SBR算法得出。由于相位谱是从基带简单复制至较高修补,频率修补的PDT与基带的PDT相同。因此,对于小提琴,PDT在时间上是相对平滑的,从而产生稳定的正弦曲线,正如原始信号的情况。然而,Zpdt的值不同于原始信号Xpdt的值,致使产生的正弦曲线具有与原始信号中不同的频率。在第7章中论述此情况的感知效果。

相应地,频率修补的PDF另外与基带的PDF相同,但实际上在交越频率处,PDF是随机的。实际上,在交越处,PDF被计算为介于频率修补的最后相位值与第一相位值之间,即,

Zpdt(7,n)=Zpha(8,n)-Zpha(7,n)=Ypha(1,n,i)-Ypha(6,n,i) (14)

该值取决于实际PDF及交越频率,且该值与原始信号的值不匹配。

对于长号,除交越频率之外,备份信号的PDF值是正确的。因此,大部分谐波的时间位置在正确的地方,但在交越频率处的谐波实际上在随机位置。第7章中论述此情况的感知效果。

7相位误差的人类感知

声音可大致上分为两种:谐波及类噪声信号。类噪声信号已通过定义具有有噪相位性质。因此,假设由SBR引起的相位误差在具有相位误差的情况下并非是感知显著的。相反,其集中在谐波信号上。大多数乐器以及语音对信号产生谐波结构,即,音调含有在频率上由基本频率间隔的强正弦分量。

通常,假设人类听力表现为好像包括被称为听觉滤波器的重叠带通滤波器组。因此,可假设听力处理复杂声音,使得听觉滤波器内部的分音被分析为一个实体。这些滤波器的宽度可近似遵循等效矩形带宽(ERB)[11],其可根据以下公式确定:

ERB=24.7(4.37fc+1), (15)

其中fc为频带的中心频率(以kHz为单位)。如第4章中所论述,基带与SBR修补之间的交越频率大约为3kHz。在此频率处,ERB约为350Hz。QMF频带的带宽实际上相对地接近于此(为375Hz)。因此,可假设QMF频带的带宽在感兴趣的频率处遵循ERB。

在第6章中观察到可由于错误的相位谱而出错的声音的两个性质:分音分量的频率及时序。对于频率,问题在于人类听力可感知单独谐波的频率吗?若可以,则应校正由SBR引起的频率偏移,而若不可以,则不需要校正。

分解及未分解的谐波[12]的概念可用来阐明此主题。若在ERB内部仅存在一个谐波,则谐波称为分解的。通常,假设人类听力单独地处理分解的谐波,且因此对分解的谐波是频率敏感的。实际上,改变分解的谐波的频率被感知为导致不和谐性。

相应地,若ERB内部有多个谐波,则谐波称为未分解的。假设人类听力并不单独地处理这些谐波,相反,其联合效应通过听觉系统可见。结果为周期信号,且周期的长度由谐波的间隔确定。音高感知与周期的长度有关,因此假设人类听力对其敏感。然而,若以相同量对SBR中的频率修补内部的所有谐波移位,则谐波之间的间隔及因此所感知的音高保持相同。因此,在未分解的谐波的情况下,人类听力并不将频率偏移感知为不和谐性。

然后,考虑由SBR引起的时序有关误差。通过时序表示谐波分量的时间位置或相位。此不应与QMF频格的相位混淆。在[13]中详细研究了时序有关误差的感知。可观察到,对于大多数信号,人类听力对谐波分量的时序或相位不敏感。然而,存在某些信号,在此类信号的情况下,人类听力对分音的时序极其敏感。此类信号包括例如长号及小号声音及语音。在此类信号的情况下,与所有谐波在同一时刻发生某一相位角。在[13]中模拟不同听觉频带的神经放电速率。发现,在此类相位敏感信号的情况下,产成的神经放电速率在所有听觉频带处具有峰值,且峰值在时间上对齐。改变甚至单个谐波的相位可以改变在此类信号情况下的神经放电速率的峰度。根据正式的听音测试的结果,人类听力对于此是敏感的[13]。产成的效果为在相位被修改的频率处对添加的正弦分量或窄带噪声的感知。

另外,发现,对时序有关效果的敏感度取决于谐音的基本频率[13]。基本频率越低,感知效果越大。如果基本频率超过约800Hz,则听觉系统对于时序有关效果完全不敏感。

因此,若基本频率为低,且若谐波的相位在频率上对齐(此意味着谐波的时间位置是对齐的),则谐波的时序(或换言之,相位)上的变化可由人类听力感知。若基本频率为高和/或谐波的相位在频率上未对齐,则人类听力对谐波的时序上的变化不敏感。

8校正方法

在第7章中,注意到,人类对分解的谐波的频率中的误差敏感。另外,若基本频率为低,且若谐波在频率上对齐,则人类对谐波的时间位置中的误差敏感。SBR可引起此两种误差,如第6章中所论述,因此可通过校正此类误差提升感知品质。在本章中提出用于进行此的方法。

图14示意性地例示校正方法的基本思想。图14a在单位圆中示意性地示出例如后续时间帧或频率子带的四个相位45a-d。相位45a-d以90°等分地间隔。图14b示出SBR处理之后的相位并以虚线示出校正的相位。处理之前的相位45a可移至相位角45a’。同样适用于相位45b至45d。此表明,在SBR处理之后可破坏处理之后的相位之间的差异(即相位导数)。例如,相位45a’与相位45b’之间的差异在SBR处理之后为110°,在处理之前为90°。校正方法将相位值45b’改变至新相位值45b”以恢复90°的旧相位导数。同样的校正被应用于相位45d’及45d”。

8.1校正频率误差——水平相位导数校正

如第7章中所论述,人类大多在一个ERB内部仅存在一个谐波的时候可感知谐波的频率中的误差。此外,QMF频带的带宽可用于估计在第一交越处的ERB。因此,仅当一个频带内部存在一个谐波时需要校正频率。此是非常便利的,因为第5章表明,若存在每频带一个谐波,则产成的PDT值为稳定的,或随时间缓慢改变,且可使用低比特率被潜在地校正。

图15示出用于处理音频信号55的音频处理器50。音频处理器50包括音频信号相位测量计算器60、目标相位测量确定器65以及相位校正器70。音频信号相位测量计算器60用于计算用于时间帧75的音频信号55的相位测量80。目标相位测量确定器65用于确定用于所述时间帧75的目标相位测量85。此外,相位校正器用于使用计算的相位测量80及目标相位测量85校正用于时间帧75的音频信号55的相位45,以获取处理的音频信号90。可选地,音频信号55包括用于时间帧75的多个子带信号95。关于图16描述音频处理器50的另外的实施例。根据实施例,目标相位测量确定器65用于确定第一目标相位测量85a及用于第二子带信号95b的第二目标相位测量85b。因此,音频信号相位测量计算器60用于确定用于第一子带信号95a的第一相位测量80a及用于第二子带信号95b的第二相位测量80b。相位校正器用于使用音频信号55的第一相位测量80a及第一目标相位测量85a校正第一子带信号95a的相位45a,并用于使用音频信号55的第二相位测量80b及第二目标相位测量85b校正第二子带信号95b的第二相位45b。此外,音频处理器50包括音频信号合成器100,其用于使用处理的第一子带信号95a及处理的第二子带信号95b合成处理的音频信号90。根据另外的实施例,相位测量80为相位对时间的导数。因此,音频信号相位测量计算器60可针对多个子带中的每个子带95计算当前时间帧75b的相位值45和未来时间帧75c的相位值的相位导数。因此,相位校正器70可针对当前时间帧75b的多个子带中的每个子带95计算目标相位导数85与相位对时间的导数80之间的偏差,其中使用偏差执行由相位校正器70执行的校正。

实施例示出相位校正器70,其用于校正时间帧75内的音频信号55的不同子带的子带信号95,使得校正的子带信号95的频率具有和谐分配至音频信号55的基本频率的频率值。基本频率是存在于音频信号55中的最低频率(或换言之是音频信号55的第一谐波)。

此外,相位校正器70用于在先前时间帧75a、当前时间帧75b及未来时间帧75c上将用于多个子带中的每个子带95的偏差105平滑化,并用于减少子带95内的偏差105的急剧变化。根据其他实施例,平滑化为加权平均值,其中相位校正器70用于计算在先前时间帧75a、当前时间帧75b及未来时间帧75c上的加权平均值,此加权平均值通过先前时间帧75a、当前时间帧75b及未来时间帧75c中的音频信号55的幅度加权。

实施例示出先前描述的处理步骤基于向量。因此,相位校正器70用于形成偏差105的向量,其中向量的第一元素代表用于多个子带中的第一子带95a的第一偏差105a,且向量的第二元素代表用于来自先前时间帧75a至当前时间帧75b的多个子带中的第二子带95b的第二偏差105b。此外,相位校正器70可将偏差105的向量施加于音频信号55的相位45,其中将向量的第一元素施加于音频信号55的多个子带中的第一子带95a中的音频信号55的相位45a,并将向量的第二元素施加于音频信号55的多个子带中的第二子带95b中的音频信号55的相位45b。

从另一观点可以表明,音频处理器50中的全部处理是基于向量的,其中每个向量表示时间帧75,其中多个子带中的每个子带95包括向量的元素。另一实施例关注目标相位测量确定器,其用于获取用于当前时间帧75b的基本频率估计85b,其中目标相位测量确定器65用于使用用于时间帧75的基本频率估计85计算用于时间帧75的多个子带中的每个子带的频率估计85。此外,目标相位测量确定器65可使用音频信号55的子带95的总数及抽样频率将用于多个子带中的每个子带95的频率估计85转换为相位对时间的导数。为了阐明,需要注意的是,目标相位测量确定器65的输出85可以是频率估计或相位对时间的导数,此取决于实施例。因此,在一个实施例中,频率估计已包括正确的格式用于在相位校正器70中的进一步处理,其中在另一实施例中,频率估计需要转换为适合格式(其可以是相位对时间的导数)。

相应地,目标相位测量确定器65也可被视为基于向量。因此,目标相位测量确定器65可形成用于多个子带中的每个子带95的频率估计85的向量,其中向量的第一元素代表用于第一子带95a的频率估计85a,以及向量的第二元素代表用于第二子带95b的频率估计85b。此外,目标相位测量确定器65可使用基本频率的倍数计算频率估计85,其中当前子带95的频率估计85为最接近于子带95的中心的基本频率的倍数,或其中若在当前子带95内没有基本频率的倍数,则当前子带的频率估计85为当前子带95的边界频率。

换言之,用于利用音频处理器50校正谐波的频率中的误差的所提出算法如下地作用。首先,计算PDT以及SBR处理的信号Zpdt。Zpdt(k,n)=Zpha(k,n+1)-Zpha(k,n)。然后,计算其与用于水平校正的目标PDT之间的差值:

此时,可假设目标PDT与输入信号的输入的PDT相等:

之后,将呈现如何以低比特率获取目标PDT。

使用汉宁窗(Hann window)W(l)在时间上将此值(即误差值105)平滑化。例如,适合的长度为QMF域中的41个样本(对应于55ms的间隔)。通过对应时间-频率频块的幅度对平滑化进行加权:

其中circmean{a,b}表示计算用于以值b加权的角度值a的三角平均值(circular mean)。针对使用直接备份SBR的QMF域中的小提琴信号,在图17中绘示PDT中的平滑化误差颜色渐变指示从红色=π至蓝色=-π的相位值。

然后,创建调制器矩阵以用于修改相位谱从而获取期望PDT:

使用此矩阵处理相位谱

图18a示出用于校正的SBR的QMF域中的小提琴信号的相位对时间的导数(PDT)中的误差图18b示出对应的相位对时间的导数其中通过将图12a中呈现的结果与图18b中呈现的结果进行比较,得出图18a中所示的PDT中的误差。再次,颜色渐变指示从红色=π至蓝色=-π的相位值。针对校正的相位谱计算PDT(见图18b)。可看出,校正的相位谱的PDT很好地提醒原始信号的PDT(见图12),且针对含有显著能量的时间-频率频块的误差较小(见图18a)。可注意到,未校正的SBR数据的不和谐性在很大程度上消失。此外,该算法似乎不引起显著人为现象。

使用Xpdt(k,n)作为目标PDT,可能传输用于每个时间-频率频块的PDT误差值在第9章中示出计算目标PDT从而降低用于传输的带宽的另一方法。

在另一实施例中,音频处理器50可以是解码器110的部分。因此,用于解码音频信号55的解码器110可包括音频处理器50、核心解码器115及修补器(patcher)120。核心解码器115用于对具有关于音频信号55的减少数量的子带的时间帧75中的音频信号25进行核心解码。修补器使用具有减少数量的子带的核心解码的音频信号25的子带95的集合修补与减少数量的子带相邻的时间帧75中的其他子带,其中子带的集合形成第一修补30a,以获取具有正常数量的子带的音频信号55。此外,音频处理器50用于根据目标函数85校正第一修补30a的子带内的相位45。已关于图15及图16描述音频处理器50及音频信号55,其中解释了图19中未绘示的附图标记。根据实施例的音频处理器执行相位校正。根据实施例,音频处理器可进一步包括通过带宽扩展参数应用器(applicator)125将BWE或SBR参数应用于修补而实现的音频信号的幅度校正。此外,音频处理器可包括用于组合(即合成)音频信号的子带以获取正常音频文件的合成器100(例如,合成滤波器组)。

根据另一实施例,修补器120用于使用音频信号25的子带95的集合修补相邻于第一修补的时间帧的其他子带,其中子带的集合形成第二修补,且其中音频处理器50用于校正第二修补的子带内的相位45。可选地,修补器120用于使用校正的第一修补来修补相邻于第一修补的时间帧的其他子带。

换言之,在第一选项中,修补器从音频信号的传输部分建立具有正常数量的子带的音频信号,并随后校正音频信号的每个修补的相位。第二选项首先校正关于音频信号的传输部分的第一修补的相位,并随后使用已校正后第一修补建立具有正常数量的子带的音频信号。

另一实施例示出解码器110,其包括用于从数据流135中提取音频信号55的当前时间帧75的基本频率114的数据流提取器130,其中数据流进一步包括具有减少数量的子带的编码的音频信号145。可选地,解码器可包括基本频率分析器150,其用于分析核心解码的音频信号25,从而计算基本频率140。换言之,用于得出基本频率140的选项是例如在解码器中或在编码器中分析音频信号,其中在后一种情况下,基本频率可以更加精确但以较高数据速率为代价,因为值需要从编码器传输至解码器。

图20示出用于编码音频信号55的编码器155。编码器包括核心编码器160,其用于对音频信号55进行核心编码以获取具有关于音频信号的减少数量的子带的核心编码的音频信号145,且编码器包括基本频率分析器175,其用于分析音频信号55或音频信号55的低通滤波版本以用于获取音频信号的基本频率估计。此外,编码器包括参数提取器165,其用于提取未包括在核心编码的音频信号145中的音频信号55的子带的参数,且编码器包括输出信号形成器170,其用于形成输出信号135,该输出信号包括核心编码的音频信号145、参数及基本频率估计。在此实施例中,编码器155可包括在核心解码器160前面的低通滤波器以及在参数提取器165前面的高通滤波器185。根据另一实施例,输出信号形成器170用于将输出信号135形成为帧序列,其中每帧包括核心编码的信号145、参数190,且其中仅每第n帧包括基本频率估计140,其中n≥2。在实施例中,核心编码器160可为例如AAC(高级音频编码)编码器。

在可选实施例中,智能间隙填充编码器可用于编码音频信号55。因此,核心编码器编码全带宽音频信号,其中音频信号的至少一个子带被省去。因此,参数提取器165提取用于重构从核心编码器160的编码过程中省去的子带的参数。

图21示出输出信号135的示意图。输出信号为音频信号,其包括具有关于原始音频信号55的减少数量的子带的核心编码的音频信号145、表示未包括在核心编码的音频信号145中的音频信号的子带的参数190,以及音频信号135或原始音频信号55的基本频率估计140。

图22示出音频信号135的实施例,其中将音频信号形成为帧序列195,其中每帧195包括核心编码的音频信号145、参数190,且其中仅每第n帧195包括基本频率估计140,其中n≥2。此可描述用于例如每第二十帧的等间隔的基本频率估计传输,或其中不规则地(例如,按需要或有目的地)传输基本频率估计。

图23示出用于处理音频信号的方法2300,具有步骤2305“利用音频信号相位导数计算器计算用于时间帧的音频信号的相位测量”、步骤2310“利用目标相位导数确定器确定用于所述时间帧的目标相位测量”以及步骤2315“使用计算的相位测量及目标相位测量利用相位校正器校正用于时间帧的音频信号的相位,从而获取处理的音频信号”。

图24示出用于解码音频信号的方法2400,具有步骤2405“解码具有关于音频信号的减少数量的子带的时间帧中的音频信号”、步骤2410“使用具有减少数量的子带的解码的音频信号的子带的集合修补与减少数量的子带相邻的时间帧中的其他子带,其中子带的集合形成第一修补,以获取具有正常数量的子带的音频信号”以及步骤2415“利用音频处理根据目标函数校正第一修补的子带内的相位”。

图25示出用于编码音频信号的方法2500,具有步骤2505“利用核心编码器对音频信号进行核心编码,以获取具有关于音频信号的减少数量的子带的核心编码的音频信号”、步骤2510“利用基本频率分析器分析音频信号或音频信号的低通滤波版本,以用于获取用于音频信号的基本频率估计”、步骤2515“利用参数提取器提取未包括在核心编码的音频信号中的音频信号的子带的参数”以及步骤2520“利用输出信号形成器形成包括核心编码的音频信号、参数及基本频率估计的输出信号”。

当计算机程序在电脑上运行时,可以在计算机程序的程序代码中实施描述的方法2300、2400及2500用于执行方法。

8.2校正时间误差——垂直相位导数校正

如先前所论述,若谐波在频率上同步且基本频率较低,人类可感知谐波的时间位置中的误差。在第5章中示出,若相位对频率的导数在QMF域中是恒定的,则谐波同步。因此,在每个频带中具有至少一个谐波是有利的。否则,“空”频带可具有随机相位且将干扰此测量。幸运地,人类仅在基本频率较低时对谐波的时间位置敏感(见第7章)。因此,由于谐波的时间移动,可将相位对频率的导数用作用于确定感知上的显著效果的测量。

图26示出用于处理音频信号55的音频处理器50’的示意性框图,其中音频处理器50’包括目标相位测量确定器65’、相位误差计算器200及相位校正器70’。目标相位测量确定器65’确定用于时间帧75中的音频信号55的目标相位测量85’。相位误差计算器200使用时间帧75中的音频信号55的相位及目标相位测量85’计算相位误差105’。相位校正器70’使用相位误差105’校正时间帧中的音频信号55的相位,从而形成处理的音频信号90’。

图27示出根据另一实施例的音频处理器50’的示意性框图。因此,音频信号55包括用于时间帧75的多个子带95。相应地,目标相位测量确定器65’用于确定用于第一子带信号95a的第一目标相位测量85a’以及用于第二子带信号95b的第二目标相位测量85b’。相位误差计算器200形成相位误差105’的向量,其中向量的第一元素代表第一子带信号95的相位与第一目标相位测量85a’的第一偏差105a’,且其中向量的第二元素代表第二子带信号95b的相位与第二目标相位测量85b’的第二偏差105b’。此外,音频处理器50’包括用于使用校正的第一子带信号90a’及校正的第二子带信号90b’合成校正的音频信号90’的音频信号合成器100。

对于其他实施例,将多个子带95分组为基带30及频率修补的集合40,基带30包括音频信号55的一个子带95,且频率修补的集合40包括在比基带中的至少一个子带的频率高的频率处的基带30的至少一个子带95。应当注意的是,音频信号的修补已关于图3进行了描述,且因此不在此描述部分中进行详细描述。应当提及的是,频率修补40可以是与增益因子相乘并复制至较高频率的未经处理的基带信号,其中可应用相位校正。此外,根据优选实施例,可将增益的相乘与相位校正交换,从而在乘以增益因子之前将未经处理的基带信号的相位复制至较高频率。实施例进一步示出相位误差计算器200,其计算代表频率修补的集合40中的第一修补40a的相位误差105’的向量的元素的平均值以获取平均相位误差105”。此外,示出音频信号相位导数计算器210,其用于计算用于基带30的相位对频率的导数215的平均值。

图28a在框图中示出相位校正器70’的更详细的描述。在图28a的顶部的相位校正器70’用于校正频率修补的集合中的第一及后续频率修补40中的子带信号95的相位。在图28a的实施例中,示出属于修补40a的子带95c及95d,以及属于频率修补40b的子带95e及95f。使用加权的平均相位误差对相位进行校正,其中根据频率修补40的索引对平均相位误差105进行加权以获取修改的修补信号40’。

图28a的底部绘示另一实施例。在相位校正器70’的左上角示出用于从修补40及平均相位误差105”获取修改的修补信号40’的已描述的实施例。此外,相位校正器70’通过将由当前子带索引加权的相位对频率的导数215的平均值与音频信号55的基带30中具有最高子带索引的子带信号的相位相加,在初始化步骤中计算具有优化的第一频率修补的另一修改的修补信号40”。对于此初始化步骤,开关220a位于其左侧位置。对于任何进一步的处理步骤,开关位于形成垂直直接连接的其他位置。

在另一实施例中,音频信号相位导数计算器210用于计算包括比基带信号30更高的频率的多个子带信号的相位对频率的导数215的平均值,以检测子带信号95中的瞬态。应当注意的是,瞬态校正类似于音频处理器50’的垂直相位校正,其差异在于基带30中的频率不反映瞬态的较高频率。因此,对于瞬态的相位校正需要考虑这些频率。

在初始化步骤之后,相位校正70’用于通过将由当前子带95的子带索引加权的相位对频率的导数215的平均值与先前频率修补中具有最高子带索引的子带信号的相位相加,基于频率修补40递归地更新另一修改的修补信号40”。优选实施例为先前所描述的实施例的组合,其中相位校正器70’计算修改的修补信号40’和另一修改的修补信号40”的加权平均值以获取组合修改的修补信号40”’。因此,相位校正器70’通过将由当前子带95的子带索引加权的相位对频率的导数215的平均值与组合修改的修补信号40”’的先前频率修补中具有最高子带索引的子带信号的相位相加,基于频率修补40递归地更新组合修改的修补信号40”’。为了获取组合修改的修补40a”’、40b”’等,在每次递归之后将开关220b移至下一位置,从用于初始化步骤的组合修改的48”’开始,在第一次递归之后切换至组合修改的修补40b”’,等等。

此外,相位校正器70’可使用以第一特定加权函数加权的当前频率修补中的修补信号40’及以第二特定加权函数加权的当前频率修补中的修改的修补信号40”的三角平均值,计算修补信号40’及修改的修补信号40”的加权平均值。

为了提供音频处理器50与音频处理器50’之间的互用性,相位校正器70’可形成相位偏差的向量,其中使用组合修改的修补信号40”’及音频信号55计算相位偏差。

图28b从另一观点示出相位校正的步骤。对于第一时间帧75a,通过在音频信号55的修补上应用第一相位校正模式得到修补信号40’。在第二校正模式的初始化步骤中使用修补信号40’以获取修改的修补信号40”。修补信号40’及修改的修补信号40”的组合导致组合修改的修补信号40”’。

因此将第二校正模式应用于组合修改的修补信号40”’以获取用于第二时间帧75b的修改的修补信号40”。另外,将第一校正模式应用于第二时间帧75b中的音频信号55的修补以获取修补信号40’。再次,修补信号40’及修改的修补信号40”的组合导致组合修改的修补信号40”’。相应地,将针对第二时间帧描述的处理方案应用于音频信号55的第三时间帧75c及任何另一时间帧。

图29示出目标相位测量确定器65’的详细框图。根据实施例,目标相位测量确定器65’包括数据流提取器130’,其用于从数据流135中提取音频信号55的当前时间帧中的峰位230及峰位的基本频率235。可选地,目标相位测量确定器65’包括音频信号分析器225,其用于分析当前时间帧中的音频信号55从而计算当前时间帧中的峰位230及峰位的基本频率235。另外,目标相位测量确定器包括目标谱生成器240,其用于使用峰位230及峰位的基本频率235估计当前时间帧中的其他峰位。

图30示出图29中所描述的目标谱生成器240的详细框图。目标谱生成器240包括用于生成随时间的脉冲序列265的峰值生成器245。信号形成器250根据峰位的基本频率235调整脉冲序列的频率。此外,脉冲定位器255根据峰位230调整脉冲序列265的相位。换言之,信号形成器250改变脉冲序列265的随机频率的形式,使得脉冲序列的频率等于音频信号55的峰位的基本频率。此外,脉冲定位器255移位脉冲序列的相位,使得脉冲序列的峰值中的一个等于峰位230。之后,谱分析器260生成调整的脉冲序列的相位谱,其中时域信号的相位谱为目标相位测量85’。

图31示出用于解码音频信号55的解码器110’的示意性框图。解码器110包括用于对基带的时间帧中的音频信号25进行核心解码的核心解码115,及用于使用解码的基带的子带95的集合修补相邻于基带的时间帧中的其他子带的修补器120,其中子带的集合形成修补,以获取包括比基带中的频率更高的频率的音频信号32。此外,解码器110’包括音频处理器50’,其用于根据目标相位测量校正修补的子带的相位。

根据另一实施例,修补器120用于使用音频信号25的子带95的集合修补相邻于修补的时间帧的其他子带,其中子带的集合形成另一修补,且其中音频处理器50’用于校正另一修补的子带内的相位。可选地,修补器120用于使用校正的修补来修补相邻于修补的时间帧的其他子带。

另一实施例涉及用于解码包括瞬态的音频信号的解码器,其中音频处理器50’用于校正瞬态的相位。换言之,在第8.4章中描述瞬态处理。因此,解码器110包括另一音频处理器50’,其用于接收频率的另一相位导数并使用接收的频率或相位导数校正音频信号32中的瞬态。此外,应当注意的是,图31的解码器110’与图19的解码器110类似,使得在不涉及音频处理器50及50’中的差异的情况下可互换关于主要元件的描述。

图32示出用于编码音频信号55的编码器155’。编码器155’包括核心编码器160、基本频率分析器175’、参数提取器165及输出信号形成器170。核心编码器160用于对音频信号55进行核心编码,以获取具有关于音频信号55的减少数量的子带的核心编码的音频信号145。基本频率分析器175’分析音频信号55中的峰位230或音频信号的低通滤波版本,以用于获取音频信号中的峰位的基本频率估计235。此外,参数提取器165提取未包括在核心编码的音频信号145中的音频信号55的子带的参数190,且输出信号形成器170形成输出信号135,输出信号包括核心编码的音频信号145、参数190、峰位的基本频率235及,峰位230中的一个。根据实施例,输出信号形成器170用于将输出信号135形成为帧序列,其中每帧包括核心编码的音频信号145、参数190,且其中仅每第n帧包括峰位的基本频率估计235及峰位230,其中n≥2。

图33示出音频信号135的实施例,该音频信号包括具有关于原始音频信号55的减少数量的子带的核心编码的音频信号145、表示未包括在核心编码的音频信号中的音频信号的子带的参数190、音频信号55的峰位的基本频率估计235及峰位估计230。可选地,音频信号135形成为帧序列,其中每帧包括核心编码的音频信号145、参数190,且其中仅每第n帧包括峰位的基本频率估计235及峰位230,其中n≥2。已关于图22描述了此想法。

图34示出用于利用音频处理器处理音频信号的方法3400。方法3400包括步骤3405“利用目标相位测量,确定用于时间帧中的音频信号的目标相位测量”、步骤3410“使用时间帧中的音频信号的相位及目标相位测量利用相位误差计算器计算相位误差”及步骤3415“使用相位误差利用相位校正,校正时间帧中的音频信号的相位”。

图35示出用于利用解码器解码音频信号的方法3500。方法3500包括步骤3505“利用核心解码器对基带的时间帧中的音频信号进行解码”、步骤3510“利用修补器使用解码的基带的子带的集合修补与基带相邻的时间帧中的其他子带,其中子带的集合形成修补,以获取包括比基带中的频率更高的频率的音频信号”及步骤3515“根据目标相位测量利用音频处理器校正第一修补的子带内的相位”。

图36示出用于利用编码器编码音频信号的方法3600。方法3600包括步骤3605“利用核心编码器对音频信号进行核心编码,从而获取具有关于音频信号的减少数量的子带的核心编码的音频信号”、步骤3610“利用基本频率分析器分析音频信号或音频信号的低通滤波版本,从而用于获取音频信号中的峰位的基本频率估计”、步骤3615“利用参数提取器提取未包括在核心编码的音频信号中的音频信号的子带的参数”及步骤3620“利用输出信号形成器形成包括核心编码的音频信号、参数、峰位的基本频率及峰位的输出信号”。

换言之,用于校正谐波的时间位置中的误差的所提出算法如下地作用。首先,计算目标信号与SBR处理的信号的相位谱(和Zpha)之间的差异:

此在图37中绘示。图37示出使用直接备份SBR的QMF域中的长号信号的相位谱中的误差Dpha(k,n)。此时,可假设目标相位谱等于输入信号的相位谱:

之后,将呈现如何以低比特率获取目标相位谱。

使用两种方法执行垂直相位导数校正,并获取作为此两种方法的混合的最终校正的相位谱。

首先,可看出误差在频率修补内部是相对恒定的,且误差在进入新频率修补时跳转为新值。这是有道理的,因为相位在原始信号中的所有频率处以随频率的恒定值变化。在交越处形成误差,且误差在修补内部保持恒定。因此,单个值足以校正用于全部频率修补的相位误差。此外,可使用与频率修补的索引数相乘之后的此误差值校正较高频率修补的相位误差。

因此,针对第一频率修补计算相位误差的三角平均值:

可使用三角平均值校正相位谱:

若目标PDF(例如相位对频率的导数Xpdf(k,n))在所有频率处完全恒定,此未经处理的校正产生精确结果。然而,如在图12中可看出,通常在值中存在随频率的轻微波动。因此,可通过在交越处使用增强处理而获取较佳结果,从而避免所产生的PDF中的任何不连续性。换言之,此校正平均地产生用于PDF的校正值,但在频率修补的交越频率处可存在轻微不连续性。为避免不连续性,应用校正方法。获取作为两个校正方法的混合的最终校正的相位谱

另一校正方法从计算基带中的PDF的平均值开始:

可通过假设相位以此平均值变化,使用此测量校正相位谱,即,

其中为两个校正方法的组合的修补信号。

此校正在交越处提供良好品质,但可引起PDF中朝向较高频率的漂移。为避免此情况,通过计算两个校正方法的加权的三角平均值,组合两个校正方法:

其中C表示校正方法或以及Wfc(k,c)为加权函数:

Wfc(k,1)=[0.2,0.45,0.7,1,1,1]

Wfc(k,2)=[0.8,0.55,0.3,0,0,0] (26a)

结果相位谱既不因连续性也不因漂移而受损。在图38中绘示校正的相位谱与原始谱相比的误差及PDF。图38a示出使用相位校正的SBR信号的QMF域中的长号信号的相位谱中的误差,其中图38b示出对应的相位对频率的导数可看出,误差明显小于未校正的情况,且PDF不因主不连续性而受损。在某些时间帧处存在显著误差,但这些帧具有低能量(见图4),因此它们具有不显著的感知效果。具有显著能量的时间帧可得到相对好的校正。可注意到的是,未校正的SBR的人为现象可被显著地减轻。

可通过连接校正的频率修补获取校正的相位谱为了与水平校正模式兼容,也可使用调制器矩阵(见公式18)呈现垂直相位校正:

8.3不同相位校正方法之间的切换

第8.1章及第8.2章示出可通过将PDT校正应用于小提琴并将PDF校正应用于长号来校正SBR引起的相位误差。然而,并未考虑如何知道应将校正中的哪一个应用于未知信号,或是否应当应用其中的任何校正。本章提出用于自动选择校正方向的方法。基于输入信号的相位导数的变化决策校正方向(水平/垂直)。

因此,在图39中,示出用于确定用于音频信号55的相位校正数据的计算器。变化确定器275在第一变化模式及第二变化模式中确定音频信号55的相位45的变化。变化比较器280比较使用第一变化模式确定的第一变化290a和使用第二变化模式确定的第二变化290b,且校正数据计算器基于比较器的结果根据第一变化模式或第二变化模式计算相位校正数据295。

此外,变化确定器275可用于在第一变化模式中确定作为相位的变化290a的用于音频信号55的多个时间帧的相位对时间的导数(PDT)的标准差测量,且用于在第二变化模式中确定作为相位的变化290b的用于音频信号55的多个子带的相位对频率的导数(PDF)的标准差测量。因此,变化比较器280针对音频信号的时间帧比较作为第一变化290a的相位对时间的导数的测量及作为第二变化290b的相位对频率的导数的测量。

实施例示出变化确定器275,其用于确定作为标准差测量的音频信号55的当前帧及多个先前帧的相位对时间的导数的圆形标准差,且用于确定作为标准差测量的用于当前时间帧的音频信号55的当前帧及多个未来帧的相位对时间的导数的圆形标准差。此外,变化确定器275在确定第一变化290a时计算两个圆形标准差的最小值。在另一实施例中,变化确定器275在第一变化模式中计算作为用于时间帧75中的多个子带95的标准差测量的组合的变化290a,以形成频率的平均标准差测量。变化比较器280用于通过使用当前时间帧75中的子带信号95的幅值计算作为能量测量的多个子带的标准差测量的能量加权平均值执行标准差测量的组合。

在优选实施例中,变化确定器275在确定第一变化290a时,在当前时间帧、多个先前时间帧及多个未来时间帧上将平均标准差测量平滑化。根据使用对应时间帧及开窗函数计算的能量对平滑化加权。此外,变化确定器275用于在确定第二变化290b时,在当前时间帧、多个先前时间帧及多个未来时间帧75上将标准差测量平滑化,其中根据使用对应时间帧75及开窗函数计算的能量对平滑化加权。因此,变化比较器280比较作为使用第一变化模式确定的第一变化290a的平滑化平均标准差测量,和作为使用第二变化模式确定的第二变化290b的平滑化标准差测量。

在图40中绘示优选实施例。根据此实施例,变化确定器275包括用于计算第一变化及第二变化的两种处理路径。第一处理路径包括PDT计算器300a,其用于从音频信号55或音频信号的相位计算相位对时间的导数305a的标准差测量。圆形标准差计算器310a从相位对时间的导数305a的标准差测量确定第一圆形标准差315a及第二圆形标准差315b。通过比较器320比较第一圆形标准差315a及第二圆形标准差315b。比较器320计算两个圆形标准差测量315a及315b的最小值325。组合器组合在频率上的最小值325以形成平均标准差测量335a。平滑器340a将平均标准差测量335a平滑化以形成平滑化平均标准差测量345a。

第二处理路径包括PDF计算器300b,其用于从音频信号55或音频信号的相位计算相位对频率的导数305b。圆形标准差计算器310b形成相位对频率的导数305的标准差测量335b。通过平滑器340b将标准差测量305平滑化以形成平滑化标准差测量345b。平滑化平均标准差测量345a及平滑化标准差测量345b分别为第一变化及第二变化。变化比较器280比较第一变化与第二变化,且校正数据计算器285基于第一变化与第二变化的比较计算相位校正数据295。

另一实施例示出处理三种不同相位校正模式的计算器270。图41中示出图形化框图。图41示出变化确定器275在第三变化模式中进一步确定音频信号55的相位的第三变化290c,其中第三变化模式为瞬态检测模式。变化比较器280比较使用第一变化模式确定的第一变化290a、使用第二变化模式确定的第二变化290b及使用第三变化确定的第三变化290c。因此,校正数据计算器285基于比较的结果根据第一校正模式、第二校正模式或第三校正模式计算相位校正数据295。为了在第三变化模式中计算第三变化290c,变化比较器280可用于计算当前时间帧的即时能量估计及多个时间帧75的时间平均的能量估计。因此,变化比较器280用于计算即时能量估计与时间平均的能量估计的比值,并用于比较该比值与定义的阈值以检测时间帧75中的瞬态。

变化比较器280需基于三个变化确定适合的校正模式。基于此决策,若检测到瞬态,校正数据计算器285根据第三变化模式计算相位校正数据295。此外,若未检测到瞬态且若在第一变化模式中确定的第一变化290a小于或等于在第二变化模式中确定的第二变化290b,则校正数据计算器85根据第一变化模式计算相位校正数据295。因此,若未检测到瞬态且若在第二变化模式中确定的第二变化290b小于在第一变化模式中确定的第一变化290a,则根据第二变化模式计算相位校正数据295。

校正数据计算器还用于针对当前时间帧、一个或多个先前时间帧及一个或多个未来时间帧计算用于第三变化290c的相位校正数据295。因此,校正数据计算器285用于针对当前时间帧、一个或多个先前时间帧及一个或多个未来时间帧计算用于第二变化模式290b的相位校正数据295。此外,校正数据计算器285用于计算用于水平相位校正及第一变化模式的校正数据295,计算用于第二变化模式中的垂直相位校正的校正数据295,并计算用于第三变化模式中的瞬态校正的校正数据295。

图42示出用于从音频信号确定相位校正数据的方法4200。方法4200包括步骤4205“在第一变化模式及第二变化模式中利用变化确定器确定音频信号的相位的变化”、步骤4210“利用变化比较器比较使用第一变化模式和第二变化模式确定的变化”及步骤4215“基于比较的结果根据第一变化模式或第二变化模式利用校正数据计算器计算相位校正”。

换言之,小提琴的PDT在时间上为平滑的,而长号的PDF在频率上为平滑的。因此,作为变化的测量的这些测量的标准差(STD)可用于选择适当的校正方法。相位对时间的导数的STD可计算为:

Xstdt1(k,n)=circstd{Xpdt(k,n+l)},-23≤l≤0

Xstdt2(k,n)=circstd{Xpdt(k,n+l},0≤l≤23

Xstdt(k,n)=min{Xstdt1(k,n),Xstdt2(k,n)} (27)

且相位对频率的导数的STD可计算为:

Xstdf(n)=circstd(Xpdf(k,n)},2≤k≤13 (28)

其中circstd{}表示计算圆形STD(可潜在地以能量对角度值加权,从而避免由于有噪低能量频格造成的高STD,或STD计算可限制于具有充足能量的频格)。图43a、图43b及图43c、图43d分别示出用于小提琴及长号的STD。图43a及图43c示出QMF域中的相位对时间的导数的标准差Xstdt(k,n),其中图43b及图43d示出无相位校正的情况下的对应的频率上标准差Xstdf(n)。颜色渐变指示从红色=1至蓝色=0的值。可看出,PDT的STD对于小提琴较低,而PDF的STD对于长号较低(尤其对于具有高能量的时间-频率频块)。

基于哪个STD较低,选择用于每个时间帧所使用的校正方法。对此,需在频率上组合Xstdt(k,n)值。通过计算用于预定频率范围的能量加权平均值执行合并:

在时间上将偏差估计平滑化以获得平滑的切换,并因此避免潜在人为现象。使用汉宁窗执行平滑化,且以时间帧的能量对此平滑化进行加权:

其中W(l)为窗函数,且为Xmag(k,n)在频率上的和。对应公式用于平滑化Xstdf(n)。

通过比较与确定相位校正方法。默认方法为PDT(水平)校正,且若则对于区间[n-5,n+5]应用PDF(垂直)校正。若两个偏差均较大(例如,大于预定阈值),则不应用校正方法,且可节省比特率。

8.4瞬态处理——用于瞬态的相位导数校正

图44中呈现具有在中间增添拍掌的小提琴信号。图44a中示出QMF域中的小提琴+鼓掌信号的幅度Xmag(k,n),且图44b中示出对应相位谱Xpha(k,n)。关于图44a,颜色渐变指示从红色=0dB至蓝色=-80dB的幅值。因此,对于图44b,相位渐变指示从红色=π至蓝色=-π的相位值。图45中呈现相位对时间的导数及相位对频率的导数。图45a中示出QMF域中的小提琴+鼓掌信号的相位对时间的导数Xpdt(k,n),且图45b中示出对应相位对频率的导数Xpdf(k,n)。颜色渐变指示从红色=π至蓝色=-π的相位值。可看出,PDT对于鼓掌为有噪的,但PDF稍微平滑,至少在高频率处是平滑的。因此,对于鼓掌应应用PDF校正以便维持鼓掌的锐度。然而,由于小提琴声音在低频率处干扰导数,第8.2章中所提出的校正方法在此信号的情况下可能不正常工作。因此,基带的相位谱不反映高频率,且因此使用单个值的频率修补的相位校正可能不工作。此外,低频率处的噪声PDF值可导致基于PDF值的变化检测瞬态(见第8.3章)难以实现。

该问题的解决方案是明确的。首先,使用简单基于能量的方法检测瞬态。将中/高频率的即时能量与平滑化能量估计相比较。中/高频率的即时能量计算为

使用一阶IIR滤波器执行平滑化:

若则已检测到瞬态。可微调阈值θ以检测期望数量的瞬态。例如,可使用θ=2。检测到的帧并不直接选择为瞬态帧。相反,从检测到的帧周围搜索局部能量最大值。在当前实施中,选择的区间为[n-2,n+7]。将此区间内具有最大能量的时间帧选择为瞬态。

理论上,垂直校正模式也适用于瞬态。然而,在瞬态的情况下,基带的相位谱通常不反映高频率。此可在处理的信号中导致前回声和后回声。因此,对于瞬态提出稍加修改的处理。

计算在高频率处的瞬态的平均PDF:

使用如在公式24中的此恒定相位变化合成用于瞬态帧的相位谱,但由替代。此同样的校正应用于区间[n-2,n+2]内的时间帧(由于QMF的性质,将π添加至帧n-1及n+1的PDF,见第6章)。此校正已将瞬态产生到适合位置,但瞬态的形状未必是期望的,并且由于QMF帧的大量时间重叠而呈现显著旁瓣(即,额外瞬态)。因此,需校正绝对相位角。通过计算合成相位谱与原始相位谱之间的平均误差校正绝对角。针对瞬态的每个时间帧分别执行校正。

图46中呈现瞬态校正的结果。示出使用相位校正的SBR的QMF域中的小提琴+鼓掌信号的相位对时间的导数Xpdf(k,n)。图47b示出对应的相位对频率的导数Xpdf(k,n)。再次,颜色渐变指示从红色=π至蓝色=-π的相位值。虽然与直接备份相比的差异不大,但可感知相位校正的鼓掌具有与原始信号相同的锐度。因此,当仅使能直接备份时未必在所有情况下需要瞬态校正。相反,若使能PDT校正,瞬态处理是重要的,因为否则PDT校正将严重地模糊瞬态。

9校正数据的压缩

第8章示出可校正相位误差,但完全不考虑用于校正的适当比特率。本章提出如何以低比特率表示校正数据的方法。

9.1PDT校正数据的压缩——产生用于水平校正的目标谱

存在可被传输以使能PDT校正的多个可能参数。然而,由于在时间上被平滑化,其为用于低比特率传输的潜在候选者。

首先,论述用于参数的适当更新速率。仅针对每N个帧更新值并将其线性内插于中间。用于良好品质的更新间隔约为40ms。对于某些信号,稍小为有利的,且对于其他信号,稍多为有利的。正式听音测试对于评价优化的更新速率将是有用的。然而,相对长的更新间隔似乎是可接受的。

还研究了用于的适当角度准确度。6个比特(64个可能的角度值)对于感知上的良好品质是足够的。此外,测试仅传输值的变化。通常,值似乎仅轻微变化,因此可应用不均匀量化以对于小变化具有更高精确度。使用此方法,发现4个比特(16个可能的角度值)提供良好品质。

最后要考虑的是适当谱准确度。如在图17中可看出,许多频带似乎共享大致上相同值。因此,一个值可能用于表示多个频带。另外,在高频率处,在一个频带内存在多个谐波,因此可能需要较小准确度。然而,发现另一潜在优选方法,因此未彻底地研究此选项。在下文中论述提出的更有效的方法。

9.1.1使用频率估计以压缩PDT校正数据

如第5章中所论述,相位对时间的导数基本上表示所产生的正弦曲线的频率。可使用以下公式将所应用的64频带复杂QMF的PDT变换为频率

产成的频率在区间finter(k)=[fc(k)-fBW,fc(k)+fBW]内,其中fc(k)为频带k的中心频率,且fBW为375Hz。图47中以用于小提琴信号的QMF带的频率Xfreq(k,n)的时间-频率表示示出结果。可看出,频率似乎遵循音调的基本频率的倍数,且谐波因此在频率上通过基本频率间隔。另外,颤音似乎引起频率调制。

同样的图表可应用于直接备份Zfreq(k,n)及校正的SBR(分别参见图48a及图48b)。图48a示出与图47中所示的原始信号Xfreq(k,n)相比的直接备份SBR信号Zfreq(k,n)的QMF带的频率的时间-频率表示。图48b示出用于校正的SBR信号的对应图表。在图48a及图48b的图表中,以蓝色绘制原始信号,其中以红色绘制直接备份SBR及校正的SBR信号。图中可见直接备份SBR的不和谐性,尤其在样本的开始及最后。另外,可看出,频率调制深度明显小于原始信号的频率调制深度。相反,在校正的SBR的情况下,谐波的频率似乎遵循原始信号的频率。另外,调制深度似乎是正确的。因此,此图表似乎证实提出的校正方法的有效性。因此,随后关注校正数据的实际压缩。

由于Xfreq(k,n)的频率以相同量间隔,所以如果估计并传输频率之间的间隔,则可近似所有频带的频率。在谐波信号的情况下,间隔应等于音调的基本频率。因此,仅需要传输单个值用于表示所有频带。在更不规则信号的情况下,需要更多值以描述谐波行为。例如,谐波的间隔在钢琴音调的情况下稍微增大[14]。为简单起见,在下文中假设谐波以相同量间隔。但是,此不限制所描述的音频处理的一般性。

因此,估计音调的基本频率以估计谐波的频率。基本频率的估计是广泛研究的主题(例如,见[14])。因此,实施简单估计方法生成用于进一步处理步骤的数据。基本上,方法计算谐波的间隔,且根据一些试探法(多少能量、值在频率及时间上多稳定等等)组合结果。在任何情况下,结果为用于每个时间帧的基本频率估计换言之,相位对时间的导数涉及对应QMF频格的频率。另外,与PDT中的误差有关的人为现象在谐波信号的情况下大多是可感知的。因此,提出可使用基本频率f0的估计来估计目标PDT(见公式16a)。基本频率的估计为广泛研究的主题,且存在可用于获取基本频率的可靠估计的多个稳健方法。

在此,假设基本频率其在执行BWE以及在BWE内使用本发明的相位校正之前对解码器是已知的。因此,有利的是,编码阶段对估计的基本频率进行传输。另外,对于改进的编码效率,可仅针对例如每第二十时间帧(对应于-27ms的间隔)更新值,并将其内插于中间。

可选地,可在解码阶段估计基本频率,且不需要传输信息。然而,如果利用在编码阶段中的原始信号执行估计,则可预期较佳的估计。

解码器处理从获取用于每个时间帧的基本频率估计开始。

可通过将该基本频率估计与索引向量相乘,获取谐波的频率:

图49中绘示结果。图49示出与原始信号的QMF带的频率Xfreq(k,n)相比的谐波的估计频率Xharm(κ,n)的时间频率表示。再次,蓝色指示原始信号以及红色指示估计信号。估计谐波的频率极佳地匹配原始信号。这些频率可被视为“允许”频率。若算法产生这些频率,则不和谐性有关的人为现象应被避免。

算法的传输参数为基本频率为了改进的编码效率,仅针对每第二十时间帧(即,每27ms)更新值。此值似乎基于非正式听音提供良好感知品质。然而,正式听音测试对于评价用于更新速率的更优化的值是有用的。

算法的下一步骤为找到用于每个频带的适合值。通过选择最接近于每个频带的中心频率fc(k)的Xharm(κ,n)的值来反映该频带以执行此步骤。如果最接近的值在频带(finter(k))的可能值之外,则使用频带的边界值。结果矩阵包含用于每个时间-频率频块的频率。

校正数据压缩算法的最终步骤为将频率数据转换回PDT数据:

其中mod()指示模数运算子。实际校正算法如第8.1章中所呈现地工作。公式16a中的由替换以作为目标PDT,且如第8.1章中使用公式17-19。图50中示出使用压缩校正数据的校正算法的结果。图50示出使用压缩校正数据的校正的SBR的QMF域中的小提琴信号的PDT中的误差图50b示出对应的相位对时间的导数颜色渐变指示从红色=π至蓝色=-π的值。PDT值遵循原始信号的PDT值,其具有与无数据压缩的校正方法的相似准确度(见图18)。因此,压缩算法是有效的。使用和不使用校正数据的压缩,感知品质是相似的。

实施例对于低频率使用较高准确度且对于高频率使用较低准确度,对于每个值使用共计12个比特。结果比特率约为0.5kbps(无任何压缩,如熵编码)。此准确度产生如未量化的相同感知品质。然而,显著较低的比特率或许可能用在产生足够良好的感知品质的许多情况中。

用于低比特率方案的一种选项是使用传输信号在解码阶段中估计基本频率。在此情况下无需传输值。另一选项为使用传输信号估计基本频率,将其与使用宽带信号获取的估计相比较,且仅传输差异。可假设可使用极低比特率表示此差异。

9.2PDF校正数据的压缩

如第8.2章中所论述,用于PDF校正的适当数据为第一频率修补的平均相位误差结合对此值的认识对所有频率修补执行校正,因此对于每个时间帧需要仅一个值的传输。然而,对于每个时间帧传输甚至单个值也可导致极高的比特率。

检验针对长号的图12,可看出,PDF在频率上具有相对恒定的值,且对于一些时间帧存在相同值。只要同样的瞬态在QMF分析视窗的能量中占优势,值在时间上是恒定的。当新瞬态开始占优势时,存在新值。从一个瞬态至另一瞬态,这些PDF值之间的角度改变似乎是相同的。这是有道理的,因为PDF控制瞬态的时间位置,且若信号具有恒定基本频率,则瞬态之间的间隔应为恒定的。

因此,PDF(或瞬态的位置)可在时间上仅稀疏地传输,且可使用对基本频率的认识估计在这些时刻中间的PDF行为。可使用此信息执行PDF校正。此思想实际上与PDT校正是对偶的,其中假设谐波的频率为等间隔的。在此,使用相同思想,但相反地,假设瞬态的时间位置为等间隔的。下面提出一种方法,其基于检测波形中的峰值位置,并用此信息,针对相位校正创建参考谱。

9.2.1使用峰值检测用于压缩PDF校正数据——创建用于垂直校正的目标谱

需估计峰值位置以用于执行成功的PDF校正。一种解决方案为使用PDF值计算峰值位置(与公式34中类似),并使用估计的基本频率,估计在中间的峰值位置。然而,此方法可能需要相对稳定的基本频率估计。实施例示出简单的、快速实施的可选方法,其示出所提出的压缩方法是可能的。

图51中示出长号信号的时域表示。图51a在时域表示中示出长号信号的波形。图51b示出对应的仅含有估计峰值的时域信号,其中已使用传输的元数据获取峰值位置。图51b中的信号为例如关于图30所描述的脉冲序列265。算法以分析波形中的峰值位置为开始。通过搜索局部最大值执行此算法。对于每27ms(即,对于每20个QMF帧),传输最接近于帧的中心点的峰值位置。在传输的峰位中间,假设峰值在时间上被均匀地间隔。因此,通过已知基本频率,可估计峰值位置。在此实施例中,传输已检测的峰值的数量(应注意,此需要所有峰值的成功检测;基于基本频率的估计可能导致更稳健的结果)。结果比特率约为0.5kbps(无任何压缩,如熵编码),其包括使用9个比特传输用于每27ms的峰值位置并使用4个比特传输在中间的瞬态的数量。发现此准确度产生如未量化的相同感知品质。然而,显著较低的比特率可以用在产生足够良好的感知品质的许多情况中。

使用传输的元数据,创建时域信号,其由估计峰值的位置中的脉冲组成(见图51b)。针对此信号执行QMF分析,并计算相位谱另外如第8.2章中所提出地执行实际PDF校正,但公式20a中的由替代。

具有垂直相位相干性的信号的波形通常为有峰值的,且可令人联想到脉冲序列。因此,提出可通过将其模型化为脉冲序列的相位谱以估计用于垂直校正的目标相位谱,该脉冲序列在对应位置及对应基本频率处具有峰值。

针对例如每第二十时间帧(对应于-27ms的间隔)传输与时间帧的中心最接近的位置。以相等速率传输的估计基本频率用于将峰位内插于传输位置之间。

可选地,可在解码阶段中估计基本频率及峰位,且无需传输信息。然而,若在编码阶段中利用原始信号执行估计,则可预期较佳的估计。

解码器处理以获取用于每个时间帧的基本频率估计为开始,并估计波形中的峰位。峰位用于产生由在这些位置处的脉冲组成的时域信号。QMF分析用于产生对应相位谱可在公式20a中使用此估计相位谱作为目标相位谱:

所提出的方法使用编码阶段以仅以更新速率(例如,27ms)传输估计峰位及基本频率。另外,应注意的是,垂直相位导数中的误差仅当基本频率相对较低时才可感知。因此,可以以相对较低的比特率传输基本频率。

图52中示出具有压缩校正数据的校正算法的结果。图52a示出具有校正的SBR及压缩校正数据的QMF域中的长号信号的相位谱中的误差。相应地,图52b示出对应的相位对频率的导数颜色渐变指示从红色=π至蓝色=-π的值。PDF值遵循原始信号的PDF值,其具有与无数据压缩情况下的校正方法相似的准确度(见图13)。因此,压缩算法是有效的。使用以及不使用校正数据的压缩,感知品质是相似的。

9.3瞬态处理数据的压缩

由于瞬态可假设为相对稀疏的,可假设可直接传输此数据。实施例示出每瞬态传输六个值:用于平均PDF的一个值,及用于绝对相位角中的误差的五个值(用于区间[n-2,n+2]内的每个时间帧的一个值)。可选方案为传输瞬态的位置(即,一个值),并如在垂直校正的情况下估计目标相位谱

如果需要针对瞬态压缩比特率,则可使用与用于PDF校正(见第9.2章)的方法类似的方法。简单地,可传输瞬态的位置(即,单个值)。如在第9.2章中,可使用此位置值获取目标相位谱及目标PDF。

可选地,可在解码阶段中估计瞬态位置,且无需传输信息。然而,如果在编码阶段中利用原始信号执行估计,则可预期较佳的估计。

可从其他实施例单独地或可以实施例的组合考虑所有在先描述的实施例。因此,图53至图57呈现组合一些之前描述的实施例的编码器及解码器。

图53示出用于解码音频信号的解码器110”。解码器110”包括第一目标谱生成器65a、第一相位校正器70a及音频子带信号计算器350。第一目标谱生成器65a(也被称为目标相位测量确定器)使用第一校正数据295a生成用于音频信号32的子带信号的第一时间帧的目标谱85a”。第一相位校正器70a以相位校正算法校正所确定的音频信号32的第一时间帧中的子带信号的相位45,其中通过减小音频信号32的第一时间帧中的子带信号的测量与目标谱85”之间的差异执行校正。音频子带信号计算器350使用用于时间帧的校正的相位91a计算用于第一时间帧的音频子带信号355。可选地,音频子带信号计算器350使用第二时间帧中的子带信号85a”的测量或使用根据不同于相位校正算法的另一相位校正算法的校正的相位计算,计算用于与第一时间帧不同的第二时间帧的音频子带信号355。图53进一步示出分析器360,其选择性地关于幅度47及相位45分析音频信号32。另一相位校正算法可在第二相位校正器70b或第三相位校正器70c中执行。关于图54示出这些其他的相位校正器。音频子带信号计算器250使用用于第一时间帧的校正的相位91及第一时间帧的音频子带信号的幅值47计算用于第一时间帧的音频子带信号,其中幅值47为音频信号32在第一时间帧中的幅度或音频信号35在第一时间帧中的处理的幅度。

图54示出解码器110”的另一实施例。因此,解码器110”包括第二目标谱生成器65b,其中第二目标谱生成器65b使用第二校正数据295b生成用于音频信号32的子带的第二时间帧的目标谱85b”。检测器110”还包括第二相位校正器70b,其用于以第二相位校正算法校正所确定的音频信号32的时间帧中的子带的相位45,其中通过减小音频信号的子带的时间帧的测量与目标谱85b”之间的差异执行校正。

相应地,解码器110”包括第三目标谱生成器65c,其中第三目标谱生成器65c使用第三校正数据295c生成用于音频信号32的子带的第三时间帧的目标谱。此外,解码器110”包括第三相位校正器70c,其用于以第三相位校正算法校正所确定的音频信号32的子带信号及时间帧的相位45,其中通过减少音频信号的子带的时间帧的测量与目标谱85c之间的差异执行校正。音频子带信号计算器350可使用第三相位校正器的相位校正计算用于与第一时间帧及第二时间帧不同的第三时间帧的音频子带信号。

根据实施例,第一相位校正器70a用于存储音频信号的先前时间帧的相位校正的子带信号91a,或用于从第三相位校正器70c的第二相位校正器70b接收音频信号的先前时间帧的相位校正的子带信号375。此外,第一相位校正器70a基于先前时间帧的存储或接收的相位校正的子带信号91a、375校正音频子带信号的当前时间帧中的音频信号32的相位45。

另一实施例示出执行水平相位校正的第一相位校正器70a、执行垂直相位校正的第二相位校正器70b及执行用于瞬态的相位校正的第三相位校正器70c。

从另一观点,图54示出相位校正算法中的解码阶段的框图。至处理的输入为时间-频率域中的BWE信号及元数据。再次,在实际应用中,本发明的相位导数校正对共同使用滤波器组或现有BWE方案的变换是优选的。在当前示例中,此为如在SBR中所使用的QMF域。第一解多工器(未绘示)从通过本发明校正所增强的配备有BWE的感知编解码器的比特流中提取相位导数校正数据。

第二解多工器130(DEMUX)首先将接收到的元数据135划分为激活数据365及用于不同校正模式的校正数据295a-c。基于激活数据,针对合适校正模式激活目标谱的计算(其他可闲置)。使用目标谱,使用期望校正模式对所接收的BWE信号执行相位校正。应注意的是,由于水平校正70a被递归地(换言之:取决于先前信号帧)执行,其也从其他校正模式70b、70c接收先前的校正矩阵。最后,基于激活数据将校正的信号或未处理的信号设为输出。

在校正了相位数据之后,继续下游的下层BWE合成,在当前示例的情况下为SBR合成。在相位校正恰好插入BWE合成信号流中的情况下,可能存在变化。优选地,进行相位导数校正作为具有相位Zpha(k,n)的未经处理的频谱修补上的初始调整,且在下游对校正的相位执行所有额外BWE处理或调整步骤(在SBR中,此可为噪声添加、反向滤波、遗漏正弦曲线等)。

图55示出解码器110”的另一实施例。根据此实施例,解码器110”包括核心解码器115、修补器120、合成器100及模块A,其为根据图54中所示的先前实施例的解码器110”。核心解码器115用于解码具有关于音频信号55的减少数量的子带的时间帧中的音频信号25。修补器120使用具有减少数量的子带的核心解码的音频信号25的子带的集合修补与减少数量的子带相邻的时间帧中的其他子带,其中子带的集合形成第一修补,以获取具有正常数量的子带的音频信号32。幅度处理器125’处理时间帧中的音频子带信号355的幅值。根据先前解码器110及110’,幅度处理器可为带宽扩展参数应用器125。

在切换信号处理器模块的情况下可想到许多其他实施例。例如,可交换幅度处理器125’及模块A。因此,模块A作用于重构的音频信号35,其中已校正修补的幅值。可选地,音频子带信号计算器350可位于幅度处理器125’之后,以便从音频信号的相位校正及幅度校正的部分形成校正的音频信号355。

此外,解码器110”包括合成器100,其用于合成相位及幅度校正的音频信号以获取经频率组合处理的音频信号90。可选择地,由于在核心解码的音频信号25上既不应用幅度校正也不应用相位校正,所述音频信号可直接被传输至合成器100。在先前描述的解码器110或110’的一个中应用的任何可选处理模块也可应用于解码器110”中。

图56示出用于编码音频信号55的编码器155”。编码器155”包括连接至计算器270的相位确定器380,核心编码器160、参数提取器165及输出信号形成器170。相位确定器380确定音频信号55的相位45,其中计算器270基于音频信号55的确定的相位45确定用于音频信号55的相位校正数据295。核心编码器160对音频信号55进行核心编码,以获取具有关于音频信号55的减少数量的子带的核心编码的音频信号145。参数提取器165从音频信号55中提取参数190,以用于获取用于未包括在核心编码的音频信号中的第二子带集合的低分辨率参数表示。输出信号形成器170形成输出信号135,其包括参数190、核心编码的音频信号145及相位校正数据295’。可选择地,编码器155”包括在对音频信号55进行核心编码之前的低通滤波器(LP)180及在从音频信号55提取参数190之前的高通滤波器(HP)185。可选地,可使用间隙填充算法而不对音频信号55进行低通滤波或高通滤波,其中核心编码器160对减少数量的子带进行核心编码,其中子带集合内的至少一个子带未被核心编码。此外,参数提取器从未利用核心编码器160编码的至少一个子带中提取参数190。

根据实施例,计算器270包括校正数据计算器集合285a-c,其用于根据第一变化模式、第二变化模式或第三变化模式校正相位校正。此外,计算器270确定用于激活校正数据计算器集合285a-c中的一个校正数据计算器的激活数据365。输出信号形成器170形成输出信号,其包括激活数据、参数、核心编码的音频信号及相位校正数据。

图57示出计算器270的可选实施,该计算器270可用于图56中所示的编码器155”中。校正模式计算器385包括变化确定器275及变化比较器280。激活数据365是对不同变化进行比较的结果。此外,激活数据365根据确定的变化将校正数据计算器185a-c中的一个激活。计算的校正数据295a、295b或295c可作为编码器155”的输出信号形成器170的输入且因此作为输出信号135的部分。

实施例示出包括元数据形成器390的计算器270,其形成包括计算的校正数据295a、295b或295c及激活数据365的元数据流295’。若校正数据自身不包括当前校正模式的充分信息,则可将激活数据365传输至解码器。充分信息可为(例如)用于表示与校正数据295a、校正数据295b及校正数据295c不同的校正数据的比特数。此外,输出信号形成器170可额外使用激活数据365,使得可忽略元数据形成器390。

从另一观点,图57的框图示出相位校正算法中的编码阶段。至处理的输入为原始音频信号55及时间-频率域。在实际应用中,本发明的相位导数校正对于共同使用滤波器组或现有BWE方案的变换是优选的。在当前示例中,此为在SBR中使用的QMF域。

校正模式计算模块首先计算对于每个时间帧应用的校正模式。基于激活数据365,在合适校正模式(其他校正模式可闲置)中激活校正数据295a-c计算。最后,多工器(MUX)组合激活数据及来自不同校正模式的校正数据。

另一多工器(未绘示)将相位导数校正数据合并至BWE以及通过本发明校正所增强的感知编码器的比特流中。

图58示出用于解码音频信号的方法5800。方法5800包括步骤5805“使用第一校正数据利用第一目标谱生成器生成用于音频信号的子带信号的第一时间帧的目标谱”、步骤5810“利用以相位校正算法确定的第一相位校正器校正音频信号的第一时间帧中的子带信号的相位,其中通过减少音频信号的第一时间帧中的子带信号的测量与目标谱之间的差异执行校正”及步骤5815“使用时间帧的校正的相位利用音频子带信号计算器计算用于第一时间帧的音频子带信号,及用于使用第二时间帧中的子带信号的测量或使用根据与相位校正算法不同的另一相位校正算法的校正的相位计算,计算用于与第一时间帧不同的第二时间帧的音频子带信号”。

图59示出用于编码音频信号的方法5900。方法5900包括步骤5905“利用相位确定器确定音频信号的相位”、步骤5910“基于音频信号的确定的相位利用计算器确定用于音频信号的相位校正数据”、步骤5915“利用核心编码器对音频信号进行核心编码,以获取具有关于音频信号的减少数量的子带的核心编码的音频信号”、步骤5920“利用参数提取器从音频信号中提取参数,以用于获取用于未包括在核心编码的音频信号中的第二子带集合的低分辨率参数表示”及步骤5925“利用输出信号形成器形成输出信号,其包括参数、核心编码的音频信号及相位校正数据”。

可在计算机上执行的计算机程序中实施方法5800及5900以及在先描述的方法2300、2400、2500、3400、3500、3600及4200。

应注意的是,将音频信号55用作用于音频信号的一般术语,尤其用于原始(即未处理的)音频信号、音频信号的传输部分Xtrans(k,n)25、基带信号Xbase(k,n)30、与原始音频信号相比时包括较高频率的处理的音频信号32、重构的音频信号35、幅度校正的频率修补Y(k,n,i)40、音频信号的相位45或音频信号的幅度47。因此,由于实施例的上下文,不同音频信号可彼此交换。

可选实施例涉及用于所发明的时间-频率处理的不同滤波器组或变换域,例如短时傅立叶变换(STFT)、复杂改进离散余弦变换(CMDCT)或离散傅立叶变换(DFT)域。因此,可考虑与变换有关的特定相位性质。具体地,若备份系数是从偶数复制至奇数(或反之亦然),即,如在实施例中所描述,将原始音频信号的第二子带复制至第九子带而不是第八子带,则修补的共轭复数可用于处理。同样适用于修补的镜象,而不使用(例如)备份算法,以克服修补内的相位角的逆序。

其他实施例可放弃来自编码器的旁侧信息并估计在解码器处的一些或所有的必要校正参数。另一实施例可具有其他下层BWE修补方案,例如使用不同基带部分、不同数量或大小的修补或不同换位技术,例如频谱镜象或单侧频带调制(SSB)。在相位校正恰好被协调至BWE合成信号流中的情况下,也可存在变化。此外,使用滑动汉宁窗执行平滑化,其可被(例如)一阶IIR替换以获得较佳计算效率。

通常,最新技术的感知音频编解码器的使用有损音频信号的谱分量的相位相干性,尤其在低比特率下,其中应用如带宽扩展的参数编码技术。此导致音频信号的相位导数的变化。然而,在某些信号类型中,相位导数的保留是重要的。因此,此类声音的感知品质受损。若相位导数的恢复是感知有益的,则本发明重新调整此类信号的相位对频率(“垂直”)或相位对时间(“水平”)的导数。此外,作出是调整垂直相位导数还是调整水平相位导数是感知上更优的决策。仅需要极紧凑旁侧信息的传输以控制相位导数校正处理。因此,本发明以适度旁侧信息为代价提升感知音频编码器的声音品质。

换言之,谱带复制(SBR)可引起相位谱中的误差。对这些误差的人类感知进行研究,揭示两个感知上的显著影响:在谐波的频率和时间位置上的差异。仅当基本频率足够高使得在ERB带内仅存在一个谐波时,频率误差似乎是可感知的。相应地,仅在基本频率较低且谐波的相位在频率上对齐的情况下,时间位置误差似乎是可感知的。

可通过计算相位对时间的导数(PDT)检测频率误差。若PDT值在时间上是稳定的,则应校正SBR处理的信号与原始信号之间的PDT值的差异。此有效地校正谐波的频率,且因此避免不和谐性的感知。

可通过计算相位对频率的导数(PDF)检测时间位置误差。若PDF值在频率上是稳定的,则应校正SBR处理的信号与原始信号之间的PDF值的差异。此有效地校正谐波的时间位置,且因此避免在交越频率处调制噪声的感知。

虽然已在模块表示实际或逻辑硬件组件的框图的上下文中描述本发明,但也可通过计算机实施的方法实施本发明。在后一种情况下,模块表示对应方法步骤,其中此步骤代表由对应逻辑或物理硬件模块执行的功能。

尽管在装置的上下文中已描述了一些方面,显然,此方面也可表示对应方法的描述,其中模块或裝置与方法步骤或方法步骤的特征相对应。类似地,方法步骤的上下文中所描述的方面也表示对应装置的对应模块或项目或特征的描述。可通过(使用)硬件装置(例如微处理器、可编程计算机或电子电路)执行方法步骤中的一些或全部。在一些实施例中,可通过此装置执行最重要的方法步骤中的一些或多个。

本发明的传输或编码的音频信号可存储于数字储存介质上或可在传输介质(如无线传输介质或有线传输介质(如因特网))上传输。

根据某些实施需求,本发明的实施例可在硬件或软件中实施。可使用在其上存储有电子可读控制信号的数字存储介质(如软盘、DVD、蓝光光碟、CD、ROM、PROM及EPROM、EEPROM或闪存)执行实施,其可(或能够)与可编程计算机系统协作从而执行各个方法。因此,数字储存介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其能够与可编程计算机系统协作从而执行本文描述的方法中的一个。

通常,本发明的实施例可实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,可操作的程序代码用于执行方法中的一个。程序代码可(例如)存储于计算机可读载体上。

其他实施例包括储存于机器可读载体上的计算机程序,其用于执行本文所述方法中的一个。

换言之,本发明的方法的实施例(因此)是具有程序代码的计算机程序,当该计算机程序在计算机上运行时程序代码用于执行本文描述的方法中的一个。

因此,本发明的方法的另一实施例是一种数据载体(或诸如数字存储介质的非易失性存储介质,或计算机可读介质),其包括记录在其上的用于执行本文描述的方法的一个的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非易失的。

因此,本发明的方法的另一实施例是一种表示用于执行本文所述方法的一个的计算机程序的数据流或信号序列。数据流或信号序列可(例如)用于通过数据通信连接(例如,通过因特网)被传输。

另一实施例包括一种处理构件,例如,计算机或可编程逻辑设备,其用于或适用于执行本文所述方法的一个。

另一实施例包括计算机,其上安装有用于执行本文所述方法中的一个的计算机程序。

根据本发明的另一实施例包括一种装置或系统,其用于将用于执行本文所述方法的一个的计算机程序传输(例如,电子地或光学地)至接收器。接收器可例如是计算机、移动设备、存储设备或类似。此装置或系统可(例如)包括用于将计算机程序传输至接收器的文件服务器。

在一些实施例中,使用一种可编程逻辑设备(例如,现场可编程门阵列)用于执行本文所述方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可与微处理器协作,以便执行本文所述方法中的一个。通常,可通过任何硬件装置优选地执行此方法。

上面描述的实施例仅示出本发明的原理。应理解的是,本文所描述的布置及细节的修改及变形对本领域技术人员是显而易见的。因此,意图在于,仅通过权利要求的范围而不通过本文实施例的描述及说明书的方式呈现的特定细节限制本发明。

参考文献

[1]Painter,T.:Spanias,A.Perceptual coding of digital audio,Proceedings of the IEEE,88(4),2000;pp.451-513.

[2]Larsen,E.;Aarts,R.Audio Bandwidth Extension:Application of psychoacoustics,signal processing and loudspeaker design,John Wiley and Sons Ltd,2004,Chapters 5,6.

[3]Dietz,M.;Liljeryd,L.;Kjorling,K.;Kunz,0.Spectral Band Replication,a Novel Approach in Audio Coding,112th AES Convention,April 2002,Preprint 5553.

[4]Nagel,F.;Disch,S.;Rettelbach,N.A Phase Vocoder Driven Bandwidth Extension Method with Novel Transient Handling for Audio Codecs,126th AES Convention,2009.

[5]D.Griesinger'The Relationship between Audience Engagement and the ability to Perceive Pitch,Timbre,Azimuth and Envelopment of Multiple Sources'Tonmeister Tagung 2010.

[6]D.Dorran and R.Lawlor,"Time-scale modification of music using a synchronized subband/time domain approach,"IEEE International Conference on Acoustics,Speech and Signal Processing,pp.IV 225-IV 228,Montreal,May 2004.

[7]J.Laroche,"Frequency-domain techniques for high quality voice modification,"Proceedings of the International Conference on Digital Audio Effects,pp.328-322,2003.

[8]Laroche,J.;Dolson,M.;,"Phase-vocoder:about this phasiness business,"Applications of Signal Processing to Audio and Acoustics,1997.1997IEEE ASSP Workshop on,vol.,no.,pp.4pp.,19-22,Oct 1997

[9]M.Dietz,L.Liljeryd,K.and O.Kunz,“Spectral band replication,a novel approach in audio coding,"in AES 112th Convention,(Munich,Germany),May 2002.

[10]P.Ekstrand,“Bandwidth extension of audio signals by spectral band replication,"in IEEE Benelux Workshop on Model based Processing and Coding of Audio,(Leuven,Belgium),November 2002.

[11]B.C.J.Moore and B.R.Glasberg,“Suggested formulae for calculating auditory-filter bandwidths and excitation patterns,"J.Acoust.Soc.Am.,vol.74,pp.750-753,September 1983.

[12]T.M.Shackleton and R.P.Carlyon,“The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination,"J.Acoust.Soc.Am.,vol.95,pp.3529-3540,June 1994.

[13]M.-V.Laitinen,S.Disch,and V.Pulkki,“Sensitivity of human hearing to changes in phase spectrum,"J.Audio Eng.Soc.,vol.61,pp.860{877,November 2013.

[14]A.Klapuri,“Multiple fundamental frequency estimation based on harmonicity and spectral smoothness,"IEEE Transactions on Speech and Audio Processing,vol.11,November 2003.

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1