用于压缩音频信号的音频压缩系统的制作方法

文档序号:10541089阅读:594来源:国知局
用于压缩音频信号的音频压缩系统的制作方法
【专利摘要】本发明涉及一种用于压缩输入音频信号的音频压缩系统(100),所述音频压缩系统(100)包括:数字滤波器(101),其用于对所述输入音频信号进行滤波以获得滤波后音频信号,所述数字滤波器(101)包括具有基于频率的幅值的频率传递函数,所述幅值通过人耳的等响曲线形成;以及压缩器(103),其用于基于所述滤波后音频信号压缩所述输入音频信号以获得压缩后音频信号。
【专利说明】
用于压缩音频信号的音频压缩系统
技术领域
[0001 ]本发明涉及音频信号处理的领域。
【背景技术】
[0002] 音频信号的动态范围的减小是录音、放音和广播领域中的重要话题。动态范围的 减小可能与使音频信号的特性适应于所采用的音频设备的物理能力相关。
[0003] 为了减小音频信号的动态范围,可以采用压缩器。压缩器的压缩特性可以通过多 个压缩参数控制,所述压缩参数可能大大影响音频信号的感知质量。
[0004]参数的调整由于人声感知的复杂特性可能具有挑战性且极大地取决于音频信号 的特性。
[0005] 在音频工程师协会期刊1984年第3 2卷第3 16到3 27页上的G.W.麦克纳利 (G.W.McNally)的"数字音频信号的动态范围控制(Dynamic Range Control of Digital Audio Signals)"中,描述使用压缩器的动态范围压缩。

【发明内容】

[0006] 本发明的目标是提供一种用于有效地压缩输入音频信号的音频压缩系统,所述系 统允许压缩后音频信号的高感知质量。
[0007]此目标通过独立权利要求项的特征实现。另外的实施形式通过附属权利要求项、 描述以及图式显而易见。
[0008] 本发明是基于以下发现:输入音频信号可以通过数字滤波器滤波,其中数字滤波 器的频率传递函数的基于频率的幅值可以通过人耳的等响曲线形成。通过借助数字滤波器 对输入音频信号进行滤波,输入音频信号的具有人耳的低响度灵敏度的部分可以被放大且 输入音频信号的具有人耳的高响度灵敏度的部分可以被衰减。换句话说,根据本发明,对于 音频信号处理,考虑人声感知的特性。压缩器可以基于滤波后音频信号依次压缩输入音频 信号以获得压缩后音频信号。因此压缩可以集中在输入音频信号的具有人耳的低响度灵敏 度的部分上且因此增强压缩后音频信号的感知质量。
[0009] 根据第一方面,本发明涉及一种用于压缩输入音频信号的音频压缩系统,所述音 频压缩系统包括:数字滤波器,其用于对输入音频信号进行滤波以获得滤波后音频信号,所 述数字滤波器包括具有基于频率的幅值的频率传递函数,所述幅值通过人耳的等响曲线形 成;以及压缩器,其用于基于所述滤波后音频信号压缩输入音频信号以获得压缩后音频信 号。因此,可以实现压缩后音频信号的高感知质量。
[0010] 输入音频信号可以是采样后和/或量化后音频信号。输入音频信号可以包括单声 道音频信号、立体声音频信号或多声道音频信号。
[0011] 数字滤波器可以实施为有限脉冲响应(finite impulse response,FIR)滤波器或 无限脉冲响应(infinite impulse response,IIR)滤波器。数字滤波器的滤波特性可以使 用频率传递函数在频域中确定。
[0012] 人耳的等响曲线可能与基于频率的声压曲线有关,其中人类使用纯的和/或稳定 的音调感知恒定响度。人耳的等响曲线可以是根据ISO 226:2003的等响曲线。
[0013] 滤波后音频信号可以是采样后和/或量化后音频信号。滤波后音频信号可以包括 单声道音频信号、立体声音频信号或多声道音频信号。
[0014]压缩器可以是数字压缩器。压缩器可以用于组合输入音频信号与滤波后音频信号 以获得压缩后音频信号。
[0015] 压缩后音频信号可以是采样后和/或量化后音频信号。压缩后音频信号可以包括 单声道音频信号、立体声音频信号或多声道音频信号。
[0016] 在根据第一方面本身的音频压缩系统的第一实施形式中,数字滤波器是用于对时 域输入音频信号进行时域滤波以提供时域中的滤波后音频信号的时域滤波器。因此,可以 实现对输入音频信号进行滤波的低时延。
[0017] 可以对时域输入音频信号采样以获得一系列样本,所述样本可以通过时域滤波器 滤波以获得滤波后音频信号的一系列样本。时域滤波器可以例如使用直接形式结构或栅格 结构实施。
[0018] 在根据第一方面本身或第一方面的任何前述实施形式的音频压缩系统的第二实 施形式中,频率传递函数具有在预定频率之下或之上的恒定幅值。因此,可以限制频率传递 函数的幅值的总范围。
[0019] 在预定频率之下的恒定幅值的情况下,预定频率可以例如是10Hz。在预定频率之 上的恒定幅值的情况下,预定频率可以例如是7kHz。
[0020] 频率传递函数的幅值可以基于频率归一化。基于频率的频率传递函数的幅值的均 值可以具有值一。
[0021] 在根据第一方面本身或第一方面的任何前述实施形式的音频压缩系统的第三实 施形式中,频率传递函数的相位基于频率而线性增大或减小。因此,可以实现数字滤波器的 恒定群时延。
[0022]在根据第一方面本身、第一方面的第一实施形式或第一方面的第二实施形式的音 频压缩系统的第四实施形式中,频率传递函数的相位是基于频率恒定的,具体来说等于零。 因此,可以有效地实施数字滤波器。
[0023] 在根据第一方面本身或第一方面的任何前述实施形式的音频压缩系统的第五实 施形式中,频率传递函数通过滤波器系数确定,其中数字滤波器包括确定单元和滤波单元, 其中所述确定单元用于基于至少一个等响曲线确定滤波器系数,其中所述滤波单元用于基 于所确定的滤波器系数对音频信号进行滤波。因此,可以实现数字滤波器的滤波特性的调 适。
[0024] 确定单元可以用于基于至少一个等响曲线使用例如帕克斯-麦克莱伦算法的数字 滤波器设计技术确定滤波器系数。滤波器系数可以是实数,例如2.5或7.8,或复数,例如1+j 或4_3j。滤波器系数可以包括滤波器抽头。
[0025] 滤波单元可以包括有限脉冲响应(finite impulse response,FIR)或无限脉冲响 应(infinite impulse response,IIR)滤波器结构。
[0026]在根据第一方面的第五实施形式的音频压缩系统的第六实施形式中,确定单元用 于从与不同等响曲线相关联的滤波器系数的集合选择与所述等响曲线相关联的滤波器系 数以便确定滤波器系数。因此,数字滤波器可以采用不同的等响曲线。
[0027] 在根据第一方面的第六实施形式的音频压缩系统的第七实施形式中,不同的等响 曲线与音频信号的不同响度级相关联,其中确定单元进一步用于确定音频信号的响度级, 其中确定单元进一步用于基于所确定的响度级选择与等响曲线相关联的滤波器系数。因 此,数字滤波器的频率传递函数可以根据音频信号的响度级调适。
[0028] 音频信号的响度级可能与在预定时间间隔内的音频信号的平均能量有关。所述预 定时间间隔可以例如是20ms或100ms。
[0029] 在根据第一方面本身或第一方面的任何前述实施形式的音频压缩系统的第八实 施形式中,压缩器用于基于滤波后音频信号确定压缩增益信号,且用于组合输入音频信号 与压缩增益信号以获得压缩后音频信号。因此,可以有效地执行输入音频信号的压缩。
[0030] 压缩增益信号可以基于例如分段线性压缩特性曲线的压缩特性曲线从滤波后音 频信号得到。输入音频信号与压缩增益信号的组合可以包括输入音频信号与压缩增益信号 的相乘。
[0031] 在根据第一方面本身或第一方面的任何前述实施形式的音频压缩系统的第九实 施形式中,音频压缩系统进一步包括用于对压缩后音频信号进行滤波的均衡滤波器,所述 均衡滤波器包括具有基于频率的幅值的频率传递函数,所述幅值通过人耳的等响曲线形 成。因此,可以实现音频压缩系统的平坦的频率响应。
[0032] 人耳的等响曲线可能与基于频率的声压曲线有关,其中人类使用纯的和/或稳定 的音调感知恒定响度。人耳的等响曲线可以是根据ISO 226:2003的等响曲线。
[0033]在根据第一方面本身或第一方面的任何前述实施形式的音频压缩系统的第十实 施形式中,音频压缩系统进一步包括用于减小时域中的压缩后音频信号的最大幅值的峰值 限制器。因此,可以减轻压缩后音频信号的削波效果。
[0034] 峰值限制器可以实现为具有高压缩阈值和/或高压缩比的动态范围压缩器。
[0035] 根据第二方面,本发明涉及一种用于压缩输入音频信号的音频压缩方法,所述音 频压缩方法包括:通过数字滤波器对输入音频信号进行滤波以获得滤波后音频信号,所述 数字滤波器包括具有基于频率的幅值的频率传递函数,所述幅值通过人耳的等响曲线形 成;以及基于滤波后音频信号压缩输入音频信号以获得压缩后音频信号。因此,可以实现压 缩后音频信号的高感知质量。
[0036] 音频压缩方法可以通过根据第一方面本身或第一方面的任何实施形式的音频压 缩系统执行。音频压缩方法的另外特征可直接由根据第一方面本身或第一方面的任何实施 形式的音频压缩系统的功能性产生。
[0037] 根据第三方面,本发明涉及一种用于对音频信号进行滤波的数字滤波器,所述数 字滤波器包括具有基于频率的幅值的频率传递函数,所述幅值通过人耳的等响曲线形成。 因此,可以提供用于与人声感知有关的应用的数字滤波器。
[0038] 人耳的等响曲线可能与基于频率的声压曲线有关,其中人类使用纯的和/或稳定 的音调感知恒定响度。人耳的等响曲线可以是根据ISO 226:2003的等响曲线。
[0039] 根据第四方面,本发明涉及一种用于对音频信号进行滤波的数字滤波方法,所述 数字滤波方法包括通过数字滤波器对音频信号进行滤波,所述数字滤波器包括具有基于频 率的幅值的频率传递函数,所述幅值通过人耳的等响曲线形成。因此,可以提供用于与人声 感知有关的应用的数字滤波方法。
[0040] 所述数字滤波方法可以通过根据第三方面本身的数字滤波器执行。数字滤波方法 的另外特征可以直接由根据第三方面本身的数字滤波器的功能性产生。
[0041] 在根据第四方面本身的数字滤波方法的第一实施形式中,频率传递函数通过滤波 器系数确定,其中所述数字滤波方法包括基于至少一个等响曲线确定滤波器系数,且基于 所确定的滤波器系数对音频信号进行滤波。因此,可以实现数字滤波方法的滤波特性的调 适。
[0042] 在根据第四方面的第一实施形式的数字滤波方法的第二实施形式中,滤波器系数 的确定包括从与不同等响曲线相关联的滤波器系数的集合选择与所述等响曲线相关联的 滤波器系数以便确定滤波器系数。因此,数字滤波方法可以采用不同的等响曲线。
[0043]根据第五方面,本发明涉及一种包括程序代码的计算机程序,所述程序代码当在 计算机上执行时用于执行根据第二方面本身的音频压缩方法或用于执行根据第四方面本 身或第四方面的任何实施形式的数字滤波方法。因此,可以自动且可重复的方式应用所述 方法。
[0044] 可以机器可读程序代码的形式提供所述计算机程序。所述程序代码可以包括用于 计算机的处理器的一系列命令。计算机的处理器可以用于执行程序代码。
[0045] 本发明可以用硬件和/或软件实施。
【附图说明】
[0046] 本发明的【具体实施方式】将结合以下附图进行描述,其中:
[0047] 图1示出根据实施形式的用于压缩输入音频信号的音频压缩系统的图式;
[0048] 图2示出根据实施形式的用于压缩输入音频信号的音频压缩方法的图式;
[0049] 图3示出根据实施形式的用于对音频信号进行滤波的数字滤波器的图式;
[0050] 图4示出根据实施形式的用于对音频信号进行滤波的数字滤波方法的图式;
[0051]图5示出根据实施形式的高动态范围音频信号和压缩后音频信号的图式;
[0052]图6示出根据实施形式的动态范围压缩原理的图式;
[0053]图7示出根据实施形式的使用指数衰减的时间平滑的图式;
[0054]图8示出根据实施形式的用于压缩输入音频信号的音频压缩系统的图式;
[0055] 图9示出根据实施形式的不同等响曲线的图式;
[0056] 图10示出根据实施形式的用于对音频信号进行滤波的数字滤波器的图式;
[0057] 图11示出根据实施形式的用于对人耳的响度灵敏度建模的数字滤波器的频率响 应的图式;
[0058] 图12示出根据实施形式的用于压缩输入音频信号的压缩器的图式;
[0059] 图13示出根据实施形式的均衡滤波器的频率响应的图式;
[0060] 图14示出说明根据实施形式的音频压缩系统对输入音频信号的作用的图式;
[0061] 图15示出根据实施形式的用于压缩输入音频信号的音频压缩系统的图式;
[0062] 图16示出根据实施形式的用于压缩输入音频信号的压缩器的图式;以及
[0063] 图17示出根据实施形式的用于对音频信号进行滤波的数字滤波器的图式。
[0064] 相同参考符号指代相同或等效的特征。
【具体实施方式】
[0065] 图1示出根据实施形式的用于压缩输入音频信号的音频压缩系统100的图式。
[0066] 音频压缩系统100包括:数字滤波器101,其用于对输入音频信号进行滤波以获得 滤波后音频信号,所述数字滤波器101包括具有基于频率的幅值的频率传递函数,所述幅值 通过人耳的等响曲线形成;以及压缩器103,其用于基于滤波后音频信号压缩输入音频信号 以获得压缩后音频信号。
[0067] 输入音频信号可以是采样后和/或量化后音频信号。输入音频信号可以包括单声 道音频信号、立体声音频信号或多声道音频信号。
[0068] 数字滤波器101可以实施为有限脉冲响应(finite impulse response,FIR)滤波 器或无限脉冲响应(infinite impulse response,IIR)滤波器。数字滤波器101的滤波特性 可以使用频率传递函数在频域中确定。
[0069] 人耳的等响曲线可能与基于频率的声压曲线有关,其中人类使用纯的和/或稳定 的音调感知恒定响度。人耳的等响曲线可以是根据ISO 226:2003的等响曲线。
[0070] 滤波后音频信号可以是采样后和/或量化后音频信号。滤波后音频信号可以包括 单声道音频信号、立体声音频信号或多声道音频信号。
[0071] 压缩器103可以是数字压缩器。压缩器103可以用于组合输入音频信号与滤波后音 频信号以获得压缩后音频信号。
[0072] 压缩后音频信号可以是采样后和/或量化后音频信号。压缩后音频信号可以包括 单声道音频信号、立体声音频信号或多声道音频信号。
[0073] 图2示出根据实施形式的用于压缩输入音频信号的音频压缩方法200的图式。
[0074]音频压缩方法200包括:通过数字滤波器对输入音频信号进行滤波201以获得滤波 后音频信号,所述数字滤波器包括具有基于频率的幅值的频率传递函数,所述幅值通过人 耳的等响曲线形成;且基于滤波后音频信号压缩203输入音频信号以获得压缩后音频信号。 [0075]音频压缩方法200可以通过图1的音频压缩系统100执行。音频压缩方法200的另外 特征可以直接由图1的音频压缩系统100的功能性产生。
[0076] 图3示出根据实施形式的用于对音频信号进行滤波的数字滤波器101的图式。
[0077] 数字滤波器101包括具有基于频率的幅值的频率传递函数,所述幅值通过人耳的 等响曲线形成。
[0078] 人耳的等响曲线可能与基于频率的声压曲线有关,其中人类使用纯的和/或稳定 的音调感知恒定响度。人耳的等响曲线可以是根据ISO 226:2003的等响曲线。
[0079] 图4示出根据实施形式的用于对音频信号进行滤波的数字滤波方法400的图式。
[0080] 数字滤波方法400包括通过数字滤波器对音频信号进行滤波401,所述数字滤波器 包括具有基于频率的幅值的频率传递函数,所述幅值通过人耳的等响曲线形成。
[0081] 数字滤波方法400可以通过图3的数字滤波器101执行。数字滤波方法400的另外特 征可以直接由图3的数字滤波器101的功能性产生。
[0082] 图5示出根据实施形式的高动态范围音频信号和压缩后音频信号的图式。在左边, 描绘具有峰值幅度1的原始高动态范围音频信号。在右边,描绘具有峰值幅度1但减少的动 态范围的压缩后音频信号。
[0083]例如平板计算机或智能电话的移动装置通常配备有较小的低质量微型扬声器和 低功率放大器。因此,可以通过在此类装置中的电声系统再现的声音的质量可能被限制。具 体来说,可以产生的最大声压级可能被限制。这可能导致较高程度的信号失真和受限的动 态范围。
[0084]此外,此类装置通常用于在可能需要高输出电平的嘈杂环境中播放声音。甚至,进 一步的处理,例如为了补偿扬声器之间的较小距离的立体声扩展,可能更进一步减小最大 输出电平。
[0085] 此问题的一个解决方案可以是较高质量的扬声器和具有较高输出功率的放大器 的集成。然而,这可能需要可能不能集成到较小移动装置中的较大扬声器和消耗来自电池 的更多能量的放大器。因此,可能需要能够增强通过此类移动装置产生的声学信号的所感 知响度的信号处理技术。音频信号的动态范围压缩(Dynamic range compression,DRC)可 以是一种用于响度增强的技术。DRC的目标可以是增加平均信号能量同时将峰值能量保持 在由电声系统的能力施加的限制内。为了实现此效果,一个策略可以是增强弱信号成分的 电平。
[0086] 图5中说明音频信号的动态范围压缩的效果。左图示出典型的音乐实例的信号幅 度。有规律地出现的高幅度峰值通常与击鼓相对应。信号可以进行归一化以获得峰值幅度 1,所述峰值幅度可以与可以由电声系统处理的最大幅度相对应。数字音频信号的幅度通常 约束到区间[_1;1]。超出这些限制的幅度可能导致削波,即,所述幅度可能受到所述限制的 限制。这可能导致高信号失真。此峰值幅度可以限制信号的总输出电平,因为它可能仅很少 地在高动态范围音频信号中出现。大部分信号可能具有低幅度。在此信号上执行的动态范 围压缩操作的结果可以产生绘制在图5的右边上的幅度。尽管所产生的信号的峰值幅度可 以仍为1,但可以界定所感知的平均响度的平均幅度可能高得多。具体来说,具有低幅度的 成分可以大大增强。可以被界定为低能量成分与高能量成分的比值的动态范围可以减小。
[0087] 图6示出根据实施形式的动态范围压缩原理的图式。说明了动态范围压缩的使用 基于峰值幅度检测的静态压缩曲线的基本原理。无压缩的情况通过实线说明。使用_15dB的 压缩阈值和3:1的压缩比的压缩的情况通过虚线说明。
[0088] 输入信号X和压缩后信号X。之间的传递函数可以示出以下特性。在输入信号X的电 平在以dB指定的给定阈值T之下的情况下,可能不修改所述输入信号的电平;压缩后信号 Xc 可以与X相同。在输入信号X的电平超出阈值T的情况下,X。可以给定压缩比R减小。压缩比可 以使输入信号的电平变化与输出信号的电平变化有关。在此实例中,R = 3的压缩比可以指 示输入信号中超出阈值T 3dB的电平可以减小到输出信号中在阈值之上仅1 dB的电平。因 此,与输入信号的电平Px相比,压缩后信号的电平4可以根据时变增益g(t)减小。
[0089] 等式1可以如下给出:
[0090] Px(t) = 201ogio I x(t)
[0092][0093] 这可以是动态范围压缩的基本原理。因为DRC可以是在音乐记录和制作中、甚至在
[0091] 模拟域中的重要话题,所以可以应用许多不同的实施方案和扩展。具体来说,图6中示出的 分段线性压缩曲线可以由软压缩曲线替代,例如,用S型曲线等膝状或饱和压缩曲线替代。 [0094]图7示出根据实施形式的使用指数衰减的时间平滑的图式。使用指数衰减的时间 平滑可以用于对攻击和/或衰减时间建模。实线说明Ρχ。虚线说明使用30ms的攻击滤波时间 常数和150ms的释放滤波时间常数的P s。
[0095] 在没有时间平滑的情况下,动态范围压缩可能引入许多失真,因为输出信号的电 平可能改变地太快。输出信号可能不与输入信号的特性类似。为了减少DRC的可听失真,压 缩增益可以缓慢地改变。
[0096] 实现此效果的方法可以是通过如图7中所图示添加指数衰减以用于攻击和释放时 间来平滑峰值幅度的检测。为下标为A的攻击和下标为R的释放指定不同的时间常数t a、tr可 以允许控制对声学事件的不同状态的平滑效果。攻击可以指代与信号电平中的增加一起的 事件的开始。释放可以指代此事件的通常较慢的能量衰减。攻击和释放的指数衰减可以如 下计算:
[0097] τΑ、τκ可以被界定为达到攻击和释放的最后值的63%的时间;
[0098] ~且 α广 e-9
[0099] 等式2可以如下给出:
[0100]
[0101] 随后,Ps(t)可以替代px(t)用于等式1或2中以用于时变增益g(t)的计算。
[0102] 可以使用不同的实施方案,例如,解耦、分支、前馈、反馈、侧链、偏置和/或后置增 益实施方案。
[0103] 时间平滑参数设置可以与压缩的量和音频质量之间的权衡即失真相关且可以构 成压缩的量和音频质量之间的权衡。具体来说,所述时间平滑参数设置可以影响如由鼓声 或瞬态产生的幅度峰值可受影响的程度。在长释放时间常数的情况下,在峰值或瞬态之后, 信号可衰减较长时间,且P y可减小太多。在短释放时间常数的情况下,在瞬态之后可能发生 信号电平的跳跃。在长攻击时间常数的情况下,瞬态可能不衰减,因为它们可能短于攻击时 间,且峰值电平可仍较高。在短攻击时间常数的情况下,瞬态可能被压制,从而导致缺乏清 晰度,电平可能减小得太多,且瞬态的电平可与紧挨在瞬态之前的信号的电平相同。
[0104] 不同的解决方案可以应用于DRC。评价DRC算法的四个主要标准可以是音质、压缩 率、计算复杂性以及用户可控性。在压缩和质量之间可以存在权衡,因为高压缩通常可导致 不良的音质。在波形中的峰值,例如瞬态或攻击,可以被衰减以获得高压缩增益。这可能导 致缺乏感知清晰度。如例如在TV和无线电广播中使用的高质量动态范围压缩系统通常可以 在频域中工作或作用于全频带信号的子带分解。这可能导致高计算复杂性。特别是对于移 动装置,计算和能量资源可能是有限的。
[0105] 参数设置可以与获得较高量的压缩同时保持高音频质量相关。最优参数设置还可 以取决于具体音频信号和收听环境。对于消费装置中的应用,通常可以使用保守或并非最 优的设置来预界定参数。用户可能不具有除开和关以外的任何控制机制。
[0106] 图8示出根据实施形式的用于压缩输入音频信号的音频压缩系统100的图式。音频 压缩系统100可以包括动态范围压缩系统。
[0107] 音频压缩系统100包括数字滤波器101、压缩器103、均衡滤波器801以及峰值限制 器803。压缩器103包括压缩增益控制805和压缩单元807。压缩单元807包括参数规范单元 809、增益估计单元811、第一乘法器813以及第二乘法器815。参数规范单元809将压缩阈值、 压缩比、攻击滤波时间常数以及释放滤波时间常数提供给增益估计单元811。
[0108] 许多方法聚焦于音乐制作应用。本发明尤其处理移动放音情形,其中目标可以是 实时地增加由智能电话和/或平板计算机等移动装置的扬声器产生的平均输出电平,同时 保持高音质和低计算复杂性以及低功耗或低电池功耗。
[0109] 本发明可以涉及如图8中所描绘的增强音频压缩系统100或动态范围压缩系统。音 频压缩系统100可以包括用于考虑人耳的灵敏度的频率特性的人声感知的模型,即,数字滤 波器101或滤波器等响模块。音频压缩系统100可以包括用于减小瞬态的电平同时保持信号 清晰度的级联动态范围压缩系统,即,与峰值限制器803或峰值限制器模块级联的压缩器 103或动态范围压缩模块。音频压缩系统100或系统可以包括用于压缩增益G的单一控制参 数,所述控制参数可以由用户或消费者以连续方式控制。音频压缩系统100或系统可以包括 用于移动装置上的实时应用的在时域中的低复杂性全频带实施方案。
[0110] 图8中描绘音频压缩系统100或系统的流程图。给定输入信号x(t),音频压缩系统 100或系统可以执行以下步骤。
[0111] 首先,可以应用数字滤波器101或滤波器等响模块,即,预处理操作,所述操作通过 用等响曲线对输入信号X(t)进行滤波来应用简化响度模型以便获得响度均衡输入信号幻 (t)。预处理的目标可以是加强信号中的人耳较不敏感的频率。第二,可以应用压缩器103或 动态范围压缩模块。它可以包括参数规范单元809或参数规范模块。给定以dB为单位的外 部、例如用户指定的所希望的压缩增益,可以最优方式调整内部动态范围压缩参数T、R、ta、 tr。所述压缩器或动态范围压缩模块可进一步包括可以从响度均衡输入信号xi(t)估计时变 增益g(t)的增益估计单元811或增益估计模块。所获得的压缩在已经通过均衡加强的区域 中可能更强,所述区域可以与其中人耳较不敏感的区域相对应。因此,动态范围压缩的失真 可以为不太容易听到的且可以应用更强的压缩。输入信号x(t)的动态范围压缩可以通过对 信号x(t)应用时变增益g(t)和所希望的压缩增益G以获得压缩后信号xjt)来执行。第三, 可以可选地应用均衡滤波器801或均衡模块,所述均衡滤波器或均衡模块可以对 Xc(t)应用 均衡以校正取决于频率的压缩且重建信号xe(t)的平坦的频率响应。这还可以考虑扬声器 的频率响应。第四,可以可选地应用峰值限制器803。可以应用峰值和/或瞬态的软限制以防 止在强攻击阶段中的削波以获得输出信号y(t)。
[0112] 图9示出根据实施形式的不同等响曲线的图式。
[0113] 耳朵可能并不对所有频率同样敏感。图9示出对在整个可听范围上的不同频率的 响应作为示出被视为同样响的声压级的曲线的集合。对于低和高频率,声压级可能高得多 以获得与在中间频率中时相同的感知响度。曲线可在2到5kHz的范围内最低,在4kHz处具有 凹陷,指示耳朵可能对在此范围中的频率最敏感。较高或较低音调的强度级可以实质上升 高以便产生相同的响度印象。此发现可以用于实现输出信号的较高音质。想法可以是在其 中人耳较不敏感的那些频率区域中应用更强的动态范围压缩。
[0114] 图10示出根据实施形式的用于对音频信号进行滤波的数字滤波器101的图式。数 字滤波器101可以包括滤波器等响模块。
[0115] 数字滤波器101可以包括确定单元1001和滤波单元1003。确定单元1001可以用于 滤波器参数规范,其中可以将等响曲线提供到确定单元1001以获得滤波器系数。滤波单元 1003可以基于滤波器系数对输入信号x(t)进行滤波以获得响度均衡信号^(〇。
[0116] 可以通过用等响曲线滤波来应用响度模型以对人耳的灵敏度建模。这可以增强其 中人耳较不敏感的频率且可以使其中人耳高度敏感的频率衰减。
[0117] 图11示出根据实施形式的用于对人耳的响度灵敏度建模的数字滤波器的频率响 应的图式。在低频率处,放大可被约束且可能不通过扬声器再现。在高频率处,放大可被约 束且通常通过扬声器增强。
[0118] 以下处理可以用于获得此效果,见图10。执行具有类似于等响曲线的滤波器响应 的滤波。这可以增强在其中人耳较不敏感的频率处的电平且可以使其中人耳高度敏感的频 率衰减。然后,随后的动态范围压缩可以集中在其中人耳较不敏感的频率区域中,即高和低 频率。因此,压缩失真可以是不太容易听到的。具体来说,2到5kHz或2到6kHz的频率范围可 几乎不由动态范围压缩修改。此范围可以是对于声音清晰度最重要的。
[0119] 如图11中示出的滤波器响应可以是基于等响曲线但根据若干方面修改。为了考虑 微型扬声器特性和能力,可以通过引入上限来限制最低和最高频率的放大。此限制的动机 可以是基于所考虑的使用小扬声器的应用情形。此处,最低频率可能不通过扬声器再现且 高频率通常可以通过此类扬声器放大。限制放大可以考虑这一点。放大的总范围,g卩,滤波 器响应的最小值和最大值之间的差值,可能限于仅跨越15dB。从图9可以看出,在单一等响 曲线的声压级中的最小值和最大值之间的差值可以达到80dB。在动态范围压缩中,阈值T在 典型的应用情形中可以设定成6和20dB之间的值。因此,应用可以将某些频率与其它频率相 比放大80dB的均衡可以导致仅这些频率被高度压缩,然而,其它频率可能未达到阈值且可 能因此根本不被压缩。约束放大的总范围可以允许控制不同频率区域中的动态范围压缩的 强度。
[0120] 图12示出根据实施形式的用于压缩输入音频信号的压缩器103的图式。压缩器103 可以包括压缩单元807或动态范围压缩模块。
[0121] 压缩单元807包括参数规范单元809、增益估计单元811、第一乘法器813以及第二 乘法器815。参数规范单元809将压缩阈值T、压缩比R以及攻击滤波时间常数和释放滤波时 间常数τ κ、τΑ提供给增益估计单元811。可以将响度均衡音频信号X1(t)提供到增益估计单元 811。可以将输入音频信号x(t)提供到第二乘法器815。压缩后音频信号x c(t)可以通过第二 乘法器815提供。
[0122] 随后,可以对输入信号应用动态范围压缩,如图12中示出。动态范围压缩可以遵循 大体描述且可以使用相同的符号。
[0123] 首先,给定例如由用户指定的所希望的压缩增益G,用于如所引入的动态范围压缩 的参数T、R、TA、tr可以如下得到。目标可以是压缩信号使得在x c(t)的峰值幅度和可以在不 削波的情况下再现的最大值Pmax之间产生G的余量。
[0124]
[0125] T = Pmax-G · A(l+1/R)
[0126] 发现可以是,为了获得所希望的增益,R和T的不同的值是可能的。降低阈值可以允 许获得较高G,但同时还可能增加受DRC影响的信号成分的量。增加压缩比R,在阈值之上的 成分可能得到更强压缩。选择就感知质量而言最优的R和Τ值可能是困难的任务。发现是,阈 值Τ和压缩比R之间的特定关系有希望获得高质量。此外,泛听测试揭示:当近似为下式时, 动态范围压缩的感知质量最优
[0127] R^G/(2dB)〇
[0128] 时间平滑常数tA、tr可通过减少压缩的量以确保可对于获得高感知质量重要的时 间连续性来影响DRC结果。因此,所实现的最终压缩低于所希望的G。平滑越强,即,时间常数 τΑ、τΚ越大,所实现的压缩就越低。为了获得最佳可能的感知质量,可以取决于所希望的压缩 增益G选择时间常数的参数值。
[0129] TA^-0.0002sec/dB · G+0.006sec
[0130] TR^-〇.〇〇33sec/dB · G+0.12sec
[0131] 感知收听测试揭示:时间常数和G之间的线性相关性产生最佳结果。为了增加 G的 值,时间常数可以线性减小。
[0132]作为平滑的结果,PS<PX可能发生。因此,可能希望添加容差λ多1以保证可以实现 所希望的压缩增益G。所述容差可以考虑到,快速瞬态可能被攻击衰减错过且可以导致高信 号峰值。因此,可以根据攻击时间常数选择容差的值。
[0133] λ=1.122+65 · Ι/sec · τΑ
[0134] 在得到最优参数设置之后,可以从响度均衡信号x,⑴估计时变增益g(t)。
[0135]
[0136]
[0137]
[0138] 且
[0139] aR =^?/τ\.αΑ=^?/:^
[0140] 最后,所述增益可以与所希望的压缩增益G相乘或通过所希望的压缩增益G放大且 最后与原始输入信号X(t)相乘,且不与响度均衡信号相乘。这提供最佳可能质量,因为原始 信号未由响度模型改变而是仅由响度校正增益改变。
[0141] xc(t)=x(t) · l〇G/20 · g(t)
[0142] 图13示出根据实施形式的例如均衡滤波器801的均衡滤波器的频率响应的图式。
[0143] 作为可选的后处理步骤,可以对信号应用均衡滤波器801。可能希望均衡补偿取决 于频率的动态范围压缩。通过响度模型增强的频率范围可以得到更强压缩且因此可以接收 与通过响度模型衰减的频率相比更低的电平。尽管此方法可以确保动态范围压缩可以集中 在其中人耳对压缩失真较不敏感的频率范围中,但它还可能产生不具有平坦的频率响应的 输出信号。为了补偿此效果,可以使用具有等响曲线的变体的再次滤波。
[0144] 可以调整如图13中示出的滤波器响应以补偿由预处理滤波器针对相等响度产生 的影响增益g(t)的计算的非线性压缩。因为增益g(t)从响度均衡信号得到但可以应用到原 始输入信号,所以压缩后信号通常可能不具有平坦的频率响应。具体来说,可以使低和高频 率衰减。在使用产生6dB的压缩增益G的阈值T=12dB和2:1的比值的示例性压缩的情况下, 图13中示出的滤波器响应可以被设计用于补偿此效果。在此情况下,低和高频率可以被放 大约2dB以便实现平坦的频率响应。对于G的不同值,所述响应可以线性缩放。
[0145] 可能希望均衡补偿取决于频率的动态范围压缩。可以使用具有等响曲线的变体的 滤波。可能地,均衡取决于压缩增益。并且,可以考虑目标输出装置以界定均衡。
[0146] 图14示出说明根据实施形式的例如音频压缩系统100的音频压缩系统对输入音频 信号x(t)的作用的图式。音频压缩系统可以包括动态范围压缩系统。第一波形示出输入信 号x(t),第二波形示出在步骤三即均衡之后的音频信号x e(t),且第三波形示出在步骤四即 峰值限制之后的音频信号y (t)。
[0147] 作为最终步骤,可以应用峰值限制器以防止输出信号中的削波。削波可以涉及信 号的超出最大可能值Pmax的幅度。由于用时间常数tr、ta执行的时间平滑,例如击鼓等快速且 强的瞬态可能未被压缩。因此,信号电平中的快速变化可以保留在输出信号中,这可以是确 保高感知质量或信号清晰度的重要方面。然而,这些峰值还可能防止可以在没有削波的情 况下实现所希望的压缩增益G。此问题的一个直接的解决方案可以是减小用于动态范围压 缩模块中的时间常数。但这可能降低质量。
[0148] 当添加峰值限制器作为最终处理步骤时,可以实现高音质同时避免削波。峰值限 制器可以是可以被调节以仅影响信号的其余峰值的动态范围压缩器。为此目的,阈值T可以 设定成高阈值,例如T = _ldB,且压缩比也可以较高,例如R = 60:l。与用于攻击和释放时间 常数的较小值一起,这些设置可以确保超出阈值且因此导致削波的任何峰值可以非常大的 比值被压缩,例如R = 60:l。因此,超出阈值的峰值可以被较强地压缩或软削波以确保它们 不超出此阈值。
[0149] 通过压缩单元或动态范围压缩模块执行的缓慢动态范围压缩可以确保可以通过 压缩保持音频信号的缓慢演进的长期和中期特性,且快速反应峰值限制器可以执行软削波 以仅防止削波。在组合中,可以尽可能地保持信号质量,具体来说信号清晰度,同时仍确保 高压缩增益。
[0150] 图14比较输入信号x(t)与在均衡之后的压缩后信号Xe(t)以及在峰值限制之后的 最终输出信号y(t)。在动态范围压缩之后,所述信号的中期水平特性可以得到保持,但超出 幅度值[_1;+1]的峰值可以保留在信号 Xe(t)中。这些最后可以通过峰值限制器软削波以获 得?目号y(t)。
[0151] 图15示出根据实施形式的用于压缩输入音频信号的音频压缩系统100的图式。音 频压缩系统100可以包括动态范围压缩系统。
[0152] 音频压缩系统100包括使用响度模型的数字滤波器101、压缩器103、均衡滤波器 801以及峰值限制器803。压缩器103包括压缩增益控制805、用于内部参数调适的参数规范 单元809以及用于动态范围压缩的减压缩单元1501。可以将输入音频信号提供到数字滤波 器101且提供到减压缩单元1501。输出信号可以通过峰值限制器803提供。
[0153] 应用简化的响度模型,即数字滤波器101或具有等响曲线的滤波器,可以加强其中 人耳较不敏感的频率。可以实现动态范围压缩。由于响度模型,压缩可以在其中耳朵较不敏 感且压缩失真可不太容易听到的区域中更强。应用均衡以校正取决于频率的压缩且以重建 平坦频率响应可以是所希望的。可采用用于防止在强攻击阶段中的削波的峰值限制器803。
[0154]图16示出根据实施形式的用于压缩输入音频信号的压缩器103的图式。压缩器103 可以包括压缩单元807或动态范围压缩模块。
[0155] 压缩单元807包括参数规范单元809、增益估计单元811以及合路器单元1601。参数 规范单元809将压缩阈值、压缩比、攻击滤波时间常数以及释放滤波时间常数提供给增益估 计单元811。可以将响度均衡音频信号提供到增益估计单元811。输入音频信号可以提供到 合路器单元1601。压缩后音频信号可以通过合路器单元1601提供。
[0156] 可以实现动态范围压缩。可以从响度均衡信号估计增益且将其应用到原始输入信 号。简化动态范围压缩的参数设置可以是所希望的。用户可以连续方式指定所希望的压缩 增益G。可以得到动态范围压缩的参数THU且可以将其提供到DRC算法。因为可能出现 PS<PX,所以可以添加容差λ多1以获得所希望的压缩增益。
[0157] 图17示出根据实施形式的用于对音频信号进行滤波的数字滤波器101的图式。数 字滤波器101可以包括滤波器等响模块。
[0158] 数字滤波器101可以包括使用等响曲线的确定单元1001,以及滤波单元1003。滤波 单元1003可以对输入音频信号进行滤波以提供响度均衡音频信号。数字滤波器101可以是 基于响度模型。
[0159] 本发明可以经专门定制用于在具有有限的电声系统、处理能力和功耗的移动装置 上的应用。可以提供较高音质。压缩失真可以集中在具有较低的人耳灵敏度的频率范围中。 缓慢压缩和快速峰值限制的组合可以尽可能地保留信号的缓慢和快速成分两者的原始特 性。可以保留感知清晰度。可以提供用户可控强度的压缩。可采用用于指定所希望的压缩增 益的单一压缩增益参数。所述参数可连续地调整以适应于信号内容和/或收听环境。可以提 供计算简单的实施方案。可采用全频带处理而非频域和/或子带处理。可以实现低时延,因 为没有频率变换和/或子带分解可被采用。
[0160] 在实施形式中,本发明涉及一种用于音频信号的增强的动态范围压缩的方法和设 备,包括用于考虑人耳的灵敏度的频率特性的人声感知的全频带模型,以及用于减小瞬态 的电平同时保持信号清晰度的级联动态范围压缩和软削波系统。
[0161] 在实施形式中,本发明涉及所述方法和设备,进一步包括用于使用户以连续方式 控制用于压缩增益的单一控制参数的单元,以及用于从指定的压缩增益参数得到最优参数 设置的内部转换器。
[0162] 在实施形式中,本发明涉及终端和/或解码器特征。
【主权项】
1. 一种用于压缩输入音频信号的音频压缩系统(100),其特征在于,所述音频压缩系统 (100)包括: 数字滤波器(101),其用于对所述输入音频信号进行滤波以获得滤波后音频信号,所述 数字滤波器(101)包括具有基于频率的幅值的频率传递函数,所述幅值通过人耳的等响曲 线形成;以及 压缩器(103),其用于基于所述滤波后音频信号压缩所述输入音频信号以获得压缩后 音频信号。2. 根据权利要求1所述的音频压缩系统(100),其特征在于,所述数字滤波器(101)是用 于对时域输入音频信号进行时域滤波以提供时域中的滤波后音频信号的时域滤波器。3. 根据前述权利要求中任一项所述的音频压缩系统(100),其特征在于,所述频率传递 函数具有在预定频率之下或之上的恒定幅值。4. 根据前述权利要求中任一项所述的音频压缩系统(100),其特征在于,所述频率传递 函数的相位基于频率而线性增大或减小。5. 根据权利要求1到3所述的音频压缩系统(100),其特征在于,所述频率传递函数的相 位是基于频率恒定的,具体来说等于零。6. 根据前述权利要求中任一项所述的音频压缩系统(100),其特征在于,所述频率传递 函数通滤波器系数确定,其中所述数字滤波器(101)包括确定单元(1001)和滤波单元 (1003),其中所述确定单元(1001)用于基于至少一个等响曲线确定所述滤波器系数,其中 所述滤波单元(1003)用于基于所述所确定的滤波器系数对所述音频信号进行滤波。7. 根据权利要求6所述的音频压缩系统(100),其特征在于,所述确定单元(1001)用于 从与不同等响曲线相关联的滤波器系数的集合选择与所述等响曲线相关联的滤波器系数 以便确定所述滤波器系数。8. 根据权利要求7所述的音频压缩系统(100),其特征在于,所述不同等响曲线与所述 音频信号的不同响度级相关联,其中所述确定单元(1001)进一步用于确定所述音频信号的 所述响度级,其中所述确定单元(1001)进一步用于基于所述所确定的响度级选择与所述等 响曲线相关联的所述滤波器系数。9. 根据前述权利要求中任一项所述的音频压缩系统(100),其特征在于,所述压缩器 (103)用于基于所述滤波后音频信号确定压缩增益信号,且用于组合所述输入音频信号与 所述压缩增益信号以获得所述压缩后音频信号。10. 根据前述权利要求中任一项所述的音频压缩系统(100),其特征在于,进一步包括 用于对所述压缩后音频信号进行滤波的均衡滤波器(801),所述均衡滤波器(801)包括具有 基于频率的幅值的频率传递函数,所述幅值通过人耳的等响曲线形成。11. 根据前述权利要求中任一项所述的音频压缩系统(100),其特征在于,进一步包括 用于减小时域中的所述压缩后音频信号的最大幅值的峰值限制器(803)。12. -种用于压缩输入音频信号的音频压缩方法(200),其特征在于,所述音频压缩方 法(200)包括: 通过数字滤波器(101)对所述输入音频信号进行滤波(201)以获得滤波后音频信号,所 述数字滤波器(101)包括具有基于频率的幅值的频率传递函数,所述幅值通过人耳的等响 曲线形成;以及 基于所述滤波后音频信号压缩(203)所述输入音频信号以获得压缩后音频信号。13. -种用于对音频信号进行滤波的数字滤波器(101),其特征在于,所述数字滤波器 (101)包括具有基于频率的幅值的频率传递函数,所述幅值通过人耳的等响曲线形成。14. 一种用于对音频信号进行滤波的数字滤波方法(400),其特征在于,所述数字滤波 方法(400)包括通过数字滤波器(101)对所述音频信号进行滤波(401),所述数字滤波器 (101)包括具有基于频率的幅值的频率传递函数,所述幅值通过人耳的等响曲线形成。15. -种计算机程序,其特征在于,包括当在计算机上执行时用于执行根据权利要求12 所述的音频压缩方法(200)或用于执行根据权利要求14所述的数字滤波方法(400)的程序 代码。
【文档编号】H03G7/00GK105900335SQ201480073003
【公开日】2016年8月24日
【申请日】2014年1月30日
【发明人】彼得·格罗舍, 郎玥, 张清
【申请人】华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1