音频信号的感知响度和/或感知频谱平衡的计算和调整的制作方法

文档序号:2830451阅读:1280来源:国知局
专利名称:音频信号的感知响度和/或感知频谱平衡的计算和调整的制作方法
技术领域
本发明涉及音频信号处理。更具体而言,本发明涉及音频信号的感知 声音响度和/或感知频谱平衡的计量和控制。本发明可例如用于以下中的
一个或多个响度补偿式音量控制、自动增益控制、动态范围控制(包括 例如限制器、压缩器、扩展器等)、动态均衡以及补偿音频回放环境中的 背景噪声干扰。本发明不仅包括方法,而且包括对应的计算积4呈序和装置。
背景技术
已进行了许多开发令人满意的客观的响度计量方法的尝试。Fletcher 和Munson在1933年确定人类听觉在低频和高频要比在中频(或话频) 迟钝。他们还发现敏感度的相对变化随着声级的升高而减小。早期的响度 计包括麦克风、放大器、表头以及设计成粗略模仿听觉在低、中和高声 级的频率响应的滤波器的组合。
尽管这样的设备提供了对单个恒定级的孤立音调的响度的计量,但更 复杂声音的计量不与响度的主观印^Jf艮好地匹配。这种类型的声级计已标 准化但仅用于特定任务,比如工业噪声的监视和控制。
在上世纪五十年代早期,包括Zwicker和Stevens在内的一些人在开 发响度感知过程的更逼真模型方面扩展了 Fletcher和Munson的工作。 Stevens于1956年在Journal of the Acoustical Society of America公布了 一种用于"计算复杂噪声的响度(Calculation of仇e Loudness of Complex Noise)"的方法,Zwicker于1958年在Acoustica 乂>布了他的论文 "Psychological and Methodical Basis of Loudness" 。 Zwicker于1959年 公布了响度计算的图解法,之后不久又公布了几篇类似论文。Stevens和 Zwicker的方法被分别标准化为ISO 532的A和B部分。两种方法包括 类似的步骤。
首先,通过使音频通过具有在临界频带率尺度上均匀间隔开的中心频 率的带通听觉滤波器的组,iM"能量沿着内耳基膜的时变分布(称为激励) 进行仿真。每个听觉滤波器被设计成对沿着内耳_^膜的特定位置的频率响应进行仿真,其中滤波器的中心频率对应于此位置。临界频带宽度被定义 为一个这种滤波器的带宽。以赫兹为单位来度量,这些听觉滤波器的临界 频带宽度随着中心频率的增大而增大。因此,有用的是,定义弯曲频率尺 度,使得以此弯曲尺先变量的所有听觉滤波器的临界频带宽度是恒定的。
这样的弯曲XJL被称为临界频带率尺度,在理解和仿真许多种心理声学现 象时非常有用。参见例如E. Zwicker和H. Fastl的"Psychoacoustics — Facts and Models", Springer國Verlag, Berlin, 1990。 Stevens和Zwicker 的方法利用了称为Bark尺度的临界频带率,其中,在500 Hz以下,临 界频带宽度是恒定的,而在500 Hz以上,临界频带宽度增大。最近,Moore 和Glasberg定义了一种临界频带率尺变,他们将其命名为等价矩形带宽 (ERB )尺度(B. C. J. Moore, B. Glasberg, T. Baer, "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness", Journal of the Audio Engineering Society,第450巻,第4号,1997年4月,224-240 页)。通过利用残余噪声(notched noise)掩蔽器进行的心理声学实验, Moore和Glasberg证明了在500 Hz以下临界频带宽度持续减小,这与临 界频带宽度保持恒定的Bark尺度形成对比。
在激励的计算之后是非线性压缩函数,该非线性压缩函数生成称为 "特定响度"的量。特定响JLA将感知响度作为频率和时间的函数的度量, 并且可以以沿着临界频带率尺度(比如上述Bark或ERB尺度)的每单 位频率的感知响度为单位来度量。理想地,特定响度表示将响度作为频率 和时间的函数的连续分布,而时变"总响度"通过将此分布对频率积分来 算出。在实践中,获得特定响度的精确表示的方法是通过使用例如上述 听觉滤波器沿着临界频带率尺度对此分布均匀采样.在此情形下,总响度 可通过将来自每个滤波器的特定响度简单相加来算出。为了降低复杂度, 某些应用可以以感知响度的估计和修正稍微不精确为代价计算特定响度 的较为粗略的近似。这样的近似将在后面更详细地讨论,
响度可以以方(phon)为单位来度量。给定声音的用方度量的响度 是具有与该声音的主观响度相等的主观响度的1 kHz音调的声压级 (SPL)。按照惯例,SPL的参考值0dB是2xl0-5帕斯卡的均方根压力, 因此这也是参考值0方。使用此定义将不同于1 kHz的频率处的音调的响 度与1 kHz处的响度相比较,可针对给定的方级确定等响度线.图ll示 出了频率在20 Hz到12.5 kHz之间且方级在4.2方(被认为是听觉阈值) 到120方之间的等响度线(ISO 226:1087 (E), "Acoustics - Normal equal loudness level contours")。该方值度量考虑了人类听觉的敏感度随频4"变化,但所得结果不允许评估变化级声音的相对主观响度,因为未尝试校正
响度随SPL增长的非线性,即,未尝试校正各等响度线的间距变化这一 事实。
响度亦可以以"宋(sone)"为单位来度量。如图11所示,方单位与
宋单位之间存在--映射。 一个宋被定义为40 dB (SPL ) 1 kHz纯正弦
波的响度并等价于40方。宋单位使得以宋为单位的两倍增大对应于感知 响度的加倍。例如,4宋被感知为比2宋响一倍。因此,用宋表示响度级 能提供更多信息。如果特定响度被定义为将感知响度作为频率和时间的函 数的度量,则特定响度可以以"宋每单位频率"为单位来度量。因此,当 使用Bark尺度时,特定响度的单位是"宋每Bark",类似地,当使用ERB 尺度时,单位是"宋每ERB"。
如上所述,人耳的敏感度随频率和级二者变化,这是心理声学文献中 清楚记栽的事实。结果之一是给定声音的感知频镨或音色随收听声音的 声级变化。例如,对于包含低、中和高频的声音,这些频率分量的感知相 对比例随声音总响度变化;低频和高频分量在安静时要比在喧闹时听起来 更安静(相对于中频而言)。此现象是众所周知的,在声音再现i殳备中通 过所谓响度控制得以减轻此现象。响度控制是在音量被调低时施加低频增 强(有时亦施加高频增强)的音量控制。因此,耳朵在极限频率的较低敏 感度被那些频率的人工增强所补偿.这样的控制是完全被动的;所施加补 偿的程^A音量控制或某种其它用户操作式控制的设置的函数,而不是音 频信号内容的函数。
在实践中,低、中和高频之中感知相对频谱平衡的变化依赖于信号, 尤其依赖于其实际频镨,而且依赖于想务使其响亮还是柔和。考虑交响乐 团的录音。以与听众中的一员将在音乐厅中收听的^目同的级再现,整个 频谱的平衡可能无论乐团响亮地还是安静地演奏都是正确的,如果例如安 静了 10dB地再现音乐,则整个频镨的感知平衡对于响亮段以一种方式变 化而对于安静段以另一种方式变化。常规的被动响度控制不根据音乐施加 不同的补偿。
在2004年5月27日提交、2004年12月23日公布为WO 2004/111994 A2的国际专利申请号PCT/US2004/016964中,Seefeldt等人尤其公开了 一种用于计量和调整音频信号的感知响度的系统。通过引用将指定美国的 所述PCT申请整体合并于此。在所述申请中,心理声学模型以感知单位 计算音频信号的响度。此外,所述申请引入用于计算宽带倍增增益的技术,这些技术当应用于音频时,导致增益修正了的音频的响度与参考响M本 上相同。然而,这种宽带增益的应用改变了音频的感知频镨平衡。

发明内容
在一方面,本发明允许通过修正音频信号以便减小其特定响度与目标 特定响度之间的差异来推导可用于控制音频信号的特定响度的信息。特定 响^A将感知响度作为频率和时间的函数的度量。在实际实施中,可使得 经修正的音频信号的特定响度近似于目标特定响度。如后面所描述的那 样,该近似可能不仅受到普通信号处理考虑的影响,而且受到可在该<务正 中采用的时间和/或频率平滑的影响。
由于特定响度是将音频信号的感知响度作为频率和时间的函数的度 量,为了减小音频信号的特定响度与目标特定响度之间的差异,该1务正可 将音频信号修正为频率的函数。虽然在某些情形下,目标特定响度可能是 非时变的,且音频信号本身可能是稳态非时变信号(典型地说),该修正 也可将音频信号修正为时间的函数。
本发明诸方面亦可用来补偿音频回放环境中的背景噪声干扰。当在有 背景噪声的情况下收听音频时,噪声可能以依赖于音频的级和频谱以及噪 声的级和频镨的方式部分地或完全地遮蔽音频。结果是音频的感知频镨的
变更。根据心理声学研究(参见例如Moore、 Glasberg和Baer的"A Model for the Prediction of Thresholds, Loudness, and Partial Loudness", J. Audio Eng. Soc.,第45巻,第4号,1997年4月),可将音频的"部分特 定响度"定义为在有次要干扰声音信号比如噪声的情况下的音频的感知响 度。
因此,在另一方面,本发明允许通过修正音频信号以便减小其部分特 定响度与目标特定响度之间的差异来推导可用于控制音频信号的部分特 定响度的信息。这样做以感知上精确的方式减轻了噪声的影响。在考虑了 干扰噪声信号的本发明的此方面和其它方面,假定音频信号可访问本身且 次要干扰信号可访问本身。
在另一方面,本发明允许通过修正音频信号以便减小其特定响度与目 标特定响度之间的差异来控制音频信号的特定响度。
在另一方面,本发明允许通过修正音频信号以便减小其部分特定响度 与目标特定响度之间的差异来控制音频信号的部分特定响度。当目标特定响度不是音频信号的函数时,其可能是存储的或接收到的 目标特定响度。当目标特定响度不是音频信号的函数时,该修正或该推导 可显式或隐式地计算特定响度或部分特定响度。隐式计算的例子包括查找
表或"闭式(closed-form)"数学表达式,其中特定响度和/或部分特定响 度被固有地决定(术语"闭式"意在描述可使用有限数量的标准数学运算 和函数(比如取幂和余弦)准确表示的数学表达式)。而且,当目标特定 响度不是音频信号的函数时,目标特定响度可能是非时变且非频变的,或 者可能是仅非时变的。
在又另 一方面,本发明允许通过才艮据一个或多个过程和一个或多个过 程控制参数处理音频信号或音频信号的度量以产生目标特定响度来处理 音频信号。虽然目标特定响度可能是非时变的("固定的"),但目标特定 响度可有利地是音频信号的特定响度的函数。虽然典型地说,其可能是静 态的非频变且非时变的信号,但音频信号本身是频变且时变的,从而造成 目标特定响度当为音频信号的函数时是频变且时变的。
音频和目标特定响度或目标特定响度的表示可从发送中接收或者从 存储介质再现。
目标特定响度的表示可以是对音频信号或音频信号的度量进行缩放 的一个或多个尺度因子。
本发明的任何以上方面的目标特定响度可以是音频信号或音频信号 的度量的函数。音频信号的一个适当度量是音频信号的特定响度。音频信 号或音频信号的度量的函数可以是对音频信号或音频信号的度量的缩放。 例如,该缩放可以是以下缩放中的一种或组合
(a) 如以下关系式中的对特定响度的时变且频变尺度因子S [W]缩

(b) 如以下关系式中的对特定响度的时变而非频变尺度因子(D[,]缩

(C)如以下关系式中的对特定响度的非时变而频变尺度因子0间缩放(d )如以下关系式中的对特定响度的非时变且非频变尺度因子a缩

其中》[6,,]是目标特定响度,AT[ZM]是音频信号的特定响度,6是频率的度 量,f是时间的度量。
在时变且频变尺度因子的情形(a)下,缩放可至少部分地由期望多
带响度与音频信号的多带响度的比值来确定。这样的缩放可用作动态范围 控制。采用本发明诸方面作为动态范围控制的进一步细节在后面阐述。
而且,在时变且频变AJL因子的情形(a)下,特定响度可被缩放等 于期望频镨形状的度量与音频信号的频谱形状的度量的比值的倍数。这样
时变的感知频镨。当特定响度被缩放等于期望频镨形状的度量与音频信号 的频镨形状的度量的比值的倍数时,这样的缩放可用作动态均衡器。采用 本发明诸方面作为动态均衡器的进一步细节在后面阐述。
在时变而非频变尺度因子的情形(b)下,缩放可至少部分地由期望 宽带响度与音频信号的宽带响度的比值来确定。这样的缩放可用作自动增 益控制或动态范围控制。采用本发明诸方面作为自动增益控制或动态范围 控制的进一步细节在后面阐述。
在情形(a)(时变且频变凡复因子)或情形(b)(时变而非频变尺度 因子)下,尺度因子可以是音频信号或音频信号的度量的函数。
在非时变而频变尺度因子的情形(c)和非时变且非频变尺度因子的 情形(d)二者下,该修正或该推导可包括存储尺度因子或者尺度因子可 从外部源接收。
在情形(c)和(d)中的任一情形下,尺度因子可以不是音频信号或 音频信号的度量的函数。
在本发明的任何各方面及其变体中,该修正、推导或产生可以以不同 方式显示或隐式地计算(1)特定响度、和/或(2)部分特定响度、和/或 (3)目标特定响度。隐式计算可包括例如查找表或闭式数学表达式。
修正M可在时间上被平滑。修正M可例如是(1)与音频信号的 频带相关的多个幅度缩放因子,或(2)用于控制一个或多个滤波器(比 如多抽头FIR滤波器或多极IIR滤波器)的多个滤波器系数。缩放因子或滤波器系数(和它们被施加于的滤波器)可以是时变的。
在计算定义目标特定响度的音频信号的特定响度的函数或该函数的 反函数时,执行这些计算的一个或多个过程在可特征化为感知(心理声学) 响度域的域内工作-计算的输入和输出是特定响度。与^目比,在向音频
系数时,修正^在感知(心理声学)响度域之外、可特征化为电信号域 的域内工作以修正音频信号。虽然对音频信号的4务正可在电信号域内对音 频信号进行,但电信号域内的这些改变从感知(心理声学)响度域内的计 算导出,使得经修正的音频信号具有近似于期望目标特定响度的特定响 度。
通it^响度域内的计算推导修正M,与在电信号域内导出这些修正 参数的情况相比,可实现对感知响度和感知频镨平衡的更大控制。此外, 与以在电信号域内推导修正参数的布置提供对感知频镨的控制相比,在执 行响度域计算时使用基膜仿真的心理声学滤波器组或其等价物可提供对 感知频镨的更详细控制。
该修正、推导和产生中的每一个可能依赖于以下中的一个或多个干 扰音频信号的度量、目标特定响度、从经修正的音频信号的特定响度或部 分特定响度导出的未修正的音频信号的特定响度的估计、未修正的音频信 号的特定响度、以及从经修正的音频信号的特定响度或部分特定响度导出 的目标特定响度的近似。
该<务正或推导可至少部分地从以下中的一个或多个推导{务正^::干 扰音频信号的度量、目标特定响度、从经修正的音频信号的特定响度或部 分特定响度导出的未修正的音频信号的特定响度的估计、未修正的音频信 号的特定响度、以及从经修正的音频信号的特定响度或部分特定响度导出 的目标特定响度的近似。
更具体而言,该修正或推导可至少部分M下面推导修正参数
(1) 以下两者之一
目标特定响度,和
从经修正的音频信号的特定响度得到的未修正的音频信号的 特定响度的估计,以及
(2) 以下两者之一未修正的音频信号的特定响度,和
从经修正的音频信号的特定响度导出的目标特定响度的近似 或者,当要考虑干扰音频信号时,该修正或推导可至少部分地从下面推导
(1) 干扰音频信号的度量
(2) 以下两者之一
目标特定响度,和
从经修正的音频信号的部分特定响度导出的未修正的音频信 号的特定响度的估计,以及
(3) 以下两者之一
未修正的音频信号的特定响度,和
从经修正的音频信号的部分特定响度导出的目标特定响度的 近似
可采用一种前馈布置,其中特定响度从音频信号导出,并且其中目标 特定响度从该方法外部的源接收,或者当该修正或推导包括存储目标特定 响度时从存储接收。可替选地,可采用一种混合前馈/反馈布置,其中目 标特定响度的近似从经修正的音频信号导出,并且其中目标特定响度从该 方法外部的源接收,或者当该修正或推导包括存储目标特定响度时从存储 接收。
该修正或推导可包括用于显式或隐式地获得目标特定响度的一个或 多个过程,所述过程中的一个或多个显式或隐式地计算音频信号或音频信 号的度量的函数。在一个可替选方案中,可采用一种前馈布置,其中特定 响度和目标特定响度从音频信号导出,目标特定响度的推导采用了音频信 号或音频信号的度量的函数。在另一个可替选方案中,可采用一种混合前 馈/反馈布置,其中目标特定响度的近似从经修正的音频信号导出,且目 标特定响;^从音频信号导出,目标特定响度的推导采用了音频信号或音频 信号的度量的函数。
该修正或推导可包括用于显式或隐式地获得响应于经修正的音频信 号对未修正的音频信号的特定响度进行的估计的一个或多个过程,所述过 程中的一个或多个显式或隐式地计算音频信号或音频信号的度量的函数 的反函数。在一个可替选方案中,采用一种反馈布置,其中未修正的音频信号的特定响度的估计以及目标特定响度的近似从经修正的音频信号导 出,特定响度的估计使用音频信号或音频信号的度量的函数的反函数来计 算。在另一个可替选方案中,采用一种混合前馈/反馈布置,其中特定响 度从音频信号导出,且未修正的音频信号的特定响度的估计从经修正的音 频信号导出,该估计的推导使用音频信号或音频信号的度量的所述函数的 反函数来计算。
修正^lt可被施加于音频信号以产生经修正的音频信号。
本发明的另一方面是可存在过程和设备的时间和/或空间分离,使 得在效果上既存在编码器或编码也存在解码器或解码。例如,可存在一种 编码/解码系统,其中修正或推导可发送和接收或者存储和再现音频信号
以及(1)修正参数或(2 )目标特定响度或目标特定响度的表示。可替选 地,在效果上可仅存在编码器或编码,其中存在音频信号以及(1) <务正 参数或(2)目标特定响度或目标特定响度的表示的发送或存储。可替选 地,如上所述,在效果上可仅存在解码器或解码,其中存在音频信号以及


图l是示出了根据本发明诸方面的前馈实施的例子的功能框图。
图2是示出了根据本发明诸方面的反馈实施的例子的功能框图。
图3是示出了根据本发明诸方面的一个混合前馈/反馈实施的例子的 功能才匡图。
图4是示出了根据本发明诸方面的另一个混合前馈/反馈实施的例子 的功能4匡图。
图5是示出了由前馈、反馈和混合前馈/反馈布置中的任何一种布置
或空间分离的设备或过程使用的功能框图。
图6是示出了由前馈、反馈和混合前馈/反馈布置中的任何一种布置 确定的目标特定响度或其表示和未修正的音频信号可怎样被存储或发送 以例如供时间或空间分离的设备或过程使用的功能框图。
图7是示出了本发明的一方面的;||^见的示意性功能框图或示意性流 程图。图8是适合作为本发明实施例中的透射滤波器的线性滤波器尸向的理 想化特征响应,其中竖直轴是用分贝UB)表示的衰减,水平轴是用赫 兹(Hz)表示的logK)频率。
图9示出了 ERB频率尺度(竖直轴)与用赫兹表示的频率(水平轴) 之间的关系。
图IO示出了近似于ERB尺度上的临界频带的一组理想化听觉滤波器 特征响应。水平尺度是用赫兹表示的频率,竖直尺Jbl用分贝表示的级。
图11示出了 ISO 226的等响度线。水平尺度是用赫兹表示的频率
(iogw尺度),竖直;d是用分贝表示的声压级。
图12示出了由透射滤波器尸(z)^M^化的ISO 226的等响度线,水平 尺M用赫兹表示的频率(log1()尺度),竖直M是用分贝表示的声压级。
图13a是示出了对于对女性i絲片段的0.25倍响度缩放而言的宽带 和多带增益的理想化图。水平尺度是ERB频带,竖直AJL是用分贝(dB) 表示的相对增益。
图13b是分别示出了原始信号、经宽带增益修正的信号、以及经多带 增益修正的信号的特定响度的理想化图。水平尺度是ERB频带,竖直尺 度是特定响度(宋/ERB )。
图14a是示出了对于典型AGC而言的丄。[。与z^]之间函数关系的理 想化图。水平尺度是log(AW),竖直尺度是log(丄。W)。
图14b是示出了对于典型DRC而言的丄。[。与/^]之间函数关系的理 想化图。水平尺AAlog(AW),竖直尺度是log(丄。W).
图15是示出了对于多带DRC而言的典型频带平滑函数的理想化图。 水平尺M频带号,竖直M是对于频带6而言的增益输出。
图16是示出了本发明的一方面的概观的示意性功能框图或示意性流 程图。
图17是与图1类似的还包括对回放环境中噪声的补偿的示意性功能 框图或示意性流程图。
具体实施例方式
图1到4是示出了根据本发明诸方面的可能的前馈、反馈和两个版本的混合前馈/反馈实施的例子的功能框图。
参考图1中前馈拓朴的例子,音频信号被施加于两条路径(l)具有 能够响应于修正M而修正音频信号的过程或设备2 ("修正音频信号") 的信号路径,以及(2)具有能够生成修正^的过程或设备4 ("生成修 正M")的控制路径。图1前馈拓朴例子中的和图2-4例子中的每一个 中的修正音频信号2可以是这样的设备或过程其^Mt从生成^务正^t 4 (或分别从图2-4例子中的每一个中的对应物过程或设备4,、 4"和4",) 接收到的修正参数M以频变和/或时变的方式修正音频信号(例如其幅 度)。生成修正参数4及其在图2-4中的对应物每个都至少部分地在感知 响度域内工作。在图l-4例子中的每一个中,修正音频信号2在电信号域 内工作并生成经修正的音频信号。而且,在图l-4例子中的每一个中,修 正音频信号2和生成1务正^ 4 (或其对应物)修正音频信号以减小其特 定响度与目标特定响度之间的差异。
在图l前馈例子中,过程或设备4可包括几个过程和/或设备"计算 目标特定响度"过程或设备6,其响应于音频信号或音频信号的度量(比 如音频信号的特定响度)而计算目标特定响度;"计算特定响度"过程或 设备8,其响应于音频信号或音频信号的度量(比如其激励)而计算音频 信号的特定响度;以及"计算修正M"过程或设备10,其响应于特定 响度和目标特定响度而计算4务正M。计算目标特定响度6可执行一个或 多个函数"F",其每个可具有函数^lfc。例如,计算目标特定响度6可计 算音频信号的特定响度然后向其施加一个或多个函数F以提供目标特定 响度。这在图1中示意性地显示为到过程或设备6的"选择函数F和函数 参数"输入。代替由设备或过程6计算,目标特定响度可由包含在生成修 正M 4中或与生成修正^lt 4相关联的存储过程或设备(示意性地显示 为到过程或设备10的"存储"输入)来提供,或者由整个过程或设备外 部的源(示意性地显示为到过程或设备IO的"外部"输入)来提供。因 此,修正^至少部分地基于感知(心理声学)响度域内的计算(即,至 少特定响度和在某些情形下目标特定响度计算)。
由过程或设备6、 8和10(以及图2例子中的过程或设备12、 14、 10,, 图3例子中的过程或i殳备6、 14、 10",和图4例子中的过程或i殳备8、 12、 10",)执行的计算可被显式和/或隐式地执行。隐式执行的例子包括(1) 查找表,其条目全部或部分地基于特定响度和/或目标特定响度和/或修正 参数计算,以及(2)闭式数学表达式,其固有地全部或部分地基于特定响度和/或目标特定响度和/或修正参数。
虽然图1例子中的计算过程或设备6、 8和10 (以及图2例子中的过 程或设备12、 14、 10,,图3例子中的过程或i更备6、 14、 10",和图4例 子中的过程或i殳备8、 12、 10,")被分别示意性地示出和描述,但这仅是 出于解释的目的。应理解,这些过程或设备中的部分或全部可组合成单个 过程或设备或者以不同方式组合成多个过程或设备。例如,在下面图9 的布置(如图1的例子中的前馈拓朴)中,计算修正M的过程或i殳备响 应于从音频信号和目标特定响度导出的经平滑的激励而计算修正M。在 图9例子中,计算修正#的设备或过程隐式地计算音频信号的特定响 度.
作为本发明的一方面,在图1的例子中和在此处本发明各实施例的其 它例子中,目标特定响度(》[ZM])可通过以一个或多个缩放因子来缩放 特定响度(可^])来计算。该缩放可以是如以下关系式中的对特定响度 的时变且频变尺度因子S [W]缩放
》[M] = s〖M〗,,《] 如以下关系式中的对特定响度的时变而非频变尺度因子①M缩放
=①[f〗,,f〗
如以下关系式中的对特定响度的非时变而频变尺度因子0间缩放 或者如以下关系式中的对音频信号的特定响度的尺度因子"缩放
其中6是频率的度量(例如频带号),f是时间的度量(例如块号)。亦可 利用特定缩放的多重实例和/或各特定缩放的组合来采用多重缩放。后面 给出这样的多重缩放的例子。在某些情形下,如后面进一步解释的那样, 缩放可以是音频信号或音频信号的度量的函数。在其它情形下,也如后面 进一步解释的那样,当缩放不是音频信号的度量的函数时,缩放可以以其
它方式确定或提供。例如,用户可选择或施加非时变且非频变尺度因子a 或非时变而频变的尺度因子0问缩放。因此,目标特定响度可表示为音频信号或音频信号的度量的一个或多
个函数F (特定响度是音频信号的一个可能的度量)
<formula>formula see original document page 25</formula>
如果该一个或多个函数F是可逆的,则未修正的音频信号的特定响度 (iV[W])可计算为目标特定响度()的一个或多个反函数F、
<formula>formula see original document page 25</formula>。
如后面将看到的那样,该一个或多个反函数F"在图2和图4的反馈和混 合前馈/反馈例子中计算。
示出了计算目标特定响度6的"选择函数和函数^"输入,以表明 设备或过程6可通过根据一个或多个函数^lt施加一个或多个函数来计 算目标特定响度。例如,计算目标特定响度8可计算音频信号的特定响度 的该一个或多个函数"F"以便限定目标特定响度。例如,"选择函数和函 数M"输入可选择属于以上类型缩放中的一种或多种的一个或多个特 定函数;以及一个或多个函数参数,比如属于所述函数的常数(例如尺度 因子)。
如上所述,由于目标特定响度可计算为特定响度的缩放,所以与缩放 相关联的尺度因子可充当目标特定响度的表示。因此,在后面描述且前面 提到的图9例子中,查找表可由尺度因子和激励来索引,4吏得特定响度和 目标特定响度的计算为查找表所固有。
无论采用查找表、闭式数学表达式还是某种其它技术,生成修正M 4(及其在图2-4例子中的每一个中的对应物过程或设备4,、 4"和4",)的 工作使得所述计算基于感知(心理声学)响度域,尽管特定响度和目标特 定响度可能不被显式地算出。要么存在显式特定响度,要么存在概念上的 隐式特定响度。类似地,要么存在显式目标特定响度,要么存在概念上的 隐式目标特定响度。在任何情形下,修正^的计算设法生成这样的修正 参数其修正音频信号以减小特定响度与目标特定响度之间的差异。
在具有次要干扰音频信号(比如噪声)的回放环境中,计算修正M IO(及其在图2-4例子中的每一个中的对应物过程或设备10,、10"和10,") 亦可以以任选输入来接收这样的次要干扰音频信号的度量或该次要干扰 信号本身作为其输入之一。这样的任选输入在图1中(和在图2-4中)以 虚线示出。次要干扰信号的度量可以是比如后面描述的图17的例子中的 该次要干扰信号的激励。向图1中的计算修正;Nt过程或该:备lO (及其在图2-4例子中的每一个中的对应物过程或设备10,、 IO"和IO",)施加千 扰信号的度量或干扰信号本身(假定干扰信号可单独供处理所用)允许适 当配置的这种过程或设备计算考虑了干扰信号的修正^lt, i^后面在标 题"噪声补偿"下进一步解释。在图2-4的例子中,部分特定响度的计算 假定千扰信号的适当度量不仅施加于相应的计算修正参数10,、 IO,,或 10",,而JL拖加于"计算未修正的音频的特定响度的近似"过程或i殳备12 和/或"计算目标特定响度的近似"过程或设备14以便利于该功能或设备 执行部分特定响度的计算。在图1前馈例子中,部分特定响度不被显式地 算出-图1中的计算修正^ 10计算适当的修正^以使得经修正的音 频的部分特定响度近似于目标特定响度。这在后面在上述标题"噪声补偿" 下进一步解释。
如上所述,在图l-4例子中的每一个中,修正参数M当被音频信号 修正器2施加于音频信号时减小作为结果的经修正的音频的特定响度或 部分特定响度与目标特定响度之间的差异。理想地,经修正的音频信号的 特定响度非常近似于目标特定响度或与目标特定响度相同。修正参数M 可例如采取施加于从滤波器组得到的频带或施加于时变滤波器的系数的 时变增益因子的形式。因此,在所有的图l-4例子中,修正音频信号2可 例如实施为每个都在一频带内工作的多个幅度缩放器、或时变滤波器(例 如多抽头FIR滤波器或多极IIR滤波器)。
在本文献中的此处和别处,相同标号的使用表明该设备或过程可与带 有相同标号的另 一个或另 一些i殳备或过程基本上相同。带有上标的标号 (例如"10,")表明该设备或过程与带有相同基标号或其带上标版本的另 一个或另 一些设备或过程在结构或功能上类似但可能是所述另 一个或另 一些设备或过程的修改形式。
在特定约束下,可实现图1的前馈例子的近似等价的反馈布置。图2 描绘了这样的例子,其中音频信号同样施加于信号路径中的修正音频信号 过程或设备2。过程或设备2同样从控制路径接收修正^ltM,在控制路 径中,反馈布置中的生成修正M过程或设备4,从修正音频信号2的输出 端接收经修正的音频信号作为其输入。因此,在图2例子中,是经修正的 音频而不是未修正的音频被施加于控制#。修正音频信号过程或设备2 和生成修正参数过程或设备4,修正音频信号以减小其特定响度与目标特 定响度之间的差异。过程或设备4,可包括几个功能和/或设备"计算未修 正的音频的特定响度的近似"过程或设备12、"计算目标特定响度的近似"过程或i更备14、以及计算修正^的"计算修正M"过程或设备10,。
在该一个或多个函数F可逆这一约束下,过程或设备12通过向经修 正的音频信号的特定响度或部分特定响度施加反函数F1来估计未l务正的 音频信号的特定响度。如上所述,设备或过程12可计算反函数F1。 i1^ 图2中示意性地显示为到过程或设备12的"选择反函数F"和函数^" 输入。"计算目标特定响度的近似"14通过计算经修正的音频信号的特定 响度或部分特定响度来工作。该特定响度或部分特定响^i目标特定响度 的近似。计算修正参数IO,使用未修正的音频信号的特定响度的近似以及 目标特定响度的近似来导出修正^tM,修正^M当被修正音频信号 2施加于音频信号时减小经修正的音频信号的特定响度或部分特定响度 与目标特定响度之间的差异。如上所述,这些修正^M可例如采^fe 加于滤波器组的频带或时变滤波器的系数的时变增益的形式。在计算修正 IO"实际实施例中,及Jt环可在修正^ M的计算和施加之间引入延迟。
如上所述,在具有次要干扰音频信号(比如噪声)的回放环境中,计 算修正^lt 10,、计算未修正的音频的特定响度的近似12、以及计算目标 特定响度的近似14每个都同样可以以任选输入来接收这样的次要干扰音 频信号的度量或该次要干扰信号本身作为其输入之一,且过程或设备12 和过程或设备14每个都可计算经修正的音频信号的部分特定响度。这样 的任选输入在图2中用虚线示出。
如上所述,本发明诸方面的混合前馈/反馈实施的例子是可能的。图3 和4示出了这样的实施的两个例子。在图3和4例子中,如图l和2例子 中那样,音频信号同样施加于信号路径中的修正音频信号过程或设备2, ^t目应控制路径中的生成修正^ (图3中的4",图4中的4",)每个都 接收未修正的音频信号和经修正的音频信号二者。在图3和4例子中,修 正音频信号2和生成修正参数(分别是4"和4",)修正音频信号以减小其 特定响度(它可能是隐式的)与目标特定响度(它也可能是隐式的)之间 的差异。
在图3例子中,生成修正^过程或设备4,可包括几个功能和/或设 备如图l例子中的计算目标特定响度6、如图2反馈例子中的计算目标 特定响度的近似14、以及"计算修正^lt"过程或设备10"。如图l例子 中那样,在此混合前馈/反馈例子的前馈部分中,计算目标特定响度6可 执行一个或多个函数"F",其每个可具有函数参数。这在图3中示意性地显示为到过程或设备6的"选择函数F和函数^lt"输入。在此混合前馈 /反馈例子的反馈部分中,如图2反馈例子中那样,经修正的音频信号被 施加于计算目标特定响度的近似14。过程或设备14通过计算经修正的音 频信号的特定响度或部分特定响度来如它在图2例子中工作那样在图3 例子中工作。这样的特定响度或部分特定响Jbl目标特定响度的近似。目 标特定响度(来自过程或设备6)和目标特定响度的近似(来自过程或设 备14)被施加于计算修正^ltlO,,以导出修正^ltM,修正^M当被 修正音频信号2施加于音频信号时减小未修正的音频信号的特定响度与 目标特定响度之间的差异。如上所述,这些修正^ M可例如采取施加 于滤波器组的频带或时变滤波器的系数的时变增益的形式。在实际实施例 中,反馈环可在修正参数M的计算和施加之间引入延迟。如上所述,在 具有次要干扰音频^f号(比如噪声)的回放环境中,计算修正参数10" 和计算目标特定响度的近似14每个都同样可以以任选输入来接收这样的 次要干扰音频信号的度量或该次要干扰信号本身作为其输入之一,且过程 或设备14可计算经修正的音频信号的部分特定响度。任选输入在图3中 用虚线示出。
计算修正^lt IO"可采用误差检测设备或功能,使得其目标特定响度 与目标特定响度近似输入之间的差异调整修正参数以便减小目标特定响 度的近似与"实际"目标特定响度之间的差异.这样的调整减小了未修正 的音频信号的特定响度与目标特定响度(其可能是隐式的)之间的差异。 因此,修正参数M可基于目标特定响度与目标特定响度近似之间的误差 被更新,其中目标特定响度在前馈路径中根据原始音频的特定响度使用函 数F算出,而目标特定响度近似在反馈路径中根据经修正的音频的特定响 度或部分特定响度算出。
在图4例子中,示出了一个可替选的前馈/^Jt例子。此可替选例子 与图3的例子的不同之处在于该一个或多个反函数F"在反馈路径中计 算,而不是该一个或多个函数F在前馈路径中计算。在图4例子中,生成 修正M过程或设备4,可包括几个功能和/或设备如图l前馈例子中的 计算特定响度8、如图2反馈例子中的计算未修正的音频的特定响度的近 似12、以及计算修正参数10,"。如图l前馈例子中那样,计算特定响度8 提供未修正的音频信号的特定响度作为到计算修正;^lt 10",的输入。如图 2>^馈例子中那样,在该一个或多个函数F可逆这一约束下,过程或设备 12通过向经修正的音频信号的特定响度或部分特定响度施加反函数F1来 估计未修正的音频信号的特定响度。示出了计算未修正的音频的特定响度的近似12的"选择反函数和反函数参数"输入,以表明如上所述那样设 备或过程12可计算反函数F1。这在图4中示意性地显示为到过程或设备 12的"选择反函数F"和函数^"输入。因此,过程或设备12提供未 修正的音频信号的特定响度的近似作为到计算修正M IO,"的另一个输 入。
如图1-3的例子中那样,计算修正M 10",导出修正^ltM,修正 参数M当被修正音频信号2施加于音频信号时减小未修正的音频信号的 特定响度与目标特定响度(其在此例子中是隐式的)之间的差异。如上所 述,修正^ M可例如采取施加于滤波器组的频带或时变滤波器的系数 的时变增益的形式。在实际实施例中,^J绩环可在〗务正M M的计算和 施加之间引M迟。如上所述,在具有次要干扰音频信号(比如噪声)的 回放环境中,计算修正M IO,,,和计算未修正的音频的特定响度的近似 12每个都同样可以以任选输入来接收这样的次要干扰音频信号的度量或 该次要干扰信号本身作为其输入之一,且过程或设备12可计算经《务正的 音频信号的部分特定响度。任选输入在图4中用虚线示出。
计算修正^lt IO",可采用误差检测设备或功能,使得其特定响度与 特定响度近似输入之间的差异产生这样的输出其调^^正M以便减小 特定响度的近似与"实际"特定响度之间的差异。因为特定响度的近似从 经修正的音频的特定响度或部分特定响度(其可视为目标特定响度的近 似)导出,所以这样的调整减小了经修正的音频信号的特定响度与目标特 定响度(其为该一个或多个函数F"所固有)之间的差异。因此,修正参 数M可基于特定响度与特定响度近似之间的误差被更新,其中特定响度 在前馈路径中根据原始音频算出,而特定响度近似在反馈路径中根据经修 正的音频的特定响度或部分特定响度、使用该一个或多个反函数F1算出。 归因于J^馈3M^,实际实施可在修正^t的更新和施加之间引AJl迟。
虽然图1-4的例子中的修正^M当被施加于〗务正音频信号过程或 设备2时减小音频信号的特定响度与目标特定响度之间的差异,但在实际 实施例中,响应于同一音频信号而产生的对应^"正^可能彼此不相同。
虽然对本发明诸方面来说不是关键或必需的,音频信号或经修正的音 频信号的特定响度的计算可有利地采用7>布为WO 2004/111964 A2的所 述国际专利申请号PCT/US2004/016964中阐述的技术,其中该计算>^构 成一组的两个或更多特定响度模型函数中选择两个或更多所述特定响度 模型函数中的一个或组合,其选择由输入音频信号的特征的度量来控制。后面对图7的特定响度104的描述描述了这样的布置。
根据本发明的又一些方面,未修正的音频信号以及(1)修正M或 者(2)目标特定响度或目标特定响度的表示(例如,可用于显式或隐式 地计算目标特定响度的缩放因子)可被存储或发送以例如供时间和/或空
间分离的设备或过程使用。如上所述,修正参数、目标特定响度或目标特 定响度的表示可以如例如图1-4的前馈、反馈和混合前馈/反馈布置例子之 一中那样以任何适当方式确定。在实践中,比如图1的例子中的前馈布置 是最不复杂和最快的,因为它避免了基于经修正的音频信号的计算。在图 5中示出了发送或存储未修正的音频和修正^的例子,而在图6中示出 了发送或存储未修正的音频和目标特定响度或目标特定响度的表示的例 子。
比如图5的例子中的布置可用来将修正参数向音频信号的施加与这 样的修正^lt的生成在时间和/或空间上分离。比如图6的例子中的布置 可用来将修正参数的生成和施加与目标特定响度或其表示的生成在时间 和/或空间上分离。这两种类型的布置都使得避免了生成修正参数的或生 成目标特定响度的复杂度的简单低成本回放或接收布置成为可能。虽然图 5类型的布置比图6类型的布置简单,但图6布置具有如下优点尤其是 当目标特定响度的表示(比如一个或多个尺度因子)被存储或发送时,需 要被存储或发送的信息可少得多。信息存储或发送的这种减小在低比特率 音频环境中可能尤其有用。
相应地,本发明的又一些方面是提供这样的设备或过程(l)其从存 储或发送设备或过程接收或回放修正参数M并将它们施加于同样被接收 到的音频信号;或者(2)其从存储或发送设备或过程接收或回放目标特 定响度或目标特定响度的表示,通过将目标特定响度或其表示施加于同样 被接收到的音频信号(或施加于音频信号的度量比如其特定响度,其中特 定响度可从音频信号导出)来生成修正参数M,并将修正^M施加于 接收到的音频信号。这样的设备或过程可特征化为解码过程或解码器;而 产生存储或发送的信息所需的设备或过程可特征化为编码过程或编码器。 这样的编码过程或编码器是图l-4布置例子中的那些可用来产生相应解码 过程或解码器需要的信息的部分。这样的解码过程或解码器可与处理和/ 或再现声音的几乎任何类型的过程或设备相关联或一起工作。
在本发明的一方面,如图5的例子中那样,例如由修正M生成过程 或生成器(比如图1的生成^务正^lt4、图2的生成修正^IU,、图3的生成修正^lt 4"、或图4的生成修正M 4",)产生的修正M M和未 修正的音频信号可被施加于任何适当的存储或发送设备或功能("存储或 发送")16。在使用图1的前馈例子作为编码过程或编码器的情形下,如 果无需在编码器或编码过程的时间或空间位置提供经修正的音频,则修正 音频信号2将不需要生成经修正的音频并可被省略。存储或发送16可包 括例如任何适当的磁、光或固态存储器和回放设备或任何适当的有线或无 线发送和接收设备,其选择对本发明来说不是关键的。回放或接收的修正 ^!t然后可被施加于图l-4的例子中采用的类型的修正音频^t2,以便 修正回放或接收的音频信号使得其特定响度近似于从中导出修正参数的 布置的或为该布置所固有的目标特定响度.修正^可以以各种方式中的 任一种存储或发送。例如,它们可作为伴随音频信号的元数据^L存储或发 送,它们可在不同的路径或通道中被发送,它们可在音频中被加密编码, 它们可被复用,等等。使用修正M来修正音频信号可以是任选的,且如 果是任选的,则它们的使用可例如由用户选择。例如,修正M当被施加 于音频信号时可减小音频信号的动态范围。是否要采用这样的动态范围减 小可由用户选择。
在本发明的另一方面,如图6的例子中那样,未修正的音频信号和目 标特定响度或目标特定响度的表示可被施加于任何适当的存储器或发送 设备或功能("存储或发送")16。在使用比如图1的例子中的前馈配置作 为编码过程或编码器的情形下,如果无需在编码器或编码过程的时间或空 间位置提^H务正^或经修正的音频,则计算修正M 10类型的过程或 设备和修正音频信号2类型的过程或设备都将不需要并可被省略。如图5
例子的情形下那样,存储或发送16可包括例如任何适当的磁、光或固态 存储器和回放设备或任何适当的有线或无线发送和接收设备,其选择对本
发明来说不是关键的。回放或接收的目标特定响度或目标特定响度的表示 然后可与未修正的音频一起被施加于图1例子中采用的类型的计算修正 参数10或施加于图3例子中采用的类型的计算修正M 10",以便提供 修正M M,然后#"正>|* M可被施加于图1-4例子中采用的类型的修 正音频信号2,以便修正回放或接收的音频信号使得其特定响度近似于从 中导出4务正^lt的布置的或为该布置所固有的目标特定响度。虽然目标特 定响度或其表示最容易可以在图1例子类型的编码过程或编码器中获得, 但目标特定响度或其表示或者目标特定响度的近似或其表示可以在图2-4 例子类型的编码过程或编码器中获得(近似在图2和3中的过程或设备 14中以及在图4中的过程或设备12中计算)。目标特定响度或其表示可以以各种方式中的任一种存储或发送.例如,其可作为伴随音频信号的元 数据被存储或发送,其可在不同的路径或通道中被发送,其可在音频中被 加密编码,其可被复用,等等。使用从存储或发送的目标特定响度或其表 示导出的修正参数来修正音频信号可以是任选的,且如果是任选的,则它 们的使用可例如由用户选择。例如,修正^t当被施加于音频信号时可减 小音频信号的动态范围。是否要采用这样的动态范围减小可由用户选择。
当将本发明实施为数字系统时,前馈配置是最实用的,因此下面详细 描述这样的配置的例子,但应理解本发明的范围不局限于此。
在整篇文献中,比如"滤波器"或"滤波器组"的术语在此用来包括
基本上任何形式的递归和非递归滤波,比如IIR滤波器或变换,而"经滤 波的"信息是施加这样的滤波器的结果。下面描述的实施例采用由变换实 现的滤波器组。
图7描绘了体现在前馈布置中的本发明的一方面的示例实施例的更 多细节。音频首先通过分析滤波器组功能或设备("分析滤波器组")100, 分析滤波器组100将音频信号分成多个频带(因此,图5示出了分冲斤滤波 器組100的多个输出,每个输出表示一个频带,该输出经过各功能或设备 一直到合成滤波器组,合成滤波器组将各频带相加为组合宽带信号,这在 后面进一步描述)。分析滤波器组IOO中的每个频带所关联的滤波器的响 应被设计成对内耳基膜的特定位置的响应进行仿真。接着,分析滤波器组 100中的每个滤波器的输出传入透射滤波器或透射滤波器功能("透射滤 波器")101,透射滤波器101对音频透过外耳和中耳的透射这一滤波效应 进行仿真。如果^f5l要计量音频的响度,透射滤波器可先于分析滤波器组被 施加,但因为分析滤波器组输出被用来合成经修正的音频,所以在该滤波 器组之后施加透射滤波器是有利的。接着,透射滤波器101的输出传入激 励功能或设备("激励")102,激励102的输出对能量沿基膜的分布进行 仿真。激励能量值可由平滑功能或i殳备("平滑")103在时间上平滑。平 滑功能的时间常数根据期望应用的要求来i殳置。随后,经平滑的激励信号 在特定响度功能或设备("特定响度(SL)") 104中被转换成特定响度。 特定响度以"宋每单位频率"为单位来表示。每个频带所关联的特定响度 分量被传入特定响度修正功能或设备("SL修正")105。 SL修正105将 原始特定响度取作其输入然后输出期望或"目标"特定响度,根据本发明 的一方面,该期望或"目标"特定响度优选为原始特定响度的函数(参见 后面的标题,名称为"目标特定响度")。依赖于所期望的效果,各频带之间可存在相互依赖性(图7中的交叉连接线所示的频率平滑),或者SL 修正105可在每个频带上独立工作。将来自激励102的经平滑的激励频带 分量和来自SL修正105的目标特定响JL取作输入,增益求解器功能或i殳 备("增益求解器")106确定需要被施加于分析滤波器组100的输出的每 个频带以便将计量到的特定响度变换成目标特定响度的增益。增益求解器 可以以各种方式实现。例如,增益求解器可包括比如公布为WO 2004/111964 A2的所述国际专利申请号PCT/US2004/016964中公开的迭 代过程那样的迭代过程,或(可替选地)表查找。虽然增益求解器106 所生成的每频带增益可由任选的平滑功能或设备("平滑")107在时间上 进一步平滑以使感知假象最小化,但优选地在整个过程或设备中的其它地 方施加时间平滑,如别处描述的那样。最后,增益通it^目应的乘法组合功 能或组合器108 ^L施加于分析滤波器组100的相应频带,由经增益修正的 频带在合成滤波器组功能或设备("合成滤波器组")110中合成经处理的 或"经修正的"音频。此外,分析滤波器组的输出可在施加增益之前fc^ 迟功能或设备("延迟")109延迟以便补偿与增益计算相关联的任何等待 时间。可替选地,代替计算在频带中施加增益修正所使用的增益,增益求 解器106可计算控制时变滤波器(比如多抽头FIR滤波器或多极IIR滤 波器)的滤波器系数。为便于说明,本发明诸方面主要描述为采用施加于 频带的增益因子,但应理解亦可在实际实施例中釆用滤波器系数和时变滤
在实际实施例中,音频处理可在数字域内执行。因此,音频输入信号 由以某个采样频率/,从音频源采样得到的离散时间序列x["]来表示。假定
序列4"]已被适当缩放以使得由下式给出的4"]的均方根功率(分贝)
fi £ 、 爾必=101唯。75>2["]
71=0
与收听者收听音频的声压级(分贝)相等。此外,为便于说明,假定音频 信号是单声道的。
分析滤波器组IOO、透射滤波器101、激励102、特定响度104、特定 响度修正105、增益求解器106和合成滤波器组110可更详细地描述如下。
分析滤波器组100
音频输^^信号被施加于分析滤波器组或滤波器组功能("分析滤波器组")100。分析滤波器组100中的每个滤波器被设计成对沿着内耳基膜的 特定位置的频率响应进行仿真。滤波器组100可包括一组线性滤波器,该 组线性滤波器的带宽和间距在由Moore、 Glasberg和Baer定义的等价矩 形带宽(ERB)频率尺度(B. C. J. Moore, B. Glasberg, T. Baer, "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness,"见前 面)上是恒定的。
虽然ERB频率尺度与人类感知更紧密地匹配并且在产生与主观响度 结果匹配的客观响度计量结果方面展示出改善的性能,但也可以以性能降 低的方式采用Bark频率尺度。
对于中心频率/(赫兹), 一个ERB频带的宽度(赫兹)可近似为
£朋(/) = 24.7(4.37//1000 + 1) (1) 根据此关系式,弯曲频率尺度被定义为使得在沿着弯曲尺度的任何点
处,以弯曲尺度为单位的对应ERB等于1。用于从线性频率(赫兹)向 此ERB频率尺度转换的函数通过将等式1的倒数积分来获得
历7b五朋0 f-^-c//=21.41og10(4.37//1000 + l) (2a)
J 24.7(4.37//1000 + 1) &io、 J
通过在等式2a中求解/来表ii^ERB尺度回到线性频率尺度的变换 也是有用的
層綠(e) = / = =10(6/21") (2b)
其中e以ERB尺度为单位。图9示出了 ERB尺度与频率(赫兹)之间的 关系。
分析滤波器组100可包括处于沿着ERB尺度均匀间隔开的中心频率
.y;["的、称为频带的s个听觉滤波器。更具体而言,
= (3a)
/C[W = /C[6 —1] +五朋raHzCHzIb五朋C/;[6 —1]) + A) 6 = 2—5 (3b)
训</隨, (3c) 其中A是分析滤波器组100的期望ERB间距,/_和/_分别是期望最小和最大中心频率。可选择A-1,考虑到人耳敏感的频率范围,可设置L
=50 Hz且= 20,000 Hz。利用例如这样的^lt,应用等式3a-3c得到5 -40个听觉滤波器。
Moore和Glasberg提出,每个听觉滤波器的幅频响应可由舍入 (rounded)指数函数特征化。具体而言,具有中心频率/;问的滤波器的 幅度响应可计算为
<formula>formula see original document page 35</formula> (4a)
其中,
<formula>formula see original document page 35</formula>(4b)
<formula>formula see original document page 35</formula>(4c)
图10中示出了近似于ERB尺度上的临界频带的这样的万个听觉滤波器的 幅度响应。
分析滤波器组100的滤波操作可使用常称为短时离散傅立叶变换 (STDFT )的有限长度离散傅立叶变换足够地取近似,因为以音频信号 的采样速率运转滤波器的实施(称为全速率实施)被认为提供了超出精确 响度计量所必需的时间分辨率。通过使用STDFT而不是全速率实施,可 实现效率的提高和计算复杂度的降低。
输入音频信号x["]的STDFT被定义为
<formula>formula see original document page 35</formula>(5a)
其中&是频率指标,f是时间块指标,W是DFT大小,r是0巨大小, 是被归一化使得
<formula>formula see original document page 35</formula> (5b)
的长度w窗口。
注意,与用秒度量时间形成对比,等式5a中的变量f是表示STDFT 的时间块的离散指标。f的每个增量表示沿着信号r个样本的0巨。 后面对指标f的引用采取了此定义。尽管依赖于实施细节可使用不同的参
35数设置和窗口形状,树于厶=44層他,选捧JV-2048 、 r = 1024并且使wn
为Hanning窗提供了时间和频率分辨率的足够平衡。使用快速傅立叶变 换(FFT),上述STDFT可能效率更高.
代替STDFT,可利用修正离^t余弦变换(MDCT)来实现分析滤波 器组。MDCT是常用在感知音频编码器比如Dolby AC-3中的变换。如果 本发明的系统利用这种感知编码音频来实现,则通过处理该编码音频的现 有MDCT系数从而消除执行分析滤波器组变换的需要,本发明的响度计 量和修正可更有效地实现。输入音频信号x["]的MDCT由下式给出
邓,,]=Z剩x[" + J] cos((2;r / A0(A: +1 / 2)(" + w0))
其中 。=^f±l (6)
通常,0巨大小r被选择为变换长度iv的',一半,使得有可能完美地重
构信号JC["]。
透射滤波器101
分析滤波器组100的输出被施加于透射滤波器或透射滤波器功能 ("透射滤波器")101,透射滤波器101根据音频透it^卜耳和中耳的透射 对滤波器组的每个频带进行滤波。图8描绘了在可听频率范围内的、透射 滤波器的一个适当的幅频响应尸(/)。在1姐z以下,该响应是1,而在1 kHz 以上,该响应与IS0 226标准中规定的听觉阈值成反比,其中该阈值在l kHz归一4匕为1。
激励102
为了计算输入音频信号的响度,需要在施加透射滤波器101之后度量 分析滤波器组100的每个滤波器中的音频信号的短时能量.此时变且频变 的度量被称为激励。分析滤波器组100中的每个滤波器的短时能量输出可 在激励功能102中通过将频域内的滤波器响应与输入信号的功率谱相乘 来取近似
其中Z)是频带号,/是块号,仏W和iW分别是以对应于STDFT或MDCT双态(bin)指标A的频率采样得到的听觉滤波器和透射滤波器的频率响 应。应注意,可在等式7中使用与等式4a-4c中规定的听觉滤波器幅度响 应不同的听觉滤波器幅度响应的各形式来实现类似的结果。例如,公布为 WO 2004/111964 A2的所述国际申请号PCT/US2004/016964描述了两种 可替选方案由第12阶IIR传递函数特征化的听觉滤波器、以及低成本 "砖墙(brick-wall)"带通近似。
总而言之,激励功能102的输出是能量五在相应ERB频带6中在每 个时间段,的频域表示。
时间平均("平滑")103
如后面描述的那样,对于本发明的某些应用,可能期望在激励 ]变 换成特定响度之前将其平滑。例如,可才艮据以下等式在平滑功能103中递 归地执行平滑处理
<formula>formula see original document page 37</formula> (8)
其中每个频带6处的时间常数A根据期望应用来选择。在大多数情形下, 时间常数可有利地选择为与频带6内人类响度感知的积分时间成比例。 Watson和Gengel进行实验证明了此积分时间在低频(125-200 Hz)下处 于150-175 ms范围内而在高频下处于40-60 ms范围内(Charles S. Watson 和Roy W. Gengel, "Signal Duration and Signal Frequency in Relation to Auditory Sensitivity" Journal of the Acoustical Society of America, 第46 巻,第4号(第2部分),1969年,989-997页)。
特定响度104
在特定响度转换器或转换功能("特定响度")104中,激励的每个频 带被转换成以"宋每ERB"度量的特定响度的分量值。
初始时,在计算特定响度时,E[M的每个频带中的激励级可被变换 成图12中的由透射滤波器尸②M^化的图11中的ISO 226的等响度线所 规定的1 kHz处的等价激励级
<formula>formula see original document page 37</formula> (9) 其中《股(五,/)是生成与频率/处的级五等响度的、1 kHz处的级的函数。在实践中,T^(A/)被实施为由透射滤波器M^f匕的等响度线的查找表的
插值。向1 kHz处的等价级的变换简化了下面的特定响度计算。 接着,每个频带中的特定响度可计算为
<formula>formula see original document page 38</formula> (10)
其中^[W]和l[M分别U于窄带和宽带信号模型的特定响度值。值 [^]是根据音频信号计算的处在0和1之间的插值因子。公布为wo 2004/111964 A2的所述国际申请号PCT/US2004/016964描述了 一种用于 根据激励的频谙平坦度计算"[M]的技术。其还更详细地描述了 "窄带" 和"宽带"信号模型。
窄带和宽带特定响度值AU[V]和A^[M可使用指数函数根据经变换 的激励来估计
E腿[6,,]〉rQ鹏 (lla) 否则
^姐z[6,。〉ra他 (lib) 否则
其中W股是对于lkHz音调而言的静音阈值处的激励级。从等响度线(图 11和图12)中看出,re,等于4.2dB。注意,当激励等于静音阈值时,这 两个特定响度函数都等于零,对于大于静音阈值的激励,这两个函数都根 据强度感觉的Stevens定律以幂律单调增长,用于窄带函数的指数被选择为 比用于宽带函数的指数大,这使得窄带函数比宽带函数更i5tit地增大。用 于窄带和宽带情形的指数/ 和增益G的特定选^选择为与关于音调和噪 声的响度的增长的实验数据匹配。
Moore和Glasberg提出当激励处于听觉阈值时,特定响度应等于 某个小值而不是零。特定响度于是应随着激励减小到零而单调减小到零。 理由是听觉阈值是概率性阈值(在50%时间检测到音调的点),而且一起 呈现的每个都处于阈值的许多音调可相加为比任何单独音调更可听见的 一个声音。在本申请中,将特定响度函数扩充有此特性具有如下额外优点 使得后面讨论的增益求解器在激励接近阈值时更适当地运转。如果在激励 处于或低于阈值时特定响度被限定为零,则对于处于或低于阈值的激励而言增益求解器的唯一解不存在。另一方面,如果如Moore和Glasberg所 提出的那样对于所有大于或等于零的激励值而言特定响度被限定为单调 增大,则唯一解存在。大于1的响度缩放将总是导致大于1的增益,反之 亦然。等式lla和lib中的特定响度函数可根据下式更改为具有期望特性
<formula>formula see original document page 39</formula>
(llc)
<formula>formula see original document page 39</formula>(lld)
其中常数;i大于l,指数w小于l,常数咒和C被选择为使得特定响度函 数及其一阶导数在点罵股[&,,] = Ara她处连续。
根据特定响度,总体或"总"响度则由所有频带6的特定响度的总 和给出
<formula>formula see original document page 39</formula>(12)
特定响度修正105
在特定响度修正函数("特定响度修正")105中,被称为々[W]的目 标特定响度可依赖于总体i更备或过程的期望应用以各种方式^4t SL 104 (图7)的特定响度计算。将在后面更详细地描述,在音量控制的情形下, 目标特定响度可例如使用尺度因子《来计算。参见后面的等式16及其相 关联的描述。在自动增益控制(AGC)和动态范围控制(DRC)的情形 下,目标特定响度可使用期望输出响度与输入响度的比值来计算。参见后 面的等式17和18及其相关联的描述。在动态均衡的情形下,目标特定响 度可使用等式23中阐明的关系及其相关联的描述来计算.
增益求解器106
在这个例子中,对于每个频带6和每个时间间隔,,增益求解器106将经平滑的激励E[M和目标特定响度々[W]取作输入,并生成随后用于修
正音频的增益g[6,,]。令函数甲H表示从激励到特定响度的非线性变换,使 得
顺]=平{取,]} (13)
增益求解器求得g[zm], ^f吏得
麵,,]=甲{(72[6,顿6,。} (14a)
增益求解器106确定频变且时变的增益,频变且时变的增益当祐:施加于原始 激励时产生理想地等于期望目标特定响度的特定响度。在实践中,增益求
解器106确定频变且时变的增益,频变且时变的增益当被施加于音频信号的
频域版本时导致修正音频信号以便减小其特定响度与目标特定响度之间 的差异。理想地,该<务正4吏得经#"正的音频信号具有为目标特定响度的精
确近似的特定响度。等式14a的求解可以以许多种方式实现。例如,如果由 Y-力表示的特定响度的反函数的闭式数学表达式存在,则增益可直接用重 新整理的等式14a计算
可替选地,如果Y力的闭式解不存在,则可采用迭代法,其中,对于每次 迭代,^^用增益的当前估计来评估等式14a。作为结果的特定响度与期望目 标相比较,且增益基于误差被更新。如果增益被适当地更新,则增益将收 敛至期望解。另 一方法包括针对每个频带中一定范围的激励值预计算函数 平fl以创建查找表。^L据此查找表,获得反函数甲"tt的近似,于是增益可 根据等式14b计算。如上所述,目标特定响度可由特定响度的缩放来表示
= S[Zm],," (14c) 将等式13代入14c然后将14c代入14b,得到增益的可替选表达式
翻 ,
~ 五[M
我们看到,增益可完全表达为激励E[M和特定响度缩放s[^]的函数。因此, 可通过14d的评估或等价的查找表、而不曾显式地计算特定响度或目标特
40定响度作为中间值来计算增益。然而,这些值通过使用等式14d被隐式地 计算。亦可设计通过特定响度和目标特定响度的显示或隐式计算来计算修 正M的其它等价方法,本发明意在涵盖所有这样的方法。
合成滤波器组110
如上所述,分析滤波器组100可通过使用短时离散傅立叶变换 (STDFT)或修正离散余弦变换(MDCT)来有效地实现,并可类似地 使用STDFT或MDCT来实现合成滤波器组110。具体而言,如前面所定 义的那样,令z[^]表示输入音频的STDFT或MDCT,合成滤波器组110 中经处理(经修正)的音频的STDFT或MDCT可计算为
力f ] = ZG[V]W&OTM-d] (15)
其中WW是与频带6相关联的合成滤波器的响应,J是与图7中的延迟块 109相关联的延迟。合成滤波器的形状^W可被选择为与分析滤波器组中 使用的滤波器的形状仏W相同,或者它们可被修正为在无任何增益修正 的情况下(即,当( [^] = 1时)拔:供完美的重构。然后可通过f[^]的逆傅 立叶或修正余弦变换和叠加合成来生成最终经处理的音频,这是本领域技
术人员所熟悉的。
目标特定响度
比如图l-7例子的、体现本发明诸方面的布置的行为主要由计算目标 特定响度所^]所采用的方式决定。虽然4^发明不受用于计算目标特定响 度的任何具体函数或反函数的限制,但现在将描述几个这样的函数和它们 的适当应用。
适用于音量控制的非时变且非频变的函数
标准音量控制通过向音频施加宽带增益来调整音频信号的响度。 一般 而言,增益^L耦合至凝:钮或滑动器,旋钮或滑动器由用户调整,直到音频 的响度处于期望级为止。本发明的一方面允许实现这种控制的更符合心理 声学的方法。根据本发明的此方面,并非使宽带增益耦合至音量控制(其 导致所有频带的增益改变相同的量,这可能造成感知频镨的改变),而是使特定响度缩放因子与音量控制调整相关联,使得多个频带中每个频带的 增益改变了考虑了人类听觉模型的量,使得理想而言感知频谱没有改变。 在本发明的此方面及其示例应用的背景下,"恒定的"或"非时变的"意
在允许由用户例如时而改变音量控制尺度因子的^:置。该"非时变的"有 时被称为"准非时变的"、"准静态的"、"分段式非时变的"、"分段 式静态的"、"阶跃式非时变的"和"阶跃式静态的"。给定这样的;CJL
因子《,目标特定响度可计算为计量到的特定响度乘以"
麵"]-a/V[6,。 (16)
由于总响度印]是所有频带6的特定响度A^,,]的总和,所以上面的4务 正同样将总响度缩放了 "倍,但其以在特定时间对于音量控制调整的改变 保持相同的感知频镨的方式来进行.换句话说,在任何特定时间,音量控 制调整的改变导致感知响度的改变,但不导致经《务正的音频的感知频镨相
对于未1务正的音频的感知频镨的改变。图13a描绘了对于由女性讲话构成 的音频信号而言的、当《=0.25时、在特定时间",、在频带"6"内的作 为结果的多带增益G[W]。为了比较,还描绘了如标准音量控制中的将原 始总响度缩放0.25倍所需的宽带增益(水平线)。与中频带相比,在低 和高频带,多带增益G[V]增大。这与表明人耳在低频和高频较迟钝的等 响度线相符合。
图13b描绘了原始音频信号、根据现有技术的音量控制修正了的经宽 带增益修正的信号、以及根据本发明的此方面修正了的经多带增益修正的 信号的特定响度。经多带增益修正的信号的特定响度是原始信号被缩放 0.25倍后的特定响度。相对于原始未修正的信号的特定响度,经宽带增益 修正的信号的特定响度的频镨形状发生了改变。在此情形下,在相对意义 上,特定响度在低频和高频处响度受损失。这被感知为音频随着其音量被 调低而钝化,这个问题不在其响度由在感知响度域内导出的增益来控制的 经多带修正的信号的情形下发生。
与传统音量控制相关联的感知频谱平衡的失真一起,还存在第二个问 题。反映在等式lla-lld中所反映的响度模型中的响度感知特性是任何 频率下信号的响度随着信号级逼近听觉阈值而更iStil地减小。因此,向较 柔和信号和较响亮信号施加相同的响度衰减,较柔和信号所需的电衰减小 于较响亮信号所需的电衰减。传统音量控制无论信号级如何都施加恒定的 衰减,因此,随着音量被调低,柔和信号相对于较响亮信号变得"过于柔 和"。在^f艮多情形下,这导致音频中的细节丢失。考虑混响室中响板的录音。在这样的录音中,响板的主"击打"与混响回音相比是颇为响亮的, 但正是混响回音传达该室的大小。随着利用传统音量控制来调低音量,混 响回音与主击打相比变得更柔和,并最终消失在听觉阈值以下,留下发"干 的"声音的响板。基于响度的音量控制防止录音的较柔和部分消失的方法
是相对于较响亮的主击打而增强录音的较柔和的混响部分,以使得这些
部分之间的相对响度维持恒定。为了实现此效果,多带增益G[6,,]必须以
与响度感知的人类时间分辨率相称的速率随时间变化。由于多带增益
邵,,]作为经平滑的激励f[M的函数被计算,所以等式8中的时间常数^ 的选择决定了增益可在每个频带6中随时间变化的速度。如上所述,这些 时间常数可选择为与频带6内人类响度感知的积分时间成比例,并因此得 到G[zu]随时间的适当变化.应注意,如果时间常数被不适当地选择(过 快或过慢),则感知上有害的假象可能被引入经处理的音频中。
适用于固定的均衡的非时变而频变的函数
在某些应用中,可能希望向音频施加固定的感知均衡,在此情形下, 目标特定响度可通过施加如以下关系式中的非时变但频变尺度因子 来计算
》[ZM] = [6],,f]
其中》[6,,]为目标特定响度,7V[^]为音频信号的特定响度,6为频率的度 量,,为时间的度量.在此情形下,缩放可随频带不同而变化。这样的应用
可用于例如突出ig频率占主导的频,分以便提高可懂度。
适用于自动增益控制和动态范围控制的非频变而时变的函数
自动增益控制和动态范围控制(AGC和DRC )的技术在音频处理领 域是众所周知的。在抽象意义上,这两种技术以某种方式计量音频信号的 级,然后用为计量级的函数的量对该信号执行增益修正。对于AGC的情 形,信号被执行增益修正,使得其计量级更接近用户选择的参考级。对于 DRC,信号被执行增益修正,使得信号的计量级的范围被变换成某个期 望范围。例如,可能希望使音频的安静部分较响亮而响亮部分较安静。 Robinson和Gundry描述了这样的系统(Charles Robinson和Kenneth Gundry, "Dynamic Range Control via Metadata" , AES第107届^i义, 预印本5028, 1999年9月24-27日,纽约)。AGC和DRC的传统实施一般利用音频信号级的简单计量(比如经平滑的呻,值或均方根(rins)幅 度)来驱动增益修正。这样的简单计量在一定程度上与音频的感知响度相 关联,但本发明诸方面通过利用基于心理声学模型的响度计量驱动增益修 正来允许与感知更贴切的AGC和DRC。同样,4艮多传统AGC和DRC 系统利用宽带增益施加增益修正,从而招致经处理音频的上述音色(频镨) 失真。而本发明诸方面则利用多带增益以降低或最小化这样的失真的方式 调整特定响度。
采用本发明诸方面的AGC和DRC应用均由将输入宽带响度AW变换 或映射成期望输出宽带响度ZJ。的函数来特征化,其中响度以感知响度单 位(比如宋)来度量。输入宽带响度AW是输入音频信号的特定响度A^M] 的函数。虽然它可能与输入音频信号的总响度相同,但它可为音频信号的 总响度的经时间平滑的版本。
图14a和14b分别描绘了对于AGC和DRC而言典型的映射函数的 例子。给定其中丄。W是AW的函数的映射,目标特定响度可计算为
音频信号的原始特定响度ATM被简单地缩放等于期望输出宽带响度与输
入宽带响度的比值的倍数,以得到输出特定响度々[W]。对于AGC系统, 输入宽带响度AW —般应为音频的长期总响度的度量。这可通过在时间上 平滑总响度ZW以生成丄,W来实现。
与AGC相比,DRC系统对信号响度的较短期改变起反应,因此可 简单地使A[。等于丄W。因此,由丄。W/AW给出的特定响度的缩放可能i^il 地波动从而导致经处理的音频中存在不希望的假象。 一个典型的假象是 频镨的一部分受到频镨的某些其它相对不相关部分的可听到的调制。例 如,古典音乐段可能包含持续弦音符占主导的高频,而低频包含响亮的发 轰隆声的定音鼓。每当定音鼓击打时,总体响度AW增大,且DRC系统 向整个特定响度施加衰减。于是听到弦与定音鼓一起在响度上上下"泵动 (pump)"。频谦中的这种"交叉泵动(crosspumping)"也是传统宽 带DRC系统的一个问题,典型的解决方案包括向不同频带独立地施加 DRC。归因于采用感知响度模型的特定响度的计算以及滤波器组,本发 明的系统是固有多带的,因此根据本发明诸方面将DRC系统修正为以多 带方式工作是相对直接的,接下来将描述这种修正。适用于动态范围控制的频变且时变的函数
通过允许输入和输出响度随频带Z)独立地变化,DRC系统可被扩展 为以多带或频变方式工作。这些多带响度值记为A[V]和Z。[Z),/],于是目标 特定响度可由下式给出
其中已如图14b所示、^于每个频带6独立地从A仇,]算出或映射出丄 ]。
输入多带响度A[M是输入音频信号的特定响度7V[M的函数。虽然它可能 与输入音频信号的特定响度相同,但它可为音频信号的特定响度的经时间
平滑和/或频率平滑的版本。
计算A[M的最直接方法是将其设置成等于特定响度A^M]。在此情形
下,DRC在感知响度模型的听觉滤波器组中的每个频带上独立地执行, 而并非如上面在标题"适用于自动增益控制和动态范围控制的非频变而时 变的函数"下描述的那样对于所有频带根据同一输入与输出响度比来执 行。在采用40个频带的实际实施例中,沿着频率轴的这些频带的间距是 相对细微的以便提供响度的精确度量。然而,向每个频带独立地施加DRC 尺度因子可能造成经处理的音频听起来像是"撕裂"的。为了避免此问题, 可选择通过如下方法来计算A[Z^]:在频带上平滑特定响度7^,小使得从 一个频带到下一个频带被施加的DRC的量不剧烈地变化。这可通过定义 频带平滑滤波器2(6)然后4^据以下标准巻积和在所有频带c上平滑特定响 度来实现
A[6,,] = S,-Cf] (19)
其中iV[cj]是音频信号的特定响度,Q(6-c)是平滑滤波器的频带平移后的 响应。图15描绘了这种频带平滑滤波器的一个例子。
如果将丄,仇,]计算为丄。[&,,]的函数的DRC畢数对于每个频带6而言是 固定的,则特定响度7V[W]的每个频带遭受的改变的类型将依赖于被处理 的音频的频谱而变化,尽管信号的总体响度保持相同.例如,具有响亮低 音和安静高音的音频信号可以使低音减弱而高音增强。具有安静低音和响 亮高音的信号可相反地出现。净效果为音频的音色或感知频镨的改变,而 这在某些应用中可能是所期望的。然而,可能希望不修正音频的平均感知频镨而执行多带DRC。可能 希望每个频带的平均修正粗略相同同时仍允许修正的短期变化在频带之 间独立地产生。期望效果可通过迫使每个频带中的DRC的平均行为与某 个参考行为的平均行为相同来实现。可选择此参考行为作为宽带输入响度 AW的期望DRC。令函数Z。[r^z^C仏W)表示宽带响度的期望DRC映射。
然后令z;[,]表示宽带输入响度的经时间平均的版本,并令z;[^]表示多带输
入响度丄A,]的经时间平均的版本。于是多带输出响度可计算为
注意,多带输入响度首先被缩放成落入与宽带输入响度的平均范围相 同的平均范围内。然后施加针对宽带响v^设计的DRC函数。最后,所得 结果被回缩减至多带响度的平均范围。利用多带DRC的此^^式表示,频 镨泵动降低的优点得以保留,同时保持了音频的平均感知频镨。
适用于动态均衡的频变且时变的函数
本发明诸方面的另 一个应用是将音频的时变感知频镨有意地变换成 目标非时变感知频谦同时仍保持音频的原始动态范围。可将此处理称为动 态均衡(DEQ)。对于传统的静态均衡,简单的固定滤波被施加于音频以 1更改变其频谱。例如,可施加固定的低音或高音增强。这种处理未考虑音 频的当前频谱并因此可能对于某些信号(即,已经包含了相对大量的低音 或高音的信号)是不适当的,对于DEQ,信号的频镨被计量,然后信号 被动态修正以便将计量到的频镨变换成基本上静态的期望形状。对于本发 明诸方面,在滤波器组中各频带上规定这样的期望形状并将其称为吸问。 在一个实际实施例中,计量到的频"*应表示可通过在时间上平滑特定响度 Ap,,]来生成的音频的平均频镨形状。可将经平滑的特定响度称为^[6,,]。 如同多带DRC —样,可能不希望DEQ修正从一个频带到下一个频带剧 烈地变化,并因此可施加频带平滑函数来生成经频带平滑的频谦Z[6,,]:
(21)
为了保持音频的原始动态范围,期望频镨£2间应被归一化以与由 f[6, ]给出的计量到的频镨形状具有相同的总体响度。可将此归 一化频镨
形状称为1£。[6,。<formula>formula see original document page 47</formula>
(22)
最后,目标特定响度被计算为
<formula>formula see original document page 47</formula>(23)
其中"是范围在0到1之间的用户规定M,指示要施加的DEQ的程度。 参见等式23,注意当/ -0时,原始特定响度是未4务正的,而当〃=1时, 特定响度被缩放等于期望频谱形状与计量到的频镨形状的比值的倍数。
生成期望频镨形状五e问的一种方便的方法是使用户设置印问等于 为自己觉得其频镨平衡合意的某段音频计量到的r[ZM]。在一个实际实施 例中,例如如图16所示,用户可^L提供掩組或其它适当的致动器507, 致动器507当被致动时导致音频的频诰形状r[M的当前度量的捕捉,然 后将此度量作为预设存储(在目标特定响度预设捕捉和存储506中),该 预设可以以后当DEQ被启用(如由预设选择508启用)时被载入五2M中。 图16是图7的简化版本,其中仅示出了单个线来表示从分析滤波器组100 到合成滤波器组110的多个频带。图17例子还提供动态EQ特定响度(SL) 修正505,动态EQ特定响度修正505如上所述那样才艮据动态均^^对由功 能或设备104计量到的特定响度进行修正。
组合式处理
可能希望将包括音量控制(VC) 、 AGC、 DRC和DEQ的所有前述 处理组合成单个系统。由于这些过程中的每个过程可表示为对特定响度的 缩放,所以所有这些过程可容易地组合如下
<formula>formula see original document page 47</formula> (24)
其中S,[M表示与过程"*"相关联的尺度因子。然后可以为表示组合式处 理的目标特定响度计算单个集合的增益G[M。
在某些情形下,响度修正过程中的一个或组合的凡变因子可能随时间 过于迅速地波动并在作为结果的经处理的音频中产生假象。因此可能期望
平滑这些缩放因子的某个子集。 一般而言,来自VC和DEQ的尺度因子 随时间平滑地变化,但可能需要平滑AGC和DRC尺度因子的组合。令这些尺度因子的组合由下式表示
sc[6,。 = s^gc[6"]smc[Zm] (25)
该平滑所依据的^MMft念是当特定响度增大时,组合尺度因子应快速地 反应,而当特定响度减小时,所述尺度因子应被更大程度地平滑。此概念 符合在音频压缩器设计中利用快速击打和緩慢^^放这一众所周知的实践。 用于平滑尺度因子的适当时间常数可通过在时间上平滑特定响度的经频 带平滑的版本来计算。首先计算特定响度的经频带平滑的版本
,李i;,-c)餘,。
(26)
其中7V[C]是音频信号的特定响度,Q(6-c)是如上面等式19中的平滑滤波 器的频带平移后的响应。
这个经频带平滑的特定响度的经时间平滑的版本于是被计算为
, 。 = A[&, z ]z[6, + (l -义[6, 。 , ^ -1] 其中频带相关的平滑系数;i[^]由下式给出
(27)
义[M
(28)
经平滑的组合尺度因子于是被计算为
豆c [6, 。 = AM [&, ,]sc [6, f ] + (1 - & [6, f ])互c [6,, -1]
其中4[M是举,。的经频带平滑的版本
(29)
Z胸
(30)
平滑系数的频带平滑防止经时间平滑的凡变因子随频带剧烈地变化。 所述尺度因子时间及频带平滑导致经处理的音频包含更少的有害的感知 假象。
噪声补偿
在很多音频回放环境中,存在干扰收听者希望听到的音频的背景噪 声。例如,行进的汽车中的收听者可能正通过安装的立体声系统播放音乐,而来自发动机和道路的噪声可能相当大地更改对音乐的感知。具体而言, 对于其中噪声能量相对于音乐能量而言相当大的频脊郎分,音乐的感知响
度降低.如果噪声的^UL够大,则音乐被完全掩蔽。就本发明的一方面而 言,人们愿意选择增益G[/M]使得在有干扰噪声的情况下的经处理的音频 的特定响度等于目标特定响度々[W]。为实现此效果,可利用见前面由 Moore和Glasberg定义的部分响度的概念。假定能够获得噪声对本身的 计量和音频对本身的计量。令^[^]表示来自噪声的激励,并令&[6,,]表 示来自音频的激励。于是音频和噪声的组合特定响度由下式给出<formula>formula see original document page 49</formula> (31)
其中甲{}仍表示从激励至特定响度的非线性变换。可假定收听者的听觉以 保持以下组合特定响度的方式在音频的部分特定响度与噪声的部分特定
响度之间划分组合特定响度
<formula>formula see original document page 49</formula> (32)
音频的部分特定响度^[^]是希望控制的值,因此必须求解此值。噪 声的部分特定响度可近似为
<formula>formula see original document page 49</formula>
其中^[W]是在有噪声的情况下的掩蔽后的阈值,^[h]是频带6处的M 听觉阈值,K是0到1之间的指数。将等式31-33相结合,得到音频的部 分特定响度的表达式
<formula>formula see original document page 49</formula>
注意,当音频的激励等于噪声的掩蔽后的阈值(£ ]=£W[V])时, 音频的部分特定响度等于静音阈值处信号的响度,这是所期望的结果。当 音频的激励比噪声的激励大4艮多时,等式34中的第二项变为零,音频的 特定响度近似等于它在无噪声的情况下的值。换句话说,随着音频变得比 噪声响亮很多,噪声被音频所遮蔽。根据经j^择指数K以给出与作为信 噪比的函数的噪声中音调的响度的数据的良好拟合,Moore和Glasberg 已发现^=0.3是适当的。噪声的遮^的阈值可近似为噪声激励本身的 函数
<formula>formula see original document page 49</formula> (35)其中x问是在较低频带处增大的常数.因此,由等式34给出的音频的部 分特定响度可抽象M示为音频激励和噪声激励的函数
,』=0{,,,],五洲} (36) 于是可利用经修正的增益求解器来计算增益g[zm],使得在有噪声的情况
下的经处理的音频的部分特定响度等于目标特定响度
= o{g2[mA[W],£v[m} (37)
图17描绘了图7的系统,但其中原始增益求解器106被所述噪声补 偿增益求解器206 4&替(注意,表示滤波器组的多个频带的块之间的多条 竖直线已被单条线代替以简化图示)。图17还描绘了噪声激励的计量(由 分析滤波器组200、透射滤波器201、激励202和平滑203以对应于块100、 101、 102和103的工作的方式进行计量),噪声激励的计量结果与音频 的激励(来自平滑103 )及目标特定响度(来自sl修正105 ) —起馈送 入新的增益求解器206。
在其最基本的工作模式下,图17中的sl <务正105可将目标特定响 度^[Zv]简单地设置成等于音频的原始特定响度AT[v]。换句话说,sl修 正提供对音频信号的特定响度的非频变尺度因子a缩放,其中《=1。对于 比如图17中的布置,增益被计算为使得在有噪声的情况下的经处理的音 频的感知响度频诲等于在无噪声的情况下的音频的响度频镨。另外,用于 计算作为原始特定响度的函数的目标特定响度的前述技术(包括vc、 agc、 drc和deq)中的一些技术中任一种或组合可与噪声^H尝响度修 正系统相结^使用。
在一个实际实施例中,噪声的计量可M置在将播放音频的环境中或 附近的麦克风获得。可替选地,可使用预定组的模板噪声激励iMt各种情 况下的预期噪声频谱取近似。例如,汽车车厢内的噪声可在各种驾驶速度 下被预分析,然后被存储为噪声激励与速度的关系的查找表。当汽车速度 变化时于是可根据此查找^j"被馈送入图17中的增益求解器206的噪声 激励取近似,
特定响度的近似
虽然本发明最适用于使用特定响度的精确度量的情形,但某些应用可 能需务使用较粗略的近似以便降低计算复杂度。利用适当的近似,仍可实 现感知响度的可接受的估计和修正。这样的近似应试图至少部分地保留响度感知的几个关键方面。首先,该近似应至少粗略地捕捉响度感知随频率 变化的敏感度。 一般而言,该近似在较低频和较高频要比在中频显示出更 低的敏感度。其次,该近似应展现响度随信号级的非线性增长。具体而言,
特定响度的增长应对于接近听觉阈值的低级信号是最iS^的,然后随着信 号级增大而减小至恒定的增长速率.最后,该近似应展现响度求和的特性, 这意味着对于恒定的信号级,总响度(特定响度对频率的积分)随着信号 带宽增大而增大。
降低特定响度计算的复杂度同时仍保留响度感知的期望特性的一种 方法是使用具有较少频带并且其中频带可能不在临界频带率尺度上均匀 间隔开的滤波器组,例如,可使用其中频带在线性频率尺度上均匀分布的 5频带滤波器组,这与前面描述的40个频带形成对比。存在4艮多用于有 效地实现这样的滤波器组的技术,例如余弦调制滤波器组(P.P Vaidyanthan的MultiRate Systems and Filter Banks, 1993年,Prentice Hall)。作为一般性例子,考虑具有S个频带的滤波器组,其中每个频带 由时域冲击响应/a"]描述。亦假定滤波器组是接近完美的重构,这意味着
Z&[打px["] (38)
、1
每个频带6的频率响应可由中心频率A和带宽A厶(赫兹)特征化。于是
以ERB为单位的等价中心频率和带宽由下式给出
e广婦環") (39a)
A -, (39b)
如果频带数目万较小,则每个频带的带宽&将很可能大于1ERB。
令">]=^["]*咖]表示每个频带所关联的音频信号,可与等式7和8 类似地、通过计算用以频率y;采样的透射滤波器的频率响应以及以ERB 为单位的带宽的倒数加权的^["]的经平滑的均方才艮功率来计算经平滑的 激励信号取"]:
£[6,"]=人£[6,w] + (1 —义jH力x62["] (40)
用1、对频带6的激励加权有效地将该频带内的能量均匀分布在包含 在该频带内的所有临界频带上。可以可替选地将所有能量分配给其中心频
51率最接近该频带的中心频率A的临界频带,但均匀分布能量是大多数真实 世界音频信号的更好近似,
利用激发E[6^],可如上所述那样计算特定响度々[6,"]、目标特定响度 々[6,n]和增益G[M],只是此处频带总数可少很多,从而降低了复杂性。在
计算总体响度4"]时同样需要进行如下修正当特定响度对频带求和时, 其需要用频带b内的ERBs数目加权
(41)
最后,可通过对用相应频带的增益加权的每个频带信号进行求和来得到经 修正的信号 乂"]:
_v["] = S,," ] (42)
为了便于说明,上面的计算被示出为针对信号咖]的每个采样周期"执行。 然而,在实践中,激励可被子采样至在时间上低4艮多的速率,然后所有后 续响度处理可以以此降低的速率执行。当最终施加增益时,便可在增益被 施加于频带信号之前通过插值对增益进行上采样。
上面仅是适用于本发明的特定响度的较粗略近似的一个例子。其它近 似也是可能的,且本发明意在涵盖所有这样的近似的使用。
实现
本发明可用硬件或软件或二者的组合(例如可程序逻辑阵列)来实现。 除非另有规定,作为本发明的一部分被包括在内的算法并非与任何具体计
算机或其它装置固有^M目关。具体而言,各种通用机器可与根据此处教导 编写的程序一起使用,或者,构造更专门的装置(例如集成电路)来执行 所需的方法步骤可能是更方便的。因此,本发明可用在一个或多个可编程 计算机系统上执行的一个或多个计算M序来实现,其中每个可编程计算 机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易 失性存储器和/或存储单元)、至少一个输入设备或端口以及至少一个输 出设备或端口 。程序代码被施加于输入数据以执行此处描述的功能并生成 输出信息。该输出信息以已知的方式被施加于一个或多个输出设备。
每个这样的程序可用任何期望计算机语言(包括机器、汇编、或高级程序的、逻辑的或面向对象的编程语言)来实现,以与计算机系统通信。 在任何情形下,该语言可以是编译或解释语言。
每个这样的计算机程序优选地被存储在或被下载到可由通用或专用 可编程计算机读取的存储介质或设备(例如固态存储器或介质、或者磁或
光介质),用于当存储介质或设备被计算机系统读取时配置和操作计算机 以执行此处描述的过程。本发明的系统亦可被看作实施为配置有计算M 序的计算机可读M储介质,其中如此配置的存储介质使得计算机系统以 特定且预定的方式工作以执行此处描述的功能。
已描述了本发明的若干实施例。然而,应理解,可在不背离本发明的 精神和范围的情况下作出各种修改。例如,此处描述的步骤中的一些步骤 可无顺序之分,并因此可按不同于所述顺序的顺序来执行。
权利要求
1. 一种用于推导可用于控制音频信号的特定响度的信息的方法,其中特定响度是将感知响度作为频率和时间的函数的度量,所述方法包括推导可用于修正所述音频信号以便减小其特定响度与目标特定响度之间的差异的修正参数。
2. —种用于推导可用于控制音频信号的部分特定响度的信息的方法, 其中特定响度是将感知响度作为频率和时间的函数的度量,且信号的部分率和时间的函数的度量,所述方法包括推导可用于修正所述音频信号以便减小其部分特定响度与目标特定 响度之间的差异的l务正^lt。
3. —种用于控制音频信号的特定响度的方法,其中特定响度是将感知 响度作为频率和时间的函数的度量,所述方法包括修正所述音频信号以〗更减小其特定响度与目标特定响度之间的差异。
4. 一种用于控制音频信号的部分特定响度的方法,其中特定响度是 将感知响度作为频率和时间的函数的度量,且信号的部分特定响度是将在 有次要干扰信号的情况下的所述信号的感知响度作为频率和时间的函数 的度量,所述方法包括修正所述音频信号以便减小其部分特定响度与目标特定响度之间的 差异。
5.根据权利要求1^4中任一项所述的方法,,中所,修正或,导从响度的表示o
6. 根据权利要求3或4所述的方法,其中所述修正根据修正^修 正所述音频信号以提供经修正的音频信号,且所述修正从发送中接收或者 从存储介质再现所述音频和所述修正^lt。
7. 根据权利要求3或4所述的方法,其中所述修正包括修正^的 生成。
8. 根据权利要求l-7中任一项所述的方法,其中所述目标特定响度 不是所述音频信号的函数。
9. 根据权利要求8所述的方法,其中所述修正或所述推导包括存储 目标特定响度。
10. 根据权利要求8所述的方法,其中所述修正或所述推导包括从所 述方法外部的源接收目标特定响度。
11. 根据权利要求8-10中任一项所述的方法,其中所述《务正或所述 推导包括显式地计算特定响度和/或部分特定响度的处理。
12. 根据权利要求8-10中任一项所述的方法,其中所述4务正或所述 推导包括隐式地计算特定响度和/或部分特定响度的处理。
13. 根据权利要求12所述的方法,其中所述处理采用查找表使得所 述处理固有地确定特定响度和/或部分特定响度。
14. 根据权利要求12所述的方法,其中特定响度和/或部分特定响度 在由所述处理采用的闭式数学表达式中被固有地确定。
15. 根据权利要求8-14中任一项所述的方法,其中所述目标特定响 度是非时变且非频变的。
16. 根据权利要求8-14中任一项所述的方法,其中所述目标特定响 度是非时变的。
17. —种用于处理音频信号的方法,所述方法包括根据一个或多个过程和一个或多个过程控制参数处理所述音频信号 或所述音频信号的度量以产生目标特定响度,其中特定响Jbl将音频信号 的感知响度作为频率和时间的函数的度量。
18. 根据权利要求1 - 7和17中任一项所述的方法,其中所述目标特 定响度是所述音频信号或所述音频信号的度量的函数。
19. 根据权利要求18所述的方法,其中所述音频信号的所述度量是 所述音频信号的特定响度。
20. 根据权利要求18或19所述的方法,其中所述音频信号或所述音 频信号的度量的所述函数是对所述音频信号或所述音频信号的度量的一 种或多种缩放。
21. 根据权利要求20所述的方法,其中所述一种或多种缩放包括如 以下关系式中的对所述特定响度的时变且频变尺度因子S [W]缩放其中》[6,,]是所述目标特定响度,可6,。是所述音频信号的所述特定响度, 6是频率的度量,f是时间的度量。
22. 根据权利要求21所述的方法,其中所述缩放至少部分地由期望 多带响度与所述音频信号的多带响度的比值来确定。
23. 根据权利要求22所述的方法,其中所述缩放可表达为如以下关系式中的4[W]/A[6,f]:<formula>formula see original document page 4</formula>.其中W[ZM]是所述音频信号的所述特定响度,1。[M]是所述期望多带响度, A[Z^]是所述音频信号的所述多带响度,力[ZM]是所述目标特定响度。
24. 根据权利要求23所述的方法,其中4[M是A[&]的函数。
25. 根据权利要求24所述的方法,其中作为z,[ZM]的函数的丄。[M可 表达为<formula>formula see original document page 4</formula>其中加CU表示将丄,仇,]映射到丄。[M的动态范围函数。
26. 根据权利要求23所述的方法,其中丄,[^]是所述音频信号的所述 特定响度的经时间平滑和/或频率平滑的版本。
27. 根据权利要求22-26中任一项所述的方法,其中所述方法可用 作动态范围控制,在所述动态范围控制中,所述修正或所述修正^lt的施 加产生这样的音频信号或者所述目标特定响度对应于这样的音频信号其 中感知音频频镨或在有干扰信号的情况下的感知音频频镨对于不同的特 定响度缩ii值而言可能不同。
28. 根据权利要求27所述的方法,其中所述动态范围函数控制每个 频带中的响度,以使得施加于每个频带的短期改变在频带之间独立地变 化,而施加于每个频带的平均改变对于所有频带而言基本上相同。
29. 根据权利要求28所述的方法,其中作为z^,。的函数的z。[ZM]可 表达为<formula>formula see original document page 4</formula>其中4[V]-^ c"[6,W表示所述音频信号的总响度到期望总响度的映射,其中z;w表示所述音频信号的宽带响度丄,w的经时间平均的版本,z;[^]表 示所述音频信号的多带响度A[^]的经时间平均的版本。
30.根据权利要求28或29所述的方法,其中所述方法可用作动态范围控制,在所述动态范围控制中,所述修正或所述修正参数的施加产生这样的音频信号或者所述目标特定响度对应于这样的音频信号其中感知音放值而言保持与所述音频信号的感知音频频谱基本上相同。
31. 根据权利要求21所述的方法,其中所述特定响度被缩放等于期 望频谙形状的度量与所述音频信号的频镨形状的度量的比值的倍数。
32. 根据权利要求31所述的方法,其中所述方法将所述音频信号的 感知频谦从时变的感知频语变换成14Ui非时变的感知频镨。
33. 根据权利要求31或32所述的方法,其中所述缩放可表达为如以下关系式中的<formula>formula see original document page 5</formula>并且其中z[w是所述音频信号的经时间平滑的多带响度,^[^]是被归一 化以与所述多带响度r[v]具有相同的宽带响度的期望频诿印[w,使得^g[W]可表达为<formula>formula see original document page 5</formula>其中7V[W]是所述音频信号的所述特定响度,々[M是所述目标特定响度, P是具有由零和一界定并且包括零和一的范围的^lt,所述^控制缩放 的水平。
34. 根据权利要求33所述的方法,其中所述参数〃由所述方法外部 的源选择或控制。
35. 根据权利要求34所述的方法,其中所述源是所述方法的用户。
36. 根据权利要求31-35中任一项所述的方法,其中所述方法可用 作动态均衡器,在所述动态均衡器中,所述修正或所述修正^的施加产 生这样的音频信号或者所述目标特定响度对应于这样的音频信号其中感 知音频频谱或在有干扰信号的情况下的感知音频频谱对于不同的特定响度缩放值而言可能不同。
37. 根据权利要求21-36中任一项所述的方法,其中所述音频信号的一些临界频带上进行频率平滑来取近似。
38. 根据权利要求37所述的方法,其中特定频带6处的所迷多带响 度的经频带平滑的版本 ]可表达为对所有频带c的巻积和其中iV[c,,]是所述音频信号的所述特定响度,0(6 - c)是所述平滑滤波器的 频带平移后的响应。
39. 根据权利要求20所述的方法,其中所述一种或多种缩放包括如 以下关系式中的对所述特定响度的时变而非频变X^变因子(DW缩放其中所6,。是所述目标特定响度,W[6, f ]是所述音频信号的所述特定响度, &是频率的度量,f是时间的度量。
40. 根据权利要求39所述的方法,其中所述缩放至少部分地由期望 宽带响度与所述音频信号的宽带响度的比值来确定。
41. 祁^据权利要求39或40所述的方法,其中所述音频信号的所述特 定响度的所述函数中的所述缩放可表达为如以下关系式中的丄。[,]/丄,W:丄,W其中MW]是所述音频信号的所述特定响度,丄。w是期望多带响度,丄,w是 所述音频信号的所述宽带响度,》[M是所述目标特定响度。
42. 根据权利要求41所述的方法,其中丄。W是丄,W的函数。
43. 根据权利要求42所述的方法,其中作为丄,.[,]的函数的丄。[,]可表达为其中wcO表示将i^]映射到丄。w的动态范围函数。
44. 根据权利要求41所述的方法,其中丄,[,]是所述音频信号的总响 度的经时间平滑的版本。
45. 根据权利要求41所述的方法,其中A[f]是所述音频信号的长期 响度的度量。
46. 根据权利要求41所述的方法,其中AW是所述音频信号的短期 响度的度量。
47. 根据权利要求39-46中任一项所述的方法,其中所述方法可用 作自动增益控制或动态范围控制,在所述自动增益控制或动态范围控制 中,所述修正或所述修正^的施加产生这样的音频信号或者所述目标特 定响度对应于这样的音频信号其中感知音频频镨或在有干扰信号的情况言保持与所述音频信号的感知音频频谱基本上相同。
48. 根据权利要求21-47中任一项所述的方法,其中所述缩放因子 是所述音频信号或所述音频信号的度量的函数。
49. 根据权利要求20所述的方法,其中所述一种或多种缩放包括如 以下关系式中的对所述特定响度的非时变而频变尺度因子 问缩放<formula>formula see original document page 7</formula>其中々[W]是所述目标特定响度,是所述音频信号的所述特定响度, 6是频率的度量,f是时间的度量。
50. 根据权利要求49所述的方法,其中所述修正或所述推导包括存 储所述缩放因子0问。
51. 根据权利要求49所述的方法,其中所述缩放因子 问从所述方 法外部的源接收。
52. 根据权利要求20所述的方法,其中所述一种或多种缩放包括如 以下关系式中的对所述特定响度的非时变且非频变尺度因子《缩放其中々[6,。是所述目标特定响度,W[M]是所述音频信号的所述特定响度, 6是频率的度量,f是时间的度量。
53. 根据权利要求52所述的方法,其中所述修正或所述推导包括存 储所述缩放因子《。
54. 根据权利要求52所述的方法,其中所述缩放因子《从所述方法 外部的源接收。
55.根据权利要求49-54中任一项所述的方法,其中所述方法可用 作音量控制,在所述音量控制中,所述修正或所述修正^的施加产生这 样的音频信号或者所述目标特定响度对应于这样的音频信号其中感知音 频频诿或在有干扰信号的情况下的感知音频频谱对于不同的特定响度或同。
56. 根据权利要求49-55中任一项所述的方法,其中所述缩放因子 不是所述音频信号或所述音频信号的度量的函数。
57. 根据权利要求l-56中任一项所述的方法,其中所述修正、所述 推导或所述产生显式地计算(1)特定响度、和/或(2)部分特定响度、 和/或(3 )所述目标特定响度。
58. 根据权利要求1-56中任一项所述的方法,其中所述修正、所述 推导或所述产生隐式地计算(1)特定响度、和/或(2)部分特定响度、 和/或(3 )所述目标特定响度。
59. 根据权利要求58所述的方法,其中所述修正、所述推导或所述 产生采用固有地确定(1)特定响度、和/或(2 )部分特定响度、和/或(3 ) 所述目标特定响度的查找表。
60. 根据权利要求58所述的方法,其中所述修正、所述推导或所述 产生采用固有地确定(1)特定响度、和/或(2 )部分特定响度、和/或(3 ) 所述目标特定响度的闭式数学表达式。
61. 根据权利要求l、 2、 7中任一项以及引用权利要求l、 2或7的 权利要求8 - 16和18 - 60中任一项所述的方法,其中所述修正或推导(1) 发送和接收或(2 )存储和再现所述音频信号和修正M.
62. 根据权利要求l、 2、 6、 7中任一项以及引用权利要求1、 2、 6 或7的权利要求8 - 16和18 - 60中任一项所述的方法,其中所述修正参 数被执行时间平滑。
63. 根据权利要求62所述的方法,其中所述修正^4ft包括与所述音 频信号的频带相关的多个幅度缩放因子。
64. 根据权利要求63所述的方法,其中所述多个幅度缩放因子中的 至少一些幅度缩放因子是时变的。
65. 根据权利要求62所述的方法,其中所述修正^lt包括用于控制一个或多个滤波器的多个滤波器系数。
66. 才艮据权利要求65所述的方法,其中所述一个或多个滤波器中的 至少一些滤波器是时变的,且所述滤波器系数中的至少一些滤波器系ltA 时变的。
67. 根据权利要求1-66中任一项所述的方法,其中所述<多正、所述 推导或所述产生依赖于以下中的一个或多个干扰音频信号的度量,目标特定响度,从经修正的音频信号的特定响度或部分特定响度导出的未修正的音 频信号的特定响度的估计,所述未修正的音频信号的所述特定响度,以及从所述经修正的音频信号的所述特定响度或部分特定响度导出的所 述目标特定响度的近似。
68. 根据权利要求1 - 4和7中任一项以及引用权利要求1 - 4或7的 权利要求8 - 16和18 - 66中任一项所述的方法,其中所述修正或所述推 导至少部分M以下中的一个或多个推导l务正^lt:干扰音频信号的度量,目标特定响度,从经修正的音频信号的特定响度或部分特定响度导出的未修正的音 频信号的特定响度的估计,所述未修正的音频信号的所述特定响度,以及从所述经修正的音频信号的所述特定响度或部分特定响度导出的所 述目标特定响度的近似。
69. 根据权利要求68所述的方法,其中所述修正或所述推导至少部 分M下面推导修正^:(1)以下两者之一目标特定响度,和从所述经修正的音频信号的所述特定响度得到的所述未修正 的音频信号的所述特定响度的估计,以及(2)以下两者之一所述未修正的音频信号的所述特定响度,和从所述经修正的音频信号的所述特定响度导出的所述目标特 定响度的近似
70. 根据权利要求68所述的方法,其中所述修正或所述推导至少部 分iWv下面推导修正^t:(1) 千扰音频信号的度量(2) 以下两者之一目标特定响度,和从所述经修正的音频信号的所述部分特定响度导出的所述未 修正的音频信号的所述特定响度的估计,以及(3) 以下两者之一所述未修正的音频信号的所述特定响度,和从所述经修正的音频信号的所述部分特定响度导出的所述目 标特定响度的近似
71. 根据权利要求69或70所述的方法,其中所述方法采用其中所述 特定响度从所述音频信号导出的前馈布置,并且其中所述目标特定响;l从 所述方法外部的源接收,或者在所述修正或推导包括存储目标特定响度时 从存储接收。
72. 根据权利要求69或70所述的方法,其中所述方法采用其中所述置,并且其中所述目标特定响度从所述方法外部的源接收,或者在所述修 正或推导包括存储目标特定响度时M储接收。
73. 根据权利要求69或70所述的方法,其中所述修正或推导包括用 于显式或隐式地获得所述目标特定响度的一个或多个过程,所述过程中的 一个或多个显式或隐式地计算所述音频信号或所述音频信号的度量的所 述函数。
74. 根据权利要求73所述的方法,其中所述方法采用其中所述特定 响度和所述目标特定响度从所述音频信号导出的前馈布置,所述目标特定 响度的推导采用所述音频信号或所迷音频信号的度量的所迷函数。
75.根据权利要求73所述的方法,其中所述方法釆用其中所述目标述音频信号导出的混合前馈/反馈布置,所述目标特定响度的推导采用所 述音频信号或所述音频信号的度量的所述函数.
76. 根据权利要求69或70所述的方法,其中所述修正或推导包括用信号的所述特定响度进行的估计的 一个或多个过程,所述过程中的 一个或 多个显式或隐式地计算所述音频信号或所述音频信号的度量的所述函数 的反函数。
77. 根据权利要求76所述的方法,其中所述方法采用其中所述未《务述经修正的音频信号导出的反馈布置,所述特定响度的估计使用所述音频 信号或所述音频信号的度量的所述函数的反函数来计算。
78. 根据权利要求76所述的方法,其中所述方法采用其中所述特定述估计从所述经修正的音频信号导出的混合前馈/反馈布置,所述估计的 推导使用所述音频信号或所述音频信号的度量的所述函数的反函数来计 算。
79. 根据权利要求1 - 4和17以及引用权利要求1 - 4或17的权利要 求18 - 78中任一项所述的方法,其中所述修正或推导(1)发送和接收或(2 )存储和再现所述音频信号以及目标特定响度或目标特定响度的表示。
80. 根据引用权利要求20、 21、 39、 49或52中任一项的权利要求 79所述的方法,其中所述目标特定响度的表示是对所述音频信号或所述 音频信号的度量进行缩放的 一个或多个尺度因子。
81. 根据权利要求l、 2、 6和7以及引用权利要求1、 2、 6或7的权 利要求8 - 16和18 - 80中任一项所述的方法,还包括向所述音频信号施 加所述修正>|*以产生经修正的音频信号。
82. 根据权利要求l-4、 17以及引用权利要求1-4或17的权利要 求18-78中任一项所述的方法,还包括发送或存储所述音频信号以及所 述目标特定响度或所述目标特定响度的表示。
83. 根据权利要求82所述的方法,还包括接收或再现所述被发送或存储的音频信号以及所述目标特定响度或所述目标特定响度的表示。
84. 根据权利要求83所述的方法,还包括响应于所述音频信号以及 所述目标特定响度或所述目标特定响度的表示而修正所述音频信号以便 减小所述音频信号的特定响度与所述目标特定响;l之间的差异。
85. 根据引用权利要求20 - 60中任一项的权利要求82 - 84中任一项 所述的方法,其中所述目标特定响度的表示是对所述音频信号或所述音频 信号的度量进行缩放的 一个或多个M因子。
86. 根据权利要求l、 2、 7以及引用权利要求1、 2和7的权利要求 18-60中任一项所述的方法,还包括发送或存储所述音频信号和所述《多 正錄。
87. 根据权利要求86所述的方法,还包括接收或再现所述被发送或 存储的音频信号和所述l务正参数。
88. 根据权利要求87所述的方法,还包括响应于所述修正^lt而修 正所述音频信号。
89. —种装置,其适于执行权利要求l-88中任一项所述的方法。
90. 一种计算机程序,其存储在计算机可读介质上,所述计算机可读 介质用于使得计算机执行权利要求1 - 88中任一项所述的方法。
全文摘要
涉及音频信号的感知声音响度和/或感知频谱平衡的计量和控制的音频信号处理可例如用于以下中的一个或多个响度补偿式音量控制、自动增益控制、动态范围控制(包括例如限制器、压缩器、扩展器等)、动态均衡以及补偿音频回放环境中的背景噪声干扰。在各实施例中,推导修正参数,用于修正音频信号以便减小其特定响度与目标特定响度之间的差异。
文档编号G10L21/00GK101421781SQ200780011710
公开日2009年4月29日 申请日期2007年3月30日 优先权日2006年4月4日
发明者阿兰·杰弗里·西费尔特 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1