使用基于特性响度的听觉事件检测的音频增益控制的制作方法

文档序号:7512438阅读:202来源:国知局
专利名称:使用基于特性响度的听觉事件检测的音频增益控制的制作方法
技术领域
本发明涉及音频动态范围控制方法和设备,其中音频处理装置对音频 信号进行分析并改变所述音频的电平、增益或动态范围,并且音频增益和
动态处理的^L中的全部或某些M被产生为听觉事件的函数。本发明还 涉及用于实现这种方法或控制这种设备的计算^i^呈序。
本发明还涉及利用基于特性响度的听觉事件检测的方法和设备。本发 明还涉及用于实现这种方法或控制这种设备的计算M序。
背景技术
^素IW氛悉义理
自动增益控制(AGC)和动态范围控制(DRC)的才支术是众所周知 的,并且是许多音频信号通路的常见组成部分。在抽象意义上,这两种技 术均以某种方式测量音频信号的电平,然后按照作为所测量的电平的函数 的数量来对该信号进行增益修正。在线性的l:l动态处理系统中,不处理 输入音频,并且输出音频信号理想上与输入音频信号相匹配。此外,如果 具有自动测量输入信号的特性并利用该测量来控制输出信号的音频动态 处理系统,那么在输入信号的电平升高6dB且输出信号被处理以使得所 述输出信号的电平仅升高3dB的情况下,该输出信号相对于输入信号已 被以2:1的比率进行了压缩。国际公开WO 2006/047600 Al (Alan Jeffrey Seefeldt的"Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal")提供了对以下五种基本 类型的音频动态处理的详细综述压缩、限幅、自动增益控制(AGC)、 扩展和门限(gating )。
9ff ,斧和9ff ,絲浙
将声音划分成被感知为独立且明显的单元或段的过程有时被称为"听 觉事件分析,,或"听觉场景分析,,("ASA"),并且所述段有时被称为"听觉 事件"或"音频事件"。Albert S. Bregman在他的著作《Auditory SceneAnalysis — The Perceptual Organization of Sound》(Massachusetts Institute of Technology, 1991, Fourth printing, 2001, Second MIT Press paperback edition )中陈述了对听觉场景分析的广泛讨论。此外,在1999 年12月14日授权给Bhadkamkar等人的美国专利6,002,776中引用了日 期回溯至1976年的出版物作为"与借助于听觉场景分析的声音分离相关 的现有技术"。然而,Bhadkamkar等人的该专利不赞成听觉场景分析的 实际应用,并断定"尽管涉及听觉场景分析的技术作为人类听觉处理的模 型从科学的观点来看是令人感兴趣的,但是其目前对计算的要求过高并且 过于专门化,以至于在取得根本进^^之前不能作为用于声音分离的实用技 术。,,
在下文的"通过引用的合并"的标题下列出的各个专利申请和论文中, Crockett和Crocket等人提出了用于识别听觉事件的有效方式。才艮据这些 文献,通过检测频镨成分(作为频率的函数的幅度)相对于时间的变化来 将音频信号划分为听觉事件,其中每个听觉事件倾向于被感知为独立且明 显的。这可以例如通过以下方式来完成计算音频信号的连续时间块的频 谱内容(spectral content),计算所述音频信号的连续时间块之间的频镨 内容的差异,并将听觉事件边界识别为当连续时间块之间的频谱内容的差 异超过阈值时这种连续时间块之间的边界。替代性地,除了频镨成分相对 于时间的变化之外或者代替频镨成分相对于时间的变化地,可以计算幅度 相对于时间的变化。
所述处理在其对计算要求最少的实现方式中通过以下方式来将音频 划分成时间段分析整个频带(全带宽音频)或基本上整个频带(在实际 实现中通常使用在频镨端点处的带限滤波),并对最响亮的音频信号分量 给予最大的权重。该方法利用了在较小的时间标度(20毫秒(ms )以下) 下人耳在给定时间可能倾向于专注于单一听觉事件的心理声学现象。这意 味着,虽然可能同时发生多个事件,但是一个分量倾向于在感知上是最突 出的,并且可以如同该分量是所发生的唯一事件一样地单独处理该分量。 利用该效果,还允许所述听觉事件检测随着被处理的音频的复杂度而缩 放。例如,如果被处理的输入音频信号是独奏曲,则被识别的音频事件可 能是正在播放的个别音符。类似地,对于输入语音信号,可能脊浯音的个 别分量比如元音和辅音识别为个别的音频元素。随着音频复杂度的增大, 例如具有鼓声或多种乐器及声部的音乐,听觉事件检测识别在任意给定时 刻"最突出,,(即最响亮)的音频元素。以更大的计算复杂度为代价,所述处理还可考虑离散的子频带(固定 的子频带或动态确定的子频带,或者固定的子频带以及动态确定的子频带 二者)而不是整个带宽中的频语成分相对于时间的变化。该备选方法考虑 不同子频带中的多于一个的音频流,而不是^f^没在特定时间只能感知单个 音频流。
可以通过以下方式来实现听觉事件检测将时域音频波形划分成时间 间隔或块,然后利用滤波器组或诸如FFT之类的时-频变换#^块中的数 据转换到频域。每块的频镨内容的幅度可以被归一化,以消除或减少幅度 变化的影响。作为结果的每个频域表示提供了对特定块中的音频的频镨内 容的指示。对连续块的频谱内容进行比较,并且大于阈值的变化可以被用 来指示听觉事件的时间起点或时间终点。
优选地,频域数据被如下文所述地归一化。频域数据需要被归一化的 程度给出了对幅度的指示。因此,如果该程度的变化超过预定阈值,则该 变化也可被用来指示事件边界。可以对源于频谱变化和源于幅度变化的事 件起点和事件终点一起进行或运算,以识别源于任一类型的变化的事件边 界。
尽管在所述的Crockett和Crockett等人的申请和论文中描述的技术 与本发明的多个方面结合是特别有效的,但是其它用于识别听觉事件和事 件边界的技术也可以在本发明的多个方面中使用。

发明内容
时变控制信号相乘以产生期望结果。"增益"是缩放音频幅度的比例因子。 该控制信号可以持续地产生或从音频数据块产生,但是该控制信号通常是 通过对正在处理的音频的某些形式的测量来导出的,并且该控制信号的变
性的平滑滤波器来确定的。例如,响应时间可以是能根据音频的量值或功 率的变化来调整的。诸如自动增益控制(AGC)和动态范围压缩(DRC) 之类的现有技术方法并不以任何基于心理声学的方式来估计在其期间增 益变化可能被感知为缺陷的时间间隔、以及当可以应用所述增益变化而不 会带来听觉失真(audible artifact)时的时间间隔。因此,传统的音频动 态处理通常会引入听觉失真,即,动态处理的结果会引入不期望的可感知的音频变化。
听觉场景分析识别感知上离散的听觉事件,其中每个事件在两个连续 的听觉事件边界之间发生。通过确保在听觉事件内增益更加接近于常量以 及通过将大部分增益变化限制在事件边界附近,可以大大减少由所述增益 变化所导致的可听到的缺陷。在压缩器或扩展器的环境中,对音频电平升 高(通常称为冲击)的响应可能是迅速的,并且是可与听觉事件的最短持 续时间相当的或者小于听觉事件的最短持续时间的,但是对降低(释放或 恢复)的响应可能更慢,因此,应当呈现为常量或逐渐减弱的声音可能在 听觉上被扰乱。在这种情况下,在下个边界之前延迟增益恢复或者在事件 期间减緩增益的变化速率是非常有利的。对于其中音频的中长期电平或中 长期响度被归一化因而沖击时间和释放时间与听觉事件的最短持续时间 相比可能较长的自动增益控制应用而言,在事件期间针对增加增益和减少
增益釆取以下操作是有利的在下个事件边H前延迟增益变化或减緩增 益变化的速率。
才艮据本发明的一个方面, 一种音频处理系统接收音频信号并分析和改
变所述音频的增益和/或动态范围特性。对所述音频的动态范围修正通常
受到动态处理系统的对动态处理所引入的感知失真有重大影响的^lt(冲
击时间和释放时间、压缩比率等等)的控制。检测音频信号中信号特性相
对于时间的变化并将其识别为听觉事件边界,以使连续边界之间的音频段
构成所述音频信号中的听觉事件。所关注的听觉事件的特性可以包拾睹如
感知强度或持续时间之类的事件特性。所述一个或更多个动态处理^中 的一些^lt是至少部分地响应于听觉事件和/或与所述听觉事件边界相关
联的信号特性变化的程度而产生的。
典型地,听觉事件是倾向于被感知为独立且明显的音频段。对信号特 性的一个有效测量包括对音频的频谱内容的测量,例如如同在所引用的 Crockett和Crockett等人的文献中所述的一样。所述一个或更多个动态 处理参数中的全部或一些参数可以是至少部分地响应于一个或更多个听 觉事件的存在或不存在及其特性而产生的。听觉事件边界可以被识别为信 号特性相对于时间的超过阈值的变化。替代性地,所述一个或更多个^ 中的全部或一些参数可以是至少部分地响应于对与所述听觉事件边界相 关联的信号特性变化的程度的持续测量而产生的。尽管本发明的多个方面 在原理上可以在模拟域和/或数字域中实现,但是实际的实现方式可能是 在用单独的样本或数据块中的样本表示每个音频信号的数字域中实现的。在这种情况下,信号特性可以是块内的音频的频谱内容,对信号特性相对
并且听觉事件的时间起始边界和时间终止边界每个均与数据块的边界一 致。应当注意到,对于更为传统的基于逐个样本地执行动态增益变化的情 况,所描述的听觉场景分析可以基于块地执行,并且作为结果的听觉事件 信息被用于执行所述逐个样本地应用的动态增益变化。
通过利用听觉场景分析的结果来控制关键的音频动态处理M,可以 实现动态处理引入的听觉失真的显著减少。
本发明提供了两种执行听觉场景分析的方式。第一种方式执行频镨分 析,并通过识别频镨内容的变化来识别用于控制动态增益^的可感知的 音频事件的位置。第二种方式将音频变换到感知响度域(与第一种方式相 比可以提供更多的心理声学上相关的信息),并识别随后被用于控制动态 增益^的、听觉事件的位置。应当注意到,第二种方式要求音频处理获 知绝对声学再现电平,而这在某些实现方式中可能是不可行的。这两种听 觉场景分析方法的提供使得能够实现利用可能被校准或可能不被校准以
考虑绝对再现电平的处理或i殳备的、受ASA控制的动态增益〗务正。
在此在包括其它发明的多个方面的音频动态处理环境中描述了本发 明的多个方面。在本申请的所有人Dolby Laboratories Licensing Corporation的各个未决美国专利申请和国际专利申请中描述了这种其它 发明,在此标识了这些申请。


图l是示出了用于执行听觉场景分析的处理步骤的示例的流程图2示出了在执行听觉场景分析的同时对音频进行块处理、加窗 (windowing)和执行DFT的示例;
图3具有流程图或功能框图的性质,其示出了利用音频来识别听觉事 件和识别听觉事件的特性以便利用所述事件及其特性来修正动态处理参 数的并行处理;
图4具有流程图或功能框图的性质,其示出了只利用音频来识别听觉 事件并根据听觉事件检测来确定事件特性以便利用所述事件及其特性来 修正动态处理M的处理;图5具有流程图或功能框图的性质,其示出了只利用音频来识别听觉
事件并根据听觉事件检测来确定事件特性以便只利用所述听觉事件的特 性来修正动态处理^t的处理;
图6示出了接近于ERB标度上的临界频带的理想化地设置的听觉滤 波器响应特性,其水平标^A以赫兹为单位的频率,垂直标度是以分贝为 单位的电平;
图7示出了 ISO 226的等响曲线,其水平标;1^以赫兹为单位的频率 (以10为底的对数标度),垂直标度是以分贝为单位的声压级;
图8a-c示出了理想化的输^/输出特性以及音频动态范围压缩器的输 入增益特性;
图9a-f示出了利用听觉事件来控制传统动态范围控制器(DRC)的 数字实现中的释放时间的示例,其中在所述传统动态范围控制器中增益控 制源自信号的均方根(RMS)功率;
图10a-f示出了针对图9中所使用的信号的替代信号而利用听觉事件 来控制传统动态范围控制器(DRC)的数字实现中的释放时间的示例, 其中在所述传统动态范围控制器中增益控制源自信号的均方根(RMS) 功率;
图11描述了用于在响度域动态处理系统中在DRC之前应用AGC的、 一组适当的理想化的AGC和DRC曲线,该组合的目的是使得所有处理 后的音频具有近似于相同的感知响度,同时仍保持至少一些原始音频的动 态。
具体实施例方式
伊#场#分浙始的#询產試时才法>>
才艮据本发明的一个方面的实施例,听觉场景分析可以由图1的部分中 所示的四个一般处理步骤组成。第一个步骤l-l ("执行频镨分析,,)取时 域音频信号,将其划分成块并计算每个块的频镨轮廓或频镨内容。频镨分 析将该音频信号变换到短期频域中。这可以在线性的或弯曲的频率空间 (例如较好地近似于人耳特性的Bark标度或临界频带)中利用任何滤波 器组、基于带通滤波器的变换或带通滤波器组来执行。在利用任何滤波器 组的情况下存在时间与频率之间的折衷。较大的时间分辨率以及因此而较短的时间间隔导致了较低的频率分辨率。较大的频率分辨率以及因此而较 窄的子频带导致了较长的时间间隔。
图1中概念性地示出的第一个步骤计算音频信号的连续时间段的频
镨内容。尽管512个样^l:供了时间分辨率与频率分辨率之间的良好的折 衷,但是在实际实施例中ASA块大小可以来自输入音频信号的任意数量 的样本。在第二个步骤1-2中,确定块与块之间的频镨内容的差异("执 行频镨轮廓差异测量")。因此,第二个步骤计算音频信号的连续时间段之 间的频镨内容的差异。如上文所讨论的,认为对感知的听觉事件的起点或 终点的有效指示符是频语内容的变化。在第三个步骤1-3 ("识别听觉事件 边界的位置")中,当一个频傳轮廓块与下个频镨轮廓块之间的频镨差异 大于阈值时,取该块的边界作为听觉事件边界。连续边H间的音频段构 成了听觉事件。因此,第三个步骤设置了当连续时间段之间的频镨轮廓内 容的差异超过阈值时这种连续时间段之间的听觉事件边界,由此定义了听 觉事件。在该实施例中,听觉事件边界定义了长JLA频镨轮廓块的整数倍 的听觉事件,其最小长度是一个频镨轮廓块(在该示例中是512个样本)。 事件边界在原理上不需要受到这样的限制。作为在此讨论的实际实施例的 替代方案,输入块大小可以变化成例如基本上是听觉事件的大小。
如步骤l-4所示,在识别事件边R后,识别听觉事件的关键特性。
重叠或不重叠的音频段可以被加窗并被用于计算输入音频的频镨轮 廓。重叠导致了对于听觉事件位置的更好的分辨率,并且也使得更不会遗 漏事件,比如短暂的瞬态。然而,重叠也增加了计算复杂度。因此,可以 省略重叠。图2示出了,窗并被经由离散傅立叶变换(DFT)变换到频 域的N个不重叠的样本块的概念性表示。每个块可以被加窗并被变换到 频域,例如通过使用DFT (优选地为了速度而被实现为快速傅立叶变换 (FFT))来进行。
下面的变量可用于计算输入块的频谦轮廓
M=用于计算频谱轮廓的块中加窗的样本的数量
P=频谱计算重叠的样本的数量
通常,任何整数均可用于上述变量。然而,在M被设置成等于2的 幂以便可以利用标准FFT来进行频镨轮廓计算的情况下,该实现将更为 有效。在听觉场景分析处理的实际实施例中,所列出的参数可以被设置成
M = 512个样本(或在44.1kHz时的11.6ms )P= 0个样本(无重叠)
上面列出的值是根据实验来确定的,并且被发现通常可以以足够的精
确度来识别听觉事件的位置和持续时间。然而,将P的值设置为256个样 本(50%的重叠)而非零个样本(无重叠)已枕良现在对某些难以发现的 事件的识别上是有效的。虽然可以利用许多不同类型的窗口来最小化由于 加窗而导致的频镨失真,但是在频镨轮廓计算中使用的窗口是M点 Hamming (汉明)窗、M点Kaiser-Bessd (凯塞-贝塞尔)窗或其它适当 的(优选地是非矩形的)窗。在大量实验分析之后选择了上面指示的值和 汉明窗类型,这是由于它们显示出提供了跨越大范围的音频资料的优异结 果。对于主要是低频内容的音频信号的处理而言,加非矩形窗《一优选的。 加矩形窗产生了可能导致不正确的事件检测的频谱失真。与其中全部重叠 /相加处理必须提供恒定电平的某些编码器/解码器(编解码器)应用不同, 此处并未施加这种限制,并且可以针对诸如窗的时间分辨率/频率分辨率 以及阻带抑制之类的特性来选择所述窗。
在步骤l-l (图1)中,可以通过以下方式来计算每个M个样本的块 的频谱利用M点汉明窗、M点凯塞-贝塞尔窗或其它适当的窗;M"数据 加窗,利用M点快速傅立叶变换来转换到频域,以及计算复数FFT系数 的量值。对作为结果的数据进行归一化以使最大的量值被设置为一 (unity),并将归一化后的M个数的阵列转换到对数域。还可以通过诸 如所述数据的平均量值或平均功率值之类的某些其它度量来归一化所述 数据。所述阵列并不需要被转换到对数域,但是所述转换简化了步骤l-2 中的差异测量的计算。此夕卜,对数域更接近地匹配于人类听觉系统的特性。 作为结果的对数域值的范围是从负无穷大到零。在实际实施例中,可以对 该数值范围加以下限,所述限制可以是固定的(比如-60dB),或者可以是 频率相关的,以反映静音在低频和甚高频下的较低的可听度。(注意,由 于FFT表示负频率以及正频率,因此可以将所述阵列的大小减小到M/2。)
步骤l-2计算相邻块的频镨之间的差异的测量值。对于每个块,将来 自步骤1-1的M个(对数)频镨系数中的每个频镨系数^先的块的对 应系数中减去,并计算差值的量值(忽略符号)。然后将这M个差值求和 为一个数。还可以通过将所述差异测量值除以在所述求和中使用的频镨系 数的数量(在这种情况下是M个系数),来将该差异测量值表示为每个频 镨系数的平均差值。
步骤1-3通过将阁值应用于来自步骤1-2的具有阁值的差异测量值的阵列,来识别听觉事件边界的位置。当差异测量值超过阈值时,频镨的变 化被认为足以发信号通知新事件,并且该变化的块编号被记录作为事件边
界。对于上面给出的M和P的值以及对于以dB为单位表示的对数域值 (步骤1-1中)而言,如果对FFT的全部量值(包括镜像部分)进行比 较,则所述阈值可以被设置成等于2500,或者如果对FFT的一半量值进 行比较(如同上文所注意到的,FFT表示负频率和正频率——^J"于FFT 的量值而言,这二者中一个是另一个的镜像),则所述阈值可以被设置成 等于1250。该值是根据实验来选择的,并且其提供了良好的听觉事件边 界检测。可以改变该^值以减少(增大阈值)或增加(减小阈值)事件 检测。
可以用图3、 4和5的等效布置来更一般性地表示图1的处理。在图 3中,音频信号被并行地施加给以下处理将音频信号划分成其中每个均 被感知为独立且明显的听觉事件的"识别听觉事件,,功能或步骤3-1、以及 可选的"识别听觉事件的特性"功能或步骤3-2。可以使用图l的处理来将 音频信号划分成听觉事件以及所识别的所述听觉事件的特性,或者可以使 用一些其它适当的处理。通过功能或步骤3-l所确定的、可以是听觉事件 边界的标识的听觉事件信息I^被"修正动态錄,,功能或步骤3-3用来根 据期望而修正音频动态处理M(例如冲击、释放、比率等等)。可选的"识 别特性"功能或步骤3-3还接收听觉事件信息。"识别特性"功能或步骤3-3 可以用一个或更多个特性来表征一些或全部的所述听觉事件。如结合图1 的处理所描述的,这种特性可以包括听觉事件的主要子频带的标识。所述 特性还可包括一个或更多个音频特性,例如包括听觉事件的功率的测量 值、听觉事件的幅度的测量值、听觉事件的频镨平坦度的测量值、以及听 觉事件是否基本上无声、或者其它有助于修正动态M以使所述处理的无 益的听觉失真被减少或去除的特性。所述特性还可包括其它特性,比如所 述听觉事件是否包括瞬态。
在图4和5中示出了图3的布置的替代方案。在图4中,并不将音频 输入信号直接施加给"识别特性"功能或步骤4-3,而是所述"识别特性"功 能或步骤4-3接收来自"识别听觉事件"功能或步骤4-1的信息。图1的布 置是这种布置的具体示例。在图5中,功能或步骤5-l、 5-2和5-3是串行 布置的。
该实际实施例的细节并不重要。可以使用用于进行以下处理的其它方 式计算音频信号的连续时间段的频镨内容、计算连续时间段之间的差异、以及当连续时间段之间的频谱轮廓内容的差异超过阈值时将听觉事件边 界设置在这种连续时间段之间的相应边界处。
9fff新时喊,鍵才法,
由Alan Jeffrey Seefeldt于2005年10月25日递交并被公布为国际公 开WO 2006/047600 Al的、题为"Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal"的、根 据2009年5月13日 申请日期2007年3月30日 优先权日2006年4月27日
发明者布雷特·格雷厄姆·克罗克特, 阿兰·杰弗里·西费尔特 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1