用于声音的动态范围压缩的方法与装置与流程

文档序号:13806227阅读:1057来源:国知局
用于声音的动态范围压缩的方法与装置与流程

相关申请的交叉引用

本申请是申请日为2015年10月13日的国际申请pct/il2015/051019部分继续申请,该国际申请要求申请日为2014年11月6日的美国临时专利申请62/075,913的优先权,它们两者的说明书都以它们的整体在这里被引入。

本发明涉及声音的处理,更特别地涉及声音的动态范围压缩。



背景技术:

人耳最大可允许的声音水平能容纳90db而不受损伤。普通日常背景噪声响度能容易达到70db。这意味着:如果我们想要确保一些听力内容对于一个人能被听到,我们必须明白:该内容必须被提供在70db至90db响度水平,它是20db或因子120或动态范围(dr)的在数字项中约7比特。然而,结果是:一个人能被日常暴露的响度水平可超过200db,它相当于0db的最小响度水平的1020倍,或dr的33比特。

在声音的动态范围压缩(drc)方面的现有技术通常包括1:1映射,例如,对数曲线或分段线性输入—输出曲线,其中,新样本值是仅根据原始样本值来确定的。在那些1:1映射中,对于低声音水平的增益显然是基于对于高声音水平的增益的消耗而增加的。这样继而导致洗出效应,它会在高响度水平上大致损害由特定声音传递的语言的、音乐的或诸如此类的知觉的质量。

良好听觉drc的最迫切需求显现在助听器(ha)上。为了获得在正常背景噪音响度上的满意的听力,用户不得不增加ha的增益到从说话者到趋向发展的麦克风的正反馈的水平,导致危险的高能音调。在另一方面,采用现有的声音drc方法,弱听力的人将会由于洗出效应而损失在响声上的甚至更多的内容知觉。



技术实现要素:

本发明是一种用于压缩声音的动态范围的装置和方法。

根据本发明所教导的一个具体实施方式,提供了一种用于压缩音频信号的动态范围的方法,所述方法包括:(a)将音频信号乘以一个标量以产生标量相乘形式的音频信号;(b)整流所述音频信号以产生整流形式的音频信号;(c)根据明确定义的函数改变所述整流形式的音频信号,以产生所述改变的整流形式的音频信号;以及(d)基于在所述标量相乘形式的音频信号与所述改变的整流形式的音频信号之间的比率,产生输出信号,以致所得的输出信号具有比所述音频信号的动态范围更小的动态范围。

可选地,所述明确定义的函数是平均函数。

可选地,所述明确定义的函数是最大值函数。

可选地,所述改变的整流形式的音频信号是通过将音频信号传递通过低通滤波器而产生的。

可选地,所述标量相乘形式的音频信号与所述改变的整流形式的音频信号是基于将所述输出信号传递通过反馈环并将输入信号乘以所述音频信号,其中所述输入信号是基于所述反馈环的输出的。

可选地,所述输出信号的动态范围是以第一比特数来表示,而所述音频信号的动态范围是以第二比特数来表示,所述第一比特数是小于所述第二比特数的一半。

可选地,所述音频信号的动态范围是以33比特来表示。

可选地,所述音频信号的动态范围是以7比特来表示。

根据本发明所教导的一个具体实施方式,提供了一种用于压缩音频信号的动态范围的方法,包括:(a)提供反馈环,其将输出信号耦合到输入信号,所述输出信号是部分基于每个所述音频信号和反馈环,所述反馈环包括信号整流和根据明确定义的函数的信号改变;(b)在所述反馈环内整流和改变所述输出信号;(c)从常数值中减去所述整流和改变的输出信号,以产生所述输入信号;以及(d)所述音频信号乘以所述输入信号以产生所述输出信号,以致所得的输出信号具有比所述音频信号的动态范围更小的动态范围。

可选地,所述明确定义的函数是平均函数。

可选地,所述明确定义的函数是最大值函数。

可选地,在所述反馈环中的所述输出信号的所述整流和所述改变是通过将音频信号传递通过低通滤波器而完成的。

可选地,所述输出信号的整流是在所述改变之前进行的。

可选地,所述音频信号的动态范围的压缩率是由在所述音频信号的动态范围与所述输出信号的动态范围之间的比率而给出的,其中,所述压缩率是约等于在所述音频信号的动态范围与所得的音频信号的动态范围之间的比率,所述所得的音频信号是所述音频信号通过人听觉系统处理的结果。

根据本发明所教导的一个具体实施方式,提供了一种用于压缩音频信号的动态范围的装置,包括:(a)处理器,其连接到存储介质,所述处理器被配置为:(i)将音频信号乘以一个标量以产生标量相乘形式的音频信号;(ii)整流所述音频信号以产生整流形式的音频信号;(iii)根据明确定义的函数改变所述整流形式的音频信号,以产生所述改变的整流形式的音频信号;以及(iv)基于在所述标量相乘形式的音频信号与所述改变的整流形式的音频信号之间的比率,产生输出信号,以致所得的输出信号具有比所述音频信号的动态范围更小的动态范围。

可选地,所述的装置还包括:(b)助听器外壳,用于装配到使用者的耳朵内,其中所述处理器是被定位在所述助听器之内。

可选地,所述明确定义的函数是选自以下函数:平均函数以及最大值函数。

可选地,所述改变的整流形式的音频信号是通过将所述音频信号传递通过低通滤波器而产生的。

可选地,所述标量相乘形式的音频信号与所述改变的整流形式的音频信号是基于将所述输出信号传递通过反馈环并将输入信号乘以所述音频信号,其中所述输入信号是基于所述反馈环的输出的。

可选地,所述输出信号的动态范围是以第一比特数来表示,而所述音频信号的动态范围是以第二比特数来表示,所述第一比特数是小于所述第二比特数的一半。

根据本发明所教导的一个具体实施方式,还提供了一种用于压缩音频信号的动态范围的装置,包括:(a)处理器,所述处理器被配置为:(i)提供将输出信号通过反馈环到输入信号的耦合,所述输出信号是部分基于每个所述音频信号和反馈环;(ii)在所述反馈环内整流所述输出信号;(iii)在所述反馈环内根据明确定义的函数改变所述整流的输出信号;(iv)从常数值中减去所述整流和改变的输出信号,以产生所述输入信号;以及(v)所述音频信号乘以所述输入信号以产生所述输出信号,以致所得的输出信号具有比所述音频信号的动态范围更小的动态范围。

根据本发明所教导的一个具体实施方式,还提供了一种非瞬态计算机可读存储介质,在该介质上嵌入计算机可读代码,该代码用于导致合适的编程的系统压缩音频信号的动态范围,当程序在该系统上被执行时,将会执行以下步骤。这些步骤包括:(a)将音频信号乘以一个标量以产生标量相乘形式的音频信号;(b)整流所述音频信号以产生整流形式的音频信号;(c)根据明确定义的函数改变所述整流形式的音频信号,以产生所述改变的整流形式的音频信号;以及(d)基于在所述标量相乘形式的音频信号与所述改变的整流形式的音频信号之间的比率,产生输出信号,以致所得的输出信号具有比所述音频信号的动态范围更小的动态范围。

根据本发明所教导的一个具体实施方式,还提供了一种非瞬态计算机可读存储介质,在该介质上嵌入计算机可读代码,该代码用于导致合适的编程的系统压缩音频信号的动态范围,当程序在该系统上被执行时,将会执行以下步骤。这些步骤包括:(a)提供反馈环,其将输出信号耦合到输入信号,所述输出信号是部分基于每个所述音频信号和反馈环,所述反馈环包括信号整流和根据明确定义的函数的信号改变;(b)在所述反馈环内整流和改变所述输出信号;(c)从常数值中减去所述整流和改变的输出信号,以产生所述输入信号;以及(d)所述音频信号乘以所述输入信号以产生所述输出信号,以致所得的输出信号具有比所述音频信号的动态范围更小的动态范围。

附图说明

本发明在这里仅通过实施例的方式结合所附的附图来进行说明,其中:

图1是根据本发明的一个具体实施方式所述的一种神经形态学的动态范围压缩方法,它采用在生物学的神经—感受系统中发生的反馈—自动增益控制(fb-agc)模型。

图2是图1所示的信号倍增器的2个输入传送的描述。

图3是fb-agc模型平均传送的图,也称为韦伯定律。当输入趋向无穷大时,平均输出渐向地聚集到k,且当输入趋向零时,平均输出聚集为一条直线,它的斜率是k。

图4描述了fb-agc模型对于均匀间隔的阶梯输入信号的反应。

图5是根据本发明的具体实施方式所述的用于执行动态范围压缩的示例性处理单元的一般性介绍的示意图。

具体实施方式

本发明是用于压缩声音的动态范围的方法与装置。

根据本发明所述的方法与装置的操作和规律可以参考附图和下面的说明来得以更好的理解。

在详细解释本发明的至少一个具体实施方式之前,需要明确的是,本发明不是必需受限于它所应用的构造的细节和部件的安排和/或在下面的说明中展示的方法和/或在附图中显示的方法和/或实施例。本发明能够以多种不同方式在其他具体实施方式中实施或者实现或者运行。

现在参见附图,图1是根据神经形态学的fb-agc模型100的drc装置和方法的一个具体实施方式。在神经形态学的fb-agc模型中,获得的声音信号ei的每个样本是被输入到信号倍增器102的第一输入104中。声音信号ei可替代地被称为音频信号。信号倍增器102具有输出108,它通过反馈环被反馈进入信号倍增器102的第二输入106中。信号倍增器102的输出108是被整流,也就是,仅信号倍增器的输出的绝对值是被考虑,然后在反馈环中被改变,在被输入到信号倍增器102的第二输入106中之前从常数k中被减去。被输入到第一输入104和第二输入106的信号是被扩增以便产生输入108。

在整流和改变操作过程中,改变操作是基于整流信号的任意明确定义的函数而进行的。在一个示例性的非限制性具体实施方式中,明确定义的函数是平均函数,它对整流信号的时间样本平均化。在这样的一个具体实施方式中,整流和改变可通过将信号倍增器102的输出108传递通过低通滤波器110而进行的,该低通滤波器整流和平均信号倍增器102的输出108。在可替代的非限制性具体实施方式中,明确定义的函数是最大值函数,它输出在当前处理的整流信号样本的选择的邻域中的整流信号的最大值。虽然本说明书的剩余章节与附图描述了在由低通滤波器(lpf)110进行的整流和平均的内容中drc装置的当前具体实施方式,基于可替代的明确定义的函数的其他具体实施方式中,例如,上述的最大值函数,对于本领域普通技术人员而言是明确的。

神经形态学的fb-agc模型100的平均传递(dc)可通过假设对于下式的恒定输入水平而计算:这产生:

因此它被称为米氏方程(michaelis-menten方程),它的图是在图3中被描述。根据图3所示的图,当输入趋向无穷大时,平均输出渐向地聚集到k,且当输入趋向零时,平均输出聚集为一条直线,它的斜率是k。dr压缩率(cr)是被定义为在输出与输入之间的比率,当输入是全标量输入fsi时,假设fsi>>1。这可被表述为:因此,dr压缩率是由参数k而容易地控制的。

对于低频率的变量的fb-agc增益(“dc-增益”)是由下式给出:

对于瞬间响度变量的fb-agc增益(“ac-增益”)是通过假设以下而获得:对于这样的变量中,lpf100输出efb保持恒定,也就是,相应地,ac-增益可被表示为:

因此,在ac-增益与dc-增益之间的比率可被表示为:

关于gac/gdc的商作为神经形态学的drc的高频(hf)增强的测量,进行以下观察:hf增强的量或者“有效音频带宽”是随着感觉的声音的平均响度而线性增加的。有效音频带宽相对于感觉的声音的平均响度而线性增加是人感觉系统的已知特性。

作为副产品,当对应的输出刚好达到给出的知觉极限th时,可计算出在输入刺激物中增加的改变的量级δei|th。这样的计算结果显然是从上面的ac-增益表达中有用的,并能被表示为:也就是需要导致输出刚好达到恒定知觉极限的输入增加量级是与平均输入水平成几何比例的。这被称为改变的韦伯定律,它描述了人神经-感觉系统的总传输的特征。

现在参见图4,该图描述了fb-agc模型对于均匀间隔的阶梯输入信号的反应。根据米氏方程(michaelis-menten方程),求出平均传输,而每个内在阶梯过渡是由成对物而求得的,包括前下冲和后过冲。这些下冲和过冲产生了在视觉上熟知的马赫带错觉。在与输入步长相关的两个相邻的输出水平段之间的差异反射fb-agc传输的dc-增益(gdc),然而,对应于输入阶梯的输出成对物的幅度(又与输入步长相关)反射fb-agc传输的ac-增益(gac)。正如上面分析所得到的,这两个增益的gac/gdc比率随着输入水平而线性增长。

根据drc的另一个具体实施方式,在图1中描述的平均操作是根据下式进行的:efb=w(|eo|),其中w是适当的平均矩阵,而eo和efb是矢量。符号|v|是指矢量,它的项目是v的对应项目的绝对值。k是任意的正值的标量,通过应用矢量-矩阵代数,结果输出可以被表达为:其中ei是输入信号矢量。术语|ei|是指ei的整流形式(仅考虑ei的绝对值)。这是响应于任意输入矢量的fb-agc的准确的单步闭合形式解决方案。因此,这个闭合形式解决方案提供了与其他可能的解决方案相关的在实现中的显著优势。适当的平均矩阵的一个例子是:

标量k是影响drc率的参数。

需注意的是,由于上述输入—输出关系的结果,高动态范围压缩率是可获得的。例如,输入声音的高动态范围可被表示为接近33比特,然而输出声音的动态范围可被表示为7比特,由此得到的动态范围压缩比是33/7。所得的动态范围压缩保持包含在原始输入声音中的信息的完整性。正如前面所述的,用于表示输出的动态范围的比特数是可部分地基于控制参数k而调整的。而且,作为人感知系统的上述众所周知的性质的副产品,动态范围压缩比是与通过人听觉系统由声音处理而获得的动态范围压缩相同或相近似的。

所述drc装置与方法的上述具体实施方式可在处理单元上被实施和/或被执行。现在参见图5,该图是一个示例性的处理单元500的高水平的部分方框图,该处理单元被配置为实施前面所述的drc功能和方法。处理器单元500包括处理器502(一个或多个)和四个示例性的存储装置:ram504、引导rom506、大容量存储器(硬盘)508、闪存510,所有这些存储装置通过通用总线512连接。正如在本领域所熟知的,处理和存储可包括任意计算机可读介质存储软件和/或固件和/或硬件元件,包括但不限于:现场可编程逻辑阵列(fpla)元件、硬连线的逻辑元件、现场可编程门阵列(fpga)元件和专用集成电路(asic)元件。任意指令集体系结构可被用于处理器502中,包括但不限于:精简指令集计算机(risc)体系结构和/或复杂指令集计算机(cisc)体系结构。处理器502可以是任意数量的计算机处理器,包括但不限于:微处理器、arm处理器、asic、dsp、状态机和微控制器。模块(处理模块)514是被显示在大容量存储装置508上,但正如本领域技术人员所显而易见的,该模块也能被定位在任意存储装置上。

大容量存储装置508是非瞬态计算机可读存储介质的一种非限制性的例子,它承载用于执行这里所述的drc方法的计算机可读代码。这样的计算机可读存储介质的其他例子包括:只读存储器,例如承载这样的代码的光盘(cd)。处理单元500可具有存储在存储装置上的操作系统,rom506可包括用于该系统的引导代码,而处理器502可被配置用于执行该引导代码以将操作系统加载到ram504,执行操作系统以将计算机可读代码复制到ram504。

在一个非限制性具体实施方式中,处理单元500或处理单元500的组件的一个子集被嵌入在小型应用设备(例如,助听器)的外壳或壳体内。这样一种示例性的听力装置是被配置为适合于以通常的方式在使用者的耳朵内。相应地,这样的助听器执行前面所述的drc功能和方法。

本发明的具体实施方式中的装置和/或方法的实施可涉及:手动、自动地执行或完成选择的任务,或者它们的组合。而且,根据本发明所述的装置和/或方法的具体实施方式的实际操作方法和设备,几种选择的任务可通过以下方式来实施:通过硬件、通过软件或通过固件或通过它们的组合,采用操作系统。

例如,用于执行根据本发明的具体实施方式所述的选择的任务的硬件可被实施为芯片或电路。至于软件,根据本发明的具体实施方式所述的选择的任务可被实施为多个软件指令,它们通过采用任意合适的操作系统的计算机而被执行。在本发明的一个示例性具体实施方式中,根据这里所述的装置和/或方法的示例性具体实施方式的一个或多个任务是通过数据处理器来执行的,例如用于执行多个指令的计算机平台。可选地,数据处理器包括:用于存储指令和和/或数据的易失性存储器,和/或用于存储指令和和/或数据的非易失性存储器,例如,非易失性存储介质,例如硬磁盘和/或可移动介质。

例如,一种或多种非瞬态计算机可读存储介质的任意组合可根据本发明的上面所列的具体实施方式而被应用。非瞬态计算机可读存储介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于:电子的、磁的、光的、电磁的、红外的或半导体的系统、装置或设备或者前述的任意合适的组合。计算机可读存储介质的更特殊的例子(非穷尽的列举)可包括以下:具有一个或两个线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦写编程只读存储器(eprom或闪存)、光纤、便携式只读光盘存储器(cd-rom)、光存储设备、磁存储设备或前述的任意合适的组合。在本文的内容中,计算机可读存储介质可以是任意易失性介质,它能包含或存储用于通过或连接指令执行系统、装置或设备的程序。

计算机可读信号介质可包括带有计算机可读编程代码的传播数据信号,该代码嵌入在介质中,例如,在基带中或作为载波的一部分。这样的传播数据信号可采取任意多种不同形式,包括但不限于:电磁的、光的或它们的任意合适的组合。计算机可读信号介质可以是任意计算机可读介质,它不一定是计算机可读存储介质,只要是能通信、传播或传输用于通过或连接指令执行系统、装置或设备的程序。

正如参考上面所提供的段落以及参考附图可以明确的是,这里可提供计算机实施方法的多种不同的具体实施方式,其中一些可通过这里所述的装置和系统的多种具体实施方式来执行,另一些可根据存储在这里所述的非易失性计算机可读存储介质中的指令来执行。然而,这里提供的计算机实施的方法的一些具体实施方式可通过其他装置或系统而被实施,另一些可根据存储不同于在这里所述的非易失性计算机可读存储介质中的指令来执行,本领域普通技术人员参考这里所述的具体实施方式都可以明确这些实施方式。关于下面的计算机实施的方法的系统和计算机可读存储介质的任意参考仅是提供用于示例性的目的,而不试图限制与上面所述的计算机实施方法的具体实施方式相关的任意这样的系统和任意这样的非易失性计算机可读存储介质。类似地,关于这些系统和计算机可读存储介质的下面的计算机实施方法的任意参考仅是提供用于示例的目的,而不试图限制这里所揭示的任意这样的计算机实施方法。

在附图中所示的方框图显示了根据本发明的多种不同具体实施方式所述的计算机程序产品和系统、方法的可能的具体实施方式的操作、功能和架构。在这点上,在方框图中的每个方框可表示模块、区段或代码的一部分,它包括用于实施特定逻辑功能的一个或多个可执行指令。还需要注意的是,方框图中的每个方框以及在这些方框图中方框的组合可通过特定目的的基于硬件的系统来实施,该系统执行特定功能或动作或特定目的硬件和计算机指令的组合。

本发明的多种不同具体实施方式的描述已经作为说明的目的而提出,但并不试图穷尽或限制所揭示的具体实施方式。许多改变或变化对于本领域普通技术人员来说是显而易见的,它们都不脱离所描述的具体实施方式的范围和精神。这里所采用的术语是被精选以最好地解释具体实施方式、在市场上已有的技术的实际应用或技术改进的原理,或者能使本领域普通技术人员明白这里所揭示的具体实施方式。

正如这里所采用的,单独形式的“一个”和“这个”、“那个”包括复数的意思,除非在文本中另外明确的指出。

这里所采用的术语“示例”是指“用作例子、示例或例证”。作为“示例”描述的任意实施方式不是必然被分析作为其他具体实施方式的优选方式或比其他具体实施方式更优势,和/或不必然包括来自其他具体实施方式的特征或包括在其他具体实施方式中。

需要明确的是,本发明的特定特征是描述在分开的具体实施方式的内容中,为了清晰的目的,它们也可以在单独的具体实施方式中以组合的形式来提供。相反,本发明的多种不同特征是描述在单个具体实施方式中,为了简要的目的,也可以被分开提供或在任意合适的子组合中提供或适合于本发明的任意其他所述的具体实施方式。在多种不同具体实施方式的内容中描述的特定特征并不被考虑为那些具体实施方式的必要特征,除非没有那些特征元素该具体实施方式不能操作。

上面描述的方法过程包括可通过软件、硬件或它们的组合来实施的部分。这些方法和它的部分可通过计算机、计算机形式的设备、工作站、处理器、微处理器、其他电子搜索工具和存储器以及其他非瞬时存储类型设备来实施。这些方法和它们的部分也被嵌入在可编程的非瞬时存储介质中,例如,光盘(cd)或其他盘中,包括磁的、光的等等,可通过机器或类似物来读取,或其它计算机可用的存储介质,包括磁的、光的或半导体存储器或其他来源的电信号。

这些方法和系统,包括它们的组件,在这里已经以对于特定硬件和软件的示例性参考而被描述。这些方法已经作为示例而被描述,而特定步骤和它们的次序能被忽略和/或由本领域普通技术人员改变以简化这些具体实施方式以实施,无需过多的实验。这些方法和系统已经以足够使本领域普通技术人员轻易第采用其他硬件和软件来实施的方式进行了描述,这些硬件和软件是需要的以简化任意具体实施方式以实施,无需过多的实验和采用传统的技术。

需要重视的是,上面的说明仅是试图作为示例,有许多其他具体实施方式都是可能的,它们都落入在所附的权利要求中所定义的本发明的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1