用于增大音频感觉音警报的方法与系统的制作方法

文档序号:7605464阅读:248来源:国知局
专利名称:用于增大音频感觉音警报的方法与系统的制作方法
技术领域
一般地,本发明涉及生成警报信号与警报设备的领域,更具体地,涉及基于心理声学/听力测定数据来增大音频感觉响度(loudness)与生成警报信号。
背景技术
存在对于手持式无线通信设备的大的世界市场,并且(人们)总是对设计这些系统,以便以最少量的电力操作感兴趣。缩小手持式设备(例如手机、寻呼机与PDA)方面的进展常常受到电源约束(包括电池大小)的限制。许多手机与具有有限电力配置的小型消费音频设备装备有传感器(transducer),例如喇叭扩音器,其将话音投射向听者而非直接连接到耳朵。业界技术的当前焦点在很大程度上就在更好的扬声器设计或更有效率地利用功率放大器阶段中的电流消耗。没有能量保持方案直接操作在音频警报上以生成警报。典型地,使用警报来向用户通知到来的呼叫、寻呼、文本消息、日历提醒等等。
目前的市场上近来对提高产生的音频警报的质量的需求已导致部署数字技术。参照医疗警报设备,传统的嵌入式低功率医疗设备警报必须足够响,以便引起设备持有者的注意。传统的身体上的(on-the-body)医疗警报设备间歇地得到使用,这是因为设备持有者可能正进行其它活动,仅当医疗警报为必需时需要得到通知。在大多数情形中,持有者不会注意设备。
另外,传统的医疗设备警报(例如寻呼机上使用者)使用单音(tone)来向个人发出警报例如,跑步者的心率监控器或测量速度的腕表。典型地,音调为大约1KHz,这是因为非正式的听力测试揭示,此频率足够恼人,足以吸引使用者的注意并求得响应。然而,对于在维持低电力需求的同时保持响度而言,该音调并非优化。
进一步地,研究已显示心理声学与听力测定的数据随听者而变化。换言之,为给定听者针对响度优化的系统对于另一听者不是最优的。相应地,需要提供一种可为特定用户定制的系统。

发明内容
本发明增大音频感觉响度并生成优化的音序列(tone sequence)以获取最大响度,其基于设备扬声器响应,听者的听觉轮廓(profile),以及对人类听觉的听力范围(sound)的知识。本发明利用响度的心理声学知识,以生成音序列,其与遵照听者的听觉轮廓的最大响度相对应,同时维持低电力需求。
遵照本发明的一个实施例,提供一种方法,一种计算机可读媒体,以及一种系统,其用于增大音频感觉响度,其包括偏移第一音频信号的至少一个频率,以创建第二音频信号,以便增大音频感觉响度,同时维持低电力需求。方法包括为给定音量设置与扬声器生成音频扬声器频率响应曲线;选择等响度参考曲线;通过从音频扬声器频率响应曲线减去响度参考曲线,为给定音频扬声器响应创建响度敏感度曲线;获取听者的门限音频轮廓;对于听觉不正常的听者,将听者的音频轮廓添加到响度敏感度曲线,以产生听者的音敏感度曲线(tonalsensitivity curve);从听者的音敏感度曲线为临界频带的音确定所要求的dB定标;归一化音敏感度曲线,以创建分贝曲线;通过使用音敏感度曲线,选择音的频率范围;以及沿着临界频带尺度隔开音序列。


图1是阐释响度曲线的图形,其改编自ISO-226。
图2是阐释由方程(2)与(3)给出的线性频率尺度到临界频带尺度的映射的图形。
图3是阐释模拟的水平相关的roex听觉滤波器响应的图形,其对应于中心频率为fc=100Hz、1KHz、与3KHz的50到90dB的输入水平。
图4是阐释窄带纯音掩蔽门限的图形。
图5-6是阐释描绘出听觉滤波器形状的“凹槽噪声”方法的图形。
图7-8是阐释激励函数的生成的图形,其中图7显示1KHz正弦输入的单个听觉滤波器形状,而图8显示产生的激励模式。
图9是阐释针对由roex滤波器生成的1KHz音的激励水平对临界频带模式的图形。
图10是阐释对于各种R值,由方程(19)给出的外耳到中耳滤波器的图形。
图11-13是阐释响度与带宽之间的关系的图形,其中图11显示中心为1KHz、带宽为40、80、160、320、640与1280Hz(均处于60dBSPL的恒定水平)的输入窄带噪声,图12显示相应的激励模式,而图13显示产生的响度模式。
图14-15是阐释相等能量的两个音的响度的图形,其中图14显示由超过一个临界频带分隔开的两个音,而图15显示同一临界频带的两个音。
图16与17是端用户设备的框图,其用于实现所述方法,其遵照本发明。
图18与19是显示所述方法操作在图16的终端用户上的流程图,其遵照本发明。
图20是阐释音频扬声器频率响应曲线的图形,其遵照本发明。
图21是阐释ISO-226等响度曲线的图形,其遵照本发明。
图22是阐释听者的音频轮廓的图形,其遵照本发明。
图23是显示定制图19的听者轮廓的方法的流程图,其遵照本发明。
具体实施例方式
如上面所陈述的那样,本发明将心理声学知识和听者的听觉轮廓集成在音警报序列中,以获取可得到的最响的警报,同时维持所要求的电力。
通过软件或固件更新,本发明与许多目前可获得的系统一起工作。在一个实施例中,本发明允许用户为该用户的听力测定轮廓优化音警报。
听觉的临界频带(critical band)概念是当能量在临界频带中保持恒定时,响度将增大(当超过临界带宽时)。简单地说,当频率尺度上的多个音全被特定带宽(称为“临界带宽”)在频率上隔开时,与被分组在一起相比,声音将最响。另外,将每一音的dB增益作为听者的听觉轮廓的函数来选择。ISO-226等响度等高线提供这样的响度水平,在其上面声音在整个频谱上同样响。等响度音(equal loudnesstones)概念陈述1KHz到4KHz之间的音被感觉为比任何其它音更响。
另外,具有中度听觉损失的听觉障碍人士的听觉轮廓一般在2KHz上显示大约-10dB的高频率损失。这允许缩小响度范围,其为优化响度所必需。在向1KHz到2KHz范围中的音序列施行临界频带概念时,可以看到,7个音对于临界频带分割以获取最优响度而言是必需的即,1000、1170、1370、1600、1850、1720、与2000Hz。听者的听觉轮廓被包括,以优化警报序列的响度。
人类感觉中的响度响度是人类对强度的感觉,是声音强度、频率与质量的函数[要获取进一步的信息,参见William Hartmann,Signals,Sound,andSensation,Springer,New York,1998]。声音能量水平可表示为强度I的函数,以及声压p的函数,这是因为I∝p2,如下所示L=101og10I1I2=201og10p1p2---(1)]]>
当将分母值选择为对应于听觉门限的参考变量时,分贝压比变为声压水平SPL,而分贝强度比变为强度水平。当刺激的强度增大时,人类感觉(例如听觉)以对数程度增大[要获取进一步的信息,参见S.Stevens,The direct estimation of sensory magnitudesloudness,AmericanJournal of Psychology,691-25,1956]。为测量响度,有必要建立这样的参考,其将主观感觉与物理含义相关联。创建响度水平,以刻画任何声音的响度感觉的特征,这是因为幅度估计不提供精确的表示。声音的响度水平是和测试的声音一样响的1-KHz音调的声压水平。单位测量是“phon”,其为客观值,将响度的感觉与SPL相关联。具有相等phon水平的任何声音处于相等的响度水平。对于给定SPL,可向连续频谱分配phon水平。这些曲线的等高线称为等响度曲线[要获取进一步的信息,参见ISO-226,Acoustics-normal equal loudnesscontours,ISO Geneva,Switzerland,1987]。
图1阐释等响度曲线,其改编自ISO-226。对应于从听觉门限到听觉最高限度的SPL值的曲线集在每一频率以phon定义了等价响度。图1中的虚线表示听觉门限,在该门限达到响度感觉的限度。这生成在3phon水平,这是因为安静的门限在1KHz处对应于3dB[要获取进一步的信息,参见E.Zwicker与H.Fastl,Psychoacoustics,SpringerSeries,Berlin,1998]。
然而,phon不提供对响度比例的度量。响度定标提供一种测量单位,其陈述与另一(声音)相比,一个声音被感觉响到什么程度。phon水平陈述为获取相同响度水平所需的SPL水平。它不建立响度的度量或单位。“sone”被引入,以定义响度的主观测量,其中sone值为1对应于1KHz音调在作为参考的40dB SPL的强度的响度[要获取进一步的信息,参见S.Stevens,The direct estimation of sensorymagnitudesloudness,American Journal of Psychology,691-25,1956]。sone比例定义响度的比例,使得sone水平增加到四倍时,感觉到的响度也增加到四倍。声压p同以sone度量的响度S之间的经验关系典型地由S∝Ik给定,其中k 0.3。强度增加到十倍对应于SPL中增加10phon。由于响度大约正比于强度的立方根,10phon的增加大致对应于sone值翻番。声音被感觉为两倍地响。
临界频带听觉理论的最具支配力的概念是临界频带概念[要获取进一步的信息,参见H.Fletcher与W.J.Munson,Loudness,its definition,measurement,and calculation,J.Acoust.Soc.Am,582-108,1933]。临界频带概念通过听觉表示,以绝对比例定义听觉系统的处理通道。临界频带表示沿着基底膜(basilar membrane)的恒定物理距离[要获取进一步的信息,参见E.Zwicker与H.Fastl,Psychoacoustics,SpringerSeries,Berlin,1998]。它表示单个听觉神经细胞或纤维之内的信号过程。一同落在临界频带中的谱分量被一同处理[要获取进一步的信息,参见E.Zwicker,Procedure for calculating loudness of temporally variablesounds,J Acoust.Soc.Am,62(3)675-682,1977]。临界频带被视为独立的处理通道。它们共同组成声音的听觉表示。临界频带也被视为这样的带宽,其中突然的感觉变化得到注意[要获取进一步的信息,参见William Hartmann,Signals,Sound and Sensation,Springer,NewYork,1998]。
下面的近似涉及临界频带率与带宽对频率(kHz)[要获取进一步的信息,参见Zwicker与E.Terhardt,Analytic expressions for critical bandrate and critical bandwidth as a function of frequency,J.Acoust.Soc.Am,681523-1525,1980]。
zBark=13tan-1(0.76f)+3.5tan-1(f)2---(2)]]>然而,此方程不是闭形式可逆的(not invertible in closed form),可逆过程在方程(3)中给出如下[要获取进一步的信息,参见H.Traunmuller.Analytic expressions for the tonotopic sensory scale,J.Acoust.Soc.AM,8897-100,1990]。
z′=26.81f/(1960+f)-0.53z=z′+0.15(2.0-z′)z′<2.0z′z′+0.22(z′+20.1)---(3)]]>z′<2.02.0<z′<20.1z′>20.1图2是阐释由方程(2)与(3)给出的线性频率尺度对临界频带尺度的映射的图形。相应地,图2显示由方程(2)与(3)两者建立的临界频带尺度。Fletcher关于掩蔽现象的原始实验揭示了临界频带概念的特征。在这些实验中,对于不同的噪声带宽评估纯音的可听觉性。实验结果阐明可听觉性仅受临界频带中的噪声的量的影响。当带宽降低到临界带宽之下时,音调的检测门限降低。实验建议存在听觉滤波器。由于特定带宽之外的噪声不影响检测门限,听觉机制(其抑制这些分量)看来是可靠的(likely)。可将听觉滤波器考虑为生理过程,其抑制滤波器区域之外的分量,但并不对滤波器之内的信号造成坏影响。听觉滤波器的目的是隔离感兴趣的信号分量,并削弱此区域之外的信号贡献。由此边界定义的区域为临界带宽,且实验结果显示此临界带宽随频率的增大而增大[要获取进一步的信息,参见E.Zwicker与H.Fastl,Psychoacoustics,Springer Series,Berlin,1998]。
临界频带概念对于描述听觉尤其是响度是至关紧要的。如果声音的强度固定,当带宽小于临界带宽时,声音的响度保持恒定[要获取进一步的信息,参见E.Zwicker与H.Fastl,Psychoacoustics,SpringerSeries,Berlin,1998]。一旦带宽增加到超过临界频带,响度将增加。当带宽超过临界带宽时,响度增加,尽管能量保持恒定。这是基于这样的事实,即人类听觉系统将广谱分析为对应于临界频带的部分。这也与听觉滤波器概念一致,在听觉滤波器概念中,频率被沿着基底膜连续地编码,并且响度与激励区域线性地关联[要获取进一步的信息,参见A.T.Cacace与R.H.Margolis,On the loudness of complex stimuliand its relationship to cochlear excitation,J Acoust.Soc.Am,78(5)1568-1573,1985]。临界频带率提供响度对频率信道的连续统(continuum)的测量。由于这些听觉通道是过程独立的,它们的总和提供了对所感觉的响度的总估价。
通过将每一临界频带作为响度的离散单元来分配,有可能通过将各个临界频带单元相加来评估频谱的响度[要获取进一步的信息,参见E.Zwicker,Procedure for calculating loudness of temporally variablesounds,J.Acoust.Soc.Am,62(3)675-682,1977]。和值代表由声音频谱生成的所感觉的响度。每一临界频带单元的响度值是特定的响度,且临界频带单元被称为Bark单元。这样,1Bark间隔对应于给定的临界频带集成[E.Zwicker与H.Fastl,Psychoacoustics,SpringerSeries,Berlin,1998]。临界频带尺度是基底膜的频率到空间变换。
听觉滤波器主观听力测试与实验揭示了对听觉滤波器形状的描述[要获取进一步的信息,参见R.Patterson,Auditory filter shapes derived withnoise,J.Acoust.Soc.Am,74640-654,1976和E.Zwicker与H.Fastl,Psychoacoustics,Springer Series,Berlin,1998和B.C.Moore与B.R.Glasberg,Auditory filter shapes derived in simultaneous and forwardmasking,J.Acoust.Soc.America,701003-1014,1981]。第一估计来自音与噪声掩蔽实验的结果[要获取进一步的信息,参见H.Fletcher与W.J.Munson,Loudness,its definition,measurement,and calculation,J.Acoust.Soc.Am,582-108,1933]。Fletcher揭示了频带的概念,并将定义临界频带的边界的听觉滤波器近似为矩形滤波器。为简化起见,一般以临界频带来描述听觉滤波器的宽度。然而,它们并非真的是矩形形状。
等价矩形带宽(ERB)的概念对于描述临界带宽是有用的[要获取进一步的信息,参见William Hartmann,Signals,Sound,andSensation,Springer,New York,1998]。ERB是单位高度与带宽的矩形滤波器,矩形中包含与临界频带相同的功率。方程(4)提供方程(2)的ERB的近似表达式如下[要获取进一步的信息,参见WilliamHartmann,Signals,Sound,and Sensation,Springer,New York,1998]ΔfGHZ=25+75[1+1.4(fKHz)2]0.69---(4)]]>临界带宽线性地增加到大约500Hz,其后对数地并与中心频率正比地增加。一种用于确定听觉滤波器形状的精炼的实验过程是由Patterson提议的噪声凹槽方法[要获取进一步的信息,参见R.Patterson,Auditory filter shapes derived from noise,J.Acoust.Soc.Am,74640-654,1976]。其合意地限制掩蔽效应,以提供对听觉滤波器过程的更佳观察。在测试期间,此方法将听觉滤波器限制到如噪声凹槽给定的特定带宽之内。它提供了一种描绘出临界频带滤波器形状的方法。Patterson与Nimmo[要获取进一步的信息,参见R.Patterson,J.Nimmo-Smith与P.Rice,The auditory filterbank,MRC-APU report2341,1991]建议方程(5)中的取舍指数(rounded exponential)(roex)函数,以参数化描述他们的实验结果的听觉滤波器形状,如下面显示的那样。
|H(f)|2=(1+pg)e-pg(5)其中g是评估频率对中心频率fc的归一化的偏移;g=|(f-fc)/fc| (6)而p是无量纲的参数,其描述带宽与滤波器斜率。Moore与Glasberg提议参数pl与pu,以建模不同输入水平下非对称滤波器形状,以作为对实验数据的更佳拟合[要获取进一步的信息,参见B.C.Moore与B.R.Glasberg,Formulae describing frequency selectivity as a functionof frequency and level and their use in calculating excitation patterns,Hearing Research,28209-225,1987]。当听觉滤波器的输入水平为L=51dB/ERB时,听觉滤波器在线性范围内近似地对称。
p(fc)=4fc/(24.7+0.108fc) (7)pu(fc)=p(fc)pl(fc)=p(fc)(1-0.38p(1KHz(L-51dB)]]>这些修改已被用于生成外围听觉系统的非线性模型[要获取进一步的信息,参见Martin Pflueger,Robert Hoeldrich与William Reidler,A nonlinear model of the peripheral auditory system,IEM Report,pages1-10,Feb 1998],而对于ERB带宽的不同表示导致Lyon的和Greenwood的模型(在Slaney[要获取进一步的信息,参见Malcolm Slaney,Anefficient implementation of the Patterson-Holdsworth auditory filterbank,Apple Computer Technical Report 35,1993]中引用)。Moore与Glasberg做出结论,决定听觉滤波器形状的关键变量是到滤波器的输入水平。他们也提供对外耳到中耳传输函数的“修正”,作为对实验结果的更佳拟合。
图3阐释模拟的水平相关的roex听觉滤波器响应,其对应于中心频率为fc=100Hz、1KHz、与3KHz的50到90dB的输入水平。低频听觉滤波器斜率随水平(level)而降低,而高频斜率随水平而轻微地增加。
激励响度是激励模式的函数,其中激励是听觉滤波器的剩余响应。声音的激励模式是对该声音引起的活动或激励的表示,其作为特征频率的函数[要获取进一步的信息,参见E.Zwicker与H.Fastl,Psychoacoustics,Springer Series,Berlin,1998]。激励模式用在响度的所有模型中。存在两种确定激励模式的一般方法。
图4阐释窄带纯音掩蔽门限。相应地,图4显示第一方法(在ISO-532B[要获取进一步的信息,参见ISO-532,Acoustics-method forcalculating loudness level,ISO Geneva,Switzerland,1975]中使用),其根据窄带噪声的纯音的掩蔽,计算激励在临界频带的扩展。给定频率的窄带噪声是掩蔽音,而要检测的音其频率是变化的。产生的门限曲线是掩蔽模式。掩蔽效应是指特定声音在较响的相邻声音的附近变得听不到的现象。部分掩蔽效应减小了可听觉性,但没有完全掩蔽声音。掩蔽模式联系测试音的频率来描述被掩蔽的门限。Zwicker及同事建议,生成的掩蔽模式表示所引起的神经激励[要获取进一步的信息,参见E.Zwicker与E.Terhardt,Analytic expressions for critical bandrate and critical bandwidth as a function of frequency,J.Acoust.Soc.Am,681523-1525,1980]。ISO-532B[要获取进一步的信息,参见ISO-532,BASIC Program for calculating the loudness of sounds fromtheir 1/3-Oct band spectra according to ISO 532 B,Acustica,Letters to theeditors,5563-67,1984]在图示流程(charting routine)中使用此方法的掩蔽曲线斜率来计算激励的扩展。
在由Moore与Glasberg提议的第二方法中[要获取进一步的信息,参见B.C.Moore,B.R.Glasberg与T.Baer,A model for the prediction ofthresholds,loudness,and partial loudness,J.Aud.Eng.Soc.,45(4)224-239,April 1997],激励模式系从听觉滤波器生成。听觉滤波器形状决定激励的扩展,而非掩蔽模式。掩蔽模式反映了使用多个听觉滤波器,而非像临界频带那样的单个听觉滤波器。在Moore与Glasberg的方法中,通过在噪声凹槽中查找刚刚可注意到的声音水平来确定听觉滤波器形状。
图5-6阐释描绘出听觉滤波器形状的“凹槽噪声(notch noise)”方法。相应地,图5-6显示凹槽噪声方法,其也表现得较少受对Zwicker的方法的掩蔽效应作出贡献的听觉事件影响。凹槽噪声方法允许变化凹槽中心,合意地将分析限制到单个听觉滤波器。听觉滤波器形状共同被用于生成激励模式,该激励模式可被视为听觉滤波器的输出,其作为听觉滤波器的中心频率的函数。
图7-8阐释激励函数的生成,其中图7显示1KHz正弦输入的单个听觉滤波器形状,而图8显示产生的激励模式。相应地,图7-8显示从模拟的roex滤波器导出的1KHz正弦音调的激励模式[要获取进一步的信息,参见Martin Pflueger,Robert Hoeldrich与William Riedler,A nonlinear model of the peripheral auditory system,IEM Report,pages1-10,Feb 1998]。引起的激励由连续听觉滤波器组的作出贡献的输出生成。信号分量落入不同的听觉滤波器之内,每一听觉滤波器遵照其滤波器形状进行响应。尽管此水平的听觉滤波器在线性频率范围上是对称的,产生的激励模式不是对称的。听觉滤波器带宽随频率的增加而增加,并且不是线性地隔开的。这些特征生成非对称激励函数,其显示更显著的激励向上扩展[要获取进一步的信息,参见B.R.Glasberg与B.C.Moore,Derivation of auditory filter shapes from notched noisedata,Hearing Research,47103-138,1990]。
使用凹槽噪声方法的对听觉滤波器形状的实验测量揭示了形状随水平的变化[要获取进一步的信息,参见R.Hellman,A.Miskiewicz与B.Scharf,Loudness adaptation and excitation patternsEffects offrequency and level,J.Acoust.Soc.Am,101(4)2176-2185,1997]。如果听觉滤波器是线性的,则它们的形状将不会随输入噪声的水平而变化,但它们确实变化了。这些观察导致将依赖于水平的项包括进来,以在方程(7)中计算上(upper)听觉滤波器斜率,如图3中所示。
图9阐释针对由roex滤波器生成的1KHz音的激励水平对临界频带模式。相应地,图9显示临界带宽尺度上1KHz输入正弦的各种dB水平的激励模式。激励系从方程(7)描述的Roex听觉滤波器的输出生成,并以与图7-8的激励函数相同的方式计算。可以看到,图9的激励斜率关于功率水平在临界频带尺度上大致是线性的。听力曲线的绝对门限作为虚线描述在方程(20)中。
听力功率定律声音的总响度N通过将特定响度N′沿着临界频带率尺度相加来得到。与听觉系统如何在频率上积分响度类似,将特定响度分量沿着临界频带尺度增量地相加。特定响度是临界频带率z的函数,称为“响度分布”或“响度模式”。响度模式产生这样的曲线,其下面积之和是所感觉的响度的直接测量。
N=∫024BarkN′dz---(8)]]>Steven定律陈述强度的感觉作为物理强度的幂律而增长,结果,可假定响度的相对变化正比于强度的相对变化[要获取进一步的信息,参见S.Stevens,The direct estimation of sensory magnitudesloudness,American Journal of Psychology,691-25,1956]。响度听力测试实验已显示,相等比例的强度导致相等比例的响度估计。使用特定响度来替代总响度,激励替代强度,下面的关系为真ΔN′N′=kΔEE---(9)]]>其中激励E是中间值,其描述听觉滤波器斜率在临界频带率上的掩蔽贡献。它对我们的频率选择性听力提供比强度更佳的近似。方程(9)表示差分方程,其导致听力的幂律。
∫1N′dN′=∫k1EdE]]>log N`=k log E
N′=Ek(10)对于低的N′与E值,可包括内部噪声低限(floor),N′+Ngr=(E+Egr)k(11)假定边界条件E=0导致N′=0,进行噪声低限归一化。
N′+NgrNgr=(E+EgrEgr)k---(12)]]>为特定响度解之,获得方程N′=Ngr[(1+E/Egr)k-1] 方程(13)N0作为关于Ngr的参考特定响度是必要的,而E0是由0dB SPL的声音产生的参考激励。
Ngr′N0=(EgrE0)k]]>方程(14)门限因子s被包括,以使用由内部激励噪声产生的安静中的听力门限,如下所示。
Egr=ETQ/s 方程(15)在方程(13)插入这些代换,得到最终的响度方程N′=N0′(ETQsE0)k[(1+sEETQ)k-1]]]>方程(16)
对于中等到高等水平的激励E,ETQ的影响是可忽略的,并且特定响度可简化,如下所示。
N′≈N0(EE0)k]]>方程(17)Zwicker与同事发现k=0.23提供了对来自由窄带噪声掩蔽纯音的实验的观察结果的最佳拟合。对于k=0.3,压缩非线性提供对音的近似拟合,而对k=0:23,它是对噪声掩蔽的近似拟合[要获取进一步的信息,参见E.Zwicker与H.Fastl,Psychoacoustics,Springer Series,Berlin,1998]。提供方程(11)到(16),以更好地匹配低强度条件下的响度测量,其中响度发生快速的变化。方程(16)是对一般幂律的修正,以包括低水平响度计算。对于E的中到高水平,额外项可以忽略。在低水平,其说明了观察到的响度在门限附近的剧烈下降。Moore等[要获取进一步的信息,参见B.C.Moore、B.R.Glasberg与T.Baer,Revision of Zwicker’s loudness model,Acustica,82335-445,1996]修改了方程(16)的响度方程,以更适宜地表示接近安静水平的听觉选择性,如下N′=c[(EE0)k-(ETQE0)k]forE≥ETQ]]>方程(18)在此方程中,当E接近ETQ时响度接近零,并且当激励达到门限时,响度变为零。对响度方程的这一简单修正存在两个有利的后果。观察到的响度在门限附近的剧烈下降在方程中得到说明,意味着相对于实验响度测量,接近门限的低水平得到更好的建模[要获取进一步的信息,参见B.C.Moore、B.R.Glasberg与T.Baer,Revision of Zwicker’sloudness model,Acustica,82335-445,1996]。这允许响度在高门限区域(例如低频区域)的快速增加。而且,当激励增加时,门限在计算中也差不多可以忽略。
外耳到内耳滤波器外耳到中耳的频率选择性与响度的感觉密切相关。响度模型的第一阶段是包括外耳到中耳的传输特性。外耳传输包括头、外耳、与外耳道的形态,其提供我们的高频选择性。中耳从鼓膜开始,并作为压力接收器,以将声音强度转化为物理运动。
声音的强度是大位移上的小空气力振荡,而所需物理运动是小区域上的大力。物理运动被传送到内耳,这里将物理运动转换为波动。此完整交互定义了阻抗匹配变换,其在人类听觉系统中非常有效率。此变换由外耳到中耳传输方程表示,并通常被作为对数衰减曲线A0。它表示声音从自由场传播到该声音在内部活动时声音经历的传输特征,如下所示。
H(z)=HLP(z)HHP(z) 方程(19)HHP(z)=1-2z-1+z-21-2Rz-1+R2z-1]]>HLP(z)=0.109(1+z-1)1-2.5359z-1+3.9295z-2]]>-4.7532z-3+4.7251z-4-3.5548z-5+2.1396z-6-0.9879z-7+0.2836z-8已根据实验听力测试结果与测量建模外耳到中耳传输方程。多个作者已显示了对ISO-226中发布的等响度等高线的调整。Pfluege等已提议外耳到中耳传输方程的参数化模型[要获取进一步的信息,参见Martin Pflueger、Robert Hoeldrich与William Riedler,A nonlinear modelof the peripheral auditory system,IEM Report,pages 1-10,Feb 1998],针对fs=44.1KHz的该模型在方程(19)中给出,以说明参数R的偏差。响应建模了逆100phon等响度等高线(最顶部)和逆绝对听觉门限曲线(最底部)之间的一组通用的衰减曲线A0。传输的特征在于一系列低通滤波器与高通滤波器。8阶IIR LPF确定总的形状,而高通滤波器确定低频衰减。R因子设置1KHz以下的低频响应。
图10阐释对于各种R值,由方程(19)给出的外耳到中耳滤波器。相应地,图10显示针对fs=44.1KHz的R=0.94到0.99,增量为0.10的滤波器。Zwicker的响度模型假定外耳到中耳传输方程在2KHz以下是平的,而在2KHz以上遵循逆绝对门限曲线的形式。此模型假定2KHz以下的低频门限是内部低频噪声的完整结果,因此在此区域中衰减不应反映提升的门限。在Moore与Glasberg的模型中,假定的外耳到中耳传输方程对于1KHz以下的频率是基于逆100phon等响度等高线,而对于1KHz以上的频率是基于逆绝对门限曲线。这是基于这样的假定,即内耳具有内部噪声低限,其水平依据外耳到中耳传输方程而升高。这允许内部噪声低限的水平随着逆等响度水平(的升高)而相似地升高。
Zwicker假定没有低频噪声低限,并且低频门限是严格地随着内部噪声水平的增加而增加。与Zwicker相似,Moore与Glasberg也假定内耳对于1KHz以上的频率同样地敏感。他们提议此区域中的滤波器形状为逆绝对门限曲线。100phon与绝对门限曲线(最小可听觉域(MAF)即基于其上)在1KHz以上也是近似等价的。
绝对听觉门限也可由下面的方程近似,其中f以KHz表示[要获取进一步的信息,参见R.Hellman、A.Miskiewicz与B.Scharf,Loudnessadaptation and excitation patternsEffects of frequency and level,J.Acoust.Soc.Am,101(4)2176-2185,1997]。
AdB(f)=3.64f-0.8-6.5e-0.6[(f-3.3)2]+10-3(f4)]]>方程(20)响度与带宽Moore与Glasberg的响度模型对Zwicker的模型作出如下变化1)重新检查外耳到中耳滤波器中的低频衰减;2)基于依赖于非对称水平的听觉滤波器的分析表达式来评估激励;和3)由方程(18)中提议的特定响度对激励关系来说明接近安静的响度增加。Moore与Glasberg对Zwicker的响度模型的修订被引入,以更好地说明等响度等高线水平变化的方式。对于为什么当声音具有低于临界带宽的带宽时,固定强度的声音的响度保持恒定,他们的模型也提供了一个好解释。
Zwicker的实验结果推断,对于低于临界带宽的带宽,响度与带宽无关。而且,当带宽超过临界频带时,响度增加。Zwicker的响度模型假定临界频带之内所有声音的激励模式相同[要获取进一步的信息,参见B.C.Moore、B.R.Glasberg与T.Baer,Revision of Zwicker’sloudness model,Acustica,82335-445,1996]。激励模式从由窄带噪声掩蔽的纯音的掩蔽模式获得。Moore与Glasberg的模型从听觉滤波器响应导出激励模式,其形状从由噪声凹槽实验获得的数据导出。他们的通过听觉滤波器分析对激励模式的描述提供了另一可供选择的观点响度在临界带宽以下保持恒定,不是因为激励相同,而是因为由激励导致的总特定响度恒定。当带宽超过临界频带时,由激励扩大导致的特定响度的贡献增加。由激励扩大导致的面积增加大于有效幅度的面积减少。因此,与带宽低于临界频带时相比,特定响度的贡献更大。
为阐释起见,模拟结果[要获取进一步的信息,参见B.C.Moore、B.R.Glasberg与T.Baer,Revision of Zwicker’s loudness model,Acustica,82335-445,1996]使用方程(7)的听觉滤波器复制。
图11-13阐释响度与带宽之间的关系,其中图11显示中心为1KHz、带宽为40、80、160、320、640与1280Hz(均处于60dB SPL的恒定水平)的输入窄带噪声,图12显示相应的激励模式,而图13显示产生的响度模式。相应地,图11-13显示中心为1KHz、带宽为40、80、160、320、640与1280Hz(均处于60dB SPL的恒定总水平)的窄带噪声的激励与响度模式。如可从图11-13看到的那样,对于20与160Hz之间的带宽,峰值下特定响度区域的减少与沿着边沿的轻微增加大致相同。在此范围内,总面积(即响度)相对恒定。对于160Hz之上的带宽(1KHz音调的临界带宽),由激励扩大导致的沿着边沿的特定响度面积的增加大于峰值下面积的减小。在此情形中,响度增加。Moore与Glasberg的模型提供了与经验获得的结果接近的响度预测,并且比Zwicker的模型更精确[要获取进一步的信息,参见B.C.Moore、B.R.Glasberg与T.Baer,Revision of Zwicker’s loudness model,Acustica,82335-445,1996]。他们的模型强调听觉系统的频率选择性,并在预测响度关于强度、频率、与带宽的变化上显示出成功。
图14-15阐释相等能量的两个音的响度,其中图14显示由超过一个临界频带分隔开的两个音,而图15显示同一临界频带的两个音。相应地,图14-15显示由临界频带分隔开的两个音的响度听起来是临界频带之内的两个音的和强度的两倍响。临界频带作为独立处理通道发挥作用[要获取进一步的信息,参见William Hartmann,Signals,Sound,and Sensation,Springer,New York,1998]。结果,响度不仅取决于信号水平与带宽,而且取决于频率。一个简单的示例用于显示感觉响度上临界频带分割的力量。图14-15阐释80dB的相等能量的两个音的响度,其针对a)被超过一个临界频带分隔开,和b)在同一临界频带之内。
为阐释起见,表1(列在下面)分别显示图14与15的响度,其使用听觉的幂律,其中I为强度,E为激励,而c为常数。由超过一个临界频带分隔开的相等功率的两个音的响度是临界频带之内的两个音的两倍响。这暗示可使用心理声学信号建模技术来增大感觉响度,而无须添加能量。
由听觉的幂律描述的压缩非线性揭示由临界频带分割开的两个音的响度将比临界频带之内的两个音更响。有趣的是,当由临界频带分割开时,两个音的响度大致上翻番。这阐明了响度相加性的概念,其中两个同样响的、互不掩蔽的音可以听起来是放在一起时的两倍响[要获取进一步的信息,参见H.Fletcher与W.J.Munson,Loudness,itsdefinition,measurement,and calculation,J.Acoust.Soc.Am,582-108,1933]。这建立了增加响度而不改变信号能量的生物学前提与动机。
表1.由听觉的幂律描述的两个音的响度上临界频带分割的效果FIG.14FIG.15I=1080/10I=1080/10E=10log10I E=10log10(2I)Ψ=2.cE0.3Ψ=cE0.3Ψ=7.4c Ψ=3.7c实施例的硬件实现图16与17显示实现本发明的方法的框图。端用户设备1600包括控制器1602、存储器1610、非易失(程序)存储器1611(其包含预定义的配置程序)。端用户设备1600也包括用于实现本发明的方法的其它单元,如下所述。
在“接收”模式,控制器1602将天线1616通过发送/接收(TX/RX)开关1614连接到接收器1604。接收器1604解码接收的信号,并向控制器1602提供解码的信号。在“发送”模式,控制器1602将天线1616通过开关1614连接到发送器1612。控制器1602遵照存储在程序存储器1611中的指令来操作发送器1612与接收器1604。
进一步地,控制器1602连接到用户输入接口单元1607(例如键盘),显示单元1609(例如液晶显示器),存储器1610,频率处理器1613,音频输出模块1603,传感器(transducer)1605,并且通过电源接口1615连接到未显示的电源。
下面的单元可经由天线1616实现信号的接收/发送功率放大器,驱动放大器,上/下转换器,缓冲器,自动增益控制放大器,与射频带通滤波器。功率放大器放大信号,以将放大的信号经由天线发送给基站。驱动放大器向功率放大器提供信号,以有效地进行放大。上/下转换器在发送/接收时(上/下)偏移频率。为清晰起见,这里省略各单元的进一步的结构细节。
用户输入单元1607具有多个按键(包括功能键),其用于执行各种功能。输入单元1607基于用户按下的按键(向控制1602)输出数据。相应地,控制器1602取出存储在程序存储器1611中的程序指令,并执行该程序指令。显示单元1609用于显示端用户设备的状态和控制器1602正在执行的程序的进度。
控制器1602向用户呈现音的预定义的配置程序(在步骤2304)。当(经由音频输出模块1603与传感器1605)呈现的第一音未令用户满意时,用户经由键盘1607通知控制器1602,该用户需要更多选择。其后,控制器1602再次执行存储在程序存储器1611中的程序指令。由频率处理器/偏移器1113处理存储在配置程序中的用于音频信号的下一频率,并向用户(经由音频输出模块1603与传感器1605)呈现相应的音频音。相应地,向用户呈现音的预定义的配置程序(在步骤1604),直到用户选择该用户的优选音,或者配置程序耗尽。遵照配置程序迭代地执行此流程。在步骤1606,控制器1102接收用户的选择,从而获得用户的轮廓(步骤1608)。以这种方式,保存了生成给定音所需的电源功率/能量。
图17以简单的方式显示本发明的上述操作。
图18是显示所述方法操作在图11的端用户上的流程图,其遵照本发明。相应地,图18阐释遵照本发明的一个实施例的操作流程图。方法在步骤1800包括为给定音量设定与扬声器生成音频扬声器频率响应曲线(如图20中所示)。不同的音量水平给出稍微不同的频率响应。它们依赖于机械机架与扬声器特征。
在步骤1802,选择等响度(对应于频率响应曲线的3-dB带宽范围中的最低频率响应dB水平)参考曲线(如图21中所示)。这是响度参考曲线。在此实施例中,使用图21的80phon等响度曲线连同图20。在步骤1804,用音频扬声器频率响应曲线减去响度参考曲线。
在步骤1806,创建给定音频扬声器响应的响度敏感度曲线。在步骤1808,方法要求(entail)获得听者的门限音频轮廓(如图22中所示)。获得听者的门限音频轮廓的步骤包括播放预定义的配置程序(在步骤2304),并接收听者的选择(在步骤2306)。这阐释在图23中。
听者的门限音频轮廓以音门限指示听者的听觉敏锐度,并进一步指示听者聆听特定音所需的dB增益。还可使用最高限度轮廓,其陈述响音的dB差别。听觉正常的听者具有平的0dB响应。
在步骤1810,添加听者的关于响度敏感度曲线的音频轮廓。音频轮廓包含所有正值(如图22中所示)。如果其为听觉正常的听者,此步骤不是必需的。产生的曲线确定听者的音敏感度(相应地,在步骤1812,方法要求(entail)生成听者的音敏感度曲线——如果听者听觉不正常)。
在步骤1814,方法包括从听者的音敏感度曲线为临界频带音确定所需的dB定标(scaling)。图19是继续所述方法操作在图11的端用户上的流程图,其遵照本发明。在步骤1916,归一化音敏感度曲线。在步骤1918,创建dB(分贝)曲线。产生的dB曲线确定为平衡音警报序列中音的响度,需要多少衰减或放大。
在步骤1920,(通过使用音敏感度曲线)选择音的频率范围。在步骤1922,方法包括将音序列沿着临界频带尺度隔开。这就是如何获取优化的响度。表2清晰地阐释了这一点。例如,如果选择1KHz到2KHz的范围,其对应于临界频带9到13,则要求1000、1170、1370、1600、与1850Hz处的五个音。相对幅度是基于来自听者的音敏感度曲线的dB定标。
表2获取优化的响度

所述方法进一步优选地包括,在步骤1924,使用外耳到中耳传输函数的倒数作为近似。步骤1926包括利用最高限度轮廓以陈述响音的dB差别。所述方法进一步包括,在步骤1928,利用dB(分贝)曲线以确定为平衡音警报序列中的音的响度所必需的衰减和/或放大。
非限定性硬件实施例本发明可以以硬件、软件、或硬件和软件的组合来实现。遵照本发明的优选实施例的系统可以以集中化的方式在一个计算机系统中实现,或者以分布式的方式实现,其中不同的组件散布到多个互连的计算机系统。任何类型的计算机系统——或者被适配以执行这里描述的方法的其它设备——均为适宜的。典型的硬件与软件组合可以是通用目的计算机系统,其具有这样的计算机程序,当其被装载和执行时,控制电脑系统,使得电脑系统执行这里描述的方法。
本发明也可嵌入到计算机程序产品中,其包括所有允许实现这里描述的方法的特性,并且其在装载到计算机系统中时能够执行这些方法。本上下文中的计算机程序设备或计算机程序意指一组指令的任何语言、代码或标注的任何表达,该组指令意欲导致具有信息处理能力的系统直接地或者在a)转换到另一语言、代码或标注;和/或b)以不同的物质形式重新生成之后执行特定功能。
除其它事物之外,每一计算机系统可包括一或多个计算机以及至少一个计算机可读媒体,其允许计算机从计算机可读媒体读取数据、指令、消息或消息分组、以及其它计算机可读信息。计算机可读媒体可包括非易失存储器,例如ROM、闪存、硬盘驱动器存储器、CD-ROM、与其它永久存储器。另外,计算机媒体可包括,比如说,易失存储器,例如RAM、缓冲器、缓存存储器、与网络电路。进一步地,计算机可读媒体可包括暂态媒体中的计算机可读信息,该媒体例如网络链路和/或网络接口,包括有线网络或无线网络,其允许计算机读取计算机可读信息。
尽管已公开本发明的特定实施例,本领域普通技术人员将理解,可对特定实施例进行变动,而不偏离本发明的实质与范围。因此,本发明的范围不限于特定实施例,所附权利要求书意欲覆盖任何这样的应用、修改、与实施例,其在本发明的范围之内。
权利要求
1.在端用户设备中,一种用于增加音频感觉响度的方法,所述方法包括偏移第一音频信号的至少一个频率,以创建第二音频信号,以便增加所述音频感觉响度,所述第二音频信号的功率水平不超过所述第一音频信号的功率水平。
2.如权利要求1所述的方法,其进一步包括基于心理声学与听力测定数据,生成高音频感觉响度音警报序列。
3.如权利要求2所述的方法,其进一步包括为给定音量设置与扬声器生成音频扬声器频率响应曲线;选择等响度参考曲线,其对应于所述频率响应曲线的3-dB带宽范围中的最低频率响应dB水平;通过从所述音频扬声器频率响应曲线减去所述等响度参考曲线,为给定音频扬声器响应创建响度敏感度曲线;获取听者的门限音频轮廓;将所述听者的音频轮廓添加到所述响度敏感度曲线,以产生所述听者的音敏感度曲线;从所述听者的音敏感度曲线为临界频带音确定所要求的dB定标;归一化所述音敏感度曲线,以创建dB曲线;通过使用所述听者的音敏感度曲线,选择所述音的频率范围;和沿着临界频带尺度隔开音序列。
4.如权利要求3所述的方法,其进一步包括使用外耳到中耳传输函数的倒数。
5.如权利要求3所述的方法,其中所述听者的门限音频轮廓以音门限指示所述听者的听觉敏锐度,并进一步指示所述听者聆听给定音所必需的dB增益。
6.如权利要求3所述的方法,其进一步包括使用最高限度轮廓,用于陈述增加的音频感觉音的dB差别。
7.如权利要求3所述的方法,其中,所述听者的音频轮廓是正的。
8.如权利要求3所述的方法,其进一步包括利用所述dB曲线,以确定衰减与放大中的至少一个,用来平衡音警报序列中的音的响度。
9.如权利要求3所述的方法,其中,相对幅度基于所述dB定标。
10.如权利要求3所述的方法,其中,获取所述听者的门限音频轮廓包括呈现给定配置程序;和接收所述用户的选择。
11.一种端用户设备,用于增加音频感觉响度,其包括输入接口,其用于输入第一音频信号;频率偏移器/处理器,其连接到所述输入接口,以偏移/处理所述第一音频信号的至少一个频率,以创建第二音频信号,以便增加所述音频感觉响度,所述第二音频信号的功率水平不超过所述第一音频信号的功率水平;和输出接口,其连接到所述频率偏移器/处理器,以输出所述第二音频信号。
12.如权利要求11所述的端用户设备,其进一步包括控制器,其用于控制所述频率偏移器/处理器的操作;和存储器,其连接到所述控制器。
全文摘要
通过偏移第一音频信号的至少一个频率而生成第二音频信号来修改感觉响度。基于标准等响度曲线(1802),将频率偏移以形成第二音频信号,其感觉上响度更大,但具有相等或较小的强度,从而节省电力。获取听者的音频轮廓(1808)将允许可以克服不正常听力的调整(1812)。
文档编号H04R25/00GK1764947SQ200480008323
公开日2006年4月26日 申请日期2004年3月24日 优先权日2003年3月27日
发明者马克·安德烈·布瓦洛, 丹尼斯·安森, 奥德利·F·帕特森 申请人:摩托罗拉公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1