数字音频信号音量等响度调节方法与流程

文档序号:17119983发布日期:2019-03-15 23:42阅读:4252来源:国知局
数字音频信号音量等响度调节方法与流程

本发明涉及音频信号处理技术领域,特别涉及数字音频信号音量等响度调节方法。



背景技术:

响度,是人类主观感觉到的声音强弱程度。一般而言,声音频率一定,声强越强,响度也越大。但是,响度与频率有关,相同的声强,频率不同,响度也可能不同。经大量实验测得的在典型听者认为响度相同条件下声音频率与声压级的关系即等响曲线图,充分刻画了人耳对不同频率声音的感知灵敏度,如图1(gb-t4963-2007/iso226:2003附录a”自由场测听条件下纯音标准等响度级曲线”)所示。

音频信号音量调节目标即在于改变音频信号响度大小。常规数字音频音量调节方式通常是等增益的,即所有信号采样值通过乘以一个增益系数使音量放大或者缩小。这种方式使得音频中低、中、高不同频率成分以相同比例进行幅值缩放。然而,由等响曲线可知人耳对不同频率成分的响应灵敏度并不相同,如果采用等增益方式缩放音量,即所有频率成分施加相同声压改变量,则可能导致人耳对音频中某些频率成分的响度感受变差,进而影响对这些成分的感知和判断。例如,对于采集的心音、肺音等生理音频信号,如果采用等增益方式增大信号音量,可能使得医务人员对于某些心肺疾病引起的微弱低频杂音成分无法感知和分辨。



技术实现要素:

本发明要解决的技术问题是:提供一种数字音频信号音量等响度调节方法,通过对音频中不同频率成分施加不同增益,使得不同成分在音量调节后具有相同的响度改变量。

为解决上述问题,本发明采用的技术方案是:数字音频信号音量等响度调节方法,包括如下步骤:

步骤1:根据等响曲线构造单位响度改变量条件下不同频率声音与其所需的声压改变量之间的映射关系;

步骤2:对音频信号分帧,并对各帧计算其离散傅里叶变换得到幅值谱和相位谱;

步骤3:结合音量调节值和频率-声压改变量映射关系,计算幅值谱中各个频率点的增益,并将增益与对应频率点幅值相乘;

步骤4:利用施加了增益的幅值谱和原相位谱计算离散傅里叶逆变换得到音量调节后的音频帧;

步骤5:将得到的音频帧依次重叠拼接获得音量调节后的完整音频信号。

进一步的,步骤1可通过以下公式计算单位响度改变量条件下不同频率对应的声压改变量:

其中,i表示频率;spl_h表示响度级为80phon的等响曲线对应的映射;spl_l表示响度级为20phon的等响曲线对应的映射。从数据覆盖范围的角度选择20phon和80phon对应的等响曲线来计算声压改变量δspl是较为合理的。

进一步的,步骤2采用重叠分帧的方式将信号分割为若干帧,重叠分帧时,帧长度frame_len根据以下公式取值:

其中,fs为信号采样频率,n为正整数。根据心理声学理论,单帧持续时间取300毫秒左右为宜,本发明优选250-300毫秒。

进一步的,步骤3在对各帧计算其离散傅里叶变换得到幅值谱和相位谱之前,还包括:对单帧时域信号加窗。通过加窗处理可以减少dft变换时的频谱泄漏,本发明在对单帧时域信号加窗时优选汉宁窗,重叠分帧时,帧重叠长度取值为帧长度的一半。

进一步的,步骤3中,增益按以下公式计算:

其中,g(i)表示幅值谱中频率i对应的增益,k为音量调节值,δspl(i)为幅值谱中频率i对应的声压改变量。

本发明的有益效果是:本发明基于人类听觉的等响曲线,对音频信号中的不同频率成分施加不同的增益,从而实现等响度的音量调节,从而克服音量线性调节(即所有频率成分施加相同的增益)导致人耳对信号中不同频率成分的响度感受不一致。

附图说明

图1为等响曲线图,声压级以分贝(db)为单位,响度级以方(phon)为单位,频率以赫兹(hz)为单位。自由场测听条件下听阈tf由短划线表示。图中点线表示缺少该数据。

图2为频率--声压改变量映射关系,即为了获得单位响度改变量,不同频率声音与其所需的声压级改变量之间的映射关系。

图3为实施例的流程图。

具体实施方式

为了克服现有技术的上述不足,本发明提供了一种数字音频信号音量等响度调节方法。该方法能够使音频信号中不同频率成分在音量调节后具有相同的响度改变量,有助于人耳对音频信号中响度较小的频率成分的感知。该方法首先根据等响曲线构造单位响度改变量条件下不同频率声音与其所需的声压改变量之间的映射关系。其次,对音频信号分帧,并对各帧计算其dft(离散傅里叶变换)得到幅值谱和相位谱。再次,结合音量调节值和频率-声压改变量映射关系,计算幅值谱中各个频率点的增益,并将增益与对应频率点幅值相乘。然后,利用施加了增益的幅值谱和原相位谱计算idft(离散傅里叶逆变换)得到音量调节后的音频帧。最后,将得到的音频帧依次重叠拼接获得音量调节后的完整音频信号。

以下通过实施例对本发明做进一步说明。

实施例提供一种数字音频信号音量等响度调节方法,如图3所示,其具体步骤如下:

第一步,构造频率--声压改变量映射关系。

基于等响曲线(如图1)并根据以下式(1)计算单位响度改变量条件下不同频率对应的声压改变量:

其中,i表示频率;δspl(i)为幅值谱中频率i对应的声压改变量;spl_h表示响度级为80phon的等响曲线对应的映射;spl_l表示响度级为20phon的等响曲线对应的映射。计算得到的频率--声压改变量映射关系如图2所示。需要说明的是,从数据覆盖范围的角度选择20phon和80phon对应的等响曲线来计算声压改变量δspl是较为合理的。

第二步,音频信号分帧。

采用重叠分帧的方式将信号分割为若干帧。令帧长度为frame_len,帧重叠长度为overlap_len。信号分帧时,根据心理声学理论,单帧持续时间取300毫秒左右为宜,实施例优选250-300毫秒。

为提高下一阶段计算效率,帧长度frame_len根据式(2)取值:

即其取值为距离0.3*fs最近的2的整数幂,其中fs为信号采样频率,n为正整数。

重叠分帧是指相邻两帧中前一帧的尾部overlap_len个数据与后一帧的首部overlap_len个数据是一致的。在第三步段信号加窗选择汉宁窗(hanning)时,优选地,帧重叠长度overlap_len取值为frame_len/2,即帧长度的一半。

第三步,单帧信号调节。

首先,对单帧时域信号加窗。其次,对加窗后的信号进行dft得到其幅值谱和相位谱。再次,结合音量调节值和频率-声压改变量映射关系,计算幅值谱中各个频率点的增益,并将增益与对应频率点幅值相乘。然后,利用施加了增益的幅值谱和原相位谱进行idft得到音量调节后的音频帧。

需要说明的是,通过加窗处理可以减少dft变换时的频谱泄漏,窗函数优选hanning窗。

进一步的,上述步骤三中增益按式(3)计算:

式中g(i)表示幅值谱中频率i对应的增益,k为音量调节值,δspl(i)为幅值谱中频率i对应的声压改变量。k的取值可根据应用场景对音量缩放程度不同而不同,例如,k取自[-40,40]且当δspl约为1时,增益g的取值大约在[0.01,100]范围内。式(3)推导过程如下:

设有频率为ihz的信号,其声压级li与其信号电平峰值vi的关系满足式(4):

式中vref为参考电平幅值。令通过施加电平增益g(i),使该信号响度改变k个响度级,则有:

则由式(5)可推导出式(3)。

第四步,音频帧拼接。

将第三步中调节后的音频帧依次重叠拼接得到完整的音频信号。其重叠方法为,将前一帧信号尾部overlap_len个数据与后一帧的首部overlap_len个数据对齐两两数值相加。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1