一种自适应音频感知响度调整方法

文档序号:2819043阅读:1582来源:国知局
专利名称:一种自适应音频感知响度调整方法
技术领域
本发明属于多媒体信息处理和音频分析领域,涉及一种自适应音频感知响度估计与快速归一化的新型技术,可用于将不同响度感知基准的音频文件自动调整为统一的感知响度基准。
背景技术
ReplayGain(回放增益)标准是David Robinson于2001年提出的一套技术标准,用以衡量MP3音乐文件的感知响度,并对音频响度进行增益归一化处理(见文献 D. Robinson, " ReplayGain specification discussion" ,www. replaygain. org,2010)。 具体步骤是,首先对整个音频文件进行心理声学扫描,以量度它的感知响度和峰值电平;进而计算音频文件的原始响度与目标响度(通常定为89分贝的声压值)的差别增益值;将该音频文件的增益值和峰值电平值作为元数据存储于音频文件中,以便播放器能够根据这些元数据自动衰减(或放大)音量播放该文件,从而在回放不同的音频文件时得到近似一致的输出响度。ReplayGain标准可以缓解在播放不同专辑的音频文件时需要不断手动调整音量的问题,并避免对响度较高的歌曲产生削波。然而,ReplayGain标准对于音频文件感知响度的衡量采用了固定阈值(95%最大能量)的估计方法,难以保证其对不同类型音频感知响度的估计精度,尤其不能很好地剔除音频中由于自然发声过程所引起的极低与极高响度成份的不良影响,从而使得所估计的响度偏离真实听觉感知响度区间。

发明内容
本发明的目的是针对现有技术在自动估计不同音频文件的感知响度上的不足,提供一套实用的音频感知响度自适应调整方法,可以使用户方便地将不同音量基准的音频文件更为准确地自动调整到统一的感知响度基准。为此,本发明采用如下的技术方案一种自适应音频感知响度调整方法,包括以下步骤a)对当前音频信号进行等响度滤波;b)计算RMS能量序列首先,将滤波后的音频信号按照时间间隔分割成若干个窗口,设每个窗口的数据量为M,计算每个窗口的均方根值,得到整个音频文件的RMS能量序列;c)能量分贝转换将RMS能量序列转换为分贝序列,并对分贝序列进行升序排序得到SDB序列;d)采用差分法计算SDB序列的二阶导数SDB"序列;e)设置一个局部窗口,利用局部均值对SDB"序列进行平滑操作,去除干扰噪声, 得到wSDB "序列;f)如果wSDB"序列长度大于某一特定阈值时,采用线性插值亚采样的方法降低样本数量,亚采样后的平滑二阶导数序列仍记为wSDB"序列;
g)构造衡量某一时间区间[tp t2]是否为最优稳定分贝空间可能性的能量函

权利要求
1.一种自适应音频感知响度调整方法,包括以下步骤a)对当前音频信号进行等响度滤波;b)计算RMS能量序列首先,将滤波后的音频信号按照时间间隔分割成若干个窗口,设每个窗口的数据量为M,计算每个窗口的均方根值,得到整个音频文件的RMS能量序列;c)能量分贝转换将RMS能量序列转换为分贝序列,并对分贝序列进行升序排序得到 SDB序列;d)采用差分法计算SDB序列的二阶导数SDB"序列;e)设置一个局部窗口,利用局部均值对SDB"序列进行平滑操作,去除干扰噪声,得到 wSDB "序列;f)如果wSDB"序列长度大于某一特定阈值时,采用线性插值亚采样的方法降低样本数量,亚采样后的平滑二阶导数序列仍记为wSDB"序列;g)构造衡量某一时间区间[tpt2]是否为最优稳定分贝空间可能性的能量函数ri = '-z - ri — f::' ….,,其中,Std( )为标准差,a 为调制系数,wSDB " (h —t2)表示wSDB"序列中Wtjljt2的子段,遍历所有可能的时间区间[ti,t2]组合,求出其中能量函数取值最大的时间区间作为最优稳定分贝区间,并在此区间上求均值, 得到当前音频文件的最优稳定分贝代表值;h)按照83dB标准,恢复当前音频文件的最优稳定响度。i)在当前音频文件的最优稳定响度的基础上,采用线性映射的方法,调整该音频的实际响度。
2.根据权利要求I所述的自适应音频感知响度调整方法,其特征在于,步骤a中采用级联Yulewalk与二阶高通Butterworth滤波器组,对当前音频信号进行等响度滤波。
全文摘要
本发明属于多媒体信息处理和音频分析领域,涉及一种自适应音频感知响度调整方法,包括对于当前音频文件进行等响度滤波;对于音频信号按特定窗口大小计算其RMS能量值,从而得到整个音频文件的RMS能量序列;将RMS能量序列转换为分贝值序列,并对其进行升序排序;对升序的分贝值序列利用差分法计算二阶导数,并利用局部窗口平均法进行二阶导数序列的平滑处理;当序列过长时,对原始序列进行亚采样;在平滑后的二阶导数序列上搜索当前音频的最优稳定分贝区间,计算此区间的平均分贝值作为当前音频文件的最优稳定响度。采用线性映射的方法对该音频进行响度调整。本发明具有运行速度快、校正准确、符合声学感知、性能稳定、无损音频音质等优点。
文档编号G10L21/02GK102610232SQ20121000551
公开日2012年7月25日 申请日期2012年1月10日 优先权日2012年1月10日
发明者万亮, 冯伟, 江建民, 谭志羽 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1