音频快速搜索方法

文档序号:6631668阅读:230来源:国知局
专利名称:音频快速搜索方法
技术领域
本发明涉及多媒体音频检索系统技术领域。更确切的说,一种音频快速搜索方法。
背景技术
目前,信息产业正得到前所未有的发展。各种信息媒体也得到了迅猛的发展,比如电视,广播,网络,无线通讯等。这些信息媒体中每天都充斥着大量的信息。如何对这些信息进行有效的管理和监控以保证国家的信息安全正逐步得到国家的重视。基于音频时频域处理技术的敏感音频监控系统就是为了满足信息安全领域敏感音频的监控要求的。

发明内容
本发明提出了一种鲁棒的音频快速搜索方法,该方法对于噪声等畸变具有强鲁棒性。本发明最基本的特征是针对频谱的时频域处理技术。通过对频谱的归一化处理,使得特征向量具有很强的鲁棒性和区分性。基于处理后的频谱,建立子带能量比直方图,利用直方图交叠的匹配方法对目标音频的疑似位置进行快速预估;一种音频快速搜索方法,快速音频搜索方法提出了基于时-频域频谱描述的快速音频搜索方法。该方法的基本特征是利用音频信号子带能量比作为基本特征,以直方图作为建模方法,对目标音频的出现位置进行跳跃检出,从而具有很高的搜索速度;该方法的最基本特征,一是选择合适的子带,使得该频带的信号在统计意义上对于噪声信号和畸变具有最佳的鲁棒性;二是根据目标音频的频谱分布,自适应的调整VQ量化边界;三是借鉴了图像识别中广泛使用的直方图匹配算法。子带能量信号作归一化后,避免了常规方法中因背景噪声干扰等畸变造成的检出错误和漏检,而且计算量很小;四是提出了建立音频搜索算法的性能评价标准,并设计分析了检索结果的客观评价参数。实验证明,本发明提出的算法不仅在平稳背景噪声下可取得很好的检索精度和搜索速度,对非平稳噪声也具有很好的鲁棒性。
音频快速搜索方法,该方法能够从海量的未知音频流中对所关心的目标音频片段进行快速定位,流程图如图1所示,其步骤为1)首先对目标音频片断和音频流进行特征提取;音频的特征提取首先利用带通滤波器对音频进行滤波,基于滤波后各个通带的信号分别计算子带能量,子带能量的计算以256点为一帧,帧移128点;频率子带平均分布在log频率上;2)以1)所计算的子带能量为基础,计算目标音频片断和音频流的子带能量比,以子带能量比作为基本特征向量;3)为了提高特征对于噪声的鲁棒性,需要对2)所计算的特征向量进行量化处理,每维量化边界的选择以目标音频各维特征在每个bin中具有相等的特征数为准则,对量化后的特征向量建立直方图模型,并记录各维的量化边界;根据目标音频的量化边界对测试音频流的特征向量进行量化;4)目标音频的直方图沿着音频特征流进行滑动,并建立音频流当前位置的直方图,将目标音频的直方图和测试音频流的直方图相匹配,得到相似度;如果相似度大于一定的门限,则认为找到目标音频的位置,否则根据当前相似度的估计跳跃到下一个可能位置进行下一次匹配。
本发明主要包括三个模块一特征提取,二直方图的建立,三相似度度量下面分别加以详细说明。
特征提取。本方法采用子带能量比作为基本特征,子带能量比是对各个时刻所对应的各个子带能量的分布趋势的描述,为了提高特征的鲁棒性,需要对子带能量比进行向量量化处理,量化边界的选择以目标音频各维特征在每个bin中具有相等的特征个数为准则,量化边界以及量化后的特征向量存放于文件中,可以表示为Feature(n)=(f(n),g(n)) (5)f(n)=(f1(n),f2(n),f3(n),…,fM(n))(6)g(n)=(g1(n),g2(n),g3(n),…,gM(n))(7)式中,n表示时间,M表示特征向量的频带个数fi(n)=α(n)×Ei(n) (8)gi(n)=β(n)×ECRi(n) (9)ECRi(n)=(Ei(n)-Ei(n-1))/Ei(n-1) (10)式中,Ei(n)表示第n帧所对应的第i个带通滤波器的输出帧能量;由于短时能量对高电平比较敏感,所以采用短时平均幅度来度量音频信号的幅度值变化,定义为Ei(n)=Σt=nN(n+1)N|gi(t)|---(11)]]>α(n)用来对每个特征向量进行归一化,以便消除音量的影响,定义为α(n)=1max(Ei(n))---(12)]]>β(n)=1maxi(ECRi(n))---(13)]]>式中,max表示取最大值。
为了提高特征的鲁棒性,需要对子带能量比进行向量量化。向量量化边界是根据目标音频的子带能量比的分布确定的。量化边界的选择以目标音频各维特征在每个bin中具有相等的特征数为准则。
直方图的建立以及相似度度量。在完成了特征提取后,需要对各个音频片断建立模型,建立模型的方法很多,由于直方图匹配方法的计算量小,而且对于噪声具有较强的鲁棒性,所以采用直方图的匹配方法。
同时,为了增加模板的时序区分性,对时长为t的目标音频平均分为n个子窗口,针对每个子窗口分别建立直方图,用hiR表示。
距离度量采用直方图重叠的方式,比如目标音频直方图和测试音频流中第n时刻的直方图的距离可以表示为S(hR,hT(n))=1LΣi=1Lmin(hiR,hiT(n))---(1)]]>式中,hR参考音频的直方图,hjT(n)第n时刻测试音频的直方图,L直方图中包腔的个数。
由于直方图之间的相似度与直方图的滑动位置有着相关性,可以通过n1石刻的相似度对n2时刻的相似度上限进行预估。如果预估值低于指定的门限则可以跳过该点的匹配预算,从而降低了计算量。预估公式如下Sup(hiR,hiT(n2))=S(hiR,hiT(n1))+n2-n1Pi---(2)]]>于是每个子窗口的跳越步长可以利用公式表示如下wi=floor(Pi(θ-Si))+1ifSi<θ,1otherwise,---(3)]]>式中,wi表示跳跃步长,floor(x)表示取小于x的最大正整数。最终的的跳跃步长w可以用如下公w=maxi(wi)---(4)]]>算法性能评价。本算法的性能评价是通过对电视节目中广告的出现次数进行验证的。如果目标广告的检出位置与实际播放位置相差不超过1秒,我们就认为该广告正确检出。搜索性能由两个指标组成正确率ξ、召回率δ以及综合准确度τ。公式表示如下 τ=2×ξ×δξ+δ]]>


图1是本发明的快速音频检索流程图。
图2是音频片断经过多通带滤波后的短时能量波形图。
图3是低通滤波后各个频带的能量波形图。
图4是归一化后的各个频带的能量波形图。
具体实施例方式
图1的快速音频检索流程,该流程首先利用多通带滤波器组对测试音频和参考音频进行多通带滤波,经过处理得到特征向量;然后对参考音频建立直方图;最后利用参考音频直方图对测试音频进行搜索。搜索窗的每一次跳跃都与当前的匹配相似度有着密切的关系。
图2的音频片断经过多通带滤波后的短时能量波形图,该图是音频片断经过多通带滤波组处理后得到的子带短时能量波形。不同的颜色表示不同的频带能量波形。
图3的低通滤波后各个频带的能量波形图。该图是子带短时能量波形经过低通平滑滤波器后得到的短时能量曲线。
图4,该图是对经过低通平滑滤波器处理后的短时能量曲线进行频率轴方向上的归一化处理,最终得到的归一化短时能量曲线。
表1检索结果表1实验结果比较

权利要求
1.一种音频快速搜索方法,利用音频信号子带能量比作为基本特征,以直方图作为建模方法,对目标音频的出现位置进行跳跃检出,该方法的最基本特征,一是选择合适的子带,使得该频带的信号在统计意义上对于噪声信号和畸变具有最佳的鲁棒性;二是根据目标音频的频谱分布,自适应的调整VQ量化边界;三是借鉴了图像识别中广泛使用的直方图匹配算法,子带能量信号作归一化后,避免了常规方法中因背景噪声干扰畸变造成的检出错误和漏检,而且计算量很小;四是提出了建立音频搜索算法的性能评价标准,并设计分析了检索结果的客观评价参数。
2.根据权利要求1的音频快速搜索方法,其特征在于,该方法能够从海量的未知音频流中对所关心的目标音频片段进行快速定位,其步骤为1)首先对目标音频片断和音频流进行特征提取;音频的特征提取首先利用带通滤波器对音频进行滤波,基于滤波后各个通带的信号分别计算子带能量,子带能量的计算以256点为一帧,帧移128点;频率子带平均分布在log频率上;2)以1)所计算的子带能量为基础,计算目标音频片断和音频流的子带能量比,以子带能量比作为基本特征向量;3)为了提高特征对于噪声的鲁棒性,需要对2)所计算的特征向量进行量化处理,每维量化边界的选择以目标音频各维特征在每个bin中具有相等的特征数为准则,对量化后的特征向量建立直方图模型,并记录各维的量化边界;根据目标音频的量化边界对测试音频流的特征向量进行量化;4)目标音频的直方图沿着音频特征流进行滑动,并建立音频流当前位置的直方图,将目标音频的直方图和测试音频流的直方图相匹配,得到相似度;如果相似度大于一定的门限,则认为找到目标音频的位置,否则根据当前相似度的估计跳跃到下一个可能位置进行下一次匹配。
3.根据权利要求1或2所述的音频快速搜索方法,其特征在于,特征提取,直方图的建立以及相似度计算,1)特征提取本方法采用子带能量比作为基本特征,子带能量比是对各个时刻所对应的各个子带能量的分布趋势的描述,为了提高特征的鲁棒性,需要对子带能量比进行向量量化处理,量化边界的选择以目标音频各维特征在每个bin中具有相等的特征个数为准则,量化边界以及量化后的特征向量存放于文件中,2)直方图的建立和相似度度量在完成了特征提取后,需要对各个音频片断建立模型,建立模型的方法很多,由于直方图匹配方法的计算量小,而且对于噪声具有较强的鲁棒性,所以采用直方图的匹配方法,同时,为了增加模板的时序区分性,对时长为t的目标音频平均分为4个子窗口,针对每个子窗口分别建立直方图,用hiR表示,距离度量采用直方图重叠的方式,比如目标音频直方图和测试音频流中第n时刻的直方图的距离可以表示为S(hR,hT(n))=1LΣi=1Lmin(hiR,hiT(n))---(1)]]>式中,hR参考音频的直方图,hjT(n)第n时刻测试音频的直方图,L直方图中包腔的个数,由于直方图之间的相似度与直方图的滑动位置有着相关性,可以通过n1时刻的相似度对n2时刻的相似度上限进行预估,如果预估值低于指定的门限则可以跳过该点的匹配预算,从而降低了计算量,预估公式如下Sup(hiR,hiT(n2))=S(hiR,hiT(n1))+n2-n1Pi---(2)]]>于是每个子窗口的跳越步长可以利用公式表示如下wi=floor(Pi(θ-Si))+1ifSi<θ,1otherwise,---(3)]]>式中,wi表示跳跃步长,floor(x)表示取小于x的最大正整数,最终的的跳跃步长w可以用如下公式表示w=maxi(wi).---(4)]]>
全文摘要
快速音频搜索方法提出了基于时-频域频谱描述的快速音频搜索方法。该方法的基本特征是利用音频信号子带能量比作为基本特征,以直方图作为建模方法,对目标音频的出现位置进行跳跃检出,最基本特征,一是选择合适的子带,使得该频带的信号在统计意义上对于噪声信号和畸变具有最佳的鲁棒性;二是根据目标音频的频谱分布,自适应的调整VQ量化边界;三是借鉴了图像识别中广泛使用的直方图匹配算法。子带能量信号作归一化后,避免了常规方法中因背景噪声干扰等畸变造成的检出错误和漏检,而且计算量很小;四是提出了建立音频搜索算法的性能评价标准,并设计分析了检索结果的客观评价参数。
文档编号G06F17/30GK1924850SQ20051008631
公开日2007年3月7日 申请日期2005年8月31日 优先权日2005年8月31日
发明者梁伟, 张树武, 徐波 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1