用于枪声的多级筛选检测识别方法

文档序号:2833735阅读:465来源:国知局
专利名称:用于枪声的多级筛选检测识别方法
技术领域
本发明涉及一种枪声检测识别方法。特别是涉及一种用于枪声的多级筛选检测识别方法。
背景技术
声音无处不在,声音的检测与识别一直是声音研究领域的重要内容。关于声音的检测与识别,可以分为两个方面非语音识别系统与语音识别系统。对于语音的检测识别研究的比较深入,也有比较成熟的系统和方法。在研究非语音方面时,可以借鉴语音方面的算法和技术,两个系统都基本由特征参数提取算法和模式匹配算法构成。在特征参数提取方面,可以用于检测的特征参数有很多,可以从时域、频域和同态 (倒谱)三个方面进行分类。时域特征参数包括短时信号能量,短时信号平均过零率,信号短时自相关函数和平均幅度差函数。时域特征参数的特点是提取算法都不复杂,缺点是对信号的可鉴别能力有限,适用范围有端点检测和语音分帧。频域特征参数包括傅里叶变换,离散余弦变换,线性预测分析。频域特征参数与人类听觉系统有一定的关系,但是频域特征参数适用于加性信号,对于复杂的乘积性组合信号处理能力不好。同态特征参数线性预测倒谱系数和Mel频率倒谱系数(Mel frequency cepstrum coefficient,MFCC) 非线性系统分析起来非常困难,需要进行同态分析,设法将非线性问题转化为线性问题来处理。在模式匹配及模型训练技术方面,主要的技术可以归纳为动态时间归正技术(Dynamic Time Warping, DTW)、隐马尔可夫模型(hidden Markov model, HMM)和人工神经元网络。在这三种技术中,DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了声音信号特征参数序列比较时时长不等的难题,它的算法复杂度低而且识别率针对某些特定方面也有很好的表现,尤其在孤立词语音识别中获得了良好性能。对于突发事件的声音检测,如枪声,输入信号类似于语音中的孤立词,而且系统所需要的匹配模板较少。用于此类识别,DTW算法与HMM算法在相同的环境条件下,识别效果相差不大,但HMM算法要复杂得多,着重要体现在HMM算法在训练阶段需要提供大量的语音数据,通过反复计算才能得到的模型参数,而DTW算法的训练中几乎不需要而外的计算。所以DTW算法对这种输入信号比较短促,类似于单音信号而且模板又比较少的声音进行识别时,在算法复杂度和识别率方面都很适合,能获得良好的效果。

发明内容
本发明所要解决的技术问题是,提供一种能够快速准确的检测公共场所枪声的用于枪声的多级筛选检测识别方法。本发明所采用的技术方案是一种用于枪声的多级筛选检测识别方法,包括如下步骤I)从8KHz 48KHz中确定一个采样频率,选取与该采样频率对应的单一枪声的模板信号,对该模板信号进行分帧处理;
2)提取模板信号的倒谱特征参数MFCC的特征系数;3)选取采样频率与步骤I)中所述的采样频率相同的待测信号,并进行与步骤I)中模板信号分巾贞点数相同的分巾贞处理;4)计算待测信号当前帧的短时能量和短时平均过零率,若短时能量和短时平均过零率二者之一满足相应的判定条件,就把待测信号的当前帧作为有效帧并保存,进入步骤5);若二者皆不满足条件但是待测信号当前帧的前三帧中有满足条件的,也把该当前帧平滑为有效帧并保存,进入步骤5);若前三帧中没有满足条件的,则当前帧为无效帧,进入步骤6);5)当连续的有效帧数等于3/2模板信号的帧数时,将该连续有效帧中与模板信号的帧数相同的前2/2部分作为目标段,进入步骤7),其余1/2部分返回步骤4)参与下一帧的判断;6)当在该无效帧之前所保存的有效帧数满足1/2模板信号的帧数<有效帧数
<3/2模板信号的帧数时,将该连续的有效帧作为目标段,进入步骤7),否则将已保存的数据清零,返回步骤4);7)对目标段内的帧提取倒谱特征参数MFCC的特征系数,若模板信号的倒谱特征参数MFCC的特征系数和待检测信号的倒谱特征参数MFCC的特征系数的匹配距离小于训练得出的门限值,则将该目标段认为是目标信号;否则,判断该目标段不是目标信号。步骤I)中所述的模板信号每一巾贞分为256 1024点。步骤4)中所述的相应判定条件是,每帧的短时能量大于设定的短时能量的最小值,每帧的短时平均过零率在设定的范围之内。步骤5)中所述的其余1/2部分返回步骤4)参与下一帧的判断是,将该1/2部分作为步骤4)中的当前帧前面的连续有效帧。本发明的用于枪声的多级筛选检测识别方法,通过多级筛选和设置多个判决门限,将时域特征参数、倒谱特征参数和DTW算法很好的相结合,兼顾了系统计算量和识别率。本发明的检测算法在检测的运算量上比MFCC&DTW算法小很多,在检测的准确性上比只用短时能量和短时平均过零率结合的算法高很多。本发明可应用于公共场所枪声检测的报警系统,较低的运算量易于在硬件平台上实现,较好的鲁棒性又可以保证检测的准确性与有效性。


图1是本发明采用的参数的部分检测结果示意图;图2是漏检率变大,误检率变小部分检测结果示意图;图3是漏检率变小,错检率变大部分检测结果示意图。图中,实线框代表手工标注结果;虚线框代表算法检测结果。
具体实施例方式下面结合实施例和附图对本发明的用于枪声的多级筛选检测识别方法做出详细说明。本发明的用于枪声的多级筛选检测识别方法,是用于公共场所中的枪声检测,由于公共场所中出现的枪声会比较少,所以可以对采集的信号进行分级检测,可以先利用短时能量和短时平均过零率来进行第一级检测,再对满足条件的结果进行第二级检测,最后对第二级的检测结果进行第三级的检测。本发明的用于枪声的多级筛选检测识别算法,包括如下步骤I)从8KHz 48KHz中确定一个采样频率,选取与该采样频率对应的单一枪声的模板信号,对该模板信号进行分巾贞处理;所述的模板信号每一巾贞分为256 1024点。按照fs (48KHz)的采样频率选取模板信号,量化精度为16位,并且以一个固定数量(1024)的采样点作为一帧,将模板信号划分为多个帧。2)提取模板信号的倒谱特征参数MFCC的特征系数;分别求出模板信号每一帧的N阶(N —般取12)的倒谱特征参数MFCC的特征系数。现有技术中,倒谱特征参数MFCC的特征系数的提取是按王炳锡,屈丹,彭煊.实用语音识别基础[M].国防工业出版社,2005.和Li Fuhai, Ma Jinwen, Huang Dezh1. MFCCand SVM Basedon Recognition of Chinese Vowels[C]//CIS 2005,Part II, LNAI 3802.[s.1. ] : [s. n. ],2005:812-819中给出的计算方法进行计算的。倒谱特征参数MFCC的特征系数的提取过程大致为首先对分帧后的语音信号做离散傅里叶变化,获得频谱分布信息。再求频谱幅度的平方,得到能量谱。将能量谱通过一组Mel尺度的三角滤波器组,并计算出每个滤波器组输出的对数能量S Cm),再经过离散余弦变换得到MFCC特征系数。3)选取采样频率与步骤I)中所述的采样频率相同的待测信号,并进行与步骤I)中模板信号分巾贞点数相同的分巾贞处理;4)计算待测信号当前帧的短时能量和短时平均过零率,若短时能量和短时平均过零率二者之一满足相应的判定条件,就把待测信号的当前帧作为有效帧并保存,进入步骤5);若二者皆不满足条件但是待测信号当前帧的前三帧中有满足条件的,也把该当前帧平滑为有效帧并保存,进入步骤5);若前三帧中没有满足条件的,则当前帧为无效帧,进入步骤5);所述的相应判定条件是,每帧的短时能量大于设定的短时能量的最小值,每帧的短时平均过零率在设定的范围之内。如,设每巾贞的短时能量为energy,每巾贞的短时平均过零率为zcr_num,设定短时能量的最低门限为EN_MIN,短时平均过零率的上下门限分别为ZCR1、ZCR2。当energy>EN_MIN或者ZCRl〈Zcr_num〈ZCR2时,将当前帧作为有效帧并进行保存;当二者都不满足条件时,若当前帧的前三帧中有满足条件的,则当前帧也被平滑为有效帧并进行保存。5)当连续的有效帧数等于3/2模板信号的帧数时,将该连续有效帧中与模板信号的帧数相同的前2/2部分作为目标段,进入步骤6),其余1/2部分返回步骤4)参与下一帧的判断;所述的其余1/2部分返回步骤4)参与下一帧的判断是,将该1/2部分作为步骤4)中当前帧前面的连续有效帧。当在该无效帧之前所保存的有效帧数满足1/2模板信号的帧数<有效帧数
<3/2模板信号的帧数时,将该连续的有效帧作为目标段,进入步骤6),否则将已保存的数据清零,返回步骤4);如,设连续有效巾贞的巾贞数为fra_num,设定模板巾贞数为tem_num,连续有效巾贞巾贞数的最低门限为FRA_MIN。当fra_num〈FRA_MIN时,将相应的帧判为无效并将保存的数据清零;当fra_num达到tem_num+FRA_MIN时,将前tem_num巾贞作为一个目标段,进行下一级的检测,同时将后FRA_MIN帧作为下一段的前几帧;当FRA_MIN〈fra_num〈tem_num+FRA_MIN时,直接将其作为一个目标进行下一级的分析。6)对目标段内的帧提取倒谱特征参数MFCC的特征系数,若模板信号的倒谱特征参数MFCC的特征系数和待检测信号的倒谱特征参数MFCC的特征系数的匹配距离小于训练得出的门限值,则将该目标段认为是目标信号;否则,判断该目标段不是目标信号。S卩,设模板信号的倒谱特征参数MFCC的特征系数和由第二级检测出的可能目标段的倒谱特征参数MFCC的特征系数的匹配距离为dist,设定训练得出的门限值为GUN_MAX。当dist〈GUN_MAX时,判定其为目标事件枪声;否则判为非目标事件。因为对连续有效帧的帧数有最低要求,为了避免漏判,减小漏检率,所以在(第一级)步骤4)判断有效帧的时候采用平滑机制,一个有效帧可以平滑紧随其后的三帧无效帧,这样有效的保证了目标段的长度,大大降低了漏检率,使本发明的检测准确率更高。 实验取一个纯净的单一枪声为模板,样本信号为11巾贞(tem_num=ll),米样频率为48000Hz,每个样点16bit,每帧大小为1024个采样点。待测信号为有音乐、语音和汽车刹车等复杂环境的一段连续的声音信号,共有1953帧,分别进行了手工标注和程序的检测。设定EN_MIN=53,ZCR1=65, ZCR2=100, FRA_MIN=6, GUN_MAX=45250部分测试结果示意图如图1所示。对检测结果进行统计,可计算
QJ
出总的漏检帧数为87,则漏检率〃=^)^005=4.45% ;总的错检帧数为237,则错检率
I W
237
/ =^—X100%= 12.14%,
1953通过设置不同的参数门限值,可以得到不同的漏检率和错检率。漏检率和错检率是一对此消彼长的参数,两者不能同时达到最优,只有根据具体情况,选择一个最适合当前情况的最佳参数。如果设定 EN_MIN=55,ZCR1=68, ZCR2=95, FRA_MIN=6, GUN_MAX=4520,则所检测出的结果漏检率α会变大,错检率β会变小。部分检测结果示意图如图2所示。对检测结果进行统计,可计算出总的漏检帧数为203,则漏检率α =10. 39% ;总的错检帧数为 152,则错检率 β =7. 78%ο 如果设定 EN_MIN=50,ZCR1=60, ZCR2=105, FRA_MIN=6, GUN_MAX=4530,则所检测出的结果漏检率α会变小,错检率β会变大。部分检测结果示意图如图3所示。对检测结果进行统计,可计算出总的漏检帧数为82,则漏检率α=4. 20%;总的错检帧数为268,则错检率β =13. 72%。由上述实验可以看出,本发明不仅在运算量上比传统的MFCC&DTW算法小很多,而且通过第一级(步骤4))、第二级(步骤5)和步骤6))的目标段的检测,很好的找到枪声的起止点,这样使得匹配结果更准确,使检测识别率更高。由于枪声属于危险信号,对于这种声音的检测漏检率对安全的影响更大,从实验结果可以看出,本发明的检测结果也更倾向于把非目标信号判断为目标信号。所以可见,本发明不但易于在DSP和ARM等硬件上移植与实现,而且具有一定的鲁棒性,来确保检测的准确性和有效性。
权利要求
1.一种用于枪声的多级筛选检测识别方法,其特征在于,包括如下步骤 1)从8KHz 48KHz中确定一个采样频率,选取与该采样频率对应的单一枪声的模板信号,对该模板信号进行分巾贞处理; 2)提取模板信号的倒谱特征参数MFCC的特征系数; 3)选取采样频率与步骤I)中所述的采样频率相同的待测信号,并进行与步骤I)中模板信号分巾贞点数相同的分巾贞处理; 4)计算待测信号当前帧的短时能量和短时平均过零率,若短时能量和短时平均过零率二者之一满足相应的判定条件,就把待测信号的当前帧作为有效帧并保存,进入步骤5);若二者皆不满足条件但是待测信号当前帧的前三帧中有满足条件的,也把该当前帧平滑为有效帧并保存,进入步骤5);若前三帧中没有满足条件的,则当前帧为无效帧,进入步骤6); 5)当连续的有效帧数等于3/2模板信号的帧数时,将该连续有效帧中与模板信号的帧数相同的前2/2部分作为目标段,进入步骤7),其余1/2部分返回步骤4)参与下一帧的判断; 6)当在该无效帧之前所保存的有效帧数满足1/2模板信号的帧数<有效帧数<3/2模板信号的帧数时,将该连续的有效帧作为目标段,进入步骤7),否则将已保存的数据清零,返回步骤4); 7)对目标段内的帧提取倒谱特征参数MFCC的特征系数,若模板信号的倒谱特征参数MFCC的特征系数和待检测信号的倒谱特征参数MFCC的特征系数的匹配距离小于训练得出的门限值,则将该目标段认为是目标信号;否则,判断该目标段不是目标信号。
2.根据权利要求1所述的用于枪声的多级筛选检测识别方法,其特征在于,步骤I)中所述的模板信号每一巾贞分为256 1024点。
3.根据权利要求1所述的用于枪声的多级筛选检测识别方法,其特征在于,步骤4)中所述的相应判定条件是,每帧的短时能量大于设定的短时能量的最小值,每帧的短时平均过零率在设定的范围之内。
4.根据权利要求1所述的用于枪声的多级筛选检测识别方法,其特征在于,步骤5)中所述的其余1/2部分返回步骤4)参与下一帧的判断是,将该1/2部分作为步骤4)中的当前帧前面的连续有效帧。
全文摘要
一种用于枪声的多级筛选检测识别方法选取单一枪声的模板信号并进行分帧处理;提取模板信号的倒谱特征参数MFCC的特征系数;选取待测信号,并进行分帧处理;计算待测信号当前帧的短时能量和短时平均过零率,并判断;当连续的有效帧数等于3/2模板信号的帧数时,将该连续有效帧中前2/2部分作为目标段,其余1/2部分参与下一帧的判断;对目标段内的帧提取倒谱特征参数MFCC的特征系数,若模板信号和待检测信号两者的倒谱特征参数MFCC的特征系数的匹配距离小于训练得出的门限值,则将该目标段认为是目标信号;否则,不是目标信号。本发明将时域特征参数、倒谱特征参数和DTW算法很好的相结合,兼顾了系统计算量和识别率。
文档编号G10L25/18GK103021421SQ20121057400
公开日2013年4月3日 申请日期2012年12月24日 优先权日2012年12月24日
发明者张涛, 苏春玲, 陈志 , 王晓晨, 蔡晓 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1