公共场所异常声音特征提取方法与流程

文档序号:12608954阅读:448来源:国知局
公共场所异常声音特征提取方法与流程

本发明属于音频信号特征提取及模式识别技术领域,尤其涉及公共场所异常声音特征提取方法。



背景技术:

公共场所如地铁、火车站、广场等具有地域广、人流量大等典型特点,是国家安全防卫最重要的部分之一。目前公共场所安全监控主要以视频监控为主。异常事件发生时产生的异常声音,包含异常事件大量的相关信息,因此音频监控已经成为公共安全监控领域研究的发展方向。目前现有的音频监控系统仅为简单的声音采集、传输等,缺乏对异常声音的有效识别,原因是音频监控核心理论及技术没有得到突破。

局部均值分解(Local Mean Decomposition,LMD)是目前音频信号处理采用的常用技术,但是LMD自身存在的端点效应、分解耗时及模态混叠问题。(1)公共场所异常声音信号具有极值点间距较小且分布紧密的特点,通常由于端点检测等预处理操作,异常声音信号的端点不是极值点,而LMD直接以端点值作为极值的处理方式是不合理的,其结果是生成的乘积函数(Product Function,PF)分量在两端出现虚假成分,随着分解过程的进行,这种失真现象从信号两端蔓延到中间,造成分解结果失真,即端点效应问题。(2)公共场所异常声音信号具有上下波动频繁、局部信息丰富的特点,而LMD的滑动平均过程不仅耗时而且易造成信号的某些局部信息损失。此外,异常声音信号持续时间较长且主要信息包含在高频部分,而LMD方法的PF分量阶数及筛选次数不确定都会造成分解耗时,同时也会影响分解效果。(3)公共场所异常声音信号频率成分复杂,而LMD的模态混叠问题会影响其特征提取效果。现有总体局部均值分解(Ensemble Local Mean Decomposition,ELMD)方法虽能有效缓解模态混叠,但存在重构误差大、分量掺杂噪声信息等新问题。

公共场所异常声音特征提取方法大多采用语音信号处理的典型参数或几种参数的组合,如短时过零率、短时平均能量、梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)等,在一定范围取得较好的效果。但是由于异常声音信号的特殊性,上述参数提取特征的效果有很大局限。



技术实现要素:

针对以上现有技术存在的问题,本发明的目的在于以局部均值分解LMD为基础进行相关改进,提出一种基于CELMDAN的公共场所异常声音特征提取方法,旨在解决将LMD 应用于异常声音特征提取中面临的关键理论及技术难题,即一是LMD自身存在的端点效应、分解耗时及模态混叠问题;二是公共场所异常声音的特征提取问题。

为实现发明目的采用的技术手段如下:

公共场所异常声音特征提取方法,其特征在于:首先,采集公共场所异常声音信号,完成声音信号的预处理;然后,采用自适应噪声的完备总体局部均值分解CELMDAN方法将公共场所异常声音信号分解为一系列乘积函数PF分量,每阶分量分别包含异常声音信号的某个频率段信息;再然后,用各阶PF分量与异常声音信号的能量比作为其特征向量,判断特征向量是否有效;最后,将有效的特征向量输入支持向量机SVM进行识别。

所述的CELMDAN方法是基于局部均值分解LMD方法,并对该方法的端点效应、分解耗时及模态混叠问题进行改进;所述的CELMDAN方法的核心是CELMDAN方法的模型的建立。

所述的局部均值分解LMD的端点效应的问题改进是采用边界处理方法,估计信号两侧极值信息,缓解端点效应。

所述的分解耗时的问题改进是采用线性插值过程代替局部均值分解LMD的滑动平均过程,并且将乘积函数PF分量作为反馈评估,对乘积函数PF分量阶数及筛选次数进行约束,减小分解耗时。

所述的模态混叠问题的改进是采用自适应加噪方式,通过噪声缓解模态混叠,降低重构误差。

具体地,所述的边界处理包括左边界处理和右边界处理,且左边界处理与右边界处理方式相同,下面以左边界处理为例进行详细介绍。

左边界处理方法如下:首先将信号的左端点值记为Y1,连接信号第一、二个极大值点构成的直线方程为y(t)=k1(t-1)+b1,连接信号第一、二个极小值点构成的直线方程为y(t)=k2(t-1)+b2,式中,k为连接两个极值点的直线的斜率,b为直线与y轴的交点。左边界极大值记为Zmax,左边界极小值记为Zmin;具体处理方法如下:

步骤2.1:若满足表达式b2≤Y1≤b1,则Zmax=b1且Zmin=b2

步骤2.2:若满足表达式b1<Y1≤(b1+b2)/2+(b1-b2)=(3b1-b2)/2,则Zmax=Y1且Zmin=b2;否则若(3b2-b1)/2=(b1+b2)/2-(b1-b2)≤Y1<b2,则Zmax=b1且Zmin=Y1

步骤2.3:若满足表达式Y1>(3b1-b2)/2,则Zmax=Y1,以第一个极小值点作直线y(t)=k*(t-1)+b*,该直线平行于过左端点和第一个极大值点的直线,且Zmin=b*;否则若Y1<(3b2-b1)/2,则Zmin=Y1,以第一个极大值点作直线y(t)=k*(t-1)+b*,该直线平行于过左端点 和第一个极小值点的直线,且Zmax=b*

具体地,所述的采用线性插值过程代替局部均值分解LMD的滑动平均过程,包括:首先对信号x(t)的极大值点、极小值点分别进行线性插值,得到相应的上包络线A(t)、下包络线B(t);然后根据式

计算局部均值曲线m11(t)和包络估计曲线a11(t)。

具体地,所述的乘积函数PF分量作为反馈评估,对乘积函数PF分量阶数及筛选次数进行约束的具体操作为:首先,采用方差比率Ratio=σ/σ0来反映LMD分解效果,各参数定义如下:

式中,x(n)为原始信号,N为原始信号长度,为原始信号x(t)的数学期望,r(t)为最终余项;然后,对LMD的筛选次数限制K进行优化设置,K的值需要事先作一系列先验分解实验,并根据实验结果的统计分析进行设置。

具体地,所述的自适应加噪方式的特点是分解嵌套思想,具体的分解步骤如下:

第1轮加噪:分别将一定信噪比的白噪声wi(t)叠加到原始信号x(t)上,i=1,2,…,I,其中I为加噪次数;然后通过LMD分解得到混合信号的第一阶分量,再取平均值作为本方法的第一阶PF分量:

其中,ε为加噪幅度,L1[A(t)]表示LMD对信号A(t)分解得到的第1阶分量,此时的余项为:

r1(t)=x(t)-PF1

第2轮加噪:分别将白噪声wi(t)的第一阶PF分量叠加到r1(t)上,再用LMD分解得到混合信号的第一阶分量,取平均作为本方法的第二阶PF分量:

其中,ε为加噪幅度,L1[A(t)]表示LMD对信号A(t)分解得到的第1阶分量,此时的余项为:

r2(t)=r1(t)-PF2

第m轮加噪:分别将白噪声wi(t)的第(m-1)阶PF分量叠加到余项rm-1(t)上,若白噪声的PF分量阶数不够,则该轮不加噪;然后通过LMD分解得到混合信号的第一阶分量,再取平均值作为本方法的第m阶PF分量,即:

此时得到的余项为:

rm(t)=rm-1(t)-PFm

重复执行M轮加噪,直至满足停止条件,即余项的极值点数达到下限或者所得PF分量的阶数达到上限,最终的余项为rM(t)=rM-1(t)-PFM

具体地,所述的CELMDAN方法的模型为:

上式从理论上证明CELMDAN方法是完备的,即分解所得分量重构原信号的误差为零;其中:x(t)为需要分析的异常声音信号,PFm是分解结果中的一系列乘积函数,m表示分量阶数,而rM(t)是最终余项。各阶PF分量的产生方式:在加噪的第m轮环节中,在余项基础上叠加高斯噪声的第(m-1)阶PF分量,然后通过LMD分解得到该混合信号的第一阶分量,如此重复m次,取平均作为本方法的第m阶分量PFm

具体地,所述的公共场所异常声音特征提取的操作步骤具体如下:

步骤7.1:用CELMDAN方法对公共场所异常声音信号进行分解,得到PF分量。

步骤7.2:计算原始异常声音信号能量E及各分量的能量Ei;计算各阶PF分量相对于原始异常声音信号的能量比,并组合成向量形式进行归一化处理,作为原始信号的特征向量。

步骤7.3:将归一化后的异常声音特征向量输入M-ay SVM分类器,得到识别结果,判断异常声音种类。

本发明的有效增益在于:

本发明以非线性、非平稳信号处理方法LMD为基础,针对技术难题提出相关改进,形成CELMDAN方法,并用于公共场所异常声音特征描述。CELMDAN方法更能够准确提取异常声音的特征,并且对环境背景噪声具有较好的鲁棒性。

具体增益效果为:

1、本发明充分考虑将LMD方法应用于公共场所异常声音特征提取面临的关键理论和技术难题,同时结合异常声音与背景噪声各自的特点,从理论上研究LMD存在的端点效应、分解耗时及模态混叠问题的产生根源,并提出CELMDAN方法,使其能够更好反映公共场所异常声音丰富的频率-能量分布信息。

2、提出一种更适合于公共场所异常声音特征描述的方法,即自适应噪声的完备总体局部均值分解CELMDAN方法,该方法的思想是分解嵌套。利用提出的CELMDAN方法分解公共场所异常声音信号,得到一系列频率成分较为单一的PF分量,然后将各阶PF分量相对于原始信号的能量比作为特征向量,简单有效。

3、本发明通过实验验证,相比于传统的MFCC及其它时频分析方法,本发明提出CELMDAN方法有更好的特征提取能力,对公共场所典型异常声音的识别率也更高。

附图说明

图1:本发明提出的公共场所异常声音特征提取方法及识别流程框图;

图2:本发明提出边界处理方法,用于缓解LMD存在的端点效应,其中(a)、(b)、(c)分别对应信号不同极值分布时的处理;

图3:本发明提出CELMDAN方法用于分解爆炸声(公共场所典型异常声音之一)信号得到的结果图,其中RE是由分解结果重构原始信号造成的误差;

图4:本发明与其它几种异常声音特征提取方法的受试者工作特征曲线(Receiver Operating Characteristic,ROC)曲线对比图。

具体实施方式

以下结合附图进一步详细阐述本发明:

如图1所示,本发明提出的公共场所异常声音特征提取方法流程,主要内容为两部分:对LMD端点效应、分解耗时及模态混叠问题的改进,以及公共场所异常声音特征提取。

对LMD端点效应、分解耗时及模态混叠问题的改进:是从原理上分析三个问题的产生根源,然后提出相关改进措施。

(一)本发明中,LMD端点效应的根源及改进:

从LMD的分解步骤可知,整个分解需要较准确的信号极值分布信息。公共场所异常声音信号的极值点间距较小且分布紧密,但是由于端点检测等预处理,有限长度的信号在两端的极值信息并不明确。LMD方法直接将端点作为极大值或极小值点,这与异常声音信号的实际变化趋势不相符,由此将无法得到准确的边界极值点数据而使端点处出现“失真”。随着筛选迭代过程的进行,虚假的极值点信息会逐渐向内蔓延直至影响整个信号范围,最终使分解结果出现失真,即端点效应。

为此,本发明提出一种边界处理方法,如图2所示,准确估计待分解信号端点处的极值信息,从源头上避免由于该位置极值信息失真而造成分解结果出现端点效应。

为了缓解端点效应,根本问题是需要准确估计信号端点处的极值情况,尽量避免失真现象。本发明提出一种边界处理方法,改进这一问题。左边界与右边界处理方式相同,下文以左边界为例处理进行详细阐述。在引出本发明提出的改进方法之前,首先将信号的左端点值记为Y1,由信号第一、二个极大值点构成的直线方程为y(t)=k1(t-1)+b1,由信号第一、二个极小值点构成的直线方程为y(t)=k2(t-1)+b2,式中,k为连接两个极值点的直线的斜率,b为直线与y轴的交点。直线方程表达式考虑到了信号数据点序号从1开始,亦即横坐标起点为1而非0。在改进后,得到的左边界极大值、左边界极小值依次记为Zmax、Zmin。具体改进方法如下:

1)若满足表达式b2≤Y1≤b1,则Zmax=b1且Zmin=b2

2)若满足表达式b1<Y1≤(b1+b2)/2+(b1-b2)=(3b1-b2)/2,则Zmax=Y1且Zmin=b2;否则若(3b2-b1)/2=(b1+b2)/2-(b1-b2)≤Y1<b2,则Zmax=b1且Zmin=Y1

3)若满足表达式Y1>(3b1-b2)/2,则Zmax=Y1,以第一个极小值点作直线y(t)=k*(t-1)+b*,该直线平行于过左端点和第一个极大值点的直线,且Zmin=b*;否则若Y1<(3b2-b1)/2,则Zmin=Y1,以第一个极大值点作直线y(t)=k*(t-1)+b*,该直线平行于过左端点和第一个极小值点的直线,且Zmax=b*

本发明方法在模拟信号上进行的实验表明,提出方法是有效的。

(二)本发明中,LMD分解耗时的根源及改进:

从分解步骤来看,LMD是三重循环迭代的过程,包括滑动平均过程、每阶PF分量的产生过程以及整个分解过程。耗时问题体现在:一方面,LMD涉及滑动平均过程,在该过程中信号的局部均值曲线和包络估计曲线需要一直重复滑动平均的操作,因此每阶PF分量的产生过程经历多次重复运算。另一方面,PF分量阶数及筛选次数的不确定也会引起分解耗时,并且直接影响分解效果,若筛选次数过少则容易出现欠筛选现象,分解所得分量对 称性不够;若筛选次数过多则容易出现过筛选现象,分解结果中相邻分量的相似性较大。

为此,本发明采用线性插值过程代替LMD的滑动平均过程,在保证信息完整性的同时降低运算量。通过LMD大量分解结果的统计分析,解决PF分量阶数不确定的问题,并将分解结果作为筛选次数的反馈评估,选择与最佳分解结果对应的筛选次数,在减小LMD分解耗时的同时避免过筛选和欠筛选现象。本发明所作改进如下:

1、针对滑动平均过程耗时的问题,结合公共场所异常声音信号上下波动频繁、局部信息丰富这一特点,本发明提出将线性插值引入到LMD分解中。首先对信号x(t)的极大值点、极小值点分别进行线性插值,得到相应的上包络线A(t)、下包络线B(t)。然后根据式(2)计算局部均值曲线m11(t)和包络估计曲线a11(t)。之后的操作与原始LMD方法一致。

这避免了原LMD方法中滑动平均过程的一重循环,使得改进后的LMD只有两层循环,显著提高分解效率;而且线性插值过程也能较好保留异常声音信号更多的局部信息。

2、针对分量阶数导致耗时的问题,根据炸声、尖叫声、枪声和玻璃破碎声等典型异常声音信号的信息主要集中在高频成分中,而PF分量的阶数越高,对应成分的频率越低,本发明结合实验中PF分量阶数取不同值时异常声音识别的结果,最终将PF分量最大阶数限制为7。

而针对筛选次数导致耗时的问题,本发明将分解结果作为筛选次数的反馈评估,选择与最佳分解结果对应的筛选次数,在减小LMD分解耗时的同时保证较好的分解效果。本发明采用方差比率Ratio=σ/σ0来反映LMD分解效果,各参数定义如下:

其中,x为原始信号,N为信号长度,x为原始信号x(t)的数学期望,r(t)为最终余项。

在此基础上,本发明对LMD的筛选次数限制K进行优化设置,K的值需要事先作一系列先验分解实验,并根据实验结果的统计分析进行设置。对大量异常声音信号的分解实验结果表明,K的值分布在20左右,因此设置K=20。统计分析实验的具体操作如下:

a.对最大筛选次数K进行限制,结合PF分量最大阶数为7的限制,作为整个LMD分解过程的停止条件之一,其中K的具体取值将由以下步骤确定;

b.让最大筛选次数K在[1,50]整数区间逐个取值,分别进行LMD分解,然后计算方差比率Ratio,在K-Ratio曲线中找到Ratio最小时对应的K。

(三)本发明中,LMD模态混叠的根源及改进:

引起模态混叠的根源在于,由于原始信号中高频间歇噪声的干扰,LMD在分解过程中得到的局部均值曲线和包络估计曲线将同时包含低频信号和高频间歇噪声的双重极值点信息,由此计算的PF分量也将包含不同频率成分。根据高斯白噪声的频率成分均匀分布于整个时-频空间的特性,总体局部均值分解ELMD能够有效缓解模态混叠,但是却带来较大的重构误差。

为此,本发明借鉴ELMD的基本思路,结合对LMD端点效应及分解耗时问题的改进,提出自适应噪声的完备总体局部均值分解(Complete Ensemble Local Mean Decomposition with Adaptive Noise,CELMDAN)方法。该方法的特点是引入分解嵌套思想,在加噪的第m轮环节中,在余项基础上叠加高斯噪声的第(m-1)阶PF分量,然后通过LMD分解得到该混合信号的第一阶PF分量,如此重复多次,取平均作为本方法的第m阶分量。最后,本发明方法分别对模拟信号和异常声音信号进行分解实验,验证了上述改进的有效性。

具体的分解步骤如下说明(除非特殊说明,此处及之后提到的LMD指的是在改进端点效应及分解耗时后的LMD方法):

1、第1轮加噪:分别将一定信噪比的白噪声wi(t)(i=1,2,…,I,其中I为加噪次数)叠加到原始信号x(t)上,然后通过LMD分解得到混合信号的第一阶分量,再取平均值作为本方法的第一阶PF分量:

其中,ε为加噪幅度,Lk[A(t)]表示LMD对信号A(t)分解得到的第k阶分量,此时的余项为:

r1(t)=x(t)-PF1

2、第2轮加噪:分别将白噪声wi(t)的第一阶PF分量叠加到r1(t)上,再用LMD分解得到混合信号的第一阶分量,取平均作为本方法的第二阶PF分量:

此时得到的余项为:

r2(t)=r1(t)-PF2

3、第m轮加噪:分别将白噪声wi(t)的第(m-1)阶PF分量叠加到余项rm-1(t)上(若白噪声的PF分量阶数不够,则该轮不加噪),然后通过LMD分解得到混合信号的第一阶分量,再取平均值作为本方法的第m阶PF分量,即:

此时得到的余项为:

rm(t)=rm-1(t)-PFm

4、重复执行M轮加噪,直至满足停止条件(余项的极值点数达到下限或者所得PF分量的阶数达到上限),最终的余项为:

rM(t)=rM-1(t)-PFM

至此,整个CELMDAN的分解流程结束。

自适应噪声的完备总体局部均值分解CELMDAN方法的模型为:

上式从理论上证明CELMDAN方法是完备的,即分解所得分量重构原信号的误差为零;其中:x(t)为需要分析的异常声音信号,PFm是分解结果中的一系列乘积函数,m表示分量阶数,而rM(t)是最终余项。各阶PF分量的产生方式:在加噪的第m轮环节中,在余项基础上叠加高斯噪声的第(m-1)阶PF分量,然后通过LMD分解得到该混合信号的第一阶分量,如此重复m次,取平均作为本方法的第m阶分量PFm

二、公共场所异常声音特征提取

公共场所异常声音比一般语音信号更复杂,它通常包含较多的频率成分,而且没有特定规律。提取异常声音信号的特征,实质上就是从中挖掘这些频率成分信息。因此时频分析方法不失为一种有效的分析手段,它在处理异常声音等非线性、非平稳信号方面比传统 语音信号处理方法更具优势。公共场所异常声音具有各自独特的频率-能量分布特点,因此频率-能量分布信息可以被用来利用概括其本质特征。

如图3所示,首先,利用本发明提出的CELMDAN方法将异常声音信号分解成一系列PF分量,爆炸声信号的分解结果如图2所示。然后,计算各阶PF分量相对于原始信号的能量比km,并将其组合成向量形式作为特征向量。其中,为了尽可能减小运算量,结合Parseval定理能量守恒的思想,对于以离散点形式存在的信号,本发明拟采用各离散点的幅值平方和作为该信号的能量表征。最后,将上述得到的特征向量输入M-ary SVM分类器,即可得到分类识别结果。

图4为本发明与其它几种异常声音特征提取方法的ROC曲线对比图。其中,MFCC为梅尔频率倒谱系数,EEMD为总体经验模态分解方法,ESMD为极点对称模态分解方法,ELMD为总体局部均值分解方法,CELMDAN为本发明提出的基于自适应噪声的完备总体局部均值分解方法。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1