一种低信噪比异常声音信号的检测系统及检测方法与流程

文档序号：13007558阅读：1048来源：国知局

本发明涉及计算机音频处理领域，具体涉及一种低信噪比异常声音信号的检测系统及检测方法。

背景技术：

声音信号是人类最熟悉的承载信息的信号之一，随着信息技术和多媒体技术的发展，开展机器对声音的感知和理解研究越来越受到重视。目前，计算机对音频的检测和识别技术在工业控制、医疗护理、军事国防等各个领域都有着广泛的应用。特别是异常声音信号往往预示着异常事件发生，如：尖叫声、爆炸声等，而声音检测手段有着不易受环境因素影响、特征稳定等其他检测手段无法比拟的优势。因此，声音信号检测已经成为了公共安全监控智能化发展的一个重要组成部分，近年来引起了学者们的广泛研究。

目前，对声音信号的研究主要分为语音和非语音。非语音信号能够更多地传达声源特性和环境特征，对计算机更深刻地认识环境有着重要的作用，而异常声音的检测就属于非语音信号的研究范畴，即通过对一段连续的声音信号进行特征提取、分析，从而检测出是否含有异常声音信号。现阶段对非语音信号的检测研究主体可以分为两个方面：基于特征的检测方法和基于模型的检测方法。基于特征的检测方法依据特征提取所基于的时间单元长度可以分为短时特征和长时特征，如；爆炸声和无人机入侵的声音特征就分属短时特征和长时特征。不同的异常声音其声学特征存在很大的差异，现在常用的一些时域特征有短时能量、过零率、振幅等，但是由于计算过程简单，仅仅适用于单一环境等问题使得时域特征一般不单独使用；频域特征有频谱分布、基频、梅尔倒谱系数、线性预测倒谱系数等，这些频域特征在实际检测中表现出很好的鲁棒性；在声音检测中，还有一类时频域特征能够综合时域和频域特性，典型的如短时傅里叶变换、小波变换等，小波变换能够对信号的时域和频域同时做局部变换，从而有效地从信号中提取时-频信息，而且其正交性和多尺度分析的特性也非常适合于处理非平稳信号，现已经广泛应用于声音信号处理领域。这类方法都是从不同的分析角度寻找声音信号中的特征信息从而通过特征比较实现对不同声音信号的区分。例如：a.averbuch等利用小波包系数块之间的能量分布来检测噪声环境下的车辆是否到达。基于模型的检测方法大多是从机器学习中已成熟的模型提出的，这类方法都需要比较准确且大量的训练数据，常用的有基于隐马尔科夫模型的方法、基于支持向量机的识别方法和基于高斯混合模型的方法等。例如：clavel等利用高斯混合模型来检测识别噪声环境中的枪声；s.ntalampiras等针对地铁环境中的尖叫、爆炸、枪击等异常声音，使用隐马尔科夫模型(hmm)来检测异常声音在不同信噪比下的情况。

研究者们对声音检测技术的研究已经提出了许多特征选择和分析的方法，但目前对声音检测的应用案例大多是在小规模简单环境中进行，如会议室、家庭等，待检测目标声音信噪比较高；基于模型的检测方法，其需要大量的样本数据训练模型，计算复杂度高；并且大部分的研究方法都采用的是声音信号的短时特征，然而对于一些持续时间长的声音信号，长时信息对检测更为有利。当实际需要在非平稳的背景环境下，对信噪比很低的异常声音进行实时检测时，现有声音信号检测方法都很难达到预期效果。

技术实现要素：

本发明的目的在于克服上述不足，提供一种低信噪比异常声音信号的检测系统及检测方法，实现在低信噪比环境和复杂信号背景下对异常声音信号进行实时性检测。

为了达到上述目的，一种低信噪比异常声音信号的检测系统，包括置于待测环境中的检测单元，检测单元连接异常声音特征库，检测单元和异常声音特征库均连接上位机控制模块；

所述检测单元用于接收上位机控制指令后执行相应功能，运行检测算法，对待检测环境声音进行采集、检测并上传结果；

所述异常声音特征库用于储存多种待检测的目标声音的声学特征模板，为检测过程提供比较数据；

所述上位机控制模块用于对检测单元的通信控制；对检测结果进行分析、显示和预警，并且对检测单元上的检测程序进行远程维护和更新。

所述检测单元包括声音传感器、放大器、数据采集卡和嵌入式处理器。

所述检测单元通过互联网与上位机控制模块进行通信。

一种低信噪比异常声音信号的检测系统的检测方法，包括以下步骤：

步骤一，提取声音信号在时频域的能量特征，并依据实际环境因素对其进行修正；

步骤二，对待检测信号进行分帧化处理；

步骤三，对分帧后的待检测信号做小波包变换，将小波包系数矩阵按每帧中的分段来计算子带能量，从而得到每帧数据的特征矩阵；

步骤四，通过待检测信号特征矩阵依次求取每段信号相比目标信号的能量增值，组合得到此帧信号的能量增值向量；

步骤五，采用取平均的方式对多帧数据的能量增值向量做融合，得到最终的检测结果序列{dⁱ}；

步骤六，依据设置的平稳时长对此阶段的检测结果序列{dⁱ}进行中值滤波，以中值滤波结果的最大值来修正预定阈值；

步骤七，对检测结果序列{dⁱ}进行中值滤波，产生稍滞后的确认序列{qⁱ}，确认序列{qⁱ}滞后的时间等于滤波窗口长度的一半；

步骤八，依据确认序列{qⁱ}和修正后的阈值来计算产生预警结果序列{aⁱ}。

所述步骤一中，首先利用小波包分解的方式提取目标声音信号的声学特征，用向量t表示；其次，根据声音在空气中的传播衰减特性对目标特征t进行修正，得到然后，利用带通滤波器滤除超低频和超高频部分的干扰噪声，即将中该部分频率所对应的特征值置为0，得到最后，重新对特征向量归一化，得到目标信号的声学特征ts。

所述步骤二中，检测窗口帧长度为test_win_n，每帧分为ts_n片段，每段长度为segment_n。

所述步骤三中，待检测帧数据做小波包分解，得到小波包系数矩阵srow×col；然后，将系数矩阵srow×col按段计算子带能量特征，得到每帧数据的特征矩阵

所述步骤四中，计算待检测信号特征相对于目标信号特征ts的能量增值ets_n。

与现有技术相比，本发明通过三个模块组成一个完整的检测系统，检测单元可以根据需要在实际检测现场进行网络化布设，使用上位机软件进行联网集中设置；异常声音特征库可以提供多种目标声音的特征模板，针对不同目标可以实现不同的应用目的，从而提高了检测系统的通用性。

本发明的方法可以实现在低信噪比背景环境下对异常声音信号的检测，对检测结果进行了软阈值处理，根据检测结果序列就可以判断待检测声音信号中是否有目标声音发生以及确定目标声音的发生时间。并且依据检测结果给出一个稍滞后的预警序列，从而可以满足在实际应用中对实时性的要求。

附图说明

图1是本发明的功能原理图；

图2是小波包分解示意图；

图3是信号分帧化处理示意图；

图4是声音a和声音b的混合信号a+b，其子带分量特征分布示意图；

图5是检测帧窗口滑动示意图；

图6是本检测系统的框架示意图；

图7是上位机软件界面示意图；

图8是不同信噪比下的检测预警示意图；其中a为-10db、b为-15db、c为-20db、d为-25db。

具体实施方式

下面结合附图对本发明做进一步说明。

参见图1，本发明的检测方法部分通过如下方法实现：

(1)目标信号声学特征提取。声音信号是一种模拟信号，从信号本身很难发现有用特征，所以该步骤目的是为了提取声音信号在时频域的能量特征，并依据实际环境因素对其进行修正，供后续检测过程比对使用。已知一段待检测目标声音的样本信号，是本方法后续检测实现的基础。

实际检测中遇到的声音信号大多都是非平稳的，特别是对具有长时特征的声音使用信号在不同频率范围内的能量特征可以更加精细地刻画声音。因此本方法通过小波包分解的方式将原始信号分解到不同频段上，并将每个频段上的小波包系数取平方和作为该频段上的能量表示，小波包分解示意见图2。

首先，选择小波包分解层数为n，对原始声音信号进行n层小波包分解可以得到分解后的系数矩阵为coefrow×col，其中，row＝2ⁿ为小波包分解后的频段数，col为每个频段内的数据个数；依据公式1对小波包系数矩阵按行取平方和得到子带能量的特征向量t。

其中，ti,i∈[1,row]表示子带i的子带能量，coefi,j表示目标信号分解后的小波包系数。

声音在空气中传播时会发生能量衰减，主要是由于大气吸收产生。衰减规律见公式2，

pt＝p0·exp(-0.1151·α·s)(公式2)

其中，p0代表原始能量，pt代表衰减后的能量，α为衰减系数，s为声音传播的距离。

衰减系数α可以依据iso9613-1的户外声传播衰减标准进行计算，其值与频率的平方成正比，而特征向量t的不同元素恰好代表了不同频段上的能量值，所以对不同的元素根据其所对应的频率可以计算得到不同的衰减系数αi，组成目标声音的特征向量t的衰减向量经过大量实验得到传播距离s＝100m时修正效果最好。因此，对信号的子带能量特征t进行归一化后按照公式2进行修正，得到修正后的特征向量

然后，利用带通滤波器滤除超低频和超高频部分的干扰噪声。经过大量实验发现，不同的声音信号都存在一个或几个主要特征集中的特定频段，在实际异常声音的检测中，这些频段对检测结果起了决定性的作用，而超低频和超高频部分往往会带来许多干扰噪声。因此本方法设计了一个低频截止频率为cut_offlow，高频截止频率为cut_offhigh的带通滤波器，对特征向量进行修正，即通过频率换算将截止频率所对应的特征值置为0，得到

最后，重新对修正过后的特征向量进行归一化，得到目标信号的声学特征ts。

(2)待检测信号预处理。实际环境的声音信号往往是一种非平稳的时序信号，而本方法面向的异常声音信号可能在时间上持续时间较短也可能较长，为了在实时处理时尽可能多的获取声音信息，需要依次对一小段时间内的信号进行特征分析，这样的操作称为分帧化处理，参见图3。

经过大量的实验，本方法以长度为test_win_n＝10s的检测窗口将待处理信号分帧，在检测窗口内部，又将数据分为ts_n＝10片段，每个片段长度为segment_n＝1s，依次偏移shift_n＝1s；随着检测的不断进行，帧窗口依次向后滑动1s，通过这样的方式将原始检测数据划分为若干帧。

(3)待检测帧信号特征提取。对分帧后的待检测信号做小波包变换，计算方法与上文所述的目标信号特征提取类似，所不同的是需要将小波包系数矩阵按每帧中的分段来计算子带能量，从而得到每帧数据的特征矩阵。

首先，对待检测帧数据进行n层小波包分解可以得到分解后的系数矩阵为srow×col，其中row＝2ⁿ为小波包分解后的频段数，col为每个频段内的数据个数；

然后，计算该帧数据内的每个片段经过n层小波包分解后应该包含的数据个数：对片段i计算相应的cps个小波包系数平方和为：

由此组成了每帧数据的特征矩阵：

其中，si,j表示待检测信号分解后的小波包系数。

(4)基于能量增值的检测方式。使用前面得到的待检测信号特征矩阵使用本方法依次求取每段信号相比目标信号的能量增值，组合得到此帧信号的能量增值向量。

待检测信号的特征矩阵表示了该帧信号的所有片段所对应的能量特征，本方法采用的是一种基于能量增值的检测方法。其思想是：虽然从时域上看待检测信号中目标的信噪比很低，但是将待检测信号分解到时频域后，可能存在关键子带上，背景能量是相对“缺失”的，即目标呈现高信噪比。

在背景噪声干扰下进行的目标声音信号检测问题可以描述如下：设a表示纯目标声音信号，其功率谱为a；b表示纯背景噪声，其功率谱为b；a+b表示两种信号的混合，即背景声中混有目标声，其功率谱为c。按照声音的叠加原理，a+b的子带分量ci可以表示为：其中表示两个分量对应的声压之间的相位差。对于一段时间tc上的特征，由中心极值定理可以得到其中心频率为fi的子带上特征ci的分布，近似等于以ai+bi为期望值，标准差为的正态分布，如图4所示。

对关键子带i，如果我们希望以κσi对应的概率保证ci＞bi+αai，即要求可得：意味着对于子带i要求其信噪比大于某个下界值，其中α∈(0,1)为设定阈值。

在实际检测中往往不知道最大信噪比的关键子带的编号，此时考察在满足前提下，可以得到以κσ对应概率的nf次幂(nf为子带数)的概率满足而上述前提在实际检测中非常容易满足。因此，本方法直接计算待检测帧数据的每段能量特征与目标信号的能量特征t比值，选择能量增值最小的子带增值作为本段数据的算法结果，由此组成了此帧数据的能量增值向量：

其中，表示待检测信号特征矩阵的(k,i)元素，tsⁱ表示目标信号特征向量的第i个元素。

(5)多帧数据融合。由于本方法对待检测信号进行分帧检测，所以采用取平均的方式对多帧数据的能量增值向量做融合，得到最终的检测结果序列。

如图5所示，本方法采用的分帧化处理会使得每一帧中有(test_win_n-1)s的数据重叠，即相邻两帧的能量增值向量中有(ts_n-1)个元素表示的是相同片段。因此在检测过程中，对当前已有的能量增值序列中的重叠片段所对应的向量元素取平均值，作为该片段的检测结果，最终形成了检测结果序列{dⁱ}。

(6)软阈值计算。为了使本方法在不同背景环境下都有准确的预警结果，所以需要设置一段平稳时间，来对环境声音进行估计，以此来修正预定的阈值，从而实现与背景无关联的检测。

因为不同的背景环境其声音能量特征是不同的，为了能够在不同环境下有准确的检测判断，本方法在检测初期会设置一段平稳时间steady_t＝50s，在这段时间内不引入目标声音，只对纯背景声音进行测量，计算得到检测结果序列以大小为13的窗口对其进行滑动中值滤波，然后取滤波结果的最大值作为对背景声音的能量估计，以此来修正预设的阈值α。定义阈值偏差后续的检测结果均需要减去αoffest。

(7)中值滤波。为了减弱检测结果的随机性，对检测结果序列进行中值滤波处理，从而得到可靠性更高的确认序列，以此为预警判断提供更有效的数据。

本方法在检测时对声音信号做了分帧化处理，且每帧之间有交叠，所以其能量特征不会在短时间内发生突变，并且特定环境下的背景声音也是不会发生突变的，为了进一步减弱结果的随机性，本方法对检测结果序列{dⁱ}进行了滑动中值滤波处理，滤波窗口大小为13，产生一组稍滞后的、可靠性更高的确认序列，以供预警判断使用。

(8)结果预警。其目的是对检测结果做出更加直观的预警解释，依据检测结果序列和修正后的阈值，对某一时刻是否检测出目标声音做出不同等级的预警。

当确认序列的结果大于设定阈值时，本方法使用确认序列减去设定阈值，将其差值分为5种不同的等级来预示此时刻出现目标声音的概率，等级越高，出现目标声音的可能性越大。

本发明的检测系统部分通过如下方案实现：

本检测系统的主要分为两个模块：检测单元和上位机控制软件。为了实现友好的人机交互，本系统尽可能地考虑到实际使用中的各种需求对各个主要模块的功能如下。系统框架如图6所示。

(1)检测单元。检测单元是一个最小检测功能实现单元，其包括声音传感器、放大器、数据采集卡和嵌入式处理器。可以根据实际需要在检测现场进行网络化布设，统一通过互联网与控制中心的上位机软件进行通信。其主要负责声音采集，算法检测和结果上传等任务。

本发明在检测单元上实现了一个管理系统，主要承担与上位机通信以及控制检测流程。为了保证音频采集和算法检测同时进行，管理系统采用了多线程技术。其各部分功能实现技术说明如下：

①管理系统与上位机通信采用tcp/ip协议通过socket网络通信实现；

②将管理系统为主进程，实时接收上位机指令并进行指令解析，然后执行对应的功能；

③声音采集使用ni数据采集卡，为了在数据处理的同时保证采集的连续性，本系统设计了一个fifo的循环队列存储多个数据缓冲区，当一个缓冲区数据采集完成时，该缓冲区出队列并自动将数据保存到队列中的下一个空缓冲区，与此同时触发指定事件，调用相应的回调函数对数据进行处理，处理完成后将该缓冲区清空并重新添加至循环队列中；

④检测算法在一个新线程中执行，通过设置全局标志量来实现线程间的同步；

⑤为了方便通过上位机进行算法更新，本方案中将检测算法部分的程序设计为一个动态链接库(dll)，在新线程的运行中动态加载，实现了该部分程序与管理系统的分离，在更新时只需要通过上位机将该dll文件替换即可。

(2)异常声音特征库。为了实现对特定目标声音的检测，本方法必须提前获取该类声音的声学特征，本方案设计中将多种目标声音的特征存放在一个统一的特征库中，可以通过上位机对检测目标进行选择，从而拓展了系统的通用性。

(3)上位机控制软件。基于windows系统开发，控制检测单元，对检测结果分析、显示和预警，对检测单元的模板库和检测程序进行维护。上位机软件是一个使用mfc开发的程序，通过socket与检测单元通信，软件界面如图7所示，其各部分功能说明如下：

①初始化部分：主要与检测单元建立通信连接和断开连接，是在检测最初和检测结束后需要进行的；

②设置部分：主要是为成功检测所进行的一系列功能性设置；制作模板，可以根据实际现场环境，制作新的目标特诊模板并对特征库进行更新；选项设置，预留的功能按钮；参数调节，根据实际检测环境，对算法检测过程中的主要参数进行调节；

③提示部分：使用过程中的信息提示框，主要用于反馈检测单元的信息，供使用者了解检测现场情况；

④检测部分：控制检测流程，主要是开始与停止功能；

⑤绘图区部分：根据确认序列产生预警示意图，供使用者判断，不同高度的预警块显示了不同的预警等级，预警块越高，说明此时出现目标声音的可能性越大。如图8所示，以四旋翼无人机声音作为异常目标声音，广场环境作为背景声音，每段背景声中包含四段无人机声音，其中图(a)～(d)分别为-10db、-15db、-20db、-25db信噪比下的检测结果示意图。

综上，根据上述检测方法和系统设计，将本发明的检测系统应用到低信噪比异常声音检测中可以实现对异常声音信号的有效检测。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯祖仁;李鹏;梁恺;周庆;李长通;韩玉
技术所有人：西安交通大学
我是此专利的发明人

上一篇：一种实现音频处理的方法及装置与流程
上一篇：一种声场景分类中融合类间标准差的特征提取方法与流程