一种设备异常声音检测的设备及方法与流程

文档序号:20497810发布日期:2020-04-21 22:32阅读:1192来源:国知局
一种设备异常声音检测的设备及方法与流程

本发明属于声音检测技术领域,具体是一种设备异常声音检测的设备及方法。



背景技术:

音频监控技术是监控应用中最重要的组成部分之一,实现智能化音频监控的关键是从环境背景声音中自动地检测出异常声音。对异常声音识别需要从多个叠加在设备运行环境背景声音中区分出异常声音,有效对目标场景进行实时检测,智能化音频监控的实时大大减少对设备检测所需的人力、物力、财力。

目前异常声音检测已应用到安全监控、工业生产、医疗等领域,通过音频监控能够达到实时报警的目的,使人类现代化生活更加便捷。异常声音检测实质上是属于模式分类问题,将声音信号分为异常声音和环境背景声音,是一个二分类问题,目的是将异常声音片段从环境背景声音中截取出来。

检测方法主要集中在提取音频信号中不同类型的特征,用机器学习算法训练有效的分类器进行识别。异常声音检测的效果基本上取决于提取的特征的质量,想要达到精确的检测效果,提取的音频特征要能很好地表示数据。在提取到有效特征后,要训练一个分类器使其学习到训练数据中的共性规律,并利用学习到的规律对未知样本进行预测。

现有的相近研究提出基于mfcc算法和svm算法对异常声音进行预测,该研究在数据预处理、提取音频信号特征上存在缺陷,没有消除采集过程中声音样本之间的数值量级的差异,样本数据转化后的音频特征不突出,致使在多个环境背景声音下无法区分出异常声音,此外基于粒子群优化和som的算法明显优于svm算法。



技术实现要素:

本发明的目的在于克服现有技术的缺陷,提供一种设备异常声音检测的设备及方法。

为实现上述目的,本发明采用了如下技术方案:

一种设备异常声音检测的设备,包括设备主体,其特征在于:所述设备主体包括前端数据采集器和边缘计算容器;

所述前端数采集器是一个能采集音频特征并将数据信号压缩、传输和存储的设备,该设备包含音频采集模块、音频服务模块以及存储模块;

所述边缘计算容器是一个能获取数据并具有计算分析能力的设备,该设备包含arm开发板、网络通讯模块、报警模块以及电源模块。

优选的,所述音频采集模块采用拾音器设备,拾音器设备可实现户外、远距离环境的高保真录音操作,采用金属外壳,并在其表面电镀处理。

优选的,所述音频服务模块与音频采集模块通过设置导线连接,且音频服务模块用于接受拾音器的音频数据,完成数字信号压缩和传输作业。

优选的,所述音频存储模块与边缘计算容器通过设置导线连接,且音频存储模块用于存储异常状态下音频特征库、音频识别后的结果,以及操作系统内核和文件系统。

优选的,所述所述arm开发板采用arm中央处理器,且arm开发板内置音频数据特征转化和对音频数据分析的运算程序,实时接收并分析各种音频数据;

所述运算程序为,通过改进的mfcc算法对音频数据特征进行提取并转化,通过基于粒子群优化的自组织特征映射神经网络算法训练模型,利用训练好的模型识别设备主体运行声音,若存在设备异常运行声音,将结果进行储存、传输到上位机并进行报警。

优选的,所述网络通讯模块用于与外置的上位机进行连接和数据传输,且网络通讯模块采用有线或无线的方式与外置的上位机远程连接。

优选的,所述报警模块与arm开发板通过设置导线连接,若是数据分析结果发现设备主体存在异常状态时,所述报警模块进行报警。

优选的,一种设备异常声音检测的设备的使用方法,该方法的步骤为:

s1、启动异常声音检测设备;

s2、异常声音检测设备无需紧贴被检测设备,放在靠近被检测设备的一端,触发音频采集模块的启动端,音频采集模块实时采集被检测设备的音频数据;

s3、采用音频服务模块接收音频采集模块的音频数据,进行数字信号压缩和传输;

s4、将压缩后的数字信号传至边缘计算容器里arm开发板;针对应用场景的模型化及噪声识别,进入训练程序,arm开发板对正常的设备运行数据进行训练,自适应提取数据特征,生成机器噪声基础特征集,通过pso-som神经网络算法学习计算权重和配比,所得模型和数据特征存储于arm开发板的计算程序中;

当训练好模型后,进入识别程序,先提取当前采集的音频数据特征,用训练好的模型对音频数据特征进行测试;

s5、当测试结果显示设备存在异常状态时,报警模块发出警告,音频存储模块存储异常状态时的数据特征等信息;

s6、通过网络通讯模块上传数据分析结果至外置的上位机,该处的上位机使用电脑或手机登陆控制平台可视化边缘计算容器处理分析后的结果并进行相关的操作处理。

优选的,在上述步骤s3后,通过前端数据采集器对运行设备的音频数据进行实时采集,将音频数据进行切片处理,并在步骤s4中使用arm开发板对切片后的数据进行处理;上述作业的具体步骤为:

a、获取并整合所需检测的设备运行声音信息,建立音频数据库。

b、对音频数据库中的数据读取,包括分割训练-测试集,对数据进行切片,设置滑动时间。

c、结合melfrequencycepstralcoefficient算法提取出音频数据特征,对提取后的特征向量矩阵进行处理。

d、基于粒子群优化和som模型对特征筛选后的数据进行预测,结合预测的准确率,进行算法的优化和改进。

与现有技术相比,本发明提供了一种设备异常声音检测的设备及方法,具有如下有益效果:

该设备利用边缘计算容器直接对获取到的数据进行处理,无需将数据传输到后台并进行分析设备运行状态,大大减少了数据传送的时间;

检测人员可以通过使用手机、平板以及电脑等方式登陆可视化控制平台界面,便于检测人员进行监测设备运行状态。

该设备通过前端数据采集器对运行设备的音频数据进行实时采集,将音频数据进行切片处理,分析切片后的音频数据特征与实验数据中设备正常运行特征进行对比,准确识别运行设备故障时的异常声音。本专利将切片后的数据利用mfcc算法提取音频特征,对音频特征进行改进后获得最优音频特征,基于粒子群优化和som算法能更好地应用于从复杂的设备运行环境背景声音识别出异常声音,协助相关人员准确定位故障设备并及时维护设备的正常运行。

1.在音频数据处理中将数据切片处理后,mfcc方法提取出的音频特征,将所得每一片特征向量矩阵拉直,对其进行降维处理,提取出的音频特征更优,聚类效果更加显著;

2.采用基于粒子群优化的自组织特征映射神经网络(pso-som)的聚类算法无需知道数据的标签,在一段较长的设备运行声音数据中默认将数据量较大的一类归为正常运行声音,so-som算法在聚类效果评价指标(avq、ute、lwdi)上均优于som基本算法,所得网络质量较好,错聚率较低,所得错聚率也低于其他分类算法(svm、gmm、cnn等)。

附图说明

图1是本发明的设备主体结构示意图;

图2是本发明的设备主体内部结构示意图;

图3是本发明的原理框图;

图4是本发明的检测方法流程图;

图5是本发明的som结构图;

图6是本发明中使用arm开发板的具体检测流程图;

图7是本发明的粒子最优化和som算法流程图。

附图标记:1、设备主体;2、音频采集模块;3、音频服务模块;4、音频存储模块;5、arm开发板;6、网络通讯模块;7、报警模块;8、电源模块。

具体实施方式

以下结合附图1,进一步说明本发明一种设备异常声音检测的设备及方法的具体实施方式。本发明一种设备异常声音检测的设备及方法不限于以下实施例的描述。

实施例1:

本实施例给出一种设备异常声音检测的设备的具体结构,如图1-3所示,一种设备异常声音检测的设备,包括设备主体1,设备主体1包括前端数据采集器和边缘计算容器;

前端数采集器是一个能采集音频特征并将数据信号压缩、传输和存储的设备,该设备包含音频采集模块2、音频服务模块3以及存储模块4;

边缘计算容器是一个能获取数据并具有计算分析能力的设备,该设备包含arm开发板5、网络通讯模块6、报警模块7以及电源模块8。

如图2和3所示,音频采集模块2采用拾音器设备,拾音器设备可实现户外、远距离环境的高保真录音操作,采用金属外壳,并在其表面电镀处理;具有防水防潮、高保真、低噪声的特点,为后续的音频信号处理提供可靠的音频数据。

如图2和3所示,音频服务模块3与音频采集模块2通过设置导线连接,且音频服务模块3用于接受拾音器的音频数据,完成数字信号压缩和传输作业;压缩格式采用a律pcm音频格式,传输方式采用tcp/ip协议传输标准。

如图2和3所示,音频存储模块4与边缘计算容器通过设置导线连接,且音频存储模块4用于存储异常状态下音频特征库、音频识别后的结果,以及操作系统内核和文件系统。

如图2和3所示,arm开发板5采用arm中央处理器,该处理器具有低功耗高运算性能处理的特点。且arm开发板5内置音频数据特征转化和对音频数据分析的运算程序,实时接收并分析各种音频数据;

运算程序为,通过改进的mfcc算法对音频数据特征进行提取并转化,通过基于粒子群优化的自组织特征映射神经网络pso-som算法训练模型,利用训练好的模型识别设备主体1运行声音,若存在设备异常运行声音,将结果进行储存、传输到上位机并进行报警。

如图2和3所示,网络通讯模块6用于与外置的上位机进行连接和数据传输,考虑到存在设备运行环境封闭,信号传输能力较弱的情形,该网络通讯模块6采用有线或无线的方式与外置的上位机远程连接。网线和4g网络相结合的方式,当网线传输中断时,启用4g网络传输,从而实现边缘计算容器与上位机的远程连接。

如图2和3所示,报警模块7与arm开发板5通过设置导线连接,若是数据分析结果发现设备主体1存在异常状态时,报警模块7进行报警。

实施例2:

本实施例给出一种设备异常声音检测的设备及方法的具体使用方法和检测步骤,如图4所示,按照下述步骤进行:

(1)启动异常声音检测设备;

(2)异常声音检测设备无需紧贴被检测设备,放在靠近被检测设备的一端,触发音频采集模块2的启动端,音频采集模块2实时采集被检测设备的音频数据;

(3)采用音频服务模块3接收音频采集模块2的音频数据,进行数字信号压缩和传输;

(4)将压缩后的数字信号传至边缘计算容器里arm开发板5;针对应用场景的模型化及噪声识别,进入训练程序,arm开发板5对正常的设备运行数据进行训练,自适应提取数据特征,生成机器噪声基础特征集,通过pso-som神经网络算法学习计算权重和配比,所得模型和数据特征存储于arm开发板5的计算程序中;

当训练好模型后,进入识别程序,先提取当前采集的音频数据特征,用训练好的模型对音频数据特征进行测试;

(5)当测试结果显示设备存在异常状态时,报警模块7发出警告,音频存储模块4存储异常状态时的数据特征等信息;

(6)通过网络通讯模块6上传数据分析结果至外置的上位机,该处的上位机使用电脑或手机登陆控制平台可视化边缘计算容器处理分析后的结果并进行相关的操作处理。

实施例3:

本实施例给出通过前端数据采集器对运行设备的音频数据进行实时采集,将音频数据进行切片处理,分析切片后的音频数据特征与实验数据中设备正常运行特征进行对比,准确识别运行设备故障时的异常声音的具体步骤,如图5-7所示,

在步骤s3后,通过前端数据采集器对运行设备的音频数据进行实时采集,将音频数据进行切片处理,并在步骤s4中使用arm开发板5对切片后的数据进行处理;如图5-7所示,上述作业的具体步骤为,

a、获取并整合所需检测的设备运行声音信息,建立音频数据库。

b、对音频数据库中的数据读取,包括分割训练-测试集,对数据进行切片,设置滑动时间。

该步骤具体包括:(1)选取部分样本数据作为后续模型检验的测试集;

(2)读取测试音频数据,根据读取数据的帧数和频率,对测试音频数据按每5s进行切片,滑动时间设置为1s。

c、结合melfrequencycepstralcoefficient(mfcc)算法提取出音频数据特征,对提取后的特征向量矩阵进行处理。

该步骤具体包括,(1)预加重:提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,消除发生过程中声带和嘴唇效应,补偿语音信号中收到发音系统所抑制的高频部分,突出高频的共振峰,

s1(n)=s(n)-αs(n-1)

其中:一般α取值为:0.95,s(n)为读取信号的signal数组。

(2)分帧:将n个采样点集合成一个观测单位,称为帧。通常情况下n的值为256或512,涵盖的时间约为20-30ms左右。为避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,重叠区域包含m个采样点,通常m的值约为n的1/2或1/3。

(3)加窗:汉明窗函数是一个余弦函数,作用是为了缓解频率混叠。

假设一帧内信号是s(n),n=o,1,…,n-1,则乘上汉明窗后为:

s′(n)=s(n)*w(n)

其中:汉明窗为:不同的a产生不同的汉明窗,通常a选取0.46。

(4)离散傅里叶变换(dft):进行快速傅里叶变换得到各帧的频谱,对语音信号的频谱取模平方得到语音信号的功率谱,则语音信号的dft为:

其中:x(n)为输入的语音信号,n表示傅里叶变换的点数。

(5)三角带通滤波器:将能量谱通过一组mel尺度的三角形滤波器组,定义一个有m个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为。m通常取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。三角滤波器的频率相应定义为:

其中

(6)计算每个滤波器组输出的对数能量为:

(7)经离散余弦变换(dct)得到mfcc系数:

(8)基于mfcc算法提取音频特征向量矩阵后,得到mn*13的特征向量矩阵,其中m为片数,n为一片数据对应特征向量的长度,将每一片特征向量矩阵拉直获得m*13n的特征向量矩阵,对新的特征向量矩阵进行降维处理,获得最终的特征向量矩阵。

d、基于粒子群优化和som模型对特征筛选后的数据进行预测,结合预测的准确率,进行算法的优化和改进。

该步骤具体包括:

假设在d维搜索空间中,有m个粒子组成一群体,第i个粒子在d维空间中的位置表示为xi=(xi1,xi2,...,xid),第i个粒子经历过的最好位置记为pi=(pi1,pi2,...,pid),第i个粒子的飞行速度记为vi=(vi1,vi2,...,vid)。在整个群体中,所有粒子经历过的最好位置为,

pg=(pg1,pg2,...,pgd),vid=ωvid+c1r1(pid-xid)+c2r2(pgd-xid)

x’id=xid+vid。

(1)初始化设置som网络的结构、目标函数等;

(2)初始化设置粒子群的规模、惯性权值、学习因子、最大允许迭代次数或适应度误差范围、各粒子的初始位置和初始速度等;

(3)对每个粒子,寻找获胜神经元,并计算相应权值的适应度;

(4)对粒子群中的所有粒子,执行如下操作:

a.根据上述,更新粒子的诶之和速度,

b.若粒子适应度优于个体极值pbest,则pbest设置为新位置,

c.如果粒子适应度优于全局极值gbest,则pbest设置为新位置。

(5)对每一步的最优粒子和最差粒子进行处理;

(6)若满足停止条件,则搜索停止,输出全局最优位置,即为所求som网络的最佳权值;gbest否则返回步骤3继续搜索。

上述提及的melfrequencycepstralcoefficient(mfcc)的通俗解释:在语言识别领域,将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量。它有13个系数都是通过离散余弦变换(dct)而来,并取13个系数。dct的作用是为了获得频谱的倒谱,倒谱的低频分量就是频谱的包络,倒谱的高频分量就是频谱的细节,这些都是语音识别上十分有效的语音物理信息。但语音识别是对机器来说的,所以我们必须对物理信息进行某种“编码”,得到的就是mfcc13维特征向量。

上述提及的基于粒子群优化的自组织特征映射神经网络(pso-som)的通俗解释:每个数据特征都被看成空间中的一个粒子,所有的粒子都有一个由被优化函数。每个粒子都会不断更新速度和位置,计算出粒子的适应度,追踪记录每个粒子的个体极值和整个粒子群的全局极值,最终得到的粒子适应度大于全局极值,则设置成为som的最佳权值。

如图5所示,输入层和竞争层分为位于上下两层,其中输入层包含位于上层的三组节点,竞争层包含位于下层的四组节点;

输入层和竞争层是全连接的,每个输入层神经元节点都有对应的权值和偏差,在激活函数的作用下输出对应的输出。基于粒子群优化的自组织特征映射神经网络,对应的权值由改进的粒子群算法所确定,传统的粒子群算法会陷入局部极值且收敛速度慢。pso-som算法在聚类效果评价指标(avq、ute、lwdi)上均优于som基本算法,所得网络质量较好,错误率较低。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1