一种声音事件识别方法与流程

文档序号：13389202研发日期：2017年阅读：2944来源：国知局

技术简介：
本发明针对强噪声环境下声音事件识别准确率低、鲁棒性差的问题，提出一种基于耳蜗谱图与卷积神经网络的识别方法。通过麦克风阵列采集声音信号，利用滤波器组生成耳蜗谱图模拟人耳听觉特性，结合卷积神经网络模型进行特征学习与分类，显著提升复杂噪声环境下的识别准确率与抗干扰能力，适用于交通场景中车辆碰撞声、鸣笛声等事件的高精度识别。
关键词：声音事件识别,卷积神经网络,耳蜗谱图

本发明属于音频信号处理技术领域，特别涉及到一种在强干扰环境下的声音事件识别方法。

背景技术：

近年来，研究者们针对声音事件识别提出了很多特征提取方法和识别系统，都取得了一定成效，有一种声音事件识别方法是通过采集人的声音信息，将声音信息进行fft处理，提取每个人的声音信息中的幅值和频率，并存储；将人的信息进行同样处理后，与信息库中的信息进行比对，确定人身份并进行身份识别的声音事件识别方法，这种声音事件识别方法在弱噪声环境下识别效果理想，但在强噪声、强干扰环境下识别效果普遍较差。

技术实现要素：

本发明所要解决的技术问题是现有技术中存在的在强噪声、强干扰环境下声音识别效果较差的技术问题，提供一种新的声音事件识别方法，该声音事件识别方法具有在强噪声、强干扰环境下识别准确率和鲁棒性高的技术特点。

为解决上述技术问题，采用的技术方案如下：

一种声音事件识别方法，包括以下步骤：

a.在干扰环境下对声音进行采集，形成声音数字信号，所述采集包括采用声级计与麦克风阵列进行声音采集；所述处理为对所述声音数字信号进行端点检测及滤波去噪处理；

b.通过滤波器组对所述声音数字信号进行子带滤波，得到音频信号耳蜗谱图；

c.将所述耳蜗谱图的一部分训练成卷积神经网络模型，建立声音事件识别模板；

d.将所述耳蜗谱图的另一部分代入所述卷积神经网络模型，进行声音事件的识别的准确率检测。

上述方案中，为优化，进一步地，所述耳蜗谱图的提取包括以下步骤：

1).所述声音数字信号通过所述滤波器组时，输出所述音频信号的响应的表达式如下：

gm(i)＝[|g|(i,m)]^1/2,i＝0,1,…,n；m＝0,1,…,m-1

其中，gm(i)构成代表输入声音信号频域上分布变化的矩阵，n为所述音频信号的通道数，m为采样后的帧数，获得原始的耳蜗谱图；

2)对所述原始耳蜗谱图进行压缩，裁剪得到最终的耳蜗谱图大小，作为所述卷积神经网络的输入样本。

进一步地，所述声音事件识别模板的建立方法包括以下步骤：

i.将所述耳蜗谱图作为学习样本，并将所述学习样本做类别标签；在所述学习样本中抽取一部分包括所有类别的学习样本作为训练集，剩余的部分作为测试集；

ii.使用软件搭建所述卷积神经网络模型，所述卷积神经网络模型包括依次设置的第一卷积层，第一最大池化层，第二卷积层，第二最大池化层，全连接层和分类输出层；

iii.将作为所述训练集的学习样本输入所述卷积神经网络模型，进行监督学习，获得训练后的所述卷积神经网络模型的各层的参数；训练时，利用随机分布函数对卷积核和权重进行随机初始化，对偏置进行全0初始化；采用标准梯度下降的算法调整权值与阈值；通过网络前向传播和反向传播反复交叉处理的方式来训练卷积神经网络，直到代价函数的限定误差小于0.01为止，保存训练好的卷积神经网络模型；

iv.对所述卷积神经网络模型进行测试，测试方法为：将所述测试集样本代入训练好的所述卷积神经网络模型，将所述卷积神经网络模型的输出与所述测试集样本对应的声音类别进行对比，分别计算不同信噪比下声音事件识别的召回率，准确率及f值并对所述卷积神经网络模型进行评估。

进一步地，步骤ii中的全连接层为三个，所述分类输出层的分类器为softmax分类器。

进一步地，步骤i中的训练集的样本为所述学习样本的3/4。

进一步地，所述滤波器组为多个gammatone滤波器构成。

进一步地，所述步骤a采集和处理的声音事件包括交通环境下不同噪声条件下的车辆碰撞声、汽车鸣笛声、人员呼救声或车门关闭声的一种或多种声音事件。

进一步地，所述声音数字信号采用短时能量双门限阈值算法进行端点检测。

进一步地，所述声音数字信号采用lmp算法进行滤波去噪。

进一步地，所述第一卷积层设置20个卷积滤波器，每个滤波器大小为5×5，卷积移动步长为1，激活函数使用relu函数；所述第一最大池化层和第二最大池化层的池化域均为2×2，步长均为2；所述第二卷积层设置50个卷积滤波器，每个滤波器大小为5×5，卷积移动步长为1。

与现有技术相比，本发明的有益效果是：

1.对音频信号的端点检测的作用是在强噪声或干扰中提取有用的声音事件信息片段；滤波和去噪的作用是减小强噪声或干扰对声音事件特征提取的影响，以便提取到准确的声音信号；用滤波器组来模拟耳蜗模型，用得到的耳蜗谱图来描述信号频域分布变化，不仅能够检测到背景噪声或干扰中的声音事件，而且可以对声音事件进行有效的辨识与分类。

2.采用机器学习的方法，避免了人工干预，使卷积神经网络模型充分学习每类声音事件耳蜗谱图的特征，利用卷积神经网络泛化能力和适应性强的特性，达到较高的识别准确率和较强的鲁棒性。

3.基于卷积神经网络模型的声音事件识别方法，具有较好的抗噪能力，相同噪声环境下，本发明的识别率有明显提高。

4.将本发明的声音事件识别方法用于存在复杂的噪声高、干扰性强的交通环境下，对于车辆碰撞声，汽车鸣笛声，人员呼救声和车门关闭声等声音事件能够有较高的识别率。

5.利用lmp算法对声音数字信号进行滤波去噪，作用是减小交通环境噪声对声音事件特征提取的影响。

6.采用使用relu函数作为激活函数，可以提高训练卷积神经网络模型的速度。

7.gammatone滤波器构成滤波器组可以保留原有的采样频率，在时间维度上设置响应频率后，可用于短时声音事件特征提取。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是基于卷积神经网络模型的声音事件识别流程图。

图2是声音识别的卷积神经网络模型网络结构图。

附图标记说明：

耳蜗谱图-1，第一卷积层-2，第一最大池化层-3，第二卷积层-4，第二最大池化层-5，全连接层-6，分类输出层-7。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本实施例提供一种声音事件识别方法，在本实施例中采用交通环境下的噪声作为具体实施例，具体流程如图1所示，包括以下步骤：

a.在不同干扰环境下使用声级计配合麦克风阵列对声音进行采集，形成声音数字信号；

分别在20db,10db,0db三种信噪比对四种声音事件进行采集和处理每种声音事件样本个数为4800，采样频率为8khz，该四种声音事件为车辆碰撞声、汽车鸣笛声、人员呼救声或车门关闭声的一种或多种；

用matlab软件对采集到的声音数据进行预处理。利用短时能量双门限阈值算法对声音数字信号进行端点检测，目的是在背景噪声中提取有用的声音事件信息片段，利用lmp算法对声音数字信号进行滤波去噪，目的是为了减小交通环境噪声对声音事件特征提取的影响；

b.通过滤波器组对所述声音数字信号进行子带滤波，得到音频信号耳蜗谱图；

耳蜗谱图的提取方法如下：

使用一组64个通道的4阶gammatone滤波器组来模拟耳蜗模型，实现子带滤波，其中心频率在350hz～4000hz之间。gammatone滤波器会保留原有的采样频率，因此在时间维度上设置响应频率为100hz，将产生10ms的帧移，可用于短时声音特征提取。当声音数字信号通过gammatone滤波器组时，输出信号的响应的表达式如下：

gm(i)＝[|g|(i,m)]^1/2,i＝0,1,…,n；m＝0,1,…,m-1

其中，gm(i)构成代表输入声音信号频域上分布变化的矩阵，n为音频信号的通道数，m为采样后的帧数，采用耳蜗谱图来描述信号频域分布变化；

对得到的原始耳蜗谱图进行压缩，裁剪得到最终的耳蜗谱图大小为32×32，作为卷积神经网络的输入样本；

c.将所述耳蜗谱图1的一部分训练成卷积神经网络模型，即cnn网络结构模型，建立声音事件识别模板；

该卷积神经网络模型的建立方法如下：

1)将获得的耳蜗谱图作为学习样本，并给该学习样本加上类别标签；在不同类别的学习样本中抽取3/4作为训练集，剩下的1/4为测试集；

2)基于pascalgp104核心的nvidiagtx1080搭建训练平台：使用matlab的parallelcomputingtoolbox工具箱和neuralnetworktoolbox工具箱创建和训练卷积神经网络模型，模型结构如图2所示；

确定卷积神经网络层数：两个卷积层，两个池化层和全连接层6及softmax分类器7,该全连接层6包括三个全连接层6-1,6-2,6-3，其中，第一卷积层2设置20个卷积滤波器，每个滤波器大小为5×5，卷积移动步长为1，为加快训练速度，激活函数使用relu函数；relu函数为修正线性单元函数；第一最大池化层3池化域为2×2，步长为2；第二卷积层4设置50个卷积滤波器，每个滤波器大小为5×5，卷积移动步长为1；第二最大池化层5池化域为2×2，步长为2；softmax分类器7输出四种分类目标：车辆碰撞声、汽车鸣笛声、人员呼救声或车门关闭声的一种或多种。

3)将训练样本输入卷积神经网络，进行带标签的有监督的学习，获得训练后的卷积神经网络各层的参数。

训练过程中，利用随机分布函数对卷积核和权重进行随机初始化，而对偏置进行全0初始化。为了加快训练过程则采用标准梯度下降的算法调整权值与阈值。通过网络前向传播和反向传播反复交叉处理的方式来训练卷积神经网络，直到代价函数的限定误差小于0.01为止，保存训练好的卷积神经网络模型；

d.将所述耳蜗谱图的另一部分代入所述卷积神经网络模型，进行声音事件的识别的准确率检测；

将测试集的耳蜗谱图代入训练好的卷积神经网络模型，将分类模型的输出与测试集中各耳蜗谱图对应的声音类别进行对比，分别计算不同信噪比下声音事件识别的召回率，准确率及f值对模型进行评估。

召回率＝提取出的正确声音事件数/样本中的声音事件数；

准确率＝提取出的正确声音事件数/提取出的声音事件数；

f值＝正确率*召回率*2/(正确率+召回率)，f值即为正确率和召回率的调和平均值。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员能够理解本发明，但是本发明不仅限于具体实施方式的范围，对本技术领域的普通技术人员而言，只要各种变化只要在所附的权利要求限定和确定的本发明精神和范围内，一切利用本发明构思的发明创造均在保护之列。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张文涛;韩莹莹;徐韶华;黎恒
技术所有人：桂林电子科技大学
我是此专利的发明人