一种基于空洞卷积循环神经网络的声音事件检测方法与流程

文档序号:22034807发布日期:2020-08-28 17:26阅读:373来源:国知局

本发明涉及音频信号处理与模式识别技术领域,具体涉及一种基于空洞卷积循环神经网络的声音事件检测方法。



背景技术:

声音事件检测(soundeventdetection,sed)的目标是准确辨识音频记录中的各类目标声音事件。声音事件检测可以应用于与机器监听相关的许多领域,例如交通监控、智能会议室、自动辅助驾驶和多媒体分析。声音事件检测的分类器包括深度模型和浅层模型。深度模型主要包括卷积循环神经网络、循环神经网络、卷积神经网络。浅层模型主要包括随机回归森林、支持向量机、隐马尔可夫模型和高斯混合模型。

现有主流的基于卷积神经网络的声音事件检测方法存在以下不足:为了增大感受野从而捕获输入音频特征更长的上下文信息,需要增加网络的卷积层个数,使得网络参数规模非常庞大,容易引起过拟合问题(网络的泛化能力下降)。

在本发明的提出过程中,至少发现以下技术启示:在网络参数规模相同的情况下,空洞卷积的卷积循环神经网络具有更大的感受野,能够捕获输入音频特征更长的上下文信息。为了获得相同大小的感受野,空洞卷积的卷积循环神经网络使用的网络层数比常规卷积的卷积循环神经网络少得多,有效避免规模庞大的神经网络参数所引起的过拟合问题。因此目前亟待提出一种基于空洞卷积循环神经网络的声音事件检测方法,有效提升声音事件检测性能。



技术实现要素:

本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于空洞卷积循环神经网络的声音事件检测方法,过程如下:第一步,提取对数梅尔谱特征:对音频样本进行预加重、分帧、加窗,分别提取每一音频帧的对数梅尔谱特征;第二步,搭建空洞卷积循环神经网络:包括卷积神经网络、双向长短时记忆神经网络和sigmoid输出层;第三步,训练空洞卷积循环神经网络:采用从训练样本提取的对数梅尔谱特征作为输入,训练空洞卷积循环神经网络;第四步,声音事件检测:采用已训练的空洞卷积循环神经网络辨识测试样本中的声音事件,得到声音事件检测结果。

本发明的目的可以通过采取如下技术方案达到:

一种基于空洞卷积循环神经网络的声音事件检测方法,所述的声音事件检测方法包括以下步骤:

s1、提取对数梅尔谱特征:对音频样本进行预加重、分帧、加窗,然后分别提取每一音频帧的对数梅尔谱;

s2、搭建空洞卷积循环神经网络,其中,空洞卷积循环神经网络包括卷积神经网络、双向长短时记忆神经网络和sigmoid输出层;

s3、训练空洞卷积循环神经网络,采用从训练样本提取的对数梅尔谱特征作为输入,训练空洞卷积循环神经网络;

s4、声音事件检测:采用已训练的空洞卷积循环神经网络辨识测试样本中的声音事件,得到声音事件检测结果。

进一步地,所述的步骤s1中提取对数梅尔谱特征的过程如下:

s1.1、预加重:读取音频样本,使用数字滤波器进行预加重,其中数字滤波器的传递函数为h(z)=1-αz-1,其中α是滤波器系数且取值为:0.9≤α≤1;

s1.2、分帧与加窗:对读入音频样本进行分帧,帧长为0.02s,帧移为0.01s,得到每帧信号为x′t(n),窗函数是汉明窗ω(n),将每帧信号x′t(n)与汉明窗ω(n)相乘得到加窗后的第t帧音频信号xt(n);

s1.3、提取对数频谱特征:对第t帧音频信号xt(n)做离散傅立叶变换得到线性频谱xt(k),再将线性频谱xt(k)通过梅尔频率滤波器组得到梅尔频谱,最后进行对数运算后得到对数频谱st(m);

s1.4、对每帧音频信号进行步骤s1.3操作,即可得到所有音频帧的对数频谱st(m),最后将所有音频帧的对数频谱st(m)按帧的顺序排列成一个特征矩阵,其中特征矩阵的行数为帧的顺序,特征矩阵的列数为特征维度。

进一步地,所述的卷积神经网络由一个空洞卷积模块或者两个以上级联的空洞卷积模块组成,其中,每个空洞卷积模块包括空洞卷积单元、池化单元、激励单元和批量标准化单元,

所述的空洞卷积单元的表达式如下:

其中,表示第i个音频样本在第l层的特征矢量,f(·)表示激活函数,ki和bi分别表示与第i个音频样本的特征矢量进行卷积运算的卷积核参数和偏置项;

所述的池化单元采用最大池化方法;所述的激励单元中采用的激励函数为线性整流函数,用于增加神经网络各层之间的非线性关系;

所述的批量标准化单元用于解决网络的梯度爆炸问题以及加快网络的收敛速度,计算过程包括:

近似白化预处理:

变换重构:

其中,e(x(i))表示第i个音频样本的特征矢量x(i)的平均值,表示第i个音频样本的特征矢量x(i)的标准差,为特征矢量x(i)近似白化预处理得到的结果,y(i)表示重构之后的特征矢量,γ(i)与β(i)表示可调节的重构参数。

进一步地,所述的双向长短时记忆网络充分利用上下文信息,将卷积神经网络学习得到的特征表示映射到样本标记空间。

进一步地,所述的sigmoid输出层采用损失函数,表达式如下:

其中,n表示样本数,l(i)表示第i个音频样本的真实标签,表示第i个音频样本的预测标签。

进一步地,所述的步骤s3中训练空洞卷积循环神经网络具体过程如下:

将从不同音频数据库的训练样本中提取的对数梅尔谱特征输入空洞卷积循环神经网络,分别调整空洞卷积模块的数量与空洞率的大小;

当空洞卷积模块数量为1,设置两组空洞率取值,空洞率一组取值为1,即空洞卷积模块中所有的卷积层的空洞率均设置为1,空洞率另一组取值为2,即空洞卷积模块中所有卷积层的空洞率均设置为2;

当空洞卷积模块数量为2,设置两组空洞率取值,空洞率一组取值为1-1,即空洞卷积模块中所有的卷积层的空洞率均设置为1,空洞率另一组取值为2-4,即第一个和第二个卷积模块中各卷积层的空洞率分别为2和4;

当空洞卷积模块数量为3,设置两组空洞率取值,空洞率一组取值为1-1-1,即空洞卷积模块中所有的卷积层的空洞率均设置为1,空洞率另一组取值为2-4-8,即第一个、第二个和第三个卷积模块中各卷积层的空洞率分别为2、4和8;

当空洞卷积模块数量为4,设置两组空洞率取值,空洞率一组取值为1-1-1-1,即空洞卷积模块中所有的卷积层的空洞率均设置为1;空洞率另一组取值为2-4-8-16,即第一个、第二个、第三个和第四个卷积模块中各卷积层的空洞率分别为2、4、8和16;

当空洞卷积模块数量为5,设置两组空洞率取值,空洞率一组取值为1-1-1-1-1,即空洞卷积模块中所有的卷积层的空洞率均设置为1;空洞率另一组取值为2-4-8-16-32,即第一个、第二个、第三个、第四个和第五个卷积模块中各卷积层的空洞率分别为2、4、8、16和32。

进一步地,所述的步骤s4中声音事件检测的过程如下:

s4.1、提取各测试数据集中的音频特征,使用已训练的空洞卷积循环神经网络辨识各音频帧;

s4.2、将各音频帧的辨识结果按时间顺序进行拼接,得到音频段的辨识结果,再计算基于音频帧层面和音频段层面的声音事件检测精度。

本发明相对于现有技术具有如下的优点及效果:

本发明公开的一种基于空洞卷积循环神经网络的声音事件检测方法,在捕获输入音频特征相同长度上下文信息的情况下,获得了较高检测精度,同时减少了神经网络的参数规模,避免了神经网络过拟合问题,提高了神经网络的泛化能力。

附图说明

图1是本发明实施例公开的一种基于空洞卷积循环神经网络的声音事件检测方法的流程图;

图2是本发明实施例公开的空洞卷积循环神经网络的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例

图1是一种基于空洞卷积循环神经网络的声音事件检测方法的一个实施例的流程图,该声音事件检测方法包括以下步骤:

s1、提取对数梅尔谱特征:对音频样本进行预加重、分帧、加窗,然后分别提取每一音频帧的对数梅尔谱;

本实施例中,步骤s1中提取对数梅尔谱特征具体包括以下步骤:

s1.1、预加重:读取音频样本,使用数字滤波器进行预加重,其中数字滤波器的传递函数为h(z)=1-αz-1,其中α是滤波器系数且取值为:0.9≤α≤1;

s1.2、分帧与加窗:对读入音频样本进行分帧,帧长为0.02s,帧移为0.01s,得到每帧信号为x′t(n),窗函数是汉明窗ω(n),将每帧信号x′t(n)与汉明窗ω(n)相乘得到加窗后的第t帧音频信号xt(n);

s1.3、提取对数频谱特征:对第t帧音频信号xt(n)做离散傅立叶变换得到线性频谱xt(k),再将线性频谱xt(k)通过梅尔频率滤波器组得到梅尔频谱,最后进行对数运算后得到对数频谱st(m);

s1.4、对每帧音频信号进行步骤s1.3操作,即可得到所有音频帧的对数频谱st(m),最后将所有音频帧的对数频谱st(m)按帧的顺序排列成一个特征矩阵,其中特征矩阵的行数为帧的顺序,特征矩阵的列数为特征维度。

s2、搭建空洞卷积循环神经网络,其中,空洞卷积循环神经网络包括卷积神经网络、双向长短时记忆神经网络和sigmoid输出层;

该空洞卷积循环神经网络包括级联的卷积神经网络、双向长短时记忆网络和sigmoid输出层,如图2所示。

其中,卷积神经网络由一个空洞卷积模块或者两个以上级联的空洞卷积模块组成,其中,每个空洞卷积模块包括空洞卷积单元、池化单元、激励单元和批量标准化单元;

(1)空洞卷积单元的表达式如下:

其中,表示第i个音频样本在第l层的特征矢量,f(·)表示激活函数,ki和bi分别表示与第i个音频样本的特征矢量进行卷积运算的卷积核参数和偏置项;

(2)池化单元和激励单元:

池化单元采用最大池化方法,激励单元中采用的激励函数为线性整流函数(rectifiedlinearunit,relu),其作用是增加神经网络各层之间的非线性关系;

(3)批量标准化单元:

批量标准化单元主要作用是解决网络的梯度爆炸问题以及加快网络的收敛速度,主要计算过程包括:

近似白化预处理:

变换重构:

其中,e(x(i))表示第i个音频样本的特征矢量x(i)的平均值;表示第i个音频样本的特征矢量x(i)的标准差,为特征矢量x(i)近似白化预处理得到的结果,y(i)表示重构之后的特征矢量,γ(i)与β(i)表示可调节的重构参数。

其中,双向长短时记忆网络充分利用上下文信息,将卷积神经网络学习得到的特征表示映射到样本标记空间;

其中,sigmoid输出层采用损失函数,表达式如下:

其中,n表示样本数,l(i)表示第i个音频样本的真实标签,表示第i个音频样本的预测标签。

s3、训练空洞卷积循环神经网络:采用从训练样本提取的对数梅尔谱特征作为输入,训练空洞卷积循环神经网络;

本实施例中,训练空洞卷积循环神经网络具体过程如下:

将从不同音频数据库的训练样本中提取的对数梅尔谱特征输入空洞卷积循环神经网络,分别调整空洞卷积模块的数量与空洞率的大小;

当空洞卷积模块数量为1,设置两组空洞率取值:空洞率一组取值为1,即空洞卷积模块中所有的卷积层的空洞率均设置为1;空洞率另一组取值为2,即空洞卷积模块中所有卷积层的空洞率均设置为2。

当空洞卷积模块数量为2,设置两组空洞率取值:空洞率一组取值为1-1,即空洞卷积模块中所有的卷积层的空洞率均设置为1;空洞率另一组取值为2-4,即第一个和第二个卷积模块中各卷积层的空洞率分别为2和4。

当空洞卷积模块数量为3,设置两组空洞率取值:空洞率一组取值为1-1-1,即空洞卷积模块中所有的卷积层的空洞率均设置为1;空洞率另一组取值为2-4-8,即第一个、第二个和第三个卷积模块中各卷积层的空洞率分别为2、4和8。

当空洞卷积模块数量为4,设置两组空洞率取值:空洞率一组取值为1-1-1-1,即空洞卷积模块中所有的卷积层的空洞率均设置为1;空洞率另一组取值为2-4-8-16,即第一个、第二个、第三个和第四个卷积模块中各卷积层的空洞率分别为2、4、8和16。

当空洞卷积模块数量为5,设置两组空洞率取值:空洞率一组取值为1-1-1-1-1,即空洞卷积模块中所有的卷积层的空洞率均设置为1;空洞率另一组取值为2-4-8-16-32,即第一个、第二个、第三个、第四个和第五个卷积模块中各卷积层的空洞率分别为2、4、8、16和32。

s4、声音事件检测:采用已训练的空洞卷积循环神经网络辨识测试样本中的声音事件,得到声音事件检测结果。

本实施例中,声音事件检测具体包括以下步骤:

s4.1、提取各测试数据集中的音频特征,使用已训练的空洞卷积循环神经网络辨识各音频帧;

s4.2、将各音频帧的辨识结果按时间顺序进行拼接,得到音频段的辨识结果,再计算基于音频帧层面和音频段层面的声音事件检测精度。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!