一种基于双重数据增强策略的音频分类方法与流程

文档序号:19949150发布日期:2020-02-18 10:04阅读:413来源:国知局
一种基于双重数据增强策略的音频分类方法与流程

本发明涉及信息处理技术领域,特别是涉及一种基于双重数据增强策略的音频分类方法。



背景技术:

对音频进行分析可以得出人们进行活动、交流、周遭状况等方面的诸多信息。一般实现音频分类的方法分为两步,一是提取需要进行分类的不同音频的特征,通常使用一些基于手工制作的特征,如log-mel特征,矩阵分解,字典学习、基于小波的特征以及梅尔倒谱系数;二是根据提取到的音频特征进行分析,然后训练分类器进行识别。其中,音频特征至关重要,表示效果不佳的音频特征将直接导致后续分类结果不佳。

传统特征的表达能力不够强,不能很好的表示原始音频特征。为了获取表达能力更强的特征,可以使用神经网络对音频语谱图进行计算得到高层特征。但由于语谱图的特殊性,无法对其使用旋转、翻转、缩放等传统的图片数据增强方法,缺少对谱图进行数据增强的过程也将降低音频分类准确度。当前的主流做法是通过旋转、调音、加噪等方法直接进行音频数据增强,但是对于深度学习来说,这些数据往往还是不够,特别是一些数据集的样本数过低但标签类别数量大的数据集上最终识别精度不佳。



技术实现要素:

本发明的目的在于提供一种基于双重数据增强策略的音频分类方法。

本发明解决其技术问题采用的技术方案如下:

一种基于双重数据增强策略的音频分类方法,包括如下步骤:

s1、对待处理音频数据使用音频旋转、音频调音、音频变调和音频加噪四种方法产生新的数据,实现数据增强;

s2、对完成数据增强的音频数据进行频谱分析,得到音频文件对应的语谱图数据;

s3、对语谱图数据使用随机替换均值方法产生新的语谱图数据,实现语谱图的数据增强;

s4、通过神经网络模型对增强后的语谱图数据进行特征提取,得到表示能力更强的高层特征;

s5、训练随机森林分类器对音频数据完成分类。

进一步的,步骤s1具体包括:

s11、音频旋转:将音频文件后30%的数据截取至音频文件的首部进行拼接,生成一组新数据;

s12、音频调音:将音频数据的音量分别进行增大为1.5倍和减小为0.7倍处理,生成两组新数据;

s13、音频变调:将音频数据的音调分别进行增大为2倍和减小为0.5倍处理,生成两组新数据;

s14、音频加噪:重复两次在音频数据中加入随机的噪音数据,生成两组新数据。

进一步的,步骤s2具体包括:

s21、将音频数据按照时间分成多帧,以每一帧为一个观测单位,每帧的时长为25ms,每隔10ms取一帧,即帧移为10ms,此时帧的重叠为15ms;

s22、对每一帧加窗,使帧内信号在接下来进行傅里叶变换时的两个端点处不会发生突变;

s23、对分帧加窗后的各帧信号进行1024点的fft变换得到各帧的频谱,对频谱数据取模平方得到语音信号的功率谱;

s24、将所述功率谱通过76个三角带通滤波器构成的梅尔滤波器组;

s25、对梅尔滤波器组的输出求取对数,在提取到每一帧的对数能量后,以帧的形式层叠起来,得到最终的语谱图。

进一步的,步骤s3具体包括:

s31、通过随机方式选取单个独立语谱图中30%的行与30%的列;

s32、计算每个语谱图的二维数据的平均值,以均值替换掉随机选取的行列数据,得到新的语谱图数据;

s33、对每个语谱图重复3次步骤s31和s32的操作,得到三组新的语谱图数据并加入到数据集中,完成第二次的数据增强。

进一步的,步骤s4具体包括:

s41、构建inception_resnet_v2模型结构,将增强后的语谱图数据输入神经网络模型进行训练;

s42、训练完成后去掉训练好的神经网络模型的softmax层,取相邻的globalaveragepooling2d层的输出作为提取到的语谱图高层特征。

进一步的,步骤s5具体包括:

s51、构建随机森林分类器:决策树数量设置为40,利用提取的语谱图高层特征与其原始音频分类标签训练一个随机森林分类器;

s52、对于新的音频数据,利用训练好的随机森林分类器进行音频分类,即可得到分类结果。

进一步的,步骤s1之前还包括:

s0、对原始音频数据进行预处理,转化为统一标准的文件进行存储。

进一步的,步骤s0具体包括:

s01、对原始音频数据进行裁剪,去除原始音频首尾各1s时长的数据,进而将中间部分以5s间隔为标准进行裁剪,得到批量5s时长的小音频段,并为每个小音频段添加声源标记;

s02、将裁剪得到的小音频段统一转化为采样率为44100hz进行存储,作为待处理音频数据。

本发明与背景技术相比,具有的有益的效果是:

通过谱图增强方法与传统音频增强相结合实现了数据集的双重增强,并采用inception_resnet_v2模型提取到音频的高层特征,采用了随机森林分类器替换神经网络默认的softmax分类器,可以解决环境声分类任务与说话人分类任务,相比传统的音频分类方法,明显提高了最终音频分类的精度。方法具有以下特点:

(1)双重数据增强。在进行了传统音频增强的基础上,通过以谱图平均值随机替换行列的方式进行谱图数量,两次增加训练的数据量,以此提高模型的泛化能力,提高了分类模型的训练精度。

(2)神经网络提取特征。使用inception_resnet_v2网络模型结构,进行训练以获取音频的高层特征,其表达能力优于传统音频特征。

(3)换用分类器。去掉神经网络默认的softmax分类器,加上分类性能更强的随机森林分类器对神经网络输出的音频高层特征进行训练分类,充分利用随机森林类器相对softmax分类器的优势以提高分类精度。

附图说明

图1是本发明的音频分类方法的基本流程示意图。

图2是本发明的音频分类方法中语谱图生成过程流程示意图。

图3是本发明的音频分类方法中语谱图增强示意图。

具体实施方式

为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。

本发明实施例提供了一种基于双重数据增强策略的的音频分类方法。该方法基本流程如图1所示,其具体实现流程如下:

第一步:数据预处理

对原始音频数据进行预处理,转化为统一标准的文件进行存储,具体操作如下:

(1)音频裁剪:对大段的原始音频文件的首部去除1s时长的数据,尾部去除1s时长的数据,以避免录音在开始与结束部分的音频信息缺失影响后续分析,除去首尾后的中间部分以5s为标准进行裁剪,得到批量5s时长的小音频段,并为每个小音频段添加声源标记;

(2)统一采样率:将裁剪得到的小音频段统一转化为采样率为44100hz进行存储以便于后续计算。

若事先已进行了数据处理,可省略上述步骤。

第二步:音频数据增强

对经过预处理的音频数据使用音频旋转、音频调音、音频变调、音频加噪四种方法产生新的数据,实现数据增强,得到更多的音频数据,完成本部分后音频数据量为原来的8倍,即第一次数据增强,具体操作如下:

(1)音频旋转:将音频文件30%靠后的数据截取至音频文件的首部进行拼接,生成一组新数据;

(2)音频调音:将音频数据的音量进行增大为1.5倍与减小为0.7倍,生成两组新数据;

(3)音频变调:将音频数据的音调进行增大为2倍与减小为0.5倍,生成两组新数据;

(4)音频加噪:重复两次在音频数据中加入随机的噪音数据(在0的采样点上不增加噪声,避免产生特别刺耳的噪音影响效果),生成两组新数据;

第三步:获取语谱图

对完成数据增强的音频数据进行频谱分析,包括分帧、加窗、傅里叶变换、梅尔滤波、取对数运算,得到音频文件对应的语谱图,其过程如图2所示,具体操作如下:

(1)音频分帧

将音频数据按照时间分成多帧,以每一帧为一个观测单位,每帧的时长为25ms,为避免相邻两帧的突变,帧与帧需要存在一部分重叠,故每隔10ms取一帧,即帧移为10ms,此时帧的重叠为15ms;

(2)加窗

对每一帧加窗,可使帧内信号在接下来进行傅里叶变换时的两个端点处不会发生突变,本方法使用的是hamming窗;

(3)fft变换并获取功率谱

对分帧加窗后的各帧信号进行1024点的fft变换得到各帧的频谱,对频谱数据取模平方得到语音信号的功率谱;

(4)梅尔滤波

将功率谱通过76个三角带通滤波器构成的梅尔滤波器组,通过这些相似性改进模拟人耳的掩蔽效应;

(5)取对数

对三角滤波器组的输出求取对数,在提取到每一帧的对数能量后,以帧的形式给层叠起来,得到语谱图数据;

第四步:谱图增强

对语谱图数据使用随机替换均值方法产生新的语谱图数据,实现语谱图的数据增强,得到更多的语谱图数据,其效果如图3所示(其中纯黑色区域代表原图的屏蔽替换区域,仅以黑色强调,其具体值为该语谱图的平均值;替换的行与列为随机生成,实际语谱图相较本土较大,为便于观察,本图显示的为实际操作中语谱图的部分区域),本过程为第二次的数据增强,完成后数据量为第一次数据增强后的4倍,具体操作如下:

(1)随机选取行列

通过随机方式选取语谱图中30%的行与30%的列(每次进行该过程需对每个语谱图独立进行);

(2)均值替换

计算每个语谱图的二维数据的平均值,以均值替换掉随机选取的行列数据,可得到新的语谱图数据;

(3)数据保存

对每个语谱图重复3次(1)(2)操作,得到三组新的语谱图数据,保存数据文件后加入到数据集中,完成第二次的数据增强;

第五步:神经网络模型训练

构建inception_resnet_v2模型结构,将增强后的语谱图数据输入神经网络模型进行训练(由于inception_resnet_v2的原始训练图片与语谱图存在较大差异,需抛弃原始模型参数,全部重新训练),训练完成后去掉训练好的神经网络模型的softmax层,取相邻的globalaveragepooling2d层的输出作为提取到的语谱图高层特征;

第六步:训练分类器完成分类

利用提取的语谱图高层特征与其原始音频分类标签训练一个随机森林分类器,对于未参与训练的新的音频,计算其语谱图数据,输入神经网络模型以提取其语谱图高层特征,利用训练好的随机森林分类器进行音频分类,即可得到分类结果。

在实际实施中,对于50分类的esc-50数据集,不采用双重数据增强策略的方法预测精确度为83.9%,采用双重数据增强策略的方法后,预测将精确度为87.1%,对于10分类的urbansound8k数据集,不采用双重数据增强策略的方法预测精确度为91.1%,采用双重数据增强策略的方法后,预测将精确度为93.9%,均表现出一定的提升效果。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1