本发明涉及深度学习领域技术,具体涉及一种基于swin-transformer的音频分类方法。
背景技术:
1、音频分类(audio classification)是指识别音频数据中是否包含某类音频事件,如人声、杯子声、床声等。
2、目前的音频分类方案中,需要手动提取音频数据的音频特征,如对数梅尔顿频谱图,并将该手动提取的音频特征作为输入进行音频分类。
3、传统的音频分类的方法有基于机器学习以及浅层卷积神经网络结构模型进行训练预测分类,基于这些方法得出的模型无法有效进行分类预测,音频分类结果的准确率较低。
技术实现思路
1、有鉴于此,本申请提供一种音频分类方法。
2、具体地,本申请的技术方案是:一种基于swin-transformer的音频分类方法,包括:
3、步骤一:将原始音频数据输入到预先训练的音频分类网络模型的特征转换网络,以得到所述原始音频数据的音频频谱图。
4、步骤二:将所述原始音频的音频频谱图输入到所述预先训练的音频分类网络模型的深度特征提取网络,以得到所述原始音频数据的深度特征。
5、步骤三:将所述原始音频的深度特征输入到所述预先训练的音频分类网络模型的分类网络,以得到所述原始音频数据的分类结果。
1.一种基于swin-transformer的音频分类方法,其特征在于,所属音频分类方法包括以下步骤:
2.根据权利要求1所述的一种基于swin-transformer的音频分类方法,其特征在于,级联的所述特征转换网络、所述深度特征提取网络以及所述分类网络通过以下方式训练得到:
3.根据权利要求2所述的一种基于swin-transformer的音频分类方法的预训练方法,其特征在于,所述将该训练样本的深度特征输入到所述分类网络之后,还包括:
4.根据权利要求3所述的一种基于swin-transformer的音频分类方法的预训练参数优化方法,其特征在于,所述对级联的所述特征转换网络、所述深度特征提取网络以及所述分类网络的网络组合进行参数优化,包括:
5.根据权利要求3所述的一种基于swin-transformer的音频分类方法的预训练参数优化方法,其特征在于,所述音频分类网络模型的分类准确率满足预设条件,包括:
6.根据权利要求1所述的一种基于swin-transformer的音频分类方法,其特征在于,所述步骤二:将所述原始音频的音频频谱图输入到所述预先训练的音频分类网络模型的深度特征提取网络,包括:
7.根据权利要求1所述的一种基于swin-transformer的音频分类方法,其特征在于,所属步骤三:将所述原始音频的深度特征输入到所述预先训练的音频分类网络模型的分类网络,包括: