本发明涉及音乐识别,尤其涉及一种基于音乐旋律频谱图进行情感识别的方法。
背景技术:
1、随着移动终端设备的不断普及,在线电子音乐市场取得了飞速发展,人们可以从多种渠道访问到海量的音乐资源。为了方便听众获取音乐作品,各大音乐平台会使用情感、流派等标签来整理和组织音乐作品。由于音乐是情感的载体,因此利用情感来管理音乐作品显得尤为重要。然而对音乐作品进行人工情感标注不仅费时费力,并且出错率高,因此,利用人工智能技术自动识别音乐情感的研究具有现实意义。通过计算机对音乐情感进行分类或者使计算机理解音乐的情感是一个难题,但它又是十分需要的技术。
2、现有的音乐情感分类包含歌词特征,纯音乐旋律没有歌词特征,其情感识别特征维度多样更加抽象,歌词特征直观表达其情感,其情感识别特征维度多样更加抽象,歌词特征直观表达其情感,纯音乐旋律的情感分类更加复杂,同时音乐转换成midi数据需要花费人工与时间,音乐识别效率低,成本大,且处理过程丢失把部分音频特征。
技术实现思路
1、本发明提供了一种基于音乐旋律频谱图进行情感识别的方法,目的是为了解决现有技术中音乐识别效率低,成本大,且处理过程丢失把部分音频特征的问题。
2、为了实现上述目的,本发明提供如下技术方案:一种基于音乐旋律频谱图进行情感识别的方法,包括如下步骤:
3、获取若干条具有音乐旋律的音频数据;
4、将若干条所述音频数据进行分类标记,获得情感数据集;
5、将所述情感数据集通过短时傅里叶变换生成包含音频特征的三维频谱图;
6、构建深度学习网络模型,对所述深度学习网络模型输入三维频谱图进行训练,获得基于深度学习的分类器;
7、将待识别的音频数据输入训练后所述深度学习网络模型,通过所述分类器进行情感特征提取,获得提取数据;
8、通过提取数据对并对提取情感特征的待识别音频数据进行情感分类。
9、优选的,所述将若干条所述音频数据进行分类标记,获得情感数据集,包括如下步骤:
10、将若干条所述音频数据利用二维情感模型进行分类标记,将所述音频数据分割到代表不同情感的四个象限;
11、通过分类标记后的不同情感数据构建情感数据集。
12、优选的,所述深度学习网络模型包括:
13、一维卷积神经网络,用于处理音频的时序信号;
14、多个调整后的inception结构,用于通过多个扩展-压缩-扩展通路并行以扩展特征的多样性;
15、一维残差结构,用于对深度网络的梯度进行加深;
16、gru模型,用于解决音乐时序信号,并通过门控对有效特征进行保留。
17、优选的,所述调整后的inception结构处理三维频谱图时,包括如下步骤:
18、使用不同尺寸的卷积核作为感受野提取不同维度的特征;
19、使用一维卷积神经网络对所述特征进行压缩与扩展;
20、对所述压缩与扩展后特征进行重构输出。
21、优选的,所述使用一维卷积神经网络对所述特征进行压缩与扩展,具体包括如下步骤:
22、对所述特征压缩时,对所述特征进行降维,提取频谱图中的目标信息;
23、将所述目标信息输入一维卷积神经网络进行训练;
24、对训练后的目标信息进行特征扩展,将特征还原到初始维度。
25、优选的,所述一维残差结构输出不同时序的特征,并将所述不同时序的特征输入到gru模型中对应的gru单元,根据音频数据的时序特点捕捉长序列之间的语义关联。
26、本发明与现有技术相比具有以下有益效果:
27、本发明通过包含全部音乐旋律特征的三维频谱图对音乐进行情感分类,不仅提高了分类器的分类精度且对音乐旋律的特征提取全面,避免了多模态特征提取深度学习网络复杂的缺点,简化了神经网络促进了深度学习在音乐检索的应用,全面且有效率的提高了针对音乐旋律分析的效果,减少人工情感标注的作业量,提高音乐检索的效率。
1.一种基于音乐旋律频谱图进行情感识别的方法,其特征在于,包括如下步骤:
2.如权利要求1所述的一种基于音乐旋律频谱图进行情感识别的方法,其特征在于,所述将若干条所述音频数据进行分类标记,获得情感数据集,包括如下步骤:
3.如权利要求1所述的一种基于音乐旋律频谱图进行情感识别的方法,其特征在于,所述深度学习网络模型包括:
4.如权利要求3所述的一种基于音乐旋律频谱图进行情感识别的方法,其特征在于,所述调整后的inception结构处理三维频谱图时,包括如下步骤:
5.如权利要求4所述的一种基于音乐旋律频谱图进行情感识别的方法,其特征在于,所述使用一维卷积神经网络对所述特征进行压缩与扩展,具体包括如下步骤:
6.如权利要求3所述的一种基于音乐旋律频谱图进行情感识别的方法,其特征在于,所述一维残差结构输出不同时序的特征,并将所述不同时序的特征输入到gru模型中对应的gru单元,根据音频数据的时序特点捕捉长序列之间的语义关联。