基于深度神经网络的音乐情感风格迁移方法、设备及介质与流程

文档序号：36965992发布日期：2024-02-07 13:12阅读：24来源：国知局

本发明涉及音乐情感风格迁移，尤其是一种基于深度神经网络的音乐情感风格迁移方法、设备及介质。

背景技术：

1、音乐是人类文化的重要组成部分，具有丰富多样的风格和表现形式。然而，音乐的创作和演奏在某种程度上受限于音乐家的个人经验和技巧。近年来，随着人工智能技术的飞速发展，深度神经网络所展现的技术能力为音乐领域带来了全新的可能性。它能够通过学习已有的音乐作品，模拟并改变其音乐风格，并通过生成全新的作品来将不同的音乐风格进行迁移。

2、现有的风格迁移方案主要包括人声音频情感迁移方案和音乐音色风格迁移方案。其中人声音频的情感迁移方案更多是对于一些人声特有的特征如发音能量、基频、共振峰位置、语速和停顿进行编辑修改；音乐音色风格迁移方案则更多聚焦于保持音调以及内容表达不变的基础上，将原音频中某一乐器的音色修改为另一乐器特征。上述两种技术方案都不能应用于音乐本身的情感风格迁移上。

技术实现思路

1、有鉴于此，本发明实施例提供基于深度神经网络的音乐情感风格迁移方法、设备及介质。

2、本发明的第一方面提供了一种基于深度神经网络的音乐情感风格迁移方法，包括以下步骤；

3、获取原音乐数据，根据所述原音乐数据生成原音乐频谱图；

4、将所述原音乐数据输入预设风格编码器，得到原风格嵌入向量；

5、获取目标情感嵌入向量；

6、将所述原风格嵌入向量和所述目标情感嵌入向量进行拼接，得到目标风格嵌入向量；

7、获取音乐情感迁移神经网络；

8、将所述原音乐频谱图和所述目标风格嵌入向量输入所述音乐情感迁移神经网络，音乐情感迁移神经网络输出目标情感风格音乐。

9、进一步地，所述目标情感嵌入向量，根据用户在多个情感标签中选择的目标情感标签生成，具体包括以下步骤：

10、向用户展示预设多个情感标签，获取用户选择的目标情感标签；

11、通过预设情感编码字典将所述目标情感标签映射为目标情感嵌入向量。

12、进一步地，所述情感标签包括激昂、欢快、悲伤、平静。

13、进一步地，所述情感标签通过预设情感编码字典生成；所述情感编码字典中记录多个情感标签及每个情感标签映射的情感嵌入向量；用户选择目标情感标签后，由所述情感编码字典查询得到目标情感标签对应的情感嵌入向量，作为目标情感嵌入向量。

14、进一步地，所述音乐情感迁移神经网络包括音乐情感迁移生成器、主判别器和情感判别器；

15、所述音乐情感迁移生成器用于根据所述原音乐频谱图和所述目标风格嵌入向量生成目标情感风格音乐；

16、所述主判别器用于判别所述目标情感风格音乐的风格损失；

17、所述情感判别器用于判别所述目标情感风格音乐的情感损失；

18、当所述主判别器的判别和所述情感判别器的判别同时通过时，将所述目标情感风格音乐输出音乐情感迁移神经网络。

19、进一步地，所述音乐情感迁移生成器包括多个层叠的u-net深度神经网络；所述音乐情感迁移生成器通过以下步骤生成目标情感风格音乐：

20、由所述目标风格嵌入向量生成相位矩阵，输入每一层u-net深度神经网络；

21、将原音乐频谱图作为输入频谱图输入第一层u-net深度神经网络；

22、在第一层u-net深度神经网络中，将输入频谱图进行快速傅里叶逆变换，得到时域信号；获取所述时域信号的幅度矩阵和相位矩阵；

23、使用所述目标风格嵌入向量的相位矩阵替换所述时域信号的相位矩阵；

24、根据所述时域信号的幅度矩阵和所述目标风格嵌入向量的相位矩阵进行短时傅里叶变换，得到输出频谱图；

25、将前一层u-net深度神经网络的输出频谱图作为后一层u-net深度神经网络的输入频谱图；在后一层u-net深度神经网络中执行与前一层u-net深度神经网络相同的操作；

26、将最后一层u-net深度神经网络的输出频谱图进行解码，得到目标情感风格音乐。

27、进一步地，所述主判别器由卷积神经网络构成，所述主判别器通过以下步骤训练得到：

28、获取音乐数据，对音乐数据进行风格标注，得到标注音乐数据；

29、将所述标注音乐数据输入主判别器，通过主判别器提取所述音乐数据的节奏特征和音高特征；

30、主判别器根据所述音乐数据的音色特征和音高特征，确定所述音乐数据的风格；

31、判断所述音乐数据的风格与所述音乐数据的风格标注是否匹配，得到正向结果或负向结果；

32、不断排除负向结果优化所述主判别器的输出，直至所述主判别器输出的风格准确度达到预设阈值。

33、进一步地，所述情感判别器包括情感编码器和情感分类网络，所述情感判别器通过以下步骤训练得到：

34、获取音乐数据，对音乐数据进行情感类型标注，得到标注音乐数据；

35、将所述标注音乐数据输入情感编码器，得到情感嵌入编码；

36、将所述情感嵌入编码输入情感分类网络，得到情感标签；

37、判断所述情感标签与所述音乐数据标注的情感类型是否匹配，得到正向结果或负向结果；

38、不断排除负向结果优化所述情感分类网络的输出，直至所述情感分类网络输出的情感标签准确度达到预设阈值。

39、本发明第二方面公开一种电子设备，包括处理器以及存储器；

40、所述存储器用于存储程序；

41、所述处理器执行所述程序实现一种基于深度神经网络的音乐情感风格迁移方法。

42、本发明第三方面一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现一种基于深度神经网络的音乐情感风格迁移方法。

43、本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

44、本发明的实施例具有如下方面有益效果：本发明一种基于深度神经网络的音乐情感风格迁移方法、设备及介质，对音乐中的声调、音色、节奏等特征进行微调整使得音乐能够在保持原有风格的基础上，体现出目标情感。本发明可以降低用户编辑音乐的难度，满足用户对音乐进行微调的需求。于彩铃领域而言，可以打破用户彩铃创作内容困难、门槛高的问题，丰富用户的彩铃使用体验。

45、本发明的附加方面和优点将在下面的描述部分中给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

技术特征：

1.一种基于深度神经网络的音乐情感风格迁移方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的一种基于深度神经网络的音乐情感风格迁移方法，其特征在于，所述目标情感嵌入向量，根据用户在多个情感标签中选择的目标情感标签生成，具体包括以下步骤：

3.根据权利要求2所述的一种基于深度神经网络的音乐情感风格迁移方法，其特征在于，所述情感标签包括激昂、欢快、悲伤、平静。

4.根据权利要求2所述的一种基于深度神经网络的音乐情感风格迁移方法，其特征在于，所述情感标签通过预设情感编码字典生成；所述情感编码字典中记录多个情感标签及每个情感标签映射的情感嵌入向量；用户选择目标情感标签后，由所述情感编码字典查询得到目标情感标签对应的情感嵌入向量，作为目标情感嵌入向量。

5.根据权利要求1所述的一种基于深度神经网络的音乐情感风格迁移方法，其特征在于，所述音乐情感迁移神经网络包括音乐情感迁移生成器、主判别器和情感判别器；

6.根据权利要求5所述的一种基于深度神经网络的音乐情感风格迁移方法，其特征在于，所述音乐情感迁移生成器包括多个层叠的u-net深度神经网络；所述音乐情感迁移生成器通过以下步骤生成目标情感风格音乐：

7.根据权利要求5所述的一种基于深度神经网络的音乐情感风格迁移方法，其特征在于，所述主判别器由卷积神经网络构成，所述主判别器通过以下步骤训练得到：

8.根据权利要求5所述的一种基于深度神经网络的音乐情感风格迁移方法，其特征在于，所述情感判别器包括情感编码器和情感分类网络，所述情感判别器通过以下步骤训练得到：

9.一种电子设备，其特征在于，包括处理器以及存储器；

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1-8中任一项所述的方法。

技术总结
本发明公开了一种基于深度神经网络的音乐情感风格迁移方法、设备及介质，方法包括以下步骤；获取原音乐数据，根据原音乐数据生成原音乐频谱图；将原音乐数据输入预设风格编码器，得到原风格嵌入向量；获取目标情感嵌入向量；将原风格嵌入向量和目标情感嵌入向量进行拼接，得到目标风格嵌入向量；获取音乐情感迁移神经网络；将原音乐频谱图和目标风格嵌入向量输入音乐情感迁移神经网络，音乐情感迁移神经网络输出目标情感风格音乐。本发明可以降低用户编辑音乐的难度，满足用户对音乐进行微调的需求。于彩铃领域而言，可以打破用户彩铃创作内容困难、门槛高的问题，丰富用户的彩铃使用体验。

技术研发人员：范胜旭,肖冠正,谭松荣,谢光勇
受保护的技术使用者：天翼爱音乐文化科技有限公司
技术研发日：
技术公布日：2024/2/6

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：范胜旭,肖冠正,谭松荣,谢光勇
技术所有人：天翼爱音乐文化科技有限公司
我是此专利的发明人

上一篇：一种基于PVA光纤的温湿度传感器系统
上一篇：一种AGV车、AGV组合车及应用方法与流程