本申请涉及人工智能,尤其是一种音乐生成方法、系统、设备及存储介质。
背景技术:
1、传统的音乐创作通常需要作曲家具备一定的音乐理论知识和创作技巧,文本到音乐生成技术的出现显著降低了音乐创作的门槛,使普通人无需专业的能力,仅需输入简单的文字描述即可生成音乐作品。这类技术通过分析文本中的关键词,自动生成符合描述的音乐片段,为音乐创作提供了便捷的工具,尤其适用于快速生成背景音乐、灵感激发或辅助创作等场景,展现了人工智能在艺术领域的应用潜力。
2、相关技术中,当前的文本到音乐生成方法仍存在明显局限性。一方面,模型主要依赖全局性文本描述(如欢快的爵士乐),难以精确控制音乐细节(如特定音符的时值或力度的细微变化),导致生成结果缺乏精细度。另一方面,训练数据中通常缺少对音乐局部特征的详细标注(如某小节的速度变化或和弦走向),使得模型难以准确理解并实现用户的具体需求,最终生成的音乐可能流于模板化,缺乏个性与创造性,影响用户的使用体验。
3、因此,现有技术存在的问题还亟需解决和优化。
技术实现思路
1、本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一。
2、为此,本申请实施例的一个目的在于提供一种音乐生成方法、系统、设备及存储介质。
3、为了达到上述技术目的,本申请实施例所采取的技术方案包括:
4、一方面,本申请实施例提供了一种音乐生成方法,所述方法包括:
5、获取用户输入的文本指示信息和参考音频数据;其中,所述文本指示信息用于指示进行个性化的音频生成;
6、根据所述参考音频数据,提取得到音乐控制信号;其中,所述音乐控制信号包括旋律控制信号、力度控制信号和节奏控制信号;
7、提取所述文本指示信息对应的文本嵌入特征,以及提取所述音乐控制信号对应的信号嵌入特征;
8、将所述文本嵌入特征和所述信号嵌入特征输入到训练好的音乐生成模型中,通过所述音乐生成模型生成对应的目标音乐,并将所述目标音乐反馈给所述用户。
9、另外,根据本申请上述实施例的一种音乐生成系统,还可以具有以下附加的技术特征:
10、进一步地,在本申请的一个实施例中,所述根据所述参考音频数据,提取得到音乐控制信号,包括:
11、对所述参考音频数据进行编码,得到线性频谱图;
12、将所述线性频谱图的能量调整为预设个数的音级,通过过滤器对所述线性频谱图进行过滤,得到所述旋律控制信号;
13、对所述线性频谱图中每个时间点上各个频率对应的能量进行求和,将得到的所述每个时间点上的求和结果换算为分贝单位后进行平滑过滤,得到所述力度控制信号;
14、通过节拍探测器对所述参考音频数据在每个时间点上的节拍进行判别,汇总所述每个时间点上的判别结果得到所述节奏控制信号。
15、进一步地,在本申请的一个实施例中,所述提取所述文本指示信息对应的文本嵌入特征,包括:
16、将所述文本指示信息输入到预训练语言模型中,通过所述预训练语言模型对所述文本指示信息进行词嵌入处理,得到所述文本指示信息对应的文本嵌入特征;
17、其中,所述预训练语言模型采用bert模型或者gpt模型。
18、进一步地,在本申请的一个实施例中,所述提取所述音乐控制信号对应的信号嵌入特征,包括:
19、将所述音乐控制信号输入到卷积神经网络中,通过所述卷积神经网络对所述音乐控制信号进行特征提取,得到第一嵌入特征;
20、将所述第一嵌入特征输入到递归神经网络中,通过所述递归神经网络对所述第一嵌入特征进行深度编码,得到所述音乐控制信号对应的信号嵌入特征。
21、进一步地,在本申请的一个实施例中,所述文本指示信息用于指示生成的音频的语调风格、情感倾向、发音细节或者口音要求中的至少一种。
22、进一步地,在本申请的一个实施例中,所述音乐生成模型包括第一编码器、第二编码器和解码器;所述将所述文本嵌入特征和所述信号嵌入特征输入到训练好的音乐生成模型中,通过所述音乐生成模型生成对应的目标音乐,包括:
23、将所述文本嵌入特征输入到所述第一编码器中,通过所述第一编码器提取得到第一高维特征;
24、对所述文本嵌入特征和所述信号嵌入特征进行拼接,得到拼接特征;
25、将所述拼接特征输入到所述第二编码器中,通过所述第二编码器提取得到第二高维特征;
26、对所述第一高维特征和所述第二高维特征进行融合处理,得到融合特征;
27、通过所述解码器对所述融合特征进行解码处理,得到对应的目标音乐。
28、进一步地,在本申请的一个实施例中,所述第一编码器和所述第二编码器的结构相同。。
29、另一方面,本申请实施例提供了一种音乐生成系统,所述系统包括:
30、获取单元,用于获取用户输入的文本指示信息和参考音频数据;其中,所述文本指示信息用于指示进行个性化的音频生成;
31、第一提取单元,用于根据所述参考音频数据,提取得到音乐控制信号;其中,所述音乐控制信号包括旋律控制信号、力度控制信号和节奏控制信号;
32、第二提取单元,用于提取所述文本指示信息对应的文本嵌入特征,以及提取所述音乐控制信号对应的信号嵌入特征;
33、处理单元,用于将所述文本嵌入特征和所述信号嵌入特征输入到训练好的音乐生成模型中,通过所述音乐生成模型生成对应的目标音乐,并将所述目标音乐反馈给所述用户。
34、另一方面,本申请实施例提供一种计算机设备,包括:
35、至少一个处理器;
36、至少一个存储器,用于存储至少一个程序;
37、当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述的音乐生成方法。
38、另一方面,本申请实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,上述处理器可执行的程序在由处理器执行时用于实现上述的音乐生成方法。
39、本申请的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到:
40、本申请实施例公开的一种音乐生成方法,获取用户输入的文本指示信息和参考音频数据;其中,所述文本指示信息用于指示进行个性化的音频生成;根据所述参考音频数据,提取得到音乐控制信号;其中,所述音乐控制信号包括旋律控制信号、力度控制信号和节奏控制信号;提取所述文本指示信息对应的文本嵌入特征,以及提取所述音乐控制信号对应的信号嵌入特征;将所述文本嵌入特征和所述信号嵌入特征输入到训练好的音乐生成模型中,通过所述音乐生成模型生成对应的目标音乐,并将所述目标音乐反馈给所述用户。本申请能够提高音乐生成的效果,满足不同用户的个性化需求,从而改善用户的体验。
1.一种音乐生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种音乐生成方法,其特征在于,所述根据所述参考音频数据,提取得到音乐控制信号,包括:
3.根据权利要求1所述的一种音乐生成方法,其特征在于,所述提取所述文本指示信息对应的文本嵌入特征,包括:
4.根据权利要求1所述的一种音乐生成方法,其特征在于,所述提取所述音乐控制信号对应的信号嵌入特征,包括:
5.根据权利要求1所述的一种音乐生成方法,其特征在于,所述文本指示信息用于指示生成的音频的语调风格、情感倾向、发音细节或者口音要求中的至少一种。
6.根据权利要求1所述的一种音乐生成方法,其特征在于,所述音乐生成模型包括第一编码器、第二编码器和解码器;所述将所述文本嵌入特征和所述信号嵌入特征输入到训练好的音乐生成模型中,通过所述音乐生成模型生成对应的目标音乐,包括:
7.根据权利要求6所述的一种音乐生成方法,其特征在于,所述第一编码器和所述第二编码器的结构相同。
8.一种音乐生成系统,其特征在于,所述系统包括:
9.一种计算机设备,其特征在于,包括:
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于:所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-7中任一项所述的一种音乐生成方法。