本发明涉及音乐生成,尤其涉及一种音乐生成方法、装置、电子设备及存储介质。
背景技术:
1、在音乐生成领域,现有的方法主要依赖于深度学习模型,尤其是自回归transformer模型和扩散模型。这些模型通过学习音乐的结构和模式来生成高质量的音乐,近年来取得了显著进展。
2、自回归transformer模型,如musicgen通过逐个预测音频词元(token),能够捕捉音乐的局部细节和短时间依赖关系,生成结构清晰的短片段音乐。扩散模型,如musicflow则通过迭代的去噪过程,生成具有复杂结构和高保真度的音乐,尤其在短音乐生成中表现出色。
3、然而,这些方法在生成长音乐时面临显著挑战。首先,自回归transformer模型在生成长音乐时,往往难以维持全局结构的连贯性,导致生成的音乐出现偏离主题的情况。其次,扩散模型虽然在生成复杂音乐结构方面有一定优势,但其迭代的去噪过程计算效率低下,且在生成长音乐时容易丢失全局一致性,生成的音乐可能缺乏连贯性和多样性。
4、此外,现有的音乐生成方法中,还通常需要较高的比特率来保持音乐质量,这将导致较大的计算成本和存储成本。而且,现有的音频分词器(tokenizer)在低比特率下难以保留足够的语义信息,这将影响生成音乐的质量和多样性。
技术实现思路
1、本发明提供一种音乐生成方法、装置、电子设备及存储介质,用以解决相关技术中存在的缺陷。
2、本发明提供一种音乐生成方法,包括:
3、获取目标文本;
4、确定所述目标文本的文本词元,并将所述目标文本的文本词元输入至自回归模型,得到所述自回归模型输出的目标音乐词元;
5、将所述目标音乐词元输入至音频超分辨率模型,得到目标音频表示;
6、基于所述目标音频表示,得到所述目标文本对应的音乐片段;
7、其中,所述自回归模型基于样本音乐词元和样本文本词元进行训练得到,所述样本音乐词元基于focalcodec模型的编码结构对第一样本音乐数据进行处理得到,所述样本文本词元基于文本分词器对所述第一样本音乐数据对应的文本描述标签进行处理得到。
8、根据本发明提供的一种音乐生成方法,所述音频超分辨率模型基于第二样本音乐数据的样本音乐词元以及样本音频表示,对流匹配模型进行训练得到。
9、根据本发明提供的一种音乐生成方法,所述focalcodec模型基于样本音频数据进行训练得到;
10、所述样本音频数据包括音乐类数据和语音类数据。
11、根据本发明提供的一种音乐生成方法,所述样本音频数据基于如下步骤确定:
12、获取初始音频数据;所述初始音频数据包括音乐类数据和语音类数据;
13、对所述初始音频数据进行格式转换,并统一采样率,得到备选音频数据;
14、对所述备选音频数据进行数据增强,得到所述样本音频数据。
15、根据本发明提供的一种音乐生成方法,所述目标文本的文本词元基于所述文本分词器对所述目标文本进行处理得到。
16、根据本发明提供的一种音乐生成方法,所述基于所述目标音频表示,得到所述目标文本对应的音乐片段,包括:
17、将所述目标音频表示输入至声码器,得到所述声码器输出的所述音乐片段。
18、根据本发明提供的一种音乐生成方法,所述文本描述标签包括音乐风格、节奏、旋律、和声、情感以及音乐结构中的至少一项。
19、本发明还提供一种音乐生成装置,包括:
20、文本获取模块,用于获取目标文本;
21、词元转换模块,用于确定所述目标文本的文本词元,并将所述目标文本的文本词元输入至自回归模型,得到所述自回归模型输出的目标音乐词元;
22、音频表示确定模块,用于将所述目标音乐词元输入至音频超分辨率模型,得到目标音频表示;
23、音乐片段生成模块,用于基于所述目标音频表示,得到所述目标文本对应的音乐片段;
24、其中,所述自回归模型基于样本音乐词元和样本文本词元进行训练得到,所述样本音乐词元基于focalcodec模型的编码结构对第一样本音乐数据进行处理得到,所述样本文本词元基于文本分词器对所述第一样本音乐数据对应的文本描述标签进行处理得到。
25、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述的音乐生成方法。
26、本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的音乐生成方法。
27、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的音乐生成方法。
28、本发明提供的音乐生成方法、装置、电子设备及存储介质,该方法采用focalcodec模型的编码结构对第一样本音乐数据进行处理得到样本音乐词元,进而通过样本音乐词元训练得到自回归模型,由于focalcodec模型具有低比特率(0.16-0.65 kbps)编码能力,可以使得自回归模型能够在极少样本音乐词元下生成高质量的音乐片段,显著减少了计算和存储成本。而且,focalcodec模型的量化器通过二进制码本设计,显著提高了词元利用率,减少了冗余词元的使用,提升了后续生成音乐片段的质量和效率。通过自回归模型和音频超分辨率模型,能够有效地学习音乐的长程依赖关系,生成结构连贯的长音乐片段。此外,由于focalcodec模型的压缩器应用了焦点调制网络,具有高效压缩音乐信号、保留语义和声学信息的性能,可以减少自回归模型的计算复杂度。
1.一种音乐生成方法,其特征在于,包括:
2.根据权利要求1所述的音乐生成方法,其特征在于,所述音频超分辨率模型基于第二样本音乐数据的样本音乐词元以及样本音频表示,对流匹配模型进行训练得到。
3.根据权利要求1所述的音乐生成方法,其特征在于,所述focalcodec模型基于样本音频数据进行训练得到;
4.根据权利要求3所述的音乐生成方法,其特征在于,所述样本音频数据基于如下步骤确定:
5.根据权利要求1所述的音乐生成方法,其特征在于,所述目标文本的文本词元基于所述文本分词器对所述目标文本进行处理得到。
6.根据权利要求1所述的音乐生成方法,其特征在于,所述基于所述目标音频表示,得到所述目标文本对应的音乐片段,包括:
7.根据权利要求1-6中任一项所述的音乐生成方法,其特征在于,所述文本描述标签包括音乐风格、节奏、旋律、和声、情感以及音乐结构中的至少一项。
8.一种音乐生成装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的音乐生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的音乐生成方法。