本公开涉及深度学习,尤其涉及一种音乐处理方法、装置、电子设备及存储介质。
背景技术:
1、近年来,人工智能技术的飞速进展使音乐生成领域备受关注。基于人工智能大模型的音乐生成模型,例如大语言模型和扩散模型,在旋律、和声等音乐元素创作上展现出了巨大的潜力。这些模型的成功不仅依赖于其架构,还需要高质量的音乐数据作为训练基础。在音乐生成之前,数据预处理是确保模型有效学习的关键一步;未经处理的数据可能存在噪声、缺失值等问题,这些都会影响模型的训练效果;有效的预处理能够改善数据质量,进而提升音乐生成模型的性能。尽管相关技术中的音乐数据处理方法在某种程度上解决了数据质量问题,但依然存在不足之处;因此探索新的音乐数据处理方法,以提高样本音乐数据的质量,进而提高模型的泛化能力和生成质量,是当前研究的重要方向。
技术实现思路
1、本公开提供一种音乐处理方法、装置、电子设备及存储介质,以至少解决相关技术中样本音乐数据质量不高的问题。本公开的技术方案如下:
2、根据本公开实施例的第一方面,提供一种音乐数据处理方法,包括:
3、获取多个参照数据集各自对应的数据集参照特征;每个参照数据集中包括相同音乐风格的多项参照音乐数据,不同参照数据集对应不同的音乐风格,所述每个参照数据集对应的数据集参照特征基于所述每个参照数据集中的多项参照音乐数据的音乐特征进行融合处理得到;所述每个参照数据集中的多项参照音乐数据均满足目标音质条件;
4、基于源数据集中的每项源音乐数据的音乐风格,从所述多个参照数据集中确定与所述每项源音乐数据的音乐风格对应的目标参照数据集;
5、基于所述目标参照数据集对应的数据集参照特征以及所述每项源音乐数据的音乐特征的特征距离信息,从所述源数据集中确定目标源音乐数据;所述目标源音乐数据的音质与所述目标参照数据集中的任一参照音乐数据的音质相同或相似,所述目标源音乐数据用于构建音乐数据样本。
6、在一示例性实施例中,所述每项参照音乐数据包括参照音频以及所述参照音频对应的参照文本;
7、所述方法还包括:
8、对所述每项参照音乐数据中的参照音频进行音频特征提取,得到参照音频特征;
9、对所述每项参照音乐数据中的参照文本进行文本特征提取,得到参照文本特征;
10、将所述参照音频特征以及所述参照文本特征分别映射到共享语义空间,得到所述每项参照音乐数据的音乐特征。
11、在一示例性实施例中,每个参照数据集对应的数据集参照特征包括平均音乐特征以及协方差特征矩阵对应的逆矩阵;
12、所述获取多个参照数据集各自对应的数据集参照特征,包括:
13、对于每个参照数据集中的多项参照音乐数据,对所述多项参照音乐数据的音乐特征进行平均处理,得到所述多项参照音乐数据的平均音乐特征;
14、基于所述多项参照音乐数据的音乐特征以及所述多项参照音乐数据的平均音乐特征,得到所述协方差特征矩阵;
15、对所述协方差特征矩阵进行逆变换处理,得到所述协方差特征矩阵对应的逆矩阵;所述协方差特征矩阵对应的逆矩阵能够消除所述多项参照音乐数据的音乐特征在不同特征维度的相关性干扰,以及消除所述多项参照音乐数据的音乐特征在不同特征维度的量纲差异。
16、在一示例性实施例中,所述基于所述目标参照数据集对应的数据集参照特征以及所述每项源音乐数据的音乐特征的特征距离信息,从所述源数据集中确定目标源音乐数据之前,所述方法还包括:
17、基于所述每项源音乐数据的音乐特征与所述目标参照数据集对应的平均音乐特征进行特征求差处理,得到特征差异信息;
18、基于所述特征差异信息的转置、所述协方差特征矩阵对应的逆矩阵,以及所述特征差异信息进行乘积处理,得到所述特征距离信息。
19、在一示例性实施例中,所述方法还包括:
20、对所述源数据集中的每项源音乐数据进行音乐美学指标提取,得到所述每项源音乐数据的音乐美学指标;所述音乐美学指标包括所述每项源音乐数据的整曲音乐性,所述整曲音乐性表征从听感角度评估的所述每项源音乐数据中多种音乐成分之间融合的自然程度以及和谐程度;
21、对所述源数据集中的每项源音乐数据进行音频美学指标提取,得到所述每项源音乐数据的音频美学指标;所述音频美学指标包括所述每项源音乐数据的内容愉悦度;
22、基于对所述整曲音乐性以及所述内容愉悦度的指标数据融合结果,得到所述每项源音乐数据的目标美学指标;
23、所述基于所述目标参照数据集对应的数据集参照特征以及所述每项源音乐数据的音乐特征的特征距离信息,从所述源数据集中确定目标源音乐数据,包括:
24、基于所述特征距离信息以及所述每项源音乐数据的目标美学指标,从所述源数据集中确定所述目标源音乐数据;所述目标源音乐数据的目标美学指标大于等于预设美学指标。
25、在一示例性实施例中,所述音乐美学指标还包括整曲一致性、可记忆性、人声自然度、结构清晰度;所述音频美学指标还包括:制作质量、制作复杂度以及内容实用度;
26、所述基于对所述整曲音乐性以及所述内容愉悦度的指标数据融合结果,得到所述每项源音乐数据的目标美学指标,包括:
27、对所述整曲音乐性以及所述内容愉悦度进行指标数据融合,得到融合美学指标;
28、对所述融合美学指标、所述整曲一致性、所述可记忆性、所述人声自然度、所述结构清晰度、所述制作质量、所述制作复杂度以及所述内容实用度进行指标数据融合,得到所述每项源音乐数据的目标美学指标。
29、在一示例性实施例中,所述基于所述目标参照数据集对应的数据集参照特征以及所述每项源音乐数据的音乐特征的特征距离信息,从所述源数据集中确定目标源音乐数据之前,所述方法还包括:
30、对所述所述源数据集中的任一项源音乐数据,在所述任一项源音乐数据对应单声道的情况下,对所述任一项源音乐数据进行声道复制处理,得到双声道的源音乐数据。
31、根据本公开实施例的第二方面,提供一种音乐生成模型训练方法,基于音乐样本数据实现,所述音乐样本数据基于上述的音乐数据处理方法得到,所述音乐数据样本包括样本音乐标签、样本音乐歌词以及样本音乐音频;所述训练方法包括:
32、将所述样本音乐标签以及所述样本音乐歌词输入预设音乐生成模型,得到预测音乐音频;
33、基于所述样本音乐音频以及所述预测音乐音频确定损失信息;
34、基于所述损失信息对所述预设音乐生成模型进行更新,得到目标音乐生成模型。
35、在一示例性实施例中,所述方法还包括:
36、获取待生成音乐数据;所述待生成音乐数据中包括待生成音乐的音乐标签以及所述待生成音乐的歌词,或所述待生成音乐数据中包括所述待生成音乐的音乐标签;
37、将所述待生成音乐的音乐标签以及所述待生成音乐的歌词输入所述目标音乐生成模型,或将所述待生成音乐的音乐标签输入所述目标音乐生成模型进行音乐生成处理,得到所述待生成音乐的目标音频;在所述待生成音乐数据包括所述待生成音乐的歌词的情况下,所述目标音频中包括所述待生成音乐的歌词。
38、根据本公开实施例的第三方面,提供一种音乐数据处理装置,包括:
39、参照特征获取单元,被配置为执行获取多个参照数据集各自对应的数据集参照特征;每个参照数据集中包括相同音乐风格的多项参照音乐数据,不同参照数据集对应不同的音乐风格,所述每个参照数据集对应的数据集参照特征基于所述每个参照数据集中的多项参照音乐数据的音乐特征进行融合处理得到;所述每个参照数据集中的多项参照音乐数据均满足目标音质条件;
40、参照数据集确定单元,被配置为执行基于源数据集中的每项源音乐数据的音乐风格,从所述多个参照数据集中确定与所述每项源音乐数据的音乐风格对应的目标参照数据集;
41、样本构建单元,被配置为执行基于所述目标参照数据集对应的数据集参照特征以及所述每项源音乐数据的音乐特征的特征距离信息,从所述源数据集中确定目标源音乐数据;所述目标源音乐数据的音质与所述目标参照数据集中的任一参照音乐数据的音质相同或相似,所述目标源音乐数据用于构建音乐数据样本。
42、在一示例性实施例中,所述每项参照音乐数据包括参照音频以及所述参照音频对应的参照文本;
43、所述装置还包括音乐特征提取单元,被配置为执行:
44、对所述每项参照音乐数据中的参照音频进行音频特征提取,得到参照音频特征;
45、对所述每项参照音乐数据中的参照文本进行文本特征提取,得到参照文本特征;
46、将所述参照音频特征以及所述参照文本特征分别映射到共享语义空间,得到所述每项参照音乐数据的音乐特征。
47、在一示例性实施例中,每个参照数据集对应的数据集参照特征包括平均音乐特征以及协方差特征矩阵对应的逆矩阵;
48、所述参照特征获取单元,被配置为执行:
49、对于每个参照数据集中的多项参照音乐数据,对所述多项参照音乐数据的音乐特征进行平均处理,得到所述多项参照音乐数据的平均音乐特征;
50、基于所述多项参照音乐数据的音乐特征以及所述多项参照音乐数据的平均音乐特征,得到所述协方差特征矩阵;
51、对所述协方差特征矩阵进行逆变换处理,得到所述协方差特征矩阵对应的逆矩阵;所述协方差特征矩阵对应的逆矩阵能够消除所述多项参照音乐数据的音乐特征在不同特征维度的相关性干扰,以及消除所述多项参照音乐数据的音乐特征在不同特征维度的量纲差异。
52、在一示例性实施例中,所述装置还包括距离确定单元,被配置为执行:
53、基于所述每项源音乐数据的音乐特征与所述目标参照数据集对应的平均音乐特征进行特征求差处理,得到特征差异信息;
54、基于所述特征差异信息的转置、所述协方差特征矩阵对应的逆矩阵,以及所述特征差异信息进行乘积处理,得到所述特征距离信息。
55、在一示例性实施例中,所述装置还包括目标美学指标确定单元,被配置为执行:
56、对所述源数据集中的每项源音乐数据进行音乐美学指标提取,得到所述每项源音乐数据的音乐美学指标;所述音乐美学指标包括所述每项源音乐数据的整曲音乐性,所述整曲音乐性表征从听感角度评估的所述每项源音乐数据中多种音乐成分之间融合的自然程度以及和谐程度;
57、对所述源数据集中的每项源音乐数据进行音频美学指标提取,得到所述每项源音乐数据的音频美学指标;所述音频美学指标包括所述每项源音乐数据的内容愉悦度;
58、基于对所述整曲音乐性以及所述内容愉悦度的指标数据融合结果,得到所述每项源音乐数据的目标美学指标;
59、所述样本构建单元,被配置为执行:
60、基于所述特征距离信息以及所述每项源音乐数据的目标美学指标,从所述源数据集中确定所述目标源音乐数据;所述目标源音乐数据的目标美学指标大于等于预设美学指标。
61、在一示例性实施例中,所述音乐美学指标还包括整曲一致性、可记忆性、人声自然度、结构清晰度;所述音频美学指标还包括:制作质量、制作复杂度以及内容实用度;
62、所述目标美学指标确定单元,被配置为执行:
63、对所述整曲音乐性以及所述内容愉悦度进行指标数据融合,得到融合美学指标;
64、对所述融合美学指标、所述整曲一致性、所述可记忆性、所述人声自然度、所述结构清晰度、所述制作质量、所述制作复杂度以及所述内容实用度进行指标数据融合,得到所述每项源音乐数据的目标美学指标。
65、在一示例性实施例中,所述装置还包括声道处理单元,被配置为执行:
66、对所述所述源数据集中的任一项源音乐数据,在所述任一项源音乐数据对应单声道的情况下,对所述任一项源音乐数据进行声道复制处理,得到双声道的源音乐数据。
67、根据本公开实施例的第四方面,提供一种音乐生成模型训练装置,其特征在于,基于音乐样本数据实现,所述音乐样本数据基于上述的音乐数据处理方法得到,所述音乐数据样本包括样本音乐标签、样本音乐歌词以及样本音乐音频;所述训练装置包括:
68、音频预测单元,被配置为执行将所述样本音乐标签以及所述样本音乐歌词输入预设音乐生成模型,得到预测音乐音频;
69、损失信息确定单元,被配置为执行基于所述样本音乐音频以及所述预测音乐音频确定损失信息;
70、模型更新单元,被配置为执行基于所述损失信息对所述预设音乐生成模型进行更新,得到目标音乐生成模型。
71、在一示例性实施例中,所述装置还包括音乐生成单元,被配置为执行:
72、获取待生成音乐数据;所述待生成音乐数据中包括待生成音乐的音乐标签以及所述待生成音乐的歌词,或所述待生成音乐数据中包括所述待生成音乐的音乐标签;
73、将所述待生成音乐的音乐标签以及所述待生成音乐的歌词输入所述目标音乐生成模型,或将所述待生成音乐的音乐标签输入所述目标音乐生成模型进行音乐生成处理,得到所述待生成音乐的目标音频;在所述待生成音乐数据包括所述待生成音乐的歌词的情况下,所述目标音频中包括所述待生成音乐的歌词。
74、根据本公开实施例的第五方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上所述的音乐数据处理方法或音乐生成模型训练方法。
75、根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上所述的音乐数据处理方法或音乐生成模型训练方法。
76、根据本公开实施例的第七方面,提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行上述的音乐数据处理方法或音乐生成模型训练方法。
77、本公开的实施例提供的技术方案至少带来以下有益效果:
78、本公开通过获取不同风格的参照数据集各自对应的数据集参照特征,为源数据集中的每项源音乐数据确定与之风格匹配的目标参照数据集,进而基于目标参照数据集的数据集参照特征以及每项源音乐数据的音乐特征的特征距离信息,并基于特征距离信息从源数据集中确定目标源音乐数据。由于每个参照数据集中的多项参照音乐数据均满足目标音质条件,从而在目标源音乐数据的音乐特征与目标参照数据集的数据集参照特征的特征距离信息小于等于预设距离阈值的情况下,相应可说明目标源音乐数据的音质与目标参照数据集中的任一参照音乐数据的音质相同或者相似,即能够通过特征距离信息从源数据集中筛选出与多个参照数据集中任一参照音乐数据的音质相同或者相似的目标源音乐数据,从而能够筛选出音质满足目标音质条件或者音质接近目标音质条件的目标源音乐数据,通过确定出的目标源音乐数据构建音乐数据样本,能够提高音乐数据样本的音质,进而提高音乐数据样本的数据质量,进而提高音乐模型的泛化能力和生成质量。
79、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。