本申请涉及计算机技术,尤其涉及一种音乐文件的生成方法、装置、电子设备及存储介质。
背景技术:
1、人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能可以用于生成文本、图像或者音乐。
2、相关技术中,ai音乐生成技术能够生成多种多样的音乐,然而无控制生成的音乐难以符合用户的需求,基于输入数据生成的音乐难以表达用户所需的情绪,影响用户体验。相关技术中,暂无能够准确表达用户需求的人工智能音乐生成方案。
技术实现思路
1、本申请实施例提供一种音乐文件的生成方法、装置、设备及计算机可读存储介质、计算机程序产品,能够提升生成音乐文件的准确性。
2、本申请实施例的技术方案是这样实现的:
3、本申请实施例提供一种音乐文件的生成方法,所述方法包括:
4、获取至少一种模态数据,其中,每种模态关联的至少一种音乐要素;
5、对所述至少一种模态数据进行特征提取处理,得到至少一个模态特征;
6、根据每个所述模态特征关联的所述音乐要素的类型,对每个所述模态特征分别进行映射处理,得到所述模态特征关联的每种音乐要素的要素特征;
7、将每个所述要素特征映射为音乐表征序列,其中,所述音乐表征序列包括音乐文件中不同时刻分别对应的声音信息;
8、对所述音乐表征序列进行解码处理,得到音乐文件。
9、本申请实施例提供一种音乐文件的生成装置,包括:
10、数据获取模块,配置为获取至少一种模态数据,其中,每种模态关联的至少一种音乐要素;
11、特征提取模块,配置为对所述至少一种模态数据进行特征提取处理,得到至少一个模态特征;
12、所述特征提取模块,还配置为根据每个所述模态特征关联的所述音乐要素的类型,对每个所述模态特征分别进行映射处理,得到所述模态特征关联的每种音乐要素的要素特征;
13、解码模块,配置为将每个所述要素特征映射为音乐表征序列,其中,所述音乐表征序列包括音乐文件中不同时刻分别对应的声音信息;
14、所述解码模块,还配置为对所述音乐表征序列进行解码处理,得到音乐文件。
15、本申请实施例提供一种电子设备,所述电子设备包括:
16、存储器,用于存储计算机可执行指令;
17、处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的音乐文件的生成方法。
18、本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的音乐文件的生成方法。
19、本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,所述计算机程序或计算机可执行指令被处理器执行时,实现本申请实施例提供的音乐文件的生成方法。
20、本申请实施例具有以下有益效果:
21、将模态数据映射为音乐要素对应的要素特征,将要素特征映射为音乐表征序列,并基于音乐序列生成音乐文件。多模态可控,支持通过不同的模态数据生成音乐文件,相较于相关技术基于单模态数据生成音乐文件的方案,提升了获取音乐文件的自由度;将模态数据映射为音乐要素,再通过音乐要素确定音乐文件,提升了模态数据生成音乐文件的细粒度,相较于相关技术依赖音乐素材的方案,节约了计算资源,提升了输入的模态数据与输出的音乐文件的匹配程度,从而使得所生成的音乐文件能够更准确。
1.一种音乐文件的生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述模态包括图像模态;所述图像模态关联的音乐要素的类型为情绪要素;
3.根据权利要求1所述的方法,其特征在于,所述模态包括文本模态;所述文本模态关联的音乐要素的类型为情绪要素;
4.根据权利要求1所述的方法,其特征在于,所述模态包括标签模态;所述标签模态关联的音乐要素的类型包括:情绪要素以及曲风要素;
5.根据权利要求1所述的方法,其特征在于,所述模态包括视频模态;所述视频模态关联的音乐要素的类型包括:韵律要素以及情绪要素;所述视频模态的模态特征包括:视频帧序列、视频帧序列的场景切换率以及平均光流强度;
6.根据权利要求1所述的方法,其特征在于,所述模态包括音频模态;所述音频模态关联的音乐要素的类型包括:韵律要素以及音符要素;
7.根据权利要求1所述的方法,其特征在于,所述音乐要素的类型包括:音符要素、曲风要素、情绪要素以及韵律要素;
8.根据权利要求1所述的方法,其特征在于,所述音乐表征序列包括每个时刻的声音信息;所述声音信息以不同信息组成的词元矩阵表征;
9.根据权利要求8所述的方法,其特征在于,所述对所述音乐表征序列的声音信息的词元矩阵进行聚合处理,得到词元编码向量,包括:
10.根据权利要求8所述的方法,其特征在于,所述基于所述音乐表征序列的词元编码向量进行多个轮次的声音信息预测处理,得到更新的音乐表征序列,包括:
11.根据权利要求1至10任一项所述的方法,其特征在于,所述音乐文件的数量为多个;
12.根据权利要求11所述的方法,其特征在于,所述声音信息通过词元矩阵表征;
13.根据权利要求1至9任一项所述的方法,其特征在于,所述音乐文件的生成方法由音乐生成模型实现,所述音乐生成模型包括编码器以及解码器;其中,所述编码器用于获取以下特征:模态特征以及所述模态特征关联的每种所述音乐要素的要素特征;所述解码器用于获取音乐表征序列,以及对所述音乐表征序列进行解码处理。
14.根据权利要求12所述的方法,其特征在于,所述音乐生成模型还包括筛选器,当生成的所述音乐文件为多个时,所述筛选器用于从多个所述音乐文件中确定最优音乐文件。
15.一种音乐文件的生成装置,其特征在于,所述装置包括:
16.一种电子设备,其特征在于,所述电子设备包括:
17.一种计算机可读存储介质,存储有计算机可执行指令或者计算机程序,其特征在于,所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至14任一项所述的音乐文件的生成方法。
18.一种计算机程序产品,包括计算机可执行指令或计算机程序,其特征在于,所述计算机可执行指令或计算机程序被处理器执行时实现权利要求1至14任一项所述的音乐文件的生成方法。