本发明涉及人工智能,更具体地,涉及一种音频文件生成方法及装置。
背景技术:
1、随着人工智能技术的不断发展,大语言模型开始被广泛应用到各行各业中。其中,为了满足用户多元化的生活需求,大语言模型常被用于向用户提供音频文件生成服务,以支持用户根据自身需求生成相应的音频文件。然而,在利用大语言模型提供音频文件生成服务时,现有的音频文件生成方法所生成的音频文件通常无法满足用户需求,导致用户体验较差。
技术实现思路
1、有鉴于此,本发明实施例提供了一种音频文件生成方法及装置,以确保所生成的音频文件能够满足用户需求,从而提升用户体验。
2、第一方面,本发明实施例旨在提供一种音频文件生成方法,所述方法包括:
3、接收音频生成指令;
4、获取多模态参考信息;
5、调用至少一个目标大语言模型对所述多模态参考信息进行意图识别以确定目标音频生成需求,其中,所述目标大语言模型与所述多模态参考信息匹配,所述目标音频生成需求用于表征对于音频文件的生成需求;
6、根据所述目标音频生成需求确定对应的歌曲描述和曲谱描述;
7、根据所述歌曲描述和所述曲谱描述生成目标音频文件。
8、第二方面,本发明实施例旨在一种音频文件生成装置,所述装置包括:
9、指令接收单元,用于接收音频生成指令;
10、多模态参考信息获取单元,用于获取多模态参考信息;
11、意图识别单元,用于调用至少一个目标大语言模型对所述多模态参考信息进行意图识别以确定目标音频生成需求,其中,所述目标大语言模型与所述多模态参考信息匹配,所述目标音频生成需求用于表征对于音频文件的生成需求;
12、描述信息确定单元,用于根据所述目标音频生成需求确定对应的歌曲描述和曲谱描述;
13、音频文件生成单元,用于根据所述歌曲描述和所述曲谱描述生成目标音频文件。
14、第三方面,本发明实施例旨在一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面中所述的方法。
15、第四方面,本发明实施例旨在一种电子设备,所述设备包括:
16、存储器,用于存储一条或多条计算机程序指令;
17、处理器,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中所述的方法。
18、第五方面,本发明实施例旨在一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面中所述的方法。
19、本发明实施例会在接收到音频生成指令后,获取多模态参考信息,并调用与多模态参考信息匹配的至少一个目标大语言模型对多模态参考信息进行意图识别以确定目标音频生成需求,再根据目标音频生成需求确定对应的歌曲描述和曲谱描述,进而根据歌曲描述和曲谱描述生成目标音频文件。其中,所述目标音频生成需求用于表征对于音频文件的生成需求。由此,通过支持多模态参考信息输入,并根据多模态参考信息生成目标音频文件,本发明实施例可以确保所生成的音频文件能够满足用户需求,从而提升用户体验。
1.一种音频文件生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述歌曲描述和所述曲谱描述生成目标音频文件包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述歌曲描述生成人声信号包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述歌词信息生成所述人声信号包括:
5.根据权利要求3所述的方法,其特征在于,所述至少对所述人声信号和所述多音轨信号进行拟合以生成所述目标音频文件包括:
6.根据权利要求1所述的方法,其特征在于,在调用至少一个目标大语言模型对所述多模态参考信息进行意图识别以确定目标音频生成需求之前,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述调用至少一个目标大语言模型对所述多模态参考信息进行意图识别以确定目标音频生成需求包括:
8.根据权利要求1所述的方法,其特征在于,所述获取多模态参考信息包括:
9.根据权利要求1所述的方法,其特征在于,所述根据所述目标音频生成需求确定对应的歌曲描述和曲谱描述包括:
10.根据权利要求1所述的方法,其特征在于,所述多模态参考信息中所包括参考信息的信息类型为以下至少一种或组合:文字、音频、图片、视频、地理位置、情绪信息。
11.一种音频文件生成装置,其特征在于,所述装置包括:
12.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-10中任一项所述的方法。
13.一种电子设备,其特征在于,所述设备包括:
14.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1-10中任一项所述的方法。