本申请涉及音频生成,特别是涉及一种音频生成方法、系统和相关装置。
背景技术:
1、在文本到音频转换技术发展的早期阶段,系统主要依赖于拼接式合成方法,即预先录制一个庞大的语音单元库(如音节、单词或短语),再根据输入文本从中选取对应的单元进行拼接。这种方法虽能保留录制语音的部分自然度,但其输出效果僵硬、缺乏情感变化,且对词汇量以外的文本适应性很差。
2、有鉴于此,如何提升音频转换的效果,成为亟待解决的问题。
技术实现思路
1、本申请主要解决的技术问题是提供一种音频生成方法、系统和相关装置,能够提升将目标文本转换为目标音频的效果。
2、为解决上述技术问题,本申请采用的一个技术方案是:提供一种音频生成方法,包括:获取待转换的目标文本,确定所述目标文本对应的语言信息和声学信息;其中,所述语言信息与所述目标文本的文本元素相关,所述声学信息与所述目标文本匹配的参考频谱相关;从多个第一专家网络中确定与所述语言信息匹配的第一目标网络,利用所述第一目标网络获取与所述语言信息匹配的韵律预测特征,从多个第二专家网络中确定与所述声学信息匹配的第二目标网络,利用所述第二目标网络获取与所述声学信息匹配的声学预测特征;基于所述韵律预测特征和所述声学预测特征,生成所述目标文本转换后的目标音频。
3、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种音频生成系统,包括:获取模块,用于获取待转换的目标文本,确定所述目标文本对应的语言信息和声学信息;其中,所述语言信息与所述目标文本的文本元素相关,所述声学信息与所述目标文本匹配的参考频谱相关;处理模块,用于从多个第一专家网络中确定与所述语言信息匹配的第一目标网络,利用所述第一目标网络获取与所述语言信息匹配的韵律预测特征,从多个第二专家网络中确定与所述声学信息匹配的第二目标网络,利用所述第二目标网络获取与所述声学信息匹配的声学预测特征;转换模块,用于基于所述韵律预测特征和所述声学预测特征,生成所述目标文本转换后的目标音频。
4、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,包括:相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现如上述技术方案中提到的方法。
5、为解决上述技术问题,本申请采用的又一个技术方案是:提供一种计算机可读存储介质,其上存储有程序指令,所述程序指令被处理器执行时实现如上述技术方案中提到的方法。
6、本申请的有益效果是:区别于现有技术的情况,本申请提出的音频生成方法,在获取到待转换的目标文本后,根据目标文本得到语言信息和声学信息两种不同维度的信息。针对上述不同维度的信息,从多个第一专家网络中确定与语言信息匹配的第一目标网络,并利用第一目标网络根据语言信息进行音频韵律的预测,得到韵律预测特征;以及,从多个第二专家网络中确定与声学信息匹配的第二目标网络,并利用第二目标网络根据声学信息进行声学特征的预测,得到声学预测特征。根据预测得到的韵律预测特征和声学预测特征,将目标文本转换为目标音频,以提高目标音频在发音准确度和韵律丰富度上的表现效果。
1.一种音频生成方法,其特征在于,包括:
2.根据权利要求1所述的音频生成方法,其特征在于,
3.根据权利要求2所述的音频生成方法,其特征在于,所述从多个第一专家网络中确定与所述语言信息匹配的第一目标网络,利用所述第一目标网络获取与所述语言信息匹配的韵律预测特征,包括:
4.根据权利要求3所述的音频生成方法,其特征在于,所述第一编码模块包括多个第一网络集合,每个所述第一网络集合中包括多个所述第一专家网络,所述基于所述语言信息,利用所述语言门控网络从所有所述第一专家网络中确定第一目标网络,包括:
5.根据权利要求2所述的音频生成方法,其特征在于,所述音频生成模型还包括依次耦接的第一解码模块和第二解码模块,所述第一解码网络包括多个第三专家网络和至少一个第三共享网络,所述第二解码网络包括多个第四专家网络和至少一个第四共享网络,所述基于所述韵律预测特征和所述声学预测特征,生成所述目标文本转换后的目标音频,包括:
6.根据权利要求2所述的音频生成方法,其特征在于,所述音频生成模型的训练过程包括:
7.根据权利要求1所述的音频生成方法,其特征在于,所述语言信息的获取步骤,包括:
8.根据权利要求7所述的音频生成方法,其特征在于,所述音素分析模型是利用多个训练文本进行训练得到的,所述音素分析模型的训练过程包括:
9.一种音频生成系统,其特征在于,包括:
10.一种电子设备,其特征在于,包括:相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现如权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现如权利要求1-8中任一项所述的方法。