本申请涉及语音处理领域,尤其涉及一种语音合成模型的训练方法、语音合成方法及装置。
背景技术:
1、在语音合成技术领域中,非自回归tts(text to speech,文本到语音)模型吸引了工业界和学术界越来越多的关注,其中,语音合成模型fastspeech2因其优秀的语音合成效果和响应速度,赢得了大多数互联网公司的关注,并将其运用于线上。fastspeech2的输入为音素数据(包括拼音和韵律),输出为音频数据,如梅尔频谱mel-spectrogram,mel-spectrogram再经声码器处理后生成语音。
2、然而,现有的非自回归tts模型对音素数据进行音频预测时,通常不考虑帧级别之间的相关性和关联性,且过度平滑(即over-smoothed),因此容易导致tts模型生成的语音质量较低。可见,tts模型的模型性能亟需优化。
技术实现思路
1、本申请实施例的目的是提供一种语音合成模型的训练方法、语音合成方法及装置,用以提升语音合成模型的模型性能。
2、为解决上述技术问题,本申请实施例是这样实现的:
3、一方面,本申请实施例提供一种语音合成模型的训练方法,包括:
4、获取第一样本文本,以及所述第一样本文本对应的样本音频数据;所述第一样本文本包括多个第一语言单位;
5、将所述第一样本文本和所述样本音频数据输入待训练的语音合成模型;所述待训练的语音合成模型包括:预训练的语言处理模型和音频生成模块;
6、通过所述预训练的语言处理模型,提取所述第一样本文本对应的文本特征信息;所述文本特征信息包括每个第一语言单位对应的语义特征信息、以及各所述第一语言单位之间的语义关联特征信息;
7、通过所述音频生成模块,根据所述文本特征信息确定所述第一样本文本对应的预测音频数据;
8、根据所述预测音频数据和所述样本音频数据对所述待训练的语音合成模型进行训练,得到训练后的语音合成模型。
9、另一方面,本申请实施例提供一种语音合成方法,包括:
10、获取目标文本;所述目标文本包括多个语言单位;
11、将所述目标文本输入训练后的语音合成模型,提取所述目标文本对应的文本特征信息;所述文本特征信息包括:每个语言单位对应的语义特征信息、以及各所述语言单位之间的语义关联特征信息;其中,所述训练后的语音合成模型为根据上述一方面所述的语音合成模型的训练方法训练得到;
12、根据所述文本特征信息,确定所述目标文本对应的目标音频数据。
13、再一方面,本申请实施例提供一种语音合成模型的训练装置,包括:
14、第一获取模块,用于获取第一样本文本,以及所述第一样本文本对应的样本音频数据;所述第一样本文本包括多个第一语言单位;
15、输入模块,用于将所述第一样本文本和所述样本音频数据输入待训练的语音合成模型;所述待训练的语音合成模型包括:预训练的语言处理模型和音频生成模块;
16、第一提取模块,用于通过所述预训练的语言处理模型,提取所述第一样本文本对应的文本特征信息;所述文本特征信息包括:每个第一语言单位对应的语义特征信息、以及各所述第一语言单位之间的语义关联特征信息;
17、第一确定模块,用于通过所述音频生成模块,根据所述文本特征信息确定所述第一样本文本对应的预测音频数据
18、训练模块,用于根据所述预测音频数据和所述样本音频数据对所述待训练的语音合成模型进行训练,得到训练后的语音合成模型。
19、再一方面,本申请实施例提供一种语音合成装置,包括:
20、第二获取模块,用于获取目标文本;所述目标文本包括多个语言单位;
21、第二提取模块,用于将所述目标文本输入训练后的语音合成模型,提取所述目标文本对应的文本特征信息;所述文本特征信息包括:每个语言单位对应的语义特征信息、以及各所述语言单位之间的语义关联特征信息;其中,所述训练后的语音合成模型为根据上述一方面所述的语音合成模型的训练方法训练得到;
22、第二确定模块,用于根据所述文本特征信息,确定所述目标文本对应的目标音频数据。
23、再一方面,本申请实施例提供一种电子设备,包括处理器和与所述处理器电连接的存储器,所述存储器存储有计算机程序,所述处理器用于从所述存储器调用并执行所述计算机程序以实现上述一方面所述的语音合成模型的训练方法,或者,所述处理器用于从所述存储器调用并执行所述计算机程序以实现上述一方面所述的语音合成方法。
24、再一方面,本申请实施例提供一种计算机可读存储介质,用于存储计算机程序,所述计算机程序能够被处理器执行以实现上述一方面所述的语音合成模型的训练方法,或者,所述计算机程序能够被处理器执行以实现上述一方面所述的语音合成方法。
25、采用本申请实施例的技术方案,通过获取第一样本文本及其对应的样本音频数据,并将第一样本文本及其对应的样本音频数据输入待训练的语音合成模型,以通过样本语音合成模型中预训练的语言处理模型提取第一样本文本对应的文本特征信息,进而通过样本语音合成模型中的音频生成模块,根据文本特征信息确定第一样本文本对应的预测音频数据,并根据预测音频数据和样本音频数据对待训练的语音合成模型进行训练,得到训练后的语音合成模型。其中,第一样本文本对应的文本特征信息包括每个第一语言单位对应语义特征信息以及各第一语言单位之间的语义关联特征信息。可见,语音合成模型在训练过程中不仅考虑到样本文本中每个语言单位各自的语义特征信息,还考虑到了各个语言单位之间的语义关联特征信息。例如,第一语言单位包括“脚步轻快”和“散步”,从“脚步轻快”的语义知识中可以分析出情感级别的特征,如“心情愉悦”,因此第一语言单位“脚步轻快”和“散步”之间的语义关联特征信息可包括“心情愉悦地散步”对应的特征信息。因此,语义关联特征信息能够表征各个语言单位之间的语义关联性,即各个语言单位之间并非是独立的,各个语言单位之间的关联性则能够反映出样本文本在情感、韵律级别上的特征,因此使得语音合成模型在训练过程中能够学习到更加丰富的知识,如语义知识和语义关联知识,从而提升语音合成模型的模型性能。
1.一种语音合成模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述通过所述预训练的语言处理模型,提取所述第一样本文本对应的文本特征信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述预训练的语言处理模型包括:预训练的初始语言处理模型和全连接层;
4.根据权利要求1所述的方法,其特征在于,所述音频生成模块包括:可变信息预测器和音频处理器;
5.根据权利要求4所述的方法,其特征在于,所述音频处理器包括:局部特征提取层、全局特征提取层和维度变换层;
6.根据权利要求1所述的方法,其特征在于,所述将所述第一样本文本和所述样本音频数据输入待训练的语音合成模型之前,所述方法还包括:
7.一种语音合成方法,其特征在于,包括:
8.一种语音合成模型的训练装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括处理器和与所述处理器电连接的存储器,所述存储器存储有计算机程序,所述处理器用于从所述存储器调用并执行所述计算机程序以实现如权利要求1-6任一项所述的语音合成模型的训练方法,或者,所述处理器用于从所述存储器调用并执行所述计算机程序以实现如权利要求7所述的语音合成方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质用于存储计算机程序,所述计算机程序能够被处理器执行以实现如权利要求1-6任一项所述的语音合成模型的训练方法,或者,所述计算机程序能够被处理器执行以实现如权利要求7所述的语音合成方法。