本申请涉及语音处理,尤其涉及一种语音合成模型的训练方法、语音合成方法及装置。
背景技术:
1、基于深度学习技术的不断进步,推动了语音合成技术(text-to-speech,tts)技术和应用的不断发展进步。tts技术利用深度网络构建文本到语音的转换关系,从而可以将输入的文本合成语音数据。在语音对话场景下,通常要求合成的语音真实,且能够与对话情境高度适配。
技术实现思路
1、本申请实施例的目的提供一种模型的训练方法、语音合成方法及装置,用于使合成的语音更加真实,且能够与对话情境高度适配。
2、为了实现上述目的,本申请实施例采用下述技术方案:
3、第一方面,本申请实施例提供一种语音合成模型的训练方法,包括:
4、通过语音合成模型的骨架网络,从样本对话语音中提取第一对话风格特征,以及基于所述第一对话风格特征和对话文本的音素序列进行语音合成处理,得到所述对话文本的第一合成语音,所述对话文本为所述样本对话语音的文本;
5、通过所述语音合成模型的上文风格编码网络,对所述样本对话语音的上文对话语音进行对话风格提取,得到上文对话风格特征;
6、通过所述语音合成模型的预测网络,基于所述上文对话风格特征、所述第一对话风格特征以及所述音素序列,对所述对话文本进行风格预测,得到第二对话风格特征;
7、基于所述第一合成语音和所述第二对话风格特征,对所述语音合成模型进行优化训练。
8、第二方面,本申请实施例提供一种语音合成方法,包括:
9、获取待合成的目标对话文本的音素序列和所述目标对话文本的上文对话语音;
10、对所述上文对话语音进行对话风格提取,得到上文对话风格特征;
11、基于所述上文对话风格特征和所述音素序列,对所述目标对话文本进行风格预测,得到所述目标对话文本的对话风格特征;
12、基于所述对话风格特征和所述音素序列进行语音合成处理,得到所述目标对话文本的合成语音。第三方面,本申请实施例提供一种语音合成模型的训练装置,包括:
13、第一合成单元,用于通过语音合成模型的骨架网络,从样本对话语音中提取第一对话风格特征,以及基于所述第一对话风格特征和对话文本的音素序列进行语音合成处理,得到所述对话文本的第一合成语音,所述对话文本为所述样本对话语音的文本;
14、第一提取单元,用于通过所述语音合成模型的上文风格编码网络,对所述样本对话语音的上文对话语音进行对话风格提取,得到上文对话风格特征;
15、第一预测单元,用于通过所述语音合成模型的预测网络,基于所述上文对话风格特征、所述第一对话风格特征以及所述音素序列,对所述对话文本进行风格预测,得到第二对话风格特征;
16、训练单元,用于基于所述第一合成语音和所述第二对话风格特征,对所述语音合成模型进行优化训练。
17、第四方面,本申请实施例提供一种语音合成装置,包括:
18、获取单元,用于获取待合成的目标对话文本的音素序列和所述目标对话文本的上文对话语音;
19、第二提取单元,用于对所述上文对话语音进行对话风格提取,得到上文对话风格特征;
20、第二预测单元,用于基于所述上文对话风格特征和所述音素序列,对所述目标对话文本进行风格预测,得到所述目标对话文本的对话风格特征;
21、第二合成单元,用于基于所述对话风格特征和所述音素序列进行语音合成处理,得到所述目标对话文本的合成语音。
22、第五方面,本申请实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的语音合成模型的训练方法;或者,所述处理器被配置为执行所述指令,以实现如第二方面所述的语音合成方法。
23、第六方面,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的语音合成模型的训练方法;或者,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第二方面所述的语音合成方法。
24、第七方面,本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如第一方面或者第二方面所述的方法中的部分或全部步骤。
25、本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:采用具有骨架网络、上文风格编码网络以及预测网络的语音合成模型,以及采用样本对话语音、样本对话语音的上文对话语音以及样本对话语音的对话文本的音素序列作为训练数据;将真人对话风格引入到语音合成模型的训练过程中,通过骨架网络从样本对话语音中提取表示对话风格的第一对话风格特征,在此基础上结合对话文本的音素序列为对话文本合成相应的第一合成语音,使得骨架网络能够充分学习样本对话语音的真人对话风格,以及学习从文本到对话风格再到合成语音的映射关系,从而具备对话风格拟真能力,能够用于为输入的文本合成高度拟近真人对话风格的语音;其次,还利用上下文对话风格的匹配特点,将样本对话语音的上文对话风格引入语音合成模型的训练过程中,通过上文风格编码网络从上文对话语音中提取出上文对话风格特征,而后通过预测网络基于上文对话风格特征、第一对话风格特征以及音素序列对对话文本进行风格预测,得到第二对话风格特征,使得第一对话风格特征能够作为标签,辅助预测网络的学习,使预测网络在训练过程中能够参考第一对话风格特征,学习到如何为上文对话风格匹配出相适应对话风格的能力,从而具有对对话情景的感知能力,能够辅助骨架网络输出与对话情境高度适配的合成语音;最后,基于第一合成语音和第二对话风格特征,对语音合成模型进行优化训练,从而使训练出的语音合成模型能够输出拟近真人对话风格且与对话情景高度适配的合成语音,适用于具有语音合成需求的对话场景。
1.一种语音合成模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述上文对话风格特征包括上文语音风格特征,所述第一对话风格特征包括第一语音风格特征,所述第二对话风格特征包括第二语音风格特征和第二韵律特征;
3.根据权利要求2所述的方法,其特征在于,所述韵律文本特征包括所述音素序列中每个音素的韵律文本子特征;
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一对话风格特征和所述对话文本的音素序列进行语音合成处理,得到所述对话文本的第一合成语音,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述频谱特征对所述音素特征进行对齐处理,得到对齐音素特征,包括:
6.根据权利要求1所述的方法,其特征在于,所述基于所述第一合成语音和所述第二对话风格特征,对所述语音合成模型进行优化训练,包括:
7.根据权利要求1所述的方法,其特征在于,在通过所述语音合成模型的上文风格编码网络,对所述样本对话语音的上文对话语音进行对话风格提取之前,所述方法还包括:
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述样本对话语音为从历史对话中获取的客服语音,所述上文对话语音为所述客服语音的上文用户语音;
9.一种语音合成方法,其特征在于,包括:
10.根据权利要求9所述的方法,其特征在于,所述对话风格特征包括语音风格特征和韵律特征;
11.根据权利要求10所述的方法,其特征在于,所述韵律文本特征包括所述音素序列中每个音素的韵律文本子特征;
12.根据权利要求10所述的方法,其特征在于,所述韵律特征包括音高特征与音量特征中的至少一种以及音长特征;
13.根据权利要求12所述的方法,其特征在于,所述基于所述音长特征对所述音素特征进行对齐处理,得到对齐音素特征,包括:
14.根据权利要求9至13中任一项所述的方法,其特征在于,在基于所述上文对话风格特征和所述音素序列,对所述目标对话文本进行风格预测,得到所述目标对话文本的对话风格特征之前,所述方法还包括:
15.一种语音合成模型的训练装置,其特征在于,包括:
16.一种语音合成装置,其特征在于,包括:
17.一种电子设备,其特征在于,包括:
18.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至8中任一项所述的语音合成模型的训练方法;或者,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求9至14中任一项所述的语音合成方法。
19.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如权利要求1至8中任一项或者权利要求9至14中任一项所述的方法中的部分或全部步骤。