本申请涉及音频,具体涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。
背景技术:
1、随着语音合成技术的广泛应用,需要进行个性化的语音合成的用户场景也越来越多。一般个性化合成语音的方式是,使用个性化语音合成模型对文本进行端到端的处理直接输出个性化音频数据。但是,这样的个性化语音合成模型是需要使用一个人的语料数据进行训练得到,只能做到一个人对应一个模型,难以将一个模型作为共享模型进行大规模部署。
技术实现思路
1、本申请实施例提供一种语音合成方法、装置、电子设备及计算机可读存储介质,能够实现将一个语音合成模型作为共享模型进行大规模部署。
2、第一方面,本申请实施例提供一种语音合成方法,包括:
3、获得第一用户的音色特征;
4、将获得的目标文本和音色特征输入已训练的语音合成模型进行处理,输出具有第一用户的音色的第一音频数据。
5、第二方面,本申请实施例还提供一种语音合成装置,包括:
6、获得模块,用于获得第一用户的音色特征;
7、合成模块,用于将获得的目标文本和音色特征输入已训练的语音合成模型进行处理,输出具有第一用户的音色的第一音频数据。
8、第三方面,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如本申请任一实施例提供的语音合成方法中的步骤。
9、第四方面,本申请实施例还提供一种电子设备,电子设备包括处理器、存储器以及存储于存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如本申请任一实施例提供的语音合成方法中的步骤。
10、本申请实施例提供的技术方案,获得第一用户的音色特征,将获得的目标文本和该音色特征输入已训练的语音合成模型进行处理,生成具有该第一用户的音色的第一音频数据。该方案中的已训练的语音合成模型的训练数据可以是多个其他用户的音频数据,只需在语音合成时输入特定用户的音色特征,即可实现个性化的语音合成。这种语音合成方式可以实现一个模语音合成型的大规模部署,将这一个语音合成模型共享给多人使用。
1.一种语音合成方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述已训练的语音合成模型包括编码模块和解码模块;所述将获得的目标文本和所述音色特征输入已训练的语音合成模型进行处理,输出具有所述第一用户的音色的第一音频数据,包括:
3.如权利要求2所述的方法,其特征在于,所述对所述中间向量与所述音色特征进行合成处理,得到第一合成特征,包括:
4.如权利要求1所述的方法,其特征在于,所述已训练的语音合成模型包括编码模块和解码模块,所述编码模块包括向量生成单元和编码单元;所述将获得的目标文本和所述音色特征输入已训练的语音合成模型进行处理,输出具有所述第一用户的音色的第一音频数据,包括:
5.如权利要求1-4任一项所述的方法,其特征在于,所述获得第一用户的音色特征,包括:
6.如权利要求5所述的方法,其特征在于,所述将所述第二音频数据输入预训练的音色特征提取模型进行处理,输出所述第一用户的音色特征,包括:
7.如权利要求6所述的方法,其特征在于,所述获得第一用户的音色特征之前,所述方法还包括:
8.一种语音合成装置,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音合成方法中的步骤。
10.一种电子设备,其特征在于,所述电子设备包括处理器、存储器以及存储于所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语音合成方法中的步骤。