1.一种计算机实现的方法(600),所述方法当在数据处理硬件(122)上执行时,使得所述数据处理硬件(122)执行包括以下各项的操作:
2.根据权利要求1所述的计算机实现的方法(600),其中,训练所述tts系统(300)包括:
3.根据权利要求2所述的计算机实现的方法(600),其中,训练所述tts系统(300)还包括:
4.根据权利要求2或3所述的计算机实现的方法(600),其中,所述操作还包括:
5.根据权利要求4所述的计算机实现的方法(600),其中,训练所述tts模型(400)的所述解码器部分(400b)包括:使用所述训练音频信号(102)的所述对应转录(106),将所述话语嵌入(204)解码成固定长度预测帧(280)序列,所述固定长度预测帧序列提供表示由所述话语嵌入(204)表示的所述韵律的所述转录(106)的预测韵律特征。
6.根据权利要求5所述的计算机实现的方法(600),其中,所述tts模型(400)被训练以使得由所述解码器部分(400b)解码的固定长度预测帧的数量等于从所述训练合成语音表示(202)采样的固定长度参考帧的数量。
7.根据权利要求1-6中的任一项所述的计算机实现的方法(600),其中,所述参考话语的所述训练合成语音表示(202)包括音频波形或梅尔频率谱图序列。
8.根据权利要求1-7中的任一项所述的计算机实现的方法(600),其中,所述经训练的声音克隆系统(200)被进一步配置成在生成所述训练合成语音表示(202)时接收所述训练音频信号(102)的所述对应转录(106)作为输入。
9.根据权利要求1-8中的任一项所述的计算机实现的方法(600),其中:
10.根据权利要求1-9中的任一项所述的计算机实现的方法(600),其中,所述tts系统(300)包括:
11.根据权利要求10所述的计算机实现的方法(600),其中,表示所述预期韵律的所述韵律特征包括持续时间、音高轮廓、能量轮廓和/或梅尔频率谱图轮廓。
12.一种系统(100),包括:
13.根据权利要求12所述的系统(100),其中,训练所述tts系统(300)包括:
14.根据权利要求13所述的系统(100),其中,训练所述tts系统(300)还包括:
15.根据权利要求13或14所述的系统(100),其中,所述操作还包括:
16.根据权利要求15所述的系统(100),其中,训练所述tts模型(400)的所述解码器部分(400b)包括:使用所述训练音频信号(102)的所述对应转录(106),将所述话语嵌入(204)解码成固定长度预测帧(280)序列,所述固定长度预测帧序列提供表示由所述话语嵌入(204)表示的所述韵律的所述转录(106)的预测韵律特征。
17.根据权利要求16所述的系统(100),其中,所述tts模型(400)被训练以使得由所述解码器部分(400b)解码的固定长度预测帧的数量等于从所述训练合成语音表示(202)采样的固定长度参考帧的数量。
18.根据权利要求12-17中的任一项所述的系统(100),其中,所述参考话语的所述训练合成语音表示(202)包括音频波形或梅尔频率谱图序列。
19.根据权利要求12-18中的任一项所述的系统(100),其中,所述经训练的声音克隆系统(200)被进一步配置成在生成所述训练合成语音表示(202)时接收所述训练音频信号(102)的所述对应转录(106)作为输入。
20.根据权利要求12-19中的任一项所述的系统(100),其中:
21.根据权利要求1-20中的任一项所述的系统(100),其中,所述tts系统(300)包括:
22.根据权利要求21所述的系统(100),其中,表示所述预期韵律的所述韵律特征包括持续时间、音高轮廓、能量轮廓和/或梅尔频率谱图轮廓。
23.一种计算机实现的方法(600),所述方法当在数据处理硬件(122)上执行时,使得所述数据处理硬件(122)执行包括以下各项的操作:
24.根据权利要求23所述的计算机实现的方法(600),其中,所述操作进一步包括获得包括指示所述目标说话者的声音特性的说话者标识符(108)的调节输入(108,109),其中:
25.根据权利要求23或24所述的计算机实现的方法(600),其中,所述目标语音特性包括目标口音/方言。
26.根据权利要求23-25中的任一项所述的计算机实现的方法(600),其中,所述目标语音特性包括目标韵律/风格。
27.根据权利要求23-26中的任一项所述的计算机实现的方法(600),其中,当生成对应训练文本话语(320)的所述训练合成语音表示(202)时,经训练的声音克隆系统(200)还被配置为接收指示所述目标说话者的声音特性的说话者标识符(108)。