使用合成的训练数据的两级文本到语音系统的制作方法

文档序号：37259198发布日期：2024-03-12 20:36阅读：来源：国知局

技术特征：

1.一种计算机实现的方法(600)，所述方法当在数据处理硬件(122)上执行时，使得所述数据处理硬件(122)执行包括以下各项的操作：

2.根据权利要求1所述的计算机实现的方法(600)，其中，训练所述tts系统(300)包括：

3.根据权利要求2所述的计算机实现的方法(600)，其中，训练所述tts系统(300)还包括：

4.根据权利要求2或3所述的计算机实现的方法(600)，其中，所述操作还包括：

5.根据权利要求4所述的计算机实现的方法(600)，其中，训练所述tts模型(400)的所述解码器部分(400b)包括：使用所述训练音频信号(102)的所述对应转录(106)，将所述话语嵌入(204)解码成固定长度预测帧(280)序列，所述固定长度预测帧序列提供表示由所述话语嵌入(204)表示的所述韵律的所述转录(106)的预测韵律特征。

6.根据权利要求5所述的计算机实现的方法(600)，其中，所述tts模型(400)被训练以使得由所述解码器部分(400b)解码的固定长度预测帧的数量等于从所述训练合成语音表示(202)采样的固定长度参考帧的数量。

7.根据权利要求1-6中的任一项所述的计算机实现的方法(600)，其中，所述参考话语的所述训练合成语音表示(202)包括音频波形或梅尔频率谱图序列。

8.根据权利要求1-7中的任一项所述的计算机实现的方法(600)，其中，所述经训练的声音克隆系统(200)被进一步配置成在生成所述训练合成语音表示(202)时接收所述训练音频信号(102)的所述对应转录(106)作为输入。

9.根据权利要求1-8中的任一项所述的计算机实现的方法(600)，其中：

10.根据权利要求1-9中的任一项所述的计算机实现的方法(600)，其中，所述tts系统(300)包括：

11.根据权利要求10所述的计算机实现的方法(600)，其中，表示所述预期韵律的所述韵律特征包括持续时间、音高轮廓、能量轮廓和/或梅尔频率谱图轮廓。

12.一种系统(100)，包括：

13.根据权利要求12所述的系统(100)，其中，训练所述tts系统(300)包括：

14.根据权利要求13所述的系统(100)，其中，训练所述tts系统(300)还包括：

15.根据权利要求13或14所述的系统(100)，其中，所述操作还包括：

16.根据权利要求15所述的系统(100)，其中，训练所述tts模型(400)的所述解码器部分(400b)包括：使用所述训练音频信号(102)的所述对应转录(106)，将所述话语嵌入(204)解码成固定长度预测帧(280)序列，所述固定长度预测帧序列提供表示由所述话语嵌入(204)表示的所述韵律的所述转录(106)的预测韵律特征。

17.根据权利要求16所述的系统(100)，其中，所述tts模型(400)被训练以使得由所述解码器部分(400b)解码的固定长度预测帧的数量等于从所述训练合成语音表示(202)采样的固定长度参考帧的数量。

18.根据权利要求12-17中的任一项所述的系统(100)，其中，所述参考话语的所述训练合成语音表示(202)包括音频波形或梅尔频率谱图序列。

19.根据权利要求12-18中的任一项所述的系统(100)，其中，所述经训练的声音克隆系统(200)被进一步配置成在生成所述训练合成语音表示(202)时接收所述训练音频信号(102)的所述对应转录(106)作为输入。

20.根据权利要求12-19中的任一项所述的系统(100)，其中：

21.根据权利要求1-20中的任一项所述的系统(100)，其中，所述tts系统(300)包括：

22.根据权利要求21所述的系统(100)，其中，表示所述预期韵律的所述韵律特征包括持续时间、音高轮廓、能量轮廓和/或梅尔频率谱图轮廓。

23.一种计算机实现的方法(600)，所述方法当在数据处理硬件(122)上执行时，使得所述数据处理硬件(122)执行包括以下各项的操作：

24.根据权利要求23所述的计算机实现的方法(600)，其中，所述操作进一步包括获得包括指示所述目标说话者的声音特性的说话者标识符(108)的调节输入(108，109)，其中：

25.根据权利要求23或24所述的计算机实现的方法(600)，其中，所述目标语音特性包括目标口音/方言。

26.根据权利要求23-25中的任一项所述的计算机实现的方法(600)，其中，所述目标语音特性包括目标韵律/风格。

27.根据权利要求23-26中的任一项所述的计算机实现的方法(600)，其中，当生成对应训练文本话语(320)的所述训练合成语音表示(202)时，经训练的声音克隆系统(200)还被配置为接收指示所述目标说话者的声音特性的说话者标识符(108)。

技术总结
方法(600)包括获得包括多个训练音频信号(102)和相应转录(106)的训练数据(10)。每个训练音频信号由以第一口音/方言的目标说话者说出。对于每个训练音频信号，方法包括生成由目标说话者以第二口音/方言说出的训练合成语音表示(202)，并且基于对应转录和训练合成语音表示来训练文本到语音(TTS)系统(300)。方法还包括接收要被合成为以第二口音/方言的语音的输入文本话语(320)。方法还包括获得说话者嵌入(108)和标识第二口音/方言的口音/方言标识符(109)。方法还包括生成对应于输入文本序列的合成语音表示的输出音频波形(152)，该输出音频波形克隆以第二口音/方言的目标说话者的声音。

技术研发人员：列夫·芬克尔斯坦,詹竣安,比扬哈·春,诺曼·卡萨格兰德,张羽,罗伯特·安德鲁·詹姆斯·克拉克,文森特·万
受保护的技术使用者：谷歌有限责任公司
技术研发日：
技术公布日：2024/3/11

完整全部详细技术资料下载

当前第2页1 2