基于可控文本的语音合成方法、装置和系统

文档序号：37582462发布日期：2024-04-18 12:06阅读：来源：国知局

技术特征：

1.一种基于可控文本的语音合成方法，其特征在于，所述基于可控文本的语音合成方法包括：

2.根据权利要求1所述的方法，其特征在于，所述识别输入文本的语义信息，分别获取解耦的语音风格、情感类型和语言类型，包括：

3.根据权利要求2所述的方法，其特征在于，所述风格实体包括多个，

4.根据权利要求2所述的方法，其特征在于，所述风格识别模块、情感分类模块和语言分类模块分别基于所述输入文本的全局语义输出识别结果，具体包括：

5.根据权利要求2所述的方法，其特征在于，所述风格识别模块、情感分类模块和语言分类模块分别基于所述输入文本的全局语义输出识别结果，具体包括：

6.根据权利要求1所述的方法，其特征在于，提取所述第二音素序列的风格特征和时间分布特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于调整前的时间对应关系融合调整后的时间分布特征和调整后的语音风格特征，得到第三音素序列，具体包括：

8.根据权利要求1所述的方法，其特征在于，

9.一种基于可控文本的语音合成装置，其特征在于，所述基于可控文本的语音合成装置包括：

10.一种基于可控文本的语音合成系统，其特征在于，所述基于可控文本的语音合成系统至少包括：

技术总结
本发明提供基于可控文本的语音合成方法、装置和系统，包括：获取待合成的语音内容，基于外部说话者嵌入模块形成第一音素序列；识别输入文本的语义信息，分别获取解耦的语音风格、情感类型和语言类型；基于转换器转换第一音素序列的语言类型，生成第二音素序列；提取所述第二音素序列的风格特征和时间分布特征；基于所述情感类型调整所述第二音素序列的时间分布特征；基于所述语音风格调整所述第二音素序列的风格特征；基于调整前的时间对应关系融合调整后的时间分布特征和调整后的语音风格特征，得到第三音素序列；基于解码器解码第三音素序列，获得合成语音。提高合成语音的质量，提高了风格可控性和方法适用性。

技术研发人员：周若华,刘洋
受保护的技术使用者：北京建筑大学
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

当前第2页1 2