1.一种基于可控文本的语音合成方法,其特征在于,所述基于可控文本的语音合成方法包括:
2.根据权利要求1所述的方法,其特征在于,所述识别输入文本的语义信息,分别获取解耦的语音风格、情感类型和语言类型,包括:
3.根据权利要求2所述的方法,其特征在于,所述风格实体包括多个,
4.根据权利要求2所述的方法,其特征在于,所述风格识别模块、情感分类模块和语言分类模块分别基于所述输入文本的全局语义输出识别结果,具体包括:
5.根据权利要求2所述的方法,其特征在于,所述风格识别模块、情感分类模块和语言分类模块分别基于所述输入文本的全局语义输出识别结果,具体包括:
6.根据权利要求1所述的方法,其特征在于,提取所述第二音素序列的风格特征和时间分布特征,包括:
7.根据权利要求1所述的方法,其特征在于,所述基于调整前的时间对应关系融合调整后的时间分布特征和调整后的语音风格特征,得到第三音素序列,具体包括:
8.根据权利要求1所述的方法,其特征在于,
9.一种基于可控文本的语音合成装置,其特征在于,所述基于可控文本的语音合成装置包括:
10.一种基于可控文本的语音合成系统,其特征在于,所述基于可控文本的语音合成系统至少包括: