1.一种用于文字至语音转换的装置,包括:
中性生成块,被配置为生成脚本的情感中性表示,所述情感中性表示包括与多个音素中的每个音素相关联的至少一个参数;以及
调整块,被配置为基于情感类型针对所述多个音素中的每个音素区别地调整所述至少一个参数,以生成变换表示。
2.根据权利要求1所述的装置,还包括:声码器,被配置为根据所述变换表示合成语音波形。
3.根据权利要求1所述的装置,每个音素包括多个帧,所述至少一个参数包括与每个音素的每帧相关联的频谱系数,所述调整块被配置为基于所述情感类型和每个音素的语言语境识别通过添加调整因子来调整所述频谱系数。
4.根据权利要求1所述的装置,还包括:存储器,存储中性判定树和不同于所述中性判定树的情感特有判定树,所述中性生成块进一步被配置为从所述中性判定树中检索所述至少一个参数,并且所述调整块被配置为从所述情感特有判定树中检索用于调整所述至少一个参数中的每个参数的情感特有调整因子。
5.根据权利要求4所述的装置,所述至少一个参数包括与每个音素相关联的隐马尔科夫模型(HMM)的每个状态的参数,所述中性生成块进一步被配置为从所述中性判定树中检索所述HMM的每个状态的参数,并且所述调整块被配置为从所述情感特有判定树中检索对应于所述HMM的每个状态的调整因子。
6.根据权利要求5所述的装置,所述HMM的状态的参数包括用于每个状态的平均矢量,所述调整块被配置为通过使用所检索的调整因子向每个状态的所述平均矢量应用仿射变换来针对所述多个音素中的每个音素区别地调整所述至少一个参数,所述仿射变换基于所述情感类型以及每个音素的语言语境识别。
7.根据权利要求5所述的装置,所述HMM的状态的参数包括用于每个状态的协方差矩阵,所述调整块被配置为使用所检索的调整因子向每个状态的所述协方差矩阵应用线性变换,所述线性变换基于所述情感类型以及每个音素的语言语境识别。
8.根据权利要求5所述的装置,所述情感特有判定树包括多个叶节点,每个叶节点与所述HMM的至少一个集群状态相对应,所述情感特有判定树进一步包括被选择以最大化所述HMM的集群状态的对数似然函数的加权和的问题。
9.一种用于文字至语音转换的方法,包括:
生成脚本的情感中性表示,所述情感中性表示包括与多个音素相关联的至少一个参数;以及
基于情感类型针对所述多个音素中的每个音素区别地调整所述至少一个参数,以生成变换表示。
10.根据权利要求9所述的方法,每个音素包括多个帧,与所述多个音素相关联的所述至少一个参数包括与所述多个音素中的每个音素的每帧相关联的至少一个参数,针对所述多个音素中的每个音素区别地调整所述至少一个参数包括:针对所述多个帧中的每帧区别地调整所述至少一个参数。