本发明涉及一种语音合成的方法,特别涉及一种模拟说话者情绪优化翻译后文本语音合成的方法,属于语音翻译技术领域。
背景技术:
目前的语音合成技术将文字转换成语音,只是单纯将文字机械的播报出来,并不能准确的表达出说话者的情绪。本发明通过识别说话者的语气、语调、用词、语法等声音与语言特征,当说话者语言翻译后的其他语言的文本时,来动态调整语音合成规则,使得最终语音合成播报如实反映当前说话者的情绪。
技术实现要素:
本发明要解决的技术问题是克服目前的语音合成技术将文字转换成语音,只是单纯将文字机械的播报出来,并不能准确的表达出说话者的情绪的缺陷,提供一种模拟说话者情绪优化翻译后文本语音合成的方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供了一种模拟说话者情绪优化翻译后文本语音合成的方法,包括与业务后台信号连接的翻译设备,所述翻译设备通过业务后台信号连接有语音识别接口、声纹识别接口、语法分析接口、翻译接口和语音合成接口。
作为本发明的一种优选技术方案,语音翻译合成步骤为:
步骤一:翻译设备获取用户的语音voice,得到wav格式;
步骤二:业务后台对音频文件进行分析,得到频率、语速参数;
步骤三:业务后台将语音信息导入到声纹识别接口,通过声纹识别系统识别得到用户性别、年龄等参数;
步骤四:业务后台将语音信息导入到语音识别接口,通过语音识别系统得到文本信息;
步骤五:业务后台将识别后的文本信息导入到语法分析接口,通过语法分析系统对文本的语法,用词,通过文本语句分析,得出情绪参数,例如,开心、生气、愤怒、消极等;
步骤六:业务后台结合各系统分析得到的频率、语速、性别、年龄、情绪多个特征参数,设定每个特征的特征值;
步骤七:业务后台将用户识别后的文字导入翻译接口,通过翻译系统翻译得到目标语言的文本;
步骤八:业务后台将翻译得到的语言文本和分析得到的特征值导入语音合成接口,使语音合成系统通过特征值结合语音合成ssml语法,对合成语音的ssml语法中播报速度、音量大小、字词停顿进行设置,从而实现合成的其他国家语音播报反映出说话者说本国语言的情绪特征。
本发明所达到的有益效果是:本发明通过识别说话者的语气、语调、用词、语法等声音与语言特征,当说话者语言翻译后的其他语言的文本时,来动态调整语音合成规则,使得最终语音合成播报如实反映当前说话者的情绪。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的结构示意图;
图2是本发明的正视图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
如图1-2所示,本发明提供了一种模拟说话者情绪优化翻译后文本语音合成的方法,包括与业务后台信号连接的翻译设备,所述翻译设备通过业务后台信号连接有语音识别接口、声纹识别接口、语法分析接口、翻译接口和语音合成接口。
具体的,语音翻译合成步骤为:
步骤一:翻译设备获取用户的语音voice,得到wav格式;
步骤二:业务后台对音频文件进行分析,得到频率、语速参数;
步骤三:业务后台将语音信息导入到声纹识别接口,通过声纹识别系统识别得到用户性别、年龄等参数;
步骤四:业务后台将语音信息导入到语音识别接口,通过语音识别系统得到文本信息;
步骤五:业务后台将识别后的文本信息导入到语法分析接口,通过语法分析系统对文本的语法,用词,通过文本语句分析,得出情绪参数,例如,开心、生气、愤怒、消极等;
步骤六:业务后台结合各系统分析得到的频率、语速、性别、年龄、情绪多个特征参数,设定每个特征的特征值;
步骤七:业务后台将用户识别后的文字导入翻译接口,通过翻译系统翻译得到目标语言的文本;
步骤八:业务后台将翻译得到的语言文本和分析得到的特征值导入语音合成接口,使语音合成系统通过特征值结合语音合成ssml语法,对合成语音的ssml语法中播报速度、音量大小、字词停顿进行设置,从而实现合成的其他国家语音播报反映出说话者说本国语言的情绪特征。
本发明所达到的有益效果是:本发明通过识别说话者的语气、语调、用词、语法等声音与语言特征,当说话者语言翻译后的其他语言的文本时,来动态调整语音合成规则,使得最终语音合成播报如实反映当前说话者的情绪。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。