一种实现合成语音增强的方法及系统的制作方法_4

文档序号:9305371阅读:来源:国知局

[0140] 参数增强单元602,用于利用增强模型对所述频谱参数和/或基频参数进行增强 处理,得到增强后的频谱参数和/或基频参数,并将所述增强后的频谱参数和/或基频参数 作为合成语音时对应所述待合成文本的频谱参数和/或基频参数。
[0141 ] 与图5所示框图结构不同的是,在该实施例中,先由初始语音参数生成单元601利 用初始语音合成模型生成对应待合成文本的基频参数、频谱参数、以及时长参数,然后再由 参数增强单元602利用相应的增强模型对其中的频谱参数进行增强处理,从而使增强后的 语音合成参数更好地体现不同发音人、以及同一发音人发不同音时的声学特性上的细节差 异。图4中的合成模块405将这些增强处理后的语音合成参数与通过传统语音合成模型得 到的其它语音合成参数结合在一起,通过合成器合成出语音。
[0142] 利用本发明实施例实现合成语音增强的系统,通过统计方式获取不同发音人、以 及同一发音人发不同音时声学参数的细节特征,进而利用这些细节特征对合成语音进行增 强处理,从而可以得到更好的增强效果。
[0143] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实 施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例 的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明 的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是 物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要 选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出 创造性劳动的情况下,即可以理解并实施。
[0144] 以上对本发明实施例进行了详细介绍,本文中应用了【具体实施方式】对本发明进行 了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的 一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所 述,本说明书内容不应理解为对本发明的限制。
【主权项】
1. 一种实现合成语音增强的方法,其特征在于,包括: 基于训练数据构建初始语音合成模型,所述训练数据包括文本数据及与所述文本数据 对应的语音数据; 建立增强模型,所述增强模型用于模拟所述初始语音合成模型生成的合成语音参数与 自然语音参数的映射关系; 在接收到待合成文本后,根据所述初始语音合成模型和所述增强模型生成对应所述待 合成文本的合成语音参数; 利用所述合成语音参数生成连续语音信号。2. 根据权利要求1所述的方法,其特征在于,所述建立增强模型包括: 根据所述初始语音合成模型生成所有训练数据的合成语音参数; 提取所有训练数据的自然语音参数; 确定增强模型的拓扑结构; 将对应所述训练数据的合成语音参数和自然语音参数的数据对作为训练集合,根据所 述拓扑结构进行参数训练,得到增强模型。3. 根据权利要求2所述的方法,其特征在于,所述增强模型为:线性函数的映射模型、 或者GMM模型、或者DNN模型。4. 根据权利要求1所述的方法,其特征在于,所述初始语音合成模型生成的合成语音 参数与自然语音参数的映射关系为所述初始语音合成模型生成的合成语音参数与自然语 音参数的条件分布。5. 根据权利要求1至4任一项所述的方法,其特征在于,所述初始语音合成模型包括: 时长模型、频谱模型、基频模型; 所述根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合成语 音参数包括: 根据所述增强模型对所述初始语音合成模型中的频谱模型和/或基频模型进行增强 处理,得到增强的频谱模型和/或基频模型; 利用所述增强的频谱模型和/或基频模型生成对应所述待合成文本的频谱参数和/或 基频参数; 利用所述初始语音合成模型生成对应所述待合成文本的除频谱模型和/或基频模型 之外的其它语音参数。6. 根据权利要求5所述的方法,其特征在于,所述根据所述增强模型对所述初始语音 合成模型中的频谱模型和/或基频模型进行增强处理,得到增强的频谱模型和/或基频模 型包括: 从所述初始语音合成模型中获取频谱模型和/或基频模型的模型参数; 利用所述增强模型对所述模型参数进行增强处理,得到增强后的模型参数; 将增强后的模型参数替代对应的频谱模型和/或基频模型的模型参数,得到增强的频 谱模型和/或基频模型。7. 根据权利要求1至4任一项所述的方法,其特征在于,所述初始语音合成模型包括: 时长模型、频谱模型、基频模型; 所述根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合成语 音参数包括: 利用所述初始语音合成模型分别生成对应所述待合成文本的时长参数、频谱参数和基 频参数; 利用增强模型对所述频谱参数和/或基频参数进行增强处理,得到增强后的频谱参数 和/或基频参数,并将所述增强后的频谱参数和/或基频参数作为合成语音时对应所述待 合成文本的频谱参数和/或基频参数。8. -种实现合成语音增强的系统,其特征在于,包括: 初始模型建立模块,用于基于训练数据构建初始语音合成模型,所述训练数据包括文 本数据及与所述文本数据对应的语音数据; 增强模型建立模块,用于建立增强模型,所述增强模型用于模拟所述初始语音合成模 型生成的合成语音参数与自然语音参数的映射关系; 接收模块,用于接收待合成文本; 参数生成模块,用于根据所述初始语音合成模型和所述增强模型生成对应所述待合成 文本的合成语音参数; 合成模块,用于利用所述合成语音参数生成连续语音信号。9. 根据权利要求8所述的系统,其特征在于,所述增强模型建立模块包括: 合成语音参数生成单元,用于根据所述初始语音合成模型生成所有训练数据的合成语 音参数; 自然语音参数提取单元,用于提取所有训练数据的自然语音参数; 拓扑结构确定单元,用于确定增强模型的拓扑结构; 训练单元,用于将对应所述训练数据的合成语音参数和自然语音参数的数据对作为训 练集合,根据所述拓扑结构进行参数训练,得到增强模型。10. 根据权利要求8或9所述的系统,其特征在于,所述初始语音合成模型包括:时长 模型、频谱模型、基频模型;所述参数生成模块包括: 模型增强单元,用于根据所述增强模型对所述初始语音合成模型中的频谱模型和/或 基频模型进行增强处理,得到增强的频谱模型和/或基频模型; 增强语音参数生成单元,用于利用所述增强的频谱模型和/或基频模型生成对应所述 待合成文本的频谱参数和/或基频参数; 初始语音参数生成单元,用于利用所述初始语音合成模型生成对应所述待合成文本的 除频谱模型和/或基频模型之外的其它语音参数。11. 根据权利要求10所述的系统,其特征在于,所述模型增强单元包括: 模型参数获取单元,用于从所述初始语音合成模型中获取频谱模型和/或基频模型的 模型参数; 模型参数增强单元,用于利用所述增强模型对所述模型参数进行增强处理,得到增强 后的模型参数; 增强模型生成单元,用于将增强后的模型参数替代对应的频谱模型和/或基频模型的 模型参数,得到增强的频谱模型和/或基频模型。12. 根据权利要求8或9所述的系统,其特征在于,所述初始语音合成模型包括:时长 模型、频谱模型、基频模型; 所述参数生成模块包括: 初始语音参数生成单元,用于利用所述初始语音合成模型分别生成对应所述待合成文 本的时长参数、频谱参数和基频参数; 参数增强单元,用于利用所述增强模型对所述频谱参数和/或基频参数进行增强处 理,得到增强后的频谱参数和/或基频参数,并将所述增强后的频谱参数和/或基频参数作 为合成语音时对应所述待合成文本的频谱参数和/或基频参数。
【专利摘要】本发明涉及语音合成技术领域,公开了一种实现合成语音增强的方法及系统,该方法包括:基于训练数据构建初始语音合成模型,所述训练数据包括文本数据及与所述文本数据对应的语音数据;建立增强模型,所述增强模型用于模拟所述初始语音合成模型生成的合成语音参数与自然语音参数的映射关系;在接收到待合成文本后,根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合成语音参数;利用所述合成语音参数生成连续语音信号。利用本发明,可以有效提高合成语音的增强效果。
【IPC分类】G10L21/02, G10L15/06
【公开号】CN105023574
【申请号】CN201410182886
【发明人】孙见青, 陈凌辉, 凌震华, 江源, 胡国平, 胡郁, 刘庆峰
【申请人】安徽科大讯飞信息科技股份有限公司
【公开日】2015年11月4日
【申请日】2014年4月30日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1