一种语音合成方法和装置的制造方法_3

文档序号:9507143阅读:来源:国知局
学模型的训练,实现了用户个性化语音需求,提升了用户体验。
[0068]在上述实施例的基础上,可选的,所述装置还包括:
[0069]预设基准声学模型训练模块,用于根据非目标用户的语音数据训练获得预设基准声学模型。
[0070]在上述实施例的基础上,可选的,所述目标用户声学模型训练模块包括:
[0071]语音标注单元,用于对所述目标用户语音数据进行语音标注,,以获得所述目标用户语音数据对应的文本上下文信息;
[0072]声学特征参数获取单元,用于获取所述目标用户语音数据的声学特征参数;
[0073]目标用户声学模型训练单元,用于根据所述声学特征参数、文本上下文信息以及预设基准声学模型,训练目标用户声学模型。
[0074]在上述实施例的基础上,可选的,所述目标用户声学模型训练单元具体用于:
[0075]获取预设基准声学模型的神经网络结构;
[0076]根据所述声学特征参数、文本上下文信息以及所述预设基准声学模型的神经网络结构,训练目标用户声学模型。
[0077]在上述实施例的基础上,可选的,所述装置还包括:
[0078]待合成文本数据获取模块,用于获取待合成文本数据;
[0079]语音合成模块,用于根据目标用户声学模型,将所述待合成文本数据转换为语音数据。
[0080]在上述实施例的基础上,可选的,所述语音合成模块包括:
[0081]文本分析单元,用于对所述待合成文本数据进行文本分析,以获得所述待合成文本数据的上下文信息;
[0082]声学特征参数获取单元,用于根据所述目标用户声学模型,以及所述待合成文本数据的上下文信息,获得所述待合成文本数据的声学特征参数;
[0083]语音合成单元,用于根据所述待合成文本数据的声学特征参数,将所述待合成文本数据转换为语音数据。
[0084]在上述实施例的基础上,可选的,所述声学特征参数包括:时长特征参数、基频特征参数和频谱特征参数。
[0085]上述语音合成装置可执行本发明任意实施例所提供的语音合成方法,具备执行方法相应的功能模块和有益效果。
[0086]注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
【主权项】
1.一种语音合成方法,其特征在于,包括: 获取目标用户语音数据; 根据所述目标用户语音数据以及预设基准声学模型,训练目标用户声学模型。2.根据权利要求1所述的方法,其特征在于,在根据所述目标用户语音数据以及预设基准声学模型,训练目标用户声学模型之前,还包括: 根据非目标用户的语音数据训练获得预设基准声学模型。3.根据权利要求1所述的方法,其特征在于,根据所述目标用户语音数据以及预设基准声学模型,训练目标用户声学模型,包括: 对所述目标用户语音数据进行语音标注,以获得所述目标用户语音数据对应的文本上下文信息; 获取所述目标用户语音数据的声学特征参数; 根据所述声学特征参数、文本上下文信息以及预设基准声学模型,训练目标用户声学模型。4.根据权利要求3所述的方法,其特征在于,根据所述声学特征参数、文本上下文信息以及预设基准声学模型,训练目标用户声学模型,包括: 获取预设基准声学模型的神经网络结构; 根据所述声学特征参数、文本上下文信息以及所述预设基准声学模型的神经网络结构,训练目标用户声学模型。5.根据权利要求1所述的方法,其特征在于,在根据所述目标用户语音数据以及预设基准声学模型,训练目标用户声学模型之后,还包括: 获取待合成文本数据; 根据目标用户声学模型,将所述待合成文本数据转换为语音数据。6.根据权利要求5所述的方法,其特征在于,所述根据目标用户声学模型,将所述待合成文本数据转换为语音数据,包括: 对所述待合成文本数据进行文本分析,以获得所述待合成文本数据的上下文信息; 根据所述目标用户声学模型以及所述待合成文本数据的上下文信息,获得所述待合成文本数据的声学特征参数; 根据所述待合成文本数据的声学特征参数,将所述待合成文本数据转换为语音数据。7.根据权利要求3或6所述的方法,其特征在于,所述声学特征参数包括:时长特征参数、基频特征参数和频谱特征参数。8.一种语音合成装置,其特征在于,包括: 目标用户语音数据获取模块,用于获取目标用户语音数据; 目标用户声学模型训练模块,用于根据所述目标用户语音数据以及预设基准声学模型,训练目标用户声学模型。9.根据权利要求8所述的装置,其特征在于,还包括: 预设基准声学模型训练模块,用于根据非目标用户的语音数据训练获得预设基准声学模型。10.根据权利要求8所述的装置,其特征在于,所述目标用户声学模型训练模块包括: 语音标注单元,用于对所述目标用户语音数据进行语音标注,以获得所述目标用户语音数据对应的文本上下文信息; 声学特征参数获取单元,用于获取所述目标用户语音数据的声学特征参数; 目标用户声学模型训练单元,用于根据所述声学特征参数、文本上下文信息以及预设基准声学模型,训练目标用户声学模型。11.根据权利要求10所述的装置,其特征在于,所述目标用户声学模型训练单元具体用于: 获取预设基准声学模型的神经网络结构; 根据所述声学特征参数、文本上下文信息以及所述预设基准声学模型的神经网络结构,训练目标用户声学模型。12.根据权利要求8所述的装置,其特征在于,还包括: 待合成文本数据获取模块,用于获取待合成文本数据; 语音合成模块,用于根据目标用户声学模型,将所述待合成文本数据转换为语音数据。13.根据权利要求12所述的装置,其特征在于,所述语音合成模块包括: 文本分析单元,用于对所述待合成文本数据进行文本分析,以获得所述待合成文本数据的上下文信息; 声学特征参数获取单元,用于根据所述目标用户声学模型,以及所述待合成文本数据的上下文信息,获得所述待合成文本数据的声学特征参数; 语音合成单元,用于根据所述待合成文本数据的声学特征参数,将所述待合成文本数据转换为语音数据。14.根据权利要求10或13所述的装置,其特征在于,所述声学特征参数包括:时长特征参数、基频特征参数和频谱特征参数。
【专利摘要】本发明公开了一种语音合成方法和装置。所述语音合成方法,包括:获取目标用户语音数据;根据所述目标用户语音数据以及预设基准声学模型,训练目标用户声学模型。所述语音合成装置包括:目标用户语音数据获取模块,用于获取目标用户语音数据;目标用户声学模型训练模块,用于根据所述目标用户语音数据以及预设基准声学模型,训练目标用户声学模型。本发明实现了在个性化语音合成过程中,降低对用户录音数据的规模要求的效果。
【IPC分类】G10L13/02
【公开号】CN105261355
【申请号】CN201510557009
【发明人】李秀林, 谢延, 康永国, 关勇
【申请人】百度在线网络技术(北京)有限公司
【公开日】2016年1月20日
【申请日】2015年9月2日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1