一种语音合成方法和装置的制造方法_3

文档序号：9507143阅读：来源：国知局

学模型的训练，实现了用户个性化语音需求，提升了用户体验。
[0068]在上述实施例的基础上，可选的，所述装置还包括:
[0069]预设基准声学模型训练模块，用于根据非目标用户的语音数据训练获得预设基准声学模型。
[0070]在上述实施例的基础上，可选的，所述目标用户声学模型训练模块包括:
[0071]语音标注单元，用于对所述目标用户语音数据进行语音标注，，以获得所述目标用户语音数据对应的文本上下文信息；
[0072]声学特征参数获取单元，用于获取所述目标用户语音数据的声学特征参数；
[0073]目标用户声学模型训练单元，用于根据所述声学特征参数、文本上下文信息以及预设基准声学模型，训练目标用户声学模型。
[0074]在上述实施例的基础上，可选的，所述目标用户声学模型训练单元具体用于:
[0075]获取预设基准声学模型的神经网络结构；
[0076]根据所述声学特征参数、文本上下文信息以及所述预设基准声学模型的神经网络结构，训练目标用户声学模型。
[0077]在上述实施例的基础上，可选的，所述装置还包括:
[0078]待合成文本数据获取模块，用于获取待合成文本数据；
[0079]语音合成模块，用于根据目标用户声学模型，将所述待合成文本数据转换为语音数据。
[0080]在上述实施例的基础上，可选的，所述语音合成模块包括:
[0081]文本分析单元，用于对所述待合成文本数据进行文本分析，以获得所述待合成文本数据的上下文信息；
[0082]声学特征参数获取单元，用于根据所述目标用户声学模型，以及所述待合成文本数据的上下文信息，获得所述待合成文本数据的声学特征参数；
[0083]语音合成单元，用于根据所述待合成文本数据的声学特征参数，将所述待合成文本数据转换为语音数据。
[0084]在上述实施例的基础上，可选的，所述声学特征参数包括:时长特征参数、基频特征参数和频谱特征参数。
[0085]上述语音合成装置可执行本发明任意实施例所提供的语音合成方法，具备执行方法相应的功能模块和有益效果。
[0086]注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。
【主权项】
1.一种语音合成方法，其特征在于，包括: 获取目标用户语音数据；根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型。2.根据权利要求1所述的方法，其特征在于，在根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型之前，还包括: 根据非目标用户的语音数据训练获得预设基准声学模型。3.根据权利要求1所述的方法，其特征在于，根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型，包括: 对所述目标用户语音数据进行语音标注，以获得所述目标用户语音数据对应的文本上下文信息；获取所述目标用户语音数据的声学特征参数；根据所述声学特征参数、文本上下文信息以及预设基准声学模型，训练目标用户声学模型。4.根据权利要求3所述的方法，其特征在于，根据所述声学特征参数、文本上下文信息以及预设基准声学模型，训练目标用户声学模型，包括: 获取预设基准声学模型的神经网络结构；根据所述声学特征参数、文本上下文信息以及所述预设基准声学模型的神经网络结构，训练目标用户声学模型。5.根据权利要求1所述的方法，其特征在于，在根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型之后，还包括: 获取待合成文本数据；根据目标用户声学模型，将所述待合成文本数据转换为语音数据。6.根据权利要求5所述的方法，其特征在于，所述根据目标用户声学模型，将所述待合成文本数据转换为语音数据，包括: 对所述待合成文本数据进行文本分析，以获得所述待合成文本数据的上下文信息；根据所述目标用户声学模型以及所述待合成文本数据的上下文信息，获得所述待合成文本数据的声学特征参数；根据所述待合成文本数据的声学特征参数，将所述待合成文本数据转换为语音数据。7.根据权利要求3或6所述的方法，其特征在于，所述声学特征参数包括:时长特征参数、基频特征参数和频谱特征参数。8.一种语音合成装置，其特征在于，包括: 目标用户语音数据获取模块，用于获取目标用户语音数据；目标用户声学模型训练模块，用于根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型。9.根据权利要求8所述的装置，其特征在于，还包括: 预设基准声学模型训练模块，用于根据非目标用户的语音数据训练获得预设基准声学模型。10.根据权利要求8所述的装置，其特征在于，所述目标用户声学模型训练模块包括: 语音标注单元，用于对所述目标用户语音数据进行语音标注，以获得所述目标用户语音数据对应的文本上下文信息；声学特征参数获取单元，用于获取所述目标用户语音数据的声学特征参数；目标用户声学模型训练单元，用于根据所述声学特征参数、文本上下文信息以及预设基准声学模型，训练目标用户声学模型。11.根据权利要求10所述的装置，其特征在于，所述目标用户声学模型训练单元具体用于: 获取预设基准声学模型的神经网络结构；根据所述声学特征参数、文本上下文信息以及所述预设基准声学模型的神经网络结构，训练目标用户声学模型。12.根据权利要求8所述的装置，其特征在于，还包括: 待合成文本数据获取模块，用于获取待合成文本数据；语音合成模块，用于根据目标用户声学模型，将所述待合成文本数据转换为语音数据。13.根据权利要求12所述的装置，其特征在于，所述语音合成模块包括: 文本分析单元，用于对所述待合成文本数据进行文本分析，以获得所述待合成文本数据的上下文信息；声学特征参数获取单元，用于根据所述目标用户声学模型，以及所述待合成文本数据的上下文信息，获得所述待合成文本数据的声学特征参数；语音合成单元，用于根据所述待合成文本数据的声学特征参数，将所述待合成文本数据转换为语音数据。14.根据权利要求10或13所述的装置，其特征在于，所述声学特征参数包括:时长特征参数、基频特征参数和频谱特征参数。
【专利摘要】本发明公开了一种语音合成方法和装置。所述语音合成方法，包括：获取目标用户语音数据；根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型。所述语音合成装置包括：目标用户语音数据获取模块，用于获取目标用户语音数据；目标用户声学模型训练模块，用于根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型。本发明实现了在个性化语音合成过程中，降低对用户录音数据的规模要求的效果。
【IPC分类】G10L13/02
【公开号】CN105261355
【申请号】CN201510557009
【发明人】李秀林, 谢延, 康永国, 关勇
【申请人】百度在线网络技术（北京）有限公司
【公开日】2016年1月20日
【申请日】2015年9月2日

完整全部详细技术资料下载

当前第3页1 2 3