语音合成方法、装置、电子设备及存储介质与流程

文档序号：26586369发布日期：2021-09-10 19:22阅读：来源：国知局

技术特征：
1.一种语音合成方法，其特征在于，所述方法包括：获取待合成文本的音素数据和说话人标识；将所述音素数据和所述说话人标识输入预设的音素特征预测模型，预测目标说话人对应的所述待合成文本的音素特征；所述目标说话人为所述说话人标识对应的说话人；其中，所述音素特征预测模型是根据多个特定说话人的语料数据训练而成，每个所述特定说话人对应有至少一个语言种类，所述目标说话人为所述特定说话人中的一个；所述待合成文本对应的语言种类为全部所述特定说话人对应的语言种类的一种；根据所述目标说话人对应的所述待合成文本的音素特征、所述音素数据、所述说话人标识合成所述待合成文本对应的目标说话人音频。2.根据权利要求1所述的语音合成方法，其特征在于，将所述音素数据和所述说话人标识输入预设的音素特征预测模型，预测所述目标说话人对应的所述待合成文本的音素特征，包括：将所述待合成文本对应的音素数据和所述说话人标识输入所述音素特征预测模型，确定所述目标说话人；通过所述音素特征预测模型的时长预测子模型，获得所述目标说话人对应的所述待合成文本的每个音素的时长信息；通过所述音素特征预测模型的音高预测子模型，获得所述目标说话人对应的所述待合成文本的每个音素的音高信息；通过所述音素特征预测模型的能量预测子模型，获得所述目标说话人对应的所述待合成文本的每个音素的能量信息。3.根据权利要求1所述的语音合成方法，其特征在于，根据所述目标说话人对应的所述待合成文本的音素特征、所述音素数据以及所述说话人标识合成所述待合成文本对应的目标说话人音频，包括：将所述目标说话人对应的所述待合成文本的音素特征、所述音素数据以及所述说话人标识输入预设的声学模型，获得所述目标说话人对应的所述待合成文本的声学频谱；基于所述声学频谱进行语音合成，得到所述目标说话人音频。4.根据权利要求1所述的语音合成方法，其特征在于，在获取待合成文本的音素数据和目标说话人对应的说话人标识的步骤之前，所述方法还包括：显示语音合成用户界面，所述语音合成用户界面上具有文本录入区域、说话人选择区域；所述目标说话人选择区域内具有全部所述特定说话人的选择标识；当在所述文本录入区域接收到录入操作指令，将获得的文本确定为所述待合成文本；当在所述说话人选择区接收到选择操作，将被选择的所述特定说话人对应的编码确定为所述说话人标识。5.根据权利要求4所述的语音合成方法，其特征在于，获取待合成文本的音素数据和说话人标识，包括：将获得的所述待合成文本进行音素转换，确定音素嵌入表示向量；针对每个所述音素对应的语言种类，为每个所述音素配置语言种类标签，获得所述待合成文本对应的音素标签向量；将被选择的所述特定说话人的标识确定为所述说话人标识。
6.根据权利要求1所述的语音合成方法，其特征在于，所述音素特征预测模型是按照以下方式训练的：获得全部所述特定说话人的所述语料数据，所述语料数据包括音频波形数据和所述音频波形数据对应的文本；针对每个所述特定说话人，根据所述音频波形数据获得所述文本的每个音素对应的时长信息以及与所述时长信息对应的音高信息和能量信息；基于全部所述特定说话人对应的时长信息、音高信息和能量信息进行模型训练，获得所述音素特征预测模型。7.根据权利要求4所述的语音合成方法，其特征在于，所述方法还包括：当在所述语音合成用户界面接收到预览操作，输出所述目标说话人音频。8.一种语音合成装置，其特征在于,包括：获取模块，用于获取待合成文本的音素数据和说话人标识；预测模块，用于将所述音素数据和所述说话人标识输入预设的音素特征预测模型，预测目标说话人对应的所述待合成文本的音素特征；所述目标说话人为所述说话人标识对应的说话人；其中，所述音素特征预测模型是根据多个特定说话人的语料数据训练而成，每个所述特定说话人对应有至少一个语言种类，所述目标说话人为所述特定说话人中的一个；所述待合成文本对应的语言种类为全部所述特定说话人对应的语言种类的一种；合成模块，用于根据所述目标说话人对应的所述待合成文本的音素特征、所述音素数据、所述说话人标识合成所述待合成文本对应的目标说话人音频。9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现权利要求1
‑
7任一所述的方法。10.一种存储介质,其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1
‑
7中任一项所述的方法。

技术总结
本发明提供的语音合成方法、装置、电子设备及存储介质，方法包括：获取待合成文本的音素数据和说话人标识；将音素数据和说话人标识输入预设的音素特征预测模型，预测目标说话人对应的待合成文本的音素特征；音素特征预测模型是根据多个特定说话人的语料数据训练而成，目标说话人为特定说话人中的一个；根据目标说话人对应的待合成文本的音素特征、音素数据、说话人标识合成待合成文本对应的目标说话人音频。本发明以音素特征预测模型预测目标说话人针对待合成文本的音素特征，以此为约束条件合成的语音中目标说话人音色与真实音色的相似度，提升合成语音的自然度。提升合成语音的自然度。提升合成语音的自然度。

技术研发人员：游于人康世胤陀得意刘峰
受保护的技术使用者：广州虎牙科技有限公司
技术研发日：2021.06.09
技术公布日：2021/9/9

完整全部详细技术资料下载

当前第2页1 2