一种音频合成方法、装置、设备和存储介质与流程

文档序号：36267765发布日期：2023-12-06 15:05阅读：来源：国知局

技术特征：

1.一种音频合成方法，其特征在于，包括：

2.根据权利要求1所述的一种音频合成方法，其特征在于，所述获取目标口音特征向量，包括：

3.根据权利要求1所述的一种音频合成方法，其特征在于，所述获取目标口音特征向量，包括：

4.根据权利要求1所述的一种音频合成方法，其特征在于，所述音频合成模型包括编码器、嵌入网络以及解码器；

5.根据权利要求1所述的一种音频合成方法，其特征在于，在所述获取预设文本的标准音标文本之前，所述方法还包括：

6.根据权利要求5所述的一种音频合成方法，其特征在于，所述初始音频合成模型包括初始第一口音特征提取网络、初始第二口音特征提取网络、初始嵌入网络、初始编码器以及初始解码器；

7.根据权利要求6所述的一种音频合成方法，其特征在于，所述基于所述训练第二口音特征向量、所述训练身份标识向量与所述训练输出向量，获取训练输出声音特征参数，包括：

8.一种音频合成装置，其特征在于，包括：

9.一种设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1～7任一项所述的一种音频合成方法中的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1～7任一项所述的一种音频合成方法中的步骤。

技术总结
本申请实施例公开了一种音频合成方法、装置、设备和存储介质，包括：获取预设文本的标准音标文本，所述标准音标文本用于表征所述预设文本的标准读音；获取目标口音特征向量；获取目标身份标识；通过音频合成模型，根据所述标准音标文本、所述目标口音特征向量以及所述身份标识，生成目标声音特征参数；将所述目标声音特征参数转换成所述预设文本对应的目标音频，所述目标音频携带有所述目标口音特征向量对应的目标口音和所述目标身份标识对应的所述目标音色。通过训练音频合成模型来生成合成音频，使得合成音频能够呈现同语种下的不同口音和音色，改善现有的部分人群无法适应或理解普通话提示语音或引导语音的问题。

技术研发人员：杨丽兵
受保护的技术使用者：TCL科技集团股份有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2