语音合成模型的训练方法、语音合成方法和装置与流程

文档序号：29127948发布日期：2022-03-05 00:39阅读：来源：国知局

技术特征：
1.一种语音合成模型的训练方法，包括：利用所述语音合成模型处理训练数据，确定与所述训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列；根据内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列，确定总损失值；以及根据所述总损失值，调整所述语音合成模型的参数。2.根据权利要求1所述的方法，其中，所述语音合成模型包括内容编码器、风格编码器、音色编码器、噪声环境编码器和解码器；所述确定与所述训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列，包括：根据所述训练数据，生成音子序列样本和梅尔频谱样本；将所述音子序列样本输入所述内容编码器，得到所述内容编码序列；将所述音子序列样本输入所述风格编码器，得到所述风格编码序列；将所述梅尔频谱样本输入音色编码器，得到所述音色编码向量；将所述梅尔频谱样本输入所述噪声环境编码器，得到所述噪声环境向量；以及对所述音子序列样本和所述梅尔频谱样本进行风格提取操作，得到与所述训练数据对应的参考人声类型；将所述内容编码序列、所述参考人声类型、所述音色编码向量和所述噪声环境向量输入解码器，得到所述目标梅尔频谱序列。3.根据权利要求2所述的方法，其中，所述根据内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列，确定总损失值，包括：根据所述目标梅尔频谱序列和与所述训练数据对应的标准梅尔频谱序列，确定梅尔频谱重构损失；根据所述参考人声类型和与所述训练数据对应的标准人声类型，确定第一音色对抗损失；根据所述风格编码序列、所述参考人声类型和所述标准人声类型，确定风格损失；根据所述音色编码向量和与所述训练数据对应的标准音色，确定音色分类损失；根据所述音色编码向量和与所述训练数据对应的标准噪声类型，确定噪声对抗损失；根据所述噪声环境向量和与所述训练数据对应的标准人声类型，确定第二音色对抗损失；以及根据所述梅尔频谱重构损失、第一音色对抗损失、风格损失、音色分类损失、噪声对抗损失和第二音色对抗损失，确定所述总损失值。4.根据权利要求2或3所述的方法，其中，所述内容编码器包括：多个卷积层和双向长短期记忆人工神经网络，其中，所述多个卷积层之间采用残差连接的方式进行连接。5.根据权利要求2或3所述的方法，其中，所述风格编码器包括：多个卷积层和循环神经网络。6.根据权利要求2或3所述的方法，其中，所述音色编码器包括：多个卷积层和门控循环单元。7.根据权利要求2或3所述的方法，其中，所述噪声环境编码器包括：多个卷积层和门控循环单元。
8.根据权利要求2或3所述的方法，其中，所述解码器包括：基于注意力机制的自回归结构。9.一种语音合成方法，包括：利用语音合成模型，根据目标文本、目标风格、目标音色、目标噪声环境，确定目标频谱序列；以及根据所述目标频谱序列，生成目标音频，其中，所述语音合成模型是根据权利要求1-7中任一项所述的方法训练得到的。10.根据权利要求9所述的方法，其中，所述语音合成模型包括内容编码器、风格编码器、音色编码器、噪声环境编码器和解码器；所述利用语音合成模型，根据目标文本、目标风格、目标音色、目标噪声环境，生成目标频谱序列，包括：确定与所述目标文本对应的音子序列；将所述音子序列输入内容编码器，得到内容编码序列；将所述音子序列和目标风格的风格标识输入风格编码器，得到风格编码序列；将与目标音色对应的第一梅尔频谱序列输入音色编码器，得到音色编码向量；将与目标噪声环境对应的第二梅尔频谱序列输入噪声环境编码器，得到噪声环境向量；以及将所述内容编码序列、所述风格编码序列、所述音色编码向量和所述噪声环境向量输入解码器，得到目标频谱序列。11.一种语音合成模型的训练装置，包括：第一确定模块，用于利用所述语音合成模型处理训练数据，确定与所述训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列；第二确定模块，用于根据内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列，确定总损失值；以及调整模块，用于根据所述总损失值，调整所述语音合成模型的参数。12.一种语音合成装置，包括：第三确定模块，用于利用语音合成模型，根据目标文本、目标风格、目标音色、目标噪声环境，确定目标频谱序列；以及生成模块，用于根据所述目标频谱序列，生成目标音频，其中，所述语音合成模型是根据权利要求1-8中任一项所述的方法训练得到的。13.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。15.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-10中任一项所述方法的步骤。

技术总结
本公开提供了一种语音合成模型的训练方法、语音合成方法、装置、设备以及存储介质，涉及人工智能技术领域，尤其涉及语音合成技术领域。具体实现方案为：利用语音合成模型处理训练数据，确定与训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列；根据内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列，确定总损失值；以及根据总损失值，调整语音合成模型的参数。调整语音合成模型的参数。调整语音合成模型的参数。

技术研发人员：王文富孙涛王锡磊贾磊
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.12.07
技术公布日：2022/3/4

完整全部详细技术资料下载

当前第2页1 2