一种语音生成模型的训练方法、语音生成方法及装置与流程

文档序号：35989798发布日期：2023-11-15 21:50阅读：46来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本公开涉及计算机，尤其涉及一种语音生成模型的训练方法、语音生成方法及装置。

背景技术：

1、目前，对于某一个文本而言，可以对该文本进行文本正则、分词、声韵母标注、多音字分析等工作，最终生成处理后文本对应的声韵母序列；然后根据该声韵母序列合成对应文本文字的波形序列，生成该文本对应的语音。

2、但是，上述方法中，每一个声韵母的发音时长可能不同，当某一个声韵母的发音时长与该文本文字没有对齐时，会导致后续的声韵母发音混乱，此时生成的语音可能不够准确，影响了语音生成的准确性。

技术实现思路

1、本公开提供一种语音生成模型的训练方法、语音生成方法及装置，解决了相关技术中当某一个声韵母的发音时长与该文本文字没有对齐时，会导致后续的声韵母发音混乱，此时生成的语音可能不够准确，影响了语音生成的准确性的技术问题。

2、本公开实施例的技术方案如下：

3、根据本公开实施例的第一方面，提供一种语音生成模型的训练方法。该方法可以包括：确定已识别文本的音素特征，该已识别文本的音素特征用于表征该已识别文本对应的多个音素的执行顺序；将该已识别文本的音素特征输入初始时长预测器得到第一时长序列，并且将该已识别文本的音素特征输入初始韵律预测器，得到该已识别文本的韵律特征，该第一时长序列用于表征该多个音素中每个音素的预测时长，该已识别文本的韵律特征用于表征该每个音素的基频和/或该每个音素的能量；基于该第一时长序列，分别对该已识别文本的音素特征、该已识别文本的韵律特征以及预设风格特征进行扩帧处理，得到第一扩帧特征、第二扩帧特征以及第三扩帧特征，该预设风格特征与预设风格具有对应关系；拼接该第一扩帧特征、该第二扩帧特征以及该第三扩帧特征，得到该已识别文本的融合特征，并且将该已识别文本的融合特征输入初始解码器，得到该已识别文本的预测梅尔频谱；基于该已识别文本的预测梅尔频谱，对初始语音生成模型进行训练，以生成该目标语音生成模型，该初始语音生成模型中包括该初始时长预测器、该初始韵律预测器以及该初始解码器。

4、可选地，上述已识别文本的韵律特征用于表征该每个音素的基频，基于该第一时长序列，对该已识别文本的韵律特征进行扩帧处理，得到该第二扩帧特征，具体包括：基于第一音素的预测时长，确定扩帧后的该第一音素的基频的数量，该第一音素为该多个音素中的一个；基于该每个音素的基频以及扩帧后的该每个音素的基频的数量，得到该第二扩帧特征。

5、可选地，上述基于该已识别文本的预测梅尔频谱，对该初始语音生成模型进行训练，以生成该目标语音生成模型，具体包括：基于该已识别文本的预测梅尔频谱和该已识别文本的真实梅尔频谱，确定第一损失；基于该第一损失更新该初始语音生成模型中的参数，得到该目标语音生成模型。

6、可选地，上述基于该已识别文本的预测梅尔频谱和该已识别文本的真实梅尔频谱，确定第一损失，具体包括：确定第一梅尔频谱序列包括的m步中的每一步与第二梅尔频谱序列包括的n步中的每一步之间的损失，该第一梅尔频谱序列用于表征该已识别文本的预测梅尔频谱，该第二梅尔频谱序列用于表征该已识别文本的真实梅尔频谱，m为大于或等于1的整数，n为大于或等于1的整数；将该第一梅尔频谱序列包括的m步中的每一步与该第二梅尔频谱序列包括的n步中的每一步之间的损失之和，确定为该第一损失。

7、可选地，上述语音生成模型的训练方法还包括：获取第二时长序列，该第二时长序列用于表征该多个音素中每个音素的真实时长；基于该第二时长序列，对该已识别文本的韵律特征进行扩帧处理，得到第四扩帧特征；基于该第四扩帧特征以及该第二扩帧特征，确定第二损失；基于该第二损失，更新该初始韵律预测器中的参数，得到目标韵律预测器，该目标韵律预测器为该目标语音生成模型中的韵律预测器。

8、可选地，上述语音生成模型的训练方法还包括：获取该已识别文本的音素序列，该已识别文本的音素序列包括该多个音素；将该已识别文本的音素序列输入目标内容编码器，得到该已识别文本的音素特征，该目标内容编码器为该目标语音生成模型中包括的内容编码器。

9、根据本公开实施例的第二方面，提供一种语音生成方法。该方法可以包括：确定待识别文本的音素特征；将该待识别文本的音素特征输入目标语音生成模型，得到该待识别文本的预测梅尔频谱，该目标语音生成模型是基于上述第一方面中任一种可选地语音生成模型的训练方法训练得到的，该待识别文本的预测梅尔频谱用于生成该待识别文本对应的语音。

10、根据本公开实施例的第三方面，提供一种语音生成模型的训练装置。该装置可以包括：确定模块和处理模块；该确定模块，被配置为确定已识别文本的音素特征，该已识别文本的音素特征用于表征该已识别文本对应的多个音素的执行顺序；该处理模块，被配置为将该已识别文本的音素特征输入初始时长预测器得到第一时长序列，并且将该已识别文本的音素特征输入初始韵律预测器，得到该已识别文本的韵律特征，该第一时长序列用于表征该多个音素中每个音素的预测时长，该已识别文本的韵律特征用于表征该每个音素的基频和/或该每个音素的能量；该处理模块，还被配置为基于该第一时长序列，分别对该已识别文本的音素特征、该已识别文本的韵律特征以及预设风格特征进行扩帧处理，得到第一扩帧特征、第二扩帧特征以及第三扩帧特征，该预设风格特征与预设风格具有对应关系；该处理模块，还被配置为拼接该第一扩帧特征、该第二扩帧特征以及该第三扩帧特征，得到该已识别文本的融合特征，并且将该已识别文本的融合特征输入初始解码器，得到该已识别文本的预测梅尔频谱；该处理模块，还被配置为基于该已识别文本的预测梅尔频谱，对该初始语音生成模型进行训练，以生成该目标语音生成模型，该初始语音生成模型中包括该初始时长预测器、该初始韵律预测器以及该初始解码器。

11、可选地，上述已识别文本的韵律特征用于表征该每个音素的基频，该确定模块，具体被配置为基于第一音素的预测时长，确定扩帧后的该第一音素的基频的数量，该第一音素为该多个音素中的一个；该处理模块，具体被配置为基于该每个音素的基频以及扩帧后的该每个音素的基频的数量，得到该第二扩帧特征。

12、可选地，该确定模块，还具体被配置为基于该已识别文本的预测梅尔频谱和该已识别文本的真实梅尔频谱，确定第一损失；该处理模块，还具体被配置为基于该第一损失更新该初始语音生成模型中的参数，得到该目标语音生成模型。

13、可选地，该确定模块，还具体被配置为确定第一梅尔频谱序列包括的m步中的每一步与第二梅尔频谱序列包括的n步中的每一步之间的损失，该第一梅尔频谱序列用于表征该已识别文本的预测梅尔频谱，该第二梅尔频谱序列用于表征该已识别文本的真实梅尔频谱，m为大于或等于1的整数，n为大于或等于1的整数；该确定模块，还具体被配置为将该第一梅尔频谱序列包括的m步中的每一步与该第二梅尔频谱序列包括的n步中的每一步之间的损失之和，确定为该第一损失。

14、可选地，该语音生成模型的训练装置还包括获取模块；该获取模块，被配置为获取第二时长序列，该第二时长序列用于表征该多个音素中每个音素的真实时长；该处理模块，还被配置为基于该第二时长序列，对该已识别文本的韵律特征进行扩帧处理，得到第四扩帧特征；该确定模块，还被配置为基于该第四扩帧特征以及该第二扩帧特征，确定第二损失；该处理模块，还被配置为基于该第二损失，更新初始韵律预测器中的参数，得到该目标韵律预测器，该目标韵律预测器为该目标语音生成模型中的韵律预测器。

15、可选地，该获取模块，还被配置为获取该已识别文本的音素序列，该已识别文本的音素序列包括该多个音素；该处理模块，还被配置为将该已识别文本的音素序列输入目标内容编码器，得到该已识别文本的音素特征，该目标内容编码器为该目标语音生成模型中包括的内容编码器。

16、根据本公开实施例的第四方面，提供一种语音生成装置。该装置可以包括：确定模块和处理模块；该确定模块，被配置为确定待识别文本的音素特征；该处理模块，被配置为将该待识别文本的音素特征输入目标语音生成模型，得到该待识别文本的预测梅尔频谱，该目标语音生成模型是基于上述第一方面中任一种可选地语音生成模型的训练方法训练得到的，该待识别文本的预测梅尔频谱用于生成该待识别文本对应的语音。

17、根据本公开实施例的第五方面，提供一种电子设备，可以包括：处理器和被配置为存储处理器可执行指令的存储器；其中，处理器被配置为执行该指令，以实现上述第一方面中任一种可选地语音生成模型的训练方法，或者实现上述第二方面中任一种可选地语音生成方法。

18、根据本公开实施例的第六方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，当该计算机可读存储介质中的指令由电子设备的处理器执行时，使得该电子设备能够执行上述第一方面中任一种可选地语音生成模型的训练方法，或者执行上述第二方面中任一种可选地语音生成方法。

19、根据本公开实施例的第七方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，当该计算机指令在电子设备的处理器上运行时，使得该电子设备执行如第一方面中任一种可选地语音生成模型的训练方法，或者执行上述第二方面中任一种可选地语音生成方法。

20、本公开的实施例提供的技术方案至少带来以下有益效果：

21、基于上述任一方面，本公开中，可以确定已识别文本的音素特征，然后将该已识别文本的音素特征输入初始时长预测器得到第一时长序列，以及将该已识别文本的音素特征输入初始韵律预测器，得到已识别文本的韵律特征；之后电子设备可以基于该第一时长序列，分别对该已识别文本的音素特征、该已识别文本的韵律特征以及预设风格特征进行扩帧处理，得到第一扩帧特征、第二扩帧特征以及第三扩帧特征；另外，电子设备还可以拼接该第一扩帧特征、该第二扩帧特征以及该第三扩帧特征，得到该已识别文本的融合特征，并且将该已识别文本的融合特征输入初始解码器，得到该已识别文本的预测梅尔频谱；最终，电子设备可以基于该已识别文本的预测梅尔频谱，对初始语音生成模型进行训练，以生成目标语音生成模型。本公开实施例中，由于已识别文本的融合特征可以融合表征已识别文本对应的多个音素的执行顺序、该多个音素中每个音素的基频(和/或能量)、该每个音素的发音时长以及预设风格，因此电子设备将该已识别文本的融合特征输入初始解码器得到的该已识别文本的预测梅尔频谱可以准确、有效地表征出该已识别文本被预测出的语音特征。如此，电子设备基于该已识别文本的预测梅尔频谱对初始语音生成模型进行训练，能够生成准确度较高的目标语音生成模型，提升了模型训练的准确度。进而电子设备可以基于该目标语音生成模型准确、有效地预测出每一个文本的梅尔频谱，能够提升语音生成的准确性。

22、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张颖
技术所有人：北京达佳互联信息技术有限公司
我是此专利的发明人