本发明涉及计算机,具体而言,涉及一种模型训练方法、语音合成方法、装置、设备及存储介质。
背景技术:
1、语音合成是一种根据给定的文本输入生成对应语音的技术,生成的语音自然度和表现力越高,代表语音合成的质量越好。而决定自然度和表现力的一个关键音素就是语音的韵律,在语音学中韵律被定义为讲话的过程中非独立音段(元音和辅音)的成分,即音节或更大单位的性质。这些性质形成语调、声调、重读和等时性等语言功能。通俗来讲就是说话时的抑扬顿挫。通过提升合成语音的韵律来提升语音合成的表现成为了研究热点。
2、相关技术中,采用韵律参考模块根据预设语谱图生成全局韵律信息;采用语音合成模型,根据全局韵律信息和文本数据,生成文本数据对应的具有全局韵律信息的语谱图,这样基于具有全局韵律信息的语谱图生成的语音具有韵律。
3、但是,相关技术中,这种方法需要在推理阶段,需要在语音合成模型的基础上,添加额外的韵律参考模块。
技术实现思路
1、本发明的目的在于,针对上述现有技术中的不足,提供一种模型训练方法、语音合成方法、装置、设备及存储介质,以便解决相关技术中所存在的上述技术问题。
2、为实现上述目的,本发明实施例采用的技术方案如下:
3、第一方面,本发明实施例提供了一种语音合成模型训练方法,所述方法包括:
4、获取样本文本数据以及所述样本文本数据对应的第一样本语谱图;
5、采用初始语音合成模型,根据所述样本文本数据预测得到第二样本语谱图;
6、计算所述第一样本语谱图的第一样本韵律细节信息以及所述第二样本语谱图的第二样本韵律细节信息;
7、根据所述第一样本语谱图、所述第二样本语谱图、所述第一样本韵律细节信息、所述第二样本韵律细节信息,对初始语音合成模型进行训练,直至满足第一预设终止条件,得到语音合成模型;其中,所述语音合成模型用于根据文本数据生成具有韵律细节信息的语谱图。
8、第二方面,本发明实施例还提供了一种语音合成方法,所述方法包括:
9、获取文本数据:
10、采用语音合成模型根据所述文本数据输出语谱图,所述语音合成模型是采用上述第一方面任一项所述的模型训练方法训练得到的模型;其中,所述语谱图为具有韵律细节信息的语谱图;
11、根据所述语谱图生成所述文本数据对应的音频。
12、第三方面,本发明实施例还提供了一种语音合成模型训练装置,所述装置包括:
13、获取模块,用于获取样本文本数据以及所述样本文本数据对应的第一样本语谱图;
14、预测模块,用于采用初始语音合成模型,根据所述样本文本数据预测得到第二样本语谱图;
15、计算模块,用于计算所述第一样本语谱图的第一样本韵律细节信息以及所述第二样本语谱图的第二样本韵律细节信息;
16、训练模块,用于根据所述第一样本语谱图、所述第二样本语谱图、所述第一样本韵律细节信息、所述第二样本韵律细节信息,对初始语音合成模型进行训练,直至满足第一预设终止条件,得到语音合成模型;其中,所述语音合成模型用于根据文本数据生成具有韵律细节信息的语谱图。
17、第四方面,本发明实施例还提供了一种语音合成装置,所述装置包括:
18、获取模块,用于获取文本数据:
19、输出模块,用于采用语音合成模型根据所述文本数据输出语谱图,所述语音合成模型是采用上述第一方面任一项所述的模型训练方法训练得到的模型;其中,所述语谱图为具有韵律细节信息的语谱图;
20、生成模块,用于根据所述语谱图生成所述文本数据对应的音频。
21、第五方面,本发明实施例还提供了一种电子设备,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的语音合成模型训练方法,或者,上述第二方面任一项所述的语音合成方法。
22、第六方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述第一方面任一项所述的语音合成模型训练方法,或者,上述第二方面任一项所述的语音合成方法。
23、本发明的有益效果是:本申请实施例提供的一种语音合成模型训练方法,该方法包括:获取样本文本数据以及样本文本数据对应的第一样本语谱图;采用初始语音合成模型,根据样本文本数据预测得到第二样本语谱图;计算第一样本语谱图的第一样本韵律细节信息以及第二样本语谱图的第二样本韵律细节信息;根据第一样本语谱图、第二样本语谱图、第一样本韵律细节信息、第二样本韵律细节信息,对初始语音合成模型进行训练,直至满足第一预设终止条件,得到语音合成模型;其中,语音合成模型用于根据文本数据生成具有韵律细节信息的语谱图。自动计算第一样本韵律细节信息和第二样本韵律细节信息,基于计算的韵律细节信息、第一样本语谱图以及第二样本语谱图来训练得到语音合成模型,语音合成模型在训练的过程中可以学习到提取韵律细节信息,这样在推理阶段无语添加额外的模块,采用语音合成模型便可以根据文本数据输出具有韵律细节信息的语谱图。
1.一种语音合成模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一样本语谱图、所述第二样本语谱图、所述第一样本韵律细节信息、所述第二样本韵律细节信息,对初始语音合成模型进行训练,直至满足第一预设终止条件,得到语音合成模型,包括:
3.根据权利要求1所述的方法,其特征在于,所述计算所述第一样本语谱图的第一样本韵律细节信息以及所述第二样本语谱图的第二样本韵律细节信息,包括:
4.根据权利要求3所述的方法,其特征在于,在所述采用韵律信息预测模型,根据所述第一样本语谱图预测所述第一样本韵律细节信息之前,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述第三样本语谱图以及所述样本韵律细节信息标签,对初始韵律信息预测模型进行训练,直至满足第二预设终止条件,得到所述韵律信息预测模型,包括:
6.一种语音合成方法,其特征在于,所述方法包括:
7.根据权利要求6所述的方法,其特征在于,所述根据所述语谱图生成所述文本数据对应的音频,包括:
8.一种语音合成模型训练装置,其特征在于,所述装置包括:
9.一种语音合成装置,其特征在于,所述装置包括:
10.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1-5任一项所述的语音合成模型训练方法,或者,上述权利要求6-7任一项所述的语音合成方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述权利要求1-5任一项所述的语音合成模型训练方法,或者,上述权利要求6-7任一项所述的语音合成方法。