语音合成方法、语音合成系统、电子设备及存储介质与流程

文档序号:35288881发布日期:2023-09-01 10:26阅读:85来源:国知局

本技术涉及金融科技,尤其涉及一种语音合成方法、语音合成系统、电子设备及存储介质。


背景技术:

1、语音合成是指将给定的文本转换为自然且可理解的语音的技术。目前,随着智能语音技术在金融科技的智能电话客服、智能销售等任务场景中的广泛使用,合成富有表现力的语音是当前研究的重点。为了可以合成情感表达方面更加接近真人情感化表达的语音效果,相关技术中的语音合成技术是通过从参考音频中提取音频情感特征,以使输入的文本学习到该音频情感特征,从而生成和参考音频的情感接近的合成语音。然而,由于语音的韵律、时间和频谱特征的组合多样性,使得产生的合成语音也是具有丰富性。目前,相关技术中的语音合成方法从参考音频中提取的特征粒度较粗,使得生成的合成语音的韵律和情感表达不够准确。因此,如何生成韵律和情感表达更准确的合成语音,成为了亟待解决的技术问题。


技术实现思路

1、本技术实施例的主要目的在于提出了一种语音合成方法、语音合成系统、电子设备及存储介质,能够生成韵律和情感表达更准确的合成语音。

2、为实现上述目的,本技术实施例的第一方面提出了一种语音合成方法,所述方法包括:

3、获取样本数据,所述样本数据包括样本文本和样本语音,所述样本语音的语音内容为所述样本文本;

4、将所述样本数据输入至预设的原始语音模型进行语音合成处理,得到目标合成语音;

5、根据所述样本语音和所述目标合成语音对所述原始语音模型进行参数调整,得到初始语音模型,所述初始语音模型包括样本编码子模型;

6、将所述样本数据输入至所述样本编码子模型进行样本编码处理,得到样本编码特征;

7、通过预设的语音预测子模型对所述样本编码特征进行语音预测处理,得到语音预测特征;

8、根据所述样本编码特征和所述语音预测特征对所述样本文本进行语音合成处理,得到预测合成语音;

9、根据所述样本语音和所述预测合成语音,对所述样本编码子模型进行参数调整,并对所述语音预测子模型进行参数调整;

10、根据调整后的所述语音预测子模型和所述语音预测子模型得到语音合成模型;

11、将目标文本和目标风格语音输入至所述语音合成模型进行语音合成处理,得到目标合成语音。

12、在一些实施例中,所述原始语音模型包括对齐器和解码器,所述样本编码子模型包括文本编码器、风格编码器、音高编码器,所述将所述样本数据输入至预设的原始语音模型进行语音合成处理,得到目标合成语音,包括:

13、通过所述对齐器对所述样本数据进行文本对齐处理,得到文本对齐特征;

14、通过所述文本编码器对所述样本文本进行文本编码处理,得到文本编码特征;

15、通过所述风格编码器对所述样本语音进行风格编码处理,得到风格编码特征;

16、通过所述音高编码器对所述样本语音进行音高编码处理,得到音高能量特征;

17、对所述文本对齐特征、所述文本编码特征、所述风格编码特征和所述音高能量特征进行特征拼接,得到目标语音特征;

18、通过所述解码器对所述目标语音特征进行语音合成处理,得到所述目标合成语音。

19、在一些实施例中,所述样本编码特征包括文本编码特征和风格编码特征,所述语音预测子模型包括时长预测器和音高预测器,所述通过预设的语音预测子模型对所述样本编码特征进行语音预测处理,得到语音预测特征,包括:

20、通过所述时长预测器对所述文本编码特征进行时长预测处理,得到时长预测特征;

21、将所述文本编码特征和所述风格编码特征输入至所述音高预测器进行音高能量预测处理,得到音高能量预测特征;

22、对所述时长预测特征和所述音高能量预测特征进行特征拼接,得到所述语音预测特征。

23、在一些实施例中,所述音高预测器包括双向反馈网络层、归一化层和线性投影层,所述将所述文本编码特征和所述风格编码特征输入至所述音高预测器进行音高能量预测处理,得到音高能量预测特征,包括:

24、将所述文本编码特征和所述风格编码特征输入至所述双向反馈网络层进行音高能量预测处理,得到音高能量隐藏特征;

25、根据所述归一化层对所述音高能量隐藏特征进行归一化处理,得到音高能量归一化特征;

26、根据所述线性投影层对所述音高能量归一化特征进行线性投影处理,得到所述音高能量预测特征。

27、在一些实施例中,所述样本编码特征还包括音高能量特征,所述根据所述样本语音和所述预测合成语音,对所述样本编码子模型进行参数调整,并对所述语音预测子模型进行参数调整,包括:

28、根据所述音高能量特征和所述音高能量预测特征进行音高能量损失计算,得到音高能量损失数据;

29、获取所述样本语音的目标时长特征;

30、根据所述目标时长特征和所述时长预测特征进行时长损失计算,得到时长损失数据;

31、根据所述音高能量损失数据和所述时长损失数据对所述样本编码子模型进行参数调整,并对所述语音预测子模型进行参数调整。

32、在一些实施例中,所述音高能量特征包括样本音高特征和样本能量特征,所述音高能量预测特征包括音高预测特征和能量预测特征;

33、所述根据所述音高能量特征和所述音高能量预测特征进行音高能量损失计算,得到音高能量损失数据,包括:

34、根据所述样本音高特征和所述音高预测特征进行音高损失计算,得到音高损失数据;

35、根据所述样本能量特征和所述能量预测特征进行能量损失计算,得到能量损失数据;

36、对所述音高损失数据和所述能量损失数据进行加权计算,得到所述音高能量损失数据。

37、在一些实施例中,所述获取样本数据,包括:

38、获取所述样本文本和初始语音,所述初始语音的语音内容为所述样本文本;

39、对所述初始语音进行梅尔频谱变换,得到样本梅尔频谱;

40、根据预设插值数据对所述样本梅尔频谱进行线性插值处理,得到所述样本语音。

41、为实现上述目的,本技术实施例的第二方面提出了一种语音合成系统,所述系统包括:

42、样本获取模块,用于获取样本数据,所述样本数据包括样本文本和样本语音,所述样本语音的语音内容为所述样本文本;

43、第一语音合成模块,用于将所述样本数据输入至预设的原始语音模型进行语音合成处理,得到目标合成语音;

44、第一参数调整模块,用于根据所述样本语音和所述目标合成语音对所述原始语音模型进行参数调整,得到初始语音模型,所述初始语音模型包括样本编码子模型;

45、模型输入模块,用于将所述样本数据输入至所述样本编码子模型进行样本编码处理,得到样本编码特征;

46、语音预测模块,用于通过预设的语音预测子模型对所述样本编码特征进行语音预测处理,得到语音预测特征;

47、第二语音合成模块,用于根据所述样本编码特征和所述语音预测特征对所述样本文本进行语音合成处理,得到预测合成语音;

48、第二参数调整模块,用于根据所述样本语音和所述预测合成语音,对所述样本编码子模型进行参数调整,并对所述语音预测子模型进行参数调整;

49、模型构建模块,用于根据调整后的所述语音预测子模型和所述语音预测子模型得到语音合成模型;

50、目标语音合成模块,用于将目标文本和目标风格语音输入至所述语音合成模型进行语音合成处理,得到目标合成语音。

51、为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如本技术实施例的第一方面提出的任一项所述的方法。

52、为实现上述目的,本技术实施例的第四方面还提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本技术实施例的第一方面提出的任一项所述的方法。

53、本技术实施例提出的语音合成方法、语音合成系统、电子设备及存储介质,首先,获取样本数据,样本数据包括样本文本和样本语音,样本语音的语音内容为样本文本。第一训练阶段,将样本数据输入至预设的原始语音模型进行语音合成处理,得到目标合成语音。根据样本语音和目标合成语音对原始语音模型进行参数调整,得到初始语音模型,其中,初始语音模型包括样本编码子模型。第二训练阶段,将样本数据输入至样本编码子模型进行样本编码处理,得到样本编码特征;通过预设的语音预测子模型对样本编码特征进行语音预测处理,得到语音预测特征,并根据样本编码特征和语音预测特征对样本文本进行语音合成处理,得到预测合成语音,该预测合成语音用于表征与样本语音的情感表现更为接近的合成语音。根据样本语音和预测合成语音,对样本编码子模型进行参数调整,并对语音预测子模型进行参数调整,以根据调整后的语音预测子模型和语音预测子模型得到语音合成模型。将目标文本和目标风格语音输入至语音合成模型进行语音合成处理,得到目标合成语音。本技术实施例通过结合初始语音模型的样本编码子模型和语音预测子模型构建语音合成模型,使得在根据语音合成模型对样本文本和样本语音进行语音合成时,能够深度挖掘样本语音包含的细微情感表达。通过样本语音和所述预测合成语音进行参数调整,以得到能够生成情感表现更准确的语音合成模型。由此可知,当根据本技术实施例提供的语音合成模型对目标文本和目标风格语音进行语音合成处理时,能够生成韵律和情感表达更准确的合成语音。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!