本技术涉及但不限于计算机,尤其涉及一种语音合成方法、模型训练方法及相关装置。
背景技术:
1、语音合成是人工智能领域中的一项重要技术。现有的语音合成技术包括端到端语音合成模型和非端到端语音合成模型。其中,端到端语音合成模型的优点是模型训练效率较高,非端到端语音合成模型的优点是模型中各个模块的组成方式灵活。但是,相较于端到端语音合成模型,非端到端语音合成模型的音质稍差。
2、变分推理与对抗学习(variational inference with adversarial learningfor end-to-end text-to-speech,vits)模型,是当前主流的端到端语音合成模型,该模型与大部分基于生成对抗网络(generative adversarial network,gan)的声码器模型合成的语音信息中,音高(pitch)的连续性存在中断或突变的问题,导致合成的语音在听觉上产生不自然或断裂的现象。
3、因此,如何解决当前语音合成模型中存在的音高断层问题,成为亟需解决的问题。
技术实现思路
1、有鉴于此,本技术至少提供一种语音合成方法、模型训练方法及相关装置。
2、本技术的技术方案是这样实现的:
3、一方面,本技术提供一种语音合成方法,包括:
4、确定文本信息对应的隐变量;
5、基于所述隐变量,确定所述文本信息对应的基频信息;
6、基于所述隐变量和所述基频信息,生成所述文本信息对应的合成语音。
7、在一些实施例中,所述确定所述文本信息对应的隐变量,包括:
8、确定所述文本信息中的至少一个音素对应的音素时长;
9、基于所述音素时长,对所述至少一个音素对应的文本向量表示执行上采样,得到所述至少一个音素对应的至少一帧向量表示;
10、基于所述至少一帧向量表示,确定所述隐变量。
11、在一些实施例中,所述基于所述隐变量和所述基频信息,生成所述文本信息对应的合成语音,包括:
12、基于所述基频信息和噪声信息,生成基频嵌入信息;
13、基于所述基频嵌入信息和所述隐变量,生成所述合成语音。
14、在一些实施例中,所述基于所述基频信息和噪声信息,生成基频嵌入信息,包括:
15、对所述基频信息执行正弦变换,得到正弦波表示;
16、基于所述正弦波表示和所述噪声信息,生成基频嵌入信息。
17、另一方面,本技术还提供了一种语音合成模型训练方法,包括:
18、确定样本数据和初始模型;所述样本数据包括样本文本和所述样本文本对应的样本语音;
19、利用所述初始模型,生成所述样本文本对应的合成语音;其中,所述初始模型包括初始基频预测器和初始解码器;所述初始基频预测器用于预测样本数据对应的预测基频信息;所述初始解码器用于基于所述样本数据对应的基频信息和隐变量,生成对应的合成语音;
20、基于所述样本语音与所述合成语音之间的损失,更新所述初始模型,以得到训练后的语音合成模型。
21、在一些实施例中,所述初始模型包括初始先验编码器和初始后验编码器;
22、所述利用所述初始模型,生成所述样本语音对应的合成语音之前,还包括:
23、利用所述初始先验编码器,生成所述样本文本对应的先验隐变量;
24、基于所述样本语音,利用所述初始后验编码器,生成所述样本文本对应的后验隐变量;
25、基于所述先验隐变量和所述后验隐变量之间的损失,更新所述初始先验编码器和所述初始后验编码器,直到满足预设的收敛条件。
26、在一些实施例中,所述样本文本具有对应的样本基频;所述方法还包括:
27、基于所述后验隐变量,利用所述初始基频预测器,生成预测基频;
28、基于所述预测基频和所述样本基频之间的损失,更新所述初始基频预测器,直到满足预设的收敛条件。
29、在一些实施例中,所述初始先验编码器包括初始时长预测器和初始映射模块;所述样本文本包括至少一个音素;每一所述音素具有样本时长;
30、所述利用所述初始先验编码器,生成所述样本文本对应的先验隐变量,包括:
31、利用所述初始时长预测器,生成所述样本文本中至少一个音素的预测时长;
32、基于所述至少一个音素和所述预测时长,利用所述初始映射模块,生成所述先验隐变量;或,基于所述至少一个音素和所述样本时长,利用所述初始映射模块,生成所述先验隐变量。
33、在一些实施例中,所述方法还包括:
34、基于所述预测时长和所述样本时长之间的损失,更新所述初始时长预测器,直到满足预设的收敛条件。
35、在一些实施例中,所述利用所述初始模型,生成所述样本文本对应的合成语音,包括:
36、基于所述样本基频和所述后验隐变量,利用所述初始解码器,生成所述合成语音。
37、另一方面,本技术还提供了一种语音合成装置,所述装置包括:
38、第一确定模块,用于确定文本信息对应的隐变量;
39、第二确定模块,用于基于所述隐变量,确定所述文本信息对应的语音基频信息;
40、第一生成模块,用于基于所述隐变量和所述语音基频信息,生成所述文本信息对应的语音信息。
41、又一方面,本技术还提供了一种语音合成模型训练装置,包括:
42、第三确定模块,用于确定样本数据和初始模型;所述样本数据具有对应的样本语音;所述初始模型包括初始基频预测器和初始解码器;所述初始基频预测器用于预测文本信息对应的语音基频信息,以使所述初始解码器基于所述语音基频信息生成对应的语音信息;
43、第二生成模块,用于利用所述初始模型,生成所述样本文本对应的合成语音;
44、第一更新模块,用于基于所述样本语音对应的样本文本和所述合成语音之间的损失,更新所述初始模型,以得到训练后的语音合成模型。
45、再一方面,本技术提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
46、又一方面,本技术提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。
47、又一方面,本技术提供一种计算机程序,包括计算机可读代码,当所述计算机可读代码在计算机设备中运行时,所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。
48、又一方面,本技术提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。
49、本技术提供的语音合成方法中,首先,确定文本信息对应的隐变量;然后,基于隐变量确定文本信息对应的基频信息;最后,基于隐变量和基频信息,生成文本信息对应的合成语音。这样,在文本生成语音的过程中,通过引入基频信息,可以从文本信息的音素级别控制基频走势,同时解决了解码器合成语音时的音高断裂问题,从而提高合成语音的音质。
50、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。