1.一种基于隐变量空间添加水印的语音合成方法,其特征在于,包括:
2.根据权利要求1所述的语音合成方法,其特征在于,在训练阶段,所述对齐模型的输入为训练文本音素序列对应的训练文本嵌入分布和预测音素时长,输出为预测语音嵌入分布;所述预测音素时长由时长预测模型根据输入的训练文本音素特征向量和噪声进行预测得到,所述训练文本音素特征向量由所述训练文本音素序列进行编码处理得到;所述对齐模型的训练标签为训练语音频谱对应的训练语音嵌入分布;通过根据训练文本嵌入分布和对应的训练语音嵌入分布的对齐信息来迭代更新所述时长预测模型的模型参数。
3.根据权利要求1所述的语音合成方法,其特征在于,对所述待处理文本的文本音素序列、所述水印信息进行特征提取处理,得到位于概率空间的文本音素隐变量和水印隐变量,包括:
4.根据权利要求3所述的语音合成方法,其特征在于,对所述预测语音嵌入分布进行映射逆变换和解码处理,得到与所述待处理文本对应且携带有水印信息的语音合成波形,包括:
5.根据权利要求4所述的语音合成方法,其特征在于,在训练阶段,同步对所述文本编码器、所述第一映射模型、所述水印编码器、所述频谱编码器、所述第二映射模型、所述对齐模型和所述频谱解码器进行训练;
6.根据权利要求4所述的语音合成方法,其特征在于,所述第一映射模型包括线性映射模型,所述第二映射模型包括流模型,所述流模型是一种基于可逆变换的模型。
7.一种构建语音合成模型的方法,其特征在于,包括:
8.根据权利要求7所述的方法,其特征在于,所述预测音素时长由时长预测模型根据输入的训练文本音素特征向量和噪声进行预测得到,其中,所述文本编码器的输出端分别连接至所述时长预测模型的输入端和所述第一映射模型的输入端;所述文本编码器输出的文本音素特征向量和噪声输入至待训练的时长预测模型,输出得到与输入对应的预测音素时长。
9.根据权利要求8所述的方法,其特征在于,在训练阶段,通过根据训练文本嵌入分布和对应的训练语音嵌入分布的对齐信息来迭代更新所述时长预测模型的模型参数;利用kl散度测量训练文本嵌入分布和训练语音嵌入分布之间的差异,在进行对齐模型的训练时采用变分推理方式,基于最大化对数似然的变分下界算法进行模型参数迭代;通过根据训练语音频谱对应的真实语音波形与训练重构语音波形的重构损失来迭代更新所述频谱解码器的模型参数。
10.根据权利要求7-9中任一项所述的方法,其特征在于,所述语音合成模型包括:文本编码器、第一映射模型、水印编码器、对齐模型、时长预测模型、频谱解码器和映射逆变换模型,所述映射逆变换模型是预训练好的第二映射模型的逆变换模型;
11.一种语音合成方法,其特征在于,包括:
12.一种基于隐变量空间添加水印的语音合成装置,其特征在于,包括:
13.一种构建语音合成模型的装置,其特征在于,包括:
14.一种语音合成装置,其特征在于,包括:
15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-11中任一项所述的方法。