1.一种基于跨域一致性损失的语音克隆方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述声学模型包括音素及韵律编码器模块、语音后验图编码器模块、时长预测模块、音高预测模块、音量预测模块和解码器模块;其中,音素及韵律编码器模块、语音后验图编码器模块和解码器模块均由多个transformer的前馈层构成;时长预测模块、音高预测模块和音量预测模块均由多个卷积层构成。
3.根据权利要求2所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述解码器模块中每个transformer的前馈层中使用条件层归一化,所述条件层归一化包括说话人嵌入层和两个线性层,定义如下:
4.根据权利要求3所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述基于语料库和语音后验图模型,训练声学模型得到源声学模型,包括:
5.根据权利要求4所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述根据克隆对象语音后验图及跨域一致性损失迁移学习源声学模型,获取自适应声学模型,包括:
6.根据权利要求5所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述将克隆对象语音后验图作为学习样本传入源声学模型和目标声学模型中,计算源声学模型和目标声学模型中解码器模块的特征空间的距离,包括:
7.根据权利要求1所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述声码器基于hifi-gan模型,包括生成器模块和鉴别器模块,其中生成器模块包括不同感受野的转置卷积层,并在每一层中增加一维卷积操作,用于将声纹特征映射成与当前层的梅尔频谱隐变量特征相同维度的声纹特征向量。
8.根据权利要求1所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述基于语料库和语料样本的声纹特征,训练声码器得到鲁棒声码器,包括:
9.根据权利要求1所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述将待合成的梅尔频谱传入鲁棒声码器进行语音合成,根据所选择的目标克隆对象的声纹特征,输出目标克隆对象的合成音频,是在鲁棒声码器中生成器的每层梅尔频谱隐变量特征中加入所选择的目标克隆对象的声纹特征在当前层映射的声纹特征向量,最终鲁棒声码器中生成器输出目标克隆对象的合成音频。
10.一种基于跨域一致性损失的语音克隆系统,其特征在于,包括: