一种基于跨域一致性损失的语音克隆方法及系统与流程

文档序号:34383857发布日期:2023-06-08 04:56阅读:134来源:国知局
技术特征:

1.一种基于跨域一致性损失的语音克隆方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述声学模型包括音素及韵律编码器模块、语音后验图编码器模块、时长预测模块、音高预测模块、音量预测模块和解码器模块;其中,音素及韵律编码器模块、语音后验图编码器模块和解码器模块均由多个transformer的前馈层构成;时长预测模块、音高预测模块和音量预测模块均由多个卷积层构成。

3.根据权利要求2所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述解码器模块中每个transformer的前馈层中使用条件层归一化,所述条件层归一化包括说话人嵌入层和两个线性层,定义如下:

4.根据权利要求3所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述基于语料库和语音后验图模型,训练声学模型得到源声学模型,包括:

5.根据权利要求4所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述根据克隆对象语音后验图及跨域一致性损失迁移学习源声学模型,获取自适应声学模型,包括:

6.根据权利要求5所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述将克隆对象语音后验图作为学习样本传入源声学模型和目标声学模型中,计算源声学模型和目标声学模型中解码器模块的特征空间的距离,包括:

7.根据权利要求1所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述声码器基于hifi-gan模型,包括生成器模块和鉴别器模块,其中生成器模块包括不同感受野的转置卷积层,并在每一层中增加一维卷积操作,用于将声纹特征映射成与当前层的梅尔频谱隐变量特征相同维度的声纹特征向量。

8.根据权利要求1所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述基于语料库和语料样本的声纹特征,训练声码器得到鲁棒声码器,包括:

9.根据权利要求1所述的基于跨域一致性损失的语音克隆方法,其特征在于,所述将待合成的梅尔频谱传入鲁棒声码器进行语音合成,根据所选择的目标克隆对象的声纹特征,输出目标克隆对象的合成音频,是在鲁棒声码器中生成器的每层梅尔频谱隐变量特征中加入所选择的目标克隆对象的声纹特征在当前层映射的声纹特征向量,最终鲁棒声码器中生成器输出目标克隆对象的合成音频。

10.一种基于跨域一致性损失的语音克隆系统,其特征在于,包括:


技术总结
本发明涉及一种基于跨域一致性损失的语音克隆方法及系统,属于语音克隆技术领域,解决了现有语音克隆的声音质量低的问题。包括采集克隆对象的音频,获取克隆对象的声纹特征,将音频传入预训练的语音后验图模型,获取克隆对象语音后验图;基于语料库和语音后验图模型,训练得到源声学模型,根据克隆对象语音后验图及跨域一致性损失迁移学习源声学模型,获取自适应声学模型;基于语料库和语料样本的声纹特征,训练得到鲁棒声码器;获取待合成文本的音素及韵律,传入自适应声学模型得到待合成的梅尔频谱,将待合成的梅尔频谱传入鲁棒声码器进行语音合成,根据所选择的目标克隆对象的声纹特征,输出目标克隆对象的合成音频。实现了高质量的语音克隆。

技术研发人员:袁欣,冯永兵,陈培华
受保护的技术使用者:维音数码(上海)有限公司
技术研发日:
技术公布日:2024/1/13
当前第2页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!