一种基于跨域一致性损失的语音克隆方法及系统与流程

文档序号：34383857发布日期：2023-06-08 04:56阅读：133来源：国知局

技术简介：
本发明针对现有语音克隆依赖文本-音频对数据、声学模型迁移参数多、声码器泛化能力差的问题，提出基于跨域一致性损失的语音克隆方法。通过预训练语音后验图模型提取声纹特征，结合跨域一致性损失优化声学模型迁移学习，减少参数量并提升自适应性；声码器引入声纹信息增强鲁棒性，无需依赖大规模语料即可拟合新发音人特征，显著提升合成音质与应用效率。
关键词：跨域一致性损失,鲁棒声码器

本发明涉及语音克隆，尤其涉及一种基于跨域一致性损失的语音克隆方法及系统。

背景技术：

1、语音克隆是指通过使用克隆对象的少量音频，来完成对克隆对象声音的克隆。通常，语音克隆技术能够根据输入的任意文本，生成与克隆对象发音相似的目标音频。生成的音频与克隆对象原始音频的发音相似度越高、生成音频的自然度与可懂度越高表明语音克隆的效果越好。随着深度学习的快速发展，基于深度神经网络的语音合成系统在大量高质量语料的加持下可以获得与人类声音媲美的效果，人们越来越关注语音克隆技术。

2、现有语音克隆系统均需要<文本，音频>成对数据，限制了语音克隆的应用场景。当缺少语音对应的文本时，通常利用一个语音识别(asr)系统，首先将音频进行语音识别，得到对应的文本。但是，语音识别系统会存在个别字符识别不准确的情况，这会大大影响语音克隆的效果。

3、现有技术中声学模型的构建通常需要利用大量高质量语料，少量通过克隆对象音频进行迁移学习时，也是迁移学习整个声学模型，导致自适应参数过多，不利于商业应用，而且由于模型训练利用的损失函数和最后评测打分是存在不匹配现象的，在利用迁移学习时不能通过损失函数的下降来判断声学模型是否训练完成，模型容易出现欠拟合和过拟合。

4、现有技术中声码器也需要利用大量语料训练，该语料需要包括不同年龄段、不同性别、不同音色特征、不同语种的发音人的音频，多样性越高越好。但是，现实中收集一个多样性的语料是费时费力的，而且仍然不能完全拟合语料集中未出现的发音人，这是使得语音克隆系统合成的声音质量相对较低。

技术实现思路

1、鉴于上述的分析，本发明实施例旨在提供一种基于跨域一致性损失的语音克隆方法及系统，用以解决现有缺少文本信息且现有鲁棒声码器不能完全拟合语料库中未出现的发音人特征导致语音克隆的声音质量低及语音克隆步骤繁琐的问题。

2、一方面，本发明实施例提供了一种基于跨域一致性损失的语音克隆方法，包括以下步骤：

3、采集克隆对象的音频，从音频中获取克隆对象的声纹特征，将克隆对象的音频传入预训练的语音后验图模型，获取克隆对象语音后验图；

4、基于语料库和语音后验图模型，训练声学模型得到源声学模型，根据克隆对象语音后验图及跨域一致性损失迁移学习源声学模型，获取自适应声学模型；

5、基于语料库和语料样本的声纹特征，训练声码器得到鲁棒声码器；

6、获取待合成文本的音素及韵律，传入自适应声学模型得到待合成的梅尔频谱，将待合成的梅尔频谱传入鲁棒声码器进行语音合成，根据所选择的目标克隆对象的声纹特征，输出目标克隆对象的合成音频。

7、基于上述方法的进一步改进，声学模型包括音素及韵律编码器模块、语音后验图编码器模块、时长预测模块、音高预测模块、音量预测模块和解码器模块；其中，音素及韵律编码器模块、语音后验图编码器模块和解码器模块均由多个transformer的前馈层构成；时长预测模块、音高预测模块和音量预测模块均由多个卷积层构成。

8、基于上述方法的进一步改进，解码器模块中每个transformer的前馈层中使用条件层归一化，条件层归一化包括说话人嵌入层和两个线性层，定义如下：

9、

10、其中，x为归一化之前的向量，μ为x的均值，σ为x的方差，γ表示条件层归一化中的可学习标量，β表示条件层归一化中的可学习偏移量。

11、基于上述方法的进一步改进，基于语料库和语音后验图模型，训练声学模型得到源声学模型，包括：

12、将语料库中语料样本传入预训练的语音后验图模型，获取语料样本的语音后验图；

13、将语料样本的语音后验图传入语音后验图编码器模块，将语料样本的音素及韵律传入音素及韵律编码器模块；

14、将音素及韵律编码器模块输出和语料样本对应的说话人id，依次传入时长预测模块、音高预测模块和音量预测模块中，分别获得语料样本的各音素发音时长、发音音高及发音音量的预测值，预测值和说话人id再传入解码器模块获得语料样本的预测梅尔频谱；

15、根据语音后验图编码器模块和音素及韵律编码器模块输出之间的误差，语料样本的各音素时长、发音音高及发音音量的预测值与真实值之间的误差，以及预测梅尔频谱与真实梅尔频谱之间的误差，训练得到源声学模型。

16、基于上述方法的进一步改进，根据克隆对象语音后验图及跨域一致性损失迁移学习源声学模型，获取自适应声学模型，包括：

17、根据训练好的源声学模型，构建目标声学模型；在目标声学模型中，除了解码器模块中每个transformer的前馈层中的条件层归一化参数，其它的参数固化；

18、将克隆对象语音后验图作为学习样本传入训练好的源声学模型和目标声学模型中，计算源声学模型和目标声学模型中解码器模块的特征空间的距离，并作为跨域一致性损失，与目标声学模型输出的预测梅尔频谱和学习样本的真实梅尔频谱的损失一起作为损失函数，训练目标声学模型，得到自适应声学模型。

19、基于上述方法的进一步改进，将克隆对象语音后验图作为学习样本传入源声学模型和目标声学模型中，计算源声学模型和目标声学模型中解码器模块的特征空间的距离，包括：

20、在解码器模块的每一层中，依次从当前批次中取出每个学习样本，计算当前学习样本与其它同批次学习样本分别在源声学模型的特征空间和在目标声学模型的特征空间的余弦相似度，并通过softmax网络层计算余弦相似度在源声学模型和目标声学模型的概率分布，并通过kl散度获取当前学习样本在当前层的两个概率分布间的距离；

21、汇总当前批次中所有学习样本在每一层的两个概率分布间的距离并取平均，作为当前批次源声学模型和目标声学模型中解码器模块的特征空间的距离。

22、基于上述方法的进一步改进，声码器基于hifi-gan模型，包括生成器模块和鉴别器模块，其中生成器模块包括不同感受野的转置卷积层，并在每一层中增加一维卷积操作，用于将声纹特征映射成与当前层的梅尔频谱隐变量特征相同维度的声纹特征向量。

23、基于上述方法的进一步改进，基于语料库和语料样本的声纹特征，训练声码器得到鲁棒声码器，包括：

24、将语料库中语料样本的梅尔频谱输入声码器，依次在生成器模块的每层梅尔频谱隐变量特征中加入对应的语料样本的声纹特征在当前层映射的声纹特征向量，将生成器模块的误差、鉴别器模块的误差、梅尔频谱的误差和各个鉴别器模块的特征匹配误差作为损失函数，训练得到鲁棒声码器。

25、基于上述方法的进一步改进，将待合成的梅尔频谱传入鲁棒声码器进行语音合成，根据所选择的目标克隆对象的声纹特征，输出目标克隆对象的合成音频，是在鲁棒声码器中生成器的每层梅尔频谱隐变量特征中加入所选择的目标克隆对象的声纹特征在当前层映射的声纹特征向量，最终鲁棒声码器中生成器输出目标克隆对象的合成音频。

26、另一方面，本发明实施例提供了一种基于跨域一致性损失的语音克隆系统，包括：

27、音频处理模块，用于采集克隆对象的音频，从音频中获取克隆对象的声纹特征，将克隆对象的音频传入预训练的语音后验图模型，获取克隆对象语音后验图；

28、自适应声学模型训练模块，用于基于语料库和语音后验图模型，训练声学模型得到源声学模型，根据克隆对象语音后验图及跨域一致性损失迁移学习源声学模型，获取自适应声学模型；

29、鲁棒声码器训练模块，用于基于语料库和语料样本的声纹特征，训练声码器得到鲁棒声码器；

30、语音音频合成模块，用于获取待合成文本的音素及韵律，传入自适应声学模型得到待合成的梅尔频谱，将待合成的梅尔频谱传入鲁棒声码器进行语音合成，根据所选择的目标克隆对象的声纹特征，输出目标克隆对象的合成音频。

31、与现有技术相比，本发明至少可实现如下有益效果之一：

32、1、针对现有语音克隆系统均需要<文本，音频>成对数据的局限性问题，在克隆过程中，首先利用预训练语音后验图模型获得克隆对象语音后验图，接着，利用语音后验图及语音后验图编码器模块迁移学习源声学模型中解码器的条件层归一化，自适应参数少，训练速度快，而且引入跨域一致性损失，使迁移学习更稳定。

33、2、通过引入声纹信息来构建自适应声码器，在不迁移学习的情况下仍然能获得高质量的结果，大大提升了效率，并能拟合出语料库中未出现的发音人的声音，有利于商业应用。

34、本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁欣冯永兵陈培华
技术所有人：维音数码（上海）有限公司
我是此专利的发明人

上一篇：无人机PAD端和Web端与服务器数据交互的方法及装置与流程
下一篇：一种智能环网箱的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！