本发明涉及语音处理,具体涉及一种基于对抗学习的深度转换语音还原方法、系统、存储介质和电子设备。
背景技术:
1、随着深度学习的迅速发展,声音转换技术(voice conversation,vc)迎来了前所未有的关注,不仅被广泛应用于说话人匿名、电影配音、个性化语音定制、歌曲风格转换等多样化场景,实现声音的即时操控与编辑,极大地丰富了声音处理的可能性与用户体验。然而,当深度转换语音应用于电信诈骗、身份伪造冒充、政治社会操纵等场景时,便可能成为破坏社会稳定与国家安全的利器。
2、为了有效抵御深度转换技术带来的风险,国内外学者致力于深度伪造语音的检测,取得了丰富的研究成果。值得注意的是,相比较于深度转换语音的检测,如何由深度转换语音恢复出源说话声音,即深度转换语音还原,对追踪真实说话人,防止vc非法使用,具有更重要的研究意义和实用价值。
3、相关技术中,仅有文献(ren y,zhu h,zhai l,sun z,et al.who is speakingactually?robust and versatile speaker traceability for voice conversion[c]//proceedings of the 31st acm international conference on multimedia.2023:8674-8685.)在2023年提出了一种用于语音转换的说话人主动溯源框架voxtracer,利用信息隐藏技术,将原始说话人身份隐藏在深度转换语音中,从而实现在追踪时恢复出隐藏的身份信息,进一步恢复出源说话人的原始语音。
4、然而,实际应用场景无法事先将源说话人身份信息嵌入到深度转换语音中,只能依赖深度转换语音中的信息还原出源说话人语音,这是一个具有强挑战性的研究问题。
技术实现思路
1、(一)解决的技术问题
2、针对现有技术的不足,本发明提供了一种基于对抗学习的深度转换语音还原方法、系统、存储介质和电子设备,解决了如何仅依赖深度转换语音中的信息还原出源说话人语音的技术问题。
3、(二)技术方案
4、为实现以上目的,本发明通过以下技术方案予以实现:
5、一种基于对抗学习的深度转换语音还原方法,包括:
6、获取训练样本集;其中所述训练样本数据集中的任一训练样本包括深度转换语音及其真实源说话人属性特征;
7、获取预先构建的对抗还原网络;其中所述对抗还原网络包括生成器、分类器和鉴别器;执行如下训练步骤:
8、从所述训练样本数据集选取训练样本,提取该训练样本的深度转换语音对应的梅尔语谱图并作为所述生成器的输入,生成伪源说话人属性特征;
9、将所述伪源说话人属性特征或该训练样本的真实源说话人属性特征作为所述分类器的输入,预测源说话人属性的分类结果;
10、将所述伪源说话人属性特征或该训练样本的真实源说话人属性特征作为所述鉴别器的输入,判断源说话人属性特征的真伪;
11、若所述对抗还原网络满足训练完成条件,则将待检测的深度转换语音作为训练完成的生成器的输入,以获取含源说话人属性类别的还原语音。
12、优选的,若所述对抗还原网络不满足训练完成条件,则调整所述对抗还原网络中的相关参数使得损失函数达到最优,并基于调整后的对抗还原网络,继续执行上述训练步骤;
13、其中所述调整所述对抗还原网络中的相关参数使得损失函数达到最优包括:
14、保持所述生成器的参数不变,通过调整对应的分类器和鉴别器的参数,以最小化分类器损失和所述鉴别器损失;
15、保持所述分类器和鉴别器的参数不变,通过调整对应的生成器的参数以最小化生成器损失;
16、交替优化所述分类器损失和所述鉴别器损失、所述生成器损失,直至网络收敛。
17、优选的,所述分类器损失、所述鉴别器损失、所述生成器损失的构建过程包括:
18、(1)构建对抗性损失
19、将生成器g和鉴别器d的对抗性损失分别定义为:
20、ld-adv(d)=-ec~p(c),y~p(y|c)[logd(y,c)]-ex~p(x),c~p(c)[log(1-d(g(x,c),c))] (1)
21、lg-adv(g)=-ex~p(x),c~p(c)[logd(g(x,c),c)] (2)
22、其中,ld-adv(d)、lg-adv(g)分别表示鉴别器d和生成器g的对抗性损失;e表示数学期望值;log表示对数函数;c~p(c)表示从属性标签分布p(c)中随机采样还原的源说话人属性类别c;y~p(y|c)表示一个带有属性类别c的真实源说话人属性特征;x~p(x)表示具有任意属性的梅尔语谱图;d(y,c)表示鉴别器d对真实源说话人属性特征y属于属性类别c的概率输出;g(x,c)表示生成器将梅尔语谱图x还原为属性类别c的伪源说话人属性特征;
23、(2)构建分类损失
24、将分类器c和生成器g的分类损失分别定义为:
25、lc-cls(c)=-ec~p(c),y~p(y|c)[logpc(c|y)] (3)
26、lg-cls(g)=-ex~p(x),c~p(c)[logpc(c|g(x,c))] (4)
27、其中,lc-cls(c)和lg-cls(g)分别表示分类器和生成器g的分类损失;pc(c|y)表示分类器c对真实源说话人属性特征y属于属性类别c的概率预测;
28、(3)构建循环一致性损失和恒等映射损失
29、将生成器g的循环一致性损失以及恒等映射损失定义为:
30、lcyc(g)=ec′~p(c),x~p(x|c′),c~p(c)[||g(g(x,c),c′)-x||ρ] (5)
31、lid(g)=ec′~p(c),x~p(x|c′)[||g(x,c′)-x||ρ] (6)
32、其中,lcyc(g)和lcyc(g)分别表示生成器g的循环一致性损失和恒等映射损失;g(g(x,c),c′)表示将伪源说话人属性特征再次转回原属性类别c′的结果;c′~p(c)表示从属性标签分布p(c)中采样一个深度转换语音属性标签c′;x~p(x|c′)表示具有属性类别c′的真实源说话人属性特征的训练样本;||·||ρ表示l2范数;
33、(4)构建分类器损失、鉴别器损失以及生成器损失
34、生成器损失lg(g)表示为:
35、lg(g)=lg-adv(g)+λclslg-cls(g)+λcyclcyc(g)+λidlid(g) (7)
36、分类器损失lc(c)表示为:
37、lc(c)=lc-cls(c) (8)
38、鉴别器损失ld(d)表示为:
39、ld(d)=ld-adv(d) (9)
40、其中,λcls、λcyc、λid表示生成器损失的不同损失项的权重。
41、优选的,所述生成器包括编码器、动态卷积和解码器;
42、所述编码器包括五个第一降采样层,每一所述第一降采样层依次包括第一卷积层、第一归一化层和第一门控线性单元层;
43、所述动态卷积包括注意力机制,所述注意力机制依次包括平均池化层、第一全连接层、relu激活函数、第二全连接层和第一softmax激活函数;
44、所述解码器包括四个上采样层和一个反卷积层,每一所述上采样层依次包括反卷积层、第二归一化层和第二门控线性单元层。
45、优选的,所述分类器包括四个第二降采样层、第二卷积层、平均池化层和第二softmax激活函数;
46、每一所述第二降采样层依次包括第三卷积层、第三归一化层和第三门控线性单元层。
47、优选的,所述鉴别器包括四个第三降采样层、sa-net注意力机制、第四卷积层和sigmoid激活函数;
48、每一所述第三降采样层包括第五卷积层、第四归一化层和第四门控线性单元层;
49、所述sa-net注意力机制包括并行的空间注意力分支和通道注意力分支。
50、一种基于对抗学习的深度转换语音还原系统,包括:
51、样本获取模块,用于获取训练样本集;其中所述训练样本数据集中的任一训练样本包括深度转换语音及其真实源说话人属性特征;
52、网络获取模块,用于获取预先构建的对抗还原网络;其中所述对抗还原网络包括生成器、分类器和鉴别器;
53、数据生成模块,用于从所述训练样本数据集选取训练样本,提取该训练样本的深度转换语音对应的梅尔语谱图并作为所述生成器的输入,生成伪源说话人属性特征;
54、属性分类模块,用于将所述伪源说话人属性特征或该训练样本的真实源说话人属性特征作为所述分类器的输入,预测源说话人属性的分类结果;
55、真伪判断模块,用于将所述伪源说话人属性特征或该训练样本的真实源说话人属性特征作为所述鉴别器的输入,判断源说话人属性特征的真伪;
56、语音还原模块,用于若所述对抗还原网络满足训练完成条件,则将待检测的深度转换语音作为训练完成的生成器的输入,以获取含源说话人属性类别的还原语音。
57、优选的,所述深度转换语音还原系统包括参数调整模块,用于若所述对抗还原网络不满足训练完成条件,则调整所述对抗还原网络中的相关参数使得损失函数达到最优,并基于调整后的对抗还原网络,继续执行上述训练步骤;
58、其中所述调整所述对抗还原网络中的相关参数使得损失函数达到最优包括:
59、保持所述生成器的参数不变,通过调整对应的分类器和鉴别器的参数,以最小化分类器损失和所述鉴别器损失;
60、保持所述分类器和鉴别器的参数不变,通过调整对应的生成器的参数以最小化生成器损失;
61、交替优化所述分类器损失和所述鉴别器损失、所述生成器损失,直至网络收敛。
62、一种存储介质,其存储有用于基于对抗学习的深度转换语音还原的计算机程序,其中,所述计算机程序使得计算机执行如上所述的深度转换语音还原方法。
63、一种电子设备,包括:
64、一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的深度转换语音还原方法。
65、(三)有益效果
66、本发明提供了一种基于对抗学习的深度转换语音还原方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:
67、本发明设计对抗还原网络,其中生成器用于学习并生成高质量的、具有源说话者特性的语音样本,同时保留转换语音的内容信息;鉴别器用于区分真实语音样本和虚假语音样本,并通过与生成器的对抗性训练来指导生成器不断提高其生成能力;分类器用于准确预测输入语音特征的属性类别,实现分类器与生成器的交互。通过生成器、分类器和鉴别器的对抗学习,从深度转换语音中学习尽可能多的源说话人信息,高效利用有限的源说话人信息,实现从深度转换语音中准确还原出源说话人语音。