一种语音转换主动防御方法、装置、系统及存储介质

文档序号：36511006发布日期：2023-12-29 10:15阅读：66来源：国知局

本发明涉及一种语音转换主动防御方法、装置、系统及存储介质，属于音频主动防御。

背景技术：

1、随着时代的发展，深度学习在音频领域取得了诸多成功，包括自动说话人验证、自动语音识别和说话人识别等领域。虽然这些进展为社会生活带来了便利，但人们对深度学习技术遭到滥用的担忧也日益增加。深度伪造是指深度学习算法创建的操纵多媒体内容，如修改后的人脸图像和语音音频。

2、语音转换是指将一个人的声音转换为另一个人的声音的技术，当前应对语音转换的策略是使用深度神经网络来检测深度伪造语音。

3、为解决现有问题，研究人员提出了主动防御的概念来对抗深度伪造["initiativedefense against facial manipulation." proceedings of the aaai conference onartificial intelligence. vol. 35. no. 2. 2021.]。主动防御的主要思想是在多媒体内容上添加细微不可感知的噪声，使之成为对抗样本，代替原始的多媒体内容进行传播。["defending your voice: adversarial attack on voice conversion." 2021 ieeespoken language technology workshop (slt). ieee, 2021.]提出了一种迭代算法作为第一个用于语音转换的主动防御方法，使得对声音转换模型进行对抗攻击成为可能。该算法的迭代性质，使得生成单个对抗样本的时间过长，同时攻击性能上还有进一步的提升空间。

4、目前市面上还缺少有效、快速生成对抗样本的语音转换主动防御方法。

技术实现思路

1、本发明的目的在于提供一种语音转换主动防御方法、装置、系统及存储介质，能够快速生成对抗扰动，对语音转换模型进行主动防御，保护说话人的隐私。

2、为达到上述目的，本发明提供如下技术方案：

3、第一方面，本发明提供一种语音转换主动防御方法，包括：

4、基于预构建的gan网络，设置损失函数和训练参数，并对所述gan网络中的生成器网络和判别器网络进行训练；

5、将读取到的干净样本输入至训练好的生成器网络生成对抗扰动，并将所述对抗扰动加至所述干净样本，获取对抗样本；

6、将所述对抗样本输入至预训练的各语音转换模型进行测试，利用测试好的对抗样本进行语音转换主动防御；

7、其中，所述判别器网络能够判别所述对抗样本和干净样本的差异。

8、结合第一方面，进一步的，所述生成器网络包括连接的编码器网络和解码器网络，所述编码器网络对输入的干净样本进行下采样获取隐层向量并将其输入至所述解码器网络，由所述解码器网络根据所述隐层向量生成对抗扰动；

9、其中，所述编码器网络包括连接的三个卷积层和四个下采样模块，所述下采样模块包括连接的四个跳跃连接层、一个gelu激活函数和一个平均池化层；

10、所述解码器网络包括连接的三个转置卷积层和四个上采样模块，所述上采样模块包括连接的四个跳跃连接层、一个gelu激活函数和一个上采样层；

11、其中，所述跳跃连接层包括连接的三个卷积层和tanh激活函数，所述编码器网络还连接有用于将其输出限制在-1至1之间的tanh激活函数。

12、结合第一方面，进一步的，所述判别器网络包括连接的一个卷积层、六个跳跃连接平均池化层和一个全连接层，所述跳跃连接平均池化层与全连接层之间使用leaky relu激活函数，所述全连接层还连接有sigmoid激活函数，所述判别器网络在训练时辅助所述生成器网路进行训练，使所述生成器网络生成的对抗样本拟合所述干净样本的数据分布。

13、结合第一方面，进一步的，所述损失函数包括gan损失函数、用于使所述对抗扰动具有攻击性的攻击损失函数和用于使所述对抗扰动不可感知的质量损失函数，所述gan损失函数包括用于衡量所述判别器网络对所述对抗样本和干净样本的判别准确性的判别器损失函数和用于使所述判别器网络无法判别所述对抗样本和干净样本的差异的生成器损失函数，所述判别器损失函数的计算公式为：

14、；

15、其中，为判别器损失，为干净样本，为对抗样本，，为生成器网络，为判别器网络，为数据分布，为数学期望；

16、所述生成器损失函数的计算公式为：

17、；

18、其中，为生成器损失；

19、所述攻击损失函数的计算公式为：

20、；

21、其中，为攻击损失，为语音转换模型总数，为第个语音转换模型，为梅尔频谱提取操作；

22、所述质量损失函数的计算公式为：

23、；

24、其中，为质量损失；

25、总损失函数的计算公式为：

26、；

27、其中，为总损失，、为平衡对抗扰动的攻击性、不可感知性的超参数。

28、结合第一方面，进一步的，设置训练参数包括：

29、设置梅尔频谱普提取参数，包括：设置音频的采样率为22050hz，窗函数为汉明窗，窗口长度为1024，跳长为256；

30、设置网络训练超参数，包括：设置单个训练数据的时长为1s，训练使用的batchsize为64，训练10个epoch，判别器网络和生成器网络的优化器使用adam优化器，学习率为0.001；

31、设置损失函数超参数，包括：设置平衡对抗扰动的攻击性、不可感知性的超参数、为1、10。

32、结合第一方面，进一步的，对所述gan网络中的生成器网络和判别器网络进行训练包括：

33、将所述干净样本输入至所述生成器网络生成对抗扰动，并将所述对抗扰动加至所述干净样本，获取对抗样本；

34、将所述对抗样本和干净样本输入至所述判别器网络，计算gan损失，并利用所述判别器网络辅助所述生成器网络进行训练，使所述对抗样本拟合所述干净样本的数据分布；

35、分别对所述对抗样本和干净样本进行梅尔频谱提取，获取所述对抗样本和干净样本的梅尔频谱；

36、将所述干净样本的梅尔频谱作为源语音和目标语音分别输入至预训练的各所述语音转换模型，获取重构语音梅尔频谱集合；

37、将所述干净样本的梅尔频谱作为源语音，将所述对抗样本的梅尔频谱作为目标语音，分别输入至预训练的各所述语音转换模型，获取被破坏的重构语音梅尔频谱集合；

38、根据所述重构语音梅尔频谱集合和被破坏的重构语音梅尔频谱集合，计算获取攻击损失；

39、根据所述对抗样本和干净样本，计算获取质量损失；

40、根据所述gan损失中的判别器损失，利用所述判别器网络所属的优化器更新所述判别器网络；

41、根据所述gan损失中的生成器损失，以及所述攻击损失和质量损失，利用所述生成器网络所述的优化器更新所述生成器网络。

42、结合第一方面，进一步的，各所述语音转换模型的输入包括源语音和目标语音，各所述语音转换模型将输入的源语音和目标语音分别解耦成内容特征和声纹特征，并将所述源语音的内容特征和所述目标语音的声纹特征结合，获取转换语音。

43、第二方面，本发明提供一种语音转换主动防御装置，包括：

44、训练模块：用于基于预构建的gan网络，设置损失函数和训练参数，并对所述gan网络中的生成器网络和判别器网络进行训练；

45、对抗样本获取模块：用于将读取到的干净样本输入至训练好的生成器网络生成对抗扰动，并将所述对抗扰动加至所述干净样本，获取对抗样本；

46、测试模块：用于将所述对抗样本输入至预训练的各语音转换模型进行测试，利用测试好的对抗样本进行语音转换主动防御；

47、其中，所述判别器网络能够判别所述对抗样本和干净样本的差异。

48、第三方面，本发明提供一种语音转换主动防御系统，包括处理器及存储介质；

49、所述存储介质用于存储指令；

50、所述处理器用于根据所述指令进行操作以执行根据第一方面任一项所述方法的步骤。

51、第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面任一项所述方法的步骤。

52、与现有技术相比，本发明的有益效果是：

53、本发明提供的语音转换主动防御方法，能够快速生成高效且不可感知的对抗样本，使得语音转换模型无法有效提取说话人信息，从而实现针对语音转换的主动防御。利用gan网络能够快速生成高效的对抗扰动，将其添加在音频上，使之成为对抗样本，利用对抗样本对语音转换模型进行对抗攻击，从而实现对语音转换的主动防御。利用l2范数来约束对抗样本和干净样本的距离，能够保证对抗样本的不可感知性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈北京董仕杭
技术所有人：南京信息工程大学
我是此专利的发明人

上一篇：一种高性能电位器的成型切断装置的制作方法
上一篇：一种的制作方法