深度伪造音频检测模型训练方法、电子设备和存储介质与流程

文档序号:38796431发布日期:2024-07-26 20:12阅读:163来源:国知局

本申请实施例涉及深度伪造音频检测模型训练,特别是涉及一种深度伪造音频检测模型训练方法、电子设备和存储介质。


背景技术:

1、相关技术中,生成式人工智能得到了快速发展,其模型能够生成高度逼真的图像和语音。然而,如果这些技术被恶意行为者滥用来危害社会,就会带来潜在的威胁,导致重大的社会风险。计算机视觉领域已经意识到这一问题,并提出了深度伪造检测挑战赛(deepfake detection challenge,dfdc),以识别特定视频片段是否包含由模型操纵的深度伪造帧。同样,音频深度伪造检测也已成为一个新的研究课题,其中包括自动语音验证欺骗与对策挑战赛(asvspoof 2021)等挑战。

2、(asvspoof 2021)和音频深度伪造检测挑战赛(add 2022、add 2023)等挑战赛,这些挑战赛对推动音频深度伪造检测领域的研究起到了至关重要的作用。

3、然而,深度伪造通用音频检测却很少受到关注。通用音频包括环境声音、语音等任何音频内容,与标准语音音频相比,其类别更广泛、内容更多样、音频质量也通常各不相同。特别是,通用音频通常缺乏语音音频所表现出的语言、节奏和音调信息,因此检测难度比深度伪语音检测更大。

4、随着音频生成模型的进步,可以合成与人类生成的内容几乎无异的通用音频。这些深度伪造的通用音频文件可能会被滥用,从而导致社会问题,如假新闻的传播、基于音频的诈骗、法律证据的伪造、虚假视频中欺骗性的增强以及数字信息可信度的降低。因此,本申请实施例提出了深度伪造通用音频检测技术,以鼓励研究人员关注并深入研究深度伪造音频检测技术。

5、深度伪造通用音频检测旨在识别任何音频内容是否被篡改,并定位虚假区域。伪造音频有几种类型:1)整个片段都是重新生成的;2)某些片段与另一个片段拼接;3)某些片段由生成模型通过修复(inpainting)填充。最后一种"半真"类型最难检测,因为它既包含真实片段,也包含生成片段。即使是人类也很难分辨出修复模型(inpainting model)是否表现出色。如图5中的主观评价所示,人类识别深度伪造音频的平均准确率低于0.6。因此,本申请实施例将重点放在最难识别的伪造音频--半真半假的深度伪造通用音频上,其中某些片段是由修复模型生成的。然而,目前还没有专门用于检测深度伪造通用音频的数据集。


技术实现思路

1、本发明实施例提供了一种深度伪造音频检测模型训练方法、电子设备和存储介质,用于至少解决上述技术问题之一。

2、第一方面,本发明实施例提供了一种深度伪造音频检测模型训练方法,包括:使用定位模型定位音频的关键帧;使用生成、高分辨率模型对所述关键帧进行重建得到深度伪造音频;以及使用所述深度伪造音频对模型进行训练,以使所述模型能够同时甄别所述深度伪造音频并定位深度伪造部分。

3、第二方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项深度伪造音频检测模型训练方法。

4、第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项深度伪造音频检测模型训练方法。

5、第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项深度伪造音频检测模型训练方法。

6、本申请的方法提出深度伪造通用音频检测任务,旨在识别音频是否经过处理,并定位其中的片段。本申请引入了一个操作流水线来自动获取深度伪造(deepfake)通用音频,包括定位、屏蔽和修复阶段。具体的,发明人共处理了一个训练集和三个测试集,用于训练和全面评估深伪音检测模型。实验结果表明,在所有测试集中,本申请提出的模型在音频深度防伪检测和主观评价结果方面明显优于最新模型。



技术特征:

1.一种深度伪造音频检测模型训练方法,包括:

2.根据权利要求1所述的方法,其中,所述使用生成、高分辨率模型对所述关键帧进行重建得到深度伪造音频包括:

3.根据权利要求1所述的方法,其中,所述深度伪造音频检测模型包括一个残差网络、一个双层transformer编码器、一个单层双向长短期记忆网络和一个分类层。

4.根据权利要求3所述的方法,其中,所述残差网络包括12个残差块,每一所述残差块前后分别连接一个卷积神经网络块。

5.根据权利要求4所述的方法,其中,所述分类层包括全连接层,所述分类层的输出经过中值滤波,以消除孤立的噪声预测。

6.根据权利要求5所述的方法,其中,在所述分类层之后还包括识别层,用于片段级深度伪造识别。

7.根据权利要求5所述的方法,其中,所述模型深度伪造音频检测根据预设阈值将每个帧预测为真帧或深度伪造帧,以进行深度伪造帧区域定位,若某一帧被预测为深度伪造帧,则将与所述某一帧对应的片段标记为深度伪造片段。

8.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。

9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。


技术总结
本发明公开深度伪造音频检测模型训练方法、电子设备和存储介质,其中,一种深度伪造音频检测模型训练方法,包括:使用定位模型定位音频的关键帧;使用生成、高分辨率模型对所述关键帧进行重建得到深度伪造音频;使用所述深度伪造音频对模型进行训练,以使所述模型能够同时甄别所述深度伪造音频并定位深度伪造部分。

技术研发人员:俞凯,吴梦玥,谢泽宇,李柏涵,徐薛楠,梁正
受保护的技术使用者:思必驰科技股份有限公司
技术研发日:
技术公布日:2024/7/25
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1