本发明属于音频伪造检测,尤其涉及一种基于音频潜在特征对比学习的音频伪造检测方法及系统。
背景技术:
1、随着音频信息服务迅速发展,用户规模不断壮大。当前,我国网络音乐用户规模已达6.08亿。特别是随着生成式人工智能(aigc)等人工智能新技术新应用在音频领域的运用,基于深度学习的音频生成与克隆算法输出的音频日益逼近真实音频,导致音频在传播过程中的一些法律风险进一步集聚、放大,因此,对音频数据的合法使用是目前社会上所重视的问题。
2、现阶段针对音频伪造检测的方法主要有:基于音频信号特征的伪造检测方法,例如使用相位谱、梅尔谱图、频谱图和改进时延等音频特征的检测方法;基于机器学习的伪造检测方法,例如使用线性svm,加权k近邻和增强树集成等方法;但是,现阶段的技术仍存在着检测精度不足、泛化能力弱等缺陷,具体来说,基于音频信号特征的方法,采用的相位谱、梅尔谱图等特征难以全面覆盖音频伪造的复杂变化,在面对高级伪造技术时,难以区分真伪,且当音频处于复杂环境中,环境噪声等会严重干扰特征提取,导致准确性下降。同时,这类方法对新出现的伪造模式敏感度低,难以及时适应。基于机器学习的方法,模型严重依赖训练数据的质量与多样性,样本不全面或标注偏差易造成大量误判,对罕见特殊场景的伪造音频检测效果差。并且其泛化能力不足,难以应对不断演进的新型伪造技术,计算资源消耗大,在资源受限场景应用困难,还容易受到对抗攻击,使检测结果失效。因此亟须一种方法解决上述问题。
技术实现思路
1、为解决上述技术问题,本发明提出了一种基于音频潜在特征对比学习的音频伪造检测方法及系统,以解决上述现有技术存在的问题。
2、第一方面,为实现上述目的,本发明提供了一种基于音频潜在特征对比学习的音频伪造检测方法,包括以下步骤:
3、对原始音频数据进行数据增强,生成伪造音频数据集;
4、构建音频检测模型,所述音频检测模型包括对比学习模型;
5、基于所述伪造音频数据集对所述音频检测模型进行第一阶段训练;
6、完成第一阶段训练后,使用对比学习模型进行第二阶段的训练;
7、基于完成所述第一阶段训练和第二阶段训练的音频检测模型对音频进行伪造检测。
8、可选的,对原始音频数据进行数据增强,生成伪造音频数据集的过程包括:
9、确认数据集的正负样本分布比例,如正负样本比例不等于1:1,则对数据进行调整;
10、对调整完毕后的原始音频数据进行数据增强,生成伪造音频数据集。
11、可选的,对调整完毕后的原始音频数据进行数据增强的过程包括:对调整完毕后的原始音频数据进行高斯噪声增强、波形位移、波形拉伸和音高修正。
12、可选的,构建音频检测模型,所述音频检测模型还包括:sinc层、残差块、gru层和全连接层。
13、可选的,基于所述伪造音频数据集对所述音频检测模型进行第一阶段训练,第一阶段训练的训练轮数为n,训练轮数执行完毕后第一阶段训练结束,第一阶段训练的过程中包括:
14、基于交叉熵损失函数训练模型。
15、可选的,完成第一阶段训练后,使用对比学习模型进行第二阶段的训练的过程中包括:
16、基于交叉熵损失函数和对比学习的损失函数进行第二阶段的训练。
17、第二方面,本发明还提供了一种基于音频潜在特征对比学习的音频伪造检测系统,用于实施一种基于音频潜在特征对比学习的音频伪造检测方法,所述系统包括:
18、数据处理模块,用于对原始音频数据进行数据增强,生成伪造音频数据集;
19、模型构建模块,用于构建音频检测模型,所述音频检测模型包括对比学习模型、sinc层、残差块、gru层和全连接层;
20、模型训练模块,用于基于所述伪造音频数据集对所述音频检测模型进行第一阶段训练,并在完成第一阶段训练后,使用对比学习模型进行第二阶段的训练;
21、检测模块,用于基于完成所述第一阶段训练和第二阶段训练的音频检测模型对音频进行伪造检测。
22、可选的,所述数据处理模块包括:
23、数据增强单元,用于对原始音频数据进行高斯噪声增强、波形位移、波形拉伸和音高修正。
24、第三方面,本发明还提供了一种计算机终端设备,包括:
25、一个或多个处理器;
26、存储器,与所述处理器耦接,用于存储一个或多个程序;
27、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如一种基于音频潜在特征对比学习的音频伪造检测方法。
28、第四方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如一种基于音频潜在特征对比学习的音频伪造检测方法。
29、与现有技术相比,本发明具有如下优点和技术效果:
30、本发明提供的一种基于音频潜在特征对比学习的音频伪造检测方法及系统,首先通过对原始数据进行多维度数据增强(包括高斯噪声添加、波形位移、拉伸及音高修正),生成覆盖复杂场景的伪造音频数据集;其次构建融合sinc卷积层、残差块及特征缩放映射的音频检测模型rawnet2-c,并集成对比学习模块;基于增强数据对模型进行第一阶段训练后,进一步通过两阶段训练策略联合优化分类与特征判别能力,最终显著提升模型对高逼真伪造音频的检测精度。通过数据增强与分阶段训练,模型可有效增强对背景噪声、语速/音调变化的适应性,同时直接从原始波形中提取深层潜在特征,避免传统人工特征设计的局限性,强化了复杂场景下的鲁棒性和判别能力。
1.一种基于音频潜在特征对比学习的音频伪造检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,对原始音频数据进行数据增强,生成伪造音频数据集的过程包括:
3.根据权利要求1所述的方法,其特征在于,对调整完毕后的原始音频数据进行数据增强的过程包括:对调整完毕后的原始音频数据进行高斯噪声增强、波形位移、波形拉伸和音高修正。
4.根据权利要求1所述的方法,其特征在于,构建音频检测模型,所述音频检测模型还包括:sinc层、残差块、gru层和全连接层。
5.根据权利要求1所述的方法,其特征在于,基于所述伪造音频数据集对所述音频检测模型进行第一阶段训练,第一阶段训练的训练轮数为n,训练轮数执行完毕后第一阶段训练结束,第一阶段训练的过程中包括:
6.根据权利要求1所述的方法,其特征在于,完成第一阶段训练后,使用
7.一种基于音频潜在特征对比学习的音频伪造检测系统,其特征在于,所述系统包括:
8.根据权利要求7所述的系统,其特征在于,所述数据处理模块包括:
9.一种计算机终端设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-6中任一项所述的基于音频潜在特征对比学习的音频伪造检测方法。