基于时空特征的社交网络深度伪造视频检测方法及系统

文档序号:37003898发布日期:2024-02-09 12:49阅读:26来源:国知局
基于时空特征的社交网络深度伪造视频检测方法及系统

本发明涉及深度伪造视频检测领域,具体涉及一种基于时空特征的社交网络深度伪造视频检测方法及系统。


背景技术:

1、现阶段深度伪造视频主要是对视频中的人脸进行篡改替换,以达到伪造身份的目的,伪造的方法主要分两种,一种是基于传统的图形学进行人脸建模,比如faceswap开源软件,通过3d模型的拟合和高斯牛顿优化来实现人脸的替换,以及现在的基于深度学习模型的伪造。检测方法可分为:基于传统图像取证检测方法、基于单个帧的深度学习检测方法和基于帧间特征不一致性的检测方法。

2、基于传统图像取证检测方法大多通过检测图像噪声,对图像特征进行统计分析实现,可以检测图像局部噪声方差来判断图像是否被篡改,通过对图像分块分析压缩痕迹来检测和定位篡改区域。由于deepfake生成的视频人脸和帧的其余部分之间的接缝融合会产生边界效应,通常通过模糊这些边界像素的颜色强度来减少边界效应,这会导致交换的人脸在视觉上与场景的其余部分不一致。

3、基于单个帧的深度学习检测方法,首先使用人脸检测方法在视频中截取人脸图像,使用深度神经网络提取图像的特征,并对特征进行分类。人脸检测算法中可以采用yolo、mtcnn、blazeface人脸检测器从视频帧中提取人脸区域。此方法还可以结合视频中人的生理特征,首先识别两个眼睛的颜色差异特征,再计算人眼和牙齿的纹理特征,结合这两个特征来鉴别伪造视频。利用心率节奏来鉴别伪造视频,由于人的血液流动会导致脸部颜色发生周期性变化,而伪造视频会破坏这种周期性变化规律,首先采用运动放大的时空表示方法(mmstr)获取心率特征,然后训练双时空注意网络模型,通过检测图片视频中人的心率异常来鉴别伪造视频。伪造视频通常对人的嘴唇和牙齿处理的比较粗糙,不能完善其细节特征。

4、基于帧间特征不一致性的检测方法,连续帧作为输入,使用cnn进行特征提取,使用lstm学习特征序列对模型进行训练,lstm网络捕获视频中的光流特征,光流特征代表了相邻帧中每个像素运动情况,由于基于单个帧的伪造视频像素运动情况不一致,所以无法确保检测精度。


技术实现思路

1、本发明的目的在于提供一种基于时空特征的社交网络深度伪造视频检测方法及系统,以克服压缩技术对深度伪造视频检测干扰的问题,以及普通模型对细粒度伪造检测能力弱的问题。

2、一种基于时空特征的社交网络深度伪造视频检测方法,包括以下步骤:

3、s1,提取待识别视频中的人脸序列,将提取的人脸序列经过自适应频域感知机制进行滤波;

4、s2,采用以efficientnet-b4为主干网络的cnn模型从滤波后的人脸序列中提取伪造特征图;

5、s3,对提取的伪造特征图分别进行时序特征提取和空间特征提取,对提取的时序特征进行时序分类,对提取的空间特征进行空间分类,对时序分类结果和空间分类结果进行融合得到视频最终检测结果,根据视频最终检测结果进行真伪划分。

6、优选的,使用mtcnn模型提取待识别视频中的人脸序列,人脸序列包括人脸范围和人脸关键点。

7、优选的,将获取的人脸序列图像通过离散傅里叶变换,然后将经过离散傅里叶变换的图像从空间域转换到频率域,将频率域中心移动到图像的中心,用截至频率参数d0生成高斯低通滤波核,将频率域图像和高斯滤波核进行卷积,将频率域中心移回原点,完成滤波,将滤波后的频率域图像通过离散傅里叶逆变换,转换为空间域图像,得到过滤高频后的图像。

8、优选的,使用渐进式注意力机制,增强cnn模型对细粒度伪造的敏感程度和对不明显伪造区域的注意力。

9、优选的,对空间分类结果和时序分类结果进行融合,得到最终的视频预测结果,视频最终预测为假的概率p使用如下公式计算:

10、p=μolstm+λocnn

11、其中olstm表示时序网络lstm预测为假的概率,ocnn表示基于帧的预测为假的概率,μ和λ是融合因子,取常数值。

12、优选的,生成伪造注意力图fam,将224×224大小的人脸图像经过xception网络或者efficientnet-b4网络提取到伪造特征,经过全连接层得到输出概率值ofake和oreal,再将abs(ofake-oreal)进行反向梯度计算,再通过计算最大值,得到伪造注意力图fam。

13、优选的,将伪造注意力图fam中的坐标按照注意力大小,选取第一个坐标即为伪造最敏感的像素坐标;设图像大小为h×w,使用一个随机大小的矩形块遮挡最敏感的坐标,矩形块大小为he×we(he<h,we<w),从而形成的图像即为最大伪造擦除后的图像;将最大伪造擦除后的图像输入网络进行训练。

14、一种基于时空特征的社交网络深度伪造视频检测系统,包括滤波模块,特征提取模块和检测模块;

15、滤波模块,用于提取待识别视频中的人脸序列,将提取的人脸序列经过自适应频域感知机制进行滤波;

16、特征提取模块,采用以efficientnet-b4为主干网络的cnn模型从滤波后的人脸序列中提取伪造特征图;

17、检测模块,对提取的伪造特征图分别进行时序特征提取和空间特征提取,对提取的时序特征进行时序分类,对提取的空间特征进行空间分类,对时序分类结果和空间分类结果进行融合得到视频最终检测结果,根据视频最终检测结果进行真伪划分。

18、优选的,使用mtcnn模型提取待识别视频中的人脸序列,人脸序列包括人脸范围和人脸关键点。

19、优选的,将获取的人脸序列图像通过离散傅里叶变换,然后将经过离散傅里叶变换的图像从空间域转换到频率域,将频率域中心移动到图像的中心,用截至频率参数d0生成高斯低通滤波核,将频率域图像和高斯滤波核进行卷积,将频率域中心移回原点,完成滤波,将滤波后的频率域图像通过离散傅里叶逆变换,转换为空间域图像,得到过滤高频后的图像。

20、与现有技术相比,本发明具有以下有益的技术效果:

21、本发明公开了一种基于时空特征的社交网络深度伪造视频检测方法及系统,通过提取待识别视频中的人脸序列,将提取的人脸序列经过自适应频域感知机制进行滤波以去除深度伪造视频中的压缩噪声。从空域与时序角度探索视频的深度伪造特征的局部与全局自相关性。具体的,采用融合渐进式注意力机制的efficientnet-b4提取细粒度的空域局部深度伪造特征自相关性。结合lstm时序网络提取深度伪造特征的全局自相关性。依据空域与时序自相关性判别结果获取视频真伪。本发明采用自适应频域感知滤波器去除深度伪造检测中压缩操作的干扰性,减少了社交网络中视频压缩技术对深度伪造视频检测造成的影响,增强提取的深度伪造特征,解决了压缩深度伪造视频检测率低、鲁棒性差、泛化能力弱的问题。

22、优选的,融合了渐进式注意力机制,渐进式擦除最可疑的伪造区域,迫使模型提取其他区域微小的伪造特征,提升了模型对压缩伪造视频中细粒度伪造痕迹的检测能力。同时优化了模型的损失函数,在模型训练过程中,使用均方误差来衡量伪造注意力图和真实伪造区域之间的距离作为损失,使模型提取的伪造特征更准确。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1