基于频率注意力特征融合的伪造人脸检测方法、介质和设备

文档序号:34817051发布日期:2023-07-19 19:59阅读:37来源:国知局
基于频率注意力特征融合的伪造人脸检测方法、介质和设备

本发明涉及深度伪造检测,具体涉及一种基于频率注意力特征融合的伪造人脸检测方法、介质和设备。


背景技术:

1、得益于计算机视觉技术中的音视频合成、人脸识别、生成对抗网络、变分自编码器等技术取得了重大突破,以deepfake为首的深度伪造技术应运而生。深度伪造是基于变分自编码器或生成对抗网络等智能化方法对图像、视频或音频进行重现、合成、编辑和替换操作以实现逼真的面部替换。通过这些技术,使用者可以随意对目标视频中的人脸进行篡改替换、模仿真人说话的表情动作,创造出虚拟的人脸,导致网络上出现了大量的伪造视频,这不仅会侵犯个人隐私,还会给社会的稳定带来威胁。因此,深度伪造检测技术的发展迫在眉睫。

2、现有的深度伪造检测技术可以划分为基于传统图像取证的检测方法和基于深度学习技术检测方法。基于传统图像取证的方法是指使用传统的数字图像处理手段来检测和识别图像中的伪造人脸,通过比对伪造人脸与真实人脸的不同图像特征,例如纹理、光线、人脸形状、阴影等,通过分析这些特征,可以检测出伪造人脸;基于深度学习技术的方法通常是利用卷积神经网络模型来提取图像中的人脸属性、人脸结构、人脸细节等深度特征并进行分析,从而判断出图像是否为真实的人脸或者伪造的人脸。伪造人脸检测技术的主要挑战在于对不同类型的伪造攻击进行有效的识别,包括图像合成、深度伪造、视频合成等。因此,目前的研究方向是结合多种技术,包括纹理分析、光谱分析、运动分析、3d模型等,提高伪造人脸检测的准确率和鲁棒性。

3、虽然目前的深度学习模型能够很好的提取出特征,但由于基于gan生成的图像越来越逼真,真实人脸与伪造人脸之间的差异变得越来越难以辨别,卷积神经网络模型提取到的特征在不同数据集之间没有足够的区分性,导致伪造人脸检测模型的准确率降低。为了有效利用卷积神经网络提取的不同层次的特征,许多研究人员的做法是使用简单的加和与拼接操作来融合特征,然而由于不同来源、不同层次的特征可能在不同尺度和语义层面上存在显著的不一致性,因此这种方法会影响模型效果。


技术实现思路

1、鉴于上述问题,本发明提供了一种基于频率注意力特征融合的伪造人脸检测方法、介质和设备,解决了现有的深度学习模型识别伪造人脸检测模型的准确率低的问题。

2、为实现上述目的,在第一方面,本发明提供了一种基于频率注意力特征融合的伪造人脸检测方法,包括以下步骤:

3、获取样本图像,样本图像为包含人脸区域的图像信息;

4、将样本图像经过图像增强模块进行图像增强处理,获得第一人脸图像以及第二人脸图像,第一人脸图像与第二人脸图像所采用的图像增强方式不同;

5、采用离散余弦变换将第一人脸图像与第二人脸图像转换至频域,分别获得二者所对应的一级频谱图,获取一级频谱图中不同频域的频谱图像信息,并沿通道维度对不同频域的频谱图像信息进行拼接,获得二者所对应的二级频谱图,采用反离散余弦变换将二级频谱图转回空间域,分别获得第一人脸图像对应的第一频域增强图像和第二人脸图像对应的第二频域增强图像;

6、对第一人脸图像、第二人脸图像、第一频域增强图像以及第二频域增强图像进行特征提取,并对提取的特征信息进行融合,得到包含空间域信息与频域信息的第一融合特征以及第二融合特征,采用注意力机制对所述第一融合特征以及所述第二融合特征进行处理,获得特征表示向量;

7、将特征表示向量分别输入第一分支以及第二分支进行网络训练,叠加第一分支和第二分支的训练结果得到训练完成的深度伪造人脸检测模型;第一分支被配置为采用池化层和全连接层获得用于判断真伪的第一预测结果,以及采用交叉熵损失函数对第一预测结果进行优化;第二分支被配置为采用余弦相似度损失函数计算第一人脸图像与第二人脸图像的特征表示向量的相似度,并将同一真实样本之间的距离拉近。

8、在一些实施例中,离散余弦变换通过公式(1)表示,公式(1)如下:

9、

10、其中,f(u,v)为离散余弦变换后的系数,反离散余弦变换通过公式(2)表示,公式(2)如下:

11、

12、

13、其中,f(i,j)为经过图像增强处理后的样本图像,n为经过图像增强处理后的样本图像的像素点的点数,c(u)是补偿系数,可以使离散余弦变换矩阵为正交矩阵。

14、在一些实施例中,不同频域的频谱图像信息通过公式(3)获得,公式(3)如下:

15、

16、其中,concat表示沿通道维度进行拼接特征图的操作;d(·)与d-1分别表示离散余弦变换和反离散余弦变换;分别表示低频、中频、高频滤波,i∈{1,2,3}。

17、在一些实施例中,对第一人脸图像、第二人脸图像、第一频域增强图像以及第二频域增强图像采用卷积神经网络进行特征提取,所述卷积神经网络采用xception作为骨干网络,所述特征提取步骤包括:

18、分别对第一人脸图像、第二人脸图像及所对应的第一频域增强图像以及第二频域增强图像进行低层的特征提取,低层为separable conv层以及relu层;

19、将提取的低层的特征信息输入xception网络中,并分别对第一人脸图像、第二人脸图像及所对应的第一频域增强图像以及第二频域增强图像进行中层的特征提取,中层为12个xception网络的block模块;

20、将提取的中层的特征信息输入xception网络中,并分别对第一人脸图像、第二人脸图像及所对应的第一频域增强图像以及第二频域增强图像进行高层的特征提取,高层为separable conv层、relu层以及pooling层。

21、在一些实施例中,对第一人脸图像、第二人脸图像、第一频域增强图像以及第二频域增强图像提取的特征信息通过空域与频域特征融合模块计算获得,空域与频域特征融合模块基于通道注意力模块计算获得,通道注意力模块的计算过程包括以下步骤:

22、对于输入的特征图x分别进行第一函数分析以及第二函数分析,第一函数分析包括在第一逐点卷积层、非线性激活函数relu层以及第二逐点卷积层进行局部人脸图像信息提取,其提取结果通过公式(4)获得,公式(4)如下:

23、l(x)=bn(pwconv2(relu(bn(pwconv1(x))));

24、其中,bn表示归一化,relu表示非线性激活函数,pwconv表示point-wise卷积,pwconv1表示第一逐点卷积层,第一逐点卷积层的卷积核大小为c/r×c×1×1,pwconv2表示第二逐点卷积层,第二逐点卷积层的卷积核大小为c×c/r×1×1,r表示通道缩减率;

25、第二函数分析包括在全局平均池化层、第一逐点卷积层、非线性激活函数relu层以及第二逐点卷积层进行全局人脸图像信息提取,其全局平均池化通过公式(5)获得,所示公式(5)如下:

26、

27、其中,h、w为特征图的尺寸,gap(x)为全局池化信息,全局信息g(x)通过公式(6)获得,公式(6)如下:

28、g(x)=bn(pwconv2(relu(bn(pwconv1(gap(x))))));

29、其中,bn表示归一化,relu表示非线性激活函数,pwconv表示point-wise卷积,pwconv1表示第一逐点卷积层,第一逐点卷积层的卷积核大小为c/r×c×1×1,pwconv2表示第二逐点卷积层,第二逐点卷积层的卷积核大小为c×c/r×1×1,r表示通道缩减率;

30、采用非线性激活函数sigmoid对局部人脸图像信息提取以及全局人脸图像信息提取极性特征融合,获得特征图,特征融合通过公式(7)获得,公式(7)如下:

31、

32、其中,sigmoi耀表示非线性激活函数,表示逐元素相加操作。

33、在一些实施例中,空域与频域特征融合模块的计算过程包括以下步骤:

34、采用卷积神经网络提取空域特征图与频域特征图,将空域特征图与频域特征图进行加和获得一级特征图;

35、将一级特征图输入至通道注意力模块,获得包含图像空域、频域、全局与局部信息的二级特征图;

36、将二级特征图与空域特征图以及频域特征图分别进行残差连接并输出,获得最终融合特征,最终融合特征通过公式(8)、(9)获得,公式(8)如下:

37、x′=x+m(x+y);

38、公式(9)如下:

39、y′=y+m(x+y);

40、其中,x、y分别表示空域特征图与频域特征图的特征,x′、y′分别表示空域特征图与频域特征图经过空域与频域融合模块后的特征,m表示通道注意力模块的计算过程。

41、在一些实施例中,注意力机制包括变体注意力模块,变体注意力模块的计算过程包括以下步骤:

42、对空域与频域特征融合模块的输出结果进行加和操作,输入通道注意力模块,获得其输出的特征图;

43、对空域与频域特征融合模块的输出结果进行注意力计算,分别获得其所对应的全局与局部伪影联系的注意力图;

44、将全局与局部伪影联系的注意力图进行加和后输入通道注意力模块,获得最终注意力权重矩阵;

45、对最终注意力权重矩阵进行第一注意力分析计算以及第二注意力分析计算,第一注意力分析计算对最终注意力权重矩阵与空域特征图相乘得到第一注意力分析特征值,第二注意力分析计算对最终注意力权重矩阵进行反转注意力操作,再将其与频域特征图相乘计算得到第二注意力分析特征值;

46、将第一注意力分析特征值与第二注意力分析特征值进行加和计算得出特征表示向量;

47、特征表示向量通过公式(10)与公式(11)获得,公式(10)如下:

48、

49、公式(11)如下:

50、

51、其中,a为第一次经过注意力计算得到的特征,z为编码网络输出的最终特征表示,表示逐元素相乘操作。

52、在一些实施例中,交叉熵损失函数通过公式(12)表示,公式(12)如下:

53、

54、其中,为sigmoid函数的输出概率,yi为第i个输入的标签植,在训练过程中,定义1为伪造人脸,0为真实人脸,lce为交叉熵损失函数值;

55、余弦相似度损失函数通过公式(13)表示,公式(13)如下:

56、

57、其中,表示计算两个特征的余弦距离,lsim为余弦相似度损失函数值;

58、人脸检测模型l通过公式(14)获得,公式(14)如下:

59、l=lce+βlsim;

60、其中,β表示权重平衡参数。

61、在第二方面,本发明还提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现在第一方面所述的方法。

62、在第三方面,本发明还提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现在第一方面所述的方法。

63、区别于现有技术,上述技术方案可充分聚合多种多样的人脸特征信息,有效地加强了人脸特征的表达能力,从而提高伪造人脸检测准确率;通过增加空域频域特征融合模块,充分利用了图像的空域信息,同时,还可通过频域信息关注到的在伪造人脸生成过程中由于上采样操作而产生的伪造痕迹,实现了多维的信息聚合;变体注意力模块可通过加强的注意力操作,获得最优的特征表示,大大提高了伪造人脸检测的泛化性以及面对真实场景中各种未知篡改方法的鲁棒性,提高了模型的分辨能力,使其在真实场景下也能保持较好的效果。

64、上述
技术实现要素:
相关记载仅是本发明技术方案的概述,为了让本领域普通技术人员能够更清楚地了解本发明的技术方案,进而可以依据说明书的文字及附图记载的内容予以实施,并且为了让本发明的上述目的及其它目的、特征和优点能够更易于理解,以下结合本发明的具体实施方式及附图进行说明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1