人脸伪造视频检测方法、系统、设备与存储介质

文档序号:26434837发布日期:2021-08-27 13:32阅读:290来源:国知局
人脸伪造视频检测方法、系统、设备与存储介质

本发明涉及人脸伪造视频检测技术领域,尤其涉及一种人脸伪造视频检测方法、系统、设备与存储介质。



背景技术:

deepfake人脸伪造视频已经成为当今互联网上传播最为广泛的媒体之一。由于深度学习在计算机视觉任务中取得了巨大成功,利用自编码器(autoencoder)和生成对抗网络(generativeadversarialnetworks)等进行图像生成都是近年来迅速发展起来的应用。随着图像生成技术的愈发先进及相关数据算法的易获得性,高质量的deepfake人脸伪造视频更容易被制作并且能够轻易欺骗人类。然而这些伪造技术很可能被滥用于恶意目的,造成严重的安全和伦理问题,因此deepfake人脸伪造视频检测的方法应运而生。以前的工作中,deepfake检测主要专注于在高质量的特定数据条件下,如何较好地区分同源数据的真伪。

目前存在的图像级别的deepfake检测工作主要分为两类:空域检测和频域检测。基于空域图像的方法虽然已经在某些条件下取得了非常好的效果,但是这类方法要么非常依赖于分布一致的数据集,要么对伪造视频的质量要求非常高,真实场景的伪造视频通常是低质量高噪声,很大程度上掩盖了伪造过程产生的伪影,因此这类方法存在一定的局限性。而之前基于频域的检测工作,大多仅仅从幅度谱上去提取特征,但实际上幅度谱并不能直接表征频域包含的信息量,导致没有完全利用频域的信息,因此基于频域的检测尚处于初等阶段,值得进行更深入的研究和探索。

deepfake人脸伪造视频通常是保留原有的人脸身份信息属性特征,因此真伪视频表达的语义信息几乎没有差别。对于传统的利用深度神经网络进行图像分类的模型,通常网络结构都较深,感受野比较大,全局语义信息得到了更多的关注,因此从某种意义上来说反而提取到了一些不利于分辨真伪的特征。因此考虑到deepfake人脸伪造视频的特有性质,需要进行神经网络结构的设计,通过设计合理的神经网络结构并配合更通用的频域信息,从而形成鲁棒的deepfake人脸伪造视频检测方法,可以避免互联网中非法deepfake人脸伪造视频的遭到大肆传播,具有重要的实际应用价值。



技术实现要素:

本发明的目的是提供一种人脸伪造视频检测方法、系统、设备与存储介质,结合空域和频域的鲁棒解决方案,并在真实场景中保证高召回率和低漏检率。

本发明的目的是通过以下技术方案实现的:

一种人脸伪造视频检测方法,包括:

对于预训练的用于人脸伪造视频检测的神经网络模型,移除中间部分的卷积层;

对于输入的人脸视频图像,逐帧进行相位谱信息的提取,并将每一人脸图像帧与相应的相位谱信息一并输入至神经网络模型的第一层卷积层,由神经网络模型输出人脸视频图像的检测结果。

一种人脸伪造视频检测系统,用于实现前述的方法,该系统包括:

模型构造单元,用于对于预训练的用于人脸伪造视频检测的神经网络模型,移除中间部分的卷积层;

信息提取与检测单元,用于对于输入的人脸视频图像,逐帧进行相位谱信息的提取,并将每一人脸图像帧与相应的相位谱信息一并输入至神经网络模型的第一层卷积层,由神经网络模型输出人脸视频图像的检测结果。

一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。

一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出,在频域对于相位信息提取处理后反变换回空域,结合空域图像用以提取空间相位特征,设计了合理的浅层学习方法学习局部纹理特征,极大提高了模型的可迁移性和可解释性;上述方案在deepfake人脸伪造视频检测任务中表现优异,在跨数据集的检测中达到了最好的效果。此外,还为伪造视频检测乃至其他计算机视觉任务提供了新的思路方法,有利于后续工作发展。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于空间相位浅层学习的人脸伪造视频检测方法的流程图;

图2为本发明实施例提供的多次上采样过程中真假图像在幅度谱和相位谱的差异对比图;

图3为本发明实施例提供的原始图像和上采样图像的频域分析对比图;

图4为本发明实施例提供的本发明方法与现有方法的主要区别示意图;

图5为本发明实施例提供的本发明所使用相位图可视化对比图;

图6为本发明实施例提供的不同数据集上本发明方法和xception的梯度热图可视化比较结果图;

图7为本发明实施例提供的一种人脸伪造视频检测系统的示意图;

图8为本发明实施例提供的一种电子设备的示意图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

近年来,深度造假技术取得了重大进展。随着图像生成技术的愈发先进及相关数据算法的易获得性,高质量的人脸伪造视频更容易被制作并且能够轻易欺骗人类。然而,这些伪造技术很可能被滥用于恶意目的,造成严重的安全和伦理问题。学界已经提出了许多检测方法试图减轻这种风险隐患。然而,绝大多数的方法都是主要专注于在高质量的特定数据条件下,如何较好地区分同源数据的真伪。

本发明针对当前deepfake人脸伪造视频检测方法的所存在的问题,旨在提出一种结合空域和频域的鲁棒解决方案,并在真实场景中保证高召回率和低漏检率。为达到该目的,本发明实施例提供一种基于空间相位浅层学习的人脸伪造视频检测方法(spatial-phaseshallowlearning,spsl)。

为了充分利用deepfake人脸伪造视频生成过程中的共性,需要在图像生成过程和检测方法之间建立一个强大的映射关系。根据deepfake人脸伪造视频生成的相关研究表明,大量上采样(upsampling)操作是生成过程的必要步骤。由此启发,根据这一既定事实去分析这种操作在图像上带来的细微变化。由于现有图像生成方法的约束几乎都是在空域完成,因此空域中的这种伪影被大量消除,但在频域中,上采样会直接带来额外的频率分量,而累积上采样操作则会进一步放大这一现象。基于理论推导和分析发现,相比于现有频域方法通常所用的幅度谱,相位谱包含更多的频率分量因此对上采样带来的变化更加敏感。据此,本发明提出在频域中提取相位信息辅助检测累积上采样的方法。对于自然图像,大部分高频分量的幅值都接近于0,但是这部分频率分量在相位谱中依然可以被计算,因此相位谱包含了更多的有效频率分量。并且每一次上采样都会产生新的频率分量,以此利用频域信息来检测真伪图像。

为了充分利用deepfake人脸伪造视频的特性,本发明提出了基于浅层学习的空域检测的方案,通过移除神经网络的部分卷积层和池化层以减小神经网络的深度,在更小的感受野下迫使网络去关注局部区域,捕获纹理特征。浅层学习不仅能够减小运算和时间成本,更是一种非常适合deepfake人脸伪造视频特性的检测方案,提高检测效果的同时更符合实际应用。

基于以上原理介绍,本发明提供的检测方法的主要流程如图1所示,主要包括:

移除预训练的用于人脸伪造视频检测的神经网络模型中间部分的卷积层,从而减小神经网络模型的深度与感受野,使得神经网络模型关注局部区域,捕获局部区域的纹理特征;

对于输入的人脸视频图像,逐帧进行相位谱信息的提取,并将每一人脸图像帧与相应的相位谱信息一并输入至神经网络模型的第一层卷积层,由神经网络模型输出人脸视频图像的检测结果。

本发明实施例上述方案与现有技术相比,主要具有如下优点:

1)本发明方法提出了一个完整的基于空间相位浅层学习的人脸伪造视频检测任务框架,充分利用伪造视频的共性和特性,保证了检测方法的鲁棒性。

2)本发明方法在在频域对于相位信息提取处理后反变换回空域,结合空域图像用以提取空间相位特征,设计了合理的浅层学习方法学习局部纹理特征,极大提高了模型的可迁移性和可解释性。

3)本发明方法在deepfake人脸伪造视频检测任务中表现优异,在跨数据集的检测中达到了最好的效果。此外,本发明还为伪造视频检测乃至其他计算机视觉任务提供了新的思路方法,有利于后续工作发展。

为了便于理解,下面针对本发明做进一步介绍。

在介绍本发明的主要技术方案之前,首先,介绍一个关于deepfake伪造视频生成过程中的重要观察,这一重要观察在之前也做了简单的说明,下面进行展开介绍。

现在几乎所有的deepfake伪造视频都是由自编码器(autoencoder)和生成对抗网络(generativeadversarialnetworks)来生成图像进而合成的,而这类方法通常都必须有大量的上采样步骤,因此累积上采样在图像频域中产生的痕迹和deepfake伪造视频有密切联系。但是,由于现有方法大多对频域的研究不深入,这种频域伪造痕迹并没有被完全利用。如图2所示,在大量上采样之后,生成图像的幅度谱会产生一些细微差异,而在相位谱中,这种差异在很大程度上被放大;图2中,以右侧端点为参考,上方曲线对应相位谱,下方曲线对应幅度谱。虽然这种差别不易被人眼察觉,但暴露出的潜在弱点可以被设计良好的检测器捕捉到。为了验证这一现象,通过对真实人脸图像进行上采样在频域中进行幅度谱和相位谱的分析,如图3所示,相位谱的残差结果能够验证这一重要观察。

基于这一观察结果,可以认为有必要建立上采样和人脸伪造检测的联系,为deepfake伪造视频检测带来显著优势。如图4所示,展示了大多现有方法和本发明方法的差异与区别,本发明的方法不仅关注伪造图像的空域表示,还关注到伪造视频生成过程中的弱点,能够进一步提升模型的鲁棒性和通用性。每一帧图像都可以通过傅里叶变换得到频谱,通过计算将相位谱分离出来,并将这部分额外信息作为一个通道送入到网络中进行特征提取并分类。

其次,由于deepfake伪造视频生成技术的特性,大多数生成方法仅仅关注到伪造人脸的语义信息包括身份、属性等,观察到真伪图像的局部纹理有较大的差异,因此希望引导模型能更加关注图像的局部信息而不是全局信息。同时考虑到计算量和效率的问题,最终选择通过减少网络部分卷积层的方式实现浅层学习,以获取更小的感受野促使模型关注到更细致的区域提取局部纹理特征实现更加通用的伪造检测方法。

综合以上两点思考和发现,本发明将相位信息和纹理特征信息融合,从将频域提取的相位信息转换到空域并用于浅层学习,得到最后的deepfake人脸伪造视频检测框架,检测框架的具体实施步骤如下:

1、提取相位谱信息。

首先,对所有视频(作为训练集)进行逐帧人脸检测和对齐,然后,进行离散傅里叶变换(dft),公式如下:

其中,x(n)表示图像像素点的值,x(u)表示图像频谱在频率u处的值,n表示像素总个数,j表示复数,e为自然常数。

利用频谱x(u)计算相位谱,表示为:

其中,i(u)和r(u)分别为频谱x(u)的虚部和实部。

然后在对计算得到的相位谱进行傅里叶反变换到空域,公式如下:

其中,p(n)表示相位谱空域像素点的值,p(u)表示相位谱在频率u处的值,n表示像素总个数,j表示复数。

在经过一系列的傅里叶变换和反变换后,得到了如图5所示的相位谱空域表示,图5中左侧标记的org、df、f2f、fs、nt表示原始图像和现有常见的4种伪造方法;image表示图像,phase表示相应图像的相位谱。不难发现不同伪造方法的相位谱与真实图像相位谱有明显差异,这也进一步证实了相位谱中包含了较多的可区分信息。除此之外,我们观察到在图5中,不同伪造方法的相位谱空域图像存在特定的模式,因此能够更容易区分出不同的伪造方法。并且从理论上证明了相位谱中包含更多可以用于区分真伪图像的频率分量,证明如下:

对于一张自然图像,低频分量表达的信息远远高于高频分量,因此对于部分高频分量来说幅度谱因此可以得到r(uk)≈±0andi(uk)≈±0;对于这部分高频分量,得到相位谱:

因此,可以证明得到,相较于幅度谱,相位谱中含有更加丰富的频率分量。

2、构建浅层学习框架。

通过分析真伪样本的纹理特征,发现伪造视频在局部纹理上存在大量的伪影和异常痕迹,即纹理信息更应该被关注到以用于deepfake伪造视频的检测。而神经网络的卷积操作能够直接影响到感受野的大小进而影响网络关注区域的大小,感受野的定义如下:

rfl-1=sl·rfl+(kl-sl)

其中,l表示卷积层的层数,kl和sl表示卷积层的尺寸和卷积步长;通过减少卷积层的层数l,从而减小神经网络模型的感受野。

为了达到此目的,本发明直接对现有的常用神经网络模型(用于人脸伪造视频检测的神经网络模型)进行重新设计和搭建,具体的,保留神经网络模型前端的若干卷积层与末端的卷积层,其余卷积层均为中间部分的卷积层被移除。示例性的,所述神经网络模型可以为预训练的xceptionnet模型,其具有12层卷积层,保留首端3层卷积层与末端卷积层,移除中间的8层卷积层,也将感受野从1083减小到了187,大幅减小感受野能够引导网络关注到局部区域。

此外,还需要对神经网络模型的输入做了细微修改,由于会直接通过输入利用到前述步骤提取到的相位信息,因此,将网络结构的第一层卷积层的通道数目加1,示例性的,假设第一层卷积层原始的输入通道为3,即输入rgb图像,则将通道数更改为4,输入rgb图像+相位信息(即rgb-p的输入图像)。

4通道rgb-p图像在神经网络中的处理方式与rgb图像几乎相同,由于p通道仍然是一种空域形式的图像,因此可以直接通过卷积层来提取特征,并且除了第一层卷积层输入通道数增加1之外,其余卷积层的通道数和原始神经网络无差别。通过一系列的卷积等操作之后,最后一层卷积层输出2048维的特征向量,然后将网络所提取的特征直接输入到全连接层完成判别真伪的二分类。

基于上述方案,构建出一个适合于deepfake伪造检测的浅层学习框架,能够有效的实现deepfake人脸伪造视频检测,在真实场景中保证高召回率和低漏检率。

当然,以上模型框架需要进行训练与优化,相关方案可参照常规技术实现,下面稍作说明。

如之前的示例,可以采用基于xceptionnet重新设计的网络作为模型的主干网络,这是一种用于deepfake检测的有效网络结构,并广泛用于现有的检测方法中。为了迁移到本发明任务中,将输入图像为原始rgb图像和相位空域表示图在通道上的组合,并且将rgb-p图像裁剪为299×299作为输入。

为了让模型在训练过程中更容易收敛,仍采用在imagenet上预训练的xceptionnet,整个训练过程采用自适应调整学习率的方式以获取全局最优值。

为了说明本发明实施例上述方案效果,下面通过实验进行说明。

1、同源同分布数据实验评估。

为了检测本发明的效果,首先比较了本方法和一些最新的检测方法在同源同分布数据级上的性能。使用ff++数据集作为训练集和测试集,并且选取了高质量(hq)和低质量(lq)两种质量的视频分别验证。使用xception作为基线模型(baseline)。所有对比实验采用同样的训练数据划分。表1给出了不用方案在ff++数据集上高质量视频和低质量视频评估结果,表1中的spsl(xception),spsl表示本发明的方法,括号中网络则作为的实验中本发明方法的主干网络,后续表格也是相同的含义。表1的结果表明,本发明的方法在高质量和低质量两种实验设置中都取得了性能上的提升。另外,还在低质量视频上分别验证了对于不同伪造算法的检测性能,结果如表2所示。尽管本发明的主要贡献在于不同数据分布的检测性能,但对于同源同分布数据我们的方法同样能取得较好的效果。

表1ff++数据集上高质量视频和低质量视频评估结果

表2ff++数据集上四种不同伪造方法的评估结果

2、未知数据分布的真实场景下实验评估。

在真实场景下,通常很难获取待检测deepfake伪造视频的数据来源和数据分布,因此检测方法的可迁移性对于该技术的实际应用是非常重要的。使用ff++数据集作为训练集,使用与训练集不同源不同分布的celeb-df数据集作为测试集,跨数据集评估结果如表3所示。

表3celeb-df数据集上的跨数据集评估结果

表3的结果表明,本发明所提出方法在celeb-df数据集上取得了目前公开测评的最好效果,比起之前的方法,在迁移性上有较大的提升。其中xception-c40指的是利用基础xception网络在数据集ff++低质量(lq)上训练的结果。

3、多分类评价。

进行了拓展实验来验证本发明方法在多分类中的有效性。该实验旨在通过本发明框架不仅能区分真假图像,还能区分不同的篡改方法。将ff++数据集中所有的真实唇形用0标记,4种不同伪造方法的图像分别用1-5标记,实验结果如表4所示,其中,c0,c23,c40表示不同压缩程度的数据集。

表4三种不同视频质量下每一种伪造方法的召回率结果

从表4的结果可以看出,本发明在三种不同质量的伪造视频下都能取得效果上的大幅提升。以上结果表明,本发明方法能够在多分类场景中找到高维空间中的潜在差异。对于所有的伪造方法,xceptionnet(也即左侧的基础方法)更容易混淆真实样本和neuraltextures方法伪造的样本,而本发明框架能够在特征空间中较好的分割出对应的真类和假类。

4、消融实验。

上述实验可以验证本方法整个框架的有效性,但仍然需要进一步验证相位谱和浅层学习均能提升检测性能。如表5所示,分别在基准线、仅使用相位谱、仅使用浅层学习、同时使用相位谱和浅层学习四种设置下进行实验对比。

表5相位和浅层的评估结果

表5所示的实验结果表明单独使用相位谱或者浅层学习仍能提升迁移性,但是完整的框架表现最好。

进一步,还通过实验验证了本发明所描述的方法是一个通用的方法,换句话说,整个框架可以即插即用在任何一个深度卷积神经网络分类器上。resnet作为应用最广泛的网络架构,选取了resnet-34和resnet-50来验证方法的通用性,实验结果如表6所示。

表6ff++和celeb-df在不同网络结构的评估结果

通过表6所示的实验结果可知,在resnet-34和resnet-50上都有大幅度的性能提升,从而验证了本方法的通用性。

5、可解释性分析。

上述实验验证了本发明及其单独模块的有效性,本发明在deepfake检测性能上达到了领先的水平。进一步,我们从可解释性方面分析本发明的优势。如图6所示,我们利用梯度热图可视化技术分析deepfake检测网络在判决过程中关注到的图像区域,深色代表关注较多的区域,浅色代表关注较小的区域,比起基础方法,我们的方法更加关注到人脸的五官区域,这也更符合我们实际中人脸伪造的未知区域,具有更强的可解释性。

本发明另一实施例还提供一种人脸伪造视频检测系统,主要用于实现前述实施例提供的方法,如图7所示,该系统包括:

模型构造单元,用于对于预训练的用于人脸伪造视频检测的神经网络模型,移除中间部分的卷积层;

信息提取与检测单元,用于对于输入的人脸视频图像,逐帧进行相位谱信息的提取,并将每一人脸图像帧与相应的相位谱信息一并输入至神经网络模型的第一层卷积层,由神经网络模型输出人脸视频图像的检测结果。

本发明另一实施例还提供一种电子设备,如图8所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的,所述电子设备还包括至少一个输入设备与至少一个输出设备;在所述电子设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;

输出设备可以为显示终端;

存储器可以为随机存取存储器(randomaccessmemory,ram),也可为非不稳定的存储器(non-volatilememory),例如磁盘存储器。

本发明另一实施例还提供一种计算机可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质可以是设置于前述电子设备中,例如,作为电子设备中的存储器。此外,所述可读存储介质也可以是u盘、移动硬盘、只读存储器(read-onlymemory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1