基于像素级注意力机制的深度伪造图像检测方法和系统与流程

文档序号:32408121发布日期:2022-12-02 20:54阅读:111来源:国知局
基于像素级注意力机制的深度伪造图像检测方法和系统与流程

1.本发明涉及图像检测的技术领域,尤其是基于像素级注意力机制的深度伪造图像检测方法和系统。


背景技术:

2.深度伪造检测技术已经利用卷积神经网络取得许多卓越显著的性能,其主要依靠的是卷积神经网络对高层语义信息的获取,并在分类损失的约束下不断优化和拟合。目前的深度伪造检测算法主要是通过增加数据量,提升模型的准确率和泛化性。对于所有卷积神经网络而言,大规模的数据量可以提升模型的准确率。然而,通过数据层面提升模型泛化性,会使得模型完全依靠大规模数据,无法从卷积神经网络本身来优化模型的特征学习能力。因此,如何使模型本身能具有挖掘显著特征信息的能力是一个具有挑战性的问题。
3.目前的深度伪造检测算法主要是依靠先进的主干网络和大规模的数据量,使得模型在伪造数据进行拟合。然而,目前的算法主要是依靠更换更强表征力的卷积神经网络和不断增加数据量,从而来提升模型的准确率和泛化性。现有的算法缺乏从特征层面来考虑深度伪造检测算法。现有的主干网络由于多层卷积层的设计,特征信息在前向传播过程中不断被平滑化。即,前一个卷积层的特征信息送入后一个卷积层,更多的是当前平均化的特征信息,而不是显著的特征信息。深度伪造检测算法不同于其他计算视觉任务,在深度伪造检测算法中应该保证前向传播的是显著的特征信息。
4.深度伪造检测网络被看作是一个二分类问题,利用卷积神经网络提取高层语义信息,在分类损失的约束下进行判别真实和伪造图像。卷积神经网络在深度伪造检测上取得较好的性能,目前各种算法主要是通过增加数据量来增加算法的泛化性和鲁棒性。然而,现有的算法却忽略了一个问题,卷积神经网络对图像的特征提取从底层轮廓信息逐渐到高层语义信息,特征信息趋于平滑化,网络对所有信息的关注度是一样的。对于深度伪造检测算法,应该去关注前一个卷积层获取的特征信息是否有将显著的信息传给下一个卷积层,应该去增强显著信息的特征表达,而不是使得所有特征信息平滑化。


技术实现要素:

5.为了解决现有技术中存在的上述技术问题,本发明提出了一种基于像素级注意力机制的深度伪造图像检测方法和系统,以解决上述技术问题。
6.根据本发明的一个方面,提出了基于像素级注意力机制的深度伪造图像检测方法,包括:
7.s1:在图像检测的主干网络中的提取特征之后插入像素级注意力机制模块,利用一个1*1卷积对特征信息fi进行通道压缩,压缩通道并将降维后的特征和原始图像相加得到特征f
ii
;,
8.s2:将特征f
ii
再经过一个1*1卷积和sigmoid激活函数得到增强后的特征信息;
9.s3:将增强后的特征信息作为下一特征提取阶段的输入,重复进行前述步骤进行
特征信息增强,并利用标签平滑正则化的交叉嫡损失函数进行约束。
10.在一些具体的实施例中,主干网络为resnet50网络,resnet50网络包括四个提取特征的阶段。
11.在一些具体的实施例中,每个特征提取的方式为fi=(bi{xi|θi}),其中,bi代表主干网络resnet50第i个特征提取过程,xi代表输入的人脸图像,θi代表第i个特征提取过程涉及的参数。
12.在一些具体的实施例中,s1中对特征信息fi进行通道压缩具体为从c个通道压缩至3个通道。
13.在一些具体的实施例中,s2中特征f
ii
再经过一个1*1卷积和sigmoid激活函数得到维度为h
×w×
c的特征,经过sigmoid逐个对像素进行激活,形成了像素级的注意力掩膜。
14.在一些具体的实施例中,标签平滑正则化的交叉嫡损失函数具体为:其中,ε∈[0,1],k表示类别数,p(k)表示预测属于类别k的概率。
[0015]
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。
[0016]
根据本发明的第三方面,提出了基于像素级注意力机制的深度伪造图像检测系统,系统包括:
[0017]
像素级注意力机制模块插入单元,配置用于在图像检测的主干网络中的提取特征之后插入像素级注意力机制模块,利用一个1*1卷积对特征信息fi进行通道压缩,压缩通道并将降维后的特征和原始图像相加得到特征f
ii

[0018]
特征增强单元,配置用于将特征f
ii
再经过一个1*1卷积和sigmoid激活函数得到增强后的特征信息;
[0019]
约束单元:配置用于将增强后的特征信息作为下一特征提取阶段的输入,重复进行前述步骤进行特征信息增强,并利用标签平滑正则化的交叉嫡损失函数进行约束。
[0020]
在一些具体的实施例中,主干网络为resnet50网络,resnet50网络包括四个提取特征的阶段,每个特征提取的方式为fi=(bi{xi|θi}),其中,bi代表主干网络resnet50第i个特征提取过程,xi代表输入的人脸图像,θi代表第i个特征提取过程涉及的参数。
[0021]
在一些具体的实施例中,像素级注意力机制模块插入单元中对特征信息fi进行通道压缩具体为从c个通道压缩至3个通道。
[0022]
在一些具体的实施例中,特征增强单元中特征f
ii
再经过一个1*1卷积和sigmoid激活函数得到维度为h
×w×
c的特征,经过sigmoid逐个对像素进行激活,形成了像素级的注意力掩膜。
[0023]
在一些具体的实施例中,标签平滑正则化的交叉嫡损失函数具体为:其中,ε∈[0,1],k表示类别数,p(k)表示预测属于类别k的概率。
[0024]
本发明提出了一种基于像素级注意力机制的深度伪造图像检测方法和系统,通过引入一个像素级的注意力机制模块,来增强每个阶段特征信息的表达,使得在神经网络前向传播的是显著的特征信息。本发明提出的像素级的注意力机制模块较为灵活,可以随意
插入不同卷积层之后,而且在推理过程中不会增加太多参数量和运算量。
附图说明
[0025]
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本技术的其它特征、目的和优点将会变得更明显:
[0026]
图1是本技术的一个实施例的基于像素级注意力机制的深度伪造图像检测方法的流程图;
[0027]
图2是本技术的一个具体的实施例的基于像素级注意力机制的深度伪造图像检测方法的算法框架图;
[0028]
图3是本技术的一个实施例的基于像素级注意力机制的深度伪造图像检测系统的框架图;
[0029]
图4是适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0030]
下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
[0031]
需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
[0032]
根据本技术的一个实施例的基于像素级注意力机制的深度伪造图像检测方法,图1示出了根据本技术的实施例的基于像素级注意力机制的深度伪造图像检测方法的流程图。如图1所示,该方法包括:
[0033]
s101:在图像检测的主干网络中的提取特征之后插入像素级注意力机制模块,利用一个1*1卷积对特征信息fi进行通道压缩,压缩通道并将降维后的特征和原始图像相加得到特征f
ii

[0034]
在具体的实施例中,主干网络为resnet50网络,resnet50网络包括四个提取特征的阶段,每个特征提取的方式为fi=(bi{xi|θi}),其中,bi代表主干网络resnet50第i个特征提取过程,xi代表输入的人脸图像,θi代表第i个特征提取过程涉及的参数。
[0035]
在具体的实施例中,对特征信息fi进行通道压缩具体为从c个通道压缩至3个通道。
[0036]
s102:将特征f
ii
再经过一个1*1卷积和sigmoid激活函数得到增强后的特征信息。
[0037]
在具体的实施例中,特征f
ii
再经过一个1*1卷积和sigmoid激活函数得到维度为h
×w×
c的特征,经过sigmoid逐个对像素进行激活,形成了像素级的注意力掩膜,h表示图像的高,w表示图像的宽,c为通道数。
[0038]
s103:将增强后的特征信息作为下一特征提取阶段的输入,重复进行前述步骤进行特征信息增强,并利用标签平滑正则化的交叉嫡损失函数进行约束。
[0039]
在具体的实施例中,标签平滑正则化的交叉嫡损失函数具体为:其中,ε∈[0,1],k表示类别数,p(k)表示预测属于类别k的概率。
[0040]
图2示出了根据本发明的一个具体的实施例的基于像素级注意力机制的深度伪造图像检测方法的算法框架图,如图2所示,该框架适用于各种主干网络,像素级注意力机制模块可插入各种主干网络中,本实施例中以resnet50作为示例,包括以下步骤:
[0041]
步骤s1:如图2所示,以resnet50为主干网络作为示例。resnet50主要包括4个提取特征的阶段,本发明提出的像素级注意力机制模块可以插入任何一个阶段,增强特征信息的表达。resnet50每个特征提取方式如下表达式所示:fi=(bi{xi|θi}),其中,bi代表主干网络resnet50第i个特征提取过程,xi代表输入的人脸图像,θi代表第i个特征提取过程涉及的参数。
[0042]
步骤s2:为了保证特征信息的前向传播,在每个特征之后都插入像素级注意力机制模块。首先利用一个1*1卷积对特征信息fi对行通道压缩,从c个通道压缩至3个通道,然后将降维后的特征和原始图像进行相加得到f
ii

[0043]
步骤s3:将和原图相加后的特征信息f
ii
再经过一个1*1卷积和sigmoid激活函数,重新得到维度为h
×w×
c的特征,但是这个特征已经过sigmoid逐个对像素进行激活,形成了像素级的注意力掩膜,已经对显著信息进一步增强。
[0044]
步骤s4:将增强后的特征信息作为下一个特征提取阶段的输入,然后每个阶段获取的特征信息,都重复经过步骤s2和s3进行特征信息增强。
[0045]
步骤s5:整个框架算法采用常的分类损失函数为交叉熵损失函数,并采用标签平滑正则化策略来防止算法过拟合,标签平滑正则化的交叉熵损失函数如下式所示:其中ε∈[0,1],k是类别数,p(k)代表预测属于类别k的概率。
[0046]
本发明提出的基于像素级注意力机制的深度伪造检测算法,通过引入一个像素级的注意力机制模块,来增强每个阶段特征信息的表达,使得在神经网络前向传播的是显著的特征信息。本发明提出的像素级注意力机制模块较为灵活,可以随意插入不同卷积层之后,而且在推理过程中不会增加太多参数量和运算量。
[0047]
继续参考图3,图3示出了根据本发明的实施例的基于像素级注意力机制的深度伪造图像检测系统的框架图。该系统具体包括像素级注意力机制模块插入单元301、特征增强单元302和约束单元303。像素级注意力机制模块插入单元301配置用于在图像检测的主干网络中的提取特征之后插入像素级注意力机制模块,利用一个1*1卷积对特征信息fi进行通道压缩,压缩通道并将降维后的特征和原始图像相加得到特征f
ii
;特征增强单元302配置用于将特征f
ii
再经过一个1*1卷积和sigmoid激活函数得到增强后的特征信息;约束单元303配置用于将增强后的特征信息作为下一特征提取阶段的输入,重复进行前述步骤进行特征信息增强,并利用标签平滑正则化的交叉嫡损失函数进行约束。
[0048]
下面参考图4,其示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0049]
如图4所示,计算机系统包括中央处理单元(cpu)401,其可以根据存储在只读存储器(rom)402中的程序或者从存储部分408加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram 403中,还存储有系统400操作所需的各种程序和数据。cpu 401、rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。
[0050]
以下部件连接至i/o接口405:包括键盘、鼠标等的输入部分406;包括诸如液晶显示器(lcd)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至i/o接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
[0051]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(cpu)401执行时,执行本技术的方法中限定的上述功能。需要说明的是,本技术的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0052]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0053]
附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0054]
描述于本技术实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
[0055]
作为另一方面,本技术还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:在图像检测的主干网络中的提取特征之后插入像素级注意力机制模块,利用一个1*1卷积对特征信息fi进行通道压缩,压缩通道并将降维后的特征和原始图像相加得到特征f
ii
;将特征f
ii
再经过一个1*1卷积和sigmoid激活函数得到增强后的特征信息;将增强后的特征信息作为下一特征提取阶段的输入,重复进行前述步骤进行特征信息增强,并利用标签平滑正则化的交叉嫡损失函数进行约束。
[0056]
以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1