人脸合成图像的检测方法及装置与流程

文档序号:21271776发布日期:2020-06-26 22:58阅读:391来源:国知局
人脸合成图像的检测方法及装置与流程

本发明涉及视觉技术领域,具体涉及一种人脸合成图像的检测方法及装置。



背景技术:

随着人脸合成技术(也称为换脸技术)的发展,可能通过该技术传播虚假信息或虚假新闻,对社会造成不良影响。特别是在涉及到图像取证,需要确定图像的来源和潜在的真实性。

目前,基于faceforensics++数据集使用卷积神经网络(cnn)学习图像特征的能力,以监督学习的方式训练出用于检测合成人脸图像的神经网络。然而,针对不同的换脸技术,该神经网络的泛用性比较差,并且该神经网络容易受到图像背景的干扰,检测准确率不高。



技术实现要素:

本发明的目的是针对上述现有技术的不足提出的一种人脸合成图像的检测方法及装置,该目的是通过以下技术方案实现的。

本发明的第一方面提出了一种人脸合成图像的检测方法,所述方法包括:

将待检测图像输入已训练的网络模型,以由所述网络模型中的人脸检测网络基于待检测图像获得包含人脸框的图像并输出给所述网络模型中的真伪判别网络;

所述真伪判别网络基于包含人脸框的图像判别所述待检测图像是否为人脸合成图像。

本发明的第二方面提出了一种人脸合成图像的检测装置,所述装置包括:

模型检测模块,用于将待检测图像输入已训练的网络模型,以由所述网络模型中的人脸检测网络基于待检测图像获得包含人脸框的图像并输出给所述网络模型中的真伪判别网络;所述真伪判别网络基于包含人脸框的图像判别所述待检测图像是否为人脸合成图像;

获取模块,用于获取所述网络模型输出的判别结果。

在本发明实施例中,针对不同换脸技术篡改得到的待检测图像,可以通过本发明提出的包含人脸检测网络和真伪判别网络的网络模型实现精确检测,通用性好,由于人脸检测网络可以精确检测出待检测图像中的人脸,真伪判别网络基于包含人脸框的图像可以只基于人脸特征来判别待检测图像的真伪,避免待检测图像背景的干扰,因此本发明得到的判别结果准确度比较高。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明根据一示例性实施例示出的一种网络模型的结构示意图;

图2为本发明根据一示例性实施例示出的一种人脸合成图像的检测方法的实施例流程图;

图3为本发明示出的一种人脸检测网络的结构示意图;

图4为本发明示出的一种真伪判别网络的结构示意图;

图5为本发明根据一示例性实施例示出的一种电子设备的硬件结构图;

图6为本发明根据一示例性实施例示出的一种人脸合成图像的检测装置的实施例流程图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

发明人发现,现有用于检测合成人脸图像的神经网络之所以检测准确率低,是因为该神经网络是基于整张图像的特征计算是合成人脸图的概率,这样得到的概率很容易受到图像背景的干扰,因此现有神经网络的检测准确率比较低。

为了提高人脸图像伪造检测的准确率和通用性,本发明以各种换脸技术(如faceswap,face2face,deepfakes以及neuraltextures等)篡改的人脸图像(即人脸合成图像)为研究对象,通过一个端到端的网络模型来增强检测不同换脸技术操纵的假人脸区域的能力,以提高模型的通用性和准确率。

图1为本发明根据一示例性实施例示出的一种网络模型的结构示意图,该网络模型包括人脸检测网络和真伪判别网络。其中,人脸检测网络是基于注意力机制识别待检测图像中的人脸,并输出包含人脸框的图像,进而真伪判别网络基于包含人脸框的图像判别待检测图像是否为人脸合成图像。

基于上述描述可知,针对不同换脸技术篡改得到的待检测图像,可以通过本发明提出的包含人脸检测网络和真伪判别网络的网络模型实现精确检测,由于人脸检测网络可以精确检测出待检测图像中的人脸,真伪判别网络基于包含人脸框的图像可以只基于人脸特征来判别待检测图像的真伪,避免待检测图像背景的干扰,因此本发明得到的判别结果准确度比较高。

下面以具体实施例对本发明提出的人脸合成图像的检测方法进行详细阐述。

图2为本发明根据一示例性实施例示出的一种人脸合成图像的检测方法的实施例流程图,在上述图1所示实施例的基础上,该人脸合成图像的检测方法可以应用于电子设备(如pc机、终端、服务器等设备)上。如图2所示,该人脸合成图像的检测方法包括如下步骤:

步骤210:将待检测图像输入已训练的网络模型,以由所述网络模型中的人脸检测网络基于待检测图像获得包含人脸框的图像并输出给所述网络模型中的真伪判别网络。

其中,人脸检测网络是基于注意力机制的模型结构,即使是在多人物的复杂背景下,也可以精准识别出待检测图像中的人脸。

在一实施例中,如图3所示的人脸检测网络,针对人脸检测网络基于待检测图像获得包含人脸框的图像的处理过程,可以包括:

步骤211,通过人脸检测网络中的预处理层对待检测图像进行不同尺寸的缩放得到多帧不同尺寸的图像,并通过尺寸从大到小的顺序制作图像金字塔输出给人脸检测网络中的pnet网络。

步骤212,pnet网络基于图像金字塔提取人脸候选框并输出给人脸检测网络中的细化网络。

其中,pnet网络(proposalnetwork)基于图像金字塔获得人脸候选框的同时会对人脸候选框进行校准,并利用nms(nonmaximumsuppression,非极大值抑制)方法去除重叠的候选框,这样pnet网络便初步得到一些人脸候选框。

步骤213,细化网络对人脸候选框进行细化调整并输出给人脸检测网络中的输出网络。

其中,细化网络(refinementnetwork)还会对人脸候选框的坐标进行进一步的细化,并利用边界框向量微调人脸候选框,再利用nms方法去除重叠的候选框。

步骤214,输出网络对人脸候选框进一步细化调整得到最终的人脸框,并将人脸框在待检测图像中对应区域包含的像素值置为1,其他区域包含的像素值置为0得到包含人脸框的图像,并对包含人脸框的图像进行降采样。

其中,输出网络(outputnetwork)进一步对人脸候选框细化调整后得到精确的人脸框,为了去除背景干扰,基于最终的人脸框,通过将待检测图像中人脸框区域的像素值置为1,而将背景区域的像素值置为0,进一步便于与真伪判别网络提取的待检测图像的全局特征图进行点乘运算,需要将包含人脸框的图像的大小通过降采样方式变为与全局特征图大小一致的图像。

步骤220:真伪判别网络基于包含人脸框的图像判别所述待检测图像是否为人脸合成图像。

其中,所述真伪判别网络是一个分类网络模型,为了提高网络模型的运行速度,能够迁移在移动以及嵌入式视觉应用上,可以使用moblienet流线型架构的轻量级深层神经网络实现真伪判别网络。

在一实施例中,如图4所示的真伪判别网络,针对真伪判别网络基于包含人脸框的图像判别所述待检测图像是否为人脸合成图像的处理过程,可以包括:

步骤221,真伪判别网络中的特征提取网络提取待检测图像的全局特征图并输出给真伪判别网络中的融合层。

其中,特征提取网络可以通过多个卷积层实现对整个待检测图像的特征提取。

步骤222,融合层将全局特征图与包含人脸框的图像进行点乘运算得到人脸特征图并输出给真伪判别网络中的分类网络。

其中,将全局特征图与包含人脸框的图像通过点乘运算可以得到专注于人脸的人脸特征图。

步骤223,分类网络分别计算人脸特征图的真人脸的概率和合成人脸的概率,并输出概率大的结果。

其中,分类网络包括最大池化层、全连接层以及softmax层。

为了提升人脸特征的区分度,通过将moblienet架构中的平均池化层替换为最大池化层,以将人脸特征图降维至1维,通过全连接层后将1维人脸特征图拉成1列特征向量,并通过softmax层进行分类,即分别计算该特征向量是真人脸的概率和合成人脸的概率。

在本实施例中,针对不同换脸技术篡改得到的待检测图像,可以通过本发明提出的包含人脸检测网络和真伪判别网络的网络模型实现精确检测,通用性好,由于人脸检测网络可以精确检测出待检测图像中的人脸,真伪判别网络基于包含人脸框的图像可以只基于人脸特征来判别待检测图像的真伪,避免待检测图像背景的干扰,因此本发明得到的判别结果准确度比较高。

在执行上述步骤210至步骤220之前,针对网络模型的训练过程可以包括:

首先,构建网络模型并设定训练参数,如初始学习率为0.0001,优化器使用adam(设置参数为β1=0.9,β2=0.999,ε=10-8)。

然后,获取训练样本集,所述训练样本集包括真人脸图像和对应的合成人脸图像,所述合成人脸图像为使用换脸技术对真人脸图像进行换脸得到的图像。

其中,为了提升样本多样性,可以使用各种不同的换脸技术对搜集的真人脸图像进行换脸。

最后,利用所述训练样本集中的每对真人脸图像和合成人脸图像对已构建网络模型中的参数进行优化训练,直至所述网络模型的准确率达到预设数值。

其中,模型中参数的优化是基于损失函数进行梯度回传,以优化模型参数,该模型训练过程中所使用的损失函数可以是交叉熵损失函数,具体的loss损失计算公式如下:

其中,pi1表示真人脸图像输入网络模型后输出的判别结果,pi2表示对应的合成人脸图像输入网络模型后输出的判别结果,loss表示损失值,如果loss很大,表示输入的样本对与对应的真或假标签差的很远,即真人脸图像与对应的真标签差的很大,对应的合成人脸图像与对应的假标签差的很大。

图5为本发明根据一示例性实施例示出的一种电子设备的硬件结构图,该电子设备包括:通信接口501、处理器502、机器可读存储介质503和总线504;其中,通信接口501、处理器502和机器可读存储介质503通过总线504完成相互间的通信。处理器502通过读取并执行机器可读存储介质503中与人脸合成图像的检测方法的控制逻辑对应的机器可执行指令,可执行上文描述的人脸合成图像的检测方法,该方法的具体内容参见上述实施例,此处不再累述。

本发明中提到的机器可读存储介质503可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:易失存储器、非易失性存储器或者类似的存储介质。具体地,机器可读存储介质503可以是ram(randomaccessmemory,随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。

与前述人脸合成图像的检测方法的实施例相对应,本发明还提供了人脸合成图像的检测装置的实施例。

图6为本发明根据一示例性实施例示出的一种人脸合成图像的检测装置的实施例流程图,该人脸合成图像的检测装置可以应用于电子设备,如图6所示,该人脸合成图像的检测装置包括:

模型检测模块610,用于将待检测图像输入已训练的网络模型,以由所述网络模型中的人脸检测网络基于待检测图像获得包含人脸框的图像并输出给所述网络模型中的真伪判别网络;所述真伪判别网络基于包含人脸框的图像判别所述待检测图像是否为人脸合成图像;

获取模块620,用于获取所述网络模型输出的判别结果。

在一可选实现方式中,所述模型检测模块610,具体用于在人脸检测网络基于待检测图像获得包含人脸框的图像过程中,通过所述人脸检测网络中的预处理层对所述待检测图像进行不同尺寸的缩放得到多帧不同尺寸的图像,并通过尺寸从大到小的顺序制作图像金字塔输出给所述人脸检测网络中的pnet网络;所述pnet网络基于所述图像金字塔提取人脸候选框并输出给所述人脸检测网络中的细化网络;所述细化网络对人脸候选框进行细化调整并输出给所述人脸检测网络中的输出网络;所述输出网络对人脸候选框进一步细化调整得到最终的人脸框,并将人脸框在待检测图像中对应区域包含的像素值置为1,其他区域包含的像素值置为0得到包含人脸框的图像,并对包含人脸框的图像进行降采样。

在一可选实现方式中,所述模型检测模块610,具体用于在所述真伪判别网络基于包含人脸框的图像判别所述待检测图像是否为人脸合成图像过程中,所述真伪判别网络中的特征提取网络提取待检测图像的全局特征图并输出给所述真伪判别网络中的融合层;所述融合层将所述全局特征图与包含人脸框的图像进行点乘运算得到人脸特征图并输出给所述真伪判别网络中的分类网络;所述分类网络分别计算所述人脸特征图的真人脸的概率和合成人脸的概率,并输出概率大的结果。

在一可选实现方式中,所述分类网络包括最大池化层、全连接层和softmax层。

在一可选实现方式中,所述装置还包括(图6中未示出):

训练模块,用于获取训练样本集,所述训练样本集包括真人脸图像和对应的合成人脸图像,所述合成人脸图像为使用换脸技术对真人脸图像进行换脸得到的图像;利用所述训练样本集中的每对真人脸图像和合成人脸图像对已构建网络模型中的参数进行优化训练,直至所述网络模型的准确率达到预设数值。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。

对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1