一种虚假视频检测方法及系统

文档序号:29623998发布日期:2022-04-13 13:59阅读:81来源:国知局
一种虚假视频检测方法及系统

1.本发明涉及深度学习和视频检测领域,具体涉及一种虚假视频检测方法、系统及电子设备。


背景技术:

2.深度学习驱动的生成模型的快速发展以及大量数据的可用性,使得任何攻击者能够伪造人类甚至计算机算法无法识别的虚假视频或图像。当前面部操纵技术的前沿
‑“
deepfake”创建的虚假视频和图像已经在internet和社交媒体上被恶意传播。尤其是随着各种人脸操纵工具的出现,任何业余用户都可以随意的更改或生成虚假图片及视频的内容。而现有技术中针对虚假视频或图像的检测方法存在诸多问题,例如无法解决低质量的视频检测、对时间信息的利用不充足、泛化能力差等。


技术实现要素:

3.有鉴于此,本发明的主要目的是提供一种虚假视频检测方法、系统级电子设备,以期至少部分地解决上述提及的技术问题中的至少之一。
4.为实现上述目的,本发明所采用的技术方案包括:
5.根据本发明的第一方面,提供了一种虚假视频检测方法,包括:
6.对待检测视频进行预处理,获取多个视频帧序列,其中,每个视频帧序列包括人脸图像;
7.通过处理单个视频帧序列获得待检测的视频的频域特征;
8.通过处理多个连续视频帧序列获得待检测的视频的时空特征;
9.将频域特征和时空特征进行融合,获得待检测视频的融合特征图;
10.利用视频分类网络处理融合特征图,得到表征待检测视频质量为真实或虚假的检测信息。
11.根据本发明的实施例,上述对待检测视频进行预处理包括:
12.利用视频处理工具处理待检测视频,获取视频帧序列集合;
13.从视频帧序列集合中随机选择多个视频帧序列,利用人脸检测工具获取视频帧序列的人脸图像部分;
14.利用人脸图像部分确定最小边界框,并根据预设的扩展值对最小边界框进行扩展,获得边框;
15.根据边框,利用图像裁剪工具对视频帧序列进行裁剪,获取包括人脸图像的多个视频帧序列。
16.根据本发明的实施例,上述通过处理单个视频帧序列获得待检测的视频的频域特征包括:
17.利用2d离散傅立叶变换处理单个视频帧序列,获取单个视频帧序列的频谱图;
18.构建频率带通滤波器,其中,频率带通滤波器包括低频率带通滤波器、中频率带通
滤波器和高频率带通滤波器;
19.利用频率带通滤波器处理频谱图,获得频率分量,其中,频率分量包括低频分量、中频分量和高频分量;
20.将频率分量逆变换到空间域,获得图像分量,其中,图像分量包括低频图像分量、中频图像分量和高频图像分量;
21.将图像分量沿通道轴堆叠,获得堆叠图像;
22.构建基于通道注意力机制的图像分类网络,利用图像分类网络处理堆叠图像,获得频域特征。
23.根据本发明的实施例,上述2d离散傅立叶变换由公式(1)表示:
[0024][0025]
其中,m是单个视频帧的长度,n是单个视频帧的宽度,f(u,v)表示彩色图像的频谱,(u,v)表示频谱中的像素点位置坐标,(x,y)表示原始彩色图像的像素点位置坐标;
[0026]
其中,频率带通滤波器由公式(2)表示:
[0027][0028]
其中,图像分量由公式(3)表示:
[0029]ri,n
(u,v)=fi(u,v)
·bn
(u,v)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3),
[0030]
其中,r
i,n
(u,v)表示图像分量。
[0031]
根据本发明的实施例,上述图像分类网络采用resnet 152模型作为骨干网络,通道注意力机制采用senet层,在resnet 152模型的残差分支上加入了senet层;
[0032]
其中,senet层通过特征重标定操作对堆叠图像的频域特征进行增强或减弱。
[0033]
根据本发明的实施例,上述通过处理多个连续视频帧序列获得待检测的视频的时空特征包括:
[0034]
利用光流估计网络处理连续视频帧序列,获得光流矩阵;
[0035]
利用光流矩阵,获得连续视频帧序列的短期时空特征;
[0036]
利用长短期记忆人工神经网络处理光流矩阵,获得长期时空特征。
[0037]
根据本发明的实施例,上述光流矩阵的像素点在t时刻的亮度由公式(4)表示:
[0038]
i(x,y,t)=i(x+δx,y+δy,t+δt)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4),
[0039]
其中,i(x,y,t)表示在t时刻像素点p(x,y)处的亮度,p(δx,δy)表示在δt时间内,像素点p(x,y)移动的距离,公式(4)表示像素点p(x,y)的亮度不会像素点的移动而发生改变;
[0040]
对公式(4)进行1阶泰勒展开得到公式(5):
[0041][0042]
将公式(5)代入公式(4),并且等式两边同时除以dt,可得到公式(6):
[0043]
[0044]
其中,表示像素点在x轴方向的运动矢量,表示像素点在y轴方向的运动矢量,表示光流,用于表征相邻视频帧之间的短期时空特征。
[0045]
根据本发明的实施例,上述视频分类网络包括全连接层、激活层和二值损失函数。
[0046]
根据本发明的第二方面,提供了一种虚假视频检测系统,包括:
[0047]
预处理模块,用于对待检测视频进行预处理,获取多个视频帧序列,其中,视频帧序列包括人脸图像;
[0048]
单帧处理模块,用于通过处理单个视频帧序列获得待检测的视频的频域特征;
[0049]
多帧处理模块,用于通过处理多个连续视频帧序列获得待检测的视频的时空特征;
[0050]
融合模块,用于将频域特征和时空特征进行融合,获得待检测视频的融合特征图;
[0051]
分类模块,用于利用视频分类网络处理融合特征图,得到表征待检测视频为真实或虚假的检测信息。
[0052]
根据本发明的第三方面,提供了一种用于检测虚假视频的电子设备,包括:
[0053]
一个或多个处理器;
[0054]
存储装置,用于存储一个或多个程序,
[0055]
其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述虚假视频检测方法。
[0056]
本发明提供的虚假视频检测方法,通过挖掘视频帧图像不同频段的频域特征,并且通过通道注意力机制自适应地学习不同频段分量的权重,能够有效挖掘在传统空间域忽略的伪造特征;同时,本发明提供的虚假视频检测方法,具有较高的准确率和良好的泛化性。
附图说明
[0057]
图1示意性示出了根据本发明实施例的虚假视频检测方法的流程图;
[0058]
图2是根据本发明实施例的虚假视频的检测框图;
[0059]
图3示意性示出了根据本发明实施例的对待检测视频进行预处理的流程图;
[0060]
图4示意性示出了根据本发明实施例的获得待检测的视频的频域特征的流程图;
[0061]
图5是根据本发明实施例的获取频域特征的结构框图;
[0062]
图6示意性示出了根据本发明实施例的获得待检测的视频的时空特征的流程图;
[0063]
图7是根据本发明实施例的获取时空特征的结构框图;
[0064]
图8示意性示出了根据本发明实施例的虚假视频检测系统的框图;
[0065]
图9示意性示出了根据本发明实施例的适于实现虚假视频检测方法的电子设备的方框图。
具体实施方式
[0066]
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
[0067]
为了解决现有技术对虚假视频检测精度不高以及泛化性差的问题,本发明提供了一种基于频域,空域及时域联合学习的虚假视频检测方法。本发明首先在频域选取视频单帧图像进行离散傅里叶变换挖掘不同频段的频谱分布差异,其次在空域和时域利用光流法提取视频连续两帧之间的短期时空特征,然后将提取的短期时间特征输入到lstm中获取多帧的长期时空特征,最后利用融合的特征对虚假视频进行检测。
[0068]
图1示意性示出了根据本发明实施例的虚假视频检测方法的流程图。
[0069]
如图1所示,包括操作s110~操作s150
[0070]
在操作s110,对待检测视频进行预处理,获取多个视频帧序列,其中,每个视频帧序列包括人脸图像;
[0071]
在操作s120,通过处理单个视频帧序列获得待检测的视频的频域特征;
[0072]
在操作s130,通过处理多个连续视频帧序列获得待检测的视频的时空特征;
[0073]
在操作s140,将频域特征和时空特征进行融合,获得待检测视频的融合特征图;
[0074]
在操作s150,利用视频分类网络处理融合特征图,得到表征待检测视频为真实或虚假的检测信息。
[0075]
本发明提供的虚假视频检测方法,能够充分挖掘待检测视频的频域特征、空域特征和时域特征,利用上述特征得到关于待检测视频的融合特征,同时利用深度学习处理融合特征,获得待检测视频质量的检测信息;上述检测方法具有良好的泛化性和较高的准确率。
[0076]
图2是根据本发明实施例的虚假视频的检测框图,下面结合图2对上述虚假视频检测方法作进一步说明。
[0077]
如图2所示,上述检测方法首先在频域选取视频单帧图像进行离散傅里叶变换挖掘不同频段的频谱分布差异,并利用通道注意力机制自适应地学习不同频段特征图的权重,其次在空域和时域利用光流法提取视频连续两帧之间的短期时空特征,然后将提取的短期时间特征输入到lstm中获取多帧的长期时空特征。最后将三个域提取的特征融合输入到分类网络中实现检测任务。
[0078]
图3示意性示出了根据本发明实施例的对待检测视频进行预处理的流程图。
[0079]
如图3所示,包括操作s310~操作s340。
[0080]
在操作s310,利用视频处理工具处理待检测视频,获取视频帧序列集合;
[0081]
在操作s320,从视频帧序列集合中随机选择多个视频帧序列,利用人脸检测工具获取视频帧序列的人脸图像部分;
[0082]
在操作s330,利用人脸图像部分确定最小边界框,并根据预设的扩展值对最小边界框进行扩展,获得边框;
[0083]
在操作s340,根据边框,利用图像裁剪工具对视频帧序列进行裁剪,获取包括人脸图像的多个视频帧序列。
[0084]
上述对待检测视频进行预处理的过程使用mmcv库(python内置的视频处理库)提取原始的视频数据集的视频帧序列,然后随机选取五帧视频数据,再使用dlib(python内置的人脸检测库)检测并截取人脸部分。通过人脸检测得到的脸部位置信息确定最小边界框,同时向外扩展原始边界框大小的40%。最后使用opencv(python内置的计算机视觉库)对图像进行裁剪,并保存为m*n的3通道png格式图片。
[0085]
图4示意性示出了根据本发明实施例的获得待检测的视频的频域特征的流程图。
[0086]
如图4所示,通过处理单个视频帧序列获得待检测的视频的频域特征包括操作s410~操作s460。
[0087]
在操作s410,利用2d离散傅立叶变换处理单个视频帧序列,获取单个视频帧序列的频谱图;
[0088]
在操作s420,构建频率带通滤波器,其中,频率带通滤波器包括低频率带通滤波器、中频率带通滤波器和高频率带通滤波器;
[0089]
在操作s430,利用频率带通滤波器处理频谱图,获得频率分量,其中,频率分量包括低频分量、中频分量和高频分量;
[0090]
在操作s440,将频率分量逆变换到空间域,获得图像分量,其中,图像分量包括低频图像分量、中频图像分量和高频图像分量;
[0091]
在操作s450,将图像分量沿通道轴堆叠,获得堆叠图像;
[0092]
在操作s460,构建基于通道注意力机制的图像分类网络,利用图像分类网络处理堆叠图像,获得频域特征。
[0093]
上述获得待检测视频频域特征的方法,充分挖掘待检测视频的频域信息,为后续检测方法提供了多样化的样本,进而提升了检测方法的准确性。
[0094]
根据本发明的实施例,上述2d离散傅立叶变换由公式(1)表示:
[0095][0096]
其中,m是单个视频帧的长度,n是单个视频帧的宽度,f(u,v)表示彩色图像的频谱,(u,v)表示频谱中的像素点位置坐标,(x,y)表示原始彩色图像的像素点位置坐标;
[0097]
其中,频率带通滤波器由公式(2)表示:
[0098][0099]
其中,图像分量由公式(3)表示:
[0100]ri,n
(u,v)=fi(u,v)
·bn
(u,v)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3),
[0101]
其中,r
i,n
(u,v)表示图像分量。
[0102]
图5是根据本发明实施例的获取频域特征的结构框图,下面结合图5对上述获得频域特征的流程作进一步说明。
[0103]
如图5所示,虚假视频的单个视频帧在获取频域特征的过程中用于检测图像伪影特征,虚假视频在上传到社交媒体之前,不可避免的要经过压缩,模糊或者滤波等来掩盖操作痕迹,这使得仅仅基于原始空间域输入的检测方法不再有效,在频域中可以更容易的在其频谱上检测出图像的某些细微属性。
[0104]
首先应用2d离散傅里叶变换(dft)获得彩色图像的频谱,将大小为m*n的单帧图像记为fi(x,y),并利用公式(1)对其进行傅里叶变换。
[0105]
其次观察图像的频谱信息会发现不同的频率信息在图像结构中有不同的作用。低频分量代表图像中亮度或者灰度值变化缓慢的区域,即图像中平坦的区域,高频分量对应着图像变化剧烈的部分,即图像的细节部分以及噪声。对于真实图像的功率谱其频谱相似,大多数能量集中在低频区域,并且高频值几乎非常低,没有高频噪声。经过篡改的图像,则
具有较高的高频值和其他的频带值。因此本发明使用三个频率带通滤波器对图像频谱进行滤波,以挖掘不同频段的伪造特征。三个带通滤波器如图5所示,其频段随着频率的增长呈指数增长,每个带通滤波器由公式(2)进行定义。这些滤波器将频域明确划分为低,中和高频段。接下来进行滤波操作,将输入图像的频率响应和组合滤波器之间进行点积,如公式(3)所示。然后将分解后的频率分量逆变换到空间域,这样就把原始图像分解为不同频带的图像分量,最后将这些组件沿着通道轴堆叠,用i∈r
3*m*n
表示。
[0106]
根据本发明的实施例,上述图像分类网络采用resnet 152(152层残差网络)模型作为骨干网络,通道注意力机制采用senet(基于通道注意力的残差网络)层,在resnet 152模型的残差分支上加入了senet层;
[0107]
其中,senet层通过特征重标定操作对堆叠图像的频域特征进行增强或减弱。
[0108]
对于单个视频帧的处理,本发明应用在imagenet数据集上预训练的resnet 152模型作为骨干网络。为了使网络能够自适应地学习三个频段图像分量的权重,在骨干网络的残差分支上加入了senet层。对于,其中通道3分别表示低频,中频和高频。senet通过squeeze和excitation操作以加权的方式增强有用的频段特征并抑制对当前任务用处不大的频段特征。具体的:它将特征维度降低到输入的1/r,然后经过relu激活后再通过一个全连接层恢复到原来的维度,使得最终的模型可以更好的拟合通道间复杂的相关性。
[0109]
图6示意性示出了根据本发明实施例的获得待检测的视频的时空特征的流程图。
[0110]
如图6所示,通过处理多个连续视频帧序列获得待检测的视频的时空特征包括操作s610~操作s630。
[0111]
在操作s610,利用光流估计网络处理连续视频帧序列,获得光流矩阵;
[0112]
在操作s620,利用光流矩阵,获得连续视频帧序列的短期时空特征;
[0113]
在操作s630,利用长短期记忆人工神经网络处理光流矩阵,获得长期时空特征。
[0114]
根据本发明的实施例,上述光流矩阵的像素点在t时刻的亮度由公式(4)表示:
[0115]
i(x,y,t)=i(x+δx,y+δy,t+δt)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4),
[0116]
其中,i(x,y,t)表示在t时刻像素点p(x,y)处的亮度,p(δx,δy)表示在δt时间内,像素点p(x,y)移动的距离,公式(4)表示像素点p(x,y)的亮度不会像素点的移动而发生改变;
[0117]
对公式(4)进行1阶泰勒展开得到公式(5):
[0118][0119]
将公式(5)代入公式(4),并且等式两边同时除以dt,可得到公式(6):
[0120][0121]
其中,表示像素点在x轴方向的运动矢量,表示像素点在y轴方向的运动矢量,表示光流,用于表征相邻视频帧之间的短期时空特征。
[0122]
图7是根据本发明实施例的获取时空特征的结构框图,下面集合图7对上述获取时空特征的方法作进一步的说明。
[0123]
如图7所示,获取时空特征的方法包括提取短期时空特征和提取长期时空特征。
[0124]
短期时间特征利用现有技术pwc-net计算两个连续帧f(t)和f(t+1)之间的光流矩阵。在光流矩阵中,虚假视频中脸部的运动异常会明显的显现出来。定义函数i(x,y,t)为t时刻在图像中像素点p(x,y)处的亮度,若其在δt时间内移动了(δx,δy)距离,则根据亮度不变条件得到公式(4)。再对公式(4)进行关于时刻t的一阶泰勒展开,得到公式(5),并将公式(5)代入公式(4)内,可得到光流光流体现了计算对象的变化趋势和运动幅度,代表了视频相邻帧之间的短期时空特征。将提取的光流矩阵输入到lstm(long short term memory,长短期记忆)中获取多帧的长期时空特征,这样可以融合来自相邻序列和长序列视频帧组的时间信息。最后将单帧部分提取的频域特征和多帧部分提取的时空特征进行concat(连接)。
[0125]
根据本发明的实施例,上述视频分类网络包括全连接层、激活层和二值损失函数。
[0126]
视频分类网络由一个全连接层和一个sigmod激活层组成,受二值损失的监督作用给出最终的分类结果。
[0127]
下面结合本发明的另一个具体实施例,对本发明提供的上述虚假视频检测方法作进一步说明。
[0128]
预先下载用于deepfake相关开源算法,包括face2face,faceswap,deepfakes和neuraltextures。每个类别包含1000个原始视频及1000个操纵视频,且大多数视频的正面都没有遮挡。将低质量的数据集分为训练,测试和验证集,分别由720,140和140个真实视频以及每个人脸交换算法产生的相应操纵视频组成。
[0129]
如图2所示,首先对视频进行与预处理,使用mmcv库提取视频帧序列,然后随机选取五帧并使用dlib截取人脸部分。再将人脸的最小边界框向外扩展原始大小的40%。最后使用opencv对图像进行裁剪,并保存为像素256
×
256的3通道png格式图片。
[0130]
在特征提取模块首先对视频单帧进行处理,如图5所示应用2d离散傅里叶变换(dft)获得彩色图像fi(x,y)的频谱f(u,v)。然后用不同频段的带通滤波器bn(u,v)对图像的频谱进行滤波操作得到滤波后的频域分量r
i,n
(u,v)。然后频率分量r
i,n
(u,v)逆变换到空间域,得到原始图像不同频带的图像分量,最后将这些组件沿着通道轴堆叠,用i∈r
3*256*256
表示。再将堆叠后的图像图像分量输入到在imagenet数据集上预训练的resnet152模型中,提取更深层的伪造特征。另外senet层(通道注意力机制)能够自适应的学习三个频段的图像分量的权重,拟合通道间复杂的相关性。接下来提取视频数据集的时空特征,如图7所示首先利用pwc-net方法计算五个视频帧序列之间的光流o
opticalflow
,得到相邻视频帧之间短期的时空特征,然后将每两帧之间的光流特征输入到lstm中挖掘视频长序列帧组之间的时空特征。最后将视频数据集的频域特征和时空特征进行融合,得到的融合特征输入到分类网络中给出最终的检测结果。
[0131]
图8示意性示出了根据本发明实施例的虚假视频检测系统的框图。
[0132]
如图8所示,虚假视频检测系统800包括预处理模块810、单帧处理模块820、多帧处理模块830、融合模块840以及分类模块850。
[0133]
预处理模块810,用于对待检测视频进行预处理,获取多个视频帧序列,其中,视频帧序列包括人脸图像;
[0134]
单帧处理模块820,用于通过处理单个视频帧序列获得待检测的视频的频域特征;
[0135]
多帧处理模块830,用于通过处理多个连续视频帧序列获得待检测的视频的时空特征;
[0136]
融合模块840,用于将频域特征和时空特征进行融合,获得待检测视频的融合特征图;
[0137]
分类模块850,用于利用视频分类网络处理融合特征图,得到表征待检测视频为真实或虚假的检测信息。
[0138]
本发明提供的虚假视频检测系统,通过挖掘视频帧图像不同频段的频域特征,并且通过通道注意力机制自适应地学习不同频段分量的权重,能够有效挖掘在传统空间域忽略的伪造特征;同时,本发明提供的虚假视频检测系统使用光流法与循环神经网络相结合的方法,有效的挖掘了虚假视频帧组之间丰富的时空信息,包括短期时间特征和长期时间特征。相比于传统的视频检测系统具有更高的准确率和更好的泛化性;此外,本发明提供的虚假视频检测系统利用双流架构同时提取视频频域,空域及时域的伪造特征,增加了样本输入的多样性,有效的解决了低质量虚假视频的检测问题。
[0139]
图9示意性示出了根据本发明实施例的适于实现虚假视频检测方法的电子设备的方框图。
[0140]
如图9所示,根据本发明实施例的电子设备900包括处理器901,其可以根据存储在只读存储器(rom)902中的程序或者从存储部分908加载到随机访问存储器(ram)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic))等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0141]
在ram 903中,存储有电子设备900操作所需的各种程序和数据。处理器901、rom 902以及ram 903通过总线904彼此相连。处理器901通过执行rom 902和/或ram 903中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom 902和ram 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
[0142]
根据本发明的实施例,电子设备900还可以包括输入/输出(i/o)接口905,输入/输出(i/o)接口905也连接至总线904。电子设备900还可以包括连接至i/o接口905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至i/o接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
[0143]
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1