一种视频真伪鉴别方法与流程

文档序号:20755330发布日期:2020-05-15 17:22阅读:2143来源:国知局
一种视频真伪鉴别方法与流程

本发明涉及图像处理领域,具体为一种视频真伪鉴别方法。



背景技术:

随着深度学习尤其是生成对抗网络的发展,计算机生成图片和视频的质量已经达到可以乱真的水平。通过视频验证真伪的方式也受到了极大的挑战,尤其是facebook创始人马克·扎克伯格被篡改的演讲视频、犯罪分子伪装子女声音敲诈的热点新闻的传播,针对视频的真伪鉴别方法正逐步成为多媒体安全领域新的研究热点。现有的非合作视频检测方法主要存在两种:1、基于传统的视频取证方法;2、深度学习方法。然而传统的视频取证方法无法满足处理如deepfake、face2face等新型生成方法。当前基于深度学习的真伪鉴别方法主要集中在人脸的真伪鉴别,还无法很好的解决对于其他形式的篡改如图像中的某类物体的修改。



技术实现要素:

为了解决上述问题,本发明提出了一种能够准确鉴别视频真伪的方法,具体为一种视频真伪鉴别方法,其特征在于,所述方法包括:

s1:从视频中提取图像帧,获取所需鉴别的第一图像数据;

s2:对第一图像数据进行分块处理,得到np个图像块,即np个第二图像数据,其中,np=2,3,…

s3:分别提取np个第二图像数据中的局部微模式特征,得到np个第三图像数据;

s4:对np个第三图像数据进行聚合,得到单个描述符;

s5:通过二分类方法对单个描述符进行分类,得到图像帧的真伪结果;

s6:对图像帧的真伪结果进行综合判断,得到视频的真伪结果。

进一步的,在步骤s3后还包括:

对np个第三图像数据进行主成分分析,得到图像的真伪区域判别矩阵。

进一步的,其特征在于,所述步骤s2中的分块处理采用自定义分块方法,即自定义分块的数量和分块的策略。

进一步的,所述步骤s2中的分块处理采用图像分割算法。

进一步的,所述步骤s3中的局部微特征提取方法为卷积神经网络特征提取方法,提取的图像特征为相机指纹和/或编码指纹。

进一步的,所述步骤s4中池化方法为最大池化、最小池化、平均池化和平方均值池化中的一种或几种的结合。

进一步的,所述池化方法为最大池化、最小池化、平均池化和平方均值池化中几种的结合,为使用自适应加权的方式结合最大池化、最小池化、平均池化和平方均值池化四种池化方法中的至少两种。

进一步的,所述步骤s5中的二分类方法具体为神经网络二分类方法。

进一步的,所述神经网络二分类方法为生成对抗深度神经网络二分类方法。

一种视频真伪鉴别装置,其特征在于,所述装置包括:

图像帧提取模块,被配置为从视频中提取图像帧,获取所需鉴别的第一图像数据;

图像分块模块,被配置为对第一图像数据进行分块处理,得到np个图像块,即np个第二图像数据,其中,np=2,3,…

图像局部微特征提取模块,被配置为分别提取np个第二图像数据中的局部微模式特征,得到np个第三图像数据;

聚合模块,被配置为对np个第三图像数据进行聚合,得到单个描述符;

图像真伪判定模块,被配置为通过二分类方法对单个描述符进行分类,得到图像帧的真伪结果;

视频真伪判定模块,被配置为对图像帧的真伪结果进行综合判断,得到视频的真伪结果。

本发明提出的一种视频真伪鉴别方法,突破了基于深度神经网络的真伪鉴别方法仅局限于人脸真伪鉴别的现状;提出一种通用的真伪鉴别方法,该方法可以用于解决各种篡改模式;将视频真伪鉴别和局部微模式进行结合,解决现有深度真伪鉴别主要依赖于高层的宏观语义特征;此外,本发明所提出的视频真伪鉴别方法不仅可以用于真伪鉴别,还可以显示篡改区域。

附图说明

图1为本实施例1中一种视频真伪鉴别方法的流程示意图;

图2为本实施例1中自定义分块的一种示意图;

图3为本实施例1中图像分割分块的一种示意图;

图4为本实施例1中图像局部微模式特征提取结果的示意图;

图5为本实施例3中一种视频真伪鉴别装置的解构示意图。

具体实施方式

下面通过具体实施方式结合图1至图5对本发明作进一步详细说明,以便能够更好地理解本发明的内容以及其各方面的优点。在以下的实施例中,提供以下具体实施方式的目的是便于对本发明的内容更清楚透彻的理解,而不是对本发明的限制。

实施例1

本发明提出了一种视频真伪鉴别方法,通过对视频中每一帧图像的真伪鉴别从而实现对视频的真伪鉴别,具体如图1所示。

第一步,从视频中提取图像帧,获取所需鉴别的第一图像数据。如图1中1所示。

通过opencv、matlab等图像处理工具实现图像的帧提取。根据视频源的不同,第一图像数据的种类不同,若视频源为灰度图像,则第一图像数据即为图像每个像素的灰度值所组成的灰度数据矩阵;若视频源为彩色图像,则第一图像数据不仅包括能体现每个像素灰度值的灰度数据矩阵,还包括不同彩色通道的矩阵,比如r、g、b三个通道的数据矩阵,或者h、s、v三个通道的数据矩阵等,具体的第一图像数据类型根据实际的图像源而变化,此处仅为举例说明。

视频图像帧的抽取方式可采用关键帧或逐帧等抽取方式。若视频的帧数为n,则从视频中抽取的第i个图像帧为其中w、h、c分别为图像的宽、高和通道数,i≤n。

第二步,对第一图像数据进行分块处理,得到np个图像块,即np个第二图像数据,其中,np=2,3,…。如图1中2所示。

对图像进行分块处理的方法可采用自定义分块方法,也可采用图像分割算法。若采用自定义分块方法,则分块的数量和分块的策略均为自定义,对于分块的数量,可以分为3x3、4x4、5x5、3x5、5x9等不同的数量;对于分块的策略,可采用等分或不等分,矩形分块、三角形或其他多边形等分块方式。若采用图像分割算法进行分块,则对分块的具体大小和数量并无特定的要求,而是根据具体的使用需求选择不同的分割方式,比如对于人物图像前景和背景进行分块、对于背景图像中的物体进行分割、对于人脸区域图像和其他图像进行分块等分割方式;此外,可采用不同的分割算法实现图像分割,比如基于阈值的分割算法、分水岭算法、基于边缘检测的分割算法、基于区域选择的分割算法、基于遗传算法的图像分割算法等。本实施例中,对于图像分割方法的选择,具体采用如下方法进行选择:识别图像中是否有人物,若图像无人物,则判断背景中物体占总图像的像素比例,若超过第一阈值,则使用背景中物体分割的方法进行分块,若未超过第一阈值,则采用自定义分块方法,并设定自定义分块的数量和分块策略;若图像中有人物,则进一步判断人物图像在总图像中所占的像素比例。若人物图像在总图像中所占的像素比例超过第二阈值,则采用人脸区域分割的方法进行分块;若人物图像在总图像中所占的像素比例未超过第二阈值,则采用人物图像前景和背景的分割方法进行分块。

本实施例中,将图像分为矩形的图像块,对第i个图像帧进行分块,设其第j个图像块为其中wj和hj分别为第j个图像块的宽和高。

如图2所示,为采用自定义分块方法进行分块的示例,图中,将图像分为4*4等分的矩形块。对第i个图像帧进行4*4等分,设其第j≤16个图像块为其中wj=w/4和hj=h/4。

如图3所示,为采用人脸区域分割的方法进行分块的示例,图中,对图像中的人脸区域从背景区域中分割出来,形成图像块。对第i个图像帧进行人脸区域分割,设其第j≤l个图像块为其中l为图像中的人脸个数。

需要注意的是,本实施例中对图像分块的方法进行了示例性说明,并不表示只能使用矩形块进行图像分块。

第三步,分别提取np个第二图像数据中的局部微模式特征,得到np个第三图像数据。如图1中3所示。

本实施例中,对第二图像数据中的局部微特征提取方法可使用灰度特征提取、纹理特征提取、形状特征提取等方法。本实施例中,使用基于卷积神经网络特征提取方法,提取np个第二图像数据中的高频特征,所述高频特征包括相机指纹和/或编码指纹特征。如图4所示,图中区域a为图像伪造区域,区域b为图像真实区域,可以看出,图像的伪造区域与真实区域的局部微特征并不相同,因此,后文通过判别这种局部微特征的不同来判别真伪。

第四步,对np个第三图像数据使用池化的方法进行聚合,得到单个描述符。如图1中4所示。

所述对np个第三图像数据使用池化的方法进行聚合为最大池化、最小池化、平均池化和平方均值池化中的一种或几种的结合。本实施例中,np个第三图像数据用f表示,fij=[fij,1,...,fij,m]为视频第i个图像帧的j个图像块的特征,其中m为局部微模式特征的个数。np为图像块的个数。针对np个第三图像数据,也即np个图像块进行池化,几种聚合方法具体如下所示。

所述最大池化法具体为:

所述最小池化法具体为:

所述平均池化法具体为:

所述平方均值池化法具体为:

可根据具体的使用需求的选择池化方法,可选择单独的池化方法或组合的池化方法。若选择单独的池化方法,则从几种不同的池化方法中选取一种方法进行聚合;若选择组合的池化方法,则选取至少两种不同的池化方法,并设置每种池化方法的权值,使用加权之后的池化方法进行池化,即afimax+bfimin+cfimean+dfimsq。例如,选择最大池化和平均池化两种池化方法,对最大池化方法设置权值a为0.9,对平均池化方法设置权值c为0.1,最小池化方法和平方均值池化方法的权值b和d取值0,加权得到综合池化方法即0.9fimax+0.1fimean;或者选择平均池化和平方均值池化两种方法,对平均池化方法设置权值c为0.4,对平方均值池化方法设置权值d为0.6,最大池化方法和最小池化方法的权值取值0,加权得到综合池化方法即0.6fimsq+0.4fimean。需要注意的是,本实施例中对组合池化的方法进行了示例性说明,并不表示只能使用上述组合方式或上述权值设置方式进行聚合。

本实施例中,根据图像的信息分布自适应的选取聚合方法,具体为:对图像的信息分布情况进行判断,若图像的信息分布大于分散阈值,则使用平均池化方法或平方均值池化方法;若图像的信息分布小于等于分散阈值,则使用最大池化方法或最小池化方法。即当信息散布在整个图像上时,使用平均池化方法效果较好,而当区分性信息集中在局部区域时,使用最大或最小池化方法效果较好。得到的池化结果为单个描述符。

第五步,通过二分类方法对单个描述符进行分类,得到图像帧的真伪结果。如图1中5所示。所述二分类方法可为可实现二分类效果的算法,本实施例中使用生成对抗深度神经网络二分类方法,具体包括以下步骤:

s51:获取多组训练样本,其中,每组训练样本包括输入图像和目标图像,所述多组训练样本可取自已知篡改视频的图像帧,均为通过帧提取方法从含有篡改视频中提取的图像;

s52:将所述输入图像输入至生成对抗深度神经网络中的生成器网络,并基于所述生成器网络对输入图像进行真伪鉴别,得到生成图像;

s53:将所述生成图像、所述输入图像和所述目标图像输入至生成对抗神经网络中的判别器网络,得到关于所述生成图像的像素值的第一判别结果和关于所述目标图像的像素值的第二判别结果;

s54:根据所述第一判别结果和所述第二判别结果优化所述生成对抗神经网络参数,得到所述图像真伪鉴别模型。所述根据所述第一判别结果和所述第二判别结果优化所述生成对抗深度神经网络参数,包括根据所述生成图像和所述目标图像的像素差、所述生成图像中的相邻像素差以及所述生成器网络输出的多个生成图像之间的像素差中的一种或多种,优化所述生成器网络的参数以及优化所述判别器网络的参数。

通过上述二分类方法,得到图像的真伪结果为0或者1,若得到结果为0则认为该图像为真实图像;若得到结果为1则认为该图像为伪造的,得到图像帧的真伪结果。

第六步,对图像帧的真伪结果进行综合判断,得到视频的真伪结果。对图像帧的真伪结果进行综合判断的方法可根据具体的使用需求而选择,例如若视频中的图像帧出现伪造图像,则视为视频为伪造图像,或者视频中的图像帧的伪造数占总帧数的比例超过伪造阈值,才判定视频为伪造视频,数数伪造阈值可根据实际情况具体设定,比例30%、50%、60%等。进一步的,可生成视频的真伪矩阵,用来具体表示视频中的真伪分布情况。

实施例2

在实施例1的基础上,本实施例中还包括判别视频中帧图像真伪区域的方法,如图1中6所示,具体为在第三步后还包括:对np个第三图像数据进行主成分分析(pca),得到图像的真伪区域判别矩阵。

采用主成分分析方法统计跨通道的特征,可以得到高维空间中最大的变化,从而得到更合适的注意力图像。

首先将视频第i个图像帧的j个图像块的特征fij变换为矩阵其中h和w分别为特征fij的宽和高。采用奇异值分解(svd)的方法得到协方差矩阵(x-μ)t(x-μ)的最大特征向量其中μ为矩阵x逐行的均值。应用下式即可得到注意力图像,也即图像可能的篡改区域。

matt=sigmoid((x-μ)tv)

实施例3

本实施例中公开了一种视频真伪鉴别装置100,如图5所示,所述装置包括:

图像帧提取模块101,被配置为从视频中提取图像帧,获取所需鉴别的第一图像数据;

图像分块模块102,被配置为对第一图像数据进行分块处理,得到np个图像块,即np个第二图像数据,其中,np=2,3,…

图像局部微特征提取模块103,被配置为分别提取np个第二图像数据中的局部微模式特征,得到np个第三图像数据;

聚合模块104,被配置为对np个第三图像数据通过池化方法进行聚合,得到单个描述符;

图像真伪判定模块105,被配置为通过二分类方法对单个描述符进行分类,得到图像帧的真伪结果;

视频真伪判定模块106,被配置为对图像帧的真伪结果进行综合判断,得到视频的真伪结果。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1