基于异构特征子空间迁移的JPEG图像失配隐写分析方法与流程

文档序号:16889431发布日期:2019-02-15 22:56阅读:160来源:国知局
基于异构特征子空间迁移的JPEG图像失配隐写分析方法与流程

本发明涉及多媒体安全和数字媒体处理技术领域,特别涉及一种在训练集和测试集分布不一致的情况下判别jpeg图像是否经过秘密信息嵌入的失配隐写分析技术领域。



背景技术:

隐写术是将秘密信息以难以察觉的形式隐藏于数字媒体中以实现隐蔽通信。由于jpeg格式的图片应用非常广泛,所以jpeg图像的隐写术发展比较迅速。隐写分析是一种与隐写术相对抗的逆向检测技术,其目的是根据载体的统计特性判断其中是否存在隐蔽信息。

目前,隐写分析方法大多是利用机器学习工具,通过对提取的特征数据进行训练得到检测模型,然后用该模型测试待检测的样本。采用这种思路进行隐写检测已经取得了很好的效果,但这种方法需要满足机器学习的前提假设,即训练数据(源领域)与测试数据(目标领域)服从相同的数据分布。使用传统机器学习进行隐写分析检测,在测试集和训练集同分布时,已经取得很好的效果。然而,在许多应用场景应用中,训练集和测试集往往服从不同的数据分布,这样会引起失配问题。

失配问题归根结底是因为训练数据和测试数据统计特性和特征分布的不同而导致的,fridrich等人[1]分析了产生失配的原因并对传统隐写分析中存在的各种失配因素进行了归类,如训练集和测试集嵌入率不同导致的失配、质量因子不同导致的失配、隐写算法未知导致的失配、载体内容不同导致的失配等,这些都会造成传统隐写分析正确率的大幅降低。

目前,解决隐写分析失配问题的主要方法有采用简单分类器的方法[2]、融合训练的方法[1]以及基于迁移学习的方法[3-4]。现有的部分方法虽然在一定程度上解决了失配隐写分析问题,但也面临着一些不足之处。一方面,基于简单分类器和融合训练的方法往往受样本分布偏差的影响较大并且目标领域样本数量相对较少的时候分布估计容易产生偏差;另一方面,传统的基于特征迁移的失配隐写分析方法,拆分了源领域和目标领域样本原有的特征空间,仅选择部分域无关特征进行知识迁移,忽略了域相关特征具有的全局判别信息。

相关参考文献如下:

[1]j,sedighiv,fridrichj.studyofcoversourcemismatchinsteganalysisandwaystomitigateitsimpact[c]//mediawatermarking,security,andforensics2014.internationalsocietyforopticsandphotonics,2014,9028:90280j.

[2]lubenkoi,kerad.steganalysiswithmismatchedcovers:dosimpleclassifiershelp?[c]//proceedingsoftheonmultimediaandsecurity.acm,2012:11-18.

[3]kongx,fengc,lim,etal.iterativemulti-orderfeaturealignmentforjpegmismatchedsteganalysis[j].neurocomputing,2016,214:458-470.

[4]yangy,kongx,fengc.double-compressedjpegimagessteganalysiswithtransferringfeature[j].multimediatoolsandapplications,2018:1-13.



技术实现要素:

本发明针对现有隐写分析方法在失配环境中检测率下降的问题,实现一种能够从失配数据集中迁移有效信息的失配隐写分析方法。

为了便于描述所提出的失配隐写分析算法,首先对一些相关变量和概念进行统一说明。设d={(xn,yn)∈x×y:1≤n≤n}表示领域中的一个样本,其中,x、y分别表示领域样本的特征空间和标签空间。定义失配隐写分析中的源领域表示为目标领域表示为

在失配隐写分析中,由于源领域样本和目标领域样本通常来源于相近的宏观领域,因此两类样本在特征分布上具有一定的相似性。但从微观数据分布角度分析,它们仍存在一定的差异性,特别表现在特征空间的构造上,这两类特征空间既存在随领域变化而不同的域相关特征,又存在不随领域变化而改变的域无关特征。具体的表现满足下述特性:领域间在实现部分域无关特征数据共享的同时,每个数据集仍保有自己的域相关特性。因而,本方法把不同领域的数据看作是域相关和域无关两个特征子空间的组合,即源领域数据集xs和目标领域数据集xt可分别表示为其中,分别表示为源领域和目标领域间的域相关特征,表示领域间的域无关特征,原理示意图如图1所示。

具体来说,源数据和目标数据被转换到公共特征空间,其中每个目标数据可以通过来自源领域的数据线性重建。我们对重建矩阵施加联合的低秩和稀疏约束,以便保存全局和局部的数据结构。在我们提出的方法中,低秩约束的设计确保了域无关特征空间的数据可以很好地共享,这有助于显著减少域分布的差异。此外,稀疏表示可以使来自不同领域的域相关特征数据更加交叠,这对于提高分类性能是有用的。

因此,利用失配数据集中的有效信息来构造合适的隐写分析特征,并减少源领域和目标领域的分布差异,以提高失配隐写分析的检测率,对于失配隐写分析具有重要的意义。

本发明将不同领域的特征看作域无关和域相关特征子空间的组合,基于低秩约束对域无关特征进行迁移,考虑领域变化与域相关特征之间的关联特性,并采用svm分类器来训练失配隐写分析模型和测试图像样本。本发明的技术方案为一种基于异构特征子空间迁移的jpeg图像失配隐写分析方法,包括如下步骤:

步骤1,选取失配图像集,包括训练数据集(源领域数据集)和测试数据集(目标领域数据集);

步骤2,针对失配图像集,利用低秩约束对域无关特征进行局部信息迁移;

步骤3,在域相关特征的关联子空间中估计域相关特征权重;

步骤4,将域相关特征权重作为初始值建模域相关特征,并构建目标函数;

步骤5,求解目标函数以获取相关参数;

步骤6,重复步骤2-5,直到满足收敛条件,获得处理后的训练数据集和测试数据集;

步骤7,利用处理后的训练数据集训练svm分类器,获得失配隐写分析模型;

步骤8,利用失配隐写分析模型对处理后的测试数据集进行特征分类,并获得该模型的准确率。

进一步的,步骤2中域无关特征迁移是通过寻找一个变换矩阵使得源领域和目标领域的数据迁移到特征子空间中,并保证源领域和目标领域的分布近似相等,其中变换矩阵的表达式如下:

其中,分别表示源领域数据集xs和目标领域数据集xt的域无关特征,pt表示变换矩阵的转置,z表示低秩重构矩阵;

通过变换改写为,

其中,||z||*表示矩阵z的核范数,核范数为矩阵奇异值之和,||z||1表示矩阵z的l1范数,α指的是模型中的参数。

进一步的,步骤3中域相关特征权重g的估计函数为,

g=gmsd+λgml(式13)

其中,nt表示目标领域中的样本数目,ns表示源领域中的样本数目,xi和xj分别表示目标样本空间和源样本空间中每一维度中的元素,n=ns+nt,λ是一个平衡参数,β指的是模型中的参数。

进一步的,β通过网格调参法来取值。

进一步的,步骤4中目标函数的表达式如下,

其中,ω(p,y,xs)表示判别子空间学习函数,xs和xt分别表示源领域数据集和目标领域数据集,矩阵g取域相关特征权重的初始值,pt表示变换矩阵的转置,z表示低秩重构矩阵,y是源领域样本的标签矩阵。

进一步的,步骤5的具体实现方式如下,

首先将目标函数公式17转化为:

为了求解式18,引入增广拉格朗日函数,其表达形式如下:

其中y1、y2和y3是拉格朗日乘子,θ>0表示约束因子,利用不精确增广拉格朗日乘子法求解式19,该算法以坐标下降的方式对每一变量进行迭代求解,主要的求解过程如下:

第一步求解p:

为了得到数值更稳定的解,将由式20求得的结果加上一个比较小的正数常量ξ,其表达形式如下:

其中h1=xt-xsz,

第二步求解z;

式22的解可以表达如下:

其中,

第三步求解z1和z2;

第四步求解g;

依据放缩法,式26的解可以表达为:

其中f(x,c)=signmax(|x|-c,0);

第五步求解拉格朗日乘子和迭代步长γ;

进一步的,步骤6中的收敛条件为,

||ptxt-ptxsz-g||∞<ε,||z-z1||∞<ε,

||z-z2||∞<ε

其中,ε表示每次迭代过程中的间隔,||·||∞表示无穷范数;

第m次迭代过程中产生的间隔εm可以通过式29求解,其随迭代次数的增加而单调减小,

其中,zm,z1m和z2m分别表示第m次迭代过程中求解的z,z1和z2。

与现有技术相比,本发明的优点和有益效果如下:

1)本发明将源领域和目标领域数据的特征空间看作域无关特征和域相关特征子空间的组合,继承已有特征迁移思想优势的同时融合载体和载密样本本身的特有多源判别信息;

2)本发明继承了最小统计距离准则的优点,在损失函数中通过引入似然约束因子作为正则项,减小样本权重分布之间的离散性;

3)本发明利用稀疏判别特征变换,将特征变换到另一个低维的子空间,缩小不同领域特征分布之间的差异,以达到缓解失配的目的。

附图说明

图1为异构特征子空间迁移的原理示意图。

图2为本发明的失配隐写分析方法流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

表1中定义了本发明所涉及的部分变量。

表1本发明所使用的部分符号及含义

如图2所示,本发明的具体流程为:

步骤1,选取失配图像集,包括训练数据集(源领域数据集)和测试数据集(目标领域数据集);

步骤2,针对失配图像集,利用低秩约束对域无关特征进行局部信息迁移;

域无关特征迁移的目的是通过寻找一个变换矩阵使得源领域和目标领域的数据迁移到特征子空间中,并保证源领域和目标领域的分布近似相等。由于域无关特征受领域变化的影响是比较小的,因此域无关特征可以看作是两个领域间共享的。在公共的特征空间中,假设利用源领域数据可以对目标领域数据进行线性表示,这样目标领域的数据可以通过源领域数据较好的重构。这个问题可以通过下面的公式来表示:

其中,分别表示源领域数据集xs和目标领域数据集xt的域无关特征,pt表示变换矩阵的转置,z表示低秩重构矩阵。

式1可以进一步表示为:

如果数据在两个领域仅存在一个特征空间,式2能够有效的进行知识迁移,但本文存在两个特征子空间,因此单独使用式2进行知识迁移的效果不佳。为此,我们假设领域知识可以准确地从两个领域迁移到另一个公共的特征空间,使两个领域数据分布的差异最小化,这样目标领域的每个样本都可以很好地通过其相邻的源域样本重构。同一任务的不同领域样本可以通过相邻样本的线性组合近似表示。为了达到这个目的,重构的稀疏矩阵z应该具有块结构,我们使用低秩约束使矩阵z具有这种结构。因此,式2又能够重新表达为:

式3有利于使源领域数据和目标领域数据表示一致。由于矩阵的秩最小化是非凸问题,所以式3是一个np问题。如果矩阵z的秩不是太大,式3可以等价为下式:

其中||z||*表示矩阵z的核范数,核范数为矩阵奇异值之和。稀疏表示可以帮助保存数据

的全局结构,这样源领域与目标领域的关联性更强。利用式5对系数矩阵z进行稀疏表示,使每个目标样本能够被源领域样本更好地重建。

其中||z||1表示矩阵z的l1范数,α指的是模型中的参数。

步骤3,在域相关特征的关联子空间中估计域相关特征权重;

由于载体图像自身变化会对域相关特征产生干扰,导致域相关特征随着领域的变化而改变,为了缓解域相关特征的影响,利用图像残差统计生成共生矩阵建模域相关特征并对其进行稀疏表示,通过在域相关特征的关联子空间中进行权重估计来表征领域的变化与域相关特征之间的关系。虽然在机器学习中权重估计问题已经得到广泛的研究,但当我们把权重估计方法直接应用到衡量领域的变化对域相关特征的影响时,仍然存在较多的问题。因而,基于权重对领域变化的估计并不一定能够达到让人满意的效果。在权重学习的过程中,一个常见的现象就是少部分训练特征的权重远远大于其余所有的特征。在衡量领域的变化中使用该散度的权重时,分类的性能只依赖与少部分特征而忽视绝大部分特征。我们首先通过一种基于最小统计距离准则的域相关特征建模算法然后通过正则化的方法对该算法进行优化,以期得到更加精准的域无关特征建模。

kullback-leibler(k-l)距离被广泛的用于度量两个分布的统计距离,根据该距离可以近似求解两个任务之间的概率密度比估计。受此启发,衡量域相关特征的权重中同样引入了k-l距离,然后通过最小化不同领域中域相关特征分布距离的方式优化模型参数。在衡量领域的变化对域相关特征的影响时,具体的k-l距离计算公式:

其中,分别表示为源领域和目标领域的域相关特征,nt表示目标领域中的样本数目,xi表示目标样本空间中每一维度中的元素,分别表示目标领域样本残差的真实统计分布和逼近的目标领域样本残差统计分布,log表示以2为底的对数。值得注意的是,公式6的第一项其实是源领域和目标领域真实分布的k-l距离,而它们的值与模型参数α和β完全无关,即是固定的值。因此优化函数中可忽略这一部分,进而可等价为

其中α和β可通过网格调参法来取值。为了确保根据源领域中样本残差的统计分布逼近出的目标领域样本残差的近似分布符合概率密度的性质,式7中的优化函数必须满足以下约束条件:

式8可化为以下表达形式:

ns表示源领域中的样本数目,xj表示目源样本空间中每一维度中的元素,将式7中的参数α用式9化简后的结果替换后,可以得到下述仅含一个参数β的无约束优化函数:

其中,logns是一个常量,可以将其从式10中去掉,可以得到对最小统计距离准则进行优化的函数表达式:

我们对基于最小统计距离准则的域相关特征权重分配结果进行了分析,发现权重的数值分布比较离散,这样会导致领域变化的衡量出现较大的偏差,为了解决此问题,该方法将极大似然准则作为一个惩罚因子引入到最小统计距离准则的损失函数中。基于此设想,我们定义如下对数似然函数:

其中n=ns+nt,将gml作为惩罚因子加入到gmsd得到新的权重估计函数为:

g=gmsd+λgml(式13)

其中λ是一个平衡参数,该模型参数可以利用无约束条件的优化算法求解,具体求解过程可参考文献denoeux,t.(2013)maximumlikelihoodestimationfromuncertaindatainthebelieffunctionframework.ieeetrans.knowl.dataeng.,25,119–130,本发明不予撰述。

步骤4,建模域相关特征,并构建目标函数;

引入矩阵g建模域相关特征并对其进行稀疏表示,把13式得到的域相关特征权重作为初始值赋给矩阵g,并将5式转变为:

其中,14式中对矩阵g稀疏表示是为了使领域变化的衡量更准确,这样能够更好地构建目标样本。

依据上述步骤得到的结果,我们以如下的数学表达式定义目标函数:

其中ω(p,y,xs)表示判别子空间学习函数,xs和xt分别表示源领域数据集和目标领域数据集。基于式15,可以将源领域和目标领域的数据转换到一个判别子空间,低秩约束和稀疏表示可以使两个领域数据表示的兼容性更强。这样,两个领域的样本可以相互接近,以便缩小源领域和目标领域的分布差异。

在隐写分析问题中,样本的标签有两种类别,分别用来标记载体图像(用cover表示)和载密图像(用stego表示)。我们把ω(p,y,xs)设计成一种回归函数。线性回归方法假设训练样本可以被转换为二进制标签矩阵,也即:

其中y是源领域样本的标签矩阵。最终,本文的目标函数可以表达为如下形式:

这样设计的变换矩阵p不仅可以扩大不同类别之间的边界距离,而且可以使源领域和目标领域的数据分布差异尽可能大的减小。

步骤5,求解目标函数以获取相关参数;

根据式17来进行目标函数求解是非凸优化问题。求解这个目标函数时,我们通过固定其他变量,依次迭代求解每一变量。我们可以将公式17转化为:

为了求解式18,我们引入增广拉格朗日函数,其表达形式如下:

其中y1、y2和y3是拉格朗日乘子,θ>0表示约束因子。利用不精确增广拉格朗日乘子法求解式19,该算法以坐标下降的方式对每一变量进行迭代求解,主要的求解过程如下所述。

第一步(求解p):p可以通过优化式20求解。

为了得到数值更稳定的解,我们将由式20求得的结果加上一个比较小的正数常量ξ,其表达形式如下:

其中h1=xt-xsz,

第二步(求解z):z可以通过优化式22求解。

式22的解可以表达如下:

其中,

第三步(求解z1和z2):z1和z2可以通过分别优化式24、式25求解。

利用式24、式25求解z1和z2与第二步中z的优化过程大致相同,这里不做赘述。

第四步(求解g):g可以通过优化式26求解。

依据放缩法,式26的解可以表达为:

其中f(x,c)=signmax(|x|-c,0)。

第五步:拉格朗日乘子和迭代步长γ可以通过式28求解。

步骤6,重复步骤2-5,直到满足收敛条件,获得处理后的训练数据集和测试数据集。

收敛条件:

||ptxt-ptxsz-g||∞<ε,||z-z1||∞<ε,

||z-z2||∞<ε

其中,ε表示每次迭代过程中的间隔,||·||∞表示无穷范数;

第m次迭代过程中产生的间隔εm可以通过式29求解,其随迭代次数的增加而单调减小,

其中,zm,z1m和z2m分别表示第m次迭代过程中求解的z,z1和z2。

步骤7,利用处理后的训练数据集训练svm分类器,获得失配隐写分析模型;

步骤8,利用失配隐写分析模型对处理后的测试数据集进行特征分类,并获得该模型的准确率。

利用本发明实施例的上述方法进行失配隐写检测,具体过程如下:

a,输入多组内容不同的jpeg原始图像样本,采用不同的质量因子、嵌入率和隐写工具分别生成数量相同的cover样本和对应的stego样本。

b,从a得到的多组图像样本中随机挑选出数量相同的两组,一组作为训练集,另一组作为测试集来验证分类模型的效果。

c,提取274维的pev特征作为域无关特征,由图像残差统计生成的共生矩阵作为域相关特征建模的初始输入。

d,按照实施例中步骤2-6对c中的特征进行处理,利用处理后的cover样本特征和对应的stego样本特征,并使用svm对处理后的特征进行分类。

e,用测试集样本来验证失配隐写分析模型的准确性。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1