基于深度神经网络的对抗样本生成方法及系统

文档序号:33559772发布日期:2023-03-22 13:44阅读:71来源:国知局
基于深度神经网络的对抗样本生成方法及系统

1.本发明属于计算机视觉处理技术领域,特别涉及一种基于深度神经网络的对抗样本生成方法及系统。


背景技术:

2.在图像分类任务中,基于卷积神经网络的图像分类模型已经达到甚至超过人眼的能力水平。但研究表明,当在原始图像上添加特定扰动后,卷积神经网络会以高概率分类出错。更重要的是,这些扰动对人眼和机器来说都是不易察觉的。对抗样本的存在给深度神经网络安全带来了巨大的挑战,严重阻碍了模型的实际部署和应用。与此同时,对抗样本作为一种技术检测手段,也为测试和提升图像分类模型的安全性和鲁棒性提供了良好的工具。
3.对抗样本的攻击性能主要体现在两个方面:一是能够欺骗模型,可以使性能良好的图像分类模型分类出错;二是能够欺骗人眼,即人眼无法有效区分对抗样本和原始图像。根据攻击者对模型的了解程度,可以将对抗样本攻击分为白盒攻击和黑盒攻击。白盒攻击需要攻击者掌握模型的结构和参数,但由于实际模型部署中通常设有防护机制,攻击者往往难以获得模型的内部信息。因此,黑盒攻击中的fgsm(fast gradient sign method),利用对抗样本的迁移性进行黑盒攻击;还有将动量项引入到对抗样本的生成过程中的mi-fgsm(momentum iterative fast gradient sign method),稳定反向传播过程损失函数的更新方向,提高对抗样本的黑盒攻击成功率。但同时,由于以上方法是以全局扰动的方式在原始图像上添加对抗噪声,生成的对抗样本与原图存在较大的视觉差异,使得对抗样本因过多的对抗纹理特征而易被人眼察觉。随着对抗样本研究的逐步深入,单纯提升对抗样本的攻击成功率已经不能满足对抗攻击测试的要求,还需要考虑由于对抗扰动过大带来的对抗攻击隐蔽性降低的问题。


技术实现要素:

4.为此,本发明提供一种基于深度神经网络的对抗样本生成方法及系统,通过考虑对抗攻击隐蔽性问题,在保持对抗样本的黑盒攻击成功率较高的同时,缩小对抗扰动添加区域,降低对抗样本被发现的可能,提升生成样本质量,便于测试和提升图像分类模型的安全性和鲁棒性。
5.按照本发明所提供的设计方案,提供一种基于深度神经网络的对抗样本生成方法,包含如下内容:
6.根据样本数据中图像语义信息,将样本数据中的原始图像转化为显著图;利用显著图圈定样本数据原始图像中用于添加扰动的显著区域,并通过对显著图像素值进行二值化处理来获取显著掩膜;
7.将样本数据中的原始图像输入图像分类模型中,利用nadam优化算法与卷积神经网络反向传输过程中的梯度信息,迭代生成全局扰动的对抗样本;
8.将对抗样本与原始图像做差,得到全局对抗噪声;利用全局对抗噪声与显著掩膜
的hadamard乘积来获取显著区域内的对抗噪声,并通过结合对抗噪声与原始图像来得到最终输出的显著区域对抗样本。
9.作为本发明中基于深度神经网络的对抗样本生成方法,进一步地,将样本数据中的原始图像转化为显著图,包含如下内容:利用已训练的可变性卷积和特征注意dcfa网络模型将原始图像转化为像素值在0到255之间的灰度图,将该灰度图作为显著图,其中,dcfa网络模型通过在原始图像的低层细节和高层语义中提取不均匀的上下文特征,并通过在空间域和通道域中分配特征自适应权重来获取显著图边界。
10.作为本发明中基于深度神经网络的对抗样本生成方法,进一步,对显著图像素值进行二值化处理的过程表示为:其中,s
i,j
为显著图s的第(i,j)位置像素值,φ为对应的像素阈值,m
i,j
为二值化后显著掩模m对应的第(i,j)位置的值。
11.作为本发明中基于深度神经网络的对抗样本生成方法,进一步,迭代生成全局扰动的对抗样本中,基于卷积神经网络反向传播过程中损失函数的梯度计算,通过逐步增加图像分类过程中的损失函数值来获取分类错误标签,并将损失函数的更新过程以动量累积形式进行集成,以稳定损失函数更新方向。
12.作为本发明基于深度神经网络的对抗样本生成方法,进一步地,损失函数的更新过程中,引入优化更新路径的nesterov算法和优化学习率的rmsprop算法来组合形成nadam算法,利用nadam算法来累积梯度历史数据和预估数据,以同时优化损失函数更新路径和学习率。
13.作为本发明基于深度神经网络的对抗样本生成方法,进一步地,nesterov算法中,通过对抗样本生成过程中的梯度跳跃来辅助损失函数前进过程中预估梯度变化,并将预估梯度变化计入梯度累积过程。
14.作为本发明基于深度神经网络的对抗样本生成方法,进一步地,rmsprop算法中,利用对抗样本生成过程中梯度大小来动态调整损失函数前进过程中的学习率,并通过调整损失函数更新过程中的动态步长来避免最后极值点附近的反复震荡。
15.进一步地,本发明还提供一种基于深度神经网络的对抗样本生成系统,包含:样本数据处理模块、第一样本生成模块和第二样本生成模块,其中,
16.样本数据处理模块,用于根据样本数据中图像语义信息,将样本数据中的原始图像转化为显著图;利用显著图圈定样本数据原始图像中用于添加扰动的显著区域,并通过对显著图像素值进行二值化处理来获取显著掩膜;
17.第一样本生成模块,用于将样本数据中的原始图像输入图像分类模型中,利用nadam优化算法与卷积神经网络反向传输过程中的梯度信息,迭代生成全局扰动的对抗样本;
18.第二样本生成模块,用于将对抗样本与原始图像做差,得到全局对抗噪声;利用全局对抗噪声与显著掩膜的hadamard乘积来获取显著区域内的对抗噪声,并通过结合对抗噪声与原始图像来得到最终输出的显著区域对抗样本。
19.本发明的有益效果:
20.本发明利用显著目标检测技术为每张原始图像生成显著图,并将其二值化为显著掩模,利用该掩模与对抗扰动结合,从而将显著区域内的对抗扰动保留下来,实现了对抗扰
动的局部添加;通过引入nadam优化算法,稳定损失函数更新方向并动态调整学习率,提高损失函数收敛速度,从而在保持较高黑盒攻击成功率的同时,有效降低了对抗扰动的可察觉性。并进一步在imagenet数据集上分别进行单模型和集成模型环境下的对抗攻击实验,对各方法生成的对抗样本图像质量进行了对比分析,验证了该方法的有效性。与基准方法相比,本案方案在集成模型攻击中的隐蔽性指标实现27.2%的性能提升,黑盒攻击成功率也最高达到了92.7%的水平,进一步验证本案方案能够生成较好质量的对抗样本数据,以利于测试和提升图像分类模型的安全性和鲁棒性,具有较好的应用前景。
附图说明:
21.图1为实施例中基于深度神经网络的对抗样本生成流程示意;
22.图2为实施例中对抗样本生成示例;
23.图3为实施例中优化算法关系图示意;
24.图4为实施例中掩模nadam迭代快速梯度法示意;
25.图5为实施例中原始图像、adv-sr及adv-non-sr对比示意示意;
26.图6为实施例中原始图像、adv-sr及adv-non-sr分类正确率对比示意;
27.图7为实施例中对抗样本特征相似度对比示意;
28.图8为实施例中各方法生成对抗样本与原图像对比示意;
29.图9为实施例中甲组人眼评测结果示意;
30.图10为实施例中乙组人眼评测结果示意。
具体实施方式:
31.为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
32.在计算机视觉任务中,以卷积神经网络为基础的图像分类模型得到广泛应用,但因其自身的脆弱性容易受到对抗样本的攻击。目前的攻击方法大多会对整张图像进行攻击,产生的全局扰动影响了对抗样本的视觉质量。为此,本案实施例,参见图1所示,提供一种基于深度神经网络的对抗样本生成方法,包含:
33.s101、根据样本数据中图像语义信息,将样本数据中的原始图像转化为显著图;利用显著图圈定样本数据原始图像中用于添加扰动的显著区域,并通过对显著图像素值进行二值化处理来获取显著掩膜;
34.s102、将样本数据中的原始图像输入图像分类模型中,利用nadam优化算法与卷积神经网络反向传输过程中的梯度信息,迭代生成全局扰动的对抗样本;
35.s103、将对抗样本与原始图像做差,得到全局对抗噪声;利用全局对抗噪声与显著掩膜的hadamard乘积来获取显著区域内的对抗噪声,并通过结合对抗噪声与原始图像来得到最终输出的显著区域对抗样本。
36.同一图像不同部位的语义信息含量不同,因此,本案实施例中,有针对性地对重点区域重点添加对抗噪声,非重点区域少添加或不添加对抗噪声;将显著图与对抗样本生成过程相结合的方法,实现了对抗扰动的局部添加。在迭代生成对抗样本的过程中,通过引入性能更好的优化算法,提高了对抗样本生成过程中损失函数的收敛速度,从而提升了对抗
样本的迁移攻击能力。
37.对抗样本生成通常是对原始图像上每个像素点都进行修改,最终使图像分类决策过程中的损失函数值变大,导致分类出错。这些方法将图像上所有的点看成了等同价值的像素,但实际上,这种全局扰动的添加方式将导致一些非必要对抗噪声添加到原始图像上,使得对抗纹理特征更明显,违背了攻击不可察觉的要求,从而降低了对抗样本的攻击性能。同时,相同大小的对抗扰动添加到不同的位置,其视觉效果也不一样,如果添加到色彩丰富细节较多的图像语义区域,对抗扰动则不是很明显,而当添加到图像的背景区域,如图2所示,如蓝天、草地等部位时,对抗扰动会比较引人注目,更易被察觉检测,从而造成了攻击失效。因此,本案实施例中,通过在图像显著区域添加对抗噪声,降低了扰动的可察觉性,从而提高了对抗样本的攻击隐蔽性。
38.作为优选实施例,进一步地,将样本数据中的原始图像转化为显著图,包含如下内容:利用已训练的可变性卷积和特征注意dcfa网络模型将原始图像转化为像素值在0到255之间的灰度图,将该灰度图作为显著图,其中,dcfa网络模型通过在原始图像的低层细节和高层语义中提取不均匀的上下文特征,并通过在空间域和通道域中分配特征自适应权重来获取显著图边界。
39.根据图像中语义信息量的不同,可以将图像分为主体部分和背景部分。主体部分对图像分类结果有更大的影响,当对该部分进行遮挡时,图像分类模型的精度会有明显的下降。因此,可考虑在语义主体的显著区域内添加对抗扰动。
40.显著目标检测技术可以识别出图像中视觉最明显的物体或区域,并且该区域几乎与图像中的分类标签对应的信息相同。因此,本案实施例中,可以运用该技术提取出图像中的主体部分,对该区域添加对抗扰动。可利用deformable convolution and feature attention(dcfa)网络模型生成图像的显著图。该模型通过在图像的低层细节和高层语义信息中提取不均匀的上下文特征,并在空间域和通道域中分配特征的自适应权重,使得生成显著图的边界更清晰准确。通过将原始图像转化成了像素值在0至255之间的灰度图,该灰度图作为显著图s。在该显著图中,其语义特征明显的主体部分更接近白色,而主体之外的背景部分更接近黑色,图像的显著特征区域即为白色的区域。
41.通过显著图,可以将原图像中的显著区域圈定,将原图像分割成了添加对抗扰动区域和不添加对抗扰动区域,进一步,可将显著图s转换为二值化的显著掩模m,可表示为公式(1)。
[0042][0043]
其中,s
i,j
是显著图s的第(i,j)位置像素值,φ为对应的像素阈值,mi,j是二值化后显著掩模m对应的第(i,j)位置的值。该步骤只是对显著图的像素值进行二值化,便于与对抗扰动结合从而进行添加扰动的取舍,图像大小不发生改变。此时,生成的显著掩模图是一个由0和1组成的多维数组,对应显著图特征区域是1,非特征区域为0。
[0044]
之后将显著掩模与动量法结合可以迭代生成对抗样本,其迭代过程可表示为公式(2)-(5)所示。
[0045][0046][0047][0048]
x
adv
=x+noise
adv
ꢀꢀꢀꢀ
(5)
[0049]
其中,g0=0,μ=1,为参数及图像初始化的过程。是将最后一轮迭代生成的对抗样本与原始图像作差,从而得到对抗噪声,再与显著掩模做hadamard乘积,从而将显著区域内的对抗扰动保留了下来,而非显著区域内的对抗扰动置为零。该方法通过显著掩模将对抗扰动添加过程限制在显著区域内,减弱了背景区域的对抗扰动纹理特征,使得攻击具有更好的隐蔽性。
[0050]
作为优选实施例,进一步,迭代生成全局扰动的对抗样本中,基于卷积神经网络反向传播过程中损失函数的梯度计算,通过逐步增加图像分类过程中的损失函数值来获取分类错误标签,并将损失函数的更新过程以动量累积形式进行集成,以稳定损失函数更新方向。在失函数的更新过程中,可引入优化更新路径的nesterov算法和优化学习率的rmsprop算法来组合形成nadam算法,利用nadam算法来累积梯度历史数据和预估数据,以同时优化损失函数更新路径和学习率。
[0051]
当只对显著区域添加对抗扰动时,虽有效地提高了对抗攻击的隐蔽性,但也在一定程度上降低了对抗样本的黑盒攻击成功率。因此,本案实施例中,从优化的角度对攻击方法进行完善提升,以保证在提高攻击隐蔽性的基础上,攻击成功率仍在较高水平。
[0052]
对抗样本的生成过程是一个有限制条件的优化过程。该过程基于反向传播算法中损失函数的梯度计算,逐步增大图像分类过程中的损失函数值,从而使得分类出错。而在动量法中,将损失函数的更新过程以动量累积的形式加以集成,稳定了损失函数的更新方向,从而能够使得对抗样本的生成过程具有更好的收敛特性。利用动量法生成对抗样本虽然攻击性较强,但由于噪声固化、学习率固定等原因,黑盒攻击成功率并不是很高。因此,本案实施例中,可将性能更强的优化器引入到对抗样本的局部优化攻击过程中,在图像的显著区域内对生成过程进行优化。寻找性能更好的优化器主要有两个思路,一方面是对学习路径的优化,另一方面是对学习率的优化。
[0053]
现有的对抗样本攻击过程中所用的优化算法,大多通过梯度累积的方式进行优化,如通过引入momentum算法对梯度的“历史信息”进行累积,或通过引入nesterov算法对“预估梯度”进行累积,从而实现对损失函数更新路径的动态调整,实现了黑盒攻击成功率的提高。优化过程除了对损失函数更新路径进行调整外,还可以对更新的步长大小进行动态调整,当损失函数变化较快时,以小步长更新损失函数,当损失函数变化较慢时,以大步长更新损失函数。因此,本案实施例中,可将nesterov算法和rmsprop算法进行改进结合形成nadam算法,对损失函数的学习路径和学习步长同时进行动态的调整,使损失函数能够有效避免落入局部最优值点,更快地到达损失函数极大值,从而提高了对抗样本的迁移攻击能力。
[0054]
nadam算法是神经网络训练过程中常用的优化算法,具有收敛速度快,收敛效果好的特点。本案方案,从对抗样本生成过程与神经网络训练过程类似的角度出发,将其用于对
抗样本的生成过程来优化对抗样本的生成过程,从而提高对抗样本的性能。尽管nadam优化算法存在且用于神经网路的训练过程,但是本案方案是首个将其用于对抗样本生成过程中的专利,具有首创性,实验结果也证明了该方法的有效性。综上所述,将nadam用于对抗样本的生成过程来提升对抗样本的攻击性能具有一定创新性。
[0055]
尽管掩模方法的提出,提升了对抗样本的隐蔽性,使得对抗样本对于人眼有更好的欺骗性,但是掩模的引入在一定程度上也降低了对抗样本的攻击成功率。那么如何兼顾攻击性和隐蔽性,以及生成对抗样本的效率。本案方案中,先从隐蔽性出发,对对抗样本进行掩模操作,但由于多次掩模在稍微提高对抗样本攻击性能的同时会大幅增加时间成本,所以本专利采用在对抗样本迭代过程的最后一次迭代过程进行掩模操作,兼顾对抗样本的隐蔽性和生成对抗样本的时间效率。但是由于掩模的引入降低了扰动区域,所以一定程度上降低了对抗样本的攻击性能(攻击成功率会降低),所以本案方案从提升对抗样本攻击性能的角度出发,将nadam优化算法引入到对抗样本的生成过程中,着重解决由于掩模操作所附加带来的攻击性能降低的问题。
[0056]
综上所述,掩模操作和nadam优化算法的引入,兼顾了对抗样本的隐蔽性和攻击性,而且隐蔽性在于欺骗人眼,攻击性在于欺骗神经网络系统,所以本案方案生成的对抗样本更适合实际的攻防场景,也更具有实用价值。其中,通过引入nesterov算法和rmsprop算法,组合形成nadam算法,如图3所示,加快损失函数更新的收敛速度,更快地到达损失函数极大值点,提高对抗样本的迁移性。
[0057]
图3中的过程可以看作是对动量法的改进,公式(6)(7)首先引入了nesterov算法,实现了在现有对抗样本生成过程中的梯度跳跃,帮助损失函数前进过程中预估梯度变化,并将这种变化计入梯度累积过程,有助于算法更快地跳出局部极值点。
[0058][0059][0060]
之后,通过rmsprop算法引入第二动量,实现学习率的动态调整。如公式(8)-(11)所示。
[0061]mi+1
=β1mi+(1-β1)giꢀꢀꢀꢀ
(8)
[0062]vi+1
=β2vi+(1-β2)g
i2
ꢀꢀꢀꢀ
(9)
[0063][0064][0065]
式中,m
i+1
为第一动量,实现对梯度的累积,β1为其对应的衰减因子;v
i+1
为第二动量,实现对梯度平方的累积,其衰减因子为β2。第一动量的主要作用是稳定损失函数更新过程中的前进方向,而第二动量主要是用以动态调整损失函数前进过程中的学习率,使函数避免陷入局部极值点。
[0066]
由以上可以看出,nadam优化算法集成第一动量和第二动量的优点,可实现梯度历史数据和预估数据的累积,实现损失函数更新路径和学习的优化,可有效提高对抗样本的生成效率。
[0067]
该优化算法可以自然地与显著区域扰动生成方法相结合,形成掩模nadam迭代快速梯度法(mask-based nadam iterative fast gradient method,ma-na-fgm),其过程如图4所示。在该过程中,首先将原始图像输入到dcfa模型中,得到显著图并二值化后得到显著掩模;同时,将原始图像输入到图像分类模型中,并利用nadam优化算法与卷积神经网络反向传输过程中的梯度信息,迭代生成对抗样本。将得到的全局扰动对抗样本与原图像作差,得到全局的对抗噪声。之后,再将全局噪声与显著掩模进行hadamard乘积,便可得到显著区域内的对抗噪声,将该噪声与原图像结合,得到最终的显著区域对抗样本。
[0068]
基于以上方案内容,单模型条件下的对抗样本攻击算法可设计如算法1所示。
[0069]
算法1单个分类模型攻击算法(ma-na-fgm)
[0070]
输入:原始图像x,相应的正确标签y
true
,原始图像对应的显著掩模m,一个卷积神经网络f与相应的交叉熵损失函数l(x,y
true
;θ),总迭代轮数t,当前迭代步数t,输入图像的维度d,对抗扰动的尺寸ε,衰减因子β1与β2。
[0071]
输出:对抗样本x
adv
,满足||x-x
adv
||

≤ε。
[0072][0073][0074]
在上述的算法中,第1步确定了对抗样本攻击过程的初始条件,第4步和第5步是对损失函数学习路径的优化,可以有效地将梯度的历史数据和预估数据考虑进去,从而避免损失函数优化过程中的局部震荡。第6步引入了第二动量,根据梯度的大小动态调整学习率的大小,从而实现了损失函数更新过程中的动态步长调整,避免了在最后极值点附近反复
震荡。在第11、12步中,实现了对抗扰动的显著区域添加,从而形成了攻击性更强的对抗样本。
[0075]
在最后一轮迭代完成后,已经生成全局扰动后再使用掩模计算局部扰动,因为只需要进行一次hadamard乘积运算,可以较有效地减少计算的工作量。能够在保持攻击成功率不明显下降的前提下,很好的提升对抗样本生成模型的训练效率,极大的缩短对抗样本训练时间。
[0076]
进一步地,基于上述的方法,本发明实施例还提供一种基于深度神经网络的对抗样本生成系统,包含:样本数据处理模块、第一样本生成模块和第二样本生成模块,其中,
[0077]
样本数据处理模块,用于根据样本数据中图像语义信息,将样本数据中的原始图像转化为显著图;利用显著图圈定样本数据原始图像中用于添加扰动的显著区域,并通过对显著图像素值进行二值化处理来获取显著掩膜;
[0078]
第一样本生成模块,用于将样本数据中的原始图像输入图像分类模型中,利用nadam优化算法与卷积神经网络反向传输过程中的梯度信息,迭代生成全局扰动的对抗样本;
[0079]
第二样本生成模块,用于将对抗样本与原始图像做差,得到全局对抗噪声;利用全局对抗噪声与显著掩膜的hadamard乘积来获取显著区域内的对抗噪声,并通过结合对抗噪声与原始图像来得到最终输出的显著区域对抗样本。
[0080]
为验证本案方案有效性,下面结合实验数据做进一步解释说明:
[0081]
实验环境:使用python 3.8.5和tensorflow 1.14.0深度学习框架进行了编程及实验测试,服务器内核为intel core i9-10900k,内存为64g,主频为3.7ghz。为实现对抗样本的快速生成,实验中使用nvidia geforce rtx 2080ti gpu加速完成计算过程。
[0082]
数据集及网络模型:从imagenet dataset的验证集中随机挑选1000张图像,每张图像属于不同的类别。这些图像在所涉及到的图像分类模型上经过测试均能被正确分类,从而使得添加对抗扰动后被误分类的图像均为对抗样本。在攻击测试过程中,使用4个正常训练模型和3个对抗训练模型。
[0083]
评价指标:
[0084]
攻击成功率指标(attack success rate,asr):该指标表征的是对抗样本欺骗图像分类模型使之分类出错的能力,也即分类错误率。在实验过程中,用生成的对抗样本在不同的图像分类模型上进行测试,分类出错的图像即为对抗样本,其在总图像个数中所占的比例即攻击成功率。攻击成功率指标可用公式(12)表示。
[0085][0086]
图像特征差异性指标:通过引入图像方差,将图像的行间像素信息作为图像的特征值。
[0087]
图像的像素方差计算方法如公式(13)所示。
[0088][0089]
通过计算原始图像和对抗样本的各像素点位置的方差值,运用特征值相似指标来
评估原始图像与对抗样本之间的距离。通常,在计算方差特征值时需要对原始图像进行缩放,m为缩放后的图像尺度,为图像每行像素值的平均值。在衡量原始图像的方差特征值与对抗样本的方差特征值的差异时,将其差值进行了相似性度量,设置置信度来衡量发生改变的像素点的数量,具体用方差特征相似度(variance feature similarity,vfs)来量化表述,从而方便度量不同对抗样本生成方法下,对抗噪声添加效果的差异性和扰动不可察觉性的强弱。该指标为未改变像素点占所有像素数量的比例,因此为寻找对抗扰动更隐蔽的生成方法,该指标越大越好。
[0090]
图像结构相似性指标:用结构相似性指标(structural similarity index measure,ssim)来衡量原图像与对抗样本之间的差异性,该指标相对于峰值信噪比(psnr)等传统指标,更能符合人眼的判断标准。该指标主要比较亮度、对比度和结构三方面的内容,定义如公式(14)-(17)所示。
[0091]
ssim(x,x
adv
)=[l(x,x
adv
)]
α
[c(x,x
adv
)]
β
[s(x,x
adv
)]
γ
ꢀꢀ
(14)
[0092][0093][0094]
其中,l(x,x
adv
)比较的是原始图像与对抗样本之间的亮度信息,c(x,x
adv
)和s(x,x
adv
)分别对应的是对比度信息和结构信息。μ
x
和为原始图像和对抗样本像素信息对应的平均值,σ
x
和为像素标准差,为原始图像与对抗样本之间的协方差。c1,c2,c3是用以保持l(x,x
adv
)、c(x,x
adv
)和s(x,x
adv
)稳定性的常数。该指标通常归一化为[-1,1]范围内,数值越大,说明两张图像结构相似度越高,本研究的目标是使该指标越大越好。
[0095]
1、显著区域对分类结果的影响
[0096]
对抗攻击过程中,添加对抗扰动主要是在显著区域内开展。因此,首先验证图像的显著区域对分类结果的影响作用。在实验中,设计两组样本来对比分析,基于显著掩模及反向显著掩模,与原图像作hadamard乘积可得到只保留显著区域图像adv-sr,及去掉显著区域的图像adv-non-sr。利用dcfa模型生成显著图,之后生成显著性掩模,将对应的像素阈值φ设定为15,即大于15像素值的部位,掩模值取为1,在adv-sr中作保留处理,在adv-non-sr中作去除处理。其示意图如图5所示。
[0097]
之后,在6个图像分类模型上进行分类测试,其结果如图6所示。由图可以看出,adv-sr和adv-non-sr相对于原图像的分类正确率均有所下降,adv-sr的正确率平均下降了4.8个百分点,而adv-non-sr平均下降了73.3个百分点。因此,显著区域在图像分类过程中发挥着更大的作用,当对该区域进行攻击时,产生的对抗样本更能有效地使模型分类出错。
[0098]
2、模型攻击对比试验
[0099]
能够成功实现攻击是对抗样本的基础,首先进行图像分类模型的攻击成功率测试。在实验中,首先在正常训练模型上生成对抗样本,而后在7个图像分类模型(包括4个正常训练模型和3个对抗训练模型)上进行攻击测试,以白盒和黑盒情况下的攻击成功率为指标衡量对抗样本的攻击表现。实验中选用mi-fgsm为基准方法,验证本案方案中所提出的
ma-mi-fgsm(mask-based momentum iterative fast gradient sign method)、ma-na-fgsm(mask-based nadam iterative fast gradient sign method)方法的有效性,所涉及到的超参数为:最大扰动值为ε=16像素,迭代轮数t=10,动量衰减因子μ=1,nadam衰减因子β1=0.9,β2=0.999,稳定系数δ=10-14
。实验结果如表1所示。通过数据可以看出,未经过优化过程的显著区域对抗样本生成方法相对于全局扰动的对抗样本生成方法,白盒攻击和黑盒攻击成功率均有所下降,如在inc-v3模型上生成的对抗样本作白盒攻击时,ma-mi-fgsm比mi-fgsm成功率下降0.3个百分点,而在inc-v3
ens3
模型上进行黑盒攻击时,攻击成功率下降了1.7个百分点,这说明背景区域在一定程度上也影响图像分类的结果,并且重点区域添加的对抗扰动强度也不够。当我们在引入nadam优化算法后,对应的攻击算法黑盒攻击成功率得到较大幅度的提升,在inc-v4上生成的对抗样本当在其他6个图像分类模型上进行迁移攻击时,其平均的黑盒攻击成功率提高了7.55个百分点,体现了本攻击算法的优势。
[0100]
之后,又设计实验将ma-dim(mask-based diverse input method)、ma-na-dim(mask-based nadam diverse input method)和dim进行对比,如表2所示。其中,在尺度变化时变换范围为[299,330)像素,其余超参数如前文所述。与基准方法相比,显著区域优化的生成方法显然更具有攻击性,实现了攻击成功率和攻击隐蔽性的性能提升,如在incres-v2上生成的对抗样本,ma-na-dim方法相对于ma-mi-dim方法提高了7.2个百分点,比dim方法的平均黑盒攻击成功率也得到进一步提升,而应该注意到,对抗噪声仅仅添加到了图像的显著区域内,此时的噪声可察觉性已实现了较大幅度的降低。
[0101]
表1 ma-na-fgsm等方法单模型攻击成功率
[0102][0103]
表2 ma-na-dim等方法单模型攻击成功率
[0104]
[0105]
在表1和表2中,分别进行的是白盒测试和黑盒攻击测试,表中左侧4个模型为对抗样本的生成模型,即分别利用inc-v3、inc-v4、incres-v2和res-101生成对抗样本,而后,利用在这些已知模型上生成的对抗样本在4个已知模型和3个未知模型(inc-v3
ens3
、inc-v3
ens4
和incres-v2
ens
)上进行攻击测试,在已知模型上进行为白盒测试,而在未知防御模型上进行的是黑盒测试。表1中各方法主要为是在mi-fgsm的基础上进行方法的改进对比,其中,ma-mi-fgsm是在mi-fgsm的基础上进行了显著性掩模处理,ma-na-fgsm是在mi-fgsm的基础上进行了nadam算法优化及显著性掩模处理;类似的,在表2各方法中主要是对dim方法改进对比分析,ma-dim是在dim的基础上进行了显著性掩模处理,ma-na-dim是在dim的基础上进行了nadam算法优化及显著性掩模处理。
[0106]
3、图像质量对比试验
[0107]
特征差异性指标对比实验:首先对不同方法生成的对抗样本图像特征进行对比分析。在实验中,运用mi-fgsm方法与本案方案中的ma-mi-fgsm方法,分别在1000张图像上生成对抗样本。之后,为了方便计算,将对抗样本图像与原图像缩放至64
×
64像素值大小,并将图像分割成64维的张量形式,以行向量为单位计算其对应的平均值,并求取相应的方差值。将该方差值作为图像的特征值,计算其相似度指标,如图7所示。其中,星标、三角标和圆标分别对应原图像素方差、对抗样本像素方差和像素方差的差值,其中圆标线越长,表示原图像和对抗样本的差值就越大,特征的区别度也就越大,表明在生成对抗样本过程中对原图像的改动(即添加的对抗扰动)也就越大。因此,本案方案的目的在于缩小原图像与对抗样本之间像素方差的差值。由于该差值为反向指标,为更直观地度量其差值,引入了特征相似度的概念,即改变的像素点个数在像素值总数的所占的比例,而是否发生改变用方差置信度来表示,例如设置置信度为0.95时,表示变化量在原图方差值的5%浮动范围。在置信度设置为0.95时,我们得到对抗样本与原图像的特征相似度如图7中第2列和第3列所示,特征相似度越高,说明对抗样本与原图像越接近,其对抗扰动的不可察觉性越好。相对于全局扰动的对抗样本生成方法,利用本案方案生成的对抗样本与原始图像相比较特征相似度更高,这主要是由于在全图像添加对抗扰动的过程中,在图像的背景部分引入了更多的对抗噪声,从而使得对抗样本图像与原始图像之间的特征差异性更大。而本案方案通过在图像的主体语义区域添加对抗扰动,在尽可能小的范围内对原始图像进行改动,从而使得对抗样本与原图像之间的特征相似度更大。
[0108]
之后,对整个实验数据集进行了各方法之间的对比分析,实验结果如表3所示。通过表内数据可以看出,mi-fgsm和dim的特征相似性指标相差不大,平均值分别为0.534和0.546,而其对应的显著区域优化方法ma-na-fgsm和ma-na-dim的平均特征相似性指标分别为0.697和0.693,数据指标分别实现了30.5%和26.9%的性能提升。
[0109]
表3特征相似性指标对比
[0110]
[0111]
结构相似性指标对比实验:为进一步对比原图像与对抗样本之间在亮度、对比度和结构之间的相似性关系,对不同方法生成的对抗样本分别与原图像进行了结构相似性对比。在实验中,利用imagenet数据集中的1000张图像,在4个图像分类模型上分别进行了攻击实验,不同方法的结构相似性指标如表4所示。通过该表可以看出,相对于基准方法mi-fgsm和dim,本案方案中对抗样本生成方法ma-mi-fgsm、ma-na-fgsm和ma-dim、ma-na-dim其结构相似性指标均实现了较大的提高,如在inc-v3上利用mi-fgsm生成对对抗样本,其平均ssim值为0.574,而利用本案方案所提出攻击方法ma-mi-fgsm生成对抗样本的平均ssim值为0.785,其提高幅度为32.0%,这说明了本案方按所提方法可以有效地提高对抗样本与原图像之间的相似性。同时,当引入nadam优化器时,对抗样本与原图像的结构相似性指标的提高幅度不大,这也验证了优化器的主要作用为提高对抗样本的黑盒攻击成功率。在提高结构相似性的过程中,主要是显著区域添加对抗扰动的方法在发挥作用。
[0112]
表4 ma-na-dim等方法结构相似性指标对比情况
[0113][0114]
此外,为验证本方法在集成模型上的攻击表现,还通过逻辑值集成的方法进行了集成模型的攻击实验。实验结果如表5所示。在实验中,在4个普通训练模型上生成对抗样本,并在3个对抗训练模型上进行攻击测试,用ssim指标衡量对抗攻击的隐蔽性,用asr指标衡量对抗样本的攻击性。可以看出,ma-na-si-ti-dim相对于基准的si-ni-ti-dim方法实现了攻击隐蔽性和攻击成功率的双重提升,其中显著性指标ssim提高了27.2%,黑盒攻击成功率也保持在了92.7%的水平,进一步证明了本案方案的优势。
[0115]
表5 ma-na-si-ti-dim等方法攻击性能对比情况
[0116][0117]
人工评估测试实验:为更清晰直观地展现对抗样本像素级的扰动细节,并有效评估该方法在实际应用中的有效性,该研究在imagenet数据集上生成对抗样本并进行人眼评估测试。与显著区域优化的生成方法类似,mi-fgsm方法同属于利用反向传播过程中的梯度信息生成对抗样本的方法,因此,利用这两种方法生成对抗样本,并在调查人群中比较图像对抗扰动的不可感知性。该实验随机选取了10组图像,每组评测图像由原始图像、mi-fgsm生成的对抗样本及ma-mi-fgsm生成的对抗样本组成,在每次的评测中,原始图像是固定的,而用于评测的图像是随机的,其中评测图像既包含原始图像又包含利用不同方法生成的对抗样本。如图8展示了原始图像及对抗样本图像的示例,(a)为原图像,(b)为利用mi-fgsm生成的对抗样本,(c)为利用ma-mi-fgsm生成的对抗样本。
[0118]
对抗扰动的不可察觉是人的眼睛对物理刺激所产生的感知反馈,由于人眼系统因人而异,并且对图像的判断也受其已有知识的影响。因此,为更为有效地评估对抗扰动的不
可察觉性,该研究对不同人群进行了分类的调查研究。设置了甲、乙两个调查组,甲组为普及过对抗样本的人群,乙组为未普及过对抗样本的人群,每个调查组为50人。实验时,将10组图像进行随机显示,让参与评测人员对原图像和相应的随机图像的相似度进行打分,并要求参与者在3秒内给出从0分到10分的具体分数,分数越高,表示相似度越高,而10分意味着对抗样本与原始图像完全相同。其具体结果如图9和图10所示。
[0119]
图9展示了对图像对抗样本具备一定了解的人群打分结果,通过对比各条折线可知,让评测人员对随机显示的图像与原始图像的相似度进行打分,当随机显示的为原始图像时,平均得分最高,而当显示对象为对抗样本时,运用ma-mi-fgsm生成的对抗样本得分更高,说明其与原始图像更为相似,原因主要是该方法将对抗扰动限制在了图像的主体显著区域内,而该显著区域内因固有的更为复杂的纹理特征,而使得对抗噪声会被评测人员所忽视。而mi-fgsm方法生成的对抗样本会因背景区域过多的纹理特征而被人眼察觉。
[0120]
图10展示了未接触过图像对抗样本人群的调查结果。从图中可以看出,运用ma-mi-fgsm生成的对抗样本比运用mi-fgsm生成的对抗样本具有更高的得分,前者的平均得分为8.88分,后者为8.16分。同时也注意到,在第九组的试验中存在两种方法生成的对抗样本得分相同的情况,这主要是图像的主体区域颜色单一,而背景区域反而复杂导致,如深色背景的白色卡车,此时只在主体区域添加对抗扰动,会影响人们对图像质量的判断。但从评测的整体结果来看,基于显著区域优化的方法绝大多数情况下具有更强的隐蔽性。
[0121]
综合图9和图10的测评结果来看,基于显著区域优化方法生成的对抗样本达到了与原图像更高的相似度,从实际应用的角度证明了方法的有效性。同时,也可以看出,对图像对抗样本知识有一定了解的人群往往对普通方法生成的对抗样本具有更高的辨识能力,这也说明了对抗样本知识普及的重要意义。
[0122]
另,本案方案中,在生成全局扰动后再使用掩模计算局部扰动,因为只需要进行一次hadamard乘积运算,可以较有效地减少计算的工作量。在攻击成功率方面,每次迭代过程进行显著掩模运算会对攻击成功率有所提升,但提升效果很有限。这主要是由于显著区域对图像分类结果有更重要的影响,因而削弱了在每个迭代轮次对噪声进行取舍带来的对最终对抗样本攻击成功率的影响。针对这两种技术方案分别进行实验验证和对比分析。实验中使用ma(sr)-mi-fgsm[mask-based(single round)momentum iterative fast gradient sign method,在单轮次(single round),即最后一轮次,使用显著性掩模情况下进行的对抗样本生成方法]和ma(nr)-mi-fgsm[mask-based(n round)momentum iterative fast gradient sign method,在多轮次(n round)使用显著性掩模进行的对抗样本生成方法]。
[0123]
实验结果如下表6所示,通过实验数据可以看出,相较于生成全局扰动后再进行显著掩模而言,每轮次进行显著掩模操作会对攻击成功率有所提升,但提升的幅度非常限。例如,利用inc-v4生成对抗样本来攻击其他模型时,黑盒攻击的平均成功率方面,多轮次方法比单轮次方法的成功率有所提高,但提高幅度非常有限,平均提高了0.52%。
[0124]
表6 ma(sr)-mi-fgsm和ma(nr)-mi-fgsm实验数据对比
[0125][0126]
综上,不同的显著性掩模的噪声取舍运算方案在不同场景下具有各自的优势,当更加注重攻击成功率要求时,可以使用在每轮迭代过程中进行显著性掩模运算的方案;而当综合考虑攻击成功率与对抗样本的训练成本时,使用本案方案在生成全局扰动后再通过显著性掩模进行运算可以达到更好的综合效果,具有更好的性价比。
[0127]
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
[0128]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0129]
结合本文中所公开的实施例描述的各实例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不认为超出本发明的范围。
[0130]
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如:只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
[0131]
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1