本发明属于神经网络安全,具体涉及一种对抗补丁的检测及防御方法。
背景技术:
1、深度神经网络在图像分类、目标检测、语义分割等多种任务中取得了显著的效果,这些研究被广泛的应用在了现实生活中,如汽车智能驾驶系统就利用神经网络实现了车辆检测、行人检测、交通标志牌识别等功能。
2、然而,发现一些精心设计的人类难以察觉的扰动能够影响神经网络的决策结果,并逐渐衍生出各种强大的攻击算法。对于汽车智能驾驶系统来说,车辆检测和行人检测功能即使遭受对抗扰动的影响,也能在雷达和红外线等传感器的辅助下及时做出正确的决策。但对于交通标志牌识别这类图像分类任务,对抗扰动会使自动驾驶系统产生错误的决策,给道路交通带来严重的安全隐患。
3、不同于对抗扰动,对抗补丁是一种添加在局部的人类能够观察到但是不会注意的图像块,能够在真实物理世界中具有更强的攻击效果。因此,对抗补丁的出现,对物理世界中深度神经网络的应用安全产生了更大的威胁。为了提高智能驾驶系统以及其它深度神经网络的工程应用的安全性和可靠性,研究如何防御此类攻击成为了深度学习领域的热门内容。
4、为了提高人工智能和自动驾驶的安全性,各种防御对抗补丁的方法被相继提出,大致可以分为以下三类:
5、(1)pre-processing:数据预处理可以在图像输入神经网络之前消除掉图像上的对抗补丁,使其丧失攻击效果,让神经网络能够正确分类图像。目前的预处理方法可分为图像补全和图像平滑两种。
6、(2)in-processing:从深度学习模型本身出发,提高自身对对抗样本的鲁棒性。通常需要修改目标网络的参数或者结构。现有的方法主要从对抗性训练、架构修改和认证鲁棒性三个方面进行。
7、(3)post-processing:后处理防御的机制与人类的思维过程的重复验证是一致的,模型在做出初步预测后,还必须综合分析更多的证据。以“停车”路牌为例,“停车”字是充分条件,“八角形”是必要条件,各个因素的逻辑判断将领域知识整合,形成最终输出。
8、本发明主要关注预处理的防御方法。现有预处理的防御大多使用grad-cam或者显著性映射来寻找对抗补丁在输入图像中的位置。但当输入干净图像时,这两种方法只会找到与正确类别有关的主要区域。在对这些位置填补像素后会显著降低干净图像上的分类准确率。
技术实现思路
1、本发明的目的在于,提供一种对抗补丁的检测及防御方法,实现对对抗补丁的检测与防御。
2、本发明的技术方案如下:
3、一种对抗补丁的检测方法,包括以下步骤:
4、利用干净图像训练编码器-解码器结构的生成对抗网络gan,编码器学习干净图像的深层特征分布,解码器根据深层特征分布恢复出原始图像;
5、将待检测图像输入至训练好的生成对抗网络gan中,得到相应的输出图像;
6、将待检测图像与相应的输出图像相减并取绝对值得到绝对误差;
7、设置误差阈值,绝对误差大于误差阈值的图像区域即为对抗补丁所在的区域。
8、进一步的,当待检测图像为多通道图像时,将待检测图像与相应的输出图像进行矩阵相减并取绝对值,得到关于绝对误差的异常得分矩阵(c,w,h);其中,c为通道数,w和h为图像尺寸;
9、将异常得分矩阵中大于误差阈值的元素置1,其余元素置0,并在通道轴上进行求和操作,将其尺寸变为(1,w,h);值不为0的像素位置即为对抗补丁所在的区域。
10、进一步的,训练时将干净图像的像素数值归一化在[0,1]区间,检测时将待检测图像的像素数值归一化在[0,1]区间,对应的误差阈值δ∈{0.1,0.2,0.3,0.4,0.5}。
11、一种对抗补丁的防御方法,该防御方法采用上述中任意一项所述的对抗补丁的检测方法获取对抗补丁所在的区域,之后对该区域涂黑或者使用图像修复算法复原该区域。
12、一种对抗补丁的检测方法,包括以下步骤:
13、计算待检测图像的总面积imagearea;设置对抗补丁区域占比α,计算对抗补丁区域的面积patcharea=α×imagearea;
14、将待检测图像转化成灰度图,并进行边缘检测,得到其边缘图像;
15、将边缘图像内的边缘线条连接成一个个封闭区域,计算这些封闭区域的面积;
16、保留面积小于patcharea的封闭区域,即为对抗补丁所在的区域。
17、进一步的,设置两个对抗补丁区域占比,计算这两个对抗补丁区域占比分别对应的对抗补丁区域的面积,保留面积在这两个对抗补丁区域的面积范围内的封闭区域,即为对抗补丁所在的区域。
18、进一步的,保留封闭区域后,利用矩形框框出保留的边缘线条,矩形框的区域即为对抗补丁所在的区域。
19、进一步的,对抗补丁区域占比α∈{1%,2%,3%,4%,5%}。
20、进一步的,将待检测图像转化成灰度图后进行高斯去噪;边缘检测采用canny边缘检测算法;利用膨胀操作将边缘图像内的边缘线条连接成一个个封闭区域。
21、一种对抗补丁的防御方法,该防御方法采用上述中任意一项所述的对抗补丁的检测方法获取对抗补丁所在的区域,之后对该区域涂黑或者使用图像修复算法复原该区域。
22、本发明与现有技术相比,具有以下优点及有益效果:
23、本发明能够基于异常定位和边缘检测这两种方案分别检测出对抗补丁,并对对抗补丁所在的区域涂黑或者使用图像修复算法复原该区域以防御对抗补丁。
24、其中,异常定位防御(anomaly location defense,ald)带给攻击者两难处境:要攻击成功,补丁就要与原始数据不在同一个分布;要绕过防御方案,就得使补丁尽可能与原始数据处在相同的分布。
25、边缘检测防御(edge detection defense,edd)基于补丁自身丰富的边缘信息并且只占据图像1%~5%区域的特性进行防御。攻击者想要绕过防御方案,过大的补丁会使目标太明显,过小的补丁又丧失了攻击性。
26、ald和edd都只会检测出图像中异常的对抗补丁,不会在干净样本中检测到异常,保证了干净样本的分类准确率,同时应用图像修复算法对检测到的区域进行复原,提高防御准确性。
1.一种对抗补丁的检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的对抗补丁的检测方法,其特征在于,当待检测图像为多通道图像时,将待检测图像与相应的输出图像进行矩阵相减并取绝对值,得到关于绝对误差的异常得分矩阵(c,w,h);其中,c为通道数,w和h为图像尺寸;
3.根据权利要求1所述的对抗补丁的检测方法,其特征在于,训练时将干净图像的像素数值归一化在[0,1]区间,检测时将待检测图像的像素数值归一化在[0,1]区间,对应的误差阈值δ∈{0.1,0.2,0.3,0.4,0.5}。
4.一种对抗补丁的防御方法,其特征在于,该防御方法采用权利要求1至3中任意一项所述的对抗补丁的检测方法获取对抗补丁所在的区域,之后对该区域涂黑或者使用图像修复算法复原该区域。
5.一种对抗补丁的检测方法,其特征在于,包括以下步骤:
6.根据权利要求5所述的对抗补丁的检测方法,其特征在于,设置两个对抗补丁区域占比,计算这两个对抗补丁区域占比分别对应的对抗补丁区域的面积,保留面积在这两个对抗补丁区域的面积范围内的封闭区域,即为对抗补丁所在的区域。
7.根据权利要求5所述的对抗补丁的检测方法,其特征在于,保留封闭区域后,利用矩形框框出保留的边缘线条,矩形框的区域即为对抗补丁所在的区域。
8.根据权利要求5所述的对抗补丁的检测方法,其特征在于,对抗补丁区域占比α∈{1%,2%,3%,4%,5%}。
9.根据权利要求5所述的对抗补丁的检测方法,其特征在于,将待检测图像转化成灰度图后进行高斯去噪;边缘检测采用canny边缘检测算法;利用膨胀操作将边缘图像内的边缘线条连接成一个个封闭区域。
10.一种对抗补丁的防御方法,其特征在于,该防御方法采用权利要求5至9中任意一项所述的对抗补丁的检测方法获取对抗补丁所在的区域,之后对该区域涂黑或者使用图像修复算法复原该区域。