本发明涉及黑盒对抗攻击,特别是涉及一种图像分类系统对抗性样本生成方法、系统及电子设备。
背景技术:
1、深度神经网络(deep neural networks,dnn)容易受到对抗性样本的影响,对抗性样本指针对深度神经网络故意构造的扰动图像,这种对抗性样本可以导致深度神经网络产生图像分类错误。
2、生成对抗性样本的目的为了发现深度神经网络的脆弱性,从而进一步提升图像分类系统的鲁棒性。利用对抗性样本实施对抗攻击,根据扰动是否可在现实中部署,分成数字世界攻击和物理世界攻击,其中物理世界对抗攻击模式通常为贴在图像上的补丁,具有更广泛的应用前景。例如,通过将对抗性样本输入物理世界的神经网络图像分类系统,可发现系统脆弱性缺陷,从而进一步对其进行安全加固。
3、现有的对抗性样本生成方法大多对图像生成采用固定形状或数量补丁的扰动,容易被发现且对抗迁移性不足,在黑盒攻击场景下会以较大概率失效,导致对抗攻击效果不佳。
技术实现思路
1、本发明的目的是提供一种图像分类系统对抗性样本生成方法、系统及电子设备,提高了图像分类系统对抗性样本的迁移性。
2、为实现上述目的,本发明提供了如下方案:
3、一种图像分类系统对抗性样本生成方法,包括:
4、根据预设下游任务,获取i种类别的图像;每种类别均包括j张图像;i>1,j>1;
5、将各类别的图像分别求均值,得到对应类别的均值图像;
6、基于各类别的均值图像确定对应类别的类别敏感补丁区域;
7、获取目标图像;所述目标图像为欲生成对抗性样本的图像;
8、基于所述目标图像、微调后的替代图像分类模型和攻击区域修正网络,确定实例敏感补丁区域;所述微调后的替代图像分类模型是利用imagenet数据集对替代图像分类模型进行微调得到的;
9、基于所述类别敏感补丁区域和所述实例敏感补丁区域确定待填充补丁区域;
10、基于所述目标图像和所述微调后的替代图像分类模型,确定补丁纹理;
11、基于所述待填充补丁区域、所述补丁纹理和所述目标图像,得到对抗性样本。
12、可选地,基于各类别的均值图像确定对应类别的类别敏感补丁区域,具体包括:
13、对于任一张均值图像:
14、将均值图像输入至所述微调后的替代图像分类模型中进行反向传播,得到梯度矩阵;
15、对所述梯度矩阵进行均值池化下采样,得到下采样后的梯度矩阵;
16、将所述下采样后的梯度矩阵中的元素按照从大到小进行排序;
17、取前预设个数个元素为敏感元素,将敏感元素对应的区域确定为关键区域;
18、对各所述关键区域进行上采样,得到所述类别敏感补丁区域。
19、可选地,所述微调后的替代图像分类模型的微调过程,包括:
20、根据所述预设下游任务训练resnet50,得到所述替代图像分类模型;
21、获取imagenet数据集;所述imagenet数据集包括多张图像和对应的类别;
22、利用所述imagenet数据集对所述替代图像分类模型进行微调,得到所述微调后的替代图像分类模型。
23、可选地,基于所述目标图像、微调后的替代图像分类模型和攻击区域修正网络,确定实例敏感补丁区域,具体包括:
24、将所述目标图像输入至微调后的替代图像分类模型中,并进行反向传播,确定所述微调后的替代图像分类模型中各网络层的类激活映射图;
25、初始化所述目标图像的掩膜为空白掩膜;
26、基于所述空白掩膜、各所述类激活映射图和攻击区域修正网络,得到实例敏感补丁区域。
27、可选地,基于所述目标图像和所述微调后的替代图像分类模型,确定补丁纹理,具体包括:
28、构建并初始化自适应步长生成器;
29、将所述目标图像输入所述自适应步长生成器中,确定攻击步幅;
30、利用投影梯度下降法,基于所述目标图像、所述攻击步幅和所述微调后的替代图像分类模型,确定所述补丁纹理。
31、一种图像分类系统对抗性样本生成系统,包括:
32、多种类别图像获取模块,用于根据预设下游任务,获取i种类别的图像;每种类别均包括j张图像;i>1,j>1;
33、均值图像确定模块,用于将各类别的图像分别求均值,得到对应类别的均值图像;
34、类别敏感补丁区域确定模块,用于基于各类别的均值图像确定对应类别的类别敏感补丁区域;
35、目标图像获取模块,用于获取目标图像;所述目标图像为欲生成对抗性样本的图像;
36、实例敏感补丁区域确定模块,用于基于所述目标图像、微调后的替代图像分类模型和攻击区域修正网络,确定实例敏感补丁区域;所述微调后的替代图像分类模型是利用imagenet数据集对替代图像分类模型进行微调得到的;
37、待填充补丁区域确定模块,用于基于所述类别敏感补丁区域和所述实例敏感补丁区域确定待填充补丁区域;
38、补丁纹理确定模块,用于基于所述目标图像和所述微调后的替代图像分类模型,确定补丁纹理;
39、对抗性样本生成模块,用于基于所述待填充补丁区域、所述补丁纹理和所述目标图像,得到对抗性样本。
40、一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述所述的图像分类系统对抗性样本生成方法。
41、可选地,所述存储器为可读存储介质。
42、根据本发明提供的具体实施例,本发明公开了以下技术效果:
43、本发明公开了一种图像分类系统对抗性样本生成方法、系统及电子设备,在生成对抗性样本时,不需要已知待攻击模型的架构和参数,可以在黑盒模型上通过微调后的替代图像分类模型实现较好的攻击可迁移性;可自适应生成任意形状和大小的补丁,生成的对抗性样本难以被现有的防御手段察觉;生成的对抗性样本可应用于数字世界和物理世界,并具有对角度和距离的鲁棒性,提高了图像分类系统对抗性样本的迁移性。
1.一种图像分类系统对抗性样本生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的图像分类系统对抗性样本生成方法,其特征在于,基于各类别的均值图像确定对应类别的类别敏感补丁区域,具体包括:
3.根据权利要求1所述的图像分类系统对抗性样本生成方法,其特征在于,所述微调后的替代图像分类模型的微调过程,包括:
4.根据权利要求1所述的图像分类系统对抗性样本生成方法,其特征在于,基于所述目标图像、微调后的替代图像分类模型和攻击区域修正网络,确定实例敏感补丁区域,具体包括:
5.根据权利要求1所述的图像分类系统对抗性样本生成方法,其特征在于,基于所述目标图像和所述微调后的替代图像分类模型,确定补丁纹理,具体包括:
6.一种图像分类系统对抗性样本生成系统,其特征在于,所述系统包括:
7.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至5中任一项所述的图像分类系统对抗性样本生成方法。
8.根据权利要求7所述的一种电子设备,其特征在于,所述存储器为可读存储介质。