一种针对图像分类模型的后门检测及修复方法及系统

文档序号:27259005发布日期:2021-11-05 21:01阅读:137来源:国知局
一种针对图像分类模型的后门检测及修复方法及系统

1.本发明属于软件技术和信息安全技术领域,涉及面向人工智能的安全技术,具体涉及一种针对深度神经网络图像分类模型的后门检测及修复方法及系统。


背景技术:

2.近年来,深度神经网络(deep neural network,dnn)因为其准确的预测结果在计算机视觉、语音识别、自然语言处理等领域得到了广泛的应用。深度神经网络甚至应用在一些重要的安全领域中,如门禁系统、自动驾驶和医疗诊断,因为它的准确性与人类专家相当,有时甚至比人类专家更可靠。
3.然而,深度神经网络在得到广泛应用的同时,也面临着严重的安全问题,例如数据投毒攻击、对抗攻击、后门攻击等等。特别地,攻击者可以在模型训练期间向深度神经网络中注入后门来控制模型的行为。被注入后门的dnn模型,在正常的输入数据上与无后门模型表现基本一致,但遇到特殊的“触发器(即覆盖在原始图像上的特殊图案)”输入时,就会引发模型异常的行为,带来攻击者期望的结果。后门攻击的存在给深度神经网络带来了安全隐患。例如,通过向dnn模型中注入后门,可以使其把贴着特殊贴纸(触发器)的停车标识牌错误识别为限速标识牌。如果一辆自动驾驶汽车配备了这样的后门模型,就可能发生致命的交通事故。


技术实现要素:

4.本发明的目的在于提供一种对深度神经网络图像分类模型的后门检测及修复方法。本发明可以在不知道后门触发器和后门攻击目标的前提下,仅使用少量干净数据,对可能存在于模型中的后门进行检测,并对检测到的后门进行修复,生成一个正常模型。
5.为实现上述目的,本发明采用以下技术方案:
6.一种针对图像分类模型的后门检测及修复方法,包括以下步骤:
7.基于干净数据集,采用模型剪枝、迁移学习和浅层模型训练的方法,获得与后门模型的任务相同但没有后门的一系列对照模型;
8.借助对照模型和干净数据集,通过优化目标函数对后门模型的每一个类别进行逆向,获得一系列潜在触发器,该潜在触发器包括后门触发器和对抗补丁;
9.根据干净数据集和潜在触发器计算贡献度热力图,利用贡献度热力图对潜在触发器进行精炼,只保留影响模型分类结果的关键特征;
10.基于后门触发器和对抗补丁在对照模型上可迁移性的差异,区分出精炼后的潜在触发器的后门触发器和对抗补丁;
11.将区分出的后门触发器加入到干净数据集中,通过对抗训练去除后门模型中的后门。
12.进一步地,干净数据集为来自于后门攻击的污染训练集或者与污染训练集具有相似数据分布的数据集,相似数据分布是指数据分布相似度高于一预设指标;干净数据集的
数据量为污染训练集的10%

20%。
13.进一步地,模型剪枝方法为:通过剪去后门模型中激活率低的神经元来去除后门,同时通过微调训练来恢复该模型的分类准确率;
14.迁移学习方法为:以与后门模型的分类任务类似的一神经网络模型为基础,通过迁移学习训练得到对照模型;
15.浅层模型训练方法为:对后门模型的结构进行简化,并在简化的模型结构上进行训练,得到对照模型。
16.进一步地,通过调整目标函数的损失函数权重来优化目标函数,公式如下:
[0017][0018][0019][0020][0021]
其中,损失函数l
backdoor
和l
clean
分别表示后门触发器对后门模型和对照模型的分类结果影响,损失函数l
noise
是应用于m的降噪函数;α、β和γ为损失函数的权重系数;δ和m是目标函数优化的两个变量,是与干净数据集尺寸相同的三维矩阵,其中δ是保存潜在触发器的图案;m是透明度矩阵,控制潜在触发器的位置;x
i
是从干净数据集中随机选择的图像;j是全1矩阵,维数与δ相同;δ*m+x
i
*(j

m)表示将触发器覆盖在图像x
i
上;f
b
和f
c
分别是后门模型和对照模型的预测函数;ce是交叉熵损失函数;n是干净数据集中图像的总数量;i是当前图像的编号;在后门模型上,带有触发器的图像被分类到目标类别y
t
,在对照模型上被分类到正确类别y
i
;j和k分别代表矩阵m的行和列,a和b是求和符号的下标。
[0022]
进一步地,根据干净数据集和潜在触发器计算贡献度热力图的步骤包括:
[0023]
从干净数据集中随机选择一组图像,并用潜在触发器覆盖;
[0024]
对所有图像计算代表分类结果贡献度的热力图,即为贡献度热力图。
[0025]
进一步地,利用贡献度热力图对潜在触发器进行精炼的步骤包括:
[0026]
对所有贡献度热力图求平均,得到平均热力图;
[0027]
根据平均热力图,移除潜在触发器中当前贡献度最低的区域;
[0028]
计算潜在触发器目前的攻击成功率,若低于一阈值,则结束,否则继续移除潜在触发器中当前贡献度最低的区域。
[0029]
进一步地,区分精炼后的潜在触发器的后门触发器和对抗补丁的步骤包括:
[0030]
从干净数据集中随机选择一组图像,并用潜在触发器覆盖;
[0031]
计算潜在触发器在后门模型上的攻击成功率,若攻击成功率低于一阈值,则判定为对抗补丁,结束;
[0032]
若攻击成功率不低于上述阈值,则计算潜在触发器在所有对照模型上的攻击成功
率,若在某一个对照模型上攻击成功率高于另一阈值,则判定为对抗补丁,否则判定为后门触发器。
[0033]
进一步地,首先从干净数据集中随机选择一定比例的图像,并用后门触发器覆盖;然后将区分出的后门触发器加入到干净数据集中。
[0034]
进一步地,通过对抗训练去除后门模型中的后门的步骤包括:将区分出的后门触发器加入到干净数据集中,并保持图像的类别信息不变,得到对抗训练数据集;用对抗训练数据集微调训练后门模型,去除后门模型中的后门。
[0035]
一种针对图像分类模型的后门检测及修复系统,包括存储器和处理器,在该存储器上存储有计算机程序,该处理器执行该程序时实现上述方法的步骤。
[0036]
一种计算机可读存储介质,存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
[0037]
与现有技术相比,本发明的积极效果为:
[0038]
本发明对后门检测能力更强,对不同种类触发器的后门检测范围更广,受触发器面积占比、位置、形状、图案等因素的影响更小,误报率和漏报率更低。相对于现有的后门检测方法(如neuralcleanse、abs、tabor)所存在的都对触发器的面积占比提出假设进行限制,使得攻击者可以以牺牲触发器隐蔽性为代价,采用面积占比更大的触发器(大于10%)逃避检测的缺点,本发明在触发器面积占比达到25%时仍能保持检测能力,更难以被适应性攻击。
附图说明
[0039]
图1为本发明的一种针对图像分类模型的后门检测及修复方法整体流程图。
[0040]
图2为潜在触发器精炼流程图。
[0041]
图3为后门触发器识别流程图。
具体实施方式
[0042]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
[0043]
本实施例公开一种针对图像分类模型的后门检测及修复方法,如图1所示,步骤如下:
[0044]
1.本发明包含如下要点:
[0045]
1.1.对照模型生成:同时采用模型剪枝、迁移学习和浅层模型训练的方法,获得一系列与后门模型任务相同,但没有后门的对照模型。
[0046]
1.2.潜在触发器逆向:借助对照模型和干净数据集,设计一个目标函数,对后门模型的每一个类别进行逆向,获得一系列潜在触发器(由后门触发器和对抗补丁组成)。
[0047]
1.3.潜在触发器精炼:借助贡献度热力图技术,对潜在触发器进行精炼,去除潜在触发器的冗余特征,得到精炼潜在触发器。
[0048]
1.4.后门触发器识别:基于后门触发器和对抗补丁在对照模型上可迁移性的差异,将精炼潜在触发器区分为后门触发器和对抗补丁两类。
[0049]
1.5.后门模型修复:将后门触发器加入到干净数据集中,通过对抗训练去除后门
模型中的后门,得到没有后门的正常模型。
[0050]
2.对照模型生成包含如下三个方式并同时采用:
[0051]
2.1.模型剪枝:通过剪去模型中激活率低的神经元来去除后门,同时采用微调训练恢复模型的分类准确率。
[0052]
2.2.迁移学习:以一个和后门模型分类任务类似的模型为基础,通过迁移学习训练对照模型。
[0053]
2.3.浅层模型训练:对后门模型的结构进行简化,并在简化的模型结构上训练对照模型。
[0054]
3.潜在触发器逆向通过优化目标函数完成:
[0055][0056][0057][0058][0059]
δ和m是目标函数优化的两个变量,都是和干净数据集尺寸相同的三维矩阵。其中δ是保存潜在触发器的图案;m是透明度矩阵,控制潜在触发器的位置。目标函数由三个损失函数组成,通过三个权重α、β和γ进行调整。
[0060]
x
i
是从干净数据集中随机选择的图像。j是全1矩阵,维数与δ相同。δ*m+x
i
*(j

m)表示将触发器覆盖在图像x
i
上。f
b
和f
c
分别是后门模型和对照模型的预测函数。ce是交叉熵损失函数。n是干净数据集中图像的总数量,i是当前图像的编号。l
backdoor
和l
clean
分别表示后门触发器对后门模型和对照模型的分类结果影响。在后门模型上,带有触发器的图像应该被分类到目标类别y
t
,在对照模型上应该被分类到正确类别y
i
。在这里只需使用一个对照模型。l
noise
是应用于m的降噪函数。j和k分别代表矩阵m的行和列,a和b是求和符号的下标。l
noise
通过将m的相邻像素点相加取绝对值再求和达到降噪的目的。
[0061]
4.潜在触发器精炼的流程如图2所示,包含如下步骤:
[0062]
4.1.从干净数据集中随机选择一组原始图像,并用潜在触发器覆盖。
[0063]
4.2.对所有图像计算代表分类结果贡献度热力图(一种尺寸与原始图像相同的二维矩阵,矩阵中点的数值越大则代表原始图像处于同位置的像素点对分类结果的贡献度越大),并对所有热力图求平均得到平均热力图。
[0064]
4.3.根据平均热力图,移除潜在触发器中贡献度最低的区域。
[0065]
4.4.计算潜在触发器目前的攻击成功率,若低于阈值(未精炼的原始潜在触发器的攻击成功率的95%),则结束,否则跳转步骤4.3
[0066]
5.后门触发器识别的流程如图3所示,包含如下步骤:
[0067]
5.1.从干净数据集中随机选择一组图像,并用潜在触发器覆盖。
[0068]
5.2.计算潜在触发器在后门模型上的攻击成功率。
[0069]
5.3.若攻击成功率低于一阈值(预先设定的超参数,值为60%),则判定为对抗补丁,结束,否则跳转5.4。
[0070]
5.4.计算潜在触发器在所有对照模型上的攻击成功率。
[0071]
5.5.若在某一个对照模型上攻击成功率高于另一阈值(预先设定的超参数,与分类类别个数有关,在mnist和gtsrb类别个数较少的数据集上为40%,在youtube

face和vgg

face类别个数较多的数据集上为20%),则判定为对抗补丁,否则判定为后门触发器。
[0072]
6.后门模型修复包含如下步骤:
[0073]
6.1.从干净数据集中随机选择一定比例的图像,并用后门触发器覆盖。
[0074]
6.2.将图像加入到干净数据集并保持图像的类别信息不变,得到对抗训练数据集。
[0075]
6.3.用对抗训练数据集微调训练后门模型,去除后门模型中的后门。
[0076]
本实施例首先仿照后门攻击者的角度,在手写数字分类(mnist数据集)、交通标志牌分类(gtsrb数据集)以及人脸分类(youtube

face和vgg

face数据集)三个应用领域四个数据集上,用污染训练集(badnets)和修改预训练模型(trojannn)两种主流后门攻击方式生成了60个后门模型;同时采用正常的模型训练方法生成了30个正常(无后门)模型。后门模型的“触发器”是覆盖原始图像的某种特殊图案,面积占比2%

25%,具有不同的位置、形状和图案。本发明在上述90个模型上达到了误报率(误检出后门的正常模型数量/总正常模型数量)和漏报率(未检出后门的后门模型数量/总后门模型数量)均小于10%的检测结果。
[0077]
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,本发明的保护范围以权利要求所述为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1