一种基于目标特征增强生成网络的神经网络后门攻击方法

文档序号:35083292发布日期:2023-08-09 22:53阅读:28来源:国知局
一种基于目标特征增强生成网络的神经网络后门攻击方法

本发明属于深度学习,具体涉及一种基于目标特征增强生成网络的神经网络后门攻击方法。


背景技术:

1、以深度神经网络模型为基础的人工智能技术迅速发展,在机器翻译、语音识别、场景分类和目标检测等任务领域中取得了优于传统算法的成绩。然而,由于深度神经网络的黑盒特性,其决策行为逻辑缺乏可解释性和透明性,使得深度神经网络的使用具有安全隐患,最近的研究表明神经网络模型易遭受攻击。神经网络攻击具体是指攻击者通过一定手段操纵网络模型做出错误决策的破坏性行为。目前针对深度神经网络的攻击方式可以分为三类:对抗攻击、投毒攻击和后门攻击。对抗攻击作用于在模型推理阶段,通过向干净样本中添加微小扰动噪声或补丁图案,诱导神经网络做出指定决策。对抗攻击需要在神经网络推理决策阶段对模型信息进行大量的访问才能构建出可误导模型的对抗样本,且只生成单一样本的对抗噪声。投毒攻击作用于模型训练阶段,通过添加恶意错误数据污染训练集从而降低模型的准确性,但却无法指定模型对特定样本做出指定的决策。

2、后门攻击是一种在神经网络模型实际部署之前进行的攻击,其通过对训练数据或网络模型的修改在神经网络中注入后门信息,在模型部署后的推理阶段不需要再访问模型,输入携带特定触发器的样本便可直接激活模型中的后门,从而使模型错误决策,完成攻击。随同硬件设备计算与存储能力的提升,具有先进性能的神经网络模型所需训练数据规模、模型参数尺寸也越来越大,这使得训练数据与模型参数难以人工检测安全性。此外,攻击中对数据的修改往往微小到难以察觉,模型单一参数也不具有实际意义,不可分析异常。这些特性都为后门攻击的成功实施创造了条件,使后门攻击对神经网络模型极具威胁。

3、目前,后门攻击方法中基于触发器生成网络的方法,同时利用了训练数据与网络模型的访问与修改权限,往往可以实现更高的攻击性能,但现有的基于触发器生成网络的后门攻击方法仍然具有共性的缺点,即它们都只利用了待攻击网络的输出决策来辅助后门触发器的设计,对要攻击的网络模型的信息利用不充分,攻击性能还有所欠缺。因此,本发明基于目标特征增强生成网络合成后门触发器,可充分利用网络模型的信息,实现更强的攻击性能,且可有效抵御现有后门防御方法。

4、基于触发器生成网络的后门攻击方法的通用方案如下:

5、(1)训练后门触发器生成网络;

6、(2)选择训练数据集中的部分干净样本,利用训练好的后门触发器生成网络生成这些干净样本对应的中毒样本,中毒样本与剩余干净样本共同构成中毒数据集;

7、(3)用中毒数据集训练要攻击的深度神经网络模型,从而注入后门;

8、(4)在模型使用的推理阶段中,攻击者利用后门触发器生成网络在输入样本中添加触发器,激活中毒模型中的后门,使模型做出指定错误决策,从而最终实现攻击。

9、基于触发器生成网络的后门攻击方法,针对攻击者可同时拥有训练数据与网络模型的访问与修改权限的场景,因此上述4个步骤均可由攻击者完成。

10、在该场景下,不同的后门攻击方法的差别主要在于第(1)步,现有技术只利用了要攻击神经网络模型的输出决策信息来辅助训练后门触发器生成网络,例如将干净样本输入触发器生成网络,得到输出的同尺寸噪声,将输出噪声添加到该干净样本作为中毒图像,约束要攻击的网络模型将该中毒图像识别为目标攻击类别,以此训练生成网络。

11、现有的基于触发器生成网络的后门攻击方法仍然具有共性的缺点,即它们都只利用了待攻击网络的输出决策来辅助后门触发器的设计,对要攻击的网络模型的信息利用不充分,攻击性能还有所欠缺。

12、总结为:没有充分利用要攻击的网络模型信息,攻击性能不足。


技术实现思路

1、为了克服现有技术的不足,本发明提供了一种基于目标特征增强生成网络的神经网络后门攻击方法,该方法针对现有基于生成网络的后门攻击对于要攻击的神经网络模型信息利用不足的问题,提出将目标类样本在要攻击的神经网络模型中的特征均值引入生成网络的解码器,引导训练,减小后门触发器的噪声并提升触发器对输入样本的自适应性。本发明还提出使用一种三阶段的后门模型生成策略,通过依次执行神经网络模型预训练、后门触发器生成网络优化、后门模型中毒训练三个阶段,实现完整的后门攻击过程,进一步完善触发器生成网络的训练与后门信息的注入。本发明相较于现有后门攻击方法具有出色的综合性能。

2、本发明解决其技术问题所采用的技术方案包括如下步骤:

3、步骤1:在干净训练数据集上对要攻击的神经网络模型进行预训练,完成指定数量的训练周期;

4、步骤2:创建后门触发器生成网络,使用双步骤交替训练的方法优化训练触发器生成网络和要攻击的网络模型,直至达到指定迭代次数;

5、步骤3:固定训练好的后门触发器生成网络参数权重,利用触发器生成网络在训练数据集中随机选取的部分样本中注入后门触发器,生成中毒数据集

6、步骤4:在中毒数据集上对要攻击的神经网络模型进行再训练,完成指定数量的训练周期;

7、步骤5:在神经网络模型部署后,利用触发器生成网络在输入样本中注入后门触发器,激活网络模型中的后门,使模型做出指定错误决策。

8、优选地,所述步骤2具体为:

9、步骤2-1:创建后门触发器生成网络,该生成网络为卷积层组成的编码解码网络,其中解码器部分有l层卷积;

10、步骤2-2:将训练数据集中属于目标攻击类别的样本输入要攻击的神经网络模型,计算神经网络模型每一层中的特征图均值,得到每一层的目标类特征均值;

11、步骤2-3:固定要攻击的神经网络模型参数权重,在数据集上对后门触发器生成网络训练一个周期,具体训练过程为:

12、步骤2-3-1:向要攻击的神经网络模型输入一个批次的样本,输出预测置信度结果,与样本相应标签求损失,损失反向传播求得模型每一层的特征图对于预测结果影响程度的样本梯度矩阵;

13、步骤2-3-2:计算相同层级的目标类特征均值与样本梯度矩阵的元素相乘结果,得到每一层的样本自适应的目标类别均值;

14、步骤2-3-3:将步骤2-3-1中该批次的样本输入触发器生成网络,经过生成网络的编码部分,得到样本编码;

15、步骤2-3-4:选择共l层的样本自适应的目标类别均值,将样本自适应的目标类特征均值与样本编码共同输入生成网络的解码部分,输出样本噪声;

16、步骤2-3-5:将样本噪声与相应样本叠加,生成中毒样本,将中毒样本输入要攻击的神经网络模型,得到输出的分类置信度,将分类置信度与目标攻击类别计算损失,与样本噪声大小共同约束对触发器生成网络进行优化调整;

17、步骤2-3-6:重复执行步骤2-3-1至步骤2-3-5,直至触发器生成网络在数据集上完成一个训练周期;

18、步骤2-4:固定后门触发器生成网络的参数权重,利用触发器生成网络污染数据集生成中毒数据集在中毒数据集上对要攻击的神经网络模型训练一个周期,具体训练过程为:

19、步骤2-4-1:从神经网络模型的训练数据集中随机选取部分样本作为要污染的中毒样本集其余样本作为干净样本集

20、步骤2-4-2:向要攻击的神经网络模型输入中毒样本集的样本,输出预测置信度结果,与样本真实标签求损失,损失反向传播求得模型每一层的特征图对于预测结果影响程度的样本梯度矩阵;

21、步骤2-4-3:计算中毒样本集的样本的相同层级的目标类特征均值与样本梯度矩阵的元素相乘结果,得到中毒样本集样本每一层的样本自适应的目标类别均值;

22、步骤2-4-4:将中毒样本集样本输入触发器生成网络,经过生成网络的编码部分,得到样本编码;

23、步骤2-4-5:选择中毒样本集每个样本的l层的样本自适应的目标类别均值,将选择的目标类别均值与样本编码共同输入生成网络的解码部分,输出中毒样本集对应的样本噪声,样本噪声与相应样本叠加,生成中毒样本,替换中毒样本集中原始干净样本,与共同构成中毒数据集

24、步骤2-4-6:在中毒数据集上对要攻击的神经网络模型训练一个周期,约束网络模型将中毒样本预测分类为目标攻击类别、将干净样本预测分类为真实标签类别;

25、步骤2-5:迭代执行步骤2-3与步骤2-4,直至完成指定迭代次数。

26、本发明的有益效果如下:

27、本发明在可同时访问与修改训练数据与网络模型的场景下,充分利用了要攻击的网络模型的信息,生成了更隐蔽的后门触发器,实现了更强的攻击性能,并且能够有效抵御现有后门防御方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1