一种图像文本双端迁移攻击方法、装置和介质与流程

文档序号:34994566发布日期:2023-08-03 22:35阅读:28来源:国知局
一种图像文本双端迁移攻击方法、装置和介质与流程

本发明涉及人工智能安全领域,尤其涉及一种图像文本双端迁移攻击方法、装置和介质。


背景技术:

1、随着计算机系统的计算处理性能不断不提高,同时日趋成熟的大数据技术带来的海量数据积累,深度学习在各个领域都取得巨大的成功以及广泛的应用。然而部分研究者发现在输入的数据上加入少量精心构造的人类无法识别的“扰动”,可以导致深度神经网络预测结果错误,甚至以高置信度输出错误的结果,这种添加扰动的输入数据通常被称为对抗样本。近两年由于自注意力网络(transformer)框架的提出,多模态模型逐渐成为人工智能研究热点。传统神经网络只能接受单一模态的输入,如单图像单文本,而多模态模型其可以接受多种模态类型的输入,具有比单模态模型更强大的性能,对比语言图像预训练(contrastive language–image pre-training,clip)模型,其可以接受图像与文本两端的输入,在各个下游任务中都获得了非常高的准确率,但同时由于支持多个模态的输入,受到对抗攻击的风险也会相应的成倍增加。

2、现有的对抗样本攻击主要集中在单模态领域,因为单模态领域输入形式较为单一,攻击场景也较为固定,对于多模态模型的结构复杂,只对于单一模态的攻击效果较差,对于其的攻击需要对多个模态同时进行攻击,其相关研究较为匮乏。部分多模态攻击手段在图像上直接添加文本补丁,使得多模态模型分类时大幅偏向添加的文本字段。但是上述攻击手段中的添加文本补丁,其会遮挡原图像中的物体信息,并且该类遮挡较为容易被人类察觉到,攻击隐蔽性不强;另一方面,由于多模态模型可以采用多种骨干网络,上述攻击手段只能针对于自注意力网络(transformer)等骨干网络,对于残差骨干网络攻击成功率较低,攻击效果较差。实际环境中,攻击者通常无法获得被攻击模型的参数,无法直接针对被攻击模型设计对抗样本,需要利用训练本地替代模型进行攻击迁移或者对被攻击模型的多次查询以拟合被攻击模型的梯度信息。

3、本发明提出了一种图像文本双端迁移攻击方法,基于对比语言图像预训练模型的骨干网络于本地分别训练一个近似的替代模型,对图像与文本的替代模型进行双端攻击,获得图像与文本的对抗样本,之后将获得的对抗样本迁移至基于对比语言图像预训练模型,实现对于多模态模型的多端黑盒迁移攻击。


技术实现思路

1、本发明的目的在于针对现有技术的不足,提供一种图像文本双端迁移攻击方法、装置和介质。

2、本发明的目的是通过以下技术方案来实现的:本发明实施例第一方面提供了一种图像文本双端迁移攻击方法,包括以下步骤:

3、(1)分析对比语言图像预训练模型,以确定骨干网络;其中,所述对比语言图像预训练模型接受图像端与文本端两端输入,所述文本端在输入对比语言图像预训练模型前根据提示规则构造提示语句,所述对比语言图像预训练模型根据图像输出向量与文本输出向量的相似度进行结果预测;

4、(2)本地根据对比语言图像预训练模型的骨干网络训练用于迁移攻击的替代模型,其中,骨干网络为用于提取图像特征或者文本特征的后台网络;

5、(3)对本地的替代模型的图像输入和文本输入进行扰动,获得图像和文本的对抗样本;

6、(4)将所述步骤(3)获得的图像和文本的对抗样本输入对比语言图像预训练模型中,以获得被扰动的预测结果。

7、进一步地,所述对比语言图像预训练模型包括图像特征提取器和文本特征提取器,所述对比语言图像预训练模型的训练数据为匹配的图像-文本对。

8、进一步地,所述步骤(2)包括以下子步骤:

9、(2.1)获取对比语言图像预训练模型的骨干网络的类型;

10、(2.2)根据骨干网络的类型在数据集上进行训练,以获取替代模型。

11、进一步地,所述骨干网络的类型包括残差网络和自注意力网络。

12、进一步地,所述替代模型的输出为分类概率。

13、进一步地,所述步骤(3)包括以下子步骤:

14、(3.1)将待攻击的图像输入替代模型,通过分类概率和交叉熵损失函数回传获取图像梯度信息,根据图像梯度信息获取图像的扰动信息,以获取扰动后的图像;

15、(3.2)根据图像标签词构造文本端的提示语句,将提示语句输入替代模型以获取句向量的梯度信息,根据梯度信息获取文本的扰动信息,以获取扰动后的文本;

16、(3.3)将所述步骤(3.1)和所述步骤(3.2)获得的扰动后的图像与文本保存收集,作为图像和文本的对抗样本,用于下一步骤的迁移攻击。

17、进一步地,所述步骤(3.1)中获取扰动后的图像具体为:将图像的扰动信息与原图像相加以获取扰动后的图像;

18、所述步骤(3.2)中获取扰动后的文本具体为:将文本的扰动信息与原句向量相加以获取扰动后的文本。

19、进一步地,所述步骤(4)包括以下子步骤:

20、(4.1)将所述步骤(3)获得的文本的对抗样本输入对比语言图像预训练模型中,提取文本特征;

21、(4.2)将所述步骤(3)获得的图像的对抗样本输入对比语言图像预训练模型中,提取图像特征;

22、(4.3)将图像特征和文本特征进行比对匹配,以获取扰动后的预测结果。

23、本发明实施例第二方面提供了一种图像文本双端迁移攻击装置,包括一个或多个处理器,用于实现上述的图像文本双端迁移攻击方法。

24、本发明实施例第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的图像文本双端迁移攻击方法。

25、本发明的有益效果是,本发明综合考虑了对比语言图像预训练模型中图像文本双端输入的安全隐患,针对其不同端的输入分别进行对抗样本攻击,有效提高了扰动成功率和攻击成功率;本发明针对对比语言图像预训练模型的骨干网络设计本地替代模型,在本地替代模型上生成对抗样本,进行迁移攻击,更加具有实践意义。



技术特征:

1.一种图像文本双端迁移攻击方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的图像文本双端迁移攻击方法,其特征在于,所述对比语言图像预训练模型包括图像特征提取器和文本特征提取器,所述对比语言图像预训练模型的训练数据为匹配的图像-文本对。

3.根据权利要求1所述的图像文本双端迁移攻击方法,其特征在于,所述步骤(2)包括以下子步骤:

4.根据权利要求3所述的图像文本双端迁移攻击方法,其特征在于,所述骨干网络的类型包括残差网络和自注意力网络。

5.根据权利要求3所述的图像文本双端迁移攻击方法,其特征在于,所述替代模型的输出为分类概率。

6.根据权利要求1所述的图像文本双端迁移攻击方法,其特征在于,所述步骤(3)包括以下子步骤:

7.根据权利要求6所述的图像文本双端迁移攻击方法,其特征在于,所述步骤(3.1)中获取扰动后的图像具体为:将图像的扰动信息与原图像相加以获取扰动后的图像;

8.根据权利要求1所述的图像文本双端迁移攻击方法,其特征在于,所述步骤(4)包括以下子步骤:

9.一种图像文本双端迁移攻击装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-8中任一项所述的图像文本双端迁移攻击方法。

10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,用于实现权利要求1-8中任一项所述的图像文本双端迁移攻击方法。


技术总结
本发明公开了一种图像文本双端迁移攻击方法、装置和介质,该方法的步骤包括分析攻击目标模型、本地替代模型训练、对抗样本生成和对抗样本迁移,其中,分析攻击目标模型,即对比语言图像预训练模型,其可以接受图像与文本两端输入,之后根据输出向量的相似度进行结果预测;本地替代模型训练为根据目标模型的骨干网络训练替代模型,用于迁移攻击;对抗样本生成为对本地替代模型的进行攻击,进而获得图像和文本的对抗样本;对抗样本迁移为对抗样本输入对比语言图像预训练模型,最终导致网络无法正常工作,网络预测分类错误。本发明从图像和文本两个输入端口进行攻击,同时在本地训练相关模型进行迁移攻击,大幅提高了攻击成功率。

技术研发人员:张音捷,王之宇,白冰,张兴明,邹涛,孙才俊,张奕鹏,陈岱渊,黎海燕,孙天宁,朱桢,徐昊天
受保护的技术使用者:之江实验室
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1