一种基于监督训练的模型反演攻击方法

文档序号:36779874发布日期:2024-01-23 11:51阅读:24来源:国知局
一种基于监督训练的模型反演攻击方法

本发明属于数据隐私保护和数据安全的,更具体地,涉及一种基于监督训练的模型反演攻击方法。


背景技术:

1、目前,深度学习已经在日常生活中得到广泛应用,如人脸识别,自动驾驶等。在与日常生活深度融合的同时,也需要重视其中的安全问题。模型反演作为该领域最具威胁的推理深度学习模型训练数据的攻击方法,得到国内外众多研究人员的广泛研究。模型反演的目标是重构给定受害模型的训练样本。

2、当前,最新的攻击流程可以总结成三个步骤。首先,攻击者从公共资源中获取信息;其次,攻击者会训练一个反演模型作为攻击手段,反演模型可以学到一般背景知识模型;最后,攻击者利用反演模型和一些先前收集到的信息执行优化任务,重构目标样本。

3、辅助信息对于一些以训练为基础的反演攻击的反演模型的有效性来说是至关重要的。辅助信息由两部分组成,一部分是具有与将要训练的受害模型数据集相同分布的数据样本。例如,当反演一个交通工具分类器时,可以搜集来自公共资源中的飞机图像。此外,在真实的场景中,如果目标类是轮船,辅助数据集不应该包含任何轮船的样本。另一部分就是,先前的目标信息,即目标样本在反演攻击前的真实样本。以往的文献中,攻击者会事先得到目标信息,如目标类别的模糊或损坏的图像或者目标图像的预测向量。它提供了关于目标样本的直接信息,通常用于指导模型实现其攻击目标。在以往的大多数研究中,先前的目标信息对重构图像的质量至关重要,但是由于在实际场景中很难收集到先前的目标信息,使得该假设过于强烈。

4、此外,先前的研究大多忽视了类信息在模型反演中的作用。造成该现象的原因有两方面。一方面,先前大多数反演模型是在无监督模式下训练的,这会导致反演模型忽略数据到类的关系映射。因此,这类方法需要反演目标信息协助重建反演样本。另一方面,在反演优化阶段,类信息也会被忽视。先前的攻击优先考虑将类信息作为优化目标而不是利用类信息协助重建反演样本。

5、例如,中国专利文献cn115510440a提供一种基于nes算法的黑盒模型反演攻击方法及系统,其利用nes算法对目标模型进行黑盒梯度估计,并利用梯度下降方法对gan模型的生成数据进行白盒优化,有效提高重构数据的准确性;但该方法并未考虑到类信息在反演攻击中的作用。

6、以及,中国专利文献cn114726634a提供一种基于知识图谱的黑客攻击场景构建方法和设备,通过对告警信息进行预处理,得到多维矩阵关联模型,再将多维矩阵关联模型中的一类逻辑链条映射到知识图谱结构中,对多维矩阵关联模型中的二类逻辑链条和三类逻辑链条进行补充,将补充后形成的一类逻辑链条映射到知识图谱结构中,构建知识图谱。以此方式,可以对知识图谱的完整性进行改良完善,更好的推理出黑客攻击场景,对攻击场景的补全和逻辑分析拥有较好的效果。

7、模型反演攻击的目标是从被攻击模型(目标模型)中推断出其训练数据的隐私信息。现有的模型反演攻击主要依赖于无监督生成模型,通过从目标模型和公共资源中收集的辅助信息来训练反演模型,并通过优化过程生成反演样本。然而,无监督生成模型主要学习像素级特征,而不是高级的数据到类别的关系。这导致了反演模型的训练空间非常大,使得在没有先验目标信息的情况下,很难找到最优解。因此现有的方法通常需要提供先验目标信息,如模糊或者损坏的目标样本,以帮助生成更好的反演样本。


技术实现思路

1、本发明旨在克服上述现有技术的至少一种缺陷,提供一种基于监督训练的模型反演攻击方法,以解决现有的模型反演攻击中过于依赖先验目标信息而忽略类信息在模型反演攻击中的作用的技术问题。

2、本发明详细的技术方案如下:

3、一种基于监督训练的模型反演攻击方法,所述方法包括:

4、步骤s1、给定辅助数据集和目标模型,所述辅助数据集中的样本具有类别标签;

5、步骤s2、利用所述辅助数据集和目标模型训练cgan模型作为反演模型,所述cgan模型包括用于生成第一反演样本的生成模型,以及用于判别所述第一反演样本真实性的判别模型;

6、步骤s3、基于训练好的cgan模型生成第二反演样本,并结合目标模型的输出,优化所述第二反演样本。

7、根据本发明优选的,所述目标模型为卷积神经网络模型,其包括四个卷积层、两个最大池化层和三个全连接层。

8、根据本发明优选的,所述步骤s2中,所述cgan模型的训练目标函数为:

9、(1);

10、式(1)中:表示cgan模型的目标函数;表示对于给定的辅助数据集中的样本通过判别模型d对其进行分类的对数概率,表示目标模型对真实样本的输出,即生成模型g生成的样本的特征表示;用于衡量生成模型g生成的样本被判别模型d判别为非目标类别的概率,表示在给定条件输入和噪声的情况下,生成模型g生成的样本,表示判别模型d对生成模型g生成的样本进行判别,输出属于目标类别的概率,表示生成模型g生成的样本被判别为非目标类别的概率的对数。

11、根据本发明优选的,所述步骤s2进一步包括:

12、步骤s21、随机初始化类别信息作为条件输入,并将所述条件输入与随机产生的高斯噪声一同输入到所述cgan模型的生成模型g中,得到第一反演样本;

13、步骤s22、将所述第一反演样本和辅助数据集中的样本一同输入到目标模型中,得到目标模型输出;

14、步骤s23、将所述目标模型输出、第一反演样本以及辅助数据集中的样本一同输入到所述cgan模型的判别模型d中,得到判别结果,该判别结果用于区分辅助数据集中的样本与生成的第一反演样本的分布;

15、步骤s24、基于目标函数迭代优化所述cgan模型的生成模型g和判别模型d的损失函数,并基于所述判别模型d的判别结果判断所述生成模型g和判别模型d是否达到收敛,即判别模型d无法判断出生成模型g产生的第一反演样本的真实性时,则停止模型训练。

16、根据本发明优选的,所述步骤s3进一步包括:

17、最小化训练好的生成模型生成的第二反演样本与目标类别之间的损失函数,以选择输入噪声,即:;其中,表示训练好的cgan模型,表示训练好的cgan模型的生成模型,表示目标类别,表示损失函数,用于衡量训练好的生成模型生成的反演样本与目标类别之间的差距,即生成的反演样本与目标类别之间的相似度。

18、根据本发明优选的,所述步骤s3进一步还包括:

19、最大化训练好的生成模型生成的第二反演样本被判别为目标类别的概率,以选择目标条件输入,即:;其中,

20、=(2);

21、式(2)中,表示训练好的生成模型生成的第二反演样本被判别为目标类别的概率,表示目标模型的输出,表示固定条件输入和随机高斯噪声生成的样本,且,是一个常量,其表示每次迭代所设置的预定样本数量,为目标样本集。

22、根据本发明优选的,所述步骤s3进一步还包括:

23、步骤s31、使用表示优化迭代次数,并在每次迭代中,评估随机生成的更新量;

24、步骤s32、设置更新量,其中,表示在每次优化迭代中调整目标条件输入的量,且在随机噪声下生成个样本,用于计算预测概率;

25、步骤s33、若在多轮迭代中,预测概率达到预先设置的阈值,则停止迭代,得到目标条件输入;

26、步骤s34、将得到的目标条件输入输入到训练好的cgan模型的生成模型中,得到优化的第二反演样本。

27、与现有技术相比,本发明的有益效果为:

28、(1)本发明提供的一种基于监督训练的模型反演攻击方法,通过cgan架构将类信息嵌入到模型反演攻击的整个过程中,并引入了标签信息来辅助模型反演的重构过程,控制生成样本的类别,使得反演模型能够更好地学习到数据到类别的关系,从而在没有任何先验目标信息的情况下生成更好的反演样本;

29、(2)本发明该在模型训练阶段,使用目标模型的输出和辅助数据集对反演模型进行训练,从而使反演模型学习到数据到类别的知识;在样本优化阶段,通过迭代优化条件输入,以得到一个合适的目标条件输入,来提高训练后的反演模型生成属于目标类别反演样本的成功率,从而得到更高质量的反演样本。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1