纵向联邦学习系统中基于样本交换的标签推断攻击方法与流程

文档序号:36304537发布日期:2023-12-07 08:13阅读:33来源:国知局
纵向联邦学习系统中基于样本交换的标签推断攻击方法与流程

本发明涉及联邦学习,具体是纵向联邦学习系统中基于样本交换的标签推断攻击方法。


背景技术:

1、联邦学习能够实现在用户隐私数据不出域的前提下,通过交换模型参数或者参数更新,实现多个参与方联合训练机器学习模型。根据数据分布的不同,联邦学习可以被分为横向联邦学习和纵向联邦学习。

2、联邦学习提供了数据使用的安全性保证,能够规避数据安全监管风险,当下的联邦学习在工程实现上,普遍对安全性给予更多的关注,为了保护用户数据安全,使用加密算法或者多方安全计算秘密共享等方式,实现数据的隐私计算。

3、但是,现有技术对大数据量进行加解密涉及大量的计算操作,或者采用秘密共享又会使得数据通信量倍数扩大,将导致联邦学习算法的运行速度较慢,算法性能较低。现有的联邦学习模型与明文数据集中式的模型训练速度相比,相差数倍甚至数十倍,并且随着数据量的扩大,性能差距愈发明显。而现实业务中,企业与企业之间,用户与企业服务之间都非常强调效率,如果性能损失很大,一个任务执行效率非常慢,会影响联邦学习在实际业务中落地,用户也无法接受企业所提供的服务,造成业务受损,用户流失等负面结果,进而对企业的正常发展产生不利影响。


技术实现思路

1、针对现有安全隐私领域存在的技术问题,本发明提供了纵向联邦学习系统中基于样本交换的标签推断攻击方法。本发明能在不破坏联邦训练任务并不被其他参与方检测的前提下,对训练数据的标签进行推断。

2、为实现上述目的,本发明提供如下技术方案:

3、纵向联邦学习系统中基于样本交换的标签推断攻击方法,包括以下操作步骤:

4、s1、基于纵向联邦学习原理,构建纵向联邦学习模型,对纵向联邦学习模型进行训练;并将纵向联邦学习模型中训练样本均具有标签的参与者定义为主动方,剩余的参与者定义为被动方;任一个被动方或者多个被动方联合起来作为恶意攻击方,恶意攻击方在每个类别的训练样本集中均拥有一个标签已知的训练样本;

5、s2、将纵向联邦学习模型的训练阶段依次划分为正常收敛阶段和标签推断攻击阶段;在正常收敛阶段,各个参与者按照纵向联邦学习原理进行训练;在标签推断攻击阶段,将恶意攻击方中没有标签的训练样本定义为目标攻击样本,并将目标攻击样本替换为标签已知的训练样本,接着对样本替换完成的恶意攻击方按照纵向联邦学习原理进行训练,以得到该目标攻击样本在各次迭代训练中的异常梯度;

6、s3、计算目标攻击样本各个异常梯度的二阶范数,并选择其中二阶范数最小时对应的标签已知的样本的标签作为该目标攻击样本的标签。

7、作为本发明再进一步的方案:正常收敛阶段的具体过程如下:

8、s2a1、在开始训练时,纵向联邦学习模型按照纵向联邦学习原理进行正

9、常的迭代训练,在该迭代训练过程中,主动方回传给恶意攻击方的梯度集合为,其中 g表示梯度集合的名称, t表示迭代的轮数, n表示训练样本的个数;

10、s2a2、计算梯度集合中各个梯度向量的二阶范数,并对计算出的二阶范数进行曲线拟合,以得到拟合曲线;

11、s2a3、计算拟合曲线的斜率,若拟合曲线的斜率小于指定斜率阈值 τ且各个梯度向量的二阶范数均小于范数阈值 ε时,正常收敛阶段停止迭代训练,接下来进入标签推断攻击阶段进行迭代训练;反之,则继续进行正常收敛阶段的迭代训练,直到满足上述正常收敛阶段停止迭代训练的条件。

12、作为本发明再进一步的方案:假设正常收敛阶段在第 t轮迭代训练时停止,则在第 t+1轮迭代训练时进入标签推断攻击阶段;标签推断攻击阶段的具体过程如下:

13、s2b1、设定恶意攻击方在每个类别的训练样本集中均拥有一个标签已知的训练样本,并构成集合 d p, d p={ x1, x2,…, x c},其中 x1表示第一种类别标签对应的训练样本, x2表示第二种类别标签对应的训练样本, x c表示第 c种类别标签对应的训练样本,即训练样本的标签种类一共有 c种;

14、s2b2、在第 t+1轮迭代训练中,对于目标攻击样本 x i,在集合 d p中选择已知标签的训练样本 x c,恶意攻击方将自己训练样本集中的目标攻击样本 x i替换为已知标签的训练样本 x c,以构成新的训练样本集;

15、s2b3、新的训练样本集输入到恶意攻击方中按照纵向联邦学习原理进行迭代训练,训练得到目标攻击样本 x i的异常梯度;

16、s2b3、在后续的迭代训练过程中,使用集合 d p中的训练样本依次替换目标攻击样本 x i,以得到异常梯度集合 g swap,

17、

18、其中,表示在第 t+1轮迭代中,目标攻击样本 x i替换为训练样本 x1后训练得到的异常梯度;表示在第 t+2轮迭代中,目标攻击样本 x i替换为训练样本 x2后训练得到的异常梯度;表示在第 t+ c轮迭代中,目标攻击样本 x i替换为训练样本 x c后训练得到的异常梯度;表示在第 t+ c轮迭代中,目标攻击样本 x i替换为训练样本 x c后训练得到的异常梯度。

19、作为本发明再进一步的方案:步骤s3的具体步骤如下:

20、s31、目标攻击样本 x i在第 t轮迭代训练中的正常梯度为,计算异常梯度集合 g swap中各个异常梯度与该正常梯度的梯度变化距离 d,并得到梯度变化距离集合 dist={ d1, d2,…, d c,…, d c},其中, d1表示与之间的梯度变化距离; d2表示与之间的梯度变化距离; dc表示与之间的梯度变化距离; d c表示与之间的梯度变化距离;

21、s32、选择梯度变化距离集合 dist中数值最小的训练样本的标签作为目标攻击样本 x i的标签。

22、作为本发明再进一步的方案:步骤s32中获得的目标攻击样本 x i的标签还需要进行结果修正:对于恶意攻击方收集的异常梯度集合 g swap中每个异常梯度进行检测,如果出现, α为修正阈值参数,||·||表示二阶范数,则认为该恶意攻击方的原始模型对于目标攻击样本 x i的分类错误;此时将目标攻击样本 x i的标签修正为异常梯度集合 g swap中二阶梯度范数最小的异常梯度对应的训练样本的标签。

23、作为本发明再进一步的方案:梯度变化距离计算公式如下:

24、

25、其中, dist表示欧氏距离计算函数。

26、与现有技术相比,本发明的有益效果是:

27、1、本发明使得纵向联邦学习中没有标签的被动方在仅拥有少量数据标签的情况下对主动方完成标签推断攻击,对训练数据的标签进行准确推断。

28、2、本发明执行标签推断攻击的成本低,不需要额外执行模型训练,随着正常训练的进行即可完成标签推断攻击。

29、3、本发明的通用性强,不需要依赖于特定的训练协议和数据分布,可以在多种纵向联邦学习模型中实施。

30、4、本发明的攻击条件低,恶意攻击方仅需要拥有每类样本的一个训练样本标签即可实现攻击。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1