一种具有可信锚点客户端的鲁棒性聚类联邦学习方法及存储介质

文档序号:36961661发布日期:2024-02-07 13:06阅读:15来源:国知局
一种具有可信锚点客户端的鲁棒性聚类联邦学习方法及存储介质

本发明涉及数据隐私保护,具体而言,尤其涉及一种具有可信锚点客户端的鲁棒性聚类联邦学习方法及存储介质。


背景技术:

1、近年来,各国隐私保护法律法规的建立和完善,促使数据隐私保护在机器学习领域的重要性与日俱增。联邦学习作为一种隐私保护的分布式学习技术,引起了人们的极大关注。这种方法允许用户在本地训练他们的模型,无需将敏感数据上传到中央服务器。训练结束后,每个用户将他们的模型更新发送到服务器,服务器将他们聚合以更新全局模型。联邦学习的隐私保护和严格的隐私法规使其在各种实际场景中得到了广泛的应用,包括移动键盘下一词预测、医学成像、物联网入侵检测。

2、然而,由于联邦设置,中央服务器无法监督客户端的行为或访问其私有数据。恶意客户端可以通过发送精心修改过的有毒模型来误导服务器。普通的联邦学习已被证明容易受到此类恶意用户的攻击,为了在商业竞争占据优势,不法服务提供商可能会秘密向其下属的移动设备注入恶意攻击。这些攻击在服务器聚合过程中可能会破坏全局模型学的性能,或在模型培训期间引入后门任务,从而使服务提供商在商业竞争中存在不公平的现象

3、联邦学习中的恶意攻击可以分为两类:无目标攻击和有目标攻击。无目标攻击的目的是破坏模型的聚合,或将其引向鞍点。这可以通过操作本地数据的数据中毒来实现,或者通过向服务器发送受污染的本地模型更新来实现(模型中毒)。定向攻击中的后门攻击目的是在不影响主任务准确性的情况下插入后门任务。这些攻击涉及对恶意行为者选择的特定输入进行错误预测。这类攻击很难检测,一旦被激活,可能会产生严重的后果,例如授予未经授权的权限或错误识别目标。

4、目前,联邦中的防御策略主要依赖于拜占庭稳健的fl方法,如krum、trimmed mean和medium。然而,这些方法只能有效防御少数恶意用户。其他防御技术,如fltrust和eva,需要服务器端验证数据集,这在联邦学习的设置中很难实现。

5、在联邦学习中,每个客户端u都拥有一个私有数据集每个客户端都是用自己的私有数据集进行训练,然后将模型更新发送到服务器进行聚合,从而实现数据利用而不会发生任何数据泄漏。具体地说,联合学习过程需要在t轮中执行以下步骤:

6、在每轮t开始时,每个客户端u从中央服务器下载最新的全局模型wt-1;

7、随后,客户端u利用其本地数据来训练个性化模型

8、然后,训练好的本地模型被发送回中心服务器;

9、中央服务器使用聚合规则来组合从所有客户端接收的模型,并获得下一轮的更新的全局模型,表示为其中n表示联合学习系统中的客户端总数。

10、传统的聚集规则fedavg中,通过局部模型梯度的加权平均来更新全局模型。然而,最初的fedavg缺乏对潜在攻击的考虑,使得它容易受到对手的操纵,并且无法收敛到或收敛到次优结果。通过简单的局部模型聚合方法(如fedavg中模型参数的加权平均)生成的全局模型容易受到拜占庭客户端的篡改;

11、因此,迫切需要拜占庭式的稳健的联邦学习计划,旨在加强学习过程的安全性和完整性,防止潜在的恶意行为。


技术实现思路

1、根据上述提出的技术问题,提供一种具有可信锚点客户端的鲁棒性聚类联邦学习方法。为了保证多服务商联合训练中获得无污染的全局模型,本发明方法使得能够基于由不同服务提供商提供的锚点模型来检测未知模型。

2、本发明采用的技术手段如下:

3、一种具有可信锚点客户端的鲁棒性聚类联邦学习方法,包括:

4、s1、可信客户端与服务器协商密钥,获取共享密钥sus;

5、s2、服务器使用共享密钥sus从可信模型中移除掩码,并将其聚合以获得可信聚集模型wtrust;

6、s3、利用获取的可信聚集模型wtrust作为锚模型,对具有未知属性的模型执行特征提取,计算多个聚类特征,并应用hdbscan聚类;

7、s4、聚类后,对多个聚类模型进行聚合,考虑不同聚类聚合模型的平均范数和不同聚类间的余弦相似度,计算可信度因子;

8、s5、在每次迭代中,选择信任度最高的簇,并设置容差阈值δ,信任因子在阈值范围内的群集被添加到聚合列表,而阈值范围之外的群集被认为包含恶意更新。

9、进一步的,所述步骤s1,具体包括:

10、所述步骤s1,具体包括:

11、s11、可信客户端随机选择模型的参数位置,使用函数ka.gen计算私钥并记录参数位置的索引iindex;服务器通过自己的随机参数生成私钥,分别记为和

12、s12、可信客户端和服务器分别从私钥计算各自的公钥和并彼此交换公钥;

13、s13、当接收到对方的公钥时,各自计算协商的密钥sus。

14、进一步的,所述步骤s2,具体包括:

15、s21、可信客户端使用共享密钥su,s将随机掩码应用于模型,如下述公式所示:

16、

17、

18、其中,d表示模型参数的维度,h(·)是掩码生成函数;

19、s22、应用掩码后,可信客户端将掩码模型掩码生成函数h(·)、私钥计算函数ka.gen和参数索引iindex发送到服务器;

20、s23、服务器使用共享密钥ssk计算掩码,并从模型中移除掩码,得到

21、s24、使用密钥计算函数ka.gen和参数索引iindex来计算可信客户端和服务器之间协商的共享密钥

22、进一步地,所述步骤s3,具体包括:

23、s31、聚合来自标记的可信锚点客户端的更新,得到锚点全局模型

24、s32、在第t轮计算锚点模型更新的梯度

25、s33、计算锚点全局模型更新梯度和客户端更新梯度的欧氏距离δgi;

26、s34、计算锚点全局模型更新梯度和客户端更新梯度的余弦相似度q;

27、s35、通过欧氏距离计算每个客户端最近k个客户端更新的最近距离d;

28、s36、每个客户都按照δg,q,d组成客户端的身份聚类验证特征x;

29、s37、根据客户端聚类特征x使用dbscan聚类算法进行聚类,得到多个簇ci。

30、进一步地,所述步骤s4,具体包括:

31、s41、对多个簇ci计算簇可信分数p,得到

32、s42、对每个簇进行最大最小值归一化,通过得到和

33、s43、可信分数最大的值将距离最大值差值小于δ的簇加入到聚合簇cagg中。

34、进一步地,所述步骤s5,具体包括:

35、s51、通过防篡改验证判定锚点模型是否经过篡改;

36、s52、如果未经过篡改,则通过聚类银子提取和聚类算法得到多个簇cc1,c2,...,cl;

37、s53、将多个簇通过良性模型更新检测算法得到聚合簇cagg;

38、s54、使用fedavg算法进行聚合。

39、本发明还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时,执行上述具有可信锚点客户端的鲁棒性聚类联邦学习方法。

40、较现有技术相比,本发明具有以下优点:

41、1、本发明提出了tacrc-fl算法,其中每个终端设备的服务提供商根据锚点模型检测并屏蔽恶意客户端的更新,从而获得自己的干净全局模型。为了防止锚点模型被拦截或篡改,将密钥协商协议应用于锚点模型的防篡改验证。

42、2、本发明提出了三种类型的聚类因子,通过计算基于锚点客户端的聚类因子,实现了客户端的稳健聚类,有效地区分了良性模型更新和恶意模型更新。

43、3、本发明提供的具有可信锚点客户端的鲁棒性聚类联邦学习方法,在防御大量恶意客户端方面仍然有效,而不需要服务器拥有额外的验证数据集或锚客户端拥有大量数据。

44、基于上述理由本发明可在数据隐私保护等领域广泛推广。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1