一种基于联邦学习的隐私计算方法、装置、系统及设备

文档序号:26348166发布日期:2021-08-20 20:20阅读:84来源:国知局
一种基于联邦学习的隐私计算方法、装置、系统及设备

本发明涉及联邦学习技术领域,特别是涉及一种基于联邦学习的隐私计算方法、装置、系统及设备。



背景技术:

随着科技的发展,国际社会上对信息安全、个人隐私的问题越来越重视,各种相关的法案相继颁布,对私人数据的管理、监督、保护更加全面化、严格化、密集化。各公司对各自的数据也越来越重视,作为资产不可能拿出来分享,这就造成了数据孤岛的现象。为解决设备间的数据孤岛问题,谷歌提出了针对手机终端的联邦学习方法。联邦学习,就是联合不同终端、不同公司、不同商家等的数据,共同训练模型,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,能从技术上打破数据孤岛。

相关技术中,基于联邦学习的模型,为保护各终端用户数据的隐私,模型训练过程中,在各终端为本地用户数据添加扰动噪声,进而将添加扰动得到的终端子模型参数上传至服务器进行联合训练,实现用户级别数据的隐私保护。在该过程中,联合训练得到的模型隐私参数的计算成为亟待解决的技术问题。



技术实现要素:

本发明实施例的目的在于提供一种基于联邦学习的隐私计算方法、装置、系统及设备,以对基于联邦学习的模型隐私参数进行计算。具体技术方案如下:

第一方面,本发明实施例提供了一种基于联邦学习的隐私计算方法,应用于服务器端,所述方法包括:

从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端;

将预设的剪裁参数发送至各所述目标客户端,以使各所述目标客户端基于所述预设的剪裁参数对子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值,其中,所述子模型参数变化值为:各所述目标客户端分别利用本地样本数据对本地子模型进行训练,得到的训练前后子模型参数的变化值;

接收各所述目标客户端发送的所述剪裁后的子模型参数变化值;

对各所述剪裁后的子模型参数变化值进行聚合处理,得到聚合模型参数变化值;

利用差分隐私机制对所述聚合模型参数变化值进行加噪处理,并基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数,以及将更新后的目标聚合模型参数发送给各所述目标客户端;

在当前迭代次数满足预设收敛条件的情况下,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算;

在当前迭代次数不满足预设收敛条件的情况下,返回执行从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端的步骤。

可选地,所述将预设的剪裁参数发送至各所述目标客户端,以使各所述目标客户端基于所述预设的剪裁参数对子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值的步骤,包括:

将预设的剪裁参数发送至各所述目标客户端,以使各所述目标客户端基于所述预设的剪裁参数分别对子模型各层的参数变化值进行剪裁,得到剪裁后的子模型参数变化值;其中,子模型各层的参数变化值为:各所述目标客户端分别利用本地样本数据对本地子模型进行训练,得到的训练前后子模型各层的参数变化值。

可选地,所述利用差分隐私机制对所述聚合模型参数变化值进行加噪处理,并基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数的步骤,包括:

利用差分隐私机制,使用如下第一预设表达式,对所述聚合模型参数变化值进行加噪处理,并基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数:

其中,wt+1表示更新后的目标聚合模型参数,wt表示第t次迭代下目标聚合模型参数,δwt+1表示聚合模型参数变化值,m表示目标客户端的个数,n(0,z2·s2)表示期望为0,方差为z2·s2的高斯分布函数,z表示噪声尺度参数,s表示预设的剪裁参数。

可选地,所述按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算的步骤,包括:

使用如下第二预设表达式,对目标聚合模型的隐私参数值进行计算:

其中,μ表示目标聚合模型的隐私参数值,p表示对目标客户端的抽样概率,t表示联邦学习的预设迭代次数,z表示噪声尺度参数,φ()表示正态分布的累计分布函数。

第二方面,本发明实施例提供了一种基于联邦学习的隐私计算装置,应用于服务器端,所述装置包括:

确定模块,用于从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端;

发送模块,用于将预设的剪裁参数发送至各所述目标客户端,以使各所述目标客户端基于所述预设的剪裁参数对子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值,其中,所述子模型参数变化值为:各所述目标客户端分别利用本地样本数据对本地子模型进行训练,得到的训练前后子模型参数的变化值;

接收模块,用于接收各所述目标客户端发送的所述剪裁后的子模型参数变化值;

聚合模块,用于对各所述剪裁后的子模型参数变化值进行聚合处理,得到聚合模型参数变化值;

加噪模块,用于利用差分隐私机制对所述聚合模型参数变化值进行加噪处理,并基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数,以及将更新后的目标聚合模型参数发送给各所述目标客户端;

计算模块,用于在当前迭代次数满足预设收敛条件的情况下,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算;在当前迭代次数不满足预设收敛条件的情况下,触发确定模块执行从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端。

可选地,所述发送模块,具体用于:

将预设的剪裁参数发送至各所述目标客户端,以使各所述目标客户端基于所述预设的剪裁参数分别对子模型各层的参数变化值进行剪裁,得到剪裁后的子模型参数变化值;其中,子模型各层的参数变化值为:各所述目标客户端分别利用本地样本数据对本地子模型进行训练,得到的训练前后子模型各层的参数变化值。

可选地,所述加噪模块,具体用于:

利用差分隐私机制,使用如下第一预设表达式,对所述聚合模型参数变化值进行加噪处理,并基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数:

其中,wt+1表示更新后的目标聚合模型参数,wt表示第t次迭代下目标聚合模型参数,δwt+1表示聚合模型参数变化值,m表示目标客户端的个数,表示期望为0,方差为z2·s2的高斯分布函数,z表示噪声尺度参数,s表示预设的剪裁参数。

可选地,所述计算模块,具体用于:

使用如下第二预设表达式,对目标聚合模型的隐私参数值进行计算:

其中,μ表示目标聚合模型的隐私参数值,p表示对目标客户端的抽样概率,t表示联邦学习的预设迭代次数,z表示噪声尺度参数,φ()表示正态分布的累计分布函数。

第三方面,本发明实施例提供了一种基于联邦学习的隐私计算系统,所述系统包括服务器端,目标客户端;

所述服务器端,用于从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端,并将预设的剪裁参数发送至各所述目标客户端;

所述目标客户端,用于利用本地样本数据对本地子模型进行训练,得到的训练前后子模型参数的变化值,以及接收所述服务器端发送的所述预设的剪裁参数,并基于所述预设的剪裁参数对子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值,将所述剪裁后的子模型参数变化值发送至所述服务器端;

所述服务器端,用于接收各所述目标客户端发送的所述剪裁后的子模型参数变化值,对各所述剪裁后的子模型参数变化值进行聚合处理,得到聚合模型参数变化值,并利用差分隐私机制对所述聚合模型参数变化值进行加噪处理,基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数,以及将更新后的目标聚合模型参数发送给各所述目标客户端;以及,在当前迭代次数满足预设收敛条件的情况下,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算;在当前迭代次数不满足预设收敛条件的情况下,返回执行从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端。

第四方面,本发明实施例提供了一种服务器设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的方法步骤。

第五方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。

本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的基于联邦学习的隐私计算方法的步骤。

本发明实施例有益效果:

本发明实施例提供的一种基于联邦学习的隐私计算方法、装置、系统及设备,服务器端可以从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端;将预设的剪裁参数发送至各目标客户端,以使各目标客户端基于预设的剪裁参数对子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值;接收各目标客户端发送的剪裁后的子模型参数变化值;对各剪裁后的子模型参数变化值进行聚合处理,得到聚合模型参数变化值;利用差分隐私机制对聚合模型参数变化值进行加噪处理,基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数;在当前迭代次数满足预设收敛条件的情况下,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算。本发明实施例,能够在服务器端目标聚合模型训练完成时,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算,且,能够计算服务器端目标聚合模型不同收敛条件下的隐私参数值,以得到不同目标聚合模型精度下用户数据对应的隐私泄露值。

当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。

图1为本发明实施例提供的一种基于联邦学习的隐私计算方法的流程示意图;

图2为本发明实施例提供的一种基于联邦学习的隐私计算装置的结构示意图;

图3为本发明实施例提供的一种基于联邦学习的隐私计算系统的结构示意图;

图4为本发明实施例提供的一种服务器设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本发明保护的范围。

为了实现对基于联邦学习的模型隐私参数的计算,本发明实施例提供了一种基于联邦学习的隐私计算方法,应用于服务器端,该方法包括:

从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端;

将预设的剪裁参数发送至各所述目标客户端,以使各所述目标客户端基于所述预设的剪裁参数对子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值,其中,所述子模型参数变化值为:各所述目标客户端分别利用本地样本数据对本地子模型进行训练,得到的训练前后子模型参数的变化值;

接收各所述目标客户端发送的所述剪裁后的子模型参数变化值;

对各所述剪裁后的子模型参数变化值进行聚合处理,得到聚合模型参数变化值;

利用差分隐私机制对所述聚合模型参数变化值进行加噪处理,并基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数,以及将更新后的目标聚合模型参数发送给各所述目标客户端;

在当前迭代次数满足预设收敛条件的情况下,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算;

在当前迭代次数不满足预设收敛条件的情况下,返回执行从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端的步骤。

本发明实施例提供的一种基于联邦学习的隐私计算方法,服务器端可以从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端;将预设的剪裁参数发送至各目标客户端,以使各目标客户端基于预设的剪裁参数对子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值;接收各目标客户端发送的剪裁后的子模型参数变化值;对各剪裁后的子模型参数变化值进行聚合处理,得到聚合模型参数变化值;利用差分隐私机制对聚合模型参数变化值进行加噪处理,基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数;在当前迭代次数满足预设收敛条件的情况下,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算。本发明实施例,能够在服务器端目标聚合模型训练完成时,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算,且,能够计算服务器端目标聚合模型不同收敛条件下的隐私参数值,以得到不同目标聚合模型精度下用户数据对应的隐私泄露值。

下面进行具体说明,参见图1,图1为本发明实施例提供的一种基于联邦学习的隐私计算方法的流程示意图,应用于服务器端,该方法可以包括:

s101,从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端。

在联邦学习过程中,服务器端每一轮均可以独立选择参与训练的客户端,不同的客户端中存储有不同的样本数据,该样本数据可以是客户端的用户数据等。服务器端和不同的客户端可以预先约定联合训练的目标聚合模型的类型,比如神经网络模型,随机森林模型等等。

进入本次迭代后,服务器可以随机挑选参与本次迭代训练的客户端作为目标客户端。其中,服务器确定参与每次迭代训练的目标客户端可以相同或不同,所确定目标客户端的数量也可以相同或不同,每一轮的客户端挑选与总的迭代次数无关。

s102,将预设的剪裁参数发送至各目标客户端,以使各目标客户端基于预设的剪裁参数对子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值。其中,子模型参数变化值为:各目标客户端分别利用本地样本数据对本地子模型进行训练,得到的训练前后子模型参数的变化值。

服务器端和不同的目标客户端预先约定联合训练的目标聚合模型的类型,即服务器侧训练的是总模型(即目标聚合模型),而各目标客户端侧训练的是子模型。服务器所确定的各目标客户端分别利用本地样本数据对本地子模型进行训练,得到子模型参数,并进一步得到训练前后子模型参数的变化值。在服务器将预设的剪裁参数发送至各目标客户端之后,各目标客户端基于该预设的剪裁参数对各自子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值。

其中,预设的剪裁参数可以是服务器侧根据每轮参与训练的客户端的数量确定的。

作为本发明实施例一种可选的实施方式,服务器将预设的剪裁参数发送至各目标客户端,以使各目标客户端基于预设的剪裁参数对子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值的实施方式,包括:

将预设的剪裁参数发送至各目标客户端,以使各目标客户端基于预设的剪裁参数分别对子模型各层的参数变化值进行剪裁,得到剪裁后的子模型参数变化值;其中,子模型各层的参数变化值为:各目标客户端分别利用本地样本数据对本地子模型进行训练,得到的训练前后子模型各层的参数变化值。

在联邦学习下,每个目标客户端可以利用本地样本数据对本地子模型进行训练,目标客户端的本地样本数据可以是非独立同分布的数据集,目标客户端训练本地子模型的目的是为了:不暴露本地用户数据的情况下获得由更多数据训练出的更优秀的联合模型。

其中,目标客户端利用本地样本数据对本地子模型进行训练的过程可以是一个完整的深度学习训练过程,具体的,可以将本地样本数据划分为多个小批量数据,每一小批量数据中包含多个样本数据,进而使用小批量数据进行子模型的训练,而非整个本地训练数据集,使得每次的训练过程非常快速。在子模型的训练过程中,可以使用如下表达式对子模型的参数进行训练:

其中,w表示子模型的参数(或称权重参数),η表示学习率,表示子模型损失函数,b表示参与训练的小批量数据集,大小可根据实际情况进行调整。在目标客户端完成子模型的训练之后,可以获取子模型训练前后子模型的参数变化值,子模型的参数变化值获取表达式可以表示为:δw=w-wn,δw表示训练前后子模型的参数变化值,w表示训练前子模型的参数,wn表示子模型在迭代训练完成后得到的参数。

当子模型存在多层时,目标客户端可以利用本地样本数据对本地子模型进行训练,得到训练前后子模型各层的参数变化值,进而在接收到服务器发送的预设的剪裁参数后,将预设的剪裁参数基于子模型的层数进行划分,以使得子模型的所有层数的剪裁参数的平方和相加为预设的剪裁参数的平方和,进而针对子模型的每层参数变化值进行单层剪裁。具体的,可以使用如下表达式分别对子模型各层的参数变化值进行剪裁,得到剪裁后的子模型参数变化值:

表示对子模型第j层的参数变化值剪裁后得到的参数变化值,δw(j)表示子模型第j层的参数变化值,sj表示对子模型第j层剪裁的剪裁参数。

目标客户端在分别对子模型各层的参数变化值进行剪裁,得到剪裁后的子模型参数变化值后,将该剪裁后的子模型参数变化值发送给服务器。

参见图1,s103,接收各目标客户端发送的剪裁后的子模型参数变化值。

s104,对各剪裁后的子模型参数变化值进行聚合处理,得到聚合模型参数变化值。

服务器在接收各目标客户端发送的剪裁后的子模型参数变化值后,可以使用如下表达式对各剪裁后的子模型参数变化值进行聚合处理,得到聚合模型参数变化值:

δwt+1表示聚合模型参数变化值,m表示目标客户端的个数,k表示第k个目标客户端,mt表示第t次迭代对应的目标客户端的索引,表示第k个目标客户端对应的剪裁后的子模型参数变化值。

s105,利用差分隐私机制对聚合模型参数变化值进行加噪处理,并基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数,以及将更新后的目标聚合模型参数发送给各目标客户端。

作为本发明实施例一种可选的实施方式,利用差分隐私机制对聚合模型参数变化值进行加噪处理,并基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数的实施方式,包括:

利用差分隐私机制,使用如下第一预设表达式,对聚合模型参数变化值进行加噪处理,并基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数:

其中,wt+1表示更新后的目标聚合模型参数,wt表示第t次迭代下目标聚合模型参数,δwt+1表示聚合模型参数变化值,m表示目标客户端的个数,表示期望为0,方差为z2·s2的高斯分布函数,z表示噪声尺度参数,s表示预设的剪裁参数。

服务器在更新目标聚合模型参数之后,将更新后的目标聚合模型参数发送给参与本轮训练的各目标客户端,以使得各参与训练的目标客户端能够使用更新后的目标聚合模型参数对子模型参数进行更新,以便于后续的联合训练。

s106,在当前迭代次数满足预设收敛条件的情况下,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算。

在当前迭代次数满足预设收敛条件的情况下,表明目标聚合模型联合训练完成,此时可以按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算,以计算得到的该联合训练的目标聚合模型在当前精度下的隐私参数。

可选地,也可以在当前训练的目标聚合模型精度达到预先设定值的情况下,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算。

作为本发明实施例一种可选的实施方式,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算的实施方式,包括:

使用如下第二预设表达式,对目标聚合模型的隐私参数值进行计算:

其中,μ表示目标聚合模型的隐私参数值,p表示对目标客户端的抽样概率,t表示联邦学习的预设迭代次数,z表示噪声尺度参数,φ()表示正态分布的累计分布函数。

可选地,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算的实施方式,还可以包括:

使用如下第三预设表达式,对目标聚合模型的隐私参数值进行计算:

其中,μ表示目标聚合模型的隐私参数值,p表示对目标客户端的抽样概率,t表示联邦学习的预设迭代次数,z表示噪声尺度参数。

s107,在当前迭代次数不满足预设收敛条件的情况下,返回执行s101从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端的步骤。

在当前迭代次数不满足预设收敛条件的情况下,表明目标聚合模型联合训练还未完成,此时可以返回执行s101从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端的步骤,继续模型的训练。

本发明实施例提供的一种基于联邦学习的隐私计算方法,服务器端可以从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端;将预设的剪裁参数发送至各目标客户端,以使各目标客户端基于预设的剪裁参数对子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值;接收各目标客户端发送的剪裁后的子模型参数变化值;对各剪裁后的子模型参数变化值进行聚合处理,得到聚合模型参数变化值;利用差分隐私机制对聚合模型参数变化值进行加噪处理,基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数;在当前迭代次数满足预设收敛条件的情况下,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算。本发明实施例,能够在服务器端目标聚合模型训练完成时,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算,且,能够计算服务器端目标聚合模型不同收敛条件下的隐私参数值,以得到不同目标聚合模型精度下用户数据对应的隐私泄露值。

示例性的,上述按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算的实施方式,是在联邦学习中通过假设检验这一角度重新定义差分隐私,从而针对联邦学习这一特定环境,采用更合理的隐私衡量方法得到的。

具体的,假设有一个攻击者在推断任何单个数据是否在客户端组成的数据集的过程中,首先定义联邦学习下的数据级别,从假设检验角度出发,每轮训练服务器所选的目标客户端作为一个数据集,数据集中每个数据代表各目标客户端本地数据。设h0假设为:攻击者推断出的数据集为真实的客户端数据,反之为h1假设,其中,h0假设表示假设检验问题中的i型假设检验,h1假设表示假设检验问题中的ii型假设检验。那么α则是在一定拒绝规则下h0假设正确却拒绝h0的概率,β是一定拒绝规则下h1错误却接受h1的概率,其中,α表示假设检验问题中的i型错误率,β表示假设检验问题中的ii型错误率。

在一次迭代过程中,建立权衡函数将上述两类错误结合起来衡量攻击者的攻击力度,也就是差分隐私保护下的隐私泄露。权衡函数如下表达式公式:

其中,f(p,q)表示权衡函数,p和q分别表示差分隐私机制对于两个邻近数据集采用的分布,表示h0假设和h1假设间的拒绝规则,表示在应用q分布情况下针对拒绝规则所得的期望,表示在应用p分布情况下针对拒绝规则所得的期望,α表示i型错误概率,表示针对拒绝规则φ的下确界。邻近数据集表示服务器在迭代中所选数据/元素个数相差1个对应的两个数据集。

通过权衡函数来衡量差分隐私中的隐私泄露问题属于f-dp(f-differentialprivacy,f-差分隐私),将衡量函数f(p,q)简写为函数f,则联邦学习框架下的隐私机制可以表示为:

其中,wt+1表示更新后的目标聚合模型参数,wt表示第t次迭代下目标聚合模型参数,f表示权衡函数,m表示目标客户端的个数,表示期望为0,方差为z2·s2的高斯分布函数,z表示噪声尺度参数,s表示预设的剪裁参数。

函数f的敏感性为s/m,p和q均为正态分布,因此,可以得到:

gμ(α)=φ(φ-1(1-α)-μ)

其中,gμ表示只带有单参数μ的使用高斯噪声来加噪的权衡函数,μ表示目标聚合模型的隐私参数值,gμ(α)表示带有单参数μ的使用高斯噪声来加噪的权衡函数,φ()表示正态分布的累计分布函数。

根据上述表达式可知,μ越接近0权衡函数中的两个分布越一致,则假定的攻击者越不容易看出假设h0与假设h1。

服务器与目标客户端通信t次(即迭代t次),在此过程中,差分隐私机制可以设为:

其中,是机制m的t次折叠,表示对目标客户端进行t次采样(每次采样概率为p)所组合成的机制,m表示对目标客户端进行概率为p的采样所组合成的机制,samplep(d)表示对数据集d进行概率为p的采样,该情况下指对目标客户端所代表的数据集d进行概率为p的采样。通过f-dp的组合定理,得到:

表示机制的输入数据集为d,表示机制的输入数据集为d′,p表示对目标客户端的抽样概率,id具有的性质,设fp:=pf+(1-p)id,则有:

d与d′是邻近用户数据集,则根据权衡函数性质有此时可以得到上述两个机制限定,然而这并不是一个权衡函数,并且也是非凸的,为了进一步的分析,采用共轭的形式表示,根据经验这也是最好的凸优化选择,并且也是一个权衡函数。由此可以得到隐私参数值的计算满足:

dp即差分隐私,根据f-dp的性质,隐私参数值的计算同样也满足gdp(gaussiandifferentialprivacy,高斯差分隐私),单次迭代时满足那么在隐私参数值的计算过程中,当目标客户端与服务器通信(即迭代)次数趋向于无穷,而服务器采样概率与通信次数的平方根又趋向于一个正常量时,通过f-dp的组合性质,可以得到:

其中,表示对目标客户端进行t次抽样,一次迭代就要挑选一次目标客户端,目标客户端抽样概率为p,表示gμ的共轭。采用中心极限定理,暂时设置隐私参数值的计算满足μ-gdp,再通过clt(centrallimittheorem,中心极限定理)求解该值。

如果服务器对目标客户端采用均匀一致采样,根据f-dp的卡方分布计算,得到:

同理,如果采用泊松采样,经过f-dp性质与卡方分布得到计算结果:

为了呈现出基于假设检验设计的隐私保护效果,利用f-dp的对偶性将f-dp转换成(ε,δ(ε;μ))-dp(ε≥0),并且由以下表达式可以相互转换:

其中,δ(ε;μ)表示传统差分隐私权衡函数,ε表示传统差分隐私定义下的隐私参数,φ表示正态分布的累计分布函数。判断f-dp的效果是通过α与β的权衡函数,根据gμ(α)=φ(φ-1(1-α)-μ)得到α与β的关系,对应于传统差分隐私定义下的隐私参数ε和μ,此时差分隐私由传统的两个参数变成单参数μ,通过可以将单参数转化为传统差分隐私参数。并且通过以上可以证明f-dp在隐私参数值的计算中能够有隐私保证。

相应于上述方法实施例,本发明实施例提供了一种基于联邦学习的隐私计算装置,如图2所示,应用于服务器端,该装置可以包括:

确定模块201,用于从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端;

发送模块202,用于将预设的剪裁参数发送至各目标客户端,以使各目标客户端基于预设的剪裁参数对子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值,其中,子模型参数变化值为:各目标客户端分别利用本地样本数据对本地子模型进行训练,得到的训练前后子模型参数的变化值;

接收模块203,用于接收各目标客户端发送的剪裁后的子模型参数变化值;

聚合模块204,用于对各剪裁后的子模型参数变化值进行聚合处理,得到聚合模型参数变化值;

加噪模块205,用于利用差分隐私机制对聚合模型参数变化值进行加噪处理,并基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数,以及将更新后的目标聚合模型参数发送给各目标客户端;

计算模块206,用于在当前迭代次数满足预设收敛条件的情况下,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算;在当前迭代次数不满足预设收敛条件的情况下,触发确定模块执行从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端。

本发明实施例提供的一种基于联邦学习的隐私计算装置,服务器端可以从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端;将预设的剪裁参数发送至各目标客户端,以使各目标客户端基于预设的剪裁参数对子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值;接收各目标客户端发送的剪裁后的子模型参数变化值;对各剪裁后的子模型参数变化值进行聚合处理,得到聚合模型参数变化值;利用差分隐私机制对聚合模型参数变化值进行加噪处理,基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数;在当前迭代次数满足预设收敛条件的情况下,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算。本发明实施例,能够在服务器端目标聚合模型训练完成时,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算,且,能够计算服务器端目标聚合模型不同收敛条件下的隐私参数值,以得到不同目标聚合模型精度下用户数据对应的隐私泄露值。

可选的,上述发送模块202,具体用于:

将预设的剪裁参数发送至各目标客户端,以使各目标客户端基于预设的剪裁参数分别对子模型各层的参数变化值进行剪裁,得到剪裁后的子模型参数变化值;其中,子模型各层的参数变化值为:各目标客户端分别利用本地样本数据对本地子模型进行训练,得到的训练前后子模型各层的参数变化值。

可选的,上述加噪模块205,具体用于:

利用差分隐私机制,使用如下第一预设表达式,对聚合模型参数变化值进行加噪处理,并基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数:

其中,wt+1表示更新后的目标聚合模型参数,wt表示第t次迭代下目标聚合模型参数,δwt+1表示聚合模型参数变化值,m表示目标客户端的个数,表示期望为0,方差为z2·s2的高斯分布函数,z表示噪声尺度参数,s表示预设的剪裁参数。

可选的,上述计算模块206,具体用于:

使用如下第二预设表达式,对目标聚合模型的隐私参数值进行计算:

其中,μ表示目标聚合模型的隐私参数值,p表示对目标客户端的抽样概率,t表示联邦学习的预设迭代次数,z表示噪声尺度参数,φ()表示正态分布的累计分布函数。

相应于上述方法实施例,本发明实施例还提供了一种基于联邦学习的隐私计算系统。

如图3所示,基于联邦学习的隐私计算系统300包括:服务器端301,目标客户端302;

服务器端301,用于从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端,并将预设的剪裁参数发送至各目标客户端;

目标客户端302,用于利用本地样本数据对本地子模型进行训练,得到的训练前后子模型参数的变化值,以及接收服务器端发送的预设的剪裁参数,并基于预设的剪裁参数对子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值,将剪裁后的子模型参数变化值发送至服务器端;

服务器端301,用于接收各目标客户端发送的剪裁后的子模型参数变化值,对各剪裁后的子模型参数变化值进行聚合处理,得到聚合模型参数变化值,并利用差分隐私机制对聚合模型参数变化值进行加噪处理,基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数,以及将更新后的目标聚合模型参数发送给各目标客户端;以及,在当前迭代次数满足预设收敛条件的情况下,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算;在当前迭代次数不满足预设收敛条件的情况下,返回执行从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端。

本发明实施例,能够在服务器端目标聚合模型训练完成时,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算,且,能够计算服务器端目标聚合模型不同收敛条件下的隐私参数值,以得到不同目标聚合模型精度下用户数据对应的隐私泄露值。

可选地,上述目标客户端302,具体用于:利用本地样本数据对本地子模型进行训练,得到的训练前后子模型各层的参数变化值,以及接收服务器端301发送的预设的剪裁参数,并基于预设的剪裁参数分别对子模型各层的参数变化值进行剪裁,得到剪裁后的子模型参数变化值,将剪裁后的子模型参数变化值发送至服务器端301。

可选地,上述服务器端301,具体用于:

利用差分隐私机制,使用如下第一预设表达式,对聚合模型参数变化值进行加噪处理,并基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数:

其中,wt+1表示更新后的目标聚合模型参数,wt表示第t次迭代下目标聚合模型参数,δwt+1表示聚合模型参数变化值,m表示目标客户端的个数,表示期望为0,方差为z2·s2的高斯分布函数,z表示噪声尺度参数,s表示预设的剪裁参数。

可选地,上述服务器端301,具体用于:

使用如下第二预设表达式,对目标聚合模型的隐私参数值进行计算:

其中,μ表示目标聚合模型的隐私参数值,p表示对目标客户端的抽样概率,t表示联邦学习的预设迭代次数,z表示噪声尺度参数,φ()表示正态分布的累计分布函数。

本发明实施例还提供了一种服务器设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,

存储器403,用于存放计算机程序;

处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:

从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端;

将预设的剪裁参数发送至各目标客户端,以使各目标客户端基于预设的剪裁参数对子模型参数变化值进行剪裁,得到剪裁后的子模型参数变化值,其中,子模型参数变化值为:各目标客户端分别利用本地样本数据对本地子模型进行训练,得到的训练前后子模型参数的变化值;

接收各目标客户端发送的剪裁后的子模型参数变化值;

对各剪裁后的子模型参数变化值进行聚合处理,得到聚合模型参数变化值;

利用差分隐私机制对聚合模型参数变化值进行加噪处理,并基于加噪处理后得到的聚合模型参数变化值与本次迭代目标聚合模型参数,更新目标聚合模型参数,以及将更新后的目标聚合模型参数发送给各目标客户端;

在当前迭代次数满足预设收敛条件的情况下,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算;在当前迭代次数不满足预设收敛条件的情况下,执行从多个分别存储不同样本数据的客户端中,确定参与本次迭代训练的各目标客户端。

本发明实施例,能够在服务器端目标聚合模型训练完成时,按照中心极限定理,利用f-差分隐私机制对目标聚合模型的隐私参数值进行计算,且,能够计算服务器端目标聚合模型不同收敛条件下的隐私参数值,以得到不同目标聚合模型精度下用户数据对应的隐私泄露值。

上述服务器设备提到的通信总线可以是pci(peripheralcomponentinterconnect,外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括ram(randomaccessmemory,随机存取存储器),也可以包括nvm(non-volatilememory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括cpu(centralprocessingunit,中央处理器)、np(networkprocessor,网络处理器)等;还可以是dsp(digitalsignalprocessing,数字信号处理器)、asic(applicationspecificintegratedcircuit,专用集成电路)、fpga(field-programmablegatearray,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一一种基于联邦学习的隐私计算方法的步骤,以达到相同的技术效果。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一一种基于联邦学习的隐私计算方法的步骤,以达到相同的技术效果。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、dsl(digitalsubscriberline,数字用户线))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd(digitalversatiledisc,数字多功能光盘))、或者半导体介质(例如ssd(solidstatedisk,固态硬盘))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置/系统/服务器设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1