基于本地差分隐私的联邦学习图像分类方法

文档序号:28208980发布日期:2021-12-28 19:48阅读:164来源:国知局
基于本地差分隐私的联邦学习图像分类方法

1.本发明属于图像处理技术领域,涉及一种基于本地差分隐私的联邦学习图像分类方法,可用于医学图像分类。


背景技术:

2.图像分类是一种根据不同类别的目标各自在图像信息中所反映的不同特征,把不同类别的图像区分开来的图像处理方法。现在主要的图像分类方法是通过训练卷积神经网络模型实现的,其需要大量的训练图像数据,但用户的图像数据包含了大量用户隐私信息,所以进行卷积神经网络模型训练时的海量图像数据交互必然会带来隐私安全问题。例如在医疗领域,由于医疗数据是非常敏感的,通常包含个人隐私信息,在多个医疗机构进行数据共享的过程中,就会导致病人的隐私泄露。
3.基于上述原因,需要一种隐私保护的方法来支持数据共享、模型训练,谷歌于2016年提出了联邦学习,其主要流程为:服务器随机为全局模型参数赋值以进行初始化,并将模型分发给各个参与方,各参与方在本地利用自己的数据训练模型,然后将模型更新的参数发送回服务器,服务器据此更新全局模型并再次分发给各参与方,然后再进行新一轮的迭代更新。联邦学习作为一种隐私保护的分布式框架,可在各个参与方不共享本地数据,仅通过上传模型参数更新实现模型构建,可以在一定程度上保证训练数据的隐私和安全。然而,已有研究表明,攻击者能通过上传更新的模型参数反推出参与方的本地原始数据,例如,服务器有能力利用聚合结果去分析获取参与方上传数据的统计特征,仍会导致参与方的隐私泄漏,因而如何保护各参与方共享的模型参数是一个重要问题。
4.例如申请公布号为cn 112949741 a,名称为“基于同态加密的卷积神经网络图像分类方法”的专利申请,公开了一种基于同态加密的卷积神经网络图像分类方法,该方法步骤主要包括:构建多方深度学习场景模型;参数服务器初始化加密参数;每个用户生成自己的公钥和私钥;参数服务器生成自己的公钥和私钥;辅助服务器生成自己的公钥和私钥,以及联合公钥;每个用户获取训练图像样本集和测试图像样本集;参数服务器构建卷积神经网络模型,并初始化训练参数;用户p获取梯度向量密文并上传;参数服务器对梯度密文向量进行聚合;参数服务器和辅助服务器对聚合梯度向量密文进行同态重加密;用户p获取卷积神经网络模型的训练结果;每个用户获取图像分类结果。由于卷积神经网络模型训练本身是一项计算密集型的任务,计算以及通信开销大,即使没有加密,也需要高吞吐量的计算单元,而同态加密带来高昂的计算和通信开销且需要额外的辅助服务器。


技术实现要素:

5.本发明的目的在于针对上述现有技术的不足,提出了一种基于本地差分隐私的联邦学习图像分类方法,在保证训练数据的隐私和安全以及分类精度的前提下,降低计算存储开销。
6.为实现上述目的,本发明采取的技术方案包括如下步骤:
7.(1)构建联邦学习场景模型:
8.构建包括中心服务器和i个本地客户端l={l
i
|1≤i≤i}的联邦学习场景模型,其中,i≥2,l
i
表示第i个本地客户端;
9.(2)本地客户端获取训练样本集和测试样本集:
10.每个本地客户端l
i
获取包含m个目标类别的n幅图像,并对每幅图像进行标注,然后将半数以上图像及其标签作为训练样本集,将剩余的图像及其标签作为测试样本集其中,m≥2,n≥500;
11.(3)构建基于卷积神经网络的图像分类模型h:
12.本地客户端l构建基于卷积神经网络的图像分类模型,卷积神经网络包括依次层叠的输入层、m个卷积层

relu层

池化层、输出层,其中m≥2,输出层包括依次层叠的多个全连接层;
13.(4)本地客户端l初始化参数:
14.本地客户端l初始化迭代次数为t,最大迭代次数为t,t≥50,当前基于卷积神经网络的图像分类模型为h
t
,h
t
的权重参数为w
t
,w
t
的参数值数量为k,k≥10000,并令t=0,h
t
=h;
15.(5)本地客户端l对基于卷积神经网络的图像分类模型h的权重参数进行本地更新:
16.(5a)本地客户端l将从训练样本集中有放回且随机选取的c
·
n个训练样本作为当前基于卷积神经网络的图像分类模型h
t
的输入进行前向传播,得到预测标签集合其中,c为采样因子,表示第q个训练样本对应的预测标签,1≤q≤c
·
n;
17.(5b)本地客户端l采用交叉熵损失函数,并通过每个预测标签和其对应的真实标签计算图像分类模型h
t
的损失值然后求取对h
t
的权重参数w
t
的偏导再采用随机梯度下降法,通过将在h
t
中进行反向传播的方式对w
t
进行更新,得到本地更新后的权重参数δ
i
w
t

18.(6)本地客户端l对权重参数δ
i
w
t
进行本地差分隐私扰动并上传:
19.(6a)每个本地客户端l
i
选取更新后的权重参数δ
i
w
t
中绝对值最大的θ
u
k个参数,并求取所选取的每个参数与δ
i
w
t
中绝对值最大的值c的商,得到标准化的扰动输入值其中θ
u
表示选择参数因子,0.01≤θ
u
≤1,x
j
表示第j个扰动输入值,1≤j≤θ
u
k;
20.(6b)每个本地客户端l
i
对每个扰动输入值x
j
生成随机数u
t
∈[0,1],并判断是否成立,若是,从区间中均匀采集x
j
的扰动
输出值y
j
,否则,从区间中均匀采集x
j
的扰动输出值y
j
,其中,a表示扰动输出的边界,ε表示隐私预算,0.1≤ε≤10;
[0021]
(6c)本地客户端l将θ
u
k个扰动输出值组合成上传向量并将上传至中心服务器;
[0022]
(7)中心服务器获取权值参数全局更新后的基于卷积神经网络的图像分类模型并发送:
[0023]
中心服务器对上传向量进行聚合,得到的聚合结果实现对本地更新后的权重参数δ
i
w
t
的全局更新,并将权重参数w
t
经过本地更新以及全局更新后的图像分类模型发送至每个本地客户端l
i

[0024]
(8)中心服务器获取训练好的基于卷积神经网络的图像分类模型:
[0025]
中心服务器判断t≥t是否成立,若是,得到训练好的基于卷积神经网络的图像分类模型h',若否,令t=t+1,并执行步骤(5);
[0026]
(9)本地客户端获取图像分类结果:
[0027]
每个本地客户端l
i
将测试样本集作为训练好的基于卷积神经网络的图像分类模型h'的输入进行前向传播,得到所有测试样本的预测标签。
[0028]
本发明与现有技术相比,具有以下优点:
[0029]
第一:本发明本地客户端通过选择图像分类模型本地更新后的权重参数中部分权重参数组成上传向量,实现对权重参数的本地差分隐私扰动,中心服务器然后对上传向量进行聚合,实现对本地更新后的权重参数的全局更新,避免了现有技术频繁的加解密过程,降低了计算存储开销,在保证训练数据的隐私和安全以及分类精度的前提下,有效地提高了卷积神经网络模型训练效率。
[0030]
第二:本发明本地客户端在对本地更新后的权重参数进行本地差分隐私扰动的过程中,可以通过选择不同大小的隐私预算,确定采集扰动输入值对应输出值的区间,能够实现对隐私保护程度的控制,适用于不同隐私保护需求场景的图像分类。
附图说明
[0031]
图1为本发明的实现流程图。
具体实施方式
[0032]
以下结合附图和具体实施例,对本发明作进一步详细描述:
[0033]
参照图1,本发明包括如下步骤:
[0034]
步骤1)构建联邦学习场景模型:
[0035]
构建包括中心服务器和i个本地客户端l={l
i
|1≤i≤i}的联邦学习场景模型,其中,i≥2,l
i
表示第i个本地客户端;在本实施例中i=10。
[0036]
步骤2)本地客户端获取训练样本集和测试样本集:
[0037]
每个本地客户端l
i
获取包含m个目标类别的n幅图像,并对每幅图像进行标注,然后将半数以上图像及其标签作为训练样本集,将剩余的图像及其标签作为测试样本集其中,m≥2,n≥500;
[0038]
在本实施例中,使用mnist手写数字图像数据集,该数据集对应的标签是0

9的数字,令m=10,mnist数据集中包括60000个训练图像样本和10000个测试图像样本,每个图像样本是一个大小为28
×
28的灰度图像,将数据集分割为10部分,作为10个本地客户端进行本地训练,为每个本地客户端平均分配训练样本和测试样本。
[0039]
步骤3)构建基于卷积神经网络的图像分类模型h:
[0040]
本地客户端l构建基于卷积神经网络的图像分类模型,卷积神经网络包括依次层叠的输入层、m个卷积层

relu层

池化层、输出层,其中m≥2,输出层包括依次层叠的多个全连接层;
[0041]
在本实施例中,卷积层

relu层

池化层的层数为2,全连接层的层数为3,2个卷积层

relu层

池化层中卷积层卷积核的大小均为5,步长均为1,第一卷积层

relu层

池化层中卷积层的填充为2,卷积核个数设置为6,第二卷积层

relu层

池化层中卷积层的填充为0,卷积核个数设置为16。第一全连接层的的输入为400,输出为120,第二全连接层的输入为120,输出为84,第三全连接层的输入为84,输出为10。
[0042]
步骤4)本地客户端l初始化参数:
[0043]
本地客户端l初始化迭代次数为t,最大迭代次数为t,t≥50,当前基于卷积神经网络的图像分类模型为h
t
,h
t
的权重参数为w
t
,w
t
的参数值数量为k,k≥10000,并令t=0,h
t
=h;在本实施例中t=100,k=61706。
[0044]
步骤5)本地客户端l对基于卷积神经网络的图像分类模型h的权重参数进行本地更新:
[0045]
步骤5a)本地客户端l将从训练样本集中有放回且随机选取的c
·
n个训练样本作为当前基于卷积神经网络的图像分类模型h
t
的输入进行前向传播,得到预测标签集合其中,c为采样因子,表示第q个训练样本对应的预测标签,1≤q≤c
·
n;
[0046]
在该步骤中,通过第一层卷积,获得6个28
×
28的特征图,然后进行池化减小特征维度,获得6个14
×
14的特征图,再进行第二层卷积与池化操作,最后通过三个全连接层对池化层进行分类,获得10个预测标签。
[0047]
步骤5b)本地客户端l采用交叉熵损失函数,并通过每个预测标签和其对应的真实标签计算图像分类模型h
t
的损失值然后求取对h
t
的权重参数w
t
的偏导再采用随机梯度下降法,通过将在h
t
中进行反向传播的方式对w
t
进行更新,得到本地更新后的权重参数δ
i
w
t

[0048]
在该步骤中,本地客户端l计算图像分类模型h
t
的损失值对h
t
的权重参数w
t
进行更新,计算、更新公式分别为:
[0049][0050][0051]
其中α为学习率,0.001≤α≤1,ln表示以自然常数e为底的对数,表示梯度算子,本实施例中α=0.01。
[0052]
步骤6)本地客户端l对权重参数δ
i
w
t
进行本地差分隐私扰动并上传:
[0053]
步骤6a)每个本地客户端l
i
选取更新后的权重参数δ
i
w
t
中绝对值最大的θ
u
k个参数,并求取所选取的每个参数与δ
i
w
t
中绝对值最大的值c的商,得到标准化的扰动输入值其中θ
u
表示选择参数因子,0.01≤θ
u
≤1,x
j
表示第j个扰动输入值,1≤j≤θ
u
k;
[0054]
在该步骤中,图像分类模型的权重参数包含k=61706个取值,若全部上传,会带来高昂的计算和通信开销,研究表明,上传1%的权重参数值即可使模型得到很好的收敛且绝对值越大的参数值对模型训练影响越大。在对参数值扰动前,需要将参数值标准化到[

1,1]区间,这样可以减小扰动带来的误差。在本实施例中选择参数因子θ
u
=0.01。
[0055]
步骤6b)每个本地客户端l
i
对每个扰动输入值x
j
生成随机数u
t
∈[0,1],并判断是否成立,若是,从区间中均匀采集x
j
的扰动输出值y
j
,否则,从区间中均匀采集x
j
的扰动输出值y
j
,其中,a表示扰动输出的边界,ε表示隐私预算,0.1≤ε≤10;
[0056]
本地差分隐私保护的充分考虑了数据上传过程和中心服务器泄露本地数据的可能性,为本地数据提供可量化的隐私保护,其通过隐私预算ε调节所需隐私保护程度。ε越小,隐私保护程度越好,数据泄露概率越低。在本实施例中,令ε=1。
[0057]
在该步骤中,本地差分隐私要求一个扰动方法f,对任意两个输入值x
j
和x

j
,输出值y
j
,都需要满足且需要保证扰动输出值的概率密度函数全域积分为1,因而需要界定扰动输出值范围为[

a,a]。
[0058]
通过构建其中pdf(y
j
=z∣x
j
)表示扰动输出值的概率密度函数,left(x
j
)表示高概率输出段的左边界,right(x
j
)表示高概率输出段的右边界,p表示高概率输出段的概率值,通过上述两个限制及x
j
=0、x
j
=1的特例计算得到=1的特例计算得到
可以验证是满足上述隐私限定与概率限定的。
[0059]
步骤6c)本地客户端l将θ
u
k个扰动输出值组合成上传向量并将上传至中心服务器;
[0060]
在该步骤中,上传向量为即使在数据上传过程或在中心服务器泄露上传向量,攻击者获取由于本地差分隐私噪声的存在,攻击者无法推断本地客户端模型。
[0061]
步骤7)中心服务器获取权值参数全局更新后的基于卷积神经网络的图像分类模型并发送:
[0062]
中心服务器对上传向量进行聚合,得到的聚合结果实现对本地更新后的权重参数δ
i
w
t
的全局更新,并将权重参数w
t
经过本地更新以及全局更新后的图像分类模型发送至每个本地客户端l
i

[0063]
在该步骤中,聚合公式为
[0064]
对于任意给定的输入值x
j
∈[

1,1],由上述概率密度函数计算输入值x
j
对应输出值y
j
的数学期望可以得到e[y
j
]=x
j
,这说明对权值参数值的扰动是无偏的,因而在聚合时不需要额外的操作。
[0065]
步骤8)中心服务器获取训练好的基于卷积神经网络的图像分类模型:
[0066]
中心服务器判断t≥t是否成立,若是,得到训练好的基于卷积神经网络的图像分类模型h',若否,令t=t+1,并执行步骤(5);
[0067]
步骤9)本地客户端获取图像分类结果:
[0068]
每个本地客户端l
i
将测试样本集作为训练好的基于卷积神经网络的图像分类模型h'的输入进行前向传播,得到所有测试样本的预测标签。
[0069]
在该步骤中,所有本地客户端得到的平均分类准确率为94%,分类准确率与现有方法相当。现有方法使用同态加密的流程主要包括密钥生成、同态加密、同态赋值以及同态解密。在基于卷积神经网络的图像分类模型训练过程中,由于存在大量权重参数值,加解密过程耗费大量计算资源,而本发明只需上传的每个权重参数值扰动一次即可,且计算的过程仅为简单的数值计算,又因为本发明不需要额外的辅助服务器,因此降低了计算存储开销。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1