一种在深度学习下支持训练集成员隐私保护的方法

文档序号:24986446发布日期:2021-05-07 23:04阅读:129来源:国知局
一种在深度学习下支持训练集成员隐私保护的方法

本发明属于深度学习隐私保护技术领域,具体涉及一种在深度学习下支持训练集成员隐私保护的方法。



背景技术:

机器学习在许多现实世界的任务中达到了最先进的性能,比如自动驾驶,医学诊断以及语音识别等等。然而,近期研究表明,机器学习模型容易因为记忆敏感的训练数据而受到各种隐私威胁。

其中,成员推理攻击表现为:对手能够推断出一个特定的数据样本是否被用来训练目标模型。由于大量个人敏感信息(比如个人照片,医疗和临床记录以及金融投资)很可能包含在目标模型的训练中,所以它在隐私的应用中存在风险。通过训练一个二进制分类器为攻击模型,有研究者建立了第一个针对机器学习模型黑盒的成员推理攻击方法。具体来讲,对手把目标模型预测的概率向量作为输入,并推理出这个向量是否出现在目标模型的训练过程中,这种方法称为基于模型的攻击。最近,还有研究者提出了基于度量的攻击法,在这种方法中,对手根据不同的攻击目标,有着不同的推理阈值。这些阈值预测目标模型的输出,不需要训练神经网络就可以攻击。实验表明,基于度量的攻击取得了类似于基于模型攻击的成果。

为了减少隐私风险,利用已知的技术(如预测阶段,l2正态分布,信号丢失,差分隐私),科学家提出了几个针对成员推理攻击的防御措施。最近,有学者提出了一种名为成员防护(memguard)的对抗性算例生成方法。为防御基于模型的攻击方式,它制造了一些干扰项,并把它们加入到目标模型的输出特征向量中。nasr等人提出的对抗正则化方法,叫做advreg,可以同时训练目标模型和攻击模型。它使用最优正则化方法提高了目标模型防御基于模型攻击法的泛化能力。不幸的是,这些防御方法主要集中在针对基于模型攻击法,而基于度量的攻击(由song等人提出)可以轻易地突破他们的防守。此外,他们的实验结果表明,尽管目标模型使用了最先进的防御方法(如memguard和advreg),但基于度量攻击法的攻击精度仍然很高。基于度量的攻击方法完全不同于基于模型的攻击方法,它更易于启动,也可以达到与基于模型攻击方法相同的攻击效果。然而,针对基于模型攻击的防御方法很难转变成针对基于度量攻击的防御方法,且适应性较差。另一方面,大多数现有的防御手段是利用已知对手攻击方法的先验条件构造模型。但在真实情况下,对手可能会使用不同的攻击方法进行攻击。因此,迫切地需要提出一种行之有效的、能保持目标函数性能,且能同时防御基于模型和度量攻击的防御方法。



技术实现要素:

本发明的发明目的在于:针对上述存在的问题,提供一种通用、有效、低成本的在深度学习下抵御成员推理攻击的方法。

本发明的在深度学习下支持训练集成员隐私保护的方法,包括以下步骤:

步骤s1:部署待训练的网络模型的训练环境(包括软件和硬件环境),收集并获取原始训练数据集(也可称为隐私数据集),用于训练待训练的网络模型;所述原始训练数据集可能携带隐私信息,因而需要对原始训练数据集配置安全访问权限,使其作为保密数据进行存储,从而防止数据的泄漏;

步骤s2:采用批处理方式加载原始训练数据,得到当前轮的多个初始批数据;

步骤s3:对初始批数据进行随机混合处理,得到当前的混合批数据序列;

步骤s4:基于数据混淆的方式配置当前批次的增强混合训练数据;

从混合批数据序列中读取第对应当前批次号的混合批数据,基于该混合批数据与当前的记忆残留项的加权和得到当前批次的增强混合训练数据;

并基于所述混合批数据更新记忆残留项:

从该混合批数据中随机选择部分样本,并基于指定的补充项组成与混合批数据包括的样本数相同的保留数据子集,将所述保留数据子集与当前记忆残留项的和乘上一个指定的保留参数得到新的记忆残留项并保存,其中,初始的记忆残留项为指定值;

步骤s5:基于当前批次的增强混合训练数据对待训练的网络模型进行深度学习训练(即神经网络训练),直到当前轮的所有批次训练完成;

步骤s6:若达到预设的训练结束条件,则停止训练,得到训练好的网络模型;否则继续执行步骤s2。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

本发明可以阻止模型与它的训练数据过度拟合,提高了目标模型的鲁棒性;且本发明不需要攻击者的先验知识,与现有技术相比,消耗的额外计算资源少;能有效抵御基于模型和度量攻击的成员推理攻击。

附图说明

图1为具体实施方式中,本发明处理流程图;

图2为具体实施方式中,mixup采用的混合示意图。

图3为具体实施方式中,本发明的emt(增强混淆训练技术)与现有的advreg(对抗正则化技术)防御最新攻击技术metric-based攻击的防御效果对比图。

图4为具体实施方式中,本发明的emt与现有的menmguard(成员守卫者)防御最新攻击技术metric-based攻击的防御效果对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。

本发明基于mixup(一种数据混合技术)方法的处理机制,提高了网络模型泛化能力。本发明应用mixup来抵御成员推理攻击,然而,直接使用mixup不能实现预期的针对成员推理攻击的防御效果。因此,本发明提出的增强混淆训练混合了训练数据样本与多元随机化设置,并在记忆训练过程中设置了一个额外的混合项,本发明将其称为记忆残留项,并扩大它以增强对成员推理攻击的防御能力。这些混合操作可以防止分类器记住样本数据,因此可以有效地抵抗成员推理攻击。参见图1,本发明的在深度学习下的支持训练集成员隐私保护的方法的具体实现过程如下:

步骤1.部署网络。

对于待进行训练的模型f(用户选择的已有或自行设置的神经网络模型),用户部署神经网络环境,安装训练网络所需环境,具体包括以下步骤:

步骤1-1:机器学习服务部署者,根据预先设定,安装训练网络所需环境(训练运行的软件环境),将该环境部署在安全不会泄露隐私的环境(硬件环境)。

步骤1-2:用户针对要训练的内容,预先收集隐私训练集的信息,其中隐私训练集中的各训练样本可以是图像信息或者是关于定位信息或医疗信息等的序列特征信息。

步骤2:批处理方式加载隐私数据集,即批处理方式加载本轮的隐私数据集。

即在加载本轮所需的隐私数据集时,通过批处理方式加载隐私数据集。针对训练所需的训练数据集d(隐私训练集),使用小批量处理训练数据集。假设小批量处理的数量为m,样本数量n与样本批处理个数关系为批量设置最初的未经防御措施的批数据bori(即当前轮的初始批数据)为:

bori→{batch1,batch2,batch3......,batchn}(1)

步骤3:随机混合:

该步骤中,对模型f进行mixup法批次训练,其中,mixup训练方法原理为:

mixup是增强混淆训练的基础之一,它通过混合样本和训练标签构建了虚拟训练示例,其所构建的虚拟训练样本和对应的虚拟标签的表达式如下:

其中,xi、xj表示两个不同的训练样本,yi、yj分别表示训练样本xi、xj的标签,λ表示权重,且λ~beta(α,α)且λ∈[0,1],超参数α∈(0,∞)。在本发明中,(xi,yi),(xj,yj)是从训练数据中随机选择的两个隐私例子。单例混合后的效果可以参考图2所给出的直观混合的结果。mixup由先验线性知识扩展了训练分布,输出特征向量的差值为导致相关对象的线性插值。总之,从mixup的临近分布抽样产生临近特征目标向量。mixup在短代码中可以实现最小的计算开销,它的超参数α控制了特征和目标之间的差值强度。

本具体实施方式中,步骤3中实现随机混合的具体实现步骤包括:

步骤3-1:在批次处理中,首先对每个初始批数据的数据样本进行k次数据样本置乱处理,从而得到每个初始批数据的k个不同的批数据副本,记为batchcopyk(k=1,2,…,k);即将初始批数据所包括的m个数据样本的顺序进行置乱,从而得到一个批数据副本。其中,k是一个混合程度变量,它在一定程度上反应了混合程度。k越大,即混合次数越多,混乱程度越高。

步骤3-2:使用mixup方法,充分混合了一批训练中的随机复制的样本。需要注意的是,本发明不只是混合了两个样本,而是在一次批训练中强化随机混合了多次,得到了混合好的批处理。这种混合方式是在数据和标签上同时对该批处理进行。

步骤3-3:随后得到的混合批数据bmixup为得到的真正可以训练的批处理结果,随后还需要进行进一步的混淆操作。

bmixup→{batchmix1,batchmix2,......,batchmixn}(5)

步骤4:数据混淆:

在每个批次的迭代训练结束后,将当前的混合批数据用于训练的数据保留,即将当前混合批数据与当前记忆残留项的和乘上一个指定的保留参数得到新的记忆残留项并保存,用于下一批次训练开始前和原始批处理的数据进行加和,目的是为了进一步混合数据集,提高模型鲁棒性和泛化能力。

本具体实施方式中,具体的数据混淆处理过程如下:

步骤4-1:为了在不同批训练过程中混合训练数据样本,本发明设置了记忆残留项r。在每次迭代中,它会从训练样本中提取一部分,并在下一次的数据中加入这一部分样本。

即在计算第l批次的记忆残留项时,会在batchmixi-1中随机地选择一些输入数据样本成为每次迭代的记忆残留项。即,从batchmixi-1中随机地选择部分训练样本,并基于指定的补充项组成与batchmixi-1包括的训练样本数相同的保留数据子集batch′mixi-1。当然,也可以直接将batchmixi-1作为保留数据子集。这些额外的操作只需要占用很少的内存空间。每次迭代中,假设k是输入样本数据的特征维数,l是训练批号,c为批处理训练集大小,有:

r0=cη·0(6)

rl=ηrl-1+βbatchmixi-1(7)

若,只选择部分训练样本组成保留数据子集batch′mixi-1,则将公式(7)中的batchmixi-1替换为batch′mixi-1即可,其中,η表示记忆残留项的预置权重,β表示混合批数据的权重。

步骤4-2:第一次迭代训练时,记忆残留数据会由全0向量构成,即第一次训练时,不做混淆处理,直接将维度为k的全零向量作为记忆残留项r的初始值,得到第一次迭代训练的记忆残留项为r0;

步骤4-3:第二次迭代训练开始,与上一次迭代的混合数据batchmixi共同构成混淆数据,这两个数据迭代求和之后除以到目前为止训练过的批训练的次数,将混淆项从第一次批训练扩散到最新一次批训练。即从第二次迭代训练到第n次迭代训练所得记忆残留项为rl。

步骤4-4:混合样本和之前的迭代训练样本会在同一批次批处理中混合,这些混合数据样本一部分会作为下一次迭代训练的记忆残留项。结合式(5)~(7),得到了批处理训练过程中增强混合训练的最终结果,并将防御批次记为batchdi:

记η和β为控制增强混淆训练比例的变量,代表着混合数据样本batchmixi的和混淆数据样本ri的所占权重。最多batchdi用来训练模型,并在每个批训练轮次中持续这个策略。

增强混淆训练不需要进攻者的先验知识,从而提高了模型的鲁棒性,但如果混合量过大,模型精确度的损失是超出的承受范围的。所以一般η的值一般要大于β的值。根据模型大小可以取3~99倍不等。

步骤5:网络训练:采用步骤4得到的处理过的批数据进行神经网络训练,进行正常的前向后向传播以及优化。网络是可替换的,该技术与网络结构无关。

步骤5-1:前向传播训练数据,使用batchdi执行训练,训练模型。

步骤5-2:网络使用优化器进行优化,本具体实施方式中,采用的优化器是adam优化器,实际可以根据不同网络自行选择优化器,与混淆技术无关。使用优化器自动计算损失,完成后向传播,更新网络权重,进入下一批次的迭代训练,重复步骤3直至达到完成当前轮的所有批次训练;

步骤6:若达到预设的训练结束条件,则停止训练,得到训练好的网络模型;否则继续执行步骤s2,执行下一轮的训练处理。

步骤7:部署模型:训练完成后的模型可以部署成为机器学习服务,开放接口访问。

采用上述步骤训练完成的模型,拥有抵御成员推理攻击的能力,可以部署在云服务器上开放预测接口供用户进行访问。

实施例

将本发明用于医疗相关的网络模型的训练处理,例如基于神经网络模型实现对医学图片的识别处理;或者由采集的关于患者个人身体状况的生理检测数据所构成的监测特征数据,基于该监测特征数据并基于配置的神经网络模型对指定病状的预测处理(预测装置)等,其具体实现过程如下:

步骤1.网络初始化:用户部署训练医疗神经网络的环境,安装训练网络所需工具,收集并获取医疗隐私数据集并打上标签,数据内容为患者个人身体状况信息等,标签为患者所患疾病有无等信息;

步骤2.隐私数据集读取:在每一轮的正式训练之前,选取当前轮所要训练的医疗隐私数据集,并加载,进行数据预处理。该数据集是保密数据集,保密方不希望参与隐私训练的成员被发现参与训练,所以该隐私数据集不允许以何种方式泄露;

步骤3.随机混合:在每一轮的正式训练之前,使用小批次训练技术,在每轮迭代开始时将隐私移交数据集进行混合。使用mixup混合技术,随机选取定量的每轮训练的批量数据进行混合,同时混合标签和数据;

步骤4.数据混淆:每次的迭代训练结束后,将一部分的用于训练的数据保留,乘上一个保留参数成为记忆残留项,用于下一批次训练开始前和原始批处理的数据进行混和。这个混合操作在任意两条成员医疗数据之间进行。目的是为了进一步混合数据集,提高模型鲁棒性和泛化能力;

步骤5.网络训练:将步骤4得到的处理过的批数据进行神经网络训练,进行正常的前向后向传播以及优化。其中,网络模型的具体的网络结构是可替换的,本发明不做具体限定。

步骤6.部署模型:训练完成后的模型可以部署成为机器学习服务,开放接口访问,从而得到一种用于指定疾病的预测装置,为患者预测病情,同时不必担心训练集的有特殊疾病的成员被泄露给恶意用户。

本发明的增强混淆训练在黑盒设置中针对基于模型和基于度量的攻击方法,通过增强混淆训练阻止模型与它的训练数据过度拟合,提高了目标模型的鲁棒性。同时,本发明所训练得到的网络模型是鲁棒且适应性的,不需要攻击者的先验知识。另外,的增强混淆训练方法与其他现有方法(如memguard)相比,只消耗了非常少的额外计算资源。通过实验比对,将本发明的增强混淆训练和memguard、advreg针对基于模型和度量攻击的防御进行性能比对。实验结果表示,增强混淆训练更成功地防御了成员推理攻击,而另外两种方法则在抵御基于度量的攻击中失败了。比对结果如图3和图4所示,其中,图3和图4中的所示的表格的第一行从左至右分别表示:数据集,防御方法,训练精度,测试精度,对错攻击法精度,置信度攻击法精度,熵攻击法精度和改进熵攻击法精度。

以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1