多方协作数据学习系统及学习模型训练方法

文档序号：31637927发布日期：2022-09-24 05:41阅读：来源：国知局

技术特征：
1.一种多方协作数据学习系统，其特征在于，包括布局全局模型的中央服务器和多方带本地分类模型的客户端，中央服务器下发模型参数，客户端利用本地标签数据进行推理和训练，推理和训练结果返回中央服务器，中央服务器接收多方客户端结果进行联邦学习训练全局模型；客户端根据获得训练后全局模型参数，对本地未标签的数据进行主动学习，扩充本地标签数据集，全局模型对多方客户扩充后的标签数据集再次进行联邦学习。2.一种多方协作数据学习模型训练方法，其特征在于，具体包括如下步骤：1)中央服务器初始随机生成全局模型参数w下发到所有客户端；2)各个客户端接收中央服务器下发的全局模型参数w，并加载到本地模型，利用本地模型对本地已标注数据集d
l
的所有样本执行一次模型推理，记录下本轮学习的预测损失值并上传到中央服务器；3)中央服务器接收到所有客户端上传的一轮预测损失值集合v，对预测损失值集合v中所有元素进行线性数值映射，使其加和为1，并按照数值映射后的大小作为概率分布进行参加下一轮联邦学习客户端的挑选，挑选客户端的数量占客户端数量的一半；4)被选中的客户端利用本地已标注数据集d
l
对本地模型进行训练，并将更新后的本地模型参数上传到中央服务器；5)中央服务器接收被选中的客户端上传的本地模型参数利用模型聚合算法更新全局模型参数w并下发到所有客户端；6)迭代训练，重复2)-5)，直到满足一定的训练次数，完成联邦学习全局模型训练；7)各个客户端接收中央服务器下发的全局模型训练后更新后参数w
*
，并加载到本地模型，进行主动学习，利用本地模型挑选出最具信息增益的未标注的样本，并请求专家对样本进行标注；8)对补充后已标注数据集返回执行步骤6)再次进行全局模型训练，直到标注数据集无法扩充。3.根据权利要求2所述多方协作数据学习模型训练方法，其特征在于，所述步骤2)中预测损失值的计算公式为：其中v
it
表示第i个客户端第t轮联邦学习的预测损失值，t表示第t轮联邦学习训练，i表示第i个客户端，n
i
表示第i个客户端目前已标注数据集d
l
中拥有的样本数量，l(
·
)表示损失函数，x
k
、y
k
分别表示第k个样本和样本标签，w
local
表示本地模型参数。4.根据权利要求3所述多方协作数据学习模型训练方法，其特征在于，所述步骤3)中线性数值映射的计算公式为：其中newv
it
表示v
it
经过线性数值映射后的值，表示所有客户端预测损失值的加和，线性数值映射后的预测损失值作为离散概率分布进行客户端抽样，预测损失值越高，客户端被抽样的概率越大。5.根据权利要求2至4中任意一项所述多方协作数据学习模型训练方法，其特征在于，
所述步骤5)中模型聚合算法公式为：其中h为当前被选中客户端的个数，表示被选中客户端中第i个客户端上传的本地模型参数。6.根据权利要求5所述多方协作数据学习模型训练方法，其特征在于，所述步骤7)本地模型主动学习方法如下：7.1)在全局模型训练中本地模型架构上，额外添加两个辅助分类器接到本地模型中主干网络后，与本地模型的主分类器并行，构成本地主动学习模型；7.2)利用已标注数据集d
l
和未标注数据集d
u
对本地主动学习模型进行训练；7.3)以差异损失函数为目标函数来训练最大化辅助分类器之间的差异，获得更加紧密的决策边界，从而在未标注的样本挑选出高信息性样本加入标签数据集。7.根据权利要求6所述多方协作数据学习模型训练方法，其特征在于，所述额外添加两个辅助分类器与主分类器网络架构一模一样，网络参数由主分类器的网络参数添加随机高斯噪声生成，添加的随机高斯噪声p～n(0,0.1)，数据样本经过主干网络后得到的特征图分别进入主分类器和辅助分类器，分类器之间互不影响。8.根据权利要求7所述多方协作数据学习模型训练方法，其特征在于，所述步骤7.2)本地主动学习模型的训练方式如下：以θ表示主干网络和主分类器，以b表示主干网络，以θ1和θ2表示两个辅助分类器，以p表示样本经过θ输出的概率分布，以p1表示样本经过(b，θ1)输出的概率分布，以p2表示样本经过(b，θ2)输出的概率分布；a：利用已标注数据集对本地主动学习模型进行训练；a-1:计算样本经过θ、(b，θ1)、(b，θ2)推理产生的交叉熵损失l
ce
：交叉熵损失函数的计算公式为：其中c为样本类别总数，c表示样本类别，1表示指示函数，p
c
(y|x)表示样本x属于c类的概率；a-2:对本地主动学习模型参数进行更新，其中η为学习率，为梯度：为梯度：为梯度：b：利用未标注数据集对辅助分类器进行训练；b-1：计算样本经过(b，θ1)、(b，θ2)推理产生的差异损失l
dist
：l
dist
＝d(p1,p2)+d(p1,p)+d(p2,p)，b-2：对辅助分类器参数进行更新：

技术总结
本发明涉及一种多方协作数据学习系统及学习模型训练方法，充分利用主动学习和联邦学习的优点结合，在保护数据隐私的前提下利用每个客户端的少量已标注数据进行模型的协同训练，在联邦学习每轮训练中，以预测损失值生成概率分布，挑选客户端参加训练，可以加快全局模型的收敛，降低通信量；客户端将当前全局模型参数载入本地模型后进行主动学习，利用本地模型指导样本查询，采样得到高信息性样本进行标注；每个客户端的已标注数据集得到扩充，再次进行联邦学习训练，可以得到性能更好的模型。实现尽可能地减少样本标注成本前提下，提高模型的精度和泛化性能。高模型的精度和泛化性能。高模型的精度和泛化性能。

技术研发人员：武星裴洁钱权
受保护的技术使用者：上海大学
技术研发日：2022.06.23
技术公布日：2022/9/23

完整全部详细技术资料下载

当前第2页1 2