基于数字水印技术的去中心化联邦学习训练行为监督方法

文档序号:33273740发布日期:2023-02-24 19:07阅读:40来源:国知局
基于数字水印技术的去中心化联邦学习训练行为监督方法

1.本发明属于联邦学习技术领域,具体涉及一种基于数字水印技术的去中心化联邦学习训练行为监督方法。


背景技术:

2.近年来,随着物联网、边缘计算、人工智能等技术的快速发展,越来越多的智能终端设备接入互联网,产生了海量的终端数据。海量数据在为人工智能技术发展提供坚实基础的同时,也使得面向智能终端的隐私保护与针对海量数据的处理技术面临更加严峻的威胁和挑战。虽然联邦学习通过其“数据不动,模型动”的独特优势为上述问题提供了一个可行方案。但是,当前的联邦学习应用系统大多由业务方或设备所有方建立,存在接入规模受限、数据扩展困难、系统建设成本高等问题,导致大量的数据需求方与数据所有方之间无法有效对接,限制数据价值的发挥。因此出现了去中心化的联邦学习系统结构,该结构体系中,数据的需求方与数据的拥有方形成1对n或者n对n的关系,使得需求双方的对接不再受制于平台限制,去中心化联邦学习虽然为需求对接实现带来了极大的便利,但是其同样失去了统一的运营服务以及监管便利。工人节点作为去中心化联邦学习体系结构中训练行为的执行者,其保持行为的诚实是该体系结构稳定运行的关键,任何在模型训练中的不良行为都将将限制该体系结构的发展。


技术实现要素:

3.本发明的目的在于提供一种基于数字水印技术的去中心化联邦学习训练行为监督方法。
4.一种基于数字水印技术的去中心化联邦学习训练行为监督方法,包括以下步骤:
5.1)任务发布者初始化全局模型,并准备若干水印数据集,向选定的工人节点发送初始全局模型以及水印数据集;水印数据集的构建思路为在与训练数据无关的图像中添加固定的模式,并为其添加一个来自实际任务的标签;
6.2)工人节点将本地数据集以及水印数据集拼接之后进行本地训练,完成水印的嵌入过程;
7.3)任务发布者对数字水印进行验证,该验证结果标识了工人节点的训练行为;
8.4)多次执行步骤2)与步骤3),在一次联邦学习的过程中持续量化工人节点的训练行为;
9.5)根据数字水印的完成情况,标识工人节点的训练诚实度;
10.6)全局模型的性能达到指定要求,联邦学习过程完成,工人节点的训练行为监督完成。
11.进一步地,所述步骤2)中水印的嵌入借助深度神经网络的内在学习能力进行,嵌入过程具体为:
12.2.1)工人训练行为真实性评估;
13.使用任务发布者下发的数字水印数据集对所有局部模型进行校验,测试该局部模型在上的准确性,具体将进行两个维度的检查,检查结果将作为工人训练行为评价的主要依据,用于任务发布者对是否继续选择该工人进行后续的训练任务的决策;
14.2.2)水印任务的准确性评估;
15.使用水印数据集对聚合后的新全局模型进行检测,用于判断是否需要进行水印模型的替换;在必要时进行水印数据集的替换,保证工人节点的训练行为被完整、持续的量化;
16.2.3)任务发布者将工人们返回的训练结果进行聚合,得到新的全局模型m
g(t+1)

[0017][0018]
2.4)在完成全局模型的聚合过程之后,任务发布者使用主要任务的验证集对新的全局模型进行性能验证,判断其是否符合使用要求,并对是否继续进行联邦学习的下一轮训练过程进行决策。
[0019]
进一步地,所述步骤3)中任务发布者对数字水印进行验证的具体过程为:
[0020]
3.1)算法sf-we将原始水印数据集和标签映射关系σ={yo,yn}作为输入,o≠n,并输出水印数据集进而在工人节点进行训练之后,输出带有水印的局部模型
[0021]
其中,标签映射关系由任务发布者定义,表明了如何对水印进行标记;yo是原始数据的真实标签;yn是预先定义的水印标签,该标签将包括用于训练行为验证的指纹;
[0022]
3.2)算法的watermarkingembedding()函数从被训练的数据集中抽出所有标签为yo的标签,在此基础上生成相应的模式并用yn重新标记;工人节点在接收到完整的水印数据集之后,使用数据集和本地数据集d
local
进行本地训练,在训练过程中,dnn将自动学习这些水印数据的模式,由任务发布者指定的水印被嵌入到了该工人节点的局部模型中;数字水印的完成度将随着工人节点本地训练轮次的增加而逐渐增加;
[0023]
3.3)对局部模型进行聚合得到新的全局模型,对该全局模型进行水印可用性检查,不满足可用条件则进行水印数据集的替换,替换后对全局模型性能进行检查,不符合条件则继续训练过程。
[0024]
进一步地,所述步骤3.3)中水印数据集的替换过程具体为:
[0025]
定义可观察系数为δ,当轮次t的全局模型在水印数据集上的准确率与前一轮次的准确率差值小于可观察系数时,说明水印数据集已经达到了不可用状态δf;为了使该评判标准拥有一定的容错率,定义容忍系数cnt
useless
为可以容忍的达到不可用状态的次数,在未满足该次数之前,认为水印数据集始终处于可用状态;当水印数据集在全局模型上的表现同时满足上述条件时,进行水印数据集的替换取消水印数据集对应的水印任务t
x
的强化,启用水印数据集对应的水印任务ty;
[0026]
随着训练轮次的进行,任务t
x
在主要任务t上的表现将会逐渐下降,水印任务逐渐消亡,当t
x
在主要任务t上的表现下降到一定程度之后,t
x
将从不可用状态恢复到可用状态,可以参与下一次的水印轮换,即上述水印轮换过程可以表示为:
[0027][0028][0029]
其中,ef为任务到达不可用状态时经过的轮次;表示任务t
x
在第i轮时表现出的状态;
[0030]
由于水印消亡的速度要小于水印创建的速度,因此,以两个相同规模的水印数据集对应的两个水印任务t1和t2为例,假设任务t1在达到不可用状态之后与任务t2进行了轮换,而任务t2在达到不可用状态需要进行轮换时,应当和它进行轮换的任务t1并没有完全消亡,从而将从部分消亡的状态继续进行水印任务,而这一次其达到不可用状态所需的轮次数量将低于前一次达到不可用状态的轮次数量,也就是说,在经过k次的上述重复交换之后,两个任务的初始状态将都变为不可用状态,无法完成后续的任务;两个任务都达到不可用状态所经过的轮次为:
[0031][0032]
其中,表示任务t1在第i次消亡时重新达到不可用状态时所经过的轮次;因此,在水印数据集规模相同的情况下,通过对水印任务创建速率和消亡速率的确定,即可确定完成整个联邦学习训练所需的数据集个数。
[0033]
本发明的有益效果在于:
[0034]
本发明针对去中心化联邦学习体系结构中,工人节点为了获取不实收益,伪造训练结果,影响模型训练整体精度的问题,提出了一种基于数字水印技术的去中心化联邦学习训练行为监督方法,通过拓展数字水印的应用场景,将每个工人节点的训练行为量化、可视化,从而达成促使工人节点在训练行为上保持诚实的目的,为去中心化的联邦学习系统提供可信的算力支持。
附图说明
[0035]
图1是本发明的整体框架图。
[0036]
图2是有无水印任务情况下的模型准确率对比结果图。
[0037]
图3是水印的生成于消亡周期实验结果图。
[0038]
图4是不同规模的数据集在前100轮的表现实验结果图。
[0039]
图5是工人节点的训练行为对比实验结果图。
[0040]
图6是水印任务的周期性实验结果图。
[0041]
图7是未加入水印任务时水印数据及在模型上的表现实验结果图。
[0042]
图8是数据集轮换实验结果图。
具体实施方式
[0043]
下面结合附图对本发明做进一步描述。
[0044]
本发明涉及的是一种在去中心化联邦学习体系结构中,结合目前在机器学习领域广泛应用的数据水印技术而提出的基于数字水印技术的去中心化联邦学习训练行为监督方法。
[0045]
本发明的整体框架图如图1所示,具体步骤为:
[0046]
1)任务发布者初始化全局模型,并准备若干水印数据集,向选定的工人节点发送初始全局模型以及水印数据集。水印数据集的构建思路为在于训练数据无关的图像中添加固定的模式,并为其添加一个来自实际任务的标签。
[0047]
2)工人节点将本地数据集以及水印数据集拼接之后进行本地训练,完成水印的嵌入过程,水印的嵌入借助深度神经网络的内在学习能力进行,嵌入过程的具体算法如下:
[0048]
工人训练行为真实性评估将使用任务发布者下发的数字水印数据集对所有局部模型进行校验,测试该局部模型在上的准确性,具体将进行两个维度的检查,该阶段的检查结果将作为工人训练行为评价的主要依据,用于任务发布者对是否继续选择该工人进行后续的训练任务的决策。
[0049]
水印任务的准确性评估将使用水印数据集对聚合后的新全局模型进行检测,主要用于判断是否需要进行水印模型的替换。在必要时进行水印数据集的替换可以保证工人节点的训练行为被完整、持续的量化。
[0050]
模型在主要任务上的准确性评估发生在工人的训练行为评估之后。任务发布者将工人们返回的训练结果按照公式(1)进行聚合,得到一个新的全局模型m
g(t+1)

[0051][0052]
在完成全局模型的聚合过程之后,任务发布者需要使用主要任务的验证集对新的全局模型进行性能验证,判断其是否符合使用要求,并对是否继续进行联邦学习的下一轮训练过程进行决策。
[0053]
3)任务发布者对数字水印进行验证,该验证结果标识了工人节点的训练行为,具体检查过程如下:
[0054]
算法sf-we将原始水印数据集和标签映射关系σ={yo,yn}(o≠n)作为输入,并输出水印数据集进而在工人节点进行训练之后,输出带有水印的局部模型标签映射关系将由任务发布者定义,表明了如何对水印进行标记。yo是原始数据的真实标签,yn是预先定义的水印标签,该标签将包括用于训练行为验证的指纹。接下来,算法的watermarkingembedding()函数将从被训练的数据集中抽出所有标签为yo的标签,在此基础上生成相应的模式并用yn重新标记,这样将同时生成模式和精心准备过的标签。工人节点在接收到完整的水印数据集之后,将使用该数据集和本地数据集d
local
进行本地训练,在训练过程中,dnn将自动学习这些水印数据的模式,于是由任务发布者指定的水印被嵌入到了该工人节点的局部模型中。数字水印的完成度将随着工人节点本地训练轮次的增加而逐渐增加。
[0055]
对局部模型进行聚合得到新的全局模型,对该全局模型进行水印可用性检查,不满足可用条件则进行水印数据集的替换,具体替换过程如下:
[0056]
定义可观察系数为δ,当轮次t的全局模型在水印数据集上的准确率与前一轮次的准确率差值小于可观察系数时,说明水印数据集已经达到了不可用状态δf。为了使该评判标准拥有一定的容错率,定义容忍系数cnt
useless
为可以容忍的达到不可用状态的次数,在未满足该次数之前,认为水印数据集始终处于可用状态。当水印数据集在全局模型上的表现同时满足上述条件时,进行水印数据集的替换取消水印数据集对应的水印任务t
x
的强化,启用水印数据集对应的水印任务ty。
[0057]
随着训练轮次的进行,任务t
x
在主要任务t上的表现将会逐渐下降,水印任务逐渐消亡,当t
x
在主要任务t上的表现下降到一定程度之后,t
x
将从不可用状态恢复到可用状态,可以参与下一次的水印轮换,即上述水印轮换过程可以表示为:
[0058][0059][0060]
其中,ef为任务到达不可用状态时经过的轮次,表示任务t
x
在第i轮时表现出的状态。
[0061]
由于水印消亡的速度要小于水印创建的速度,因此,以两个相同规模的水印数据集对应的两个水印任务t1和t2为例,假设任务t1在达到不可用状态之后与任务t2进行了轮换,而任务t2在达到不可用状态需要进行轮换时,应当和它进行轮换的任务t1并没有完全消亡,从而将从部分消亡的状态继续进行水印任务,而这一次其达到不可用状态所需的轮次数量将低于前一次达到不可用状态的轮次数量,也就是说,在经过k次的上述重复交换之后,两个任务的初始状态将都变为不可用状态,无法完成后续的任务。两个任务都达到不可用状态所经过的轮次为:
[0062][0063]
其中,表示任务t1在第i次消亡时重新达到不可用状态时所经过的轮次。因此,在水印数据集规模相同的情况下,通过对水印任务创建速率和消亡速率的确定,即可确定完成整个联邦学习训练所需的数据集个数。
[0064]
替换后对全局模型性能进行检查,不符合条件则继续训练过程;
[0065]
4)多次执行步骤2)、3),在一次联邦学习的过程中持续量化工人节点的训练行为。
[0066]
5)根据数字水印的完成情况,标识工人节点的训练诚实度,作为工人节点的筛选依据之一。
[0067]
6)全局模型的性能达到指定要求,联邦学习过程完成,工人节点的训练行为监督完成。
[0068]
为确定数字水印任务的加入对主要任务的影响,在加入于不加入水印任务的情况
下分别进行实验,实验结果如图2所示,可以看出,有无水印任务并不会对模型的准确性造成影响。
[0069]
为确定合适的水印数据集规模以及数据集轮换时间,对不同大小的水印数据及分别进行训练,结果如图3所示,可以看出,水印任务的消亡在维持一段时间之后,将会保持在统一水平很长时间,因此,等待其准确率消亡到零再进行轮换是不明智的,当水印任务的消亡率降低至浮动变化不大的时候,即可进行轮换操作。
[0070]
为确定水印数据及规模,对前100轮任务的数据进行单独整理如图4,由上述实验结果可知,不同大小的水印数据集在收敛趋势大致相同,但是,以数据大小为1000的数据集为例,其收敛速度较为平缓,轮次与轮次之间的准确度差别并不,是很大对判断训练行为的帮助不大。因此,在后续的实验中,选择可以在观察到明显变化的同时,维持尽可能多的轮次的800大小的数据集。
[0071]
为验证工人节点的训练行为检查结果,将在所有的四个工人中,随机选择一名工人不进行训练,并在聚合之前对工人所提交的局部模型进行水印任务的检查,并判断工人是否进行了训练。实验结果如图5所示,在聚合之前的检查可以准确的量化工人的训练行为。未进行训练的工人可以被找出。水印任务的周期性实验结果如图6所示,在水印的每个周期,由于其消亡速度要远小于生成速度,所以该水印数据集在第四个周期时,仅经过9轮就已经达到了不可使用状态。设置将两个大小为800的水印数据集d1、d2加入训练过程,在d1达到不可用状态时,使用d2数据集进行轮换,两个数据集交替进行工作。在进行数据集替换之前,需要知晓两个数据集在未参与水印任务时在模型上的表现,对两个数据集进行实验,得到结果如图7,在上述两个水印数据集都参与轮换的情况下,实验结果如图8所示,由实验结果可以看出,水印数据集的轮换是可行的。虽然两个水印数据集在交叉进行训练的过程中,其可用性处于逐渐下降的趋势,但是通过配置合适数量的替换数据集,可以使水印任务完整的覆盖整个联邦学习过程,完整的量化工人节点的训练行为。
[0072]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1