一种基于强化学习联邦学习优化方法及系统

文档序号:34994554发布日期:2023-08-03 22:35阅读:90来源:国知局
一种基于强化学习联邦学习优化方法及系统

本发明属于边缘计算中联邦学习效率优化领域,具体涉及是指一种基于异构资源之上的联邦学习效率优化方法及系统。


背景技术:

1、随着互联网和物联网的快速发展,5g网络的快速普及,智能设备的数量在过去几年中迅速增长,如今每天产生的数据量也是空前上涨。这些数据对深度学习模型具有重要的作用。一般的,人工智能的发展离不开大数据的驱动,一些复杂的大型深度学习模型往往需要海量数据来迭代训练,才能得到一个有效的模型,以往都是把数据传输到云中心服务器。但现在随着数据量的增大,训练的深度学习模型日益复杂,如果这些数据全部卸载到云服务器,会导致服务器的负载大,在有限的网络带宽约束下,将所有数据从本地设备传输到远程服务器进行进一步处理是不切实际的,并且传输过程也会存在数据隐私和安全问题。鉴于这些关键因素,数据存储和分析的趋势正在从基于云的集中式转向分布式和设备上的。这种转变的关键使能技术是边缘计算,它通过提供计算资源以支持物联网设备卸载复杂的计算任务或应用。通过边缘计算,可以有效解决物联网设备计算能力不足、向云服务器卸载延迟高、数据安全等问题。

2、由于边缘计算和分布式机器学习的快速发展(s.arisdakessian,q.a.wahab,a.mourad,h.otrok,and n.kara,|intelligent multi-criteria iot-fog schedulingapproach llsing gametheory.transactions on networking,2020.),一种新的分布式机器学习范式——联邦学习(h.b.mcmahan,e.moore,d.ramage,s.hampson,and b.a.arcas,|“communication-efficientlearning of deep networks from decentralized data,”inproceedings of machine learning research,vol.54,pp.1273–1282,apr.2017.),以在边缘节点或终端设备级别,在不暴露原始数据的情况下,协同训练机器学习模型实现本地和分布式机器学习训练。联邦学习通常采用参数服务器架构,其中终端训练的是由参数服务器同步的模型。

3、联邦学习是一种分布式机器学习方法,可以在本地设备上的大量分散数据上进行训练。特别地,有一个著名方案,名为fedavg,首先在中心服务器初始化模型,然后边缘设备下载模型,多次迭代本地更新(使用梯度下降),之后在服务器端进行全局聚合,根据从边缘设备获得的模型进行加权平均,这种分布式机器学习方法尤其适合于物联网。由于上述优点,联邦学习在物联网和移动边缘计算领域得到了广泛的应用。例如,使用联邦学习以分布式的方式训练深度强化学习代理,谷歌键盘下一个单词的预测也是由联邦学习改进的。

4、现有的许多联邦学习算法在进行模型聚合的时候,往往是根据数据量的大小进行全局模型的聚合。然而,模型准确性与训练数据量之间的关系是非线性的(zhan y,li p,wang k,et al.|big data analytics by crowdlearning:architecture and mechanismdesign[j].ieeenetwork,2020,pp(99):1-5.),在实际情况下,各个边缘设备上面的数据分布差异较大,由于分布式训练的特点和出于保护用户数据隐私的考虑,很难在有限的信息下,评估各个设备对全局模型训练作用的大小。因此,非常有必要准确的估计各个异构设备对当前模型的作用大小,并进一步科学的分配模型聚合时候的权重占比,加快训练速度,提高训练的通信效率。


技术实现思路

1、本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于强化学习的联邦学习训练方法,使用强化学习算法来评估各个异构设备对训练的全局模型的作用大小,通过评估结果来进一步决策各个异构设备在全局模型聚合中的权重,通过此方法,大大加快了全局模型的收敛,减少了通信轮次,对通信效率有着显著提升。同时可以有效的识别恶意数据,减少了一些恶意数据对训练的影响。经过实际的实验证明,本发明提出的方法,能够改善联邦学习在实际环境中的训练方式,加速联邦学习训练的速度。

2、本发明至少通过如下技术方案之一实现。

3、一种基于强化学习联邦学习优化方法,包括如下步骤:

4、s1、确定机器学习训练的数据集图像任务;

5、s2、根据对应的任务,初始化中心服务器相应任务的神经网络模型参数,即初始化全局模型;

6、s3、中心服务器选择需要参与本轮次训练的边缘设备,被选中的边缘设备下载全局模型;

7、s4、在联邦学习框架下,边缘设备在本地进行模型参数训练,并在训练完成后上传模型参数;

8、s5、中心服务器对参与训练的边缘设备贡献进行评估,根据贡献大小对边缘设备模型加权聚合;

9、s6、不断重复步骤s3-步骤s5,直到训练的模型收敛。

10、进一步地,步骤s1中,所述边缘设备包括用户智能设备、物联网设备。

11、进一步地,模型初始化包括:根据步骤s1中数据集图像识别任务,采用lenet-5卷积神经网络来训练数据集,初始化模型参数,设机器学习模型参数为w,定义特征空间x和标签集合y={1,···,b},b为标签总数;设(x,y)表示标记样本,x∈x,y∈y;令fw:x→s表示预测函数,s={z|∑j∈yzj=1,zj≥0}表示为每个样本的一个对应不同标签的概率向量,zj表示样本归类为标签j的概率,即训练的机器学习模型参数;函数fw为每个样本产生一个概率向量。

12、4、根据权利要求2所述的一种基于强化学习联邦学习优化方法,其特征在于,联邦学习训练的机器学习任务对应预测函数的损失函数定义为交叉熵:

13、

14、其中p表示真实的概率分布,为预测样本x属于第j类标签的概率,d是标签样本总数量,在训练过程中,采用随机梯度下降策略,不断的降低损失函数的值,直到模型收敛。

15、进一步地,利用联邦学习训练模型时候,联邦学习框架的参数设置包括:用t表示当前的联邦学习训练轮次t、服务器和边缘设备的通信内容(wt,τ)和其中t=0,1,…n,wt为第t训练轮次的全局模型参数,τ表示边缘设备本地模型训练迭代次数,表示第t轮次训练时候,边缘设备k上面的模型参数,η表示在边缘设备训练时候学习率的大小。

16、进一步地,步骤s3中,采用随机选择客户端设备的方法,挑选本轮次进行训练的客户端设备。

17、进一步地,步骤s4中边缘设备根据预先设置的参数,在本地进行模型参数的训练,本地模型训练完成后,边缘设备上传模型参数到中心服务器。

18、进一步地,步骤s5中,中心服务器采用强化学习模型根据边缘设备模型参数和当前全局模型参数的特征对各个边缘设备对全局模型的贡献进行评估,具体如下:

19、先在中心服务器预训练一个强化学习代理:

20、状态:设每轮共有k个设备进行训练,每轮次训练的状态表示为表示第t轮次参与训练的第k个设备的模型参数,wt是第t轮次的全局模型参数,每轮的状态包含k个边缘设备上传的模型参数和当前全局模型参数的特征,每轮次联邦学习训练结束,各个边缘设备都把模型参数从本地传送到中心服务器,之后开始对全局模型进行更新,需要先对各个参与聚合的用户设备的聚合占比权重进行评估,之后进行全局模型的更新;

21、动作:联邦学习中,在每轮全局参数加权聚合时,根据目前参数的状态st,对各个边缘设备模型在全局模型聚合中占的比重进行预估,通过ddqn中的价值评估函数,学习最佳动作价值的近似值q*(st,a),a表示强化学习代理做出的预测动作,使ddqn神经网络输出参与训练的边缘设备对当前全局模型贡献的大小,根据各个边缘设备对全局模型的作用大小给参与全局模型聚合的边缘设备分配聚合占比,加快全局模型的聚合;

22、奖励:将每轮t结束时,观察到的奖励设置为

23、

24、t代表全局迭代的次数,φt是t轮后全局模型对保持的验证集所达到的测试精度,ω是目标精度,也m(m>1)是一个正常数,确保rt随测试精度呈指数增长,因为0≤φt≤ω≤1,所以rt∈(-1,0]。

25、进一步地,利用中心服务器中的强化学习智能体,学习输出客户端k在第t轮次对全局模型的贡献再进行加权平均,计算客户端k在第t轮次在全局模型聚合时候应该占的权重

26、

27、其中表示参与第t轮次联邦学习训练的n个设备的贡献之和,表示参与第t轮次训练的客户端设备k的在本次训练中贡献大小;

28、根据评估的贡献大小进行全局加权聚合:

29、

30、其中表示第t轮次第k个设备上面的模型参数,wt+1为第t+1轮次全局模型参数。在完成全局模型的加权聚合之后,就会不断重复上述步骤,直到模型收敛。

31、实现所述的一种基于强化学习联邦学习优化方法的系统,包括:

32、设备选择单元:每次进行训练的时候,使用随机选择设备的方法选择设备参与本轮次的训练;

33、设备贡献评估单位:在设备模型参数上传后,中心服务器根据各个局部模型参数的特征,通过强化学习算法,对各个局部设备的贡献进行评估;

34、全局模型更新单元:全局模型更新时候,根据各个设备对全局模型的贡献,对各个模型参数进行加权平均,更新当前的全局模型;

35、在设备贡献评估单位中,对各个设备上传的模型参数进行特征提取,之后输入到强化学习代理中,进行贡献的评估,中心服务器根据各个设备贡献的大小,按照设定好的加权平均算法,进行全局模型的聚合。

36、与现有技术相比,本发明具有如下有益效果:

37、(1)本发明提出一种基于ddqn的异构联邦学习训练方法,为了优化全局模型的聚合过程,使用ddqn模型对参与本轮次训练的各个设备的贡献进行评估,对参与聚合的模型的权重进行自适应的调整,大大加快了模型的聚合速度,提高了训练的速度,减少了训练所需要的通信轮次,节约了通信资源。

38、(2)本发明可以准确评估评估各个设备对全局模型的贡献,进而方便根据贡献对参与训练的设备提供不同的奖励。

39、(3)本发明可以规避恶意数据对模型训练的影响,使模型能够正常完成训练。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1