利用逐区块模型更新滤波并行化基于矩的优化的制作方法

文档序号:37126189发布日期:2024-02-22 21:38阅读:24来源:国知局
利用逐区块模型更新滤波并行化基于矩的优化的制作方法


背景技术:

1、优化器被用于发现神经网络的最佳参数,诸如权重,以最大限度地减少损失。随着神经网络的训练数据量和模型大小的增加,一个高效、快速的优化器至关重要并有助于训练神经网络以更快、更准确地获取最优参数。梯度下降是执行针对神经网络的优化的最流行的方式之一,并且自适应矩估计(adam)是一种广泛使用的基于每个参数的低阶矩的自适应估计的自适应学习率随机梯度下降优化器(d.p.kinagma,j.ba,“adam:一种随机优化方法”,proc.iclr-2015,通过引用将其全部并入本文)。当应用于大规模任务时,adam经常与同步随机梯度(ssg)技术相结合,以加快多个工作节点的训练过程。训练数据可以被分割成多个分割以供多个工作节点使用。从一个通用的初始全局模型开始,所有工作节点用各自的训练数据的分割并行地对局部模型进行几个步骤更新。这个过程称为数据块内并行优化。

2、逐区块模型更新滤波(bmuf)是一种通用的高效通信的分布式优化框架(k.chen,q.hoo,“通过数据块内并行优化和逐区块模型更新滤波的增量区块训练对深度学习机的可扩展训练”,proc.icassp-2016,通过引用将其全部并入本文)。通过bmuf的使用,每个工作节点对其局部模型进行几个步骤的优化,以并行获取局部模型更新,然后多个工作节点的局部模型更新通过具有区块冲量的历史模型更新来聚合和过滤,以更新全局模型。与其他ssg方法相比,bmuf可以大大降低通信开销,并可用于大规模深度神经网络的分布式训练。bmuf与基于动量的随机梯度下降局部优化器一起工作已被阐述,并且在单一机器上与传统的基于小批量的随机梯度下降优化器相比,在精确度略微降低的情况下实现线性加速。


技术实现思路

1、在本公开的实施例中,提供了一种使用bmuf并行化基于矩的优化的方案。根据本公开的实施例,主节点向多个工作节点提供针对训练周期的全局模型参数和全局矩参数。多个工作节点基于全局模型参数和全局矩参数并行执行基于矩的优化,以生成多个局部模型参数和多个局部矩参数。主节点从多个工作节点接收多个局部模型参数和多个局部矩参数。聚合的模型参数通过聚合多个局部模型参数而获取,并且聚合的矩参数通过聚合多个局部矩参数而获取。主节点基于聚合的模型参数和针对先前训练周期的历史模型更新信息来生成针对训练周期的模型更新信息,并使用模型更新信息来更新全局模型参数。全局矩参数还基于聚合的矩参数来更新,以获取与更新的全局模型参数兼容的更新的全局矩参数。更新的全局模型参数和更新的全局矩参数随后被提供给多个工作节点,用于针对随后的训练周期并行执行基于矩的优化。根据本公开的实施例,随着全局模型参数被更新,用于基于矩的优化的全局矩参数被适当地更新,从而实现训练过程的更好更快的收敛。

2、提供本
技术实现要素:
是为了以简化的形式介绍对概念的选择,其在下文的具体实施方式中将被进一步描述。该发明内容无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。



技术特征:

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的方法,其中每个局部模型参数和每个局部矩参数由所述多个工作节点中的一个工作节点利用预定数目的小批量的训练数据执行针对所述训练周期的所述基于矩的优化来生成,并且更新所述全局矩参数包括:

3.根据权利要求2所述的方法,其中更新所述全局矩参数包括:

4.根据权利要求1所述的方法,其中更新所述全局模型参数包括:

5.根据权利要求4所述的方法,其中每个局部模型参数和每个局部矩参数由所述多个工作节点中的一个工作节点利用预定数目的小批量的训练数据执行针对所述训练周期的所述基于矩的优化来生成,并且更新所述全局矩参数包括:

6.根据权利要求5所述的方法,其中更新所述全局矩参数包括:

7.根据权利要求2或5所述的方法,其中生成针对所述训练周期的所述模型更新信息包括:

8.根据权利要求7所述的方法,其中所述区块学习率被设置为1,并且所述区块冲量基于所述多个工作节点的数目来设置。

9.根据权利要求2或5所述的方法,其中所述基于矩的优化包括adam优化,所述方法还包括:

10.一种电子设备,包括:

11.根据权利要求10所述的设备,其中每个局部模型参数和每个局部矩参数由所述多个工作节点中的一个工作节点利用预定数目的小批量的训练数据执行针对所述训练周期的基于矩的优化来生成,并且更新所述全局矩参数包括:

12.根据权利要求11所述的设备,其中更新所述全局矩参数包括:

13.根据权利要求10所述的设备,其中更新所述全局模型参数包括:

14.根据权利要求13所述的设备,其中每个局部模型参数和每个局部矩参数由所述多个工作节点中的一个工作节点利用预定数目的小批量的训练数据执行针对所述训练周期的基于矩的优化来生成,并且更新所述全局矩参数包括:

15.一种计算机程序产品,包括可执行指令,所述可执行指令在设备上执行时使所述设备执行动作,所述动作包括:


技术总结
在本公开的实施例中,提供了一种用于利用逐区块模型更新滤波并行化基于矩的优化的方案。主节点向多个工作节点提供针对训练周期s的全局模型参数和全局矩参数,并从工作节点接收由工作节点执行并行的基于矩的优化生成的多个局部模型参数和多个局部矩参数。全局模型参数和全局矩参数基于相应的接收到的局部参数和针对训练周期的模型更新信息来更新。更新的全局模型参数和更新的全局矩参数随后被提供给工作节点,用于针对随后的训练周期并行执行基于矩的优化。本公开的实施例可以实现训练过程的更好和更快的收敛。

技术研发人员:陈凯,霍强,丁海松
受保护的技术使用者:微软技术许可有限责任公司
技术研发日:
技术公布日:2024/2/21
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1