一种基于AllReduce分布式训练梯度压缩加速方法与流程

文档序号:24335785发布日期:2021-03-19 12:16阅读:来源:国知局

技术特征:

1.一种基于allreduce分布式训练梯度压缩加速方法,其特征在于,包括:

采用allreduce分布式深度梯度压缩训练架构,所述allreduce分布式深度梯度压缩训练架构中,不存在参数服务器,工作机之间形成环形闭环传递路径,gpu之间传递压缩后梯度;以及

将节点内压缩模块中将梯度从fp32转成fp16;并

使用误差反馈随机梯度下降算法压缩梯度。

2.根据权利要求1所述的基于allreduce分布式训练梯度压缩加速方法,其特征在于,所述误差反馈随机梯度下降算法包括:

针对每一次训练进行解压缩得到值pt。

3.根据权利要求2所述的基于allreduce分布式训练梯度压缩加速方法,其特征在于,所述误差反馈随机梯度下降算法还包括:

使用梯度压缩算法对值pt进行梯度压缩。

4.根据权利要求3所述的基于allreduce分布式训练梯度压缩加速方法,其特征在于,

值pt为pt=ηgt+et,其中,gt为随机梯度下降值,et为偏差值。

5.根据权利要求4所述的基于allreduce分布式训练梯度压缩加速方法,其特征在于,

et初始值为0。

6.根据权利要求5所述的基于allreduce分布式训练梯度压缩加速方法,其特征在于,

所述梯度压缩实施为:采用topk算法,取梯度前k个值pt进行数据整合。

7.根据权利要求5所述的基于allreduce分布式训练梯度压缩加速方法,其特征在于,所述误差反馈随机梯度下降算法还包括:

更新参数:xt+1=xt-δt,et+1=pt-δt。

8.一种存储介质,其特征在于,

所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-7任一项所述的基于allreduce分布式训练梯度压缩加速方法。


技术总结
本发明涉及一种基于AllReduce分布式训练梯度压缩加速方法,针对Intra‑node将FP32转成FP16,并针对Inter‑node使用EF‑SGD方法压缩梯度,相对于稀疏方法损失降低,并且,通过AllReduce架构相对于Params Server通信结构消除了带宽瓶颈。

技术研发人员:谢远东;梁家恩
受保护的技术使用者:云知声智能科技股份有限公司;厦门云知芯智能科技有限公司
技术研发日:2020.12.17
技术公布日:2021.03.19
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1