1.一种基于allreduce分布式训练梯度压缩加速方法,其特征在于,包括:
采用allreduce分布式深度梯度压缩训练架构,所述allreduce分布式深度梯度压缩训练架构中,不存在参数服务器,工作机之间形成环形闭环传递路径,gpu之间传递压缩后梯度;以及
将节点内压缩模块中将梯度从fp32转成fp16;并
使用误差反馈随机梯度下降算法压缩梯度。
2.根据权利要求1所述的基于allreduce分布式训练梯度压缩加速方法,其特征在于,所述误差反馈随机梯度下降算法包括:
针对每一次训练进行解压缩得到值pt。
3.根据权利要求2所述的基于allreduce分布式训练梯度压缩加速方法,其特征在于,所述误差反馈随机梯度下降算法还包括:
使用梯度压缩算法对值pt进行梯度压缩。
4.根据权利要求3所述的基于allreduce分布式训练梯度压缩加速方法,其特征在于,
值pt为pt=ηgt+et,其中,gt为随机梯度下降值,
5.根据权利要求4所述的基于allreduce分布式训练梯度压缩加速方法,其特征在于,
et初始值为0。
6.根据权利要求5所述的基于allreduce分布式训练梯度压缩加速方法,其特征在于,
所述梯度压缩实施为:采用topk算法,取梯度前k个值pt进行数据整合。
7.根据权利要求5所述的基于allreduce分布式训练梯度压缩加速方法,其特征在于,所述误差反馈随机梯度下降算法还包括:
更新参数:xt+1=xt-δt,et+1=pt-δt。
8.一种存储介质,其特征在于,
所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-7任一项所述的基于allreduce分布式训练梯度压缩加速方法。