一种基于AllReduce分布式训练梯度压缩加速方法与流程

文档序号：24335785发布日期：2021-03-19 12:16阅读：来源：国知局

技术特征：

1.一种基于allreduce分布式训练梯度压缩加速方法，其特征在于，包括：

采用allreduce分布式深度梯度压缩训练架构，所述allreduce分布式深度梯度压缩训练架构中，不存在参数服务器，工作机之间形成环形闭环传递路径，gpu之间传递压缩后梯度；以及

将节点内压缩模块中将梯度从fp32转成fp16；并

使用误差反馈随机梯度下降算法压缩梯度。

2.根据权利要求1所述的基于allreduce分布式训练梯度压缩加速方法，其特征在于，所述误差反馈随机梯度下降算法包括：

针对每一次训练进行解压缩得到值pt。

3.根据权利要求2所述的基于allreduce分布式训练梯度压缩加速方法，其特征在于，所述误差反馈随机梯度下降算法还包括：

使用梯度压缩算法对值pt进行梯度压缩。

4.根据权利要求3所述的基于allreduce分布式训练梯度压缩加速方法，其特征在于，

值pt为pt＝ηgt+et，其中，gt为随机梯度下降值，et为偏差值。

5.根据权利要求4所述的基于allreduce分布式训练梯度压缩加速方法，其特征在于，

et初始值为0。

6.根据权利要求5所述的基于allreduce分布式训练梯度压缩加速方法，其特征在于，

所述梯度压缩实施为：采用topk算法，取梯度前k个值pt进行数据整合。

7.根据权利要求5所述的基于allreduce分布式训练梯度压缩加速方法，其特征在于，所述误差反馈随机梯度下降算法还包括：

更新参数：xt+1＝xt-δt，et+1＝pt-δt。

8.一种存储介质，其特征在于，

所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-7任一项所述的基于allreduce分布式训练梯度压缩加速方法。

技术总结
本发明涉及一种基于AllReduce分布式训练梯度压缩加速方法，针对Intra‑node将FP32转成FP16,并针对Inter‑node使用EF‑SGD方法压缩梯度，相对于稀疏方法损失降低，并且，通过AllReduce架构相对于Params Server通信结构消除了带宽瓶颈。

技术研发人员：谢远东;梁家恩
受保护的技术使用者：云知声智能科技股份有限公司;厦门云知芯智能科技有限公司
技术研发日：2020.12.17
技术公布日：2021.03.19

完整全部详细技术资料下载

当前第2页1 2