使用分布式系统训练分类器模型时的容错恢复系统和方法与流程

文档序号:18516761发布日期:2019-08-24 09:30阅读:来源:国知局

技术特征:

技术总结
提供了一种训练分类器的分布式系统,包括:机器学习(machine learning,简称ML)工作节点,其每个工作节点用于计算分类器模型的模型更新;参数服务器(parameter server,简称PS),配置用于并行处理以向每个ML工作节点提供所述模型,从每个ML工作节点接收模型更新,并使用每个模型更新迭代地更新模型;梯度数据集,每个梯度数据集与相应的ML工作节点相关联,存储可以指示所述计算模型更新和相应模型更新的模型更新标识(delta‑M‑ID);全局数据集,其存储:delta‑M‑ID,所述delta‑M‑ID为计算模型更新的ML工作节点的标识;用于在PS中标记新模型的模型版本(MODEL‑VERSION),其是通过将模型更新与PS中的先前的模型合并而计算得出的;模型下载数据集,其存储每一个被传输模型的ML‑worker‑ID和MODEL‑VERSION。

技术研发人员:罗马·塔扬斯基;扎克·梅拉梅德;内坦·彼得弗洛恩德;吴祖光
受保护的技术使用者:华为技术有限公司
技术研发日:2017.01.10
技术公布日:2019.08.23
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1