使用分布式系统训练分类器模型时的容错恢复系统和方法与流程

文档序号：18516761发布日期：2019-08-24 09:30阅读：来源：国知局

技术特征：

技术总结
提供了一种训练分类器的分布式系统，包括：机器学习(machine learning，简称ML)工作节点，其每个工作节点用于计算分类器模型的模型更新；参数服务器(parameter server，简称PS)，配置用于并行处理以向每个ML工作节点提供所述模型，从每个ML工作节点接收模型更新，并使用每个模型更新迭代地更新模型；梯度数据集，每个梯度数据集与相应的ML工作节点相关联，存储可以指示所述计算模型更新和相应模型更新的模型更新标识(delta‑M‑ID)；全局数据集，其存储：delta‑M‑ID，所述delta‑M‑ID为计算模型更新的ML工作节点的标识；用于在PS中标记新模型的模型版本(MODEL‑VERSION)，其是通过将模型更新与PS中的先前的模型合并而计算得出的；模型下载数据集，其存储每一个被传输模型的ML‑worker‑ID和MODEL‑VERSION。

技术研发人员：罗马·塔扬斯基;扎克·梅拉梅德;内坦·彼得弗洛恩德;吴祖光
受保护的技术使用者：华为技术有限公司
技术研发日：2017.01.10
技术公布日：2019.08.23

完整全部详细技术资料下载

当前第2页1 2