一种模型训练数据的更新方法和装置与流程

文档序号:31697342发布日期:2022-10-01 06:08阅读:来源:国知局

技术特征:
1.一种模型训练数据的更新方法,其特征在于,包括:响应于模型训练数据的更新请求,分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至所述每个训练器节点的第二参数服务器中,所述第二参数服务器的访问速度高于所述第一参数服务器的访问速度;对所述每个训练器节点,从目标训练器节点的第二参数服务器和除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取所述模型训练数据;使用所获取的模型训练数据,通过所述目标训练器节点的训练器对模型进行训练,生成训练结果;将所述训练结果保存至所述目标训练器节点的第一参数服务器和所述非目标训练器节点的第一参数服务器中,以使所述每个训练器节点根据所述训练结果更新所述模型训练数据。2.根据权利要求1所述的方法,其特征在于,所述更新请求包括模型训练数据标识,所述响应于模型训练数据的更新请求,分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至所述每个训练器节点的第二参数服务器中,包括:根据所述模型训练数据标识,分别将所述每个训练器节点的第一参数服务器中与所述模型训练数据标识对应的模型训练数据缓存至所述每个训练器节点的第二参数服务器中。3.根据权利要求2所述的方法,其特征在于,所述第二参数服务器为高带宽内存参数服务器,不同训练器节点的第二参数服务器之间通过多对多通信模式进行通信,从除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取所述模型训练数据,包括:根据所述模型训练数据标识,通过所述多对多通信模式从除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取与所述模型训练数据标识对应的模型训练数据。4.根据权利要求3所述的方法,其特征在于,在同一所述训练器节点中,所述第一参数服务器和所述第二参数服务器通过点对点通信模式进行通信,所述将每个训练器节点的第一参数服务器中的模型训练数据缓存至所述每个训练器节点的第二参数服务器中,包括:根据所述模型训练数据标识,通过所述点对点通信模式将所述每个训练器节点的第一参数服务器中与所述模型训练数据标识对应的模型训练数据缓存至所述每个训练器节点的第二参数服务器中。5.根据权利要求4所述的方法,其特征在于,将所述训练结果保存至所述非目标训练器节点的第一参数服务器中,包括:根据所述模型训练数据标识,通过所述多对多通信模式将所述训练结果保存至所述非目标训练器节点的第二参数服务器中;通过所述点对点通信模式将所述非目标训练器节点的第二参数服务器中的训练结果保存至非目标训练器节点的第一参数服务器中。6.根据权利要求1所述的方法,其特征在于,所述使用所获取的模型训练数据,通过所述目标训练器节点的训练器对模型进行训练,生成训练结果,包括:对所获取的模型训练数据进行分批得到分批训练数据;分别使用每一分批训练数据,通过所述目标训练器节点的训练器对所述模型进行训
练,生成分批训练结果;对所述分批训练结果进行汇总得到所述训练结果。7.根据权利要求1所述的方法,其特征在于,所述更新请求包括多个批次的模型训练数据标识;所述从目标训练器节点的第二参数服务器和除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取所述模型训练数据,包括:根据每个批次的模型训练数据标识,分别从目标训练器节点的第二参数服务器和除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取每个批次的模型训练数据作为分批训练数据;所述使用所获取的模型训练数据,通过所述目标训练器节点的训练器对模型进行训练,生成训练结果,包括:分别使用每一分批训练数据,通过所述目标训练器节点的训练器对所述模型进行训练,生成分批训练结果;对所述分批训练结果进行汇总得到所述训练结果。8.一种模型训练数据的更新方法,其特征在于,包括:响应于模型训练数据的更新请求,将第一参数服务器中的模型训练数据缓存至第二参数服务器中,所述第二参数服务器与所述第一参数服务器位于同一训练器节点,且所述第二参数服务器的访问速度高于所述第一参数服务器的访问速度;从所述第二参数服务器和与本训练器节点不同的第一训练器节点的第二参数服务器中获取所述模型训练数据;使用所获取的模型训练数据,通过训练器对模型进行训练,生成训练结果;将所述训练结果保存至所述第一参数服务器和所述第一训练器节点的第一参数服务器中,以使每个训练器节点根据所述训练结果更新所述模型训练数据。9.根据权利要求8所述的方法,其特征在于,所述更新请求包括模型训练数据标识,所述响应于模型训练数据的更新请求,将第一参数服务器中的模型训练数据缓存至第二参数服务器中,包括:根据所述模型训练数据标识,将第一参数服务器中与所述模型训练数据标识对应的模型训练数据缓存至第二参数服务器中。10.根据权利要求9所述的方法,其特征在于,所述第二参数服务器为高带宽内存参数服务器,不同训练器节点的第二参数服务器之间通过多对多通信模式进行通信,从与本训练器节点不同的第一训练器节点的第二参数服务器中获取所述模型训练数据,包括:根据所述模型训练数据标识,通过所述多对多通信模式从所述第一训练器节点的第二参数服务器中获取与所述模型训练数据标识对应的模型训练数据。11.根据权利要求10所述的方法,其特征在于,在同一所述训练器节点中,所述第一参数服务器和所述第二参数服务器通过点对点通信模式进行通信,所述将第一参数服务器中的模型训练数据缓存至第二参数服务器中,包括:根据所述模型训练数据标识,通过所述点对点通信模式将所述第一参数服务器中与所述模型训练数据标识对应的模型训练数据缓存至所述第二参数服务器中。12.根据权利要求11所述的方法,其特征在于,将所述训练结果保存至所述第一训练器
节点的第一参数服务器中,包括:根据所述模型训练数据标识,通过所述多对多通信模式将所述训练结果保存至所述第一训练器节点的第二参数服务器中,以使所述第一训练器节点通过所述点对点通信模式将所述第一训练器节点的第二参数服务器中的训练结果保存至所述第一训练器节点的第一参数服务器中。13.根据权利要求8所述的方法,其特征在于,所述使用所获取的模型训练数据,通过训练器对模型进行训练,生成训练结果,包括:对所获取的模型训练数据进行分批得到分批训练数据;分别使用每一分批训练数据,通过训练器对所述模型进行训练,生成分批训练结果;对所述分批训练结果进行汇总得到所述训练结果。14.根据权利要求8所述的方法,其特征在于,所述更新请求包括多个批次的模型训练数据标识;所述从所述第二参数服务器和与本训练器节点不同的第一训练器节点的第二参数服务器中获取所述模型训练数据,包括:根据每个批次的模型训练数据标识,分别从所述第二参数服务器和所述第一训练器节点的第二参数服务器中获取每个批次的模型训练数据作为分批训练数据;所述使用所获取的模型训练数据,通过训练器对模型进行训练,生成训练结果,包括:分别使用每一分批训练数据,通过所述训练器对所述模型进行训练,生成分批训练结果;对所述分批训练结果进行汇总得到所述训练结果。15.一种模型训练数据的更新装置,其特征在于,包括:第一模型训练数据缓存模块,用于响应于模型训练数据的更新请求,分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至所述每个训练器节点的第二参数服务器中,所述第二参数服务器的访问速度高于所述第一参数服务器的访问速度;第一模型训练数据获取模块,用于对所述每个训练器节点,从目标训练器节点的第二参数服务器和除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取所述模型训练数据;第一训练结果生成模块,用于使用所获取的模型训练数据,通过所述目标训练器节点的训练器对模型进行训练,生成训练结果;第一模型训练数据更新模块,用于将所述训练结果保存至所述目标训练器节点的第一参数服务器和所述非目标训练器节点的第一参数服务器中,以使所述每个训练器节点根据所述训练结果更新所述模型训练数据。16.一种模型训练数据的更新装置,其特征在于,包括:第二模型训练数据缓存模块,用于响应于模型训练数据的更新请求,将第一参数服务器中的模型训练数据缓存至第二参数服务器中,所述第二参数服务器与所述第一参数服务器位于同一训练器节点,且所述第二参数服务器的访问速度高于所述第一参数服务器的访问速度;第二模型训练数据获取模块,用于从所述第二参数服务器和与本训练器节点不同的第一训练器节点的第二参数服务器中获取所述模型训练数据;
第二训练结果生成模块,用于使用所获取的模型训练数据,通过训练器对模型进行训练,生成训练结果;第二模型训练数据更新模块,用于将所述训练结果保存至所述第一参数服务器和所述第一训练器节点的第一参数服务器中,以使每个训练器节点根据所述训练结果更新所述模型训练数据。17.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-14中任一所述的方法。18.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-14中任一所述的方法。

技术总结
本发明公开了一种模型训练数据的更新方法和装置,涉及计算机技术领域。响应于模型训练数据的更新请求,分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至每个训练器节点的第二参数服务器中;对每个训练器节点,从目标训练器节点的第二参数服务器和除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取模型训练数据;使用所获取的模型训练数据,通过目标训练器节点的训练器对模型进行训练生成训练结果;将训练结果保存至各训练器节点的第一参数服务器,以使每个训练器节点根据训练结果更新模型训练数据。该实施方式能够提高拉取和更新的通信速率,降低数据传输所耗费的时间,提高模型的训练效率和训练器资源的使用效率。器资源的使用效率。器资源的使用效率。


技术研发人员:黎沛含 邢召龙 张克丰 王文生 刘倩欣 原武军 裴杨 舒俊华
受保护的技术使用者:北京京东世纪贸易有限公司
技术研发日:2022.07.01
技术公布日:2022/9/30
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1