一种模型训练数据的更新方法和装置与流程

文档序号：31697342发布日期：2022-10-01 06:08阅读：116来源：国知局

1.本发明涉及计算机技术领域，尤其涉及一种模型训练数据的更新方法和装置。

背景技术：

2.在搜索、广告、推荐等业场景中，广泛使用了点击率预估模型，点击率预估模型需要的巨大规模的训练样本，训练样本为高维的稀疏参数。由于稀疏参数的量级大，一般无法在一台机器上储存训练需要的完整稀疏参数，同时由于每次训练过程中只会涉及到部分的稀疏参数，目前的方案是采用远端参数服务器架构对稀疏参数进行分布式存储，从而实现对超大规模稀疏参数的存储。对于参数服务器架构，集群中的节点分为训练器节点和参数服务器节点两种角色，其中每个训练器节点保存相同的模型计算图副本并负责模型计算，每个参数服务器节点存储不同的模型稀疏参数并负责稀疏参数的更新。训练器节点和参数服务器节点采用全连接的通信模式，训练器在需要使用特定稀疏参数时，会通过网络去拉取参数服务器上的稀疏参数数据，然后在训练器进行训练，最后将计算得到的梯度更新数据到远端参数服务器上。其中拉取和更新的耗时情况主要取决于网络带宽的大小，训练的耗时主要取决于训练器的硬件能力和深度学习模型的复杂程度。
3.在实现本发明过程中，发明人发现现有技术中至少存在如下问题：
4.拉取和更新的网络通信速率低，数据传输所耗费的时间较长，模型的训练效率低，训练器资源的使用效率低。

技术实现要素：

5.有鉴于此，本发明实施例提供一种模型训练数据的更新方法和装置，能够提高拉取和更新的通信速率，降低数据传输所耗费的时间，提高模型的训练效率和训练器资源的使用效率。
6.为实现上述目的，根据本发明实施例的一个方面，提供了一种模型训练数据的更新方法。
7.一种模型训练数据的更新方法，包括：响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至所述每个训练器节点的第二参数服务器中，所述第二参数服务器的访问速度高于所述第一参数服务器的访问速度；对所述每个训练器节点，从目标训练器节点的第二参数服务器和除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取所述模型训练数据；使用所获取的模型训练数据，通过所述目标训练器节点的训练器对模型进行训练，生成训练结果；将所述训练结果保存至所述目标训练器节点的第一参数服务器和所述非目标训练器节点的第一参数服务器中，以使所述每个训练器节点根据所述训练结果更新所述模型训练数据。
8.可选地，所述更新请求包括模型训练数据标识，所述响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至所述每个训练器节点的第二参数服务器中，包括：根据所述模型训练数据标识，分别将所述每个训练器节点
的第一参数服务器中与所述模型训练数据标识对应的模型训练数据缓存至所述每个训练器节点的第二参数服务器中。
9.可选地，所述第二参数服务器为高带宽内存参数服务器，不同训练器节点的第二参数服务器之间通过多对多通信模式进行通信，从除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取所述模型训练数据，包括：根据所述模型训练数据标识，通过所述多对多通信模式从除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取与所述模型训练数据标识对应的模型训练数据。
10.可选地，在同一所述训练器节点中，所述第一参数服务器和所述第二参数服务器通过点对点通信模式进行通信，所述将每个训练器节点的第一参数服务器中的模型训练数据缓存至所述每个训练器节点的第二参数服务器中，包括：根据所述模型训练数据标识，通过所述点对点通信模式将所述每个训练器节点的第一参数服务器中与所述模型训练数据标识对应的模型训练数据缓存至所述每个训练器节点的第二参数服务器中。
11.可选地，将所述训练结果保存至所述非目标训练器节点的第一参数服务器中，包括：根据所述模型训练数据标识，通过所述多对多通信模式将所述训练结果保存至所述非目标训练器节点的第二参数服务器中；通过所述点对点通信模式将所述非目标训练器节点的第二参数服务器中的训练结果保存至非目标训练器节点的第一参数服务器中。
12.可选地，所述使用所获取的模型训练数据，通过所述目标训练器节点的训练器对模型进行训练，生成训练结果，包括：对所获取的模型训练数据进行分批得到分批训练数据；分别使用每一分批训练数据，通过所述目标训练器节点的训练器对所述模型进行训练，生成分批训练结果；对所述分批训练结果进行汇总得到所述训练结果。
13.可选地，所述更新请求包括多个批次的模型训练数据标识；所述从目标训练器节点的第二参数服务器和除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取所述模型训练数据，包括：根据每个批次的模型训练数据标识，分别从目标训练器节点的第二参数服务器和除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取每个批次的模型训练数据作为分批训练数据；所述使用所获取的模型训练数据，通过所述目标训练器节点的训练器对模型进行训练，生成训练结果，包括：分别使用每一分批训练数据，通过所述目标训练器节点的训练器对所述模型进行训练，生成分批训练结果；对所述分批训练结果进行汇总得到所述训练结果。
14.根据本发明实施例的另一方面，提供了一种模型训练数据的更新方法。
15.一种模型训练数据的更新方法，包括：响应于模型训练数据的更新请求，将第一参数服务器中的模型训练数据缓存至第二参数服务器中，所述第二参数服务器与所述第一参数服务器位于同一训练器节点，且所述第二参数服务器的访问速度高于所述第一参数服务器的访问速度；从所述第二参数服务器和与本训练器节点不同的第一训练器节点的第二参数服务器中获取所述模型训练数据；使用所获取的模型训练数据，通过训练器对模型进行训练，生成训练结果；将所述训练结果保存至所述第一参数服务器和所述第一训练器节点的第一参数服务器中，以使每个训练器节点根据所述训练结果更新所述模型训练数据。
16.可选地，所述更新请求包括模型训练数据标识，所述响应于模型训练数据的更新请求，将第一参数服务器中的模型训练数据缓存至第二参数服务器中，包括：根据所述模型训练数据标识，将第一参数服务器中与所述模型训练数据标识对应的模型训练数据缓存至
第二参数服务器中。
17.可选地，所述第二参数服务器为高带宽内存参数服务器，不同训练器节点的第二参数服务器之间通过多对多通信模式进行通信，从与本训练器节点不同的第一训练器节点的第二参数服务器中获取所述模型训练数据，包括：根据所述模型训练数据标识，通过所述多对多通信模式从所述第一训练器节点的第二参数服务器中获取与所述模型训练数据标识对应的模型训练数据。
18.可选地，在同一所述训练器节点中，所述第一参数服务器和所述第二参数服务器通过点对点通信模式进行通信，所述将第一参数服务器中的模型训练数据缓存至第二参数服务器中，包括：根据所述模型训练数据标识，通过所述点对点通信模式将所述第一参数服务器中与所述模型训练数据标识对应的模型训练数据缓存至所述第二参数服务器中。
19.可选地，将所述训练结果保存至所述第一训练器节点的第一参数服务器中，包括：根据所述模型训练数据标识，通过所述多对多通信模式将所述训练结果保存至所述第一训练器节点的第二参数服务器中，以使所述第一训练器节点通过所述点对点通信模式将所述第一训练器节点的第二参数服务器中的训练结果保存至所述第一训练器节点的第一参数服务器中。
20.可选地，所述使用所获取的模型训练数据，通过训练器对模型进行训练，生成训练结果，包括：对所获取的模型训练数据进行分批得到分批训练数据；分别使用每一分批训练数据，通过训练器对所述模型进行训练，生成分批训练结果；对所述分批训练结果进行汇总得到所述训练结果。
21.可选地，所述更新请求包括多个批次的模型训练数据标识；所述从所述第二参数服务器和与本训练器节点不同的第一训练器节点的第二参数服务器中获取所述模型训练数据，包括：根据每个批次的模型训练数据标识，分别从所述第二参数服务器和所述第一训练器节点的第二参数服务器中获取每个批次的模型训练数据作为分批训练数据；所述使用所获取的模型训练数据，通过训练器对模型进行训练，生成训练结果，包括：分别使用每一分批训练数据，通过所述训练器对所述模型进行训练，生成分批训练结果；对所述分批训练结果进行汇总得到所述训练结果。
22.根据本发明实施例的又一方面，提供了一种模型训练数据的更新装置。
23.一种模型训练数据的更新装置，包括：第一模型训练数据缓存模块，用于响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至所述每个训练器节点的第二参数服务器中，所述第二参数服务器的访问速度高于所述第一参数服务器的访问速度；第一模型训练数据获取模块，用于对所述每个训练器节点，从目标训练器节点的第二参数服务器和除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取所述模型训练数据；第一训练结果生成模块，用于使用所获取的模型训练数据，通过所述目标训练器节点的训练器对模型进行训练，生成训练结果；第一模型训练数据更新模块，用于将所述训练结果保存至所述目标训练器节点的第一参数服务器和所述非目标训练器节点的第一参数服务器中，以使所述每个训练器节点根据所述训练结果更新所述模型训练数据。
24.可选地，所述更新请求包括模型训练数据标识，所述第一模型训练数据缓存模块还用于：根据所述模型训练数据标识，分别将所述每个训练器节点的第一参数服务器中与
所述模型训练数据标识对应的模型训练数据缓存至所述每个训练器节点的第二参数服务器中。
25.可选地，所述第二参数服务器为高带宽内存参数服务器，不同训练器节点的第二参数服务器之间通过多对多通信模式进行通信，所述第一模型训练数据获取模块还用于：根据所述模型训练数据标识，通过所述多对多通信模式从除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取与所述模型训练数据标识对应的模型训练数据。
26.可选地，在同一所述训练器节点中，所述第一参数服务器和所述第二参数服务器通过点对点通信模式进行通信，所述第一模型训练数据缓存模块还用于：根据所述模型训练数据标识，通过所述点对点通信模式将所述每个训练器节点的第一参数服务器中与所述模型训练数据标识对应的模型训练数据缓存至所述每个训练器节点的第二参数服务器中。
27.可选地，所述第一模型训练数据更新模块还用于：根据所述模型训练数据标识，通过所述多对多通信模式将所述训练结果保存至所述非目标训练器节点的第二参数服务器中；通过所述点对点通信模式将所述非目标训练器节点的第二参数服务器中的训练结果保存至非目标训练器节点的第一参数服务器中。
28.可选地，所述第一训练结果生成模块还用于：对所获取的模型训练数据进行分批得到分批训练数据；分别使用每一分批训练数据，通过所述目标训练器节点的训练器对所述模型进行训练，生成分批训练结果；对所述分批训练结果进行汇总得到所述训练结果。
29.可选地，所述更新请求包括多个批次的模型训练数据标识；所述第一模型训练数据获取模块还用于：根据每个批次的模型训练数据标识，分别从目标训练器节点的第二参数服务器和除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取每个批次的模型训练数据作为分批训练数据；所述第一训练结果生成模块还用于：分别使用每一分批训练数据，通过所述目标训练器节点的训练器对所述模型进行训练，生成分批训练结果；对所述分批训练结果进行汇总得到所述训练结果。
30.根据本发明实施例的又一方面，提供了一种模型训练数据的更新装置。
31.一种模型训练数据的更新装置，包括：第二模型训练数据缓存模块，用于响应于模型训练数据的更新请求，将第一参数服务器中的模型训练数据缓存至第二参数服务器中，所述第二参数服务器与所述第一参数服务器位于同一训练器节点，且所述第二参数服务器的访问速度高于所述第一参数服务器的访问速度；第二模型训练数据获取模块，用于从所述第二参数服务器和与本训练器节点不同的第一训练器节点的第二参数服务器中获取所述模型训练数据；第二训练结果生成模块，用于使用所获取的模型训练数据，通过训练器对模型进行训练，生成训练结果；第二模型训练数据更新模块，用于将所述训练结果保存至所述第一参数服务器和所述第一训练器节点的第一参数服务器中，以使每个训练器节点根据所述训练结果更新所述模型训练数据。
32.可选地，所述更新请求包括模型训练数据标识，所述第二模型训练数据缓存模块还用于：根据所述模型训练数据标识，将第一参数服务器中与所述模型训练数据标识对应的模型训练数据缓存至第二参数服务器中。
33.可选地，所述第二参数服务器为高带宽内存参数服务器，不同训练器节点的第二参数服务器之间通过多对多通信模式进行通信，所述第二模型训练数据获取模块还用于：根据所述模型训练数据标识，通过所述多对多通信模式从所述第一训练器节点的第二参数
服务器中获取与所述模型训练数据标识对应的模型训练数据。
34.可选地，在同一所述训练器节点中，所述第一参数服务器和所述第二参数服务器通过点对点通信模式进行通信，所述第二模型训练数据缓存模块还用于：根据所述模型训练数据标识，通过所述点对点通信模式将所述第一参数服务器中与所述模型训练数据标识对应的模型训练数据缓存至所述第二参数服务器中。
35.可选地，所述第二模型训练数据更新模块还用于：根据所述模型训练数据标识，通过所述多对多通信模式将所述训练结果保存至所述第一训练器节点的第二参数服务器中，以使所述第一训练器节点通过所述点对点通信模式将所述第一训练器节点的第二参数服务器中的训练结果保存至所述第一训练器节点的第一参数服务器中。
36.可选地，所述第二训练结果生成模块还用于：对所获取的模型训练数据进行分批得到分批训练数据；分别使用每一分批训练数据，通过训练器对所述模型进行训练，生成分批训练结果；对所述分批训练结果进行汇总得到所述训练结果。
37.可选地，所述更新请求包括多个批次的模型训练数据标识；所述第二模型训练数据获取模块还用于：根据每个批次的模型训练数据标识，分别从所述第二参数服务器和所述第一训练器节点的第二参数服务器中获取每个批次的模型训练数据作为分批训练数据；所述第二训练结果生成模块还用于：分别使用每一分批训练数据，通过所述训练器对所述模型进行训练，生成分批训练结果；对所述分批训练结果进行汇总得到所述训练结果。
38.根据本发明实施例的又一方面，提供了一种电子设备。
39.一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明实施例所提供的模型训练数据的更新方法。
40.根据本发明实施例的又一方面，提供了一种计算机可读介质。
41.一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例所提供的模型训练数据的更新方法。
42.上述发明中的一个实施例具有如下优点或有益效果：通过响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至每个训练器节点的第二参数服务器中，第二参数服务器的访问速度高于第一参数服务器的访问速度；对每个训练器节点，从目标训练器节点的第二参数服务器和除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取模型训练数据；使用所获取的模型训练数据，通过目标训练器节点的训练器对模型进行训练，生成训练结果；将训练结果保存至目标训练器节点的第一参数服务器和非目标训练器节点的第一参数服务器中，以使每个训练器节点根据训练结果更新模型训练数据的技术方案，能够提高拉取和更新的通信速率，降低数据传输所耗费的时间，提高模型的训练效率和训练器资源的使用效率。
43.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
44.附图用于更好地理解本发明，不构成对本发明的不当限定。其中：
45.图1是根据本发明一个实施例的模型训练数据的更新方法的主要步骤示意图；
46.图2是根据本发明另一个实施例的模型训练数据的更新方法的主要步骤示意图；
47.图3是根据本发明一个实施例的模型训练数据的更新方法的架构示意图；
48.图4是根据本发明一个实施例的多对多通信模式的架构示意图；
49.图5是根据本发明一个实施例的模型训练数据的更新方法的流程示意图；
50.图6是根据本发明一个实施例的模型训练数据的更新装置的主要模块示意图；
51.图7是根据本发明另一个实施例的模型训练数据的更新装置的主要模块示意图；
52.图8是本发明实施例可以应用于其中的示例性系统架构图；
53.图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
54.以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
55.图1是根据本发明一个实施例的模型训练数据的更新方法的主要步骤示意图。
56.如图1所示，本发明一个实施例的模型训练数据的更新方法主要包括如下的步骤s101至步骤s104。
57.步骤s101：响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至每个训练器节点的第二参数服务器中。
58.第二参数服务器的访问速度高于第一参数服务器的访问速度。其中，第一参数服务器可以为cpu参数服务器，第二参数服务器可以为高带宽内存参数服务器，cpu参数服务器之间通过网络带宽进行通信，高带宽内存参数服务器之间可以通过多对多通信模式进行通信，多对多通信模式的访问速度高于网络带宽的访问速度。
59.更新请求可以包括模型训练数据标识。
60.更新请求还可以包括多个批次的模型训练数据标识。
61.响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至每个训练器节点的第二参数服务器中，可以包括：根据模型训练数据标识，分别将每个训练器节点的第一参数服务器中与模型训练数据标识对应的模型训练数据缓存至每个训练器节点的第二参数服务器中。
62.在同一训练器节点中，第一参数服务器和第二参数服务器可以通过点对点通信模式进行通信。
63.将每个训练器节点的第一参数服务器中的模型训练数据缓存至每个训练器节点的第二参数服务器中，可以包括：根据模型训练数据标识，通过点对点通信模式将每个训练器节点的第一参数服务器中与模型训练数据标识对应的模型训练数据缓存至每个训练器节点的第二参数服务器中。
64.步骤s102：对每个训练器节点，从目标训练器节点的第二参数服务器和除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取模型训练数据。其中，可以将一个需要进行模型训练的训练器节点作为目标训练器节点，除目标训练器节点之外的训练
器节点作为非目标训练器节点。
65.第二参数服务器可以为高带宽内存参数服务器，不同训练器节点的第二参数服务器之间可以通过多对多通信模式进行通信。
66.从除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取模型训练数据，可以包括：根据模型训练数据标识，通过多对多通信模式从除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取与模型训练数据标识对应的模型训练数据。
67.从目标训练器节点的第二参数服务器和除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取模型训练数据，可以包括：根据每个批次的模型训练数据标识，分别从目标训练器节点的第二参数服务器和除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取每个批次的模型训练数据作为分批训练数据。
68.步骤s103：使用所获取的模型训练数据，通过目标训练器节点的训练器对模型进行训练，生成训练结果。其中，模型可以为点击率预估模型。
69.使用所获取的模型训练数据，通过目标训练器节点的训练器对模型进行训练，生成训练结果，可以包括：对所获取的模型训练数据进行分批得到分批训练数据；分别使用每一分批训练数据，通过目标训练器节点的训练器对模型进行训练，生成分批训练结果；对分批训练结果进行汇总得到训练结果。
70.使用所获取的模型训练数据，通过目标训练器节点的训练器对模型进行训练，生成训练结果，可以包括：分别使用每一分批训练数据，通过目标训练器节点的训练器对模型进行训练，生成分批训练结果；对分批训练结果进行汇总得到训练结果。
71.步骤s104：将训练结果保存至目标训练器节点的第一参数服务器和非目标训练器节点的第一参数服务器中，以使每个训练器节点根据训练结果更新模型训练数据。
72.将训练结果保存至非目标训练器节点的第一参数服务器中，可以包括：根据模型训练数据标识，通过多对多通信模式将训练结果保存至非目标训练器节点的第二参数服务器中；通过点对点通信模式将非目标训练器节点的第二参数服务器中的训练结果保存至非目标训练器节点的第一参数服务器中。
73.图2是根据本发明另一个实施例的模型训练数据的更新方法的主要步骤示意图。
74.如图2所示，本发明另一个实施例的模型训练数据的更新方法主要包括如下的步骤s201至步骤s204。
75.步骤s201：响应于模型训练数据的更新请求，将第一参数服务器中的模型训练数据缓存至第二参数服务器中，第二参数服务器与第一参数服务器位于同一训练器节点，且第二参数服务器的访问速度高于第一参数服务器的访问速度。
76.更新请求可以包括模型训练数据标识。
77.更新请求还可以包括多个批次的模型训练数据标识。
78.响应于模型训练数据的更新请求，将第一参数服务器中的模型训练数据缓存至第二参数服务器中，可以包括：根据模型训练数据标识，将第一参数服务器中与模型训练数据标识对应的模型训练数据缓存至第二参数服务器中。
79.在同一训练器节点中，第一参数服务器和第二参数服务器可以通过点对点通信模式进行通信。
80.将第一参数服务器中的模型训练数据缓存至第二参数服务器中，可以包括：根据
模型训练数据标识，通过点对点通信模式将第一参数服务器中与模型训练数据标识对应的模型训练数据缓存至第二参数服务器中。
81.步骤s202：从第二参数服务器和与本训练器节点不同的第一训练器节点的第二参数服务器中获取模型训练数据。
82.第二参数服务器可以为高带宽内存参数服务器，不同训练器节点的第二参数服务器之间可以通过多对多通信模式进行通信。
83.从与本训练器节点不同的第一训练器节点的第二参数服务器中获取模型训练数据，可以包括：根据模型训练数据标识，通过多对多通信模式从第一训练器节点的第二参数服务器中获取与模型训练数据标识对应的模型训练数据。
84.从第二参数服务器和与本训练器节点不同的第一训练器节点的第二参数服务器中获取模型训练数据，可以包括：根据每个批次的模型训练数据标识，分别从第二参数服务器和第一训练器节点的第二参数服务器中获取每个批次的模型训练数据作为分批训练数据。
85.步骤s203：使用所获取的模型训练数据，通过训练器对模型进行训练，生成训练结果。
86.使用所获取的模型训练数据，通过训练器对模型进行训练，生成训练结果，可以包括：对所获取的模型训练数据进行分批得到分批训练数据；分别使用每一分批训练数据，通过训练器对模型进行训练，生成分批训练结果；对分批训练结果进行汇总得到训练结果。
87.使用所获取的模型训练数据，通过训练器对模型进行训练，生成训练结果，可以包括：分别使用每一分批训练数据，通过训练器对模型进行训练，生成分批训练结果；对分批训练结果进行汇总得到训练结果。
88.步骤s204：将训练结果保存至第一参数服务器和第一训练器节点的第一参数服务器中，以使每个训练器节点根据训练结果更新模型训练数据。
89.将训练结果保存至第一训练器节点的第一参数服务器中，可以包括：根据模型训练数据标识，通过多对多通信模式将训练结果保存至第一训练器节点的第二参数服务器中，以使第一训练器节点通过点对点通信模式将第一训练器节点的第二参数服务器中的训练结果保存至第一训练器节点的第一参数服务器中。
90.图3是根据本发明一个实施例的模型训练数据的更新方法的架构示意图。
91.如图3所示，本发明实施例提出的双层参数服务器(parameter server)架构，每个训练器节点中包括一个cpu参数服务器(即第一参数服务器)、一个hbm(high bandwidth memory，高带宽内存)参数服务器(即第二参数服务器)和一个训练器(worker)。其中，cpu参数服务器(即图3中的cpu-ps)用来储存训练时需要的全部稀疏参数(即模型训练数据)，每个训练器上的cpu参数服务器仅保存其对应的一个分片(shard)的稀疏参数，比如一共有10个训练器节点，则每个训练器上的cpu参数服务器只包含1/10份的全部稀疏参数；高带宽内存参数服务器(即图3中的hbm-ps)可以为gpu(图形处理器)显存，用于在gpu上保存模型参数及辅助参数，对外提供参数拉取，参数更新，参数保存等服务。在训练模型的时候，hbm-ps会提前从cpu-ps中拉取训练模型所需要的预设数量的批次的稀疏参数并缓存，如果需要拉取的稀疏参数不存在于当前的训练器节点，则通过多对多通信模式从其它训练器节点中的hbm-ps中获取稀疏参数，以及将其它训练器需要的稀疏参数传输至其它hbm-ps中；训练器
在分布式训练架构中负责执行计算，可以通过gpu实现。
92.图4是根据本发明一个实施例的多对多通信模式的架构示意图。
93.如图4所示，在一个实施例中，第二参数服务器采用的多对多通信模式可以为all2all通信模式(多对多的网络通信模式)，即多gpu之间互联互通，可以通过gpu-gpu之间传输数据，无需要通过cpu-网卡-gpu模式进行数据交互。对于all2all通信，各个gpu间可以直接互联互通，不需要通过cpu进行交互。同一训练器节点中多张gpu卡使用nvidia(英伟达)的nvlink进行互联，不同训练器节点的gpu卡则是采用gdr(gpu direct rdma，gpu高速直连通信)进行通信，通过使用nvlink和gdr技术，可以实现gpu卡之间能够高效的all2all通信，例如在a100型号的gpu中，nvlink和gdr通信带宽比通过cpu网络通信带宽会高一个数量级。其中，nvlink是英伟达开发并推出的一种总线及其通信协议，nvlink采用点对点结构、串列传输，可用于多个图形处理器之间的相互连接，gdr为通过gpu直连的、一种计算机之间gpu数据传输时高吞吐、低延时的通信技术。
94.图5是根据本发明一个实施例的模型训练数据的更新方法的流程示意图。
95.在一个实施例中，响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至每个训练器节点的第二参数服务器中。具体地，第一参数服务器和第二参数服务器可以通过点对点通信模式进行通信，点对点通信可以通过pcie(peripheral component interconnect express，一种高速串行计算机扩展总线标准)连接实现。响应于模型训练数据的更新请求中的多个批次的模型训练数据标识(即稀疏特征id)，各个训练器节点通过点对点通信模式将各自的cpu-ps(即第一参数服务器)中与模型训练数据标识对应的模型训练数据(即稀疏参数)加载缓存各自的hbm-ps(即第二参数服务器)中。
96.在一个实施例中，对每个训练器节点，从目标训练器节点的第二参数服务器和除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取模型训练数据。具体地，将一个需要进行模型训练的训练器节点作为目标训练器节点，除目标训练器节点之外的训练器节点作为非目标训练器节点，那么目标训练器节点中cpu-ps中的模型训练数据已经缓存到了目标训练器节点的hbm-ps。根据模型训练数据标识，通过多对多通信模式从非目标训练器节点的hbm-ps中获取与模型训练数据标识对应的模型训练数据，并缓存至目标训练器节点的hbm-ps，从而目标训练器节点的hbm-ps中缓存了训练模型所需要的多个批次的模型训练数据(即multi batch data)。
97.在一个实施例中，对所获取的模型训练数据进行分批得到分批训练数据；分别使用每一分批训练数据，通过目标训练器节点的训练器对模型进行训练，生成分批训练结果；对分批训练结果进行汇总得到训练结果模型训练数据。具体地，目标训练器节点的训练器从multi batch data中获取一个批次(batch)的训练样本数据(batch data，批训练数据)，基于该分批训练数据对模型进行训练，得到该分批训练数据所对应的训练结果(即分批训练结果)。循环上述步骤，直至目标训练器节点的训练器完成所有批次的模型训练数据对模型的训练，对各个分批训练结果进行汇总得到所有批次的模型训练数据的训练结果。
98.在一个实施例中，将训练结果保存至目标训练器节点的第一参数服务器和非目标训练器节点的第一参数服务器中，以使每个训练器节点根据训练结果更新模型训练数据。具体地，根据模型训练数据标识，通过点对点通信模式将训练结果保存至目标训练器节点
的cpu-ps中。根据模型训练数据标识，通过多对多通信模式将训练结果保存至非目标训练器节点的hbm-ps中，并且通过点对点通信模式将非目标训练器节点的hbm-ps中的训练结果保存至非目标训练器节点的cpu-ps中。
99.本发明实施例的cpu-gpu双层参数服务器架构通过hbm-ps提前缓存了稀疏参数，训练时可以保障稀疏参数在高性能gpu上计算时快速的从hbm-ps中获取，而无需从cpu进行拷贝，也不需要通过网络从其他参数服务器进行稀疏参数拉取。可以实现稀疏参数在gpu上的高效计算和快速更新，能解决由于网络带宽等因素导致的性能瓶颈，充分利用gpu硬件的计算能力，保障模型的训练效率，提升算力资源的利用率。
100.图6是根据本发明一个实施例的模型训练数据的更新装置的主要模块示意图。
101.如图6所示，本发明一个实施例的模型训练数据的更新装置600主要包括：第一模型训练数据缓存模块601、第一模型训练数据获取模块602、第一训练结果生成模块603、第一模型训练数据更新模块604。本实施例的模型训练数据的更新装置可以通过多个训练器节点实现。
102.第一模型训练数据缓存模块601，用于响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至每个训练器节点的第二参数服务器中，第二参数服务器的访问速度高于第一参数服务器的访问速度。
103.第一模型训练数据获取模块602，用于对每个训练器节点，从目标训练器节点的第二参数服务器和除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取模型训练数据。
104.第一训练结果生成模块603，用于使用所获取的模型训练数据，通过目标训练器节点的训练器对模型进行训练，生成训练结果。
105.第一模型训练数据更新模块604，用于将训练结果保存至目标训练器节点的第一参数服务器和非目标训练器节点的第一参数服务器中，以使每个训练器节点根据训练结果更新模型训练数据。
106.在一个实施例中，更新请求可以包括模型训练数据标识，第一模型训练数据缓存模块601具体用于：根据模型训练数据标识，分别将每个训练器节点的第一参数服务器中与模型训练数据标识对应的模型训练数据缓存至每个训练器节点的第二参数服务器中。
107.在一个实施例中，第二参数服务器可以为高带宽内存参数服务器，不同训练器节点的第二参数服务器之间可以通过多对多通信模式进行通信，第一模型训练数据获取模块602具体用于：根据模型训练数据标识，通过多对多通信模式从除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取与模型训练数据标识对应的模型训练数据。
108.在一个实施例中，在同一训练器节点中，第一参数服务器和第二参数服务器可以通过点对点通信模式进行通信，第一模型训练数据缓存模块601具体用于：根据模型训练数据标识，通过点对点通信模式将每个训练器节点的第一参数服务器中与模型训练数据标识对应的模型训练数据缓存至每个训练器节点的第二参数服务器中。
109.在一个实施例中，第一模型训练数据更新模块604具体用于：根据模型训练数据标识，通过多对多通信模式将训练结果保存至非目标训练器节点的第二参数服务器中；通过点对点通信模式将非目标训练器节点的第二参数服务器中的训练结果保存至非目标训练器节点的第一参数服务器中。
110.在一个实施例中，第一训练结果生成模块603具体用于：对所获取的模型训练数据进行分批得到分批训练数据；分别使用每一分批训练数据，通过目标训练器节点的训练器对模型进行训练，生成分批训练结果；对分批训练结果进行汇总得到训练结果。
111.在一个实施例中，更新请求还可以包括多个批次的模型训练数据标识；第一模型训练数据获取模块602具体用于：根据每个批次的模型训练数据标识，分别从目标训练器节点的第二参数服务器和除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取每个批次的模型训练数据作为分批训练数据；第一训练结果生成模块603具体用于：分别使用每一分批训练数据，通过目标训练器节点的训练器对模型进行训练，生成分批训练结果；对分批训练结果进行汇总得到训练结果。
112.对于上文实施例已经介绍过的内容，本实施例不再赘述。
113.图7是根据本发明另一个实施例的模型训练数据的更新装置的主要模块示意图。
114.如图7所示，本发明另一个实施例的模型训练数据的更新装置700主要包括：第二模型训练数据缓存模块701、第二模型训练数据获取模块702、第二训练结果生成模块703、第二模型训练数据更新模块704。本实施例的模型训练数据的更新装置可以通过目标训练器节点实现。
115.第二模型训练数据缓存模块701，用于响应于模型训练数据的更新请求，将第一参数服务器中的模型训练数据缓存至第二参数服务器中，第二参数服务器与第一参数服务器位于同一训练器节点，且第二参数服务器的访问速度高于第一参数服务器的访问速度。
116.第二模型训练数据获取模块702，用于从第二参数服务器和与本训练器节点不同的第一训练器节点的第二参数服务器中获取模型训练数据。
117.第二训练结果生成模块703，用于使用所获取的模型训练数据，通过训练器对模型进行训练，生成训练结果。
118.第二模型训练数据更新模块704，用于将训练结果保存至第一参数服务器和第一训练器节点的第一参数服务器中，以使每个训练器节点根据训练结果更新模型训练数据。
119.在一个实施例中，更新请求可以包括模型训练数据标识，第二模型训练数据缓存模块701具体用于：根据模型训练数据标识，将第一参数服务器中与模型训练数据标识对应的模型训练数据缓存至第二参数服务器中。
120.在一个实施例中，第二参数服务器可以为高带宽内存参数服务器，不同训练器节点的第二参数服务器之间可以通过多对多通信模式进行通信，第二模型训练数据获取模块702具体用于：根据模型训练数据标识，通过多对多通信模式从第一训练器节点的第二参数服务器中获取与模型训练数据标识对应的模型训练数据。
121.在一个实施例中，在同一训练器节点中，第一参数服务器和第二参数服务器可以通过点对点通信模式进行通信，第二模型训练数据缓存模块701具体用于：根据模型训练数据标识，通过点对点通信模式将第一参数服务器中与模型训练数据标识对应的模型训练数据缓存至第二参数服务器中。
122.在一个实施例中，第二模型训练数据更新模块704具体用于：根据模型训练数据标识，通过多对多通信模式将训练结果保存至第一训练器节点的第二参数服务器中，以使第一训练器节点通过点对点通信模式将第一训练器节点的第二参数服务器中的训练结果保存至第一训练器节点的第一参数服务器中。
123.在一个实施例中，第二训练结果生成模块703具体用于：对所获取的模型训练数据进行分批得到分批训练数据；分别使用每一分批训练数据，通过训练器对模型进行训练，生成分批训练结果；对分批训练结果进行汇总得到训练结果。
124.在一个实施例中，更新请求还可以包括多个批次的模型训练数据标识；第二模型训练数据获取模块702具体用于：根据每个批次的模型训练数据标识，分别从第二参数服务器和第一训练器节点的第二参数服务器中获取每个批次的模型训练数据作为分批训练数据；第二训练结果生成模块703具体用于：分别使用每一分批训练数据，通过训练器对模型进行训练，生成分批训练结果；对分批训练结果进行汇总得到训练结果。
125.对于上文实施例已经介绍过的内容，本实施例不再赘述。
126.图8示出了可以应用本发明实施例的模型训练数据的更新方法或模型训练数据的更新装置的示例性系统架构800。
127.如图8所示，系统架构800可以包括终端设备801、802、803，网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
128.用户可以使用终端设备801、802、803通过网络804与服务器805交互，以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用，例如搜索类应用、广告应用、推荐类应用、数据存储类应用等(仅为示例)。
129.终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
130.服务器805可以是提供各种服务的服务器，例如对用户利用终端设备801、802、803所浏览的搜索网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的模型训练数据的更新请求等数据进行响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至每个训练器节点的第二参数服务器中，第二参数服务器的访问速度高于第一参数服务器的访问速度；对每个训练器节点，从目标训练器节点的第二参数服务器和除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取模型训练数据；使用所获取的模型训练数据，通过目标训练器节点的训练器对模型进行训练，生成训练结果；将训练结果保存至目标训练器节点的第一参数服务器和非目标训练器节点的第一参数服务器中，以使每个训练器节点根据训练结果更新模型训练数据等处理，并将处理结果(例如模型训练数据的更新结果
‑‑
仅为示例)反馈给终端设备。
131.需要说明的是，本发明实施例所提供的模型训练数据的更新方法一般由服务器805执行，相应地，模型训练数据的更新装置一般设置于服务器805中。
132.应该理解，图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
133.下面参考图9，其示出了适于用来实现本发明实施例的终端设备或服务器的计算机系统900的结构示意图。图9示出的终端设备或服务器仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
134.如图9所示，计算机系统900包括中央处理单元(cpu)901，其可以根据存储在只读存储器(rom)902中的程序或者从存储部分908加载到随机访问存储器(ram)903中的程序而执行各种适当的动作和处理。在ram 903中，还存储有系统900操作所需的各种程序和数据。
cpu 901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
135.以下部件连接至i/o接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至i/o接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。
136.特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(cpu)901执行时，执行本发明的系统中限定的上述功能。
137.需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
138.附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
139.描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬
件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一模型训练数据缓存模块、第一模型训练数据获取模块、第一训练结果生成模块、第一模型训练数据更新模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一模型训练数据缓存模块还可以被描述为“用于响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至每个训练器节点的第二参数服务器中的模块”。
140.作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至每个训练器节点的第二参数服务器中，第二参数服务器的访问速度高于第一参数服务器的访问速度；对每个训练器节点，从目标训练器节点的第二参数服务器和除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取模型训练数据；使用所获取的模型训练数据，通过目标训练器节点的训练器对模型进行训练，生成训练结果；将训练结果保存至目标训练器节点的第一参数服务器和非目标训练器节点的第一参数服务器中，以使每个训练器节点根据训练结果更新模型训练数据。
141.根据本发明实施例的技术方案，响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至每个训练器节点的第二参数服务器中，第二参数服务器的访问速度高于第一参数服务器的访问速度；对每个训练器节点，从目标训练器节点的第二参数服务器和除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取模型训练数据；使用所获取的模型训练数据，通过目标训练器节点的训练器对模型进行训练，生成训练结果；将训练结果保存至目标训练器节点的第一参数服务器和非目标训练器节点的第一参数服务器中，以使每个训练器节点根据训练结果更新模型训练数据。能够提高拉取和更新的通信速率，降低数据传输所耗费的时间，提高模型的训练效率和训练器资源的使用效率。
142.上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黎沛含邢召龙张克丰王文生刘倩欣原武军裴杨舒俊华
技术所有人：北京京东世纪贸易有限公司
我是此专利的发明人

上一篇：基于视觉和激光雷达的移动机器人导航定位方法
上一篇：一种敌草隆可湿粉生产用混合装置及其混合方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。