模型训练的方法、装置及计算机可读存储介质与流程

文档序号:28207169发布日期:2021-12-28 19:03阅读:106来源:国知局
模型训练的方法、装置及计算机可读存储介质与流程

1.本技术涉及通信领域,特别涉及一种模型训练的方法、装置及计算机可读存储介质。


背景技术:

2.对深度学习等智能算法进行训练,得到具有特定功能的智能模型,该特定功能可以为图像识别,语音识别及合成,或者,自然语言处理等功能。对智能算法进行训练就是不断地调整智能算法的超级参数的取值和普通参数的取值,使智能算法成为具有特定功能的智能模型。超级参数用于定义智能模型的结构和训练过程等,普通参数用于定义智能模型实现的功能。
3.目前可以使用计算集群来训练智能算法,使用云存储系统存储训练智能算法所需要的训练样本。在训练智能模型时,用户在计算集群中配置智能算法和至少一个超级参数。计算集群初始化每个超级参数的初始值,根据每个超级参数的初始值配置智能算法,得到第一智能模型。为第一智能模型分配资源,以及从云存储系统中调取训练数据,使用该训练数据并通过分配的资源训练第一智能模型。其中计算集群在训练第一智能模型的过程不断地调整第一智能模型的普通参数的取值,直到第一智能模型收敛或无法成功收敛时停止训练,或者,训练第一智能模型的次数达到指定次数时为止。
4.在停止训练时,计算集群获取对第一智能模型的训练结果,如果该训练结果不满足指定条件,则根据每个超级参数的当前取值和该训练结果等信息,配置每个超级参数的新取值,根据每个超级参数的新取值配置智能算法,得到第二智能模型。为第二智能模型分配资源,以及从云存储系统中调取训练数据,使用该训练数据并通过分配的资源训练第二智能模型。其中在训练第二智能模型的过程也是不断地调整第二智能模型的普通参数的取值,直到第二智能模型收敛或无法成功收敛时停止训练,或者,训练第二智能模型的次数达到指定次数时为止。
5.在停止训练第二智能模型时,计算集群仍获取对第二智能模型的训练结果,如果第二智能模型的训练结果不满足指定条件,重复上述获取第二智能模型和训练第二智能模型的过程,如果第二智能模型的训练结果满足指定条件,则第二智能模型为最终训练出的具有特定功能的模型。
6.在实现本技术的过程中,发明人发现现有技术至少存在以下问题:
7.在上述过程中,每次配置得到一个智能模型时,需要重新为该智能模型分配资源以及从云存储系统中调取训练数据,增加了耗时,降低了模型训练的效率。


技术实现要素:

8.本技术提供了一种模型训练的方法、装置及计算机可读存储介质,以提高模型训练的效率。所述技术方案如下:
9.第一方面,本技术提供了一种模型训练的方法,在所述方法中,管理节点调度第一
模型训练任务,第一模型训练任务包括第一智能模型和第一参数调整作业的作业标识,第一智能模型是基于第一参数值集合对第一参数调整作业对应的算法进行配置得到的,第一参数值集合包括第一参数调整作业对应的至少一个超级参数中的每个超级参数的第一参数值。管理节点根据该作业标识从节点集群中确定第一计算节点,第一计算节点具有第一训练数据和空闲的第一资源中的至少一个,第一资源是用于处理第一参数调整作业的模型训练任务所需的资源,第一训练数据是用于训练第一参数调整作业对应的智能模型所需的训练数据。管理节点向第一计算节点发送第一训练请求,第一训练请求包括第一模型训练任务,第一训练请求用于第一计算节点根据第一资源和第一训练数据中的至少一个,训练第一智能模型。
10.其中,管理节点确定的第一计算节点具有第一训练数据和空闲的第一资源中的至少一个,这样在第一计算节点接收到包括第一模型训练任务的第一训练请求后,可以不需要为第一模型训练任务分配第一资源和/或获取第一训练数据,从而节省了分配第一资源的时间和/或获取第一训练数据的时间,提高了训练第一智能模型的效率。
11.在一种可能的实现方式中,管理节点根据资源对应关系、数据对应关系和该作业标识,从节点集群中确定第一计算节点。其中,资源对应关系中的任一条记录包括参数调整作业的作业标识、节点集群中的计算节点的节点标识、资源标识和资源状态,该资源标识用于标识该计算节点包括的用于处理该参数调整作业的模型训练任务所需要的资源,该资源状态用于描述该资源当前是否空闲。数据对应关系中的任一条记录包括参数调整作业的作业标识、节点集群中的计算节点的节点标识和数据标识,该数据标识用于标识计算节点包括的用于训练该参数调整作业对应的智能模型所需要的训练数据。由于通过资源对应关系、数据对应关系可记录训练第一参数调整作业的上下文信息,这样在为第一参数调整作业的第一模型训练任务分配计算节点时,能够准确地确定出包括第一资源和/或第一训练数据的计算节点。
12.在另一种可能的实现方式中,管理节点根据资源对应关系、数据对应关系和作业标识,确定节点集群中包括第一训练数据和/或第一资源的n个计算节点,n为大于0的整数。管理节点在n个计算节点中存在至少一个目标节点时,从至少一个目标节点中选择一个目标节点作为第一计算节点。其中,由于目标节点包括空闲的所述第一资源,或者,目标节点包括第一训练数据和空闲的第一资源,或者,目标节点包括第一训练数据且目标节点包括的未被保护资源大小超过处理第一模型训练任务所需要的资源大小,未被保护资源是目标节点中除保护资源之外的其他资源,保护资源是已分配给参数调整作业的资源且保护资源对应的保护时间段还未结束。所以从目标节点中选择第一计算节点,可以保证第一计算节点中有第一训练数据和足够资源来训练第一智能模型,提高训练成功率。
13.在另一种可能的实现方式中,管理节点根据该作业标识确定至少一个目标节点,根据至少一个目标节点中的每个目标节点的负载信息和/或节点属性信息,从每个目标节点中选择一个目标节点作为第一计算节点。其中,目标节点包括空闲的所述第一资源,或者,目标节点包括第一训练数据和空闲的第一资源,或者,目标节点包括第一训练数据且目标节点包括的未被保护资源大小超过处理第一模型训练任务所需要的资源大小,未被保护资源是目标节点中除保护资源之外的其他资源,保护资源是已分配给参数调整作业的资源且保护资源对应的保护时间段还未结束。由于每个目标节点的负载信息和/或节点属性信
息,从每个目标节点中选择一个目标节点作为第一计算节点,这样可以满足一种或多种需求,例如,根据每个计算节点的负载信息选择第一计算节点,可以满足负载均衡的需求或节能的需求。
14.在另一种可能的实现方式中,管理节点在n个计算节点中不存在目标节点时,在第一时间段内检测n个计算节点中是否有计算节点变为目标节点,第一时间段的起始时间为调度第一模型训练任务的时间,第一时间段的时间长度为第一阈值,该n个计算节点为包括第一训练数据和/或第一资源的计算节点。管理节点在第一时间段内检测出有计算节点变为目标节点,将检测的目标节点确定为第一计算节点。其中,目标节点包括空闲的所述第一资源,或者,目标节点包括第一训练数据和空闲的第一资源,或者,目标节点包括第一训练数据且目标节点包括的未被保护资源大小超过处理第一模型训练任务所需要的资源大小,未被保护资源是目标节点中除保护资源之外的其他资源,保护资源是已分配给参数调整作业的资源且保护资源对应的保护时间段还未结束。
15.由于在n个计算节点中不存在目标节点时,不是立即为第一模型训练任务分配计算节点,而是等待第一时间段内是否有计算节点变为目标节点,如果有,将该目标节点分配给第一模型训练任务,而第一时间段往往较短,这样目标节点在处理第一模型训练任务时,可以不需要分配第一资源和/或获取第一训练数据,提高了模型训练的效率。
16.在另一种可能的实现方式中,资源对应关系中的任一条记录还包括所述资源标识所标识的资源的资源大小。管理节点在第一时间段内检测出没有计算节点变为目标节点,在第一时间段结束后,根据资源对应关系,从节点集群中确定第二计算节点,第二计算节点包括的未被保护资源大小大于处理第一模型训练任务所需要的资源大小。管理节点向第二计算节点发送第二训练请求,第二训练请求包括第一模型训练任务,第二训练请求用于第二计算节点训练第一智能模型。
17.在另一种可能的实现方式中,管理节点接收第一删除请求,第一删除请求包括计算节点的节点标识和第一资源的资源标识,第一删除请求是第一计算节点在第一保护时间段结束后发送的,第一保护时间段的起始时间是第一资源最近一次被使用的时间,第一保护时间段的时间长度为第二阈值。管理节点从该资源对应关系中删除包括第一计算节点的节点标识和第一资源的资源标识的记录。这样在第一计算节点释放第一资源时,及时更新资源对应关系,从而保证资源对应关系中保存的内容的准确性。
18.在另一种可能的实现方式中,管理节点接收第二删除请求,第二删除请求包括第一计算节点的节点标识和第一训练数据的数据标识,第二删除请求是第一计算节点在第二保护时间段结束后发送的,第二保护时间段的起始时间是第一训练数据最近一次被使用的时间,第二保护时间段的时间长度为第三阈值。管理节点从数据对应关系中删除包括第一计算节点的节点标识和第一训练数据的数据标识的记录。这样在第一计算节点删除第一训练数据时,及时更新数据对应关系,从而保证数据对应关系中保存的内容的准确性。
19.在另一种可能的实现方式中,管理节点向第一计算节点发送第三训练请求,第三训练请求包括第二模型训练任务,第二模型训练任务包括第二智能模型和第一参数调整作业的作业标识,第二模型训练任务是第一参数调整作业对应的第1批任务包括的一个模型训练任务,第二智能模型是基于第二参数值集合对该算法进行配置得到的,第二参数值集合包括每个超级参数的第二参数值,第三训练请求用于第一计算节点分配用于训练第二智
能模型的第一资源以及获取用于训练第二智能模型的第一训练数据。管理节点接收第一计算节点发送的存储请求,该存储请求包括第一训练数据的数据标识、第一资源的资源标识和资源状态。管理节点将该作业标识、第一计算节点的节点标识、第一资源的资源标识和资源状态之间的对应关系保存在资源对应关系中;以及,将该作业标识、第一计算节点的节点标识和第一训练数据的数据标识之间的对应关系保存在数据对应关系中。如此保存了训练第一参数调整作业的上下文信息,保证在训练第一参数调整作业的第i批任务时,i=2、3、
……
,可以将第i批任务分配到具有处理第一参数调整作业所需资源和/或训练数据的计算节点上。
20.第二方面,本技术提供了一种模型训练的方法,在所述方法中,计算节点接收管理节点发送的第一训练请求,第一训练请求包括第一模型训练任务,第一模型训练任务包括第一智能模型和第一参数调整作业的作业标识,第一智能模型是基于第一参数值集合对第一参数调整作业对应的算法进行配置得到的,第一参数值集合包括第一参数调整作业对应的至少一个超级参数中的每个超级参数的第一参数值,计算节点具有与第一参数调整作业绑定的第一资源和第一训练数据中的至少一个。计算节点根据该作业标识,获取第一资源和第一训练数据中的至少一个;根据第一资源和第一训练数据中的至少一个,训练第一智能模型。
21.其中,由于计算节点具有用于处理第一模型训练任务所需要的第一资源和/或第一训练数据,这样计算节点在接收到第一模型训练任务时,可以节省分配第一资源的时间和/或获取第一训练数据的时间,从而提高了训练智能模型的效率。
22.在一种可能的实现方式中,计算节点接收第三训练请求,第三训练请求包括第二模型训练任务,第二模型训练任务包括第二智能模型和第一参数调整作业的作业标识,第二模型训练任务是第一参数调整作业对应的第1批任务包括的一个模型训练任务,第二智能模型是基于第二参数值集合对该算法进行配置得到的,第二参数值集合包括每个超级参数的第二参数值。计算节点从未被保护资源中分配用于训练第二智能模型的第一资源,以及获取用于训练第二智能模型的第一训练数据,未被保护资源是计算节点中除保护资源之外的其他资源,保护资源是已分配给参数调整作业的资源且保护资源对应的保护时间段还未结束。计算节点根据第一资源和第一训练数据,训练第二智能模型。由于计算节点从未被保护资源中分配用于训练第二智能模型的第一资源,这样保证了保护资源不被占用,保护资源是用于训练其他模型训练任务的资源,保证了计算节点在接收到该其他模型训练任务时,不需要为该其他模型训练任务分配资源,提高处理其他模型训练任务的效率。
23.在另一种可能的实现方式中,计算节点发送存储请求,该存储请求包括第一训练数据的数据标识、第一资源的资源标识和资源状态,该存储请求用于管理节点将该作业标识、第一计算节点的节点标识、第一资源的资源标识和资源状态之间的对应关系保存在资源对应关系中,以及,将该作业标识、第一计算节点的节点标识和第一训练数据的数据标识之间的对应关系保存在数据对应关系中。这样可以保证管理节点保存有训练第一参数调整参数的上下文信息。
24.在另一种可能的实现方式中,计算节点在第一保护时间段结束后发送第一删除请求,第一删除请求包括第一计算节点的节点标识和第一资源的资源标识,第一保护时间段的起始时间是计算节点最近一次使用第一资源的时间,第一保护时间段的时间长度为第二
阈值,第一删除请求用于管理节点从资源对应关系中删除包括计算节点的节点标识和第一资源的资源标识的记录。这样在计算节点删除第一训练数据时,能够及时更新管理节点中的数据对应关系,从而保证数据对应关系中保存的内容的准确性。
25.在另一种可能的实现方式中,计算节点在第二保护时间段结束后发送第二删除请求,第二删除请求包括计算节点的节点标识和第一训练数据的数据标识,第二保护时间段的起始时间是计算节点最近一次使用第一训练数据的时间,第二保护时间段的时间长度为第三阈值,第二删除请求用于管理节点从数据对应关系中删除包括计算节点的节点标识和第一训练数据的数据标识的记录。这样在计算节点释放第一资源时,及时更新管理节点中的资源对应关系,从而保证资源对应关系中保存的内容的准确性。
26.第三方面,本技术提供了一种模型训练的装置,用于执行第一方面或第一方面的任意一种可能实现方式中的方法。具体地,所述装置包括用于执行第一方面或第一方面的任意一种可能实现方式的方法的单元。
27.第四方面,本技术提供了一种模型训练的装置,用于执行第二方面或第二方面的任意一种可能实现方式中的方法。具体地,所述装置包括用于执行第二方面或第二方面的任意一种可能实现方式的方法的单元。
28.第五方面,本技术提供了一种模型训练的装置,所述装置包括:处理器、存储器和网络接口。其中,所述处理器、所述存储器和所述网络接口之间可以通过总线系统相连。所述存储器用于存储一个或多个程序,所述处理器用于执行所述存储器中的一个或多个程序,使得所述装置完成第一方面或第一方面的任意可能实现方式中的方法。
29.第六方面,本技术提供了一种模型训练的装置,所述装置包括:处理器、存储器和网络接口。其中,所述处理器、所述存储器和所述网络接口之间可以通过总线系统相连。所述存储器用于存储一个或多个程序,所述处理器用于执行所述存储器中的一个或多个程序,使得所述装置完成第二方面或第二方面的任意可能实现方式中的方法。
30.第七方面,本技术提供了一种计算机可读存储介质,计算机可读存储介质中存储有程序代码,当其在计算机上运行时,使得计算机执行上述第一方面、第二方面、第一方面的任意可能实现方式或第二方面的任意可能实现方式中的方法。
31.第八方面,本技术提供了一种包含程序代码的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面、第二方面、第一方面的任意可能实现方式或第二方面的任意可能实现方式中的方法。
32.第九方面,本技术提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序,所述程序用于实现上述第一方面、第二方面、第一方面的任意可能实现方式或第二方面的任意可能实现方式中的方法。
33.第十方面,本技术提供了一种模型训练的系统,所述系统包括第三方面所述的装置和第四方面所述的装置,或者,包括第五方面所述的装置和第六方面所述的装置。
附图说明
34.图1是本技术实施例提供的一种网络架构的示意图;
35.图2是本技术实施例提供的一种模型训练的方法流程图;
36.图3是本技术实施例提供的另一种模型训练的方法流程图;
37.图4是本技术实施例提供的一种模型训练的装置结构示意图;
38.图5是本技术实施例提供的另一种模型训练的装置结构示意图;
39.图6是本技术实施例提供的另一种模型训练的装置结构示意图;
40.图7是本技术实施例提供的另一种模型训练的装置结构示意图;
41.图8是本技术实施例提供的一种模型训练的系统结构示意图。
具体实施方式
42.参见图1,本技术实施例提供了一种模型训练的系统,该系统包括管理节点、节点集群和存储系统。节点集群包括至少一个计算节点,每个计算节点包括用于训练智能模型的资源,该资源可以为中央处理器(central processing unit,cpu)、图形处理器(graphics processing unit,gpu)和内存等中的一个或多个。存储系统用于存储训练智能模型所需要的训练数据集。
43.可选的,训练数据集包括多个训练样本。
44.可选的,管理节点与节点集群中的每个计算节点之间建立有网络连接,节点集群中的每个计算节点与存储系统之间建立有网络连接。
45.可选的,用户需要该系统训练一个智能模型时,可以向管理节点提交一个参数调整作业。为了便于说明称该参数调整作业为第一参数调整作业,第一参数调整作业包括至少一个超级参数、算法、第一参数调整作业所需要的资源名称和资源大小以及第一参数调整作业所需要的训练数据集的存储位置等信息,该训练数据集包括多个训练样本。
46.管理节点接收第一参数调整作业,对于该至少一个超级参数中的每个超级参数,初始化每个超级参数的参数值,根据每个超级参数的参数值配置该算法得到智能模型,以及将该训练数据集划分成多份训练数据,每份训练数据包括的至少一个训练样本。生成第一参数调整作业对应的第一批任务,第一批任务包括至少一个模型训练任务,对于任一个模型训练任务,该模型训练任务包括该智能模型、第一参数调整作业的作业标识,该资源名称和资源大小、该训练数据集的存储位置、一份训练数据在训练数据集中的偏移和该训练数据的大小等信息。为第一批任务包括的每个模型训练任务分配计算节点,将每个模型训练任务分别发送给每个模型训练任务对应的计算节点。
47.可选的,训练数据的大小可以为该训练数据包括的训练样本数目。
48.可选的,该至少一个超级参数中的每个超级参数的参数值用于定义智能模型的结构和训练过程等。
49.对于任一个计算节点,该计算节点接收一个模型训练任务,根据该模型训练任务包括的资源名称和资源大小分配第一参数调整作业所需要的资源,以及根据该模型训练任务包括的训练数据集的存储位置和一份训练数据的偏移和大小,从存储系统中获取该份训练数据,即得到第一参数调整作业所需要的训练数据。根据该训练数据,通过分配的该资源训练该模型训练任务包括的智能模型。
50.该计算节点还将第一参数调整作业的作业标识、该训练数据的数据标识,该资源的资源标识和资源状态发送给管理节点,该资源状态为使用状态。其中,该数据标识用于在该计算节点中标识该训练数据,该资源标识用于在该计算节点中标识该资源。
51.其中,需要说明的是:计算节点分配第一参数调整作业所需要的资源后,确定该资
源的保护时间段,在该保护时间段内不会释放该资源,也不会将该资源分配给除第一参数调整作业之外的其他参数调整作业包括的模型训练任务。以及,计算节点获取第一参数调整作业所需要的训练数据后,确定该训练数据的保护时间段,在该保护时间段内不会删除该训练数据。
52.管理节点接收将第一参数调整作业的作业标识、该训练数据的数据标识,该资源的资源标识和资源状态,将第一参数调整作业的作业标识、该计算节点的节点标识、该资源的资源标识和资源状态之间的对应关系对应保存在资源对应关系中,以及将第一参数调整作业的作业标识、该计算节点的节点标识和该训练数据的数据标识之间的对应关系对应保存在数据对应关系中。
53.可选的,该计算节点在训练完该智能模型后,向管理节点发送对该智能模型的训练结果、该资源的资源标识和资源状态,该资源状态为空闲状态。管理节点接收该训练结果、该资源的资源标识和资源状态,根据该计算节点的节点标识和该资源的资源标识,从资源对应关系中获取该资源的资源状态,将该资源的资源状态更新为空闲状态。
54.管理节点可以接收分配到模型训练任务的至少一个计算节点发送的训练结果,即接收至少一个训练结果,如果该至少一个训练结果不满足指定条件,根据每个超级参数的当前取值和该至少一个训练结果等信息,配置每个超级参数的新参数值,根据每个超级参数的新参数值配置该算法,得到新智能模型。生成第一参数调整作业对应的第二批任务,第二批任务包括至少一个模型训练任务,对于任一个模型训练任务,该模型训练任务包括该新智能模型、第一参数调整作业的作业标识,该资源名称和资源大小、该训练数据集的存储位置、一份训练数据在训练数据集中的偏移和该训练数据的大小等信息。
55.管理节点根据资源对应关系和数据对应关系,为第二批任务包括的每个模型训练任务分配具有第一参数调整作业所需要的资源和/或训练数据的计算节点,且该资源的资源状态为空闲状态,向该计算节点发送一个模型训练任务。由于该计算节点中具有第一参数调整作业所需要的资源和/或训练数据,所以该计算节点接收该模型训练任务后,可以根据具有的第一参数调整作业所需要的资源和/或训练数据,训练该模型训练任务包括的智能模型,从而提高了训练模型的效率。
56.其中,当管理节点生成第一参数调整作业的第i批任务时,i=3、4、
……
,管理节点按第二批任务的处理方式,为第i批任务包括的每个模型训练任务分配计算节点。详细实现过程将在后续图3所示的实施例进行详细说明。
57.其中,为了便于说明称第i批任务中的每个模型训练任务称为第一模型训练任务,将第一模型训练任务中的智能模型称为第一智能模型。以及,将第一批任务中的每个模型训练任务称为第二模型训练任务,将第二模型训练任务中的智能模型称为第二智能模型。
58.参见图2,本技术实施例提供了一种模型训练的方法,该方法所训练的智能模型是参数调整作业对应的第一批任务中的每个模型训练任务包括的智能模型。该方法可应用于图1所示的系统,该方法包括:
59.步骤201:管理节点接收第一参数调整作业,第一参数调整作业包括至少一个超级参数、算法、第一参数调整作业所需要的资源名称和资源大小以及第一参数调整作业所需要的训练数据集的存储位置等信息。
60.用户需要训练出一个智能模型时,可以在自己对应的终端中配置第一参数调整作
业,向管理节点发送第一参数调整作业。
61.可选的,该算法可以为机器学习算法等,例如可以为神经网络算法。
62.第一参数调整作业所需要的资源名称和资源大小可以为用于处理一个模型训练任务所需要的资源名称和资源大小。
63.第一参数调整作业所需要的训练数据集包括多个训练样本。第一参数调整作业所需要的训练数据集可以保存在存储系统中。
64.步骤202:管理节点生成第一参数调整作业对应的第一批任务,第一批任务包括至少一个第二模型训练任务,对于第一批任务中的任一个第二模型训练任务,该第二模型训练任务包括第二智能模型、第一参数调整作业的作业标识,该资源名称和资源大小、该训练数据集的存储位置、一份训练数据在训练数据集中的偏移和该训练数据的大小等信息。
65.在本步骤中,对于该至少一个超级参数中的每个超级参数,管理节点配置每个超级参数的m个参数值,m为大于0的整数,得到m个第二参数值集合。根据每个第二参数值集合配置该算法得到m个第二智能模型,以及将该训练数据集划分成多份训练数据,每份训练数据包括的至少一个训练样本。
66.生成第一参数调整作业对应的m个模型训练作业,每个模型训练作业可以包括y个第二模型训练任务,y为大于1的整数。该m个模型训练作业包括的第二模型训练任务组成第一参数调整作业务的第一批任务,也就是说:第一批任务可以包括m*y个第二模型训练任务,*为乘法运算。对于任一个第二模型训练任务,该第二模型训练任务包括一个第二智能模型、第一参数调整作业的作业标识,该资源名称和资源大小、该训练数据集的存储位置、一份训练数据在训练数据集中的偏移和该份训练数据的大小等信息。
67.可选的,对于该m个第二智能模型中的任一个第二智能模型,管理节点可以为该第二智能模型生成y个第二模型训练任务,得到一个模型训练作业,该y个第二模型训练任务包括该第二智能模型。所以管理节点为每个第二智能模型生成y个第二模型训练任务,得到m个模型训练作业包括的第二模型训练任务,该m个模型训练作业包括的第二模型训练任务即为第一批任务包括的m*y个第二模型训练任务。
68.可选的,管理节点将该训练数据集划分成多份训练数据,对于任一份训练数据,该份训练数据的大小为该份训练数据包括的训练样本数目。
69.可选的,每份训练数据包括的训练样本数目可以为相等或不相等。
70.可选的,管理节点可以将该m个模型训练作业保存在调度队列中。
71.步骤203:管理节点在节点集群中为第一批任务包括的每个第二模型训练任务分配计算节点,向任一个第二模型训练任务对应的计算节点发送训练请求,该训练请求包括该第二模型训练任务。
72.在本步骤中,管理节点可以获取到计算集群中的每个计算节点包括的未被保护资源的资源大小。其中,计算节点中的未被保护资源是计算节点中除保护资源之外的其他资源,计算节点中的保护资源是计算节点已分配给参数调整作业的资源且该保护资源对应的保护时间段还未结束。对于第一批任务包括的任一个第二模型训练任务,管理节点从节点集群中选择未被保护资源的资源大小大于或等于该第二模型任务包括的资源大小的一个计算节点,向选择的计算节点发送训练请求,该训练请求包括该第二模型训练任务。
73.可选的,管理节点可以从节点集群中的每个计算节点查询每个计算节点包括的未
被保护资源的资源大小。
74.可选的,对于本步骤的实现,接下来列举一种实例进行详细说明,该实例为:
75.管理节点从调度队列中调度一个模型训练作业,从该模型训练作业包括的第二模型训练任务中调度一个第二模型训练任务。管理节点从节点集群中选择未被保护资源的资源大小大于或等于该调度的第二模型任务包括的资源大小的一个计算节点,向选择的计算节点发送训练请求,该训练请求包括该调度的第二模型训练任务。管理节点继续调度该模型训练作业包括的其他第二模型训练任务,直到调度完该模型训练作业包括的其他第二模型训练任务。
76.然后,管理节点再从调度队列中调度另一个模型训练作业,按上述方式调度该另一个模型训练作业包括的第二模型训练任务。管理节点重复上述操作,直接到调度完第一参数调整作业对应的所有模型训练作业包括的模型训练任务。
77.步骤204:计算节点接收该训练请求,该训练请求包括第二模型训练任务,获取用于处理该第二模型训练任务所需的资源和训练数据。
78.在本步骤中,计算节点接收该训练请求,该训练请求包括第二模型训练任务,该第二模型训练任务包括第二智能模型、第一参数调整作业的作业标识,该资源名称和资源大小、该训练数据集的存储位置、一份训练数据在训练数据集中的偏移和该训练数据的大小等信息。
79.计算节点根据该第二模型训练任务包括的资源名称和资源大小分配处理该第二模型训练任务所需要的资源,以及根据该第二模型训练任务包括的训练数据集的存储位置从存储系统中获取该训练数据集;根据该第二模型训练任务对应的一份训练数据在该训练数据集的偏移和该份训练数据的大小,从该训练数据集中获取处理该第二模型训练任务所需要的一份训练数据。
80.可选的,计算节点还为处理该第二模型训练任务所需要的资源分配资源标识,该资源标识在计算节点中标识该资源。将第一参数调整作业的作业标识和该资源标识对应保存在作业标识与资源标识的对应关系中。以及,
81.可选的,计算节点还为处理该第二模型训练任务所需的训练数据分配数据标识,该数据标识在计算节点中标识该训练数据。将第一参数调整作业的作业标识和该数据标识对应保存在作业标识与数据标识的对应关系中。
82.可选的,计算节点还为该资源分配第一保护时间段,第一保护时间段的起始时间是该资源被使用的时间,第一保护时间段的时间长度为第二阈值。由于分配该资源后,就会执行如下步骤205的操作来使用该资源,所以此处的第一保护时间段的起始时间等于分配该资源的时间。
83.可选的,计算节点还为该训练数据分配第二保护时间段,第二保护时间段的起始时间是该训练数据被使用的时间,第二保护时间段的时间长度为第三阈值。由于获取该训练数据后,就会执行如下步骤205的操作来使用该训练数据,所以此处的第二保护时间段的起始时间等于获取该训练数据的时间。
84.可选的,计算节点还向管理节点发送存储请求,该存储请求包括第一参数调整作业的作业标识、该训练数据的数据标识、该资源的资源标识和资源状态,该资源状态为使用状态。
85.管理节点接收该存储请求,将第一参数调整作业的作业标识、该计算节点的节点标识、该资源标识和该资源状态组成一条记录并将该条记录保存在资源对应关系中;以及,将第一参数调整作业的作业标识、该计算节点的节点标识和该训练数据的数据标识组成一条记录并将该条记录保存在数据对应关系中。
86.可选的,该存储请求还可以包括该第二模型训练任务的任务标识。相应的,上述保存到资源对应关系中的记录还包括该任务标识,上述保存到数据对应关系中的记录也还包括该任务标识。
87.例如,假设第一批任务包括第二模型训练任务1、2、3和4,管理节点为第二模型训练任务1、2、3和4分别分配计算节点1、2、3和4。管理节点向计算节点1发送训练请求1,该训练请求1包括第二模型训练任务1;向计算节点2发送训练请求2,该训练请求2包括第二模型训练任务2;向计算节点3发送训练请求3,该训练请求3包括第二模型训练任务3;向计算节点4发送训练请求4,该训练请求4包括第二模型训练任务4。
88.计算节点1接收包括第二模型训练任务1的训练请求1,根据第二模型训练任务1包括的资源名称和资源大小分配资源,以及根据第二模型训练任务1包括的训练数据集的存储位置、第二模型训练任务1对应的一份训练数据的偏移和大小,获取该一份训练数据;向管理节点发送存储请求1,该存储请求1包括第一参数调整作业的作业标识iz1、该份训练数据的数据标识id1、该资源的资源标识ir1和资源状态,该资源状态为使用状态。
89.计算节点2接收包括第二模型训练任务2的训练请求2,根据第二模型训练任务2包括的资源名称和资源大小分配资源,以及根据第二模型训练任务2包括的训练数据集的存储位置、第二模型训练任务2对应的一份训练数据的偏移和大小,获取该一份训练数据;向管理节点发送存储请求2,该存储请求2包括第一参数调整作业的作业标识iz1、该份训练数据的数据标识id2、该资源的资源标识ir2和资源状态,该资源状态为使用状态。
90.计算节点3接收包括第二模型训练任务3的训练请求3,根据第二模型训练任务3包括的资源名称和资源大小分配资源,以及根据第二模型训练任务3包括的训练数据集的存储位置、第二模型训练任务3对应的一份训练数据的偏移和大小,获取该一份训练数据;向管理节点发送存储请求3,该存储请求3包括第一参数调整作业的作业标识iz1、该份训练数据的数据标识id3、该资源的资源标识ir3和资源状态,该资源状态为使用状态。
91.计算节点4接收包括第二模型训练任务4的训练请求4,根据第二模型训练任务4包括的资源名称和资源大小分配资源,以及根据第二模型训练任务4包括的训练数据集的存储位置、第二模型训练任务4对应的一份训练数据的偏移和大小,获取该一份训练数据;向管理节点发送存储请求4,该存储请求4包括第一参数调整作业的作业标识iz1、该份训练数据的数据标识id4、该资源的资源标识ir4和资源状态,该资源状态为使用状态。
92.管理节点接收存储请求1,将计算节点1的节点标识in1、该存储请求1包括的第一参数调整作业的作业标识iz1、资源标识ir1和资源状态组成一条记录并保存在如下表1所示的资源对应关系中。接收存储请求2,将计算节点2的节点标识in2、该存储请求2包括的第一参数调整作业的作业标识iz1、资源标识ir2和资源状态组成一条记录并保存在如下表1所示的资源对应关系中。接收存储请求3,将计算节点3的节点标识in3、该存储请求3包括的第一参数调整作业的作业标识iz1、资源标识ir3和资源状态组成一条记录并保存在如下表1所示的资源对应关系中。以及,接收存储请求4,将计算节点4的节点标识in4、该存储请求4
包括的第一参数调整作业的作业标识iz1、资源标识ir4和资源状态组成一条记录并保存在如下表1所示的资源对应关系中。
93.表1
94.作业标识节点标识资源标识资源状态iiz1in1ir1使用状态iz1in2ir2使用状态iz1in3ir3使用状态iz1in4ir4使用状态
95.管理节点还将计算节点1的节点标识in1、该存储请求1包括的第一参数调整作业的作业标识iz1、数据标识id1组成一条记录并保存在如下表2所示的数据对应关系中。将计算节点2的节点标识in2、该存储请求2包括的第一参数调整作业的作业标识iz1、数据标识id2组成一条记录并保存在如下表2所示的数据对应关系中。将计算节点3的节点标识in3、该存储请求3包括的第一参数调整作业的作业标识iz1、数据标识id3组成一条记录并保存在如下表2所示的数据对应关系中。以及,将计算节点4的节点标识in4、该存储请求4包括的第一参数调整作业的作业标识iz1、数据标识id4组成一条记录并保存在如下表2所示的资源对应关系中。
96.表2
97.作业标识节点标识数据标识iz1in1id1iz1in2id2iz1in3id3iz1in4id4
98.可选的,用户需要在管理节点查询第一参数调整作业对应的计算节点、资源或训练数据等,可以在管理节点中输入第一参数调整作业的作业标识。
99.管理节点根据第一参数调整作业的作业标识,从资源对应关系中查询出第一参数调整作业对应的计算节点的节点标识、资源标识和资源状态等信息,并显示查询出的信息。和/或,管理节点根据第一参数调整作业的作业标识,从数据对应关系中查询出第一参数调整作业对应的计算节点的节点标识、数据标识等信息,并显示查询出的信息。
100.步骤205:计算节点根据该训练数据,通过该资源训练第二智能模型。
101.计算节点在训练第二智能模型的过程中不断调整第二智能模型的普通参数的参数值,第二智能模型的普通参数用于决定第二智能模型具有的功能。例如,假设需要训练出一个用于语音识别的智能模型,可以通过训练数据不断调整第二智能模型的普通参数的参数值,以使第二智能模型具有语音识别功能。
102.计算节点在训练第二智能模型的过程不断地调整第二智能模型的普通参数的参数值,直到第二智能模型收敛或无法成功收敛时停止训练,或者,训练第二智能模型的次数达到指定次数时为止。计算节点获取对第二智能模型训练的训练结果,向管理节点发送通知消息,该通知消息包括该训练结果和第一参数调整作业的作业标识。
103.其中,接收第二模型训练任务的任一个计算节点均按上述204和205的操作训练第二智能模型,并在训练结束后向管理节点发送包括训练结果和第一参数调整作业的作业标
识的通知消息。
104.管理节点接收各计算节点发送的通知消息,在每个通知消息包括的训练结果不满足指定条件,则获取第一参数调整作业对应的该至少一个超级参数中的每个超级参数的当前参数值,根据每个超级参数的当前参数值和每个通知消息包括的训练结果,重新配置每个超级参数的x个参数值,x为大于0的整数,得到x个第一参数值集合。根据每个第一参数值集合配置第一参数调整作业对应的算法得到x个第一智能模型,生成第一参数调整作业对应的x个模型训练作业,每个模型训练作业可以包括y个第一模型训练任务。该x个模型训练作业包括的第一模型训练任务组成第一参数调整作业务的第二批任务,也就是说:第二批任务包括x*y个第一模型训练任务。对于任一个第一模型训练任务,该第一模型训练任务包括一个第一智能模型、第一参数调整作业的作业标识,该资源名称和资源大小、该训练数据集的存储位置、一份训练数据在训练数据集中的偏移和该训练数据的大小等信息。接下来管理节点将第二批任务包括的每个第一模型训练任务发送到节点集群包括的计算节点中,以训练每个第一模型训练任务包括的第一智能模型,详细实现过程,参见如下图3所示的实施例,在此不再详细说明。
105.可选的,管理节点将该x个模型训练作业保存在调度队列中。
106.可选的,对于上述计算节点,计算节点在停止训练第二智能模型时,向管理节点发送更新请求,该更新请求包括第一参数调整作业的作业标识、该资源的资源标识和资源状态,该资源状态为空闲状态。管理节点接收该更新请求,根据该更新请求包括的第一参数调整作业的作业标识、该资源的资源标识和该计算节点的节点标识,将资源对应关系中的该资源的资源状态设置为空闲状态。
107.例如,对于上述计算节点1,计算节点1在停止训练第二智能模型时,向管理节点发送更新请求1,该更新请求1包括第一参数调整作业的作业标识iz1、该资源的资源标识ir1和资源状态,该资源状态为空闲状态。管理节点接收该更新请求1,根据该更新请求1包括的第一参数调整作业的作业标识iz1、该资源的资源标识ir1和该计算节点的节点标识in1,将如表1所示的资源对应关系中的该资源的资源状态设置为空闲状态,如下表3所示。
108.同样,计算节点2在停止训练第二智能模型时,向管理节点发送更新请求2,该更新请求2包括第一参数调整作业的作业标识iz1、该资源的资源标识ir2和资源状态,该资源状态为空闲状态。管理节点接收该更新请求2,根据该更新请求2包括的第一参数调整作业的作业标识iz1、该资源的资源标识ir2和该计算节点的节点标识in2,将如表1所示的资源对应关系中的该资源的资源状态设置为空闲状态,如下表3所示。
109.计算节点3在停止训练第二智能模型时,向管理节点发送更新请求3,该更新请求3包括第一参数调整作业的作业标识iz1、该资源的资源标识ir3和资源状态,该资源状态为空闲状态。管理节点接收该更新请求3,根据该更新请求3包括的第一参数调整作业的作业标识iz1、该资源的资源标识ir3和该计算节点的节点标识in3,将如表1所示的资源对应关系中的该资源的资源状态设置为空闲状态,如下表3所示。
110.计算节点4在停止训练第二智能模型时,向管理节点发送更新请求4,该更新请求4包括第一参数调整作业的作业标识iz1、该资源的资源标识ir4和资源状态,该资源状态为空闲状态。管理节点接收该更新请求4,根据该更新请求4包括的第一参数调整作业的作业标识iz1、该资源的资源标识ir4和该计算节点的节点标识in4,将如表1所示的资源对应关
系中的该资源的资源状态设置为空闲状态,如下表3所示。
111.表3
112.作业标识节点标识资源标识资源状态iiz1in1ir1空闲状态iz1in2ir2空闲状态iz1in3ir3空闲状态iz1in4ir4空闲状态
113.在本技术实施例,管理节点为第一参数调整作业对应的第一批任务包括的每个第二模型训练任务分配计算节点,计算节点获取处理第二模型训练任务所示的资源和训练数据,向管理节点发送存储请求,该存储请求包括第一参数调整作业的作业标识、该训练数据的数据标识、该资源的资源标识和资源状态。管理节点将该作业标识、该计算节点的节点标识、该资源标识和资源状态组成一条记录并保存在资源对应关系中,将该作业标识、该计算节点的节点标识和该数据标识组成一条记录并保存在数据对应关系表中。这样以便于管理节点在为第一参数调整作业对应的第i批任务包括的模型训练任务分配计算节点时,i=2、3、
……
,优先分配到包括处理第一参数调整作业的模型训练任务所需的资源和/或训练数据的计算节点,该计算节点在处理第i批任务包括的模型训练任务时,不需要再获取资源和/或训练数据,从而减小了模型训练的耗时,提高了模型训练的效率。
114.参见图3,本技术实施例提供了一种模型训练的方法,该方法所训练的智能模型是参数调整作业对应的第i批任务中的每个模型训练任务包括的智能模型,i=2、3、
……
。该方法可应用于图1所示的系统,该方法包括:
115.步骤301:管理节点调度第一模型训练任务,第一模型训练任务包括第一智能模型和第一参数调整作业的作业标识。
116.可选的,第一模型训练任务还包括处理第一模型训练任务所需要的资源名称和资源大小、第一参数调整作业对应的训练数据集的存储位置、处理第一模型训练任务所需的一份训练数据在训练数据集中的偏移和该训练数据的大小等信息。
117.可选的,管理节点的调度队列中包括第一参数调整作业对应的模型训练作业,每个模型训练作业包括至少一个第一模型训练任务,每个模型训练作业包括的第一模型训练任务组成第一参数调整作业的第i批任务。
118.在本步骤中,管理节点从调度队列中调度一个模型训练作业,从该模型训练作业包括的第一模型训练任务中调度一个第一模型训练任务。
119.对于该调度队列中的模型训练作业,该模型训练作业是通过如下方式得到的:
120.管理节点接收各计算节点发送的通知消息,根据每个通知消息包括对第一参数调整作业的一个第i-1批任务进行训练得到的训练结果。在每个通知消息包括的训练结果不满足指定条件,则获取第一参数调整作业对应的至少一个超级参数中的每个超级参数的当前参数值,根据每个超级参数的当前参数值和每个通知消息包括的训练结果,重新配置每个超级参数的x个参数值,x为大于0的整数,得到x个第一参数值集合,对于该x个第一参数值集合中的任一个第一参数值集合,该第一参数值集合包括每个超级参数的一个参数值。根据每个第一参数值集合配置第一参数调整作业对应的算法得到x个第一智能模型,生成第一参数调整作业对应的x个模型训练作业,每个模型训练作业可以包括y个第一模型训练
任务。该x个模型训练作业包括的第一模型训练任务组成第一参数调整作业务的第i批任务,也就是说:第i批任务包括x*y个第一模型训练任务。对于任一个第一模型训练任务,该第一模型训练任务包括一个第一智能模型、第一参数调整作业的作业标识,该资源名称和资源大小、该训练数据集的存储位置、一份训练数据在训练数据集中的偏移和该训练数据的大小等信息。管理节点将该x个模型训练作业保存到调度队列中。
121.步骤302:管理节点根据第一参数调整作业的作业标识从节点集群中确定第一计算节点,第一计算节点包括第一训练数据和空闲的第一资源中的至少一个,第一资源是用于处理第一参数调整作业的模型训练任务所需的资源,第一训练数据是用于训练第一参数调整作业对应的智能模型所需的训练数据。
122.可选的,管理节点根据资源对应关系、数据对应关系和第一参数调整作业的作业标识,从节点集群中确定第一计算节点。在实现时,可以通过如下3021至3022的操作来实现,该3021至3022的操作分别为:
123.3021:管理节点根据资源对应关系、数据对应关系和第一参数调整作业的作业标识,确定节点集群中包括第一训练数据和/或第一资源的n个计算节点,n为大于0的整数。
124.可选的,管理节点根据第一参数调整作业的作业标识,从资源对应关系中获取对应的每个计算节点的节点标识、每个计算节点上的第一资源的资源标识和资源状态;以及,根据第一参数调整作业的作业标识,从数据对应关系中获取对应的每个计算节点的节点标识和每个计算节点上的第一训练数据的数据标识。假设两次获取到的计算节点的节点标识数目为n,即确定出包括第一训练数据和/或第一资源的n个计算节点。
125.例如,假设调度一个第一模型训练任务,该第一模型训练任务包括一个第一智能模型、第一参数调整作业的作业标识iz1,资源名称和资源大小、训练数据集的存储位置、一份训练数据在训练数据集中的偏移和该份训练数据的大小等信息。
126.管理节点根据第一参数调整作业的作业标识iz1,从上述表3所示的资源对应关系中获取对应的计算节点1的节点标识in1、计算节点1上的第一资源的资源标识ir1和资源状态(为空闲状态),计算节点2的节点标识in2、计算节点2上的第一资源的资源标识ir2和资源状态(为空闲状态),计算节点3的节点标识in3、计算节点3上的第一资源的资源标识ir3和资源状态(为空闲状态),计算节点4的节点标识in4、计算节点4上的第一资源的资源标识ir4和资源状态(为空闲状态)。以及,
127.管理节点根据第一参数调整作业的作业标识iz1,从上述表2所示的数据对应关系中获取对应的计算节点1的节点标识in1和计算节点1上的第一训练数据的数据标识id1,计算节点2的节点标识in2和计算节点2上的第一训练数据的数据标识id2,计算节点3的节点标识in3和计算节点3上的第一训练数据的数据标识id3,计算节点4的节点标识in4和计算节点4上的第一训练数据的数据标识id4。两次获取到4个计算节点的节点标识,即确定出包括第一训练数据和/或第一资源的计算节点1、2、3和4。
128.3022:管理节点在该n个计算节点中存在至少一个目标节点时,从该至少一个目标节点中选择一个目标节点作为第一计算节点。
129.其中,目标节点包括空闲的第一资源,或者,目标节点包括第一训练数据和空闲的第一资源,或者,目标节点包括第一训练数据且目标节点包括的未被保护资源大小超过处理第一模型训练任务所需要的资源大小,未被保护资源是目标节点中除保护资源之外的其
他资源,保护资源是已分配给参数调整作业的资源且保护资源对应的保护时间段还未结束。
130.例如,计算节点1、2、3和4包括第一训练数据和/或空闲的第一资源,管理节点可以从计算节点1、2、3和4中选择计算节点1作为第一计算节点。
131.在本操作中,管理节点根据该至少一个目标节点中的每个目标节点的负载信息和/或节点属性信息,从每个目标节点中选择一个目标节点作为第一计算节点。
132.可选的,管理节点根据每个目标节点的负载信息和/或节点属性信息,对每个目标节点进行打分,从每个目标节点中选择分数最高的一个目标节点作为第一计算节点,或者,选择分数超过分数阈值的一个目标节点作为第一计算节点。
133.可选的,管理节点按指定规则对每个目标节点进行打分。该指定规则对应一个需求,不同需求,有不同规则来打分。
134.例如,希望节点集群中的各计算节点的负载均衡,指定规则定义了计算节点的负载越轻,为该计算节点打分的分数越高,计算节点的负载越高,为该计算节点打分的分数越低。
135.再如,希望节点集群中的负载集中在一个或多个节点,以关闭无负载的节点,达到节能的目的,指定规则定义了计算节点的负载越重,为该计算节点打分的分数越高,计算节点的负载越轻,为该计算节点打分的分数越低。
136.可选的,管理节点具有延迟调度功能,使得在n个计算节点中不存在目标节点时,不是立即从整个节点集群中为第一模型训练任务分配计算节点。而是在n个计算节点中不存在目标节点时,在第一时间段内检测n个计算节点中是否有计算节点变为目标节点,第一时间段的起始时间为调度第一模型训练任务的时间,第一时间段的时间长度为第一阈值,如果在第一时间段内检测出有计算节点变为目标节点,将检测的目标节点确定为第一计算节点。这样还是将具有空闲第一资源和/或第一训练数据的计算节点分配给第一训练任务,以省去计算节点为第一模型训练任务分配资源的耗时和/或获取训练数据的耗时,提高了模型训练的效率。
137.如果在第一时间段内检测出没有计算节点变为目标节点,在第一时间段结束后,从节点集群中确定第二计算节点,第二计算节点包括的未被保护资源大小大于处理第一模型训练任务所需要的资源大小。
138.可选的,上述第一阈值可以是管理员事先在管理节点中配置的。
139.可选的,管理节点从该模型训练作业包括的第一模型训练任务中调度下一个第一模型训练任务,重复的执行本步骤,直至调度完该模型训练作业包括的各第一模型训练任务。然后执行如下步骤303的操作。
140.步骤303:管理节点向第一计算节点发送第一训练请求,第一训练请求包括第一模型训练任务。
141.可选的,在第一计算节点包括空闲的第一资源时,第一训练请求还包括第一资源的资源标识。在第一计算节点包括第一训练数据和空闲的第一资源时,第一训练请求还包括第一资源的资源标识和第一训练数据的数据标识。在第一计算节点包括第一训练数据时,第一训练请求还包括第一训练数据的数据标识。
142.可选的,在步骤302中,管理节点为该模型训练作业包括的每个第一模型训练任务
确定第一计算节点,因此在步骤中,对于该模型训练作业包括的任一个第一模型训练任务,管理节点向该第一模型训练任务对应的第一计算节点发送第一训练请求,第一训练请求包括该第一模型训练任务。按本步骤的操作,管理节点向该模型训练作业包括的每个第一模型训练任务对应的第一计算节点发送第一训练请求。
143.然后,管理节点再从调度队列中调度下一个模型训练作业。管理节点再按上述步骤301至303对下一个模型训练作业包括的每个第一模型训练任务进行处理,直到调度完调度队列中的每个模型训练作业包括的各第一模型训练任务。
144.步骤304:第一计算节点根据第一训练数据,通过第一资源训练第一智能模型。
145.第一计算节点有可能是如下三种情况中的任一种,第一种,第一计算节点包括空闲的第一资源;第二种,第一计算节点包括第一训练数据和空闲的第一资源;第三种,第一计算节点包括第一训练数据且第一计算节点包括的未被保护资源大小超过处理第一模型训练任务所需要的资源大小。
146.对于上述第一种情况,第一计算节点包括空闲的第一资源,在本步骤中,第一计算节点获取本地的第一资源,根据第一模型训练任务包括的训练数据集的存储位置,从存储系统中获取该训练数据集,根据第一模型训练任务对应的一份训练数据的偏移和大小,从该训练数据集中获取第一模型训练任务对应的一份训练数据,即得到第一训练数据,根据第一训练数据,通过第一资源训练第一智能模型。
147.可选的,第一计算节点还分配第一训练数据的数据标识,向管理节点发送存储请求,该存储请求包括第一参数调整作业的作业标识和第一训练数据的数据标识。管理节点接收该存储请求,将第一计算节点的节点标识、该存储请求包括的第一参数调整作业的作业标识和第一训练数据的数据标识组成一条记录并保存在数据对应关系中。
148.可选的,第一计算节点还为第一资源分配第一保护时间段,第一保护时间段的起始时间是开始使用第一资源的时间,第一保护时间段的时间长度为第二阈值。
149.可选的,第一计算节点还为第一训练数据分配第二保护时间段,第二保护时间段的起始时间是获取到第一训练数据的时间,第二保护时间段的时间长度为第三阈值。
150.对于上述第二种情况,第一计算节点包括第一训练数据和空闲的第一资源,在本步骤中,第一计算节点获取本地的第一训练数据和第一资源,根据第一训练数据,通过第一资源训练第一智能模型。
151.可选的,第一计算节点还为第一资源分配第一保护时间段,第一保护时间段的起始时间是开始使用第一资源的时间,第一保护时间段的时间长度为第二阈值。
152.可选的,第一计算节点还为第一训练数据分配第二保护时间段,第二保护时间段的起始时间是开始使用第一训练数据的时间,第二保护时间段的时间长度为第三阈值。
153.可选的,上述第二阈值或第三阈值可以是管理员事先在节点集群中的每个计算节点中配置的。
154.在上述第一种情况和第二种情况下,第一计算节点向管理节点发送更新请求,该更新请求包括第一参数调整作业的作业标识,第一资源的资源标识和资源状态,该资源状态为使用状态。
155.管理节点接收该更新请求,根据第一参数调整作业的作业标识、第一计算节点的节点标识和第一资源的资源标识,将资源对应关系中保存的第一资源的资源状态更新为使
用状态。
156.对于上述第三种情况,第一计算节点包括第一训练数据且第一计算节点包括的未被保护资源大小超过处理第一模型训练任务所需要的资源大小。在本步骤中,第一计算节点获取本地的第一训练数据,根据第一模型训练任务包括的处理第一模型训练任务所需要的资源名称和资源大小,从第一计算节点包括的未被保护资源中分配第一资源,根据第一训练数据,通过第一资源训练第一智能模型。其中,未被保护资源是第一计算节点中除保护资源之外的其他资源,保护资源是第一计算节点已分配给参数调整作业的资源且保护资源对应的保护时间段还未结束。
157.可选的,第一计算节点还分配第一资源的资源标识,向管理节点发送存储请求,该存储请求包括第一参数调整作业的作业标识、第一资源的资源标识和资源状态,该资源状态为使用状态。管理节点接收该存储请求,将第一计算节点的节点标识、该存储请求包括的第一参数调整作业的作业标识、第一计算节点的节点标识、第一资源的资源标识和资源状态组成一条记录并保存在资源对应关系中。
158.可选的,第一计算节点还为第一资源分配第一保护时间段,第一保护时间段的起始时间是分配第一资源的时间,第一保护时间段的时间长度为第二阈值。
159.可选的,第一计算节点还为第一训练数据分配第二保护时间段,第二保护时间段的起始时间是开始使用第一训练数据的时间,第二保护时间段的时间长度为第三阈值。
160.可选的,对于第一计算节点获取本地的第一训练数据的过程可以为:在第一训练请求包括第一训练数据的数据标识时,根据第一训练数据的数据标识从本地获取第一训练数据。或者,在第一训练请求不包括第一训练数据的数据标识时,根据第一模型训练任务包括的第一参数调整作业的作业标识,从作业标识与数据标识的对应关系中获取第一训练数据的数据标识,根据第一训练数据的数据标识从本地获取第一训练数据。
161.可选的,对于第一计算节点获取本地的第一资源的过程可以为:在第一训练请求包括第一资源的资源标识时,根据第一资源的资源标识从本地获取第一资源。或者,在第一训练请求不包括第一资源的资源标识时,根据第一模型训练任务包括的第一参数调整作业的作业标识,从作业标识与资源标识的对应关系中获取第一资源的资源标识,根据第一资源的资源标识获取本地的第一资源。
162.第一计算节点在训练第一智能模型的过程中,不断地调整第一智能模型的普通参数的参数值,直到第一智能模型收敛或无法成功收敛时停止训练,或者,训练第一智能模型的次数达到指定次数时为止。第一计算节点获取对第一智能模型训练的训练结果,向管理节点发送通知消息,该通知消息包括该训练结果和第一参数调整作业的作业标识。
163.可选的,在管理节点为第一模型训练任务分配第二计算节点的情况,管理节点向第二计算节点发送第二训练请求,第二训练请求包括第一模型训练任务。第二计算节点接收第二训练请求,第二训练请求包括第一模型训练任务,该第一模型训练任务包括第一智能模型、第一参数调整作业的作业标识,该资源名称和资源大小、该训练数据集的存储位置、一份训练数据在训练数据集中的偏移和该训练数据的大小等信息。
164.第二计算节点根据该第一模型训练任务包括的资源名称和资源大小分配处理该第一模型训练任务所需要的第一资源,以及根据该第一模型训练任务包括的训练数据集的存储位置从存储系统中获取该训练数据集;根据该第一模型训练任务对应的一份训练数据
在该训练数据集的偏移和该份训练数据的大小,从该训练数据集中获取处理该第一模型训练任务所需要的一份训练数据,得到第一训练数据。根据第一训练数据,通过第一资源训练第一模型训练任务包括的第一智能模型,直到第一智能模型收敛或无法成功收敛时停止训练,或者,训练第一智能模型的次数达到指定次数时为止。第二计算节点获取对第一智能模型训练的训练结果,向管理节点发送通知消息,该通知消息包括该训练结果和第一参数调整作业的作业标识。
165.可选的,第二计算节点还为处理该第一模型训练任务所需要的第一资源分配资源标识,该资源标识在计算节点中标识第一资源。将第一参数调整作业的作业标识和该资源标识对应保存在作业标识与资源标识的对应关系中。以及,
166.可选的,第二计算节点还为处理该第一模型训练任务所需的第一训练数据分配数据标识,该数据标识在计算节点中标识第一训练数据。将第一参数调整作业的作业标识和该数据标识对应保存在作业标识与数据标识的对应关系中。
167.可选的,第二计算节点还为第一资源分配第一保护时间段,第一保护时间段的起始时间是第一资源被使用的时间,第一保护时间段的时间长度为第二阈值。由于分配第一资源后,就会使用第一资源,所以此处的第一保护时间段的起始时间等于分配第一资源的时间。
168.可选的,第二计算节点还为第二训练数据分配第二保护时间段,第二保护时间段的起始时间是第二训练数据被使用的时间,第二保护时间段的时间长度为第三阈值。由于获取第二训练数据后,就会使用该训练数据,所以此处的第二保护时间段的起始时间等于获取第二训练数据的时间。
169.可选的,第二计算节点还向管理节点发送存储请求,该存储请求包括第一参数调整作业的作业标识、第一训练数据的数据标识、第一资源的资源标识和资源状态,该资源状态为使用状态。
170.管理节点接收该存储请求,将第一参数调整作业的作业标识、第二计算节点的节点标识、该资源标识和该资源状态组成一条记录并将该条记录保存在资源对应关系中;以及,将第一参数调整作业的作业标识、第二计算节点的节点标识和该训练数据的数据标识组成一条记录并将该条记录保存在数据对应关系中。
171.可选的,管理节点可以接收到不同计算节点发送的通知消息,在每个通知消息包括的训练结果不满足指定条件,则获取第一参数调整作业对应的第i+1批任务,然后再从步骤301开始执行。在每个通知消息包括的训练结果满足指定条件时,停止继续训练第一参数调整作业的智能模型。
172.在停止训练第一参数调整作业的智能模型后,对于上述第一计算节点,第一计算节点中的第一资源和/或第一训练数据将不会被使用。
173.可选的,在第一计算节点中的第一资源对应的第一保护时间段结束后,可以释放第一资源,也可以不释放第一资源。在释放第一资源时,第一计算节点向管理节点发送第一删除请求,第一删除请求包括第一计算节点的节点标识和第一资源的资源标识。管理节点接收第一删除请求,从资源对应关系中删除包括第一计算节点的节点标识和第一资源的资源标识的记录。
174.可选的,在第一计算节点中的第一训练数据对应的第二保护时间段结束后,可以
删除第一训练数据,也可以不删除第一训练数据。在删除第一训练数据时,第一计算节点向管理节点发送第二删除请求,第二删除请求包括第一计算节点的节点标识和第一训练数据的数据标识。管理节点接收第二删除请求,从数据对应关系中删除包括第一计算节点的节点标识和第一训练数据的数据标识的记录。
175.在本技术实施例,管理节点为第一参数调整作业对应的第一批任务包括的每个第二模型训练任务分配计算节点,计算节点获取处理第二模型训练任务所示的资源和训练数据,向管理节点发送存储请求,该存储请求包括第一参数调整作业的作业标识、该训练数据的数据标识、该资源的资源标识和资源状态。管理节点将该作业标识、该计算节点的节点标识、该资源标识和资源状态组成一条记录并保存在资源对应关系中,将该作业标识、该计算节点的节点标识和该数据标识组成一条记录并保存在数据对应关系表中。这样以便于管理节点在为第一参数调整作业对应的第i批任务包括的模型训练任务分配计算节点时,i=2、3、
……
,优先分配到包括处理第一参数调整作业的模型训练任务所需的资源和/或训练数据的计算节点,该计算节点在处理第i批任务包括的模型训练任务时,不需要再获取资源和/或训练数据,从而减小了模型训练的耗时,提高了模型训练的效率。
176.参见图4,本技术实施例提供了一种模型训练的装置400,所述装置400部署在图1、图2或图3所示的实施例中的管理节点上,包括:
177.处理单元401,用于调度第一模型训练任务,第一模型训练任务包括第一智能模型和第一参数调整作业的作业标识,第一智能模型是基于第一参数值集合对第一参数调整作业对应的算法进行配置得到的,第一参数值集合包括第一参数调整作业对应的至少一个超级参数中的每个超级参数的第一参数值;
178.处理单元401,还用于根据该作业标识从节点集群中确定第一计算节点,第一计算节点具有第一训练数据和空闲的第一资源中的至少一个,第一资源是用于处理第一参数调整作业的模型训练任务所需的资源,第一训练数据是用于训练第一参数调整作业对应的智能模型所需的训练数据;
179.收发单元402,用于向第一计算节点发送第一训练请求,第一训练请求包括第一模型训练任务,第一训练请求用于第一计算节点根据第一资源和第一训练数据中的至少一个,训练第一智能模型。
180.可选的,处理单元401确定第一计算节点的详细实现过程,可以参见图3所示实施例的步骤302中的相关内容,在此不再详细说明。
181.可选的,处理单元401,用于:
182.根据资源对应关系、数据对应关系和该作业标识,从节点集群中确定第一计算节点;
183.其中,资源对应关系中的任一条记录包括参数调整作业的作业标识、节点集群中的计算节点的节点标识、资源标识和资源状态,该资源标识用于标识计算节点包括的用于处理参数调整作业的模型训练任务所需要的资源,该资源状态用于描述该资源当前是否空闲;
184.该数据对应关系中的任一条记录包括参数调整作业的作业标识、节点集群中的计算节点的节点标识和数据标识,该数据标识用于标识计算节点包括的用于训练该参数调整作业对应的智能模型所需要的训练数据。
185.可选的,处理单元401,用于:
186.根据资源对应关系、数据对应关系和该作业标识,确定节点集群中包括第一训练数据和/或第一资源的n个计算节点,n为大于0的整数;
187.在该n个计算节点中存在至少一个目标节点时,从该至少一个目标节点中选择一个目标节点作为第一计算节点;
188.其中,目标节点包括空闲的第一资源,或者,目标节点包括第一训练数据和空闲的第一资源,或者,目标节点包括第一训练数据且目标节点包括的未被保护资源大小超过处理第一模型训练任务所需要的资源大小,未被保护资源是目标节点中除保护资源之外的其他资源,保护资源是已分配给参数调整作业的资源且保护资源对应的保护时间段还未结束。
189.可选的,处理单元401确定n个计算节点的详细实现过程,可以参见图3所示实施例的步骤3021中的相关内容,在此不再详细说明。
190.可选的,处理单元401,用于:
191.根据该作业标识确定至少一个目标节点,根据该至少一个目标节点中的每个目标节点的负载信息和/或节点属性信息,从每个目标节点中选择一个目标节点作为第一计算节点;
192.其中,目标节点包括空闲的第一资源,或者,目标节点包括第一训练数据和空闲的第一资源,或者,目标节点包括第一训练数据且目标节点包括的未被保护资源大小超过处理第一模型训练任务所需要的资源大小,未被保护资源是目标节点中除保护资源之外的其他资源,保护资源是已分配给参数调整作业的资源且保护资源对应的保护时间段还未结束。
193.可选的,处理单元401选择一个目标节点作为第一计算节点的详细实现过程,可以参见图3所示实施例的步骤3022中的相关内容,在此不再详细说明。
194.可选的,处理单元401,还用于:
195.在n个计算节点中不存在目标节点时,在第一时间段内检测n个计算节点中是否有计算节点变为目标节点,第一时间段的起始时间为调度第一模型训练任务的时间,第一时间段的时间长度为第一阈值,该n个计算节点为包括第一训练数据和/或第一资源的计算节点;
196.在第一时间段内检测出有计算节点变为目标节点,将检测的目标节点确定为第一计算节点;
197.其中,目标节点包括空闲的第一资源,或者,目标节点包括第一训练数据和空闲的第一资源,或者,目标节点包括第一训练数据且目标节点包括的未被保护资源大小超过处理第一模型训练任务所需要的资源大小,未被保护资源是目标节点中除保护资源之外的其他资源,保护资源是已分配给参数调整作业的资源且保护资源对应的保护时间段还未结束。
198.可选的,资源对应关系中的任一条记录还包括该资源标识所标识的资源的资源大小,
199.处理单元401,还用于在第一时间段内检测出没有计算节点变为目标节点,在第一时间段结束后,根据资源对应关系,从节点集群中确定第二计算节点,第二计算节点包括的
未被保护资源大小大于处理第一模型训练任务所需要的资源大小;
200.收发单元402,还用于向第二计算节点发送第二训练请求,第二训练请求包括第一模型训练任务,第二训练请求用于第二计算节点训练第一智能模型。
201.可选的,收发单元402,还用于接收第一删除请求,第一删除请求包括计算节点的节点标识和第一资源的资源标识,第一删除请求是第一计算节点在第一保护时间段结束后发送的,第一保护时间段的起始时间是第一资源最近一次被使用的时间,第一保护时间段的时间长度为第二阈值;
202.处理单元401,还用于从资源对应关系中删除包括第一计算节点的节点标识和第一资源的资源标识的记录。
203.可选的,收发单元402,还用于接收第二删除请求,第二删除请求包括第一计算节点的节点标识和第一训练数据的数据标识,第二删除请求是第一计算节点在第二保护时间段结束后发送的,第二保护时间段的起始时间是第一训练数据最近一次被使用的时间,第二保护时间段的时间长度为第三阈值;
204.处理单元401,还用于从数据对应关系中删除包括第一计算节点的节点标识和第一训练数据的数据标识的记录。
205.可选的,收发单元402,还用于向第一计算节点发送第三训练请求,第三训练请求包括第二模型训练任务,第二模型训练任务包括第二智能模型和第一参数调整作业的作业标识,第二模型训练任务是第一参数调整作业对应的第1批任务包括的一个模型训练任务,第二智能模型是基于第二参数值集合对该算法进行配置得到的,第二参数值集合包括每个超级参数的第二参数值,第三训练请求用于第一计算节点分配用于训练第二智能模型的第一资源以及获取用于训练第二智能模型的第一训练数据;接收第一计算节点发送的存储请求,存储请求包括第一训练数据的数据标识、第一资源的资源标识和资源状态;
206.处理单元401,还用于将该作业标识、第一计算节点的节点标识、第一资源的资源标识和资源状态之间的对应关系保存在资源对应关系中;以及,将该作业标识、第一计算节点的节点标识和第一训练数据的数据标识之间的对应关系保存在数据对应关系中。
207.可选的,收发单元401发送第三训练请求的详细实现过程,可以参见图2所示实施例的步骤203中的相关内容,在此不再详细说明。
208.可选的,处理单元401在资源对应关系和数据对应关系中保存内容的详细实现过程,可以参见图2所示实施例的步骤204中的相关内容,在此不再详细说明。
209.在本技术实施例中,处理单元调度第一模型训练任务,第一模型训练任务包括第一智能模型和第一参数调整作业的作业标识,第一智能模型是基于第一参数值集合对第一参数调整作业对应的算法进行配置得到的,第一参数值集合包括第一参数调整作业对应的至少一个超级参数中的每个超级参数的第一参数值。根据该作业标识从节点集群中确定第一计算节点,第一计算节点具有第一训练数据和空闲的第一资源中的至少一个,第一资源是用于处理第一参数调整作业的模型训练任务所需的资源,第一训练数据是用于训练第一参数调整作业对应的智能模型所需的训练数据。收发单元向第一计算节点发送第一训练请求,第一训练请求包括第一模型训练任务,第一训练请求用于第一计算节点根据第一资源和第一训练数据中的至少一个,训练第一智能模型。其中,由于处理单元确定的第一计算节点具有第一训练数据和空闲的第一资源中的至少一个,这样在第一计算节点接收到包括第
一模型训练任务的第一训练请求后,可以不需要为第一模型训练任务分配第一资源和/或获取第一训练数据,从而节省了分配第一资源的时间和/或获取第一训练数据的时间,提高了训练第一智能模型的效率。
210.参见图5,本技术实施例提供了一种模型训练的装置500,所述装置500部署在图1、图2或图3所示的实施例中的计算节点上,包括:
211.收发单元501,用于接收管理节点发送的第一训练请求,第一训练请求包括第一模型训练任务,第一模型训练任务包括第一智能模型和第一参数调整作业的作业标识,第一智能模型是基于第一参数值集合对第一参数调整作业对应的算法进行配置得到的,第一参数值集合包括第一参数调整作业对应的至少一个超级参数中的每个超级参数的第一参数值,所述装置500具有与第一参数调整作业绑定的第一资源和第一训练数据中的至少一个;
212.处理单元502,用于根据该作业标识,获取第一资源和第一训练数据中的至少一个;根据第一资源和第一训练数据中的至少一个,训练第一智能模型。
213.可选的,处理单元502训练第一智能模型的详细实现过程,可以参见图3所示的实施列中的步骤304中的相关内容,在此不再详细说明。
214.可选的,收发单元501,还用于接收第三训练请求,第三训练请求包括第二模型训练任务,第二模型训练任务包括第二智能模型和第一参数调整作业的作业标识,第二模型训练任务是第一参数调整作业对应的第1批任务包括的一个模型训练任务,第二智能模型是基于第二参数值集合对该算法进行配置得到的,第二参数值集合包括每个超级参数的第二参数值;
215.处理单元502,还用于从未被保护资源中分配用于训练第二智能模型的第一资源,以及获取用于训练第二智能模型的第一训练数据,未被保护资源是所述装置500中除保护资源之外的其他资源,保护资源是已分配给参数调整作业的资源且保护资源对应的保护时间段还未结束;根据第一资源和第一训练数据,训练第二智能模型。
216.可选的,处理单元502分配第一资源,获取第一训练数据和训练第二智能模型的详细实现过程,可以参见图2所示的实施列中的步骤204和205中的相关内容,在此不再详细说明。
217.可选的,收发单元501,还用于发送存储请求,该存储请求包括第一训练数据的数据标识、第一资源的资源标识和资源状态,该存储请求用于管理节点将该作业标识、所述装置500的节点标识、第一资源的资源标识和资源状态之间的对应关系保存在资源对应关系中,以及,将该作业标识、所述装置500的节点标识和第一训练数据的数据标识之间的对应关系保存在数据对应关系中。
218.可选的,收发单元501,还用于在第一保护时间段结束后发送第一删除请求,第一删除请求包括所述装置500的节点标识和第一资源的资源标识,第一保护时间段的起始时间是所述装置500最近一次使用第一资源的时间,第一保护时间段的时间长度为第二阈值,第一删除请求用于管理节点从资源对应关系中删除包括所述装置500的节点标识和第一资源的资源标识的记录。
219.可选的,收发单元501,还用于在第二保护时间段结束后发送第二删除请求,第二删除请求包括所述装置500的节点标识和第一训练数据的数据标识,第二保护时间段的起始时间是所述装置500最近一次使用第一训练数据的时间,第二保护时间段的时间长度为
第三阈值,第二删除请求用于管理节点从数据对应关系中删除包括所述装置500的节点标识和第一训练数据的数据标识的记录。
220.在本技术实施例中,收发单元接收管理节点发送的第一训练请求,第一训练请求包括第一模型训练任务,第一模型训练任务包括第一智能模型和第一参数调整作业的作业标识,第一智能模型是基于第一参数值集合对第一参数调整作业对应的算法进行配置得到的,第一参数值集合包括第一参数调整作业对应的至少一个超级参数中的每个超级参数的第一参数值。由于所述装置本地具有与第一参数调整作业绑定的第一资源和第一训练数据中的至少一个。因此处理单元根据该作业标识,能够获取第一资源和第一训练数据中的至少一个;根据第一资源和第一训练数据中的至少一个,训练第一智能模型。这样处理单元在接收到第一模型训练任务时,可以节省分配第一资源的时间和/或获取第一训练数据的时间,从而提高了训练智能模型的效率。
221.参见图6,本技术实施例提供了一种模型训练的装置600示意图。该装置600可以是上述任一实施例中的管理节点。该装置600包括至少一个处理器601,总线系统602,存储器603以及至少一个网络接口604。
222.该装置600是一种硬件结构的装置,可以用于实现图4所述的装置400中的功能模块。例如,本领域技术人员可以想到图4所示的装置400中的处理单元401可以通过该至少一个处理器601调用存储器603中的代码来实现,图4所示的装置400中的收发单元402可以通过该网络接口604来实现。
223.可选的,上述处理器601可以是一个通用中央处理器(central processing unit,cpu),网络处理器(network processor,np),微处理器,特定应用集成电路(application-specific integrated circuit,asic),或一个或多个用于控制本技术方案程序执行的集成电路。
224.上述总线系统602可包括一通路,在上述组件之间传送信息。
225.上述网络接口604,用于与其他设备或通信网络通信。
226.上述存储器603可以是只读存储器(read-only memory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,ram)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
227.其中,存储器603用于存储执行本技术方案的应用程序代码,并由处理器601来控制执行。处理器601用于执行存储器603中存储的应用程序代码,从而实现本专利方法中的功能。
228.在具体实现中,作为一种实施例,处理器601可以包括一个或多个cpu,例如图6中的cpu0和cpu1。
229.在具体实现中,作为一种实施例,该装置600可以包括多个处理器,例如图6中的处
理器601和处理器607。这些处理器中的每一个可以是一个单核(single-cpu)处理器,也可以是一个多核(multi-cpu)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
230.参见图7,本技术实施例提供了一种用于plc系统的通信装置700示意图。该装置700可以是上述任一实施例中的计算节点。该装置700包括至少一个处理器701,总线系统702,存储器703以及至少一个网络接口704。
231.该装置700是一种硬件结构的装置,可以用于实现图5所述的装置500中的功能模块。例如,本领域技术人员可以想到图5所示的装置500中的处理单元502可以通过该至少一个处理器701调用存储器703中的代码来实现,图5所示的装置500中的收发单元501可以通过该网络接口704来实现。
232.可选的,上述处理器701可以是一个通用中央处理器(central processing unit,cpu),网络处理器(network processor,np),微处理器,特定应用集成电路(application-specific integrated circuit,asic),或一个或多个用于控制本技术方案程序执行的集成电路。
233.上述总线系统702可包括一通路,在上述组件之间传送信息。
234.上述网络接口704,用于与其他设备或通信网络通信。
235.上述存储器703可以是只读存储器(read-only memory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,ram)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
236.其中,存储器703用于存储执行本技术方案的应用程序代码,并由处理器701来控制执行。处理器701用于执行存储器703中存储的应用程序代码,从而实现本专利方法中的功能。
237.在具体实现中,作为一种实施例,处理器701可以包括一个或多个cpu,例如图7中的cpu0和cpu1。
238.在具体实现中,作为一种实施例,该装置700可以包括多个处理器,例如图7中的处理器701和处理器707。这些处理器中的每一个可以是一个单核(single-cpu)处理器,也可以是一个多核(multi-cpu)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
239.本技术实施例提供了一种模型训练的系统,包括如图4所示实施例提供的装置400和如图5所示实施例提供的装置500,或者,包括如图6所示实施例提供的装置600和如图7所示实施例提供的装置700。
240.参见图8,如图4所示实施例提供的装置400或如图6所示实施例提供的装置600为管理节点801,如图5所示实施例提供的装置500或如图7所示实施例提供的装置700为计算
节点802。
241.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
242.以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1