1.一种深度学习系统中任务训练的管理方法,其特征在于,包括:
获取执行消息传递接口mpi任务的训练操作的至少两个节点;
为所述至少两个节点分配对应的容器;
控制所述至少两个节点在各自对应的容器中进行mpi任务的训练操作。
2.根据权利要求1所述的方法,其特征在于,所述控制所述至少两个节点在各自对应的容器中进行mpi任务的训练操作,包括:
从所述至少两个节点中选择一个节点作为主节点,其他节点作为从节点;
控制所述主节点向所述从节点发送执行mpi任务的训练命令,以及控制所述从节点根据接收训练命令执行所述mpi任务的训练。
3.根据权利要求2所述的方法,其特征在于,所述控制所述主节点向所述从节点发送执行mpi任务的训练命令之前,所述方法还包括:
在所述主节点发送所述训练命令前,获取所述从节点在对应的容器中是否成功启动的信息;在每个从节点均启动成功后,触发所述主节点发送训练命令。
4.根据权利要求3所述的方法,其特征在于,所述获取所述从节点是否成功启动的信息,包括:
向预先设置的初始化容器发送从节点的ip地址信息;
在初始化容器按照从节点的ip地址信息对从节点进行初始化操作后,接收初始化容器发送的操作结果;
根据所述操作结果,确定所述从节点的启动状态。
5.根据权利要求2所述的方法,其特征在于,所述控制所述从节点根据接收训练命令执行所述mpi任务的训练,包括:
在所述从节点执行所述mpi任务的训练过程中,检测所述从节点的运行状态,并在所述从节点停止运行时,判断所述从节点是否出现故障,如判断所述从节点出现故障,则重启所述从节点。
6.一种计算机存储介质,其特征在于,包括处理器和存储器,其中所述存储器存储有计算机程序,所述处理器用以调用所述处理器中的计算机程序以实现如下操作,包括:
获取执行消息传递接口mpi任务的训练操作的至少两个节点;
为所述至少两个节点分配对应的容器;
控制所述至少两个节点在各自对应的容器中进行mpi任务的训练操作。
7.根据权利要求6所述的计算机存储介质,其特征在于,所述处理器用以调用所述处理器中的计算机程序以实现所述控制所述至少两个节点在各自对应的容器中进行mpi任务的训练操作,包括:
从所述至少两个节点中选择一个节点作为主节点,其他节点作为从节点;
控制所述主节点向所述从节点发送执行mpi任务的训练命令,以及控制所述从节点根据接收训练命令执行所述mpi任务的训练。
8.根据权利要求7所述的计算机存储介质,其特征在于,所述处理器用以调用所述处理器中的计算机程序以实现所述控制所述主节点向所述从节点发送执行mpi任务的训练命令的操作之前,所述处理器用以调用所述处理器中的计算机程序还实现如下操作,包括:
在所述主节点发送所述训练命令前,获取所述从节点在对应的容器中是否成功启动的信息;在每个从节点均启动成功后,触发所述主节点发送训练命令。
9.根据权利要求8所述的计算机存储介质,其特征在于,所述处理器用以调用所述处理器中的计算机程序以实现获取所述从节点是否成功启动的信息的操作,包括:
向预先设置的初始化容器发送从节点的ip地址信息;
在初始化容器按照从节点的ip地址信息对从节点进行初始化操作后,接收初始化容器发送的操作结果;
根据所述操作结果,确定所述从节点的启动状态。
10.根据权利要求7所述的计算机存储介质,其特征在于,所述处理器用以调用所述处理器中的计算机程序以实现所述控制所述从节点根据接收训练命令执行所述mpi任务的训练的操作,包括:
在所述从节点执行所述mpi任务的训练过程中,检测所述从节点的运行状态,并在所述从节点停止运行时,判断所述从节点是否出现故障,如判断所述从节点出现故障,则重启所述从节点。