本申请涉及人工智能,尤其涉及一种分布式机器学习任务部署方法及相关装置。
背景技术:
1、随着科技的飞速进步,人工智能技术已经渗透到我们生活的方方面面,深刻地改变了世界。在这其中,机器学习作为核心驱动力,推动了人工智能技术的快速发展。机器学习是训练人工智能的一种重要技术,为了达到优秀的训练效果和效率,通常采用分布式的方式进行,这其中就涉及到了分布式的机器学习任务的部署。
2、分布式机器学习任务的部署包括资源部署和组件程序部署,对应资源部署框架和机器学习训练框架,然而两类框架只能分别完成分布式机器学习部署整体环节中的一部分,如果想完成整体的部署,需要针对每个场景来选择合适的分布式资源部署框架,再单独实现分布式训练框架在资源上的组件程序运行,该方法效率低下且扩展性差,需要耗费大量的时间和精力。
技术实现思路
1、本申请实施例提供了一种分布式机器学习任务部署方法以及相关装置,用于提高分布式机器学习任务的部署效率和简化部署流程。
2、本申请的一方面提供一种分布式机器学习任务部署方法,包括:获取机器学习组件对应的资源配置信息,资源配置信息用于创建机器学习组件的资源运行环境;
3、基于资源配置信息,创建机器学习组件的多个集群节点;
4、响应于集群节点返回的创建成功信号,创建地址列表,地址列表中包括多个集群节点的节点地址;
5、基于地址列表,在集群节点上运行机器学习组件的程序。
6、在一种可能的实现方法中,
7、基于资源配置信息,创建机器学习组件的多个集群节点,包括:
8、基于资源配置信息,对多个集群节点的节点位置进行分配;
9、基于分配结果创建多个集群节点。
10、在一种可能的实现方法中,
11、在基于资源配置信息,创建机器学习组件的多个集群节点之后,还包括:
12、获取集群节点的创建状态;
13、若经过预设时间后,创建状态指示集群节点创建未成功,则重新创建集群节点。
14、在一种可能的实现方法中,
15、在基于地址列表,在集群节点上运行机器学习组件的程序之后,还包括:
16、获取机器学习组件的心跳状态;
17、若心跳状态指示机器学习组件异常,则在集群节点上重新运行机器学习组件的程序。
18、在一种可能的实现方法中,
19、在基于地址列表,在集群节点上运行机器学习组件的程序之后,还包括:
20、通过机器学习组件执行对应的机器学习任务。
21、在一种可能的实现方法中,
22、在通过机器学习组件执行对应的机器学习任务之后,还包括:
23、当机器学习任务执行结束,释放集群节点。
24、在一种可能的实现方法中,机器学习组件为强化学习组件,包括客户端、智能体、学习器、执行器和服务组件中的至少一个。
25、本申请的另一方面提供了一种分布式机器学习任务部署装置,包括信息获取接口、资源部署模块和程序部署模块;
26、信息获取接口,用于获取机器学习组件对应的资源配置信息,资源配置信息用于创建机器学习组件的资源运行环境;
27、资源部署模块,用于基于资源配置信息,创建机器学习组件的多个集群节点;
28、资源部署模块,还用于响应于集群节点返回的创建成功信号,创建地址列表,地址列表中包括多个集群节点的节点地址;
29、程序部署模块,用于基于地址列表,在集群节点上运行机器学习组件的程序。
30、在一种可能的实现方法中,资源部署模块,具体用于基于资源配置信息,对多个集群节点的节点位置进行分配;基于分配结果创建多个集群节点。
31、在一种可能的实现方法中,资源部署模块,还用于获取集群节点的创建状态;若经过预设时间后,创建状态指示集群节点创建未成功,则重新创建集群节点。
32、在一种可能的实现方法中,程序部署模块,还用于获取机器学习组件的心跳状态;若心跳状态指示机器学习组件异常,则在集群节点上重新运行机器学习组件的程序。
33、在一种可能的实现方法中,还包括:
34、任务执行模块,用于通过机器学习组件执行对应的机器学习任务。
35、在一种可能的实现方法中,资源部署模块,还用于当机器学习任务执行结束,释放集群节点。
36、在一种可能的实现方法中,机器学习组件为强化学习组件,包括客户端、智能体、学习器、执行器和服务组件中的至少一个。
37、本申请的另一方面提供了一种计算机设备,包括:
38、存储器、收发器、处理器以及总线系统;
39、其中,存储器用于存储程序;
40、处理器用于执行存储器中的程序,包括执行上述各方面的方法;
41、总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
42、本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
43、本申请的另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
44、从以上技术方案可以看出,本申请实施例具有以下优点:
45、本申请提供了一种分布式机器学习任务部署方法以及相关装置,首先接口获取机器学习组件对应的资源配置信息,其次创建机器学习组件的多个集群节点,以实现对机器学习组件的各个容器的资源进行部署,即执行资源部署操作;在集群节点创建完成后,基于集群节点的节点地址创建地址列表,最后提出了一种基于地址列表的程序部署方式,即根据地址列表在集群节点上运行机器学习组件的程序,使得程序部署无需关注具体集群节点上的资源类型,降低了部署的复杂度。本申请实施例所提供的方法,设计了一套统一的部署流程,通过状态流转协调资源和组件程序部署的各个阶段,保证了部署的顺序性和一致性,可以简化部署过程,提高部署效率,降低部署难度,有利于推动分布式强化学习技术的发展和应用。
1.一种分布式机器学习任务部署方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述资源配置信息,创建所述机器学习组件的多个集群节点,包括:
3.根据权利要求2所述的方法,其特征在于,在所述基于所述资源配置信息,创建所述机器学习组件的多个集群节点之后,还包括:
4.根据权利要求1所述的方法,其特征在于,在所述基于所述地址列表,在所述集群节点上运行所述机器学习组件的程序之后,还包括:
5.根据权利要求1所述的方法,其特征在于,在所述基于所述地址列表,在所述集群节点上运行所述机器学习组件的程序之后,还包括:
6.根据权利要求5所述的方法,其特征在于,在所述通过所述机器学习组件执行对应的机器学习任务之后,还包括:
7.根据权利要求1所述的方法,其特征在于,所述机器学习组件为强化学习组件,包括客户端、智能体、学习器、执行器和服务组件中的至少一个。
8.一种分布式机器学习任务部署装置,其特征在于,包括信息获取接口、资源部署模块和程序部署模块;
9.一种计算机设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至7中任一项所述的分布式机器学习任务部署方法。