本公开涉及计算机,尤其涉及一种分布式模型的训练方法及相关设备。
背景技术:
1、随着人工智能和大数据技术的发展,算力网络(computing network,cpn)作为重要的基础设施,用于处理大规模数据和复杂的机器学习任务。随着数据规模和模型复杂性的不断增加,传统的单节点训练已无法满足高性能计算的需求。分布式模型训练(distributed model training,dmt)作为一种有效的解决方案,可以充分利用算力网络中多个计算节点的计算能力,加快模型训练速度并提高训练效果。分布式模型训练充分利用了数据的并行处理,大大缩短了训练时间,相较于单个计算节点训练具有明显的优势。然而,对于大型模型和海量数据处理所带来的挑战,以及深度学习任务的高计算需求,加上算力网络中计算资源的利用不充分,导致算力网络中分布式模型的训练效率低。
技术实现思路
1、本公开提出一种分布式模型的训练方法及相关设备,以在一定程度上解决分布式模型在算力网络中训练效率低的技术问题。
2、本公开第一方面,提供了一种分布式模型的训练方法,包括:
3、获取算力网络中计算节点之间链路的剩余带宽;
4、基于训练数据的数据量计算所述算力网络中计算节点所形成的候选环路需要使用的计算资源数量;
5、基于所述剩余带宽和所述候选环路需要使用的计算资源数量从所述候选环路中确定目标环路;
6、基于所述目标环路进行分布式模型训练。
7、本公开第二方面,提供了一种分布式模型的训练装置,包括:
8、获取模块,用于获取算力网络中计算节点之间链路的剩余带宽;
9、计算模块,用于基于训练数据的数据量计算所述算力网络中计算节点所形成的候选环路需要使用的计算资源数量;
10、选择模块,用于基于所述剩余带宽和所述候选环路需要使用的计算资源数量从所述候选环路中确定目标环路;
11、训练模块,用于基于所述目标环路进行分布式模型训练。
12、本公开第三方面,提供了一种电子设备,包括一个或者多个处理器、存储器;和一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被所述一个或多个处理器执行,所述程序包括用于执行根据第一方面或第二方面所述的方法的指令。
13、本公开第四方面,提供了一种包含计算机程序的非易失性计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,使得所述处理器执行第一方面或第二方面所述的方法。
14、本公开第五方面,提供了一种计算机程序产品,包括计算机程序指令,当所述计算机程序指令在计算机上执行时,使得计算机执行第一方面所述的方法。
15、从上面可以看出,本公开提供的一种分布式模型的训练方法及相关设备,通过智能化的资源管理和任务调度策略,在潮汐算力网络中节省算力资源的同时,提高分布式模型训练的效率和性能。通过优化资源分配和动态调整策略,可以实现对不同时期和区域的任务部署进行灵活管理,减少算力资源的闲置和浪费,提高分布式模型训练任务的整体效率,并降低训练成本和能源消耗。
1.一种分布式模型训练方法,包括:
2.根据权利要求1所述的方法,所述方法还包括:
3.根据权利要求1所述的方法,其中,基于训练数据的数据量计算所述算力网络中计算节点所形成的候选环路需要使用的计算资源数量,包括:
4.根据权利要求1所述的方法,其中,基于所述剩余带宽和所述候选环路需要使用的计算资源数量从所述候选环路中确定目标环路,包括:
5.根据权利要求4所述的方法,其中,基于所述剩余带宽和所述候选环路需要使用的计算资源数量从所述候选环路中确定目标环路,还包括:
6.根据权利要求4所述的方法,还包括:
7.根据权利要求1所述的方法,其中,基于所述目标环路进行分布式模型训练,包括:
8.一种分布式模型训练装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上执行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。