一种基于作业调度系统的AI处理器调度方法、装置、设备和存储介质与流程

文档序号:38150750发布日期:2024-05-30 12:06阅读:84来源:国知局

本发明涉及数据处理,尤其涉及一种基于作业调度系统的ai处理器调度方法、装置、设备和存储介质。


背景技术:

1、swai人工智能处理器是国产化自主知识产权的高性能ai处理器,能够为人工智能训练以及推理等操作提供高性能的算力。swai人工智能处理器的产品形态为业界标准的高速串行计算机扩展总线标准(peripheral component interconnect express,pcie)板卡,在设计的高密度计算节点中,单节点可集成8张板卡。当swai面对大模型的算力需求时,必然也需要组建一个规模庞大的计算集群来提供并行算力。

2、slurm(simple linux utility for resource management)是一个在高性能计算领域,尤其在超级计算机领域,应用非常广泛的开源作业调度系统,功能可扩展、可定制、节点数量灵活伸缩,可对cpu、gpu以及内存等资源细颗粒度的分配。

3、但是目前的slurm调度系统在进行资源调度时,通常仅支持官方支持的通用资源,而无法对国产化的ai处理器和其他通用资源进行混合调度,无法将ai处理器从单节点计算快速拓展到跨节点的计算,不利于国产化ai处理器融入成熟的软件生态。


技术实现思路

1、本发明提供了一种基于作业调度系统的ai处理器调度方法、装置、设备和存储介质,以实现对ai处理器的合理调度。

2、根据本发明的一方面,提供了一种基于作业调度系统的ai处理器调度方法,包括:将ai处理器设置为通用gpu,并针对作为通用gpu的所述ai处理器添加gpu插件;

3、针对所述gpu插件添加系统管理smi接口,并在已有的任务插件中新增调度参数获取修改后的任务插件;

4、接收用户所发送的调度指令,通过所述修改后的任务插件对所述调度指令进行参数解析和申请资源权限检查,当检查通过时将解析出的资源标识添加到所述调度参数中;

5、启动所述gpu插件,通过所述gpu插件启动所关联的smi接口获取所述资源标识所对应的ai处理器的软硬件信息,并基于所述软硬件信息对所述ai处理器进行调度。

6、根据本发明的另一方面,提供了一种基于作业调度系统的ai处理器调度装置,包括:

7、gpu插件添加模块,用于将ai处理器设置为通用gpu,并针对作为通用gpu的所述ai处理器添加gpu插件;

8、smi接口添加和任务插件修改模块,用于针对所述gpu插件添加系统管理smi接口,并在已有的任务插件中新增调度参数获取修改后的任务插件;

9、调度指令处理模块,用于接收用户所发送的调度指令,通过所述修改后的任务插件对所述调度指令进行参数解析和申请资源权限检查,当检查通过时将解析出的资源标识添加到所述调度参数中;

10、调度模块,用于启动所述gpu插件,通过所述gpu插件启动所关联的smi接口获取所述资源标识所对应的ai处理器的软硬件信息,并基于所述软硬件信息对所述ai处理器进行调度。

11、根据本发明的另一方面,提供了一种计算机设备,所述计算机设备包括:

12、一个或多个处理器;

13、存储装置,用于存储一个或多个程序,

14、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器执行本发明任一实施例所述的方法。

15、根据本发明的另一方面,提供了一种计算机可执行指令的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的方法。

16、本发明实施例的技术方案,通过在原有的代码文件中针对ai处理器增加gpu插件和smi接口,以及修改任务插件,为ai处理器的调度配置必要的条件,从而使得作业调度系统在进行资源调度时可以对所增加的ai处理器和通用的gpu处理器进行同等的调度,实现对计算资源的充分使用,增加了算力需求的应用场景。

17、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种基于作业调度系统的ai处理器调度方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述在已有的任务插件中新增调度参数获取修改后的任务插件之后,还包括:

3.根据权利要求1所述的方法,其特征在于,所述针对作为通用gpu的所述ai处理器添加gpu插件,包括:

4.根据权利要求1所述的方法,其特征在于,所述针对所述gpu插件添加系统管理smi接口,包括:

5.根据权利要求1所述的方法,其特征在于,所述通过所述修改后的任务插件对所述调度指令进行参数解析和申请资源权限检查,包括:

6.根据权利要求2所述的方法,其特征在于,所述通过所述gpu插件启动所关联的smi接口获取所述资源标识所对应的ai处理器的软硬件信息,包括:

7.根据权利要求1至6中任一项所述的方法,其特征在于,所述基于所述软硬件信息对所述ai处理器进行调度之后,还包括:

8.一种基于作业调度系统的ai处理器调度装置,其特征在于,包括:

9.一种计算机设备,其特征在于,所述计算机设备包括:

10.一种计算机可执行指令的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述方法。


技术总结
本发明公开了一种基于作业调度系统的AI处理器调度方法、装置、设备和存储介质,包括:针对作为通用GPU的AI处理器添加GPU插件;针对GPU插件添加系统管理SMI接口,并在已有的任务插件中新增调度参数获取修改后的任务插件;通过修改后的任务插件对调度指令进行参数解析和申请资源权限检查;启动GPU插件,通过GPU插件启动所关联的SMI接口获取资源标识所对应的AI处理器的软硬件信息,并基于软硬件信息对AI处理器进行调度。通过在原有的代码文件中针对AI处理器增加和修改必要插件,为AI处理器的调度配置必要的条件,调度系统可以对所增加的AI处理器和通用的GPU处理器进行调度,实现对计算资源的充分使用,增加了算力需求的应用场景。

技术研发人员:田松涛,苏杰,周向宁
受保护的技术使用者:太初(无锡)电子科技有限公司
技术研发日:
技术公布日:2024/5/29
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1