一种作业调度方法、服务器及服务器集群与流程

文档序号:34393193发布日期:2023-06-08 11:01阅读:31来源:国知局
一种作业调度方法、服务器及服务器集群与流程

本申请涉及服务器集群领域,尤其涉及一种作业调度方法、服务器及服务器集群。


背景技术:

1、高性能计算(high-performance computing,hpc)是一个计算机集群系统,通过管理节点对计算任务进行分解,交给不同的计算节点进行计算,以此来解决大型计算问题。在科学研究、气象预报、仿真实验、生物制药、基因测序、图像处理等行业均有广泛的应用。

2、目前hpc行业使用slurm或者openpbs调度器时,会将计算节点划分队列。将计算节点分组,不同的组即不同的队列,在队列排队的作业只会在所属队列的计算节点服务器执行。


技术实现思路

1、本申请实施例提供了一种作业调度方法、服务器及服务器集群,能够自动选择队列资源,解决人工选择可能导致的调度失败等问题。

2、第一方面,本申请实施例提供一种作业调度方法,所述方法包括:获取待调度作业;在待调度作业中存在自动调度参数的情况下,查询多个计算节点队列的队列资源情况,并基于队列资源情况,从多个计算节点队列中选取到目标队列;将待调度作业分配到目标队列。以此本申请实施例提供的作业调度方法能够自动选择队列资源,解决人工选择可能导致的调度失败问题,

3、其中一种可能的实现方式中,所述方法还包括:获取已分配到计算节点队列中的作业的排队时长;在排队时长达到时间阈值的情况下,则为所述作业重新分配目标队列。以此,可以自动调度拥塞作业,解决作业在繁忙队列长时间排队问题。

4、其中一种可能的实现方式中,在待调度作业中存在自动调度参数的情况下,则查询多个计算节点队列的队列资源情况,并基于队列资源情况,从多个计算节点队列中选取到目标队列,包括:在待调度作业中存在自动调度参数的情况下,解析得到待调度作业的资源请求,并查询多个计算节点队列的队列资源情况;基于队列资源情况和资源请求,从多个计算节点中选取到目标队列。以此,可以触发基于slurm/openpbs的hook插件机制自动计算作业的资源请求,获得待调度作业的资源请求,无需用户人工干预。

5、其中一种可能的实现方式中,资源请求包括待调度作业需要的cpu的个数和/或节点个数。以此,可以通过部署在调度器中的autoqueueserver组件,查询调度器中当前的多个计算节点队列的资源情况,根据队列调度算法选择目标队列。

6、其中一种可能的实现方式中,待调度作业包括权限要求,目标队列为满足所述待调度作业的资源请求和权限要求的计算节点队列。以此,可以获得作业的资源请求和权限要求。

7、其中一种可能的实现方式中,队列资源情况包括计算节点队列的空闲率,基于队列资源情况和资源请求,从多个计算节点队列中选取到目标队列,包括:在存在多个满足资源请求的空闲队列的情况下,基于空闲节点的空闲率,从多个满足资源请求的空闲队列中选取到目标队列,目标队列为满足资源请求且空闲率最大的空闲队列,空闲队列为处于空闲状态的计算节点队列;空闲状态是指作业无需排队处理,或者,计算节点队列中不存在正在排队的作业。以此,可以避免调度拥塞,避免造成作业在繁忙队列长时间排队,提高计算的执行效率。

8、其中一种可能的实现方式中,基于队列资源情况和资源请求,从多个计算节点队列中选取到目标队列,包括:在存在多个满足资源请求的队列,且多个满足资源请求的队列中不存在空闲队列的情况下,比较多个满足资源请求的队列的队列资源情况,并根据比较结果从多个满足资源请求的队列中,选取得到目标队列。以此,可以查询调度器中当前的多个计算节点队列的资源情况,根据队列调度算法选择目标队列。

9、其中一种可能的实现方式中,队列资源情况包括作业排队数量、作业排队时长或者空闲率中的一种或多种。

10、第二方面,本申请实施例提供一种服务器,所述服务器用于执行如第一方面所述的方法。其有益效果不再赘述。

11、第三方面,本申请实施例提供一种服务器集群,包括管理节点和多个计算节点队列,所述管理节点用于执行如第一方面所述的方法。

12、第四方面,本申请提供一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的方法。

13、第五方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被计算机执行时实现第一方面中任一项所述的方法。第六方面,本申请实施例提供一种算机程序产品,包括计算机程序,所述计算机程序被计算机执行时实现第一方面中任一项所述的方法。



技术特征:

1.一种作业调度方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述在所述待调度作业中存在自动调度参数的情况下,查询多个计算节点队列的队列资源情况,并基于所述队列资源情况,从多个计算节点队列中选取到目标队列,包括:

4.根据权利要求3所述的方法,其特征在于,所述资源请求包括所述待调度作业需要的cpu的个数和/或节点个数。

5.根据权利要求3所述的方法,其特征在于,所述待调度作业包括权限要求,所述目标队列为满足所述待调度作业的资源请求和权限要求的计算节点队列。

6.根据权利要求3-5任意一项所述的方法,其特征在于,所述队列资源情况包括计算节点队列的空闲率,所述基于所述队列资源情况和所述资源请求,从多个所述计算节点中选取到目标队列,包括:

7.根据权利要求3-5任意一项所述的方法,其特征在于,所述基于所述队列资源情况和所述资源请求,从多个计算节点队列中选取到目标队列,包括:

8.根据权利要求7所述的方法,其特征在于,所述队列资源情况包括作业排队数量、作业排队时长或者空闲率中的一种或多种。

9.一种服务器,其特征在于,所述服务器用于执行如权利要求1至8中任一项所述的方法。

10.一种服务器集群,其特征在于,包括管理节点和多个计算节点队列,所述管理节点用于执行如权利要求1至8中任一项所述的方法。


技术总结
本申请提供一种作业调度方法、服务器以及服务器集群,所述方法包括:在所述待调度作业中存在自动调度参数的情况下,查询多个计算节点队列的队列资源情况,并基于所述队列资源情况,从多个计算节点队列中选取到目标队列;将所述待调度作业分配到所述目标队列。本申请能够自动选择队列资源,解决人工选择可能导致的调度失败等问题。

技术研发人员:吴祥智
受保护的技术使用者:超聚变数字技术有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1