一种作业自动化调度方法及装置、系统、设备、存储介质与流程

文档序号:36003231发布日期:2023-11-16 17:37阅读:34来源:国知局
一种作业自动化调度方法及装置、系统、设备、存储介质与流程

本技术涉及计算机,尤其涉及一种作业自动化调度方法及装置、系统、设备、存储介质。


背景技术:

1、当前业界衡量作业调度系统的效能通常有三个指标:一是作业的吞吐率,即单位时间内完成作业的数量;二是计算资源的利用率;三是对作业调度的公平性。

2、随着建成投产的计算集群的数量增多,各计算集群的资源利用率存在不均衡的情况和不同时段的潮汐效应,各计算集群之间的协同调度需求开始呈现。在多个计算集群组成的一个大的计算系统中,即多个计算集群并网时,如果沿用原有的作业调度方法,将用户提交的作业任务直接派发到一个计算集群进行执行,若该计算集群的计算资源不足,则上述作业将会排队等待,直至该计算集群相应队列的空闲计算资源满足作业运行需求,上述作业才能够在该计算集群上运行。在上述作业排队等待过程中,即使其他计算集群的计算资源空闲,处于排队状态的作业也无法被重新调度到其他计算集群的队列上运行,这将导致整个作业调度系统的效能降低。


技术实现思路

1、本技术提供了一种作业自动化调度方法及装置、系统、设备、存储介质,用于解决目前作业调度系统的效能较低的问题。

2、为达到上述目的,本技术采用如下技术方案:

3、第一方面,本技术提供了一种作业自动化调度方法,应用于算网大脑,算网大脑部署于作业自动化调度系统。作业自动化调度系统,还包括:算网门户、至少一个调度器、至少一个计算集群。算网大脑与算网门户通信连接。算网大脑与至少一个调度器通信连接。算网门户与至少一个调度器通信连接。至少一个调度器与至少一个计算集群一一对应。调度器与计算集群通信连接。作业自动化调度方法,包括:算网大脑接收算网门户发送的待执行作业的算力资源需求、调度策略要求和使用的应用程序名称。算力资源需求、调度策略要求和使用的应用程序名称为算网门户从第一作业队列中优先级最高的待执行作业的作业信息中获取的。算网大脑根据算力资源需求、调度策略要求和使用的应用程序名称,确定目标计算集群。算网大脑将目标计算集群的集群信息发送至算网门户,以使算网门户将作业信息发送至目标计算集群对应的调度器,并由调度器将作业信息转发至目标计算集群。

4、本技术提供的作业自动化调度方法中,算网大脑在接收到算网门户发送的待执行作业的算力资源需求、调度策略要求和使用的应用名称后,根据算力资源需求、调度策略要求和使用的应用名称确定目标计算集群,进而再将计算集群的集群信息发送至算网门户,以使算网门户将作业信息发送至目标计算集群对应的调度器以转发至目标计算集群,可以避免出现待执行作业受理后被直接提交到某个计算资源繁忙的计算集群排队等待,而其他计算集群有空闲计算资源却没有作业执行的情况,可以实现计算集群之间更均衡的计算资源利用和更少的作业排队时间。

5、一种可能的实现方式中,算网大脑根据算力资源需求、调度策略要求和使用的应用程序名称,确定目标计算集群,包括:算网大脑根据算力资源需求、使用的应用程序名称确定至少一个计算集群。若至少一个计算集群的数量为零个,算网大脑向算网门户发送等待指令。等待指令用于指示算网门户将作业信息存放至第一级队列。若至少一个计算集群的数量为一个,算网大脑确定计算集群为目标集群。若至少一个计算集群的数量为大于等于两个,算网大脑根据调度策略要求,确定目标计算集群。

6、一种可能的实现方式,调度策略包括:计算资源空闲或计算资源利用率最低或排队作业最少。算网大脑根据调度策略要求,确定目标计算集群,包括:算网大脑将调度策略要求与计算集群的集群信息进行匹配,确定目标计算集群。集群信息为算网大脑从调度器获取并存储。

7、第二方面,本技术提供了一种作业自动化调度方法,应用于算网门户。算网门户部署于作业自动化调度系统。自动化调度方法,包括:算网门户获取第一级作业队列中优先级最高的待执行作业的作业信息。作业信息包括:算力资源需求、调度策略要求、使用的应用程序名称。算网门户将算力资源需求、调度策略要求和使用的应用程序名称发送至算网大脑,以使算网大脑根据算力资源需求、调度策略要求和使用的应用程序名称确定目标计算集群。算网门户接收算网大脑发送的目标计算集群的集群信息。算网门户将作业信息发送至目标计算集群对应的调度器,以使目标调度器将作业信息转发至目标计算集群。

8、本技术提供的作业自动化调度方法中,算网门户获取第一级作业队列中优先级较高的待执行作业的作业信息,进而将作业信息中的算力资源需求、调度策略要求和使用的应用程序名称发送至算网大脑,进而接收算网大脑发送的目标计算集群的集群信息,进而将待执行作业的作业信息发送至目标计算集群,用户无需手工选择计算集群和队列,只须把作业任务和调度策略提交给算网门户即可,实现底层计算集群和队列资源对用户的屏蔽和无感,同时算网门户可以使算网大脑根据计算集群队列的资源使用情况确定待执行作业的目标计算集群队列,进而实现在多个计算集群算力并网的场景下派发作业和不同计算集群之间的负载均衡,降低作业在计算集群上的排队等待时间。

9、一种可能的实现方式,算网门户将作业信息发送至目标计算集群对应的调度器,以使目标调度器将作业信息转发至目标计算集群,包括:算网门户将作业信息发送至目标计算集群的调度器。调度器将作业信息提交至目标计算集群的第二作业队列。目标计算集群处理第二作业队列中优先级最高的待执行作业。

10、一种可能的实现方式中,本技术提供的作业自动化调度方法还包括:算网门户接收待执行作业的作业信息。算网门户将待执行作业提交至第一级作业队列。

11、第三方面,本技术提供了一种作业自动化调度装置,应用于算网大脑,算网大脑部署于作业自动化调度系统。作业自动化调度系统,还包括:算网门户、至少一个调度器、至少一个计算集群。算网大脑与算网门户通信连接。算网大脑与至少一个调度器通信连接。算网门户与至少一个调度器通信连接。至少一个调度器与至少一个计算集群一一对应。调度器与计算集群通信连接。作业自动化调度装置,包括:接收模块,用于接收算网门户发送的待执行作业的算力资源需求、调度策略要求和使用的应用程序名称。算力资源需求、调度策略要求和使用的应用程序名称为算网门户从第一作业队列中优先级最高的待执行作业的作业信息中获取的。确定模块,用于根据算力资源需求、调度策略要求和使用的应用程序名称,确定目标计算集群。发送模块,用于将目标计算集群的集群信息发送至算网门户,以使算网门户将作业信息发送至目标计算集群对应的调度器,并由调度器将作业信息转发至目标计算集群。

12、一种可能的实现方式中,本技术提供的作业自动化调度装置中,确定模块,具体用于根据算力资源需求、使用的应用程序名称确定至少一个计算集群。若至少一个计算集群的数量为零个,向算网门户发送等待指令。等待指令用于指示算网门户将作业信息存放至第一级队列。若至少一个计算集群的数量为一个,确定计算集群为目标集群。若至少一个计算集群的数量为大于等于两个,根据调度策略要求,确定目标计算集群。

13、一种可能的实现方式,调度策略包括:计算资源空闲或计算资源利用率最低或排队作业最少。确定模块,具体用于将调度策略要求与计算集群的集群信息进行匹配,确定目标计算集群。集群信息为算网大脑从调度器获取并存储。

14、第四方面,本技术还提供了一种作业自动化调度装置,应用于算网门户。算网门户部署于作业自动化调度系统。自动化调度装置,包括:获取模块、发送模块、接收模块。

15、其中,获取模块,用于获取第一级作业队列中优先级最高的待执行作业的作业信息。作业信息包括:算力资源需求、调度策略要求、使用的应用程序名称。

16、发送模块,用于将算力资源需求、调度策略要求和使用的应用程序名称发送至算网大脑,以使算网大脑根据算力资源需求、调度策略要求和使用的应用程序名称确定目标计算集群。

17、接收模块,用于接收算网大脑发送的目标计算集群的集群信息。

18、发送模块,还用于将作业信息发送至目标计算集群对应的调度器,以使目标调度器将作业信息转发至目标计算集群。

19、一种可能的实现方式中,发送模块,具体用于将作业信息发送至目标计算集群的调度器。

20、本技术提供的作业自动化调度装置,还包括:提交模块、处理模块。

21、其中,提交模块,用于将作业信息提交至目标计算集群的第二作业队列。

22、处理模块,用于处理第二作业队列中优先级最高的待执行作业。

23、一种可能的实现方式中,接收模块,具体用于接收待执行作业的作业信息。提交模块,还用于将待执行作业提交至第一级作业队列。

24、另一方面,本技术还提供了一种作业自动化调度系统,包括:算网门户、算网大脑、至少一个调度器、至少一个计算集群。算网门户与算网大脑通信连接。算网门户与至少一个调度器通信连接。算网大脑与至少一个调度器通信连接。至少一个调度器与至少一个计算集群一一对应。调度器与计算集群通信连接。算网大脑用于执行第一方面或第一方面中任一项的作业自动化调度方法。算网门户用于执行第二方面或第二方面中任一项的作业自动化调度方法。调度器用于在接收到算网门户发送的作业信息后,将作业信息发送至与调度器对应的计算集群。计算集群用于根据作业信息执行待执行作业。

25、第五方面,本技术提供了一种作业自动化调度设备,该作业自动化调度设备具有实现上述第一方面或第二方面的方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

26、第六方面,本技术提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机可以执行上述第一方面或第一方面中任一种可能的实现方式或第二方面或第二方面中任一种可能的实现方式的作业自动化调度方法。

27、其中,第三方面至第六方面中任一种设计方式所带来的技术效果可参见第一方面至第二方面中不同设计方式所带来的技术效果,此处不再赘述。

28、本技术中第三方面到第六方面及其各种实现方式的具体描述,可以参考第一方面及其各种实现方式中或第二方面及其各种实现方式中的详细描述;并且,第三方面到第四方面及其各种实现方式的有益效果,可以参考第一方面或第二方面及其各种实现方式中的有益效果分析,此处不再赘述。

29、本技术的这些方面或其他方面在以下的描述中会更加简明易懂。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1