本发明属于作业调度优化,尤其涉及一种基于作业状态判断集群系统节点的调度优化方法及系统。
背景技术:
1、分布式计算平台是综合科技创新能力的基础支撑,发展迅速,现在已进入超级计算中心、云平台、大数据和人工智能融合发展的新阶段。
2、发明人发现,随着软件集成度的增加,尤其是集群节点有多个应用软件共存时,传统检测集群节点的设备、网络等基本状态来判断该节点是否在线的方式(ibm spectrumlsf、opentext moab/torque、slurm和open pbs等作业调度系统)往往不能达到要求。在批量短作业情景下,或应用软件频繁升级会影响其它应用软件时,集群节点状态判断的准确性对作业调度造成严重影响,对于用户处理异常作业也带来难题。
技术实现思路
1、本发明为了解决上述问题,提出了一种基于作业状态判断集群系统节点的调度优化方法及系统,本发明节点状态判断采用通过对作业状态来判断集群系统或作业内容本身是否正常实现,提高了节点状态判断的准确性,避免了排队的作业被分配到异常节点上导致大量异常作业的问题,提高了用户处理异常作业和分布式计算作业调度的效率。
2、为了实现上述目的,本发明是通过如下的技术方案来实现:
3、第一方面,本发明提供了一种基于作业状态判断集群系统节点的调度优化方法,包括:
4、一种基于作业状态判断集群系统节点的调度优化方法,包括:
5、获取集群系统中集群节点的作业状态;
6、确定作业状态存在异常的节点,根据作业状态异常的原因判断节点是否异常;
7、如果判断节点为异常节点,则对集群节点进行调整,禁止向异常节点进行作业分配;
8、对异常节点进行修复,并向修复好的节点进行作业分配。
9、进一步的,所述集群系统包括多个计算节点和一个管理节点,所述管理节点获取待处理作业后将待处理作业发送给计算节点运行。
10、进一步的,所述作业状态包括作业的日志数据。
11、进一步的,根据历史数据,确定导致各种作业状态异常的原因,以及确定解决各种作业状态异常对应的方法。
12、进一步的,获取作业状态后,根据历史数据判断各节点处的作业状态是否异常,以及确定作业状态异常的原因。
13、进一步的,判断节点为异常节点后,将异常节点剔除所属的运行节点组,禁止向异常节点进行作业分配。
14、进一步的,对修复好的节点进行测试,测试合格后将修复好的节点移入所属的运行节点组进行作业分配。
15、第二方面,本发明还提供了一种基于作业状态判断集群系统节点的调度优化系统,包括:
16、一种基于作业状态判断集群系统节点的调度优化系统,包括:
17、数据采集模块,被配置为:获取集群系统中集群节点的作业状态;
18、异常判断模块,被配置为:确定作业状态存在异常的节点,根据作业状态异常的原因判断节点是否异常;
19、调整模块,被配置为:如果判断节点为异常节点,则对集群节点进行调整,禁止向异常节点进行作业分配;
20、修复模块,被配置为:对异常节点进行修复,并向修复好的节点进行作业分配。
21、第三方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现了第一方面所述的基于作业状态判断集群系统节点的调度优化方法的步骤。
22、第四方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现了第一方面所述的基于作业状态判断集群系统节点的调度优化方法的步骤。
23、与现有技术相比,本发明的有益效果为:
24、本发明中,根据集群系统中集群节点的作业状态异常情况及原因来判断节点是否异常,通过对作业状态判断集群系统或作业内容本身是否正常,提高了节点状态判断的准确性;通过对集群节点的调整,禁止向异常节点进行作业分,配避免了排队的作业被分配到异常节点上导致大量异常作业的问题,提高了用户处理异常作业和分布式计算作业调度的效率。解决了集群节点状态判断的准确性较低对作业调度造成严重影响的问题。
1.基于作业状态判断集群系统节点的调度优化方法,其特征在于,包括:
2.如权利要求1所述的基于作业状态判断集群系统节点的调度优化方法,其特征在于,所述集群系统包括多个计算节点和一个管理节点,所述管理节点获取待处理作业后将待处理作业发送给计算节点运行。
3.如权利要求1所述的基于作业状态判断集群系统节点的调度优化方法,其特征在于,所述作业状态包括作业的日志数据。
4.如权利要求1所述的基于作业状态判断集群系统节点的调度优化方法,其特征在于,根据历史数据,确定导致各种作业状态异常的原因,以及确定解决各种作业状态异常对应的方法。
5.如权利要求4所述的基于作业状态判断集群系统节点的调度优化方法,其特征在于,获取作业状态后,根据历史数据判断各节点处的作业状态是否异常,以及确定作业状态异常的原因。
6.如权利要求1所述的基于作业状态判断集群系统节点的调度优化方法,其特征在于,判断节点为异常节点后,将异常节点剔除所属的运行节点组,禁止向异常节点进行作业分配。
7.如权利要求1所述的基于作业状态判断集群系统节点的调度优化方法,其特征在于,对修复好的节点进行测试,测试合格后将修复好的节点移入所属的运行节点组进行作业分配。
8.基于作业状态判断集群系统节点的调度优化系统,其特征在于,包括:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现了如权利要求1-7任一项所述的基于作业状态判断集群系统节点的调度优化方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现了如权利要求1-7任一项所述的基于作业状态判断集群系统节点的调度优化方法的步骤。