一种面向集群系统的监控方法与流程

文档序号:12596674阅读:309来源:国知局

本发明涉及一种集群系统的方法,具体涉及一种面向集群系统的监控方法。



背景技术:

集群系统是指一组相互独立的计算机,利用高速通信网络组成一个计算机系统,每个群集节点,即集群中的每台计算机,都是运行期自己进程的一个独立服务器。这些进程可以彼此通信,对网络客户机来说就像是形成了一个单一系统,协同起来向用户提供应用程序、系统资源和数据处理,并以单一系统的模式加以管理。然而由于一个集群系统中,可能存在非常多的计算机,这使得如果通过人力去管理、协调每个节点的工作以及节点之间的协同工作变得十分困难。首先不仅要求管理人员对集群系统有非常高的技术方面的能力,同时在集群系统运行过程中也需要花费大量人力去维护,而且有时一个集群系统中多打数十个甚至上百个独立计算机,人力难以达到完全兼顾的状态,使得有时如果节点故障或者出错,管理人员却不能及时发现,导致了进程的滞后等问题。这使得无形之中,增多了功应用集群系统的公司的运营、维护成本,并且效率大大降低,不利于公司的长期发展。



技术实现要素:

本发明的目的在于提供一种面向集群系统的监控方法,解决目前的集群系统存在的通过人力监控中存在人力成本高、效率较低的问题,达到通过该发明可以使得系统自己合理分配集群系统中的节点资源,降低成本、提高效率的目的。

本发明通过下述技术方案实现:

一种面向集群系统的监控方法,包括以下步骤:

步骤一、采集集群系统中各节点的详细属性和基本工作状态,生成各节点基本工作状态的报告日志;

步骤二、根据步骤一中得到的各节点的基本工作状态,判断是否有节点超过节点阈值或因故障而停止工作;若存在有节点的基本工作状态超过系统设定的阈值或处于停止工作状态,则扫描统计整个集群系统的资源使用情况,并判断集群系统的资源使用情况是否超过系统阈值,同时生成整个集群系统的资源使用情况报告日志;

步骤三、若步骤二中整个集群系统的资源情况未超过系统阈值,则扫描查找集群系统中处于空闲状态的节点,令处于空闲状态的节点分流所述基本工作状态超过节点阈值的节点的作业;

步骤四、若步骤二中整个集群系统的资源情况超过系统阈值,则通过系统对各作业的优先级判定,使优先级最低的任务停止工作进入队列排队等待。

进一步的,步骤一中的详细属性包括CPU型号、内存容量、磁盘容量、CPU核数、GPU型号、GPU核数、DSP型号、DSP核数,基工作状态包括物理机的主机名、内部通信IP地址、内部通信MAC地址、虚拟化平台、操作系统、CPU负载情况、GPU负载情况、DSP负载情况、磁盘负载情况、内存负载情况。

进一步的,步骤二中的资源使用情况包括CPU总使用率、GPU总使用率、DSP总使用率、交换分区食用量、网络流量、磁盘容量、网卡接收或发送数据包字节速度、内存总量使用率、磁盘总量使用率、CPU总数、GPU总数、DSP总数。

进一步的,监控系统支持将所述步骤中采集到的集群系统的资源使用情况、各节点的基本工作状态和详细属性所生成的报告存储在系统日志中。

进一步的,步骤四中的优先级判定包括:

步骤a、统计任务的优先级影响因子;

步骤b、根据步骤a中得到的优先级影响因子计算该任务的优先级。

进一步的,所述优先级影响因子包括:

任务来源:提交该任务的用户的级别;

公平共享:提交该任务的用户的资源使用历史记录;

任务申请资源:该任务所要占用的计算节点数,包括CPU个数、GPU个数、DSP个数、内存;

服务级别:包括任务已经在队列中排队的时间、任务排队等待的时间和任务所需时间的比值。

本发明与现有技术相比,具有如下的优点和有益效果:

1、本发明一种面向集群系统的监控方法,通过本发明实现使得系统自己合理分配集群系统中的节点资源,降低系统维护成本、提高系统效率与节点使用率的目的。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

实施例

一种面向集群系统的监控方法,包括以下步骤:

步骤一、采集集群系统中各节点的详细属性和基本工作状态,生成各节点基本工作状态的报告日志;

步骤二、根据步骤一中得到的各节点的基本工作状态,判断是否有节点超过节点阈值或因故障而停止工作;若存在有节点的基本工作状态超过系统设定的阈值或处于停止工作状态,则扫描统计整个集群系统的资源使用情况,并判断集群系统的资源使用情况是否超过系统阈值,同时生成整个集群系统的资源使用情况报告日志;

步骤三、若步骤二中整个集群系统的资源情况未超过系统阈值,则扫描查找集群系统中处于空闲状态的节点,令处于空闲状态的节点分流所述基本工作状态超过节点阈值的节点的作业;

步骤四、若步骤二中整个集群系统的资源情况超过系统阈值,则通过系统对各作业的优先级判定,使优先级最低的任务停止工作进入队列排队等待。

进一步的,步骤一中的详细属性包括CPU型号、内存容量、磁盘容量、CPU核数、GPU型号、GPU核数、DSP型号、DSP核数,基工作状态包括物理机的主机名、内部通信IP地址、内部通信MAC地址、虚拟化平台、操作系统、CPU负载情况、GPU负载情况、DSP负载情况、磁盘负载情况、内存负载情况。

进一步的,步骤二中的资源使用情况包括CPU总使用率、GPU总使用率、DSP总使用率、交换分区食用量、网络流量、磁盘容量、网卡接收或发送数据包字节速度、内存总量使用率、磁盘总量使用率、CPU总数、GPU总数、DSP总数。

进一步的,监控系统支持将所述步骤中采集到的集群系统的资源使用情况、各节点的基本工作状态和详细属性所生成的报告存储在系统日志中。当管理人员登录该系统时,可通过查看系统日志,了解系统运行时的各节点的详细属性和基本工作状态,以及整个集群系统的资源使用情况。

进一步的,步骤四中的优先级判定包括:

步骤a、统计任务的优先级影响因子;

步骤b、根据步骤a中得到的优先级影响因子计算该任务的优先级。

进一步的,所述优先级影响因子包括:

任务来源:提交该任务的用户的级别;

公平共享:提交该任务的用户的资源使用历史记录;

任务申请资源:该任务所要占用的计算节点数,包括CPU个数、GPU个数、DSP个数、内存;

服务级别:包括任务已经在队列中排队的时间、任务排队等待的时间和任务所需时间的比值。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1