计算机集群监控的方法及系统的制作方法

文档序号:7995558阅读:227来源:国知局
专利名称:计算机集群监控的方法及系统的制作方法
技术领域
本发明涉及计算机通信领域,具体而言,本发明涉及计算机集群监控的方法及系统。
背景技术
计算机集群简称集群,是一种计算机系统,它通过一组松散集成的计算机软件和/ 或硬件连接起来,高度紧密地协作完成计算工作。在某种意义上,它们可以被看作是一台计算机。集群系统中的单个计算机通常称为结点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机,比如工作站或超级计算机性能价格比要高得多。集群应用对于现代日益增多的计算需求非常重要,可以有效的减少运算时间和充分应用服务器硬件资源。系统管理员需要及时掌握集群当前的运行状态及资源的使用情况,故而需要实时的对集群进行监控。现有的TOB方式的集群监控已有一些成熟产品,但主要存在以下几个问题一是监控内容固定,不可以自定制;二是存在着监控的及时性、完整性与计算性能之间的矛盾。因此,有必要提出一种有效的技术方案,解决现有的TOB方式中计算机集群监控的问题。

发明内容
本发明的目的旨在至少解决上述技术缺陷之一,特别是通过调整被监控结点的监控策略,优化系统的监控性能。本发明实施例提出了一种计算机集群监控的方法,包括以下步骤被监控结点进行运行信息采集,将所述结点当前负载状态及被监控的内容信息分别发送给参数调整模块和主监控模块;所述主监控模块接收所述结点当前负载状态及被监控的内容信息,将所述结点的负载状态和被监控的内容信息存入数据库;所述参数调整模块根据所述结点当前负载状态进行分析,当负载状态达到预设阈值时,调整被监控结点的监控策略,并将更新后的监控策略通知所述被监控结点。本发明提出的上述方案,根据系统的负载状态,合理定制监控内容,可有效控制在系统高负载运行时监控程序所占资源,能够方便快捷的获取集群监控状态和报警信息。此夕卜,本发明提出的上述方案,对现有系统的改动很小,不会影响系统的兼容性,而且实现简单、高效。本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。


本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中图1为本发明实施例计算机集群监控的方法流程图;图2为本发明实施例计算机集群监控的系统结构图。
具体实施例方式下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。为了现实本发明之目的,本发明实施例提出了一种计算机集群监控的方法,包括以下步骤被监控结点进行运行信息采集,将所述结点当前负载状态及被监控的内容信息分别发送给参数调整模块和主监控模块;所述主监控接收所述结点当前负载状态及被监控的内容信息,将所述结点的负载状态和被监控的内容信息存入数据库;所述参数调整模块根据所述结点当前负载状态进行分析,当负载状态达到预设阈值时,调整被监控结点的监控策略,并将更新后的监控策略通知所述被监控结点。如图1所示,为本发明实施例计算机集群监控的方法流程图,包括以下步骤SllO 被监控结点进行运行信息采集,将结点当前负载状态及被监控的内容信息分别发送给参数调整模块和主监控模块。在步骤SllO中,集群中各被监控结点首先运行信息采集,将结点当前负载状态及被监控内容分别发送到参数调整模块和集群管理结点的主监控模块。S120:主监控模块接收结点当前负载状态及被监控的内容信息,将结点的负载状态和被监控的内容信息存入数据库。主监控模块分析和处理得到的信息,将结点的状态和监控内容存入数据库。此外, 主监控模块还可以提供一个WEB服务,可通过网页查看监控结果。S130 参数调整模块根据结点当前负载状态进行分析,当负载状态达到预设阈值时,调整监控策略,并将更新后的监控策略通知被监控结点。参数调整模块根据当前的负载情况进行分析,负载的计算是内存、CPU、运行队列平均长度、I/O及网络传输量的综合考虑,如达到预设阈值则进行监控策略调整,调整被监控结点的监控策略包括以网络响应时间、CPU使用率或内存占用率的变化确定监控策略。例如,当被监控结点总体负载上升时若网络响应时间增加,延长被监控结点信息采集模块运行时间间隔;若CPU使用率上升,降低被监控结点信息采集模块运行优先级;若内存占用率上升,在被监控结点上运行轻量级监控引擎。例如,当被监控结点总体负载不变或下降时若网络响应时间减少,减少被监控结点信息采集模块运行时间间隔直至默认值; 若CPU使用率下降,增加被监控结点信息采集模块运行优先级直至默认值;若内存占用率上升,在被监控结点上切换回默认监控引擎。对于其他未说明情况,可以将已有参数保持不变。此外,总体负载长期超过阈值则连接报警装置进行报警或远程重启被监控结点。本发明提出的上述方法,可以实现基于TOB的集群监控,可自定制监控内容,同时可有效控制在系统高负载运行时监控程序所占资源,能够方便快捷的获取集群监控状态和
报警信息。为实现上述目的,如图2所示,本发明实施例还提供了一种计算机集群监控的系统,包括信息采集模块200、主监控模块100以及参数调整模块300。信息采集模块200用于在被监控结点进行运行信息采集,将结点当前负载状态及被监控的内容信息分别发送给参数调整模块300和主监控模块100。主监控模块100用于接收结点当前负载状态及被监控的内容信息,将结点的负载状态和被监控的内容信息存入数据库。主监控模块100提供TOB服务,用于通过网页查看被监控的内容信息。参数调整模块300用于根据结点当前负载状态进行分析,当负载状态达到预设阈值时,调整被监控结点的监控策略,并将更新后的监控策略通知信息采集模块200。参数调整模块300根据结点当前负载状态进行分析包括分析被监控结点的以下一种或多个参数内存使用率、CPU运行状态、运行队列长度、磁盘I/O、进程组及网络传输速率。参数调整模块300调整监控策略包括以网络响应时间、CPU使用率或内存占用率的变化确定监控策略。例如,当被监控结点总体负载上升时若网络响应时间增加,延长被监控结点信息采集模块运行时间间隔;若CPU使用率上升,降低被监控结点信息采集模块运行优先级;若内存占用率上升,在被监控结点上运行轻量级监控引擎。例如,当被监控结点总体负载不变或下降时若网络响应时间减少,减少被监控结点信息采集模块运行时间间隔直至默认值; 若CPU使用率下降,增加被监控结点信息采集模块运行优先级直至默认值;若内存占用率上升,在被监控结点上切换回默认监控引擎。对于其他未说明情况,可以将已有参数保持不变。此外,总体负载长期超过阈值则连接报警装置进行报警或远程重启被监控结点。应当了解,图2只是便于说明而将本发明提出的各个单元或模板集中在一块中描述。显然,本发明提出的各个单元或模板也可以以分离模块的形式存在于具体的计算机网络系统中实现。例如,将信息采集模块200和参数调整模块300置于在被监控结点,将主监控模块100置于某一监控主机上,等等。例如,系统总体结构如下信息采集模块200中的信息采集程序运行于被监控的结点上,负责对集群进行监控以采集获取集群结点的运行状态与需要监控的信息,结点直接与主监控模块100通信, 信息采集模块内又设置多个策略,可根据主监控模块100提供的扩展接口进行自定制监控内容。主监控模块100中的主监控程序运行在监控主机上,收集各信息采集程序的数据并保存在数据库中。参数调整模块300中的参数调整程序根据各结点的运行负载情况调整各结点的监控策略;报警装置根据集群系统的预设故障方案进行邮件和/或短信告警或远程重启被监控结点。例如,所述信息采集程序由一个主模块、一个通讯模块和多个功能模块组成。主模块接收来自参数调整程序的指令并配置各功能模块。功能模块分为集群状态及负载监控模块,轻量级监控引擎和默认监控引擎,默认监控引擎可以通过配置用户脚本自定制监控对象。例如,所述参数调整程序包含一个策略选择器,通过负载状态进行优先级、时间间隔及监控引擎切换。本发明提出的上述装置,可以实现基于TOB的集群监控,可自定制监控内容,同时可有效控制在系统高负载运行时监控程序所占资源,能够方便快捷的获取集群监控状态和
报警信息。本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
权利要求
1.一种计算机集群监控的方法,其特征在于,包括以下步骤被监控结点进行运行信息采集,将所述结点当前负载状态及被监控的内容信息分别发送给参数调整模块和主监控模块;所述主监控模块接收所述结点当前负载状态及被监控的内容信息,将所述结点的负载状态和被监控的内容信息存入数据库;所述参数调整模块根据所述结点当前负载状态进行分析,当负载状态达到预设阈值时,调整被监控结点的监控策略,并将更新后的监控策略通知所述被监控结点。
2.如权利要求1所述的计算机集群监控的方法,其特征在于,还包括所述主监控模块提供WEB服务,用于通过网页查看被监控的内容信息。
3.如权利要求1所述的计算机集群监控的方法,其特征在于,所述参数调整模块根据所述结点当前负载状态进行分析包括分析所述被监控结点的以下一种或多个参数内存使用率、CPU运行状态、运行队列长度、磁盘I/O、进程组及网络传输速率。
4.如权利要求1所述的计算机集群监控的方法,其特征在于,调整被监控结点的监控策略包括以网络响应时间、CPU使用率或内存占用率的变化确定监控策略。
5.如权利要求4所述的计算机集群监控的方法,其特征在于,当被监控结点总体负载上升时,所述监控策略包括以下一种或多种方式如果网络响应时间增加,延长被监控结点信息采集模块运行时间间隔; 如果CPU使用率上升,降低被监控结点信息采集模块运行优先级; 如果内存占用率上升,在被监控结点上运行轻量级监控引擎。
6.如权利要求4所述的计算机集群监控的方法,其特征在于,当被监控结点总体负载不变或下降时,所述监控策略包括以下一种或多种方式如果网络响应时间减少,减少被监控结点信息采集模块运行时间间隔直至默认值; 如果CPU使用率下降,增加被监控结点信息采集模块运行优先级直至默认值; 如果内存占用率上升,在被监控结点上切换回默认监控引擎。
7.一种计算机集群监控的系统,其特征在于,包括信息采集模块、主监控模块以及参数调整模块,所述信息采集模块,用于在被监控结点上采集运行信息,将所述结点当前负载状态及被监控的内容信息分别发送给所述参数调整模块和所述主监控模块;所述主监控模块,用于接收所述结点当前负载状态及被监控的内容信息,将所述结点的负载状态和被监控的内容信息存入数据库;所述参数调整模块,用于根据所述结点当前负载状态进行分析,当负载状态达到预设阈值时,调整被监控结点的监控策略,并将更新后的监控策略通知所述信息采集模块。
8.如权利要求7所述的计算机集群监控的设备,其特征在于,还包括所述主监控模块提供WEB服务,用于通过网页查看被监控的内容信息。
9.如权利要求7所述的计算机集群监控的设备,其特征在于,所述参数调整模块根据所述结点当前负载状态进行分析包括分析所述被监控结点的以下一种或多个参数内存使用率、CPU运行状态、运行队列长度、磁盘I/O、进程组及网络传输速率。
10.如权利要求7所述的计算机集群监控的设备,其特征在于,所述参数调整模块调整被监控结点的监控策略包括以网络响应时间、CPU使用率或内存占用率的变化确定监控策略。
11.如权利要求10所述的计算机集群监控的设备,其特征在于,当被监控结点总体负载上升时,所述监控策略包括以下一种或多种方式如果网络响应时间增加,延长被监控结点信息采集模块运行时间间隔; 如果CPU使用率上升,降低被监控结点信息采集模块运行优先级; 如果内存占用率上升,在被监控结点上运行轻量级监控引擎。
12.如权利要求10所述的计算机集群监控的设备,其特征在于,当被监控结点总体负载不变或下降时,所述监控策略包括以下一种或多种方式如果网络响应时间减少,减少被监控结点信息采集模块运行时间间隔直至默认值; 如果CPU使用率下降,增加被监控结点信息采集模块运行优先级直至默认值; 如果内存占用率上升,在被监控结点上切换回默认监控引擎。
全文摘要
本发明实施例提出了一种计算机集群监控的方法,包括以下步骤被监控结点进行运行信息采集,将所述结点当前负载状态及被监控的内容信息分别发送给参数调整模块和主监控模块;所述主监控模块接收所述结点当前负载状态及被监控的内容信息,将所述结点的负载状态和被监控的内容信息存入数据库;所述参数调整模块根据所述结点当前负载状态进行分析,当负载状态达到预设阈值时,调整被监控结点的监控策略,并将更新后的监控策略通知被监控结点。本发明提出的上述方法,根据系统的负载状态,合理定制监控内容,可有效控制在系统高负载运行时监控程序所占资源,能够方便快捷的获取集群监控状态和报警信息。
文档编号H04L12/26GK102497292SQ20111039156
公开日2012年6月13日 申请日期2011年11月30日 优先权日2011年11月30日
发明者卢威, 白利达, 陈岚 申请人:中国科学院微电子研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1