分布式集群监控系统及方法

文档序号:7720141阅读:331来源:国知局
专利名称:分布式集群监控系统及方法
技术领域
本发明涉及计算机技术高性能领域,特别涉及一种集群监控系统及方法。
背景技术
随着服务器数量逐年增多,对于管理人员,需要及时掌握集群的情况,以及实时地 对集群进行监控。 集群监控一般分为面向局域网的单集群监控和面向广域网的多集群分布式监控, 其中面向局域网的单集群监控是最常见的一种集群监控方法,而面向广域网的多集群分布 式监控方式比较少,尚无成熟的解决方案,目前方案只是支持少量机器的远程监控,没有支 持很多个分布式集群系统的监控方法。因此,需要一种系统及方法解决上述问题。

发明内容
针对相关技术中存在的一个或多个问题,本发明的目的在于提供一种分布式集群 监控系统及方法,以解决上述问题中的至少之一。 为实现上述目的,根据本发明的一个方面,提供了一种分布式集群监控系统,包括 多个分中心监控服务器和中心监控服务器。其中,每个分中心监控服务器用于采集每个分 布式集群内部的信息,并将采集到的信息推送至中心监控服务器。中心监控服务器用于接 收来自多个分中心监控服务器的信息,并按照信息对所有分布式集群进行统一配置,以及 将统一配置的结果提供给分中心监控服务器。 优选地,分中心监控服务器包括监控模块、推送模块和配置接收模块。其中,监控 模块用于采集分布式集群内部的信息。推送模块用于将采集到的信息推送至中心监控服务 器。配置接收模块用于接收来自中心监控服务器的统一配置结果。 优选地,中心监控服务器包括接收模块、配置模块和发送模块。其中,接收模块用 于接收来自多个分中心监控服务器的信息。配置模块用于按照所有分布式集群的信息对所 有分布式集群进行统一配置。发送模块用于将统一配置的结果提供给分中心监控服务器。
优选地,每个分中心监控服务器和中心监控服务器均通过集群监控的标准接口规 范进行通信。分布式集群的信息包括告警信息、CPU利用率和内存占用空间等。统一配置 包括管理授权、用户管理配置、告警配置和信息采集配置等。 根据本发明的另一个方面,提供了一种分布式集群监控方法,包括以下步骤每个
分中心监控服务器采集到每个分布式集群内部的信息后,将信息推送至中心监控服务器。
中心监控服务器接收来自分中心监控服务器的信息,并按照信息对所有分布式集群进行统
一配置,然后将统一配置的结果提供给分中心监控服务器。分中心监控服务器接收来自中
心监控服务器的统一配置结果,按照配置结果对分布式集群进行监控和管理。 借助本发明上述至少一个技术方案,通过使用统一的集中式监控平台,实现对分
布式集群的统一监控和管理。


本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解,其中 图1为根据本发明的分布式集群监控系统的结构图;以及
图2为根据本发明的分布式集群监控方法的流程图。
具体实施例方式
考虑到相关技术中存在的问题,本发明提供一种分布式集群监控系统及方法。下
面详细描述本发明的实施例,所述实施例的示例在附图中示出。应理解,下面通过参考附图
描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。 图l为根据本发明的分布式集群监控系统的结构图,如图l所示,该系统包括多个
分中心监控服务器100和中心监控服务器200。每个分中心监控服务器100采集每个分布
式集群内部的信息,并将采集到的信息按照统一的标准,即集群监控的标准接口规范以推
送的方式将信息发送到中心监控服务器200。 统一的标准是指待批准的行业标准《集群监控系统技术要求》,这是高性能计算机 标准委员会申报的一项行业标准,该技术要求提出了集群监控的标准接口规范。推送的方 式是指中心监控服务器被动接收各个分中心发送的数据。之所以采用推送的方式而不使 用中心去各个分中心主动获取信息的方式,是因为该方式可以避免分中心过多时同时主动 获取信息引起的网络带宽瓶颈,而采用推送的方式,只要设定好接口 ,每个分中心均经过授 权,便可以向中心的服务器推送数据,因为每个分中心推送时间的随机性,则可以在很大程 度上缓解同时发送信息的带宽压力也就避免了瓶颈。如果单个分中心发送的数据量太大, 也有可能超过网络带宽,这种极端情况只能要求分中心分批发送数据,或者建立专门的网 络来提高带宽。 中心监控服务器200接收来自多个分中心监控服务器100的信息,并按照信息对 所有分布式集群进行统一配置,以及将统一配置的结果提供给分中心监控服务器100。
分中心监控服务器100包括监控模块110、推送模块120和配置接收模块130。其 中,监控模块110用于采集分布式集群内部的信息。推送模块120用于将采集到的信息推 送至中心监控服务器200。配置接收模块130用于接收来自中心监控服务器200的统一配 置结果。 中心监控服务器200包括接收模块210、配置模块220和发送模块230。其中,接 收模块210用于接收来自多个分中心监控服务器100的信息。配置模块220用于按照所有 分布式集群的信息对所有分布式集群进行统一配置。发送模块230用于将统一配置的结果 提供给分中心监控服务器100。 下面结合附图2详细描述本发明的分布式集群监控方法,该方法包括以下步骤
步骤S210,每个分中心监控服务器100采集到每个分布式集群内部的信息后,将 信息推送至中心监控服务器200。 步骤S220,中心监控服务器200接收来自分中心监控服务器100的信息,并按照信
息对所有分布式集群进行统一配置,然后将统一配置的结果提供给每个分中心监控服务器 100。
步骤S230,每个分中心监控服务器100接收来自中心监控服务器200的统一配置 结果,按照统一配置结果对分布式集群进行监控和管理。 其中,每个分中心服务器上均有代理,中心服务器和分中心服务器代理通信,便可 以对分中心集群进行管理。 应理解,上述实施例仅是示意性的实施例,并不限制本发明仅能够通过上述实施 例实现。本领域的普通技术人员还能够根据上述方案提出其他修改或变化,这些修改或变 化均应包含在本发明的包含范围之内。 采用本发明的分布式集群监控系统,实现了广域网的分布式集群监控,并且能够 支持对多达上百个分布式集群的监控,监控信息占用的网络带宽少,监控的实时性能好。同 时,提供对各种商用、自定义的管理工具的集成接口,该接口主要指上述提到的公用的SNMP 监控接口 、《集群监控系统技术要求》接口等,具备可扩展性、集成性、可靠性和易用性,从而 满足对分布式集群中混合有不同厂家大型机的环境、硬件、软件等方面进行监控的需求。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以 理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换 和变型,本发明的范围由所附权利要求及其等同限定。
权利要求
一种分布式集群监控系统,其特征在于,所述系统包括多个分中心监控服务器,用于采集每个分布式集群内部的信息,并将所述信息推送至中心监控服务器;以及所述中心监控服务器,用于接收来自所述多个分中心监控服务器的信息,并按照所述信息对所有所述分布式集群进行统一配置,以及将所述统一配置的结果提供给所述分中心监控服务器。
2. 根据权利要求1所述的系统,其特征在于,所述分中心监控服务器包括监控模块,用于采集分布式集群内部的信息;推送模块,用于将所述信息推送至所述中心监控服务器;以及配置接收模块,用于接收来自所述中心监控服务器的统一配置结果。
3. 根据权利要求1所述的系统,其特征在于,所述中心监控服务器包括接收模块,用于接收来自所述多个分中心监控服务器的信息;配置模块,用于按照所述信息对所有所述分布式集群进行统一配置;以及发送模块,用于将所述统一配置的结果提供给所述分中心监控服务器。
4. 根据权利要求1至3中任一项所述的系统,其特征在于,每个所述分中心监控服务器与所述中心监控服务器之间的通信均采用集群监控的标准接口规范。
5. 根据权利要求1至4中任一项所述的系统,其特征在于,所述分布式集群的信息包括以下至少之一告警信息、CPU利用率和内存占用空间。
6. 根据权利要求1至3中任一项所述的系统,其特征在于,所述统一配置包括以下至少之一 管理授权、用户管理配置、告警配置和信息采集配置。
7 —种分布式集群监控方法,其特征在于,所述方法包括以下步骤每个分中心监控服务器采集到每个分布式集群内部的信息后,将所述信息推送至中心监控服务器;中心监控服务器接收来自所述分中心监控服务器的信息,并按照所述信息对所有分布式集群进行统一配置,然后将所述统一配置的结果提供给所述分中心监控服务器;以及所述分中心监控服务器接收来自所述中心监控服务器的统一配置结果,按照所述配置结果对分布式集群进行监控和管理。
8. 根据权利要求7所述的方法,其特征在于,每个所述分中心监控服务器与所述中心监控服务器之间的通信均采用集群监控的标准接口规范。
9. 根据权利要求7所述的方法,其特征在于,所述分布式集群的信息包括以下至少之一 告警信息、CPU利用率和内存占用空间。
10. 根据权利要求7所述的方法,其特征在于,所述统一配置包括以下至少之一 管理授权、用户管理配置、告警配置和信息采集配置。
全文摘要
本发明提供了一种分布式集群监控系统和方法,其中,该方法包括以下步骤每个分中心监控服务器采集到每个分布式集群内部的信息后,将信息推送至中心监控服务器。中心监控服务器接收来自分中心监控服务器的信息,并按照信息对所有分布式集群进行统一配置,然后将统一配置的结果提供给分中心监控服务器。分中心监控服务器接收来自中心监控服务器的统一配置结果,按照配置结果对分布式集群进行监控和管理。本发明通过使用统一的集中式监控平台,实现对分布式集群的统一监控和管理。
文档编号H04L12/24GK101719841SQ20091023800
公开日2010年6月2日 申请日期2009年11月13日 优先权日2009年11月13日
发明者历军, 孙国忠, 张伟, 温鑫, 聂华, 赵欢, 邵宗有 申请人:曙光信息产业(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1