一种超大规模业务集群监控系统和方法

文档序号:6704265阅读:235来源:国知局
专利名称:一种超大规模业务集群监控系统和方法
技术领域
本发明涉及超大规模集群监控领域,具体涉及一种超大规模业务集群监控系统和 方法。
背景技术
随着服务器数量逐年增多,对于管理人员,需要及时掌握集群的情况,以及实时地 对集群进行监控。监控超大规模业务集群(大于2000台)会遇到各种性能瓶颈问题,该技术解决了 超大规模集群业务信息统一采集的性能问题、大规模数据存储和查询的性能问题。因此,需 要一种系统及方法解决上述问题。

发明内容
为解决上述缺点,本发明提出了一种超大规模业务集群监控系统和方法。一种超大规模集群业务监控系统,该系统包括中心业务监控服务器和分区业务监 控服务器,一种超大规模集群业务监控系统,该系统包括中心业务监控服务器和分区业务监 控服务器,其中,所述中心业务监控服务器包括接收来自多个分区业务监控服务器信息的接收模块;根据预定义的规则触发告警告警触发模块;所述分区业务监控服务器包括应急处理模块,用于对集群告警时的紧急管理;采集分区集群内部的业务信息的业务监控模块;将采集到的信息推送至中心业务监控服务器推送模块。优选的,所述告警触发模块由管理员预先设定阈值,当收到的业务监控服务器的 监控信息超过阈值时,则触发告警。较优选的,所述监控信息包括CPU利用率,内存占用空间和存储占用空间。优选的,所述应急处理模块在告警触发后超过预定时间无响应后,自动进行应急处理。较优选的,所述应急处理模块的应急处理为按照资源占用多少排序,优先关掉资 源占用多的进程。一种超大规模集群业务监控系统的监控方法,所示方法步骤如下A、对业务进行分区,每个分区设置一个分区业务监控服务器,分区业务监控服务 器采集到每个分区集群内部业务信息后,将信息推送至中心业务监控服务器;B、中心业务监控服务器接收到信息后,若超过预先设定的阈值,则发出告警信息, 若发出告警信息后等待响应时间超出设定的响应的时间,则对信息进行整合处理并反馈分区业务监控服务器;C、分区业务监控服务器根据反馈信息控制分区业务工作。优选的,所述分区业务监控服务器在接收到反馈信息后,首先按照资源占用高低 对进程排序,关掉资源占用高的进程。优选的,分区业务监控服务器采集的到集群内部业务信息包括CPU利用率,内存 占用空间,存储占用空间。本发明通过使用统一的集中式业务监控平台,有效实现了对超大规模集群业务系 统进行高效的监控和管理。


图1为本发明的超大规模集群分区业务监控系统的结构图;
具体实施例方式根据本发明提供的一种超大规模集群业务监控系统,包括中心业务监控系统和分 区业务监控系统。其中,每个分区业务监控服务器用于采集每个分区集群内部的信息,并将 采集到的信息推送至中心业务监控服务器。分区业务监控服务器包括业务监控模块、推送模块。其中,业务监控模块用于采集 分区集群内部业务的信息。推送模块用于将采集到的信息推送至中心业务监控服务器。中心监控服务器包括接收模块、告警触发模块。其中,接收模块用于接收来自多个 分区监控服务器的信息。告警触发模块用于根据预定义的规则触发告警。借助本发明上述技术方案,通过使用统一的集中式业务监控平台,实现对超大规 模集群业务系统进行高效的监控和管理。
权利要求
1.一种超大规模集群业务监控系统,其特征在于该系统包括中心业务监控服务器和 分区业务监控服务器,其中,所述中心业务监控服务器包括接收来自多个分区业务监控服务器信息的接收模块;根据预定义的规则触发告警告警触发模块;所述分区业务监控服务器包括应急处理模块,用于对集群告警时的紧急管理;采集分区集群内部的业务信息的业务监控模块;将采集到的信息推送至中心业务监控服务器推送模块。
2.如权利要求1所述一种超大规模集群业务监控系统,其特征在于所述告警触发模 块由管理员预先设定阈值,当收到的业务监控服务器的监控信息超过阈值时,则触发告警。
3.如权利要求2所述一种超大规模集群业务监控系统,其特征在于所述监控信息包 括CPU利用率,内存占用空间和存储占用空间。
4.如权利要求1所述一种超大规模集群业务监控系统,其特征在于所述应急处理模 块在告警触发后超过预定时间无响应后,自动进行应急处理。
5.如权利要求4所述一种超大规模集群业务监控系统,其特征在于所述应急处理模 块的应急处理为按照资源占用多少排序,优先关掉资源占用多的进程。
6.一种权利要求1所述的超大规模集群业务监控系统的监控方法,其特征在于所示 方法步骤如下A、对业务进行分区,每个分区设置一个分区业务监控服务器,分区业务监控服务器采 集到每个分区集群内部业务信息后,将信息推送至中心业务监控服务器;B、中心业务监控服务器接收到信息后,若超过预先设定的阈值,则发出告警信息,若发 出告警信息后等待响应时间超出设定的响应的时间,则对信息进行整合处理并反馈分区业 务监控服务器;C、分区业务监控服务器根据反馈信息控制分区业务工作。
7.如权利要求6所述监控方法,其特征在于所述分区业务监控服务器在接收到反馈 信息后,首先按照资源占用高低对进程排序,关掉资源占用高的进程。
8.如权利要求6所述监控方法,其特征在于分区业务监控服务器采集的到集群内部 业务信息包括CPU利用率,内存占用空间,存储占用空间。
全文摘要
本发明提供了一种超大规模集群业务监控系统,该系统包括中心业务监控服务器和分区业务监控服务器,本发明通过使用统一的集中式业务监控平台,有效实现了对超大规模集群业务系统进行高效的监控和管理。
文档编号G08B25/00GK102147960SQ201110069058
公开日2011年8月10日 申请日期2011年3月22日 优先权日2011年3月22日
发明者刘卫红, 历军, 李绍辉, 赵欢 申请人:曙光信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1