一种高可用系统状态自动监控方法
【技术领域】
[0001]本发明涉及计算机数据通信技术领域,尤其涉及一种高可用系统状态自动监控方法。
【背景技术】
[0002]在应用系统、主机数目规模庞大的信息中心,涉及成百上千台主机和数以千计个应用程序。每个程序出现故障,都会导致某个业务中断,经济影响巨大。传统的监控系统虽然能监控到业务中断,但时延较长,不能对故障进行定位,也不能进行自动修复,需要人为干预排查原因,无法立即解决问题。若通过传统的人力轮询巡检、修复手段,必将投入巨大的人力资源,而且存在难于及时解决故障、恢复生产的问题。
【发明内容】
[0003]针对上述技术问题,本发明的目的在于提供一种高可用系统状态自动监控方法,能够集中监控和管理应用程序,及时发现应用程序故障并快速进行自动修复,解决传统监控存在的时延过长、人工干预排查、故障定位难的问题。
[0004]为达此目的,本发明采用以下技术方案:
一种高可用系统状态自动监控方法,包括如下步骤:
A、部署高可用监控系统控制台和高可用监控系统客户端;
B、设置高可用监控系统监控参数、高可用监控系统客户端监控信息要素和修复策略;
C、高可用监控系统客户端发送监控信息到高可用监控系统控制台,并在高可用监控系统控制台对监控信息进行汇总、分析和图形呈现,所述监控信息包括监控信息要素的具体内容;
D、高可用监控系统控制台分析监控数据,并根据分析结果判断是否存在故障,若存在故障,则执行相应的高可用监控系统客户端修复策略。
[0005]特别地,所述步骤A中高可用监控系统控制台包括两台PC服务器,组成集群高可用系统,监控系统客户端包括若干台应用服务器。
[0006]特别地,所述步骤B中高可用监控系统监控参数具体包括但不限于监控的时延阀值、频率。
[0007]特别地,所述步骤B中高可用监控系统客户端监控信息要素具体包括但不限于操作系统健康状态、主机CPU、内存、网卡、HBA卡、磁盘、卷组、文件系统、数据库进程、应用程序进程、网络端口。
[0008]特别地,所述步骤B中高可用监控系统客户端修复策略具体包括但不限于:对于应用进程故障,重新启动进程;对于具有冗余备用的硬件故障,转移服务至备用硬件;对于没有冗余备用的硬件故障,定位问题所在,在控制台告警请求人工干预。
[0009]本发明提出的一种高可用系统状态自动监控方法,高可用监控系统控制台对高可用监控系统客户端发送的监控信息进行分析,当分析结果为存在故障时,执行相应的修复策略,从而能够集中监控和管理应用程序,及时发现应用程序故障,并快速进行自动修复,解决传统监控存在的时延过长、人工干预排查、故障定位难的问题。
【附图说明】
[0010]
图1是本发明实施例提供的高可用系统状态自动监控方法的流程图。
【具体实施方式】
[0011]下面结合附图和实施例对本发明作进一步说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容,除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0012]实施例一
请参照图1所示,图1为本发明实施例提供的高可用系统状态自动监控方法的流程图。
[0013]本实施例中,高可用系统状态自动监控方法具体包括:
S101、部署高可用监控系统控制台和高可用监控系统客户端。
[0014]采用两台PC服务器组成集群高可用系统,作为高可用监控系统控制台,并分别对其部署高可用监控系统控制台模块;同时若干多台应用服务器作为高可用监控系统客户端,分别部署高可用监控系统客户端模块。
[0015]S102、设置高可用监控系统监控参数、高可用监控系统客户端监控信息要素和修复策略。
[0016]高可用监控系统控制台根据每个高可用监控系统客户端不同的软、硬件环境,设置具体的监控信息要素,包括操作系统健康状态、主机CPU、内存、网卡、HBA卡、磁盘、卷组、文件系统、数据库进程、应用程序进程、网络端口等;同时,根据每个应用系统的特点,设置时延阀值、频率等监控参数;同时,根据应用系统的特征和业务的需求,设置高可用修复策略。所述高可用修复策略包括:对于应用进程故障,重新启动进程;对于具有冗余备用的硬件故障,转移服务至备用硬件;对于没有冗余备用的硬件故障,定位问题所在,在控制台告警请求人工干预。
[0017]S103、高可用监控系统客户端发送监控信息到高可用监控系统控制台,并在高可用监控系统控制台对监控信息进行汇总、分析和图形呈现。
[0018]高可用监控系统客户端收集每台客户端上的配置信息、状态信息和日志,统一、集中传输到高可用监控系统控制台数据库,做汇总和分析,并呈现在控制台界面上。同时,高可用监控系统客户端发送监控信息到高可用监控系统控制台,并在高可用监控系统控制台对监控信息进行汇总、分析和图形呈现。所述客户信息包括S102中设置的监控信息要素的具体内容。所述高可用监控系统客户端发送监控信息的间隔时间根据需要进行设定,高可用监控系统控制台发现某个程序或部件在设定的间隔时间内没有反应,则认为其已出现故障。
[0019]S104、高可用监控系统控制台分析监控数据,并根据分析结果判断是否存在故障,若是,则执行S105;若否,则返回S103。
[0020]高可用监控系统控制台将监控数据与系统内部预设的相关阈值进行比较,并根据比较结果判断是否存在故障。
[0021]S105、执行相应的高可用监控系统客户端修复策略。
[0022]若判断存在故障时,则根据故障具体情况执行相应的S102中设置的高可用监控系统客户端修复策略。对于应用进程故障,重新启动进程;对于有冗余备用的硬件故障,转移服务至备用硬件,如将服务ip转移到备用网卡;对于没有冗余备用的硬件故障,及时在控制台告警,具体定位问题所在,请求人工干预。
[0023]本发明的技术方案,通过高可用监控系统控制台对高可用监控系统客户端发送的监控信息进行分析,当分析结果为存在故障时,执行相应的修复策略,从而能够集中监控和管理应用程序,及时发现应用程序故障,并快速进行自动修复,解决传统监控存在的时延过长、人工干预排查、故障定位难的问题。
[0024]注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
【主权项】
1.一种高可用系统状态自动监控方法,其特征在于,包括如下步骤: A、部署高可用监控系统控制台和高可用监控系统客户端; B、设置高可用监控系统监控参数、高可用监控系统客户端监控信息要素和修复策略; C、高可用监控系统客户端发送监控信息到高可用监控系统控制台,并在高可用监控系统控制台对监控信息进行汇总、分析和图形呈现,所述监控信息包括监控信息要素的具体内容; D、高可用监控系统控制台分析监控数据,并根据分析结果判断是否存在故障,若存在故障,则执行相应的高可用监控系统客户端修复策略。2.根据权利要求1所述的高可用系统状态自动监控方法,其特征在于,所述步骤A中高可用监控系统控制台包括两台PC服务器,组成集群高可用系统,监控系统客户端包括若干台应用服务器。3.根据权利要求1所述的高可用系统状态自动监控方法,其特征在于,所述步骤B中高可用监控系统监控参数具体包括但不限于监控的时延阀值、频率。4.根据权利要求1所述的高可用系统状态自动监控方法,其特征在于,所述步骤B中高可用监控系统客户端监控信息要素具体包括但不限于操作系统健康状态、主机CPU、内存、网卡、HBA卡、磁盘、卷组、文件系统、数据库进程、应用程序进程、网络端口。5.根据权利要求1所述的高可用系统状态自动监控方法,其特征在于,所述步骤B中高可用监控系统客户端修复策略具体包括但不限于:对于应用进程故障,重新启动进程;对于具有冗余备用的硬件故障,转移服务至备用硬件;对于没有冗余备用的硬件故障,定位问题所在,在控制台告警请求人工干预。
【专利摘要】本发明公开了一种高可用系统状态自动监控方法,部署高可用监控系统控制台和高可用监控系统客户端,高可用监控系统控制台对高可用监控系统客户端发送的监控信息进行分析,当分析结果为存在故障时,执行相应的修复策略。本发明所述的高可用系统状态自动监控方法能够集中监控和管理应用程序,及时发现应用程序故障,并快速进行自动修复,解决传统监控存在的时延过长、人工干预排查、故障定位难的问题。
【IPC分类】G06F11/36, G06F11/30
【公开号】CN105550094
【申请号】CN201510910430
【发明人】倪雅琦, 陈龙, 黄林
【申请人】国网四川省电力公司信息通信公司, 国家电网公司
【公开日】2016年5月4日
【申请日】2015年12月10日