一种IT系统的故障监控方法及系统与流程

文档序号:12828919阅读:496来源:国知局
一种IT系统的故障监控方法及系统与流程

本发明涉及运维技术领域,特别涉及一种it系统的故障监控方法及系统。



背景技术:

随着云计算和互联网的高速发展,大量应用需要横跨不同的网络终端,并广泛接入第三方服务,如支付宝、导航等。因此,it系统架构也越来越复杂,快速迭代的产品需求以及良好的用户体验都需要it运维管理者蚀刻保障核心业务的稳定。

对于企业运维而言,不但关心单点it资源的运行状态,更要关心整个业务系统的健康状态。如果企业使用了大量的api和模块化的应用,就必须要关注每个接口性能的变化情况和指标。对于企业的运维主管及企业的管理层来说,特别需要一种上墙的监控大屏。在运维过程中需要对运维工具数据进行分析,预知和快速的发现故障节点,减少业务中断带来的损失。

由于企业运维具有的以上特点,目前的监控系统虽层出不穷,但是仍不能满足企业运维的监控,具有如下缺陷:一是,没有实现和现有itss运维系统的对接、联动。二是,监控范围不全面,没有实现在服务器和网络设备上实现基础监控和上层业务监控,比如web、ftp、邮件系统、办公系统、数据库、负载均衡以及反向代理等。三是,页面展示效果不理想,现有的开源监控系统在页面展示形式单一。四是,目前的监控系统运维告警形式单一,容易产生报警风暴。五是,目前的监控系统无法实现自动化运维。



技术实现要素:

本发明的目的在于提供一种it系统的故障监控方法及系统,以实现和现有的itss运维系统的联动。

为实现以上目的,本发明第一方面,提供一种it系统的故障监控方法,该方法包括:

基于开源监控系统的报警功能,利用sql视图提取it监控系统数据库中的告警信息,并将告警信息导入itss运维系统中;

在itss运维系统中生成故障事件,并将故障事件分配给itss运维系统中已注册的运维工程师名下以及将故障事件对应的报警信息发送给微信平台;

通过微信平台接收报警信息后,对故障事件进行处理;

故障事件处理完成后,通过触发itss运维系统关闭故障事件并将故障解除信息发送至微信平台。

进一步地,该方法还包括:

利用硬件厂商提供的标准ipmi接口,提取硬件监控参数以对硬件进行监控;

利用snmp标准协议,提取网络设备的基础监控参数以对网络设备进行基础监控;

利用jmx标准协议,提取tomcat、appache服务器的基础监控参数以对服务器进行监控。

进一步地,该方法还包括:

在itss运维系统中添加预监控的设备和上层应用,并确定监控内容;

根据监控内容,编写巡检报告的格式模板,并将模板整合到itss运维系统中;

在itss运维系统中设置定时任务以触发定时巡检任务,并利用巡检脚本进行巡检;

将巡检脚本巡检得到的数据放置到编写的格式模板中,生成巡检报告。

进一步地,所述的it监控系统数据库zabbix监控系统、cacti监控系统以及solarwinds监控系统的数据库。

第二方面,提供一种it系统的故障监控系统,该系统包括:it监控系统、itss运维系统以及微信平台;

itss运维系统的输入端与it监控系统的输出端连接、输出端与微信平台的输入端连接。

与现有技术相比,本发明存在以下技术效果:本发明通过对企业用的各种it监控系统数据库中的告警信息,并将告警信息导入到itss运维系统中,由itss运维系统生成故障事件并控制故障事件的发起/关闭。实现了运维告警与itss运维系统的联动,实时将it监控系统中的告警信息推送到itss运维系统中,产生故障事件并分配至运维工程师处理。

附图说明

下面结合附图,对本发明的具体实施方式进行详细描述:

图1是本发明中一种it系统的故障监控方法的流程示意图;

图2是本发明中实现自动化运维的过程示意图;

图3是本发明中一种it系统的故障监控系统的结构示意图。

具体实施方式

为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。

如图1所示,本实施例公开了一种it系统的故障监控方法,该方法包括如下步骤s1至s4:

s1、基于开源监控系统的报警功能,利用sql视图提取it监控系统数据库中的告警信息,并将告警信息导入itss运维系统中;

s2、在itss运维系统中生成故障事件,并将故障事件分配给itss运维系统中已注册的运维工程师名下以及将故障事件对应的报警信息发送给微信平台;

s3、通过微信平台接收报警信息后,对故障事件进行处理;

s4、故障事件处理完成后,通过触发itss运维系统关闭故障事件并将故障解除信息发送至微信平台。

在实际应用过程中,运维工程师关注微信平台后即可接受报警事件,进入处理环节,运维工程师处理完成之后在itss运维系统中手动关闭故障事件,除法itss运维系统发送告警解除信息至微信平台。

进一步地,该方法还包括如下步骤:

利用硬件厂商提供的标准ipmi接口,提取硬件监控参数以对硬件进行监控,其中,硬件监控参数包括但不限于硬件的温度、电压、风扇工作状态以及电源状态等参数;

利用snmp标准协议,提取网络设备的基础监控参数以对网络设备进行基础监控,其中,基础监控参数包括但不限于cpu、内存、磁盘以及网络流量等参数;

利用jmx标准协议,提取tomcat、appache服务器基础监控参数以对服务器进行监控,其中,服务器的基础监控参数包括但不限于会话数、线程状态、类状态以及堆内存等参数。

进一步地,本实施例的故障监控方法可以对上层应用进行监控,具体过程为:

(1)监控各上层应用所使用的服务端口的状态;

(2)在各上层应用的业务系统中安装插件进行监控。

需要说明的是,上层应用监控的参数包括web、ftp、邮件系统、oa、数据库、负载均衡、反向代理、tomcat、云平台等。本实施例中能全面检测服务器和网络设备的硬件监控、基础监控以及上层业务的监控,实现了监控范围全面化、多元化。

进一步地,如图2所示,该方法还包括如下步骤s01、:

s01、在itss运维系统中添加预监控的设备和上层应用,并确定监控内容,其中,监控内容具体为监控各种服务,比如http服务,https服务,ftp服务,ssh服务,mysql服务,tomcat服务,smtp服务,pop服务等。

s02、根据监控内容,编写巡检报告的格式模板,并将模板整合到itss运维系统中;

s03、在itss运维系统中设置定时任务以触发定时巡检任务,并利用巡检脚本进行巡检;

s04、将巡检脚本巡检得到的数据放置到编写的格式模板中,生成巡检报告。

需要说明的是,本实施例中的定时巡检任务可设置为周、月、年的定时巡检,通过利用自动化运维开发语言python进行开发出巡检脚本,完成巡检工作。

进一步地,所述的it监控系统数据库zabbix监控系统、cacti监控系统以及solarwinds监控系统的数据库中的至少一个。其中,多个it监控系统监控的侧重点不一,发挥各监控系统的优势并将其进行性整合,避免每个监控系统单独开发的工作量以及管理。

如图3所示,本实施例公开了一种it系统的故障监控系统,该系统包括:it监控系统10、itss运维系统20以及微信平台30;

itss运维系统20的输入端与it监控系统10的输出端连接、输出端与微信平台30的输入端连接。

需要说明的是,本实施例中使用php、jsp等开发语言对故障监控系统的展示界面进行优化,是的故障监控系统的展示界面美观、简约。其中,对界面展示进行优化的过程为:掌握现有开源监控系统zabbix、cacti等页面展示的代码;对页面展示的图表数据的样式进行重新设计;页面开发人员对zabbix、cacti监控系统的前端代码进行优化和改写。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1