一种运维系统故障自动诊断方法及系统与流程

文档序号:11154791阅读:532来源:国知局
一种运维系统故障自动诊断方法及系统与制造工艺

本发明属于系统运营维护技术领域,尤其涉及一种运维系统故障自动诊断方法及系统。



背景技术:

有效的运维系统应能充分了解业务资源的使用状况,及时发现可能导致系统故障的隐患,是实现系统运营保障的关键。针对现有的运维系统在运行过程中接口程序产生未知的故障,不能自行修复的错误导致接口卡死、崩溃等导致系统无法正常获取数据而无法正常运行的问题。现有系统的检测办法是,采集服务检测接口程序和采集服务之间的标准通讯协议的连接状态。但此方式的缺点是如果程序卡死或者发生错误的时候无法获取反馈状态,这样就无法准确判断程序的状态,本方法将解决在标准的通讯协议无法检测程序状态的情况下也可以检测接口程序运行的状态。



技术实现要素:

本发明的目的是提供一种运维系统故障自动诊断方法及系统,即在多种检测并行方式并用的基础上,对运维系统运行故障进行故障识别及修复,以保证接口程序的正常运行。

为了解决上述技术问题,本发明提供了一种运维系统故障自动诊断方法,包括如下步骤:步骤S1,获得运维系统正常运行的相关参数的运行信息;步骤S2,建立运维系统运行故障时相关参数运行异常的判断依据;步骤S3,采集运维系统运行中相关参数的运行信息;步骤S4,对运维系统运行故障进行故障识别及关闭相关程序。

进一步可选的,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态,以及操作系统的系统事件。

进一步,所述步骤S3包括并行采用的3种相关参数的采集方式,包括;采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;实时采集被监测的接口程序的内存使用状态,以设定的时间为单位获取当前的内存使用量,将每一设定的时间的内存使用量和上一设定的时间的内存使用量进行对比,以获取接口程序是否卡死的信息,如果在设定的时间内存使用量未有变动,则证明接口程序处于卡死状态;采用定时轮询的方式,采集操作系统的系统事件,以获取接口程序是否存在报错事件的信息。

进一步可选的,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的CPU利用率,以及操作系统的系统事件。

进一步,所述步骤S3包括并行采用的3种相关参数的采集方式,包括:采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;实时采集被监测的接口程序的CPU利用率,以设定的时间为单位获取当前的CPU利用率,将每一设定的时间的CPU利用率和上一设定的时间的CPU利用率进行对比,以获取接口程序是否卡死的信息,如果在设定的时间CPU利用率未有变动,则证明接口程序处于卡死状态;采用定时轮询的方式,采集操作系统的系统事件,以获取接口程序是否存在报错事件的信息。

进一步,所述定时轮询的流程包括定时读取任务数据和调用指令处理流程进行任务处理。

又一方面,本发明还提供了一种运维系统故障自动诊断系统,包括:所述运维系统故障自动诊断系统采用所述的运维系统故障自动诊断方法,包括:核心处理单元,与核心处理单元相连的设置单元、监听单元、判断单元和报警单元;其中所述设置单元,用于设置要监听的运维系统正常运行的相关参数的运行信息;所述监听单元,用于获取所述的运维系统运行的相关参数的运行信息;所述判断单元,用于根据监听单元获取的运维系统运行的相关参数的运行信息,判断各相关参数的运行是否正常;以及报警单元,当判断单元判断有相关参数的运行异常时发出报警信号;程序启动单元,用于当运维系统运行状态异常时,重启接口程序;即所述核心处理单元接收所述监听单元获取的运维系统运行的相关参数的运行信息后发送给判断单元以判断各相关参数的运行是否正常,判断单元将判断结果发送给核心处理单元,当判断单元判断有相关参数的运行异常时,核心处理单元对运行异常进行故障识别,并将识别的故障信号发送至报警单元,同时核心处理单元控制程序启动单元进行接口程序的重启

进一步,所述核心处理单元还适于通过无线模块将报警信息发送至工作人员的智能终端。

进一步,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态和/或CPU利用率,以及操作系统的系统事件。

进一步,所述运维系统故障自动诊断系统还包括一轮询单元,用于根据监听策略启动定时器,并在计时结束时通知监听单元抓取数据。

本发明的有益效果是,本发明提供的运维系统故障自动诊断方法及系统,通过对运维系统运行中的相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态和/或CPU利用率,以及操作系统的系统事件的3种并行方式的检测,对运维系统运行中可能存在的接口程序通讯断开、接口程序卡死、接口程序报错的异常状态进行充分的检测,3种检测方式任一检测出故障信息,即关闭接口程序,再重启接口程序,以保证系统的正常运行。本运维系统故障自动诊断方法及系统较现有的只检测接口程序的通讯状态的方式(接口程序通讯断开),增加了接口程序卡死、接口程序报错两种检测方式,对于运维系统运行的中的故障诊断更加全面精确,对确保运维系统的正常运行具有更广泛的应用前景。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明的运维系统故障自动诊断方法的原理图;

图2为本发明的运维系统故障自动诊断方法的流程图;

图3为本发明的运维系统故障自动诊断系统的结构框图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。

实施例1

如图1和图2所示,本发明的一种运维系统故障自动诊断方法,包括如下步骤:步骤S1,获得运维系统正常运行的相关参数的运行信息;步骤S2,建立运维系统运行故障时相关参数运行异常的判断依据;步骤S3,采集运维系统运行中相关参数的运行信息;步骤S4,对运维系统运行故障进行故障识别及关闭相关程序。

具体的,所述相关程序为接口程序。接口程序是一种通过标准的通讯协议,和硬件设备进行通讯获取智能设备的运行信息,和采集服务进行交互的程序。

可选的,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态,以及操作系统的系统事件。其中,所述对操作系统的系统事件进行分析抓取接口程序的报错事件。

所述步骤S3包括并行采用的3种相关参数的采集方式,包括;采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;实时采集被监测的接口程序的内存使用状态,以设定的时间为单位获取当前的内存使用量,将每一设定的时间的内存使用量和上一设定的时间的内存使用量进行对比,以获取接口程序是否卡死的信息,如果在设定的时间内存使用量未有变动,则证明接口程序处于卡死状态;采用定时轮询的方式,采集操作系统的系统事件,以获取接口程序是否存在报错事件的信息。

具体的,实时采集被监测的接口程序的内存使用状态,以秒为单位获取当前的内存使用量,和上一秒的内存使用量进行对比,如果内存使用量未有变动,则说明接口程序处于卡死状态。

可选的,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的CPU利用率,以及操作系统的系统事件。

所述步骤S3包括并行采用的3种相关参数的采集方式,包括:采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;实时采集被监测的接口程序的CPU利用率,以设定的时间为单位获取当前的CPU利用率,将每一设定的时间的CPU利用率和上一设定的时间的CPU利用率进行对比,以获取接口程序是否卡死的信息,如果在设定的时间CPU利用率未有变动,则证明接口程序处于卡死状态;采用定时轮询的方式,采集操作系统的系统事件,以获取接口程序是否存在报错事件的信息。

所述定时轮询的流程包括定时读取任务数据和调用指令处理流程进行任务处理。

实施例2

如图3所示,在实施例1基础上,本发明还提供了一种运维系统故障自动诊断系统,包括:所述运维系统故障自动诊断系统采用所述的运维系统故障自动诊断方法,包括:核心处理单元,与核心处理单元相连的设置单元、监听单元、判断单元和报警单元;其中所述设置单元,用于设置要监听的运维系统正常运行的相关参数的运行信息;所述监听单元,用于获取所述的运维系统运行的相关参数的运行信息;所述判断单元,用于根据监听单元获取的运维系统运行的相关参数的运行信息,判断各相关参数的运行是否正常;以及报警单元,当判断单元判断有相关参数的运行异常时发出报警信号;程序启动单元,用于当运维系统运行状态异常时,重启接口程序;即所述核心处理单元接收所述监听单元获取的运维系统运行的相关参数的运行信息后发送给判断单元以判断各相关参数的运行是否正常,判断单元将判断结果发送给核心处理单元,当判断单元判断有相关参数的运行异常时,核心处理单元对运行异常进行故障识别,并将识别的故障信号发送至报警单元,同时核心处理单元控制程序启动单元进行接口程序的重启

所述核心处理单元还适于通过无线模块将报警信息发送至工作人员的智能终端。具体的,所述智能终端采用例如但不限于智能手机和平板电脑中的一种或多种。通过将报警信号发送至工作人员的智能终端,便于工作人员及时掌握运维系统的运行状况,对于异常运行若系统没有及时重启,可以选择人工模式进行修复,确保运维系统的正常运行。

所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态和/或CPU利用率,以及操作系统的系统事件。

所述运维系统故障自动诊断系统还包括一轮询单元,用于根据监听策略启动定时器,并在计时结束时通知监听单元抓取数据。

以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1