一种故障监控方法及监控装置与流程

文档序号:11180430阅读:923来源:国知局
一种故障监控方法及监控装置与流程
本发明涉及信息处理领域,尤其涉及一种故障监控方法及监控装置。
背景技术
:网络监控平台是一个开源的网络监控框架,它可以通过一系列直观的方式监控网络的健康状况,因此,网络监控平台对于维护网络的正常运行发挥着十分重要的作用。然而,常常会由于各种各样的原因造成网络监控平台运行停止。相关技术中,管理员需要实时关注网络监控平台的运行情况,并且当发现网络监控平台运行停止时,需要手动获取网络监控平台的日志文件,然后根据日志文件查找导致网络监控平台运行停止的故障,进而进行处理,因此操作过程相当繁琐,并且十分耗费人力成本。技术实现要素:为了解决上述技术问题,本发明提供一种故障监控方法及监控装置,能够简单、快捷地实现对网络监控平台运行情况的监控以及对网络监控平台故障的处理。为了达到本发明目的,本发明提供了一种故障监控方法,包括:监控网络监控平台的运行情况;当监控到所述网络监控平台停止运行时,获取所述网络监控平台的日志文件;根据获得的日志文件和故障信息库处理导致网络监控平台停止运行的故障;其中,所述故障信息库存储有针对所述导致网络监控平台停止运行的故障的处理方法。所述监控网络监控平台的运行情况之前,还包括:创建所述网络监控平台的守护进程;相应的,所述监控网络监控平台的运行情况,包括:通过所述守护进程监控网络监控平台的运行情况;所述当监控到网络监控平台停止运行时,获取所述网络监控平台的日志文件,包括:当监控到所述网络监控平台停止运行时,通过所述守护进程获取所述网络监控平台的日志文件;所述根据获得的日志文件和故障信息库处理导致网络监控平台停止运行的故障,包括:通过所述守护进程根据获得的日志文件和所述故障信息库处理所述导致网络监控平台停止运行的故障。所述监控网络监控平台的运行情况,包括:定时获取所述网络监控平台的性能数据;根据所述网络监控平台的性能数据确定所述网络监控平台的运行情况。所述当监控到网络监控平台停止运行时,获取网络监控平台的日志文件,包括:当监控到所述网络监控平台停止运行时,执行所述网络监控平台的重启命令;若所述网络监控平台重启失败,获取所述网络监控平台的日志文件。所述根据获得的日志文件和故障信息库处理导致网络监控平台停止运行的故障之后,还包括:执行所述网络监控平台的重启命令;若所述网络监控平台重启成功,确定导致所述网络监控平台停止运行的故障被成功处理;若所述网络监控平台重启失败,获取所述网络监控平台的日志文件;根据所述日志文件和故障信息库处理导致所述网络监控平台停止运行的故障,直到所述网络监控平台重启成功。所述根据获得的日志文件和故障信息库处理导致网络监控平台停止运行的故障,包括:在所述日志文件中获取包含预设关键字的信息;根据所述包含预设关键字的信息确定导致所述网络监控平台停止运行的故障;在所述故障信息库中获取处理导致所述网络监控平台停止运行的故障的目标处理方法;采用所述目标处理方法处理故障。本发明还提供了一种故障监控装置,包括:监控模块,用于监控网络监控平台的运行情况;获取模块,用于当监控到所述网络监控平台停止运行时,获取所述网络监控平台的日志文件;处理模块,用于根据获得的日志文件和故障信息库处理导致网络监控平台停止运行的故障;其中,所述故障信息库存储有针对所述导致网络监控平台停止运行的故障的处理方法。还包括:创建模块,用于创建所述网络监控平台的守护进程;所述监控模块,具体用于通过所述守护进程监控网络监控平台的运行情况;所述获取模块,具体用于当监控到所述网络监控平台停止运行时,通过所述守护进程获取所述网络监控平台的日志文件;所述处理模块,具体用于通过所述守护根据获得的日志文件和故障信息库处理导致网络监控平台停止运行的故障。还包括:执行模块,用于执行所述网络监控平台的重启命令;确定模块,用于若所述网络监控平台重启成功,确定导致所述网络监控平台停止运行的故障被成功处理;获取模块,还用于若所述网络监控平台重启失败,获取所述网络监控平台的日志文件;处理模块,还用于根据所述日志文件和故障信息库处理导致所述网络监控平台停止运行的故障,直到所述网络监控平台重启成功。所述处理模块包括:获取单元,用于在所述日志文件中获取包含预设关键字的信息;确定单元,用于根据所述包含预设关键字的信息确定导致所述网络监控平台停止运行的故障;所述获取单元,还用于在所述故障信息库中获取处理导致所述网络监控平台停止运行的故障的目标处理方法;处理单元,用于采用所述目标处理方法处理故障。与现有技术相比,本发明至少包括监控网络监控平台的运行情况;当监控到网络监控平台停止运行时,获取网络监控平台的日志文件;根据获得的日志文件和故障信息库处理导致网络监控平台停止运行的故障;其中,故障信息库存储有针对导致网络监控平台停止运行的故障的处理方法。从本发明提供的技术方案可见,由于对网络监控平台的运行情况实现了自动监控,并且在监控到网络监控平台停止运行时,自动获取网络平台的日志文件并根据日志文件和预设故障信息库处理故障,从而无需耗费人力成本,简单、快捷地实现了对网络监控平台运行情况的监控以及对网络监控平台故障的处理。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。图1为本发明实施例提供的一种故障监控方法的流程示意图;图2为本发明实施例提供的另一种故障监控方法的流程示意图;图3为本发明实施例提供的又一种故障监控方法的流程示意图;图4为本发明实施例提供的一种故障监控装置的结构示意图;图5为本发明实施例提供的另一种故障监控装置的结构示意图;图6为本发明实施例提供的又一种故障监控装置的结构示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。本发明实施例提供一种故障监控方法,如图1所示,该方法包括:步骤101、监控网络监控平台的运行情况。具体的,网络监控平台可以是shinken。步骤102、当监控到网络监控平台停止运行时,获取网络监控平台的日志文件。需要说明的是,网络监控平台的日志文件是网络监控平台产生的日志文件,记载着网络监控平台所有的处理记录。步骤103、根据获得的日志文件和故障信息库处理导致网络监控平台停止运行的故障。其中,故障信息库存储有针对导致网络监控平台停止运行的故障的处理方法。本发明实施例所提供的故障监控方法,监控网络监控平台的运行情况;当监控到网络监控平台停止运行时,获取网络监控平台的日志文件;根据获得的日志文件和故障信息库处理导致网络监控平台停止运行的故障;其中,故障信息库存储有针对导致网络监控平台停止运行的故障的处理方法。从本发明提供的技术方案可见,由于对网络监控平台的运行情况实现了自动监控,并且在监控到网络监控平台停止运行时,自动获取网络平台的日志文件并根据日志文件和预设故障信息库处理故障,从而无需耗费人力成本,简单、快捷地实现了对网络监控平台运行情况的监控以及对网络监控平台故障的处理。本发明实施例提供另一种故障监控方法,如图2所示,该方法包括:步骤201、创建网络监控平台的守护进程。具体的,守护进程daemon是一种运行在后台的一种特殊的进程,它独立于控制终端并且周期性的执行某种任务或等待处理某些发生的事件。由于在操作系统linux中,每个系统与用户进行交流的界面成为终端,每一个从此终端开始运行的进程都会依附于这个终端,这个终端被称为这些进程的控制终端,当控制终端被关闭的时候,相应的进程都会自动关闭。但是守护进程却能突破这种限制,脱离于终端在后台运行并且不被任何其他进程所打断。它从被执行的时候开始运转,直到整个系统关闭才退出。步骤202、通过守护进程监控网络监控平台的运行情况。具体的,可以通过守护进程执行命令/etc/init.d/shinkenstatus来监控网络平台的运行情况。步骤203、当监控到网络监控平台停止运行时,通过守护进程获取网络监控平台的日志文件。步骤204、通过守护进程根据获得的日志文件和故障信息库处理导致网络监控平台停止运行的故障。其中,故障信息库存储有针对导致网络监控平台停止运行的故障的处理方法。需要说明的是,本发明实施例提供的故障监控方法与图1对应的实施例提供的故障监控方法的区别在于,本发明实施例提供的故障监控方法是图1对应的实施例提供的故障监控方法的一种具体实现方式,本发明实施例提供的故障监控方法首先创建一个守护进程,以通过守护进程进行图1对应的实施例提供的故障监控方法的所有步骤。本发明实施例所提供的故障监控方法,创建网络监控平台的守护进程;通过守护进程监控网络监控平台的运行情况;当监控到网络监控平台停止运行时,通过守护进程获取网络监控平台的日志文件;通过守护进程根据日志文件和故障信息库处理导致网络监控平台停止运行的故障;其中,故障信息库存储有针对导致网络监控平台停止运行的故障的处理方法。从本发明提供的技术方案可见,由于创建了守护进程,进而控制守护进程就可以实现对网络平台的运行情况进行监控,并且在所控制的守护进程监控到网络监控平台停止运行时,控制守护进程就可以获取网络平台的日志文件并根据日志文件和故障信息库处理故障,从而无需耗费人力成本,简单、快捷地实现了对网络监控平台运行情况的监控以及对网络监控平台故障的处理。本发明实施例提供又一种故障监控方法,如图3所示,该方法包括:步骤301、定时获取网络监控平台的性能数据。步骤302、根据网络监控平台的性能数据确定网络监控平台的运行情况。需要说明的是,定时获取网络监控平台的性能数据、根据所获取的性能数据进行分析以确定网络监控平台的运行情况。其中,网络监控平台的运行情况包括运行正常和运行停止两种情况。步骤303、当网络监控平台停止运行时,执行网络监控平台的重启命令。具体的,重启命令可以是/etc/init.d/shinkenrestart。需要说明的是,网络监控平台可能存在偶然异常导致的停止运行情况,这种情况不属于故障,因此需要执行网络监控平台的重启命令以排除这种情况导致的网络监控平台停止运行。步骤304、若网络监控平台重启失败,获取网络监控平台的日志文件。需要说明的是,若网络监控平台重启成功,则说明网络监控平台的停止运行是因为偶然异常导致的,网络监控平台的成功重启已经处理了偶然异常,因此不再执行其他任何操作,结束整个流程。步骤305、在日志文件中获取包含预设关键字的信息。具体的,预设关键字是用来分析导致网络监控平台停止运行的故障的关键信息,他可以是“error”或“errorlog”或“configerror”等关键词语。步骤306、根据包含预设关键字的信息确定导致网络监控平台停止运行的故障。具体的,由于日志文件中记录的是一条一条的运行信息,而每条运行信息都清楚地表明了所运行的项目以及所运行的项目是否正常,因此获取了包含预设关键字的信息,就能直接从信息中确定导致网络监控平台停止运行的故障。步骤307、在故障信息库中获取处理导致网络监控平台停止运行的故障的目标处理方法。其中,故障信息库存储有针对导致网络监控平台停止运行的故障的处理方法。具体的,导致网络监控平台停止运行的故障可以包括配置文件中参数错误、配置文件错误以及配置文件命令错误等。针对因配置文件中参数错误导致的网络监控平台停止运行的故障,处理方法可以是恢复默认参数;针对因配置文件错误导致的网络监控平台停止运行的故障,处理方法可以是删除配置文件;针对因配置文件命令错误导致的网络监控平台停止运行的故障,处理方法可以是删除配置文件命令,因此故障信息库的建立可以如下表1所示,表1导致网络监控平台停止运行的故障对应的处理方法配置文件中参数错误恢复默认参数配置文件错误删除配置文件配置文件命令错误删除配置文件命令确定了导致网络监控平台停止运行的故障,就可以根据表1确定目标处理方法,即如果导致网络监控平台停止运行的故障是配置文件中参数错误,那么目标处理方法就是恢复默认参数;如果导致网络监控平台停止运行的故障是配置文件错误,那么目标处理方法就是删除配置文件;如果导致网络监控平台停止运行的故障是配置文件命令错误,那么目标处理方法就是删除配置文件命令。步骤308、采用目标处理方法处理故障。步骤309、执行网络监控平台的重启命令。需要说明的是,采用目标处理方法处理故障后需要执行网络监控平台的重启命令以查看故障是否已经处理,网络监控平台是否能够重新运行。步骤310、若网络监控平台重启成功,确定导致网络监控平台停止运行的故障被成功处理。步骤311、若网络监控平台重启失败,获取网络监控平台的日志文件。需要说明的是,由于网络监控平台重启失败,会产生新的日志文件,因此需要再次获取网络监控平台的日志文件以进行分析。步骤312、根据日志文件和故障信息库处理导致网络监控平台停止运行的故障,直到网络监控平台重启成功。需要说明的是,再次根据日志文件和故障信息库处理导致网络监控平台停止运行的故障的具体过程如步骤305~308所示,直到网络监控平台重启成功。还需要说明的是,还可以创建守护进程,以通过守护进程完成步骤301~312。本发明实施例所提供的故障监控方法,监控网络监控平台的运行情况;当监控到网络监控平台停止运行时,获取网络监控平台的日志文件;根据获得的日志文件和故障信息库处理导致网络监控平台停止运行的故障;其中,故障信息库存储有针对导致网络监控平台停止运行的故障的处理方法。从本发明提供的技术方案可见,由于对网络监控平台的运行情况实现了自动监控,并且在监控到网络监控平台停止运行时,自动获取网络平台的日志文件并根据日志文件和预设故障信息库处理故障,从而无需耗费人力成本,简单、快捷地实现了对网络监控平台运行情况的监控以及对网络监控平台故障的处理。本发明实施例提供一种故障监控装置,如图4所示,该故障监控装置4包括:监控模块41,用于监控网络监控平台的运行情况。获取模块42,用于当监控到网络监控平台停止运行时,获取网络监控平台的日志文件。处理模块43,用于根据获得的日志文件和故障信息库处理导致网络监控平台停止运行的故障;其中,故障信息库存储有针对导致网络监控平台停止运行的故障的处理方法。进一步,在图4对应的实施例的基础上,本发明实施例提供另一种故障监控装置,如图5所示,该故障监控装置4还包括:创建模块44,用于创建网络监控平台的守护进程。监控模块41,具体用于通过守护进程监控网络监控平台的运行情况。获取模块42,具体用于当监控到网络监控平台停止运行时,通过守护进程获取网络监控平台的日志文件。处理模块43,具体用于通过守护根据获得的日志文件和故障信息库处理导致网络监控平台停止运行的故障。进一步,在图4对应的实施例的基础上,本发明实施例提供又一种故障监控装置,如图6所示,监控模块41具体用于:定时获取网络监控平台的性能数据;根据网络监控平台的性能数据确定网络监控平台的运行情况。获取模块42具体用于:当监控到网络监控平台停止运行时,执行网络监控平台的重启命令;若网络监控平台重启失败,获取网络监控平台的日志文件。该故障监控装置4还包括:执行模块45,用于执行网络监控平台的重启命令。确定模块46,用于若网络监控平台重启成功,确定导致网络监控平台停止运行的故障被成功处理。获取模块42,还用于若网络监控平台重启失败,获取网络监控平台的日志文件。处理模块43,还用于根据日志文件和故障信息库处理导致网络监控平台停止运行的故障,直到网络监控平台重启成功。处理模块43包括:获取单元431,用于在日志文件中获取包含预设关键字的信息。确定单元432,用于根据包含预设关键字的信息确定导致网络监控平台停止运行的故障。获取单元431,还用于在故障信息库中获取处理导致网络监控平台停止运行的故障的目标处理方法。处理单元433,用于采用目标处理方法处理故障。本发明实施例所提供的故障监控装置,监控网络监控平台的运行情况;当监控到网络监控平台停止运行时,获取网络监控平台的日志文件;根据获得的日志文件和故障信息库处理导致网络监控平台停止运行的故障;其中,故障信息库存储有针对导致网络监控平台停止运行的故障的处理方法。从本发明提供的技术方案可见,由于对网络监控平台的运行情况实现了自动监控,并且在监控到网络监控平台停止运行时,自动获取网络平台的日志文件并根据日志文件和预设故障信息库处理故障,从而无需耗费人力成本,简单、快捷地实现了对网络监控平台运行情况的监控以及对网络监控平台故障的处理。在实际应用中,所述监控模块41、获取模块42、处理模块43、获取单元431、确定单元432、处理单元433、创建模块44、执行模块45、确定模块46均可由位于故障监控装置中的中央处理器(centralprocessingunit,cpu)、微处理器(microprocessorunit,mpu)、数字信号处理器(digitalsignalprocessor,dsp)或现场可编程门阵列(fieldprogrammablegatearray,fpga)等实现。虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1