一种告警监控系统、用于服务器的告警监控方法及其装置与流程

文档序号:12067850阅读:273来源:国知局
一种告警监控系统、用于服务器的告警监控方法及其装置与流程

本发明涉及服务器监控技术领域,特别是涉及一种用于服务器的告警监控方法及其装置。本发明还涉及一种告警监控系统。



背景技术:

为保证服务器的正常工作,需要实时监测服务器的系统性能以及硬件状态,一旦服务器出现故障,需要及时进行告警,提醒运维人员进行处理。

目前,在相关领域采用的服务器故障告警方式大多是通过邮件或者短信方式告警,这些方式虽然可以在设备发送故障时及时的通知运维人员,但是很多情况下运维人员并不能准确确定此时应该采取的修复操作,进而导致修复延误,影响服务器的正常运行,修复可靠性低。

因此,如何提供一种可靠性高的告警监控系统及用于服务器的告警监控方法及其装置是本领域技术人员目前需要解决的问题。



技术实现要素:

本发明的目的是提供一种用于服务器的告警监控方法及其装置,不仅能够提醒运维人员服务器故障,而且还能够依据告警日志查询到服务器内对应于某个故障指标的预设的修复引导说明,来对该故障指标进行修复,从而保证服务器的及时修复,可靠性高;本发明的另一目的是提供一种告警监控系统。

为解决上述技术问题,本发明提供了一种用于服务器的告警监控方法,所述服务器与web界面通过http协议建立连接,所述方法包括:

周期性的检测服务器的系统性能指标以及硬件状态指标;

将检测为故障的指标对应的故障信息记录为告警日志;所述告警日志包括告警描述信息;

接收所述web界面周期性发送的定时查询信息,反馈当前的告警日志至所述web界面;供所述web界面对所述告警日志的告警描述信息进行显示,并当用户触发所述告警描述信息时,获取并发送所述告警描述信息的关键字信息至所述服务器;

接收并依据所述关键字信息查询预设的修复引导说明,依据所述修复引导说明修复相应的指标。

优选地,所述故障信息还包括告警级别;

当将检测为故障的指标对应的故障信息记录为告警日志时,所述告警级别为警告级别;

相应的,所述当前的告警日志具体为当前处于警告级别的全部告警日志。

优选地,所述将检测为故障的指标对应的故障信息记录为告警日志之前还包括:

当检测到故障的指标时,查询预设数据库内所述故障的指标对应的状态是否为正常状态,如果是,将所述故障的指标对应的故障信息记录为告警日志,且对应的告警级别为警告级别;

所述依据所述修复引导说明修复相应的指标之后还包括:

当检测到正常的指标时,查询所述预设数据库内所述正常的指标对应的状态是否为已告警状态时,如果是,将所述预设数据库内所述正常的指标对应的状态修改为正常状态,并将所述正常的指标对应的告警日志内的告警级别修改为正常级别。

优选地,所述故障信息还包括告警时间;

相应的,所述将所述正常的指标对应的告警日志内的告警级别修改为正常级别之后还包括:

在所述正常的指标对应的告警日志内添加当前的时间作为故障修复时间。

优选地,所述依据所述修复引导说明修复相应的指标的过程具体为:

将所述修复引导说明反馈至所述web界面进行显示,供用户依据所述修复引导说明手动进行修复;

若接收到所述web界面发送的携带有所述关键字信息的自动修复请求,获取与所述关键字信息匹配的修复引导说明所对应的修复引导程序,运行所述修复引导程序进行服务器修复操作。

为解决上述技术问题,本发明还提供了一种用于服务器的告警监控装置,所述服务器与web界面通过http协议建立连接,所述装置包括:

监测模块,用于周期性的检测服务器的系统性能指标以及硬件状态指标;

告警模块,用于将检测为故障的指标对应的故障信息记录为告警日志;所述告警日志包括告警描述信息;

日志查询模块,用于接收所述web界面周期性发送的定时查询信息,反馈当前的告警日志至所述web界面;供所述web界面对所述告警日志的告警描述信息进行显示,并当用户触发所述告警描述信息时,获取并发送所述告警描述信息的关键字信息至故障修复模块;

所述故障修复模块,用于接收并依据所述关键字信息查询预设的修复引导说明,依据所述修复引导说明修复相应的指标。

为解决上述技术问题,本发明还提供了一种告警监控系统,包括服务器以及web界面,所述服务器与所述web界面通过http协议建立连接,所述服务器包括如权利要求7所述的告警监控装置;

所述web界面包括:

定时查询接口,用于周期性发送的定时查询信息至所述服务器;

显示模块,用于对接收到的告警日志的告警描述信息进行显示,且每条所述告警描述信息均与告警信息触发接口链接;

所述告警信息触发接口,用于当用户触发所述告警描述信息时,获取并发送所述告警描述信息的关键字信息至所述服务器。

优选地,所述显示模块还用于:

接收并显示所述告警描述信息对应的修复引导说明,供用户依据所述修复引导说明手动进行修复;

所述web界面还包括:

与各条所述所述告警描述信息链接的自动修复接口,用于当受到用户触发时,发送携带有所述告警描述信息的关键字信息的自动修复请求至所述服务器。

优选地,所述web界面还包括:

报警模块,用于当接收到所述服务器发送的告警日志后发出警报。

优选地,所述web界面还包括:

历史数据查询接口,用于当接收到的用户输入的查询要求发送至所述服务器,供所述服务器从全部告警日志中筛选出满足所述查询要求的部分告警日志并反馈至所述web界面进行显示。

本发明提供了一种用于服务器的告警监控方法及其装置,能够将检测到的故障指标的故障信息记录为告警日志,供web界面周期性地获取告警日志并进行显示,并且当用户触发告警日志内的告警描述信息时,web界面能够获取并发送告警描述信息的关键字信息至服务器,使服务器依据该关键字信息查询到预设的修复引导说明,进而依据该修复引导说明进行修复。可见,本发明在发送告警日志提醒用户后,还能够依据告警日志查询到服务器内对应于某个故障指标的预设的修复引导说明,来对该故障指标进行修复,尽可能避免了运维人员再得知服务器故障但不了解修复操作而导致的修复延误的问题出现,保证了服务器的及时修复,可靠性高。本发明还提供了一种告警监控系统,包括上述告警监控装置,也具有上述优点,在此不再赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种告警监控方法的过程的流程图;

图2为本发明提供的一种告警监控系统的结构示意图。

具体实施方式

本发明的核心是提供一种用于服务器的告警监控方法及其装置,不仅能够提醒运维人员服务器故障,而且还能够依据告警日志查询到服务器内对应于某个故障指标的预设的修复引导说明,来对该故障指标进行修复,从而保证服务器的及时修复,可靠性高;本发明的另一核心是提供一种告警监控系统。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供了一种用于服务器的告警监控方法,服务器与web界面通过http协议建立连接,参见图1所示,图1为本发明提供的一种告警监控方法的过程的流程图;该方法包括:

步骤s101:周期性的检测服务器的系统性能指标以及硬件状态指标;

这里的周期可以为15s,当然,本发明对此不作限定,工作人员可根据服务器的具体情况自行进行设定。

另外,本发明的方法不仅可以用于单个的服务器,也可以用于服务器集群,该服务器集群均可通过http协议与web界面进行通信。

其中,对服务器的各项指标进行检测时的过程具体为:

通过系统命令或配置文件来获取服务器当前的系统性能指标以及硬件状态指标的具体状态信息;

判断该状态信息是否超出服务器内预设的相应阈值,若是,则该状态信息对应的指标故障。

另外,这里的硬件状态指标包括电源、网卡和磁盘的状态等。当然,还可包括其他部件的状态指标,具体对哪些指标进行检测可根据需要自行设定。

步骤s102:将检测为故障的指标对应的故障信息记录为告警日志;告警日志包括告警描述信息;

其中,告警日志写在告警日志文件内,每个告警日志文件可包括多个告警日志。

步骤s103:接收web界面周期性发送的定时查询信息,反馈当前的告警日志至web界面;供web界面对告警日志的告警描述信息进行显示,并当用户触发告警描述信息时,获取并发送告警描述信息的关键字信息至服务器;

其中,这里的周期可以为10s,本发明对此不作具体限定。

可以理解的是,web界面在对告警日志的告警描述信息进行显示时采用的是弹窗的方式,即只要一接到告警日志,web界面即会弹出窗口,每个窗口内可以包括同一服务器的若干个告警日志的告警描述信息,也可以每个窗口内为一个告警日志的告警描述信息,本发明对此不作限定。

另外,这里的触发告警描述信息指的是点击web界面上的告警描述信息。这里的关键字信息可以为告警描述信息中的故障模块名称以及故障类型等,当然,关键字信息也可以选取其他内容,该内容可由运维人员自行设定。

步骤s104:接收并依据关键字信息查询预设的修复引导说明,依据修复引导说明修复相应的指标。

进一步可知,依据修复引导说明修复相应的指标的过程具体为:

将修复引导说明反馈至web界面进行显示,供用户依据修复引导说明手动进行修复;

若接收到web界面发送的携带有关键字信息的自动修复请求,获取与关键字信息匹配的修复引导说明所对应的修复引导程序,运行修复引导程序进行服务器修复操作。

可以理解的是,对于每一个故障位置的每一种故障类型,可在服务器内分别设置对应的修复引导说明,该修复引导说明为文档格式,运维人员可根据修复引导说明内的步骤依次操作,来实现服务器的修复;当运维人员选择自动修复时,服务器内的执行模块则通过运行修复引导说明所对应的修复引导程序,来进行自动修复。

作为优选地,运行修复引导程序进行服务器修复操作之后还包括:

修复完成后,在下一周期检测修复完成的指标是否正常,如果是,反馈修复成功的提示至web界面进行显示,否则,进行回滚操作,将服务器的状态及数据回滚至修复前的状态,并反馈自动修复失败的提示至web界面进行显示。

可以理解的是,一般设置的修复引导程序为最为基础常见的修复操作,但是,当出现的故障较为特殊时,很可能会出现修复失败的情况,这时候需要将修复失败的提示反馈至web界面告知运维人员,及时使运维人员了解情况,从而进行后续的处理。

作为优选地,故障信息还包括告警级别;

当将检测为故障的指标对应的故障信息记录为告警日志时,告警级别为警告级别;

相应的,当前的告警日志具体为当前处于警告级别的全部告警日志。

可以理解的是,由于服务器会对告警日志进行存储,故告警日志内需要能够体现该故障是否已修复成功,若不进行标记的话,则会出现已经修复过的故障仍然在web界面上显示的问题。而上述警告级别即表明该故障目前尚未修复成功,而处于警告级别的告警日志需要在web界面上进行显示。

作为优选地,将检测为故障的指标对应的故障信息记录为告警日志之前还包括:

当检测到故障的指标时,查询预设数据库内故障的指标对应的状态是否为正常状态,如果是,将故障的指标对应的故障信息记录为告警日志,且对应的告警级别为警告级别;

依据修复引导说明修复相应的指标之后还包括:

当检测到正常的指标时,查询预设数据库内正常的指标对应的状态是否为已告警状态时,如果是,将预设数据库内正常的指标对应的状态修改为正常状态,并将正常的指标对应的告警日志内的告警级别修改为正常级别。

可以理解的是,将服务器的每项指标的状态均记录在预设数据库内,当每检测到一个故障的指标时,先查询预设数据库内该指标的状态,若状态为已告警状态,则表明该指标已经生成过告警日志且尚未修复成功,故此时没有必要在重新生成一个告警日志;即上述操作能够保证每个当前故障的指标仅存在一个告警日志,避免了告警日志重复的问题,也避免了对运维人员的重复提醒,而导致运维人员进行重复修复的情况。同时,当指标修复完成后,及时将预设数据库内的状态修改为正常状态,将告警日志内的告警级别修改为正常级别,能够避免已修复成功的告警日志仍显示在web界面上;也能够避免当该指标又一次发生故障,而预设数据库内的状态为已告警状态导致无法生成新的告警日志的情况出现。

作为优选地,故障信息还包括告警时间;

相应的,将正常的指标对应的告警日志内的告警级别修改为正常级别之后还包括:

在正常的指标对应的告警日志内添加当前的时间作为故障修复时间。

可以理解的是,通过增加告警时间以及故障修复时间,能够使运维人员了解到该故障指标修复时的实际情况,使告警日志内的内容更加全面。

本发明提供了一种用于服务器的告警监控方法,能够将检测到的故障指标的故障信息记录为告警日志,供web界面周期性地获取告警日志并进行显示,并且当用户触发告警日志内的告警描述信息时,web界面能够获取并发送告警描述信息的关键字信息至服务器,使服务器依据该关键字信息查询到预设的修复引导说明,进而依据该修复引导说明进行修复。可见,本发明在发送告警日志提醒用户后,还能够依据告警日志查询到服务器内对应于某个故障指标的预设的修复引导说明,来对该故障指标进行修复,尽可能避免了运维人员再得知服务器故障但不了解修复操作而导致的修复延误的问题出现,保证了服务器的及时修复,可靠性高。

本发明还提供了一种用于服务器的告警监控装置,服务器与web界面通过http协议建立连接,该装置包括:

监测模块11,用于周期性的检测服务器的系统性能指标以及硬件状态指标;

告警模块12,用于将检测为故障的指标对应的故障信息记录为告警日志;告警日志包括告警描述信息;

日志查询模块13,用于接收web界面周期性发送的定时查询信息,反馈当前的告警日志至web界面;供web界面对告警日志的告警描述信息进行显示,并当用户触发告警描述信息时,获取并发送告警描述信息的关键字信息至故障修复模块14;

故障修复模块14,用于接收并依据关键字信息查询预设的修复引导说明,依据修复引导说明修复相应的指标。

本发明还提供了一种告警监控系统,参见图2所示,图2为本发明提供的一种告警监控系统的结构示意图。该系统包括服务器以及web界面,服务器与web界面通过http协议建立连接,服务器包括以上的告警监控装置;

web界面包括:

定时查询接口21,用于周期性发送的定时查询信息至服务器;

显示模块22,用于对接收到的告警日志的告警描述信息进行显示,且每条告警描述信息均与告警信息触发接口23链接;

告警信息触发接口23,用于当用户触发告警描述信息时,获取并发送告警描述信息的关键字信息至服务器。

作为优选地,显示模块22还用于:

接收并显示告警描述信息对应的修复引导说明,供用户依据修复引导说明手动进行修复;

web界面还包括:

与各条告警描述信息链接的自动修复接口24,用于当受到用户触发时,发送携带有告警描述信息的关键字信息的自动修复请求至服务器(的故障修复模块14)。

其中,用户触发告警描述信息后,web界面上会弹出一个窗口,窗口内包括服务器反馈的修复引导说明以及一个与自动修复接口24链接的按钮,用户通过点击该按钮,即可触发自动修复接口24。

作为优选地,web界面还包括:

报警模块25,用于当接收到服务器发送的告警日志后发出警报。

其中,这里的警报为声音警报,警报声可自行进行设定;这里的警报可设定为仅持续响起预定时间,例如,持续响起15s;或者周期性响起,每次持续预设时间,例如,每5s响一次,每次响10s,直至用户触发报警模块25停止;或者可以一直持续响起,直至用户触发报警模块25停止,具体采用以上哪种方式,或采用其他报警,方式本发明不作限定。另外,当需要触发停止时,web界面上需要设置能够点击的按钮,该按钮与报警模块25建立链接。

可以理解的是,仅将告警日志显示在web界面上,有些时候运维人员会看不到,例如,运维人员并未在web界面前时,这样就会导致修复不及时,而通过发出警报,即使运维人员距离web界面有一段距离时,也能够听到该警报声,从而了解到服务器出现了故障,需要进行维护,故大大提高了服务器修复维护的及时性以及可靠性。

作为优选地,web界面还包括:

历史数据查询接口26,用于当接收到的用户输入的查询要求发送至服务器,供服务器从全部告警日志中筛选出满足查询要求的部分告警日志并反馈至web界面进行显示。

其中,这里的查询要求可以设置为选项型,用户可以从预设选项内选择对应的查询要求;这里的查询要求可以包括告警位置(告警的模块名称等)、告警日志的类型、关键字等,查询要求的内容可根据需要自行设定。

可以理解的是,服务器一般会将告警日志进行存储,通过设置历史数据查询接口26,当运维人员需要查找之前的告警日志进行分析时,直接从web界面上输入查询要求,即可获取到符合要求的告警日志,而不需要去服务器上调取,满足了远程获取告警日志的目的,提高了便利性。

其中,这里的web界面为web终端的显示界面,这里的web终端指的是一些具有浏览器功能的显示器终端,例如台式机、笔记本电脑等,每个web终端可以通过http协议以及各台服务器的ip地址来与多台服务器进行连接,可以为每台服务器设置独立的浏览界面进行监控,避免互相影响;或者也可将多台服务器设置于同一个浏览界面内,例如当多台服务器属于同一个服务器集群时,同时对其进行监控,能够方便对该服务器集群进行统一管理。具体采用哪种浏览方式可根据实际需要而定,本发明对此不做限定。

需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1