一种报警处理方法、装置及系统与流程

文档序号:18597613发布日期:2019-09-03 22:14阅读:136来源:国知局
一种报警处理方法、装置及系统与流程

本发明涉及互联网技术领域,尤其涉及一种报警处理方法、装置及系统。



背景技术:

在互联网公司中,各个大公司的业务平台都是基于大规模集群的,而大规模的集群都是凌驾于成千上万的服务器之上的,如何保障业务平台、大规模集群、成千上万的服务器的安全性和稳定性是维护各个业务顺利进行的最重要环节。

现有技术中维护服务器的安全性和稳定性的方案具有以下缺点:

1)人力监控无法满足:通过人力监控异常报警的成本巨大,而且在报警信息较多时,短时间内人工无法快速处理。

2)解决报警异常的时间较长:从发现告警到找出出现异常的根本原因再到解决此问题所需的时间较长。

3)对服务影响大:对于影响范围大或者重大异常,告警处理不智能或者没及时快速移除故障节点的话,对客户服务质量影响巨大。



技术实现要素:

为了解决上述技术问题,本发明提供了一种报警处理方法、装置及系统。

本发明提供的故障处理方法,包括:

接收服务器的上报信息;

根据所述上报信息判断所述服务器是否发生故障;

在确定所述服务器是否发生故障后,确定所述服务器的故障级别;

确定所述故障级别对应的处理方案,执行所述处理方案。

上述故障处理方法还具有以下特点:

所述确定所述服务器的故障级别包括以下方式中的一种:

一,根据所述上报信息确定所述服务器的故障级别;

二,获取所述服务器的运行状态信息,根据所述运行状态信息确定所述服务器的故障级别;

三,获取所述服务器的运行状态信息,根据所述上报信息和所述运行状态信息确定所述服务器的故障级别;

四,根据获取服务器的运行状态信息是否成功的结果,确定服务器的故障级别。

上述故障处理方法还具有以下特点:

所述上报信息包括所述服务器所属的用户标识和/或地区,

所述确定所述服务器的故障级别后还包括级别修正步骤,包括:判断所述用户标识属于预设用户识合集和/或所述地区属于预设地区时,将所述服务器的故障级别调高。

上述故障处理方法还具有以下特点:

所述处理方案中包括以下方案中的至少一种:移除所述服务器、通过自动修复方案进行修复、发出告警。

上述故障处理方法还具有以下特点:

所述故障级别为第一故障级别时,所述第一故障级别对应的处理方案为移除所述服务器和通过第一通信方式发出告警;

所述故障级别为第二故障级别时,所述第二故障级别对应的处理方案为通过自动修复方案进行修复和通过第一通信方式发出告警;

所述故障级别为第三故障级别时,所述第三故障级别对应的处理方案为通过自动修复方案进行修复和通过第二通信方式发出告警;

所述故障级别为第四故障级别时,所述第四故障级别对应的处理方案为通过自动修复方案进行修复;

所述第一故障级别至所述第四故障级别的故障严重程度依次降低;

所述第一通信方式的紧急程度大于所述第二通信方式的紧急程度。

本发明提供的故障处理装置,包括:

接收模块,用于接收服务器的上报信息;

判断模块,用于根据所述上报信息判断所述服务器是否发生故障;

确定模块,在确定所述服务器是否发生故障后,确定所述服务器的故障级别;

处理模块,用于确定所述故障级别对应的处理方案,执行所述处理方案。

上述故障处理装置还具有以下特点:

所述确定模块,用于使用以下方式中的一种确定所述服务器的故障级别:

一,根据所述上报信息确定所述服务器的故障级别;

二,获取所述服务器的运行状态信息,根据所述运行状态信息确定所述服务器的故障级别;

三,获取所述服务器的运行状态信息,根据所述上报信息和所述运行状态信息确定所述服务器的故障级别;

四,根据获取服务器的运行状态信息是否成功的结果,确定服务器的故障级别。

上述故障处理装置还具有以下特点:

所述上报信息包括所述服务器所属的用户标识和/或地区;

所述装置还包括修正模块,用于判断所述用户标识属于预设用户识合集和/或所述地区属于预设地区时,将所述服务器的故障级别调高。

上述故障处理装置还具有以下特点:

所述处理方案中包括以下方案中的至少一种:移除所述服务器、通过自动修复方案进行修复、发出告警。

上述故障处理装置还具有以下特点:

所述故障级别为第一故障级别时,所述第一故障级别对应的处理方案为移除所述服务器和通过第一通信方式发出告警;

所述故障级别为第二故障级别时,所述第二故障级别对应的处理方案为通过自动修复方案进行修复和通过第一通信方式或第二通信方式发出告警;

所述故障级别为第三故障级别时,所述第三故障级别对应的处理方案为通过自动修复方案进行修复和通过第二通信方式发出告警;

所述故障级别为第四故障级别时,所述第四故障级别对应的处理方案为通过自动修复方案进行修复。

本发明提供的故障处理系统包括:监控平台、调度系统、通知系统、修复系统;

所述监控平台,用于接收服务器的上报信息,根据所述上报信息判断所述服务器是否发生故障,在确定所述服务器是否发生故障后,根据所述上报信息确定所述服务器的故障级别;

还用于在所述故障级别为第一故障级别时,调用所述调度系统移除所述服务器和调用所述通知系统通过第一通信方式发出告警;

还用于在所述故障级别为第二故障级别时,调用所述修复系统通过自动修复方案进行修复和调用所述通知系统通过第一通信方式发出告警;

还用于在所述故障级别为第三故障级别时,调用所述修复系统通过自动修复方案进行修复和调用所述通知系统通过第二通信方式发出告警;

所述故障级别为第四故障级别时,所述第四故障级别对应的处理方案为调用所述修复系统通过自动修复方案进行修复。

本发明实施例可以自动进行报警处理,反应速度快,可有效减少重大异常造成的影响,并且还可以判断报警级别,根据相应级别及时进行相应的智能处理。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是实施例中报警处理方法的流程图;

图2是实施例中报警处理装置的结构图;

图3是实施例中报警处理系统的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

图1是实施例中报警处理方法的流程图,此方法包括:

步骤1,接收服务器的上报信息;

步骤2,根据上报信息判断服务器是否发生故障;

步骤3,在确定服务器是否发生故障后,确定服务器的故障级别;

步骤4,确定故障级别对应的处理方案,执行此处理方案。

其中,

步骤1中的上报信息包括以下信息中的至少一种:软件运行状态、服务端口状态、节点网络质量状态(丢包率、延时率)、硬件设备状态(网卡状态、cpu状态、内存状态、磁盘状态)、可服务状态(例如:对外提供正常访问率)、服务器的下载速度(例如:对外的访问下载速率)、服务器负载信息、带宽跑满信息。

步骤2中根据上报信息判断服务器是否发生故障包括:判断上报信息中的具体参数值是否超过相应的预设阈值,如果是,则判断服务器是否发生故障。

步骤3中确定服务器的故障级别包括以下方式中的一种:

一,根据上报信息确定服务器的故障级别;

例如,上报信息为丢包率时,丢包率位于2%-5%区间时为第三故障级别,丢包率位于5%-10%区间时为第二故障级别,丢包率大于10%为第一故障级别。

二、根据服务器的使用类型和/或客户级别确定服务器的故障级别。

例如:服务器的使用类型为可服务率,可服务率位于95%-99%区间时为第三故障级别,可服务率位于85-95%区间时为第二故障级别,可服务率小于85%时为第一故障级别。

例如:服务器的客户级别为重要客户时,确定服务器的故障级别为第二故障级别。

例如:服务器的使用类型为可服务率,可服务率位于95%-99%区间同时客户级别为重要客户时,确定服务器的故障为第一故障级别即最高故障级别。

三,获取服务器的运行状态信息,根据运行状态信息确定服务器的故障级别。

服务器的运行状态信息包括此服务器上至少一软件在预设时段内的运行状态记录,例如:服务器一目标软件的运行状态从工作状态转为宕机状态,在宕机状态后第一时长(例如1分钟)内自重启成功,此时确定故障级别为第4故障级别。此软件的状态在宕机状态后第二时长(例如5分钟)内自重启进程一直都处于失败状态,此时确定故障级别为第3故障级别。

服务器的运行状态信息包括此服务器上至少一软件正常运行与故障运行的时长比值,例如服务器一目标软件正常运行与故障运行的时长比值小于1:1时,此时确定故障级别为第4故障级别,此目标软件正常运行与故障运行的时长比值小于1:1且大于2:1时,此时确定故障级别为第3故障级别。

三,获取服务器的运行状态信息,根据上报信息和运行状态信息确定服务器的故障级别;

四,根据获取服务器的运行状态信息是否成功的结果,确定服务器的故障级别。

例如,当获取服务器运行状态信息不成功的次数持续到预设次数时,确定此服务器的故障级别为第3故障级别。为防止影响处理效率,此预设次数的值可以设置为较小值。

步骤4中处理方案中包括以下方案中的至少一种:移除上述服务器、通过自动修复方案进行修复、发出告警。

故障级别的严重程度较高时,处理方案包括移除服务器,故障级别的严重程度居中或较低时,处理方案包括通过自动修复方案进行修复。

例如:

故障级别共包括四个级别即第一故障级别至第四故障级别,第一故障级别至第四故障级别的故障严重程度依次降低,第一故障级别为故障最严重的级别,第四故障级别为故障最轻微的级别。

故障级别为第一故障级别时,第一故障级别对应的处理方案为移除服务器和通过第一通信方式发出告警;

故障级别为第二故障级别时,第二故障级别对应的处理方案为通过自动修复方案进行修复和通过第一通信方式或第二通信方式发出告警;

故障级别为第三故障级别时,第三故障级别对应的处理方案为通过自动修复方案进行修复和通过第二通信方式发出告警;

故障级别为第四故障级别时,第四故障级别对应的处理方案为通过自动修复方案进行修复。

第一通信方式的紧急程度大于第二通信方式的紧急程度,例如:第一通信方式为通话类别,第二通信方式为信息类别。

上报信息包括服务器所属的用户标识和/或地区。步骤3中确定服务器的故障级别后还包括级别修正步骤,具体包括:判断用户标识属于预设用户识合集和/或地区属于预设地区时,将服务器的故障级别调高。例如,调高一个级别。

步骤3后还包括:使用不同颜色的结果显示故障级别,故障级别对应故障的严重程度越大颜色越深。

图2是实施例中报警处理装置的结构图,此装置包括:

接收模块,用于接收服务器的上报信息;

判断模块,用于根据上报信息判断服务器是否发生故障;

确定模块,在确定服务器是否发生故障后,确定服务器的故障级别,

处理模块,用于确定故障级别对应的处理方案,执行处理方案。

其中,

确定模块,还用于使用以下方式中的一种确定服务器的故障级别。

一,根据上报信息确定服务器的故障级别;

二,获取服务器的运行状态信息,根据运行状态信息确定服务器的故障级别;

三,获取服务器的运行状态信息,根据上报信息和运行状态信息确定服务器的故障级别;

四,根据获取服务器的运行状态信息是否成功的结果,确定服务器的故障级别。

处理方案中包括以下方案中的至少一种:移除服务器、通过自动修复方案进行修复、发出告警。

故障级别为第一故障级别时,第一故障级别对应的处理方案为移除服务器和通过第一通信方式发出告警;

故障级别为第二故障级别时,第二故障级别对应的处理方案为通过自动修复方案进行修复和通过第一通信方式或第二通信方式发出告警;

故障级别为第三故障级别时,第三故障级别对应的处理方案为通过自动修复方案进行修复和通过第二通信方式发出告警;

故障级别为第四故障级别时,第四故障级别对应的处理方案为通过自动修复方案进行修复。

上报信息包括服务器所属的用户标识和/或地区;装置还包括修正模块,用于判断用户标识属于预设用户识合集和/或地区属于预设地区时,将服务器的故障级别调高。

图3是实施例中报警处理系统的结构图,此系统包括:监控平台、调度系统、通知系统、修复系统。

监控平台用于接收服务器的上报信息,根据上报信息判断服务器是否发生故障,在确定服务器是否发生故障后,根据上报信息确定服务器的故障级别;

监控平台还用于在故障级别为第一故障级别时,调用调度系统移除服务器和调用通知系统通过第一通信方式发出告警;

监控平台还用于在故障级别为第二故障级别时,调用修复系统通过自动修复方案进行修复和调用通知系统通过第一通信方式发出告警;

监控平台还用于在故障级别为第三故障级别时,调用修复系统通过自动修复方案进行修复和调用通知系统通过第二通信方式发出告警。

本发明实施例可以自动进行报警处理,反应速度快,可有效减少重大异常造成的影响,并且还可以判断报警级别,根据相应级别及时进行相应的智能处理。

上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要求,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1