一种分布式系统告警分析方法及装置与流程

文档序号:11138342阅读:530来源:国知局
本发明涉及分布式系统领域,特别涉及一种分布式系统告警分析方法及装置。
背景技术
:一个分布式系统涉及了负载均衡设备,应用服务器集群,缓存服务器集群,数据库服务器集群,配置服务集群,分布式锁服务集群,网络通讯质量,操作系统,网络流量等几十种组成部分。分布式系统的组成部分很多,各个组成部分负责的人也有很多。目前普遍的解决方案都是各自监控自己的系统,信息孤岛的现状非常明显。当分布式系统出现告警或者不可用的时候,排查过程将会非常复杂和耗时。技术实现要素:为了克服现有技术中存在的问题,本发明提供一种分布式系统告警分析方法及装置,用以提高告警定位原因的效率。本发明提供一种分布式系统告警分析方法,其特征在于,包括:通过事件接口接收各组件上报的事件;从所述事件中抽取出告警事件;获取所述告警事件的事件信息,所述事件信息包括发生所述告警事件的应用的标识;根据所述告警事件的事件信息确定引起告警的原因。在一个实施例中,所述根据所述告警事件的事件信息确定引起告警的原因,可包括:计算发生所述告警事件的应用的各资源产生的异常事件;将所述异常事件和所述告警事件进行匹配,确定引起告警的原因。在一个实施例中,所述事件信息还可包括以下信息中的一项或多项:事件编号、机器IP、事件内容、事件名称、事件发生时间以及事件类型。在一个实施例中,所述从所述事件中抽取出告警事件,可包括:获取通过事件接口接收的各组件上报的事件的事件信息;根据所述事件信息从所述事件中确定出告警事件。在一个实施例中,在所述通过事件接口接收各组件上报的事件之前,所述方法还可包括:当有操作发生时,通过事件接口上报事件到事件数据库。本发明还包括一种分布式系统告警分析装置,包括:接收模块,用于通过事件接口接收各组件上报的事件;抽取模块,用于从所述事件中抽取出告警事件;获取模块,用于获取所述告警事件的事件信息,所述事件信息包括发生所述告警事件的应用的标识;确定模块,用于根据所述告警事件的事件信息确定引起告警的原因。在一个实施例中,所述确定模块可包括:计算子模块,用于计算发生所述告警事件的应用的各资源产生的异常事件;第一确定子模块,用于将所述异常事件和所述告警事件进行匹配,确定引起告警的原因。在一个实施例中,所述事件信息还可包括以下信息中的一项或多项:事件编号、机器IP、事件内容、事件名称、事件发生时间以及事件类型。在一个实施例中,所述抽取模块,可包括:获取子模块,用于获取通过事件接口接收的各组件上报的事件的事件信息;第二确定子模块,用于根据所述事件信息从所述事件中确定出告警事件。在一个实施例中,所述装置还可包括:上报模块,用于当有操作发生时,通过事件接口上报事件到事件数据库。本发明实施例的上述技术方案可以包括以下有益效果:本发明实施例的上述技术方案,通过事件接口接收各组件上报的事件,从事件中抽取出告警事件,获取告警事件的事件信息,事件信息包括发生告警事件的应用的标识,根据告警事件的事件信息确定引起告警的原因。从而可以有效提高告警定位原因的效率,全面了解分布式系统的各个组件是否正常,可以给业务的稳定性带来更好的帮助,提升用户体验满意度。下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。附图说明附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:图1为本发明实施例中一种分布式系统告警分析方法的流程图;图2为本发明实施例中一种分布式系统告警分析方法中步骤S14的流程图;图3为本发明实施例中一种分布式系统告警分析方法中步骤S12的流程图;图4为本发明实施例中一种分布式系统告警分析的另一个流程图;图5为本发明实施例中一种分布式系统告警分析装置的框图;图6为本发明实施例中一种分布式系统告警分析装置中确定模块54的框图;图7为本发明实施例中一种分布式系统告警分析装置中抽取模块52的框图;图8为本发明实施例中另一种分布式系统告警分析装置的框图;具体实施方式以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。图1所示为本发明实施例中一种分布式系统告警分析方法的流程图,如图1所示,包括以下步骤S11-S14:步骤S11,通过事件接口接收各组件上报的事件。步骤S12,从事件中抽取出告警事件。步骤S13,获取告警事件的事件信息,事件信息包括发生告警事件的应用的标识。步骤S14,根据告警事件的事件信息确定引起告警的原因。本发明是提供一个事件上报的机制和系统,让分布式系统涉及的组件通过接口统一提交事件信息,中控系统通过分析事件来确定问题的原因。事件信息可包括应用的标识,机器ip,事件名称,事件发生时间等。当某个应用告警出现的时候,串联该应用下的事件信息,并建立规则自动识别导致告警的事件信息。由于每一个事件都会有自己的应用的标识,一个分布式应用是依赖了很多组件,每个组件通过事件接口来上报事件。事件web系统通过系统应用名,当告警出现的时候自动识别导致告警的原因事件。本发明实施例的上述方法,通过事件接口接收各组件上报的事件,从事件中抽取出告警事件,获取告警事件的事件信息,事件信息包括发生告警事件的应用的标识,根据告警事件的事件信息确定引起告警的原因。从而可以有效提高告警定位原因的效率,全面了解分布式系统的各个组件是否正常,可以给业务的稳定性带来更好的帮助,提升用户体验满意度。在一个实施例中,如图2所示,步骤S14可以实施为如下步骤S141-S142:步骤S141,计算发生告警事件的应用的各资源产生的异常事件。步骤S142,将异常事件和告警事件进行匹配,确定引起告警的原因。由于每个告警都会属于某一个应用程序,一个应用程序发生告警,可能是因为这个应用程序依赖的资源导致的,当发生告警的时候,需要计算各个资源是否产生了异常事件,再对异常事件和告警进行计算匹配,通过建立规则框架,把性能数据、操作日志、异常信息归类起来,按照规则来进行过滤,最终确定出引起告警的原因。在一个实施例中,事件信息还可包括以下信息中的一项或多项:事件编号、机器IP、事件内容、事件名称、事件发生时间以及事件类型。事件信息的格式例如表1所示:表1事件信息格式编号列名说明1Id事件编号2Appname应用名3Event_content事件内容4Create_time事件创建时间5Event_type事件类型在一个实施例中,如图3所示,步骤S12可以实施为如下步骤S121-S122:步骤S121,获取通过事件接口接收的各组件上报的事件的事件信息。步骤S122,根据事件信息从事件中确定出告警事件。本发明提供一个接收事件的API(ApplicationProgrammingInterface,应用程序编程接口),各个系统(数据库服务器、应用服务器、网络、硬件、Linux等)通过api,在有操作发生的时候发送事件到系统,根据事件信息从事件中确定出告警事件。在一个实施例中,如图4所示,在步骤S11之前,上述方法还可包括以下步骤S15:步骤S15,当有操作发生时,通过事件接口上报事件到事件数据库。各个系统通过事件接口,在有操作发生的时候上报事件到事件数据库,事件程序抽取出告警,事件程序聚合和该告警有关的事件,计算出引起告警的原因。基于同一发明构思,本发明实施例还提供了一种分布式系统告警分析装置,由于该装置所解决问题的原理与前述分布式系统告警分析方法相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。图5所示为本发明实施例中一种分布式系统告警分析装置的框图,如图5所示,该装置包括:接收模块51,用于通过事件接口接收各组件上报的事件;抽取模块52,用于从事件中抽取出告警事件;获取模块53,用于获取告警事件的事件信息,事件信息包括发生告警事件的应用的标识;确定模块54,用于根据告警事件的事件信息确定引起告警的原因。在一个实施例中,如图6所示,确定模块54可包括:计算子模块541,用于计算发生告警事件的应用的各资源产生的异常事件;第一确定子模块542,用于将异常事件和告警事件进行匹配,确定引起告警的原因。在一个实施例中,事件信息还可包括以下信息中的一项或多项:事件编号、机器IP、事件内容、事件名称、事件发生时间以及事件类型。在一个实施例中,如图7所示,抽取模块52,可包括:获取子模块521,用于获取通过事件接口接收的各组件上报的事件的事件信息;第二确定子模块522,用于根据事件信息从事件中确定出告警事件。在一个实施例中,如图8所示,上述装置还可包括:上报模块55,用于当有操作发生时,通过事件接口上报事件到事件数据库。本发明实施例的上述装置,通过事件接口接收各组件上报的事件,从事件中抽取出告警事件,获取告警事件的事件信息,事件信息包括发生告警事件的应用的标识,根据告警事件的事件信息确定引起告警的原因。从而可以有效提高告警定位原因的效率,全面了解分布式系统的各个组件是否正常,可以给业务的稳定性带来更好的帮助,提升用户体验满意度。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1