一种故障处理、分析故障的影响面方法和设备与流程

文档序号:12665465阅读:232来源:国知局
一种故障处理、分析故障的影响面方法和设备与流程

本申请涉及互联网信息处理技术领域,尤其涉及一种故障处理、分析故障的影响面方法和设备。



背景技术:

随着互联网技术的发展,互联网平台的建立越来越完善,给人们的生产和生活带来了极大的便利。然而,一旦互联网平台发生故障,将对用户/业务产生一定的影响。因此,分析故障的影响面成为处理故障的重要依据。

所谓故障的影响面是指故障发生时所影响到的用户数量/业务数量。

经研究发展,目前,分析故障的影响面所采取的方式主要包括两种:

第一种方式:在故障发生时,访问服务器,通过脚本的方式查询服务器中的日志信息,根据日志信息对目前发生的故障所产生的影响面进行分析,以得到目前发生的故障所产生的影响面数据。

针对第一种方式,在实际应用中,一旦接收到故障告警,多数通过人工方式查询相关日志信息,分析故障所产生的影响面,但是这种方式的缺点在于:效率比较低,同时成本要求比较高,无法满足现实需要。

第二种方式:针对发生的故障,搜索与发生的故障相关的日志信息;利用大数据分析平台对搜索到的日志信息进行离线分析,以得到发生的故障所产生的影响面数据。

针对第二种方式,在实际应用中,通常将日志信息上传至云服务器中,利用开放数据处理服务(英文:Open Data Processing Service;缩写:ODPS)采用离线的方式对日志信息进行分析,得到故障所产生的影响面,但是这种方式的缺点在于:实时性比较差,在适用时无法满足实际需要。

由于目前用于分析故障的影响面的方式存在各种各样的缺陷,使得在故障 发生时,无法及时准确定位该故障所造成的影响范围,进而导致确定的用于处理故障的方式不够精确,使得故障处理效率较低。



技术实现要素:

有鉴于此,本申请实施例提供了一种故障处理、分析故障的影响面方法和设备,用于解决现有技术中由于分析故障的影响面的方式存在缺陷导致故障处理效率比较低的问题。

一种故障处理方法,包括:

获取日志信息,并确定所述日志信息中包含用于检测系统是否发生故障的第一数据和用于分析发生故障所产生故障影响面的第二数据;

对所述日志信息中包含的所述第一数据进行异常检测,并在根据异常检测结果确定系统发生故障时,查找与所述第一数据对应的第二数据;

根据所述第二数据,确定用于处理所述故障的策略,并利用所述策略,处理所述故障。

一种分析故障的影响面的方法,包括:

采集日志信息;

利用日志解析规则对所述日志信息进行解析,确定出所述日志信息中包含的用于检测系统是否发生故障的第一数据与至少一个用于分析发生故障所产生故障影响面的第二数据;

对所述日志信息中包含的所述第一数据进行异常检测,并在根据异常检测结果确定系统发生故障时,根据所述日志信息中包含的至少一个所述第二数据,分析系统发生故障所产生的故障影响面。

一种故障处理设备,包括:

获取单元,用于获取日志信息,并确定所述日志信息中包含用于检测系统是否发生故障的第一数据和用于分析发生故障所产生故障影响面的第二数据;

查找单元,用于对所述日志信息中包含的所述第一数据进行异常检测,并 在根据异常检测结果确定系统发生故障时,查找与所述第一数据对应的第二数据;

处理单元,用于根据所述第二数据,确定用于处理所述故障的策略,并利用所述策略,处理所述故障。

一种分析故障的影响面设备,包括:

采集单元,用于采集日志信息;

确定单元,用于利用日志解析规则对所述日志信息进行解析,确定出所述日志信息中包含的用于检测系统是否发生故障的第一数据与至少一个用于分析发生故障所产生故障影响面的第二数据;

分析单元,用于对所述日志信息中包含的所述第一数据进行异常检测,并在根据异常检测结果确定系统发生故障时,根据所述日志信息中包含的至少一个所述第二数据,分析系统发生故障所产生的故障影响面。

本申请有益效果如下:

本申请实施例获取日志信息,并确定所述日志信息中包含用于检测系统是否发生故障的第一数据和用于分析发生故障所产生故障影响面的第二数据;对所述日志信息中包含的所述第一数据进行异常检测,并在根据异常检测结果确定系统发生故障时,查找与所述第一数据对应的第二数据;根据所述第二数据,确定用于处理所述故障的策略,并利用所述策略,处理所述故障。通过本申请实施例的方案,对产生的日志信息进行分析,确定日志信息中包含的用于分析发生故障所产生的故障影响面的数据,一旦在对日志信息中用于检测系统是否发生故障的数据进行异常检测时确定系统发生故障时,能够快速获取于分析发生故障所产生的故障影响面的数据,进而有效地根据得到的故障影响面对故障进行处理,提高故障处理效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的 一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种故障处理方法的流程示意图;

图2为本申请实施例提供的一种分析故障的影响面的方法的流程示意图;

图3为本申请实施例提供的一种故障处理设备的结构示意图;

图4为本申请实施例提供的一种分析故障的影响面设备的结构示意图;

图5为本申请实施例提供的一种故障处理系统的结构示意图。

具体实施方式

为了实现本申请的目的,本申请实施例提供了一种故障处理、分析故障的影响面方法和设备,获取日志信息,并确定所述日志信息中包含用于检测系统是否发生故障的第一数据和用于分析发生故障所产生故障影响面的第二数据;对所述日志信息中包含的所述第一数据进行异常检测,并在根据异常检测结果确定系统发生故障时,查找与所述第一数据对应的第二数据;根据所述第二数据,确定用于处理所述故障的策略,并利用所述策略,处理所述故障。通过本申请实施例的方案,对产生的日志信息进行分析,确定日志信息中包含的用于分析发生故障所产生的故障影响面的数据,一旦在对日志信息中用于检测系统是否发生故障的数据进行异常检测时确定系统发生故障时,能够快速获取于分析发生故障所产生的故障影响面的数据,进而有效地根据得到的故障影响面对故障进行处理,提高故障处理效率。

下面结合说明书附图对本申请各个实施例作进一步地详细描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

图1为本申请实施例提供的一种故障处理方法的流程示意图。所述方法可以如下所示。

步骤101:获取日志信息。

在步骤101中,通过日志采集设备获取实时产生的日志信息。

可选地,以分钟级为时间周期,周期性地采集日志信息。

步骤102:确定所述日志信息中包含用于检测系统是否发生故障的第一数据和用于分析发生故障所产生故障影响面的第二数据。

在步骤102中,首先,对于采集设备获取到的日志信息,将该日志信息同步至处理设备中。

其次,由处理设备将该日志信息发送给流式计算框架,由流式计算框架采用流式计算方式分析得到所述日志信息中包含用于检测系统是否发生故障的第一数据和用于分析发生故障所产生故障影响面的第二数据。

具体地,利用日志解析规则对所述日志信息进行解析,确定出所述日志信息中包含的用于检测系统是否发生故障的第一数据与至少一个用于分析发生故障所产生故障影响面的第二数据。

其中,本申请实施例中所述的日志解析规则可以是日志信息的过滤条件,也可以是其他用于对日志信息进行分析的其他规则条件,这里不做具体限定。

这里需要说明的是,日志解析规则中还包含日志解析粒度,这里的日志解析粒度是指该日志解析规则是针对一个业务的日志信息进行解析的规则,还是针对一个业务中包含的一个子业务的日志信息进行解析的规则,还是针对一个业务中包含的用户的日志信息进行解析的规则等等,也就是说,针对不同的业务的日志信息或者子业务的日志信息或者使用业务的用户的日志信息,所使用的业务解析规则不同。

因此,在本申请实施例中针对获取的日志信息的内容确定用于解析该日志信息的日志解析规则。

可选地,在解析得到所述日志信息中包含的用于检测系统是否发生故障的第一数据与至少一个用于分析发生故障所产生故障影响面的第二数据,建立用于检测系统是否发生故障的第一数据与至少一个用于分析发生故障所产生故障影响面的第二数据之间的对应关系,并将所述对应关系存储至数据库中,以 便于后续在异常检测时,确定发生故障所产生故障影响面的数据,不仅能够提高故障影响面分析的精度,而且还能够保证故障影响面分析的时效性。

可选地,在建立用于检测系统是否发生故障的第一数据与至少一个用于分析发生故障所产生故障影响面的第二数据之间的对应关系时,所述方法具体包括:

第一步,确定用于检测系统是否发生故障的第一数据的第一键值。

其中,所述第一键值包含所述日志解析规则的标识、所述日志信息的产生时间。

即在得到用于检测系统是否发生故障的第一数据时,将所述日志解析规则的标识、所述日志信息的产生时间以及所述日志解析粒度作为所述第一数据的第一键值。

例如:第一数据的第一键值可以表示为:日志解析规则的标识_日志解析粒度_日志信息的产生时间。

第二步,确定每一个用于分析发生故障所产生故障影响面的第二数据的第二键值。

其中,所述第二键值包含所述日志解析规则的标识、所述日志信息的产生时间以及所述日志信息的标识。

这里由于在不同日志信息中包含的用于检测系统是否发生故障的第一数据可能相同,但是对于不同时间产生的日志信息中用于分析发生故障所产生故障影响面的第二数据不同,在确定确定每一个用于分析发生故障所产生故障影响面的第二数据的第二键值时,需要确定日志信息的标识,或者利用日志信息计算得到一个哈希值作为该日志信息的标识,并将所述日志解析规则的标识、所述日志信息的产生时间以及所述日志信息的标识作为第二数据的第二键值。

例如:第二数据的第二键值可以表示为:日志解析规则的标识_日志解析粒度_日志信息的产生时间_所述日志信息的标识。

第三步,建立包含所述第一键值的用于检测系统是否发生故障的第一数据 与包含所述第二键值的用于分析发生故障所产生故障影响面的第二数据的第二键值之间的对应关系。

如表1所示,为建立包含所述第一键值的用于检测系统是否发生故障的第一数据与包含所述第二键值的用于分析发生故障所产生故障影响面的第二数据的第二键值之间的对应关系的示意表:

表1

从表1中可以看出,一个第一数据可能对应多个第二数据。

步骤103:对所述日志信息中包含的所述第一数据进行异常检测,并在根据异常检测结果确定系统发生故障时,查找与所述第一数据对应的第二数据。

在步骤103中,对所述日志信息中包含的所述第一数据进行异常检测,进而确定系统是否发生故障。

当异常检测结果是出现异常时,确定系统发生故障。

一旦检测到系统发生故障,即可利用第102中分析的内容,快速确定系统发生故障所产生故障的影响面的数据。

即根据所述第一数据和所述数据库中存储的所述对应关系,从所述数据库 中查找到与所述第一数据对应的所述第二数据。

具体地,由于在步骤102中在确定出所述日志信息中包含的用于检测系统是否发生故障的第一数据与至少一个用于分析发生故障所产生故障影响面的第二数据时,建立用于检测系统是否发生故障的第一数据与至少一个用于分析发生故障所产生故障影响面的第二数据之间的对应关系,那么基于所述第一数据,在数据库中查找与所述第一数据建立对应关系的至少一个第二数据。

或者,由于在步骤102中在确定出所述日志信息中包含的用于检测系统是否发生故障的第一数据与至少一个用于分析发生故障所产生故障影响面的第二数据时,建立包含所述第一键值的用于检测系统是否发生故障的第一数据与包含所述第二键值的用于分析发生故障所产生故障影响面的第二数据的第二键值之间的对应关系,那么确定所述第一数据的键值,在数据库中查找与第一数据的键值相匹配的键值,即可查找到与所述第一数据建立对应关系的至少一个第二数据。

步骤104:根据所述第二数据,确定用于处理所述故障的策略,并利用所述策略,处理所述故障。

在步骤104中,根据所述第二数据,分析系统故障所产生的故障影响面,进而根据故障影响面的大小,确定系统故障等级,并启动与确定的系统故障等级相匹配的策略,进而利用所述策略,处理所述故障。

需要说明的是,本申请实施例中所述的第一数据可以是指实际应用中本领域技术人员所说的统计数据,第二数据可以是指实际应用中本领域技术人员所说的明细数据。

本申请实施例中所述故障影响面主要是指影响用户或者业务,那么第二数据可以是指故障影响的业务失败的数量;或者影响到的用户的数量,等等,这里不做限定,

本申请实施例中涉及的“第一数据”,“第二数据”,“第一键值”,“第二键值”中包含的“第一”,“第二”没有实际意义,仅仅用于区分不同的数据和不 同的键值。

通过本申请实施例提供的技术方案,获取日志信息,并确定所述日志信息中包含用于检测系统是否发生故障的第一数据和用于分析发生故障所产生故障影响面的第二数据;对所述日志信息中包含的所述第一数据进行异常检测,并在根据异常检测结果确定系统发生故障时,查找与所述第一数据对应的第二数据;根据所述第二数据,确定用于处理所述故障的策略,并利用所述策略,处理所述故障。通过本申请实施例的方案,对产生的日志信息进行分析,确定日志信息中包含的用于分析发生故障所产生的故障影响面的数据,一旦在对日志信息中用于检测系统是否发生故障的数据进行异常检测时确定系统发生故障时,能够快速获取于分析发生故障所产生的故障影响面的数据,进而有效地根据得到的故障影响面对故障进行处理,提高故障处理效率。

图2为本申请实施例提供的一种分析故障的影响面的方法的流程示意图。所述方法可以如下所示。

步骤201:采集日志信息。

步骤202:利用日志解析规则对所述日志信息进行解析,确定出所述日志信息中包含的用于检测系统是否发生故障的第一数据与至少一个用于分析发生故障所产生故障影响面的第二数据。

步骤203:对所述日志信息中包含的所述第一数据进行异常检测,并在根据异常检测结果确定系统发生故障时,根据所述日志信息中包含的至少一个所述第二数据,分析系统发生故障所产生的故障影响面。

需要说明的是,图2中所述的实施例与图1中所述的实施例中相同内容的处理方式相同,这里不做赘述。

图3为本申请实施例提供的一种故障处理设备的结构示意图。所述故障处理设备包括:获取单元31、查找单元32和处理单元33,其中:

获取单元31,用于获取日志信息,并确定所述日志信息中包含用于检测系统是否发生故障的第一数据和用于分析发生故障所产生故障影响面的第二数 据;

查找单元32,用于对所述日志信息中包含的所述第一数据进行异常检测,并在根据异常检测结果确定系统发生故障时,查找与所述第一数据对应的第二数据;

处理单元33,用于根据所述第二数据,确定用于处理所述故障的策略,并利用所述策略,处理所述故障。

在本申请的另一个实施例中,所述获取单元31确定所述日志信息中包含用于检测系统是否发生故障的第一数据和用于分析发生故障所产生故障影响面的第二数据,包括:

利用日志解析规则对所述日志信息进行解析,确定出所述日志信息中包含的用于检测系统是否发生故障的第一数据与至少一个用于分析发生故障所产生故障影响面的第二数据。

在本申请的另一个实施例中,所述故障处理设备还包括:建立单元34,其中:

所述建立单元34,用于建立用于检测系统是否发生故障的第一数据与至少一个用于分析发生故障所产生故障影响面的第二数据之间的对应关系,并将所述对应关系存储至数据库中。

在本申请的另一个实施例中,所述建立单元34建立用于检测系统是否发生故障的数据与至少一个用于分析发生故障所产生故障影响面的数据之间的对应关系,包括:

确定用于检测系统是否发生故障的第一数据的第一键值,其中,所述第一键值包含所述日志解析规则的标识、所述日志信息的产生时间;

确定每一个用于分析发生故障所产生故障影响面的第二数据的第二键值,其中,所述第二键值包含所述日志解析规则的标识、所述日志信息的产生时间以及所述日志信息的标识;

建立包含所述第一键值的用于检测系统是否发生故障的第一数据与包含 所述第二键值的用于分析发生故障所产生故障影响面的第二数据的第二键值之间的对应关系。

在本申请的另一个实施例中,所述查找单元32查找与所述第一数据对应的第二数据,包括:

根据所述第一数据和所述数据库中存储的所述对应关系,从所述数据库中查找到与所述第一数据对应的所述第二数据。

在本申请的另一个实施例中,所述获取单元31获取日志信息,包括:

以分钟级为时间周期,周期性地采集日志信息。

需要说明的是,本申请实施例中所述故障处理设备可以通过软件方式实现,也可以通过硬件方式实现,这里不做具体限定。

图4为本申请实施例提供的一种分析故障的影响面设备的结构示意图。所述设备包括:采集单元41、确定单元42和分析单元43,其中:

采集单元41,用于采集日志信息;

确定单元42,用于利用日志解析规则对所述日志信息进行解析,确定出所述日志信息中包含的用于检测系统是否发生故障的第一数据与至少一个用于分析发生故障所产生故障影响面的第二数据;

分析单元43,用于对所述日志信息中包含的所述第一数据进行异常检测,并在根据异常检测结果确定系统发生故障时,根据所述日志信息中包含的至少一个所述第二数据,分析系统发生故障所产生的故障影响面。

需要说明的是,本申请实施例中所述设备可以通过软件方式实现,也可以通过硬件方式实现,这里不做具体限定。

图5为本申请实施例提供的一种故障处理系统的结构示意图。所述系统包括:日志分析设备51、存储设备52和故障处理设备53,其中:

日志分析设备51,用于获取日志信息,并确定所述日志信息中包含用于检测系统是否发生故障的第一数据和用于分析发生故障所产生故障影响面的第二数据,建立用于检测系统是否发生故障的第一数据与至少一个用于分析发生 故障所产生故障影响面的第二数据之间的对应关系;

存储设备52,用于将所述对应关系存储至数据库中;

故障处理设备53,用于对所述日志信息中包含的所述第一数据进行异常检测,并在根据异常检测结果确定系统发生故障时,从存储设备52中查找与所述第一数据对应的第二数据;根据所述第二数据,确定用于处理所述故障的策略,并利用所述策略,处理所述故障。

其中,日志分析设备51可以采用流式计算框架对日志信息进行分析。

本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1