基于数据分析的告警定位方法、装置、设备以及存储介质与流程

文档序号:16007130发布日期:2018-11-20 20:12阅读:137来源:国知局

本发明涉及云计算以及大数据技术领域,特别是涉及一种基于数据分析的告警定位方法、装置、设备以及计算机可读存储介质。



背景技术:

在国内,从技术趋势发展来说,整个IT行业已经跨过了功能完善的时期,已经从功能建设时期转为数据建设时期,整个行业开始转型,所以云计算和大数据必然成为国家发展的一个重要布局。目前大数据在国内发展迅速,在数字经济面前,数据成为社会进步的第一驱动力,是推动社会发展的重要因素,大数据技术成为国家战略已经是一个趋势。在风险分析方面,国内处于一个迅速发展的阶段,个人业务包括个人征信、芝麻信用;银行应用,各大行推出的风险评估产品都是数据风险分析的案例。但是国内的数据和国外特别是欧美国家相比,数据质量还是参差不齐的,相较于欧美国家很早就开放数据接口,发布数据开放标准,中国的数据标准和接口起步都比较晚,给大数据风险分析也带来一定的困难。

在国外,许多国家的政府和国际组织都认识到了大数据的重要作用,纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手,实施大数据战略。美国政府将大数据视为强化美国竞争力的关键因素之一,把大数据研究和生产计划提高到国家战略层面。其他国家也在相继布局,迎头赶上。在风险分析方面,因为欧美有着较早数据体系、完善的法律法规和行业指导规范,他们的数据使用也是比较规范的,这也使得在所谓的大数据风控方面,西方国家已经有了很多数据应用。在技术方面,有大量的公司专注于做技术底层,基础建设这一层;有些纯技术公司做上层应用开放,统计分析软件的;甚至还有大量机构和公司专注于开源技术系统搭建,所以国外在技术上也是相对成熟的。

但随着互联网技术不断发展,整个社会大力提速,数据的标准的建立,传统的风险分析方式已逐渐不能支撑机构的业务扩展;而大数据对多维度、大量数据的智能处理,批量标准化的执行流程,更能贴合信息发展时代风控业务的发展要求,未来大数据风险分析将会更多的应用在各行各业,越来越精确的分析行业存在的风险,防患于未然。

现有技术中,运维工程师每天面对来自不同监控系统中数量庞大、类型复杂的故障告警,心有余而力不足。并且,遇到的故障告警往往来自各个不同的厂家设备且类型不一,需要对各种异构设备都非常了解且完全凭借个人经验,这些都让运维工程师变得无所适从。



技术实现要素:

本发明的目的是提供一种基于数据分析的告警定位方法、装置、设备以及计算机可读存储介质,以解决现有数据分析告警技术中运维工程师工作量巨大、故障定位复杂难度大的问题。

为解决上述技术问题,本发明提供一种基于数据分析的告警定位方法,包括:

获取告警历史信息;

对所述告警历史信息进行预处理,生成统一格式的告警事件描述;

按照预设时间窗,将所述告警事件描述划分为多个事件集合;

对经过划分的各个告警事件之间进行关联关系计算;

根据计算得到的各个告警事件之间的关联关系进行根因分析,生成导致告警事件产生的原因分析结果。

可选地,所述按照预设时间窗,将所述告警事件描述划分为多个事件集合包括:

将告警事件发生的时间跨度按照预设时间窗平均划分为多个时间段,处于同一时间段内的告警事件则认为是同时发生的事件,由此划分得到事件集合。

可选地,所述按照预设时间窗,将所述告警事件描述划分为多个事件集合包括:

按照各告警事件所发生时间点作为标准,取前后预设时间间隔作为时间段判断标准,处于对应时间段内的告警事件则认为是同时发生的事件,由此划分得到事件集合。

可选地,所述对经过划分的各个告警事件之间进行关联关系计算包括:

采用Apriori算法对经过划分的各个告警事件之间进行关联关系计算;

计算各个告警事件之间的lift提升度,以判断各个告警事件之间的关联关系是否有效;

根据各个告警事件之间的关联关系是否有效的判断结果,确定出各个告警事件之间关联关系的置信度。

可选地,在所述对经过划分的各个告警事件之间进行关联关系计算之后还包括:

采用关联关系拓扑图展示各个告警事件之间的关联关系,连接线之间的线条粗细用于表示相连两个告警事件之间的关联关系的置信度。

可选地,所述对所述告警历史信息进行预处理包括:

对所述告警历史信息进行预处理,去除设备未连接类型的告警历史信息。

可选地,所述生成统一格式的告警事件描述包括:

生成资源-指标-告警时间格式的告警事件描述。

本发明还提供了一种基于数据分析的告警定位装置,包括:

历史信息获取模块,用于获取告警历史信息;

预处理模块,用于对所述告警历史信息进行预处理,生成统一格式的告警事件描述;

划分模块,用于按照预设时间窗,将所述告警事件描述划分为多个事件集合;

计算模块,用于对经过划分的各个告警事件之间进行关联关系计算;

分析模块,用于根据计算得到的各个告警事件之间的关联关系进行根因分析,生成导致告警事件产生的原因分析结果。

本发明还提供了一种基于数据分析的告警定位设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现上述任一种所述基于数据分析的告警定位方法的步骤。

本发明还提供了一种一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种所述基于数据分析的告警定位方法的步骤。

本发明所提供的基于数据分析的告警定位方法,通过获取告警历史信息;对告警历史信息进行预处理,生成统一格式的告警事件描述;按照预设时间窗,将告警事件描述划分为多个事件集合;对经过划分的各个告警事件之间进行关联关系计算;根据计算得到的各个告警事件之间的关联关系进行根因分析,生成导致告警事件产生的原因分析结果。本申请通过对告警事件进行算法分析,能够直接生成导致问题最可能的原因,以供运维工程师快速定位到该告警事件产生的原因。可见,本申请能将运维工程师从海量重复的告警信息中解脱出来,协助直观快速掌握告警之间的关系,不仅减轻了运维工程师的工作量,还能够让运维工作有据可依,降低了工作难度,提高了运维工作的工作效率。此外,本申请还提供了一种具有上述技术优点的基于数据分析的告警定位装置、设备以及计算机可读存储介质。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明所提供的基于数据分析的告警定位方法的一种具体实施方式的流程图;

图2为本申请实施例中进行关联关系计算的流程图;

图3为本发明所提供的基于数据分析的告警定位方法中拓扑图示意图;

图4为本发明实施例提供的基于数据分析的告警定位装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明所提供的基于数据分析的告警定位方法的一种具体实施方式的流程图如图1所示,该方法包括:

步骤S101:获取告警历史信息;

具体地,可以采用定时任务机制,按照设定好的时间周期读取该段时间内的告警历史信息,进行后续的数据处理分析。该定时任务执行的时间周期、告警数据采样时长等其他任务数据可以预先存储至固定配置文件中。在系统初次启动时,通过读取该固定配置文件,获取到定时任务执行的时间周期,并将其注册到定时任务执行器中。当触发该定时任务之后,读取配置文件中配置的告警数据采样时长,从告警历史记录表中获取到对应的告警历史信息。

步骤S102:对所述告警历史信息进行预处理,生成统一格式的告警事件描述;

本申请中对所述告警历史信息进行预处理可以具体为:去除设备未连接类型的告警历史信息。这是因为设备未连接类型的告警的严重性高于设备指标类的告警,因此两者不能直接进行关联分析,因此本申请实施例通过预处理可以先将设备未连接类型的告警历史信息进行去除,以排除其对告警分析定位的干扰。

在对告警历史信息进行预处理之后,再将预处理之后的告警历史信息整理为统一格式的告警事件描述。通过统一格式处理能够使得本方法适应各种应用系统的告警信息,具有通用性,能够移植到其他应用系统中使用。

具体地,生成统一格式的告警事件描述可以为:生成资源-指标-告警时间格式的告警事件描述。即统一格式可以为:资源-指标-告警时间这一格式。当然,还可以为其他格式,在此并不做限定。

步骤S103:按照预设时间窗,将所述告警事件描述划分为多个事件集合;

在对告警事件进行统一格式处理之后,可以按照告警时间进行排序,然后按照预设时间窗将告警事件划分为事件组合。

作为一种具体实施方式,本申请实施例提供了两种划分方法。一种划分方式为:将告警事件发生的时间跨度按照预设时间窗(例如10分钟)平均划分为多个时间段,处于同一时间段内的告警事件则认为是同时发生的事件,由此划分得到事件集合。例如,对于一个小时的告警事件,可以划分为0-10分钟内的告警事件集合,10-20分钟的告警事件集合,20-30分钟的告警事件集合,依次次类推划分事件组合。

另一种划分方式为:按照各告警事件所发生时间点作为标准,取前后预设时间间隔作为时间段判断标准(例如时间窗为10分钟,则取标准时间点前后5分钟),处于对应时间段内的告警事件则认为是同时发生的事件,由此划分得到事件集合。例如,第一个告警事件集合包括第一条告警事件和第一条告警事件发生后5分钟内发生的其他告警事件;第二个集合包括从第一条告警发生后5分钟后发生的第一条告警开始,这次告警发生之后5分钟内发生的其他告警事件,以此类推。

通过对告警事件进行划分,能解决告警事件集合划分困难的问题,按照划分依据能轻松完成告警事件集合划分。

步骤S104:对经过划分的各个告警事件之间进行关联关系计算;

参照图2本申请实施例中进行关联关系计算的流程图,对经过划分的各个告警事件之间进行关联关系计算的过程具体包括:

步骤S1041:采用Apriori算法对经过划分的各个告警事件之间进行关联关系计算;

采用直接求解所有可能的频繁项集的方法,复杂度太高,这是无法忍受的。因此,为了降低问题的复杂度,本申请引入了Apriori算法这种简便的求解频繁项集的方法。

步骤S1042:计算各个告警事件之间的lift提升度,以判断各个告警事件之间的关联关系是否有效;

步骤S1043:根据各个告警事件之间的关联关系是否有效的判断结果,确定出各个告警事件之间关联关系的置信度。

进一步地,在所述对经过划分的各个告警事件之间进行关联关系计算之后还包括:采用关联关系拓扑图展示各个告警事件之间的关联关系,连接线之间的线条粗细用于表示相连两个告警事件之间的关联关系的置信度。参照图3本发明所提供的基于数据分析的告警定位方法中拓扑图示意图,由图示出告警事件1、告警事件2、告警事件3、告警事件4、告警事件5之间的关联关系。可以看出,告警事件1与告警事件2、告警事件3、告警事件4之间均存在关联关系,并且告警事件1与告警事件2之间的连接线的线条最粗,由此可以得到告警事件1与告警事件2之间关联关系置信度最高。告警事件2又与告警事件5之间存在关联关系。

具体地,可以使用Apriori算法计算出各个资源+指标之间的强关联规则,用于展示资源指标与另一资源指标的关联程度。根据计算资源+指标之间的lift提升度,来判定资源+指标之间的关联规则是否是有效的,据此筛选出有意义的置信度组合做根因分析并以拓扑图的形式展示。将算法得出的关联关系,用拓扑图的形式展现出来,能清楚看到置信度等级,方便更直观的定位分析问题。

进一步地,定位分析的关联关系一般比较复杂,为了能更直观的展现关联关系,在上述实施例的基础上,本申请引入好用又跨浏览器平台的jtop,可以非常简单快速地创建精美、专业、高效的图形化界面,从而提高开发效率。

步骤S105:根据计算得到的各个告警事件之间的关联关系进行根因分析,生成导致告警事件产生的原因分析结果。

具体地,可以结合上述拓扑图直接进行根因分析,生成导致告警事件产生的原因分析结果。例如,由图3可知,告警事件1与告警事件2、告警事件3、告警事件4之间均存在关联关系,并且告警事件1与告警事件2之间的连接线的线条最粗,由此可以得到告警事件1与告警事件2之间关联关系置信度最高。而告警事件2又与告警事件5之间存在关联关系。这样,如果当前有告警事件1发生,那么告警事件发生的最初的原因可能是由告警事件5所导致的,这样就定位到引起告警事件的根本原因。

本发明所提供的基于数据分析的告警定位方法,通过获取告警历史信息;对告警历史信息进行预处理,生成统一格式的告警事件描述;按照预设时间窗,将告警事件描述划分为多个事件集合;对经过划分的各个告警事件之间进行关联关系计算;根据计算得到的各个告警事件之间的关联关系进行根因分析,生成导致告警事件产生的原因分析结果。本申请通过对告警事件进行算法分析,能够直接生成导致问题最可能的原因,以供运维工程师快速定位到该告警事件产生的原因。可见,本申请能将运维工程师从海量重复的告警信息中解脱出来,协助直观快速掌握告警之间的关系,不仅减轻了运维工程师的工作量,还能够让运维工作有据可依,降低了工作难度,提高了运维工作的工作效率。

下面对本发明实施例提供的基于数据分析的告警定位装置进行介绍,下文描述的基于数据分析的告警定位装置与上文描述的基于数据分析的告警定位方法可相互对应参照。

图4为本发明实施例提供的基于数据分析的告警定位装置的结构框图,参照图4基于数据分析的告警定位装置可以包括:

历史信息获取模块100,用于获取告警历史信息;

预处理模块200,用于对所述告警历史信息进行预处理,生成统一格式的告警事件描述;

划分模块300,用于按照预设时间窗,将所述告警事件描述划分为多个事件集合;

计算模块400,用于对经过划分的各个告警事件之间进行关联关系计算;

分析模块500,用于根据计算得到的各个告警事件之间的关联关系进行根因分析,生成导致告警事件产生的原因分析结果。

本实施例的基于数据分析的告警定位装置用于实现前述的基于数据分析的告警定位方法,因此基于数据分析的告警定位装置中的具体实施方式可见前文中的基于数据分析的告警定位方法的实施例部分,例如,历史信息获取模块100,预处理模块200,划分模块300,计算模块400,分析模块500,分别用于实现上述基于数据分析的告警定位方法中步骤S101,S102,S103,S104和S105,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。

此外,本申请还提供了一种基于数据分析的告警定位设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现上述任一种所述基于数据分析的告警定位方法的步骤。

此外,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种基于数据分析的告警定位方法的步骤。

本申请通过对告警事件进行算法分析,能够直接生成导致问题最可能的原因,以供运维工程师快速定位到该告警事件产生的原因。可见,本申请能将运维工程师从海量重复的告警信息中解脱出来,协助直观快速掌握告警之间的关系,不仅减轻了运维工程师的工作量,还能够让运维工作有据可依,降低了工作难度,提高了运维工作的工作效率。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的基于数据分析的告警定位方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1