一种告警事件处理方法、装置、设备及存储介质与流程

文档序号:36096599发布日期:2023-11-20 23:03阅读:32来源:国知局
一种告警事件处理方法与流程

本发明涉及智能告警领域,特别涉及一种告警事件处理方法、装置、设备及存储介质。


背景技术:

1、目前的监控告警工作中,大部分工作仍让需要人工进行,并且通过人工进行不同单位之间的沟通,但是人工拨打电话流程需要发现告警、找人、查通讯录、打电话,这个过程中将告警事件描述清楚整体过程至少需要1至3分钟,同时告警依赖邮箱,短信等,告警通知反馈效率低;并且人工跟踪告警量平均每月15000条左右,告警事件数量较多,人工疲于跟进,同时人工介入故障修复由于效率较低,收到告警事件后平均需要30分钟进行处理,并且需要通过各类专业监控工具分析排除可疑点。但是目前的技术栈监控工具繁杂无法有效统一和进行业务关联,各类监控工具监控维度不同,告警分析排查就需要通过不同平台进行,缺乏统一视角。这样一来,告警历史数据无法有效利用,无法反哺生产进行稳定性提升,并且告警事件的流转与闭环通过itsm(it service management,it服务管理)进行,与告警本身脱节,无法形成有效的关联性。因此,如何更加有效地进行告警事件的通知以及处理是本领域有待解决的问题。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种告警事件处理方法、装置、设备及存储介质,可以整合现有的各个监控告警工具的数据,将各个工具以及对应的告警事件的情况以“健康度”展现给运维人员,可以使运维人员更加方便直观的进行管理,并且通过对告警事件的上述管理流程对告警事件的处理进行完整闭环。其具体方案如下:

2、第一方面,本技术提供了一种告警事件处理方法,包括:

3、获取预设监控告警工具得到的告警事件并整合所述告警事件,得到初始告警事件,根据预设健康度评级规则对所述初始告警事件进行评级,并根据评级结果判断是否需要对所述初始告警事件进行事件跟踪;

4、若需要进行事件跟踪,则根据所述初始告警事件生成目标告警事件,执行所述目标告警事件对应的事件操作,并对所述目标告警事件根据预设分组规则进行分组,生成若干所述目标告警事件对应的告警故障单;所述告警故障单用于存储待处理的所述目标告警事件和所述目标告警事件的相关信息;

5、对所述告警故障单中的所述目标告警事件进行分析,并将分析结果发送至所述预设监控告警工具对应的业务系统,以便所述业务系统根据所述分析结果进行调整。

6、可选的,所述获取预设监控告警工具得到的告警事件并整合所述告警事件,包括:

7、获取若干所述预设监控告警工具得到的所述告警事件,利用spark组件将所述告警事件统一保存至hadoop(一个提供分布式存储和计算的开源软件框架)大数据组件和/或es(elaticsearch,一个开源的高扩展的分布式全文检索引擎)大数据组件,以得到所述初始告警事件。

8、可选的,所述根据预设健康度评级规则对所述初始告警事件进行评级,并根据评级结果判断是否需要对所述初始告警事件进行事件跟踪,包括:

9、获取所述预设监控告警工具监控的所述业务系统产生告警的历史基线和告警阈值,根据所述历史基线和所述告警阈值对所述业务系统的技术栈实例和上层业务系统进行健康度评级,以得到所述业务系统的运行健康评分;

10、根据所述运行健康评分判断是否需要对所述初始告警事件进行事件跟踪。

11、可选的,所述若需要进行事件跟踪,则根据所述初始告警事件生成目标告警事件,包括:

12、若需要进行事件跟踪,则将所述初始告警事件合并至预先已生成的告警事件,以得到所述目标告警事件;

13、或,根据所述初始告警事件直接生成对应的目标告警事件。

14、可选的,所述根据所述初始告警事件直接生成对应的目标告警事件之后,还包括:

15、生成所述目标告警事件对应的事件通知,通过邮件和/或企业微信将所述事件通知发送至第一用户,并通过预设智能机器人基于预设通知范围对第二用户进行与所述事件通知相关的电话通知,以及将所述事件通知放入kafka消息队列;所述预设通知范围根据cmdb(configuration management database,配置管理数据库)资源管理系统进行划分。

16、可选的,所述生成所述目标告警事件对应的事件通知之前,还包括:

17、监测所述业务系统的实时指标,从所述实时指标中筛选满足预设告警阈值条件的目标告警指标,并根据所述目标告警指标对所述目标告警事件进行降噪处理,根据处理后的所述目标告警事件生成所述目标告警事件对应的事件通知。

18、可选的,所述对所述告警故障单中的所述目标告警事件进行分析,包括:

19、根据预设数据分类维度通过朴素贝叶斯算法对所述目标告警事件进行分类,并将所述目标告警事件对应的告警原因进行分类,以便根据所述目标告警事件和所述告警原因的分类结果对所述告警故障单中的所述目标告警事件进行分析。

20、第二方面,本技术提供了一种告警事件处理装置,包括:

21、事件评级模块,用于获取预设监控告警工具得到的告警事件并整合所述告警事件,得到初始告警事件,根据预设健康度评级规则对所述初始告警事件进行评级,并根据评级结果判断是否需要对所述初始告警事件进行事件跟踪;

22、故障单生成模块,用于若需要进行事件跟踪,则根据所述初始告警事件生成目标告警事件,执行所述目标告警事件对应的事件操作,并对所述目标告警事件根据预设分组规则进行分组,生成若干所述目标告警事件对应的告警故障单;所述告警故障单用于存储待处理的所述目标告警事件和所述目标告警事件的相关信息;

23、事件分析模块,用于对所述告警故障单中的所述目标告警事件进行分析,并将分析结果发送至所述预设监控告警工具对应的业务系统,以便所述业务系统根据所述分析结果进行调整。

24、第三方面,本技术提供了一种电子设备,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述的告警事件处理方法。

25、第四方面,本技术提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的告警事件处理方法。

26、本技术中,获取预设监控告警工具得到的告警事件并整合所述告警事件,得到初始告警事件,根据预设健康度评级规则对所述初始告警事件进行评级,并根据评级结果判断是否需要对所述初始告警事件进行事件跟踪;若需要进行事件跟踪,则根据所述初始告警事件生成目标告警事件,执行所述目标告警事件对应的事件操作,并对所述目标告警事件根据预设分组规则进行分组,生成若干所述目标告警事件对应的告警故障单;所述告警故障单用于存储待处理的所述目标告警事件和所述目标告警事件的相关信息;对所述告警故障单中的所述目标告警事件进行分析,并将分析结果发送至所述预设监控告警工具对应的业务系统,以便所述业务系统根据所述分析结果进行调整。通过上述技术方案,本技术可以整合现有的各个监控告警工具的数据,将各个工具以及对应的告警事件的情况以“健康度”展现给运维人员,可以使运维人员更加方便直观的进行管理,避免了各类监控工具监控维度不同、技术栈监控工具繁杂无法有效统一的问题。通过故障单智能告警,无需人工处理提高了告警事件处理的效率,并且通过对告警事件的上述管理流程,有效利用告警历史数据对告警事件的处理进行完整闭环。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1