一种基于PrometheusAlertManager的告警归档方法及系统与流程

文档序号:37425461发布日期:2024-03-25 19:12阅读:11来源:国知局
一种基于Prometheus AlertManager的告警归档方法及系统与流程

本发明属于it领域,具体为一种基于prometheusalertmanager的告警归档方法及系统。


背景技术:

1、在当今的信息技术领域,监控和警报系统在各种应用中扮演着至关重要的角色。在大规模系统中,监控告警数量庞大,需要有效的方法来收集、管理和归档这些告警数据,以便进行后续的故障分析、系统优化和合规性审计等工作。

2、目前,prometheus是一种广泛使用的开源监控系统,其alertmanager组件用于处理和路由监控告警。alertmanager能够根据定义的规则和配置,对接收到的告警进行处理、分组和发送通知。然而,alertmanager本身并不具备告警历史的归档功能,仅保留触发中的告警信息用于当前告警的处理,无法满足长期存储和归档需求。

3、因此,本发明旨在提供一种基于prometheusalertmanager的告警归档方法及系统,通过改进告警数据的收集、存储和查询过程,解决现有技术中存在的问题。


技术实现思路

1、本发明的目的在于提供一种基于prometheus alertmanager的告警归档方法,以解决上述背景技术中的问题。

2、为实现上述目的,本发明提供如下技术方案:一种基于prometheus alertmanager的告警归档方法,包括以下具体步骤:

3、s1、部署prometheus集群和alertmanager集群,将所述alertmanager集群配置为将处理后的告警信息发送至消息队列;

4、s2、从所述消息队列中消费所述告警信息,并将其存储至持久化存储中。

5、本发明进一步改进在于,所述s1具体步骤包括:

6、s11、所述prometheus集群生成告警预信息,并将其发送至所述alertmanager集群;

7、s12、所述alertmanager集群对接收到的告警进行聚合、过滤处理,然后将处理后的告警信息发送至消息队列中;

8、本发明进一步改进在于,所述持久化存储包括向外部用户提供告警检索界面及接口,用于支持后续的故障分析、系统优化和合规性审计工作。

9、本发明进一步改进在于,所述步骤s2还包括自监测机制,监测prometheus集群、alertmanager、消息队列、持久化存储以及告警归档模块自身的运行状态,并进行故障自修复等工作。

10、另一方面,本发明提供一种基于prometheusalertmanager的告警归档系统,包括:

11、告警预信息生成模块,用于prometheus集群生成告警预信息,并将其发送至alertmanager集群;

12、消息队列集成模块,用于将所述alertmanager集群对接收到的所述告警预信息进行聚合、过滤处理,生成告警信息,将所述告警信息发送至消息队列中;

13、告警归档模块,用于从消息队列中消费告警信息,并将其存储至持久化存储中。

14、本发明进一步改进在于,所述告警归档模块包括告警持久化子模块、告警检索子模块和系统自检子模块,所述告警持久化子模块用于配置mysql存储后端,配置从kafka消息队列消费告警信息;所述告警检索子模块用于配置从mysql存储检索告警信息,配置告警检索界面和接口;所述系统自检子模块用于配置连接各组件进行系统自监测,监测各组件的健康状态,并实现故障自修复功能。

15、本发明进一步改进在于,所述告警持久化子模块还提供过期告警信息清理功能,支持配置不同维度的过期告警信息清理策略。

16、本发明进一步改进在于,所述所述告警检索子模块还支持按不同维度查询告警信息、生成告警报表、进行故障联合分析功能。

17、一种电子设备,包括:处理器和存储器,其中,所述存储器中存储有可供处理器调用的计算机程序;

18、所述处理器通过调用所述存储器中存储的计算机程序,执行上述任一种基于prometheusalertmanager的告警归档方法及系统。

19、一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行上述任意一种基于prometheusalertmanager的告警归档方法及系统。

20、与现有技术相比,本发明的有益效果是:

21、1、告警历史数据完整性:本发明提供的方法及系统能够有效地归档和存储大规模的告警数据,保证了告警历史数据的完整性。相比于现有技术中仅保留有限告警信息的方法,本发明能够长期保留所有的告警数据,提供更全面的数据基础供后续分析和审计使用。同时提供过期告警信息清理功能,支持配置按时间、按集群等不同维度清理过期告警信息的策略,节省存储成本;

22、2、多样化的存储后端支持:本发明的系统支持多种存储后端,如关系型数据库、分布式存储系统、文件系统等,以满足不同规模和需求的告警数据存储。用户可以根据实际情况选择适合自身环境和业务需求的存储解决方案;

23、3、高可用和可靠性架构:本发明利用消息队列、自检等技术,构建了高可用和可靠性的架构。通过将告警数据流与消息队列相结合,实现了异步处理和解耦,确保告警数据的高效处理和传输。同时,系统具备自检功能,能够实时监测告警数据的处理状态和系统运行情况,确保系统的稳定性和可靠性。这种架构设计大大降低了系统的故障风险,提供了高度可用的告警管理解决方案。



技术特征:

1.一种基于prometheusalertmanager的告警归档方法,其特征在于:包括以下具体步骤:

2.根据权利要求1所述的一种基于prometheus alertmanager的告警归档方法,其特征在于:所述s1具体步骤包括:

3.根据权利要求2所述的一种基于prometheus alertmanager的告警归档方法,其特征在于:所述持久化存储包括向外部用户提供告警检索界面及接口,用于支持后续的故障分析、系统优化和合规性审计工作。

4.根据权利要求3所述的一种基于prometheus alertmanager的告警归档方法,其特征在于:所述步骤s2还包括自监测机制,监测prometheus集群、alertmanager、消息队列、持久化存储以及告警归档模块自身的运行状态,并进行故障自修复等工作。

5.一种基于prometheusalertmanager的告警归档系统,其基于如权利要求1-4任一项所述的一种基于prometheusalertmanager的告警归档方法实现,其特征在于,包括:

6.根据权利要求5所述的一种基于prometheus alertmanager的告警归档系统,其特征在于:所述告警归档模块包括告警持久化子模块、告警检索子模块和系统自检子模块,所述告警持久化子模块用于配置mysql存储后端,配置从kafka消息队列消费告警信息;所述告警检索子模块用于配置从mysql存储检索告警信息,配置告警检索界面和接口;所述系统自检子模块用于配置连接各组件进行系统自监测,监测各组件的健康状态,并实现故障自修复功能。

7.根据权利要求6所述的一种基于prometheus alertmanager的告警归档系统,其特征在于:所述告警持久化子模块还提供过期告警信息清理功能,支持配置不同维度的过期告警信息清理策略。

8.根据权利要求7所述的一种基于prometheus alertmanager的告警归档系统,其特征在于:所述所述告警检索子模块还支持按不同维度查询告警信息、生成告警报表、进行故障联合分析功能。

9.一种电子设备,其特征在于,包括:处理器和存储器,其中,所述存储器中存储有可供处理器调用的计算机程序;

10.一种计算机可读存储介质,其特征在于:储存有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求5-8任意一项所述的一种基于prometheus alertmanager的告警归档系统。


技术总结
本发明公开了一种基于Prometheus AlertManager的告警归档方法及系统,涉及IT领域,包括:Prometheus集群生成告警预信息,并将其发送至AlertManager集群;将所述AlertManager集群对接收到的所述告警预信息进行聚合、过滤处理,生成告警信息,将所述告警信息发送至消息队列中;从消息队列中消费告警信息,并将其存储至持久化存储中。本发明能够长期保留所有的告警数据,提供更全面的数据基础供后续分析和审计使用,同时用户可以根据实际情况选择适合自身环境和业务需求的存储解决方案,大大降低了系统的故障风险,提供了高度可用的告警管理解决方案。

技术研发人员:董薇
受保护的技术使用者:天翼云科技有限公司
技术研发日:
技术公布日:2024/3/24
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1