本技术涉及微服务架构告警,更具体地,涉及一种微服务架构的告警管理方法及系统。
背景技术:
1、微服务架构是一项在云中部署应用和服务的新技术。微服务架构将单个应用程序分解成多个小型服务,每个服务都独立运行,有自己的进程和数据库,并且可以通过轻量级通信机制(例如restful api)相互协作。微服务架构的优点包括高度可扩展性、灵活性、部署速度快等。
2、在现有的微服务架构告警管理中,微服务架构在发生异常时,通常会伴随着巨量的数据异常,这就要求运维人员面对纷繁复杂的异常指标及时梳理背后的异常关联,然而单纯依赖人工故障定位很难满足行业对于微服务系统稳定性的要求。
技术实现思路
1、本发明提供一种微服务架构的告警管理方法及系统,用以解决现有技术中微服务架构告警管理工作效率低的技术问题。包括:
2、获取微服务系统的历史系统运行状态数据,根据历史系统运行状态数据确定微服务系统的危险波动参数;
3、根据微服务系统的危险波动参数建立微服务系统的告警关联规则,根据微服务系统的告警关联规则建立关联规则数据库;
4、监测当前微服务系统的危险波动参数,根据当前微服务系统的危险波动参数确定预设时间窗口内各微服务节点的指标数据;
5、根据当前微服务节点的指标数据对关联规则数据库进行匹配,得出当前微服务系统的告警事件匹配程度;
6、根据当前微服务系统的告警事件匹配程度确定告警策略,根据告警策略对微服务系统进行实时告警。
7、进一步地,根据历史系统运行状态数据确定微服务系统的危险波动参数,包括:
8、绘制历史系统运行状态数据的变化曲线图,设定滚动时间窗口,根据滚动时间窗口对历史运行状态数据变化曲线进行分割;
9、计算历史运行状态数据在滚动时间窗口中的斜率均值,根据历史运行状态数据在滚动时间窗口中的斜率均值绘制斜率均值变化曲线;
10、在斜率均值变化曲线中筛选出斜率均值的最高值,并统计斜率均值最高值的左侧n个斜率均值,计算左侧n个斜率均值的平均值;
11、计算斜率均值最高值与左侧n个斜率均值的平均值的差值,得出斜率均值波动值;
12、根据历史系统运行状态数据设定波动参数权重值,将斜率均值波动值与波动参数权重值相乘,得出微服务系统的波动参数;
13、统计出大于第一预设阈值的波动参数,将大于第一预设阈值的波动参数确定为危险波动参数。
14、进一步地,根据历史系统运行状态数据设定波动参数权重值,包括:
15、获取微服务系统的历史告警事件,根据历史告警事件确定各历史告警事件出现时的斜率均值波动值及各历史告警事件对应的误报次数;
16、根据各历史告警事件的误报次数计算历史告警事件误报率,确定历史告警事件误报率与标准误报率的比值;
17、将历史告警事件误报率与标准误报率的比值进行归一化处理,得出斜率均值波动值对应的波动参数权重值。
18、进一步地,根据微服务系统的危险波动参数建立微服务系统的告警关联规则,包括:
19、根据微服务系统的危险波动参数确定危险波动参数出现时在预设时间窗口内微服务节点的指标数据,对微服务节点的指标数据进行离散化处理;
20、根据离散化处理后的微服务节点的指标数据生成候选1项集c1,计算c1中的每个项对应的支持度;
21、设定最小支持度阈值,筛选出c1中的每个项对应的支持度大于最小支持度阈值的项集,得到频繁1项集l1;
22、对l1进行连接和剪枝处理,得到候选2项集c2,计算c2中的每个项对应的支持度,筛选出c2中的每个项对应的支持度大于最小支持度阈值的项集,得到频繁2项集l2;
23、重复上述操作,直至获得最大频繁项集lk,设定最小置信度阈值,根据lk中每个项的置信度确定告警关联规则。
24、进一步地,根据当前微服务节点的指标数据对关联规则数据库进行匹配,得出当前微服务系统的告警事件匹配程度,包括:
25、根据当前微服务节点的指标数据计算预设时间窗口内的指标数据与告警关联规则中各微服务节点的指标数据的距离值;
26、获取微服务系统的历史波动参数,根据微服务系统的历史波动参数确定距离修正值,根据距离修正值对指标数据的距离值进行修正;
27、计算修正后各指标数据的距离值与预设容许距离的差值,根据指标数据的距离值与预设容许距离的差值确定当前微服务系统的告警事件匹配程度。
28、进一步地,根据指标数据的距离值与预设容许距离的差值确定当前微服务系统的告警事件匹配程度,包括:
29、对指标数据的距离值与预设容许距离的差值由小到大进行排序,将排序结果与告警关联规则进行逐条匹配;
30、根据匹配结果确定对应的告警事件,根据告警事件确定各指标数据的预设权重;
31、根据各指标数据的预设权重计算告警事件对应的当前指标数据距离值的加权平均值,根据当前指标数据距离值的加权平均值与预设距离平均值的比值确定当前微服务系统的告警事件匹配程度。
32、进一步地,根据微服务系统的历史波动参数确定距离修正值,包括:
33、基于k均值聚类算法对微服务系统的历史波动参数进行聚类,得出聚类结果,根据聚类结果对历史告警事件进行分类;
34、根据分类结果将历史告警事件设定为严重、较重、一般、轻微四个等级;
35、若告警事件为严重等级,则将第一预设修正值设定为距离修正值;
36、若告警事件为较重等级,则将第二预设修正值设定为距离修正值;
37、若告警事件为一般等级,则将第三预设修正值设定为距离修正值;
38、若告警事件为轻微等级,则将第四预设修正值设定为距离修正值。
39、进一步地,根据当前微服务系统的告警事件匹配程度确定告警策略,包括:
40、获取微服务系统的历史维修信息,基于微服务系统的历史维修信息建立告警策略模型;
41、根据告警策略模型确定当前告警事件匹配程度对应的告警策略,根据告警策略确定当前告警处理期限;
42、监测当前告警事件的处理结果,判断当前告警事件的处理时间是否超出处理期限;
43、若当前告警事件的处理时间是否超出处理期限判断当前告警信息超出处理期限,则根据处理期限的超出事件更新当前告警事件的严重等级。
44、进一步地,基于微服务系统的历史维修信息建立告警策略模型,包括:
45、获取微服务系统的历史告警事件数据及对应的维修信息,对历史告警事件数据及对应的维修信息进行预处理;
46、根据预处理后的历史告警事件数据及对应的维修信息建立数据集,根据数据集建立初始告警策略模型;
47、根据数据集对初始告警策略模型进行训练,得出最终的告警策略模型。
48、为了实现上述目的,本发明还提供了一种微服务架构的告警管理系统,包括:
49、数据获取模块,用于获取微服务系统的历史系统运行状态数据,根据历史系统运行状态数据确定微服务系统的危险波动参数;
50、规则建立模块,用于根据微服务系统的危险波动参数建立微服务系统的告警关联规则,根据微服务系统的告警关联规则建立关联规则数据库;
51、数据计算模块,用于监测当前微服务系统的危险波动参数,根据当前微服务系统的危险波动参数确定预设时间窗口内各微服务节点的指标数据;
52、告警匹配模块,用于根据当前微服务节点的指标数据对关联规则数据库进行匹配,得出当前微服务系统的告警事件匹配程度;
53、告警管理模块,用于根据当前微服务系统的告警事件匹配程度确定告警策略,根据告警策略对微服务系统进行实时告警。
54、本发明的有益效果在于:
55、通过应用以上技术方案,本发明通过基于微服务系统的波动参数建立告警关联规则数据库,能够及时发现微服务架构中的异常问题并通过告警关联规则数据库确定对应的告警事件,克服了依赖人工管理微服务架构告警的问题,提高微服务架构告警的自动发现能力与信息准确度,提升告警管理工作效率。