一种自适应降低抖动告警的阈值推荐方法与流程

文档序号:31523903发布日期:2022-09-14 13:28阅读:47来源:国知局
一种自适应降低抖动告警的阈值推荐方法与流程

1.本发明涉及智能运维系统技术领域,尤其涉及一种自适应降低抖动告警的阈值推荐方法。


背景技术:

2.随着互联网的快速发展以及分布式系统出现,如今的运维系统后台规模越来越复杂和庞大,为了实现对系统整体的管理,需要对系统进行全方位的监控;如在物理层需要对服务器cpu、内存各项资源使用进行监控;在数据层需要对数据库的负载等指标进行监控;在应用层需要对应用的性能和可用率进行监控。大型运维系统每分钟产生数十甚至上百条告警,其中抖动类型告警(即告警开启后短时间内关闭,如一分钟内)较多,而这大量的抖动类型告警势必会导致技术人员无法更好的关注到真在需要关注的告警。而人工配置监控阈值又存在主观性较强或无法进行动态调整等缺点,导致产生很多无效告警。
3.因此,现有技术存在缺陷,需要改进。


技术实现要素:

4.本发明的目的是克服现有技术的不足,提供一种自适应降低抖动告警的阈值推荐方法。
5.本发明的技术方案如下:提供一种自适应降低抖动告警的阈值推荐方法,包括如下步骤:步骤1:从数据库读取用户系统的存量告警数据作为原始数据,对原始数据进行预处理,对文本进行拆解,提炼出当中的具体数值,并将相同业务的数值进行整合;步骤2:将完成预处理的原始数据作为本次执行流程的告警数据信息,进行规则筛选,得出当前最优分数;步骤3:根据运维人员经验和新的业务场景对xgboost模型结构进行调整,根据规则过滤后的数据结合不需要进行调整的特征数据对模型进行训练,每次在执行xgboost模型的过程中,会进行模型分割并产生一次分割图,且根据模型评估指标auc计算并入库相应的leaf得分,记为模型训练得分;步骤4:根据模型训练分数与当前最优分数确定该模型是否达到阈值推荐要求,再判断是否满足实际业务要求,如果没达到阈值推荐要求,则不进行处理,阈值不变;如果达到阈值推荐要求,则进行步骤5;步骤5:根据历史模型分割图的分割路径与分割分数,结合本次模型分割图进行增量学习,确定最终模型分割图;步骤6:根据步骤5中所确定的最终模型分割图判断是否满足业务要求,如果不满足业务要求,则不进行处理,阈值不变;如果满足业务要求,则进行步骤7;步骤7:根据步骤5中所确定的最终模型分割图进行阈值解析,并根据分割分数和样本数量,计算阈值推荐置信度。
6.进一步地,所述步骤2的规则筛选为,根据业务规则剔除不需要进行阈值推荐的告警类别和快速生成模型无法训练的阈值推荐,规则筛选的方法包括以下分类:全为抖动告警、全不为抖动告警、以及非抖动与抖动告警重合。
7.进一步地,所述步骤3中xgboost模型的可调节模型结构包括:根据降噪率与正确率权衡评估指标、根据告警开启后到关闭所用时间权衡类别权重、以及根据告警严重级别权重样本权重。
8.进一步地,所述根据降噪率与正确率权衡评估指标采用f
β
对降噪率与正确率进行权衡,计算得出分割分数,计算公式如下:其中,f
β
为自定义f1计算公式的计算结果;β为惩罚项,当β=1时为标准的f1计算公式,当β>1时则惩罚正确率,当β<1时则惩罚降噪率;p为降噪率,r为正确率。
9.进一步地,所述步骤3中xgboost模型可替换为catboost模型或lightgbm模型。
10.进一步地,所述步骤3中的运维人员经验为根据历史信息中归类总结得出的前端提供相关的交互页面。
11.进一步地,模型分割的具体方式为:根据每一个特征对训练数据进行排序,并保存为若干个block结构,block结构的个数与特征数量相等;对每个特征从小到大进行切分,比较每次切分后的目标函数大小,选择下降最大的节点作为该特征的最优切分点;比较不同block结构最优切分点的目标函数下降值,选择下降最大的特征作为最优切分点,以此得出分割分数。
12.进一步地,所述增量学习指在设定的周期内将新的数据注入到已进行训练的模型中,使得模型进行再学习,并对数据更新入库。
13.采用上述方案,本发明可以从模型中智能提取推荐阈值,且具有充分的弹性,可根据运维人员经验和新的业务场景对模型结构进行微调,如可以根据告警严重级别、告警开启后到关闭所用的时间、更关注降噪率还是精准率对模型优化方向进行微调,亦可以根据业务场景需要适应三个或三个以上阈值指标的情况。针对告警数据随时间变化存在不稳定性的特性,通过保存最近训练模型权重,下次最新数据进行训练时直接基于历史训练模型权重进行增量学习,有效提高了阈值推荐的自适应能力。同时,本发明引入了最终是否分割机制,确保模型阈值推荐结果的可用性,保证了系统的稳定性与可靠性。
附图说明
14.图1为本发明的总体架构图。
15.图2为模型推荐模块流程图。
16.图3为模型分割图与增量学习流程图。
17.图4为分割路径二叉树图。
具体实施方式
18.以下结合附图和具体实施例,对本发明进行详细说明。
19.请参阅图1,本发明提供一种自适应降低抖动告警的阈值推荐方法,包括如下步骤:步骤1:从数据库读取用户系统的存量告警数据作为原始数据,对原始数据进行预处理,对文本进行拆解,提炼出当中的具体数值,并将相同业务的数值进行整合。原始数据为企业的系统中所接收与保存的存量告警数据,包括历史告警数据以及新产生的告警数据。
20.步骤2:将完成预处理的原始数据作为本次执行流程的告警数据信息,进行规则筛选,得出当前最优分数。每个业务的告警都可分为抖动告警或非抖动告警,通过用户定义的规则进行筛选,从而去除抖动告警,并计算产生推荐阈值和置信度。
21.步骤3:根据运维人员经验和新的业务场景对xgboost模型结构进行调整,根据规则过滤后的数据结合不需要进行调整的特征数据对模型进行训练,每次在执行xgboost模型的过程中,会进行模型分割并产生一次分割图,且根据模型评估指标auc计算并入库相应的leaf得分,记为模型训练得分。
22.运维人员经验为根据历史信息中归类总结得出的前端提供相关的交互页面。假设成功率的阈值推荐为70%,但根据历史信息所归总得出的运维人员经验认为95%的成功率作为阈值推荐的界限更可靠,则可选择不接受该阈值推荐,前端即可反馈到后端算法中。
23.模型分割的具体方式为:根据每一个特征对训练数据进行排序,并保存为若干个block结构,block结构的个数与特征数量相等;对每个特征从小到大进行切分,比较每次切分后的目标函数大小,选择下降最大的节点作为该特征的最优切分点;比较不同block结构最优切分点的目标函数下降值,选择下降最大的特征作为最优切分点,以此得出分割分数。
24.不同的用户,或者同一用户在不同时间节点、任务场景中,需要使用的各项数据、参数都有所差别,因此在执行新的业务场景时,需要用户对参数进行修改、调整,以适应推荐阈值的计算需求。
25.auc在机器学习领域中是一种模型评估指标,是roc曲线下的面积。由于roc曲线一般都处于y=x这条直线的上方,所以auc的取值范围在0.5和1之间。auc越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
26.步骤4:根据模型训练分数与当前最优分数确定该模型是否达到阈值推荐要求,再判断是否满足实际业务要求,如果没达到阈值推荐要求,则不进行处理,阈值不变;如果达到阈值推荐要求,则进行步骤5。
27.步骤5:根据历史模型分割图的分割路径与分割分数,结合本次模型分割图进行增量学习,确定最终模型分割图。增量学习指在设定的周期内将新的数据注入到已进行训练的模型中,使得模型进行再学习,并对数据更新入库。在一些实施例中,会以一周为时间周期单位,通过将新的数据注入到已训练好的模型中并运行模型,使得模型进行再学习,从而实现本次模型分割图的增量学习。
28.步骤6:根据步骤5中所确定的最终模型分割图判断是否满足业务要求,如果不满足业务要求,则不进行处理,阈值不变;如果满足业务要求,则进行步骤7。
29.步骤7:根据步骤5中所确定的最终模型分割图进行阈值解析,并根据分割分数和
样本数量,计算阈值推荐置信度。根据最终模型分割图的分割路径以及分割分数,使用xgboost模型的分位点算法进行计算,得出推荐阈值,并将推荐阈值与样本数量进行比对计算,从而确定置信度。
30.在统计学中,一个概率样本的置信区间(confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,也称为置信度。取计算得出的推荐阈值为90%,而置信水平0.95上的置信区间为(85%,95%),则真实推荐阈值有95%的几率落在85%和95%之间。反之,通过将计算得出的推荐阈值与样本数量进行比对,可以确定推荐阈值与样本中非抖动告警的数量的百分比,从而计算得出置信度。
31.本发明通过树模型,进一步地,通过xgboost模型训练告警数据,xgboost模型具有可并行处理、速度较快、可自定义优化目标与评估函数等的高度灵活性、模型推荐阈值具有业务可解释性等特点,然后从模型中智能抽取推荐规则与推荐规则权重,告警阈值的确定更具智能性与可迁移性。同时,本发明可以保存模型历史推荐规则权重,所选的基本策略为:为越近时间的模型推荐规则权重赋予更大的权重,然后通过增量学习等技术进行动态阈值调整,有效提高了阈值推荐的自适应能力。
32.请参阅图2,阈值推荐模型的整体流程如下:规则筛选:根据业务规则,剔除不需要进行阈值推荐的告警类别和快速生成模型无法训练的阈值推荐,规则筛选的方法包括以下分类:全为抖动告警:将抖动告警全部去除,产生阈值与置信度;全部为抖动告警:不进行处理,阈值不变;非抖动与抖动告警重合,且比例为1:2:将抖动告警全部去除,产生阈值与置信度。
33.树模型训练:xgboost模型相比传统人工确定阈值规则,具有以下有点:正则化项防止过拟合,提高阈值规则的适用性;阈值规则具有可解释性,可根据权重、覆盖、增益衡量特征重要性;xgboost模型不仅使用到了一阶导数,还使用二阶导数,损失更精确;考虑了训练数据为稀疏值的情况,可以为缺失值或者指定的值指定分支的默认方向,这能大大提升算法的效率;支持列抽样,不仅能降低过拟合,还能减少计算;工程优化,并行列块设计、缓存访问、核外快计算等提高了算法效率与磁盘吞吐量。
34.根据运维人员经验和新的业务场景对模型结构进行微调,根据规则过滤后的数据和其他特征数据训练模型;本发明选择的可调节模型结构有:1.根据降噪率与正确率权衡评估指标:在一些应用中,对查准率和查全率的重视程度有所不同。例如,在商品推荐系统中,为了尽可能少打扰用户,更希望推荐内容是用户感兴趣的,此时查准率更重要;而在逃犯信息检索系统中,更需要尽可能避免遗漏,为此查全率更重要。评估指标f
β
考虑到二者直接的关系,故采用f
β
对降噪率与正确率进行权衡,计算公式如下:
其中,f
β
为自定义f1计算公式的计算结果;β为惩罚项,当β=1时为标准的f1计算公式,当β>1时则惩罚正确率,当β<1时则惩罚降噪率;p为降噪率,r为正确率。
35.其中,β>0,度量了查全率对查准率的相对重要性,β=1时为标准的f1;β>1时查全率有更大的影响;β<1时查准率有更大影响。通过计算出评估指标f
β
,从而得出当前模型分割图的分割分数。
36.2.根据告警开启后到关闭所用时间权衡类别权重。
37.3.根据告警严重级别权重样本权重。
38.最优分数的判别,通过对模型训练分数与当前分数进行比较,从而确保模型训练结果不差于之前人工阈值推荐的结果。
39.在一些实施例中,还可以使用catboost或lightgbm等树模型代替xgboost模型进行计算,亦或者可以通过逻辑斯蒂回归或支持向量机通过下面的方式间接计算推荐阈值,以支持向量机为例,计算方式如下:1.指定支持向量机的核函数为线性核函数;2.训练支持向量机模型,得到支持向量机线性核函数的解释变量系数与截距项;3.在线性核函数上进行贝叶斯搜索,得到最优的点将线性核函数分解为一条与x轴垂直的水平线a与一条与y轴垂直的水平线y;4.得到的线a、b即为推荐的可选阈值(三维及三维以上情况类似)。
40.请参阅图3,模型分割模块与增量学习的具体流程如下:1.从树模型中抽取所有分割路径与分割分数,如下表所示:使用二叉树表示,如图4所示。
41.2.保存本次模型分割路径与分割分数,并根据分割分数与历史权重;合并历史与当前分割路径;3.根据分割路径与分割分数确定阈值解析结果;4.根据分割分数与样本数量确定置信度。
42.所述步骤3中xgboost模型的可调节模型结构包括:根据降噪率与正确率权衡评估指标、根据告警开启后到关闭所用时间权衡类别权重、以及根据告警严重级别权重样本权重。
43.综上所述,本发明可以从模型中智能提取推荐阈值,且具有充分的弹性,可根据运
维人员经验和新的业务场景对模型结构进行微调,如可以根据告警严重级别、告警开启后到关闭所用的时间、更关注降噪率还是精准率对模型优化方向进行微调,亦可以根据业务场景需要适应三个或三个以上阈值指标的情况。针对告警数据随时间变化存在不稳定性的特性,通过保存最近训练模型权重,下次最新数据进行训练时直接基于历史训练模型权重进行增量学习,有效提高了阈值推荐的自适应能力。同时,本发明引入了最终是否分割机制,确保模型阈值推荐结果的可用性,保证了系统的稳定性与可靠性。
44.以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1