一种IT系统运维大数据的智能故障预警系统的制作方法

文档序号:22245188发布日期:2020-09-15 20:02阅读:193来源:国知局
一种IT系统运维大数据的智能故障预警系统的制作方法

本发明涉及大数据it运维技术领域,具体涉及一种it系统运维大数据的智能故障预警系统。将机器学习技术应用于运维监控领域,利用现有的大数据经过机器学习成功预判故障,实现智能故障预警的功能,有效实现在线监控,全维度监控,延迟监控等故障预警。



背景技术:

早期的运维工作大部分是由运维人员手工完成的,这被称为手工运维或人肉运维。这种落后的生产方式在互联网业务快速扩张、人力成本高企的时代,难以维系。自动化运维因此应运而生。用可被自动化触发、预定义规则的脚本,来执行常见的、重复性的运维工作,从而减少人力成本,提供运维效率。总的来说,自动化运维可认为一种基于行业领域知识和运维场景领域知识的专家系统。随着企业业务膨胀以及服务类型的复杂多样,基于人为指定规则的专家系统也变得力不从心。自动化运维的不足,日益凸显,这也为智能运维带来发展机遇。

2016年,gartner针对it发展和运维管理的困境,提出了一种全新的运维管理方法以减轻企业it的负担,提升管理效率,该方法简称aiops。aiops(artificialintelligenceforitoperations)将人工智能应用于运维领域。区别于传统的人工运维和自动化运维,该方法通过基于运维大数据的机器学习训练出分类模型,用智能决策逐步取代人工决策、提升it管理效率。因此、国内业务运维企业把aiops称为智能运维。gartner预测到2022年,aiops的采用率将会达到50%。目前aiops在国内外领先的互联网企业开始逐渐被应用,也是近年来国内外普遍被看好的新技术。

智能运维不依赖人为制定规则,主张由机器学习算法自动地从海量运维数据中不断地学习,不断地提炼并总结规则。智能运维在自动化运维的基础上,增加了一个基于机器学习的大脑,智慧监测系统采集大脑决策所需的数据,做出分析、决策,并指挥自动化脚本去执行大脑的决策,从而达到运维系统的整体目标。

在当前日常运维过程中,只有告警信息和数量的统计,无法看到业务系统及相关支撑资源的健康度全貌,运维人员往往只能从一个具体的故障去尝试排错,影响了故障处理时效往往导致业务系统恢复的时间难以保证。同时,运维人员只有借助当前告警事件一类指标,而无法利用历史指标数据有效进行预判,提前进行问题的处理。目前因前期未干预而发展成故障并影响到业务运行的事件,每年超过一百起。



技术实现要素:

本发明旨在提供一种具有实时数据的采集能力,数据的汇聚、分析能力,辅助决策能力和自主学习能力的it运维大数据的智能故障预警系统。该系统能够将ai和各种运维故障场景结合起来,通过拐点匹配提前对可能出现的故障进行预警实现主动监控并决策。

本发明提供的智能故障预警系统具体实现为:

一种it系统运维大数据的智能故障预警系统,该系统包括:数据预处理模块,拐点预计模块,预警模型训练模块,以及故障识别预警模块。其中、数据预处理模块用于分别对收集的不同故障场景的历史指标数据进行预处理,以供后续机器学习使用;拐点预计模块,用于根据数据预处理模块处理后的数据统计极值、预计出拐点;预警模型训练模块,采用机器学习方法训练相应的故障识别模型,用该故障识别模型对实时采集对应于该故障场景的运维数据进行故障识别;同时采用所述预计出的拐点进行匹配以提前预警可能出现的故障。优先地、所述机器学习方法为最小二乘法支持向量机lssvm。所述采用所述预计出的拐点进行匹配以提前预警可能出现的故障,具体为:当所述预测结果为无故障时,进一步采用所述预计出拐点对相应的运维数据进行匹配、当匹配到拐点时向用户预警,提示可能出现故障风险。

进一步地、所述系统还包括运维数据监测模块,用于实时采集计算机系统的运行数据、并根据所述不同故障场景预测所需要的数据进行分组、对分组得到的各组数据存储到运维日志中,同时、所述各组数据进行预处理后采用对应故障场景的故障识别模型进行识别,同时采用所述预计出的拐点进行匹配以提前预警可能出现的故障。

进一步地、本发明提供的智能故障预警系统还设置有数据清洗模块;所述数据清洗模块,用于在对所述历史指标数据进行预处理前清洗数据、选用不同数据组合对各种故障场景进行画像以及人工标注,对所述选用的不同数据组合中的数据进行格式化、规整化。

相应地、本发明还提供一种it系统运维大数据的智能故障预警方法,该方法包括:分别对收集的不同故障场景历史指标数据进行预处理后统计极值、预计出拐点;采用机器学习的方法训练相应的故障识别模型,用该故障识别模型对实时采集对应于该故障场景的运维数据进行故障识别;同时采用所述预计出的拐点进行匹配以提前预警可能出现的故障。优选地、所述机器学习方法为最小二乘法支持向量机lssvm。

本发明实施例的有益效果在于:本发明提供的方案将ai技术引入运维领域,自动实现计算机系统故障的实时快速识别和预警,大大降低人工成本,提高了故障处理的效率,有力保障各项业务持续、健康、快速发展。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的智能故障预警系统中的故障识别模型的产生流程图。

图2是本发明提供的智能故障预警系统进行故障预警的流程图。

具体实施方式

以下各实施例的说明是参考附图,用以示例本发明可以用以实施的特定实施例。

以下参照图1所示,本发明提供的一种it系统运维大数据的智能故障预警系统,该系统包括:数据预处理模块,拐点预计模块,预警模型训练模块,以及故障识别预警模块。其中、数据预处理模块用于分别对收集的不同故障场景的历史指标数据进行预处理,以供后续机器学习使用;拐点预计模块,用于根据数据预处理模块处理后的数据统计极值、预计出拐点;故障识别模型训练模块,采用机器学习方法训练相应的故障识别模型,用该故障识别模型对实时采集对应于该故障场景的运维数据进行故障识别;同时采用所述预计出的拐点进行匹配以提前预警可能出现的故障。

传统的运维为智能化运维积累了大量的性能指标、故障表现特征、告警阈值,故障解决方法等运维数据,这些数据可以从历史记录工单或者运行日志信息中获取。这些海量数据作为大数据供智能故障预警打下坚实基础。预测/识别具体故障的指标可以从传统的故障运维数据中获取。

设置数据清洗模块对这些积累下来运维数据进行清洗,补充遗漏的数据项、去除噪声或者错误失真的数据项。数据清洗可以采用本领域现有的任何技术手段。数据预处理模块基于数据清洗模块的输出、选用不同数据组合(即故障指标)对以往运维过程中出现的各种故障场景进行画像以及人工标注,对所述选用的不同数据组合中的数据进行格式化、规整化以供后续机器学习使用。例如、选用页面访问量,服务器cpu,服务器内存,服务器网卡流量,服务器磁盘i/o,sql语句执行时间,发送字节数,接收字节数,客户端处理时间,服务器应答等待时间这些指标来预测/识别用户访问服务器响应卡顿的故障。

为了实现根据准确预测事物发展的转折点,以提前对可能产生的故障进行预警,本发明提供的系统还额外设置拐点预计模块,用于根据数据预处理模块处理后的数据统计极值、预计出拐点。

具体地、在数据预处理方面、针对数据的多样性每个场景的智能故障预警采用的数据都有区别,使得针对某个故障场景的数据组合变成了多项式函数,对于一个多项式函数的多个取值点可以写成如下的矩阵形式:

即ab=y

其中、a中任一行向量代表对于该故障场景的画像特征,y中对应该行向量的元素代表出现该画像特征时,是否产生对应的故障。对于上述预测/识别用户访问服务器响应卡顿的故障的例子,则ti1-tiq代表在i时间点页面访问量,服务器cpu,服务器内存,服务器网卡流量,服务器磁盘i/o,sql语句执行时间,发送字节数,接收字节数,客户端处理时间,服务器应答等待时间等指标值的预处理后数值;b0-bq是满足该方程的参数,yi表示在i时间点是否造成用户访问服务器响应卡顿的故障。

即我们要到这么一组解b使得满足下列条件:

通过以上方法的数据预处理得到拟合曲线。根据曲线拟合的结果得到极值。预计拐点所采用的方法可以是机器学习常见的拐点分析方法。

所述预警模型训练模块,采用机器学习方法训练相应的故障识别模型,后续用该故障识别模型对实时采集对应于该故障场景的运维数据进行故障识别;同时采用所述预计出的拐点进行匹配以提前预警可能出现的故障。所述机器学习方法为最小二乘法支持向量机lssvm。即在数据预处理后还提供给机器学习采用最小二乘法的方式进行参数学习和预测,得到初步的预测结果。其中预测方法采用支持向量机(supportvectormachine,svm)方法以解决小样本、非线性及高维模式识别的数据预测情况,有效解决故障预测的函数拟合等机器学习问题。所述采用机器学习的方法训练相应的故障识别模型,包括:将对于特定故障场景的、一定量的正、负样本采用最小二乘法支持向量机lssvm进行训练;并对训练出的分类模型采用人工标注的测试样本进行测试,当测试结果出现与标注信息不同时调整所述分类模型的参数、直到精准率、召回率满足设计要求后作为该故障场景的故障识别模型。

本发明实施例提供的系统在采用训练好的故障识别模型后,结合预计出的拐点对实时采集的it系统运维数据进行故障识别和预警。在本发明的机器学习中,采用支持向量机(svm),分析数据,识别模式,分类和回归分析从而预测故障的出现。

具体地、所述智能故障预警系统还包括运维数据监测模块,用于实时采集计it系统的运行数据。

本发明实施例二提供的智能故障预警系统进行故障预警的流程图,如图2所示,所述数据预处理模块根据所述不同故障场景预测所需要的数据进行分组、对分组得到的各组数据存储到运维日志中。所述各组数据进行预处理后采用对应故障场景的故障识别模型进行识别,同时采用所述预计出的拐点进行匹配以提前预警可能出现的故障。具体为:上述故障识别模型识别结果为产生具体故障时,无需对实时监测到运维数据进行拐点匹配;否则、采用所述预计出拐点与当前的识别的运维数据进行匹配、当匹配到拐点时向用户预警,提示可能出现故障风险。

相应地、本发明还提供一种it系统运维大数据的智能故障预警方法,该方法包括:分别对收集的不同故障场景历史指标数据进行预处理后统计极值、预计出拐点;采用机器学习的方法训练相应的故障识别模型,用该故障识别模型对实时采集对应于该故障场景的运维数据进行故障识别;同时采用所述预计出的拐点进行匹配以提前预警可能出现的故障。优选地、所述机器学习方法为最小二乘法支持向量机lssvm。该方法具体的实现过程与上述智能故障预警系统的细节对应。

本发明实施例提供的方案将ai技术引入运维领域,自动实现计算机系统故障的实时快速识别和预警,大大降低人工成本,提高了故障处理的效率,有力保障各项业务持续、健康、快速发展。

有关本实施例的工作原理以及所带来的有益效果请参照本发明实施例一的说明,此处不再赘述。

以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1