一种基于多源异构数据融合的信息系统性能立体监测方法与流程

文档序号:17475426发布日期:2019-04-20 06:05阅读:207来源:国知局
一种基于多源异构数据融合的信息系统性能立体监测方法与流程

本发明涉及态势感知及性能监测领域,具体涉及一种基于多源异构数据融合的信息系统性能立体监测方法。



背景技术:

随着信息系统建设规模的不断扩大、技术难度和密集程度不断提升、云计算、大数据等新技术不断创新和应用、信息化架构面临深刻变革,信息系统运行监控工作面临巨大挑战。在业务依赖加深、管理要求提升、技术更新迭代、运行成本攀升等形式下,当前的信息系统运行监控工具的支撑能力亟需进行质的提升,如何快速、准确的识别潜在风险是当下迫切需要解决的问题。



技术实现要素:

本发明的目的在于提供一种基于多源异构数据融合的信息系统性能立体监测方法,通过多元化信息系统性能数据采集平台实现信息系统性能的多方位监测。

为实现上述目的,本发明采用了以下技术方案:

一种基于多源异构数据融合的信息系统性能立体监测方法,包括以下步骤:

(1)采集信息系统的性能指标监测数据;

(2)将获取的多源异构指标数据进行数据融合处理;

(3)将融合处理后的指标数据通过信息系统性能评价模型检测各性能指标数据的异常信息,并对异常信息进行故障根因定位;

(4)对各指标的下一时刻数据值做出预测,提前感知系统的性能态势;

(5)将故障信息接入告警平台并统一格式化处理,然后通过关联挖掘策略对告警信息进行同类挖掘、合并压缩,最后将压缩后的告警信息发送给相关人员处理。

上述方案中,所述性能指标包括基础资源型指标、网络性能指标、应用性能指标等。

上述方案中,所述基础资源型指标包括cpu占比、内存占比等;所述网络性能指标包括网络吞吐量、网络延时及连接建立时间等;所述应用性能指标包括并发连接数、应用响应时间及服务端重置率等。

上述方案中,所述步骤(2)中,将获取的性能指标进行数据融合处理,具体步骤如下:

(1)统一格式化处理:对多源异构数据进行统一数据标识和统一存储格式;

(2)数据值处理:包括缺失值填充和异常值检测、处理;

(3)数据脱敏和存储:包括对数据进行脱敏处理和数据分类存储。

上述方案中,所述步骤(3),信息系统性能评价模型包括异常检测模块和故障定位模块,所述异常检测模块,用于自动检测各性能指标的异常情况,若出现指标异常则提交给故障定位模块进行故障根因识别;所述故障定位模块,用于根据指标与事件间的关联关系,进行因果推导,并最终锁定疑似根因事件位置。

上述方案中,步骤(3)中,所述检测各性能指标数据的异常信息包括固定阈值检测法和动态阈值检测法;

所述固定阈值检测法用于波动平稳的普通指标数据,通过在服务器端设定合适范围的恒定阈值,若当前指标数据值超过该阈值范围,则视为出现异常;

所述动态阈值检测法,用于具有明显趋势性、周期性的指标的数据,通过采用指数平滑法学习数据原本的趋势性,再将性能指标的时间序列数据按天进行分段,并设定动态时间窗口,然后将不同周期中同一时间窗口的数据视为服从正态分布,再按3σ原则对不同时间窗口的数据设定不同的动态阈值。

进一步的,所述故障定位模块包括关联分析子模块和故障诊断树子模块;

所述关联分析子模块,用于挖掘与异常指标相关联的其他指标和事件,挖掘出的事件集合中往往包含导致指标异常的根因事件,进而辅助问题定位;

所述故障诊断树子模块,用于根据以往对异常指标逐层诊断、逐级探查问题根因的知识经验所形成的故障诊断树,对当前异常指标的疑似根因进行深层挖掘并最终锁定。

上述方案中,步骤(4)中,所述对各指标的下一时刻数据值做出预测通过指标数据预测模型进行预测,具体包括以下步骤:

(41)利用arima模型对序列数据建模,获取其线性成分的预测值;

(42)利用lstm模型对其建模,获取非线性成分的预测值;

(43)将arima模型的预测值和非线性成分的预测值进行相加得到最终预测结果。1

由上述技术方案可知,本发明通过多元化信息系统性能数据采集平台采集信息系统不同类型和不同维度的性能指标数据,实现多方位实时监测。对采集到的多源异构数据进行数据融合处理,包括数据统一格式化处理、缺失值、异常值的检测和处理、数据脱敏和存储处理,为保障后续有效的数据处理和结果精度提供支撑。获得有效数据后,通过信息系统性能评价模型自动检测性能指标数据的异常信息并对其进行根因定位,再将疑似根因的故障信息提交到智能告警平台,由告警平台对故障信息进行合并压缩后发送给相关处理人员。同时对各性能指标的下一时刻数据值进行预测,从而提前感知性能态势。由前期的多方位数据采集、多源异构数据融合,到后期的数据异常检测、根因定位、智能告警以及性能态势的提前感知,整个流程构建了全方位、深层次的信息系统立体监测体系,监测范围更广、效果更佳,可适应当前大数据环境下不同应用场景的各种信息系统性能监测需求。

附图说明

图1是本发明的流程图;

图2是本发明的arima-lstm组合模型流程图。

具体实施方式

下面结合附图对本发明做进一步说明:

如图1-2所示的,本实施例的基于多源异构数据融合的信息系统性能立体监测方法,包括以下步骤:

s1:采集信息系统的性能指标监测数据;

该性能指标包括基础资源型指标、网络性能指标、应用性能指标等。该基础资源型指标包括cpu占比、内存占比等;网络性能指标包括网络吞吐量、网络延时及连接建立时间等;应用性能指标包括并发连接数、应用响应时间及服务端重置率等。

数据采集工具包括代码级服务器端性能监控工具、基于真实用户体验的浏览器性能采集工具、服务器端资源监控工具、网络性能数据采集工具以及基于模拟真实用户操作的性能采集工具。

s2:将获取的多源异构性指标数据进行数据融合处理;

为后续的数据处理提供有效的数据支撑,需要对采集到的多源异构指标数据进行数据融合处理。根据不同需求,数据融合处理的情况不同。其中,一般包括三个步骤:

s21:统一格式化处理:对多源异构数据进行统一数据标识和统一存储格式;

s22:数据值处理:包括缺失值填充和异常值检测、处理;

s23:数据脱敏和存储:包括对数据进行脱敏处理和数据分类存储。

s3:将融合处理后的指标数据通过信息系统性能评价模型检测各性能指标数据的异常信息,并对异常信息进行故障根因定位;

该信息系统性能评价模型包括异常检测模块和故障定位模块。

(1)该异常检测模块,用于自动检测各性能指标的异常情况,若出现指标异常则提交给故障定位模块进行故障根因识别;由于不同类别不同层次的性能指标数据的特征不同,数据波动情况也不同,需要设定不同方法进行检测。一般分为固定阈值检测法和动态阈值检测法。

固定阈值检测法:对于波动平稳的普通指标数据,只需在服务器端设定合适范围的恒定阈值,若当前指标数据值超过该阈值范围,则视为出现异常。固定阈值的取值可依据海量历史数据并使用统计学方法进行阈值的自动计算。该方法的基本思想是假设某指标的历史数据基本服从正态分布,则该指标数据基本分布在均值[-3σ,+3σ],偏离这个区间的概率只有0.003,则将[-3σ,+3σ]设定为固定阈值区间。其中标准差σ的计算公式为:

其中,n表示数据个数,xi为第i个数据的值,μ代表均值,σ是标准差。

动态阈值检测法:对于具有明显趋势性、周期性的指标数据,如业务层的成交量指标往往具有以天为周期的周期性和逐渐增长的趋势性,一般采用动态阈值检测法。首先可采用指数平滑法(如三次指数平滑法)学习数据原本的趋势性,再将性能指标的时间序列数据按天进行分段,并设定动态时间窗口,将不同天中同一时间窗口的数据视为服从正态分布,再按3σ原则对不同时间窗口的数据设定不同的动态阈值。

(2)该故障定位模块,用于根据指标与事件间的关联关系,进行因果推导,并最终锁定疑似根因事件位置,从而达到服务高可用性的目标。

为实现这一目标,故障定位模块包含两个子模块,即关联分析子模块和故障诊断树子模块。该关联分析子模块负责挖掘与异常指标相关联的其他指标和事件,进行辅助问题定位,一般可将一些基础的关联关系配置到监控系统中,如模块a的异常必然导致模块b发生异常、某服务器或代码的变更会导致某数据中心或交换机的异常等。再通过事件与事件的关联挖掘方法进行关联分析,如先构建统一事件库,该事件库包含出现过的所有运维事件。当出现某指标异常事件时,在统一事件库中进行频繁项集挖掘,往往挖掘出的频繁项集事件包含导致指标异常的根因事件。

故障诊断树子模块,用于逐级探查、深层挖掘问题根因,并最终锁定。故障诊断树由知识库(领域专家知识)和推理机(逻辑推导引擎)组成,知识库中存储着运维人员的经验知识,通过不同层次指标的分析方向和下探方法形成树状结构,推理机则可采用机器学习中的二叉决策树算法,从树上某个节点进行逐级探查,并最终锁定问题根因。成功找出根因后,再将这条故障追踪列表加入知识库,不断丰富知识库的经验知识。

s4:对各指标的下一时刻数据值做出预测,提前感知系统的性能态势;

指标数据的预测模型可采用arima-lstm组合模型,将某性能指标的历史数据看作一个时间序列数据,先以arima模型过滤历史数据中的线性趋势,再将残差传给lstm模型以提取数据中的非线性特征,最后将两者的结果叠加得到最终预测结果。相比于单一模型,arima-lstm组合模型的拟合效果更好。

如图2所示,假设序列数据yt可由公式1表示:

yt=lt+nt(2)

其中,lt描述序列数据中的线性成分,nt代表序列数据中的非线性成分。则组合模型建模的方法为:

s41:先利用arima模型对序列数据建模,获取其线性成分的预测值。非线性成分则包含在残差中。其数学表达如下:

其中,et表示包含非线性成分的残差,为arima模型的预测值。

s42:得到残差et后,利用lstm模型对其建模,获取非线性成分的预测值,其数学表达如下:

其中,f(·)表示lstm模型建立的关系函数,εt表示随机误差。

s43:最后,将相加得到最终预测结果,即:

其中,表示非线性成分的预测值。

s5:将故障信息接入告警平台并统一格式化处理,然后通过关联挖掘策略对告警信息进行同类挖掘、合并压缩,最后将压缩后的告警信息发送给相关人员处理。

告警平台首先对传入的告警信息进行统一格式化处理,再将同类告警信息进行合并压缩,以避免告警风暴的繁杂通告给运维人员带来困扰,漏掉重要告警。合并压缩告警一般采用固定时间窗口策略,将时间相近的告警信息进行合并发送,或采用固定监控对象策略,即将相同监控对象的告警进行合并发送。本发明采用关联挖掘策略,将当前告警与历史运维告警进行关联挖掘,如将置信度较高的频繁项集进行合并发送,认为它们是同一类告警。发送通知的方式包括电话、短信、微信等,并将告警严重等级进行通知,如一般告警可通过短信、微信进行通知,而严重告警则直接电话通知,短信附上详情。为了防止负责某告警信息一直无人处理,可按相关处理人员级别进行多级通知,如当级处理人员未处理时间超时,则立即通知上一级处理人员,以此类推,直至告警信息已处理。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1