一种直观的网络及业务系统运行状态展现方法及系统与流程

文档序号:14952998发布日期:2018-07-17 22:58阅读:175来源:国知局

本发明涉及运维管理技术领域,尤其涉及一种直观的网络及业务系统运行状态展现方法及系统。



背景技术:

在现代it运维体系中,普遍采用告警机制进行状态管理,告警机制基于预定的阈值,定期采集指标并通过算法与阈值进行对比分析,对于不满足既定阈值的指标进行警告,从而达到监控运维对象运行状态,反馈运维对象的变化异常的目的。告警方式一定程度上能够保证运维对象的稳定运行,满足管理需求。

随着网络规模的扩大,业务环境的日益复杂,各类运维管理对象的指标不尽相同,主机、链路、业务及业务依赖的数据库、中间件等运维对象会产生大量的告警信息,告警本身可以帮助运维管理人员了解运维对象出现的异常,但是海量的告警信息会大大降低运维人员的体验和效率,无法明确的了解定位到底出现了什么问题。而且单一的指标告警缺乏业务视角关联,无法通过告警数据整体性的反映运维对象的运行状态。



技术实现要素:

鉴于目前存在的上述不足,本发明提供一种直观的网络及业务系统运行状态展现方法及系统,能够将多种指标抽象为独特的特征牌,为指标创建业务关联,以一种更直观更动态的展现方式,对运维对象进行监控和管理,不仅增强了可视化的效果,也提高了工作效率。

为达到上述目的,本发明的实施例采用如下技术方案:

一种直观的网络及业务系统运行状态展现方法,所述直观的网络及业务系统运行状态展现方法包括以下步骤:

为运维对象创建抽象运维对象指标的分析模型;

基于经验对不同的对象进行挂牌阈值定义;

采集模型定义的各类指标进行挂撤牌分析;

根据分析结果进行相应的挂撤牌操作。

依照本发明的一个方面,所述为运维对象创建抽象运维对象指标的分析模型包括:构建了包括性能、可用、在用、安全、合规的五种模型,模型组成包括指标、阈值和权重。

具体可包括为各类运维对象定义性能、可用、在用、安全和合规模型,整理分类运维对象各类指标;各模型的定义方式如下:

(1)性能模型-卡:整理运维对象的指标中与性能相关的指标,对于主机类主要涉及设备计算、网络性能、对于业务类主要涉及业务访问、并发性能。

(2)可用模型-断:整理运维对象的指标中与状态相关的指标,对于主机类主要涉及设备运行状态、采集状态等、对于业务类主要涉及业务运行状态、业务访问状态等。

(3)在用模型-闲:在用模型与性能模型较为接近,对于主机类主要涉及计算、网络负载、对于业务类主要涉及业务访问、并发负载。

(4)安全模型-危:整理运维对象的指标中与状态相关的指标,如防火墙状态、杀毒软件状态等;整理运维对象网络异常事件,如arp攻击、dos拒绝服务等;整理业务的异常事件,如越权访问、违规服务等。

(5)合规模型-乱:深入运维对象的流量指标统计,分析流量规律,整理不符合规律的网络行为,包括ip异常、流量异常等。

依照本发明的一个方面,所述指标、阈值和权重如下所示:

指标:包括挂牌指标和快照指标,挂牌指标参与挂牌计算、快照指标记录详细信息并可向挂牌指标转化;

阈值:包括挂牌阈值和预挂牌阈值,挂牌阈值判断挂牌越限条件、预挂牌阈值辅助分析是否符合挂牌条件;

权重:根据指标的重要性排序,影响大的指标权重高,影响小的指标权重小。

依照本发明的一个方面,所述分析模型的算法为:

[w1*(t1/d1)+w2*(t2/d2)+…+wn(tn/dn)]/n>d

其中w代表指标权重,t1~tn代表指标的实际值,d1~dn代表指标的挂牌阈值,d代表对象总挂牌阈值。

依照本发明的一个方面,所述采集模型定义的各类指标进行挂撤牌运算包括:采用基于最近历史权重的方式进行挂撤牌分析,结合了历史和权重两种分析方式,根据不同的历史数据,合理分析真实的运行状态。

依照本发明的一个方面,所述最近历史权重方式的算法如下:

[w1*s1+w2*s2+…+wn*sn]/n>d(w1>w2>…>wn)

其中w代表历史权重,且时间从近到远的顺序按从大到小分布,s代表连续历史时间点的实际计算值,d根据需要分别为对象挂牌阈值或预挂牌阈值。

依照本发明的一个方面,所述基于经验对不同的对象进行挂牌阈值定义包括:进行挂牌阈值和预挂牌阈值的定义,默认预挂牌条件是挂牌条件的百分比递减。

依照本发明的一个方面,所述采集模型定义的各类指标进行挂撤牌分析包括:结合指标权重、历史权重,通过算法分析是否符合挂牌条件,若条件符合,挂牌;若条件不符合,计入下次挂牌运算的前置条件。

依照本发明的一个方面,所述根据分析结果进行相应的挂撤牌操作包括:若指标计算值满足挂牌阈值且最近历史低于预挂牌阈值,直接予以挂牌;若指标计算值满足预挂牌阈值且最近历史高于预挂牌阈值,则判断连续出现统计指标高于挂牌阈值或满足指定次数后予以挂牌;挂牌后若指标计算值连续若干次低于挂牌阈值,进行撤牌;其他情况不予处理。

依照本发明的一个方面,所述根据分析结果进行相应的挂撤牌操作包括:本次统计低于挂牌阈值,连续计数置0;若本次统计低于预挂牌阈值,次数计数置0。

依照本发明的一个方面,所述根据分析结果进行相应的挂撤牌操作包括:计算本次统计状态,若对象当前有挂牌,则判断本次统计是否低于挂牌阈值;若本次统计低于挂牌阈值,连续计数自增1,若后续出现大于挂牌阈值的情况,则连续计数置0;当后续出现连续n次(n<5)小于挂牌阈值的情况,则撤牌。

依照本发明的一个方面,所述直观的网络及业务系统运行状态展现方法包括:实时收集挂撤牌信息形成状态知识库。

依照本发明的一个方面,所述直观的网络及业务系统运行状态展现方法包括:根据对状态知识库的分析,实现模型中指标、阈值和权值的个性化调整。

一种直观的网络及业务系统运行状态展现系统,所述展现系统包括:

模型模块,用于为运维对象创建抽象运维对象指标的分析模型;

阈值模块,用于基于经验对不同的对象进行挂牌阈值定义;

分析模块,用于采集模型定义的各类指标进行挂撤牌分析;

挂撤牌模块,用于根据分析结果进行相应的挂撤牌操作。

依照本发明的一个方面,所述展现系统包括:状态调整模块,用于实时收集挂撤牌信息形成状态知识库,及根据对状态知识库的分析,实现模型中指标、阈值和权值的个性化调整。

本发明实施的优点:本发明所述的直观的网络及业务系统运行状态展现方法,包括以下步骤:为运维对象创建抽象运维对象指标的分析模型;基于经验对不同的对象进行挂牌阈值定义;采集模型定义的各类指标进行挂撤牌分析;根据分析结果进行相应的挂撤牌操作;将多种指标抽象为独特的特征牌,为指标创建业务关联,以一种更直观更动态的展现方式,对运维对象进行监控和管理,包括网络、链路、业务、主机、数据库、中间件等对象,不仅增强了可视化的效果,也提高了工作效率;通过挂牌的技术手段,合理的建立运行状态模型,分析运维对象的运行情况,减少运维人员的告警学习处理成本,提升对运行状态的理解,提高运维的效率和体验。挂牌技术为运维对象的不同运行状态建立了模型,包括性能、可用、在用、安全和合规等,在模型中关联不同的指标、阈值和算法,当挂牌的条件被触发后,对运维对象进行挂牌,直观反映运维对象当前的多种运行状态,帮助运维人员快速定位运维对象异常分析的方向或原因,减少分析时间,提升效率。挂牌技术作为一项改进性的技术,区别于单一维度的指标告警,采用模型化的方案定义运维对象的运行状态,提供业务视角的管理方案,减少运维人员单个指标的学习成本,提高整体业务化理解,便于运维人员定位和排查问题。

具体表现在以下几个方面:

1、模型的分类和构建;本方法对运维对象的各类指标、数据进行了分类关联,赋予了指标业务意义,并根据历史经验定义了各指标的计算权值,形成完整的业务模型,有效的描述了运维对象的真实运行情况,并其适用于同类对象的扩展。

2、抽象化状态描述;本方法重点突出了性能、在用、可用、安全和合规等运行状态,区别于告警仅单一的对指标进行监测和越限提示,从业务的角度大大增强了关联性,充分提高了运维人员对运行状态的理解,降低对运维内容的学习成本。

3、挂撤牌合理分析;本方法采用了基于最近历史权重的方式进行挂撤牌分析,不仅着眼于一个时间点的运行状态情况,还有效的整合了历史信息,能客观的反映运维对象的整体运行状态,并通过挂撤牌方式进行管理提示。

4、多状态展现;本方法支持同时展现多种运行状态,部分运行状态互斥,但大部分运行状态可以共存,可以有效直观的反映运维对象的真实运行情况,将运维人员从繁琐的指标告警中解放出来,提升业务理解,提高运维效率。

5、个性化调整;本方法的挂撤牌信息形成状态知识库,采用机器学习的方法分析各运维对象的信息,形成规律性、有意义的知识,用以优化对象的挂牌和预挂牌阈值,调整算法权重,推动挂牌模型的个性化调整,提高挂撤牌的准确性和专业程度。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一所述的一种直观的网络及业务系统运行状态展现方法示意图;

图2为本发明所述的基于最近历史权重的挂牌分析流程图;

图3为本发明实施例二所述的一种直观的网络及业务系统运行状态展现方法示意图;

图4为本发明所述的挂牌知识分析影响模型个性化的示意图;

图5为本发明实施例三所述的直观的网络及业务系统运行状态展现系统结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

如图1和图2所示,一种直观的网络及业务系统运行状态展现方法,所述直观的网络及业务系统运行状态展现方法包括以下步骤:

步骤s1:为运维对象创建抽象运维对象指标的分析模型;

所述步骤s1为运维对象创建抽象运维对象指标的分析模型的具体实施方式包括:构建了包括性能、可用、在用、安全、合规的五种模型,模型组成包括指标、阈值和权重。

其中,所述指标、阈值和权重如下所示:

指标:包括挂牌指标和快照指标,挂牌指标参与挂牌计算、快照指标记录详细信息并可向挂牌指标转化;

阈值:包括挂牌阈值和预挂牌阈值,挂牌阈值判断挂牌越限条件、预挂牌阈值辅助分析是否符合挂牌条件;

权重:根据指标的重要性排序,影响大的指标权重高,影响小的指标权重小。

所述分析模型的算法为:

[w1*(t1/d1)+w2*(t2/d2)+…+wn(tn/dn)]/n>d

其中w代表指标权重,t1~tn代表指标的实际值,d1~dn代表指标的挂牌阈值,d代表对象总挂牌阈值。

在实际应用中,为各类运维对象定义性能、可用、在用、安全和合规模型,整理分类运维对象各类指标,定义挂牌阈值和预挂牌阈值,并按不同的权重有机组合,构建描述运行状态的关联关系,各模型的定义方式如下:

(1)性能模型-卡:整理运维对象的指标中与性能相关的指标,对于主机类主要涉及设备计算、网络性能、对于业务类主要涉及业务访问、并发性能。根据历史经验对各指标制定挂牌阈值和预挂牌阈值,并按指标的重要程度进行权重划分。若各指标的计算结果大于制定挂牌条件,则进行挂牌,以下公式可简单说明:

[w1*(t1/d1)+w2*(t2/d2)+…+wn(tn/dn)]/n>d

其中w代表指标权重,t1~tn代表指标的实际值,d1~dn代表指标的挂牌阈值,d代表对象总挂牌阈值。算法目的是将多个性能指标抽象为对象运行性能状态。

(2)可用模型-断:整理运维对象的指标中与状态相关的指标,对于主机类主要涉及设备运行状态、采集状态等、对于业务类主要涉及业务运行状态、业务访问状态等。

(3)在用模型-闲:在用模型与性能模型较为接近,对于主机类主要涉及计算、网络负载、对于业务类主要涉及业务访问、并发负载。

(4)安全模型-危:整理运维对象的指标中与状态相关的指标,如防火墙状态、杀毒软件状态等;整理运维对象网络异常事件,如arp攻击、dos拒绝服务等;整理业务的异常事件,如越权访问、违规服务等。

(5)合规模型-乱:深入运维对象的流量指标统计,分析流量规律,整理不符合规律的网络行为,包括ip异常、流量异常等。

在实际应用中,所述分析模型可包括:

为各类运维对象定义性能、可用、在用、安全和合规模型,整理分类运维对象各类指标,定义挂牌阈值和预挂牌阈值,并按不同的权重有机组合,构建描述运行状态的关联关系。

设备卡模型包括cpu使用率、内存使用率、空间使用率、磁盘io速率、带宽使用率、进程数量等挂牌指标;断模型包括运行状态、连续运行时长、采集状态、中断事件等挂牌指标;闲模型包括cpu使用率、内存使用率、空间使用率、磁盘io速率、带宽使用率、进程数量等挂牌指标;乱模型包括ip波动、流量波动、网络丢包等挂牌指标;危模型包括主机安全事件、网络安全事件、文件异常变更、防火墙异常、杀毒软件状态等挂牌指标。

业务卡模型包括访问人数、访问流量、访问时延等挂牌指标;断模型包括运行状态、连续运行时长、接口状态、采集状态等挂牌指标;闲模型包括访问人数、访问流量、访问时延等挂牌指标;乱模型包括ip波动、访问流量波动、接口流量波动等挂牌指标;危模型包括业务安全事件、网络安全事件等挂牌指标。

快照指标的选取无限制,旨在详细的记录挂牌的细节,具体指标可按对运维对象的理解进行添加。

步骤s2:基于经验对不同的对象进行挂牌阈值定义;

所述步骤s2基于经验对不同的对象进行挂牌阈值定义的具体实施方式包括:进行挂牌阈值和预挂牌阈值的定义,默认预挂牌条件是挂牌条件的百分比递减。挂牌阈值和预挂牌阈值根据历史运行经验进行设置,不同的模型需采用不同的阈值。权重设置同理需根据指标的重要性进行排列,并设置为不同的权重。

步骤s3:采集模型定义的各类指标进行挂撤牌分析;

所述步骤s3采集模型定义的各类指标进行挂撤牌分析的具体实施方式包括:根据模型中的指标定义进行指标采集。采集指标汇入模型,计算其统计结果是否符合挂牌阈值或预挂牌阈值。采用基于最近历史权重的方式进行挂撤牌分析,结合了历史和权重两种分析方式,根据不同的历史数据,合理分析真实的运行状态。结合指标权重、历史权重,通过算法分析是否符合挂牌条件,若条件符合,挂牌;若条件不符合,计入下次挂牌运算的前置条件。

(1)挂牌方案

首先根据模型中定义的采集频率采集各模型的数据,并使用挂牌公式计算本次统计状态是否高于挂牌阈值。若本次统计高于挂牌阈值,则再计算本次统计之前连续n次(n<10)的情况,以下公式可简单说明:

[w1*s1+w2*s2+…+wn*sn]/n>d(w1>w2>…>wn)

其中w代表历史权重,且时间从近到远的顺序按从大到小分布,s代表连续历史时间点的实际计算值,d根据需要分别为对象挂牌阈值或预挂牌阈值。

1)本次统计高于挂牌阈值且历史挂牌计算值小于预挂牌阈值,则判断该对象挂牌。

2)本次统计高于挂牌阈值且历史挂牌计算值大于预挂牌阈值,则本次不予挂牌。当后续统计连续出现统计指标高于挂牌阈值或满足指定次数后,则判断该对象挂牌。

3)本次统计低于挂牌阈值,连续计数置0;若本次统计低于预挂牌阈值,次数计数置0。

(2)撤牌方案

使用挂牌公式计算本次统计状态,若对象当前有挂牌,则判断本次统计是否低于挂牌阈值。若本次统计低于挂牌阈值,连续计数自增1,若后续出现大于挂牌阈值的情况,则连续计数置0。当后续出现连续n次(n<5)小于挂牌阈值的情况,则撤牌。

步骤s4:根据分析结果进行相应的挂撤牌操作。

所述步骤s4根据分析结果进行相应的挂撤牌操作的具体实施方式包括:

若运维对象已经挂某类型的牌,不再重复挂同类型的牌。

模型统计值大于挂牌阈值,越限连续计数自增1,越限次数计数自增1。若加权历史挂牌统计值小于预挂牌阈值,直接挂牌;若加权历史挂牌统计值大于预挂牌阈值。判断越限连续计数或越限次数计数是否满足要求,满足条件则进行挂牌,不满足条件不处理。

模型统计值大于预挂牌阈值,小于挂牌阈值,越限连续计数置0,越限计数不变。

模型统计值小于预挂牌阈值,越限连续计数置0,越限次数计数置0。

运维对象挂牌后,模型统计值低于挂牌阈值,撤牌连续计数自增1;模型统计值高于挂牌阈值,撤牌连续计数置0。当撤牌连续计数满足指定要求后,予以撤牌。

首先需定义运维对象的状态模型,包括挂牌阈值和预挂牌阈值,默认预挂牌条件是挂牌条件的百分比递减。各对象需创建卡、乱、闲、断、危五种模型并关联不同的指标并按模型进行指标采集,然后采用指标权重和历史权重对运行状态进行分析,若指标计算值满足挂牌阈值且最近历史低于预挂牌指标,直接予以挂牌;若指标计算值满足预挂牌阈值且最近历史高于预挂牌指标,则判断连续出现统计指标高于挂牌阈值或满足指定次数后予以挂牌;挂牌后若指标计算值连续若干次低于挂牌阈值,进行撤牌;其他情况不予处理。

通过模型的分类和构建,对运维对象的各类指标、数据进行了分类关联,赋予了指标业务意义,并根据历史经验定义了各指标的计算权值,形成完整的业务模型,有效的描述了运维对象的真实运行情况,并其适用于同类对象的扩展。

通过抽象化状态描述,重点突出了性能、在用、可用、安全和合规等运行状态,区别于告警仅单一的对指标进行监测和越限提示,从业务的角度大大增强了关联性,充分提高了运维人员对运行状态的理解,降低对运维内容的学习成本。

对挂撤牌的合理分析,通过采用基于最近历史权重的方式进行挂撤牌分析,不仅着眼于一个时间点的运行状态情况,还有效的整合了历史信息,能客观的反映运维对象的整体运行状态,并通过挂撤牌方式进行管理提示。

通过多状态展现,支持同时展现多种运行状态,部分运行状态互斥,但大部分运行状态可以共存,可以有效直观的反映运维对象的真实运行情况,将运维人员从繁琐的指标告警中解放出来,提升业务理解,提高运维效率。

实施例二

如图2、图3和图4所示,一种直观的网络及业务系统运行状态展现方法,所述直观的网络及业务系统运行状态展现方法包括以下步骤:

步骤s1:为运维对象创建抽象运维对象指标的分析模型;

所述步骤s1为运维对象创建抽象运维对象指标的分析模型的具体实施方式包括:构建了包括性能、可用、在用、安全、合规的五种模型,模型组成包括指标、阈值和权重。

其中,所述指标、阈值和权重如下所示:

指标:包括挂牌指标和快照指标,挂牌指标参与挂牌计算、快照指标记录详细信息并可向挂牌指标转化;

阈值:包括挂牌阈值和预挂牌阈值,挂牌阈值判断挂牌越限条件、预挂牌阈值辅助分析是否符合挂牌条件;

权重:根据指标的重要性排序,影响大的指标权重高,影响小的指标权重小。

所述分析模型的算法为:

[w1*(t1/d1)+w2*(t2/d2)+…+wn(tn/dn)]/n>d

其中w代表指标权重,t1~tn代表指标的实际值,d1~dn代表指标的挂牌阈值,d代表对象总挂牌阈值。

在实际应用中,为各类运维对象定义性能、可用、在用、安全和合规模型,整理分类运维对象各类指标,定义挂牌阈值和预挂牌阈值,并按不同的权重有机组合,构建描述运行状态的关联关系,各模型的定义方式如下:

(1)性能模型-卡:整理运维对象的指标中与性能相关的指标,对于主机类主要涉及设备计算、网络性能、对于业务类主要涉及业务访问、并发性能。根据历史经验对各指标制定挂牌阈值和预挂牌阈值,并按指标的重要程度进行权重划分。若各指标的计算结果大于制定挂牌条件,则进行挂牌,以下公式可简单说明:

[w1*(t1/d1)+w2*(t2/d2)+…+wn(tn/dn)]/n>d

其中w代表指标权重,t1~tn代表指标的实际值,d1~dn代表指标的挂牌阈值,d代表对象总挂牌阈值。算法目的是将多个性能指标抽象为对象运行性能状态。

(2)可用模型-断:整理运维对象的指标中与状态相关的指标,对于主机类主要涉及设备运行状态、采集状态等、对于业务类主要涉及业务运行状态、业务访问状态等。

(3)在用模型-闲:在用模型与性能模型较为接近,对于主机类主要涉及计算、网络负载、对于业务类主要涉及业务访问、并发负载。

(4)安全模型-危:整理运维对象的指标中与状态相关的指标,如防火墙状态、杀毒软件状态等;整理运维对象网络异常事件,如arp攻击、dos拒绝服务等;整理业务的异常事件,如越权访问、违规服务等。

(5)合规模型-乱:深入运维对象的流量指标统计,分析流量规律,整理不符合规律的网络行为,包括ip异常、流量异常等。

在实际应用中,所述分析模型可包括:

为各类运维对象定义性能、可用、在用、安全和合规模型,整理分类运维对象各类指标,定义挂牌阈值和预挂牌阈值,并按不同的权重有机组合,构建描述运行状态的关联关系。

设备卡模型包括cpu使用率、内存使用率、空间使用率、磁盘io速率、带宽使用率、进程数量等挂牌指标;断模型包括运行状态、连续运行时长、采集状态、中断事件等挂牌指标;闲模型包括cpu使用率、内存使用率、空间使用率、磁盘io速率、带宽使用率、进程数量等挂牌指标;乱模型包括ip波动、流量波动、网络丢包等挂牌指标;危模型包括主机安全事件、网络安全事件、文件异常变更、防火墙异常、杀毒软件状态等挂牌指标。

业务卡模型包括访问人数、访问流量、访问时延等挂牌指标;断模型包括运行状态、连续运行时长、接口状态、采集状态等挂牌指标;闲模型包括访问人数、访问流量、访问时延等挂牌指标;乱模型包括ip波动、访问流量波动、接口流量波动等挂牌指标;危模型包括业务安全事件、网络安全事件等挂牌指标。

快照指标的选取无限制,旨在详细的记录挂牌的细节,具体指标可按对运维对象的理解进行添加。

步骤s2:基于经验对不同的对象进行挂牌阈值定义;

所述步骤s2基于经验对不同的对象进行挂牌阈值定义的具体实施方式包括:进行挂牌阈值和预挂牌阈值的定义,默认预挂牌条件是挂牌条件的百分比递减。挂牌阈值和预挂牌阈值根据历史运行经验进行设置,不同的模型需采用不同的阈值。权重设置同理需根据指标的重要性进行排列,并设置为不同的权重。

步骤s3:采集模型定义的各类指标进行挂撤牌分析;

所述步骤s3采集模型定义的各类指标进行挂撤牌分析的具体实施方式包括:根据模型中的指标定义进行指标采集。采集指标汇入模型,计算其统计结果是否符合挂牌阈值或预挂牌阈值。采用基于最近历史权重的方式进行挂撤牌分析,结合了历史和权重两种分析方式,根据不同的历史数据,合理分析真实的运行状态。结合指标权重、历史权重,通过算法分析是否符合挂牌条件,若条件符合,挂牌;若条件不符合,计入下次挂牌运算的前置条件。

(1)挂牌方案

首先根据模型中定义的采集频率采集各模型的数据,并使用挂牌公式计算本次统计状态是否高于挂牌阈值。若本次统计高于挂牌阈值,则再计算本次统计之前连续n次(n<10)的情况,以下公式可简单说明:

[w1*s1+w2*s2+…+wn*sn]/n>d(w1>w2>…>wn)

其中w代表历史权重,且时间从近到远的顺序按从大到小分布,s代表连续历史时间点的实际计算值,d根据需要分别为对象挂牌阈值或预挂牌阈值。

1)本次统计高于挂牌阈值且历史挂牌计算值小于预挂牌阈值,则判断该对象挂牌。

2)本次统计高于挂牌阈值且历史挂牌计算值大于预挂牌阈值,则本次不予挂牌。当后续统计连续出现统计指标高于挂牌阈值或满足指定次数后,则判断该对象挂牌。

3)本次统计低于挂牌阈值,连续计数置0;若本次统计低于预挂牌阈值,次数计数置0。

(2)撤牌方案

使用挂牌公式计算本次统计状态,若对象当前有挂牌,则判断本次统计是否低于挂牌阈值。若本次统计低于挂牌阈值,连续计数自增1,若后续出现大于挂牌阈值的情况,则连续计数置0。当后续出现连续n次(n<5)小于挂牌阈值的情况,则撤牌。

步骤s4:根据分析结果进行相应的挂撤牌操作。

所述步骤s4根据分析结果进行相应的挂撤牌操作的具体实施方式包括:

若运维对象已经挂某类型的牌,不再重复挂同类型的牌。

模型统计值大于挂牌阈值,越限连续计数自增1,越限次数计数自增1。若加权历史挂牌统计值小于预挂牌阈值,直接挂牌;若加权历史挂牌统计值大于预挂牌阈值。判断越限连续计数或越限次数计数是否满足要求,满足条件则进行挂牌,不满足条件不处理。

模型统计值大于预挂牌阈值,小于挂牌阈值,越限连续计数置0,越限计数不变。

模型统计值小于预挂牌阈值,越限连续计数置0,越限次数计数置0。

运维对象挂牌后,模型统计值低于挂牌阈值,撤牌连续计数自增1;模型统计值高于挂牌阈值,撤牌连续计数置0。当撤牌连续计数满足指定要求后,予以撤牌。

首先需定义运维对象的状态模型,包括挂牌阈值和预挂牌阈值,默认预挂牌条件是挂牌条件的百分比递减。各对象需创建卡、乱、闲、断、危五种模型并关联不同的指标并按模型进行指标采集,然后采用指标权重和历史权重对运行状态进行分析,若指标计算值满足挂牌阈值且最近历史低于预挂牌指标,直接予以挂牌;若指标计算值满足预挂牌阈值且最近历史高于预挂牌指标,则判断连续出现统计指标高于挂牌阈值或满足指定次数后予以挂牌;挂牌后若指标计算值连续若干次低于挂牌阈值,进行撤牌;其他情况不予处理。

步骤s5:实时收集挂撤牌信息形成状态知识库。

具体可包括:根据对状态知识库的分析,实现模型中指标、阈值和权值的个性化调整。挂牌记录自动添加到状态知识库,根据对状态知识库的分析,挖掘各运维对象的特性,并实现模型的个性化调整。

挂牌快照指标变化趋势基本符合挂牌的规律性变化,能够反映挂牌时的运行状态,建议将该快照加入挂牌指标列表。

挂牌阈值和预挂牌阈值设置的不合理,设置太高导致挂牌次数少,无法定位问题;设置太低导致频繁挂牌,影响用户使用。根据历史挂牌情况分析挂牌阈值和预挂牌阈值的合理性,并给出调整的阈值。

挂牌权重的设置未能突出影响较大的指标,越限次数多、程度深的指标权重少,越限少的指标权重高,计算结果不能有效反映运行状态,建议用户调整权重,并给出调整建议。

运维人员可以直接调整模型初始值,并对历史知识产生的调整建议进行具体操作。

在实际应用中,如图4所示,包括以下具体实施:

挂牌模型对于同一类对象提供默认的初始阈值,运维人员可以根据对运行对象的理解手动调整不同对象初始值;当挂牌运行一段时间后,状态知识库形成一定的数据规模,可对运行状态知识进行分析统计,提炼各对象个性化的特征趋势,推动挂牌阈值个性化调整,从而实现对象模型个性化、精准化的良性循环。

(1)调整指标模型

在建立指标模型时,不仅定义了挂牌指标,同时也定义了快照指标,挂牌指标参与挂牌计算,依据行业经验选取影响较大的指标;快照指标不参与挂牌计算,依据行业经验选取有影响较小的指标。在实际的运行环境中,由于各对象的软硬件环境不尽相同,各指标发挥的功效也有着差异。在统一模型的基础上,分析各对象的快照特征,提炼相关性和一致性,若快照指标存在能反映运行状态的规律性波动且规律命中率超过80%,判断快照指标对该对象影响较大,建议用户将快照指标加入该对象的模型。

(2)调整挂牌阈值和预挂牌阈值

初始的挂牌阈值和预挂牌阈值仅保证挂牌功能可以正常运行,支持运维人员手动调整初始阈值。为了适应各对象不同的软硬件环境,需在运行过程中不断对阈值进行优化调整。主要调整思路为历史运行指标普遍高于阈值,说明阈值设置低;运行指标极大部分低于阈值,说明阈值设置高。预置内容为80%指标历史数据高于预挂牌阈值,判断该对象的预挂牌阈值低,建议用户调整预挂牌阈值并根据历史数据给出推荐阈值;60%指标历史数据高于挂牌阈值,判断该对象的挂牌阈值低,建议用户调整挂牌阈值并根据历史数据给出推荐阈值;95%指标历史低于挂牌阈值,判断该对象的挂牌阈值高,建议用户调整挂牌阈值并根据历史数据给出推荐阈值。

(3)调整指标权重

初始的指标权重根据指标的影响程度进行定义,默认不建议运维人员手动调整。在实际挂牌历史中,各类指标对挂牌的影响程度也不尽相同,当某类指标在挂牌历史中的影响规律性高于其他指标,规律命中率超过80%,对于挂牌起着较为重要的作用,建议用户提升该指标的权重并根据历史数据给出推荐权重。当某类指标在挂牌历史中对挂牌分析没有明显效果,建议用户降低该指标的权重并给出推荐权重。

通过模型的分类和构建,对运维对象的各类指标、数据进行了分类关联,赋予了指标业务意义,并根据历史经验定义了各指标的计算权值,形成完整的业务模型,有效的描述了运维对象的真实运行情况,并其适用于同类对象的扩展。

通过抽象化状态描述,重点突出了性能、在用、可用、安全和合规等运行状态,区别于告警仅单一的对指标进行监测和越限提示,从业务的角度大大增强了关联性,充分提高了运维人员对运行状态的理解,降低对运维内容的学习成本。

对挂撤牌的合理分析,通过采用基于最近历史权重的方式进行挂撤牌分析,不仅着眼于一个时间点的运行状态情况,还有效的整合了历史信息,能客观的反映运维对象的整体运行状态,并通过挂撤牌方式进行管理提示。

通过多状态展现,支持同时展现多种运行状态,部分运行状态互斥,但大部分运行状态可以共存,可以有效直观的反映运维对象的真实运行情况,将运维人员从繁琐的指标告警中解放出来,提升业务理解,提高运维效率。

通过个性化调整,收集挂撤牌信息形成状态知识库,采用机器学习的方法分析各运维对象的信息,形成规律性、有意义的知识,用以优化对象的挂牌和预挂牌阈值,调整算法权重,推动挂牌模型的个性化调整,提高挂撤牌的准确性和专业程度。

实施例三

如图5所示,一种直观的网络及业务系统运行状态展现系统,所述展现系统包括:

模型模块1,用于为运维对象创建抽象运维对象指标的分析模型;

阈值模块2,用于基于经验对不同的对象进行挂牌阈值定义;

分析模块3,用于采集模型定义的各类指标进行挂撤牌分析;

挂撤牌模块4,用于根据分析结果进行相应的挂撤牌操作。

其中,所述展现系统包括:状态调整模块5,用于实时收集挂撤牌信息形成状态知识库,及根据对状态知识库的分析,实现模型中指标、阈值和权值的个性化调整。

通过所述的展现系统,可以实现直观的网络及业务系统运行状态展现,具体通过如下流程实现:

(一)为运维对象创建抽象运维对象指标的分析模型;

所述为运维对象创建抽象运维对象指标的分析模型的具体实施方式包括:构建了包括性能、可用、在用、安全、合规的五种模型,模型组成包括指标、阈值和权重。

其中,所述指标、阈值和权重如下所示:

指标:包括挂牌指标和快照指标,挂牌指标参与挂牌计算、快照指标记录详细信息并可向挂牌指标转化;

阈值:包括挂牌阈值和预挂牌阈值,挂牌阈值判断挂牌越限条件、预挂牌阈值辅助分析是否符合挂牌条件;

权重:根据指标的重要性排序,影响大的指标权重高,影响小的指标权重小。

所述分析模型的算法为:

[w1*(t1/d1)+w2*(t2/d2)+…+wn(tn/dn)]/n>d

其中w代表指标权重,t1~tn代表指标的实际值,d1~dn代表指标的挂牌阈值,d代表对象总挂牌阈值。

在实际应用中,为各类运维对象定义性能、可用、在用、安全和合规模型,整理分类运维对象各类指标,定义挂牌阈值和预挂牌阈值,并按不同的权重有机组合,构建描述运行状态的关联关系,各模型的定义方式如下:

(1)性能模型-卡:整理运维对象的指标中与性能相关的指标,对于主机类主要涉及设备计算、网络性能、对于业务类主要涉及业务访问、并发性能。根据历史经验对各指标制定挂牌阈值和预挂牌阈值,并按指标的重要程度进行权重划分。若各指标的计算结果大于制定挂牌条件,则进行挂牌,以下公式可简单说明:

[w1*(t1/d1)+w2*(t2/d2)+…+wn(tn/dn)]/n>d

其中w代表指标权重,t1~tn代表指标的实际值,d1~dn代表指标的挂牌阈值,d代表对象总挂牌阈值。算法目的是将多个性能指标抽象为对象运行性能状态。

(2)可用模型-断:整理运维对象的指标中与状态相关的指标,对于主机类主要涉及设备运行状态、采集状态等、对于业务类主要涉及业务运行状态、业务访问状态等。

(3)在用模型-闲:在用模型与性能模型较为接近,对于主机类主要涉及计算、网络负载、对于业务类主要涉及业务访问、并发负载。

(4)安全模型-危:整理运维对象的指标中与状态相关的指标,如防火墙状态、杀毒软件状态等;整理运维对象网络异常事件,如arp攻击、dos拒绝服务等;整理业务的异常事件,如越权访问、违规服务等。

(5)合规模型-乱:深入运维对象的流量指标统计,分析流量规律,整理不符合规律的网络行为,包括ip异常、流量异常等。

在实际应用中,所述分析模型可包括:

为各类运维对象定义性能、可用、在用、安全和合规模型,整理分类运维对象各类指标,定义挂牌阈值和预挂牌阈值,并按不同的权重有机组合,构建描述运行状态的关联关系。

设备卡模型包括cpu使用率、内存使用率、空间使用率、磁盘io速率、带宽使用率、进程数量等挂牌指标;断模型包括运行状态、连续运行时长、采集状态、中断事件等挂牌指标;闲模型包括cpu使用率、内存使用率、空间使用率、磁盘io速率、带宽使用率、进程数量等挂牌指标;乱模型包括ip波动、流量波动、网络丢包等挂牌指标;危模型包括主机安全事件、网络安全事件、文件异常变更、防火墙异常、杀毒软件状态等挂牌指标。

业务卡模型包括访问人数、访问流量、访问时延等挂牌指标;断模型包括运行状态、连续运行时长、接口状态、采集状态等挂牌指标;闲模型包括访问人数、访问流量、访问时延等挂牌指标;乱模型包括ip波动、访问流量波动、接口流量波动等挂牌指标;危模型包括业务安全事件、网络安全事件等挂牌指标。

快照指标的选取无限制,旨在详细的记录挂牌的细节,具体指标可按对运维对象的理解进行添加。

(二)基于经验对不同的对象进行挂牌阈值定义;

所述基于经验对不同的对象进行挂牌阈值定义的具体实施方式包括:进行挂牌阈值和预挂牌阈值的定义,默认预挂牌条件是挂牌条件的百分比递减。挂牌阈值和预挂牌阈值根据历史运行经验进行设置,不同的模型需采用不同的阈值。权重设置同理需根据指标的重要性进行排列,并设置为不同的权重。

(三)采集模型定义的各类指标进行挂撤牌分析;

所述采集模型定义的各类指标进行挂撤牌分析的具体实施方式包括:根据模型中的指标定义进行指标采集。采集指标汇入模型,计算其统计结果是否符合挂牌阈值或预挂牌阈值。采用基于最近历史权重的方式进行挂撤牌分析,结合了历史和权重两种分析方式,根据不同的历史数据,合理分析真实的运行状态。结合指标权重、历史权重,通过算法分析是否符合挂牌条件,若条件符合,挂牌;若条件不符合,计入下次挂牌运算的前置条件。

(1)挂牌方案

首先根据模型中定义的采集频率采集各模型的数据,并使用挂牌公式计算本次统计状态是否高于挂牌阈值。若本次统计高于挂牌阈值,则再计算本次统计之前连续n次(n<10)的情况,以下公式可简单说明:

[w1*s1+w2*s2+…+wn*sn]/n>d(w1>w2>…>wn)

其中w代表历史权重,且时间从近到远的顺序按从大到小分布,s代表连续历史时间点的实际计算值,d根据需要分别为对象挂牌阈值或预挂牌阈值。

1)本次统计高于挂牌阈值且历史挂牌计算值小于预挂牌阈值,则判断该对象挂牌。

2)本次统计高于挂牌阈值且历史挂牌计算值大于预挂牌阈值,则本次不予挂牌。当后续统计连续出现统计指标高于挂牌阈值或满足指定次数后,则判断该对象挂牌。

3)本次统计低于挂牌阈值,连续计数置0;若本次统计低于预挂牌阈值,次数计数置0。

(2)撤牌方案

使用挂牌公式计算本次统计状态,若对象当前有挂牌,则判断本次统计是否低于挂牌阈值。若本次统计低于挂牌阈值,连续计数自增1,若后续出现大于挂牌阈值的情况,则连续计数置0。当后续出现连续n次(n<5)小于挂牌阈值的情况,则撤牌。

(四)根据分析结果进行相应的挂撤牌操作。

所述根据分析结果进行相应的挂撤牌操作的具体实施方式包括:

若运维对象已经挂某类型的牌,不再重复挂同类型的牌。

模型统计值大于挂牌阈值,越限连续计数自增1,越限次数计数自增1。若加权历史挂牌统计值小于预挂牌阈值,直接挂牌;若加权历史挂牌统计值大于预挂牌阈值。判断越限连续计数或越限次数计数是否满足要求,满足条件则进行挂牌,不满足条件不处理。

模型统计值大于预挂牌阈值,小于挂牌阈值,越限连续计数置0,越限计数不变。

模型统计值小于预挂牌阈值,越限连续计数置0,越限次数计数置0。

运维对象挂牌后,模型统计值低于挂牌阈值,撤牌连续计数自增1;模型统计值高于挂牌阈值,撤牌连续计数置0。当撤牌连续计数满足指定要求后,予以撤牌。

首先需定义运维对象的状态模型,包括挂牌阈值和预挂牌阈值,默认预挂牌条件是挂牌条件的百分比递减。各对象需创建卡、乱、闲、断、危五种模型并关联不同的指标并按模型进行指标采集,然后采用指标权重和历史权重对运行状态进行分析,若指标计算值满足挂牌阈值且最近历史低于预挂牌指标,直接予以挂牌;若指标计算值满足预挂牌阈值且最近历史高于预挂牌指标,则判断连续出现统计指标高于挂牌阈值或满足指定次数后予以挂牌;挂牌后若指标计算值连续若干次低于挂牌阈值,进行撤牌;其他情况不予处理。

(五)实时收集挂撤牌信息形成状态知识库。

具体可包括:根据对状态知识库的分析,实现模型中指标、阈值和权值的个性化调整。挂牌记录自动添加到状态知识库,根据对状态知识库的分析,挖掘各运维对象的特性,并实现模型的个性化调整。

挂牌快照指标变化趋势基本符合挂牌的规律性变化,能够反映挂牌时的运行状态,建议将该快照加入挂牌指标列表。

挂牌阈值和预挂牌阈值设置的不合理,设置太高导致挂牌次数少,无法定位问题;设置太低导致频繁挂牌,影响用户使用。根据历史挂牌情况分析挂牌阈值和预挂牌阈值的合理性,并给出调整的阈值。

挂牌权重的设置未能突出影响较大的指标,越限次数多、程度深的指标权重少,越限少的指标权重高,计算结果不能有效反映运行状态,建议用户调整权重,并给出调整建议。

运维人员可以直接调整模型初始值,并对历史知识产生的调整建议进行具体操作。

在实际应用中,包括以下具体实施:

挂牌模型对于同一类对象提供默认的初始阈值,运维人员可以根据对运行对象的理解手动调整不同对象初始值;当挂牌运行一段时间后,状态知识库形成一定的数据规模,可对运行状态知识进行分析统计,提炼各对象个性化的特征趋势,推动挂牌阈值个性化调整,从而实现对象模型个性化、精准化的良性循环。

(1)调整指标模型

在建立指标模型时,不仅定义了挂牌指标,同时也定义了快照指标,挂牌指标参与挂牌计算,依据行业经验选取影响较大的指标;快照指标不参与挂牌计算,依据行业经验选取有影响较小的指标。在实际的运行环境中,由于各对象的软硬件环境不尽相同,各指标发挥的功效也有着差异。在统一模型的基础上,分析各对象的快照特征,提炼相关性和一致性,若快照指标存在能反映运行状态的规律性波动且规律命中率超过80%,判断快照指标对该对象影响较大,建议用户将快照指标加入该对象的模型。

(2)调整挂牌阈值和预挂牌阈值

初始的挂牌阈值和预挂牌阈值仅保证挂牌功能可以正常运行,支持运维人员手动调整初始阈值。为了适应各对象不同的软硬件环境,需在运行过程中不断对阈值进行优化调整。主要调整思路为历史运行指标普遍高于阈值,说明阈值设置低;运行指标极大部分低于阈值,说明阈值设置高。预置内容为80%指标历史数据高于预挂牌阈值,判断该对象的预挂牌阈值低,建议用户调整预挂牌阈值并根据历史数据给出推荐阈值;60%指标历史数据高于挂牌阈值,判断该对象的挂牌阈值低,建议用户调整挂牌阈值并根据历史数据给出推荐阈值;95%指标历史低于挂牌阈值,判断该对象的挂牌阈值高,建议用户调整挂牌阈值并根据历史数据给出推荐阈值。

(3)调整指标权重

初始的指标权重根据指标的影响程度进行定义,默认不建议运维人员手动调整。在实际挂牌历史中,各类指标对挂牌的影响程度也不尽相同,当某类指标在挂牌历史中的影响规律性高于其他指标,规律命中率超过80%,对于挂牌起着较为重要的作用,建议用户提升该指标的权重并根据历史数据给出推荐权重。当某类指标在挂牌历史中对挂牌分析没有明显效果,建议用户降低该指标的权重并给出推荐权重。

通过模型的分类和构建,对运维对象的各类指标、数据进行了分类关联,赋予了指标业务意义,并根据历史经验定义了各指标的计算权值,形成完整的业务模型,有效的描述了运维对象的真实运行情况,并其适用于同类对象的扩展。

通过抽象化状态描述,重点突出了性能、在用、可用、安全和合规等运行状态,区别于告警仅单一的对指标进行监测和越限提示,从业务的角度大大增强了关联性,充分提高了运维人员对运行状态的理解,降低对运维内容的学习成本。

对挂撤牌的合理分析,通过采用基于最近历史权重的方式进行挂撤牌分析,不仅着眼于一个时间点的运行状态情况,还有效的整合了历史信息,能客观的反映运维对象的整体运行状态,并通过挂撤牌方式进行管理提示。

通过多状态展现,支持同时展现多种运行状态,部分运行状态互斥,但大部分运行状态可以共存,可以有效直观的反映运维对象的真实运行情况,将运维人员从繁琐的指标告警中解放出来,提升业务理解,提高运维效率。

通过个性化调整,收集挂撤牌信息形成状态知识库,采用机器学习的方法分析各运维对象的信息,形成规律性、有意义的知识,用以优化对象的挂牌和预挂牌阈值,调整算法权重,推动挂牌模型的个性化调整,提高挂撤牌的准确性和专业程度。

本发明实施的优点:本发明所述的直观的网络及业务系统运行状态展现方法,包括以下步骤:为运维对象创建抽象运维对象指标的分析模型;基于经验对不同的对象进行挂牌阈值定义;采集模型定义的各类指标进行挂撤牌分析;根据分析结果进行相应的挂撤牌操作;将多种指标抽象为独特的特征牌,为指标创建业务关联,以一种更直观更动态的展现方式,对运维对象进行监控和管理,包括网络、链路、业务、主机、数据库、中间件等对象,不仅增强了可视化的效果,也提高了工作效率;通过挂牌的技术手段,合理的建立运行状态模型,分析运维对象的运行情况,减少运维人员的告警学习处理成本,提升对运行状态的理解,提高运维的效率和体验。挂牌技术为运维对象的不同运行状态建立了模型,包括性能、可用、在用、安全和合规等,在模型中关联不同的指标、阈值和算法,当挂牌的条件被触发后,对运维对象进行挂牌,直观反映运维对象当前的多种运行状态,帮助运维人员快速定位运维对象异常分析的方向或原因,减少分析时间,提升效率。挂牌技术作为一项改进性的技术,区别于单一维度的指标告警,采用模型化的方案定义运维对象的运行状态,提供业务视角的管理方案,减少运维人员单个指标的学习成本,提高整体业务化理解,便于运维人员定位和排查问题。

具体表现在以下几个方面:

1、模型的分类和构建;本方法对运维对象的各类指标、数据进行了分类关联,赋予了指标业务意义,并根据历史经验定义了各指标的计算权值,形成完整的业务模型,有效的描述了运维对象的真实运行情况,并其适用于同类对象的扩展。

2、抽象化状态描述;本方法重点突出了性能、在用、可用、安全和合规等运行状态,区别于告警仅单一的对指标进行监测和越限提示,从业务的角度大大增强了关联性,充分提高了运维人员对运行状态的理解,降低对运维内容的学习成本。

3、挂撤牌合理分析;本方法采用了基于最近历史权重的方式进行挂撤牌分析,不仅着眼于一个时间点的运行状态情况,还有效的整合了历史信息,能客观的反映运维对象的整体运行状态,并通过挂撤牌方式进行管理提示。

4、多状态展现;本方法支持同时展现多种运行状态,部分运行状态互斥,但大部分运行状态可以共存,可以有效直观的反映运维对象的真实运行情况,将运维人员从繁琐的指标告警中解放出来,提升业务理解,提高运维效率。

5、个性化调整;本方法的挂撤牌信息形成状态知识库,采用机器学习的方法分析各运维对象的信息,形成规律性、有意义的知识,用以优化对象的挂牌和预挂牌阈值,调整算法权重,推动挂牌模型的个性化调整,提高挂撤牌的准确性和专业程度。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1