一种基于集中运维的硬件资源分析与评估方法与流程

文档序号:14519705阅读:495来源:国知局
一种基于集中运维的硬件资源分析与评估方法与流程

本发明涉及电力系统的分析与评估方法,具体涉及一种基于集中运维的硬件资源分析与评估方法。



背景技术:

智能电网调度控制系统是由国家电网公司统一组织、多家技术企业集中研发的世界上规模最大的电网调度控制系统,采用多级分层结构,实现了电网调度业务的“横向集成,纵向贯通”,实现了特大电网的实时监测、事故协同处置以及全局经济调度。“十三五”期间,随着特高压交直流互联电网的快速发展,电网安全稳定运行对智能电网调度控制系统的要求不断提高。

国家电网公司的管理体制正在向集约化、精益化变革,智能电网调度控制系统的运维模式已经开始由分散运维模式向集中运维模式转变,为全面加强智能电网调度控制系统的安全稳定性,提高系统调度自动化设备资源的可用性水平,迫切需要集中运维中心统一监视和准确判断设备运行状态和发展趋势,需要进一步以先进的分析评估技术为依托,在集中运维模式下的状态评估工作为抓手,实现对多级调度控制系统设备的安全预警,促进调度自动化专业全过程管理水平的全面提升,推动调度自动化专业技术水平的快速发展,夯实电网安全生产基础。

现有的调度控制系统资源监视与分析评估局限于各个调控中心内部,多级系统之间的数据不共享,分析内容侧重于实时监视和短期数据统计,缺乏对多级系统资源使用情况的统一表达,以及大量历史信息和综合指标的有效分析与评估,无法充分利用多级系统海量数据资源及时发现系统存在的安全隐患。针对近期国家电网公司系统的安全事故,公司提出了“三查三强化”安全专项行动,进一步明确要深入开展隐患排查治理工作;要发现调度控制系统的深层安全隐患必须充分利用多级系统的海量数据,并采用有效的分析评估方法。



技术实现要素:

为解决上述现有技术中的不足,本发明的目的是提供一种基于集中运维的硬件资源分析与评估方法,针对集中运维模式的多级系统的自动化设备资源数据,提出了多种有效的分析与评估方法,以预测系统资源发展趋势,挖掘系统运行过程的规则和存在的安全隐患,协助调度自动化运维人员全面掌握系统可能出现的问题,提升多级智能电网调度控制系统风险防御水平,满足电网的快速发展对调度控制系统运维工作的要求。

本发明的目的是采用下述技术方案实现的:

本发明提供一种基于集中运维的硬件资源分析与评估方法,其改进之处在于,所述方法包括下述步骤:

1)定义系统硬件资源监测指标的类型;

2)系统硬件资源指标的分周期采集;

3)建立系统硬件资源监测指标的分析与评估模型;

4)系统硬件资源分析与评估。

进一步地,所述步骤1)中,硬件资源监测指标包括接入调度数据网中的所有应用服务器和重要工作站的磁盘空间使用率、cpu占用率以及内存使用率三种监测指标;或监测指标按采集周期划分为实时指标和周期性统计指标,其中实时指标要求更新周期为3-5秒,周期性统计指标的更新周期为5或10分钟两种周期。

进一步地,所述三种监测指标中,

cpu占用率——调度数据网内某个节点的cpu即时利用率,在数据点表中一条记录一个值,用遥测发送;

内存使用率——各系统内某个节点的内存即时利用率;在数据点表中一条记录一个值,用遥测发送;

磁盘空间使用率——各系统内某个节点的磁盘空间使用率,该节点的根目录和主用户目录的空间使用率;在数据点表中一条记录一个值,用遥测发送。

进一步地,所述步骤2)包括下述步骤:

步骤2.1实时指标的采集;

步骤2.2周期性统计指标采集。

进一步地,所述步骤2.1实时指标的采集包括::实时指标的通过接入调度数据网的前置采集服务器,采用dl476协议的字符串数据块分别与各调控中心调度控制系统进行数据传输,硬件资源监测指标的收集和传输包括各地系统数据的发送端、系统数据的接收端、通信传输协议的设定来实现智能电网调度控制系统硬件资源监测指标的集中采集;依据系统数据发送端和接收端双方事先约定好的数据通信索引文件,从各地系统实时数据库中获取所需要的硬件资源监测指标传输给集中运维中心;集中运维中心数据接收程序与省级及以上调控中心采集系统建立tcp连接,接收各类数据,并存储到运维中心系统的实时数据库中;步骤如下:

(1)首先创建tcp连接;

(2)发送启动应用:dl476为a_associate;

(3)收到启动确认:dl476为a_associate_ack;

(4)发送端即时扫描数据通信索引文件中的数据,如果有变化数据产生或者时间达到全数据周期的要求,则发送数据报文;

(5)接收端对收到的数据报文进行确认;

(6)若15秒内没有数据传输,发送端或接收端发送测试报文,对端给予确认;dl476为a_test;

(7)发送端或接收端关闭连接,对端给予确认;dl476为a_abort表示断开,a_abort_ack表示断开确认。

进一步地,所述步骤2.2中:周期性统计指标由文件服务客户端、指标采集客户端和指标汇总与分析客户端组成;周期性统计指标由文件服务客户端、指标采集客户端和指标汇总与分析客户端组成,通过scp或ftp文件服务将周期性指标按设定的周期加密传输给集中运维中心,集中运维中心通过解压、解密和解析程序将周期性指标直接存入历史数据库中;

所述步骤2.2包括下述步骤:

1)某个时间点得到各节点服务器或工作站上的采集指标,采集周期从配置库中读取,将指标写入实时数据库中;

2)历史采样程序将采集指标按采样周期写入历史库中存档;

3)分析汇总程序将历史库中的采样数据读出,通过分析与评估程序对基础数据进行加工,后写入相应的历史指标库中,并形成分析与评估日志文件;

4)调控中心的文件服务客户端按周期读取分析与评估日志文件,通过ftp或scp服务定时将加密文件传输到集中运维中心指定的文件服务客户端的指定目录下;

5)集中运维中心将指定目录下的文件解压、解密后,将分析与评估的指标写入实时库中,通过人机界面进行监视,且数据的刷新周期与采集周期相同。

进一步地,所述步骤3)中,所述分析与评估模型包括系统硬件资源监测指标分析与评估递归模型和多级系统硬件资源监测指标分析与评估立方体模型。

进一步地,所述系统硬件资源监测指标分析与评估递归模型由低级的基础数据通过递归计算形成高级的分析与评估指标,包括配置数据、基础数据、监测指标、单个设备统计指标、系统资源统计指标和计算评估指标六个部分;分别为:

1)配置数据——系统所监测的各类设备的数量、设备类型、型号属性信息和各类设备监测指标的限值设置;

2)基础数据采集——包括cpu使用率、内存占用率和磁盘分区使用率,系统硬件资源监测指标是通过对基础数据的监测、分析和统计生成;

3)监测指标——通过配置数据中的指标限值,对基础采集数据进行监测的量,包括越限起止时间、满载起止时间和资源增长率;

4)单个设备统计指标——按日、月、年度对各个设备监测指标进行统计,包括各类监测指标的持续时间、次数、详细信息、越限率、满载率和增长率,并依据配置数据中的设备型号、类型和厂家属性从局部对系统硬件资源进行分类统计,生成针对性的统计数据;

5)系统资源统计指标——按日、月、年度对监测指标进行统计,包括各类监测指标的持续时间、次数、百分比、越限率、满载率和增长率;从整体对一个系统的硬件资源使用情况进行评估和分析,生成全局性的统计数据;

6)计算评估指标——按日、月、年度对统计指标进行数值分析,包括平均值、最大值、最小值、四分位百分比分布、时间堆积分布、按指标结果依据设备类型和持续时间进行计算,分别生成从局部和整体对系统硬件资源风险预测的基础数据。

9、如权利要求7所述的硬件资源分析与评估方法,其特征在于,所述多级系统硬件资源监测指标分析与评估立方体模型分别从a、q和y三个维度对系统硬件资源进行分析与评估,其中a表示从属于国、分、省三级调控中心不同地区的系统,q表示某一种评估指标,y表示时间,其中每个单位立方体表示某地区某时间段内评估指标的平均值。

进一步地,其特征在于,所述步骤4)中,包括系统硬件资源基本指标的定义和计算,系统硬件资源风险趋势分析,系统硬件资源监测指标聚类中心分析和硬件资源监测指标关联分析。

进一步地,所述系统硬件资源基本指标的定义和计算包括:

1)单个设备日越限率=单个设备日越限持续时间/24;

2)单系统某类设备日越限率=单系统某类设备日越限持续时间/24*某类设备个数;

3)全系统某类设备日越限率=全系统某类设备日越限持续时间/24*全系统某类设备个数;

4)全系统硬件资源日越限率=全系统硬件资源日越限持续时间/24*全系统监视设备个数;

5)单个设备月越限率=单个设备月越限持续时间/24*月度天数;

6)单系统某类设备月越限率=单系统某类设备月越限持续时间/24*月度天数*某类设备个数;

7)全系统某类设备月越限率=全系统某类设备月越限持续时间/24*月度天数*全系统某类设备个数;

8)全系统硬件资源月越限率=全系统硬件资源月越限持续时间/24*月度天数*全系统监视设备个数;

9)单个设备年越限率=单个设备各月越限率之和;

10)单系统某类设备年越限率=单系统某类设备各月越限率之和;

11)全系统某类设备年越限率=全系统某类设备各月越限率之和;

12)全系统硬件资源年越限率=全系统硬件资源各月越限率之和;

13)某类指标的月平均越限率=全年各月度某类指标计算值之和/12(月度数);

14)某类指标的日平均越限率=全年各日度某类指标计算值之和/365或366(年度天数);

15)单个设备资源使用的增长率=(t时刻单个设备资源使用率-m时刻单个设备资源使用率)/(t-m),其中t>m;

16)单个设备越限率百分比=单个设备越限率/该系统该类设备越限率*100%;

17)某系统某类设备越限率百分比=某系统某类设备越限率/该系统硬件资源越限率*100%;

18)全系统某类设备越限率百分比=全系统某类设备越限率/全系统硬件资源越限率*100%;

19)系统资源满载率百分比=系统资源满载次数/系统资源越限次数*100%;

20)系统资源满载率百分比=系统资源满载持续时间/系统资源越限持续时间*100%;

21)系统资源使用率四分位百分比分析:按0-100%进行四分位等分,计算每个区间中资源使用率的占比和分布;

单位时间都转化为小时计算。

进一步地,所述系统硬件资源风险趋势分析包括:

假定影响因素为x1,x2,…,xk,由回归分析得知:

yt=β1x1+β2x2+…+βpxp+z(4-1)

yt=β1x1+β2x2+…+βpxp+z(4-1)

其中:y是评估指标的观测值,yt表示第t个观测值,为预测对象,z为误差,其中β0,β1,β2,...,βpp为一组不全为零的数,p是一个数域,yt,yt-1,...,yt-p分别表示第t个观测值、第t-1个观测值,...,第t-p个观测值,作为预测对象yt受到自身变化的影响,其规律由下式体现,

yt=β1yt-1+β2yt-2+…+βpyt-p+zt(4-2)

误差项在不同时期具有依存关系,由下式表示,

zt=εt+α1εt-1+α2εt-2...+αqεt-q(4-3)

其中,εt,εt-1,...,εt-q表示单位向量,α1,α2,...,αqp为一组不全为零的数,p是一个数域,由此,获得评估指标的arma模型表达式:

yt=β0+β1yt-1+β2yt-2+…+βpyt-p+εt+α1εt-1+α2εt-2…+αqεt-q(4-4)

通过对数据模型的计算,预测资源使用率的未来趋势,评估硬件资源使用情况的风险;

集中运维中心使用arima模型对磁盘分区使用率越限持续时间进行时间序列分析,其步骤如下:

1>检查待计算指标的时间序列是否存在缺失值,若存在缺失值则用上一个时间间隔数据进行填充,上一个时间间隔数据不存在用下一个时间间隔数据;

2>利用自相关分析和偏相关分析方式分析时间序列的随机性、平稳性及季节性,选择时间序列分析模型进行计算(基本数学定义);

3>数据模型确定后对计算指标进行拟合(基本数学定义),根据拟合后的数据与时间的关系,形成时间序列分析图;

4>经过对时间序列拟合曲线形状的分析计算指标走势,并结合多种指标的数值分析结果说明系统资源使用情况存在的风险(如果观测量是故障率的话,拟合出来的结果就是风险评估的趋势结果)。

进一步地,所述系统硬件资源监测指标聚类中心分析使用划分法进行分析,即给定一个有n个元组或者纪录的数据集,分裂法将构造k个分组,每一个分组就代表一个聚类,k<n;且k个分组满足下列条件:

<1>每一个分组至少包含一个数据纪录;

<2>每一个数据纪录属于且仅属于一个分组;

对于给定的k个分组,给出初始的分组方法,以后通过反复迭代改变分组,使得每一次改进之后的分组方案都较前一次好,包括下述步骤:

1>初始化:输入基因表达矩阵作为对象集x,输入指定聚类类数n,并在x中随机选取n个对象作为初始聚类中心;设定迭代终止条件;

2>进行迭代:根据相似度准则将数据对象分配到最接近的聚类中心,从而形成一类;初始化隶属度矩阵(隶属度属于模糊评价函数里的概念);

3>更新聚类中心;然后以每一类的平均向量作为新的聚类中心,重新分配数据对象;

4>反复执行第2>步和第3>步直至满足终止条件,终止条件包括设定最大循环次数或者聚类中心收敛误差容限;

5>评价标准:

假设有m个数据源,c个聚类中心,μc为第c个聚类中心,x(i)表示第i个数据对象,i表示从1开始,一直到m个,是计数单位,μ表示聚类中心;该公式的意思指的是将每个类中的数据与每个聚类中心做差的平方和使得j最小,意味着分割的效果最好;

系统硬件资源评估指标的聚类分析最终形成分布图,并得到评估指标和数值聚类中心。

进一步地,所述硬件资源监测指标关联分析包括:集中运维中心对系统硬件资源评估指标和系统的关键运行进程进行关联分析,并定义关联规则,使用apriori算法进行关联分析的步骤如下:

1)对硬件资源评估指标和进程所属的应用类型(关于应用的分类,我们在之前的专利中有说明数据采集的应用类型,智能电网调度控制系统中有专门对应用类型的标准分类定义。可以查阅相关书籍或标准)进行分类;按照时间分别进行排序,在每个进程故障下记录同时刻资源评估指标,并求和;

2)将每个进程故障时的资源评估指标出现高频变化或异常情况的次数小于2次的进程进行减枝,去除掉偶然因素;

3)在余下的进程和资源评估指标对应表中去除掉其他进程故障时资源评估指标出现高频(高频是一个相对量,根据样本空间的大小可以自行定义。本发明中频次大于10%时,都认为具有高相关度)变化或异常的记录,避免由于其他进程异常影响当前关联分析结果;

4)计算剩下进程和资源评估指标对应表出现高频变化或异常时的频次,对频次低于10%的进行减枝,即去除不确定性,剩下的进程和资源评估指标对应表即认为具有强相关性,计算置信度。

与最接近的现有技术相比,本发明提供的技术方案具有的优异效果是:

1)在集中运维模式下规范了智能电网调度控制系统硬件资源的监测范围和指标类型,形成了系统硬件资源统一规范的评估标准,有利于同行业范围内标准化指标的对比。

2)采用分周期多方式的数据采集方法,减轻了在集中运维模式下各级智能电网调度控制系统数据传输的压力,采取方式轻便灵活,有利于对多级系统监测指标的个性化配置。

3)在集中运维模式下建立了智能电网调度控制系统硬件资源监测指标的分析与评估模型,明确了各类指标的构成和关系,实现了对单系统硬件资源和多级系统硬件资源进行分析、评估和对比,并为系统硬件资源指标的深度分析提供了基础数据。

4)在集中运维模式下提出了智能电网调度控制系统硬件资源分析与评估的数值分析方法,采用时间序列分析评估系统硬件资源风险趋势,采用聚类分析计算各类评估指标的数值分布中心,采用关联分析挖掘关键进程异常对系统资源使用率造成的潜在风险,并通过条件概率的计算从数值上表达两者的关联程度。

附图说明

图1是本发明提供的实时指标传输流程图;

图2是本发明提供的周期性指标传输流程图;

图3是本发明提供的多级系统硬件资源指标分析与评估立方体模型图;

图4是本发明提供的系统硬件资源使用率聚类分析示意图,其中图4(a)、4(b)分别为评估指标,图4(c)-4(f)的点为聚类分析后各类内部成员;

图5为本发明提供的基于集中运维的硬件资源分析与评估方法的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的组件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,本发明的这些实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。

依据本发明基于集中运维的智能电网调度控制系统硬件资源分析与评估方法,器流程图如图5所示,包括以下步骤:

1)定义系统硬件资源监测指标的类型,针对接入调度数据网中的所有应用服务器和重要工作站的磁盘空间使用率、cpu占用率以及内存使用率三种监测指标。为了减轻通信数据传输压力,进一步将监测指标按采集周期划分为实时指标和周期性统计指标,其中实时指标要求更新周期为3-5秒,周期性统计指标的更新周期为5或10分钟两种周期;

定义系统硬件资源指标类型:

集中运维中心对智能电网调度控制系统硬件资源使用情况进行监视,主要是针对接入调度数据网中的所有应用服务器和重要工作站的磁盘空间使用率、cpu占用率以及内存使用率三种监测指标。为了减轻通信数据传输压力,进一步将监测指标按采集周期划分为实时指标和周期性统计指标,其中实时指标要求更新周期为3-5秒,周期性统计指标的更新周期为5或10分钟两种周期。三类指标的具体定义如下所列:

cpu使用率——各系统内某个节点的cpu即时利用率。在数据点表中一条记录一个值,用遥测发送。

内存使用率——各系统内某个节点的内存即时利用率。在数据点表中一条记录一个值,用遥测发送。

磁盘空间使用率——各系统内某个节点的磁盘空间使用率,重点关心该节点的根目录和主用户目录的空间使用率。在数据点表中一条记录一个值,用遥测发送。

2)系统硬件资源指标的分周期采集方法,实时指标的通过接入调度数据网的前置采集服务器采用dl476协议的字符串数据块分别与各调控中心调度控制系统进行数据传输;周期性指标由文件服务客户端、指标采集客户端和指标汇总与分析客户端组成,通过scp或ftp文件服务将周期性指标按设定的周期加密传输给集中运维中心,集中运维中心通过解压、解密和解析程序将周期性指标直接存入历史数据库中。

2.1实时指标的采集:

实时指标的通过接入调度数据网的前置采集服务器采用dl476协议的字符串数据块分别与各调控中心调度控制系统进行数据传输,硬件资源监测指标的收集和传输包括各地系统数据的采集端、系统数据的接收端、通信传输协议的设定来实现智能电网调度控制系统硬件资源监测指标的集中采集。为了达到这一目标,需要集中运维中心具备各系统硬件资源监测指标的接收功能,省级及以上调控中心具备系统硬件资源监测指标的转发功能。

首先依据双方事先约定好的数据通信索引文件,从各地系统实时库中获取所需要的硬件资源监测指标传输给集中运维中心。集中运维中心数据接收程序与省级及以上调控中心采集系统建立tcp连接,接收各类数据,并存储到运维中心系统的实时库中。实时性指标的传输流程如图1所示:

1)首先创建tcp连接。

2)发送启动应用:dl476为a_associate。

3)收到启动确认:dl476为a_associate_ack。

4)发送端即时扫描数据通信索引文件中的数据,如果有变化数据产生或者时间达到全数据周期的要求,则发送数据报文。

5)接收端对收到的数据报文进行确认。

6)若15秒内没有系统数据传输,发送端或接收端可以发送测试报文,对端给予确认。dl476为a_test(原因码区分测试和测试确认)。

7)发送端或接收端可以关闭连接,对端可以给予确认。dl476为a_abort表示断开,a_abort_ack表示断开确认。

2.2周期性指标采集

周期性指标由文件服务客户端、指标采集客户端和指标汇总与分析客户端组成。指标采集客户端部署在被采集设备上,通过读历史库、运行测试程序、系统日志和操作系统信息等方式提取硬件资源监测指标,发送到指标汇总与分析客户端在调控中心本地对指标进行分类、统计、汇总和分析后,将处理好的指标压缩后发送给前置服务客户端后通过scp或ftp文件服务将周期性指标按设定的周期加密传输给集中运维中心,集中运维中心通过解压、解密和解析程序将周期性指标直接存入历史数据库中进行后期分析统计。周期性指标的传输流程如图2所示:

(1)某个时间点得到各节点服务器或工作站上的采集指标,采集周期从配置库中读取,将指标写入实时数据库中。

(2)历史采样程序将采集指标按采样周期写入历史库中存档。

(3)分析汇总程序将历史库中的采样数据读出,通过分析与评估程序对基础数据进行加工,后写入相应的历史指标库中,并形成分析与评估日志文件。

(4)调控中心的文件服务客户端按周期读取分析与评估日志文件,通过ftp或scp服务定时将加密文件传输到集中运维中心指定的文件服务客户端的指定目录下。

(5)集中运维中心将指定目录下的文件解压、解密后,将分析与评估的指标写入实时库中,通过人机界面进行监视,且数据的刷新周期与采集周期相同。

3)建立系统硬件资源监测指标的分析与评估模型,包括系统硬件资源监测指标分析与评估递归模型和多级系统硬件资源监测指标分析与评估立方体模型。

具体的:

3.1系统硬件资源监测指标分析与评估递归模型

系统资源监测指标分析与评估采用了递归模型,由低级的基础数据通过递归计算形成高级的分析与评估指标,其包括配置数据、基础数据、监测指标、单个设备统计指标、系统资源统计指标和计算评估指标六个部分,如下表1所示。

1)配置数据——系统所监测的各类设备的数量、设备类型、型号等属性信息和各类设备监测指标的限值设置。

2)基础数据采集——包括cpu使用率、内存占用率和磁盘分区使用率,系统硬件资源监测指标是通过对基础数据的监测、分析和统计生成。

3)监测指标——通过配置数据中的指标限值,对基础采集数据进行监测的量,包括越限起止时间、满载起止时间和资源增长率。

4)单个设备统计指标——按日、月、年度对各个设备监测指标进行统计,包括各类监测指标的持续时间、次数、详细信息、越限率、满载率、增长率,并依据配置数据中的设备型号、类型和厂家等属性从局部对系统硬件资源进行分类统计,生成针对性的统计数据。

5)系统资源统计指标——按日、月、年度对监测指标进行统计,包括各类监测指标的持续时间、次数、百分比、越限率、满载率、增长率。从整体对一个系统的硬件资源使用情况进行评估和分析,生成全局性的统计数据。

6)计算评估指标——按日、月、年度对统计指标进行数值分析,包括平均值、最大值、最小值、四分位百分比分布、时间堆积分布、按指标结果依据设备类型和持续时间进行计算,分别生成从局部和整体对系统硬件资源风险预测的基础数据。

表1系统硬件资源监测指标分析与评估递归模型表

3.2多级系统硬件资源监测指标分析与评估立方体模型

多级系统硬件资源监测指标分析与评估采用了立方体模型,如图3所示,分别从a、q和y三个维度对系统硬件资源进行分析与评估,其中a——表示从属于国、分、省三级调控中心不同地区的系统,q——表示某一种评估指标,y——表示时间。立方体模型能够对不同地区的系统通过时间轴的推移对不同的统计指标进行分析与对比,其中每个单位立方体表示某地区某时间段内该指标的平均值。

4)系统硬件资源分析与评估方法,包括系统硬件资源基本指标的定义和计算方法,系统硬件资源风险趋势分析方法,系统硬件资源监测指标聚类中心分析方法和硬件资源监测指标关联分析方法。

4.1基本指标的计算

单位时间都转化为小时计算。

1)单个设备日越限率=单个设备日越限持续时间/24

2)单系统某类设备日越限率=单系统某类设备日越限持续时间/24*某类设备个数

3)全系统某类设备日越限率=全系统某类设备日越限持续时间/24*全系统某类设备个数

4)全系统硬件资源日越限率=全系统硬件资源日越限持续时间/24*全系统监视设备个数

5)单个设备月越限率=单个设备月越限持续时间/24*月度天数

6)单系统某类设备月越限率=单系统某类设备月越限持续时间/24*月度天数*某类设备个数

7)全系统某类设备月越限率=全系统某类设备月越限持续时间/24*月度天数*全系统某类设备个数

8)全系统硬件资源月越限率=全系统硬件资源月越限持续时间/24*月度天数*全系统监视设备个数

9)单个设备年越限率=单个设备各月越限率之和

10)单系统某类设备年越限率=单系统某类设备各月越限率之和

11)全系统某类设备年越限率=全系统某类设备各月越限率之和

12)全系统硬件资源年越限率=全系统硬件资源各月越限率之和

13)某类指标的月平均越限率=全年各月度某类指标计算值之和/12(月度数)

14)某类指标的日平均越限率=全年各日度某类指标计算值之和/365或366(年度天数)

15)单个设备资源使用的增长率=(t时刻单个设备资源使用率-m时刻单个设备资源使用率)/(t-m),其中t>m

16)单个设备越限率百分比=单个设备越限率/该系统该类设备越限率*100%

17)某系统某类设备越限率百分比=某系统某类设备越限率/该系统硬件资源越限率*100%

18)全系统某类设备越限率百分比=全系统某类设备越限率/全系统硬件资源越限率*100%

19)系统资源满载率百分比=系统资源满载次数/系统资源越限次数*100%

20)系统资源满载率百分比=系统资源满载持续时间/系统资源越限持续时间*100%

21)系统资源使用率四分位百分比分析:按0-100%进行四分位等分,计算每个区间中资源使用率的占比和分布。

4.2风险趋势分析

智能电网调度控制系统硬件资源的风险趋势分析采用了时间序列分析法arima模型,对评估指标的历史数据进行建模,将评估指标随时间推移而形成的数据序列看作是一个随机序列,这组随机变量所具有的依存关系体现着原始数据在时间上的延续性。一方面,受外界因素的影响,另一方面,又有自身变动规律,假定影响因素为x1,x2,…,xk,由回归分析,

yt=β1x1+β2x2+…+βpxp+z(4-1)

yt=β1x1+β2x2+…+βpxp+z(4-1)

其中:y是评估指标的观测值,yt表示第t个观测值,t是下标,yt的意思是评估指标的观测值,为预测对象,z为误差,其中β0,β1,β2,...,βpp为一组不全为零的数,p是一个数域,yt,yt-1,...,yt-p分别表示第t个观测值、第t-1个观测值,...,第t-p个观测值,作为预测对象yt受到自身变化的影响,其规律由下式体现,

yt=β1yt-1+β2yt-2+…+βpyt-p+zt(4-2)

误差项在不同时期具有依存关系,由下式表示,

zt=εt+α1εt-1+α2εt-2...+αqεt-q(4-3)

其中,εt,εt-1,...,εt-q表示单位向量,α1,α2,...,αqp为一组不全为零的数,p是一个数域,由此,获得评估指标的arma模型表达式:

yt=β0+β1yt-1+β2yt-2+…+βpyt-p+εt+α1εt-1+α2εt-2...+αqεt-q(4-4)

通过对数据模型的计算,预测资源使用率的未来趋势,评估硬件资源使用情况的风险。集中运维中心使用arima模型对磁盘使用率越限持续时间进行时间序列分析的步骤如下:

1)检查待计算指标的时间序列是否存在缺失值,若存在缺失值则用上一个时间间隔(上一个时间间隔数据不存在用下一个时间间隔数据)数据进行填充。

2)利用自相关分析和偏相关分析等方法分析时间序列的随机性、平稳性及季节性,选择合理的时间序列分析模型进行计算。

3)数据模型确定后对计算指标进行拟合,根据拟合后的数据与时间的关系,形成时间序列分析图。

4)经过对时间序列拟合曲线形状的分析计算指标走势,并结合多种指标的数值分析结果说明系统资源使用情况存在的风险。

4.3聚类中心分析

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类(cluster)分析是由若干模式(pattern)组成的,通常,模式是一个度量(measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。系统硬件资源使用率的聚类分析主要使用划分法(partitioningmethods)进行分析,即给定一个有n个元组或者纪录的数据集,分裂法将构造k个分组,每一个分组就代表一个聚类,k<n。而且这k个分组满足下列条件:

(1)每一个分组至少包含一个数据纪录;

(2)每一个数据纪录属于且仅属于一个分组;

对于给定的k,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。聚类算法的一般步骤:

1)初始化。输入基因表达矩阵作为对象集x,输入指定聚类类数n,并在x中随机选取n个对象作为初始聚类中心。设定迭代中止条件,比如最大循环次数或者聚类中心收敛误差容限。

2)进行迭代。根据相似度准则将数据对象分配到最接近的聚类中心,从而形成一类。初始化隶属度矩阵。

3)更新聚类中心。然后以每一类的平均向量作为新的聚类中心,重新分配数据对象。

4)反复执行第二步和第三步直至满足中止条件。

5)评价标准:

假设有m个数据源,c个聚类中心。μc为聚类中心。该公式的意思也就是将每个类中的数据与每个聚类中心做差的平方和,j最小,意味着分割的效果最好。

系统硬件资源评估指标的聚类分析最终形成分布图,并得到评估指标和数值聚类中心,如图4所示(其中(a)、(b)图中为评估指标,图(b)-(f)中的x为聚合点,图(c)-(f)的点为聚类分析后各类内部成员)。

4.4关联分析:

系统硬件资源评估指标的关联分析使用了apriori算法,这是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法使用频繁项集性质的先验知识,使用一种称作逐层搜索的迭代方法。首先,找出频繁1-项集的集合。该集合记作l1。l1用于找频繁2-项集的集合l2,而l2用于找l3,如此下去,直到不能找到频繁k-项集。找每个lκ需要一次数据扫描。具体的步骤包括连接步和剪枝步迭代进行。

连接步:为找lκ,通过lκ-1与自己连接产生候选k-项集的集合。该候选项集的集合记作cκ。设l1和l2是lκ-1中的项集。记号li[j]表示li的第j项(例如,l1[k-2]表示l1的倒数第3项)。为方便计,假定事务或项集中的项按字典次序排序。执行连接lκ-1;其中,lκ-1的元素是可连接的,如果它们前(k-2)个项相同;即,lκ-1的元素l1和l2是可连接的,如果(l1[1]=l2[1])∧(l1[2]=l2[2])∧…∧(l1[k-2]=l2[k-2])∧(l1[k-1]<l2[k-1])。条件(l1[k-1]<l2[k-1])是简单地保证不产生重复。连接l1和l2产生的结果项集是l1[1],l1[2]…l1[k-1],l2[k-1]。

剪枝步:cκ是lκ的超集;即,它的成员可以是,也可以不是频繁的,但所有的频繁k-项集都包含在cκ中。扫描数据库,确定cκ中每个候选的计数,从而确定lκ(即,根据定义,计数值不小于最小支持度计数的所有候选是频繁的,从而属于lκ)。然而,cκ可能很大,这样所涉及的计算量就很大。为压缩cκ,用以下办法使用apriori性质:任何非频繁的(k-1)-项集都不是可能是频繁k-项集的子集。因此,如果一个候选k-项集的(k-1)-子集不在lκ-1中,则该候选也不可能是频繁的,从而可以由cκ中删除。这种子集测试可以使用所有频繁项集的散列树快速完成。

集中运维中心对系统硬件资源评估指标和系统的关键运行进程进行了关联分析,并定义关联规则,使用apriori算法进行关联分析的步骤如下:

1)对硬件资源评估指标和进程进行分类;按照时间分别进行排序,在每个进程故障下记录同时刻资源评估指标,并求和。

2)将每个进程故障时的资源评估指标出现高频变化或异常情况的次数小于2次的进程进行减枝,去除掉偶然因素。

3)在余下的进程和资源评估指标对应表中去除掉其他进程故障时资源评估指标也出现高频变化或异常的记录,避免由于其他进程异常影响当前关联分析结果。

4)计算剩下进程和资源评估指标对应表出现高频变化或异常时的频次,对频次低于10%的进行减枝,即去除不确定性,剩下的进程和资源评估指标对应表即认为具有强相关性,计算置信度。

以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1