云环境下基于混合策略的故障检测性能优化方法与流程

文档序号:16245101发布日期:2018-12-11 23:30阅读:141来源:国知局
云环境下基于混合策略的故障检测性能优化方法与流程

本发明属于云技术领域,提供了一种云环境下基于混合策略的故障检测性能优化方法。

背景技术

近年来,云计算技术得到飞速发展,然而,云计算平台的应用多样性,以及云环境的动态性导致云计算系统不时发生故障,从而对人们正常的工作生活产生严重影响,也会造成相关企业巨大的经济损失。云系统通常要求同时响应数以百万级别的用户请求,其承受的巨大工作量,多变的系统运行环境导致会发生许多故障。例如,通过周期为1年的观测,在阿里云计算公司的一个很小集群中,也会碰到每天100条左右的各种类型故障预警。

由于云计算系统结构复杂,体量巨大,检测系统要求能从多个节点上检测多个层次(如系统层、中间件层、应用层)各种资源使用量的检测数据,为云计算系统的运行状态持续检测提供信息。但是,检测、传送以及分析众多检测数据肯定会导致云系统资源的巨大消耗,从而会降低云系统性能、异常检测的时效性和准确性。而亚马逊cloudwatch检测系统和谷歌检测系统只支持固定时长的检测周期,如对几分钟检测数据收集一次。同样,从使用者的方面角度,使用云平台检测服务要求费用与检测的频率成正比,检测费用会占总共运行费用的18%。因此云系统维护人员和使用者希望能够减少检测对象数量和降低检测频率(在单位时间内的检测数据的检测次数),以降低云系统维护成本和使用费用。由于故障在持续检测的周期内发生,虽然检测对象过少以及检测频率过低降低云系统开销,但是,有效检测数据过少,也会降低故障检测的准确性与时效性。因此,如何调节检测监测频率,成为检测云计算系统并保证云系统可靠性的关键。

一般云系统的检测采用固定时间周期。固定时间周期对每个检测设置一个固定时长的检测周期,收集器采用了能够远端调节检测周期的方式,但是对于使用人为调节方式来调节检测粒度,很难快速对数据响应。nagio采用固定时间方式检测优化。该检测面临问题是云系统正常运行下收集的检测数据通常是在警戒线以下,无需对所产生的故障预警进行处理,云系统会继续按照先前设定的时间周期对采样的数据进行收集,而实际上该预警的时间点占检测时间的比重非常少,意味着云系统浪费很多的资源去收集无效的数据,同时增加观察数据时间和云系统维护人员的压力。



技术实现要素:

本发明实施例提供一种基于云环境下基于混合策略的故障检测性能优化方法,选取多个对云故障预警有效属性,利用检测节点收集实时检测数据对故障进行预警,基于运行环境的故障程度来动态调节检测周期,以降低云系统检测成本。

本发明是这样实现的,一种基于云环境下基于混合策略的故障检测性能优化方法,所述方法包括如下步骤:

s1、对云系统运行环境进行异常程度评估;

s2、基于云系统运行环境的异常程度来确定云系统的检测时间周期。

进一步的,所述步骤s1具体包括如下步骤:

s11、基于决策树模型及svm模型来检测云系统中的故障样本;

s12、计算故障样本的故障概率;

s13、基于故障样本的故障概率来评估云系统运行环境的异常程度。

进一步的,所述步骤s11具体包括如下步骤:

s111、通过决策树模型检测云系统中的样本,将样本区分为正常样本一及异常样本一,采用标识一对正常样本一进行标识;

s112、通过svm模型检测云系统的样本,将样本区分为正常样本二及异常样本二,采用标识二对正常样本二进行标识;

s113、被标识一和标识二共同标记的样本确定为正常样本;否则,确定为故障样本。

进一步的,所述云系统运行环境异常程度的计算公式具体如下:

其中,pi表示云系统在ti时刻运行环形的异常程度值,表示di的决策值,决策值是基于决策函数获取的,其中f1,f2分别是指二次规划求解得到的最小值及拉格朗日乘子的和。

进一步的,云系统的检测时间周期采用如下公式进行计算:

其中,ti+1为第i+1时刻对云系统检测时间周期;tα为最大检测时间周期,为预先设置的参数;tβ为最小检测时间周期,为预先设置的参数,r为调节比例,ν1,ν2,ν3为预设边界值。

进一步的,ν1,ν2,ν3值的确定方法包括如下步骤:

s31、在训练样本库中,设置v1,v2,v3值,v1,v2,v3值的设置方法具体如下:

设置v1的初始值为0,取值步长为s,最终值为1;

当v1在[0,1]范围内每取一个值,设置v2的初始值为v1+s,取值步长为s,最终值为1,且设置v3的初始值为v2+s,取值步长为s,最终值为1;s32、将故障样本检测率最高的v1值,v2值,及v3值组合分别赋予ν1,ν2,ν3。

本发明提供的基于混合策略的故障检测性能优化方法具有如下有益技术效果:

1.通过决策树检测策略与svm检测策略的配合使用,大大降低云故障的漏报率,进而提高了云系统运行环境异常程度评估的精准性;

2.基于云系统运行环境异常程度自适应调节检测周期,异常程度低,检测周期长,异常程度高,检测周期短,从而达到检测周期的合理性,在提高故障检测的针对性的同时降低其代价;

3.决策树检测策略与svm检测策略的配合使用,使得云系统异常程度的评估更精准,进而进一步提高了云系统检测周期合理性。

附图说明

图1为本发明实施例提供的云环境下基于混合策略的故障检测性能优化方法的流程图;

图2为本发明实施例提供的ν1,ν2的阈值寻优图;

图3为本发明实施例提供的ν1,ν3的阈值寻优图;

图4为本发明实施例提供的混合策略模型pso与经典算法grid的选优参数time耗费比较图;

图5为本发明实施例提供的混合策略与scnn、pnn检测率比较图;

图6为本发明实施例提供的混合策略与scnn、pnn效用率比较图;

图7为本发明实施例提供的动态周期与固定周期检测率比较图;

图8为本发明实施例提供的动态周期与固定周期效用率比较图;

图9为本发明实施例提供的不同策略下检测率的方差比较图;

图10为本发明实施例提供的不同策略下效用率的方差比较图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

图1为本发明实施例提供的云环境下基于混合策略的故障检测性能优化方法的流程图,该方法包括如下步骤:

s1、对云系统运行环境进行异常程度评估;

在本发明实施实施例中,步骤s1具体包括如下步骤:

s11、通过混合策略检测云系统中的故障样本;

在本发明实施例中,混合策略是指决策树模型与svm模型的结合,基于混合策略的云系统故障样本检测方法包括如下步骤:

s111、通过决策树模型检测云系统中的样本,将样本区分为正常样本一及异常样本一,采用标识一对正常样本一进行标识;

s112、通过svm模型检测云系统的样本,将样本区分为正常样本二及异常样本二,采用标识二对正常样本二进行标识;

s113、被标识一和标识二共同标记的样本确定为正常样本;否则,确定为故障样本。

通过决策树对云系统进行监控,获得第ti时刻故障样本数据di,对样本进行初次分类,分类为正常样本一和异常样本一,正常样本一采用c1=1进行标识,异常样本一采用c1=0进行标识。决策树对噪声点比较敏感,为了避免噪声点对分类结果的影响,同时采用svm检测策略对云系统进行监测,获得第ti时刻故障样本数据di,对样本进行初次分类,分类为正常样本二和异常样本二,正常样本二采用c2=1进行标识,异常样本二采用c2=0进行标识,定义:若c1c2=1,则认为其是正常样本,若c1c2=0,则认为异常样本,通过决策树检测策略与svm检测策略大大降低云故障的漏报率。

此外,决策树模型具有高效处理收集的数据,同时其预测的结果具有直观的特点,决策树对于分类有很好的效果,对样本集a,采用决策树进行故障分类,得到分类结果b,同时针对该样本集a,基于svm进行故障分类,得到另一种分类结果c,排除掉b、c中都认可的正常样本。基于决策树和svm可以提高正常样本的辨别率,从而提高故障样本的分类准确性。

s12、计算故障样本的故障概率;

本文通过基于决策树和svm的混合策略模型,找到最优系统正常与系统

基于svm模型,找到云系统异常与系统正常分界超平面,使用在ti时刻故障样本数据点di距离向量机超平面距离的远近定义系统异常概率,当样本点划分到系统正常一侧,即采用最低检测频率检测,减少系统开销,当对云监控系统获得的在ti时刻故障样本数据点di划分到系统异常一侧,即利用样本点di与超平面距离计算概率。

s13、基于故障样本的故障概率来评估云系统运行环境的异常程度;

在本发明实施例中,因为一条样本包含有多个属性值,如(cpu,内存,硬盘),在某个时刻都只有一个值,因此在同一时刻,最多只有一个样本出现,也最多只有一个样本出现故障,因此,云系统运行环境异常程度基于故障样本的故障概率来进行评估,其计算公式具体如下:

其中,pi表示云系统在ti时刻运行环形的异常程度值,表示di的决策值,决策值是基于现有的决策函数获取的,其中f1,f2分别是指二次规划求解得到的最小值及拉格朗日乘子的和。

s2、基于云系统运行环境的异常程度来确定云系统的检测时间周期。

在本发明实施例中,根据云系统异常程度结果来计算时间间隔,决定下一次所采用的时间周期,时间周期的改变需要考虑可能故障点,本文采用的改变时间周期的策略是,下个时间点出现云系统异常程度大则减少时间周期,否则増加时间周期提高其效率,云系统的检测时间周期采用如下公式进行计算:

其中,ti+1为第i+1时刻对云系统检测时间周期;tα为最大检测时间周期,为预先设置的参数;tβ为最小检测时间周期,为预先设置的参数,r为调节比例;ν1,ν2,ν3为预设阶段边界值。上式表示的四个阶段中,第一个阶段0≤pi<ν1,表示系统异常程度低,因此,检测周期应该最大,为tα;第四个阶段的系统异常程度最高,因此检测周期最小,以提高故障检测强度。该公式的创新之处是:该方法的阶段的边界是动态寻优得到的,因此能够使得故障检测周期能够达到最优。而如果设定的阶段的边界是固定值时,将无法得到最优值。

考虑云系统异常程度的结果,当0≤pi<ν1,ν3<pi≤1时,检测时间周期将分别采用tα,tβ,以避免无意义的检测检测浪费资源;当ν1≤pi≤ν3时,检测时间周期将采用(1-pi)(tα-tβ),加入一个比例系数r,对ν1≤pi≤ν3进一步细分,从而可以再一步提高云系统状态检测性能。

在本发明实施例中,ν1,ν2,ν3值的确定方法包括如下步骤:

s31、在训练样本库中,设置v1,v2,v3值,v1,v2,v3值的设置方法具体如下:

设置v1的初始值为0,取值步长为s,最终值为1;

当v1在[0,1]范围内每取一个值,设置v2的初始值为v1+s,取值步长为s,最终值为1,且设置v3的初始值为v2+s,取值步长为s,最终值为1;s32、将故障样本检测率最高的v1值,v2值,及v3值组合分别赋予ν1,ν2,ν3。

训练样本库中设有w个训练样本,其中有r故障样本,在训练样本库中,遍历v1,v2,v3取值组合,以获取故障样本检测率最高的v1值,v2值,及v3值组合,并将故障样本检测率最高的v1值,v2值,及v3值组合分别赋予ν1,ν2,ν3。

在本发明实施例,寻找最佳的算法如算法1所示:

运行算法1对ν1,ν2,ν3的选优过程进行实验分析,在实验分析中,取值步长为s=0.1,其中,图2为ν1,ν2的阈值寻优图,图3为ν1,ν3的阈值寻优图,从图2及图3可知,故障样本检测率最优时,ν1=0.3,ν2=0.5,ν3=0.7。

本发明提供的基于混合策略的故障检测性能优化方法具有如下有益技术效果:

1.通过决策树检测策略与svm检测策略的配合使用,大大降低云故障的漏报率,进而提高了云系统运行环境异常程度评估的精准性;

2.基于云系统运行环境异常程度自适应调节检测周期,异常程度低,检测周期长,异常程度高,检测周期短,从而达到检测周期的合理性,在提高故障检测的针对性的同时降低其代价;

3.决策树检测策略与svm检测策略的配合使用,使得云系统异常程度的评估更精准,进而进一步提高了云系统检测周期合理性。

对本发明提出的动态检测周期方法(简称proposed),与scnn和pnn方法进行比较。scnn有很多具体形式和不同的学习算法,竞争网络可分为输入层和竞争层。pnn是一种由径向基函数发展而来的前馈型算法,主要有bayes最小风险准则提供理论支持。pnn具有以下优点:pnn过程简单,收敛速度快,在bayes最优解总收敛,并且其稳定性高,能够容忍个别问题样本,本发明进行如下七组实验:

一、进行优选参数的时间耗费实验

以发明提出的混合策略模型pso与经典算法grid的选优参数time耗费为例进行说明,为避免随机性影响结果,图4给出了两种模型下的5组实验结果,发现时间耗费数值上存在比较明显的差异,混合策略下pso可以得出本文提出混合策略模型pso相比经典算法grid时间耗费较低。

二、进行检测率试验

以本发明提供的混合策略与scnn,pnn检测率为例进行说明,为避免随机性影响结果,通过5组实验进行说明,图5给出了三种模型下的检测率,发现检测率数值上存在比较明显的差异,本发明提供的混合策略比scnn,pnn在具有较高检测率,其中,检测率的计算公式如下:

其中,mi表示成功检测,m表示检测总样本数。

三、进行效用率实验

以本发明提供的混合策略与scnn,pnn效用率为例进行说明,为避免随机性影响结果,通过5组实验进行说明,图6给出了三种模型下的效用率,发现3种模型utilityratio数值上存在的差异,总体上,本发明提供的混合策略比scnn,pnn在效用率高。其中,效用率(utilityratio)变量,用于表明模型的效率,定义如下:

其中,m为样本个数,si={0,1}(其中1代表成功检测,0代表未成功检测),ti为时间周期。

四、动态周期与固定周期检测率

为避免随机性影响结果,对本文方法采用动态周期与固定周期进行5组实验,固定周期分别为600s,1200s,图7为动态周期与静态周期下的检测率比较图,发现检测率数值上存在明显的差异,总体上,混合策略下动态周期普遍比固定周期检测率高,可以得出本文提出混合策略模型动态周期相比固定周期检测率较高。

五、动态周期与固定周期效用率

为避免随机性影响结果,对本文方法采用动态周期与固定周期进行5组实验,固定周期分别为600s,1200s,图8为动态周期与静态周期下的效用率图,从图8可知:本文方法基于动态周期普遍比固定周期效用率高。

六、检测率方差比较

图9给出不同策略下检测率的方差比较图,从图9可知:本方法基于动态周期和固定周期比scnn方差低,动态周期比固定周期方差略大些,表明其检测率波动幅度稍大,固定周期及pnn的实验结果表现稍好,它们小于0.002。

七、效用率方差比较

图10给出不同策略下效用率的方差比较图,本方法基于动态周期和固定周期比scnn在效用率实验结果上波动幅度较小。表明其效用率波动幅度较小,两者相差远超过0.002,同时结合图6及图8,可知本文动态周期检测方法的效用率实验结果表现较好。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1