监控阈值确定方法及装置、监控报警方法、装置及系统与流程

文档序号:11949949阅读:662来源:国知局
监控阈值确定方法及装置、监控报警方法、装置及系统与流程
本发明涉及设备监控管理
技术领域
,特别涉及一种监控阈值确定方法及装置、监控报警方法、装置及系统。
背景技术
:传统的IT运营监控管理是通过设备上报故障告警实现的。比如,在对主机服务器进行监控管理时,一般是检测某时间点上的主机服务器的性能指标实际值,并将性能指标实际值与运营人员设定的报警监控阈值进行比较,当性能指标实际值大于或小于阈值时,说明该时间点为异常点,该异常点预示着主机故障或服务失败,通过检测这些异常点,能尽快发现、界定主机服务器硬件故障或配置错误等软故障,并快速修复,从而避免严重故障发生或缩短故障持续时间。这种方法虽然实现简单,但由于报警监控阈值是由运营人员根据经验设置的静态值,无法体现性能参数值动态变化的特性;如果报警监控阈值设置过大或者过小,将会导致漏报,使得该方法的漏报率偏高。技术实现要素:本发明实施例提供了一种监控阈值确定方法,其科学性更高,可以体现性能参数值动态变化的特性,以便于在使用这个阈值报警时降低漏报率。该方法包括:获取主机服务器的历史报警数据和预设时间内的性能参数变量值;根据预设时间内的性能参数变量值和预设的多个显著性水平α值,确定置信度为1-α的多个置信区间;根据所述历史报警数据对多个置信区间进行校验,确定最优置信区间;所述最优置信区间为所述历史报警数据与多个置信区间有交集的一个置信区间,以便当主机服务器的性能参数变量值处于最优置信区间外时产生报警信号。在一个实施例中,所述根据预设时间内的性能参数变量值和预设的多个显著性水平α值,确定置信度为1-α的多个置信区间,包括:采用Levy-Lindeberg定理,根据预设时间内的性能参数变量值和预设的多个显著性水平α值,确定置信度为1-α的多个置信区间。在一个实施例中,所述采用Levy-Lindeberg定理,根据预设时间内的性能参数变量值和预设的多个显著性水平α值,确定置信度为1-α的多个置信区间,具体包括:采用Levy-Lindeberg定理,根据预设时间内的性能参数变量值,确定样本方差S2;根据样本方差S2和预设的多个显著性水平α值,确定置信度为1-α的多个置信区间。在一个实施例中,所述根据样本方差S2和预设的多个显著性水平α值,按照如下方式确定置信度为1-α的多个置信区间:(X-t1-α2.Sn,X+t1-α2.Sn);]]>其中,Xi表示为服从总体N(u,σ2)的样本;n表示样本个数;u表示总体均值;σ2表示总体方差;S2表示样本方差;t表示统计量,本发明实施例还提供了一种监控阈值确定装置,其科学性更高,可以体现性能参数值动态变化的特性,以便于在使用这个阈值报警时降低漏报率。该装置包括:数据获取模块,用于获取主机服务器的历史报警数据和预设时间内的性能参数变量值;置信区间确定模块,用于根据预设时间内的性能参数变量值和预设的多个显著性水平α值,确定置信度为1-α的多个置信区间;最优置信区间确定模块,用于根据所述历史报警数据对多个置信区间进行校验,确定最优置信区间;所述最优置信区间为所述历史报警数据与多个置信区间有交集的一个置信区间,以便当主机服务器的性能参数变量值处于最优置信区间外时产生报警信号。在一个实施例中,所述置信区间确定模块具体用于:采用Levy-Lindeberg定理,根据预设时间内的性能参数变量值和预设的多个显著性水平α值,确定置信度为1-α的多个置信区间。在一个实施例中,所述置信区间确定模块具体用于:采用Levy-Lindeberg定理,根据预设时间内的性能参数变量值,确定样本方差S2;根据样本方差S2和预设的多个显著性水平α值,确定置信度为1-α的多个置信区间。在一个实施例中,所述置信区间确定模块具体用于:按照如下方法确定置信度为1-α的多个置信区间:(X-t1-α2.Sn,X+t1-α2.Sn);]]>其中,Xi表示为服从总体N(u,σ2)的样本;n表示样本个数;u表示总体均值;σ2表示总体方差;S2表示样本方差;t表示统计量,本发明还提供了一种监控阈值报警方法,该方法使用上述方法获得的监控阈值进行报警,可以降低漏报率。该方法包括:获取最优置信区间,所述最优置信区间由上述监控阈值确定方法确定;获取实时的主机服务器的性能参数变量值;将所述性能参数变量值与最优置信区间进行比较,当所述性能参数变量在最优置信区间范围外时,产生报警信号。本发明还提供了一种监控阈值报警装置,该方法使用上述方法获得的监控阈值进行报警,可以降低漏报率。该装置包括:最优置信区间获取模块,用于从监控阈值确定装置中获取最优置信区间;变量值获取模块,用于获取实时的主机服务器的性能参数变量值;报警模块,用于将所述性能参数变量值与最优置信区间进行比较,当所述性能参数变量在最优置信区间范围外时,产生报警信号。本发明还提供了一种监控报警系统,包括:上述所述的监控阈值确定装置;上述所述的监控报警装置。在本发明实施例中,本发明中的监控阈值是通过以下方式获得的:通过获取的主机服务器的预设时间内的性能参数变量值和预设的多个显著性水平α值,确定置信度为1-α的多个置信区间,然后再根据主机服务器的历史报警数据对多个置信区间进行校验,确定最优置信区间,作为监控阈值;与传统的监控阈值相比,其科学性更高,可以体现性能参数值动态变化的特性,以便于在使用这个阈值报警时降低漏报率。本发明的报警方法和装置使用上述方法确定的最优置信区间(监控阈值),当主机服务器的性能参数变量值在最优置信区间范围外时,产生报警信号,这样可以降低误报率。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例提供的一种监控阈值确定方法流程图;图2是本发明实施例提供的一种监控阈值确定装置结构图;图3是本发明实施例提供的一种监控报警方法流程图;图4是本发明实施例提供的一种监控报警装置结构图;图5是本发明实施例提供的主机Host1的变量DSKPercentBus时序图;图6是本发明实施例提供的主机Host1的变量DSKPercentBus动态监控阈值示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。现有的IT运营监控管理是通过设备上报故障告警实现的,而报警监控阈值由运营人员根据经验设置的静态值,该方法虽然实现简单,但是其科学性较差,无法体现性能参数值动态变化的特性。如果报警监控阈值设置过大或者过小,将会导致漏报,使得该方法的漏报率偏高,另外,面对海量日志信息,传统的IT监控方法显得力不从心。针对上述问题,本发明提出一种监控阈值确定方法及装置,与传统的监控阈值相比,其科学性更高,可以体现性能参数值动态变化的特性,以便于在使用这个阈值报警时降低漏报率。图1是本发明实施例提供的一种监控阈值确定方法流程图,如图1所示,该方法包括:步骤101:获取主机服务器的历史报警数据和预设时间内的性能参数变量值;步骤102:根据预设时间内的性能参数变量值和预设的多个显著性水平α值,确定置信度为1-α的多个置信区间;步骤103:根据所述历史报警数据对多个置信区间进行校验,确定最优置信区间;所述最优置信区间为所述历史报警数据与多个置信区间有交集的一个置信区间,以便当主机服务器的性能参数变量值处于最优置信区间外时产生报警信号。具体实施时,本发明中提出的快速生成动态监控阈值的方法,采用了大数据“样本即全体”的思想,利用中心极限定理快速生成随机变量在总体样本空间、不同时间段、不同置信度下的动态置信区间,以此作动态监控阈值。下面介绍一下中心极限定理。根据不同的假设条件,有众多中心极限定理,常用的中心极限定理有两个:Levy-Lindeberg定理和DeMoiver-Laplace定理。它们的内容可以简述如下:1、Levy-Lindeberg定理:又称同分布中心极限定理,它的内容是:若X1,X2,…,Xn是相互独立且服从相同分布的随机变量,当n→∞时,即Σi=1nXi-nne~N(0,1)(n→∞)---(1)]]>2、DeMoiver-Laplace定理:它是Levy-Lindeberg定理的特殊情况,它的内容是:若随机变量X服从二项分布B(n,p),其中n代表试验的次数,p代表每次试验的概率,当n→∞时,X~N(np,npq),其中np代表二项分布的期望,npq代表二项分布的方差,即X-npnpq~N(0,1)---(2)]]>由于服从二项分布的随机变量X表示n重贝努里试验中(每次试验中事件A发生的概率是p)事件A出现的总次数,若令则诸Xi相互独立,且均服从参数为p的0—1分布(i=1,2,…,n),则X可以表示成这一系列相互独立的随机变量之和,X=X1+X2+...+Xn,所以由Levy-Lindeberg中心极限定理,当n→∞时,X以正态分布N(np,npq)为极限。我们根据中心极限定理获取如下的启示:1、σ2已知时,总体均值u的区间估计:设X1,X2,…,Xn为服从总体N(u,σ2)的样本。已知是u的无偏估计,且统计量因此,对于给定的显著性水平α,可从确定u的双侧α临界值使得成立,即P(X-μ1-α2.σn<u<X+μ1-α2.σn)=1-α---(3)]]>于是总体均值u的置信度为1-α的置信区间为:(X-μ1-α2.σn,X+μ1-α2.σn)---(4)]]>对一般总体,若已知总体方差在大样本情况下仍可用公式对总体均值u做区间估计。依据中心极限定理可知,不是正态分布的一般分布,当n充分大时,n个相互独立的随机变量的和是一个服从正态分布的随机变量。而由这些独立的随机变量组成的样本,其样本的平均值也是一个服从正态分布的随机变量。2、σ2未知时,总体均值u的区间估计:对于大样本而言,总体方差未知,可用样本方差S2来代替,由中心极限定理知,近似服从标准正态分布。因此对于给定的样本值x1,x2,…,xn总体均值u的置信度为1-α的置信区间为:(x-u1-α2.Sn,x+u1-α2.Sn)---(5)]]>(2)设X1,X2,…,Xn为服从总体N(u,σ2)的样本,因为σ2未知,所以用上式估计u将无法得到结果,此种情形下可用样本方差S2估计总体方差σ2,由于统计量因此,对于给定的显著性水平α,可据分位数表确定u的双侧α临界值使成立,于是总体均值u的置信度为1-α的置信区间为:(X-t1-α2.Sn,X+t1-α2.Sn)---(6)]]>由上可知,中心极限定理的核心思想是:如果一个随机变量有众多的随机因素所引起,每个因素在总的变化里起着自有作用,就可以推断描述这个随机现象的随机变量近似的服从正态分布。所以要求随机变量之和或其均值落在某个区间上的概率,只要把它标准化,用正态分布作近似计算即可。中心极限定理还揭示了离散型随机变量与连续型随机变量的内在联系,即离散型随机变量的极限分布是正态分布。另外,在中心极限定理的应用过程中,要求样本足够大,即n的取值足够大。这时,样本空间的和及其均值越接近标准正态分布,其实际效果越佳。基于上述理论,本发明采用大数据“样本即全体”的思想,对于全体样本,利用Levy-Lindeberg定理和公式(6),给出一种快速生成给定概率条件下的置信区间的方法。该方法具体步骤如图1所示。下面对该方法的每一步骤进行详细说明。步骤102具体包括:采用Levy-Lindeberg定理,根据预设时间内的性能参数变量值,确定样本方差S2;根据样本方差S2和预设的多个显著性水平α值,确定置信度为1-α的多个置信区间。首先,针对全体样本(即获取的主机服务器的预设时间内的性能参数变量值),利用大数据技术及R语言编程技术,快速计算出样本方差S2;根据实际的预设出全体样本中不同的(多个)显著性水平α,1-α为其概率;针对不同的显著性水平α,用样本方差S2代替总体方差σ2,利用公式(6),计算其置信度为1-α的多个置信区间其中,Xi表示为服从总体N(u,σ2)的样本;n表示样本个数;u表示总体均值;σ2表示总体方差;S2表示样本方差;t表示统计量,将所得到置信区间作为监控阈值,作为触发警报的上下限。最后,由于得到的是多个置信区间,所以需要利用主机服务器的历史报警数据对多个置信区间进行检验,确定其中的最优置信区间,以及相对应的最佳的显著性水平α。在实际应用时,我们可以将显著性水平α参数化,以便进行动态调整与优化。基于同一发明构思,本发明实施例中还提供了一种监控阈值确定装置,如下面的实施例所述。由于监控阈值确定装置解决问题的原理与监控阈值确定方法相似,因此监控阈值确定装置的实施可以参见监控阈值确定方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图2是本发明实施例提供的一种监控阈值确定装置结构图;如图2所示,该装置包括:数据获取模块201,用于获取主机服务器的历史报警数据和预设时间内的性能参数变量值;置信区间确定模块202,用于根据预设时间内的性能参数变量值和预设的多个显著性水平α值,确定置信度为1-α的多个置信区间;最优置信区间确定模块203,用于根据所述历史报警数据对多个置信区间进行校验,确定最优置信区间;所述最优置信区间为所述历史报警数据与多个置信区间有交集的一个置信区间,以便当主机服务器的性能参数变量值处于最优置信区间外时产生报警信号。具体实施时,置信区间确定模块202具体用于:采用Levy-Lindeberg定理,根据预设时间内的性能参数变量值和预设的多个显著性水平α值,确定置信度为1-α的多个置信区间。具体实施时,置信区间确定模块202具体用于:采用Levy-Lindeberg定理,根据预设时间内的性能参数变量值,确定样本方差S2;根据样本方差S2和预设的多个显著性水平α值,确定置信度为1-α的多个置信区间。具体实施时,置信区间确定模块202具体用于:按照如下方法确定置信度为1-α的多个置信区间:(X-t1-α2.Sn,X+t1-α2.Sn);]]>其中,Xi表示为服从总体N(u,σ2)的样本;n表示样本个数;u表示总体均值;σ2表示总体方差;S2表示样本方差;t表示统计量,本发明还提出一种监控阈值报警方法,该方法使用上述方法获得的监控阈值(最优置信区间)进行报警,可以降低漏报率。如图3所示,该方法包括:步骤301:获取最优置信区间,所述最优置信区间由上述监控阈值确定方法确定;步骤302:获取实时的主机服务器的性能参数变量值;步骤303:将所述性能参数变量值与最优置信区间进行比较,当所述性能参数变量在最优置信区间范围外时,产生报警信号。基于同一发明构思,本发明实施例中还提供了一种监控阈值报警装置,如图4所示。该装置包括:最优置信区间获取模块401,用于从监控阈值确定装置中获取最优置信区间;变量值获取模块402,用于获取实时的主机服务器的性能参数变量值;报警模块403,用于将所述性能参数变量值与最优置信区间进行比较,当所述性能参数变量在最优置信区间范围外时,产生报警信号。本发明实施例中还提供了一种监控报警系统,包括上述所说的监控阈值确定装置和监控报警装置。两个装置的功能上面已经讲过,重复之处不再赘述。下面以一具体实例,介绍如何将上述方法应用于IT运营监控中,以降低IT报警监控的漏报率。以某家金融机构IT运营监控系统为例,应用上述方法,快速生成主机服务器系统层面各变量的动态阈值,并用实际数据进行检验,观察其实际应用效果。对5台主机,每台主机的15个系统层面的变量进行监控,具体监控的主机服务器及变量信息如表1所示。其中变量信息涉及主机CUP、内存、磁盘、I/O等方面的信息。另外还获取了主机Host1的变量DSKPercentBus时序图,如图5所示。表1利用本发明方法,将上述主机及变量180天近10GB的数据(日志数据量),数据记录达2亿多条,进行计算。快速生成不同概率条件下的动态监控阈值,具体结果如图6所示。图6中包括变量DSKPercentBus的实际取值,显著性水平α=0.1时的动态阈值时序图,显著性水平α=0.01时的动态阈值时序图,和显著性水平α=0.001时的动态阈值时序图。当然上述值均可以参数化。在实际应用中,根据验证结果,调整α=0.001,然后利用其对应的置信度区间作为5台主机的15个变量的动态监控阈值。表2是传统的监控报警数据,表3是将采用本发明获得的监控报警数据与传统的监控报警数据对比,其中,加粗的是传统的监控报警数据。通过与传统的监控报警数据比较,利用本发明的方法,报警准确率为100%,报警覆盖率为100%,报警漏报率为0(传统监控的漏报率为66.7%)。其实际效果要明显优于传统的报警监控系统。表2timehost_nameparametervalue2015-10-3001:43Host1DSKPercentBusy89.522015-10-3002:19Host1DSKPercentBusy90.892015-10-3002:37Host1DSKPercentBusy90.32015-10-3001:43Host2DSKPercentBusy85.252015-10-3001:43Host3DSKPercentBusy90.62015-10-3001:43Host4DSKPercentBusy86.082015-10-3001:43Host5DSKPercentBusy88.7表3综上所述,本发明监控阈值生成方法采用的是大数据“样本即全体”的思想,同时利用了中心极限定理,快速生成各主机系统层面监控指标的分布规律和各指标在在总体样本空间、不同时间段、不同置信度下的置信区间。然后利用不同的置信区间,以参数化的形式给定各指标的动态报警阈值。本发明监控阈值生成方法包括如下优点:1、高效性。采用大数据分布式计算方法,结合R语言的优点,可对全体样本的S2、显著性水平α及其置信区间进行有效计算与快速生成。2、灵活性。将全体空间的显著性水平α参数化,便于后期优化与调整,提高了该方法在实际应用中灵活性。3、动态性。根据全体样本空间的变化,动态生成监控阈值,更好的适应了随机变量的动态变化性。本发明监控报警方法中采用的是上述方法获得的动态报警阈值,将实际数据与动态报警阈值进行比较,产生报警信息。由于该报警阈值是基于总体样本空间的,而且也是基于不同置信区间动态变化的,因此其漏报率较传统监控方法有明显改善,采用本发明监控报警方法进行报警,有较高的准确率(>98%)和较低的误报率(<1%),更适合于当下IT运营监控的要求。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1