操作管理设备、操作管理方法和程序的制作方法

文档序号:6532854阅读:183来源:国知局
操作管理设备、操作管理方法和程序的制作方法
【专利摘要】本发明通过不变量分析来正确地判断故障原因。操作管理设备(100)的相关性模型存储单元(112)存储相关性模型(122),该相关性模型(122)包括一个或多个相关性函数,相关性函数指示在系统中的多个度量中两个彼此不同的度量之间的相关性。相关性破坏检测单元(103)将新输入的多个度量的值应用于相关性模型(122),来检测相关性模型(122)中所包括的相关性的相关性破坏。异常计算单元(104)基于具有多个度量当中的第一度量的相关性函数的一个或多个第二度量中与除了第一度量之外的一个或多个度量之间的一个或多个相关性函数的相关性破坏度来计算中心度并进行输出,该中心度指示第一度量被估计为相关性破坏的分布的中心的程度。
【专利说明】
操作管理设备、操作管理方法和程序

【技术领域】
[0001]本发明涉及操作管理设备、操作管理方法及其程序,并且具体地涉及检测系统的故障的操作管理设备、操作管理方法及其程序。

【背景技术】
[0002]专利文献I公开了一种操作管理系统的示例,其通过使用关于系统性能的时间序列信息来生成系统模型,并且通过使用所生成的模型来检测系统的故障。
[0003]专利文献I中所描述的操作管理系统基于系统的多个度量(性能指标)的测量值来针对多个度量间的组合中的每一个确定相关性函数(correlat1n funct1n),并且生成包括每一个都指示相关性(correlat1n)的多个相关性函数的相关性模型。然后,操作管理系统通过使用所生成的相关性模型,基于度量的新输入的测量值来检测相关性的破坏(相关性破坏),并且基于检测的相关性破坏来判断故障原因。用于基于相关性破坏来分析故障原因的上述技术被称为不变量分析(invariant analysis)。
[0004][引用列表]
[0005][专利文献]
[0006][专利文献I]日本专利申请特开N0.2009-199533


【发明内容】

[0007][技术问题]
[0008]根据上述专利文献I中公开的不变量分析,对于各个度量,在度量与其他度量中的每一个之间的相关性函数中的检测到相关性破坏的相关性的数目或比率作为异常度被计算。然后,基于异常度来判断故障原因。然而,存在无法根据度量之间的相关性是否存在或者各个度量所具有的相关性的数目来正确判断故障原因。
[0009]图10至图13是示出专利文献I的不变量分析中的计算异常度的结果的示例的示意图。这里,各个节点指示度量,并且度量之间的箭头指示两个度量之间的从一个到另一个的相关性。用粗线圈出的节点指示与具有故障原因的被监视设备或资源相关性的度量(故障原因度量),并且用粗线描述的箭头指示检测到相关性破坏的相关性。在括号中写的并且指配给每个节点的数字指示度量的异常度。在图10和图12中,由于与度量SVl相关的故障而导致在度量SVl与其他度量之间产生相关性破坏。在图11和图13中,由于与度量SV2相关的故障而导致在度量SV2与度量SVl之间产生相关性破坏。
[0010]图10和图11中的每一个例示了检测到相关性破坏的相关性的数目用作异常度的情况。例如,在图10的情况下,因为度量SVl的异常度大(异常度=4),所以能够判断度量SVl具有故障原因。另一方面,在图11的情况下,因为度量SVl和度量SV2的异常度彼此相等(异常度=I),所以无法判断度量SVl和度量SV2中的哪一个具有故障原因。如上所述,在检测到相关性破坏的相关性的数目用作异常度的情况下,存在图11所示的由于其他故障而产生的相关性破坏的影响、或者由于偶然噪声而产生的相关性破坏的影响而导致无法正确判断故障原因的情况。
[0011]图12和图13中的每一个例示了将检测到相关性破坏的相关性的比率用作异常度的情况。例如,在图12的情况下,因为度量SVl至SV5的异常度彼此相等(异常度=1.0),所以无法判断度量SVl至SV5中的哪一个具有故障原因。另一方面,在图13的情况下,因为度量SV2的异常度(异常度=1.0)大于度量SVl的异常度(异常度=0.25),所以能够判断度量SV2具有故障原因。如上所述,在将检测到相关性破坏的相关性的比率用作异常度的情况下,能够改善在将相关性的数目用作异常度的情况下所产生的问题。然而,如图12中所示,存在无法根据每个度量的相关性的数目来正确判断故障原因的情况。
[0012]本发明的目的在于解决上述问题,并且具体而言,提供一种能够在不变量分析中正确判断故障原因的操作管理设备、操作管理方法及其程序。
[0013][对问题的解决方案]
[0014]根据本发明的示例性方面的操作管理设备包括:相关性模型存储装置,用于存储相关性模型,该相关性模型包括一个或多个相关性函数,每个相关性函数指示在系统中的多个度量当中的彼此不同的两个度量之间的相关性;相关性破坏检测装置,用于通过将多个度量的新输入的值应用于相关性模型,来检测包括在相关性模型中的相关性的相关性破坏;以及异常计算装置,用于基于在多个度量当中的具有与第一度量的相关性的一个或多个第二度量中的每一个与除了第一度量之外的一个或多个度量中的每一个之间的一个或多个相关性的相关性破坏度,来计算和输出中心度,该中心度指示第一度量被估计为相关性破坏的分布中心的程度。
[0015]根据本发明的示例性方面的操作管理方法包括:存储相关性模型,该相关性模型包括一个或多个相关性函数,每个相关性函数指示在系统中的多个度量当中的彼此不同的两个度量之间的相关性;通过将多个度量的新输入的值应用于相关性模型来检测包括在相关性模型中的相关性的相关性破坏;以及基于在多个度量当中的具有与第一度量的相关性的一个或多个第二度量中的每一个与除了第一度量之外的一个或多个度量中的每一个之间的一个或多个相关性的相关性破坏度,来计算和输出中心度,该中心度指示第一度量被估计为相关性破坏的分布中心的程度。
[0016]根据本发明的示例性方面的计算机可读介质,在该计算机可读介质上记录程序,使得计算机能够执行方法,该方法包括:存储相关性模型,该相关性模型包括一个或多个相关性函数,每个相关性函数指示在系统中的多个度量当中的彼此不同的两个度量之间的相关性;通过将多个度量的新输入的值应用于相关性模型来检测包括在相关性模型中的相关性的相关性破坏;以及基于在多个度量当中的具有与第一度量的相关性的一个或多个第二度量中的每一个与除了第一度量之外的一个或多个度量中的每一个之间的一个或多个相关性的相关性破坏度,来计算和输出中心度,该中心度指示第一度量被估计为相关性破坏的分布中心的程度。
[0017][本发明的有利效果]
[0018]本发明的有利效果在于能够在不变量分析中正确地判断故障原因。

【专利附图】

【附图说明】
[0019]图1是示出本发明的第一示例性实施例的特征配置的框图。
[0020]图2是示出本发明的第一示例性实施例中的包括操作管理设备100的操作管理系统的配置的框图。
[0021]图3是示出本发明的第一示例性实施例中的通过操作管理设备100执行的处理的流程图。
[0022]图4是示出本发明的第一示例性实施例中的相关性模型122的示例的示意图。
[0023]图5是示出本发明的第一示例性实施例中的检测相关性破坏并且计算异常度的示例的示意图。
[0024]图6是示出本发明的第一示例性实施例中的检测相关性破坏和计算异常度的另一示例的示意图。
[0025]图7是示出本发明的第一示例性实施例中的计算异常度的结果的示例的示意图。
[0026]图8是示出本发明的第一示例性实施例中的计算异常度的结果的另一示例的示意图。
[0027]图9是示出本发明的第一示例性实施例中的分析结果130的示例的示意图。
[0028]图10是示出专利文献I的不变量分析中的计算异常度的结果的示例的示意图。
[0029]图11是示出专利文献I的不变量分析中的计算异常度的结果的另一示例的示意图。
[0030]图12是示出专利文献I的不变量分析中的计算异常度的结果的另一示例的示意图。
[0031]图13是示出专利文献I的不变量分析中的计算异常度的结果的另一示例的示意图。

【具体实施方式】
[0032](第一示例性实施例)
[0033]接下来,描述本发明的第一示例性实施例。
[0034]首先,描述根据本发明的第一示例性实施例的配置。图2是示出本发明的第一示例性实施例中的包括操作管理设备100的操作管理系统的配置的框图。
[0035]参考图2,本发明的第一示例性实施例中的操作管理系统包括操作管理设备100以及一个或多个被监视设备200。操作管理设备100和被监视设备200通过网络彼此连接。
[0036]被监视设备200是作为系统的组件的设备,诸如Web服务器、数据库服务器。
[0037]被监视设备200以周期性间隔测量关于被监视设备200的多个项目的性能值的实际数据(测量值),并且将测量数据发送到操作管理设备100。作为性能值的项目,使用计算机资源的使用率或者计算机资源的使用量,例如CPU(中央处理单元)的使用率、存储器的使用率、访问磁盘的频率。
[0038]这里,被监视设备200和性能值的项目的集合被定义为度量(性能指标),并且同时测量的多个度量的值的集合被定义为性能信息。度量用整数或小数的数值来表示。度量对应于专利文献I中描述的元素。
[0039]操作管理设备100基于从作为监视对象的被监视设备200收集的性能信息来生成关于被监视设备200的相关性模型122。然后,操作管理设备100通过使用所生成的相关性模型122来检测被监视设备200的故障或异常。
[0040]操作管理设备100包括性能信息收集单元101、相关性模型生成单元102、相关性破坏检测单元103、异常计算单元104、显示单元105、性能信息存储单元111、相关性模型存储单元112以及相关性破坏存储单元113。
[0041]性能信息收集单元101从被监视设备200收集性能信息,并且将性能信息的时间序列变化存储在性能信息存储单元111中作为序列性能信息121。
[0042]相关性模型生成单元102基于序列性能信息121来生成包括被监视设备200的系统的相关性模型122。
[0043]这里,相关性模型122包括针对多个度量中的两个度量的每个组合的相关性函数(或变换函数),该相关性函数指示两个度量之间的相关性。相关性函数是从一个度量值的时间序列来估计其他度量值的时间序列的函数。相关性模型生成单元102基于在预定的建模时间段中收集的序列性能信息121来确定针对各个度量组合的相关性函数的系数。类似于专利文献I中所描述的操作管理设备的情况,在对度量的测量值的时间序列执行的系统识别处理中确定相关性函数的系数。
[0044]注意,类似于专利文献I中所描述的操作管理设备的情况,相关性模型生成单元102可以针对各个度量组合来计算相关性函数的权重,并且可以生成具有等于或大于预定值的权重的相关性函数的集合作为相关性模型122。
[0045]相关性模型存储单元112存储通过相关性模型生成单元102生成的相关性模型122。
[0046]图4是示出本发明的第一示例性实施例中的相关性模型122的示例的示意图。在图4中,用包括节点和箭头的图形来表示相关性模型122。这里,每个节点指示度量,并且度量之间的箭头指示两个度量中的从一个到另一个的相关性。相关性函数是针对相关性中的每一个来确定的。
[0047]根据图4所示出的相关性模型122,在分别具有设备标识符SVl至SV5的被监视设备200中每一个中存在一个度量(下面分别称为度量SVl至SV5),并且相关性是对于度量SVl至SV5中的两个度量的组合中的每一个来指示的。
[0048]类似于专利文献I中所描述的操作管理设备的情况,相关性破坏检测单元103基于新输入的性能信息来检测包括在相关性模型122中的相关性的相关性破坏。
[0049]这里,类似于专利文献I的描述,相关性破坏检测单元103通过将多个度量的两个度量中的一个度量的测量值输入进与这两个度量相对应的相关性函数,来计算其他度量的估计值。在其他度量的估计值与测量值之间的差(由于相关性函数产生的变换误差)等于或大于预定值的情况下,相关性破坏检测单元103将其检测为两个度量之间的相关性的相关性破坏。
[0050]相关性破坏存储单元113存储相关性破坏信息123,该相关性破坏信息123指示检测到相关性破坏的相关性。
[0051]图5和图6中的每一个是示出本发明的第一示例性实施例中的检测相关性破坏并且计算异常度的示例的示意图。在图5和图6中,用粗线表示的箭头指示在图4所示的相关性模型122的检测到相关性破坏的相关性。在图5中,用粗线表示的节点指示具有故障原因的被监视设备200的度量(故障所致度量)。根据图5中所示的示例,由于具有设备标识符SVl的被监视设备200的故障而导致对度量SVl与度量SV2至SV5的每一个之间的相关性函数产生相关性破坏。根据图6所示出的示例,由于具有设备标识符SV2至SV5的被监视设备200中的任何一个的故障或者与度量的测量值混合的噪声而导致对相关性函数中的每一个产生相关性破坏。
[0052]异常计算单元104基于相关性模型122上的相关性破坏的分布来计算每个度量的异常度。下面参考图5和图6描述计算异常度的方法。
[0053]如图5所示,在被监视设备200或资源产生故障的情况下,异常在与被监视设备200和资源相关的度量(故障原因度量)上产生。因此,对在故障原因度量与具有与故障原因度量的相关性的度量(相邻度量)之间的相关性产生相关性破坏。这里,当在度量(第一度量,在该情况下的SVl)与第一度量相邻的度量中的每一个(第二度量,在该情况下的SV2至SV5)之间的相关性函数的相关性破坏度高时,估计该度量与故障原因度量相对应的可能性是闻的。
[0054]此外,由于故障的扩展而导致对于故障原因度量的相邻度量和其他度量产生异常。因此,可能对相邻度量中的每一个与其他度量中的每一个之间的相关性产生相关性破坏。然而,假定在相邻度量中的每一个与其他度量中的每一个之间产生相关性破坏的可能性小于在故障原因度量与相邻度量中的每一个之间产生相关性破坏的可能性。在该情况下,相关性破坏在相关性模型122上以故障原因度量为中心进行分布。因此,如图5中所示,在度量(第一度量,在该情况下是SVl)的相邻度量(第二度量,在该情况下是SV2至SV5)中的每一个与除了第一度量之外的度量中的每一个之间的相关性当中的损坏的相关性的数目小的情况下,即,在第一度量存在于相关性破坏的分布的中心的情况下,估计第一度量与故障原因度量相对应的可能性高。
[0055]此外,如图6中所示,在度量(第一度量,在该情况下是SVl)的相邻度量(第二度量,在该情况下是SV2至SV5)中的每一个与除了第一度量之外的每个度量之间的相关性当中的损坏的相关性的数目大的情况下,即,在第一度量没有存在于相关性破坏的分布的中心的情况下,估计第一度量与故障原因度量相对应的可能性低。
[0056]异常计算单元104针对每个度量计算相关性的破坏程度(相关性破坏度)以及存在于相关性破坏的分布的中心的程度(中心度),并且基于相关性破坏度和中心度来计算异常度。
[0057]异常计算单元104例如通过使用等式I来计算相关性破坏度。
[0058][等式I]
[0059]

(相关性破坏度


N0
[0060]这里,N0是用于计算异常度的对象度量所具有的相关性的数目,并且Ndtl是对象度量所具有的相关性中检测到相关性破坏的相关性的数目。
[0061]例如,在图5的情况下,异常计算单元104获得度量SVl的相关性破坏度1.0。在图6的情况下,异常计算单元104也获得度量SVl的相关性破坏度1.0。
[0062]异常计算单元104例如通过使用等式2来计算中心度。
[0063][等式2]
[0064]

【权利要求】
1.一种操作管理设备,包括: 相关性模型存储装置,所述相关性模型存储装置用于存储相关性模型,所述相关性模型包括一个或多个相关性函数,所述一个或多个相关性函数中的每一个指示在系统中的多个度量当中的彼此不同的两个度量之间的相关性; 相关性破坏检测装置,所述相关性破坏检测装置用于通过将新输入的所述多个度量的值应用于所述相关性模型,来检测包括在所述相关性模型中的所述相关性的相关性破坏;以及 异常计算装置,所述异常计算装置用于基于在所述多个度量当中的具有与第一度量的相关性的一个或多个第二度量中的每一个与除了所述第一度量之外的一个或多个度量中的每一个之间的一个或多个相关性的相关性破坏度,来计算中心度并进行输出,所述中心度指示所述第一度量被估计为相关性破坏的分布的中心的程度。
2.根据权利要求1所述的操作管理设备,其中, 所述异常计算装置基于在所述第一度量与所述一个或多个第二度量中的每一个之间的一个或多个相关性的相关性破坏度以及所述第一度量的所计算的中心度,来计算所述第一度量的异常度。
3.根据权利要求2所述的操作管理设备,其中, 所述中心度是根据在所述一个或多个第二度量中的每一个与除了所述第一度量之外的度量中的每一个之间的一个或多个相关性的相关性破坏度而变小的值,并且 所述第一度量的异常度是通过使在所述第一度量与所述一个或多个第二度量中的每一个之间的一个或多个相关性的相关性破坏度与所述中心度相加或相乘来计算的。
4.根据权利要求1至3中的任何一项所述的操作管理设备,其中, 所述相关性破坏度是基于下述当中的任何一个来计算的:检测到相关性破坏的相关性与一个或多个相关性的比率、一个或多个相关性当中的检测到相关性破坏的相关性的数目、以及由与一个或多个相关性相对应的相关性函数中的每一个所产生的变换误差。
5.一种操作管理方法,包括: 存储相关性模型,所述相关性模型包括一个或多个相关性函数,所述一个或多个相关性函数中的每一个指示在系统中的多个度量当中的彼此不同的两个度量之间的相关性; 通过将新输入的所述多个度量的值应用于所述相关性模型,来检测包括在所述相关性模型中的所述相关性的相关性破坏;以及 基于在所述多个度量当中的具有与第一度量的相关性的一个或多个第二度量中的每一个与除了所述第一度量之外的一个或多个度量中的每一个之间的一个或多个相关性的相关性破坏度,来计算中心度并进行输出,所述中心度指示所述第一度量被估计为相关性破坏的分布的中心的程度。
6.根据权利要求5所述的操作管理方法,进一步包括:基于在所述第一度量与所述一个或多个第二度量中的每一个之间的一个或多个相关性的相关性破坏度以及所述第一度量的所计算的中心度,来计算所述第一度量的异常度。
7.根据权利要求6所述的操作管理方法,其中, 所述中心度是根据在所述一个或多个第二度量中的每一个与除了所述第一度量之外的度量中的每一个之间的一个或多个相关性的相关性破坏度而变小的值,并且 所述第一度量的异常度是通过使在所述第一度量与所述一个或多个第二度量中的每一个之间的一个或多个相关性的相关性破坏度与所述中心度相加或相乘来计算的。
8.根据权利要求5至7中的任何一项所述的操作管理方法,其中, 所述相关性破坏度是基于下述当中的任何一个来计算的:检测到相关性破坏的相关性与一个或多个相关性的比率、一个或多个相关性当中的检测到相关性破坏的相关性的数目、以及由与一个或多个相关性相对应的相关性函数中的每一个所产生的变换误差。
9.一种记录有程序的计算机可读存储介质,使得计算机执行方法,所述方法包括: 存储相关性模型,所述相关性模型包括一个或多个相关性函数,所述一个或多个相关性函数中的每一个指示在系统中的多个度量当中的彼此不同的两个度量之间的相关性; 通过将新输入的所述多个度量的值应用于所述相关性模型,来检测包括在所述相关性模型中的所述相关性的相关性破坏;以及 基于在所述多个度量当中的具有与第一度量的相关性的一个或多个第二度量中的每一个与除了所述第一度量之外的一个或多个度量中的每一个之间的一个或多个相关性的相关性破坏度,来计算中心度并进行输出,所述中心度指示所述第一度量被估计为相关性破坏的分布的中心的程度。
10.根据权利要求9所述的计算机可读存储介质,进一步包括:基于在所述第一度量与所述一个或多个第二度量中的每一个之间的一个或多个相关性的相关性破坏度以及所述第一度量的所计算的中心度,来计算所述第一度量的异常度。
11.根据权利要求10所述的计算机可读存储介质,其中, 所述中心度是根据在所述一个或多个第二度量中的每一个与除了所述第一度量之外的度量中的每一个之间的一个或多个相关性的相关性破坏度而变小的值,并且 所述第一度量的异常度是通过使在所述第一度量与所述一个或多个第二度量中的每一个之间的一个或多个相关性的相关性破坏度与所述中心度相加或相乘来计算的。
12.根据权利要求9至11中的任何一项所述的计算机可读存储介质,其中, 所述相关性破坏度是基于下述中的任何一个来计算的:检测到相关性破坏的相关性与一个或多个相关性的比率、一个或多个相关性当中的检测到相关性破坏的相关性的数目、以及由于与一个或多个相关性相对应的相关性函数中的每一个所产生的变换误差。
【文档编号】G06F11/34GK104137078SQ201380006393
【公开日】2014年11月5日 申请日期:2013年1月22日 优先权日:2012年1月23日
【发明者】矢吹谦太郎 申请人:日本电气株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1