故障分析装置、故障分析系统及故障分析方法

文档序号:7884887阅读:422来源:国知局
专利名称:故障分析装置、故障分析系统及故障分析方法
技术领域
本发明涉及处理大量的有线节点来进行故障分析的装置。
背景技术
当今,在大规模的分布式处理(Distributed Processing)网络系统中最大的问题是可用性。如果不是24小时365天实质上不停止地工作,则很难在主干业务中使用分布式处理网络系统。尤其为了提高分布式处理网络系统的可用性,必须实现针对分布式处理网络系统的可靠性及信息处理的快速响应性的提高。当前为了实现通信的可靠性的提高,应用被实施分布式处理,并且作为网络系统,大部分系统采取冗余结构。但是,使用分布式处理网络系统的服务的扩大导致通信流(Traffic)的飞跃性增大,在进行分布式处理而且采取冗余结构的数据中心及网络系统中,今后将担忧功耗的增大。因此,为了实现低功耗化,需要确保可靠性同时有效缩减臃肿化的网络,重新配置最佳的虚拟服务器或虚拟交换机(Switch),为此故障分析技术是必需的技术。作为这种故障分析方法的现有技术,可以列举公开了使用网络断层扫描(NetworkTomography)来探测状态变化的技术的专利文献1、或专利文献2。现有技术文献专利文献专利文献1:日本特开2007 - 201646号公报专利文献2:日本特开2005 - 189163号公报专利文献3:日本特开2006 - 314077号公报发明概要发明要解决的问题通过上述的管理服务器的控制,作为用于定期地重新配置最佳的虚拟服务器或虚拟交换机的控制触发器之一,能够采用通信效率。因为在通信效率较差的网络中重传增多,如果在这种网络上重新配置虚拟服务器或虚拟交换机,将担忧功耗的增大。因此,需要在网络系统中快速确定出作为故障部位的路由器及服务器等,将作为故障部位的路由器或服务器通知给进行虚拟服务器或虚拟交换机的重新配置的管理服务器,管理服务器进行虚拟服务器或虚拟交换机的重新配置,避免无用的功耗的浪费。所谓有关故障分析的专利文献I的网络断层扫描,是指从外部发送探测包(ProbePacket),使用探测包的延迟等分析参数探测状态变化。该网络断层扫描中的技术问题是,通过从网络拓扑的外部发送探测包来估计网络拓扑内部的事件,由于能够取得的分析参数较少而且不是实际流(Flow)的信息,因而能够分析的故障或事件受限,而且有可能检测结果不是故障。以利用延迟数据检测状态变化的情况为例。在仅利用延迟数据探测状态变化并发送警报的情况下,在网络系统中,作为延迟增大的原因,有可能是各个路由器排队而产生的延迟,有可能检测结果不是故障。并且,由于仅根据延迟的变动来判定状态变化并发送警报,因而在应用的发送开始、应用的发送停止等产生急剧的状态变化的情况等非故障的情况时,也发送警报。这样在仅根据延迟的急剧的状态变化向管理服务器发送警报的情况下,在没有发生故障时也发生警报,因而陷入管理服务器管理的警报过多的状态,使得管理服务器对系统的异常判定比较困难。并且,也难以确定出故障部位,管理服务器难以使用断层扫描的结果进行虚拟服务器或虚拟交换机的重新配置。另外,在专利文献2记载的异常判定装置中,在检测异常时,消除控制的复杂化,但是需要事前保持正常时的数据。在如网络系统那样通信流的状况始终变化而产生多样化的故障的系统中,很难事前测定能够判定为正常的参数。这样在判定为异常时,很难定义作为比较对象的基准值。

发明内容
本发明的目的在于,提供一种故障分析装置、系统及方法,能够减少故障部位的具体确定以及针对故障检测的错误检测率,避免警报过多状态,而且正确地进行针对系统的异常判定。用于解决问题的手段为了达到上述目的,本发明提供一种故障分析装置,与网络上的多个路由器连接,其特征在于,该故障分析装置具有:接收部,接收各个路由器取得的在通信流中流过的每个流的信息作为数据组;蓄积部,蓄积所接收的数据组;以及故障分析部,将所蓄积的每个路由器的数据组作为对于每个故障的至少一个分析参数,计算分析参数的相对于基准分布的马哈拉诺比斯距离,按照每个路由器使用相对于基准分布的马哈拉诺比斯距离进行异常判定,在各个路由器的异常判定时,通过移动平均来进行在所有路由器的异常判定中使用的基准分布的平均值及标准偏差的期待值的更新。并且,为了达到上述目的,本发明提供一种网络的故障分析系统,其特征在于,在网络上具有与节点连接的多个路由器、和与多个路由器连接的故障分析装置,故障分析装置具有:接收部,接收各个路由器取得的在通信流中流过的每个流的信息作为数据组;以及故障分析部,将所接收的每个路由器的数据组作为对于每个故障的至少一个分析参数,计算分析参数的相对于基准分布的马哈拉诺比斯距离,按照每个路由器使用相对于基准分布的马哈拉诺比斯距离进行异常判定。并且,为了达到上述目的,本发明提供一种与网络上的多个路由器连接的节点中的故障分析方法,其特征在于,节点接收各个路由器取得的在通信流中流过的每个流的信息作为数据组,节点将所接收的每个路由器的数据组作为对于每个故障的至少一个分析参数,计算分析参数的相对于基准分布的马哈拉诺比斯距离,按照每个路由器使用相对于基准分布的马哈拉诺比斯距离进行异常判定。发明效果根据本发明,将大量发送的数据组作为至少一个分析参数,对于该分析参数的分布,计算相对于基准分布的期待值的马哈拉诺比斯距离,使用分析参数分布中的相对于基准分布的期待值的马哈拉诺比斯距离进行总括性的异常判定,因而能够恰当进行判定。并且,在进行异常判定时,根据信息收集故障分析装置所管理的每个路由器的异常判定结果,判定作为比较对象的基准分布的期待值并加以更新。由于判定系统整体的状态来进行作为比较对象的基准分布的期待值的更新,因而能够进行更恰当的异常判定。另外,根据有无从线性事件向非线性事件的过渡来进行异常判定,因而不需要将作为比较对象的基准值固定。


图1是实施例1的数据中心内的系统概要图。图2是实施例1的WAN上的系统概要图。图3是表示实施例1的AFM的包的一例的概要图。图4是说明用于进行实施例1的比较验证的概要的图。图5是对实施例1的改进结构的基准分布进行反馈的方法的概要说明图。图6是实施例1的检测异常流的概要图。图7是实施例2的检查三维马哈拉诺比斯距离的方法的概要说明图。图8是用于说明各个实施例的故障分析系统中的IMF的一个功能结构的功能框图。图9是各个实施例的MF的流程图。图10是表示各个实施例的IMF内部的块结构的一例的图。图11是表不各个实施例的IMF管理的表的一例的图。图12A是表示各个实施例的废弃率的数据的曲线的图。图12B是各个实施例的废弃率的数据的表图。图13A是表示各个实施例的吞吐量的数据的曲线的图。图13B是表示各个实施例的吞吐量的数据的图。图14A是表示各个实施例的平均包大小的数据的曲线的图。图14B是表示各个实施例的平均包大小的数据的图。图15A是表示各个实施例的三维马哈拉诺比斯距离的数据的曲线图的图。图15B是表示各个实施例的三维马哈拉诺比斯距离的数据的图。图16A是各个实施例的废弃率的数据的曲线的图。图16B是表示各个实施例的废弃率的数据的图。图17A是表示各个实施例的吞吐量的数据的曲线的图。图17B是表示各个实施例的吞吐量的数据的图。图18A是表示各个实施例的平均包大小的数据的曲线的图。图18B是表示各个实施例的平均包大小的数据的图。图19A是表示各个实施例的三维马哈拉诺比斯距离的数据的曲线的图。图19B是表示各个实施例的三维马哈拉诺比斯距离的数据的图。图20A是说明实施例5的AFM的参数即差异数的图。图20B是说明实施例5的AFM的参数即差异数的图。图21A是在将实施例5的(源IP地址,协议)固定的情况下,作为差异数来说明每个源IP地址的吞吐量的曲线图。图21B是在将实施例5的(源IP地址,协议)固定的情况下,作为差异数来说明每个源IP地址的吞吐量的图。
图22A是在将实施例5的(源IP地址,协议)固定的情况下,作为差异数来说明每个目的地IP地址的吞吐量的曲线图。图22B是在将实施例5的(源IP地址,协议)固定的情况下,作为差异数来说明每个目的地IP地址的吞吐量的图。
具体实施例方式下面,根据

本发明的具体实施例。实施例1图1表示在第I实施例的数据中心内执行故障分析的管理系统的结构概要图。在本说明书中,将收集从作为被检对象的各个路由器发送的AFM (Aggregated Flow Mining:聚合流挖掘)等信息并进行分析的故障分析装置定义为IMF (Integrated Mining ofFlow:流的集成挖掘)。另外,关于AFM技术,可以参照池田等的“大規模- ” —夕高速卜9匕:y 夕乇 二夕 > 夕.'”、信学会技報、VO1.109、n0.421、IA2009-90、PP47-52、Feb.2010,或者渡边等的日本特开2006 - 314077号公报等。图1的结构表示由综合管理服务器控制并管理数据中心内部的虚拟服务器及虚拟交换机的系统,101表示客户端(Client), 102表示故障分析装置(Integrated Mining ofFlow:IMF), 103表示综合管理服务器,104表示服务器,105表示路由器。在该管理系统中,管理服务器103在检测到路由器105或服务器104等装置的异常后进行系统的控制。在此,为了探测各个路由器105或服务器104的状态变化,需要取得在某个时间内经由路由器105的包量等、用于分析各个路由器105的状态变化的统计参数。另外,在图1中,管理系统中的客户端101、MF102、综合管理服务器103、服务器104、路由器105等之间的各种连线中,双向的细实线表示相互间的通信线,粗实线表示各种信息在通信线中的传递。根据该图可知,表示从各个路由器105经由通信线向MF102发送AFM。并且,表示向客户端101、服务器104、路由器105发送各种控制命令(ControlCo_and)。在本说明书中,关于这些网络中的各个要素,有时将作为通信控制装置发挥作用的路由器以外的要素统称为节点。只要没有特殊说明,则这一点同样适用于图2以后的系统结构图。在本实施例的管理系统中,作为取得用于分析各个路由器105的状态变化的统计参数的手段,列举了 AFM (Aggregated Flow Mining)的例子。关于AFM如在上述的文献等中公开的那样,便于路由器等通信控制装置提供统计信息,用于使运用者尽快从大量的通信流中发现妨碍网络的正常运用的异常流或特征性的流。另外,作为取得统计信息的其它方法还有SNMP (Simple Network Management Protocol:简单网络管理协议)。但是,由于SNMP使用MIB (Management Information Base:管理信息库),所以在向管理员发送统计信息时,SNMP与MIB的信息交换比较低速,因而不能向管理员发送实时的统计信息。另外,SNMP的统计彳目息多是路由器105的队列的彳目息等,作为彳目息是粗糖的彳目息。AFM与SNMP不同,是从通信流中确定出向管理员发送与异常流或特征流相关的统计信息的通信协议,不具有如SNMP的MIB那样的数据库,而是在作为存储部的RAM(RandomAccess Memory:随机存取存储器)中具有数据库,使用散列(hash)函数检索统计信息来进行快速的信息交换,因而在进行控制时动作的开销较少,能够处理大容量的通信流。并且,AFM用于处理每个流的信息,因而能够取得比SNMP更详细的信息。本实施例的系统由综合管理系统整体的综合管理服务器103、收集从多个路由器105发送的AFM并根据AFM的信息探测通信流的状态变化的MF 102、客户端101、和服务器104构成。各个路由器105向MF 102发送AFM。AFM对路由器具有的各个端口进行镜像,汇集被镜像后的信息并存储在包中向頂F 102发送,因而不会对经由路由器105的通信流产生影响。IMF 102按照每个路由器105收集AFM,通过对AFM的数据进行差分化来进行每个路由器的故障分析。其中,MF 102的硬性能是有限的,因而MF 102能够管理的路由器的台数也是有限的。因此,假设在系统中存在多个MF 102。IMF 102在进行故障分析时,考虑MF 102管理的路由器105的因果关系,根据所管理的所有路由器105的故障判定,在进行故障判定时进行作为比较对象的基准分布的期待值的更新。各个MF 102收集从作为通信控制装置的各个路由器发送的AFM,对于每个路由器105进行故障分析,并向综合管理服务器103发送警报(Alert)。接收到警报的综合管理服务器103进行用于在网络中配置最佳的虚拟交换机或虚拟服务器的控制。图1所示的数据中心内部的管理服务器103进行在服务器104之间或数据中心之间重新配置虚拟服务器或虚拟交换机的控制。图2是表示本实施例的WAN上的管理系统的一例的结构图。综合管理服务器201是控制并管理WAN上的虚拟服务器及虚拟交换机的系统。与图1相同地,在图2中,综合管理服务器201根据用粗实线表示的从MF 203发送的警报(Alert),进行在数据中心204A、204B之间或服务器之间配置最佳的虚拟服务器及虚拟交换机的控制。另外,在图2中,双向箭头的虚线表示各个客户端205与数据中心204A、204B之间的流(FlowA、Flow B,Flow C:流A,流B,流C)。作为系统整体,图1所示的数据中心内部的综合管理服务器103、图2所示的WAN上的综合管理服务器201相互取得协作,进行网络整体的控制。将WAN上的综合管理服务器201定义为综合管理服务器的母管理服务器,将位于数据中心侧的管理服务器103定义为子管理服务器。在母管理服务器201中仅选择优化用的控制手段,控制本身由子管理服务器103进行。母管理服务器201定期询问子管理服务器103,以便根据从MF 203发送的信息等执行优化的算法。图3表示传递在本实施例中使用的AFM的信息的AFM包的格式的一例。一般的流(Flow),多定义为 IP 头或 TCP/UDP (Transmission Control Protocol/User DatagramProtocol:传输控制协议/用户数据报协议)头中包含的项目(item)中、5元组(5-tuple)(发送源IP地址、目的地IP地址、协议、发送源端口号码、目的地端口号码)的值一致的包的集合。在AFM中将该思考方式进行扩展,将任意的η元组一致的包的集合定义为汇集流,按照该汇集流单位收集包数或字节数等统计信息。如果导入汇集流的概念,则例如将DDoS(Distribute Denial of Service:分布式拒绝服务)攻击或诸如网络扫描那样在I对η主机之间流过的通信流视为单一的流来得到其统计信息,能够更容易掌握在网络上流过的通信流的状态。图3中的AFM包300由流类别301、项目数302、有效载荷长度303、包数304、字节数305、测定时间306、取得时刻307等构成,在探测异常流时,向MF 102,203发送必要的信息。
图4是用于说明本实施例的IMF 102,203进行故障分析时的异常判定方法的图。另外,关于IMF 102、203的内部结构的具体实施例,将在后面使用图10进行说明。IFM在分析故障时,需要判定在网络上流过的通信流正常还是异常。在本实施例中采用判定在网络上流过的流整体的状态正常还是异常的方法。在图4中示出了在某个时刻的网络中使用所有流的分析参数测定值绘制得到的分布。图4的横轴表示数据值,纵轴表示概率密度。首先,在图4中,将作为比较对象的基准分布401的平均值和标准偏差设定为初始值。这些分布表示每个流的分布。例如,在将网络通信流定义为分析参数的情况下,将网络通信流的平均值设定为32[kbit/s](千比特/秒)、将标准偏差设定为32[kbit/s]。该值依据于2010年9月日本总务省的“総合通信基盤局”披露的、日本平均每一名签约者的通信流的量——即约为32[kbit/s]的值。然后,IMF 102,203从各个路由器105的AFM取得必要的统计信息,以便进行在网络上流过的通信流的异常判定。然后,对于所取得的各个数据,计算相对于基准分布的马哈拉诺比斯距离的绝对值。马哈拉诺比斯距离的算式如下式所示。D = (X —平均)/ 标准偏差[a.u.]......(I)根据式(1),如果马哈拉诺比斯距离的值是足够远离O的值,则可以理解为是脱离作为比较对象的基准分布的数据。关于分布,在计算各个流的马哈拉诺比斯距离后,计算所有流的马哈拉诺比斯距离的平均值。计算出的马哈拉诺比斯距离的平均值如图4的分布402所示,对于2以上的分布,如果分布是依据正态分布的,则可以推测显著性水平为5%是非显著性的。即,能够视为是以5%的概率发生的异常分布。这样,通过探测分布的异常,能够根据在发送了 AFM的路由器中流过的通信流整体的分布检测是否异常。图5是用于说明使用以上说明的实施例1的马哈拉诺比斯距离的通信流的异常判定方法的精度提高用的变 形实施例的图。由于通信流在时时刻刻变化着,因而很难定义通信流中的正常值。本变形例涉及在由后面说明的頂F 102、203的处理部进行的异常判定中,始终对作为比较基准的基准分布进行反馈并更新的方法。即,更新作为比较对象的基准分布501的期待值的方法。在本变形例中,对于实时收集的数据的分布,将根据过去的数据定义的基准分布的分布的平均值和标准偏差进行比较,并计算出马哈拉诺比斯距离。由MF 102、203收集AFM的数据,并对收集到的数据的分布计算平均和标准偏差,取得基准分布的平均值和标准偏差的移动平均。移动平均的计算式如下式2、3所示。平均的移动平均=(基准分布的平均+在AFM中取得的数据分布的平均)/2……(2)标准偏差的移动平均=(基准分布的标准偏差+在AFM中取得的数据分布的标准偏差)/2......(3)根据上述求出的式2、3,将反馈后的平均的移动平均定义为新的基准分布的平均,将标准偏差的移动平均定义为新的基准分布的标准偏差。图5示例了反馈后的期待值平均(圆圈1、圆圈2),并示例了相对于期待值平均(圆圈2)的异常分布的平均。以根据该过去的数据重新定义的基准分布501为基础,与重新实时取得的AFM的数据进行比较验证。在进行比较验证时,根据所设定的基准分布的平均和标准偏差,对新取得的AFM的数据进行马哈拉诺比斯距离的计算。对于计算出的马哈拉诺比斯距离的平均值为2以上的分布,如果分布是依据于正态分布的分布,则可以推测显著性水平为5%是非显著性的,并推测为是以5%的概率发生的异常分布502。这样,通过对基准分布的平均值和标准偏差进行反馈,取得移动平均并进行更新,将大幅偏离移动平均的分布推定为异常分布,能够推定为发生了大幅偏离线性现象的异常事件。通常呼叫的发生等事件基本上是独立发生的。但是,在事件的相关性急剧升高的情况下,能够捕捉为发生了通常未能考虑到的事件。例如,在以通信流为轴的示例中,发生了通常不发生的事件,多个通信流急剧上升。作为这种通常不发生的事件,例如在新年的上午0时在明治神宫利用便携电话一齐向家人或朋友通信而导致便携电话处于音信不通的、相关值急剧上升的事件。在本变形例中,在进行反馈时,作为基准分布定义了线性事件,因此对于作为非线性事件的异常事件不更新移动平均。即,在判定为发生了异常的情况下,对根据测定出的值将基准分布更新进行抑制。并且,在MF102、203管理的各个路由器中,如果在路由器中即使是一个路由器发生了异常事件,也不进行所管理的其它路由器的基准分布的平均值和标准偏差值的反馈。即,考虑与系统内的其它路由器的因果关系来进行作为比较对象的基准分布的平均值和标准偏差值的期待值的更新。并且,在进行基准分布的平均值和标准偏差值的期待值的更新时,在頂F 102、203管理的路由器是一台的情况下,根据该一台路由器的异常判定进行基准分布的期待值的更新。根据本变形例,能够实时追踪通信流来更新通信流的正常值,能够对在网络上流过的通信流整体的分布进行正确的异常判定。下面,使用图6说明当在通信流整体中判定为状态异常的情况下,确定引发异常的故障原因的方法。图6是说明从由AFM取得的统计数据中确定异常通信流的方法的图。在该图中,横轴表示流号码,纵轴表示各个流的数据值。用于确定异常流(603)的评价式如下式所示。Avg (基准分布)+ 2σ (基准分布)< 流的数据......(4)在将使用AFM测定的分布判定为异常分布的情况下,如上式所示,根据基准分布的平均值601和标准偏差σ 602,将相对于基准分布的平均值601为2 σ以上的通信流估计为异常通 目流。在图6中,在确定该异常流603时,不例了 2σ为阈值,但是该值是IMF102,203的管理员能够设定的参数。此次列举了 2 σ为主要的阈值的示例,但如果分布是依据于正态分布的分布,则显著性水平为5%,并且是相对于假设的通信流模式仅以5%的概率发生的流,将该流估计为异常流。即,在本实施例中,判定为以这些异常流为原因而产生异常分布。这样,始终监视通信流的状况,对于该通信流状况进行反馈并进行学习,将该学习到的基准分布和实时的通信流进行比较。在进行比较验证时,对于每个参数进行。实施例2下面,作为实施例2说明基于多维分析的故障分析系统。在故障分析系统的异常判定方法中,需要提高异常判定精度以防止误检测。在误检测较多的分析中,向管理服务器发送的警报(Alert)过多,导致引发管理服务器的误动作或死机的可能性增大。图7是表示基于使用马哈拉诺比斯距离的三维分析的方法的故障分析系统的概要图的图。关于在该图中采用的轴,是将吞吐量701、平均包大小702、废弃率703设为三个轴。对于这些轴中的每个轴,如前面所述,针对在AFM中取得的数据,使用基准分布的平均值和标准偏差进行马哈拉诺比斯距离的计算。再对按照每个轴求出的马哈拉诺比斯距离计算三维的距离。在本实施例中,将计算式定义为下式。三维马哈拉诺比斯距离=sqrt( α *χ2 + β *y2 + y *ζ2)......(5)α + β + y = 3......(6)在此,将X轴定义为废弃率的马哈拉诺比斯距离,将y轴定义为平均包大小的马哈拉诺比斯距离,将z轴定义为吞吐量的马哈拉诺比斯距离。其中,α、β、Y表示各个轴的权重,通过针对各个故障改变各个轴的权重的参数,能够实现针对故障的更正确的检测。根据上式计算出三维马哈拉诺比斯距离,然后使用三维马哈拉诺比斯距离进行异常判定。将
3.5定义为三维马哈拉诺比斯距离的阈值。对于各个轴,视为异常的阈值是2.0,在将该阈值换算为三维时能够定义为下式。
sqrt (22+22+22) =2* sqrt (3) —-3.5.....(J)在本实施例中,在使用该阈值计算三维马哈拉诺比斯距离的平均值的情况下,根据平均值是否超过3.5进行异常判定。这样通过增加进行异常判定的维数,能够总括地进行故障判定。对于在一维的轴的异常判定中发生的误检测,也利用多维的轴总括地进行异常判定,因而能够进行正确的判定。例如,在某一个轴的分布被判定为异常、其它两个轴的分布未被判定为异常的情况下,如果总括地进行三维判定,则判定为不是异常。这样,通过以三维方式进行异常判定,能够防止以一维方式进行异常判定时发生的误检测。在以上说明的实施例2中,列举了以三维方式进行异常判定的示例,但也能够缩小为二维,还能够扩展为四维、五维等多维。下面,使用图8 图10说明上述的各个实施例中的MF 102,203的具体的结构示例及其动作处理。图8是用于说明MF 102,203的功能处理的一例的框图。首先,在頂F进行控制时,设定作为比较对象的基准分布的初始值(801)。然后,MF收集用于使用各个路由器的AFM进行统计处理的数据(802)。针对各个轴,按照每个路由器进行相对于基准分布的马哈拉诺比斯距离的计算,然后进行所管理的每个路由器的异常判定(803)。如果在所管理的路由器内存在检测到异常分布的路由器,则不对IMF所管理的所有路由器进行基准分布的期待值的更新。然后,如果检测到异常,则向管理服务器发送警报(804)。或者,如果在所管理的所有路由器中没有检测到异常,则进行基准分布的期待值的更新(805)。另外,这种基准分布的期待值的更新(805)当然也对应上述实施例1的使用反馈的变形例。这样根据所管理的路由器的相互关系,考虑依存关系来决定在各个路由器中有无用于进行比较验证的基准分布的期待值的更新,由此进一步减少误检测。图9表示用于说明MF 102、203的控制方式的一例的流程图。MF 102、203在进行控制时,首先作为初始值,设定作为各个路由器的各个轴的基准值的平均及标准偏差(901)。在设定后起动IMF,从各个路由器由AFM取得每个流的数据(902)。AFM收集各个路由器的统计信息,将该信息发送给頂F。MF将取得的信息存储在内部的数据库中。存储在N秒钟期间从各个路由器发送的AFM的信息(903)。使用对每个路由器分配的分析参数求出M维马哈拉诺比斯距离并进行异常判定,根据异常判定的结果,在所管理的路由器中即使有一台路由器异常,也不进行基准分布的期待值的更新(905)。在此,M维是指I以上的所有维数,2以上则对应于实施例2的多维。如果检测到异常,则向管理服务器发送警报(907)。当在所管理的路由器中所有路由器在异常判定中均是正常的情况下,进行基准分布的期待值的更新(906)。该更新(906)对应于图8的更新(805)。图10表示各个实施例的故障分析系统的MF 102,203的一个实施例的结构图。MF 1000是服务器,具有通常的计算机结构,具有构成处理部的中央处理部(CentralProcessing Unit:CPU)1002、构成存储部的RAM(Random Access Memory:随机存取存储器)1003 和 HDD (Hard Disk Drive:硬盘驱动器)1009、以及 NIF (Network Interface:网络接口)1001。在RAM1003中存储作为接收部发挥作用的接收程序1007、作为发送部发挥作用的发送程序1008、作为存储部发挥作用的存储程序1006、作为故障分析部发挥作用的故障分析程序1004、作为警报生成部发挥作用的警报生成程序1005。CPU 1002从存储在HDD1009中的程序1011逐次读出在MF 1000中构成这些功能部的各个程序,并在RAM 1003中展开进行驱动。另外,在本说明书中,省略上述的MF以外的、构成图1、图2中的故障分析系统的各个要素的内部结构的说明,但是客户端101、205、管理服务器103、201、服务器104、以及路由器105、202等均具有图10所示的计算机的基本结构。另外,将两个以上的不同网络相互连接的通信控制装置即路由器105、202,除了包缓冲器、路径表、流控制部等作为通常的网络上的通信控制装置的结构之外,还具有用于实现生成上述的发送给MF 102,203的AFM的功能的功能块、程序,通过由处理部执行程序来生成AFM并发送给MF 102、203。具有这种AFM生成功能的通信控制装置的结构的一例被详细记述在上述的日本特开2006 -314077号公报中。图10的接收程序1007是作为经由NIF (Network Interface)1001接收从各个路由器发送的AFM的接收部发挥作用的单元。发送程序1008是作为发送对管理服务器发出的警报(Alert)或对路由器发出的命令的发送部发挥作用的单元。存储程序1006将从AFM接收到的统计信息加工为与数据库1010中的管理表对应的数据后存储在数据库1010中。作为管理表中的参数,按每个路由器分配统计信息,对于所分配的统计信息,按照每个故障来分配分析参数,并生成管理表。并且,将网络整体的拓扑信息从匪S (Network ManagementSystem:网络管理系统)存储到数据库中,以便了解MF 1000管理的路由器之间的因果关系O故障分析程序1004从位于数据库1010中的管理表取得分析参数,并计算每个分析参数的相对于基准分布的马哈拉诺比斯距离,然后对每个故障进行总括性的分析。对各个路由器进行异常判定,如果在所管理的路由器中存在即使是一个有异常的路由器,则如上所述不进行所管理的所有路由器的基准值的期待值的更新。并且,在所管理的所有路由器没有被判定为异常的情况下,进行所有路由器的基准分布的期待值的更新。作为警报生成部发挥作用的警报生成程序1005,将由故障分析程序1004判定为异常的路由器的IP地址、引发异常的流的源的IP地址、目的地的IP地址包含在警报包中发送给管理服务器。并且,对于警报定义并决定警报的级别/等级。作为决定的警报级别的示例,在被划分为三个等级的情况下,对于诸如网络因拥堵而被切断、或者布线因恶化而断线的故障,发送警报级别最高的危险警报,对于产生流的微小的废弃的事件或吞吐量上升等事件,发送提醒警报,对于网络没有发生特殊故障的情况,发送安全警报。图11表示由MF 1000利用数据库1010管理的管理表1101的一例。管理表1101按照每个路由器由作为每个路由器的比较对象的基准分布和经由路由器的流的数据组构成。作为基准分布记载了各种分析参数的分布的平均及标准偏差。此次关于分析参数1102,列举平均包大小(Average Packet Size)、吞吐量(Throughput)、废弃率(Drop Ratio)的不例。关于这些分布,在表1101中对作为基准分布的平均及标准偏差进行管理。并且,也存储每个流(Flow UFlow 2......)的信息。作为每个流的信息,除作为分
析参数的平均包大小(Average Packet Size)、吞吐量(Throughput)、废弃率(Drop Ratio)之外,还将 Source IP (源 IP)、Destination IP (目的地 IP)、Source Port (源端口)、Destination Port (目的地端口 )作为信息进行存储。根据每个流的这些信息,在MF的存储程序部1006中对现状的分析参数计算统计分布并更新管理表1101。图12A、图12B 图15A、图15B表示通过上述的各个实施例,作为从AFM发送的统计信息的废弃率、吞吐量、平均包大小的数据、以及在MF内计算出的相对于基准分布的马哈拉诺比斯距离的计算结果。计算结果全部是绝对值。图12A、图12B分别示出了表示废弃率的结果的曲线1201和数据1202。下面,除图20A、图20B之外,同样是表示曲线及其数据。作为试样列举出9条流。并且,作为基准分布,将平均值设定为0.2、将标准偏差设定为0.2。关于在此次示例中列举的废弃率,相对于基准分布的马哈拉诺比斯距离的平均值是0.99。在分布中2 σ时的马哈拉诺比斯距离的值是2,因此,如果假设分布依据于正态分布,并且是以显著性水平为5%以上的概率发生的分布,因而废弃率的分布被判定为正常。此次将基准分布的平均值设定为0.2、将标准偏差设定为0.2,但此次的理论依据不在于该值。另外,作为异常流,流号码为9的流的马哈拉诺比斯距离是2.5,取2以上的值,因而确定为异常的流。图13A、图13B表示吞吐量的结果1301、1302。作为试样列举出9条流。并且,作为基准分布,将平均值设定为200[Mbit/s](兆比特/秒)、将标准偏差设定为200[Mbit/s]。关于在此次示例中列举的吞吐量,马哈拉诺比斯距离的平均值是2.59。在分布中2σ时的马哈拉诺比斯距离的值是2,因此,如果假设分布依据于正态分布,并且是以显著性水平为5%以下的概率发生的分布,因而吞吐量的分布被判定为异常。另外,作为异常流,流号码为
2、3、4的流的马哈拉诺比斯距离是6.5,取2以上的值,因而确定为异常的流。图14A、图14B表示平均包大小的结果1401、1402。作为试样列举出9条流。并且,作为基准分布,将平均值设定为300、将标准偏差设定为300。关于在此次示例中列举的平均包大小,马哈拉诺比斯距离的平均值是0.88。在分布中2σ时的马哈拉诺比斯距离的值是2,如果假设分布依据于正态分布,并且是以显著性水平为5%以上的概率发生的分布,因而吞吐量的分布被判定为正常。另外,作为异常流,流号码为2的流的马哈拉诺比斯距离取2以上的值,因而确定为异常的流。图15A、图15B表示用于说明使用废弃率、吞吐量、平均包大小这三个轴的马哈拉诺比斯距离进行总括性的而且是三维的异常判定的方法的曲线1501及其数据1502。关于在此次示例中列举的马哈拉诺比斯距离的三维化,将马哈拉诺比斯距离三维化后的值的平均值是3.41。当在一维分布中将异常判定用的阈值设为2 σ的情况下,三维的马哈拉诺比斯距离的阈值数值是sqrt (2*24-2*2+2*2) =2 sqrt (3) =3.46^3.5,因此,如果假设分布依据于正态分布,并且是以显著性水平为95%的概率发生的分布,因而此次的状态分布被判定为正常。另外,在判定为异常的情况下,向管理服务器发送包含原因及检测到的对象路由器的IP的包(警报)。IMF使用路由器发送的AFM的统计信息,对每个路由器进行总括性的故障分析,并考虑其它路由器的因果关系,在IMF管理的所有路由器被判定为正常时,更新基准分布的平均值及标准偏差的期待值,由此能够更准确地判定异常。图16A、图16B 图19A、图19B是表示在进行异常判定的情况下更新了基准分布的平均值及标准偏差的期待值时的、相对于基准分布的马哈拉诺比斯距离的计算结果的曲线和数据。计算结果全部是绝对值。上述的结果是基于预测的试样结果,不是实测值。图16A、图16B表示废弃率的结果1601、1602。关于废弃率,在更新了基准分布的平均值及标准偏差的期待值的情况下,相对于前一次数据的平均的马哈拉诺比斯距离是
0.95。相对于前一次期待值的马哈拉诺比斯距离是0.99。如果马哈拉诺比斯距离是比O足够大的值,则能够视为脱离基准分布的平均和标准偏差的值。此次由于基准分布的平均值的期待值及标准偏差的期待值被更新,因而认为相对于各个数据的马哈拉诺比斯距离已减小。另外,对于被更新后的基准分布的期待值,也示出了被判定为异常时的废弃率的数据。因为更新了基准分布的期待值,为了判定为异常,需要脱离相当远的值。作为脱离的值,是在9条流中4 9这6条流的废弃率表示值0.9的时候。图17A、图17B表示吞吐量的结果1701、1702。关于吞吐量,在更新了基准分布的平均值及标准偏差的期待值的情况下,相对于前一次数据的平均的马哈拉诺比斯距离是
1.27。相对于更新前的期待值的马哈拉诺比斯距离是2.62。此次由于基准分布的平均值及标准偏差的期待值被更新,因而认为马哈拉诺比斯距离已减小。另外,在更新基准分布的平均值及标准偏差的期待值之前,吞吐量被判定为异常分布,但是在即使是相同分布也更新了期待值时被判定为正常。另外,对于被更新后的基准分布,也示出了表示异常时的吞吐量的数据。因为更新了基准分布的期待值,为了判定为异常,需要脱离相当远的值。作为脱离的值,是在9条流中2 8这7条流的吞吐量表示值1.5[Gbit/s]的时候。图18A、图18B表示平均包大小的结果1801、1802。关于平均包大小,在更新了基准分布的平均值及标准偏差的期待值的情况下,相对于前一次数据的平均的马哈拉诺比斯距离是0.82。相对于前一次的期待值的马哈拉诺比斯距离是0.88。此次由于基准分布的平均值及标准偏差的期待值被更新,因而认为马哈拉诺比斯距离减小。另外,对于被更新后的基准分布,也示出了表示异常时的平均包大小的数据。因为更新了基准分布的期待值,为了判定为异常,需要脱离相当远的值。作为脱离的值,是在9条流中2 4这3条流的平均包大小表示值1000[byte]的时候。图19A、图19B表示三维马哈拉诺比斯距离的评价结果1901、1902。关于三维马哈拉诺比斯距离,在更新了基准分布的平均值及标准偏差的期待值的情况下,与更新前相比,为了判定为相对于基准分布的平均值偏离了 2σ的异常分布,作为数据是需要脱离了相当远的值。此次由于基准分布的平均值及标准偏差的期待值被更新,因而可知在更新基准分布的平均值及标准偏差的期待值之前计算出的马哈拉诺比斯距离较大的值,在此次的判定中马哈拉诺比斯距离的值减小。即,可知相对于前一次包含了误检测的可能性的结果,此次通过使接近更正常的值并进行反馈,能够进行更加恰当的异常判定。如以上说明的那样,从路由器等被检对象得到的数据组是被分割为多个分析参数的时间序列的数据组,根据这些时间序列的数据组,对相对于每个分析参数的基准分布的平均值及标准偏差的期待值进行反馈并更新。关于基准分布的平均值及标准偏差的期待值,初始参数是根据经验规律而设定的。另外,按每个故障分配分析参数,计算被分配的三维等多个分析参数的相对于基准分布的马哈拉诺比斯距离,并进行总括性的异常判定。这样,使用多个参数进行异常判定,并考虑各个路由器之间的因果关系,在此基础上根据各个路由器的判定结果再对基准分布的平均值及标准偏差的期待值进行反馈并更新,因而能够防止成为这种状态,即在某一个路由器进行了异常检测的情况下,其它路由器也一齐输出异常检测,导致从信息收集故障分析装置向管理服务器发送的警报过多。并且,通过将分析参数数值增加为三维以上,能够得到非常恰当的判定,而且没有误检测。实施例3下面,对第3实施例进行说明。在本实施例中,当在上述的故障分析装置/系统中更新基准分布的平均值及标准偏差的期待值的情况下,对基准分布的平均值及标准偏差,使用接下来各个路由器发送的AFM的统计信息,通过加权移动平均取代简单移动平均来重新进行更新。基准分布的平均及标准偏差的期待值的移动平均用下式表示。基准分布的平均的期待值的移动平均=(α *基准分布的平均的期待值+ β *在AFM中取得的数据分布的平均)/2……(8)基准分布的标准偏差的期待值的移动平均=(α *基准分布的标准偏差的期待值+ β*在AFM中取得的数据分 布的标准偏差)/2……(9)α + β =1......(10)使用上述的算式更新基准分布的平均值及标准偏差的期待值。在更新上述算式的平均值及标准偏差的期待值的情况下,考虑IMF管理的路由器之间的因果关系,仅在所管理的所有路由器正常时更新基准分布的平均值及标准偏差的期待值。对该实施例的动作进行说明。系统结构与上述的实施例1、2相同,因而省略说明。在使用式(8) (10)更新基准分布的平均值及标准偏差的期待值时,使α值、β值、各自的比率变化。关于α、β表示如下:β= I/马哈拉诺比斯距离……(11)如果(马哈拉诺比斯距离〈I)马哈拉诺比斯距离=1……(Ila)α = I — β......(12)使用上述的算式取得基准分布的平均值及标准偏差的加权平均。通过这样获取加权平均,对于作为比较基准的基准分布的平均值及标准偏差,不需要重视脱离程度较高的数据,而是重视更接近基准分布的平均值及标准偏差的数据。这样,通过获取与偏离程度对应的移动平均,能够将作为比较基准的基准分布视为正常分布。在更新上述算式的平均值及标准偏差的期待值的情况下,考虑MF管理的路由器之间的因果关系,仅在所管理的所有路由器正常时更新基准分布的平均值及标准偏差的期待值。

实施例4在本实施例中,不对实施例1的故障分析装置、系统设定基准分布的平均及标准偏差的期待值,而是连接网络,使用AFM来掌握N秒期间网络的状态,将此时取得的AFM的数据设定为基准分布的平均及标准偏差的期待值。这样在学习了网络的状况的基础上,自动设定基准分布的平均值及标准偏差的期待值,不需要管理员在推测系统的状况后设定基准分布的平均值及标准偏差的期待值。另外,作为基准分布的初始值,可以考虑将平均值设为O、将系统的最大允许值设定为标准偏差的方法。在这种情况下,在取得N秒期间基准分布的移动平均时,认为基准分布有可能从最大允许值收敛于在当前驱动的值的分布。实施例5下面,对第5实施例进行说明。在本实施例中,在实施例1、2说明的故障分析装置/系统中,在IMF进行故障分析时,用下式定义在异常判定中使用的分析参数。TCP 的吞吐量 / 差异数[Mbit/s]......(13)在此对差异数进行说明。图20A、图20B是说明差异数的图。关于从路由器取得用于检测状态变化的分析参数的方法,列举了 AFM的例子。在AFM中导入汇集流的概念。例如,列举在5元组(发送源IP地址、目的地IP地址、协议、发送源端口号码、目的地端口号码)中如图20A、图20B所示、由2元组一致的包构成的汇集流的示例。这样将I对η通信视为一个汇集流时,能够定义在2元组中不包含的项目中出现了几种不同的值这样的被称为“差异数”的新的统计量。在AFM中,该差异数也作为统计信息的一部分来收集。图20Α、图20Β分别表示作为汇集流的、一致的2元组的组的(发送源IP地址、协议)2001或者(目的地IP地址、协议)2002的情况。在作为2元组的组的(发送源IP地址、协议)的情况下,假设某个PC通过TCP通信与多个服务器连接。在作为2元组的组的(目的地IP地址、协议)的情况下,假设服务器接收从多个客户端发送的TCP通信。在上述的参数的概念中,差异数是针对(发送源IP地址、协议为TCP)的差异数或针对(目的地IP地址、协议为TCP)的差异数。在差异数是针对(发送源IP地址、协议为TCP)的差异数的情况下,客户端与某个PC连接,在所连接的TCP通信中,是每TCPl通信的平均吞吐量。如果该值表示较大的值,则假设某个PC在通过大容量的TCP通信与多个服务器连接。在这样通过大容量的TCP通信来访问多个服务器的情况下,将使网络的效率显著降低。并且,导致连接对象的服务器死机的可能性增大。通过定义如上所述的参数,能够确定出具有恶意的用户或者进行通常用户不可能进行的通信的用户。在差异数是针对(目的地IP地址、协议为TCP)的差异数的情况下,在连接服务器的TCP通信中,是每TCPl通信的平均吞吐量。这样在通过多个而且是大容量的TCP通信来访问多个服务器的情况下,服务器死机的可能性增大。通过定义如上所述的参数,能够确定出有可能死机的服务器。在上述的实施例中,也考虑定义如下式所述的参数的实施例。UDP 的吞吐量 / 差异数[Mbit/s]......(14)并且,在上述的实施例中,也考虑定义如下式所述的参数的实施例。TCP的吞吐量/差异数[Mbit/s] + UDP的吞吐量/差异数[Mbit/s]……(15)图21A、 图21B表示有关式(13)的结果2101、2102。在将(源IP地址,协议)固定的情况下,图21A、图21B所示的结果是相对于目的地IP地址的每个差异数的吞吐量的结果。该结果表示在假设客户端连接多个服务器的状况下,连接服务器的流的平均吞吐量。如果该值表示较高的值,则假设是连接多个服务器的大容量的客户端,客户端有可能引发系统整体的性能恶化。在对于每个差异数的吞吐量更新基准分布的平均值及标准偏差的期待值的情况下,相对于前一次的数据的平均的马哈拉诺比斯距离是1.592。在分布中2 O时的马哈拉诺比斯距离的值是2,因此,如果假设分布依据于正态分布,并且是以显著性水平为5 %以上的概率发生的分布,因而吞吐量的分布被判定为正常。另外,作为异常流,源IP地址=192.168.30.6、源IP地址=192.168.30.7的流的马哈拉诺比斯距离取2以上的值,因而确定为异常的流。将图21A、图21B所示的结果在先前示出的多维分析中定义为一维。图22A、图22B表示有关式(13)的结果2201、2202。在将(目的地IP地址,协议)固定的情况下,图22A、图22B I所示的结果是相对于源IP地址的每个差异数的吞吐量的结果。该结果表示在假设服务器连接多个客户端的状况下,服务器连接客户端的流的平均吞吐量。如果该值表示较高的值,则假设是大容量地连接多个客户端的服务器,该服务器有可能引发系统整体的性能恶化。在对于每个差异数的吞吐量更新基准分布的平均值及标准偏差的期待值的情况下,相对于前一次的数据的平均的马哈拉诺比斯距离是2.81。在分布中2σ时的马哈拉诺比斯距离的值为2,因此,如果假设分布依据于正态分布,并且是以显著性水平为5%以下的概率发生的分布,因而吞吐量的分布被判定为异常。另外,作为异常流,源IP地址=192.168.10.1、源IP地址=192.168.10.2、源IP地址=192.168.10.8的流的马哈拉诺比斯距离取2以上的值,因而确定为异常的流。将图22A、图22B所示的结果在先前示出的多维分析中定义为一维。以上详细叙述的本发明不限于上述的实施例,包括各种变形例。例如,上述的实施例是为了更好地理解本发明而详细说明的实施例,不一定限定为具有说明的全部结构。另外,能够将某个实施例的结构的一部分置换为其它实施例的结构,并且也能够对某个实施例的结构追加其它实施例的结构。并且,能够对各个实施例的结构的一部分进行其它结构的追加、删除、置换。另外,上述的各个结构、功能、处理部等当然也可以通过利用例如集成电路设计它们的一部分或者全部,以硬件来实现。标号说明101客户端PC; 102 MF ; 103综合管理服务器;104服务器PC ; 105路由器;201综合管理服务器;202路由器;203 MF ;204数据中心;205客户端PC ;301 UDP头;302 AFM头;303 AFM统计有效载荷;304版本序号;305统计有效载荷数;306保留;307版本序号;308 AFM代理ID ;401基准分布;402异常分布;501基准分布;502异常分布;601基准分布的平均;602基准分布的标准偏差;603异常流;701吞吐量的马哈拉诺比斯距离;702平均包大小的马哈拉诺比斯距离;703废弃率的马哈拉诺比斯距离;801基准分布的初始设定;802在N秒钟内从AFM取得数据;803管理的所有路由器的异常判定;804警报发送;805基准分布的期待值的更新901作为初始值,设定作为各个路由器的各个轴的基准值的平均及标准偏差902从各个路由器由AFM取得数据903 经过 N 秒?904按照每个轴测定分布的马哈拉诺比斯距离905每个路由器的M维马哈拉诺比斯距离的测定异常或者全部正常?906向管理服务器发送警报
907按照每个路由器更新作为每个轴的基准值的平均及标准偏差1001 NIF ;1002 MPU ; 1003 RAM ; 1004 故障分析程序;1005 警报生成程序;1006 蓄积程序;1007接收程序;1008发送程序;1009 HDD ; 1010DB ;1101废弃率曲线;1102废弃率的数据;1201废弃率曲线;1202废弃率的数据;1301吞吐量曲线;1302吞吐量的数据;1401平均包大小曲线;1402平均包大小的数据;1501三维马哈拉诺比斯距离的曲线;1502三维马哈拉诺比斯距离的数据表;1601废弃率曲线;1602废弃率的数据;1701吞吐量曲线;1702吞吐量的数据;1801平均包大小曲线;1802平均包大小的数据;1901三维马哈拉诺比斯距离的曲线;1902三维马哈拉诺比斯距离的数据表;2001将发送源IP地址固定时的差异数;2002将目的地IP地址固定时的差异数;2101在将(源IP地址,协议)固定的情况下,作为差异数的每个源IP地址的吞吐
量2102在将(源IP地址,协议)固定的情况下,作为差异数的每个源IP地址的吞吐量的数据2201在将(源IP地址,协议)固定的情况下,作为差异数的每个目的地IP地址的
吞吐量2202在将(源IP地址,协议)固定的情况下,作为差异数的每个目的地IP地址的
吞吐量的数据
权利要求
1.一种故障分析装置,与网络上的多个路由器连接,其特征在于, 该故障分析装置具有: 接收部,接收各个所述路由器取得的在通信流中流过的每个流的信息作为数据组; 蓄积部,蓄积所接收的所述数据组;以及 故障分析部,将所蓄积的每个路由器的所述数据组作为对于每个故障的至少一个分析参数,计算所述分析参数的相对于基准分布的马哈拉诺比斯距离,按照每个路由器使用相对于所述基准分布的马哈拉诺比斯距离进行异常判定。
2.根据权利要求1所述的故障分析装置,其特征在于, 所述故障分析部在使用相对于所述基准分布的马哈拉诺比斯距离进行异常判定时,通过简单移动平均或者加权移动平均来进行在所述路由器异常判定中使用的所述基准分布的平均值及标准偏差的期待值的更新。
3.根据权利要求1所述的故障分析装置,其特征在于, 所述故障分析装置还具有警报生成部, 所述警报生成部根据所述故障分析部通过所述异常判定而确定出的故障原因和故障部位,决定发送到外部的警报的等级。
4.根据权利要求2所述的故障分析装置,其特征在于, 所述故障分析部在通过加权移动平均来进行在异常判定中使用的所述基准分布的平均值及标准偏差的期待值的更新时,利用与所述马哈拉诺比斯距离成反比例的值进行针对取加权平均的数据的加 权。
5.根据权利要求1所述的故障分析装置,其特征在于, 所述故障分析部在对每个所述路由器进行异常判定时,在一定期间从所述路由器收集所述数据组,根据收集到的所述数据组计算在异常判定中使用的所述基准分布的平均值及标准偏差,并作为所述基准分布的初始值。
6.根据权利要求1所述的故障分析装置,其特征在于, 所述故障分析部使用所取得的每个路由器的所述数据组,按照每个故障对多个分析参数进行分割,作为多个所述分析参数中的一个分析参数,根据TCP吞吐量/差异数Mbit/s计算相对于所述基准分布的马哈拉诺比斯距离。
7.根据权利要求1所述的故障分析装置,其特征在于, 所述故障分析部使用所取得的每个路由器的数据组,按照每个故障对多个分析参数进行分割,作为多个所述分析参数中的一个分析参数,根据UDP吞吐量/差异数Mbit/s计算相对于所述基准分布的马哈拉诺比斯距离。
8.根据权利要求1所述的故障分析装置,其特征在于, 所述故障分析部使用所取得的每个路由器的所述数据组,按照每个故障对多个分析参数进行分割,作为多个所述分析参数中的一个分析参数,根据(TCP吞吐量+ UDP吞吐量)/差异数Mbit/s计算相对于所述基准分布的马哈拉诺比斯距离。
9.一种网络的故障分析系统,其特征在于, 在所述网络上具有与节点连接的多个路由器、和与多个所述路由器连接的故障分析装置, 所述故障分析装置具有:接收部,接收各个所述路由器取得的在通信流中流过的每个流的信息作为数据组;以及 故障分析部,将所接收的每个路由器的所述数据组作为对于每个故障的至少一个分析参数,计算所述分析参数的相对于基准分布的马哈拉诺比斯距离,按照每个路由器使用相对于所述基准分布的马哈拉诺比斯距离进行异常判定。
10.根据权利要求9所述的故障分析系统,其特征在于, 所述故障分析部在使用相对于所述基准分布的马哈拉诺比斯距离进行异常判定时,通过简单移动平均或者加权移动平均来进行在所述路由器异常判定中使用的所述基准分布的平均值及标准偏差的期待值的更新。
11.根据权利要求9所述的故障分析系统,其特征在于, 具有所述故障分析部的所述节点还具有警报生成部, 所述警报生成部根据所述故障分析部通过所述异常判定而确定出的故障原因和故障部位,决定发送的警报的等级。
12.根据权利要求11所述的故障分析系统,其特征在于, 在所述网络上还具备与具有所述故障分析部的所述节点连接的管理服务器, 具有所述警报生成部的所述节点具备: 发送部,向所述管理服务器发送由所述警报生成部决定了等级的所述警报。
13.一种与网络上的多个路由器连接的节点中的故障分析方法,其特征在于, 所述节点接收各个所述路由器取得的在通信流中流过的每个流的信息作为数据组, 所述节点将所接收的每个路由器的所述数据组作为对于每个故障的至少一个分析参数,计算所述分析参数的相对于基准分布的马哈拉诺比斯距离,按照每个路由器使用相对于所述基准分布的马哈拉诺比斯距离进行异常判定。
14.根据权利要求13所述的故障分析方法,其特征在于, 所述节点在使用相对于所述基准分布的马哈拉诺比斯距离进行异常判定时,通过简单移动平均或者加权移动平均来进行在所述路由器异常判定中使用的所述基准分布的平均值及标准偏差的期待值的更新。
15.根据权利要求14所述的故障分析方法,其特征在于, 所述节点在通过加权移动平均来进行在异常判定中使用的所述基准分布的平均值及标准偏差的期待值的更新时,利用与所述马哈拉诺比斯距离成反比例的值进行针对取加权平均的数据的加权。
全文摘要
在网络断层扫描技术中,不能确定出发生故障的部位、故障原因,并且由于信息量较少,误检测也比较多。IMF(102)使用AFM聚合流挖掘等从作为被检对象的各个路由器(105)取得每个流的信息,按照每个路由器取得每个流的差分或吞吐量等统计信息的分布,针对各个分布计算相对于基准分布的期待值的马哈拉诺比斯距离,对分布进行总括性判定来进行异常判定。在进行异常判定时,从AFM取得作为比较对象的分布的正常值,并随时进行反馈及更新。在判定了其它路由器的异常判定结果后,进行作为比较对象的基准分布的期待值及标准偏差的期待值的更新。
文档编号H04L12/26GK103081407SQ20118004229
公开日2013年5月1日 申请日期2011年3月3日 优先权日2011年3月3日
发明者下川功, 垂井俊明, 宫本启生, 马场智宏 申请人:株式会社日立制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1