事件相关性的制作方法

文档序号:7565000阅读:229来源:国知局
专利名称:事件相关性的制作方法
技术领域
本发明涉及设备管理系统的操作。
这类系统用于对相互作用的设备、如存在于通信网络或大型工业成套设备中的设备的操作状态进行监视及在某些情况下亦进行控制。本发明原是考虑用于长途通信网络,但它也可用于具有大量相互作用设备的其他系统。在一个设备管理系统中,监测装置响应其各相应设备操作中的重大事件检测各个设备的操作状态,并将信号传送到设备管理者。信号也可由人工发出以报告设备中的状态。该词“事件”用于该说明书中是指引起该待传送信号的任何状态,或状态的改变。通常,这些事件是指故障,而监测装置将是故障检测器,用于在检测到故障的情况下将警报信号发送到设备管理系统。
例如,在长途通信网络中,由一个交换中心的故障引起的警报信号将提醒系统管理者,他将对要做的替换程序作出安排,并也对故障交换中心需作的任何修理工作做出安排。在某些系统中这些响应是自动作出的,但是更普遍的是这些故障仍需人的干预,而系统仅提供给系统管理者需引起注意的任何故障的细节。这使得管理者能有效地组织可得到的资源,对各种因素如安全临界、优先级、及现场职员的位置作出考虑。
这也使得已知原因的非重要警报、如由已断接的进行例行维修的设备引起的警报,将不被系统管理者予以理采。
应该确认到,一个网络故障的效应、例如高位速线系统故障的效应将会通过从属资源体系传播下去,并引起许多近乎同时的警报信息。如果没有识别出潜在原因,则时间及其它资源将会浪费在对所有警报源的考察上。
一个故障将影响直接连接于故障源的所有设备,或在一个地理位置上的所有设备(虽然它们在拓朴布局上彼此远离)或特定类型的所有设备。例如,外部无线电干扰能影响到网络中干扰源发射范围内的、在特定频率上工作的所有无线电线路,虽然,从网络的连接性的观点来看它们显得彼此远离。基于这个认识,将认为在极接近的时间上发生的警报信息趋于关联或相关。
其中警报信息考虑为相关的任何时窗大小必须被优化,如果它被设得过大,在该时窗中到达由未连接资源来的警报信息机会增大;如果它被设得过小,在该时窗中可能只有相关警报信息的部分集合到达。
在某些情况下,相关的故障仅能由系统在较迟的时间被测到。例如,如果一个设备在故障起始时刻未处于工作中而较后试图与故障设备建立联系就是这种情况。
系统的操作者将能够根据网络的特性确定一个合适的时窗大小。这将取决于网络性能及在其中监测到的故障。在由人工而非自动地将故障报告给系统的情况或其中精确定时难以测量的情况下,该时窗可能是小时、或甚至是天的数量级,而对于持续及自动监测的系统,适合的时窗可用秒来度量。
当然,两个事件在一时刻一起发生的纯事实不一定指示出它们之间存在因果关系。不管选择了什么样的优化时窗,总是存有一定的可能性在同一时窗中通报了两个或多个独立的警报分级。
为了便于以下的讨论,在同一时窗中发生的事件被认为是同时发生的。
虽然在单个时窗中的时间相关性是易于实行的技术,但它对于在警报信息之间存在真正的相关性未提供很大的把握。同时性不证明是相关性,因此不能识别警报信息之间的因果关系。
在公知的设备管理系统中,利用建立系统的计算机模型,或依赖于操作者的知识来寻求这些问题的解决。这需要对系统有详细的了解及最新的知识,它的精确性取决于对可能涉及到的所有因素的了解。此外,任何这种模型只专门适于单独的设备,不具有普遍实用性。本发明通过利用一种以经验为根据的方法识别相关警报事件来克服这些缺点。
根据本发明的第一方面,提供了对由设备管理系统管理之设备中发生的事件之间的可能关系进行识别的方法,它包括对与在参考时间周期中发生在设备中的特定事件的时间有关的历史数据进行存储;识别再发生的专门事件;对历史数据进行分析以确定再发生事件之间相关性的量度,并将该量度提供给设备管理系统的输出装置。
本发明取消了事先建立一个系统模型的需要。在根据本发明的一种安排中,历史数据可被更新,以允许该方法去“学习”,并随着数据库范围的增大允许它改善精确度并使其跟上对系统作出的改变。它这样地识别可能是相关的事件,看一个是另一个的直接后果还是它们具有同样的潜因。虽然被监视的事件通常是由监视被管理的设备部件的装置产生的故障警报,但与这类故障相关的另外事件也可以输入给系统,如来自气象传感器的数据,或由人工报告给管理系统的故障,例如,对来自远方的用户的报告作出响应。
如此使用历史事件数据可使现有技术的单一时窗时间相关性增加重大能力,来识别事件发生之间的可能关系。这种相关性可通过使用根据本发明的历史时间相关技术来识别,而无需优先知道资源之间的任何关系。
最好确定一个预定时窗及从该时窗中发生的事件中选择进一步发生的事件。
相关性的量度最好是在同一时窗中偶尔进一步发生的事件的统计概率。
在一种安排中,度量一个被选事件与两个或多个另外事件的相关性,及以所述统计概率的次序来排列这两个或多个其它事件。
输出装置最好是一个显示器,并且只有所述统计概率低于一阈值时事件才被选出用于显示。
在这种显示器中,如果所述统计概率低于一阈值,显示事件可被突出显示出来,该阈值可以是一预定值,或可以是根据依赖于所述统计概率范围或序列图的准则选择的。
被选事件最好是可从可被系统识别的不同事件中选择的。
在一个优选的实施例中,设备管理系统监视被管理的设备并检测事件的发生。
但是,至少某些事件可通过人工被系统识别。
历史数据可通过以下步骤存储-选择一个参考时间周期,并且-将参考时间周期分成预定宽度的时窗;及-对每个待进行分析的事件,存储其间事件发生的参考时间周期中每个时窗的同一性。
该分析过程可以如下程序进行-选择一个待分析的时窗;-选择出在被选时窗中发生的第一事件;-识别在被选时窗中发生的另外事件;及-对于每个这样的另外事件,利用被存储的其间事件发生的参考时间周期中的时窗同一性来计算在与所述第一事件同一时窗中偶然发生的这个另外事件的统计概率。
另一种分析过程如下选择一个时窗进行分析;选出在被选时窗中发生的第一事件;利用预定关系识别在与所选时窗相关的第二时窗中发生的另外事件;及对于每个这样的另外事件,利用被存储的其间事件发生的参考时间周期中的时窗同一性来计算在具有与第一事件发生的时窗相同预定关系的一个时窗中偶然发生的这个另外事件的统计概率。
该预定关系最好是时间差。
在同一时窗中偶然出现的事件ARm及ARn的概率的测量可由下式确定k!p!(k-p)!rp(1-r)(k-p)]]>式中k=其中第一等级的事件发生的时窗数;r=其中另外等级的事件发生的时窗数;p=其中第一等级及另外等级两者一起发生的时窗数。
参考时间周期可以是固定的,或可以是持续更新的。
事件例如为一个系统中的故障状态。
分析可追溯地作出,在故障已被清除后,为了识别故障的根本原因以便识别出会引起另外部件故障的不可靠部件。另一方式是,分析可以在故障状态期间实时地进行,以便确定及维修故障的原因,它将会引起另外故障报告的清除,而无需技术人员的参与。
在一优选实例中,本发明依赖于事件同时发生的统计概率的分析。实质上,它依赖于这个事实,即两个罕见的独立事件它们同时发生的概率非常低。它依据,如果仍然有两个罕见事件同时发生的历史,就有可能这些事件不是独立的,并且在它们之间存在相关性。在该方法中对两个偶然同时发生的事件的概率作出度量。该方法可被用于对由操作者成对选择的可能配对的事件进行比较,但在另一种实施安排中,比较可在所有同时发生的事件之间进行,然后对它们以计算出的在同一时刻偶然一起发生的概率的大小次序进行排列。通常它们被归入两组,即是偶然一起发生的概率高的一组,及该概率低得多的一组,后者表明它们的同时性未必是随机的相一致,并表明在它们之间可能有相关性。对于具有许多待评价的潜在相关性的大系统,需要有识别这些事件的某些方法。
该方法可包括以排列顺序显示事件,在显示屏上突出地显示相关事件,或仅显示相关的事件。对低于其可能具有因果关系的阈值可以进行预定,或是依赖于在逐个情况基础上确定的概率图进行变化。这个阈值可以确定出哪些事件将被显示或被突出显示。亦可使用两个或多阈值,以便识别相关性中的不同等级的可靠性。
虽然参考时间周期可被固定,但它最好对于数据能持续地更新。这允许系统去“学习”,并随着数据库变大,它将变得更可靠。
在某些情况下,可能在原因的报告及效果的报告之间或是在来自同一原因的两个效果的报告之间具有系统惯有的延时。在可能出现这种情况的系统中,可利用在交错的时窗中对两个事件作比较以重复地进行该方法,例如使得,将在给定时窗中的第一事件的出现与在紧前一时窗中的第二事件的出现相比较。
根据本发明的第二方面,提供了一种设备管理系统,它包括监视装置,用于识别被系统管理的设备中发生的事件;存储装置,用于存储与这些事件有关的历史数据;输入装置,用于从由监视装置识别的事件中选择一个用于相关事的事件;相关性装置,用于使用在存储装置中存储的历史数据来计算被选事件与由监视装置识别的另外事件的相关性;及显示装置,用于显示由相关性装置确定的相关性。
该系统可包括更新装置,用于周期性地使保持在监视装置中的数据能加入到存储装置中的数据内去,由此使存储装置中的数据能保持到最新的数据。相关性装置最好执行统计相关性的运算。
还可设置能由人工对监视装置报告事件的装置,例如通过一个键盘来报告。这可能是有必要的,例如当一个警报装置本身出故障时。
显示装置最好这样地作出显示,即,使得相关事件能在视觉上与不相关事件区别开来,例如用突出辉光显示它们。
现在将参照附图利用举例的方式来描述本发明,附图为

图1是应用本发明方法的一个实施例的简单网络的示意概图,用于图解说明相关性的确定;图2是表示图1中网络的历史警报数据的示意概图;图3是说明图1中的网络具有由本发明方法的该实施例确定的相关性的示意概图;图4a,4b及4c表示代表由本发明的方法可获得的结果的相关性“对照表”;图5是根据本发明的第二个确定相关性的例子,它表示由该本发明方法产生出的显示的示意图;及图6是用于实施本发明的一个实施例的装置的示意概图。
为了有助于理解本发明各实施例的说明,首先着手说明图1的简单网络,其中仅有六个资源A,B,C,D,E及F和一个仅分成十个时窗(t-9至to)的参考时间周期。
AR1,AR2,AR3,AR4,AR5,AR6是由这些资源产生的可能发生的警报。
图2表示在参考时间周期上接收到的来自每个资源的一个示范性历史警报信息序列。
按照本发明的方法,由操作者选择一个出现事件用来分析。在该例中,选择了在时窗to中出现的警报AR1。在此例中,所有另外事件AR2至AR6在此时窗中与AR1同时地发生。
由历史数据,利用将发生事件的时窗数(x)除以参考时间周期中的总时窗数(n)的计算,可获得每个事件出现的概率(r),即对于AR1,AR2及AR5为0.5,对于AR3及AR6为0.1,而对于AR4为0.9。
事件AR2,AR3及AR5每个与AR1同时发生五次,而AR3及AR6与AR1同时发生仅一次。
如果两个资源各自的历史警报序列具有低的由于纯偶然而相似的概率,则这两个资源之间将趋于存在相关性。
偶然相似的两个历史警报序列ARm(t)及ARn(t)的概率可从二项式分布来计算P(ARm(t)和ARn(t)相似)=k!p!(k-p)!rp(1-r)(k-p)]]>式中k=ARn为有效的时窗数p=ARm及ARn为有效的时窗数r=当测试ARn对ARm的相关性时ARm为有效的概率。
r是用本方法根据经验确定的,即通过计算x/n确定,其中n是总的时窗数,x是其中ARm为有效的时窗数。当计算出每对偶然一起出现的警报ARm,ARn的概率时,可将各配对以它们的概率次序排列以形成一个相关性“对照表”。
由上述公式计算得到的相关概率以数值增大的次序表示在图4a至4c的表中。于是从图4a中容易看出,与AR1偶然同时出现的最小可能性的(因而是最可能相关的)警报为AR2及AR5。
可应用一个决定界线来确定相关及非相关概率之间的分界点应置于的位置。这个阈值可预先确定,或在这结果集的基础上计数出来。例如,图4a表示利用计算AR1(t)与所有图1所示的所有资源的历史时间相关性得出的相关性对照表。
AR2及AR5被表明落在与AR1本身相同的相关性等级中。
图4a中的双线指示出相关/非相关阈值应置于的位置。相似警报的概率随着跨过该阈值的数值顺序变化被聚集成两组。在操作者的显示器上,在该阈值上方的屏2的区域将以某种方式使其引人注目。另一方式是可仅显示相关的事件。
该方法可重复选择一个另外的警报,用以对照其它的作出比较。
对于AR3可以确定出它与AR6的随机相关概率为0.1,而与任何其它资源的随机相关概率均大于03,如图4b中所示。类似地,使用AR4,可以确定出所有相关性具有至少为0.24的随机出现概率。由此可见事件AR4与任何其它事件不相关,这个结果表示在图4c上。
在图1的简单网络中,可从图2的目测中看出这些结果在直观上是合理的。对所有历史警报信息的目测表明AR1(t)的历史序列图与AR2(t)及AR5(t)两者的相同,而很不同于AR3(t),AR4(t)及AR6(t)的历史序列图。AR3(t)具有类同于AR6(t)的历史序列图,但非常不同于所有其它的警报序列。
虽然所有资源警报在时窗to中是时间相关的,但是这些警报序列的历史时间相关性表明AR1及AR2是与AR5可能相关的,及AR3与AR6是可能相关的(图3)。没有警报显示与AR4相关。
但是,在具有可能数百个资源的更复杂系统中,这种目测分析是不可能的。
此外,在真实网络中,警报信号发生的频率要比该例中的频率低得多,因此必须提供用于统计的有用的数据库的时帧数将是非常大的。再者,虽然对于熟练的操作者有可能对许多的这些警报手工地再分组,但在现有技术系统中没有以使最重要的警报(即最多的另外警报对其有关的警报)能被识别的方式表示数据。因而本发明的方法特别适用于其中可能相关的数目过大而不能直觉地分组的大系统中。
当事件出现概率(r)小时,在第一例中使用的二项式分布接近于泊松分布 作为第二例使用真实数据,在一个在某日期的105343报告一故障的BT网络监测系统(NTEMON)中的被选资源及在同一时窗中报告故障的系统中的所有另外资源之间执行一次性的历史时间相关性运算。这个历史的数据库包括所有1990年12月份的警报数据(故障报告),使用150秒的时窗宽度,因此得到17,856个时窗。国家NETMON数据库对于1990年12月份存储了来自约40,000个资源的约2×106个警报。显然,利用简单的目测对来自这样大量数据的历史警报序列图不能作出识别。
在此例中,将事先决定一个阈值。从上述数据中可看出,在参考周期中每个资源的平均警报数约为2,000,000/40,000=50,因此在任何给定时窗中事件出现的平均概率为50/17856=00028。因而在给定时窗中同时报告的任何随机选择资源对的概率为(0.0028)2=7.8×10-6数量级。具有(40,000)2=1.6×109个可能的资源配对,因此在任何给定时窗中具有约12,500个随机相关资源对。
为了避免被这些随机相关数搞到不知所措,选择了一个阈值,它仅报告统计上最重要的相关性。在下例中,使用了10-8的阈值概率。
图5表示在该数据基础上运用根据本发明的方法得出的相关性“对照表”的顶部。它可以被显示在显示屏1上(图6)。在该对照表中的顶部条项是关于被选资源报告的故障。阈值距该表的这个片断的底部有一定距离。
该表有五列。第一列表示故障位于的区域,NE=东北部,S=苏格兰,M=中部,L=伦敦,NW=西北部。
第二列表示警报的真正来源地。
第三列表示故障的性质,两字母码首标表示故障位置(注意对系统可能从远离故障本身的地点发来故障报告)。
第四列是计算的偶然发生警报故障的概率。
第五列给出相关概率。
从它们在该对照表中的位置,对于在一个警报相关等级中各资源间的许多相关性的识别变得容易了,否则就弄不清楚了。
在这个等级中的故障可被看出具有首标码(第三列)对于莱斯特为(LE),利兹为(LS),设菲尔德为(SF),爱丁堡为(EH),剑桥为(CB),伦敦为(L),曼彻斯特为(MR)等。由该对照表显示的某些相关性具有明显的原因例如作为被选资源头十三个均发生在同一地点。但是,也可以看出,来自三个线路系统并全从同一地点码LE/D(莱斯特D)发出的警报,即莱斯特D-德比F,莱斯特D-利兹G及莱斯特D-设菲尔德E。这个相关性体系的顶部看来似乎是电力相关的效应。
从这个示范的历史时间相关性的结果提示出,与在地点码LE/D处电源有关的问题是造成在广大的地理区域上发生许多警报的原因。这个结论不会从观察现有技术的单时窗时间相关性的结果中得出,因为其中也显示出大量不相关的警报,但是可从利用本发明的方法确定的排列中很容易地识别出。
事后的分析揭示了,在此情况下故障确实存在于莱斯特地区部分供电网络中。
在本发明中所使用的历史时间相关性的原理可在网络管理系统中作为警报相关性的自学习技术。人造神经网络原理提供了一个在其中警报相关性自学习能起作用的框架。
利用当它们被识别时相关性的记录,系统可以建立一个相关性的计算机模型,以使得当出现警报的特定序列图时可以更容易地识别相关警报。
一个根据本发明的网络管理系统表示在图6中。它表示具有许多互连点的资源R1至R9的一个网络。资源R1至R8具有各自的监视器AR1至AR8,它们能对网络监视装置2报告警报状态,用于在显示屏1上对操作者3显示。资源R9不直接地连接到该管理系统,但现场操作者4发现在资源R9中发生故障时可告知操作者3,例如通过电话联系线路T,以致借助数据输入装置5及输入线路12可将故障报告给监视装置2。
在时钟9的控制下,故障状态及它们发生的时间可通过更新线路11被周期性地报告给存储器6。
当在显示屏1上观察到操作者希望其与其它故障相关的故障时,操作者3将使用输入装置5来选择待识别相关的一个故障状态。关于目前警报状态的信息被相关性装置7从监视装置2中取出。相关性装置7从存储器6中取出历史数据,并进行统计分析(如上所述),对每个目前报告给监视装置2的警报计算出作为被选警报在同一时刻它出现的理论概率。这些警报以概率增大次序显示在显示屏1上。具有的相关概率低于一预定值的警报被用突出辉光部分8识别出来。
监视装置2,显示屏1,输入线路12,时钟9,更新线路11,存储器6及相关性装置7可作成设有适用软件的计算机来实施。
权利要求
1.对由设备管理系统管理之设备中发生事件之间的可能关系进行识别的方法,该方法包括对与在参考时间周期中发生的专门事件的时间有关的历史数据进行存储;识别再发生的专门事件;对历史数据进行分析以确定再发生事件之间相关性的量度,并将该量度提供给设备管理系统的输出装置。
2.根据权利要求1的方法,其中确定预定时窗,并且将再发生的事件从该时窗中发生的事件中选出。
3.根据权利要求2的方法,其中相关性的量度是在同一时窗中偶然再发生的事件的统计概率。
4.根据权利要求3的方法,其中度量一个被选事件与两个或多个其它事件的相关性,及以所述统计概率的次序来排列这两个或多个其它事件。
5.根据权利要求3或4的方法,其中输出装置是一个显示器,及仅将其所述统计概率低于一阈值的事件选择用于显示。
6.根据权利要求4或5的方法,其中输出装置是一个显示器,及将其所述统计概率低于一阈值的显示事件突出地显示出来。
7.根据权利要求5或6的方法,其中该阈值是一预设值。
8.根据权利要求5或6的方法,其中阈值是根据依赖于所述统计概率范围或序列图的准则选择的。
9.根据权利要求4至8中任一项的方法,其中被选事件可从可被系统识别的不同事件中选择。
10.根据上述任一权利要求的方法,其中设备管系统监视被管理的设备及检测出事件的发生。
11.根据上述任一权利要求的方法,其中至少某些事件通过人工为系统识别。
12.根据权利要求3至10中任一项的方法,其中历史数据通过以下步骤进行存储选择一个参考时间周期;及将参考时间周期分成预定宽度的时窗;及对每个待进行分析的事件,存储其间事件发生的参考时间周期中每个时窗的同一性。
13.根据权利要求12的方法,其中选择出一个时窗进行分析;选择出发生在被选时窗中的第一事件;识别在被选时窗中发生的另外事件;及,对于每个这样的另外事件,利用被存储的其间事件发生的参考时间周期中的时窗同一性来计算在与所述第一事件同一时窗中偶然发生的这个另外事件的统计概率。
14.根据权利要求12的方法,其中选出一个时窗进行分析;选出在被选时窗中发生的第一事件;利用预定关系识别在与所选时窗相关的第二时窗中发生的另外事件;及,对于每个这样的另外事件,利用被存储的其间事件发生的参考时间周期中的时窗同一性来计算在具有与第一事件发生的时窗相同预定关系的一个时窗中偶然发生的这个另外事件的统计概率。
15.根据权利要求14的方法,其中预定关系为时间差。
16.根据权利要求13,14或15的方法,其中在同一时窗中偶然出现事件ARm及ARn的统计概率由下式给出k!p!(k-p)!rp(1-r)(k-p)]]>式中k=ARm发生的时窗数,r=事件ARm有效的概率,p=当测试ARn对ARm的相关性时其间事件ARm及ARn均发生的时窗数。
17.根据权利要求12至16中任一项的方法,其中参考时间周期是固定的。
18.根据权利要求12至16中任一项的方法,其中参考时间周期是持续更新的。
19.根据以上任一权利要求的方法,其中事件是系统中的故障状态。
20.为了基本上如上所述地识别两个或多个事件之间的关系,操作一种设备管理系统的方法。
21.一种设备管理系统,包括监视装置(2),用于识别被系统管理的设备(AR1-AR9)中发生的事件;存储装置(6),用于存储与这些事件有关的历史数据;输入装置(5),用于从由监视装置(2)识别的事件中选择一个用于相关的事件;相关性装置(7),用于使用在存储装置(6)中存储的历史数据来计算被选事件与由监视装置(7)识别的另外事件的相关性;及显示装置(1),用于显示由相关性装置确定的相关性。
22.根据权利要求21的系统,包括更新装置(11),用于周期性地将保持在监视装置(7)中的数据提供给存储装置(6)。
23.根据权利要求21或22的系统,其中相关性装置执行统计相关性运算。
24.根据权利要求21,22或23的系统,还包括输入装置(5,12),用于通过人工对监视装置(2)报告事件。
25.根据权利要求21至24中任一项的系统,其中显示装置(1)包括用于使相关的事件与不相关事件视觉上相区别的装置(8)。
全文摘要
将报告到设备管理系统的同时事件与历史数据相比较,以便确定这些事件之间是否有关。历史数据用于确定单独同时发生的事件的统计概率。如果该概率低于一预定阈值将揭示事件不是独立的,而是有关的。该相关性对操作者提出警报,例如突出显示或分组地显示在显示屏上,辅助操作者识别相关事件,而无需对系统中相关性的在先了解。这些事件可以是由网络中故障产生的警报。对网络中不同点上相关故障的识别有助于识别它们共同的原因。历史数据库可随着再发生事件被报告到设备管理系统而被更新,由此扩大数据库,以使结果更具统计精确性。事件可自动地报告给系统或由人工报告给系统。为了允许事件报告中的系统延时,来自一个源的警报可能与来自另一源的发生在固定的较迟或较早的时间上的警报进行比较。
文档编号H04L12/24GK1121384SQ9419182
公开日1996年4月24日 申请日期1994年2月22日 优先权日1993年2月23日
发明者安德鲁·格雷斯 申请人:英国电讯有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1