一种事件分析方法及系统的制作方法

文档序号:7719578阅读:109来源:国知局
专利名称:一种事件分析方法及系统的制作方法
技术领域
本发明涉及一种网络管理技术,尤其涉及一种事件分析方法及系统。
背景技术
目前,对实体及实体间关系的建模中,最有代表性的成就就是台式系统管理 任务组(The Desktop Management Task Farce,简称 DMTF)的公共信息模型(Common Information Model,简称 CIM)和电信管理论坛(Tele-Management Forum,简称 TMF)的安 全标识符(Security Identifiers,简称SID)。CIM利用面向对象的一系列理念,统一和扩 展了现有的监测和管理标准(SNMP,DMI, CMIP等),提供了一个用于定义、分类和整合网络 环境中部件的通用概念性框架,可用于在IT环境中以一致、统一的方式在逻辑上组织管理 对象(包括系统、网络、应用、软件等信息),定义了服务器、桌面、外围设备、操作系统、应 用、网络部件、用户和其他实体。SID提出的分域建模思想,更关注从高层对管理对象建模。 SID所分域内实体紧密关联,域间实体关联相对松散,做到了高内聚、低耦合,从而可以对完 整的业务问题进行有效的分割。但是,这些模型主要关注于单个实体的属性描述,而描述不同实体如何关联的能 力较弱,并且这些弱的描述怎样用来进行系统管理也没有说明清楚。例如,当前被广泛应用 的CIM模型,虽然基本将信息技术(Information Technology,简称IT)业务环境所有可能 涉及的IT实体和它们间的关联关系都作出了定义性描述,但是在如何组织和使用这些实 体和它们的关联关系方面还是相对较弱,而且对实体分层方面也考虑不够,造成实体复用 的不便,同时由于CIM模型过于考虑通用性和灵活性,没有统一的实体分层及实体间关联 关系抽象标准和规范,使得不同管理员对同一系统抽象难以一致。因此,这些模型只能适用于在抽象描述由少量设备组成的单个业务系统或者实体 间引用关系较为固定网络系统(如电信交换网络和不涉及IT系统的纯IP网络)构成的IT 业务环境,而不太适用于有着复杂关联关系的IT业务环境。同时也难以直接定义一个标准 规范配置管理模型对IT业务环境进行抽象建模。由上述的分析我们可以看出当前的网管系统中的配置管理模型存在如下不足1、对IT业务环境涉及的IT实体进行分层抽象不理想,不能保证模型实体被高度复用。2、对IT业务环境涉及的IT实体及实体间关系的定义不够明确,导致不同管理员 对相同IT实体及实体间关系的抽象不一致。3、进行事件关联关系分析时,不能从业务系统的整体角度去考虑,造成管理人员 缺乏对IT系统的整体监控能力。基于现有的配置管理模型在IT系统的日常操作中,一个故障的可能会产生大量 的事件信息。例如,一个网络由于电力故障等原因停止工作,会伴生出所有连接到该网络的 主机的宕机信息以及运行在这些主机上的受监控的进程的宕机告警信息,而要让管理员逐 个分析解决这些告警是一个繁重的任务。
另外,在系统维护员使用网管系统监视多个业务系统的过程中,当事件发生后并 且根源事件也已被识别出来,他们需要尽可能快的判断哪些业务系统将会受到影响以及程 度如何,以便合理地安排事件处理的优先级。

发明内容
本发明的目的在于,提供一种事件分析方法及系统,使得网络管理人员能过快速 的找到故障根源并解决网络故障,节约了解决故障的时间,提高了工作效率。为实现上述目的,根据本发明的一个方面,提供一种事件分析方法,包括:A、采集 IT系统中的所有故障事件,形成第一事件集合;B、根据预设的IT系统中各个IT实体的关 系,对于所述第一事件集合中的每个故障事件,找出其引发的故障事件,形成第二事件集 合;C、判断所述第一事件集合中的故障事件按是否出现在所述第二事件集合中,提取未出 现在第二事件集合中的故障事件,形成根源故障事件集合。优选地,该事件分析方法还包括所述步骤C之后还包括分析所述根源故障事件 对所述IT实体的健康状态的影响,包括以下步骤D、对于所述根源事件集合中的各个根源 故障事件,查找受其影响的IT实体;E、计算所述各个根源故障事件对所述IT实体的健康状 态的影响值;F、将对于同一个IT实体的多个健康影响值进行加权,得到每个IT实体的健康 状态。为实现上述目的,根据本发明的另一个方面,提供一种事件分析系统,包括事件 采集装置,用于采集IT系统中的所有故障事件,形成第一事件集合;关联装置,用于根据预 设的IT系统中各个IT实体的关系,对于所述第一事件集合中的每个故障事件,找出其引发 的故障事件,形成第二事件集合;比较装置,用于比较所述第一事件集合和第二事件集合, 得到出现在所述第一事件集合但未出现在所述第二事件集合中的故障事件,形成根源事件集合。 优选地,该事件分析系统还包括健康状态分析装置,用于分析所述根源故障事件 对所述IT实体的健康状态的影响,包括查找模块,用于,查找受各个根源故障事件影响的 IT实体;计算模块,用于计算所述各个根源故障事件对所述IT实体的健康状态的影响值; 加权模块,用于将对于同一个IT实体的多个健康影响值进行加权,得到每个IT实体的健康 状态。本发明的事件分析方法及系统,通过在IT系统的CAD模型中查找根源故障事件, 对IT系统的故障问题进行根源分析,使得网络管理人员能过快速的找到故障根源并解决 网络故障,节约了解决故障的时间,提高了工作效率。另外,通过故障事件对IT实体的影响分析,使得网络管理人员可以快速的判断IT 系统中各个IT实体受故障事件影响的程度,并可以根据故障事件影响分析,预先合理安排 对故障事件处理的优先级,简化了故障分析工作,提高工作效率,合理地处理和解决故障。


图1是本发明CAD模型实施例的结构示意图;图2是本发明事件分析方法实施例流程图;图3是本发明IT系统中故障事件扩散示意图一;
图4是本发明IT事件分析方法另一实施例的流程图;图5是CAD模型各IT实体间关系图;图6是本发明IT系统中故障事件扩散示意图二 ;图7是本发明事件分析方法实施例结构图;图8是本发明事件分析方法另一实施例结构图。
具体实施例方式以下结合附图对本发明进行详细说明。本发明提出了一种新的配置管理模型,对IT业务环境管理中涉及的IT业务实体 及实体间的各类关系进行了规范化定义和描述,形成了一个具有六层实体和三种关系的配 置管理模型,称为CAD模型。该模型提高了实体的复用率,增强了事件关联分析处理能力, 减少了网管人员的工作量。将IT业务环境的实体抽象为六种层次的IT实体(IT Entity),从低到高以次是 网络设备、主机、进程、计算服务、应用服务和业务系统。以下对各个实体进行具体说明1、网络设备(Networks Device,简称为 N)是指串接在IT网络环境的物理设备,这些物理设备的集合构成了承载IT业务实 体间信息交互通信环境。它包括传统意义上的网络物理设备,如二、三层交换机、路由器、硬 件防火墙等;同时也包括了其他串接在IT网络中的非传统意义上的物理设备,如串接在网 络中4层交换机、WEB应用硬件防火墙、用户上网行为控制硬件设备等。串接在IT网络中 的物理设备是指连接到IT网络环境中的设备,同时它本身在IT环境中还起到了物理上互 连其他物理设备的作用,即它的通断将影响到IT网络中其他物理设备的通信。2、主机(Host,简称为 H)是指并接在IT网络环境中用来承载某种IT服务功能物理设备,这些物理设备的 集合构成了承载IT业务实体运行的硬件载体环境。它包括安装了操作系统传统意义上的 物理或虚拟的计算机,如UNIX小型机、PC服务器和运行于VmWare软件之上的虚拟服务器 等;也包括其他并接在IT网络中的物理设备,如并接在IT网络中4层交换机、SSL VPN、网 络入侵检测、用户上网行为控制设备等。并接IT网络设备是指连接到IT网络设备中的设 备,但是它本身不用来互连其他物理设备,即它的通断不会影响到IT网络其他物理设备的 通信(请注意是不影响IT网络其他物理设备的通信,而不是对应用层面通信没有影响,例 如对于并接的4层交换机出现宕机不会影响网络通信,但是影响了使用该4层交换进行负 载均衡的应用)。3、进程(Process,简称为 P)是指运行于主机上的计算机服务进程。4、计算服务(Computing Service,简称为 CS)是由一个或多个进程(通常这些进程由一个主机承载)组合成的一个IT功能服 务逻辑体,实现一个特定的IT功能服务(在SOA环境中通常为原子服务),该进程组必须 作为一个整体,才能完成逻辑完整IT计算功能服务。如=Domino OA计算服务是由server、 http两个进程组成,OA主机HA计算服务由hacmp —个进程组成,CMPAK Domino Mail计算 服务由server、http、smtp、pop3四个进程组成。
5、应用服务(Application Service,简称为 AS)是由一个CS或多个CS组合成的一个逻辑上完整的应用功能,组合AS的主要标准 是应用级别的功能完整性。如Domino OA应用服务由Domino OA和OA主机HA两个计算 服务组成,CMPAK Domino Mail应用服务由CMPAK Domino Mail 一个计算服务组成。6、业务系统(Business System,简称为 BS)是由一个或多个AS同时可能借助其他的业务系统功能共同完成一个逻辑上完整 的业务功能,组合业务系统的标准是业务级别的功能完整性。如公文系统由Domino OA应 用服务同时辅助公文网关系统、短信服务系统、用户管理系统以及域名管理系统等组成。本发明重点对IT实体间的三个方面,即拓扑(topology)、载体(carrier)、功能 (functionality)进行了描述,并基于这三个方面确定了上述6种IT实体间的3种关系 连接关系(Connecting,简称为C)、承载关系(Attaching,简称为A)、依赖关系(D印ending, 简称为D),简称CAD。以下对这三种关系进行具体说明1、连接关系用于描述主机(H)和网络设备(N)这两种物理设备实体间相互连接的拓扑关系, 即主机和网络设备以及网络设备间的连接关系。例如,某主机h连接到某网络设备η的关 系,表示为,读作主机h连接到网络设备η ;某网络设备Ii1连接到另一网络设备η2 的关系,表示为-^n1 ,读作网络设备Hi连接到网络设备η」。这种连接关系是有方向的且是传递的,即箭头所指的方向,并按箭头方向传递。2、承载关系用于描述主机(H)承载在其上运行的进程(P)的载体关系,即主机承载运行于其 上进程(P)的承载关系。例如,某进程ρ与承载其主机h的关系,表示为ρ」~>读作进程P承载于主机h。这种承载关系是有方向的,但是不传递的,即箭头所指的方向。3、依赖关系用于描述进程(P)、计算服务(CS)、应用服务(AS)和业务系统(BS)间的功能依 赖关系。这些实体间的关系有计算服务依赖组成其的进程的关系、应用服务依赖组成其 的计算服务的关系,业务系统依赖于应用服务以及其他业务系统的关系。例如,某计算服 务CS与组成其的某进程P的关系,表示为“一 ; ,读作计算服务CS依赖于进程ρ ;某应 用服务as与组成其的某计算服务CS的关系,表示为,读作应用服务as依赖于 计算服务cs ;某业务系统bs与组成其的某应用服务as的关系,表示为,读作业 务系统bs依赖于应用服务as ;某业务系统bSi与组成其另一业务系统13~的关系,表示为 hSi -^bSj读作业务系统13^依赖与业务系统bSj。这种依赖关系是有方向的且是传递7J的,即箭头所指的方向,并按箭头方向传递。由于现实环境中网络设备间的连接关系是网状关系,如果按照网状关系来对网络 连接进行描述将使得模型实体间的关系描述非常复杂的,这样将加大遵守该模型的IT网 管系统的建设难度。因此,本专利对CAD模型中的连接关系进行进一步抽象简化,便于IT 网管系统对IT业务环境的故障根源和影响分析。本发明还将网络中设备节点抽象定义为根节点、叶节点、父节点和子节点四种,将 网络设备间的连接关系抽象简化成树状关系。
根节点(Root Network,简称为Nk)是指被分析建模网络中的核心网络节点设备, 通常由IT业务环境的网络管理员根据网络实际组成情况指定一个或多个网络设备组成的 子网为核心网络,组成该核心网络的网络设备均为根节点。
叶节点(Leaf Network,简称为Nj是指被分析建模的网络中直连主机(H)的网络 设备,通常为各个系统主机的网关交换机或用户终端的接入交换机。任一网络设备N到与根节点Nk的最短路径记为d<N,Νκ>。对于两个直接连接网络 设备Ni和Nj,如果(KNi, Ne> = (KNj,Ne>,则和Ni和Nj为同级节点(因此所有根节点Ne间 均互为同级节点);如果(KNi, NK>-d<Nj,Ne> = 1,则Nj称为Ni的父节点(Father),Ni称为 Nj的子节点(Son)。结合上述网络设备各节点间连接关系的抽象,为了更进一步标准化CAD模型的连 接关系,我们对模型的连接关系作下述定义1)假设同级节点间不存在CAD模型的连接关系。两个同级节点关系记= 该关系不属于CAD模型关系集。2)核心网络中所有根节点网络设备(Nk)间均为同级节点,且根节点在连接关系中 只能作为关系的结束点,即根节点只能出现连接关系符号(^ )箭头指向的那一侧,也就 是 N—Nr。3)网络设备父节点(Nf)和其子节点(Ns)或网络设备子节点(Ns)和其父节点(Nf) 间的连接关系只能表述为义。通过上述定义,CAD模型中涉及的所有连接关系将简化为以下两种连接关系1)主机与其连接到网络叶子节点,记为丑一、A。2)网络设备间的连接关系只有一种,即网络子节点连接到其父节点,记为9ο图1是本发明CAD模型实施例的结构示意图。如图1所示,根据CAD模型可以直 观地看到该公文系统中的六层IT实体业务拓扑构成关系以及和其他业务系统的关系。其 中,六层实体包括网络设备层两个三层交换机;主机层一个OA服务器,一个MAIL服务器;进程层包括一个server进程,一个http进程,两个hacmp进程;计算服务层包括Domino OA, OA主机,MAIL主机;应用服务层包括公文应用服务;业务系统层即公文系统。方法实施例一基于上述的CAD模型,本发明提供了一种事件分析方法。图2是本发明事件分析 方法实施例流程图。如图2所示,本发明事件分析方法实施例包括以下步骤步骤201、采集IT系统中的所有故障事件,形成第一事件集合;步骤202、根据预设的IT系统中各个IT实体的关系,对于所述第一事件集合中的 每个故障事件,找出其引发的故障事件,形成第二事件集合;图3是本发明IT系统中故障事件扩散示意图一,如图3所示,事件的扩散则是沿Network — Host — Process — CS — AS — BS方向扩散,因此进行根源事件的分析就是依 照该顺序进行分析,可以获得每个故障事件Hi1引发的所有故障事件,形成的第二事件集合 中,不包括故障事件Hi1本身;另外由于IT网管系统通常只能采集或监控到发生在网络设备、主机和进程层面 以及部分计算服务层面的告警/事件(例如Oracle监控agent可以发现Oracle计算服务 的告警/事件),因此在基于CAD模型进行根源告警/事件分析可以不考虑模型的AS和BS 这两个层面;步骤203、判断所述第一事件集合中的故障事件按是否出现在所述第二事件集合 中,如果否,执行步骤204;步骤204,如果故障事件m未出现在第二事件集合中,则该故障事件m为根源故障 事件,提取未出现在第二事件集合中的故障事件Hl1,形成根源故障事件集合;故障事件Hl1是 故障事件Hl2的根源意味着,如果故障事件Hl1发生,则故障事件Hl2将必然会出现。本实施例中,通过在IT系统的CAD模型中查找根源故障事件,对IT系统的故障问 题进行根源分析,使得网络管理人员能过快速的找到故障根源并解决网络故障,节约了解 决故障的时间,提高了工作效率。本实施例中,优选地,在步骤202中,还包括将所有故障事件按照事件发生的IT 实体与根节点的距离由近及远进行排序。由于一般根源故障事件更靠近网络设备的根节 点,通过对故障事件的排序,使得对根源故障事件的查找更加快速。如图3所示,如果主机Hl宕机,将会造成进程pl0、pll、pl2以及计算服务CSl均 出现宕机事件,即被事件集合为{HI宕机、plO宕机、pll宕机、pl2宕机、CSl宕机}通过模 型事件根源算法,可以得出进程Pl0、pll、pl2以及计算服务CSl宕机事件是由主机Hl宕机 事件造成的,从而根源事件集合为{HI宕机}。方法实施例二图4是本发明IT事件分析方法另一实施例的流程图。如图4所示,本发明IT事 件分析方法另一实施例在上述步骤208之后,还包括分析所述根源故障事件对所述IT实体 的健康状态的影响,包括以下步骤步骤402,对于根源事件集合中的各个根源故障事件,查找受其影响的IT实体;步骤404,计算各个根源故障事件对IT实体的健康状态的影响值;步骤406,将对于同一个IT实体的多个健康影响值进行加权,得到每个IT实体的 健康状态。优选地,步骤402中,还包括将根源故障事件中的根源故障事件按照事件发生的 IT实体与根节点的距离由近及远进行排序。图5是CAD模型各IT实体间关系图。如图5所示,实体e与e2,..., 有关 系,实体e本身又发生了 mi,m2,. . . mk事件。假设Hi1, m2,. . . mk均为根源性事件,从而e的健 康状态He的计算可表示为
权利要求
1.一种事件分析方法,其特征在于,包括A、采集IT系统中的所有故障事件,形成第一事件集合;B、根据预设的IT系统中各个IT实体的关系,对于所述第一事件集合中的每个故障事 件,找出其引发的故障事件,形成第二事件集合;C、判断所述第一事件集合中的故障事件按是否出现在所述第二事件集合中,提取未出 现在第二事件集合中的故障事件,形成根源故障事件集合。
2.根据权利要求1所述的事件分析方法,其特征在于,所述IT系统中的IT实体包括 网络设备、主机、进程、计算服务、应用服务和业务服务;所述各个IT实体之间的关系包括 各个实体间的连接关系、承载关系和依赖关系。
3.根据权利要求2所述的事件分析方法,其特征在于,所述连接关系包括网络设备中子节点和父节点之间的连接关系,以及主机和网络设 备之间的连接关系;所述承载关系为主机对进程的承载关系;所述依赖关系包括计算服务对进程的依赖关系、应用服务对计算服务、业务系统对应 用服务的依赖关系以及业务系统对业务系统的依赖关系。
4.根据权利要求1所述的事件分析方法,其特征在于,所述步骤A中还包括将所述所 有故障事件按照事件发生的IT实体与根节点的距离由近及远进行排序。
5.根据权利要求1所述的事件分析方法,其特征在于,所述步骤C之后还包括分析所述 根源故障事件对所述IT实体的健康状态的影响,包括以下步骤D、对于所述根源事件集合中的各个根源故障事件,查找受其影响的IT实体;E、计算所述各个根源故障事件对所述IT实体的健康状态的影响值;F、将对于同一个IT实体的多个健康影响值进行加权,得到每个IT实体的健康状态。
6.根据权利要求4所述的事件分析方法,其特征在于,所述步骤D中还包括将所述 根源故障事件中的根源故障事件按照事件发生的IT实体与根节点的距离由近及远进行排 序。
7.根据权利要求4所述的事件分析方法,其特征在于,所述步骤E中,所述健康影响值 为&(111) = λ XIm+δ,其中m为根源故障事件,Im为所述故障事件的影响因子,λ为影响 因子的校正系数、δ为校正参数。
8.根据权利要求7所述的事件分析方法,其特征在于,所述步骤F中将对于同一个IT 实体的多个健康影响值进行加权的操作具体包括对于包含多个部件,多个部件共同完成一个任务的IT实体,说
9.根据权利要求2所述的事件分析方法,其特征在于,所述步骤C之后还包括分析所述 连接关系对所述IT实体的健康状态的影响,包括以下步骤T BKel根据所述连接关系占用的带宽计算所述连接关系的传递因子为
10.根据权利要求3所述的事件分析方法,其特征在于,所述步骤c之后还包括分析所 述承载关系对所述IT实体的健康状态的影响,包括以下步骤 所述承载关系对所述主机的健康状态的影响值为 fT(He) = I-He+δ,其中δ为校正参数; 所述进程对所述主机的健康状态的影响值为
11.根据权利要求2所述的事件分析方法,其特征在于,所述步骤C之后还包括分析所 述承载关系对所述IT实体的健康状态的影响,包括以下步骤所述依赖关系对所述IT实体健康状态的影响值为
12.—种事件分析系统,其特征在于,包括事件采集装置,用于采集IT系统中的所有故障事件,形成第一事件集合;关联装置,用于根据预设的IT系统中各个IT实体的关系,对于所述第一事件集合中的 每个故障事件,找出其引发的故障事件,形成第二事件集合;比较装置,用于比较所述第一事件集合和第二事件集合,得到出现在所述第一事件集 合但未出现在所述第二事件集合中的故障事件,形成根源事件集合。
13.根据权利要求12所述的事件分析系统,其特征在于,还包括第一排序装置,用于将 所述所有故障事件按照事件发生的IT实体与根节点的距离由近及远进行排序。
14.根据权利要求12所述的事件分析系统,其特征在于,还包括健康状态分析装置, 用于分析所述根源故障事件对所述IT实体的健康状态的影响,包括查找模块,用于,查找受各个根源故障事件影响的IT实体;计算模块,用于计算所述各个根源故障事件对所述IT实体的健康状态的影响值;加权模块,用于将对于同一个IT实体的多个健康影响值进行加权,得到每个IT实体的 健康状态。
15.根据权利要求14所述的事件分析系统,其特征在于,还包括第二排序装置,用于 将所述根源故障事件按照事件发生的IT实体与根节点的距离由近及远进行排序。
16.根据权利要求14所述的事件分析系统,其特征在于,还包括连接关系分析装置,用于分析所述连接关系对所述IT实体的健康状态的影响;和/或承载关系分析装置,用于分析所述承载关系对所述IT实体的健康状态的影响;和/或依赖关系分析装置,用于分析所述依赖关系对所述IT实体的健康状态的影响。
全文摘要
本发明公开了一种事件分析方法包括A、采集IT系统中的所有故障事件,形成第一事件集合;B、根据预设的IT系统中各个IT实体的关系,对于所述第一事件集合中的每个故障事件,找出其引发的故障事件,形成第二事件集合;C、判断所述第一事件集合中的故障事件按是否出现在所述第二事件集合中,提取未出现在第二事件集合中的故障事件,形成根源故障事件集合。本发明的事件分析方法及系统,通过在IT系统的CAD模型中查找根源故障事件,对IT系统的故障问题进行根源分析,使得网络管理人员能过快速的找到故障根源并解决网络故障,节约了解决故障的时间,提高了工作效率。
文档编号H04L12/26GK102045186SQ20091023553
公开日2011年5月4日 申请日期2009年10月19日 优先权日2009年10月19日
发明者丁子哲, 侯春森, 叶剑飞, 张春, 段森, 石正贵, 高翔 申请人:中国移动通信集团公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1