对事件根本原因的分析予以支援的管理系统以及方法_3

文档序号:8926989阅读:来源:国知局
33内的事件信息所表示的事件作为观测事件,来进行分析。因此,IF部1111针对每个条件要素都具有条目,各条目为装置种类1101、组件种类1102以及事件种类1103。S卩,在管理计算机201中,管理对象装置或其要素被分类出几个种类,IF部1111的条件要素表示在指定种类的管理对象组件中产生了指定的事件种类所表示的状态。在条件要素不是表示与装置的要素有关的事件,而是表示与装置本身有关的事件的情况下,该条件要素的组件种类1102的值可以为与装置种类1101相等的值。
[0099]另外,元规则1100包括:元规则ID1113,其为保存唯一地识别各个元规则的元规则ID的字段;和拓扑条件1114,其为保存如下条件的字段:在将元规则1100应用于实际作为管理对象的IT系统的结构并生成展开规则时,应用元规则1100的拓扑的条件。在本实施例中,作为拓扑条件,例举了从结构管理DB232中获取拓扑的信息的方式。例如,在图1lA示出的拓扑条件的例子示出:应用元规则的拓扑为,iSCSI磁盘、用于提供该iSCSI磁盘的存储容量的服务器的网络I/F以及存储装置的I/O端口、位于这两个I/O端口之间的网络开关的I/O端口的组合。
[0100]而且,在本实施例中,基于利用元规则导出的结论,进一步执行用于详细确定原因事件的诊断,因此,元规则1100包括字段1115,该字段1115用于保存元诊断过程的标识符和成为作为诊断对象的拓扑的起点的装置以及管理对象组件的条件。在图11的元规则用于故障原因分析的情况下,使用根据与该元规则建立了关联的元诊断过程ID(在该元规则的字段1115中描述的元诊断过程ID)识别出的元诊断过程。在图1lA的例子中,以“元诊断过程ID=(标识符),起点=(装置种类组件种类)”的形式保存了元诊断过程的标识符和起点的条件。在字段1115中可以保存多个组合(元诊断过程的标识符与起点的条件的组合)。另外,可以在多个元规则1100的各个字段1115中保存一个元诊断过程的标识符。作为诊断对象的拓扑可以与应用了元规则1100的拓扑不同。在后面,进行与作为诊断对象的拓扑有关的说明。
[0101]例如,图1lA的元规则“MetaRulel”示出:在作为观测事件,检测出“服务器202上的iSCSI磁盘151的磁盘访问响应时间异常”和“网络开关203中的I/O端口 271的发送丢包数异常”时,得出“网络开关203中的I/O端口 271的发送丢包数异常”为瓶颈的结论。另外,在利用元规则“MetaRulel”进行分析时,从结构管理DB等中获取基于保存在拓扑条件1114中的条件来应用元规则的拓扑的信息。另外,在详细分析THEN部1112中描述的结论的情况下,利用根据“MetaDiagnosticProcl”识别出的元诊断过程,对以特定管理对象组件作为起点的另一拓扑执行诊断(参照字段1115中的“起点=(NetworkSwitchNWSwitchPort)”),在此的特定管理对象组件是指,与所获取的拓扑信息中的“网络开关203的I/O端口 271”对应的管理对象组件。在利用元诊断过程进行详细分析时,能够以作为事件分析程序222的分析对象的拓扑内的管理对象组件作为起点另外定义诊断对象拓扑,由此,能够将成为事件分析的对象的拓扑周围的管理对象组件也都包含在诊断对象内。此外,作为包含在IF部1111内的条件要素,还可以定义成某个组件正常(没有发生故障事件)。另外,就THEN部1112的事件种类1103所表示的事件种类而言,可以重新对其进行定义,也可以不是由事件接收程序227接收的事件的事件种类。
[0102]〈展开规则〉
[0103]展开规则为表示如下的对应关系的信息:在IT系统中可能发生的事件的组合与在发生了这些事件的情况下作为故障的候选原因的事件之间的对应关系。在第一实施例中,利用展开规则定义的候选原因示出作为系统故障的传播源的故障。展开规则是作为如下结果而生成的规则:基于元规则1100的拓扑条件1114,从管理对象IT系统中检索能够应用元规则1100的拓扑,并对检索出的拓扑应用了元规则1100的结果。另外,展开规则是事件分析程序222在进行分析时所用的信息。
[0104]在本实施例中,与元规则同样地,以IF-THEN形式描述展开规则,但只要是描述系统故障的原因事件和因原因事件而引起的观测事件的形式即可,也可以采用其他形式。
[0105]图1lB示出展开规则的结构例。
[0106]通常,与元规则1100同样地,展开规则1150也能够分为两个部分(字段),即分为被称为IF部1151的第一部分和被称为THEN部1152的第二部分。IF部1151可以包括一个以上的条件要素。
[0107]展开规则1150表示在检测到IF部1151的事件(条件事件)的情况下,THEN部1152的事件(结论事件)即为故障的原因。因此,若THEN部1152示出的管理对象组件的状态正常,则预计IF部1151示出的问题也被解决。
[0108]在本实施例中,设为保存在图10的事件队列表格233的事件信息所表示的观测事件,通过事件分析程序222锁定故障的候选原因。展开规则1150的IF部1151针对每个条件要素都具有条目,各条目具有装置ID1161、组件ID1162、事件种类1163以及接收标记1164的字段。即,IF部1151的条件要素表示在由装置IDl 161以及组件IDl 162指定的管理对象组件中,发生了用事件种类1163的信息表示的状态。另外,接收标记1164保存实际上是否接收了条件要素所表示的事件的结果。在接收了条件要素所表示的事件的情况下,接收标记1164保存“1”,在没有接收条件要素所表示的事件的情况下,接收标记1164保存“O”。还可以进行如下的处理:当从接收标记1164保存为“I”起经过了规定的时间时,将该接收标记的值复位为“O”等。
[0109]IF部1151以及THEN部1152各自的保存在装置ID1161和组件ID1162中的值分别为,基于元规则1100的拓扑条件1114从结构管理DB232中确定的装置ID以及组件ID中的、与用装置种类1101以及组件种类1102定义的种类对应的值。
[0110]另外,展开规则1150包括展开规则ID1153,该展开规则ID1153是保存唯一地识别该展开规则1150的展开规则ID的字段。另外,为了基于利用展开规则1150导出的结论,进一步执行用于详细地确定原因事件的诊断,该展开规则1150还具有字段1155,该字段1155用于保存元诊断过程的标识符、成为作为诊断对象的拓扑的起点的装置以及管理对象组件的标识符。在字段1155内保存的值中的元诊断过程ID,等于在生成展开规则1150时所用的元规则1100的字段1115内保存的值。另外,在字段1155内保存的值中的作为起点保存的装置ID以及组件ID为,基于元规则1100的拓扑条件1114从结构管理DB232确定的装置ID以及组件ID中的、与在元规则1100的字段1115内保存的“起点的条件”对应的ID。在图1lB的例子中,以“元诊断过程ID =(标识符),起点=(装置ID组件ID) ”的形式保存值。图1lB示出了基于图3?图8示出的结构管理DB232将图1lA的元规则1100展开而生成的展开规则1150a?1150d。例如,展开规则1150a “ExpandedRulel”示出,在作为观测事件,检测到“服务器A(ID = SvA)的D驱动器(ID = DRIVE1)的磁盘访问响应时间异常”和“网络开关D (ID = SwD)的端口 O (ID = SffPORTI)的发送丢包数异常”的情况下,得出“网络开关D的端口 O的发送丢包数异常”为瓶颈的结论。另外,在对该展开规则1150a的THEN部1152中描述的结论进行详细分析的情况下,利用由“MetaDiagnosticProcl”识别出的元诊断过程,对以用“装置ID为SwD,组件ID为SWP0RT1”识别出的管理对象组件作为起点的拓扑执行诊断。此外,就作为包含在IF部1151中的条件要素而言,还可以定义成某个组件正常(没有发生故障事件)。
[0111]<元诊断过程库以及元诊断过程>
[0112]元诊断过程为,在通过事件分析程序222锁定了作为IT系统的故障的传播源的故障之后,为了确定故障原因事件而执行的诊断的一连串的步骤。元诊断过程由以下三者构成:收集诊断所需的信息的步骤;基于收集到的信息来进行判断的步骤;和基于一个或多个判断的结果导出的结论。不对作为执行元诊断过程的对象的具体的管理对象组件进行定义,而是对作为执行过程的对象的拓扑的模式或结构的模式进行定义。
[0113]图12示出在元诊断过程库234中常驻的元诊断过程1200的结构例。
[0114]元诊断过程1200由以下四者构成:基本对象1201,其保存与该元诊断过程1200有关的信息;信息收集对象1202,其保存有用于收集诊断所需的信息的手段;判断对象1203,其保存有基于收集到的信息进行判断的手段;和结论对象1204,其保存有基于一个或多个判断的结果导出的结论的信息。在本实施例中,元诊断过程1200为对象结构,但只要是由收集信息的手段信息、进行判断的步骤信息以及基于判断的结果导出的结论信息的组合构成即可,还可以采用其他数据结构。对象1201?1204中,除了对象1201以外,其余三者可以存在多个。图12中例示的元诊断过程1200由基本对象1201、两个信息收集对象1202a以及1202b、两个判断对象1203a以及1203b和三个结论对象1204a、1204b以及1204c构成。
[0115]基本对象1201具有五个字段,即具有类型1211、ID1212、元诊断过程ID1213、拓扑条件ID1214以及NextID (下一个ID) 1215。类型1211保存用于识别对象的种类的标识符(例如,表示基本信息的“Start (开始)”)。ID121保存用于唯一地识别对象的标识符。元诊断过程ID1213保存用于唯一地识别元诊断过程1200的标识符。拓扑条件ID1214保存用于唯一地识别应用元诊断过程1200的拓扑的条件的标识符。NextID1215保存如下对象的标识符:保存有最初执彳丁的步骤的对象。
[0116]信息收集对象1202具有四个字段,即具有类型1221、ID1222、手段ID1223以及NextID1224o类型1221保存用于识别对象的种类的标识符(例如,表示保存有信息收集手段的“Collectlnfo”)。与ID1212同样地,ID1222保存用于唯一地识别对象的标识符。手段ID1223保存用于唯一地识别元收集手段的标识符。以保存在手段ID1223内的标识符为基础,从元收集手段库236中检索诊断所需的元收集手段。NextID1225保存如下对象的标识符:保存有接下来执行的步骤的对象。例如,信息收集对象1202a在执行诊断时,从元收集手段库236中,获取用“Getlnfol”的标识符识别出的元收集手段,在基于该手段进行了信息收集之后,执行ID为“2”的对象示出的步骤。
[0117]判断对象1203具有五个字段,即具有类型1231、ID1232、判断程序ID1233、引数1234以及Decis1n Map (决策表)1235。类型1231保存用于识别对象的种类的标识符(例如,表示保存有与判断步骤有关的信息的“Decis1n (决策)。与ID1212同样地,ID1232保存用于唯一地识别对象的标识符。判断程序ID1233保存唯一地识别基于收集到的信息进行判断的程序的标识符。以保存在判断程序ID内的标识符为基础,调用在存储器212中常驻的判断程序226。引数1234保存在通过判断程序226执行判断时所用的信息的识别信息。Decis1n Mapl235保存有键(key) 1236与NextID1237的组合的一览表。键1236保存有可能成为判断程序226的返回值的值,NextID1237保存有对象的标识符。即,在Decis1nMapl235内保存有在执行诊断时,根据判断程序226的返回值,决定接下来执行的步骤的信息。例如,在执行诊断时,判断对象1203a使根据“判断程序I”这一标识符识别出的判断程序226启动,作为引数,向“判断程序I”交付用“I”的标识符识别出的对象1202a中收集到的信息,在“判断程序I”的返回值为“是”的情况下,执行用“3”的标识符识别出的对象1202b示出的步骤,在返回值为“否”的情况下,执行用“4”的标识符识别出的对象1204a示出的步骤。另外,作为一个判断程序的例子,“判断程序I”可以为“判断作为引数赋予的性能信息的上升率是否在事先定义的值以上,若在该值以上则返回是,若小于该值则返回否的程序”等。
[0118]结论对象1204具有三个字段,即具有类型1241、ID1242以及Conclus1n(结论)1243。类型1241保存用于识别对象的种类的标识符(例如,表示保存有与结论有关的信息“End”(结束))。与ID1212同样地,ID1242保存用于唯一地识别对象的标识符。ConClUS1nl243保存在执行诊断时成为诊断结论的信息。例如,可以将保存在Conclusinol243内的信息显示在输出设备217上。例如,在执行诊断时,在根据判断对象1203a的判断结果选择结论对象1204a来作为结论的情况下,作为诊断结果,在输出设备217上显示“‘网络开关端口’的带宽不足”。在此,在‘网络开关端口’处显示基于拓扑条件ID1214示出的拓扑条件从结构管理DB232中获取的网络开关端口的识别信息。
[0119]图13示出应用了元诊断过程1200的拓扑条件的结构例。
[0120]拓扑条件1300具有两个字段,即具有拓扑条件ID1301以及条件1302。拓扑条件ID1301保存唯一地设别拓扑条件的标识符。在拓扑条件ID1301中保存的值,等于在图12的基本对象1201的拓扑条件ID1214中保存的标识符。条件1302保存与应用元诊断过程1200的拓扑的条件有关的信息。在本实施例中,例举从结构管理DB232中获取拓扑的信息的方式。例如,在基于图13的条件1302获取拓扑的信息的情况下,获取以下记录的组合:(I)开关端口表格600的装置ID603的值等于在展开规则的字段1155中保存的起点的装置ID ;并且⑵网络I/F表格500的ID501的值等于⑴的开关端口表格600的记录中的连接目的地端口的值。也就是说,确定包括条件1302示出的作为起点的管理对象组件和在该条件1302中与作为起点的管理对象组件建立了关联的管理对象组件这两个管理对象组件的拓扑。保存在条件1302内的拓扑条件只要描述了用于获取拓扑的信息的方法即可,可以不是图13示出的形式。
[0121 ] <元收集手段库以及元收集手段>
[0122]图14示出保存在元收集手段库236内的元收集手段的结构例。
[0123]元收集手段1400具有两个字段,即具有手段ID1401以及收集手段1402。手段ID1401保存唯一地识别元收集手段1400的标识符。在手段ID1401内保存的值等于在图12的信息收集对象1202的手段ID1223内保存的标识符。元收集手段1402保存诊断所需的信息收集手段。在本实施例中,作为诊断所需的信息的一个例子,举出能够从性能表格238获取的管理对象组件的性能信息。因此,例如,在元收集手段1402a中保存有用于从表格获取信息的查询语句(query)。在此,要收集哪个管理对象组件的性能信息依存于事件分析程序222导出的结论,因此,管理对象组件的标识符为变量。在图14的例子中,用双引号括起来的部分表示变量(就这点而言,元收集手段1402b也同样)。
[0124]<展开诊断过程库以及展开诊断过程>
[0125]展开诊断过程是指,基于元诊断过程和拓扑信息,通过诊断过程展开程序223展开的诊断过程。与元诊断过程同样地,展开诊断过程由如下三者构成:收集诊断所需的信息的步骤;基于收集到的信息进行判断的步骤;和基于一个或多个判断的结果导出的结论。在元诊断过程中,没有定义作为执行的对象的具体的组件,与之相对,在展开诊断过程中,基于拓扑信息定义了作为执行的对象的组件。
[0126]图15示出保存在展开诊断过程库235内的展开诊断过程1500的结构例。此外,展开诊断过程库235是指,为了在其他诊断中再利用一度生成过的展开诊断过程而保存该展开诊断过程的库,管理计算机201不一定必须具备该库。另外,在图1中,对展开诊断过程标注有“124”这一参照附图标记,由于图15示出的展开诊断过程与图1的展开诊断过程的结构不同,所以图15的展开诊断过程使用与图1的展开诊断过程不同的参照附图标记“1500”。但是,图1的展开诊断过程和图15的展开诊断过程可以是都以相同的方法生成的过程。
[0127]展开诊断过程1500由如下四者构成:基本对象1501,其保存与展开诊断过程有关的信息;信息收集对象1502,其保存有收集诊断所需的信息的手段;判断对象1503,其保存有基于收集到的信息进行判断的手段;和结论对象1504,其保存有基于一个或多个判断的
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1