对事件根本原因的分析予以支援的管理系统以及方法

文档序号:8926989阅读:252来源:国知局
对事件根本原因的分析予以支援的管理系统以及方法
【技术领域】
[0001]本发明主要涉及对在管理对象组件中发生的事件的根本原因进行分析的支援。
【背景技术】
[0002]在管理IT (Informat1n Technology:信息技术)系统的情况下,例如像专利文献I那样,从在系统内检测到的多个故障或其征兆中,检测成为原因的事件。具体来说,在专利文献I中,将管理对象装置或构成管理对象装置的组件(component)中的各种故障事件化,管理软件在事件DB(数据库)内积累事件的发生信息。另外,该管理软件具有分析引擎,该分析引擎用于对在管理对象装置中发生的多个事件的因果关系进行分析。该分析引擎访问具有管理对象装置的结构信息的结构管理DB,将跨设在位于某个1/0(输入输出)通道上的路径(path)上的一个或多个管理对象装置的多个组件之间的关系识别为被称为“拓扑”的一个组。当事件发生时,分析引擎对包含发生了事件的组件在内的各拓扑应用由事先规定的条件语句和分析结果构成的元规则(metarule),构建用于分析各个拓扑中的故障的展开规则。在该展开规则中,包括可能成为根本原因的结论事件和在发生了结论事件的情况下由此而引起的条件事件组。具体来说,在规则的THEN部中记载的事件是可能成为根本原因的结论事件,在IF部中记载的事件为条件事件。在展开规则的条件事件组与检测到的事件组一致的情况下,分析引擎将在展开规则中记载的结论事件作为在IT系统中发生的多个故障的根本原因来进行显示。在IT系统中,有时在一个装置中发生的故障会连锁地引起与该装置具有依存关系的其他多个装置的故障。专利文献I示出的技术能够从检测到的多个故障中确定出成为传播源的故障。
[0003]现有技术文献
[0004]专利文献
[0005]专利文献1:W02013/046287

【发明内容】

[0006]发明所要解决的课题
[0007]包含专利文献I公开的技术在内,基于组件中发生的事件的模式来分析故障原因的技术,能够锁定作为在IT系统中发生的多个故障的开端的故障。然而,有时,仅根据所发生的事件的模式,不能够确定出用于决定故障恢复方法的足够详细的原因。即,有时,不能够确定出作为多个故障的开端的故障发生的原因。
[0008]用于解决课题的手段
[0009]存储设备存储结构管理信息、多个规则以及多个通用诊断过程。结构管理信息是与所述多个管理对象组件的结构有关的信息。多个规则的每一个是表示与一个以上的事件对应的一个以上的条件事件和在发生了所述一个以上的条件事件的情况下成为原因的结论事件之间的关联的规则。多个通用诊断过程的每一个均与多个规则的某一个建立了关联,并且是利用一个或多个组件种类定义,且不依存于管理对象组件的通用的诊断过程。处理器以多个规则中的一个以上的对象规则为基础,确定一个以上的候选原因,一个以上的对象规则是指,与和一个以上的发生事件(发生了的事件)关联的一个以上的条件事件建立了关联的一个以上的规则。处理器确定多个通用诊断过程中的、与作为一个以上的候选原因中的所选的候选原因的基础的对象规则建立了关联的通用诊断过程。处理器基于确定出的通用诊断过程和结构管理信息,生成展开诊断过程,展开诊断过程是对一个以上的管理对象组件执行的诊断过程,用于确定所选的候选原因的更具体的原因或更新所选的候选原因的可靠度。
[0010]发明的效果
[0011]能够期待更详细或更准确地确定出一个以上的发生事件的原因。
【附图说明】
[0012]图1示出第一实施例的概略。
[0013]图2示出第一实施例的IT系统以及管理计算机的结构例。
[0014]图3示出结构管理DB中的装置表格的结构例。
[0015]图4示出结构管理DB中的iSCSI磁盘表格的结构例。
[0016]图5示出结构管理DB中的网络I/F(接口)表格的结构例。
[0017]图6示出结构管理DB中的开关端口表格的结构例。
[0018]图7示出结构管理DB中的iSCSI目标器表格的结构例。
[0019]图8示出结构管理DB中的存储端口表格的结构例。
[0020]图9示出性能表格的结构例。
[0021]图10示出事件队列(queue)表格的结构例。
[0022]图1IA示出元规则的结构例。
[0023]图1lB示出展开规则的结构例。
[0024]图12示出元(meta)诊断过程的结构例。
[0025]图13示出拓扑条件的结构例。
[0026]图14示出元收集手段的结构例。
[0027]图15示出展开诊断过程的结构例。
[0028]图16示出展开收集手段的结构例。
[0029]图17示出通过故障分析程序执行的故障原因分析处理的例子的流程图。
[0030]图18示出事件分析结果画面的一个例子。
[0031]图19示出通过诊断过程展开程序执行的处理的例子的流程图。
[0032]图20示出通过诊断过程展开程序执行的处理的例子的流程图。
[0033]图21示出通过显示程序执行的处理的例子的流程图。
[0034]图22示出诊断结果画面的一个例子。
[0035]图23示出第二实施例的元规则的结构例。
[0036]图24示出第二实施例的展开规则的结构例。
[0037]图25示出第二实施例的展开诊断过程的结构例。
[0038]图26示出在第二实施例中通过故障分析程序执行的故障原因分析处理的例子的
流程图。【具体实施方式】
[0039]在以下的说明中,参照作为公开的一部分的附图,但这些附图用于示出能够执行本发明的例示性的实施方式,并不限定本发明。在这些附图中,在多个图中出现的同一附图标记表示同一结构要素。而且,如下述以及图示的那样,详细的说明提供了各种例示性的实施方式,但本领域技术人员要注意,本发明不限定于在本说明书中叙述以及图示的实施方式,而是能够扩大到公知或将来变为公知的其他实施方式。
[0040]另外,在以下的详细的说明中,公开了用于完全理解本发明的很多具体且详细的事项。然而,本领域技术人员能明确了解到,并不是说要执行本发明就必须具有这些具体且详细的事项全部。在其他状况下,为了不无端地使本发明难以理解,有时,对公知的构造、材料、电路、处理以及接口不进行详细的说明及/或以框图的形式来表示这些成分。
[0041]而且,用计算机内部的动作的算法以及符号的表现方式表示以下详细说明的某个部分。这些算法的说明以及符号的表现是指,精通数据处理技术的本领域技术人员将发明自身的本质最有效地传达给其他本领域技术人员所使用的手段。算法是指,用于达到期望的最终状态或结果而被定义的一连串步骤。在本发明中,所执行的步骤要求物理性地操作用于实现有形结果的有形量。
[0042]通常,这些量形成能够进行保存、传送、结合、比较以及其他操作的电信号或磁信号的形式,但不是必须的。已知基于在原理上能够通用的理由,往往将这些信号称为比特、值、要素、符号、文字、项目、数量、命令等会很便利。但是要注意,这些所有以及同样的项目应为与适当的物理量建立了关联的项目,只不过是为了方便起见而对这些物理量标注的标签。
[0043]只要不是特意额外进行说明的情况,都可从以下的叙述明确得知,在贯穿本说明书整体的叙述中,利用了“处理”、“计算”、“算出”、“判断”、“显示”等用语的说明还可以包括其他信息处理装置的动作以及处理,其他信息处理装置是指,对计算机系统或该计算机系统的寄存器以及存储器内的以物理(电子)量的形式表示的数据进行操作,将该数据转换成该计算机系统的存储器、寄存器或其他信息存储、传送或显示装置内的同样以物理量的形式表示的其他数据。
[0044]执行本说明书的动作的装置可以是出于必要的目的而特别构建出的装置,或者,也可以包括利用一个以上的计算机程序选择性地启动或再设定的一个以上的通用计算机。这种计算机程序能够保存在例如光盘、磁盘、只读存储器、随机存储器、固体装置以及驱动器等的能够由计算机读取的存储介质或适于保存电子信息的其他任意的介质内,但不限于这些。
[0045]本说明书示出的算法以及显示器在本质上与任何特定的计算机或其他装置都不关联。可以结合使用各种通用系统和基于本说明书的教导的程序以及模块,有时构建用于执行期望的方法步骤的更加特殊化的装置更为便利。这些各种系统的构造在以下公开的说明变明朗。另外,本发明也没有以任何特定的编程语言作为前提进行描述。如以下描述的那样,能够理解为为了执行本发明的教导,可以利用各种的编程语言。程序语言的命令由一个以上的处理装置,例如中央处理装置(CPU)、处理器或控制器执行。
[0046]另外,在以下的说明中,以“aaa表格”、“aaa列表”、“aaaDB”、“aaa队列”、“aaa库”等的形式说明信息,但这些信息也可以用除了表格、列表、DB、队列、库等的数据结构以外的形式来表示。因此,为了表示不依存于数据结构,能够将“aaa表格”、“aaa列表”、“aaaDB”、“aaa队列”、“aaa库”等称为“aaa信息”。
[0047]而且,在说明要素时,利用“标识符”、“名”、“名称”以及“ID”中的至少一个表现形式,这些表现形式之间能够互相替换,另外,可以取代这些中的至少一个或在这些中的至少一个的基础上,利用其他种类的识别信息。
[0048]在以下的说明中,有时将“程序”作为主语进行处理相关的说明,但由于程序是由处理器执行的,由此利用存储器以及通信端口(通信制御设备)进行规定的处理,所以在该处理的说明中,也可以将处理器作为主语。另外,可以将以程序为主语公开的处理看作是由管理计算机等的计算机进行的处理。另外,程序的一部分或全部可以由专用硬件来实现。另夕卜,各种程序可以经由程序分发服务器、能够由计算机读取的存储介质安装在计算机内。
[0049]此外,管理计算机具有输入输出设备。作为输入输出设备的例子,考虑有显示器、键盘和定点设备,也可以为除此以外的设备。另外,取代输入输出设备,还可以将串行接口或以太网(注册商标)接口作为输入输出设备,在这些接口连接具备显示器、键盘或定点设备的显示用计算机,将显示用信息发送至显示用计算机,或者从显示用计算机接收输入用信息,由此在显示用计算机进行显示,或者接收输入,以代替在输入输出设备上进行的输入以及显示。
[0050]以下,有时将管理IT系统(信息处理系统)且显示显示用信息的一个以上计算机的集合称为管理系统。在管理计算机显示显示用信息的情况下,管理计算机即为管理系统。还可以将管理计算机和显示用计算机的组合作为管理系统。另外,为了实现管理处理的高速化、高可靠化,可以利用多个计算机实现与管理计算机同等的处理,在这种情况下,这些多个计算机(在显示用计算机进行显示的情况下,还包括显示用计算机)即为管理系统。管理计算机的“显示显示用信息”可以指在管理计算机所具备的显示设备上显示显示用信息,也可以指管理计算机(例如服务器)在远程的显示用计算机(例如客户端)上显示显示用信息。
[0051]另外,在以下的说明中,有时在区别说明同种要素的情况下,使用该要素的参照附图标记,在不区别说明同种要素的情况下,使用该要素的参照附图标记中的共同的上位附图标记。例如,有时在不特意区别说明服务器的情况下,记载为服务器202,在区别说明各个服务器的情况下,记载为服务器202a、202b。
[0052]第一实施例
[0053]〈实施例的概要〉
[0054]如以下更详细说明的那样,根据第一实施例,提供如下的装置、方法以及计算机程序:导出用于确定在IT系统中发生的故障的原因事件的诊断过程、并基于这些诊断过程执行确定故障的原因事件的诊断。
[0055]根据第一实施例,管理计算机201为管理多个管理对象装置的计算机。作为管理对象装置的种类,例如有计算机(例如服务器)、网络装置(例如IP (Internet Protocol:互联网协议)开关、路由器或FC(Fibre Channel:光纤通道)开关)以及存储装置(例如NAS(Network Attached Storage:网络附属存储器))中的至少一个。作为一个管理对象装置所包含的设备等的逻辑性的或物理性的要素,例如有端口、处理器、存储资源、物理存储设备、程序、虚拟机、逻辑卷(逻辑存储设备)以及RAID (Redundant Arrays ofInexpensive (Independent)Disks:磁盘阵列)组中的至少一个。以下,有时将管理对象装置以及管理对象装置所包含的各个要素统称为“管理对象组件”。另外,还能够将管理对象装置称为节点装置。
[0056]图1示出第一实施例的概略。
[0057]事件分析程序结果显示画面111显示事件分析结果101。事件分析结果101将作为在多个装置发生的故障的传播源的故障表示为原因故障候选。事件分析结果101为通过后述的事件分析程序导出的结果。事件分析结果101可以利用在例如专利文献I中公开的方法导出。
[0058]管理计算机201具有:元诊断过程库234,其保存有确定IT系统的故障的原因事件的诊断过程;和结构管理DB (数据库)232,其保存有管理对象组件的结构信息。保存在元诊断过程库234内的元诊断过程描述了对IT系统内的某个结构模式执行的诊断过程。保存在结构管理DB232内的结构信息包括与各管理对象组件有关的信息、表示各管理对象组件之间的连接关系的连接关系信息和表示各管理对象组件之间的依存关系的依存关系信息。
[0059]在用户或管理计算机201从事件分析结果101示出的一个或多个原因故障候选中选择了一个原因故障候选的情况下,管理计算机201进一步执行用于进行详细的故障原因分析的诊断过程展开程序223。诊断过程展开程序223从元诊断过程库234中,获取与事件分析结果101关联的元诊断过程。接着,诊断过程展开程序223基于在所获取的元诊断过程定义的结构模式和所选的原因故障候选,从结构管理DB232中获取与应执行诊断的管理对象组件有关的结构信息。然后,诊断过程展开程序223根据所获取的元诊断过程和所获取的结构信息,生成展开诊断过程124。展开诊断过程124包括用于收集诊断所需的信息的信息收集步骤131、基于收集到的信息来进行判断的判断步骤132和根据判断的结果导出的示出故障原因事件的结论133。诊断执行程序224执行在生成的展开诊断过程124中定义的各步骤,将得到的结论作为IT系统的故障原因事件,并在诊断结果显示画面113中显示依照该故障原因事件的诊断结果141。
[0060]根据本实施例,在IT系统发生了多个故障时,在通过事件分析锁定了作为多个故障的传播源的故障之后,自动展开用于确定传播源故障的发生原因所需的诊断过程,并执行诊断,由此能够迅速地确定出故障的发生原因。
[0061]其结果为,能够基于确定出的原因事件,迅速地决定故障恢复对策,以能够缩短IT系统的停机期间(downtime)。其结果为,能够削减因IT系统停止而产生的商业机会损失等的经济损失。特别是能够对因设定不良而引起的故障或性能故障等仅根据事件难以确定原因的故障进行分析。例如,在IT系统发生了性能故障的情况下,在根据事件分析程序确定出成为瓶颈的组件(例如装置以及其要素)之后,能够根据诊断过程展开程序223以及诊断执行程序224,推断该组件成为瓶颈的原因。在这种情况下,不仅确定出系统故障的瓶颈,还确定出该瓶颈的发生原因,由此,增加了作为用于决定故障恢复对策的依据的信息。由此,易于从针对一个故障列举的多个故障恢复对策中,决定出一个执行的对策。
[0062]以下,详细地说明第一实施例。
[0063]〈IT系统以及管理计算机201的结构>
[0064]图2示出第一实施例的IT系统以及管理计算机201的结构例。
[0065]管理计算机201为管理IT系统的计算机。IT系统具有一个以上的服务器(或其他计算机)202a、202b以及202c、一个以上的存储装置204以及一个以上的网络开关(或IP开关之类的其他网络装置)203。服务器202a、202b、202c、网络开关203以及存储装置204经由LAN(局域网络)之类的网络205 (在图2的例子中为网络开关203)以能够通信的方式连接。
[0066]管理计算机201可以是包括CPU211、存储器212、磁盘213、输入设备214、输出设备217以及网络接口设备(网络I/F) 215,且这些设备经由系统总线216连接的通用计算机。磁盘213为例如HDD (Hard Disk Drive:硬盘驱动器),还可以取而代之,采用SSD (SolidState Drive:固态硬盘驱动器)之类的其他非易失性存储设备。作为管理计算机201的逻辑模块,例举有故障分析程序221、事件分析程序222、诊断过程展开程序223、诊断执行程序224、
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1