专利名称:以不取得事件信息的it装置为对象的根本原因分析方法、装置及程序的制作方法
技术领域:
本申请说明中公开的技术涉及对包含服务器计算机、网络装置、存储装置的信息 处理系统的操作进行管理的操作管理方法、装置、系统、程序、包含程序的介质以及程序的 分发装置。
背景技术:
近年来,IT系统(IT是Information Technology的略称。以下有时将IT系统称 为信息处理系统)通过经由网络连接各种IT装置(以后称为信息处理装置)而变得复杂 化、大规模化,故障经由网络对各种IT装置造成影响。作为用于确定这些故障的部位及原 因的根本原因分析技术,在专利文献1中公开了一种使用从IT装置通知故障内容的事件信 息来分析故障部位和原因的事件相关技术。另外,事件相关技术也可以说是利用故障时从 计算机发送来的事件的相关性来推测根本原因的技术。另外,在非专利文献2中公开了如下技术把该技术和故障时的事件的组合与推 测的根本原因组成对并进行规则化,由此使用基于专家系统的推论引擎来迅速地查明根本 原因。专利文献1 美国专利第6249755号说明书非专利文献 1 :"Rete :A Fast Algorithm for the Many Pattern/Many Object Pattern Match Problem,,,ARTIFICIAL INTELLIGENCE Vol. 19,no. 1,1982,pp. 17-3
发明内容
进行操作管理所需要的处理的操作管理服务器无法取得连接在网络上的所有的 IT装置的事件,因此操作管理服务器局限于接收(或者取得)事件信息的IT装置,使用根 本原因分析技术来显示分析结果。但是,该分析技术是以能够从连接在网络上的所有IT装置取得事件信息为前提 的。结果是当在操作管理服务器不取得事件信息的IT装置中发生事件(例如故障)、正在 取得事件信息的IT装置受到该故障的影响时,由于发生故障IT装置不是分析对象,所以无 法应用规则,不能查明故障的根本原因。本发明提供一种分析事件的装置、系统、方法、程序以及存储介质,该事件发生在 由多个信息处理装置、画面输出装置以及具有处理器和存储器的操作管理服务器构成的信 息处理系统中的、所述多个信息处理装置中。根据本发明的一个实施方式,关于所述操作管理服务器,为了所述多个信息处理 装置中的每一个信息处理装置作为客户机来使用网络服务,而将作为访问对象的所述多个 信息处理装置中的一部分信息处理装置即服务器装置的识别信息存储到所述存储器具有 的结构信息中,将作为所述操作管理服务器取得事件信息的对象的多个事件取得对象装置 登录到所述存储器具有的结构信息中,该多个事件取得对象装置是所述多个信息处理装置
5中的一部分,当检测到在所述多个信息处理装置中发生的包含与所述网络服务相关联的第 一事件类别的事件和包含不同于与所述网络服务相关联的所述第一事件类别的第二事件 类别的事件时,将表示因与所述第二事件类别对应的事件发生而可能导致与所述第一事件 类别对应的事件发生的相关分析规则信息存储到所述存储器中,将从所述多个事件取得对 象装置收集到的多个所述事件信息存储到所述存储器中,根据所述相关分析规则信息,从 存储于所述存储器的多个所述事件信息中确定包含所述第一事件类别的第一事件信息,根 据所述结构信息来确定作为已发送了所述第一事件信息的事件取得对象装置中之一的第 一事件取得对象装置、以及与所述第一事件类别对应的所述网络服务中的所述第一事件取 得对象装置的服务器装置即故障主要原因装置,根据所述相关分析规则信息和所述结构信 息,当所述故障主要原因装置不是所述多个事件取得对象装置时,向所述画面输出装置发 送用于确定所述第一事件取得对象装置、所述第一事件类别、所述故障主要原因装置以及 所述第二事件类别的信息,由此,使所述画面输出装置显示关于在所述第一事件取得对象 装置中所发生的与所述第一事件信息对应的事件,推定为在所述故障主要原因装置中发生 所述第二事件类别的事件是主要原因。另外,所述相关分析规则信息包含拓扑条件信息,该拓扑条件信息表示在发生了 所述第一事件类别的作为所述多个信息处理装置中之一的第一信息处理装置和发生了所 述第二事件类别的作为所述多个信息处理装置中之一的第二信息处理装置之间的拓扑条 件,所述主要原因确定步骤也可以根据所述拓扑条件信息来确定所述故障主要原因装置。另外,也可以根据所述相关分析规则信息和所述结构信息,来确定作为所述多个 事件取得对象装置的服务器装置的、不包含在所述多个事件取得对象装置中的、作为所述 多个信息处理装置中一部分的事件关联信息处理装置,对是否能够从所述事件关联信息处 理装置中取得事件信息进行调查,在根据所述调查结果能够从所述事件关联信息处理装置 中取得事件信息时,向所述画面输出装置发送用于确定所述事件关联信息处理装置的信 息,由此使所述画面输出装置显示能够从所述事件关联信息处理装置中取得事件信息。另外,所述事件信息取得可否调查步骤也可以是基于所述操作管理服务器根据 预定的步骤对作为所述多个信息处理装置、具有在事先作为调查范围所设定的IP地址的 范围中包含的IP地址的信息处理装置进行访问而得的结果。另外,所述故障主要原因装置是具有控制器、并提供逻辑卷的存储装置,所述网络 服务是根据块访问形式的协议来提供所述逻辑卷的服务,所述第一事件类别是所述存储装 置发生故障,所述第一事件类别也可以是向所述逻辑卷的访问失败。另外,也可以根据所述相关分析规则信息和所述结构信息,在所述故障主要原因 装置是所述多个事件取得对象装置中之一时,从多个所述事件信息中确定包含所述第二事 件类别、且所述故障主要原因装置为取得源的第二事件信息,并向所述画面输出装置发送 用于确定所述第一事件取得对象装置、所述第一事件信息、所述故障主要原因装置以及所 述第二事件信息的信息,由此,使所述画面输出装置显示关于与在所述第一事件取得对象 装置中所发生的所述第一事件信息对应的事件,发生与在所述故障主要原因装置中所发生 的所述第二事件信息对应的事件是主要原因。另外,根据本发明的另一个实施例,通过操作管理服务器,将事件信息取得对象的 信息处理装置作为事件取得对象装置登录到结构信息中,从在操作管理服务器中所存储的多个事件信息中确定与事先所述存储的规则相符合的事件信息,确定与该事件信息相关联 的网络服务的服务器装置,并显示推定为在生成事件信息的客户机信息处理装置中所发生 的该事件的主要原因是在服务器装置中所发生的与网络服务相关的事件。根据本发明,在不取得事件信息的IT装置中发生了事件时也能够显示分析结果。
图1表示本发明的操作管理系统的整体结构图。图2示意地表示本发明中的一个实施方式的故障分析的全体处理流程。图3示意地表示以本发明为对象的IT系统的代表结构例中的一个。图4示意地表示在本发明的操作管理系统中所使用的相关分析规则信息。图5示意地表示通过图4所示的相关分析规则信息指定为应用对象的拓扑。图6示意地表示对成为规则的应用目标的IT装置的列表进行管理的表状数据结 构的一个例子、即规则应用目标管理表。图7是本发明的一个实施方式的相关分析规则信息的应用信息的生成处理流程。图8示意地表示通过成为本发明的第一实施方式中的IP-SAN的客户机的计算机 所取得的IP-SAN存储装置的连接信息。图9示意地表示本发明的第一实施方式中的与通过结构管理保存的管理对象IT 装置的IP-SAN存储装置相关的结构信息。图10是本发明的第一实施方式中的向用户提议将非管理IT装置包含在管理对象 中的画面显示例。图11示意地表示本发明的第一实施方式中的用于管理非管理IT装置的表状数据 结构的一个例子、即非管理IT装置管理表。图12示意地表示本发明的第一实施方式中的保存规则的应用目标IT装置的列表 的规则应用目标管理表。图13示意地表示通过成为本发明的第一实施方式中的FC-SAN的客户机的计算机 所取得的FC-SAN存储装置的连接信息。图14示意地表示本发明的第一实施方式中的与通过结构管理保存的管理对象IT 装置的FC-SAN存储装置相关的信息。图15示意地表示本发明的第一实施方式中的能够在成为文件服务器的计算机中 取得的与文件服务器相关的识别信息和公开名。图16示意地表示本发明的第一实施方式中的故障分析结果的画面显示处理流程。图17示意地表示本发明的第一实施方式中的、非管理IT装置为故障原因时的故 障分析结果数据的一个例子。图18示意地表示本发明的第一实施方式中的、非管理IT装置为故障原因时的故 障分析结果的画面显示的结构例。图19示意地表示本发明的第一实施方式中的、非管理IT装置为故障原因时的故 障分析结果的画面显示图20示意地表示本发明的第二实施方式中的故障分析的全体处理流程。
7的一个实施方式的相关分析规则信息的应用信息的生成处理流程。符号说明NO、操作管理服务器;附 N3、计算机;N4、网络(NW)交换器;N5、存储装置;01、计 算机;02、NW交换器;03、存储装置;Ml、画面输出装置
具体实施例方式下面对本发明的实施方式进行说明。(实施例1)图1是表示用于实施本发明的信息处理系统的一个结构的概要图。信息处理系统由操作管理系统和操作管理服务器构成。操作管理系统将构成IT 系统的计算机、网络交换器(NW交换器)以及存储装置作为管理对象,通过操作管理服务器 NO来监视/管理这些管理对象。本发明的操作管理服务器NO具备事件接收部C0,其接收管理对象IT装置中的 状态变化、故障信息、通知信息等事件信息;规则引擎C1,其根据接收到的事件信息,根据 事先所定义的规则R0进行故障分析;结构管理C3,其管理管理对象IT装置的结构信息;以 及画面显示部C2,其将为了操作管理这些装置而需要的信息输出到画面。另外,在操作管理系统中有根据画面显示部的控制和输出数据、将用于操作管理 的信息显示到画面上的装置即画面输出装置M1,该画面输出装置Ml与操作管理服务器NO 连接。另外,作为画面输出装置Ml首先考虑与操作管理服务器连接的显示器装置,但只要 能够将分析结果信息显示给操作管理系统的管理者,也可以由其它装置来代替。作为画面 输出装置Ml的其它例子有是作为画面输出装置接收操作管理服务器NO发送的电子邮件 并能够显示的便携式终端;或者是根据操作管理服务器N0发送的分析结果将信息提供信 息给管理者、还接受来自管理者的输入并发送给操作管理服务器N0的带有显示器的计算 机。规则引擎C1由规则应用部C11、规则存储器C13以及事件分析处理部C12构成。 规则应用部C11读取用于事件相关分析的分析规则信息R0 (以后有时称为相关分析规则信 息)、从结构管理C3中取得结构信息T0、进行用于将规则应用到IT系统的IT装置中的处 理;规则存储器C13是用于管理规则应用目标管理表C130、并进行规则的分析处理的工作 存储器,该规则应用目标管理表C130管理应用信息,该应用信息是用于在规则应用部中将 规则应用到IT装置中的信息;事件分析处理部C12接受通过事件接收部C0接收到的事件 信息、并进行事件的相关分析。另外,规则应用目标管理表C130只要存储在操作管理服务 器N0的存储器中即可,即使不存在于规则存储器C13中也可以。另外,相关分析规则信息可以通过操作管理服务器N0的管理者生成/存储,也可 以通过在后述的本发明的程序中包含相关分析规则信息,存储到存储器中,或者也可以通 过本发明的程序的初始化处理,将相关分析规则信息存储到存储器中。另外,作为构成操作管理服务器N0的硬件,有处理器、存储器(包含以半导体存储 器及HDD为代表的可擦写存储装置)、网络端口。各硬件通过总线等内部网络连接。另外, 首先考虑将事件接收部C0、规则引擎C1、画面显示部C2以及结构管理C3存储在操作管理
8服务器NO的存储器中、作为通过处理器执行的程序来实现,但也可以通过硬件来实现这些 功能的一部分或者全部。另外,在以后的说明中,将包含事件接收部CO、规则引擎C1、画面 显示部C2及结构管理C3的程序称为事件分析程序。另外,将相关分析规则信息R0、结构信息TO、规则应用目标管理表C130存储在操 作管理服务器NO的存储器中。另外,结构信息TO包含后面说明的IP-SAN存储装置的连接 信息(图8)、与IP-SAN存储装置相关的信息(图9)、FC-SAN存储装置的连接信息(图13)、 与FC-SAN存储装置相关的信息(图14)以及与文件服务器相关的识别信息和公开名(图 15)中的至少一个信息。另外,关于后面说明的非管理IT装置管理表(图11),也作为包含 在结构信息中的内容进行说明,但如果存储在操作管理服务器NO的存储器中的话,则也可 以存储为结构信息TO以外的信息。另外,关于相关分析规则信息R0、结构信息T0、规则应用目标管理表C130、IP_SAN 存储装置的连接信息、与IP-SAN存储装置相关的信息、FC-SAN存储装置的连接信息、与 FC-SAN存储装置相关的信息、与文件服务器相关的识别信息和公开名、以及非管理IT装置 管理表,只要包含后面说明的信息即可,而不必为文本文件或表、队列结构等特定的格式、 数据结构。由于在以后的说明和权利要求中明确记载作为更加一般性的信息,因此有时将 相关分析规则信息R0、结构信息T0、规则应用目标管理表C130、IP-SAN存储装置的连接信 息、FC-SAN存储装置的连接信息、与IP-SAN存储装置相关的信息、与FC-SAN存储装置相关 的信息、与文件服务器相关的识别信息和公开名、以及非管理IT装置管理表分别称为相关 分析规则信息、结构信息、规则应用目标管理信息、IP-SAN存储装置的连接信息、FC-SAN存 储装置的连接信息、与IP-SAN存储装置相关的信息、与FC-SAN存储装置相关的信息、与文 件服务器相关的识别和公开名信息、以及非管理IT装置管理信息。另外,虽然未图示,但是操作管理服务器将从作为管理对象的各种IT装置接收的 事件信息作为事件表目(event entry)存储到在存储器内所定义的事件数据库中。另外, 事件数据库可以为任何形式的数据结构,只要包含一个以上的事件表目即可。另外,事件信息包含事件内容,但是也可以包含事件发生时间。另外,事件数据库 也可以根据所决定的条件将过去的事件信息作为履历保留。另外,当包含在事件数据库中 并存储在存储器中时,操作管理服务器的程序(特别是结构管理C3)也可以把作为事件信 息取得对象的IT装置的识别信息、和通过操作管理服务器而得的事件信息接收时间关联 起来一起进行包含。另外,事件内容至少要包含事件的类别,根据情况也可以包含用于确定 该事件发生的IT装置内的硬件以及软件的信息。另外,作为事件的类别,例如考虑了以下的类别,但是也可以存在这些之外的类 别。(A)该IT装置的工作状态为预定的状态(例如其中包含发生硬件故障或软件故 障)(B)健康诊断结果为预定的结果(例如其中包含一定时间没有健康诊断应答的情 况)(C)处理速度、或者作为构成IT装置的组件的处理器或存储器、HDD等的消费资源 量已与预定的条件相符合(例如其中包含HDD的剩余容量低于10%的情况)(D) IT装置接收到满足预定的条件的网络访问(例如,其中包含IT装置接收到的请求超过了预定的次数、接收到预定次数的被请求的DoS攻击和被识别的网络数据包、从 所规定的IT装置以外的IT装置接收到请求等情况)另外,考虑通过如下方法向存储器存储事件分析程序从存储有该程序的 DVD-ROM或CD-ROM等介质安装或者拷贝的方法,或者从能够与操作管理服务器NO通信的程 序分发服务器接收该程序(或者能够在存储器上生成该程序的信息)的方法。但也可以是 这些之外的方法。另外,关于向操作管理服务器NO存储程序,也可以是事先存储后使其分 配给操作管理服务器NO的方式。通过以上说明的操作管理服务器N0来分析信息处理系统故障的根本原因。另外,在操作管理系统中,事先指定管理对象IT装置,将事件信息作为相关分析 的分析对象从该IT装置接收需要的信息。如此,在操作管理系统中,确定进行接收的IT装 置是因为如果对与网络连接的所有IT装置进行管理,则为了管理所需要的管理服务器的 处理器、存储器、硬盘等存储装置等的消费量就变得庞大,实际上难以进行监视,所以通过 缩小管理对象来避免上述问题。另外,如果管理工具是商用的,则基本上存在通过管理的IT 装置的种类或台数等限制许可数量的情况。因此在IT系统中,为了分析事件信息存在操 作管理服务器N0取得事件信息或者被允许取得的IT装置(以后,有时表现为被监视的IT 装置、或被管理的IT装置或管理IT装置或管理内IT装置或事件取得对象装置。另外,同 样的表现对作为IT装置的实际形态的计算机、交换器、路由器、存储装置也适用)、以及操 作管理服务器N0不取得事件信息或者被限制取得的IT装置(以后有时表现为未被监视的 IT装置、或未被管理的IT装置或非管理的IT装置或非管理IT装置或事件关联信息处理装 置来表示。另外,同样的表现对作为IT装置的实际形态的计算机、交换器、路由器、存储装 置也适用)。在操作管理服务器N0中,关于未被监视/管理的IT装置,又被分类为在操作管 理服务器N0中一度被发现存在、或被确认、或被管理的IT装置;以及在操作管理服务器N0 中一次也没被发现存在、或被确认、或被管理的IT装置。关于通过操作管理服务器N0—度 被管理过的IT装置,或发现、或确认过的IT装置,虽然无法说与被监视/管理的IT装置等 同,但是也有将通过该发现或者确认而取得的结构信息例如IT装置的IP地址、或主计算机 名、或FQDN(Fully Qualified Domain Name)等保存在内部并进行管理的。在本发明中,定 义为非管理对象的IT装置包含操作管理服务器N0不具有对应的结构信息的非管理对象 的IT装置;以及已经将对应的结构信息中的一部分或全部结构信息存储在操作管理服务 器N0中的非管理对象的IT装置。关于作为操作管理系统的非管理对象的情况,有管理对象内的IT装置使用如 DNS服务器那样提供给全球的服务的情况;以及由于防火墙、访问权限的问题、网络结构、 访问手段的缺陷等原因,操作管理系统无法充分进行用于管理的信息的收集的情况。另外,本发明将网络上存在的多个IT装置之间的相关分析作为对象。但是,即使 是由于原本具有相关性的多个装置为主要原因引起的事件同时发生时,在各装置的时钟中 也会发生偏差,并且事件信息转发的时间也发生偏差,因此,操作管理服务器N0分析作为 分析对象的事件信息,是对在程序开发者所预定的时间宽度(期间)或者在管理者所规定 的期间内所发生的或所接收的事件信息进行分析。另外,即使产生了某种主要原因,有时 也会发生与该主要原因相关的事件产生偏差的情况(例如Web服务或DNS服务等经由高速缓冲存储处理从服务器计算机接受预定的网络服务的情况),因此,需要以期间为对象的分 析,而不是特定的时间。另外,作为事件,期望优选的是在某种程度上动态地发生的事项。另外,更加优选 的是发生预定的主要原因从而成为主要原因的IT装置中的事件发生(或操作管理服务器 接收)的时间与受该主要原因的影响而在另外的IT装置中的事件发生(或操作管理服务 器接收)的时间差为在所述期间内的事件的主要原因。关于作为另一方面的结构信息所考虑的信息,优选构成IT装置的硬件的种类及 个数、或为了与该装置通信所必要的通信识别信息或名称这样的信息,虽然能够通过一部 分IT装置的管理者进行变更,但是优选准静态的信息。图2表示基于上述结构的本发明中的一个实施方式的概要的处理的流程。在S1中,规则引擎C1事先读取相关分析规则信息R0,从结构管理C3中取得管理 对象的结构信息T0,再从TO中检索规则群R0的应用目标IT装置的识别信息,然后存储到 规则应用目标管理表C130中。S1的处理是其后进行的由事件引起的故障分析处理的准备, 只要在分析处理之前进行即可。在作为实施方式之一的第一实施方式中,在操作开始前进 行分析处理,事先将规则应用目标管理表C130保存在规则存储器C13内。在S2中,通过事件接收部CO等待接收从操作管理系统内的管理对象IT装置发出 的事件。S3是与操作管理系统的运行操作相关的、用于确认是否已指示停止处理的步骤, 是用于进行操作停止的步骤。在S4中,判断是否已通过事件接收部CO接收到了事件。当已接收到时,在S5中 将通过事件接收部CO接收到的事件输入到事件分析处理部C12,然后根据规则应用目标管 理表C130求出相应的规则,并根据该规则确定故障原因。在S5中,将所确定的故障原因输出到画面显示部C14。画面显示部C14根据所接 受的分析结果输出数据发送分析信息,由此将操作管理所需要的画面输出/显示到画面输 出装置Ml。另外,作为S2及S4的处理的代替,也可以将接收到的事件信息临时存储在事件数 据库中。本发明的一个效果是在该概要的处理流程中,通过修改规则应用部的处理,就能 够对非管理对象的IT装置的故障原因进行分析,而不用大幅度地改变结构或其后的处理 流程。图3是表示本发明的实施方式所设想的IT系统的一个结构的概要图。图3的IT 系统由如下装置构成作为操作管理对象的操作管理系统,其由管理服务器NO进行操作管 理的计算机mo、计算机mi、计算机m2、作为网络交换器的IP交换器N21和FC交换器 N31、以及存储装置N40和存储装置N41构成;作为管理服务器N0不进行管理的非管理对象 的IT装置的存储装置U2和计算机U5 ;以及经由路由器N20与网络G0连接的存储装置U1、 计算机U3和计算机U4。另外,在此所述的计算机、交换器、路由器、存储装置等IT装置的个 数只是一个例子,在操作管理系统中至少包含具有提供网络服务的服务器功能的IT装置 和具有接受提供该网络服务的客户机功能的IT装置即可。非管理对象的IT装置的存储装置U1是具备IP-SAN接口的存储装置,对管理对象计算机N10提供逻辑卷。另外,非管理对象的存储装置U2是具备FC-SAN接口的存储装置, 经由管理对象FC交换器N31,对管理对象计算机附3提供逻辑卷。非管理对象的IT装置 的计算机U3或计算机U5是文件服务器,分别对管理对象计算机mo、Nil两者公开文件系 统,但计算机U3属于与操作管理系统不同的网络区段(network segment),与计算机U3相 关的详细的信息不能从网络上取得。另一方面,计算机TO的文件服务器与操作管理系统属于同样的网络区段,是能够 通过操作管理系统自动地发现存在的计算机,是虽然操作时被发现但没有成为管理对象的 IT装置。另外,非管理对象的IT装置的计算机U4是DNS服务器,对图3的IT系统的所有 的IT装置应用名称解决功能。在此,为了理解,在阐述第一实施方式前,说明如何对管理对象IT装置应用事件 相关技术的规则。图4是暗示对于图1所示的IT系统,存储装置的控制器故障是根本原因的规则的 例子。如此用于确定故障分析的根本原因的规则大多根据事件相关性,以if-then形式将 预测为发生的事件的组合与成为根本原因的故障作为一对来表示。在if-then形式的规则 表现中,列出“如果if中所述的条件成立,则then部分为真”这样的意思的规则。在实施例中,与专家系统等一般性的规则一样,用if-then的形式来记述规则,与 成为规则的应用对象的IT装置相关的信息是if 条件部分中预先定义的信息。另外,规则 的记述形式本身也可以不是if-then形式,作为能够确定成为应用规则的对象的IT装置的 任何的连接/关系信息,事先定义拓扑即可。另外,实际上存储各规则的信息是规则表目。相关分析规则信息包含一个以上的 规则表目。另外,如果更加抽象化,也可以说该规则表目包含以下的信息(A)表示包含了符合该规则的事件类别的条件的条件表目。如上所述,该条件表目 中可以将拓扑包含为条件。(B)在符合了该条件时,表示成为原因的事件、以及与该事件相关的IT装置或IT 装置的硬件/软件的部位的原因表目。作为第一实施例,如图4所示那样事先定义了如下规则使用了 iSCSI的IP-SAN 的存储装置的控制器故障为根本原因的规则R1 ;使用了 Fibre Channel的FC-SAN的存储 装置的控制器故障为根本原因的规则R2 ;文件服务器故障为根本原因的规则R3 ;以及网络 无法到达DNS服务器为根本原因的规则R4。另外,在图6中表示了作为针对规则保存应用 该规则的IT装置的信息的规则应用目标管理表。规则应用目标管理表是由栏C101和栏 C102构成的信息,不需要是数据库上的图表,其中栏C101是指示该规则的识别信息的栏、 栏C102是应用目标IT装置的列表的栏,其存储应用该规则的对象IT装置的识别信息。另 外,本表状的数据结构可以通过对表进行标准化来分割为多个表状的数据结构进行管理。图5表示了对于图3所示的规则R1 R4,应用各规则的拓扑的模式。图5中 的(1)表示表示规则R1的IF部暗示的连接/关系信息的拓扑,表示计算机的Computer 具有iScsiInitiator,经由表示IP交换器的IpSwitch与表示存储装置的Storage的 iScsiTarget连接。iScsiTarget是用于识别iScsilnitiator的连接目的地的iSCSI名, 对计算机具有的连接目的地的iScsiTarget、以及与存储装置具有的iScsi的端口的iSCSI 名一致的计算机和存储装置的组合应用规则R1。在图3所示的IT系统中,规则R1的应用
12目标IT装置为如图6的行L101和L102所示的装置。另外,关于图5中的⑵也同样,表示如规则R2的IF部暗示的那样,计算机具备 FcHba,FcHba经由FcSwitch与存储装置的PcPort连接。此时,作为具有连接关系的装置, 将FcHba具有的连接目的地端口 WWN(ffffN :WorldWide Name)和与FcPortffffN—致的装置作 为规则R2的应用对象,其中FcPortffffN为存储装置的Fibre Channel的端口即FcPort的 WWN。在图3的IT系统中,作为这些计算机和存储装置的组合,规则R2的应用目标的IT装 置为图6的行L103所示的装置。关于图5中(3),规则R3的IF部表示文件服务器-客户机的拓扑。具有表示安装 有文件服务器的文件系统的信息ImportedFileShare的计算机T31和具有表示对外部公开 文件系统的信息ExportedFileShare的计算机T33经由IP交换器T32各自是客户机-文 件服务器的关系。此时,在ImportedFileShareTSll中,作为与安装源的文件服务器相关的 信息,具有文件服务器的识别信息(IP地址或FQDN(Fully Qualified Domain Name)等) 和所公开的文件系统的公开名,在EXp0rtedFileShareT331中具有所公开的文件系统的场 所和公开名(也称为共享名)。将通过ImportedFileShare所指的文件服务器的识别信息表示的计算机、且该 计算机具有ExportedFileShare的信息、ExportedFileShare的公开名与计算机T31的 ImportedFileShare所指的公开名一致的计算机的对作为文件客户机-文件服务器的拓扑 应用规则R3。因此,在图3的IT系统中,作为满足其的组合,规则R3的应用目标IT装置为 图6的行L104所示的装置。关于图5中的(4),是规则R4所暗示的DNS服务器和客户机的拓扑,提供解决名称 服务器的DNS服务器的计算机T42和通过DNS服务器解决IP地址和FQDN的名称的客户机 计算机T41成为一对,存储在图6所示的应用目标管理表中。针对与记述为这样规则的连接或关系有关的拓扑信息的结构,能够事先通过系统 被定义,并能根据规则描述而被唯一地确定。关于针对规则的应用目标IT装置,具有图6的应用目标管理表,由此能够通过在 事件发生时参照该表,判断事件与哪个规则相关联,从而选择应该应用的规则。以上是针对 管理对象IT装置的规则的应用方法。图7及图21是关于图2的规则应用部C11中的步骤S1,将本发明的一个实施方式 进行细分后的流程图。根据该处理流程,假设图3的IT系统和图4的规则R1 R4来说明 第一实施方式。另外,图7及图21的处理全部是在规则应用部中进行的。另外,操作管理系 统事先对曾经发现过的IT装置进行存储,作为能够判断为已经发现的IT装置的前提。或 者,操作管理系统在不具有自动发现IT系统内的IT装置的功能时,或者,即使具有自动发 现的功能、却不具有对所发现的IT装置进行存储的功能时,作为不存在已发现的IT装置, 进行图7及图21的处理。(关于一般的流程的说明及应用了规则R1的情况)在S101中,判断是否存在要读取到相关分析规则信息R0中的规则、即不是已读 取的规则。判断的结果是,如果存在要读取的规则(“是”),则迁移到S102。否则(“否” 时),结束处理。由于要读取的规则存在R1 R4,所以在此为“是”、迁移到S102。在S102中,读取一个规则,为了表明已读取,例如加上标识,或者作为已读取的规则进行存储。在实施方式中,读取规则R1,将规则R1作为已读取规则进行存储,然后迁移到 S103。在S103中,求出与规则中所记述的拓扑信息对应的IT装置的检索条件,然后迁移 到S4。在实施方式中,作为规则R1的拓扑信息,具有iScsilnitiator的计算机、具有通过 iScsiTarget识别的iSCSI的端口的存储装置、以及与这些相连接的IP交换器成为应用规 则R1的IT装置的检索条件。检索条件是事先针对规则的描述而定义的。在S104中,从管理对象IT装置的结构信息中检索拓扑信息中的、客户机端的IT 装置。另外,关于结构信息的检索,如果管理结构信息的是数据库,则对数据库进行检索,如 果是文件,则对文件进行检索,而作为不管检索对象的存储介质或装置等。在实施方式中, 在规则R1的拓扑中,从结构信息中检索表示客户机的具有iScsilnitiator的计算机。在 本实施例中,如果计算机WO或计算机mi具有iScsilnitiator,则通过检索,发现计算机 N10或计算机mi的识别信息。由于对于多个计算机的情况执行S106以后的处理,因此在步骤S105中判断在通 过检索所发现的IT装置中是否有未选择的IT装置。在本实施例中,计算机mo或计算机 Nil为未选择的IT装置,因此前进到S106。在S106中,从未选择的IT装置中选择一个,作为已选择。在本实施方式中,选择 计算机附0,并将计算机N10作为已选择,前进到S107。在107中,取得与在S106中所选择的IT装置在拓扑上相对的服务器一侧的IT装 置的信息。在此,作为服务器一侧的IT装置的信息有用于识别服务器一侧的IT装置的信 息(IP地址、或者主计算机名、FQDN等)、与提供的服务有关的信息(文件服务器中的公开 文件系统的公开名(也称为共享名)、或者用于识别存储装置的磁盘卷的LUN号码、或者连 接目的地的iSCSI名、或者FC Port的WWN)。在本实施例中,取得图8所示的连接目的地 的iSCSI名即CormectedlscsiTarget作为与计算机N10相对的服务器一侧的存储装置的 fn息o在S108中,判断在与通过S107所取得的服务器一侧的IT装置相关的信息中是否 存在对与该信息对应的IT装置没有进行检索的,当存在(“是”)时,迁移到S109,当不存在 时(“否”),迁移到S105。在本实施例中,如图8所示,至少存在3个未检索的信息(“是”), 因此迁移到S109。另外,在此,若对图8中包含的信息进行说明,则该信息中具有用于表示IT装置 (更加具体地讲为计算机)的识别信息和该IT装置为连接目的地的存储装置的iSCSI中的 识别信息。在S109中,选择一个通过S107所取得的服务器一侧的IT装置的信息中的、未检 索的信息。根据该信息从管理对象的结构信息中检索服务器一侧的IT装置。在本实施例 中,从管理对象的结构信息中检索存储装置,该存储装置在iScsiTarget中具有从计算机 N10所取得的如图8所示的CormectedlscsiTarget的行L201表示的iSCSI名。在S110中,当S109的检索结果是不存在相当于管理对象IT装置的装置(“否”) 时,迁移到S111。另一方面,当存在相当于管理对象IT装置(“是”)时,成为与通常的规 则应用处理同样的处理,迁移到S121。在本实施例中,与管理对象存储装置的iScsiTarget 有关的结构信息为图9所示的信息。此时,如图9所示那样,在管理对象中不存在具有与图
148的L201行的ConnectedlscsiTarget —致的iScsiTarget的存储装置,因此迁移到S111。另外,在此对图9中所包含的信息进行说明,该信息中具有用于表示存储装置的 识别信息、和该存储装置具有的iscsi中的识别信息。另外,在结构信息TO中包含表示针对已经发现的一个以上的IT装置中的每一个 IT装置该装置是否为事件取得对象(即该装置是否为被监视的装置,换言之,是许可还是 抑制该装置取得事件)的事件取得可否信息,通过参照该数据,进行S110的判断。在S111中,判断是否为已经在操作管理系统中发现过的IT装置。S卩,在此判断是 否为在操作管理系统中曾经被发现存在、或者被确认过、或者被管理过的IT装置、并且为 部分地操作管理系统具有静态结构信息的IT装置。在本实施例中,没有任何具有与图8的 L201行的ConnectedlscsiTarget—致的iScsiTarget的存储装置有关的结构信息、作为不 是已发现资源的装置(“否”),前进到S112,。另外,关于S111的判断,有通过在结构信息中是否存在与该装置相关的信息(例 如,事件取得可否信息)进行判别的方法。在S112中,尝试从非管理的IT装置中发现具有与图8的L201行的 ConnectedlscsiTarget 一致的iScsiTarget的存储装置。作为S112的有无非管理IT装 置的检索方法的一个例子,有如下方法针对从结构信息中取得、或与成为通过用户所输入 的对象的资源对应的IP地址或F0DN等通信识别符,或者从结构信息中取得、或对与包含成 为用户所输入的对象的资源的网络区段相对应的IP地址即网络地址内的地址IP地址、或 FQDN等通信识别符,发送寻求与成为对象的资源相关的服务提供的请求,等待有无应答来 确认存在成为对象的资源。在本实施例中,尝试从图3所示的IT系统中发现。在S113中,判断通过S112所尝试的发现是否已成功。当已成功(“是”)时,迁移 到S14。如果没有成功(“否”),则迁移到S116。在本实施例中,图3所示的存储装置U3作 为相应的存储装置而被发现,迁移到S114。在S114中,判断是否能够将在S113中发现的IT装置作为操作管理系统的管理对 象。关于是否能够作为管理对象的判断,通过是否能够从对象IT装置中取得为了该操作管 理系统进行监视/管理而所需要的信息来判断。关于为了监视/管理所需要的信息,针对 每个操作管理系统有各种信息,但是作为共通的信息是用于识别该IT装置的信息,例如 IP地址、或WWN(World Wide Name),或任何的唯一的识别信息(号码)、装置名(主计算机 名)、FQDN等至少一个以上的信息。另外,期待也能够在某种程度上取得与构成该IT装置的硬件的种类或个数相关 的一个以上的信息。在本发明中,操作管理服务器N0具有预定的判断基准,根据该判断基 准进行该判断。在本实施例中,作为与存储装置U3有关的信息,该存储装置具备iSCSI端 口、能够取得iScsiTarget的信息作为该iSCSI端口的iSCSI名,并作为判断为能够成为管 理对象的装置,前进到S115。另外,因为在后续的处理中有将该装置作为管理对象的情况, 因此,也可以在本步骤中,除进行确认能够从该IT装置中接收事件信息的处理外,仅在能 够确认时,前进到S115。在S115中,对用户提示是否将已在S113中发现的IT装置作为管理对象。在本实 施例中,提示作为计算机m的存储装置服务器,发现了存储装置U3,以及是否将存储装置 U3归为管理对象。提示画面为图10。
15
在S116中,操作管理服务器NO(尤其是规则引擎)接收来自管理画面输出装置的 输入。在S117中,判断用户是否将所发现的IT装置作为管理对象,作为管理对象(“是”) 时,前进到S118,否则(“否”)前进到S119。在本实施例中,假设用户没有将存储装置U3 作为管理对象,因此前进到S119。在S118中,针对用户进行了包含在管理对象中的判断的IT装置取得信息,作为管 理对象IT装置将信息存储到结构管理中。在本实施例中,在该时刻还没有来到这些分叉
点o在S119中,将成为与客户机相对的服务器作为非管理IT装置,在非管理IT装置 管理表中存储关于能够取得的信息,进行管理,然后前进到S120。在本实施例中,关于存储 装置U3,作为识别装置的信息,设为FQDN和存储装置的IP端口的iSCSI名即iScsiTarget 能够取得的信息,并将其存储到图11的非管理IT装置表TL3中。另外,若在此处对图11进行说明,则在非管理IT装置表TL3中,关于所发现的非 管理IT装置的每一个,包含以下的信息(A)非管理IT装置的识别信息;(B)作为非管理IT装置的类别的C401 ;(C)作为非管理IT装置的通信识别信息的C402 ;(D)作为为了访问非管理IT装置的服务所需要的识别信息的C403。在S120中,对非管理IT装置的识别信息通过附加能够明白该IT装置为非管理的 标志,如图12所示存储到规则应用目标管理表TL1中。在本实施例中,根据与存储装置U3 有关的非管理IT装置管理表的信息,将识别信息存储到规则应用目标管理表TL1中。存储 后,关于是否存在与所选择的客户机一侧相对的服务器一侧的IT装置有关的检索信息,返 回到S8。在本实施例中,如果返回到S108,则判断与在S107中所取得的服务器一侧的存储 装置有关的检索信息中是否存在未检索的信息,但因为关于与计算机N10有关的服务器一 侧的存储装置有关的检索信息存在图8的L202行,因此迁移到S109。如果迁移到S109,则通过结构管理检索与L202对应的存储装置。在实施例中,如 图9所示,存储与L202对应的存储装置,因此可知对应L202的IT装置是管理对象,因此, 在S110中判断为管理对象IT装置,迁移到S120。在S120中,作为管理对象IT装置,将存 储装置N40和计算机WO的列表作为规则R1的应用目标IT装置存储到图11的规则应用 目标管理表的L101中。通过以上的步骤,能够应用规则R1包括对计算机mo提供逻辑卷的非管理对象的 存储装置U1。接下来,使用图11的规则应用目标管理表,作为图2的S6的一个例子,即在非管 理的存储装置U1中发生了故障时,对将所述存储装置U1作为故障的根本原因进行画面显 示的处理进行说明。从存储装置U1发生控制器的故障事件,一旦在图1的事件分析处理部C12中,当 基于图11的规则应用目标管理表根据规则的事件相关性确定了故障的原因部位时,则将 该分析结果的信息发送到画面显示部C2。在画面显示部C2中,根据图16的流程来判断根
16本原因的IT装置是否为管理对象,并将适当的画面显示在画面显示装置Ml中。在图16的步骤601 603中,在画面显示部C2中,从规则引擎C1中取得表示图 17所示的规则引擎中的故障分析的结果的故障分析结果数据D1。另外,规则引擎C1 (特别 是事件处理分析部C 12)进行通过图2的S4及图4和图5所说明的处理。故障分析结果数据D1由包含与故障原因IT装置有关的信息的故障原因IT装置 信息、和与操作管理系统所接受到的管理对象IT装置的事件有关的信息即接收事件列表 的数据构成。故障原因IT装置信息D11包含表示故障原因IT装置的信息、和与故障位置 的部位有关的信息。与故障位置的部位有关的信息与能够从作为非管理对象的IT装置的 故障原因IT装置中取得怎样程度的故障信息有关。当根本无法取得故障信息时,如图17 所示那样为不明。接收事件列表,在关于该故障所定义的规则中,包含作为与有关联的接 收事件有关的信息的、作为与接收事件的发送源有关的信息的接收事件发送源;以及表示 与事件的内容有关的信息的事件类别。在S604中,根据所取得的故障分析结果数据D11的故障原因IT装置的信息判断 是管理对象还是非管理对象。在本实施例中,因为是非管理对象的IT装置,所以前进到 S605。在S605中,根据故障分析结果数据D11的故障原因IT装置的信息来检索图11的 非管理IT装置管理表,取得与该非管理IT装置有关的信息,前进到S606。在本实施例中, 关于存储装置U1,从图11的L401中取得。在S606中,包含通过S605所取得的信息,将发生的故障的根本原因为非管理的 IT装置是原因显示到画面上。关于此时的画面的结构例,如图18所示那样,将包含了如 下信息的窗口或对话框等显示画面输出到画面输出装置Ml 传达非管理IT装置为故障的 根本原因的消息;对于故障原因进行分析而得的结果即故障分析结果;以及操作管理系统 对于所发生的故障正在进行检测的故障信息,例如正在接收的事件等。关于作为本实施例 的非管理IT装置的存储装置U1的故障为根本原因的例子中的显示画面例为如图19所示 那样。例如是包含如下内容的画面显示知道故障原因IT装置为非管理对象的信息,该 IT装置的类别是什么、例如是IP-SAN存储装置,作为IT装置的识别信息、例如IP地址为 192. 168. 100. 15。通过以上的步骤,能够在非管理对象IT装置的存储装置U1中发生故障时,对于由 非管理对象所引起如规则R1那样的IP-SAN存储装置的故障情况也能够应用,能够在画面 上显示根本原因是非管理对象的IP-SAN存储装置。(关于规则R2的处理流程)关于规则R2,根据以图3的IT系统为对象的实施例对流程进行说明。在S101中,因为有规则R2,所以前进到S102,在S102中读取规则R2,并给R2附加 已读取的标志。在S103中,关于规则R2中所记述的拓扑信息,作为图4中的(2)的FC-SAN 拓扑,将在客户机一侧具有Fibre Channel的Host Bus Adapter即FcHbaT211的计算机 T21经由FC交换器T22与在服务器一侧具有Fibre Channel端口即FcPortT231的存储装 置T23连接的拓扑定为检索条件。在S104中,作为客户机一侧的IT装置,设为发现具有FcHba的计算机即计算机 N13。
在S105中,因为计算机附3为未选择的IT装置,所以前进到S106。在S107中,如图13所示,从计算机N13收集表示FCPort的WWN的 ConnectedFcPortffffN C502,该FCPort是连接目的地服务器一侧的存储装置的 FibreChannel 端 口。另外,当说明图13的FC-SAN存储装置的连接信息时,作为与每个IT装置对应的 信息包含连接目的地存储装置具有的FibreChannel的识别信息。在S108中,关于与计算机附3中的连接目的地的存储装置有关的检索信息即 ConnectedFcPortffffN,是未检索的,因此前进到S109。在S109中,使用行L501的C502的值作为通过计算机N13所取得的 ConnectedFcPortffffN,在结构管理中检索在FCPort的WWN中具有该WWN的存储装置。在S110中,因为S109检索的结果是如图14所示在管理对象的结构信息中不存在 具有将图13的行L501的C502的值作为FCPort的WWN的存储装置,因此前进到S111。另外,在此对图14中包含的信息进行说明,在该信息中具有用于表示存储装置 的识别信息、和该存储装置具有的FibreChannel中的通信识别信息。在S111中,因为在已发现的存储装置中,发现了具有将图13的行L501的C502的 值作为FCPort的WWN的存储装置U2,所以前进到S115。在S115中,显示提议将已发现的存储装置U2包含在管理内的画面。虽然图10是 规则R1中的画面显示例,但是显示画面的结构基本相同,只是将消息的内容替换为实际的 IT装置的内容。在S116中,从管理者接收存储装置U2的识别信息和将该装置作为管理对象的指 /J^fn 息。在S117中,确认用户是否已包含在管理对象中,因为在本实施例中为已包含在管 理对象中,所以前进到S118。在S118中,关于作为管理对象新追加的存储装置U2,收集作为管理对象IT装置需 要取得的信息。作为管理对象取得的信息为事件信息和结构管理信息。在S121中,将存储装置U2作为管理对象IT装置,与计算机W4 —起作为规则R2 的应用目标IT装置,登录到规则应用目标管理表中。在该种情况的例子中,登录到由图12 所示的规则的栏C101、和存储成为该规则的应用目标的IT装置列表的栏C102构成的表状 的数据结构中。通过如上所述,关于规则R2,能够通过现有的规则库的事件相关性进行作为非管 理对象的IT装置的FC-SAN存储装置的故障分析。另外,根据故障分析的结果数据,关于当作为非管理对象的IT装置的FC-SAN存储 装置为故障的根本原因时输出画面显示的处理,与规则R1的非管理对象的IP-SAN存储装 置为故障的根本原因时进行画面显示的处理一样在图16的步骤进行。通过上述的处理步骤,在非管理对象的IT装置的存储装置U2中发生了故障时,对 于由非管理对象引起如规则R2的FC-SAN存储装置的故障,也能够应用规则R2,并能够在画 面上显示根本原因是非管理对象的FC-SAN存储装置。(关于规则R3的处理流程)关于规则R3,根据以图3的IT系统为对象的实施例对流程进行说明。
18
在S101中,因为有规则R3,所以前进到S102,在S102中读取规则R3,并 给R103附加已读取的标志。在S103中,关于规则R3中所记述的拓扑信息,作为 图4中的(3)的文件服务器/客户机的拓扑,将在客户机一侧具有表示安装有已公 开的文件系统的Imp0rtedFileShareT311的计算机T31经由IP交换器T32与在服 务器一侧具有EXp0rtedFileShareT331的计算机T33连接的拓扑定为检索条件,该 ExportedFileShareT331表示具有在其它的计算机中公开的文件系统。在S104中,作为图4中的(3)的拓扑的客户机一侧的IT装置,设为发现图3的计 算机mo。在S105中,作为检索到的客户机一侧的IT装置有计算机附0,因为是未选择,所以 前进到S106。在S106中,选择图3的计算机N10作为未选择的客户机一侧的IT装置,并设定为 已选择。在S107中,取得表示安装了哪个文件服务器的公开文件系统的 ImportedFileShare的信息作为计算机的检索信息,该计算机作为图4中的(3)的拓扑的服 务器一侧的IT装置、与计算机N10相对。作为管理从客户机一侧取得的、与文件服务器有 关的信息的表,通过包含图15所示的客户机一侧的计算机的栏C701、与栏C701对应的文件 服务器有关的识别信息的栏C702、以及与文件服务器的公开名有关的栏C703的数据结构, 例如通过表等进行管理。另外,从客户机取得的与文件服务器有关的信息可以作为结构信 息事先通过图15的表取得完成,也可以在S7的处理中从客户机一侧的IT装置取得。艮口, 取得的时刻在S107的处理完成之前进行即可。另外,在此对图15中包含的信息进行说明,在该信息中针对每个文件服务器包含 以下的信息(A)作为文件服务器的IT装置的识别信息;(B)作为一个以上文件服务器的识别信息和公开名。在S108中,通过S107所取得的与客户机一侧的文件服务器有关的信息为图15的 L701,因为是未检索,所以前进到S9。在S109中,检索具有图15的行L701的文件服务器的识别信息的栏C702的值,即 检索具有称为exp0rtfs. domain2. com的FQDN的IT装置。在SI 10中,因为在管理对象的结构信息TO中不存在具有称为exportfs. domain2. com的FQDN的计算机,所以前进到S111。在S111中,因为在已发现资源中不存在具有称为exportfs. domain2. com的FQDN 的计算机,所以前进到S112。在S112中,尝试发现称为exportfs. domain2. com的计算机。关于发现,询问DNS 服务器来解决IP地址,然后通过Ping对是否存在该IP地址进行确认,再通过telnet、 或ssh、或Windows (注册商标)的远程连接等来尝试访问。在本实施例中,成功返回针对 exportfs. domain2. com对应的IP地址的ping,因此能够确认存在该IP地址,但是,因为没 有该服务器的认证信息,所以其他的访问失败,无法登录,前进到S114。在S114中,虽然所发现的exportfs. domain2. com的计算机返回通过ping的应 答,但无法取得其以外的信息,无法成为管理对象,因此前进到S119。
在SI 19中,将exportfs. domain2. com的计算机登录到图11的非管理IT装置管 理表中。具体来讲,如图10的L403所示,存储文件服务器识别信息和服务识别信息中在客 户机一侧所取得的信息。在S120中,生成针对由客户机一侧的计算机N10和exportfs. domain2. com的计 算机U组成的对的规则应用信息。具体来讲,如图12的L107所示,针对规则R3,将计算机 N10和作为非管理IT装置的计算机U3登录到应用目标IT装置列表中。通过如上所述,也能够对作为计算机mo的文件服务器的非管理的IT装置即计算 机U3进行故障分析。同样,通过S101 S104的步骤,说明关于规则R3、作为客户机一侧的IT装置发现 了计算机mi时的实施方式的处理流程。通过S105 S107的步骤,作为与计算机Nil相对的文件服务器取得如图15的 L703的行所示的文件服务器的信息。在S109中,因为没有在管理对象IT装置中发现图15 的行L703所示的文件服务器,所以前进到S111。在S111中,因为在已发现的资源中存在具 有图15的行L703所示的IP地址的计算机TO,所以前进到S115。在S115中,显示提议将计算机TO包含在管理对象中的画面,通过S116接收用户 将计算机U5作为管理对象的指示作为用户输入。在S117中,因为接收到了 S116用户将计算机U5作为管理对象的指示,所以前进 到 S118。在S118中,在作为已发现资源而保存的IT装置的识别信息、用于访问的信息以 外、还取得包含计算机U5的连接装置的结构信息、工作状态以及性能信息的监视信息作为 将计算机U5作为管理对象的信息,存储到结构管理C3的管理对象的结构信息T0中。在S121中,作为图12的行L108那样的数据结构存储到规则存储器中,以便能够 对作为管理内IT装置把计算机Nil作为客户机、把计算机TO作为文件服务器的拓扑应用 规则R3。通过上述的处理,能够根据图2的流程对已发现的IT装置、且为非管理对象的文 件服务器的计算机U5进行故障分析,能够通过在画面显示部C2中进行图16的流程,将故 障原因输出到画面显示装置Ml中。(关于规则R4的处理流程)关于R4,根据以图3的IT系统为对象的实施例对流程进行说明。关于规则R4,作为客户机一侧的IT装置,能够通过S101 S104的步骤发现计算 机mo。作为针对计算机mo的DNS服务器的检索信息,能够通过S105 S107的步骤从 计算机WO取得DNS服务器的IP地址192. 168. 100. 1。通过S108 S110的步骤,使用所 取得的IP地址192. 168. 100. 1来确认在结构管理C3的管理对象的结构信息T0中不存在 DNS服务器,然后前进到S111。在S111中判断DNS服务器不是已发现IT装置,然后前进到 S112,在S112中尝试从实际IT系统对IP地址192. 168. 100. 1的节点的访问。虽然访问的 结果是确认通过ping能够到达网络,但是因为不具有认证信息,所以无法登录,在S114中 判断为无法作为管理对象,前进到S119。在S119中,将IP地址192. 168. 100. 1的计算机 作为非管理对象IT装置,如图11的L404所示那样作为DNS服务器,通过识别信息U4来存 储/管理信息,然后前进到S120。在S120中,将客户机的计算机N10和DNS服务器即非管
20理IT装置的计算机U4作为规则R4的应用目标IT装置列表,如图12的行L109那样进行存储。通过以上的步骤,能够根据现有的规则的事件相关性进行作为非管理的DNS服务 器的计算机U4的故障分析,能够确定非管理的DNS服务器是故障原因。关于针对图3中的其它IT装置的规则R4的应用,也同样能够通过针对作为非管 理的DNS服务器的计算机U4生成应用信息来进行。另外,能够与其它的规则的实施例一样、通过在画面显示部C2中进行图16的流 程,将作为非管理的IT装置的DNS服务器是故障的根本原因显示在画面上。(实施例2)关于本发明的第二实施方式,通过如图20所示那样,将生成规则应用部CI 1中的 应用信息的步骤S4b放在事件接收的步骤S3b之后、且在事件分析部C12中的事件分析处 理的步骤S5b之前的步骤来进行在第一实施方式中、如图2所示的故障分析的全体处理流 程的处理步骤。该第二实施方式和第一实施方式的区别仅仅是生成规则的应用信息的时刻不同。如上述那样,即使改变规则的应用信息的时刻来实施本发明,也能够将非管理对 象的IT装置为故障的根本原因装置显示到画面上,而不会损害该发明的效果。以上描述的程序,其用于实现根据本申请说明书的实施例1和实施例2的、与多个 信息处理装置和画面输出装置连接且具有处理器和存储器的操作管理服务器中的、事件的 分析,该事件发生在所述多个信息处理装置中,该程序具有下述处理的一部分或者全部(a)结构信息存储处理,为了所述多个信息处理装置中的每一个信息处理装置作 为客户机来使用网络服务,而将作为访问对象的所述多个信息处理装置中的一部分信息处 理装置即服务器装置的识别信息存储到所述存储器具有的结构信息中;(b)登录处理,将作为所述操作管理服务器取得事件信息的对象的多个事件取得 对象装置登录到所述存储器具有的结构信息中,该多个事件取得对象装置是所述多个信息 处理装置中的一部分;(c)规则存储处理,当检测到在所述多个信息处理装置中发生的包含与所述网络 服务相关联的第一事件类别的事件和包含不同于与所述网络服务相关联的所述第一事件 类别的第二事件类别的事件时,将表示因与所述第二事件类别对应的事件发生而可能导致 与所述第一事件类别对应的事件发生的相关分析规则信息存储到所述存储器中;(d)事件存储处理,将从所述多个事件取得对象装置收集到的多个所述事件信息 存储到所述存储器中;(e)事件信息确定处理,根据所述相关分析规则信息,从存储于所述存储器的多个 所述事件信息中确定包含所述第一事件类别的第一事件信息;(f)主要原因确定处理,根据所述结构信息来确定作为已发送了所述第一事件 信息的事件取得对象装置中之一的第一事件取得对象装置、以及与所述第一事件类别对应 的所述网络服务中的所述第一事件取得对象装置的服务器装置即故障主要原因装置;(g)分析结果发送处理,根据所述相关分析规则信息和所述结构信息,当所述故障 主要原因装置不是所述多个事件取得对象装置时,向所述画面输出装置发送用于确定所述 第一事件取得对象装置、所述第一事件类别、所述故障主要原因装置以及所述第二事件类
21别的信息,由此,使所述画面输出装置显示关于在所述第一事件取得对象装置中所发生的 与所述第一事件信息对应的事件,推定为在所述故障主要原因装置中发生所述第二事件类 别的事件是主要原因。另外,所述相关分析规则信息包含拓扑条件信息,该拓扑条件信息表示在发生了 所述第一事件类别的作为所述多个信息处理装置中之一的第一信息处理装置和发生了所 述第二事件类别的作为所述多个信息处理装置中之一的第二信息处理装置之间的拓扑条 件,所述主要原因确定步骤也可以根据所述拓扑条件信息来确定所述故障主要原因装置。 因为通过这样的处理能够将发生了事件的信息处理装置限定在实际上正在使用的信息处 理装置中并由此提示推测,所以对操作管理服务器的使用者来讲便利性更高。另外,操作管理服务器也可以具有以下的处理。(h)关联装置确定处理,根据所述相关分析规则信息和所述结构信息,来确定作为 所述多个事件取得对象装置的服务器装置的、不包含在所述多个事件取得对象装置中的、 作为所述多个信息处理装置中一部分的事件关联信息处理装置;(i)事件信息取得可否调查处理,对是否能够从所述事件关联信息处理装置中取 得事件信息进行调查;(j)事件信息取得对象追加提议处理,在根据所述调查结果能够从所述事件关联 信息处理装置中取得事件信息时,向所述画面输出装置发送用于确定所述事件关联信息处 理装置的信息,由此使所述画面输出装置显示能够从所述事件关联信息处理装置中取得事 件{曰息。这样的处理,通过信息处理装置的管理者或者管理方法的变更,能够从操作管理 服务器中需要重新监视事件或者能够监视事件的时刻开始,迅速地催促登录到操作管理服 务器,而不忘记登录。另外,所述事件信息取得可否调查处理也可以是基于所述操作管理服务器根据 预定的步骤对作为所述多个信息处理装置、具有在事先作为调查范围所设定的IP地址的 范围中包含的IP地址的信息处理装置进行访问而得的结果。有时为了防止对信息处理装 置(特别是经由网络进行访问的服务器计算机)非法访问或者非法攻击,而监视来自该装 置外部的访问的情况,有时也会把通过监视访问将通过该调查处理进行访问的情况视为非 法访问或非法攻击。因此,通过确定明显不是事件监视对象的信息处理装置的IP地址、或 者可能成为事件监视对象的信息处理装置的IP地址的范围,能够抑制这样的被误认为非 法访问或非法攻击的通信。另外,所述故障主要原因装置是具有控制器、提供逻辑卷的存储装置,所述网络服 务是根据块访问形式的协议(例如有FibreCharmel、iSCSI)来提供所述逻辑卷的服务,所 述第一事件类别可以是所述存储装置发生故障,所述第一事件类别也可以是像所述逻辑卷 的访问失败。另外,所述故障主要原因装置是将DNS作为网络服务来提供的计算机,所述第一 事件类别可以是DNS请求失败,所述第一事件类别也可以是DNS服务器通信中断。另外,所述故障主要原因装置是具有从所述多个信息处理装置中的至少一个信息 处理装置接收数据的NIC、向所述多个信息处理装置中的至少一个信息处理装置提供所存 储的文件的文件服务器计算机,所述网络服务是将所述文件服务器计算机所存储的文件共享的网络文件共享服务,所述第一事件类别可以是所述文件服务器发生故障(例如NIC发 生故障、文件服务器具有的处理器执行的软件发生问题、发生其它文件服务器的通信功能 停止的故障),所述第一事件类别也可以是对由所述网络文件共享服务所提供的文件的访 问失败。另外,也可以根据所述相关分析规则信息和所述结构信息,在所述故障主要原因 装置是所述多个事件取得对象装置中之一时,从多个所述事件信息中确定包含所述第二事 件类别、且所述故障主要原因装置为取得源的第二事件信息,并向所述画面输出装置发送 用于确定所述第一事件取得对象装置、所述第一事件信息、所述故障主要原因装置以及所 述第二事件信息的信息,由此,使所述画面输出装置显示关于与在所述第一事件取得对象 装置中所发生的所述第一事件信息对应的事件,发生与在所述故障主要原因装置中所发生 的所述第二事件信息对应的事件是主要原因。另外,所述第一信息处理装置是计算机,所述第二信息处理装置是存储装置,所述 拓扑条件信息也可以包含表示连接所述计算机和所述存储装置的拓扑连接关系的、与所 述计算机对应的通信识别信息和与所述存储装置对应的通信识别信息的组合。另外,将 iSCSI名、IP地址、以及FibreChannel中的WffN中的至少一个作为这些通信识别信息。另外,所述第一信息处理装置是计算机,所述第二信息处理装置是通过文件共享 服务向所述多个信息处理装置提供所存储的文件的文件服务器计算机,所述拓扑条件信息 也可以包含表示连接所述计算机和所述文件服务器计算机的拓扑连接关系的、与所述计 算机对应的通信识别信息和与所述文件服务器计算机对应的通信识别信息或者公开所述 文件的输出名的组合。另外,所述第一信息处理装置是计算机,所述第二信息处理装置是作为网络共享 服务对所述多个信息处理装置提供DNS的DNS服务器计算机,所述拓扑条件信息也可以包 含表示连接所述计算机和所述DNS服务器计算机的拓扑连接关系的、与所述计算机对应 的通信识别信息和与所述DNS服务器计算机对应的通信识别信息的组合。另外,与所述计 算机对应的通信识别信息和与所述DNS服务器计算机对应的通信识别信息是IP地址或 FQDN。并且,所述操作管理服务器可以由一个以上的计算机构成。
2权利要求
一种操作管理服务器中的事件分析方法,该操作管理服务器与多个信息处理装置和画面输出装置连接、且具有处理器和存储器,该事件发生在所述多个信息处理装置中,该事件分析方法的特征在于,具有以下步骤结构信息存储步骤,为了所述多个信息处理装置中的每一个信息处理装置作为客户机来使用网络服务,而将作为访问对象的所述多个信息处理装置中的一部分信息处理装置即服务器装置的识别信息存储到所述存储器具有的结构信息中;登录步骤,将作为所述操作管理服务器取得事件信息的对象的多个事件取得对象装置登录到所述存储器具有的结构信息中,该多个事件取得对象装置是所述多个信息处理装置中的一部分;规则存储步骤,当检测到在所述多个信息处理装置中发生的包含与所述网络服务相关联的第一事件类别的事件和包含不同于与所述网络服务相关联的所述第一事件类别的第二事件类别的事件时,将表示因与所述第二事件类别对应的事件发生而可能导致与所述第一事件类别对应的事件发生的相关分析规则信息存储到所述存储器中;事件存储步骤,将从所述多个事件取得对象装置收集到的多个所述事件信息存储到所述存储器中;事件信息确定步骤,根据所述相关分析规则信息,从存储于所述存储器的多个所述事件信息中确定包含所述第一事件类别的第一事件信息;主要原因确定步骤,根据所述结构信息来确定作为已发送了所述第一事件信息的事件取得对象装置中之一的第一事件取得对象装置、以及与所述第一事件类别对应的所述网络服务中的所述第一事件取得对象装置的服务器装置即故障主要原因装置;以及分析结果发送步骤,根据所述相关分析规则信息和所述结构信息,当所述故障主要原因装置不是所述多个事件取得对象装置时,向所述画面输出装置发送用于确定所述第一事件取得对象装置、所述第一事件类别、所述故障主要原因装置以及所述第二事件类别的信息,由此,使所述画面输出装置显示关于在所述第一事件取得对象装置中所发生的与所述第一事件信息对应的事件,推定为在所述故障主要原因装置中发生所述第二事件类别的事件是主要原因。
2.根据权利要求1所述的事件分析方法,其特征在于,所述相关分析规则信息包含拓扑条件信息,该拓扑条件信息表示在发生了所述第一事 件类别的作为所述多个信息处理装置中之一的第一信息处理装置和发生了所述第二事件 类别的作为所述多个信息处理装置中之一的第二信息处理装置之间的拓扑条件,所述主要原因确定步骤,根据所述拓扑条件信息来确定所述故障主要原因装置。
3.根据权利要求2所述的事件分析方法,其特征在于,具有关联装置确定步骤,根据所述相关分析规则信息和所述结构信息,来确定作为所述多 个事件取得对象装置的服务器装置的、不包含在所述多个事件取得对象装置中的、作为所 述多个信息处理装置中一部分的事件关联信息处理装置;事件信息取得可否调查步骤,对是否能够从所述事件关联信息处理装置中取得事件信 息进行调查;以及事件信息取得对象追加提议步骤,在根据所述调查结果能够从所述事件关联信息处理 装置中取得事件信息时,向所述画面输出装置发送用于确定所述事件关联信息处理装置的信息,由此使所述画面输出装置显示能够从所述事件关联信息处理装置中取得事件信息。
4.根据权利要求3所述的事件分析方法,其特征在于, 所述事件信息取得可否调查步骤是基于所述操作管理服务器根据预定的步骤对作为 所述多个信息处理装置、具有在事先作为调查范围所设定的IP地址的范围中包含的IP地 址的信息处理装置进行访问而得的结果。
5.根据权利要求1所述的事件分析方法,其特征在于,所述故障主要原因装置是具有控制器、并提供逻辑卷的存储装置,所述网络服务是根据块访问形式的协议来提供所述逻辑卷的服务,所述第一事件类别是所述存储装置发生故障,所述第一事件类别是向所述逻辑卷的访 问失败。
6.根据权利要求5所述的事件分析方法,其特征在于,所述块访问形式的协议是FibreCharmel或者iSCSI。
7.根据权利要求1所述的事件分析方法,其特征在于,所述故障主要原因装置是将DNS作为网络服务来提供的计算机,所述第一事件类别是 DNS请求失败,所述第一事件类别是DNS服务器通信中断。
8.根据权利要求1所述的事件分析方法,其特征在于,所述故障主要原因装置是对所述多个信息处理装置中至少一个提供已存储的文件的 文件服务器计算机,所述网络服务是将所述文件服务器计算机所存储的文件共享的网络文件共享服务,所述第一事件类别是所述文件服务器计算机发生故障,所述第一事件类别是对由所述 网络文件共享服务所提供的文件的访问失败。
9.根据权利要求1所述的事件分析方法,其特征在于,具有第二分析结果发送步骤,根据所述相关分析规则信息和所述结构信息,在所述故障主 要原因装置是所述多个事件取得对象装置中之一时,从多个所述事件信息中确定包含所述 第二事件类别、且所述故障主要原因装置为取得源的第二事件信息,并向所述画面输出装 置发送用于确定所述第一事件取得对象装置、所述第一事件信息、所述故障主要原因装置 以及所述第二事件信息的信息,由此,使所述画面输出装置显示关于与在所述第一事件取 得对象装置中所发生的所述第一事件信息对应的事件,发生与在所述故障主要原因装置中 所发生的所述第二事件信息对应的事件是主要原因。
10.根据权利要求2所述的事件分析方法,其特征在于,所述第一信息处理装置是计算机,所述第二信息处理装置是存储装置,所述拓扑条件信息包含表示连接所述计算机和所述存储装置的拓扑连接关系的、与 所述计算机对应的通信识别信息和与所述存储装置对应的通信识别信息的组合。
11.根据权利要求10所述的事件分析方法,其特征在于,与所述计算机对应的计算机通信识别信息和与所述存储装置对应的通信识别信息是 iSCSI名、IP地址以及FibreChannel中的WWN中至少一个。
12.根据权利要求2所述的事件分析方法,其特征在于,所述第一信息处理装置是计算机,所述第二信息处理装置是通过文件共享服务向所述 多个信息处理装置提供所存储的文件的文件服务器计算机,所述拓扑条件信息包含表示连接所述计算机和所述文件服务器计算机的拓扑连接关 系的、与所述计算机对应的通信识别信息和与所述文件服务器计算机对应的通信识别信息 或者公开所述文件的输出名的组合。
13.根据权利要求2所述的事件分析方法,其特征在于,所述第一信息处理装置是计算机,所述第二信息处理装置是作为网络共享服务对所述 多个信息处理装置提供DNS的DNS服务器计算机,所述拓扑条件信息包含表示连接所述计算机和所述DNS服务器计算机的拓扑连接关 系的、与所述计算机对应的通信识别信息和与所述DNS服务器计算机对应的通信识别信息 的组合。
14.根据权利要求13所述的事件分析方法,其特征在于,与所述计算机对应的通信识别信息和与所述DNS服务器计算机对应的通信识别信息 是IP地址或FQDN。
全文摘要
本发明提供一种以不取得事件信息的IT装置为对象的根本原因分析方法、装置及程序。在操作管理服务器中,将事件信息取得对象的信息处理装置作为事件取得对象装置登录到结构信息中,并从在操作管理服务器中所存储的多个事件信息中确定与预先所存储的规则相符合的事件信息,确定该事件信息关联的网络服务的服务器装置,显示在生成事件信息的客户机信息处理装置中所发生的该事件的主要原因是与在服务器装置中所发生的网络服务相关的事件。
文档编号G06F11/30GK101981546SQ200980111739
公开日2011年2月23日 申请日期2009年1月26日 优先权日2008年9月30日
发明者森村知弘, 永井崇之, 荒砥伟浩, 菅内公德, 黑田泽希 申请人:株式会社日立制作所