对事件根本原因的分析予以支援的管理系统以及方法_2

文档序号:8926989阅读:来源:国知局
显示程序225、一个以上的判断程序226、事件接收程序227、结构获取程序228、以及性能获取程序229。判断程序226可以为一个,也可以针对元诊断过程的各个判断处理来设置。另外,作为管理计算机201存储的数据,例举有元规则库231、结构管理DB232、事件队列表格233、元诊断过程库234、展开诊断过程库235、元收集手段库236、展开收集手段库237以及性能表格238。在本实施例(以及第二实施例)中所说的“元收集手段”以及“展开收集手段”各自中的“手段”这一用语可以用“方法”、“定义”或“指令”的用语来替换。展开诊断过程库235以及展开收集手段库237是为了再利用一度生成过的信息而保存该信息的库,管理计算机201可以不具备这两个库。另外,性能表格238是保存性能信息的数据库,在此的性能信息是指,通过性能获取程序229从管理对象装置收集到的管理对象组件的性能信息。性能获取程序229以及性能表格238是用于示出在本实施例中说明的“诊断过程”的一个例子的程序以及信息,管理计算机201可以不具有这两个程序。另外,管理计算机201可以不具有性能表格238,而是由各管理对象装置保存信息,在参照管理对象组件的性能信息时,管理计算机201经由网络205访问各管理对象装置以获取性能信息。
[0067]故障分析程序221、事件分析程序222、诊断过程展开程序223、诊断执行程序224、显示程序225、一个以上的判断程序226、事件接收程序227、结构获取程序228、性能获取程序229存储在存储器212内,由CPU211执行。元规则库231、结构管理DB232、事件队列表格233、元诊断过程库234、展开诊断过程库235、元收集手段库236、展开收集手段库237以及性能表格238存储在磁盘213内。这些中的至少一个程序或至少一个数据也可以存储在CPU211能够参照的其他适当的存储区域内。
[0068]网络I/F215从经由网络205连接的服务器202、网络开关203、存储装置204等的管理对象装置中获取结构信息、性能信息等与组件有关的信息。输出设备217为输出(典型地,为显示)来自显示程序225的信息的设备。输入设备214为输入用户的指示的设备。例如,能够使用键盘、定点设备等来作为输入设备214,能够使用显示器、打印机等来作为输出设备217,也可以使用这些以外的设备。
[0069]各服务器202a、202b、202c可以为执行应用程序等的程序的管理对象装置。服务器202a可以为包括存储器242、网络I/F243以及与这些连接的CPU246在内的通用计算机。服务器202a除了存储器242以外,还具有HDD之类的非易失性存储设备。服务器202a可以包括监视中介(程序)245,该监视中介245监视服务器202a的状态,在检测到特定的状态变化(事件)的情况下,经由网络205向管理计算机201发送表示该事件的事件信息。监视中介245可以由CPU241执行。通知事件可以通过发送表示该事件的事件信息来实现。服务器 202a 可以具有 iSCSI (Internet Small Computer System Interface:互联网小型计算机系统接口 )启动器(initiator) 244。例如,服务器202a能够将iSCSI磁盘251虚拟地用作本地HDD,这通过iSCSI启动器244以及存储装置204的存储容量来实现。还可以取代iSCSI或在iSCSI的基础上,使用其他通信以及存储协议。此外,以上说明了服务器202a的结构,服务器202b、202c也具有与服务器202a相同的结构。
[0070]各存储装置204可以为用于提供在服务器202上动作的应用程序用的存储容量(逻辑卷)的(或用于其他目的的)管理对象装置。存储装置204具有I/O端口 263、磁盘262以及与这些连接的存储控制器(例如CPU) 261。可以存在多个I/O端口 263。磁盘262可以为一个HDD,也可以为由多个HDD构成的RAID组,磁盘262的非易失性存储设备可以为SSD之类的其他存储设备。在本实施例中,存储装置204可以构成为用于向服务器202a、202b提供iSCSI逻辑卷来作为存储容量。因此,两台服务器202a、202b可以经由网络开关203与存储装置204连接,存储装置204向各服务器202a、202b提供iSCSI逻辑卷。另外,存储装置204可以包括监视中介(程序)264,该监视中介(程序)264监视存储装置204的状态并向管理计算机201发送事件信息。监视中介264可以由存储控制器261执行。或者,服务器202的监视中介245也能够监视存储装置204的状态。
[0071]网络开关203具有端口 271a?d,这些端口 271a?d接收从服务器202或存储装置204发送的数据,或者发送所接收的数据。另外,网络开关203可以包括监视中介(程序)272,该监视中介272监视网络开关203的状态,在检测出特定的状态变化(事件)的情况下,经由网络205向管理计算机201发送事件信息。监视中介272可以由在网络开关203内的未图示的CPU执行。或者,服务器202的监视中介245也可以监视网络开关203的状
??τ O
[0072]<结构管理DB〉
[0073]在结构管理DB232内保存有由结构获取程序228从监视中介等获取的管理对象装置的结构信息。结构信息包括表示管理对象组件之间的连接关系、依存关系等的信息。图3?图9示出了服务器202、网络开关203以及存储装置204的结构信息的例子。此外,结构管理DB232可以不包括图3?9的表格中的一部分,还可以不包括至少一个表格中的一部分的项目。另外,结构管理DB232所保存的各项目的数据表现形式以及数据结构可以不与管理对象装置所具有的数据的表现形式以及数据结构相同。另外,可以在管理计算机201从管理对象装置接收这些项目的情况下,基于管理对象装置的数据结构以及表现形式来接收这些项目。另外,还可以伴随管理对象组件的结构的变更,来更新结构管理DB232中的表格的信息。可以在更新了结构管理DB232中的表格的信息的情况下,保存与该更新有关的日志来作为历史信息。可以以日志为基础,恢复过去的结构管理DB232。
[0074]图3示出结构管理DB232中的装置表格的结构例。
[0075]装置表格300针对每个管理对象装置具有记录,各记录具有三个字段,即具有装置ID301、装置名302以及种类303。ID301保存唯一地识别管理对象装置的值。装置名302保存供管理者能够唯一地识别装置的值。种类303保存用于表示装置的种类的标识符。
[0076]图4示出结构管理DB232中的iSCSI磁盘表格的结构例。
[0077]iSCSI磁盘表格400是示出服务器202正在利用的iSCSI磁盘251的结构的表格。iSCSI磁盘表格400针对每个iSCSI磁盘251具有记录,各记录具有七个字段,即具有ID401、磁盘驱动器名402、装置ID403、iSCSI启动器名404、连接目的地iSCSI目标器405、LUN(Logical Unit Number:逻辑单元号)ID406以及种类407。ID401保存唯一地识别iSCSI磁盘(管理对象组件)251的值。磁盘驱动器名402保存能够在服务器202中唯一地识别iSCSI磁盘251的值。装置ID403保存表示利用iSCSI磁盘251的服务器202的标识符。iSCSI启动器名404保存在与iSCSI磁盘251的实体所在的存储装置204进行通信时所用的服务器202上的网络I/F243的标识符。连接目的地iSCSI目标器405保存在与iSCSI磁盘251的实体所在的存储装置204进行通信时所用的存储装置204上的I/O端口 263的标识符。LUN ID406保存作为iSCSI磁盘251的实体的逻辑卷(存储装置204的逻辑卷)的标识符。种类407保存表示管理对象组件(iSCSI磁盘)的种类的标识符。例如,第一行的记录意味着如下的内容。即,在利用“SvA”这一标识符识别出的服务器上,用“D: ”这一磁盘驱动器名表示的iSCSI磁盘是利用“DRIVE1”这一标识符识别出的,组件的种类为“iScsiDisk”。经由用com.hitach1.sva这一 iSCSI启动器名表示的服务器端口(服务器所具有的端口)和用com.hitach1.stoCl这一 iSCSI目标器名表示的存储端口(存储装置所具有的端口),从存储装置向服务器提供LUN ID为O的逻辑卷。
[0078]图5示出结构管理DB232中的网络I/F表格的结构例。
[0079]网络I/F表格500针对每个网络I/F243具有记录,各记录具有五个字段,即具有ID501、I/F名502、装置ID503、iSCSI启动器名504以及种类505。ID501保存唯一地识别网络I/F243(管理对象组件)的值。I/F名502保存服务器202中成为网络I/F243的标识符的值。装置ID503保存具有网络I/F243的服务器202的标识符。iSCSI启动器名504保存在与iSCSI磁盘的实体所在的存储装置进行通信时所用的服务器202上的网络I/F243的标识符。种类505保存表示管理对象组件的种类的标识符。例如,第一行记录意味着如下的内容。用“ethO”这一 I/F名表示的网络I/F位于用“SvA”这一标识符识别出的服务器,该网络I/F是利用“SVIF1 ”这一标识符识别出的,组件的种类为“ServerIF”,在与存储装置进行通信时用作标识符的iSCSI启动器名为“com.hitach1.sva”。
[0080]图6示出结构管理DB232中的开关端口表格的结构例。
[0081]开关端口表格600针对每个网络开关203所具有的1/0端口 271具有记录,各记录具有五个字段,即具有ID601、端口编号602、装置ID603、连接目的地端口 604以及种类605。ID601保存唯一地识别1/0端口 271 (管理对象组件)的值。端口编号602保存在网络开关203中唯一地识别1/0端口 271的值。装置ID603保存具有1/0端口 271的网络开关203的标识符。连接目的地端口 604保存与1/0端口 271连接的服务器202的网络I/F243或存储装置204的1/0端口 263的标识符。在级联了多个网络开关203的情况下,从多个服务器的网络I/F或存储装置的1/0端口输出的数据经过网络开关的端口,因此,可以将多个标识符保存在连接目的地端口 604内。种类605保存表示管理对象组件的种类的标识符。例如,第一行的记录意味着如下的内容。用“O”这一编号表示的1/0端口位于利用“SwD”这一标识符识别出的网络开关,该1/0端口是利用“SWP0RT1”这一标识符识别出的,组件的种类为NWSwitchPort,与利用“STP0RT1 ”识别出的1/0端口连接。
[0082]图7示出结构管理DB232中的iSCSI目标器表格的结构例。
[0083]iSCSI目标器表格700针对每个iSCSI目标器具有记录,各记录具有两个字段,即具有iSCSI目标器名701以及连接许可iSCSI启动器702。iSCSI目标器名701保存各iSCSI目标器所具有的iSCSI目标器名。连接许可iSCSI启动器702保存作为被许可访问属于iSCSI目标器的逻辑卷的服务器上的网络I/F243的标识符的iSCSI启动器名。例如,第一行记录意味着如下的内容。用“com.hitach1.sva”、“com.hitach1.svb”识别出的服务器上的网络I/F243被许可访问属于利用“com.hitach1.stoCl”识别出的iSCSI目标器的逻辑卷。
[0084]图8示出结构管理DB232中的存储端口表格的结构例。
[0085]存储端口表格800针对存储装置204所具有的每个I/O端口 263具有记录,各记录具有五个字段,即具有ID801、端口编号802、装置ID803、iSCSI目标器ID804以及种类805。ID801保存唯一地识别I/O端口 263 (管理对象组件)的值。端口编号802保存在存储装置204中唯一地识别I/O端口 263的值。装置ID803保存具有I/O端口 263的存储装置204的标识符。iSCSI目标器804保存使用I/O端口 263的iSCSI目标器的标识符。种类605保存表示管理对象组件的种类的标识符。例如,第一行记录意味着如下的内容。用“O”这一编号表示的I/O端口位于利用“StoC”这一标识符识别出的存储装置内,该I/O端口是利用“STPORTI ”这一标识符识别出的,组件的种类为“StorageiSCSIPort”,利用“com.hitach1.stoCl”识别的iSCSI目标器使用该1/0端口。
[0086]<性能表格>
[0087]在性能表格238中保存有性能信息,在此的性能信息是指,构成性能获取程序229从监视中介等获取的管理对象装置的管理对象组件的性能信息。
[0088]图9示出性能表格238的结构例。
[0089]性能表格238针对每个性能信息具有记录,各记录具有五个字段,即具有组件ID901、度量标准(metric) 902、时刻903、值904以及单位905。组件ID901保存唯一地识别作为性能信息的获取源的管理对象组件的值。度量标准902保存识别管理对象组件的性能的观测项目(度量标准)的值。时刻903保存观测了管理对象组件的性能的时刻。时刻以年/月/日/时分为单位,还可以使用比该单位更粗略或更精细的单位。值904保存观测到的值,来作为管理对象组件的性能。单位905保存观测到的值的单位。例如,第一行记录意味着如下的内容。利用“SWP0RT1”这一标识符识别出的管理组件(在此,为网络开关D的端口 0)针对利用“TxDropPacketNum”识别出的观测项目,在2013/01/01/0:00观测到“O 包 / 秒(Packets/sec) ” 的性能。
[0090]<事件队列表格>
[0091]图10示出事件队列表格233的结构例。
[0092]事件队列表格233保存事件接收程序227从管理对象装置的监视中介等获取的事件信息。事件队列表格233针对每个事件信息具有记录,各记录具有五个字段,即具有事件ID1001、装置ID1002、组件ID1003、事件种类1004以及发生时刻1005。事件ID1001保存用于唯一地识别事件信息的标识符。装置ID1002保持用于唯一地识别作为事件信息的获取源的管理对象装置的标识符。组件ID203保存用于唯一地识别作为事件信息的获取源的管理对象组件的标识符。事件种类1004保存表示在管理对象组件中发生的事件的种类的标识符。发生时刻1005保存事件发生的时刻(获取的事件信息所包含的时刻)。发生时刻1005可以保存管理计算机201接收到事件信息的时刻。在事件不是与装置的要素有关的事件,而是与装置本身有关的事件的情况下,组件ID1003的值可以等于装置ID1002的值。例如,第一行记录意味着如下的内容。装置ID为SwD的网络开关203中的组件ID为SWPORT1的I/O端口 273在2013年I月I日O时O分,发生了 “TxDropPacketNumError (发送丢包个数异常)”。
[0093]〈元规则库以及元规则〉
[0094]事件分析程序222执行故障原因分析。故障原因分析可以与例如专利文献I记载的分析相同。在事件分析程序222锁定作为在IT系统中发生的多个故障的传播源的故障之后,执行用于确定作为传播源的故障的发生原因的诊断。元规则为事件分析程序222在分析时所用的信息。元规则是表示如下的对应关系的信息:在某个拓扑(位于某个I/O的路径上的一个或多个管理对象组件组)的模式下可能发生的事件的组合与这些事件在同一时间发生的情况下的故障的候选原因之间的对应关系。在第一实施例中,由元规则定义的候选原因示出作为系统故障的传播源的故障。元规则具有识别信息和特定管理对象组件的信息,在此,识别信息用来识别在对元规则示出的故障的原因事件执行详细的诊断时所使用的元诊断过程,特定管理对象组件是作为诊断对象的拓扑的起点的管理对象组件。在本实施例中,元规则以IF-THEN形式描述,但只要能够描述系统故障的原因事件和由原因事件而引起的观测事件(观测到的事件),也可以用除此以外的形式。
[0095]图1lA示出在元规则库231中常驻(一直存在)的元规则1100的结构例。
[0096]通常,规则能够分为两个部分(字段),即分为被称为“IF”部1111的第一部分以及被称为“THEN”部1112的第二部分。IF部1111可以包含一个以上的条件要素。
[0097]元规则1100表示在检测到IF部1111的事件(条件事件)的情况下,THEN部1112的事件(结论事件)即成为故障的候选原因。因此,若THEN部1112示出的管理对象组件的状态正常,则预想IF部1111示出的问题也被解决。
[0098]在本实施例中,事件分析程序222将保存在图10的事件队列表格2
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1