用于虚拟计算环境中的故障管理的方法和系统的制作方法

文档序号:6350941阅读:141来源:国知局
专利名称:用于虚拟计算环境中的故障管理的方法和系统的制作方法
技术领域
本发明涉及故障管理的领域。特别地,本发明涉及虚拟计算环境中的故障管理。
背景技术
通常在虚拟环境中运行操作系统。这些操作系统进而被用于运行实现各种服务的应用。每个虚拟机(VM)直接复制一台物理计算机,但在物理主机上的管理程序 (hypervisor)之下运行。一个主机能够容纳多个VM。为了最大化主机利用率以及提高故障容许度,VM通常在一群(cluster)主机上运行。如果一个主机发生故障,则VM能够移动 (或者迁移)为在该群中的另一个主机上运行。在VM上发生故障的方式与在物理机器上发生故障的方式类似。故障管理系统能够被用于检测和监视这些问题并且将它们报告给操作员,以实现快速解决。例如, IBM Tivoli Netcool 是服务级管理系统,用于从包括故障事件的许多不同的网络数据源收集企业范围的事件信息(IBM、Tivoli和Netcool是IBM公司在全球许多司法管辖范围内注册的商标)。在虚拟环境中,故障可能由运行VM的主管理程序系统上的故障引起。如果许多VM 正由单个主机运行,则这能够潜在导致报告不是由VM本身的故障导致的大批故障。对于操作员快速完成工作和修补,这可能令人迷惑并且耗时。另外,即使管理程序故障监视也被实现,这种(常常不太严重)的根由(root cause)故障会在大批VM故障事件中被错过并且被操作员忽视。此外,解决VM上的某些故障的一种方法是将它们移至不同的物理主机。这将导致即时解决某些问题,但是在这些VM上运行的传统故障监视系统更新这种状态变化以及清除问题较慢。因此,需要解决现有技术中的上述问题。

发明内容
根据本发明的第一方面,提供了一种用于虚拟计算环境中的故障管理的方法,包括在虚拟计算环境中监视虚拟机和主机装置的故障事件;在虚拟计算环境中监视状况事件,其中状况事件是指虚拟机名称和主机装置名称;确定故障事件是否影响虚拟机和主机装置二者;将涉及相同问题的关于虚拟机和主机装置的故障事件进行相关。该方法可以包括保持虚拟机状态表;以及保持虚拟机名称和主机装置名称的映射。该方法还可以包括将故障事件插入到故障事件表中。与问题相关的主机故障事件可以在故障事件表中被标记为根事件。与问题相关的虚拟机故障事件可以在故障事件表中被标记为症状,并且至根事件的链接被加入故障事件表中。当虚拟机移至新主机时,该虚拟机的所有故障事件可以处于故障事件表中并且严重性被降低。此外,根链接可以被移除。
状况事件可以由监视系统(探测器(probe)从其得到事件警报)进行监视并且包括虚拟机和主机装置与主机故障事件之间的关系的指示。可以通过在虚拟机上运行的探测器提供虚拟机中的故障事件并且可以通过在主机上运行的探测器提供主机中的故障事件。可以由监视系统(探测器从其得到事件警报)监视主机中的故障事件。根据本发明的第二方面,提供了一种用于虚拟计算环境中的故障管理的计算机软件产品,该产品包括计算机可读存储介质,存储其中存储有包括计算机可执行指令的程序的计算机,这些指令当由计算机读取执行时执行下面的步骤在虚拟计算环境中监视虚拟机和主机装置的故障事件;在虚拟计算环境中监视状况事件,其中状况事件是指虚拟机名称和主机装置名称;确定故障事件是否影响虚拟机和主机装置二者;将涉及相同问题的关于虚拟机和主机装置的故障事件进行相关。根据本发明的第三方面,提供了一种用于虚拟计算环境中的故障管理的系统,包括处理器;在虚拟计算环境中虚拟机和主机装置的故障事件的监视器;在虚拟计算环境中状况事件的监视器,其中状况事件是指虚拟机名称和主机装置名称;规格化组件,用于确定故障事件是否影响虚拟机和主机装置二者;以及相关组件,用于将涉及相同问题的关于虚拟机和主机装置的故障事件进行相关。该系统可以包括虚拟机状态表以及虚拟机名称与主机装置名称的映射。该系统还可以包括故障事件表,用于保持关于虚拟机或者主机装置的故障事件的列表。该系统可以包括针对与问题相关的主机故障事件的故障事件表中的根事件标记。该系统还可以包括针对与问题相关的虚拟机故障事件的故障事件表中的症状标记以及至故障事件表中的根事件的链接。该系统可以包括故障解决组件,其中当虚拟机移至新主机时,解决组件将该虚拟机的所有故障事件安置在故障事件表中并且降低事件的严重性。用于状况事件的监视器可以从虚拟环境群控制中心获得状况事件并且可以将事件警报提供给故障管理系统。用于故障事件的监视器可以是在虚拟机上运行的探测器并且用于故障事件的监视器可以是在主机上运行的探测器。用于主机中的故障事件的监视器可以从虚拟环境群控制中心获得故障事件并且可以将事件警报提供给故障管理系统。探测器可以在远程机器上运行并且可以经由网络监视主机。从第四方面看,本发明提供了一种存储在计算机可读介质上并且可加载到数字计算机的内存中的计算机程序,包括软件代码部分,当所述程序在计算机上运行时,用于执行本发明的步骤。


现在将参照在下面的附图中所示的优选实施例仅通过例子描述本发明图I是根据本发明的系统的优选实施例的框图;图2是根据本发明的优选实施例的系统的对象服务器的框图;图3是示出可以实现本发明的优选实施例的计算机系统的框图4是根据本发明的优选实施例的方法的流程图;以及图5是根据本发明的优选实施例的方法的流程图。
具体实施例方式应该明白,为了例示的简化和清楚,图中所示的部件不一定是按比例绘制的。例如,为了清楚,可以相对于其它部件夸大某些部件的尺寸。另外,当认为恰当时,标号可以在附图中重复以指示对应或类似特征。在下面的详细描述中,为了提供对本发明的全面理解,阐述大量特定细节。然而, 本领域技术人员应该明白,没有这些特定细节也可以实施本发明。在其它情况下,没有详细描述公知的方法、过程和组件从而不会模糊本发明。描述了一种方法和系统,其中,从管理程序和VM 二者收集故障事件并且对故障事件进行规格化并且提供给故障管理系统。还从管理程序收集指示每个VM正在哪个主机上运行的数据。这个信息用于执行下面动作。I.故障事件相关。识别关于相同原始问题的由主机或管理程序生成的故障事件 (称作主机事件)和由虚拟机生成的故障事件(称作VM事件)。在VM上导致错误的主机事件的严重性升高并且被标记为根由。来自VM的对应错误的严重性下降,被标记为症状事件并且事件中的一个字段被设置为指向所述根由事件。这使得操作员可以更加快速地过滤掉症状事件并且识别高严重性根由事件。能够更加快速地解决问题,这进而将解决所有的症状VM事件。如果操作员正在观看特定症状事件,则还能够迅速识别根由。2. VM迁移后的故障解决。通过将虚拟机移至新的物理主机能够解决硬件相关故障。当VM迁移到新的物理主机时,所有的这类故障的严重性下降。一旦VM上的监视器接收到故障已经被清除的信息,VM事件如往常那样得到解决和清除。这样做的优点在于,操作员的高严重性故障事件的显示将被更加迅速地得到清除,从而使他们可以专注于任何更加重要的问题。参照图1,提供了系统100,包括用于处理虚拟计算环境中的故障事件的故障管理服务器110。虚拟计算环境包括一个或多个虚拟机121-126,每个虚拟机在一个主机操作系统 131、132或者计算机硬件上运行,该主机操作系统131、132或者计算机硬件具有软件层, 即,动态和透明地分配硬件资源的虚拟机监视器或管理程序141、142。多个操作系统能够在一个物理计算机上并行运行并且彼此共享硬件资源。通过封装整个机器(包括中央处理器、存储器、操作系统和网络装置),虚拟机121到126与所有标准操作系统、应用以及装置驱动程序完全兼容。为了最大化主机利用率以及增大故障容许度,VM 121到126在主机131、132的群 130上运行。如果一个主机131、132发生故障,则VM能够被移动(或者迁移)从而在群130 中的另一个主机131、132上运行。VM 121到126运行探测器以提供探测馈送(probe feed) 160从而向故障管理服务器110报告由基础硬件故障或问题导致的VM故障161 (称作VM硬件故障)。主机131、 132还可以运行探测器(在主机支持的情况下)以提供探测馈送170从而向故障管理服务器110报告主机硬件故障171。
术语探测器用于连接到例如VM或主机的事件源并且检测和获取事件数据以及将事件数据转发给故障管理服务器110作为警报的程序。在将事件元素转换成故障管理服务器110警报状态表中的警报的字段之前,探测器可以使用在规则文件中指定的逻辑操纵事件元素。每个探测器被设计为从特定源获取事件数据。探测器还可以被称作用于远程或直接监视网络装置的监视装置或代理。例如,VMl21到126和主机131和132可以运行标准IBM OMNIbus探测器160, 如果它们是基于Linux 或者在支持IBM OMNIbus的平台上运行的话(Linux是Linus Torvalds在美国、其它国家或者二者中的注册商标)。在另一种布置中,探测器可以经由网络协议或远程安装在远程机器上运行并且监视管理程序机器131和132。群130经由控制中心133进行控制并且将根据需要在主机131、132之间迁移VM 121到126。控制中心133可以在群130上的VM 121到126上运行。提供监视器系统150,它具有代理151,代理151经由API与控制中心133谈话并且将状况事件181报告给监视器系统150。探测器或监视器用于将这些事件180送入故障管理服务器110。状况事件181明了 VM 121到126中的哪个在哪个主机131、132上运行并且还报告主机故障171。在另一种布置中,代理151可选地可直接而非通过控制中心133连接到管理程序 141、142,但这在整个主机131、132会发生故障的情况下较不健壮。主机131、132上的主机硬件故障171在状况事件171中经由控制中心133报告给监视器系统150,然后经由用于报告状况事件181的探测器馈送180报告给故障管理服务器 110。此外,如果主机131、132支持探测器,则主机硬件故障171可以直接送入故障管理系统110。如果硬件故障171能够经由探测器直接送入170故障管理系统(在图I的虚线中所示的选项),则探测器可用于直接从主机131、132收集更丰富的潜在错误的集合。在行业高可用性环境中最普通和广泛使用的管理程序是Vmware ESX (VMware和 ESX是VMware公司的商标)。在一个使用VMware ESX管理程序群的示例实施例中,可以采用带有用于虚拟基础架构的VMware的代理(VMware VI代理)的IBM Tivoli Monitor (ITM) 形式的监视器系统。故障管理服务器可以是使用事件集成设施(Event Integration Facility,EIF)探测器送入来自VMware VI代理的事件的IBM Netcool/OMNIbus系统的对象服务器(ObjectServer)。使用IBM OMNIbus探测器,报告VM的硬件故障。VMware ESX管理程序是基于Linux 的并且由此可以运行标准IBM OMNIbus探测器。主机上的硬件故障还经由ESX控制中心报告给ITM,然后经由EIF探测器报告给ObiectServer。可以使用其它管理程序,包括IBM pHYPE、Microsoft HyperV (Microsoft 和 HyperV是微软公司在美国、其它国家或这二者的商标)、Linux上的基于内核的虚拟机、 Z/VM (z/VM是IBM公司在全球许多司法辖区中注册的注册商标)、等等。监视器代理151经由它的SDK API连接到控制中心133并且能够生成下面的状况事件181。每个状况当发生时被提出并且当它不再适用时被清除。可用性
·主机服务器的状态不可获得中央处理单元(CPU)·没有加载 vmkernel· CPU利用率非常高。· CPU利用率低。· CPU 过载。盘·文件系统几乎已满。·盘读取活动高。·盘写入活动高。存储器·控制台OS (COS)的可用空闲内存量低。·主机服务器的可用空闲内存量低。网络·网络发送活动高。·网络接收活动高。虚拟机·虚拟机关机。·虚拟机处于阻塞状态。·虚拟机处于未知状态。 虚拟机处于暂停状态。除了“主机服务器的状态不可获得”以外,每种状况具有VM服务器名称和VM名称属性。这对应于硬件服务器名称和在控制中心软件中配置的VM的名称。这将通常对应于虚拟机的主机名称。参照图2,框图示出了故障管理服务器110。故障管理服务器110包括故障事件相关组件210和故障解决组件220。此外,故障管理服务器110包括VM状态表230和称作硬件故障的警报状态表240的故障事件表。故障事件相关组件210识别与相同原始问题相关的由主机或管理程序生成的故障事件以及由虚拟机生成的故障事件。导致VM上的错误的主机事件的严重性提高并且被标记为根由。来自VM的对应错误的严重性下降,被标记为症状事件并且事件中的一个字段被设置为指向根由事件。故障解决组件220解决VM迁移后的故障。通过将虚拟机移至新的物理主机可以解决硬件相关故障。当VM迁移到新的物理主机时,所有这类故障的严重性下降。一旦VM 上的监视器接收到故障已经被清除的信息,VM事件将正常地进行解决和清除。VM状态表230包括VM主机名称和VM服务器主机名称以及VM状态。故障管理服务器110的状态表230的一个示例实施例包含四列。
权利要求
1.一种用于虚拟计算环境中的故障管理的方法,包括在虚拟计算环境中监视来自虚拟机(121-126)和主机装置(131,132)的故障事件(401.403);在虚拟计算环境中监视状况事件(401),其中状况事件(401)是指虚拟机名称和主机装置名称;确定(501-512)故障事件是否影响虚拟机(121-126)和主机装置(131,132) 二者;将涉及相同问题的关于虚拟机(121-126)和主机装置(131,132)的故障事件进行相关 (512)。
2.根据权利要求I所述的方法,包括保持(407)虚拟机状态表(230);以及保持虚拟机名称和主机装置名称的映射(250)。
3.根据权利要求I或2所述的方法,包括将故障事件插入(405)到故障事件表(240)中。
4.根据权利要求3的方法,其中,与问题相关的主机故障事件在故障事件表(240)中被标记(514)为根事件。
5.根据权利要求3或4所述的方法,其中,与问题相关的虚拟机故障事件在故障事件表中被标记(513)为症状,并且至所述根事件的链接被加入故障事件表中。
6.根据上述任何一个权利要求所述的方法,其中,当虚拟机(121-126)移至新的主机 (131,132)时,该虚拟机(121-126)的所有故障事件被安置在故障事件表中并且严重性被降低(413)。
7.根据权利要求6所述的方法,其中,根链接被移除(413)。
8.根据上述任何一个权利要求所述的方法,其中,状况事件(181)由探测器从其提供事件警报(180)的监视系统(150)进行监视并且包括虚拟机(121-126)和主机装置(131, 132)与主机故障事件(171)之间的关系的指示。
9.根据上述任何一个权利要求所述的方法,其中,通过在虚拟机(121-126)上运行的探测器(160)提供虚拟机中的故障事件(161)。
10.根据上述任何一个权利要求所述的方法,其中,通过在主机(131,132)上运行的探测器(170)提供主机中的故障事件(171)。
11.根据上述任何一个权利要求所述的方法,其中,由探测器从其提供(180)事件警报的监视系统(150)监视主机中的故障事件(171)。
12.一种用于虚拟计算环境中的故障管理的计算机软件产品,所述产品包括计算机可读存储介质,存储其中存储有包括计算机可执行指令的程序的计算机,所述指令当由计算机读取执行时执行下面的步骤在虚拟计算环境中监视来自虚拟机(121-126)和主机装置(131,132)的故障事件(401.403);在虚拟计算环境中监视状况事件(401),其中状况事件(401)是指虚拟机名称和主机装置名称;确定(501-512)故障事件是否影响虚拟机(121-126)和主机装置(131,132) 二者;将涉及相同问题的关于虚拟机(121-126)和主机装置(131,132)的故障事件进行相关(512)。
13.一种用于虚拟计算环境中的故障管理的系统,包括处理器;在虚拟计算环境中来自虚拟机(121-126)和主机装置(131,132)的故障事件(161, 171)的监视器(160,170);在虚拟计算环境中的状况事件(181)的监视器(150),其中状况事件(181)是指虚拟机名称和主机装置名称;规格化组件(271,261),用于确定故障事件(161,171)是否影响虚拟机(121-126)和主机装置(131,132) 二者;以及相关组件(210),用于将涉及相同问题的关于虚拟机和主机装置的故障事件(161, 171)进行相关。
14.根据权利要求13所述的系统,包括虚拟机状态表(230)以及虚拟机名称与主机装置名称的映射(250)。
15.根据权利要求13或14所述的系统,包括故障事件表(240),用于保持关于虚拟机(121-126)或者主机装置(131,132)的故障事件的列表。
16.根据权利要求15所述的系统,包括针对与问题相关的主机故障事件的故障事件表 (240)中的根事件标记(243)。
17.根据权利要求15或16所述的系统,包括针对与问题相关的虚拟机故障事件的故障事件表(240)中的症状标记(245)以及至故障事件表(240)中的根事件的链接(246)。
18.根据权利要求13到18中任一项所述的系统,包括故障解决组件(220),其中当虚拟机(121-126)移至新的主机(131,132)时,该解决组件(220)将该虚拟机的所有故障事件安置在故障事件表(240)中并且降低事件的严重性。
19.根据权利要求13到19中任一项所述的系统,其中,用于状况事件(181)的监视器(150)从虚拟环境群控制中心(133)获得状况事件并且将事件警报(180)提供给故障管理系统(110)。
20.根据权利要求13到20中任一项所述的系统,其中,用于故障事件的监视器是在虚拟机(121-126)上运行的探测器(160)。
21.根据权利要求13到21中任一项所述的系统,其中,用于故障事件的监视器是在主机(131,132)上运行的探测器(170)。
22.根据权利要求13到22中任一项所述的系统,其中,用于主机(131,132)中的故障事件(171)的监视器(150)从虚拟环境群控制中心(133)获得故障事件(171)并且将事件警报(180)提供给故障管理系统(110)。
23.根据权利要求21所述的系统,其中,探测器(170)在远程机器上运行并且经由网络监视主机(131,132)。
24.一种存储在计算机可读介质上并且可加载到数字计算机的内存中的计算机程序, 包括软件代码部分,当所述程序在计算机上运行时,用于执行权利要求I到11中任一项的方法。
全文摘要
提供了一种用于虚拟计算环境中的故障管理的的方法和系统。该系统包括在虚拟计算环境中来自虚拟机和主机装置的故障事件的监视器和在虚拟计算环境中的状况事件的监视器,其中状况事件是指虚拟机名称和主机装置名称。通用故障组件确定故障事件是否影响虚拟机和主机装置二者,并且相关组件将涉及相同问题的关于虚拟机和主机装置的故障事件进行相关。与问题相关的主机故障事件被标记为根事件,并且与问题相关的虚拟机故障事件被标记为具有至该根事件的链接的症状。
文档编号G06F11/07GK102597962SQ201080048606
公开日2012年7月18日 申请日期2010年8月31日 优先权日2009年10月30日
发明者D·R·弗兰克林 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1