集群可用性管理方法和系统的制作方法

文档序号:6558171阅读:110来源:国知局
专利名称:集群可用性管理方法和系统的制作方法
技术领域
本发明涉及故障情况下的集群(cluster)管理。
背景技术
在某些计算环境中,多个主机系统可以为了存储设备中的数据而与控制单元诸如IBM企业存储服务器(ESS)通信,该存储设备由接收请求、提供到存储设备(诸如通过一个或多个逻辑路径互联的硬盘驱动器)的访问的ESS管理(IBM和ESS是IBM的注册商标)。互联的驱动器可以被配置为直接存取存储设备(DASD)、冗余独立磁盘阵列(RAID)、磁盘捆绑(Just a Bunch ofDisks,JBOD)等等。控制单元,也称作集群,可以包括重复冗余处理结点(也称作处理复合器(processing complexes)),以允许在一个处理复合器失效的情况下允许故障切换(failover)到幸存的处理复合器。处理复合器可以访问共享资源,诸如输入/输出(I/O)适配器、存储适配器和存储设备。
在处理复合器由于硬件或软件故障而失效的情况下,幸存的处理复合器检测该故障并且取得对该集群所有共享资源的控制。曾由失效的处理复合器执行的处理职责由幸存的处理复合器接管。
可以将每个处理复合器的资源划分成多个逻辑分区(LPAR),其中,将计算机处理器、存储器、和硬件资源划分成多个环境。可以利用其自身操作系统和应用程序而独立操作每个环境。由于具有将单个机器分区成多个具有他们自己的系统资源集合的逻辑服务器的能力,处理复合器的逻辑分区增加了单个服务器上工作负荷管理的灵活性。可以以各种数量和组合方式来组合每个分区中的资源。此外,可以创建的逻辑硬件分区的数目取决于硬件系统。
动态逻辑分区(DLPAR)通过提供在无需重新启动的条件下向及从逻辑分区的操作系统逻辑地添加及卸下处理复合器的资源的能力,而扩展LPAR的性能。该资源分配不仅可以在激活逻辑分区时发生,而且可以在分区正运行时发生。处理器、存储器、I/O适配器和其它分区资源可以以各种数量或组合释放到“自由池”中、从该自由池中获取、或者在处理复合器内直接从一个分区移动到另一个分区。但是,每个分区通常具有至少一个处理器、存储器、与引导设备相关联的I/O适配器、和网络适配器。
处理复合器内的LPAR资源从一个硬件分区到另一硬件分区的移动可以由监督模块管理。为了转移分区资源,监督模块可以向“拥有”该分区资源的逻辑分区发出网络请求,请求该源逻辑分区释放该特定分区资源并且将其置于停顿(quiesced)状态。通过这种方式,该分区资源被停止,并且被置于系统管理程序(hypervisor)模块的控制之下。监督模块可以向系统管理程序发出命令,指示其将分区资源从源逻辑分区重新分配到目标逻辑分区。此外,监督模块可以向目标逻辑分区发出网络请求,指示其从系统管理程序模块获取分区资源,并且配置其以供目标逻辑分区使用。

发明内容
使服务器集群的第一处理复合器中的第一逻辑分区在活动模式下运行以及使该处理复合器中的第二逻辑分区在备用模式下运行。一旦检测到服务器集群的第二处理复合器中的故障,就将第一处理复合器中的备用模式逻辑分区激活到活动模式。在一个实施例中,将分区资源从活动模式逻辑分区转移到从备用模式激活的逻辑分区。输入/输出或者其它处理操作可以由幸存处理复合器中的两个逻辑分区执行以提供冗余,直到另一处理复合器被修复并重新激活为止。描述和要求保护了其它实施例。


图1图示了可以实现实施例的计算环境。
图2图示了操纵处理复合器故障的操作的一个示例。
图3是处于备用模式的逻辑分区和处于活动模式的逻辑分区的一个示例的示意图。
图4是从备用模式激活到活动模式的逻辑分区和分区资源被减少的处于活动模式的逻辑分区的一个示例的示意图。
具体实施例方式
图1图示了其中可以采用本说明书的各个方面的计算环境的一个示例。一个或多个主机2将针对存储系统4的输入/输出(I/O)请求传送到控制单元或集群6,其中集群6管理对存储系统4的访问。在一个实施例中,集群6包括两个处理结点或复合器8a、8b,每个包括处理器10a、10b和存储器12a、12b。每个处理器10a、10b可以包括作为处理资源可用于相关联的处理复合器8a、8b的多个中央处理单元。
每个处理复合器8a、8b包括监督模块14a、14b。监督模块14a、14b包括管理并且协调在处理复合器8a、8b中执行的一个或多个逻辑分区16a、16b的操作的代码。每个逻辑分区16a、16b单独运行操作系统18a、18b和设备驱动器20a、20b。逻辑分区包括将处理器10a、10b划分为多个逻辑独立的处理系统,每个逻辑独立的处理系统具有其自身的操作系统18a、18b和设备驱动器20a、20b。多个逻辑分区可以在每个处理复合器中运行,由用于该复合器的监督模块管理。
每个设备驱动器20a、20b提供设备驱动器20a、20b在其中运行的逻辑分区16a、16b中的操作系统18a、18b与外部设备(诸如主机适配器22a、22b...22n和设备适配器24a、24b...24n)之间的接口。主机适配器22a、22b...22n使得处理复合器8a、8b能够与主机2通信,而设备适配器24a、24b...24n使得处理复合器8a、8b能够与存储系统4通信。这样,处理复合器8a、8b共享诸如适配器22a、22b...22n,24a、24b...24n的设备。变量“n”用于表示元件的整数实例,并且当用于不同元件时可以指示不同或相同的整数值。例如,22n和24n可以指示相同或不同数目的主机适配器22n和设备适配器24n。
处理复合器8a、8b通过通信网络(fabric)30a与主机适配器22a、22b...22n通信,以及通过通信网络30b与设备适配器24a、24b...24n通信。通信网络30a、30b可以包括提供处理复合器8a、8b与适配器之间的通信路径的一个或多个接口。路径包括使能通过通信网络与共享适配器通信的通信网络30a、30b中的硬件。在一个实施例中,通信网络可以包括光纤信道仲裁环配置、串行环架构或总线接口,诸如外围组件互联(PCI)接口。可以为每个处理复合器8a、8b分配适配器22a、22b...22n,24a、24b...24n的一部分,并且在初始化期间,处理复合器8a、8b负责初始化提供到分配给该处理复合器的适配器的通信路径的通信网络30a、30b的一部分。例如,如果为处理复合器8a分配了适配器22a、22b、24a、24b,则处理复合器8a将初始化和配置提供处理复合器8a与适配器22a、22b、24a、24b之间的通信路径的通信网络30a、30b的一部分。类似地,如果为处理复合器8b分配了适配器22n和24n,则处理复合器8b将初始化和配置使能处理复合器8b与适配器22n和24n之间的通信路径的通信网络30a、30b的一部分。配置通信网络30a、30b的步骤包括设置通信网络硬件例如光纤信道环硬件、串行环架构硬件或总线接口硬件中的寄存器,以及执行其它与初始化和发现相关的操作。每个单独适配器22a、22b...22n、24a、24b...24n可以由处理复合器8a、8b共享。
与系统管理程序模块26a、26b相关的监督模块14a、14b维持设备/逻辑分区(LPAR)分配,该设备/逻辑分区(LPAR)分配标识适配器22a、22b...22n,24a、24b...24n到每个处理复合器8a、8b中逻辑分区16a、16b的每个分配,从而特定适配器22a、22b...22n,24a、24b...24n与处理复合器8a、8b之间的通信由在分配给特定适配器22a、22b...22n,24a、24b...24n的逻辑分区16a、16b中运行的设备驱动器20a、20b操纵。
每个处理复合器8a、8b可以在单独的功率边界(power boundary)上。处理复合器8a、8b可以被分配来操纵针对在存储系统4中所配置的特定卷(volume)的I/O请求。处理复合器8a、8b在设备网络(未示出)上经由设备适配器24a、24b...24n与存储系统4通信,该设备网络可以包括局域网(LAN)、存储区域网(storage area network;SAN)、总线接口、串行接口等等。此外,处理复合器8a、8b在使能处理器之间互相通信的连接28上通信,以管理关于共享设备诸如共享适配器22a、22b...22n,24a、24b...24n所执行的配置操作。在替代性实施例中,可以仅存在连接所有适配器22a、22b...22n,24a、24b...24n的一个通信网络,即,通信网络30a和30b可以是单个互联通信网络的一部分、或者所示的两个通信网络30a、30b、或者多于两个通信网络。
集群6可以包括任何类型的服务器,诸如企业存储服务器、存储控制器等等,或者用于管理对所附着的一个或多个存储系统4的I/O请求的其它设备,其中该存储系统可以包括本领域公知的一个或多个存储设备,诸如互联的硬盘驱动器(例如,被配置为DASD、RAID、JBOD等等)、磁带、电子存储器等等。主机2可以在诸如局域网(LAN)、存储区域网(SAN)、广域网(WAN)、无线网等等的网络(未示出)上经由适配器22a、22b...22n而与集群6通信。或者,主机2可以通过总线接口诸如外围组件互联(PCI)总线或串行接口与集群6通信。还应该理解,集群6还可以是例如通用服务器集群,而不仅仅是存储子系统或存储控制器。例如,这两个服务器可以是运行高可用性集群应用程序诸如Lotus Notes的IBM p系列服务器。
根据本描述的一个方面,图2图示了在硬件或软件故障的情况下增加冗余的集群操作的一个示例。在一个操作中,在集群的第一结点或处理复合器中,集群使第一逻辑分区在活动模式下运行以及使第二逻辑分区在备用模式下运行(框200)。图3是示意性地图示了使处理复合器8a的第一逻辑分区16a1在活动模式下运行的集群6的示例的图。此外,使处理复合器8a的第二逻辑分区16a2在备用模式下运行。类似地,可以使处理复合器8b的第一逻辑分区16b1在活动模式下运行,以及可以使处理复合器8b的第二逻辑分区16b2在备用模式下运行。
在所图示的实施例中,在活动模式下,逻辑分区16a1、16b1代表主机2执行输入/输出操作。例如,活动模式逻辑分区16a1可以从/向存储系统4读/写数据,如图3的共享资源300所示。每个活动逻辑分区16a1、16b1具有到附加共享资源300(包括主机适配器22a、22b...22n)的访问路径,以接收来自主机2的输入/输出任务。这些输入/输出任务及其相关联的输入/输出数据被临时存储在分配给活动模式逻辑分区的存储器中。尽管活动逻辑分区所执行的处理操作被描述为代表主机2的输入/输出操作,但是应该理解,活动逻辑分区可以执行其它类型的处理操作。
逻辑分区16a1、16b1的每个都具有到附加共享资源300(包括设备适配器24a、24b...24n)的访问路径,以根据正执行的特定输入/输出操作而将来自主机2的输出数据写到存储系统4中以及从存储系统4接收读取的输入数据以转发给主机2。为了执行这些输入/输出操作或者其它的处理操作,为活动模式逻辑分区的每个分配相关联的处理复合器8a、8b的分区资源的相当大的部分。这样,例如,可以为活动模式逻辑分区16a1分配处理复合器8a的大部分CPU资源、存储器资源和其它动态可分配分区资源。分配给任一活动模式逻辑分区的动态可分配分区资源的百分比可以依赖于处理复合器中的活动模式和备用模式的逻辑分区的数目以及每个活动模式逻辑分区的相对工作负荷。
作为比较,在图示的实施例中,在备用模式下,逻辑分区16a2、16b2并不代表主机2执行输入/输出操作并且不具有到共享资源300的访问路径。这样,例如,备用模式逻辑分区16a2并不从/向图3的共享资源的存储系统4读/写数据。由于备用模式逻辑分区16a2、16b2并不从主机2接收输入/输出任务,所以每个备用模式逻辑分区16a2、16b2并不具有到共享的主机适配器22a、22b...22n的访问路径。这样,输入/输出任务及其相关联的输入/输出数据并不存储在分配给备用模式逻辑分区的存储器中。
类似地,在图示的实施例中,备用模式逻辑分区16a2、16b2并不具有到共享资源300的设备适配器24a、24b...24n的访问路径,并且并不向存储系统4写入来自主机2的输出数据。备用模式的逻辑分区16a2、16b2并不从存储系统4接收读取的输入数据以转发到主机2。
由于备用模式的逻辑分区在本示例中并不执行输入/输出操作,所以为备用模式逻辑分区16a2、16b2的每个分配相关联的处理复合器8a、8b的分区资源的相对小的部分。这样,例如,可以为活动模式逻辑分区16a1分配适于维持备用模式的处理复合器8a的单个CPU(或单个CPU的一小部分)、少量存储器资源和其它动态可分配分区资源。例如,可以为备用模式逻辑分区16a2分配足以维持操作系统运行的存储器,但是可能需要很少的或者不需要附加的运行(operational)存储器。
在图示的实施例中,关于集群6的各种状态机的各种状态,活动模式逻辑分区16a1在数据结构302a中维持状态信息。由活动模式逻辑分区16b1在数据结构302b中类似地维持集群状态信息的同步拷贝。该状态信息利于控制正由集群6的活动逻辑分区16a1、16b1代表主机2执行的输入/输出操作或其它处理操作。活动逻辑分区16a1、16b1可以彼此交换状态信息,以利于每个活动分区维持关于集群操作的当前状态信息。此外,活动模式逻辑分区维持这样的数据结构,其利于响应于从主机2接收的输入/输出任务而执行输入/输出操作。活动模式逻辑分区所维持的这些附加数据结构包括缓冲器、表、存储区域等等。
作为比较,备用模式逻辑分区16a2、16b2并不执行主机2的I/O操作并且不维持关于这些I/O操作的数据结构。备用模式逻辑分区16a2、16b2并不与其它逻辑分区交换集群状态信息。
应该理解,在一些实施例中,备用模式逻辑分区16a2、16b2可以执行有限的I/O操作,并且可以具有到共享资源300的有限访问路径。在一些实施例中,备用模式逻辑分区16a2、16b2可以维持有限的集群状态数据结构和有限的I/O操作数据结构。这些有限量的数量可以依赖于特定应用而变化。但是,在许多实施例中,备用模式逻辑分区16a2、16b2所承担的操作或所维持的数据结构可能大大少于活动模式逻辑分区所承担的操作或所维持的数据结构。
在另一操作中,检测集群的第二处理复合器中的故障(框202,图2)。例如,活动模式逻辑分区16a1可以检测到处理复合器8b已经失效,如图4中的删去符号400所表示的。在一个实施例中,活动模式逻辑分区16a1、16b1可以周期性地交换消息(有时称之为“心跳”)以通知另一处理复合器其在运转。如果活动模式逻辑分区16a1未能从活动模式逻辑分区16b1接收到这样的心跳消息,则逻辑分区16a1可以推断处理复合器8b已遭受了故障。在另一处理复合器8b失效的情况下,幸存的处理器复合器8a可以执行故障切换操作,其中处理器复合器8b未完成的I/O操作将由幸存的处理器复合器8a接管并且完成。此外,来自主机2的所有新I/O操作都将由处理器复合器8a执行,直到另一处理器复合器8b可以被修复并且恢复为在线为止。
在处理复合器8b不能运行的情况下,集群6可能缺少处理复合器8b所提供的冗余。因而,幸存处理复合器8a中的硬件或软件故障可能导致集群6中的I/O操作停止或者可能导致数据丢失。
根据本描述的另一方面,幸存处理复合器8a的活动模式逻辑分区16a1可以激活(框204)例如幸存处理器复合器8a的第二逻辑分区(诸如备用模式逻辑分区16a2),从而也可以使逻辑分区16a2在活动模式下运行。如下面更详细解释的,将备用模式逻辑分区激活到活动模式可以提供增加的冗余度。这样,如果例如在活动模式逻辑分区16a1、16a2之一中发生软件故障,则包括数据结构的运行软件可以保存在幸存处理器复合器8a的幸存活动模式逻辑分区中。
在所示实施例中,通过逻辑分区16a1、16a2交换适当的心跳消息,可使活动模式逻辑分区16a1知晓运行在备用模式下的逻辑分区,诸如逻辑分区16a2。一旦检测到另一处理复合器8b的故障,活动模式逻辑分区16a1可以通过向逻辑分区16a2发出适当消息使得备用模式逻辑分区16a2将自身激活到活动模式。
为了从备用模式切换到活动模式,逻辑分区16a2可以向活动模式分区16a1请求集群状态信息302a的拷贝,并且开始在数据结构302c中维持其自身的集群状态信息的同步拷贝(图4)。备用模式逻辑分区16a2可以从活动模式逻辑分区16a1获得的附加信息包括不运行的主机2的列表、以及正由集群6为其执行I/O操作的主机2的列表。备用模式逻辑分区16a2还可以从活动模式逻辑分区16a1获得用于配置共享资源300(包括主机适配器22a,22b...22n和设备适配器24a、24b...24n)的信息。
一旦逻辑分区16a2接收到了适当信息的同步拷贝,逻辑分区16a2就可以配置共享资源300以允许由逻辑分区16a2使用共享资源300。此外,逻辑分区16a2可以维持在集群6执行I/O操作中所使用的I/O操作数据结构的同步拷贝。一旦逻辑分区16a2准备好从主机2接收I/O操作,则其可以成为集群6的活动成员。
当逻辑分区16a2在活动模式下运行时,为了促进处于活动模式的逻辑分区16a2的操作,可以减少(框206)处理复合器8a的另一逻辑分区诸如逻辑分区16a1的分区资源,以使得附加分区资源可用于逻辑分区16a2。在所示的实施例中,可以由模块14a、26a实现分区资源的动态重新分配,作为到活动模式逻辑分区16a1的故障切换的一部分。
这样,在本示例中,一旦检测到另一处理复合器8b的故障,活动模式逻辑分区16a1可以向监督模块14a发送消息,作为故障切换操作的一部分,由此活动模式逻辑分区接管先前由处理复合器8b执行的I/O操作。作为响应,监督模块14a可以向“拥有”特定分区资源的活动模式逻辑分区16a发出网络请求,请求活动模式逻辑分区16a1释放该特定分区资源并且将其置于停顿状态。通过这种方式,可以停止分区资源,并且将其置于系统管理程序模块26a的控制之下。
在另一操作中,可以扩展(框208)分配给被激活的逻辑分区的分区资源。在本示例中,监督模块26a可以向系统管理程序模块26a发出命令,指示其将来自活动逻辑分区16a1的停顿分区资源重新分配到从备用模式被激活到活动模式的逻辑分区16a2。此外,监督模块14a可以向逻辑分区16a2发出网络请求,指示逻辑分区16a2从系统管理程序模块26a获取停顿分区资源,并且配置其以供转变为活动模式的逻辑分区16a2使用。
合适的时候,可以对于适于平衡逻辑分区16a1、16a2之间的I/O工作负荷那么多的分区资源,而执行这些操作,即减少分配给逻辑分区(诸如逻辑分区16a1)的分区资源以及扩展分配给转变为活动模式的逻辑分区(诸如逻辑分区16a2)的分区资源的操作。例如,当逻辑分区16a2获取诸如附加处理和存储器资源的分区资源时,逻辑分区16a2可以承担的输入/输出或其它处理运行工作负荷量增加。
在本描述的一个方面,从操作的备用模式被激活到活动模式的逻辑分区16a2在故障的情况下提供了冗余度。例如,如果逻辑分区16a1经历了软件故障,则集群6的输入/输出操作可以继续进行,这是因为所激活的逻辑分区16a2已维持了输入/输出操作所需的数据和数据结构的同步拷贝,包括集群状态信息、输入/输出操作数据等等。
在另一操作中,在本示例中经历初始故障的处理复合器8b可以被修复(框210)。一旦一个或多个逻辑分区16b1、16b2返回到活动模式并且能够执行用于一个或多个主机2的输入/输出操作,则可以使处理复合器8a的逻辑分区16a1、16a2之一返回到备用模式。应该理解,出于其它目的和在其它情况下,可以使逻辑分区返回到备用模式。
为了使逻辑分区返回到备用模式,可以减少该逻辑分区的分区资源(框212)。在本示例中,可以使逻辑分区16a2返回到备用模式。应该理解,在其它应用中,逻辑分区16a2可以继续保持在活动模式下,而另一逻辑分区例如逻辑分区16a1可以采取备用模式。
在本示例中,活动模式逻辑分区16a1一旦接收到指示一个或多个逻辑分区16b1、16b2处于活动模式并且能够进行用于主机2的输入/输出操作的、来自处理复合器8b的数据结构同步信息和其它通信,就执行故障回复(failback)操作,将输入/输出操作向回传输到处理复合器8b。关于故障回复操作,逻辑分区16a1可以向监督模块14a传送消息。作为响应,监督模块14a可以向“拥有”特定分区资源的活动模式逻辑分区16a2发出网络请求,指示活动模式逻辑分区16a2释放该特定分区资源并且将其置于停顿状态。通过这种方式,可以停止分区资源,并且将其置于系统管理程序模块26a的控制之下。
在另一操作中,可以扩展(框214)分配给剩余逻辑分区的分区资源。在本示例中,监督模块26a可以向系统管理程序模块26a发出命令,指示其将来自逻辑分区16a2的停顿分区资源重新分配回将继续保持为活动模式的逻辑分区16a1。此外,监督模块14a可以向逻辑分区16a1发出网络请求,指示逻辑分区16a1从系统管理程序模块26a获取停顿分区资源,并且配置其以供逻辑分区16a1使用。
可以针对适于这些相应模式的那么多的分区资源而执行这些操作,即减少分配给转变到备用模式的逻辑分区(诸如逻辑分区16a2)的分区资源、以及扩展分配给继续保持在活动模式的逻辑分区(诸如逻辑分区16a1)的分区资源的操作。例如,当逻辑分区16a1获取诸如处理和存储器资源的分区资源时,逻辑分区16a1可以承担的输入/输出或其它处理运行工作负荷量增加。
在另一操作中,可以使逻辑分区16a2停顿(框216)到备用模式,从而可以以备用模式运行(框218)逻辑分区16a2而以活动模式运行逻辑分区16a1。在该备用模式下,如上面所提到的,可以将备用模式下的逻辑分区16a2所利用的分区资源减少到最小值。此外,可以减少或者去除处于备用模式的逻辑分区16a2所要执行的操作。一个这样的最小化操作可以包括周期性地向活动模式逻辑分区诸如逻辑分区16a1发布心跳消息,向该活动模式逻辑分区通知该备用模式分区16a2的存在。应该理解,分配给备用模式的逻辑分区的操作和分区资源的量可以依据特定应用而变化。
其它实施例细节可以使用标准编程和/或工程技术将上述操作实现为方法、装置或制品以产生软件、固件、硬件或者其任意组合。这里所使用的术语“制品”指以有形介质实现的代码或逻辑,其中这样的有形介质可以包括硬件逻辑(例如,集成电路芯片、可编程门阵列(PGA)、特定用途集成电路(ASIC)等等)或计算机可读介质,诸如磁存储介质(例如,硬盘驱动器、软盘、磁带等等)、光存储器(CD-ROM、光盘等等)、易失和非易失存储设备(例如,EEPROM、ROM、PROM、RAM、DRAM、SRAM、固件、可编程逻辑等等)。由处理器访问和执行计算机可读介质中的代码。将代码或逻辑编码于其中的有形介质还可以包括通过空间传播的传输信号或传输介质,诸如光纤、铜线等等。将代码或逻辑编码于其中的传输信号还可以包括无线信号、卫星传输、无线电波、红外信号、蓝牙等等。将代码或逻辑编码于其中的传输信号能够由发送站发送并且由接收站接收,其中被编码在传输信号中的代码或逻辑可以被解码并且存储在接收和发送站或设备处的硬件或计算机可读介质中。此外,“制品”可以包括其中包含、处理、和运行代码的硬件和软件组件的组合。当然,本领域技术人员将认识到,在不背离本发明范围的条件下,可以对该配置进行许多修改,并且该制品可以包括本领域公知的任何信息承载介质。
除非特别指出,否则术语“一实施例”、“实施例”、“多个实施例”、“该实施例”、“所述多个实施例”、“一个或多个实施例”、“一些实施例”、和“一个实施例”都意味着“一个或多个本发明的一个或多个(但不是全部)实施例”。
除非特别指出,否则术语“包括”、“包含”、“具有”及其各种变形都意味着“包括但不限于”。
除非特别指出,否则所枚举的项目列表并不意味着任意或所有项目互斥。
除非特别指出,否则术语“a”、“an”、“the”都意味着“一个或多个”。
除非特别指出,否则相互通信的设备并不需要相互连续通信。此外,相互通信的设备可以直接地或者间接地通过一个或多个媒介通信。
具有相互通信的几个组件的实施例的描述并不意味着需要所有这些组件。相反,描述各种可选组件以说明本发明各种可能实施例。
此外,尽管可能顺序描述了处理操作、方法操作、算法等等,但是这样的处理、方法和算法可以被配置来以别的顺序工作。换言之,可能描述的操作的任何次序或顺序并不必然指示要求以该顺序执行该操作。可以以任何实际顺序执行这里所述的处理操作。此外,可以同时执行一些操作。
当这里描述单个设备或物件时,很清楚,可以代替单个设备/物件而使用不止一个设备/物件(无论它们合作与否)。类似地,对于这里描述了不止一个设备或物件(无论它们合作与否)的情况,很清楚,可以替代所述不止一个设备或组件而使用单个设备/物件。
某设备的功能和/或特征可以替代地由未明确描述为具有这样的功能/特征的一个或多个其它设备实现。这样,本发明的其它实施例不必要包括该设备本身。
在所描述的实施例中,集群6包括两个处理复合器8a、8b。在另外的实施例中,可以存在访问共享设备的不止两个系统。在这样的实施例中,一个或多个处理复合器可能维持处于备用模式并且准备被激活的逻辑分区,以在另一处理复合器失效的情况下提供冗余。
某些实施例可以针对一种由人或在计算系统中集成计算机可读代码的自动化处理来部署计算指令的方法,其中使得与计算系统结合的代码能够执行所述实施例的操作。
图2的所示操作示出了以某顺序发生的某些事件。在替代性实施例中,可以以不同(经修改或经删除)的顺序执行某些操作。此外,可以向上述逻辑添加步骤,并且仍符合所述实施例。此外,这里所描述的操作可以顺序发生或者某些操作可以被并行处理。此外,可以由单个处理单元或者由分布式处理单元执行操作。
某些操作已被描述为以对等方式在逻辑分区之间发生。其它操作已被描述为利用监督硬件或软件实现。应该理解,这些操作可以以对等方案或者以监督方案或者以各方案的组合实现。
所执行的处理操作已被描述为包括例如输入/输出操作。应该理解,可以代表主机或者作为服务器而执行其它类型的处理操作。
服务器集群在上面已被描述为具有两个处理复合器,每个处理复合器在常规操作中具有活动模式逻辑分区和备用模式逻辑分区。应该理解,在其它实施例中,服务器集群可以具有单个处理复合器或者不止两个处理复合器,并且每个处理复合器可以具有不止一个活动或备用模式逻辑分区。
出于说明和描述目的,已给出了各种实施例的前述描述。该描述并不意欲是穷举式的或者将本描述局限于所公开的确切形式。根据上述教导的各种修改和改变都是可能的。
权利要求
1.一种方法,包括使服务器集群的第一处理复合器中的第一逻辑分区在活动模式下运行,并使该处理复合器中的第二逻辑分区在备用模式下运行;检测该服务器集群的第二处理复合器中的故障;以及响应于所述故障检测,激活该第一处理复合器中的备用逻辑分区以在活动模式下运行。
2.如权利要求1所述的方法,还包括修复所述第二处理复合器;以及响应于所述修复,使该第二逻辑分区停顿以在备用模式下运行。
3.如权利要求1所述的方法,还包括在激活该第二逻辑分区之后,将分区资源从该第一逻辑分区转移到该第二逻辑分区。
4.如权利要求1所述的方法,还包括减少该第一逻辑分区的分区资源;以及在激活该第二逻辑分区之后,增加该第二逻辑分区的分区资源。
5.如权利要求2所述的方法,还包括在修复该第二处理复合器之后,将分区资源从该第二逻辑分区转移到该第一逻辑分区。
6.如权利要求1所述的方法,还包括减少该第二逻辑分区的分区资源;以及在修复该第二处理复合器之后,增加该第一逻辑分区的分区资源。
7.如权利要求1所述的方法,还包括将分区资源从该第一逻辑分区转移到被激活的第二逻辑分区;修复所述第二处理复合器;在修复该第二处理复合器之后,将分区资源从第二逻辑分区转移到该第一逻辑分区;以及使第二逻辑分区停顿以回到备用模式下运行。
8.如权利要求1所述的方法,其中,所述活动模式运行包括为活动模式下运行的逻辑分区提供到共享资源的访问,以及其中所述备用模式运行包括为备用模式下运行的逻辑分区拒绝到所述共享资源的访问。
9.如权利要求8所述的方法,其中所述共享资源包括数据存储盘驱动器。
10.如权利要求3所述的方法,其中所述分区资源包括处理、存储器和输入/输出适配器资源。
11.一种系统,包括具有第一处理复合器和第二处理复合器的服务器集群,所述第一处理复合器具有第一逻辑分区和第二逻辑分区,所述服务器集群具有适于下述操作的逻辑使所述第一逻辑分区在活动模式下运行以及使所述第二逻辑分区在备用模式下运行;检测所述第二处理复合器中的故障;以及响应于所述故障检测,将所述第二逻辑分区从所述备用模式激活,以在活动模式下运行。
12.如权利要求11所述的系统,其中,所述服务器集群逻辑还适于响应于该第二处理复合器的修复,使该第二逻辑分区从活动模式停顿,以在备用模式下运行。
13.如权利要求11所述的系统,其中,所述第一逻辑分区具有分区资源,以及所述服务器集群逻辑还适于在该第二逻辑分区的激活之后,将分区资源从该第一逻辑分区转移到该第二逻辑分区。
14.如权利要求11所述的系统,其中,所述第一逻辑分区具有分区资源,以及所述服务器集群逻辑还适于减少该第一逻辑分区的分区资源;以及在该第二逻辑分区的激活之后,增加该第二逻辑分区的分区资源。
15.如权利要求12所述的系统,其中所述第二逻辑分区具有分区资源,以及其中所述服务器集群逻辑还适于在该第二处理复合器的修复之后,将分区资源从该第二逻辑分区转移到该第一逻辑分区。
16.如权利要求11所述的系统,其中所述第二逻辑分区具有分区资源,以及其中所述服务器集群逻辑还适于减少该第二逻辑分区的分区资源;以及在该第二处理复合器的修复之后,增加该第一逻辑分区的分区资源。
17.如权利要求11所述的系统,其中所述第一逻辑分区具有分区资源,以及所述服务器集群逻辑还适于将分区资源从该第一逻辑分区转移到被激活的第二逻辑分区;在该第二处理复合器的修复之后,将分区资源从第二逻辑分区转移到该第一逻辑分区;以及使第二逻辑分区从活动模式停顿,以回到备用模式下运行。
18.如权利要求11所述的系统,其中所述第一处理复合器具有共享资源,以及其中所述活动模式运行包括为活动模式下运行的逻辑分区提供到共享资源的访问,以及其中所述备用模式运行包括为备用模式下运行的逻辑分区拒绝到共享资源的访问。
19.如权利要求18所述的系统,其中所述共享资源包括数据存储盘驱动器。
20.如权利要求13所述的系统,其中所述分区资源包括处理、存储器和输入/输出适配器资源。
21.一种制品,包括能够被系统运行以执行如权利要求1到10中任一项所述的方法中的步骤的代码,其中该系统具有服务器集群,该服务器集群具有第一处理复合器和第二处理复合器,所述第一处理复合器具有第一逻辑分区和第二逻辑分区。
22.一种用于部署计算机指令的方法,包括将计算机可读代码集成到系统中,其中该系统具有服务器集群,该服务器集群具有第一处理复合器和第二处理复合器,所述第一处理复合器具有第一逻辑分区和第二逻辑分区,并且其中与该系统结合的该代码能够使得系统执行下述操作使所述第一逻辑分区在活动模式下运行以及使所述第二逻辑分区在备用模式下运行;检测所述第二处理复合器中的故障;以及响应于所述故障检测,将所述第二逻辑分区从所述备用模式激活,以在活动模式下运行。
23.如权利要求22所述的方法,其中,与系统结合的该代码还能够使得该系统执行下述操作响应于该第二处理复合器的修复,使该第二逻辑分区从活动模式停顿,以在备用模式下运行。
24.如权利要求22所述的方法,其中所述第一逻辑分区具有分区资源,以及其中与系统结合的该代码还能够使得该系统执行下述操作在该第二逻辑分区的激活之后,将分区资源从该第一逻辑分区转移到该第二逻辑分区。
25.如权利要求22所述的方法,其中,所述第一逻辑分区具有分区资源,以及其中与系统结合的该代码还能够使得该系统执行下述操作减少该第一逻辑分区的分区资源;以及在该第二逻辑分区的激活之后,增加该第二逻辑分区的分区资源。
26.如权利要求23所述的方法,其中所述第二逻辑分区具有分区资源,以及其中与系统结合的该代码还能够使得该系统执行下述操作在该第二处理复合器的修复之后,将分区资源从该第二逻辑分区转移到该第一逻辑分区。
27.如权利要求22所述的方法,其中所述第二逻辑分区具有分区资源,以及其中与系统结合的该代码还能够使得该系统执行下述操作减少该第二逻辑分区的分区资源;以及在该第二处理复合器的修复之后,增加该第一逻辑分区的分区资源。
28.如权利要求22所述的方法,其中所述第一逻辑分区具有分区资源,以及其中与系统结合的该代码还能够使得该系统执行下述操作将分区资源从该第一逻辑分区转移到被激活的第二逻辑分区;在该第二处理复合器的修复之后,将分区资源从第二逻辑分区转移到该第一逻辑分区;以及使第二逻辑分区从活动模式停顿,以回到备用模式下运行。
29.如权利要求22所述的方法,其中所述第一处理复合器具有共享资源,以及其中所述活动模式运行包括为活动模式下运行的逻辑分区提供到共享资源的访问,以及其中所述备用模式运行包括为备用模式下运行的逻辑分区拒绝到共享资源的访问。
30.如权利要求29所述的方法,其中所述共享资源包括数据存储盘驱动器。
31.如权利要求24所述的方法,其中所述分区资源包括处理、存储器和输入/输出适配器资源。
全文摘要
使服务器集群的第一处理复合器中的第一逻辑分区在活动模式下运行以及使该处理复合器中的第二逻辑分区在备用模式下运行。一旦检测到服务器集群的第二处理复合器中的故障,就将第一处理复合器中的备用模式逻辑分区激活到活动模式。在一个实施例中,将分区资源从活动模式逻辑分区转移到从备用模式激活的逻辑分区。描述和要求保护了其它实施例。
文档编号G06F9/46GK1892612SQ20061007531
公开日2007年1月10日 申请日期2006年4月12日 优先权日2005年6月28日
发明者威廉·J·阿姆斯特朗, 迈克尔·H·哈通, 许育诚, 格伦·R·怀特威克 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1