恢复可热插拔的多服务器数据处理环境中的电源的制作方法

文档序号:6398378阅读:239来源:国知局
专利名称:恢复可热插拔的多服务器数据处理环境中的电源的制作方法
技术领域
本发明涉及数据处理系统,具体涉及电源转变后数据处理系统电源的恢复。
背景技术
在数据处理系统和网络领域中,许多应用(例如因特网数据中心)是通过使用一个或多个交换模块相互连接的一组密集的服务器来实现的。在此类系统中,迫切希望服务器、交换模块和网络的其它组件是可热插拔(hotswappable)的,以便可以在不牺牲网络可用性的情况下进行维护。此外,还希望网络可以使用不同类型的交换模块实现各种互连协议或结构。尽管这些特性是多服务器网络配置中所希望的,但是热插拔各种组件(某些组件具有不同于其它组件的协议特性)的能力可以导致兼容性问题。具体说来,在操作人员、技术人员和维护人员试图通过将各种插卡或模块(某些插卡或模块可能具有不同于其它插卡或模块的通信协议特性)插入或从中拔出一个密集的服务器配置来解决网络问题时,在网络中的所有模块之间保持完全的兼容性是很困难的。例如,各种通信协议之间的不兼容性会损害系统组件。因此,希望实现一种系统和方法,用于管理一个多服务器数据处理网络中的电源。进一步希望实现的网络和方法是高度自动化的,用以防止为网络中不兼容的模块供电。而且进一步希望实现的网络和方法在电源复位后自动地为各个网络模块恢复供电,以使电源转变后的电源状态与转变之前的电源状态完全相同。

发明内容
根据本发明的一个数据处理网络实现了上述目标。所述网络包括一组服务器、至少一个将各个服务器相互连接的交换机模块和一个管理模块。所述管理模块在电源转变后参考存储在永久性存储器中的电源状态信息并基于该电源状态信息至少为某些服务器和交换机模块恢复供电。该电源状态信息防止了管理模块为具有不兼容的通信协议的服务器和交换机模块恢复供电。在一个实施例中,所述多个服务器和交换机模块是都插入单个机柜(chassis)的可热插拔模块。在该实施例中,多个服务器模块和至少一个交换机模块共享包括系统电源的、网络的选定资源。所述交换机模块和服务器模块可以采用以太网、光纤通道、光和串行通信协议。


通过阅读以下详细说明,并参照附图,本发明的其他目标和优点将变得清楚起来,在这些附图中图1是适用于本发明的一个实施例的数据处理系统的选定部件的框图;图2A和图2B分别描绘了适用于本发明的一个实施例的单机柜、多服务器数据处理网络的正面视图和背面视图;图3是图2A和图2B的网络的一个实施例的框图,重点示出了可以构成该网络一部分的多个服务器模块和交换机模块之间的连接;图4是由根据本发明的一个实施例的数据处理网络的管理模块维护的电源状态信息表的概念表示;以及图5是根据本发明的一个实施例的自动电源管理和恢复的方法的流程图。
尽管本发明可以具有各种修改和替代形式,但在附图中以实例的方式示出了其特定的实施例并将在此进行详细的说明。但是应当理解,此处提供的附图和详细的说明并非旨在将本发明限于所公开的特定实施例,而是相反,其目的是覆盖落入如所附权利要求书定义的本发明的精神和范围之内的所有修改、等效物和替代物。
具体实施例方式
总的说来,本发明涉及在一个多服务器、共享电源环境中恢复和监测各种模块的电源状态。当系统的管理模块接通电源后,它确定是否发生了管理模块热插拔或是否整个机柜的交流电源被复位。取决于此确定结果,然后管理模块或者将各模块的电源状态恢复为它们最后的已知状态,或者检测其当前的电源状态并保存这些状态以供将来使用。通过配置管理模块执行此电源监测和恢复功能,本发明向以共享一组公共资源(包括电源)的多个互连系统为特征的环境添加了有用的和潜在地减少错误的自动化功能。
现在转到附图,图1是适用于本发明的数据处理系统100的选定部件的框图。所示的数据处理系统100的各个部件可以完全地在单个印制电路板上实现。在本实施例中,数据处理系统100在本文中也可以被称为服务器片(server blade)100。在所示实施例中,服务器片100包括一组连接到系统总线104的主处理器102A至102N(一般地或总体上称为处理器102)。每个处理器102经由系统总线104可以存取公共系统存储器106。系统存储器通常使用易失性存储介质(例如一个动态随机存取存储器(DRAM)器件阵列)来实现。所示的服务器片100的体系结构经常被称为对称多处理器(SMP)系统,因为每个处理器102都对系统存储器106具有基本相同的存取权限。
在所示的服务器片100的实施例中,总线桥108提供了系统总线104和I/O总线110之间的接口。一个或多个外围设备114A至114N(一般地或总体上称为外围设备114)以及一个通用I/O(GPIO)端口被连接到I/O总线110。外围设备114可以包括诸如图形适配器、高速网络适配器或网络接口卡(NIC)、硬盘控制器之类的设备。I/O总线110通常符合几个工业标准I/O总线技术规范之一,其中包括(作为一个常见的例子)由PCI特别兴趣组(PCI Special Interest Group)(www.pcisig.org)发布的“PCI Local Bus Specification Rev 2.2”中规定的外围组件互连(PCI)总线。
所示的服务器片100的实施例包括一个连接到GPIO端口112的本地服务处理器116。本地服务处理器116配置成为主处理器102提供支持。例如,此支持可以包括监测供给主处理器102的电源和在片崩溃的情况下开始主处理器的重新启动。
现在转到图2A和图2B,其中分别示出了根据本发明的一个实施例的数据处理网络200的正面视图和背面视图。数据处理网络200(在本公开中也称为片中心200)包括一个具有多个插槽或机架122的机柜121。机柜121正面一侧(图2A)中的每一机架122都配置成通过适当的连接机制(例如传统的边缘连接器)接纳一个模块,例如由标号101a至101n标识的服务器片模块(一般地或总体上称为服务器片模块101)。每个服务器片模块101通常包含一个或多个如图1所示的服务器片100。在一实施例中,每一服务器片模块101都是一个可以包括多达16个服务器片100的4U组件。这样,所示的片中心200的实施例包括一组服务器片模块101,每一服务器片模块101包括一个或多个服务器片100。
图2B中示出的机柜121的背面包括一组机架124,机架124设计成接纳多达四个交换机模块126、一个管理模块120、四个电源模块128和一对风扇或吹风机模块129。交换机模块126提供服务器片模块101和外部网络之间的连接。交换机模块126可以包括光交换模块、光纤通道模块、以太网模块和串行模块。
图2B中示出的网络200包括一个插入机柜121中的插槽124的系统管理模块120。在示出的实施例中,管理模块120的尺寸不同于服务器片100的尺寸并且管理模块插槽124具有一定的大小以在接纳管理模块120的同时防止片模块101不小心插入插槽。管理模块120通常使用配置为监测和控制由每个服务器片100共享的网络200的资源和特性的管理模块服务处理器来实现。例如,这些资源和特性可以包括应用于机柜121的电源、机柜冷却风扇和诸如机柜121内的环境温度之类的环境特性。
如上所示,各种交换机模块126可以具有不同的协议,包括运行电压。例如,在片中心200的一个实施例中(在图3中示出),每个片模块101包括两个分别连接到两个交换机模块126A和126B的集成以太网端口132和134。此外,片模块101可以包含一个或两个由标号135表示的可选的交换机扩展卡。扩展卡135(存在时)分别提供了分别连接到第三和第四交换机模块126C和126D的第三和第四通信端口136和138。由于所有不同的交换机模块类型很可能都具有相同的形状因数(formfactor),任何一个交换机模块126都可以插入任何一个交换机模块机架中。当服务器片的一个通信端口(无论是两个集成以太网端口(132,134)之一还是可选卡135上的一个通信端口)连接到一个具有不同协议的交换机模块126时会出现不兼容性。只要出现不兼容性,该通信路径除了不起作用以外,还可以对一个或多个模块具有破坏性作用。因此,维护和监测交换机模块126与其所连接的服务器片101之间的协议兼容性是很重要的。
本发明提供了一种在以多个可互换的可热插拔服务器在单个机柜内以及多个可互换的可热插拔交换模块具有各种可能的通信协议为特征的环境中监测服务器/交换机兼容性的自动方法。在优选实施例中,一个管理代理,例如管理模块120,负责监测各种组件的电源状态。当一个管理模块120检测到电源复位时,它确定电源复位是否是影响整个机柜的交流电源复位的结果或者电源复位只是表示也是可热插拔的管理模块被插入了系统。如果复位的发生是由于交流电源复位(并且管理模块确定其在正确的机柜中),则管理模块将各个服务器和交换机模块恢复到最后已知的良好电源状态。如果管理模块确定其经历了一次热插拔,则记录各个模块当前的电源状态以在随后的交流电源复位后使用。
现在参考图4,其中示出了一个电源状态表140以显示本发明的一个特定实现的一个方面。在一个实施例中,管理模块120在非易失性存储器(例如闪存器件或其它形式的电可改写ROM、电池供电的CMOS和类似的在电源转变期间持续保持的存储器)中维护一个包括在电源状态表140中示出的信息的表。根据示出的实施例的表140对于至少每个片模块101和每个交换机模块126都包括一个条目。
表140中的每个条目都维护了表示相应模块的电源状态的信息。在当前发明的环境中,每个模块可能的电源状态包括接通、关闭/启用和关闭/禁用。接通状态(如其名称所示)表示相应的模块在最后记录的电源状态中为接通。关闭/启用状态表示尽管该模块的电源关闭时,但该模块获得“允许”在需要时可被接通电源。关闭/禁用状态表示相应的模块不允许被接通电源。表140的其它实施例引入了附加的电源状态,包括例如待机状态,表示相应的模块最后已知为处于低功耗状态。除了有关指示电源状态的信息,对于每个模块条目,表140示出的实施例指出了模块在机柜中是否物理地存在。机柜中所有可用的插槽都被占用不是必需的。
现在参考图5,其中示出了根据本发明用于自动恢复一个多模块、可热插拔数据处理环境中的电源状态的方法150的流程图。只要管理模块120接通电源,方法150就会开始。管理模块首先确定是什么引起了管理模块被接通电源(框152)。具体地说,管理模块120确定其是否被插入了已供电的机柜上(热插拔)或是否发生了冷启动。冷启动指复位整个机柜的交流电源。在一实施例中,通过检测是否任一模块被接通电源来作出这种确定。在冷启动之后,所有模块都将断电,直至在管理模块的控制下接通电源。这样,如果管理模块检测到无一系统模块被接通电源,则表示冷启动。
如果发生了冷启动,则管理模块确定系统配置自从最后已知的良好配置以来是否已被改变(框154)。如果管理模块确定其已不再位于其先前所在的同一机柜中或管理模块确定一个或多个模块已被移除或插入,则配置已被更改。冷启动或热插拔的确定,加上配置更改的确定,决定了将由管理模块采取的电源恢复操作。
如果发生了冷启动,但配置未被改变,本发明利用管理模块120基于存储在表140中的信息将所有模块的电源状态恢复为最后已知的良好电源状态。如果发生了热插拔或重新配置,管理模块将被动地获知当前电源状态配置并将该配置存储在表140中以供随后的恢复期间使用。
这样,如图5中所示,在框152中确定冷启动以及在框154中确定相同的配置之后,管理模块120使用表140开始将诸模块恢复为先前的电源状态。管理模块120检查表140中的每个条目并接通先前(即,紧接着的前一次电源保持期间)处于接通状态的模块的电源(框156)。在为适当的模块接通电源之后,管理模块120查询剩余模块的“结构”(fabric)或协议类型(框158),基于这些模块与已接通的模块的兼容性为它们设置接通/关闭许可状态(框160),并将电源状态信息存储到永久性存储器(框166)。
例如,如果具有用于通信端口136的可选以太网插卡的服务器片101(见图3)在先前的电源保持期间被接通电源,则管理模块将该模块恢复到接通电源状态。然后,在检查剩余模块的结构类型后,管理模块对具有非以太网通信端口136的任何“关闭的”模块和第三交换机模块机架中的任何非以太网交换机模块(即,交换机模块126C)拒绝电源许可(设置表140中的关闭/禁用位)。由于每个服务器片101可以包括多达四个通信端口并且系统可能包括多达四个交换机模块126,兼容性检查优选地检查每一服务器片通信端口和交换机模块对以确定完全兼容性。在如图3所示的服务器片101的实施例中,四个通信端口中的两个端口(132和134)是集成到片本身中的以太网端口。由于该部分配置被集成,它实际上是不可改变的。此外,可以假设这些集成端口所连接的交换机模块126A和126B是以太网交换机,因为它们始终连接到以太网端口。这样,如果唯一可变组件分别是每个服务器片的第三和第四通信端口136和138以及第三和第四交换机模块126C和126D,兼容性检查可以显著被简化。在某些实施例中,可以扩展表140以包括每个服务器片的每一通信端口的结构类型和每一交换机模块的结构类型。
在一种情况下,通过使管理模块读取存储在模块上的EPROM或其它非易失性存储器件内的预先确定的和可访问的存储单元中的模块标识,可以实现查询模块。在其它情况下,通过对通信端口和交换机本身执行一个优选地简单的电测试来确定模块的结构类型。例如,如果连接性能测试(continuity testing)可以区分由系统200使用的通信端口的各种类型并且管理模块120可以控制这些端口,则电测试可以用于确定结构类型。以这种方式确定结构类型在例如进行了可选的服务器片插卡(图3中的标号135)的未授权插拔的情况下提供了一种确保措施,因为这样的变更可能不会反映在EPROM标识信息中。
如果管理模块确定未发生冷启动或当前系统配置不同于先前的配置,方法150将从恢复模式转变为“学习”模式。在学习模式中,管理模块120检测所有模块的当前电源状态和结构类型(框164)并将该信息存储在非易失性存储器中(框166)以供后续的电源复位期间使用。以这种方式,一个热插拔管理模块将接通电源并学习该管理模块被安装于其中的机柜的当前电源状态配置。在下一次机柜的交流电源转变之后,管理模块会作好了准备将系统恢复到先前状态。当模块被插入或移除,或电源许可在人工干预下被改变时,电源状态信息表140将发生更改。
对于从本公开受益的本领域的普通技术人员显而易见的是本发明构想了一种用于在一个多服务器共享电源配置中管理电源和电源恢复的网络和方法。应当理解,在详细说明和附图中示出和描述的本发明的形式只应被看作当前优选的实例。随后的权利要求书旨在被广泛地解释以包含所公开的优选实施例的所有变化形式。
权利要求
1.一种用于一个多服务器数据处理网络中的电源管理方法,包括响应于检测到电源转变,确定该电源转变是否表示冷启动;以及响应于确定该电源转变表示冷启动,检索电源状态信息并基于该电源状态信息为网络的至少某些模块恢复供电,其中该电源状态信息代表电源转变之前网络的电源状态,并且进一步地,其中该电源状态信息防止了为具有不兼容通信协议的网络模块供电。
2.权利要求1的方法,进一步包括,响应于确定该电源转变并不表示冷启动,查询所述网络模块的电源状态和通信协议类型并将该电源状态和通信协议信息存储在非易失性存储器中。
3.权利要求2的方法,其中查询所述网络模块包括从模块上的非易失性存储器件检索模块标识信息。
4.权利要求2的方法,其中查询所述网络模块的进一步的特征在于查询所述网络的服务器模块和交换机模块,每个服务器模块包括一个对称多处理器系统并且每个交换机模块配置成将所述诸服务器模块相互连接。
5.权利要求4的方法,其中每个网络模块和交换机模块的特征在于从以太网、光纤通道、光和串行通信协议选择的通信协议。
6.权利要求1的方法,其中恢复电源的进一步的特征在于恢复由电源状态信息表示为在先前的电源保持期间为接通的任何模块的供电;以及查询剩余模块的通信协议类型以基于剩余模块与已接通电源的模块的兼容性设置电源许可。
7.一种数据处理网络,包括多个服务器模块;至少一个连接所述服务器的交换机模块;以及一个在电源转变后参考存储的电源状态信息并基于该电源状态信息为至少某些服务器和交换机模块恢复供电的管理模块,用于防止管理模块为任何具有不兼容的通信协议的服务器和交换机模块恢复供电。
8.权利要求7的网络,其中所述多个服务器模块包括多个安装在一个单个机柜内的对称多处理器(SMP)服务器模块,并且其中所述至少一个交换机模块安装在所述机柜内,并且进一步地其中所述多个服务器模块和至少一个交换机模块共享包括系统电源的、网络的选定资源。
9.权利要求7的网络,其中所述多个服务器模块和至少一个交换机模块符合从以太网、光纤通道、光和串行通信协议选择的通信协议。
10.权利要求7的网络,其中所述管理模块配置为确定所述电源转变是否表示冷启动;以及响应于确定该电源转变表示冷启动,基于所述电源状态信息为至少某些模块恢复供电,其中该电源状态信息代表所述电源转变之前网络的电源状态,并且进一步地,其中该电源状态信息防止了所述管理模块为具有不兼容通信协议的网络模块供电。
11.权利要求10的网络,其中所述管理模块进一步配置为响应于确定该电源转变并不表示冷启动,查询所述各个模块的电源状态和通信协议类型并将该电源状态和通信协议信息存储在非易失性存储器中。
12.权利要求11的网络,其中每个模块包括存储在该模块上的非易失性存储器件中的模块标识信息,其中该标识信息表明通信协议类型。
13.权利要求11的网络,其中每个网络模块和交换机模块的特征在于从以太网、光纤通道、光和串行通信协议选择的通信协议。
14.权利要求11的网络,其中所述管理模块进一步配置为恢复由所述电源状态信息表示为在先前的电源保持期间为接通的任何模块的供电;以及查询剩余模块的通信协议类型以基于剩余模块分别与已接通电源的模块的兼容性设置其电源许可。
15.一种包括用于在一个多服务器数据处理网络中管理电源状态的计算机可执行代码的计算机程序产品,所述代码存储在计算机可读介质上,包括用于确定检测的电源转变是否表示冷启动的计算机代码单元;以及响应于确定该电源转变表示冷启动,用于检索电源状态信息并基于该电源状态信息为网络的至少某些模块恢复供电的计算机代码单元,其中该电源状态信息代表所述电源转变之前网络的电源状态并且进一步地,其中该电源状态信息防止了为具有不兼容通信协议的网络模块供电。
16.权利要求15的计算机程序产品,进一步包括响应于确定该电源转变并不表示冷启动,用于查询所述网络模块的电源状态和通信协议类型和将该电源状态和通信协议信息存储在非易失性存储器中的计算机代码单元。
17.权利要求16的计算机程序产品,其中用于查询网络模块的所述代码单元包括用于从该模块上的非易失性存储器件中检索模块标识信息的代码单元。
18.权利要求16的计算机程序产品,其中用于查询网络模块的所述代码单元的进一步的特征在于用于查询该网络的服务器模块和交换机模块的代码单元,每个服务器模块包括一个对称多处理器系统,并且每个交换机模块配置为将所述诸服务器模块相互连接。
19.权利要求18的计算机程序产品,其中每个网络模块和交换机模块的特征在于从以太网、光纤通道、光和串行通信协议选择的通信协议。
20.权利要求15的计算机程序产品,其中用于恢复供电的代码单元的进一步的特征在于用于恢复由所述电源状态信息表示为在先前的保持期间为接通的任何模块的电源的代码单元;以及用于查询剩余模块的通信协议类型以基于剩余模块与已接通电源的模块的兼容性设置电源许可的代码单元。
全文摘要
一种包括一组服务器、至少一个将所述诸服务器相互连接的交换机模块和一个管理模块的数据处理网络。所述管理模块在电源转变后参考存储在网络中的电源状态信息并基于该电源状态信息至少为某些服务器和交换机模块恢复供电。所述电源状态信息防止了管理模块为具有不兼容的通信协议的服务器和交换机模块恢复供电。在一个实施例中,所述多个服务器和交换机模块是都插入一个单个机柜的可热插拔模块。在该实施例中,所述多个服务器模块和至少一个交换机模块共享包括系统电源的、网络的选定资源。所述交换机模块和服务器可以采用以太网、光纤通道、光和串行通信协议。
文档编号G06F1/26GK1578298SQ20041003413
公开日2005年2月9日 申请日期2004年4月22日 优先权日2003年6月25日
发明者G·W·戴克, J·M·弗兰克, D·E·约翰逊, S·M·拉尔迪诺斯, M·S·罗林斯, D·R·伍德姆 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1