在计算机中心动态重新安排应用及其它服务器资源的方法

文档序号:6650851阅读:264来源:国知局
专利名称:在计算机中心动态重新安排应用及其它服务器资源的方法
技术领域
本发明一般涉及监控和控制计算机中心的冷却及功率消耗负荷(load),以及更具体来说,涉及使用自主及按需(on demand)计算领域的技术,以便允许计算机中心被动态地重新安排(reprovision),从而满足不断改变的热量耗散和功率消耗环境。
背景技术
随着时间的推移,对于更大计算能力的需要已经超过了计算机速度的增长。因此,不仅要购买新的计算机来替换较旧的、较慢的计算机,而且还需要越来越多的计算机,以便跟上公司及终端用户的不断增加的预期和需求。
这导致计算机变得越来越小。现代的服务器是就机架(rack)空间或“单元(U)”而被指定的,其中1U在标准的19O宽的机架中是1.75O高。因此,2U的计算机是3.75O高等。1U的服务器已经变得很普通,以及常常是公司服务器间里的选择。
然而,自含的计算机,即使在仅有1.75O高(即1U)时对于许多应用也仍然是过大的。所谓的“刀锋(blade)”服务器系统能够通过卸下(offload)某些硬件块(例如,电源、冷却、CD(光盘)驱动器、键盘/监视器连接等)到共享资源中来更密集地封装(pack)计算能力,所述刀锋位于所述系统中。例如,一种这样的刀锋系统是IBM“BladeCenter”。BladeCenter底架可以容纳14个刀锋(每个刀锋是一个独立的计算机,与BladeCenter中的其它刀锋共享电源和辅助资源),并且是一个7U单元(也就是说,其在标准的机架配置中是12.25O高的)。这是14个1U机器的一半大小,在相同的空间内允许有两倍的计算能力。
上面所提到的冷却是计算机中心面对的显著问题之一。当前的技术途径意味着,随着中央处理单元(CPU)变得更快,其会包含越来越多的晶体管,以及使用越来越大的功率。随着CPU使用更多的功率,CPU在操作时所产生的热量也会上升。这种热量必需从计算机中消除,因此,计算机中心具有仅为了使其中所包含的计算机冷却的显著的空调装置。服务器间里的空调装置的失效可能是灾难性的,因为,当CPU变得过热时(当其所产生的热量不被抽出时),其很快会发生故障。
随着计算机变得越来越快,以及在相同大小的空间里有越来越多的计算机,功率量和冷却这些计算机所需的设施非常迅速地增加,并且实际上,所述冷却设施的重要性正迅速地上升。而且,在所述冷却设施发生故障的情况下出现显著问题的时间迅速减少。
刀锋系统向着帮助减轻冷却问题的某种方式进行发展。例如,共享电源和冷却使得能够更有效率地冷却底架里所包含的刀锋。然而,在比计算机配置刀锋系统更小的空间里仍然还有更大的计算能力,因此,冷却问题依旧是非常显著的。
现代的冷却系统与其重要的作用相称,是复杂的系统。它们被计算机化,它们常常可以被网络化,以及它们常常可以远程地被控制。这些冷却系统具有许多传感器,所有传感器为冷却系统提供关于计算机中心的哪个区域过冷、哪个区域过热等的信息。
上面的内容涉及功率成本的问题。增加的计算机功率消耗需要购买更多的电力,以及这些计算机的相关增加的功率耗散和冷却需求需要购买甚至更多的电力。计算机中心的功率成本因此是大的,并且无疑是可变的。在现代的西方电力市场中,电力价格进行波动(到较大或较小的程度),以及,具有大的且相对固定的需求的计算机中心消费者受这些波动的影响很大。其中消费者能够确定对消费时的电力所收费的现场价格的设施变得越来越普通,其允许消费者选择响应当前的价格来修改对电力的需求(如果可能的话)。

发明内容
因此,本发明的一个目的是使用自主及按需计算领域的技术,以便允许计算机中心被动态地重新安排,从而满足不断改变的热量耗散和功率消耗环境。
根据本发明,如在按需计算机中心里所最佳说明的那样,其中的计算机上运行的主机应用中的一些或全部可以被移动(也就是说,从一个机器被重新定位到另一个机器)。尽管计算机中心的总热量耗散和功率消耗需求在一个长的时间期间(例如24小时的计算周期)可能保持不变,但是瞬时功率消耗和热量耗散负荷可以被改变,以更加有效率地及有效地使用计算机中心资源和减少峰值负荷。这可以通过将应用重新安排到具有低功率消耗和热量耗散负荷的计算机中心资源中和/或将应用重新调度(reschedule)到这些负荷在其间典型地是较低的时隙中来实现。假设中心的热量耗散需求是以某种方式与活动的计算机的数量及其是如何活动的有关的,则可以看出,重新定位应用将会改变计算机中心的热量耗散需求。此时,这种重新定位还将会改变计算机中心的功率消耗。另外,在按需计算机中心里的计算机所必需执行的任务中的一些或者全部可以被重新调度。也就是说,这些任务将要运行的时间可以被改变。可以看出,重新调度应用还会改变计算机中心的热量耗散(及功率成本)。
在这个优选实施例中,控制计算机接收到来自于中心的冷却系统的数据(该数据包括来自于冷却系统的传感器的数据),来自于中心的电源的数据,来自于中心里的计算机的数据(该信息可以来自于所述计算机本身或者来自于计算机中心里的其它控制计算机),以及来自于个体计算机里的硬件传感器的温度及功率消耗信息。控制计算机还(明确地或者通过动态位置确定)了解计算机中心里的计算机的相对位置。
除了上述内容之外,控制计算机被装备有实现算法的软件,所述算法预测冷却系统在某些情况下将如何运转,以及计算机中心的功率消耗在这些相同的情况下将会如何改变。这些算法还考虑了将各种应用重新定位到其它的计算机所引起的整个计算机中心的性能和功能的改变(这种认识是自主及按需系统中固有的)。
控制计算机现在能够评估其输入并且对计算机中心的配置进行改变(以重新定位和/或重新调度应用的方式)。其可以监控这些改变的效果,以及使用该信息来改进其内部算法和计算机中心的模型。
在另一个优选实施例中,控制计算能够直接控制冷却系统-具体来说,其可以将被提供给计算机中心的冷却的级别和位置改变到冷却系统所允许的程度。在该实施例中,控制计算机直接控制冷却系统,以试图为其所导出的软件配置中的每个实现热量耗散的适当级别。
在另一个优选实施例中,控制计算机是自主或按需控制系统的一个较次要的部分。其不能够直接重新定位应用,仅能建议管理控制系统来重新定位和/或重新调度所述应用。在该实施例中,管理控制系统可以出于以下原因而拒绝这些建议的重新定位,所述原因是控制计算机可能不被期望知道例如,重新定位和/或重新调度将会使计算机中心里的应用的一个或另一个发生故障或者达不到其性能目标。


参考附图,根据下面本发明的优选实施例的详细描述,前面以及其它目的、方面和优点将会更好地被理解,其中图1是说明了其中实现本发明的类型的数据中心部件的框图;图2是说明了包括多个实现本发明的优选实施例的数据中心部件的数据中心的框图;图3是说明了各种传感器的框图,用于对数据中心的冷却设备进行详述;图4是用于假定服务器的功率消耗曲线的图;以及图5是说明了本发明的优选实施例的操作的流程图。
具体实施例方式
现在参考附图,以及更具体来说,参考图1,图中示出了例如用于本发明的数据中心部件101。对于该实施例,所述数据中心部件101是IBM eServer xSeries 335;然而,任何数量的计算机,只要是与本发明有关的等同物,就可以在这里进行取代。所述数据中心部件101被连接到计算机网络连接装置102。计算机网络连接装置102可以是任何适当的网络技术,包括令牌环、ATM(异步传输模式)、以太网以及其它这种网络。本领域的技术人员应当认识到,所谓的“无线网络”也可以在这里进行取代。图1中还示出了给数据中心部件101提供电力的电源线103。在所述实施例中,电源线103通过电力监控设备104。该设备对数据中心部件101在任何给定的时刻正使用的功率的量进行监控。电力监控设备104被连接到报告网络105,通过该网络,其能够传送数据中心部件101的所监控的功率使用。
现在到图2,图2表示实现本发明的优选实施例的数据中心,图中示出了在图1里首先示出的数据中心部件101的多个实例。图2中还示出了图1的计算机网络连接装置102。在图2中,数据中心部件101中的每个到计算机网络连接装置102的连接进入网络交换设备202。本领域的技术人员应当认识到,集线器、路由器、防火墙或者其它网络连接设备同样会用于替代网络交换设备202。图2还示出了中央控制计算机203,其通过网络连接206也被连接到网络交换设备202。通过网络连接206,中央控制计算机203能够从数据中心部件101接收信息,以及向数据中心部件101发送命令。
图2还说明了到数据中心部件101的电力连接和电力报告装置201。这些电力连接和电力报告装置201包含有图1的电源线103、电力监控设备104以及电力报告网络105。为了清晰起见,这些部件部分从图2中被省略。电力连接和电力报告装置201的电力报告网络105部件部分连接到电力报告网络交换设备204(电力报告网络105可以是基于和计算机网络连接装置102相同的技术的,在所述情况下,电力报告网络交换设备204可以是与网络交换设备202相同类型的设备)。中央控制计算机203通过连接205也被连接到电力报告网络交换设备204。通过该连接205,中央计算机203能够监控数据中心部件101的电力使用。
图2还示出了中央计算机203到数据中心的冷却设备207的连接208。该连接208允许中央计算机203从数据中心的冷却设备207接收信息,以及向数据中心的冷却设备207发送命令。数据中心的冷却设备207在图3中更详细地被示出,现在参考图3。
图3对图2中被表示为207的数据中心的冷却设备进行详述。在这个实施例中,冷却设备包括多个温度传感器301、不同的多个冷却装置302、以及不同的多个气流传感器303。这些温度传感器301、冷却装置302、以及气流传感器303的全部都被连接到连接装置304,其组合对应于图2的连接208。
现在到图4,图4说明了假定服务器的功率消耗曲线。该计算机在空闲时消耗40瓦特功率。该特定的计算机向着曲线的顶端使用越来越多的功率而有越来越少的益处-在30%利用率处,其使用50瓦特(仅比空闲时多10瓦特),但是在100%利用率处,其使用200瓦特。
本领域的技术人员应当认识到,所示的曲线是理想的。实际计算机的功率消耗是比所示的更加复杂的,以及不仅取决于CPU的利用率。然而,该假定的曲线足以说明即将进行的本发明。
特定的数据中心包括10个同样的计算机,其全部都具有图4所示的功率消耗特性-也就是说,所述10个计算机是同样的。该数据中心仅需要运行单个计算任务的10个实例。该计算任务需要数据中心里的计算机的CPU的30%,并且不可以再多使用。因此,可以容易的看出,为了获得最大的性能,每个计算机上可以运行不多于3个计算任务实例-单个计算机上的3个实例将消耗CPU的90%,以及,再增加一个实例会使得性能遭受不再有足够的CPU供应的情况。
因此,有各种方法来确定将任务安装在数据中心里的计算机上的何处。简单的装箱(bin-packing)方法将会决定在3个计算机的每个上安装3个任务(总共9个任务),以及剩余的一个任务在第四计算机上。因此,前三个计算机将会以90%的CPU利用率运行,而第四个将以30%的CPU利用率运行。该配置(配置A)的功率消耗如下(3H170)+(1H50)=620Watts另外的配置(配置B)将是在10个计算机的每个上安装一个任务。在配置B中,所有10个计算机都会以30%的CPU利用率运行,产生的功率消耗为(10H50)=500Watts然而,检查图4所示的功率曲线,可以看出,明智的配置(配置C)是其中在5个计算机的每个上安装2个任务的配置,产生的功率消耗为(5H75)=375Watts实际上,这是所描述的系统的最佳功率消耗配置。
上面的讨论假设没有使用的计算机可以通过控制计算机而被断开。如果不是这种情况下,并且没有运行一个或多个任务的计算机必需保持打开,但却是空闲的,则所描述的三种配置的功率消耗数字改变如下配置A’(3H170)+(1H50)+(6H40)=860Watts配置B’(10H50)=500Watts配置C’(5H75)+(5H40)=575Watts在这种变形中,控制计算机的最佳选择是配置B’,因为,在机器上运行一个任务实例相对于在相同的机器上不运行实例的增加成本是很低的(仅10瓦特)。
现在到图5,图5说明了本发明的优选实施例的操作。图5表示控制计算机内的控制流程。首先,控制计算机收集501当前工作负荷,即热量负荷和电力负荷的特性。该信息通过图2所示的通信装置205和206而被收集。接着,控制计算机优化和平衡502这样确定的热量负荷和/或功率负荷的工作负荷。优化可以通过本领域的技术人员所能获得的及想到的许多技术来实现。
在优化步骤502之后,控制计算机具有优化步骤所建议的应用重新定位的列表。在步骤503,控制计算机确定该列表中是否有任何项目。如果有,则控制计算机联系504重新定位控制器,并且请求应用被如此移动。然后,返回步骤503,以处理重新定位列表中的下一项目。当列表变为空时,控制计算机进行到步骤505。如果没有指令需要用于冷却系统,则处理返回,以在步骤501收集工作负荷、电力、负荷和热量负荷特性。在需要于冷却系统内进行调节的情况下,步骤506将发送指令给冷却系统。
现在,执行回到步骤501处的控制计算机的操作流程的开始。
尽管本发明已经就优选实施例而被描述,但是,本领域的技术人员应当认识到,本发明可以在所附权利要求的精神和范围之内通过修改而被实施。
权利要求
1.一种用于响应功率消耗和热量耗散信息在计算机中心里动态地重新安排应用及其它服务器资源的方法,所述方法包括以下步骤对计算机中心所包括的多个数据中心部件中的每个的功率消耗或者温度中的至少一个进行监控;以及,或者a)根据需要,将一个或多个应用从一个或多个数据中心部件重新定位到所述计算机中心的其它数据中心部件,以改变所述计算机中心内的功率消耗和热量耗散负荷中的至少一个;或者b)根据需要,重新调度所述计算机中心的一个或多个数据中心部件上运行的一个或多个应用,以改变所述计算机中心内的功率消耗和热量耗散负荷中的至少一个。
2.根据权利要求1的方法,其中,步骤a)被执行。
3.根据权利要求1的方法,其中,步骤b)被执行。
4.根据权利要求1的方法,还包括以下步骤根据需要,控制所述计算机中心内的冷却设备,以改变所述计算机中心内的热量耗散负荷。
5.根据权利要求1的方法,其中,所述重新定位步骤对所述计算机中心内的功率消耗和热量耗散负荷都进行改变。
6.根据权利要求1的方法,其中,所述重新调度步骤对所述计算机中心内的功率消耗和热量耗散负荷都进行改变。
7.一种用于响应功率消耗和热量耗散负荷在计算机中心里动态地重新安排应用及其它服务器资源的系统,所述系统包括用于对计算机中心所包括的多个数据中心部件中的每个的功率和温度中的至少一个进行监控的装置;以及,或者a)用于根据需要,将一个或多个应用从一个或多个数据中心部件重新定位到所述计算机中心的其它数据中心部件,以改变所述计算机中心内的功率消耗和热量耗散负荷中的至少一个的装置;或者b)用于根据需要,重新调度所述计算机中心的一个或多个数据中心部件上运行的一个或多个应用,以改变所述计算机中心内的功率消耗和热量耗散负荷中的至少一个的装置。
8.一种用于响应功率消耗和热量耗散负荷在计算机中心里动态地重新安排应用及其它服务器资源的系统,所述系统包括用于对计算机中心所包括的多个数据中心部件中的每个的功率消耗和温度中的至少一个进行监控的装置;用于根据需要,将一个或多个应用从一个或多个数据中心部件重新定位到所述计算机中心的其它数据中心部件,以改变所述计算机中心内的功率消耗和热量耗散负荷中的至少一个的装置;以及用于根据需要,重新调度所述计算机中心的一个或多个数据中心部件上运行的一个或多个应用,以改变所述计算机中心内的功率消耗和热量耗散负荷中的至少一个的装置。
全文摘要
计算机中心里的应用和其它服务器资源响应功率消耗和热量耗散负荷而被动态地重新安排。计算机中心所包括的一个或多个数据中心部件中的每个的功率消耗和温度被监控。基于所监控的功率消耗和温度,根据需要,来自于一个或多个数据中心部件的一个或多个应用被重新定位到计算机中心的其它数据中心部件,以改变计算机中心内的功率消耗和热量耗散负荷。再有,基于所监控的功率消耗和温度,根据需要,计算中心的一个或多个数据中心部件上运行的一个或多个应用可以被重新调度,以改变计算机中心内的功率消耗和热量耗散负荷。计算机中心内的冷却设备也可以根据需要而被控制,以改变计算机中心内的热量耗散负荷。
文档编号G06F11/30GK1779600SQ200510124658
公开日2006年5月31日 申请日期2005年11月14日 优先权日2004年11月23日
发明者伊恩·N·维尔利, 史蒂夫·R.·怀特 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1