具有液体冷却模块的服务器机柜的制作方法

文档序号:18271323发布日期:2019-07-27 09:41阅读:140来源:国知局
具有液体冷却模块的服务器机柜的制作方法

本发明涉及到服务器机柜的领域,所述服务器机柜分别包括一个或多个计算机服务器并且由液体冷却模块冷却。



背景技术:

在第一项现有技术中,已知使用空气冷却封装在服务器机柜中的计算机服务器。计算机服务器包括处理器,其具有容纳在计算刀片中的相关电子元件,所述计算刀片插入服务器中,所述服务器安装在框架上并且一个接一个叠置在也被称为机架的服务器机柜上。这些刀片的电子元件通过空气冷却,所述空气在循环空气的平行路径中移动,所述循环空气通过风扇穿过刀片移动。但是,尽管在每个服务器机柜中的计算机服务器的数量和密度以及容纳计算机簇的室内的服务器机柜的数量和密度保持适中的情况下,这种空气冷却系统是有效的,但是在每个服务器机柜中计算机服务器的数量和密度以及室内服务器机柜的数量和密度显著增加,达到相对较小的室内设置大量服务器机柜,每个服务器机柜在有限空间内容纳大量计算机服务器的情况下,所述空气冷却系统则变得不足了。

在第二项现有技术中,已知使用液体冷却系统。所述液体冷却系统基本上普遍包括用流经服务器机柜的流体冷却剂填充的液压回路、使流体冷却剂在液压回路中循环的装置以及能够冷却流体冷却剂的冷却装置。通常,使流体冷却剂循环的装置以及冷却装置未容纳在服务器机柜中,因为冷却剂泄漏的风险很大,尤其是因为冷却剂的质量不受液体冷却模块的监测。而且,因为流经服务器机柜的液压系统通道的直径较小,所以液压系统存在严重的污染风险。此外,这些冷却系统占用大量空间,这样对容纳服务器机柜的计算机室的空间需求提出了一个重大问题,因为这些计算机室不仅容纳服务器机柜,而且还必须容纳其冷却系统。因此,如果发生故障或泄漏,必须关闭这些冷却系统及相应的服务器机柜。

在第三项现有技术中,已知使用包括两个液体冷却模块的液体冷却系统,第一个模块在运行中,第二个模块处于非活动状态,但是准备在第一个模块发生故障时取而代之。在1+1冗余度下运行的这个冷却系统相对简单而且稳定。但是,其效用是有限的。采用大尺寸液体冷却模块,服务器机柜总共只能消散80kw的热量。



技术实现要素:

本发明的目的是提供一种服务器机柜,至少部分地克服上述缺点。

更具体而言,本发明的目的是提供一种服务器机柜,其中,冷却系统在服务器机柜所需空间与运行过程中其中一个冷却模块发生故障情况下的鲁棒性(robustness)之间提供更好的折衷,其方式对服务器机柜运行的干扰较小,从而避免降低其计算性能。

根据本发明,未保留第一项现有技术,因为它在本质上受到明显低于液体冷却剂热容的空气热容的限制。通过以高密度将大量服务器机柜分组的计算机簇,每个服务器机柜都包含大量计算机服务器,所述计算机服务器以高密度堆叠在彼此之上,冷却性能要求似乎过高,无法通过空气冷却来满足。

根据本发明,未保留第二项现有技术,因为它需要大尺寸的共用元件,比如冷却剂循环泵,这可能存在两个缺点。第一个缺点在于,这些大元件占据很大的空间,这在以高密度将大量服务器机柜分组的计算机簇中变得至关重要,每个服务器机柜包含大量以高密度堆叠的计算机服务器。第二个缺点在于,在发生故障时,这些共用元件由于是共享的,所以在通用系统中会变成薄弱环节。不仅必须关闭这些元件,而且还必须关闭依赖这些有故障的项目进行冷却的所有服务器机柜,当然还有其所有计算机服务器,如果其计算机冷却系统的某些元件发生故障,这会导致计算机簇的计算性能严重下降。

根据本发明,第三项现有技术造成以下困境。在第一个方案中,保留了模块的冗余,而且冷却系统在发生故障时是稳定的;但是,有必要针对正常模式下的冷却对其进行大量的过度设计,因为与冷却整个服务器机柜的冷却模块一样大的冷却模块仍然处于非活动状态,并且因此未使用。在第二个备选方案中,未保留模块的冗余,而且可以针对正常模式下的冷却对冷却系统进行适当的设计;但是,该冷却系统对即使是单个冷却模块的故障也很敏感,因为这种故障会自动导致冷却能力显著下降,即冷却能力减半,要求迅速地完全关闭相关服务器机柜。

根据本发明,考虑通过把冗余至少增加到2+1来改进第三项现有技术,换言之,2+1即至少三个冷却模块之中的至少两个持续冷却,而第三个冷却模块则保持非活动状态,但是准备在处于运行中的两个冷却模块之一发生故障时取而代之。考虑主/从架构。尽管这个架构在从模块发生故障时稳定,但是它对主模块的故障仍然很敏感,所述主模块再次构成冷却系统的薄弱环节。而且,除了从属冷却模块外,还必须随手必备一些更换主冷却模块的存货。

本发明因此提出可有利地互换的多个冷却模块,除了其中一个冷却模块处于非活动状态,以便在处于运行的任何冷却模块发生故障时取而代之外,所有所述冷却模块都在冷却。然后,这些冷却模块通过无主/从的协作协议相互通信,由此消除了薄弱环节,同时补偿了运行中的冷却模块的故障,并且确保在不关闭冷却系统或相应服务器机柜的情况下现场更换所述冷却模块,与此同时占据服务器机柜内较少的总空间。根据本发明,该协作协议伴随着每个冷却模块的更大的自主性,因为它现在必须执行以前没有执行过的任务。在冷却模块可互换的情况下,这样也减少了要随手必备的更换冷却模块的类型的数量。

根据本发明的一个优选实施例,为同一个服务器机柜中的计算机服务器提供具有2+1冗余的至少120kw的冷却。容量分别为60kw的三个模块足以代替根据第三项现有技术的容量分别为120kw的两个模块。服务器机柜中节省的空间很大。因此没有主控制器,所以冷却管理不集中,也未变成关键点。本发明的非集中化导致使用协作操作协议,因此没有主从协议,其中,所有冷却模块都在同一级别通信,它们之间没有层级关系;因此它们都是平等的。

为此目的,本发明提供一种服务器机柜,其包括:至少一个计算机服务器,以及用于所述服务器的至少一个液体冷却模块,特征在于:机柜包括通过无主/从的协作协议相互通信的至少三个液体冷却模块,以n+1冗余度运行,其中n大于或等于2,以便在不停止服务器机柜的冷却并且不停止位于服务器机柜中的服务器的运行的情况下,能够对任意冷却模块进行标准更换,每个液体冷却模块包括其各自的冷却调节和故障检测系统。

为此目的,本发明还提供一种冷却系统,其包括用于位于服务器机柜中的至少一个计算机服务器的至少一个液体冷却模块,其中:机柜包括位于服务器机柜中并且通过无主/从的协作协议相互通信的至少三个液体冷却模块,以n+1冗余度运行,其中n大于或等于2,以便在不停止服务器机柜的冷却并且不停止位于服务器机柜中的服务器的运行的情况下,能够对任意冷却模块进行标准更换,每个液体冷却模块包括其各自的冷却调节和故障检测系统。

因此,根据本发明的优选实施例,液体冷却模块可以在不停止服务器机柜或其容纳的计算机服务器的运行的情况下进行互换维护。该液体冷却模块具有其各自的电子件用于调节和故障检测,同一服务器机柜的液体冷却模块之间独立协作运行,服务器机柜没有主控制器。优化后的冗余度,即n个模块处于运行状态,一个模块处于非活动状态,降低了能耗。把冗余模块设置为非活动的这个决定是由同一服务器机柜的所有冷却模块基于协作算法做出的。

根据优选实施例,本发明包括以下特征中的一项或多项,可以单独采用或者与本发明的前述对象相结合采用。

优选地,服务器机柜包括直接冷却计算机服务器的次液压回路,液体冷却模块与次液压回路相互并联。这样更好地确保不同冷却模块在发生故障时彼此独立,无需旁路电路,所述旁路电路会增加冷却系统的复杂性。

优选地,服务器机柜包括用于连接到在服务器机柜外部的散热器的一部分主液压回路,液体冷却模块与这部分主液压回路相互并联。这样更好地确保不同冷却模块在发生故障时彼此独立,无需旁路电路,所述旁路电路会增加冷却系统的复杂性。

优选地,服务器机柜包括直接冷却计算机服务器的次液压回路,次液压回路中液体冷却剂的温度为20℃至45℃。该温度范围确保待冷却的大部分计算机服务器的适当运行。

优选地,其中一个冷却模块在大部分冷却时间内保持关闭状态,优选在至少90%的冷却时间内保持关闭状态。冗余因此充分发挥作用,如果其它冷却模块之中的一个冷却模块发生故障,该模块便准备取而代之,大大降低了随后也立即发生故障的风险。

在第一个可选方案中,始终是同一个冷却模块在大部分冷却时间内保持关闭状态。如果其它冷却模块之中的一个冷却模块发生故障,该模块便像新的一样,准备取而代之,没有随后也立即发生故障的风险。

在第二个可选方案中,每个冷却模块都周期性地轮流相继在大部分冷却时间内保持关闭状态。如果其它冷却模块之中的一个冷却模块发生故障,该模块便准备取而代之,随后也立即发生故障的风险相对较低。同一服务器机柜的所有冷却模块有规律地使用,并且呈现类似程度的磨损,这样可以简化同一计算机室内冷却模块池的管理。

优选地,所有冷却模块在大部分冷却时间内一起冷却,优选地,仅在初始阶段和/或在冷却模块的重置阶段和/或在外部散热器临时失灵期间一起冷却,服务器机柜通过主液压回路的一部分连接到所述外部散热器。因此,不仅在其它冷却模块之中的一个冷却模块发生故障的情况下,冗余的冷却模块,即非活动冷却模块,可以取而代之,而且在不利条件下,即在其它冷却模块虽然没有发生故障,但是不再能够确保预期的冷却水平的情况下,冗余的冷却模块帮助随后全部继续运行的其它冷却模块。

优选地,机柜包括通过无主/从的协作协议相互通信的至少3至5个液体冷却模块,以n+1冗余度运行,其中n介于2至4之间,以便在不停止服务器机柜的冷却并且不停止位于服务器机柜中的服务器的运行的情况下,能够对所述任何冷却模块进行标准更换。这种适当但是足够数量的冷却模块是正常冷却模式下的效率与发生故障时的鲁棒性之间很好的折衷。

优选地,液体冷却模块在平等的基础上相互通信,仅受总管理器管制,所述总管理器管理服务器机柜池冷却计算机服务器簇,并且除了通过服务器机柜池冷却外,还管理该计算机服务器簇的其它几项功能,包括启动计算机服务器簇以及分配任务,例如,计算任务。这样使冷却系统在发生故障时整体更稳定,因为即便在簇架构的较高级别也消除了薄弱环节,同时还提高了每个冷却模块的自主性。

优选地,每个冷却模块消散至少50kw的热量,优选为至少60kw的热量。因此,简单的2+1冗余已经确保有效消散大量的热量,同时并不占用服务器机柜中过多的空间。

优选地,服务器机柜包括直接冷却计算机服务器的次液压回路,服务器机柜包括用于连接到在服务器机柜外部的散热器的主液压回路的一部分,热交换器通过主液压回路冷却次液压回路,次液压回路出口与主液压回路入口之间的温差为0℃至6℃。热交换器因此提供冷却模块的冷却效率与紧凑尺寸之间的良好折衷。

优选地,每个冷却模块的冷却调节和故障检测系统包括一个或多个温度传感器、一个或多个压力传感器、漏水传感器、检测阀门开启角度的位置的传感器。这组传感器确保冷却模块在正常冷却模式下适当运行,同时确保在发生故障或失灵时快速响应。

优选地,每个冷却模块的冷却调节和故障检测系统包括负责打开和关闭冷却模块泵的继电器的致动器,以及负责控制阀门开启角度的阀门致动器。这些元件都有助于提高冷却模块的自主性。

优选地,所有冷却模块都是能够互换的,优选的是相同的。这样减少了要随手必备的代替冷却模块的类型的数量。

优选地,所有液体冷却模块都位于服务器机柜下部,在所有计算机服务器下面。因此,在冷却模块中冷却剂有限泄漏的情况下,泄漏液体没有机会流到其中一个计算机服务器上或者中断操作。

优选地,在次液压回路中循环的流体冷却剂有残余压力,在不再泵送的情况下,所述残余压力大于0.8巴,优选的大于1.2巴,更优选的大于2巴。因此降低或消除了泵气蚀的风险。

优选地,服务器机柜包括分别位于热交换器两侧的一部分主液压回路以及次液压回路、调节一部分主液压回路中流量的阀门、位于交换器出口处的次液压回路中的温度传感器,通过所述温度传感器控制所述阀门,优选地通过比例-积分-微分(pid)控制器进行控制。这种类型的反馈控制简单有效,适合并且足以适当地调节服务器机柜的冷却。

优选地,每个液体冷却模块包括其各自的在一部分主液压回路与次液压回路之间的热交换器,以及其各自的用于在次液压回路中循环流体冷却剂的泵。因此提高了冷却模块的自主性。

优选地,唯一允许在服务器机柜现场进行的冷却系统的维护是冷却模块的标准更换,这包括在不中断冷却或者计算机的一个或多个服务器的运行的情况下移除有故障的冷却模块并用备用冷却模块将其更换。通过服务器机柜及其冷却系统的结构可能实现这种更简单、更安全的维护,所述结构以自主并且有利的可互换的冷却模块为基础,如本发明所提出的。

本发明的另一个目的是提供一种服务器机柜,其中冷却系统在服务器机柜所需空间与其中一个冷却模块在运行过程中发生故障时的鲁棒性之间提供更好的折衷,其方式降低对服务器机柜运行的干扰,从而避免降低其计算性能。

根据本发明的这另外一个目的,这涉及到解决以下困境。在第一个方案中,保留模块的冗余,而且冷却系统在发生故障时是稳定的;但是,有必要针对正常模式下的冷却对其进行大量的过度设计,因为与冷却整个服务器机柜的冷却模块一样大的冷却模块仍然处于非活动状态,并且因此未使用。在第二个备选方案中,未保留模块的冗余,而且可以针对正常模式下的冷却对冷却系统进行适当的设计;但是,该冷却系统对即使是单个冷却模块的故障也很敏感,因为这种故障会自动导致冷却能力显著下降,即冷却能力减半,要求迅速地完全关闭相关服务器机柜。

根据本发明的这另外一个目的,考虑通过把冗余至少增加到2+1来改进现有技术,换言之,2+1即至少三个冷却模块之中的至少两个持续冷却,而第三个冷却模块则保持非活动状态,但是准备在处于运行中的两个冷却模块之一发生故障时取而代之。考虑主/从架构。尽管这个架构在从模块发生故障时稳定,但是它对主模块的故障仍然很敏感,所述主模块再次构成冷却系统的薄弱环节。而且,除了从属冷却模块外,还必须随手必备一些代替主冷却模块的存货。

本发明这另外一个目的于是提出保留可有利地互换的多个冷却模块,除了其中一个冷却模块处于非活动状态,以便在处于运行的任何冷却模块发生故障时取而代之外,所有所述冷却模块都在冷却。然后,这些冷却模块通过无主/从的协作协议相互通信,由此消除了薄弱环节,同时补偿了运行中的冷却模块的故障,并且确保在不关闭冷却系统或相应服务器机柜的情况下现场更换所述冷却模块,与此同时占据服务器机柜内较少的总空间。根据本发明的这另外一个目的,该协作协议伴随着每个冷却模块的更大的自主性,因为它现在必须执行以前没有执行过的任务。在冷却模块可互换的情况下,这样也减少了要随手必备的更换冷却模块的类型的数量。

根据本发明这另外一个目的的一个优选实施例,提供具有2+1冗余的至少120kw的冷却。容量分别为60kw的三个模块足以代替另外可能需要的容量分别为120kw的两个模块。服务器机柜中节省的空间很大。因此没有主控制器,所以冷却管理不集中,也未变成关键点。本发明的这另外一个目的中采用的非集中化导致使用协作操作协议,因此没有主/从协议,其中,所有冷却模块都在同一级别通信,它们之间没有层级关系;因此它们都是平等的。

如此非集中化会导致发生故障时冷却系统更稳定。但是,与等级分明的主/从通信不同,如果多个冷却模块通过协作协议在平等的基础上彼此通信,所述冷却模块不是另一个模块的主模块,另一个模块也不是所述冷却模块的从属模块,在冷却模块之间这种不分等级的通信中会便出现不一致或不理解的风险,这样会在可能引起整个服务器机柜的冷却系统不稳定的特定条件下引起任何冷却模块的过早的状态改变。为了降低这种不稳定性的风险,在某些状态改变之前,明确提出验证某些数据的一致性的步骤,并且至少在特定基础上观察到这种一致性时,伴随着验证这种一致性随着时间的稳定性。

验证一致性并且验证该一致性随着时间的稳定性的这种双重额外的预防措施保留其在协作协议中的所有灵活性及其大部分效用,同时降低或消除了通用冷却系统在服务器机柜处偏离或不稳定的风险,该风险可能是由一个或多个服务器机柜冷却模块中不希望的或者至少是过早的状态改变导致的。在一个或多个服务器机柜冷却模块中不希望的或者至少是过早的状态改变的可能性中,尤其是冷却模块过早转变为冗余冷却模块状态,换言之,根据本发明的该另外一个目的的非活动状态是针对冷却系统不稳定性的最重大的风险。本发明的这个更进一步的目的实际上是寻求冷却模块的冗余,换言之,其非活动性,随着时间保持稳定,并且无中断地持续相当长的时间,从而保持更有效的冗余。如果冗余的冷却模块,因此处于非活动状态,花费时间在非活动状态与运行状态之间来回变动,这并不比它一直保持在运行状态好多少。

为此目的,本发明这另外一个目的提供在一个或多个计算机服务器的冷却系统的多个液体冷却模块之间通信的方法,其中:冷却模块以n+1冗余度运行的方式相互通信,其中,n大于或等于2,以便在不停止冷却,并且不停止一个或多个服务器的运行的情况下,能够对所述任何冷却模块进行标准更换,通过无主/从的协作协议确保这种通信,在从进行冷却的活动模式切换到不再冷却的备用模式之前,冗余的冷却模块事先验证这些所有冷却模块中的数据集是一致的,并且在预定的时间内保持这种一致性。

根据优选实施例,本发明这另外一个目的包括可单独采用或者相结合采用的以下特征中的一项或多项。

优选地,冷却模块通过以太网相互通信。该以太网非常适合通过在机柜内的冷却模块之间交换简单消息而进行的这些本地通信。

优选地,该以太网也是把外部命令传送到计算机服务器的网络,并且是将可以参与执行同一个计算任务的多个服务器机柜分组的计算机簇的总网络。因此,现有以太网成本效益更好,不必通过添加额外的专用网络来增加冷却系统的复杂性。

优选地,在初始阶段,每个冷却模块至少广播其标识符以及其所在的服务器机柜的标识符。位于同一个服务器机柜中的同一组冷却模块因此可以确保快速与该组其它冷却模块建立联系,尽管其尚未知晓这些冷却模块。

优选地,在这个初始阶段,每个冷却模块已经接收像其本身一样位于同一个服务器机柜的另一个冷却模块的标识符,每个冷却模块发回一条目标消息,所述目标消息确认接收并且传达其各自的标识符及其共用服务器机柜的标识符,以便形成与属于其它信息交换组的其它冷却模块分离的信息交换组。位于同一个服务器机柜中的同一组的各个冷却模块因此可以与所有相关冷却模块建立组内通信,不受其它组的冷却模块干扰。

优选地,完成这个初始阶段之后,每个冷却模块按照更新周期定期将其数据发送到它已经识别的信息交换组的其它冷却模块。同一个服务器机柜的所有冷却模块因此具有关于服务器机柜其它冷却模块的数据的最新数据,可能近乎实时数据,这样改善并简化了模块之间的通信,尤其是因为该通信以协作协议为基础,如果冷却模块尽可能具有最新的数据,所述协作协议便更加有用。

优选地,每个冷却模块可分别具有至少以下两种状态:在活动模式下,冷却模块所处的自主状态是正常冷却但不能与其它所有冷却模块同步;或者在活动模式下,冷却模块所处的调节状态是正常冷却并且能够与其它所有冷却模块同步。这两种运行模式的存在因此提高了冷却系统的整体运行,因为在冷却模块之间没有同步的情况下能够进行虽然不是优化但却有效的冷却,并且因此仍然使服务器机柜的计算机服务器能够运行,而且因为在冷却模块之间没有同步的情况下提供优化冷却,这样会在优化条件下使冷却模块能够切换到冗余状态,即非活动状态。

优选地,每个冷却模块可分别具有至少以下两种状态:在发生故障的情况下,冷却模块所处的故障状态是所述冷却模块本应继续正常冷却,但却已经停止正常冷却;在备用模式下,冷却模块所处的冗余状态是非活动状态,但仍然准备在冷却模块发生故障时立即将其取代。其中一个冷却模块的故障状态会警告处于冗余状态的其它冷却模块,使其能够取代前者,以便为服务器机柜的计算机服务器提供足够的冷却。

优选地,当冷却模块切换到故障状态时,所述冷却模块自己关闭其在次液压回路中的冷却剂循环泵。在没有主冷却模块的情况下,每个冷却模块都必须单独执行额外的任务,以确保整个冷却系统更好的运行。

优选地,当其中一个冷却模块在开始时成功地达到自主状态时,服务器机柜像其容纳的计算机服务器一样启动。服务器机柜因此非常迅速地开始运行,同时确认最低限度的冷却已经可供使用,从而避免正在启动但尚未充分冷却的服务器机柜紧急关闭。

优选地,每个冷却模块分别具有一组参数,包括:冗余冷却模块参数,指向被授权在下一个有利时机切换到冗余状态的冷却模块的标识符;至少一个冷却调节参数,指向冷却调节参数的设定点。至少通过这几个有用的参数,每个冷却模块因此具有关于冷却系统的更完整的状态报告。

优选地,冷却调节参数是次液压回路中流体冷却剂离开热交换器时的目标温度。该参数尤其代表冷却系统的适当运行,更好地确保计算机服务器的温度不接近允许的极限。

优选地,每个冷却模块都具有一致性指标,同时满足以下三个条件时,所述一致性指标为正:所述冷却模块已经接收来自所有其它冷却模块的至少关于冗余的冷却模块参数和冷却调节参数的值,在第一预定持续时间内将其更新,冗余的冷却模块参数的所有接收值等于超出第二预定持续时间内关于冗余的冷却模块参数的自身值,冷却调节参数的所有接收值等于超出第三预定持续时间内关于冷却调节参数的自身值,如果不满足这三个条件中至少一个条件,所述一致性指标为负,所述冷却模块仅在其一致性指标变为正时才从自主状态变为调节状态。正是这个一致性指标使所有冷却模块能够以简单有效的方式验证已经实现其同步性,而且应该很快达到优化将其中一个冷却模块切换到冗余状态的有利条件。

优选地,第一持续时间至少是冷却模块数据周期的两倍,第一持续时间优选为1至10秒,更优选地为2至10秒。所述持续时间提高了冷却系统在漂移(drift)时的响应能力,而不会明显增加冷却调节回路中不稳定的风险。

优选地,第二和第三持续时间为5至60秒,更优选地为10至60秒,第二和第三持续时间有利地相等。所述持续时间提高了冷却系统在漂移时的响应能力,而不会明显增加冷却调节回路中不稳定的风险。

优选地,当冷却模块不再将其数据与其它冷却模块通信时,评估其它冷却模块的一致性指标时,便不再考虑其储存在存储器中的数据。冷却模块之间的通信以及根据通信数据做出的决定因此不再受到过时数据的污染,所述过时数据不再与本应该表示的冷却模块的实际状态相对应。

优选地,每个冷却模块都具有的稳定性指标,同时满足以下三个条件时,所述稳定性指标为正:所有冷却模块的一致性指标至少在第四持续时间内为正,所述第四持续时间优选为比第一、第二和第三持续时间长,冷却模块都没有收到任何冷却失灵警报,最多其中一个冷却模块处于冗余状态,所有冷却模块或者所有其它冷却模块都处于调节状态;如果不满足这三个条件中至少一个条件,所述稳定性指标为负;所述冷却模块仅在同时满足以下两个条件时才从调节状态变为冗余状态:其冗余冷却模块参数指向其自身的冷却模块标识符,其稳定性指标变为正。正是这个稳定性指标使所有冷却模块不仅能够简单有效地验证已经实现其同步性,而且该同步性随着时间保持稳定,而且满足了优化将其中一个冷却模块切换到冗余状态的预期有利条件。

优选地,第四持续时间大于1分钟,优选地为2至5分钟。所述持续时间提高了冷却系统在漂移时的响应能力,而不会明显增加冷却调节回路中不稳定的风险。

优选地,如果所有冷却模块至少在第五预定持续时间内保持在自主状态,则会在服务器机柜外发生操作员干预,这第五持续时间优选大于10分钟。实际上,如果冷却模块已经全部达到自主状态,这意味着所述冷却模块都能够运行,但是如果未能在合理时间内同步,则有可能在另一个层面存在问题,因此仅靠冷却模块难以解决;由于其成本问题,尽量将操作员干预减少到最少,所述操作员干预于是变得非常有用并因此具有成本效益。

优选地,当冷却模块切换到故障状态时,评估其它冷却模块的一致性指标时,便不再考虑其数据。冷却模块之间的通信以及根据通信数据做出的决定因此不再受到过时数据的污染,所述过时数据不再与本应该表示的冷却模块的实际状态相对应。

优选地,由每个冷却模块发送到其它冷却模块的数据包括:其冷却模块组的标识符,所述冷却模块拟相互通信并且位于同一个服务器机柜中,一起冷却位于该服务器机柜中的一组计算机服务器;其各自的冷却模块标识符;其冗余冷却模块参数的值;其冷却调节参数的值;与是否存在冷却失灵警报相对应的布尔参数(booleanparameter)。通过至少这几个有用的参数并通过交换其值,冷却模块因此分别具有针对冷却系统的更完整的状态报告。

优选地,刷新周期为0.5至2秒。该持续时间提高了冷却系统在漂移时的响应能力,而不会明显增加冷却调节回路中不稳定的风险。

优选地,当其中一个冷却模块切换到故障状态时,那么:其冗余冷却模块参数指向其各自的冷却模块标识符;把命令发送到其它冷却模块,以便将其冗余冷却模块参数指向该故障冷却模块的标识符;处于冗余状态的冷却模块切换到调节状态或自主状态;除故障冷却模块的电路控制板外,这个故障冷却模块的所有功能元件的电源均被禁用。因此,故障冷却模块与要将其取代的冗余冷却模块之间的切换更顺畅。

优选地,当其中一个冷却模块切换到故障状态时,可将其切换到排除状态,然后:来自操作员的特定命令指示排除这个冷却模块,来自操作员的特定命令指示需要包含这个冷却模块,从而重新启动被排除的冷却模块,简单重启其电路控制板并不能够进行所述重新启动。

优选地,当其中一个冷却模块离开排除状态时,那么:来自操作员的特定命令指示包含这个冷却模块,并且重新激活已经发生故障的这个冷却模块的所有功能元件的电源。

由于明确做出了排除决定,为了再次将相应冷却模块包含到运行的冷却系统中,在此要求做出明确决定是更加安全的,也是为了降低通用冷却系统中不稳定的风险。

优选地,当其中一个冷却模块切换到自主状态或调节状态或冗余状态时,所述冷却模块可以不经过故障状态而直接进入排除状态,然后:来自操作员的特定命令指示排除这个冷却模块,来自操作员的特定命令指示需要包含这个冷却模块,从而重新启动被排除的冷却模块,简单重启其电路控制板并不能够进行所述重新启动。除故障外,对通用冷却系统构成风险的其它类型的失灵会导致排除受所述其它类型失灵影响的冷却模块。

本发明的另一个目的是提供一种自主液体冷却模块,包括其自身的关键组件,比如在次液压回路中循环液体冷却剂的泵或者主液压回路与次液压回路之间的热交换器,所述自主液体冷却模块足够强大并且足够紧凑,以便集成了充分的冷却能力以及服务器机柜中缩小的体积,所述服务器机柜已经容纳了高密度的计算机服务器,因此留给液体冷却模块的空间很少,同时确保其关键组件的通风水平足够高,比如所述关键组件是其电路控制板,从而降低乃至消除其敏感组件之一过热的风险。

为此目的,本发明这另外一个目的提供最重要的而且体积最大的组件相对于彼此以及相对于外壳内气流的具体设置,所述外壳本身的几何结构相对平坦,同时保持足够的通风水平,尤其是通过该气流输送的通风水平,简化了与液体冷却模块的这种新型内部设置相关的次液压回路的拓扑结构。

本发明这另外一个目的因此提出组件的一种新型内部设置以及次液压回路布局的简化,以便促进气流通过,从而提高模块紧凑性、内部通风效率以及针对其外部的计算机服务器的冷却能力之间的折衷。

为此目的,本发明这另外一个目的提供一种用于计算机服务器的液体冷却模块,包括包含组件的外壳,其中:外壳具有一定的长度、宽度和厚度,使得长度小于宽度的两倍,厚度小于一半宽度;外壳具有四个侧壁、底部和盖子,所述侧壁中纵向方向的两个称为长壁,横向方向的两个称为短壁;而且其中,模块在其所包含的组件中包括:按照外壳的纵向方向定向并且沿着长侧壁放置的泵、风扇、按照外壳的纵向方向定向并且沿着另一个长侧壁放置的热交换器、分别位于两个短侧壁中的至少两个通风格栅、泵与交换器之间的开放的中心纵向空间、位于液体冷却模块中用于循环流体冷却剂的一部分次液压回路、位于开放的中心纵向空间的纵向延伸部分以便直接被气流扫过的电路控制板,将所述中心纵向空间设置为促进从一个短侧壁的格栅到另一个短侧壁的格栅之间的气流,该气流由风扇驱动,所述一部分次液压回路不包括旁路,所述旁路会使泵作为闭路运行并且会使这个开放的纵向空间变得杂乱。

优选地,流体冷却剂是液体冷却剂,例如,乙二醇水。主液压回路和次液压回路也可以分别包含各自不同的液体冷却剂。

根据优选实施例,本发明这另外一个目的包括可单独采用或者相结合采用的以下特征中的一项或多项。

优选地,所述电路板包括两个可分离部分,即:在不拆卸冷却模块的情况下可移除的逻辑部分,以及不可单独移除的固定到冷却模块的连接部分,液体冷却模块各组件通往所述电路板的所有连接都连接到(电路板的)所述连接部分。因此促进了电路板的维护,大多数潜在故障可能发生在逻辑部分,而不是连接部分。在紧凑型液体冷却模块中,通常由电路板构成的关键组件的维护很困难,并且通常需要对冷却模块进行大量拆卸,要将外壳完全敞开,例如,需要完全移除该外壳的盖子乃至从外壳拆下其它组件。

优选地,外壳的厚度小于外壳宽度的三分之一。外壳更加扁平,占用空间更小。有利地,要封装功率充足的关键组件,外壳的厚度大于外壳宽度的六分之一,乃至大于外壳宽度的五分之一:优选约为外壳的四分之一。

优选地,按照外壳纵向方向定向并且沿着长侧壁放置的泵紧挨着长侧壁布置。这样使得中心纵向空间更开放,而不会降低泵的效率。

优选地,按照外壳的纵向方向定向并且沿着另一个长侧壁放置的热交换器靠近另一个长侧壁布置,除管道外,其间没有任何其它构件。这样使得中心纵向空间更开放,而不会降低交换器的效率,在交换器与这另外一个长侧壁之间刚好为次液压回路管道的宽度留出足够的空间。

优选地,所述电路板不包括保护盖,并且与来自开放的中心纵向空间的全部气流直接接触。因此改善了电路板的通风,并获得额外的空间。次液压回路的简化大大降低了液体冷却剂泄漏到电路板上的风险。

优选地,所述电路板至少消散5w热量,优选地最多20w,更优选地介于7至10w之间。因此其通风要求更大,而且根据本发明的这另外一个目的的液体冷却模块的内部布置更有益处。

外壳长度当然大于其宽度,所述宽度反过来当然大于其厚度。优选地,外壳的长度为60至90cm,宽度为50至70cm,厚度为10至20cm,而且更优选地,长度为70至80cm,宽度为55至65cm,厚度为13至17cm。外壳的这个几何结构有利于主要组件的良好分配设置,能够为气流提供更开放的中心纵向空间。例如,外壳的长度为76cm,宽度为59.5cm,厚度为15cm。

优选地,泵有足够的容量,以便按照流体冷却剂的每分钟50至100升的流速提供2.5至3.5巴的压差。

优选地,冷却模块至少消散50kw热量,优选为至少60kw的热量。

因此,仅有两个带额外冗余模块的液体冷却模块便足以冷却容纳良好密度的计算机服务器的传统尺寸的服务器机柜。

优选地,泵包括导风口,所述导风口在冷却模块中的进气通风格栅与泵入口之间引导空气。由此防止通过在模块外壳内流动而被加热的空气直接回注到泵入口中,否则会导致由泵电机产生的热量的有效消散较少。

优选地,冷却模块包括位于泵出口与热交换器入口之间的次液压回路段上的止回阀。在液体冷却模块泵发生故障的情况下,由此防止液体冷却剂在该模块中的部分次液压回路中强制循环,由其它液体冷却模块的一个或多个泵对其进行驱动。

优选地,冷却模块包括位于冷却模块中的一部分主液压回路上的阀门,其功能是间接调节热交换器出口处次液压回路中流体冷却剂的温度,该阀门优选是节流球阀。这是管理由模块产生的冷却水平的液体冷却模块的主要组件,通过调节来自该液体冷却模块外的散热器的主液压回路中的冷液体冷却剂的到达来管理。

优选地,其中一个通风格栅是用于从冷却模块排气的第一通风格栅,并且刚好位于所述电路板下游。因此促进了电路板的通风,这是有益的,因为这是液体冷却模块的关键组件,易于释放大量热量,尤其是如果选择了具有多重功能的强大电路板,便更是如此。

优选地,其中一个通风格栅是用于从冷却模块排气的第二通风格栅,并且刚好位于所述阀门下游。因此促进了阀门的通风,所述阀门是易于释放大量热量的另一个组件。

优选地,排气通风格栅的表面积之和等于进气通风格栅的表面积。因此,空气的流动更流畅,因为空气几乎无摩擦地在外壳内流动。

优选地,热交换器是侧置的热交换器,优选板式热交换器,更优选地为横流板式热交换器。按这种方式布置,自然庞大的热交换器容易安装到相当扁平的外壳中。所选的交换器类型优化了所提供的容量与所占体积之间的折衷。

优选地,外绝缘层包围热交换器以及位于冷却模块中的一部分主液压回路的一个或多个管道,以防止当所述外壁温度低于冷却模块的露点温度时在其外壁上发生冷凝。这样减少乃至消除了滴落冷凝水的风险,滴落冷凝水有两个缺点,即损坏模块的另一个组件或者至少中断其运行,并且防止在有利地包含在液体冷却模块中的泄露检测器处触发假警报。

优选地,冷却模块包括位于外壳底部的液体泄露检测器。该泄露检测器使之能够在冷却剂泄漏的情况下发出警报,所述冷却剂泄漏会损坏模块的一个或多个组件或者至少会影响其性能。该泄露检测器触发警报,优选地仅在严重泄漏时触发警报;有利地忽略无影响而且不危及液体冷却模块的运行的微泄露,并且避免无正当理由关闭液体冷却模块的风险。

优选地,风扇是泵风扇并与泵电机的电动轴耦合,然后对泵电机进行空气冷却。该泵风扇因此同时实现两项功能:冷却泵电机,泵的管道部分由于冷却剂的经过而被冷却,以及驱动或者协助驱动位于液体冷却模块外壳内的开放的中心纵向空间中的气流。可选地,例如,在泵电机以及泵的其余部分都用水或者其它液体冷却剂冷却的情况下,泵则不再具有风扇,通过另一个组件的风扇促进空气流动,为此目的添加小风扇,或者在某些情况下通过进气格栅和排气格栅之间的自然对流来更简单地促进空气流动,但是效率较低。

本发明的不同目的及其所有优选实施例可以相结合。

通过阅读作为示例参考附图列出的本发明的优选实施例的以下说明,本发明的其它特征和优点以及本发明的其它目的显而易见。

附图说明

图1非常示意性地示出了根据本发明一个实施例的服务器机柜的示例。

图2示意性地示出了根据本发明一个实施例的服务器机柜的液体冷却模块中主液压回路和次液压回路的结构。

图3和图4示意性地示出了根据本发明一个实施例在初始阶段同一个服务器机柜的不同液体冷却模块之间的通信的示例。

图5示意性地示出了根据本发明一个实施例的一个液体冷却模块与同一个服务器机柜其它液体冷却模块采用协作通信协议进行通信的示例性流程图。

图6示出了根据本发明一个实施例的示例性紧凑型液体冷却模块的内部布置。

具体实施方式

图1非常示意性地示出了根据本发明一个实施例的服务器机柜的示例。

服务器机柜1包含以太网总线2,一方面一个或者优选地多个计算机服务器3,另一方面液体冷却模块4、5和6用所述以太网总线进行通信。例如,在计算机服务器3单独或者相互协作执行一个或多个计算指令的运行过程中,冷却模块4和5在运行并且在冷却计算机服务器3,而冷却模块6则是冗余的,换言之,处于非活动状态,但是如果其它冷却模块之中的一个冷却模块5或6出现故障,所述冷却模块6便准备取而代之并立即将其更换,无需服务器机柜1外的操作员干预。

一个或多个计算机服务器3安装在服务器机柜1的机架上,运送高热容量的流体或液体冷却剂的次液压回路穿过所述计算机服务器,所述热容量比空气热容量高得多,该流体或液体冷却剂来自运行中的冷却模块,即模块4和5。

以太网2提供每个冷却模块4至6与控制器之间的通信。该网络2中的故障因此导致原本稳定的冷却系统运行模式降级,尤其是在其中一个冷却模块4或5发生故障的情况下,冗余的冷却模块6立即更换发生故障的冷却模块,例如模块4。

图2示意性地示出了根据本发明一个实施例的服务器机柜的液体冷却模块中主液压回路和次液压回路的示例结构。

主液压回路7为三个液体冷却模块4至6提供来自液体冷却模块4至6外的散热器9的冷液体冷却剂。液体冷却模块4至6把因为经过液体冷却模块4至6而变热的液体冷却剂返回到该散热器9。散热器9冷却该液体冷却剂,然后,冷却剂开始再一次经过主液压回路7。来自散热器9的主液压回路7被分流器71分成主液压回路7的三条分支,所述分支彼此平行并且分别经过三个液体冷却模块4至6。在三个液体冷却模块4至6的出口处,耦合器72把主液压回路7这三个相互平行的分支重新组合,以重组朝向散热器9的主液压回路7。

这三个液体冷却模块4至6轮流为计算机服务器3提供冷却的液体冷却剂。计算机服务器3把通过所述计算机服务器3消散并被液体冷却剂带走的热能而变热的液体冷却剂送回液体冷却模块4至6。液体冷却模块4至6将该液体冷却剂冷却回去,然后,冷却剂开始再一次经过次液压回路8。来自计算机服务器3的次液压回路8被分流器81分为次液压回路8的三条分支,所述分支彼此平行并且分别经过三个液体冷却模块4至6。在三个液体冷却模块4至6的出口处,耦合器82把次液压回路8这三个相互平行的分支重新组合,以重组朝向计算机服务器3的次液压回路8。

主液压回路7和次液压回路8不会流体接触,换言之,这两个液压回路的液体冷却剂未混合在一起。主液压回路7和次液压回路8处于热接触,换言之,这两个液压回路的液体冷却剂在经过液体冷却模块4至6的热交换器40、50和60时相互交换热量。

冷却模块4包括热交换器40、泵41、阀门42、pid(比例-积分-微分)控制器43、上游压力传感器44、下游压力传感器45、次上游温度传感器46、次下游温度传感器47、主上游温度传感器48、主下游温度传感器49。

主液压回路7一条分支的冷液体冷却剂进入液体冷却模块4,经过热交换器40,所述液体冷却剂在所述热交换器处通过与次液压回路8一条分支的热液体冷却剂换热而被加热,经过阀门42(该阀门的开口调节所述液体冷却剂经过液体冷却模块4时的流速),然后从液体冷却模块4排出。在该冷液体冷却剂刚进入液体冷却模块4之后通过主上游温度传感器48测量其温度。在该温热液体冷却剂排出液体冷却模块4之前通过主下游温度传感器49测量其温度。由位于液体冷却模块4至6外的一个或多个泵经由主液压回路7对液体冷却剂进行泵送,多个不同服务器机柜的液体冷却模块可能共用所述泵。由主温度传感器48和49测量的温度用于验证主液压回路7的正确运行。

次液压回路8一条分支的热液体冷却剂进入液体冷却模块4,被泵41强制泵送,经过热交换器40,所述热液体冷却剂在该热交换器处通过与主液压回路7一条分支的冷液体冷却剂热交换而被冷却,然后排出液体冷却模块4。

在该热液体冷却剂刚进入液体冷却模块4之后便通过次上游温度传感器46测量其温度。在该温热液体冷却剂排出液体冷却模块4之前通过次下游温度传感器47测量其温度。通过次温度传感器46和47测量的温度用于验证次液压回路8的正确运行。次回路8使冷却液或液体冷却剂能够在服务器机柜内的环路内在20℃至45℃的温度下循环。温度传感器47适合测量冷却模块4次液压回路8出口处的温度,把主液压回路7液体冷却剂的流速保持在所选的速度下,以至于次液压回路8的出口温度等于阈值温度。经过计算机服务器3的次冷却回路8的入口温度保持不变,如次上游温度传感器46所测,从而优化其刀片电子元件的冷却。温度调节独立于每个液体冷却模块4至6,以确保进入计算机服务器出口处的温度恒定,而不考虑其散热。

主液压回路7涉及到连接到客户基础设施的液压系统的回路,所述客户使用包含所有服务器机柜的计算机簇,例如,所述计算机簇是计算机室内的计算机簇,次液压回路8涉及到连接到服务器机柜的冷却回路的液压回路。冷却模块4包括一部分主液压回路7,这部分主液压回路7具有适合连接到客户主液压系统入口的出口以及适合连接到客户主液压系统7出口的入口。冷却模块4还包括一部分次液压回路8,这部分次液压回路8具有连接到服务器机柜次冷却回路8入口的出口以及连接到服务器机柜次冷却回路8出口的入口。

而且,在服务器机柜中,每个冷却模块4至6的主液压回路7的入口和出口都具有防滴漏快速连接器,用于轻松连接和断开冷却模块4至6的主液压回路7的一部分与计算机簇的计算机室的主液压系统7其余部分。

在泵41上游通过上游压力传感器44测量次液压回路8分支中液体冷却剂的压力,在泵41下游通过下游压力传感器45对其进行测量,以控制泵41的正确运行,从而在其失灵时停止泵41。泵41有足够容量使二次冷却液约为3巴的压力下以每分钟大约75升二次冷却液的流速在内环路中循环,例如所述二次冷却液是乙二醇水。由于位于冷却模块4中次液压回路8的一部分的管道通道的形状,所以泵41提供恒定流量,没有由振动产生的压力波动。能够控制次液压回路8中流体冷却剂的流速的泵41与适合控制泵41的控制装置相关联。次冷却回路8中的液体冷却剂的静态压力优选大于或等于2巴。通过将该液体冷却剂保持在压力之下,防止泵41气蚀,而且服务器机柜的冷却系统即便在泄漏的情况下也能够运行。

每个冷却模块4至6的次液压回路8的入口和出口都具有防滴漏快速连接器,用于轻松连接和断开冷却模块4至6的次液压回路8的一部分与冷却计算机服务器3的次液压回路8的其余部分。

在热交换器40中,60kw热量在提供该热量的次液压回路8与吸收该热量的主液压回路7之间通过板式热交换器40交换,所述板式热交换器40的尺寸足够以相似或相同流速或者至少以相同数量级流速在两侧以4℃的接近温度交换该热量,该接近温度与通过主上游温度传感器48测量的外部上游温度和通过次下游温度传感器47测量的内部上游温度之间的差异相对应。下游热交换器40能够通过消散经过主液压回路7的热量而冷却经过次液压回路8的流体冷却剂。

控制器43调节阀门42的开口,并因此根据由次下游温度传感器47测量的液体冷却模块4出口处次液压回路8的液体冷却剂的温度调节液体冷却模块4中主液压回路7的液体冷却剂的流速。

液体冷却模块4还包括用于控制模块4正确运行及故障检测的装置,以及用于控制经过次液压回路8的流体冷却剂的温度调节的装置,尤其是与下文图6所示电路板相连的各种温度和压力传感器。由负责冷却该液体冷却模块的泵电机的风扇冷却每个液体冷却模块的电路控制板。

冷却模块5包括热交换器50、泵51、阀门52、pid(比例-积分-微分)控制器53、上游压力传感器54、下游压力传感器55、次上游温度传感器56、次下游温度传感器57、主上游温度传感器58、主下游温度传感器59。冷却模块5与冷却模块4相同。冷却模块5与冷却模块4相同地运行。

冷却模块6包括热交换器60、泵61、阀门62、pid(比例-积分-微分)控制器63、上游压力传感器64、下游压力传感器65、次上游温度传感器66、次下游温度传感器67、主上游温度传感器68、主下游温度传感器69。冷却模块6与冷却模块4相同。冷却模块6与冷却模块4相同地运行。

三个冷却模块4至6可以按基本冗余度运行,换言之,当其中一个模块发生故障或移除时,三个活动模块转换为两个活动模块。例如,在冷却系统初始化过程中使用的这种特殊运行模式以基本冗余度运行。

三个冷却模块4至6可以按优化冗余度运行,换言之,两个活动模块4和5以及一个备用模块6,如果两个活动模块4或5在模块发生故障或移除后关闭,所述备用模块则准备启动。正常或稳定运行模式以优化的冗余度运行。

以基础冗余和/或优化冗余进行的这种运行当然可以推广到n个液体冷却模块,其中n严格大于二。

在启动或关闭n个液体冷却模块的过程中没有中断运行。n个液体冷却模块中的每一个都是可移除的,以便在不停止冷却存在于服务器机柜中的计算机服务器3的情况下执行维护。

调节和故障检测是借助针对每个冷却模块4、5或6的电路板通过监测温度传感器46至49、56至59或66至69以及压力传感器44和45或54和55或65和66来执行的。

使用tcp("传输控制协议/互联网协议")或udp("用户数据报协议")在三个液体冷却模块4至6的板之间进行对话。三个液体冷却模块4至6还使用snmp("简单网络管理协议")标准将消息发送到用于监测机柜并管理包含多个服务器机柜的计算机室的总系统。在三个液体冷却模块4至6之间没有主/从系统,因为失去主控制器导致失去整个冷却系统,本发明要通过使其在发生故障的情况下更稳定而避免这个问题。

将液体冷却模块改为非活动状态,从而验证其作为冗余液体冷却模块即备用液体冷却模块的可用性,以便其在紧急情况下可以运行。

为了向计算机服务器3提供充足流量的液体冷却剂的充足数量的液体冷却模块同时连续处于活动状态;在此,液体冷却模块4和5在运行,而液体冷却模块6则处于非活动状态,保持备用状态。

冷却模块4至6以最大恒定温度向安装在服务器机柜机架中的计算机服务器3包含的每个刀片提供液体冷却剂。

两个,或者就普遍情况而言严格大于两个的n个液体冷却模块4和5处于活动状态,而其它液体冷却模块6根据所选择的冗余模式处于活动或非活动状态,所述冗余模式可以是基本冗余或更优选地是优化冗余。因此,如果其中一个活动的液体冷却模块4或5失灵,非活动的液体冷却模块6的控制器便通过网络2被告知此情况并激活其液体冷却模块6,以便服务器机柜继续被至少两个液体冷却模块冷却。因此,即便在其中一个液体冷却模块发生故障或维护的情况下,服务器机柜仍然可以继续正常起作用;但是,在第一个故障尚未修复前出现不太可能发生的第二个故障的情况下,该情况主要是由故障液体冷却模块的标准更换构成的,冷却显然会恶化。

可以在不停止冷却计算机服务器3的情况下移除液体冷却模块4至6进行维护。液体冷却模块4至6使之能够调节冷却剂温度,以确保进入计算机服务器3的恒定温度,无论其热消散情况如何。

此外,冷却模块4至6能够通过针对每个液体冷却模块的控制装置监测压力和温度传感器而检测故障。针对压力损失消耗对冷却模块的液压组件进行优化,从而把泵41必须提供的液压能量减少到最少并因此优化其尺寸和功耗,并且在占据面积方面进行优化,以便提高液体冷却模块的紧凑性。根据本发明的优选实施例的冷却系统针对两个液体冷却模块4和5消散120千瓦。

液体冷却模块4至6是彼此相同的,所以是可互换的,并且可以被储存在计算机室本地或附近的备用模块取代。有故障的液体冷却模块应在另一地点进行修复;强烈建议不要在计算机室现场打开液体冷却模块。可在现场更换液体冷却模块。

允许在现场进行的唯一维护操作是在不中断服务器机柜中计算机服务器3运行的情况下移除有故障的液体冷却模块并用备用液体冷却模块在几分钟内将其更换。

是否存在补充的冗余模块6,或者补充的液体冷却模块6是否以自主模式运行,并不影响液体冷却模块的运行以及因此进行的液体冷却系统的适当冷却,或者影响很小,所述自主模式是降级的运行模式。

在维护过程中连接和切断的效果是由每个液体冷却模块4至6的控制器管理的,从而减轻瞬时效应并保持服务器机柜中计算机服务器3的适当冷却。

有利地,这三个冷却模块4至6位于服务器机柜下部,计算机服务器3位于同一个服务器机柜的上部。在服务器机柜被安装(直立)并且运行的情况下,下部位于上部之下。

在液体冷却剂从其中一个冷却模块4至6严重泄漏的情况下,冷却模块4至6在计算机服务器3下面防止流体冷却剂流到计算机服务器3上。

图3和图4示意性地示出了根据本发明一个实施例在初始阶段同一个服务器机柜的不同液体冷却模块之间的通信的示例。

在图3中,第一液体冷却模块4使用udp广播协议广播91代表其身份的数据。消息91包括第一模块的标识符、包含在其冷却机柜中的其冷却模块组的标识符及其互联网地址。接收该广播91的第二冷却模块5向第一液体冷却模块4发回一条目标消息92,所述目标消息包含代表其自身身份的其自身的数据以及广播91的确认。消息92包括消息91的确认、第二冷却模块的标识符、包含在其冷却机柜中的其冷却模块组的标识符(与第一冷却模块的相同)及其互联网地址(第二冷却模块的互联网地址)。这是在以下图4中所述的通信和数据交换阶段之前执行的第一阶段识别。这第一阶段识别是采用tcp或udp协议以广播模式执行的。可以在每个冷却模块本地创建组的冷却模块的互联网地址表,然后使之能够发生更新其运行状态的交换信息的过程。在2分钟的周期内由每个冷却模块多次进行所述广播,因为这是异步通信,以便使其它液体冷却模块能够接收广播。然后,每个冷却模块既充当客户类型的数据发送器,又充当服务器类型的数据接收器。

在图4中,第一液体冷却模块4定期向共用服务器机柜的其它液体冷却模块5和6发送目标消息93,所述目标消息包含代表其身份的其数据的提醒以及对其某些运行参数的更新。其它每个液体冷却模块5和6都这样做,换言之,所述其它每个液体冷却模块都定期向其共享服务器机柜的其它液体冷却模块发送相同的目标消息93,所述目标消息包含代表其身份的其数据的提醒以及对其某些运行参数的更新。在此使用的周期是一秒。交换数据的结构如下,可以按照这个顺序包括:其公共组的标识符、冷却模块的标识符,一个或多个状态变量、一个或多个冷却参数、一个或多个冷却变量。冷却模块根据其环境改变其状态变量。服务器机柜的状态是由一组服务器机柜的通用控制和监督系统构成的,即计算机簇的通用控制和监督系统。为此目的,通用控制和监督系统可以定期查询每个冷却模块,例如,使用ipmi命令("智能平台管理接口")查询,例如,所述周期为每秒。可选地,服务器机柜外的脚本可以定期查询各个冷却模块,例如,所述周期为每秒。

在没有液体冷却模块4至6用作指引作为从模块的其它模块的主模块的情况下,通过液体冷却模块4至6之间的协作通信协议,每个液体冷却模块4-6自主运行并调节其运行。每个液体冷却模块4至6都可以独立启动。每个液体冷却模块4至6都知晓其服务器机柜的拓扑结构并因此知晓相关液体冷却模块组的拓扑结构,以及其组标识符,还有其组内位置,所有这些信息都在启动服务器机柜过程初始化时由另一个计算机网络传达给所述液体冷却模块。冷却模块知晓其组标识符及其组内位置,所述组内位置独立于其互联网地址,所述互联网地址是通过dhcp("动态主机设置协议")传达给所述冷却模块的。

图5示意性地示出了根据本发明一个实施例的一个液体冷却模块与同一个服务器机柜其它液体冷却模块采用协作通信协议进行通信的示例性流程图。

冷却模块通过协作协议相互通信,无主或从;所述冷却模块通常一致地做出决定,有时由多数决定。

冷却模块可采用不同状态,包括关闭状态10、启动状态11、排放状态12、测试状态13、自测状态14、预热状态15、自主状态16、调节状态17、故障状态18、排除状态19、冗余状态20。

在关闭状态10下,冷却模块不接收任何电力。

在启动状态11下,冷却模块接收电力并启动。

在排放状态12下,冷却模块进行维护,尤其是允许从冷却模块的主回路部分排水。

在测试状态13下,冷却模块进行测试,以验证其运行正常。一旦在冷却模块制造商的工厂完成验证测试后,冷却模块便处于排除状态19,冷却参数为默认值。新冷却模块或备用冷却模块在原则上处于排除状态19。把冷却模块手动插入服务器机柜之后,冷却模块便以排除状态19开始,并在给出新命令前保持该状态。接下来,外部操作员针对共享服务器机柜中存在的其它冷却模块的冷却参数检查该冷却模块的冷却参数,因为它们处于同一个冷却模块组。只有经过这个控制阶段之后,才能将冷却模块包含在这个冷却模块组中。当冷却模块保持在排除状态19时,仍然分配给其冗余冷却模块参数的是其自身标识符的值。

在自测状态14下,冷却模块自己进行测试,以确认其运行正常。

在预热状态15下,冷却模块进行预热。

在自主状态16下,冷却模块正常冷却,但是尚未与其它冷却模块同步。如果至少一个冷却模块成功达到自主状态16,则向服务器机柜及其容纳的所有计算机服务器供电。

在调节状态17下,冷却模块在正常冷却并且已经与其它冷却模块同步。

在故障状态18下,冷却模块不再正常运行,而且不再正确地冷却:所述冷却模块已经发生故障。在故障状态18下,冷却模块会关闭其泵的电源,尤其是在以下两种情况下:在冷凝风险过高的情况下,或者在次回路中压力变得过低的情况下。在变为故障状态18之前,冷却模块会向监督计算机簇服务器机柜的总管理器发送警报。在所有冷却模块都处于故障状态18的情况下,监督服务器机柜的总管理器因此可以发现所述冷却模块都处于故障状态18,所有泵都已经停止,冷却已经停止,因此需要关闭整个服务器机柜的电源,换言之,所述服务器机柜容纳的所有计算机服务器的电源。只要冷却模块保持在故障状态18并且尚未变为排除状态19,便可以由服务器机柜外的操作员重置。如果在此重置过程中故障31没有再次出现,冷却模块便首先进入自主状态16,然后可能进入调节状态17。如果在此重置过程中故障31再次出现,冷却模块则在接收来自外部操作员的排除命令36后变为排除状态19。

在排除状态19下,将冷却模块明确排除在冷却模块组之外。为了恢复到冷却模块组中,需要明确的包含命令。如果没有这个明确的包含命令,即使是通电命令21或者重启命令23也不会导致将其恢复到其冷却模块组中。还可以从几乎其它所有状态给出重启命令23,关闭状态10除外。

在冗余状态20下,冷却模块是冗余的,即处于非活动状态,并且如果其它冷却模块已经变为故障状态18或者已经处于排除状态19,所述冷却模块则准备切换到自主状态16,以便取代其公共组中的另一个冷却模块,以在其位置进行冷却。

冷却模块通过来自外部操作员或者满足相应条件时其自身执行的操作从一个状态切换到另一个状态。

所述命令或操作包括:通电命令21、排放命令22、重启命令23、自测开始命令24、自测排出命令25、开始测试命令26、冷却能力命令27、启动失败后排除命令28、包含命令29、预热终止操作30、故障31、预热故障32、数据一致性发现操作33、数据不一致性发现操作34、切换到冗余操作35、排除命令36。

通电命令21打开冷却模块的电源并且启动冷却模块。通电命令21把冷却模块从关闭状态10切换到启动状态11。

排放命令22给出执行维护的命令,尤其是使之能够从冷却模块的主回路部分排水。排放命令22把冷却模块从启动状态11切换到排放状态12。

重启命令23指示冷却模块重新启动。重启命令23把冷却模块从排放状态12切换到启动状态11,或者从测试状态13切换到启动状态11。

自测开始命令24指示冷却模块开始自测。自测开始命令24把冷却模块从测试状态13切换到自测状态14。

自测排出命令25指示冷却模块停止自测。自测排出命令25把冷却模块从自测状态14切换到测试状态13。

开始测试命令26指示冷却模块开始测试。开始测试命令26把冷却模块13从测试状态切换到启动状态11。

冷却能力命令27指示冷却模块开始预热。冷却能力命令27把冷却模块从启动状态11切换到预热状态15。

启动失败后排除命令28在冷却模块启动失败后将该冷却模块从其冷却模块组中排除。启动失败后排除命令28把冷却模块从启动状态11切换到排除状态19。

包含命令29将冷却模块包含或重新包含在其冷却模块组中。包含命令29把冷却模块从排除状态19切换到启动状态11。把包含命令29发送到其中一个冷却模块,该冷却模块接收包含命令29时,包含过程就会开始,所述命令的形式优选是ipmi命令。然后,该冷却模块把其自身标识符分配到其冗余冷却模块参数,实际上应该已经是这样了。该冷却模块切换到启动状态11,在之前的排除过程中,已经通过操作员提前将冷却参数正常初始化了。如果冷却模块接收冷却能力命令27,该模块便首先切换到自主状态16,然后,如果执行数据一致性发现操作33,便切换到调节状态17。然后,如果稳定性指标也为正,该冷却模块便通过切换到冗余操作35而处于冗余状态20。

预热终止操作30停止冷却模块的预热。预热终止操作30把冷却模块从预热状态15切换到自主状态16。

故障31是冷却模块的故障。故障31把冷却模块从自主状态16,或者从调节状态17,或者从冗余状态20切换到故障状态18。其中一个冷却模块发生故障31时,该冷却模块将其自身标识符的值发送到其冗余冷却模块参数,并向其它冷却模块发送请求,要求所述其它冷却模块将其冗余冷却模块参数设为与其本身相同的值。然后,冗余的冷却模块离开冗余状态20,切换到调节状态17或者更迅速地切换到自主状态16,因为稳定性指标会变为负,这是因为刚刚切换到故障状态18的其中一个冷却模块不再处于调节状态17。

预热故障32是在预热过程中发生的冷却模块的故障。预热故障32把冷却模块从预热状态15切换到故障状态18。

数据一致性发现操作33把冷却模块的一致性指标设为正或者保持其为正。数据一致性发现操作33把冷却模块从自主状态16切换到调节状态17。

数据不一致性发现操作34把冷却模块的至少一个一致性指标设为负或者保持其为负。数据不一致性发现操作34把冷却模块从调节状态17或者从自主状态20切换到自主状态16。当其中一个活动的冷却模块切换到故障状态18时,停止其泵,处于冗余状态20的冷却单元自行启动其泵,以便切换到自主状态16。

切换到冗余操作35将单个冷却模块设为非活动状态,该冷却模块能够在紧急情况下立即恢复冷却,尤其是能够取代发生故障的冷却模块。切换到冗余操作35把冷却模块从调节状态17切换到冗余状态20。

排除命令36将冷却模块从其冷却模块组排除。排除命令36把冷却模块从自主状态16,或者从调节状态17,或者从故障状态18,或者从冗余状态20切换到排除状态19。

把排除命令36发送到其中一个冷却模块时,在该冷却模块接收排除命令36时,排除过程便开始了,所述命令的形式优选为ipmi命令。然后,冷却模块将其自身标识符的值分配到其冗余冷却模块参数,向其它冷却模块发送请求,要求所述其它冷却模块将其冗余冷却模块参数设为与其本身相同的值。然后,冗余的冷却模块离开冗余状态20,切换到自主状态16或调节状态17。

针对将排除命令36发送给其的冷却模块而言,排除命令36是将有故障状态18的冷却模块从服务器机柜移除的过程的第一个步骤,从而执行冷却模块的维护。

在正常运行模式下,冷却模块周期性地通过协作协议相互通信,从而交换数据集,使其能够检查数据集是否一致,这是通过变为正的一致性指标表达的,然后检查该数据集是否随着时间仍以稳定的方式保持一致,这是通过变为正的稳定性指标表达的。

在这个数据交换过程中,每个冷却模块都验证数个问题,即检查是否可能失去与任何其它冷却模块的通信,并且检查交换数据的一致性以及交换数据一致性随着时间的稳定性。可以在冷却模块处于自主状态16或调节状态17或冗余状态20时,执行这些检查。

检查冷却模块之间通信的丢失包括针对每个冷却模块验证所述冷却模块用于通信的以太网上没有过通信丢失的问题。为此可以设想几种情况。

首先,可能报告其中一个冷却模块丢失,换言之,该冷却模块不再在以太网总线上发送,在这种情况下,其数据不再包含在组的数据集中,而且不再用于执行数据一致性发现操作33。

接下来,可能报告三个冷却模块之中的两个冷却模块丢失,换言之,所述冷却模块不再在以太网总线上发送,在这种情况下,只把能够通信并且因此能够在以太网总线上发送的最后一个冷却模块的数据包含在组的数据集中,并用于执行数据一致性发现操作33。

最后,可将其中一个冷却模块切换到故障状态18或排除状态19,在这种状况下,其数据不再包含在组的数据集中,而且不再用于执行数据一致性发现操作33。

检查一组交换数据的一致性会涉及到某些或全部交换数据。例如,每隔一秒,进程便会周期性地比较所有冷却模块的冷却参数是否相等,以及该相等是否持续至少10秒。

冷却参数首先包括冗余的冷却模块参数,当条件有利时,即进行切换到冗余操作35时,其值是切换到冗余即非活动状态的冷却模块的标识符的值,其次,所述冷却参数包括冷却调节参数,其值是调节在交换器出口处的次液压回路中流动的液体冷却剂的目标温度。

在一组服务器机柜的一般初始化阶段,计算机室的通用监测系统或外部操作员(负责监督或维护计算机室的人)可以通过向相应服务器机柜的所有冷却模块发送ipmi命令而初始化每个服务器机柜的冷却参数。通常,这些命令基本上同时被所有冷却模块发送和接收。为了增加安全性,可以添加安全系数,这种通信的时隙可以延长到10秒。在每个冷却模块接收ipmi命令之后,改变其冷却参数并切换到调节状态17。其它冷却模块反过来也有10秒的时隙用于接收这些冷却参数值,通过这些接收值更新其冷却参数,并将其自身冷却参数发送到其它冷却模块。如果该数据交换没有在规定时间内完成,那么已经注意到故障的每个冷却模块便进入自主状态16,同时一致性指标将为负。

同时满足以下三个条件时,一致性指标保持或变为正。当最多在2秒内更新冷却模块之间交换的所有数据时,换言之,任何冷却模块最多错过一个发送的更新,则满足第一个条件。当冗余的冷却模块参数针对组的所有冷却模块都相等时,而且这种情况至少保持了10秒,则满足第二个条件。当冷却调节参数针对组的所有冷却模块都相等时,而且这种情况至少保持了10秒,则满足第三个条件。

相反,不满足或者不再满足上述三个条件中至少一个条件时,一致性指标保持或变为负。一致性指标为正时,冷却模块可以从自主状态16切换到调节状态17。一致性指标为负时,处于自主状态16的冷却模块仍保持该状态。在负一致性指标持续存在的情况下,例如,由外部操作员执行纠正措施,以便分析和纠正导致负一致性指标持续存在的一个或多个冷却参数。

检查一组交换数据的稳定性可能涉及到某些或全部交换数据。稳定性检查涉及到与一致性检查相同的数据。例如,每隔一秒,进程便会周期性地验证一致性指标在一段时间内保持为正,在所述一段时间内,冷却模块保持彼此同步,而且没有一个冷却模块接收到冷却失灵警报。当稳定性指标保持或变为正时,要变为非活动状态的即冗余的冷却模块实际上会变为冗余状态或者如果已经变为冗余状态则保持冗余状态。

同时满足以下三个条件时,稳定性指标保持或变为正。在冷却模块处的所有一致性指标保持为正持续至少3分钟的情况下,满足第一个条件。冷却模块没有接收冷却失灵警报的情况下,满足第二个条件。例如,会因为泵或交换器出现故障,而接收这种冷却失灵警报。在组中的三个冷却模块之中的至少两个(或者n+1个之中的n个)处于调节状态17,组中第三个(或最后一个)冷却模块处于调节状态17或冗余状态20的情况下,满足第三个条件。

相反,不满足或者不再满足上述三个条件中至少一个条件时,稳定性指标保持或变为负。当稳定性指标为正,而且其中一个冷却模块的冷却模块参数指向其自身标识符时,该冷却模块则可以从调节状态17切换到冗余状态20,但是仅限于这种情况。当稳定性指标为负时,没有冷却模块可以切换到冗余状态20,而是相反的必须保持处于调节状态17。

图6显示了根据本发明一个实施例的示例性紧凑型液体冷却模块的内部设置。冷却模块大约消散60kw热量。冷却模块包括包含数个组件的外壳100。流体冷却剂是液体冷却剂,例如,乙二醇水。容纳液体冷却剂的主液压回路7与容纳液体冷却剂的次液压回路8交叉,在液体冷却模块外壳100内,在热交换器102内,冷却剂不混合,但是冷却剂之间进行热交换。

外壳100包括彼此相对的两个长侧壁131和132、彼此相对的两个短侧壁133和134以及与盖子136相对的底部135,所述盖子136在图6中看不见,因为为了显示外壳100内部已将其移除。术语“长”和“短”仅意味着长侧壁131和132比短侧壁133和134长。外壳100的大体形状为平行六面体。长侧壁131和132的长度基本相等。短侧壁133和134的长度基本相等。外壳100的长度l为76cm,宽度1为59.5cm,厚度e为15cm。

外壳100内包含的组件是泵101、热交换器102、电路板103、阀门104、进气格栅105、两个排气格栅106和107、止回阀108、开放的中心纵向空间109、泄露检测器110、压力传感器111、继电器112、温度传感器113、导风口114、风扇117、次液压回路8中的管道121至123、主液压回路7中的管道124和125。术语“管道”和“软管”可以互换使用。

泵101按照外壳100纵向方向定向并且沿着长侧壁132放置;所述泵紧挨着该长侧壁132。泵101的轴与上游软管121对齐,以便有规律地向泵101供应。该上游软管121是柔性管,以便连接泵101,这样使之能够对未对准进行补偿并且使之能够为了维护而移除泵101。

热交换器102按照外壳100的纵向方向定向并且沿着另一个长侧壁131放置;所述热交换器靠近另一个长侧壁131设置,除管道外,它们之间没有任何其它构件。热交换器102是侧置的交换器102,以便将其占地面积减少到最少,所述热交换器是铜焊不锈钢的横流板式热交换器102,以便具有更好的热交换性能。

外绝缘层包围热交换器102以及位于冷却模块中的一部分主液压回路7的一个或多个管道124和125,以防止当所述外壁温度低于冷却模块的露点温度时在其外壁上发生冷凝。在交换器102以及主回路7软管124和125上的这种绝缘因此消除了冷凝监测系统,所述冷凝监测系统能够不必要地触发冷却失灵警报。管道124和125在热交换器102的出口和入口处弯曲,以便最大限度地减少体积。

电路板103本身包括两部分,即逻辑部分115和连接部分116。该控制电路板103位于开放的中心纵向空间109的纵向延伸部分以便直接被经过的气流扫过。该电路板103的这两个可以相互分开的部分115和116是在不拆卸冷却模块其余部分的情况下可移除的逻辑部分115,以及不可单独移除的固定到冷却模块底部135的连接部分116。液体冷却模块各组件通往该电路板103的所有连接都连接到这个连接部分116。该电路板103接调节热交换器不包括保护盖,并且与来自开放的中心纵向空间109的气流直接接触。该电路板103消散大约10w的热量。该电路板103是中央调节电路板,由泵101的风扇117形成的气流对其进行冷却。

阀门104位于冷却模块中主液压回路7的一部分上,其功能是间接调节热交换器102出口处次液压回路8中冷却剂的温度,该阀门104优选是节流球阀104。该节流球阀104包括调节流量横截面积的装置,有利于流量响应与开启角度之间的线性关系,在其侧面装有伺服电机,以便将其占地面积减少到最少,具有电气控制装置,该电气控制装置能够精确地开启并且相比于比例电磁阀读取更精确。

进气通风格栅105位于短侧壁133中。两个排气通风格栅106和107分别位于短侧壁134中。格栅106接调节热交换器是使空气能够流出冷却模块的第一通风格栅106并且位于电路板103正下游。格栅107是使空气能够流出冷却模块的第二通风格栅107,并且位于阀门104的正下游。排气通风格栅106和107的表面积之和等于进气通风格栅105的表面积。

止回阀108位于泵101出口与热交换器102入口之间的次液压回路8段上。止回阀108的位置靠近热交换器102,以便形成可移除单元,这样是有益的,因为消除了在其泵101停止时来自其它冷却模块的流量进入这个冷却模块的风险。

开放的中心纵向空间109设置在泵101与热交换器102之间,其方式有利于气流从一个短侧壁133的格栅105到另一个短侧壁134的两个格栅106和107,由泵101的风扇117驱动该气流。

位于液体冷却模块中用于循环液体冷却剂的一部分次液压回路8不包括任何旁路,所述旁路会使泵101作为闭路运行并且会使这个开放的中心纵向空间109变得杂乱。冷却模块的组件之间的这个开放的中心纵向空间109足以促进冷却空气在上游格栅105与下游格栅106和107之间经过,以便电路板103和阀门104都得到正常冷却。

泄露检测器110位于外壳100底部125。泄露检测器110位于排水软管125附近;外壳100底部135是密封流体的,并且在泄漏的情况下可以容纳大量液体。只有泄露相当大的情况下才对其进行检测;小泄露则故意忽略掉,因为其不会真正造成问题。

压力传感器111分别位于泵101的入口和出口,以便检查其运行。

泵101的继电器112封装在防水套中,所述防水套可承受泵101的高电压,当该电压为交流电时。

温度传感器113确保监测和调节主回路7和次回路8中液体冷却剂的循环:在每个管道121,122,124,125处各有一个,在它们经过短侧壁134的附近。

导风口114在冷却模块中的进气通风格栅105与泵101的入口之间引导空气。因为泵101位于外壳100正面的格栅105附近,所以其风扇117通过这个具有导风口114的格栅105从外部吸入新鲜空气,所述导风口114防止已经经过冷却模块的热空气被吸回。

泵101的空气冷却风扇117耦合到泵101电机的电动轴上。

在次液压回路8中位于泵101上游的管道121和在次液压回路8中位于泵101与热交换器102之间的管道122以及在次液压回路8中位于热交换器102下游的管道123,形成位于冷却模块中的次回路8的一部分。

在主液压回路7中位于热交换器102上游的管道124和在主液压回路7中位于热交换器102下游的管道125形成位于冷却模块中的主回路7的一部分。

各管道121至125的弯曲处的曲率半径较大,以便将压力损失降到最低并且避免干扰这些管道121至125中液体冷却剂的流动。外壳100中的短侧壁134通孔紧凑,而且在流动区域未呈现明显改变,从而将压力损失降到最低。

主回路7和次回路8包括与刚性管道121至125适当对齐的柔性连接器,以便把流量横截面区域的变化以及液体冷却剂流量的中断减少到最少。同样,像在冷却模块中以及服务器机柜其余部分中产生的振动一样,压力波动也减少了。此外,由于液体冷却剂在刚性管道121至125中流动的规律性,腐蚀也降至最低。

当然,本发明不仅限于所述及所示的示例和实施例,而是能够进行很多变体供技术人员使用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1