检测电子设备中气流异常的方法和系统的制作方法

文档序号:6614294阅读:185来源:国知局
专利名称:检测电子设备中气流异常的方法和系统的制作方法
技术领域
本发明涉及一种应用到计算机系统和其它电子系统中的热诊断技术。 尤其是,本发明涉及气流异常的改进的检测。
背景技术
大的计算机系统往往合并到集中数据中心。尤其是,机架(rack)系 统节约空间并且将服务器和基础设施放到管理员易于到达的范围内。"叶 片(blade ),,服务器是其中更为紧凑的服务器布置。叶片服务器,诸如IBM eServer BLADECENTER (IBM和BLADECENTER是纽约Armonk的 国际商用机器公司的注册商标),是一类消除了前代机架服务器的不少复 杂性的机架优化型服务器。由于机架系统本身的紧凑性,单个的服务器和 其它硬件,诸如封罩(enclosure )、电源、风扇、和管理石更件共享热环境。 因此,管理电力消耗和维持适当的冷却成为关键。因为在机架系统内通常 含有大量的元件,因此气流和加热模式(heating pattern)相当复杂。存 在引发热问题的许多潜在因素,这能够导致元件故障并且增加系统维护的 复杂度和成本。
由于如今计算机系统的复杂性和精巧化,因此开发出计算机化的热诊 断技术来分析计算机系统内的气流和加热模式,检测热错误并转移元件故 障。流体网络建模(Flow Network Modeling)是优选的热诊断技术之一。 例如,美国专利6,889,908描述了一种诊断电子设备中气流异常的技术,其 在设备的流体网络建模中引入g情境(fault scenario ),并且确定哪个人 为的错误预测 一组与观察的温度匹配的期望的温度。
气流异常是一类可由热诊断检测的错误情境。气流异常是可能负面影 响计算机系统内的冷却的任何气流情形。气流异常通常是因不恰当的操作 或者维护,诸如事故、误用或者疏忽而引发的意外的或者未预料的气流变化。气流异常可阻碍元件适当的冷却,引起该元件升温并且可能超过安全 操作温度,尤其是当该计算机系统后面在更高的温度下工作的时候。然而, 在较低的温度下,需要很少或者几乎不需要气流来冷却元件,因此气流异 常的温度效应可能达到最小。由于诸如诊断系统所用的温度传感器的解才斤 度和热人为计算机系统具有的计算的不确定这样的限制,因此,低温下气 流异常的最小温度效应可能是不能探测到的。结果,气流异常可能处于隐 匿状态,通过常规的热诊断技术不能探测到。当随后该设备处于更高的温 度下时,任何未探测到的气流异常可能导致热问题,那时采取正确的措施 可能就太晚了。
从现有技术的局限性来看,需要一种改进的热诊断技术。希望对气流 异常有更可靠的探测。改进的热诊断技术优选考虑到即使计算机系统一直 空闲或者在低温和低负荷下工作也进行气流异常的探测。

发明内容
根据一个实施例,具有一个或者多个节点的计算机系统被操作。将选 中节点的处理器负载增加到 一定的级别,使得足以使气流异常会在该选中 节点产生可探测的温度差。在增加的处理器负载条件下的该选中节点探测 温度。通过对增加处理器负载下的该计算机系统建立热才莫型来预测该选中 节点的温度。比较该预测温度和该探测温度,以探测气流异常的存在。
根据另 一个实施例,用于探测气流异常的系统包括用于在计算机系统 内建立加热和气流莫式的热模型的装置。提供该系统用于在计算机系统的 一个或者多个节点上实施操作。该系统包括用于选择性地将选中节点的处 理器负载增加到一定能够的级别,使得足以探测到实际气流异常的存在导致的在该选中节点的温度与没有气流异常时该选中节点的温度的不同;用 于接收代表该选中节点在该增加的处理器负栽下的实际温度的信号的装 置;用于通过对该增加的处理器负载下的该计算机系统建立热模型来预测 该选中节点的温度的装置;和用于计算该预测温度和该探测温度之差来探 测该气流异常是否存在的装置。
本发明其它的实施例、方面、和优点将从下面的说明书和所附权利要 求书中变得显而易见。


图1是一种根据本发明的对其实施热诊断的有代表性的机架服务器系统(计算机系统)的透视图2是计算机系统的透视图,用于解释气流异常的一些潜在的原因;图3是计算机系统的透视图,用于解释另一类气流异常的潜在的原因;图4是用于对计算机系统实施热诊断的诊断系统的一个实施例的示意
图5示出了在不同的负载条件下的假想的计算机系统的四个温度曲线;
图6示出了使用工作负载迁移以在假想的九服务器系统中将处理器负载从一个服务器移到另一个服务器;
图7图示了在不同的负载^Hf下在服务器上强加人为工作负载;
图8是用于大致地概括根据本发明的用于对计算机系统实施热诊断的方法的一个实施例的流程图9示出了计算机的示意图,该计算机被设置为对计算机系统建立热模型并探测计算机系统中的气流异常。
具体实施例方式
本发明提供通过选择性地增加处理器负载(process load )来增加热诊 断可靠性的系统和方法。增加处理器负栽增加了处理器的温度,放大了 任何气流异常的温度效应。放大的温度使得热诊断系统更可靠地区分是否 存在气流异常以及或许辨别出该异常的位置。当不增加处理器负载该系统 就不会运行得热到足以进行气流异常的可靠的探测时,可将处理器负载选 择性地增加,并且可在系统活动减少期间实施热诊断。因而,可在随后的 系统活动增加时期之前探测并校正气流异常,在该系统活动增加时期实施
诊断来探测气流异常或者采取正确的措施来消除气流异常可能都是不方 便或者不可能的。
根据一个实施例,在计算机系统的一个或者多个所选位置将处理器负 载增加到一定水平,使得如果有气流异常的话,气流异常会在该所选位置 产生可探测的温度差。处理器负载可通过工作负载迁移或者通过强加人为 负载而增加。工作负载迁移是正在其它节点运行的现有处理器转移到目标 节点,从而增加目标节点的处理器负载。"人为负载"是为了增加目标节 点的处理器负载而产生一个或者多个处理器,处理器的计算结果通常不重 要。
处理器负载增加多少量合适可以各种方式来确定。可通过计算来评估 因存在气流异常而产生可测量的温度差所必需的最小处理器负载。另一可 供替换的方法是将处理器负载增加到预定的水平。该预定水平可用处理器
最大处理容量(capacity)的百分比来表示。例如,可将所选位置或节点 的处理器负载在实施热诊断之前自动增加全容量的40%。另一选择是,可 将处理器负栽增加到大约100% (全容量),以佳L任何气流异常的可探测性 达到最大。在目标节点上实施无P艮循环是一类可加在该目标节点上用以将 处理器负载增加到全容量的人为负载。此外,额外的负载可能另外包括大 量使用CPU的内部诊断工作负载(其附带还具有测试CPU性能的好处), 或者大量使用CPU-存储器总线的工作负载,其包含一组对存储器的连续 读取和写入(其使用CPU的总线驱动电路并且因此产生热量)。
图1是一种根据本发明的可对其实施热诊断的有代表性的机架服务器 系统10 (计算机系统)的透视图。计算机系统10包括具有可选的格子形 图案的封軍11。封罩11容纳多个服务器12。每个服务器12可以包括一个 或者多个处理器。处理器典型地为CPU,其是数字计算机中用于解释指令 并且处理计算机程序所包含的数据的元件。服务器12还可以包括硬盘驱动 器和存储器,为一个或者多个公共或者独立的网络服务。每个服务器12是计算机系统10的一个节点。所显示的服务器12为"叶片"型月良务器, 但是本发明对于其它类型的安装于机架的服务器系统以及其它类型的计
算机系统和电子设备也有用。封軍11内典型地容纳有众多的其它的电子元
件,诸如管理控制模块15、电源模块16、至少一个吹风机17和开关模块 18。多服务器12可以共享管理控制器15、电源模块16、 ^X机17、开关 模块18、和其它的支持模块。连接器将服务器12与支持模块耦合起来, 以减少布线需求并JU更于服务器12的安装和拆除。例如,每个服务器12 可以经由开关模块18与千兆比特以太网耦合。封罩11可以将服务器12 耦合到以太网,而无需将单个的电缆直接连接到每个服务器。
服务器12和其它的元件在计算机系统10内产生热量。尤其是,每个 服务器12产生对应于加在其(多个)处理器上的负载量(处理器负载)的 热量。处理器负载通常和处理器处理量(throughput)相关,并且可以包 括诸如处理器速度、时钟速度、总线速度以及为执行一个任务而调用的各 处理器的数量等这样的因素,处理器负载可以根据诸如MIPS (每秒百万 指令)或者]太赫(terafl叩)这样的量度来测量。处理器负载量还可用处 理器的处理容量,诸如"处理器满负荷利用百分比"来表征。单个处理器 的利用百分比典型地是处理器的最大处理容量的百分比。 一组处理器的利 用百分比可用这多个处理器的综合处理容量来表示。例如,在某一时刻, 一个假想的三处理器的服务器可以使第一处理器以33%工作,第二处理器 以50%工作,第三处理器以67%工作。在特定的多处理器节点中的处理器 满负荷利用百分比可以定义为加在全部三个处理器上的处理器负载的算 术平均值,在这个例子中是50%。加在处理器上的负载典型地是动态的, 因此可将利用百分比本身表示为即时的或表示为时间域的平均利用率。处 理器负载越大,产生的热量越多。例如,以处理器满负荷利用(100% )工 作的服务器运行得几乎总是比以50%利用率工作的服务器更热。
吹风机17产生穿过底盘11的受迫空气对流,以l更将热量从计算机系 统10中排除。在服务器12下方布置通风口 14,以4吏空气进入用来冷却计 算机系统10。吹风机17通过通风口将空气吸进封罩11的前面20,使空气 通过服务器12和其它发热元件,并且将热空气通过封罩11的背面22排出, 在那里热空气与外界空气混合。空气典型地沿着通过计算机系统10的多条流动路径在计算机系统10内以净气流速率(Qnet)从封軍11的前面20 到背面22流动。可以对通过封罩ll的净气流进行控制,以充分冷却计算 机系统10的元件。例如,净气流速率可以通过控制每个^X机17的速度、 通过控制调用的吹风机17的数量、或者通过这两者来控制。在处理器负栽 减少期间,净气流速率可以通过减少一个或者多个吹风机的^X速度或者 通过关闭一个或者多个吹风机17来减小。在低处理器负载下,有可能根本 不需要受迫气流,并且可将全部吹风机17关闭,而没有负面的发热后果。
还可以对处理器负载进行调整,以控制计算机系统IO内的温度。按照 惯例,调整处理器负载的原因包括希望减少计算机系统内的温度和/或噪音 级别。例如,处理器负载和对应的热和电力消耗可以通过"节流阀"处理 器、将子系统置于节能工作模型、或者关掉未使用电路来减小。减小处理 器负栽的其它例子是减小一个或者多个CPU的时钟频率或者工作电压、 或者将等待或者停止(hold)状态引入CPU的活动中。相反,本发明包括 为增加温度而选择性地增加处理器负载以便于进行热诊断的方法。
图2是计算机系统10的透视图,用于解释气流异常的一些潜在的原因。 气流异常是可能负面影响计算机系统10内的一个或者多个位置的冷却的 任何气流情形,这可能导致元件过热。气流异常典型地是没有正确地操作 和维护计算机系统的结果。因而,气流异常可能因在计算机系统附近的人 员的事故、疏忽、误用、缺工作乏培训、或者未经许可的人员操作或者操 控计算机系统而起。油布30覆盖在封罩11的前面20的一部分上是可能会 引起计算机系统10内气流异常的一个事件。油布30可能是被那些对精巧 的计算机设备的操作没有经过培训且没有意识到可能因阻挡气流通过计 算机系统10而带来的不利后果的外面的承包Aii在封罩11上的,油布30 阻碍了封軍11左侧的若干通风口 14以及封罩11左侧的服务器12所包括 的一些通风端口。气流异常的另一个潜在原因是将公文包32对着封罩11 的前面20放置,其阻挡了封罩11右下侧的若干通风口 14。以封罩11的 背面22紧靠墙壁34的方式放置封罩11是气流异常的另一个潜在原因。墙 壁34部分地阻碍或者限制了从封罩背面22流出的气流。因油布30、 >&文包32、以及将封罩ll靠近墙壁34放置,它们单独或者综合起来所引起的 气流阻碍可能带来计算机系统10内负面的发热效应。
图3是计算机系统10的透视图,用于解释另一类气流异常。将服务器 12之一从封罩11内它的插槽15中取出。正常地,应该用一个填充面板(未 示出)覆盖那个已经取出服务器的空插槽,以使通过计算机系统10的气流 基本上不受影响。如果填充面板拿走,那么可能就会出现气流异常。与图 2所示的各种气流阻碍相反,插槽15中填充面板或者服务器12的缺失实 际上可能增加插槽15局部的气流。然而,对插槽15所增加的气流可能导 致相邻的服务器12或者其它元件等量的气流减少。气流的这种变化可能导 致相邻的服务器12或者其它元件变得"缺少冷却气体",导致在计算机系 统10内的一些位置产生不想要的热斑或者其它负面的发热效应.气流异常 的潜在原因是无限的,并且图2和3所示的情境仅仅是一些例子。
图4是用于在计算机系统50(目标系统)内实施热诊断的诊断系统52 的一个实施例的示意图。诊断系统52可用来探测计算机系统10内的错误, 包括诸如图2-3中所示的那些气流异常。目标系统50可以是,例如图1 -3中的计算机系统IO。诊断系统52是一台用来对目标系统50实施热诊 断的计算机。诊断系统52可以是或者可以包括目标系统50的服务器,或 者是目标系统50的子系统。另一选择是,诊断系统52可以是或者可以包 括单独的一台计算机。目标系统50容纳发热元件72,诸如服务器,它们 在通过封罩的空气的流动中冷却。温度传感器74感知发热元件72的温度 并产生代表该温度的信号。诊断系统52包括软件54、至少一个处理器56、 和存储器62。诊断系统产生输出132,诸如温度曲线和4W信号。热诊断 软件54可以包括用于产生目标系统50内的热和气流的模型58的热分析软 件和固件。模型58可以基于流体网络建模或者其它已知的热诊断技术。传 热模型58考虑了系统布局238,其可以包括传热参数、气流M和发热元 件72的其它参数,并将这些参数相关联。用来产生传热模型58的数据可 以通过用户外围设备,诸如键盘、定点设备、或者LCD显示器来输入。
诊断系统52接收并处理来自温度传感器74的温度信号,以便计算在输出132中所包括的"实际温度曲线"68.实际温度曲线68是一个数据组, 其包括可以由在每个节点或者在每个节点内的温度传感器(TS)感知的实 际温度(Ta)和位置/节点信息。可选地,实际温度曲线68可以可视地表 示为数据的图表、曲线、表单,或者其它可视的表示形式。实际温度曲线 68还可以存储在存储器62中,用于诊断系统52将来的处理。诊断系统52 还处理模型58,以^(更输出一个对应的"预测温度曲线"70。预测温度曲线 70是一个数据组,其包括对应于温度传感器74的预测温度(Tp )和位置/ 节点信息。因而,预测温度曲线70是对应到所述服务器或者目标系统50 的其它节点的温度的预测值。可将(多个)实际温度曲线68与预测温度曲 线70进行比较,以探测诸如气流异常这样的错误。因为气流异常的探测典 型地包括实际温度与预测温度的比较,所以由温度传感器感知的实际温度 和由该模型预测的预计温度之差是气流异常探测中 一个重要的因素。
实际和预测温度的比较可以以各种方式来实施。例如,根据一种方法, 将目标系统50按照不存在气流异常的假设建立模型。这个假设构成一个假 想的基础,该假想是通过比较实际温度曲线68和预测温度曲线70来检验 的。如果实际和预测温度之差小,那么没有气流异常的假想很可能是正确 的。然而,大的差别表明可能存在潜在的气流异常。因而,可以设置诊断 系统52产生一个信号,诸如警报信号,在温度查超出预定点时指示气流异 常。根据另一种方法,目标系统50可以按照存在气流异常的假设建立模型。 这个假设构成了另一个假想的基础,该假想也是通过比较实际温度曲线68 和预测温度曲线70来检验的。然而,对这种情况,如果实际和预测温度之 间的偏差小,那么气流异常很可能存在。因此,如果该偏差小于预定点, 计算机52就可以产生一个指示气流异常的信号。根据又一种方法,诊断系 统50可以建立多个假想的气流异常的模型,并对每个假想的气流异常比较 实际温度曲线68和预测温度曲线70。于是,诊断系统50可以选择预测温 度曲线70与实际温度曲线68最匹配的那个假想的气流异常。这些方法仅 是一些例子。这些探测热异常的方法中的每一种都包括在实际和预测温度 之间进行比较。
因气流异常引起的负面的发热效应,诸如图2和3中所示的那些异常, 在增加处理器负载的情形下将更为显著。这是因为元件在越大的负载下运 行得越热,并且气流异常的存在可以阻碍更高温度下的该元件的适当的冷 却。然而,因气流异常引起的任何效应在服务器暂时处于低处理器负栽时 可能是可忽略不计的。这是因为该服务器可以变得足够冷,以至不需要气 流,或者至少一点不受气流变化的影响。因此,本发明提供的方法增加处 理器负载以放大因气流异常引起的任何效应,以更可靠地探测气流异常。 图5进一步示出了这个原理。
图5是在不同的负载条件下的假想的计算机系统的四个温度曲线81-84的曲线图。在这个例子中,该假想的计算机系统是一个具有服务器阵列 的机架服务器系统。这四个温度曲线81-84表示沿与封罩的前面平行、将 这排服务器平分的平面的温度分布。左边界和右边界86和88与封罩的左 边和右边重合。温度曲线81描绘的是在低处理器负载下的服务器温度的性 质,假设没有气流异常。温度曲线82描绘的是在同样低处理器负栽下的服 务器温度的性质,但是加上了温度曲线81不具有的气流异常。对温度曲线 81、 82的比较解释了气流异常在低处理器负载下其效果可忽略不计。两个 温度曲线81、 82之间的温度差分dTl是可忽略不计的,因为该温度在低 处理器负载下不受气流异常明显的影响。温度差分dTl足够小,以至于对 低处理器负载下的该系统实施热诊断不可能可靠地探测气流异常是否存 在。
温度曲线83、 84解释了在较高处理器负载期间气流异常产生的更显著 的效果。预测温度曲线83是假设在较高处理器负栽下没有气流异常时产生 的。温度曲线84描绘了在与曲线83同样高的处理器负载下的实际温度的 曲线,并附加了温度曲线82所反映的同样的气流异常。较高处理器负载温 度曲线83、 84这两者显著地高于低处理器负载温度曲线81、 82,因为服 务器在更高的负载下运行导致它们更热。温度曲线84显著地高于温度曲线 83,因为因处理器负栽的增加而产生的更高的温度放大了气流异常的效果。 在贯穿整个系统的M置,两个高处理器负载温度曲线83、 84之间的温度
差分dT2比两个低处理器负载温度曲线81、 82之间的可忽略不计的温度 差分dTl都要大很多。这个曲线图解释了在较高处理器负载下气流异常产 生的更显著的温度效果。
因为气流异常在较高处理器负载下产生更显著的差别,所以气流异常 在较高处理器负载下更可探测,如在结合图4的诊断系统时所讨论的一样。 若干其它因素也影响诊断系统是否可以可靠地辨别气流异常的影响。 一个 这样的因素是用来感知系统中实际温度的温度传感器的分辩率或者说"噪 音预算(noise budget)",例如,具有误差在+/-1°的温度传感器没有足够 有效的分辩率支持"实际温度仅仅增加几度是因为气流异常而产生的"这 一结论,甚至在该模型预测类似的温度增加可能是因气流异常而产生时也 不能证明该结论。另 一个影响诊断系统探测气流异常的能力的因素是使用 热诊断模型预测温度固有的误差的程度。指示温度少量增加的热诊断结果 对所探测的气流异常在系统中实际是否存在可能是非决定性的。预测在该计算化的模型中有较大温差的热诊断结果典型地是在实际系统中气流异 常存在与否的更为可靠的指标。其它因素,诸如模型参数的不确定性(例 如元件气流阻抗、风扇性能特征、相对于对CPU的利用的功率消耗)和 测量不确定性(例如风扇速度、温度读数)可以对用作热诊断中的变量的 实际或者预测温度中的误差产生贡献。
根据本发明,可将处理器负载以各种方式增加。 一种增加处理器负载 的方式包括使用将处理器负载从一个节点移到另一个节点的工作负载迁 移。图6是用于解释在假想的九服务器系统中将处理器负载从一个服务器 移到另一个服务器的采用工作负载迁移的图表。该图表的水平轴用数字从 l标到9,每个数字指明机架封罩内的九个服务器之一。纵轴表示"利用百 分比",这是加在每个服务器上的处理器负载的一个方便的量度。该图表 的每个条块代表在某一特定的服务器上的处理器负载。服务器5、 7和8 工作在较高的处理器负载下,这通常是因为一个或者多个处理正在服务器 5、 7和8上运行。服务器l、 3和6工作在低处理器负载下,这可能;Ol 务器1、 3和6运行着更低或者更小强度的处理,或者只不过是接通电源后
14"闲置"着。
为获得更高稳定状态的温度而增加服务器1、3和6上的处理器负载将 选择性地放大将要通过热诊断来探测的任何气流异常的效果。例如,通过将一些处理从高负载服务器5移到目标服务器1而将处理器负载的相当大 的部分92从服务器5转移到服务器1。处理器负载从服务器5到服务器1的这个迁移增加了服务器1上的处理器负载,放大了可能存在于服务器1上的任何气流异常的效果。为了监视和探测可能影响服务器5的任何气流异常,在服务器5上可以保留足够的负载。所希望的是,计算机系统上的净能量消耗和总处理器利用可以保持基本相同,因为只是将现有的处理从服务器5移到服务器1上。
另一种增加处理器负载的方法是将人为负载(artificial load)加到计算机系统的节点上。"人为负载"典型地由为增加处理器负载而产生的一个或者多个处理构成。除了作为副产品的热量的产生之外,人为负栽的任 何计算结果通常并不重要。还有,可以运行那些产生有用结果的低优先级 的处理,以增加所需的处理器负载。图7是用于解释在不同的处理器负载 条件下在服务器1上强加人为工作负载95的图表。在强加该人为工作负栽 之前,所有的服务器l-9最初可能处于较冷温度下的闲置状态,这是由于 每个服务器上的处理器负载较低。结果,在该系统别处没有足够的处理器 负载可将处理器负载移到服务器1上。将人为工作负载95加在服务器1 -9上,以方便探测影响服务器1的气流异常。人为负栽可以是,例如在服 务器1上实施的无限循环。人为负载有利于对可通过增加服务器1的温度 而影响服务器1的任何气流异常的探测。可将人为负载置于在低负载下工 作的任何一个特定的服务器上,而不管其它的服务器是否具有足够的负载 能够进行负载迁移。 一旦分析完成,就能够将人为负载从该服务器上消除, 并且可选地将其移到另一个服务器上,如果需要的话。必要时,可将多个情况的人为负载同时施加到多个服务器上,以提高实施整个系统热诊断的速度。
本发明还包括各种方法用于确定为有利于热诊断而将处理器负载增
加多少。根据一种方法,可将处理器负载自动地增加到预定级别。例如,
可将服务器1上的处理器负载自动增加到大约100 %(处理器满负荷使用), 如97所示。在服务器1上执行无限循环是有可能将服务器1上的服务器负 载提高到大约100%的一种方法。在满负荷处理器利用率状态下运行服务 器1一般将更快地增加温度。在满负荷处理器利用率下运行服务器1一般 还将产生最热的温度,因而使气流异常的效果达到最大。然而,以最大容 量运行服务器1也可能造成在诊断期间过热的危险性增加。
为了减少潜在的过热的任何危险性,另一个选择是,可将服务器l上 的处理器负载增加到一个小于满负荷处理器利用率但是仍然大到足以有 利于进行任何气流异常的可靠的探测的预定量。例如,可将服务器l上的 处理器负载增加到大约60%处理器利用率,如99所标出的。 一般来说, 在一个节点上加至少40%的处理器利用率并且使得达到稳定状态的温度 对可能影响该节点的热异常的探测是充分的。与在满负荷处理器利用率状 态下运行一个节点相比,加少于100%的处理器负栽还可以提供能量节约。
另一种方法是估计为产生因存在气流异常而引起的可测量的温度差 所需的最小处理器负载。这种方法可以在为了优化计算^/L系统的能量效率 和性能时选择,对处理器负载的增加不超过为可靠探测任何气流异常所必 需的水平。例如,为了检验所选气流异常,可将该系统针对各种处理器负 载建立具有所选气流异常和没有所选气流异常的模型。如果因该气流异常 造成的预测温度增加实质上不大于计算机系统中的温度传感器的分辩率, 那么可将该模型中的处理器负载增加到一个级别,在该级别,因气流异常 造成的预测温度差超过温度传感器的分辩率。另一个选择是,可以基于高 斯噪音模型来估计最小处理器负载。例如,在预测温度差小于噪音预算的 两个标准偏差时,增加输入到该模型中的处理器负载。然后就可以增加处 理器负载直到达到一个稳定状态的温度为止,在该状态下,预测温度差至 少是噪音预算的两个标准偏差。在另一个例子中,可将模拟温度传感器馈 入8位模拟-数字转换器,其一部分的分辩率为256分之一,并且因此需要 该温度差大于温度传感器范围的1/256。决定在给定的节点上是否以及怎样增加实际的处理器负栽的其它客观标准也在本发明的范围内。
图8是用于大致地概括根据本发明的、用于对计算机系统实施热诊断 的方法的一个实施例的流程图。该流程图提供了该实施例的概略,并且反 映了参照其它附图所讨论的许多构思,但是并不是提供了能够才艮据本发明 来实施的所有步骤和变化的全部的清单。在步骤100中,选择一个系统来 进行检查,也就是实施热诊断。这里,该系统是多节点计算机系统,尽管 本发明可以在具有如单个节点这么少的计算机系统上实现。在步骤102中, 根据热诊断技术诸如流体网络建模产生该系统的热模型。该热模型可以考 虑该系统的布局,包括该系统的元件和配置的单独的热和气流性质。该热 模型将各种系统元件互相关连,并且可以接收和解释来自多个传感器的输
入,这些传感器包括在整个系统的各个已知位置所设的温度传感器。在步 骤104中,选择一个或者多个目标节点。所述(多个)目标节点是气流异 常可能对其具有负面影响的系统元件。例如,目标节点可以是J3良务器,并 且在该服务器下面的被遮通风口是气流异常的一个潜在的原因,其可能使 得所选服务器在较高处理器负载下过热。
条件步骤106确定处理器负载对于气流异常的可靠的探测是否太低。 处理器负栽可能是"低的",如果其不足以探测气流异常。如果处理器负 载是低的,那么条件步骤108确定是否在别的节点有足够的负载能够将工 作负栽移到目标节点上。如果在别的节点有足够的负载可用,那么在步骤 110可将负栽以一个或者多个处理的形式移到目标节点。如果在别的节点 没有足够的负载可用,那么在步骤112产生人为负载并将其加在目标节点 上。在步骤114中,保持目标节点上增加的负载一一无论是来自步骤110 的工作负载迁移、来自步骤112产生的人为负载还是来自于这两者一一直 到温度达到基本稳定状态的值为止。
因处理器负载的增加,根据各种技术诸如流体网络建模,热诊断就能 够更可靠地实施。步骤116至124以举例的方式而非限制地概括了一种用 于探测在较高处理器负栽下的热异常的方法。在步骤116中,测量实际温 度曲线。实际温度曲线可以包括该系统中的一个或者多个温度。在步骤118中,从该模型中计算出预测温度曲线。预测温度曲线可以包含一个或者多
个温度值。在步骤120中,可将实际和预测温度值这两者都映射到所述系 统进行比较。如果在条件步骤122中探测到气流异常,那么在步骤124中 产生一个信号。该信号可以警告用户在该系统中可能存在气流异常,以及 关于该气流异常的任何细节。
应该意识到,本发明可以采取包括软件的实施例的形式来实现。软件 的非限定性的例子包括固件、驻留软件和微代码。更一般地,本发明能够 采取计算机程序产品的形式来实现,可从计算机可读介质可访问该计算机 程序产品,该计算机程序产品提供了可供计算机或者任何指令执行系统使 用或者与计算机或者任何指令执行系统相关联地使用的程序代码。为了本 说明书,计算机可用或者计算机可读介质能够是能够包含、存储、交流、 传播或者传输可供该指令执行系统、装置或者设备使用或者与^目关联的 该程序的任何装置。
该介质能够是电的、磁的、光的、电磁的、红外的、或者半导体系统 (或者装置或者设备)或者传播介质。计算机可读介质的例子包括半导体 或者固态存储器、磁带、可移除的计算机盘、随M取存储器(RAM)、 只读存储器(ROM)、刚性磁盘和光盘。光盘的当前的例子包括只读紧致 盘存储器CD-ROM 、可读写紧致盘CD-R/W和DVD。
线与存储器元件直接或者间接耦合的至少一个处理器。该存储器元件能够 包括在实际的程序代码执行期间所采用的本地存储器、大容量存储器、和 为了减少在执行期间必须从大容量存储器中提取的代码的次数而提供至 少 一些程序代码的临时存储的高速緩冲存储器。
可将输入/输出(1/0)设备正如键盘、显示器、或者定点设备或者直 接地或者通过中间1/0控制器耦合到所述系统中。还可以使用网络适配器 诸如通过中间私人或者公共网络来将数据处理系统耦合到其它数据处理 系统或者远程打印机或者存储i殳备。调制解调器、电缆调制解调器、以太 网卡、和无线网络适配器是网络适配器的例子。
图9是用以解释可设置为对计算机系统建立热模型并探测计算机系统 中的气流异常的计算机220的示意图。计算机220可以是包括了要进行热 诊断的计算机系统的服务器或者子系统。通常,计算机系统220包括处理 单元221、系统存储器222、和将包括系统存储器222在内的各种系统元件 耦合到处理单元221的系统总线223。系统总线223可以是若千类型的总 线结构中任何一种,包括存储器总线或者存储器控制器、外围设备总线、 和使用各种总线构架中任何一种的本地总线。该系统存储器包括只读存储 器(ROM )224和随M料储器(RAM )225。基本输"输出系统(BIOS ) 226存储在ROM 224中,包含基;^由,用于在诸如开始期间在计算机系 统220内的各元件之间传递信息。
计算机系统220还包括用于从硬盘227读取并写入其中的硬盘驱动器 235、用于从可移除的磁盘229读取并写入其中的磁盘驱动器228、和用于 从可移除的光盘231,诸如CD-R、 CD-RW、 DV-R、或者DV-RW读取并 写入其中的光盘驱动器230。硬盘驱动器235、磁盘驱动器228、和光盘驱 动器230分别通过硬盘驱动器接口 232、磁盘驱动器接口 233、和光盘驱动 器接口 234连接到系统总线223。尽管这里所描述的示例性环境采用硬盘 227、可移除的磁盘229、和可移除的光盘231,但是本领域技术人员应该 理解,其它类型的能够存储计算机可访问的数据的计算机可读介质,诸如 磁带盒、闪存卡、数字视频盘、Bernouilli磁带、RAM、 ROM、 USB驱 动器等也可以用在该示例性的工作环境中。驱动器和它们相关的计算机可 读介质提供计算机可执行的指令、数据结构、程序模块、和其它的用于计 算机系统220的数据的非易失性存储。例如,可将操作系统240和应用程 序236存储在计算机系统220的RAM 225和/或石更盘227中。
用户可以通过输入设备,诸如键盘255和鼠标242将命令和信息输到 计算机系统220。其它的输入设备(未示出)可以包括麦克风、操纵杆、 游戏衬垫(game pad )、触摸垫、盘式卫星天线、扫描仪等。这些和其它 的输入设备往往通过耦合到系统总线223的USB (通用串行总线)246连 接到处理单元222,但是可以通过其他的接口,诸如串行端接口、并行端口、游戏端口等连接。显示设备247也可以通过接口,诸如视频适配器248 连接到系统总线223。除了监视器之外,个人计算机一般包括其它外围输 出设备(未示出),诸如扬声器和打印机。
计算机系统220可以在网络环境中工作,使用连接到 一个或者多个远 程计算机249的逻辑连接。远程计算机249可以是另外的个人计算机、服 务器、客户端、路由器、网络PC、对等设备、主机、个人数字助理、联 网移动电话或者其它的公共网络节点。尽管远程计算机249典型地包括如 上诉述关于计算机系统220的一些或者全部元件,但在图9中仅仅示出了 一个存设备250。图中所绘的逻辑连接包括局域网(LAN) 251和广域 网(WAN) 252。这种网络环境在办公室、企业范围的计算机网络、企业 内部互联网和因特网是普遍的。
当用于LAN网络环境中的时候,计算机系统220往往通过网M口 或者适配器253连接到局域网251。当用于WAN网络环境中的时候,计 算机系统220典型地包括调制解调器254或者其它用于在诸如因特网的 WAN 252上建立高速通信的装置。调制解调器254可以是内置的或者外置 的,通过USB接口 246连接到系统总线223。在网络环境中,可将相对于 计算机系统220描述的程序模块或者其部分存储在远程存储器设备250中。 可以理解,所示的网络连接是示例性的,可以使用用于在计算机之间建立 通信连接的其它装置。
可将程序模块存储在硬盘227、光盘231、 ROM 224、 RAM 225、甚 至磁盘229上。程序模块可以包括操作系统240、应用程序236等的几个 部分。系统拓朴数据库238包含要建立热模型的计算机系统的M。还可 以包括热异常数据库239,该数据库包含与可能出现在计算机系统220内 的多个假想热异常有关的信息。在应用的一个例子中,计算机系统220可 以从热异常数据库建立多个情境模型,并将它们与实际温度数据进行比 较,以确定该情境中的哪个,如果有的话,与实际温度数据最接近。
本发明的一些方面可以以应用程序236的形式来实现。应用程序236 从系统拓朴数据库238和/或热异常数据库239获得信息或者与之关联。应用程序236通常包括计算机可执行指令,用于实施热诊断,尤其是,才艮据 本发明用于选择性地增加处理器负载并探测热异常。
这里的权利要求书和说明书中使用的术语"包含"、"包括,,和"具有" 应该认为是表示一个可以包括未指出的其它元件的开放组。单词的单数形 式应该包括同 一单词的复数形式,以使该术语表示提供一个或者多个事物 的意思。术语"一个"或者"单个"可用来表示所要表达的是一个或者仅 仅一个事物。类似地,其它特定的整数值,诸如"两个"可以在需要特定 数量事情的时候使用。术语"优选""、优选的"、"最好"、"可选地"、"可 以"以及类似的术语用来表示所提及的项目、条件或者步骤是本发明可选 的(不是必需的)特征。
尽管本发明已经相对于有限的实施例进行了描述,但是本领域技术人 员在公开内容的教导下会理解,能够设计出其它的不违背这里所公开的本 发明的范围的实施例。因而,本发明的范围仅受所附权利要求书的限制。
权利要求
1.一种用于探测气流异常的方法,包括操作具有一个或者多个节点的计算机系统;选择性地将一个选中节点的处理器负载增加到足以使气流异常在该选中节点会产生可探测到的温度差的级别;在增加的处理器负载的状态下探测该选中节点的温度;通过对在该增加的处理器负载下的该计算机系统建立热模型来预测该选中节点的温度;以及比较该预测温度和该探测温度,以探测该气流异常是否存在。
2. 如权利要求l所述的方法,还包括 对该计算机系统建立假设存在气流异常的热模型; 计算该预测和探测温度之差;并且响应于小于预定温度差的设定值的该计算的差而产生發溪信号。
3. 如权利要求l所述的方法,还包括 对该计算机系统建立假设不存在气流异常的热模型; 计算该预测和探测温度之差;并且响应于大约预定温度差的设定值的该计算的差而产生错误信号。
4. 如权利要求l所述的方法,其中增加该选中节点的处理器负载包括 将正在另一个节点上运行的一个或者多个处理移到该选中节点。
5. 如权利要求l所述的方法,其中增加该选中节点的处理器负载包括 将人为负栽加在该选中节点上。
6. 如权利要求5所述的方法,其中该附加的负载从包含无限循环、大 量使用CPU的内诊断工作负栽、和对存储器进行一组连续的读写的大量 使用CPU存储器总线的工作负载的组中选择。
7. 如权利要求l所述的方法,其中处理器负载增加到的该级别是满负 荷处理器利用率的一个预定百分比。
8. 如权利要求7所述的方法,其中该预定百分比在大约40%到100%之间。
9. 如权利要求l所述的方法,还包括将该选中节点的处理器负载增加 到一定级别,使因该气流异常引起的温度差超过用于探测该选中节点的温 度的温度传感器的分辨率。
10. 如权利要求9所述的方法,其中将该选中节点的该处理器负载增 加到一定级别,使因该气流异常引起的温度差是用于探测该选中节点的温 度的温度传感器的分辨率的至少两倍。
11. 如权利要求l所述的方法,其中增加该选中节点上的工作负载包 括在该选中节点上执行无限循环。
12. 如权利要求l所述的方法,还包括在探测该气流异常的存在时保持该增加的处理器负载下的基本稳定 状态。
13. 如权利要求l所述的方法,其中该气流异常包括流动阻塞。
14. 一种用于探测气流异常的系统,包括用于在计算机系统内建立加 热和气流模式的热模型的装置,该系统还包括用于在计算机系统的一个或者多个节点上实施操作的装置; 用于选择性地将选中节点的处理器负载增加到足以使气流异常在该选中节点会产生可探测到的温度差的级别;用于接收代表该选中节点在该增加的处理器负载下的实际温度的信号的装置;用于通过对在该增加的处理器负载下的该计算机系统建立热模型来 预测该选中节点的温度的装置;和用于计算该预测温度和该探测温度之差来探测该气流异常是否存在 的装置。
15. 如权利要求14所述的系统,其中该用于选择性地增加该选中节点 的处理器负载的装置包括用于将在另一个节点运行的一个或者多个处理 移到该选中节点的装置。
16. 如权利要求14所述的系统,其中该用于增加该选中节点的处理器负载的装置包括用于将人为负载加在该选中节点上的装置。
17. 如权利要求14所述的系统,其中该用于增加该选中节点的处理器 负栽的装置包括用于将在另一个节点运行的一个或者多个处理移到该选 中节点的装置。
18. 如权利要求14所述的系统,其中该用于增加该选中节点的处理器 负载的装置包括用于将人为负载加在该选中节点上的装置。
19. 如权利要求14所述的系统,其中该增加的负载从包含无P艮循环、 大量使用CPU的内诊断工作负载和对存储器进行一组连续的读写的大量 使用CPU存储器总线的工作负载的组中选择。
20. 如权利要求14所述的系统,其中该处理器负载增加到的该级别是 满负荷处理器利用率的一个预定百分比。
全文摘要
本发明提供了用于检测电子设备中气流异常的方法和系统。具体说,将处理器负载选择性地增加,以放大因可能存在于计算机系统内的气流异常产生的效果。可以使用工作负载迁移将处理器负载从另一个节点移到目标节点。还可以在目标节点上产生人为负载。处理器负载增加到足以使气流异常会在选中节点产生可探测的温度差的级别。可将处理器负载增加一个经过计算以产生这个可探测的温度差的量。或者,可将处理器负载增加满负荷处理器利用率的40%到100%之间的一个预定量。在增加的处理器负载下,可将由温度传感器感知的实际温度与从该模型预测的温度进行比较,以探测气流异常的存在与否。
文档编号G06F1/20GK101206515SQ20071018663
公开日2008年6月25日 申请日期2007年11月14日 优先权日2006年12月19日
发明者A·B·达尔顿, R·E·哈珀, W·J·皮亚扎 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1