专利名称:测量具有多个网络组件的网络的各方面的方法和系统的制作方法
测量具有多个网络组件的网络的各方面的方法和系统技术领域
本发明通常涉及网络中功率和冷却(cooling)的监控和管理,更具体说,涉及测量具有多个网络组件的网络的各方面的方法和系统。
背景技术:
能耗以近年来加速的趋势持续逐步升高。正因为此,各个行业对这些上升成本的影响日益敏感。已引起越来越多监督的一个领域是IT基础设施。许多公司目前正着眼于他们IT系统的功率利用率从而确定是否可以减少能耗。为此,兴起了集中于高能效(energy efficient)网络的行业以从总体上处理IT设备利用率(例如,PC、显示器、打印机、服务器、 网络组件等)的上升成本。测量功率利用率的传统方法使用侵入性仪器来测量每个组件。
现代网络组件正日益实现能耗和能效(energy consumption and efficiency) (ECE)控制机制。一些ECE控制机制允许物理层组件进入和退出低功率状态。ECE控制策略控制何时和何种情况下ECE控制使能的物理层组件进入和退出低功率状态。设备控制策略在使节能最大化而使对网络的性能影响最小化方面起关键作用。
即使当使用现代ECE机制实现网络时,仍然没有测量和控制各种链接系统设备的运行特征的非侵入性方法。发明内容
根据本发明的一个方面,提供一种系统,所述系统用于测量具有多个网络组件的网络的各方面(aspects),所述系统包括
监控器,所述监控器用于采集所述多个网络组件的至少一个的运行特征;
分析器,所述分析器用于
分析从所述监控器接收的所述采集的运行特征;以及
基于所述采集的运行特征估计所述多个网络组件中未被监控(immonitored)的一个网络组件的特征。
优选地,所述分析器还用于生成至少一个所述特征的地图显示(map display)。
优选地,所述多个网络组件中所述未被监控的一个网络组件的特征的所述估计基于来自所述采集的运行特征的外推(extrapolation)。
优选地,所述多个网络组件具有超额订购(oversubscribed)的功率配置。
优选地,所述采集的运行特征包含监控组件利用低功率模式所采用的频率的测量。
优选地,使用高能效以太网(EEE)机制实现所述低功率模式。
优选地,所述采集的运行特征包含与监控组件关联的链路利用亚速率(subrated) 模式所采用的频率的测量。
优选地,所述采集的运行特征包含与监控组件上正执行的应用程序对应的信息。
优选地,所述系统还包括日志,其中所述分析器还用于
在所述日志中存储采集的运行特征;以及
基于所述采集的运行特征和从所述日志检索的信息估计所述多个网络组件中未被监控的一个网络组件的特征。
优选地,所述系统还包括参考存储(reference store),其中所述分析器还用于
从所述参考存储检索关于网络组件的参考信息;
在存储器中存储所述检索的参考信息;以及
基于所述采集的运行特征和所述存储器中存储的参考信息估计所述多个网络组件中未被监控的一个网络组件的特征。
优选地,所述关于网络组件的参考信息包含其中之一
所述网络组件的物理特征,
所述网络组件的额定功率,
所述网络组件的推荐温区,以及
所述网络组件的推荐湿度区。
优选地,所述系统还包括与网络组件关联的控制策略,其中所述分析器还用于
检索与所述网络组件关联的所述控制策略,以及
基于所述采集的运行特征和所述控制策略估计所述多个网络组件中未被监控的一个网络组件的特征。
优选地,所述控制策略与实现高能效以太网(EEE)机制的网络组件相关联。
优选地,所述系统还包括与所述多个网络组件关联的拓扑参考(topology reference),其中所述分析器还用于
从所述拓扑参考检索所述网络的所述拓扑,上述拓扑与所述多个网络组件的其中之一相关联,以及
基于所述采集的运行特征和所述检索的拓扑估计所述多个网络组件中未被监控的一个网络组件的特征。
优选地,所述系统还包括
控制器,其中所述控制器用于
基于至少一个所述采集的运行特征和所述估计特征生成配置指令,以及
向所述多个网络组件的至少一个发送所述配置指令。
优选地,所述配置指令是控制策略调整(control policy modification)、以及所述多个网络组件的至少一个是实现高能效以太网(EEE)机制的设备。
优选地,所述配置指令用于相对所述多个网络组件的至少一个推广目标(promote a goal)ο
优选地,所述目标指提高效率。
优选地,所述目标指提高性能。
优选地,所述系统还包括
与所述多个网络组件的其中一个的特征相关联的阈值,其中如果超出阈值,所述控制器则基于所述阈值超出特征用于生成响应配置指令。
优选地,所述响应配置指令包含具有所述阈值超出特征的所述组件的禁用功能 (disabling function)。
优选地,所述阈值是功率使用阈值。
优选地,所述生成的响应配置指令包含EEE控制策略,所述EEE控制策略用于减少具有阈值超出特征的所述组件的功率利用率。
优选地,所述多个网络组件具有超额订购的功率配置。
优选地,所述运行特征、所述估计特征和所述生成的配置指令涉及冷却网络组件。
优选地,所述分析器还用于生成地图式的热图显示(map heat map display)。
优选地,所述多个网络组件的其中之一是交换机和路由器的其中一个。
优选地,所述多个网络组件的其中之一是主机。
优选地,所述控制策略调整是指与交换机上的端口相关联的能效设定。
优选地,所述控制策略调整是指提高传输路径(traffic path)的能效。
优选地,将所述多个网络设备分为两个或多个监控组。
优选地,每个所述监控组与用户相关联。
根据本发明的另一方面,提供了一种方法,所述方法测量具有多个网络组件的网络的各方面,所述方法包括
监控所述多个网络组件的至少一个的运行特征;以及
基于所述监控的运行特征估计所述多个网络组件中未被监控的一个网络组件的特征。
优选地,所述方法还包括
基于所述监控的运行特征和所述估计特征的至少一个生成配置指令;以及
向所述多个网络组件的至少一个发送所述配置指令。
优选地,所述方法还包括从参考存储检索关于网络组件的参考信息;以及
其中,所述估计包括基于所述采集的运行特征和从所述参考存储检索的参考信息估计所述多个网络组件中未被监控的一个网络组件的特征。
优选地,所述方法还包括
在所述日志中存储采集的运行特征;以及
从所述日志检索关于网络组件的日志信息,
其中,所述估计包括基于所述采集的运行特征和检索的日志信息估计
所述多个网络组件中未被监控的一个网络组件的特征。
以下将参照附图结合说明书对本发明进行详细描述,以进一步解释本发明的原理和使本领域技术人员能够制造和使用本发明。
图IA是测量具有多个网络组件的网络的运行特征的传统方法的框图IB是测量具有多个网络组件的网络的运行特征的另一传统方法的框图2是根据本发明实施例的测量具有多个网络组件的网络的运行特征的方法的框图3A是根据本发明实施例的在具有多个网络组件的网络中测量和控制运行特征的方法的框图;3B是显示全局(glcAal)控制策略管理器的不同实施例的框图4是根据本发明实施例的描述用于测量、分析、外推和控制网络运行特征的控制器的详细视图的框图5是根据本发明实施例的描述网络中多个监控组的框图6是根据本发明实施例的描述网络中多个监控组和全局控制策略管理器 (GCPM)的框图7是根据本发明实施例的描述具有超额订购的功率配置的网络中多个监控组的框图8是根据本发明实施例的描述具有监控冷却系统的网络中多个监控组的框图9是根据本发明实施例的测量和控制具有多个网络组件的网络各方面的方法的流程图。
结合附图描述本发明。附图标记最左边的数字用于标识该附图标记首次出现时的那幅附图的编号。
具体实现方式
本发明的以下详细描述参考附图,所述附图阐述与该发明一致的示例性实施例。 其他实施例是可能的,而且在本发明的精神和范围内可对实施例进行修改。因此,详细描述的目的不是限制本发明。相反地,本发明的范围由附属的权利要求进行限定。
本发明的特征和优点在以下的描述中得以阐述,从描述中其部分是显而易见的、 或者可通过本发明的实践来学习。本发明的优点由结构实现和达到,并在其撰写的描述和权利要求中以及附图中特别指出。以下详细描述是示例性和解释性的,并旨在为所要求保护的发明提供进一步解释。
说明书中针对“一个实施例”、“实施例”、“一个示例实施例”等的引用,指的是描述的该实施例可包括特定的特征、结构或特性,但是不是每个实施例必须包含这些特定特征、 结构或特性。此外,这样的表述并非指的是同一个实施例。进一步,在结合实施例描述特定的特定、结构或特性时,不管有没有明确的描述,应该理解的是已经表明将这样的特征、结构或特性结合到其它实施例中是属于本领域技术人员的知识范围内的。
概述
一般而言,这里所描述的某些实施例提供了测量和控制网络组件的改进方法。相比上述侵入性测量方法,这里所描述的某些实施例监控网络组件的代表性样本、然后向网络中的其他组件外推收集的度量值。
实施例的监控不仅包含传统测量的环境度量值(温度、湿度),而且包含涉及现代高效节能(energy conservation and efficiency) (ECE)机制的统计值。使用分析方法, 现代ECE-使能组件收集和利用的相同统计值(例如,利用率、空闲时间、数据流量等)可用于估计和预测网络中不同连接组件的资源需求。这里所使用的术语“外推”、“估计”、“衍生” 和“预测”用于描述使用收集的系统特征时的相似操作。
仅通过测量数据中心组件的较少量样本,这一发明减少了数据中心监控和控制中涉及的侵入性和支出。一旦确定资源需求,可触发不同的动作来使能不同功能。
传统数据中心测量
图IA是测量具有多个网络组件的网络的运行特征的传统方法的框图。图IA显示服务器机柜(server rack) 190A-C、交换机160A-B、监控器120和网络101。每个机柜190A-C分别包含主机150A-DU50E-H和150I-L。
这里与某些实施例一起使用的是,运行特征包含组件的环境特征(温度、湿度)和功率利用。在传统系统100中,监控器120可以是临时地或永久放置在数据中心的简单温度传感器。相关领域技术人员理解的是,特征的传统测量可具有以下限制特征M1-M7的任一结合
Ml.测量的特征可能仅仅是环境特征(温度、湿度),而不是与高效节能相关的全套特征。
M2.测量可能仅仅是临时的、仅在有限时间针对特定的组件和/或空间。
M3.测量可能仅针对环境特征(例如,温度)、而不是特定组件的特征。
M4.当特定地测量组件时,能够测量小子集的“关键”组件、而不是大多数组件。
M5.尽管传统测量设备的收集能力有限,上述设备的大规模部署过于昂贵和/或侵入性、而且通常并没有进行。
M6.传统测量能力不提供大部分数据中心的全局视图和单个设备的特定视图。如 M4中所述,许多情况下仅测量关键设备。
M7.传统测量系统不会基于现代高效节能信息用于接收、分析和估计。
如这里某些实施例所使用的,每个主机150A-L可以是具有各种计算机系统配置的计算机,包含多核多处理器系统、小型计算机、大型计算机、与分布式功能链接或集群的计算机、以及事实上嵌入任一设备的普遍或微型计算机。在实施例中,可将较大能力和/或性能的主机150A-L叫做计算机服务器或仅叫做服务器。
如这里某些实施例所使用的,机柜190A-C是用于安装多个设备模块的标准化框架或外壳。在示例性实施例中,主机150A-D安装在机柜190A中。例如,术语“机柜”在这里的使用对描述数据中心中组件的收集有益,但应该注意的是,这里描述的某些实施例的方法可以任一配置(例如,独立或放于机柜(racked))应用于网络硬件。
这里使用的网络101可以是任一类型的任何一个或多个网络,其包括但不限于局域网、中域网或广域网(例如,因特网)。
如这里描述的某些实施例所使用的,网络交换机160A是具有数据端口的网桥设备,所述数据端口可额外具有路由/交换能力,例如L3交换机/路由器。该交换机可具有少达两个数据端口或多达400个或更多数据端口、并且能够以全双工形式从任一端口向其他端口弓丨导流量,有效地使任一端口充当输入和任一端口充当输出。此处,为便于讨论可将数据端口和它们相应的链路交换地称为数据信道、通信链路、数据链路等。
因为图中的物理描述不应该理解为限制性的,这里使用的交换机160A和主机 150A可包含在单个物理设备(未显示)中结合的主机150A和交换机160A。在一个实施例中,交换机160A也广泛包含在现代分层交换架构(switching architecture)中开关逻辑的使用。在实施例中,在单个设备中,交换机160A的功能可与主机150A的功能物理结合, 例如,在服务器上集成2-端口虚拟交换(v-switch)功能。交换机160A也可利用较高层功能(layer functionality),例如访问控制列表(ACL)和L4交换/路由方法。
图IB是测量具有多个网络组件的网络的运行特征的另一传统方法的框图。图IB 描述与图IA相似的系统,其具有附加的机柜监控器125A-C且不具有监控器120。
如传统系统110的某些实现方式所使用的,机柜监控器125A-C是用于测量系7统110运行特征的传统仪器的实例。测量的系统特征包含温度、湿度和功率吸收(power draw)。在方法中(未显示),与机柜监控器125A-C相似的仪器安装在主机150A-L上。
如以上背景部分所述,这一传统监控方法,即单个网络组件的粗放型 (extensive)、侵入性监控是不提供系统110资源的综合视图的高成本方法。外推监控
图2是根据本发明实施例的监控和/或测量具有多个网络组件的网络的运行特征的方法的框图。图2描述监控组257中具有机柜280和机柜^OA-B、监控器255和分析器 251的系统210。交换机160A-B也与网络101连接。系统210可能是较大的互联数据中心的子集,所述数据中心具有由网络101连接的、与主机150A-L相似的附加主机和与交换机 160A-B相似的附加交换机。
相比图IA-B中详细说明的传统方法,图2具有监控组257,所述监控组257具有附有连接的测量仪器(监控器25 的单个机柜280和不具有测量仪器的两个机柜四(^-8。 监控组257可能是这里描述的某些实施例所监控的网络组件的收集(某些未显示)。
监控器255可测量和收集网络组件的运行特征。分析器251可接收监控器255从网络组件的子集收集的运行特征、分析收集的特征、并进一步将特征与参考信息结合以及衍生出关于相关网络组件的估计特征。例如,监控器255可收集与机柜280关联的组件的运行特征,随后由分析器251分析所述运行特征,从而分析器251可使用参考信息(未显示) 衍生出关于机柜^OA-B的估计特征。
运行特征
为了外推关于相关网络组件的估计特征,分析器251从网络组件接收各种类型的运行特征。运行特征的实例包含物理层(PHY)信息、链路信息、应用程序信息和高效节能 (ECE)信息。有权使用此处教条的相关领域技术人员理解的是,广泛的信息、特征和策略等将视为这里使用的网络组件的运行特征。
物理层(PHY)信息可涉及网络组件自身的运行特征或能力,所述运行特征包含的特征例如网络组件当前可用的支持链路速率、组件利用的当前运行模式(例如,子集模式、 低功率空闲(LPI)状态)等。
链路信息可涉及网络组件间链路的利用。链路信息的实例包含使能实际链路利用测量的流量缓冲器充满程度(traffic buffer fullness)和脉冲参数(burstiness parameter)(例如,链路上脉冲大小(size of the bursts)、脉冲间的时间、链路上的空闲时间等)。另一实例是链路容量利用率超时的百分比,例如,如果IOG链路的平均利用率在一段时间总是少于1G,然后这可以是链路利用的有用测量。
应用程序信息可包含监控的网络组件上当前正执行的应用程序。应用程序信息监控也可捕捉监控系统上执行的应用程序的一般类型。例如,就繁重的连续处理需求而言,监控主机150B可正在执行银行应用程序(banking application)。替代性地,就循环的繁重交易负荷而言,主机150B可正在执行电子商务应用程序交易。通过考虑监控的网络组件上执行的应用程序,实施例可改进估计的精度。
其他类型的应用程序信息可包含执行应用程序的时间、应用程序的输入/输出需求以及其他相似信息。应用程序信息也可涉及管理网络组件运行的系统应用程序的特征。
有用的应用程序信息的另一实例包含所分析的网络组件中通过的应用程序流 (application stream)。现代网络组件可作用于多个应用程序流。在帮助外推关于其他网络组件的特征时,关于执行流的类型和性能的应用程序信息可以是有益的。例如,在没有虚拟化的L2交换机中,经过组件的以太网音视频桥接(AVB)流的认知可与其他收集的信息相结合、从而改进这里描述的外推的精度。
在给出此处的描述后,相关领域技术人员应该理解的是,当由本发明的实施例收集和分析时,各种附加类型的应用程序信息可提供有用的运行特征。
在给出此处的描述后,相关领域技术人员应该理解的是,ECE信息可包含与高效节能(ECE)相关的各种运行特征。某些实施例受益使用的一种ECE信息是来自使用ECE控制机制来改进网络中ECE的现代设备的信息。某些现代设备收集和存储关于ECE机制和网络利用率的广泛的统计值,并且某些组件可使这些统计值对实施例实时可用。
如此处所使用的,高效节能(ECE)控制机制用于参考用于控制设备的高效节能的各种现代技术。一般而言,这些ECE机制用于减少能耗和提高效率、并维持性能的可接受水平。
ECE控制机制的一个实例是用于使用IEEE标准802. 3az -2010标准的机制,其也称为高能效以太网(EEE)并在此处引用作为参考。EEE是在物理层(PHY)设备的选择组中用于在以太网网络中节能的IEEE建议标准。
EEE标准范围内涉及的示例性PHY包含100BASE-TX和1000BASE-T PHY,以及形成 1OGBASE-T技术和背板接口,例如10GBASE-KR。
应用于EEE使能交换机的示例性ECE控制机制可监控和生成关于交换机中TX缓冲器的统计值、并在特定环境下引导交换机进入低功率空闲(LPI)状态。这里描述的某些实施例收集和使用运行特征,所述运行特征包括从LPI使能设备生成的统计值,上述统计值对应于这些设备何时进入和退出LPI状态。与上述链路容量利用率测量的百分比一起, 设备花在LPI上的时间百分比可能是有用的运行参数。
在含有具有高效节能能力的设备和不具有这种能力的设备的网络拓扑中,可收集 ECE统计值并向非-ECE使能设备的运行外推该ECE统计值。例如,在交换机160A中,某些端口可具有使能的ECE测量,而某些端口则可能不具有使能的这些测量。
存在某些实施例可受益使用的附加类型的运行特征。
一旦实施例收集并分析运行特征,可衍生和/或生成关于非监控组件的估计特征。例如在系统210中,可分析监控器255收集的关于机柜观0中主机150A的运行特征, 并且将结果外推至机柜^OA中未被监控的主机150E。
如以下结合图3A的描述所讨论的,分析器251可以是较大控制设备中的组件,上述设备使用估计特征来控制网络设备。另外,如结合图4的描述所讨论的,分析器251可与参考信息和日志信息结合,上述附加信息使能附加组件特征的估计。
控制网络组件
图3A是测量和控制网络中网络组件的运行配置的方法的框图。图3中描述的系统与图2中描述的系统相似,其具有显示分别具有组件控制管理器310A-B的机柜280和 ^K)A。在图3A描述的实施例中,分析器251的功能集成在控制器350中。以下在图4中, 与分析器251相似的分析器描述为与控制器350相似的控制器中的组件。
根据实施例,控制器350从监控器255收集运行信息、并基于收集的运行信息的分析生成配置指令。
在实施例中,控制器350可与系统310的硬件交互并协调组件ECE机制、控制策略和其他相关控制。控制器350的实施例也可使执行的应用程序的需求和其他网络考虑因素 (network consideration)相平衡,例如性能、安全性等。在实施例中,通常为系统以及特定为应用程序设定的其他性能特征和目标可使控制器350改善ECE性能的效应得以平衡、协调和另外改变。
在实施例中,控制器350可遵循用户或外部自动处理手动生成的控制策略。在另一实施例中,控制器350受其(或未显示的其他组件)自动生成的控制策略的引导,控制器 350 (或未显示的其他组件)通过收集关于系统310运行和组件的数据生成所述控制策略。 也可结合上述手动和自动方法。如以下结合图4-8所讨论的,例如,可通过功率预算、阈值、 功率利用率限制和应用需求引导控制器350。
在实施例中,控制器350可使用ECE策略参数来改变网络组件的配置。ECE策略参数可涉及管理控制策略的分析和/或运行的那些参数,所述控制策略为网络组件而设定。 例如,当配置网络组件时,策略参数可设定为管理设备的ECE运行,该策略参数包含链路利用阈值、IT策略、用户参数等。
应该理解的是,将独立实现一套特定运行特征的接收、对运行特征执行分析以及基于运行特征的分析生成配置指令的过程。不管使用的收集的数据和分析机制,明显的是, 控制器350合并、分析并利用网络组件的功率信息,从而引导特定组件的配置。在实施例中,控制器350可使用收集的运行特征来通常控制链路配置和路由/交换的各方面。
图;3B阐述了具有替代性物理和逻辑配置的、用于与图2-3A中监控器255和控制器350的不同实施例的系统310。每个描述的监控器355A-D和控制器350A-D的放置是非限制性的,并呈现为可单独地或与其他各个监控器355A-D和控制器350A-D组件协调运行的放置。例如,系统310可具有单个监控器355A、两个监控器355A-B、或者所有的四个监控器355A-D组件。实施例可使用控制器350A-D的相似结合。
在实施例中,在图:3B中将监控器355A和控制器350A描述为部分监控组357A并在所有描述的部件之外。在另一描述的实施例中,在图3B中将监控器355B和控制器350B分别描述为部分机柜280和^0A。在另一实施例中,在图:3B中将监控器355C和控制器350C 分别描述为部分主机150E和150L。在最后的实施例中,将监控器355D和控制器350D分别描述为位于交换机160A和160B中。重要的应注意的是,实施例中上述监控器/控制器对不需要共同放置。在不同实施例中可使用监控器/控制器的任一结合。
图;3B的放置图示并不是限制性的。相关领域技术人员将理解的是,这里描述的监控器355A-D和控制器350A-D的功能可位于上述系统范围内的各种位置,且实现为软件或硬件或二者的结合。
运行特征分析
图4是根据本发明实施例的描述用于测量、分析、外推和控制网络运行特征的控制器的详细示图的框图。控制器450描述为具有分析器451、数据收集器420、控制策略435 和拓扑445。参考460和日志470描述为与控制器450连接。如上所述,分析器451具有与图2的分析器251相似的功能。
如图2中所述,在某些实施例中,分析器251根据收集的监控网络组件的运行特征执行分析。分析器451执行附加分析,上述分析受检索可用的附加信息(例如,其他相关信息)通知。
在上述控制器450的运行实例中,数据收集器420从监控器255(未显示)收集运行特征,分析器451分析该信息。在实施例中,分析器451将参考460、日志470、控制策略 435和拓扑445提供的附加相关信息与收集的运行特征相结合。
在给出此处的描述后,相关领域技术人员应该理解的是,分析器451可存储各种类型的信息并受益地将其与收集的运行特征相结合。类型T1-T4的以下列表意图是具有说明性讨论的不同类型相关数据的非限制性示例性列表。
Tl.日志数据(log data):在实施例中,日志470可用于为后续检索存储收集的运行特征。例如,超时收集的不同特征(例如,功率利用率、温度、应用程序执行)可存储在日志470中用于检索。例如,分析器451可将功率利用率在每天特定时间增加的确定模式 (determined pattern)与其他特征(例如该时间执行的应用程序)相结合。
T2.拓扑数据在实施例中,拓扑445存储相关网络(主机、交换机、链路)的特征, 并可为收集自监控组件的数据应用于未被监控组件的运行提供构架。
T3.参考数据在实施例中,参考460可提供具有识别的网络组件的物理特征的参考。例如,现代服务器具有详细的额定功率、推荐温区和湿度区以及其他通常的物理特征, 分析器451和/或指令生成器430可将上述特征与其他信息有益结合。
T4.控制策略信息如在此通常使用的,控制策略广泛地用于描述可控制网络组件的指导方针(guiding policy),例如ECE控制策略。例如,交换机的控制策略可描述交换机何时和在何种情况下进入和退出节能的低功率状态。控制器450可使用控制策略来控制系统中的一个或多个物理或虚拟设备。控制策略(也称为物理控制策略或设备控制策略) 为EEE使能设备增加了附加层控制。
例如,控制策略435可存储所有连接的网络组件的控制策略。同样地,作为网络中的组件,控制器450也可具有引导它的节能功能的独立控制策略。
应该注意的是,本发明的原理可广泛应用于与这里讨论的情形相似的各种情形, 例如在所有实现ECE的PHY中(例如,背板、双绞线、光纤等)。此外,本发明的原理可应用于标准或非标准链路速率(例如,2. 5G、5G、100M、IG和IOG光线接口、PON等)以及未来链路速率(例如,406、1006、4006、兆兆位等)。还应该注意的是,本发明的原理可应用于给定的非对称或对称的链路。这里的教条并不是限制特定的媒介类型。除了这里所提及的那些, 其他存在或不存在的媒介类型(例如,结构化布线、光缆等)也可使用这里的方法。
应该理解的是,将独立实现一套特定运行特征的接收、对运行特征执行分析以及基于运行特征控制网络组件的过程。不管使用的收集的数据和分析机制,明显的是,控制器 450使用收集的关于组件的信息来引导网络组件的协同控制。
监控组
图5是根据本发明实施例的描述网络中多个监控组的框图。监控组557A-B分别具有机柜590B-C和机柜590D-G。监控组557A中的机柜590B和监控组557B中的机柜590F 分别描述为具有与其连接的监控器^5A-B。机柜590A描述为不是监控组的部分。
在实施例中,每个监控组可相当于数据中心服务的特定客户。例如,监控组557A 和557B可分别相当于使用数据中心资源来运行应用程序和监控的第一客户和第二客户。
这里描述的某些实施例使用测量的、与附加相关信息(以上的实例T1-T4)结合的运行特征,从而确定每个监控组557A-B的估计特征。在图5显示的实例中,监控器555A通过监控机柜590B的组件可向控制器550提供有用信息、从而确定监控组557A的估计特征。以下列表C1-C7意指收集的运行特征和相关附加数据的其他非限制性实例,控制器550可使用所述收集的运行特征和相关附加数据来确定监控组557A的集合特征(aggregate characteristic)。这一实例通常也可应用于这里描述的其他实施例。在这一实例中,集合特征是组内所有组件的实时功率吸收。重要的是,应注意,为了方便起见,机柜590B用作组件的示例性收集。可使用系统500组件的其他收集而不背离这里所描述的发明的精神。收集特征的实例C1-C7阐述实施例的运行,具体如下Cl.机柜590B的组件的功率吸收。在给出此处的描述后,相关领域的技术人员应理解的是,机柜590B的组件可包含主机、交换机、路由器和其他网络组件。应该理解的是, 监控器555A可应用于不同结合的测量组件。例如,监控器555A可应用于机柜590B的单一主机组件(未显示)、可用组件的任一结合(例如,机柜590B的所有主机)或子集。C2.机柜590B的单一主机组件(未显示)、或可用组件的任一结合、或机柜590B 的所有主机的运行温度。当测量温度时,监控器阳5々可应用于围绕机柜590B的不同物理区域。C3.围绕机柜590B的不同物理区域的湿度。C4.机柜590B上运行的一个或多个主机当前执行的应用程序。C5.与机柜590B关联的链路的特征,包含机柜590B和其他网络组件之间链路的利用、流量缓冲器充满程度、链路上脉冲的尺寸、脉冲间的时间、链路上的空闲时间等。采用这里讨论的任一测量的运行特征,可超时收集并分析链路容量利用率的百分比。C6. ECE控制机制的状态可由监控器555A收集。例如,可收集入口或出口链路是否已空闲、或是否亚速率、以及机柜590B的组件是否已经处于节能低功率模式中。C7.当前控制机柜590B的组件的ECE控制策略。在某些实施例中,至少由于它们与控制组件相关的预测值分析控制策略,例如,控制策略描述时间、触发事件和特定行为的结果。在给出此处的描述后,相关领域技术人员应该理解的是,实施例可收集并使用相似的运行特征,从而有益地测量和控制监控组的组件。全局控制策略管理器图6是根据本发明实施例的描述网络中多个监控组和全局控制策略管理器 (GCPM)的框图。GCPM 680描述为具有全局控制策略685并与监控组657A-B连接。监控组 657A-B分别描述为具有控制器655A-B。如这里所使用的,全局控制策略(GCP)685的实施例是说明单个设备控制策略的高阶目标的配置策略,从而推广与实现的网络作业关联的不同结果。在另一实施例中,GCP 685可具有设定,所述设定是指推广与不同组件、通常与主机和虚拟化作业的结合相关联的结果。获得此处教导的相关领域技术人员应该理解,GCP 685中概述的全局系统控制策略可具有不同的细节层次、并可应用于不同类型的相关考虑因素。根据实施例,GCPM 680可与实现的网络作业的需求交互、与系统600的硬件交互并使用GCP685来协调它们的ECE机制、控制策略和其他相关控制。GCP 685的实施例也可使实现的网络作业的需求和其他网络考虑(例如,性能、安全性等)得以平衡。在实施例中, 通常为系统以及特定为虚拟化作业设定的其他性能特征和目标可使GCPM 680改善ECE性能的效应得以平衡、协调和另外改变。2010年6月10日申请的、申请号为No. 12/813,085 (律师事务所案卷号为 #2875. 3940000)、题为“全局控制策略管理器”的美国专利申请中公开了全局控制策略管理器(GCPM) 680的实例,该专利申请在此全文引用(“GCPM申请”),以供参考。在实施例中,GCP 685可由用户或外部自动处理手动生成。在另一实施例中,GCP 685由GCPM 680通过收集关于实现的网络作业和系统600组件的数据自动生成,并且其自动选择有益的全局策略。上述手动和自动方法还可结合。在实现GCP 685时,GCPM 680可接收关于网络组件的各种类型的ECE/功率相关信息(功率信息)。在实施例中,GCPM 680还可指导配置改变从而影响这一功率信息接收自的组件。这一功率信息的实例包含物理层(PHY)信息、链路信息、ECE控制策略信息和应用程序信息。获得此处教导的相关领域技术人员应该理解,广泛的信息、特征和策略等将量化为这里使用的功率信息。在实施例中,控制器250、450可与GCPM 680交换信息,GCPM680可使实施例的数据收集和分析并入各种控制策略功能中,GCPM 680采用所述控制策略功能分派任务。例如, GCPM 680可使用不同实施例的监控器255来监控功率、链路和应用程序信息。相反地,根据 GCP 685,控制器350、450可使用由GCPM 680中继转发的确定功率阈值和/或预算分析收集的运行特征。在另一实施例中,GCPM 680实现的控制策略可影响不同实施例的运行。例如,基于控制策略,可结合描述的测量系统使用不同的报警阈值。同样地,根据控制策略和这里描述的实施例所生成的测量/估计,使用限制可强加于(Place on)测量组件。相关领域的且熟悉本申请和GCPM应用程序的技术人员应当理解,这里描述的实施例的各方面可以附加有益方式与GCPM应用程序的实施例交互。超额订购图7是根据本发明实施例的描述网络中具有多个监控组的系统710的示意图。监控组757A-B分别描述为具有机柜790A-B和机柜790A-B。监控组757A中的机柜790A和监控组757B中的机柜790E分别描述为具有连接其上的监控器755A-B。许多数据中心具有为中央组件提供动力的超额容量。测量数据中心中功率利用率的某些传统方法利用数据中心的总功率需求的集中式测量。这一集合测量不包含关于单个数据中心组件的特定信息。以上的图2-6概述的测量、分析和控制方法提供了系统组件的详细、实时视图。通过使用实施例提供的详细信息,可超额订购服务数据中心的电路,从而与初始设计相比、电路可服务更多数据中心组件。通过监控数据中心中单个组件的能量策略控制统计值,可监控超额订购、并且如果需求增加则减少超额订购。返回图7,在实例中,每个机柜790A-F拥有10个主机组件(未显示),每个主机具有300瓦的最大功率吸收。因此,机柜790A-F的总功率吸收为18千瓦㈩个机柜*10个主机/机柜*300瓦每主机)。相关领域技术人员理解的是,最大冷却瓦数估计为最大系统710吸收的20%。因此,冷却系统740可供给使用了 3. 6千瓦的冷却(18千瓦的20% )。因此,在这一实例中, 系统710的总估计最大功率吸收为21. 6千瓦。例如,这一实例不考虑其他功率需求。在实例中,系统710设计成具有可提供16. 2千瓦、即比总估计功率吸收少20%的电源73(K21. 6千瓦-20% = 16. 2千瓦)。实施例连接设备与电势从而吸收比电源730可提供的更多能量的这一方法称为“超额订购”。在这一实例中,系统710定期地在它最大功率吸收的40%运行。通过这里描述的方法,控制器750和监控器755Α-Β提供系统710的综合、精确和实时监控。这一详细监控使能系统710维持有上述超额订购水平。为了使能超额订购,某些实施例采集如以上图2-7描述的运行特征,并管理ECE控制策略、从而完全降低确定超过系统710内功率预算的应用程序的数据中心资源。例如,数据中心客户可能低估了它们利用的资源上安装的应用程序的能量需求。 在这一实例中,实施例可使用结合上图2描述的测量技术来确定哪一个资源已超过功率预算。与相关信息和分析结合的运行特征的实时收集允许某些实施例响应超额功率需求。其他实施例可记录信息并在稍后呈现考虑的分析。一旦确定已超过功率预算,结合上图3的描述而描述的控制特征可允许某些实施例使用各种机制来降低超额组件的功率吸收。由于穿过数据中心的ECE控制策略和/或机制的颗粒性质(granular nature),这一性能降低可选择性地应用于确定具有超额功率利用率的应用程序所利用的那些组件。例如,可通过增加侵犯性(offending)应用程序所使用的资源的等待时间、或者完成使主题资源(subject resource)空闲、和/或采取降压性能(st印-down performance)的其他措施来减少功率消耗从而实现降低。超额应用程序可包含超过链路利用率或其他网络资源、以及超额功率利用率的应用程序。在实施例中,可逐渐完成特定资源利用率的减少,从而允许系统管理员采取替代措施、重分配资源或购买附加的数据中心资源。在实施例中,由于特定应用程序功能的靶向和逐步减少,将该响应效应称为超额数据中心应用程序的“逐步降低”。当系统利用率接近最大吸收的预设阈值(例如,75% )时,实施例可结合图7中的上述实例使用不同选项。其中一个选项是根据需要使用ECE控制机制来减少网络组件的功率吸收。在给出此处的描述后,相关领域技术人员应该理解的是,ECE控制机制可通过ECE 控制策略得以实现,其中上述策略通常用于平衡竞争性能(competing performance)和功率需要。例如,当功率吸收超过预设阈值时,为了减少监控组757B中组件的功率吸收,可在交换机760B上实现用于延长交换机内的空闲时间的集合控制策略。参考结合上图5的描述讨论的实例,在第一客户(具有监控组757A中的应用程序)超过功率吸收阈值的情况下,实施例可以各种方式减少客户的功率吸收。列表Dl-DX 意图是某些实施例使用的、减少资源利用率的不同方法的非限制性列表Dl.可以使链路速度和数据速率增量式减速(incrementally slowed),从而减少机柜790A-B的处理。例如,交换机760A中的ECE控制机制可用于使监控组757A的连接速度亚速率。D2.可以选择性禁用监控组757A中资源的功能。应该理解的是,可为节能使某些具有现代ECE控制机制的PHY资源空闲。这里描述的实施例使用这一空闲功能来限制或控
14制系统710特定部分的资源利用率。D3.可选择性地禁用或限制具有使能的ECE控制机制的端口。图7中的这一实例包含机柜790A-B中主机的端口和交换机760A的端口。在给出此处的描述后,相关领域技术人员应该理解的是,对实施例而言,存在许多不同方式来减少监控组757A中资源的特定收集的资源利用率。应该理解的是,资源“完全”降低的特定方法取决于实现方式。不管用于实现降低过程的收集数据或机制,有益的是,控制器750使用系统方法来分配网络中的受限资源。进一步地,在一个实施例中,控制器750优选地使用ECE控制机制来实现资源降低过程。冷却图8是根据本发明实施例的描述网络中具有冷却系统和多个监控组的系统810的示意图。监控组857A-B分别描述为具有机柜890A-B和机柜890C-F,监控组857B具有控制器850。监控组857A中的机柜890A和监控组857B中的机柜890E分别描述为与其连接的监控器855A-B。同样的,图8中显示与网络101连接的冷却系统840、电源830和交换机 860A-B。在某些数据中心实现方式中,冷却系统840可消耗所有数据中心组件的大多数功率。监控数据中心冷却需求的传统方法可涉及每个数据中心组件的温度测量设备的昂贵和侵入性安装,例如,如图IB中描述的每个服务器机柜的热传感器。使用以上图2-7讨论的监控方法,监控器850的某些实施例可接收运行特征、使该特征与参考信息结合并向系统810 中的其他非仪表化组件外推测量。就这个实例而言,监控器855A-B收集的至少一个运行特征涉及环境因子,例如热量和湿度。在这一实例中,如图2-7中所描述的,某些实施例监控的运行特征不仅包括环境度量值,而且包括与能量控制策略实现方式相关的ECE统计值和网络运行特征(例如数据
流量度量值)。使用结合图2-7讨论的分析方法,收集的并用于能量控制策略的相同统计值(例如,利用率、空闲时间、数据通信量(data traffic volume)等)可用于估计和预测数据中心内不同组件的冷却需求,其中收集的ECE统计值是系统810中热量于何处产生的代表。通过测量数据中心组件的少量样本,图8中显示的系统可减少监控数据中心温度和确定数据中心“热点”涉及的侵入性和支出。图8中显示的以及这里描述的冷却方法的实施例还可以促进结合图7的描述讨论的超额订购方法。某些时候,资源可具有功率需求方面的两种限制。如上所述,组件可具有它可以吸收的功率量的限制。进一步地,资源还可具有它可以冷却到多少的限制。通常地,不是资源自身的功率吸收、而是网络资源的充分冷却与冷却组件的功率需求一起成为限制因子。通过提供数据中心组件的改良监控,系统810可使能结合图7的描述的上述冷却资源和能源的超额订购。通过这里描述的方法,控制器850和监控器855A-B提供系统810的综合、精确和实时监控。与上述功率利用率的估计相似,实施例提供的详细监控使能确定的系统810的冷却需求。如果实施例确定应用于系统810的冷却资源超过系统810的确定冷却需求,可通过控制器850实现应用的冷却资源的减少。在给出此处的描述后,相关领域技术人员应该理解的是,这一减少的冷却配置通常可促进改善系统810的ECE的总体目标。在设计系统810时,这里描述的监控方法还使能冷却资源的超额订购,而不会受合并组件的潜在冷却需求的限制。方法900通过呈现测量和控制具有多个网络组件的网络各方面的示例性方法900的流程图,这一部分和图9总结了这里描述的技术。尽管参考本发明的实施例描述方法900,但是方法900并不是限制性的、而可能在其他应用程序中得以使用。如图9中所示,方法900的实施例开始于步骤910,其中监控多个网络组件的至少一个的运行特征。在图2描述的实施例中,监控器255测量机柜观0中主机150A的运行特征。一旦步骤910完成,方法900前进至步骤920。在步骤920,基于监控的运行特征估计多个网络组件中未被监控的一个网络组件的特征。在图2描述的实施例中,分析器251基于监控器255从主机150A收集的运行特征估计未被监控主机150E的特征。一旦步骤920完成,方法900前进至步骤930。在步骤930,基于监控的运行特征和估计特征的至少一个生成配置指令。在图3和 4描述的实施例中,控制器350基于监控器255收集的运行特征和分析器251确定的估计特征生成主机150E-H的配置指令。一旦步骤930完成,方法900前进至步骤940。在步骤940,生成的配置指令发送至多个网络组件的至少一个。在图3和4描述的实施例中,控制器350向主机150E-H发送为主机150E-H生成的配置指令。上述配置指令由控制器350生成。一旦步骤940完成,方法900结束。这里的监控、分析和控制功能(例如,监控器255、分析器251、控制器350等)可在硬件、软件或其某些结合中得以实现。例如,基于这里给定的讨论,本领域技术人员将理解的是,可使用计算机处理器、计算机逻辑、特定用途集成电路(AHC)等实现控制器350的功能。 因此,执行这里描述的数据收集、策略管理、协调和分析功能的任一处理器在本发明的范围和精神内。例如,主机150A-L的实施例是使用处理器来执行主机功能的计算机服务器。进一步地,这里描述的控制器350的功能可体现为由计算机处理器或以上列举的任意一种硬件设备执行的计算机程序指令。计算机程序指令使处理器执行这里描述的控制器350的功能。计算机程序指令(例如,软件)可存储在可由计算机或处理器存取的计算机可用介质、计算机程序介质或任一计算机可读的存储介质中。上述媒介包含例如RAM、R0M 或其他类型计算机存储介质(例如计算机磁盘或CD ROM或等同物)的存储器。因此,具有使处理器执行这里描述的数据收集、策略管理、协调、分析功能和其他相关功能的计算机程序代码的任一计算机存储介质在本发明的范围和精神内。应该理解的是,图2-8中描述的和这里参考的任一组件可在上述硬件和软件技术中得以实现。结论虽然以上描述了本发明的各种实施例,应当理解,其目的仅在于举例说明,而没有限制性。本领域的技术人员知悉,在不离开本发明的精神和范围情况下,在形式上和细节上还可做各种的改变。因此,本发明的保护范围不当仅局限于以上描述的任一实施例,而应该依照权利要求及其等同来限定。
权利要求
1.用于测量具有多个网络组件的网络的各方面的系统,其特征在于,所述系统包括 监控器,所述监控器用于采集多个网络组件的至少一个的运行特征;分析器,所述分析器用于分析从所述监控器接收的所述采集的运行特征;以及基于所述采集的运行特征估计所述多个网络组件中未被监控的一个网络组件的特征。
2.根据权利要求1所述的系统,其特征在于,所述分析器还用于生成至少一个所述特征的地图显示。
3.根据权利要求1所述的系统,其特征在于,所述多个网络组件中所述未被监控的一个网络组件的所述特征的所述估计基于来自所述采集的运行特征的外推。
4.根据权利要求1所述的系统,其特征在于,所述采集的运行特征包含监控组件利用低功率模式所采用的频率的测量。
5.根据权利要求1所述的系统,其特征在于,所述采集的运行特征包含与监控组件关联的链路利用亚速率模式所采用的频率的测量。
6.根据权利要求1所述的系统,其特征在于,所述系统还包括日志,其中所述分析器还用于在所述日志中存储采集的运行特征;以及基于所述采集的运行特征和从所述日志检索的信息估计所述多个网络组件中未被监控的一个网络组件的特征。
7.根据权利要求1所述的系统,其特征在于,所述系统还包括参考存储,其中所述分析器还用于从所述参考存储检索关于网络组件的参考信息; 在存储器中存储所述检索的参考信息;以及基于所述采集的运行特征和所述存储器中存储的参考信息估计所述多个网络组件中未被监控的一个网络组件的特征。
8.根据权利要求7所述的系统,其特征在于,所述关于网络组件的参考信息包含其中之一所述网络组件的物理特征, 所述网络组件的额定功率, 所述网络组件的推荐温区,以及所述网络组件的推荐湿度区。
9.根据权利要求1所述的系统,其特征在于,所述系统还包括与网络组件关联的控制策略,其中所述分析器还用于检索与所述网络组件关联的所述控制策略,以及基于所述采集的运行特征和所述控制策略估计所述多个网络组件中未被监控的一个网络组件的特征。
10.用于测量具有多个网络组件的网络的各方面的方法,其特征在于,所述方法包括 监控所述多个网络组件的至少一个的运行特征;以及基于所述监控的运行特征估计所述多个网络组件中未被监控的一个网络组件的特征。
全文摘要
本发明涉及测量具有多个网络组件的网络的各方面的系统和方法。其中所述测量具有多个网络组件的网络的各方面的系统包含监控器和分析器,该监控器用于采集多个网络组件的至少一个的运行特征。该分析器用于分析从监控器接收的采集的运行特征,并基于采集的运行特征估计多个网络组件中未被监控的一个网络组件的特征。
文档编号H04L12/26GK102546288SQ201110361040
公开日2012年7月4日 申请日期2011年11月15日 优先权日2010年11月16日
发明者韦尔·威廉·戴博 申请人:美国博通公司