计算系统的功率管理的制作方法

文档序号:30946752发布日期:2022-07-30 05:33阅读:97来源:国知局
计算系统的功率管理的制作方法

1.本说明书涉及计算系统的功率管理,该计算系统可以在数据中心中采用,并且本说明书特别涉及管理该计算系统上的动作,特别涉及应对功率事件或应对电网不稳定而特别通过“需求响应”机制要执行的动作。特别地,本说明书提供了一种预测这些动作对计算系统的功率消耗的影响的方法。


背景技术:

2.通常的数据中心包括具有一个或多个房间的建筑物或一组建筑物。此类数据中心中的每个房间通常包含一个或多个行,其中可以布置一个或多个机架,该一个或多个机架包含it(信息技术)系统装备,诸如物理服务器(ps)或服务器计算机。该it系统装备通常由功率装备如(但不限于)电子配电单元(epdu)或不间断电源(ups)或它们的组合供电。
3.计算系统的示例是包括由两个或更多个ps托管的若干虚拟机(vm)的虚拟系统。此类虚拟系统可以例如应用于具有托管该vm的ps的数据中心中。这些ps也被称为虚拟化主机。
4.如今,特别应用于数据中心中的计算系统中的功率消耗的优化是一个重要的主题。例如,来自vmware有限公司的软件vmware dpm(分布式功率管理)是用于虚拟系统的功率消耗优化的解决方案。由vmware dpm应用的优化机制将vm放置集中在减少的ps组上,特别是通过将vm迁移在较少的虚拟化主机上并且关闭不再需要的ps来进行。
5.eaton提供智能功率管理器(ipm)软件,用于监测和管理物理功率设备(ups、epdu等)或者ps或虚拟环境(hypervisor、vm等)。该ipm软件特别允许远程监测、管理和控制数据中心中的ups和其它设备,并且允许vm在延长关闭的情况下移动或正常关闭。


技术实现要素:

6.本说明书描述了用于计算系统的功率管理的方法和系统,该计算系统可以用于数据中心。
7.根据本说明书的一个方面,公开了一种用于计算系统的功率管理的方法,该计算系统包括用于托管虚拟系统的虚拟机的两个或更多个物理服务器和用于向该物理服务器的至少一个子集供应功率的一个或多个不间断电源,该一个或多个不间断电源中的每个不间断电源连接到多相电源的相。该方法包括:接收用于该计算系统的动作输入,该动作输入可以影响物理服务器的功率消耗;利用物理服务器的电力消耗的预测模型来处理所接收的动作输入,该预测模型关于该一个或多个不间断电源的电池自主性(battery autonomy)(该电池自主性特别对应于电池可以输送到特定负载的功率供应的时间)和/或该多相电源的若干相的负载平衡;以及基于该处理的结果优化该物理服务器的利用。
8.该方法可包括:使用机器学习算法接收与物理服务器的操作相关的测量结果,该机器学习算法用于根据动作和测量结果学习计算系统的一个或多个单独部分的功率消耗;以及基于机器学习算法的输出和该测量结果生成和/或改善物理服务器的功率消耗的预测
模型。
9.与物理服务器的操作相关的测量可以包括以下中的至少一个:计算系统的总功率消耗;计算系统的环境的温度;虚拟机活动;单个物理服务器的功率消耗;单个物理服务器的处理器活动;虚拟机在物理服务器上的映射。
10.该机器学习算法可以接收基于接收到的测量结果的训练数据集和基于接收到的测量结果的验证数据集,并且处理该训练数据集和验证数据集以生成预测模型。
11.基于处理的结果对物理服务器的利用的优化可以包括:接收计算系统的优化约束和优化动作,从优化动作确定用于满足优化约束的一个或多个动作,以及使用所确定的一个或多个动作用于计算系统的功率管理。
12.从优化动作确定用于满足优化约束的一个或多个动作可以包括根据该一个或多个不间断电源的剩余电池自主性和/或根据该多相电源的若干相的负载平衡来确定虚拟机和/或物理服务器的一系列关闭动作和/或移位动作。虚拟机的关闭动作可以包括终止虚拟机的操作,并且虚拟机的移位动作可以包括将虚拟机从一个物理服务器移动到另一个物理服务器,这可以例如在关闭物理服务器之前进行,在该物理服务器上不再执行任何虚拟机。
13.根据本说明书的另一个方面,公开了一种用于计算系统的功率管理的系统,该计算系统包括用于托管虚拟系统的虚拟机的两个或更多个物理服务器和用于向该物理服务器的至少一个子集供应功率的一个或多个不间断电源,该一个或多个不间断电源中的每个不间断电源连接到多相电源的相。该功率管理系统包括:该物理服务器的功率消耗的预测模型,该预测模型被提供用于接收该计算系统的可影响该物理服务器的功率消耗的动作输入,以及关于该一个或多个不间断电源的电池自主性和/或多相电源的若干相的负载平衡来处理所接收的动作输入;以及优化器,该优化器被设置用于基于由该预测模型进行的处理的结果来优化该物理服务器的利用。
14.该优化器可被设置用于:接收计算系统的优化约束和优化动作,从优化动作确定用于满足优化约束的一个或多个动作,以及使用所确定的一个或多个动作用于计算系统的功率管理。
15.该优化器可被设置用于通过以下方式从优化动作确定用于满足优化约束的一个或多个动作:根据该一个或多个不间断电源的剩余电池自主性和/或根据该多相电源的若干相的负载平衡来确定虚拟机和/或物理服务器的一系列关闭动作。
16.本说明书的又一方面涉及存储软件的非暂态计算机可读存储设备,该软件包括可由计算设备的处理器执行的指令,该指令在此类执行时使计算设备执行本说明书中公开的方法。
17.下文在附图和说明书中阐述一个或多个实施方式的细节。根据说明书和附图,并且根据权利要求,其他特征和优点将是显而易见的。
附图说明
18.图1示出了包括托管一个或多个虚拟系统的虚拟机的物理服务器的若干计算系统的示例;
19.图2示出了列出不同it动作及其对不同it系统装备的影响的表;
20.图3示出了用于在图1的数据中心中采用的计算系统的功率管理的系统的示例;
21.图4a-4d示出了具有ps、由ps托管的vm、连接到单相电源的ups和电子可控epdu的示例计算系统,该电子可控epdu在it保护策略的由于断电而启动的自动化计划的不同阶段期间从ups的功率出口向单个ps提供功率供应;
22.图5a和5b示出了功率、ups自主性和容量在断电开始之后随时间的变化以及根据自动化计划的动作的影响的示例性图示,其中图5b还示出了预测模型与真实测量的实际体验相比的准确程度;
23.图6示出了ups电池自主性模型的示例;
24.图7示出了服务器功率模型的示例;
25.图8示出了用于生成服务器功率模型的批量机器学习的示例;并且
26.图9a和9b示出了用于生成服务器功率模型的在线机器学习的示例。
具体实施方式
27.在下文中,功能上类似或相同的元件可以具有相同的附图标记。绝对值在下文仅通过示例示出,而不应该被解释为限制性的。
28.本文使用的术语“虚拟机
”‑
vm描述了特定计算机系统的仿真。vm在本发明的上下文中是具有操作系统的计算机程序的特殊情况。该解决方案也适用于还被称为“容器”的“轻质”vm。本文中使用的术语“物理服务器
”‑
ps描述了包括物理计算机的实体。ps可以包括管理程序软件,其将物理计算机配置为托管一个或多个虚拟机。ps在本发明的上下文中是计算设备的特殊情况。本文使用的术语“虚拟系统”表示包括两个或更多个ps的系统,每个ps托管至少一个vm,并且其中ps中的至少两个ps由从多相功率输入线分开的不同单相电线供电。如本文所使用的术语“计算系统”通常描述包括如例如在数据中心中采用的软件和硬件的系统。虚拟系统在本发明的上下文中是计算系统的特殊情况。计算系统可包括一个或多个虚拟系统。
29.对于数据中心,建立适当的业务连续性计划以用于管理功率损失是避免重要数据丢失的关键。通过软件ipm(智能功率管理器),一旦检测到电力故障,就可以预定义和自动执行数据中心的it系统设备上的一些动作。当it动作诸如vm移动、vm关闭、vm放置、ps关闭、vm启动、ps启动或引导、nas(网络附接存储)启动或引导等配置有ipm软件时,这些动作的功率影响是未知的。如果非关键负载上的it动作将充分且显著增加ups自主性以在期望的时间范围期间保持活跃的关键vm,则也不可能提前进行预测。配置有ipm软件的it动作序列是预定义的和静态的。
30.当前提出诸如上文提到的分布式功率管理(dpm)软件等所谓的“绿色”it机制用于优化数据中心正常操作期间的数据中心功率消耗。这些机制通常基于以下情况:将vm放置集中在一组减少的服务器上并关闭非必要的服务器。然而,此类机制不在电力危机上下文(在ups自主性期间执行的业务连续性计划)期间使用,或者无论数据中心多相、特别是3相平衡标准如何而使用,以及/或者不用于通过能量需求响应机制参与电网稳定性。因此,由“绿色”it机制启动的服务器关闭因此可以降低数据中心中干线的相平衡,并且还可能对功率消耗具有负面影响。
31.本公开中描述的方法和系统旨在预测和量化每个单独的it动作诸如vm移动、vm关闭、vm放置、ps关闭、vm启动、ps启动或引导等将会产生多大影响,特别是减少it负载消耗。
如本文所述的预测可以特别应用于以下使用情况:
32.·
ups自主性序列;
33.·
多相、尤其是3相负载平衡。
34.·
当需要时,能量需求响应机制有助于稳定电网。
35.该预测可以基于:
36.·
it和功率数据采集(vm资源消耗、ps消耗...)
37.·
用于功率消耗预测的人工智能(ai)模型。
38.利用该预测,可以动态地调度(特别是由于ai算法)减载序列,以优化关键vm的运行时间。
39.本公开中描述的方法和系统可以从现有资产(特别是ups、epdu、ps、vm)收集一个或多个数据集,并且使用ai/ml(机器学习)技术来连续控制,以及特别地优化例如在数据中心中采用的it系统装备或it资源的利用。
40.本公开中描述的方法和系统可允许降低it系统装备的能量相关成本,特别是数据中心的能量相关成本,并且可在电力危机的情况下向人类操作员提供“增强智能”。
41.图1示出了具有若干计算系统10到10
””
的数据中心的示例,每个计算系统包括若干ps和容纳在机架中的一个或多个ups。每个计算系统10到10
””
的ups由多相电源20、20

的单个相18、18

供应。
42.在图4中更详细地示出了计算系统10:被指定为服务器1-服务器5的五个ps 12包含在单个机架中,并且由电连接到ups 16的功率输出的epdu 22供应功率,该ups 16的电源输入连接器连接到功率源或电源20的相18。电源20可以是例如从多相、特别是3相电源(诸如,干线)分离的单相。每个ps 12托管虚拟系统的一个或多个vm 14。
43.在图1中,经由相18的电源中断(电力故障),使得ups 16必须经由epdu 22自主地对ps 12供电,以便确保业务连续性。在诸如电力危机事件的情况下,由计算系统10到10
””
中的一者或多者或另一it系统装备(诸如外部计算机)执行的软件可以控制要执行的it动作,使得由于ups自主性而可以实现业务连续性的要求。
44.图2示出了包含特别在ipm软件套件中实施的不同it动作及其对不同it系统装备(例如,服务器、存储装置、网络、机架和单个数据中心)的影响的表。该动作包括对云协调器层、虚拟管理层、本机操作系统或虚拟化(主机+vm)层以及物理基础设施层的动作,诸如优化/新放置、远程站点迁移、服务器维护模式、vm模式、虚拟存储管理、vm减载、正常关闭、功率封顶和断电。该表还列出了相应的it连接器。“it连接器”是ipm软件套件到“it平台”(例如:虚拟化管理器、虚拟化主机、网络连接存储装置...)的连接。当ipm软件将远程命令(具有正确的凭证)发送到“it平台”时,“it平台”执行“it动作”。在下文中描述了一个示例:步骤1),根据ipm软件,用户将“it连接器”配置为具有正确参数(凭证、端口、vcenter ip地址...)的“vcenter”;步骤2),然后ipm软件从vcenter检索由vcenter管理的vm列表;步骤3),用户可以对这些vm配置一系列it动作;步骤4),当需要时,ipm软件可以触发该系列it动作,例如通过vcenter对这些vm的“vm移动”动作。因此,“it连接器”是ipm软件到各种“it平台”(windows hyper-v、vmware...)的一种“接入点”。由于ipm软件可以连接到it架构的各种“层”,因此ipm软件提供图2中列出的不同类型的“it动作”。每个动作的影响被分类为主要影响、次要影响以及没有影响。
45.图3示出了用于在图1的数据中心中采用的计算系统的功率管理的系统的示例。所示系统的核心是ps 12的功率消耗的关于一个或多个不间断电源的电池自主性和/或多相电源的若干相的负载平衡的预测模型100。提供预测模型100以:接收针对计算系统10的可能影响ps 12的功率消耗的动作输入102(参见动作,图2);以及关于ups 16的电池自主性和/或多相电源20的若干相的负载平衡来处理所接收的动作输入102。
46.基于ai/机器学习(ml)算法118的输出以及与计算系统10的ps 12的操作相关的测量结果116来生成预测模型100。测量结果116可包括测量的输出或输入(诸如总功率消耗(kw))、计算系统10的环境的温度(诸如操作计算系统10的房间的温度)、计算系统10上的vm活动、计算系统10的一个或多个ps的功率消耗、计算系统19的一个或多个ps的cpu活动、计算系统的ps上的vm映射等。
47.根据测量结果116,创建训练数据集120和验证数据集122,该训练数据集120和验证数据集122被转发到a1/机器学习算法118供处理以生成预测模型100。
48.提供优化器104以用于基于由预测模型100进行的处理的结果106来优化ps 12的利用。可以提供优化器104以:接收优化约束108,例如根据需要特定或最小水平的服务质量(qos)的服务水平协议(sla),以及计算系统10的优化动作110(例如,工作负荷合并(vm迁移/关闭)、空闲服务器关闭、能量感知调度策略、功率封顶/dvfs等);从优化动作确定实现优化约束的一个或多个动作112;以及使用所确定的一个或多个动作来实现计算系统10的功率管理114,特别是用于获得优化的度量,例如总能量消耗、iteu(it装备利用)、pue(功率使用效力)、qos等。
49.在下文中,通过示例描述了可如何处理在it安全保护策略(ipm2自动化计划)(其在断电的情况下被触发)期间ups自主性的准确预测。
50.提供了一种系统特定的机器学习算法,其基于虚拟系统、特别是虚拟化数据中心中的it动作的省电的估计。然后可以将这些省电估计输入到现有的硬编码实验ups自主性模型中,以在发生功率危机之前估计这些动作对ups自主性的影响。
51.以下列出了具有其预期功率益处和相应的ups自主性增加的it动作的示例:
52.1.it动作:关闭10个“优先级3”vm;预期功率益处:0.7kw;ups自主性增加:2分钟。
53.2.it动作:关闭2个“优先级2”管理程序;预期功率益处:1.3kw;ups自主性增加:3分钟。
54.3.it动作:运行合并算法(新能量感知vm放置);预期功率益处:2kw;ups自主性增加:6分钟。
55.4.关闭epdu上的6个出口;预期功率益处:1kw;ups自主性增加:2分钟。
56.图4a-图4d示出了具有ps 12、由ps 12托管的vm 14、连接到单相电源20的ups 16和电子可控epdu 22的示例计算系统,该电子可控epdu在it保护策略的自动化计划的不同阶段期间从ups 16的功率出口向单个ps 12提供功率供应,该自动化计划由于断电而启动,由ups 16从单相电源20的功率供应的中断而引起。
57.该自动化计划在此描述为另一个说明性示例,并且包括以下步骤:
58.1.等待ups电池容量降到低于75%。
59.2.it动作:关闭7个vm。
60.3.等待ups电池容量降到低于50%。
61.4.it动作:正常关闭2个vm和2个ps。
62.5.等待ups电池容量降到低于25%。
63.6.it动作:正常关闭1个vm和1个ps。
64.图5a示出了其中功率、ups自主性和容量在断电开始开始之后随时间变化以及上述所列动作的影响的图。
65.在图4a中,在发生断电之后操作计算系统而不执行自动化计划的it动作。如在图5a中的“无动作”曲线中可见,功率负载保持不变,并且ups自主性以及其容量稳定地减小。
66.在图4b中,当ups电池容量已经低于75%时,执行自动化计划的第一动作,其关闭7个“优先级3”vm(p3_vm)。图5a预测由于此第一动作,功率负载将减少,并且ups自主性以及ups容量将增加。
67.在图4c中,当ups电池容量已经低于50%时,执行自动化计划的第二动作,其关闭2个“优先级2”vm(p2_vm)和2个ps(服务器4和服务器5)。图5a预测由于此第二动作,功率负载将比第一动作之后减少更多,并且ups自主性以及ups容量将增加。
68.在图4d中,当ups电池容量已经低于25%时,执行自动化计划的第三动作,其关闭1个“优先级2”vm(p2_vm)和1个ps(服务器3)。图5a预测由于此动作,功率负载将再次比第一动作之后减少更多,并且ups自主性以及ups容量将增加。
69.利用上述自动化计划,如果可以,扩展“优先级1”vm以及托管“优先级1”vm的ps“服务器1”和“服务器2”的操作,如在图5a中可以看出,其中与没有动作的ups的操作相比,该ups自主性和容量在自动化计划下增加,其中在功率故障之后17分钟期间,计算系统在没有任何改变的情况下操作,使得功率负载不改变,并且在17分钟之后,在0容量时ups自主性结束。
70.图5b将ups的实时行为(图中点线)与如图5a所示的预测行为(图中虚线)进行比较。该实时行为基本上对应于预测行为。实时行为(点线)由真实物理事件(ups输入功率源故障)启动。然后,预先配置的自动化计划由实际系统上的ipm sw触发动作执行,该实际系统包括:ps、epdu、vm、ups...以实现“实际体验”与“预测”之间的比较,该预先配置的“实际体验”自动化计划具有与预测的自动化计划相同的参数和动作触发条件。此图5b示出了当在相同的条件下与具有从物理系统获取的实际测量结果的真实实验相比时该预测模型的准确程度。
71.对于该预测模型,可以从ups输出功率监测生成ups电池自主性模型,如图6所示。可以基于服务器资源使用(以mhz为单位的cpu计时、以mbps为单位的磁盘使用)来生成服务器功率模型,如图7所示。这些单一模型可以用于建立更全局的预测模型以预测ups的自主性增益作为具有it动作的输出以及ups输出功率和电池容量作为输入。
72.每个服务器的服务器功率模型可以例如由以下简单等式定义:
73.p
服务器
=p
空闲

1 cpu
服务器

2 disk
服务器
74.还可以使用更多复杂的服务器模型和/或更准确的服务器模型(例如,神经网络模型)。
75.寻找服务器的功率模型的一种方法可以包括经典的批量机器学习,如图8所示。服务器12的资源使用和来自epdu 22的功率使用被供应到机器学习算法118

,该机器学习算法执行批量机器学习以生成服务器功率模型12


76.寻找服务器的功率模型的另一种方法可以是在线机器学习,如图9所示。服务器12的资源使用被供应到服务器功率模型12

,该服务器功率模型处理接收到的数据以生成功率预测,该功率预测转发到在线机器学习算法118”。在线机器学习算法118”根据学习以及只要在从服务器功率模型12

接收的输出数据与从epdu 22接收的实际功率使用数据之间存在不匹配,就调整服务器功率模型12

,参见图9a。当不再存在任何不匹配时,则服务器功率模型12

的调整完成,参见图9b。
77.在下文中,比较批量机器学习和在线机器学习的优点和缺点:
78.
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1