一种服务器电源寿命均衡控制装置及方法与流程

文档序号:18938705发布日期:2019-10-23 00:58阅读:221来源:国知局
一种服务器电源寿命均衡控制装置及方法与流程

本发明涉及服务器电源控制领域,尤其是涉及一种服务器电源寿命均衡控制装置及方法。



背景技术:

随着ai、云计算、大数据等新型技术的发展,互联网技术突飞猛进,我国企业及机构的数据中心建设已进入快速发展的新阶段。数据的集中和计算能力的集中在带来巨大利益的同时,也对数据中心的建设提出新的要求。服务器设备的可靠性要求越来越高,电源的冗余设计变得越来越重要。

目前服务器设备电源一般都采用n+1,甚至n+n电源冗余供电,其目的在于:当其中一块电源在运行过程中突然坏掉以后,冗余电源可以继续为系统供电,避免系统供电不足导致意外宕机。现有技术中机房大多采用电源主备模式工作,主电源负责长期供电,冗余备用电源进入待机状态,如果主电源损坏则启用冗余电源。由于主备电源工作时间严重不均衡,且备用电源启用时间也不同,造成各个电源之间寿命不均衡的情况,更换电源的时候往往全部更换,造成浪费。针对目前电源寿命不均衡的情况,目前还未有较好的解决方案。



技术实现要素:

本发明为了解决现有技术中存在的问题,创新提出了一种服务器电源寿命均衡控制装置及方法,有效解决由于现有技术中各个电源寿命不均衡的问题,有效的降低电源维护成本。

本发明第一方面提供了一种服务器电源寿命均衡控制装置,包括:bmc、电源背板、电源模块、负载模块,所述电源模块包括若干个电源,通过电源背板为负载模块以及bmc供电,所述bmc通过i2c总线与电源背板通信连接,所述电源背板与电源模块通过i2c总线通信连接,所述bmc通过电源背板获取电源模块的在位信号。

结合第一方面,在第一方面第一种可能的实现方式中,所述负载模块包括:cpu、内存、硬盘。

本发明第二方面提供了一种服务器电源寿命均衡控制方法,包括:

bmc获取电源模块中每个电源的在位信号;

根据电源模块中每个电源的累计工作时长以及电源模块的电源效率,对电源模块中电源的工作状态进行自动调整。

结合第二方面,在第二方面第一种可能的实现方式中,还包括:bmc根据设定电源使用寿命,进行预警、报警,并进行记录。

结合第二方面,在第二方面第二种可能的实现方式中,所述根据电源模块中每个电源的累计工作时长,对电源模块中电源的工作状态进行自动调整具体是:

bmc读取电源模块中每个电源的累积工作时长,然后将各个电源的工作时间排序,按照优先级对电源工作电源模块中每个电源的工作状态进行自动调整。

进一步地,所述bmc读取电源模块中每个电源的累积工作时长具体是通过电源管理总线读取电源模块中每个电源的累积工作时长寄存器实现的。

结合第二方面,在第二方面第三种可能的实现方式中,所述根据电源模块的电源效率,对电源模块中电源的工作状态进行自动调整具体是:

bmc读取电源模块电源效率,比较电源模块电源效率与设定第一阈值的大小,根据比较结果对电源工作电源模块中每个电源的工作状态进行自动调整。

进一步地,所述电源模块电源效率低于设定第一阈值时,bmc获取电源模块的负载率,并与设定第二阈值以及设定第三阈值进行比较,其中设定第二阈值大于设定第三阈值,如果负载率大于设定第二阈值时,增加电源模块中工作电源的数目;如果负载率小于设定第三阈值时,减少电源模块中工作电源的数目;

所述电源模块高于设定第一阈值时,bmc针对电源模块内每个工作电源,每隔第一时间,自动调整电源模块内每个电源的工作状态。

进一步地,所述设定第二阈值为设定第一阈值由高变低时所对应的负载率,所述设定第三阈值为设定第一阈值由低变高所对应的负载率。

结合第二方面,在第二方面第四种可能的实现方式中,所述自动调整电源的工作状态具体包括active、standby。

本发明采用的技术方案包括以下技术效果:

1、本发明有效解决由于现有技术中各个电源寿命不均衡的问题,有效的降低电源维护成本。

2、还能进行电源寿命耗尽预警的功能,可以提前预警进行电源更换,提高了系统稳定性,降低宕机的风险。

3、使用该方案的服务器电源设备,在相同的配置和应用下,服务器电源使用寿命延长,系统供电更加稳定。

应当理解的是以上的一般描述以及后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

为了更清楚说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见的,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明方案中实施例一装置结构示意图;

图2为本发明方案中实施例二的方法流程示意图;

图3为本发明方案中实施例二一种电源效率与负载率关系示意图;

图4为本发明方案中实施例三的方法流程示意图。

具体实施方式

为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

实施例一

如图1所示,本发明提供了一种服务器电源寿命均衡控制装置,包括:bmc1、电源背板2、电源模块3、负载模块4,电源模块3包括若干个电源31,通过电源背板2为负载模块4以及bmc1供电,bmc通过i2c总线5与电源背板2通信连接,电源背板2与电源模块3通过i2c总线5通信连接,bmc1通过电源背板2获取电源模块3的在位信号。

其中负载模块4可以包括:cpu41、内存42、硬盘43,也可以包括风扇、输入/输出设备(io),本发明在此不做限制。

电源模块3中所有电源31都是插在电源背板2上,每个电源31都支持热插拔,客户可以随意更换电源31。

在位信号是一个gpio(generalpurposeinputoutput,通用输入/输出)信号,表示该电源31插入或者拔出,在位信号是判定电源31是否插入电源背板2的依据。当电源31插入时,bmc1检测到该信号,就将该电源31纳入管理范围内。当检测不到该信号时,就将该电源31剔除管理范围。

i2c总线5是用于bmc1和电源模块每个电源31之间的通信链路。bmc1通过该i2c总线读取每个电源31的信息、工作时长和控制电源31的状态等等操作。

本发明技术方案以2+2电源冗余服务器为例进行说明,但不限于该中结构,1+1冗余,3+1冗余,3+3冗余,n+1冗余或者n+n冗余服务器均适用。

本发明技术方案对于gpu服务器、ai服务器、集中供电的多节点服务器等结构同样适用。

本设计中bmc型号为ast2500,psu电源采用长城700w电源模块,但不局限于此,其他型号器件亦能到达同样效果,可以根据实际情况选用,本发明在此不做限制。

电源31工作模式有“active”和“standby”模式,可以使用bmc通过电源管理总线(pmbus总线)进行配置。

本发明中将所有的电源都纳入统一管理,不分主备。电源数量也不局限于n+1或n+n等具体组合,电源新旧程度不限,只要有2个电源就可以进行寿命均衡自动调整。将所有电源的使用寿命调整均衡,减少电源维护的次数和避免电源的资源浪费。

实施例二

如图2所示,本发明还提供了一种服务器电源寿命均衡控制方法,包括:

s1,bmc获取电源模块中每个电源的在位信号;

s2,根据电源模块中每个电源的累计工作时长以及电源模块的电源效率,对电源模块中电源的工作状态进行自动调整。

在步骤s1中,bmc上电后通过i2c总线获取电源模块中每个电源的在位信号,来识别当前有几块电源在位。

其中步骤s2中根据电源模块中每个电源的累计工作时长,对电源模块中电源的工作状态进行自动调整具体是:

bmc读取电源模块中每个电源的累积工作时长,然后将各个电源的工作时间排序,按照优先级对电源工作电源模块中每个电源的工作状态进行自动调整。

其中bmc读取电源模块中每个电源的累积工作时长具体是通过电源管理总线读取电源模块中每个电源的累积工作时长寄存器实现的,获取该电源从出厂后的累计工作时间后,将各个电源的工作时间排序。按照优先级,优先使用累计工作时间短的psu电源进入工作状态,即active模式。

bmc运行过程中,会定期去读取各个电源,获取在位状态、工作状态等电源信息,读取的周期可以是1秒钟读取一次,也可以根据情况进行调整,本发明在此不做限制。

根据电源模块的电源效率,对电源模块中电源的工作状态进行调整具体是:

bmc读取电源模块电源效率,比较电源模块电源效率与设定第一阈值的大小,根据比较结果对电源工作电源模块中每个电源的工作状态进行调整。

其中电源模块电源效率低于设定第一阈值时,bmc获取电源模块的负载率,并与设定第二阈值以及设定第三阈值进行比较,其中设定第二阈值大于设定第三阈值,如果负载率大于设定第二阈值时,增加电源模块中工作电源的数目,设定第二阈值为设定第一阈值由高变低时所对应的负载率,具体地,当负载率过高(服务器供电需求增加)时,bmc从备用电源中,根据优先级优选一个累计工作时长最短的电源,加入工作电源中,进行供电输出;如果负载率小于设定第三阈值时,减少电源模块中工作电源的数目,设定第三阈值为设定第一阈值由低变高所对应的负载率,具体地,当负载率过低(服务器供电需求减少)时,bmc从工作电源中,优选一个累计工作时间最长的电源,放入备用电源中;

电源模块电源效率高于设定第一阈值时,bmc针对电源模块内每个工作电源,每隔第一时间,调整电源模块内每个电源的工作状态,具体地,当负载率较为均衡(服务器供电需求较为均衡)时,bmc定期从工作电源中优选一个累计工作时间最长的电源,放到备用电源,从备用电源中优选一个累计工作时间最短的电源到工作电源中,防止累计工作时长差距越来越大(寿命不均衡)。

如图3所示,本发明以700w电源的电源效率与负载率的关系为例进行说明,不同的电源有不同的电源效率曲线。根据图3可以得知,电源效率随着整机负载的变化而变化。当负载率为电源的50%时电源效率最高,当负载率过高(70%)或者过低时(30%),电源效率都会急剧降低。bmc读取电源模块电源效率,比较电源模块电源效率与设定第一阈值(本发明设定为92%,也可以根据实际情况调整)的大小,根据比较结果对电源工作电源模块中每个电源的工作状态进行调整。

其中电源模块电源效率低于设定第一阈值(92%)时,bmc获取电源模块的负载率,并与设定第二阈值以及设定第三阈值进行比较,其中设定第二阈值大于设定第三阈值,如果负载率大于设定第二阈值时,增加电源模块中工作电源的数目;如果负载率小于设定第三阈值时,减少电源模块中工作电源的数目;其中增加电源模块中的工作电源的数目,优先增加累计工作时间短的电源进入工作状态,即active模式;减少电源模块中工作电源的数目,优先减少累计工作时间长的电源进入备用状态,即standby模式。

电源模块高于设第一阈值(92%)时,bmc针对电源模块内每个工作电源,每隔第一时间,调整电源模块内每个电源的工作状态。具体bmc每隔第一时间后从备用电源中优选一个累计工作时间最短的电源进入工作状态,即active模式,然后从工作电源中优选一个累计工作时间最长的电源,放到备用电源中,即standby模式。其中第一时间可以根据实际情况进行认为设定,所有电源都进行逐个轮换,防止工作时长差距越来越大(寿命不均衡)。

设定第二阈值为设定第一阈值(92%)由高变低时所对应的负载率即70%,设定第三阈值为设定第一阈值由低变高所对应的负载率即30%。

调整电源的工作状态具体包括active、standby。

本发明技术方案中根据电源的累计工作时间最长来进行调整,因此当电源模块中有电源拔出或者故障时,依然生效,能够及时进行均衡调整。例如4个电源中剩余3个或2个电源,但是系统功耗小,只有一个电源是active状态时,依然能够自动调整。但是,如果当前剩余电源全是active状态时,即没有standby状态的电源,则不会进行自动调整。

bmc依据电源的工作效率高低,结合整机的负载状态,对电源的工作状态进行自动调整。根据各个电源的工作寿命,进行优选使用累计工作时间短的电源,自动轮换调整各个电源,使得整机中所有电源工作时长趋于相等,寿命均衡。

本技术方案中开机默认将所有电源都开启进入active模式中,备用电源数目为0,开机后进行自动动态调整。

当电源拔出时:当备用电源中的电源被拔出时,不影响系统工作,bmc将其从备用电源列表中剔除即可,无需其他操作;

当工作电源中的电源被拔出时,由于电源供电减少会影响到剩余电源的工作效率,此时bmc立刻从备用电源中优选一个累计工作时间最短的电源,加入到工作电源中,确保供电正常和电源效率。

当电源插入时:该插入电源默认状态为active状态,也就是自动加入工作电源中。但是新加入的电源可能是新的也可能是旧的,bmc首先读取该插入电源的信息和累计工作时长,触发一次自动调整,将其跟工作电源中的其他电源工作时长进行比对,从工作电源中优选一个累计工作时间最长的电源放入备用电源列表中。

根据服务器的实际功耗情况和电源效率曲线,自动调整电源模块内每个电源的active和standby状态,达到均衡电源寿命的目的;并对电源模块内每个电源的开启使用时间进行统计,轮流动态使用电源模块内每个电源,均衡电源模块内每个电源psu的寿命;有效解决由于现有技术中各个电源寿命不均衡的问题,有效的降低电源维护成本。

实施例三

如图4所示,本发明还提供了一种服务器电源寿命均衡控制方法,包括:

s1,bmc获取电源模块中每个电源的在位信号;

s2,根据电源模块中每个电源的累计工作时长以及电源模块的电源效率,对电源模块中电源的工作状态进行自动调整。

s3,bmc根据设定电源使用寿命,进行预警、报警,并进行记录。

本实施例中提供查询各个电源使用寿命的命令、设置电源使用寿命预警的命令和开启关闭寿命预警的命令,寿命预警功能默认关闭。用户可以根据所使用电源的实际情况,配置电源使用寿命预警,并开启电源使用寿命预警,当然客户也可以随时关闭该功能。

当开启后,如果电源的使用寿命接近预警寿命时,bmc会记录log日志并上报预警,当到达设置预警寿命时,bmc可以进行led告警、记录log日志并上报告警,提醒客户更换新的电源。客户也可以通过命令查询电源的实际寿命,或者通过bmc的web页面查看。

本发明通过增加电源使用寿命预警以及告警机制,可以实现对电源寿命耗尽预警以及报警的功能,形成一种低成本、低复杂度、高可靠性、高扩展性的高效的电源寿命均衡解决方案,电源寿命预警以及告警机制可以提前预警进行电源更换,提高了系统稳定性,降低宕机的风险。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1