一种GPU服务器电源异常保护系统及方法与流程

文档序号:14007917阅读:312来源:国知局

本发明属于服务器电源保护技术领域,具体涉及一种gpu服务器电源异常保护系统及方法。



背景技术:

随着数据中心的兴起,高性能服务器和gpu服务器的快速增长,服务器性能不断提升,密度也在不断在升高,导致本身单体的功耗在不断增加,服务器异常掉电保护慢慢被重视,现在gpu服务器为防止掉电,一般会采用n+n的双路电源输入,或者n+1的电源冗余设计,保证其中一路电源掉电之后,其他备用电源可以提供足够电源保证机器工作,现有的设计方式采用的是冗余备份的方式,由于备份的电源长时间出于闲置状态,这样会大量提高服务器本身的成本,而且电源本身也会占据一定的服务器空间,进而降低服务器本身的密度,也不利于服务器高密度化的趋势。此为现有技术的不足之处。



技术实现要素:

本发明的目的在于,针对上述现有技术存在的缺陷,提供设计一种gpu服务器电源异常保护系统及方法,以解决上述技术问题。

为了达到上述目的,本发明的技术方案是:

一种gpu服务器电源异常保护系统,包括psu供电模块、监控管理模块和gpu;

psu供电模块与gpu连接,用于给gpu供电;

psu供电模块还与监控管理模块连接;

监控管理模块与gpu通信连接;

监控管理模块还连接有风扇模组;

psu供电模块内部设有报警单元和储能电容,所述储能电容通过电路与gpu连接,psu供电模块出现故障时,储能电容用于给gpu供电。

优选地,psu供电模块分别通过报警信号线和电源管理总线与监控管理模块连接;

psu供电模块故障时通过报警信号线输出低电平到监控管理模块。

优选地,监控管理模块包括ast2520芯片,ast2520芯片通过降频功能引脚与gpu连接。

优选地,ast2520芯片接收到报警信号线的低电平信号通过电源管理总线确认异常的psu,并输出告警提示。

优选地,所述储能电容的容量为3300uf。

优选地,所述psu供电模块数量为两个,gpu数量为8个。

psu供电模块提供gpu服务器的正常工作电源;监控管理模块用于检测psu供电模块的状况和控制风扇和gpu;风扇主要是保证gpu服务器的散热;gpu是gpu服务器处理数据的核心单元。

一种gpu服务器电源异常保护方法,包括如下步骤:

psu电源模块与gpu连接给gpu供电,所述psu电源模块内设有储能电容;

psu电源模块出现故障,报警信号输出低电平,储能电容提供足够的电源保证出现问题时gpu在设定时间内能正常运行;

监控管理模块检测到报警信号低电平,监控管理模块通过电源管理总线检查确认异常psu电源模块;

确认psu电源模块异常,监控管理芯片会调低风扇速率,监控管理芯片的降频功能引脚输出低电平到gpu;

gpu接收到降频功能引脚的低电平信号,调整自身工作在一半的频率从而使整机功耗降低一半,上述动作在设定时间内完成不会导致gpu异常掉电;

监控管理模块输出警告提示,要求管理人员检查或更换错误psu电源模块。

优选地,电源恢复正常后监控管理模块取消警告,恢复正常风扇控制,降频功能引脚输出高电平,gpu恢复正常频率工作。

优选地,所述储能电容的容量为3300uf。

优选地,监控管理模块包括ast2520芯片。

储能电容的容量为3300uf,储能电容放电给gpu供电使gpu正常工作的时间为12ms,在12ms内完成监控管理模块检测并诊断psu供电模块的异常状况,并要求gpu降频和降低风扇转速等动作不会导致gpu异常掉电。

本发明的有益效果在于,psu供电模块内设储能电容,利用储能电容的放电功能,监控管理模块短时间内检测并诊断psu异常状况,并要求gpu降频和降低风扇转速以保证缺少psu供电模块的情况下gpu服务器依然可以正常运行,从而实现部分电源异常情况下对gpu服务器的保护。降低gpu服务器本身psu供电模块设计的需求量,即保证了gpu服务器在电源异常情况下服务器业务的安全性,不增加冗余电源的成本。

此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。

由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。

附图说明

图1为本发明实施例提供的一种gpu服务器电源异常保护系统连接框图。

具体实施方式

下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。

如图1所示,实施例1提供的一种gpu服务器电源异常保护系统,包括psu供电模块、监控管理模块和gpu;

psu供电模块与gpu连接,用于给gpu供电;

psu供电模块还与监控管理模块连接;

监控管理模块与gpu通信连接;

监控管理模块还连接有风扇模组;

psu供电模块内部设有报警单元和储能电容,所述储能电容通过电路与gpu连接,psu供电模块出现故障时,储能电容用于给gpu供电。

psu供电模块分别通过报警信号线和电源管理总线与监控管理模块连接;

psu供电模块故障时通过报警信号线输出低电平到监控管理模块。

监控管理模块包括ast2520芯片,ast2520芯片通过降频功能引脚与gpu连接。

ast2520芯片接收到报警信号线的低电平信号通过电源管理总线确认异常的psu,并输出告警提示。

所述储能电容的容量为3300uf。

所述psu供电模块数量为两个,gpu数量为8个。

基于上述一种gpu服务器电源异常保护系统的gpu服务器电源异常保护方法,包括如下步骤:

步骤1:psu电源模块出现故障,报警信号输出低电平,3300uf储能电容提供12ms电源保证出现问题时gpu在12ms内能正常运行;

步骤2:ast2520芯片检测到报警信号低电平,ast2520芯片会通过电源管理总线检查确认异常psu电源模块;

确认psu电源模块异常,监控管理芯片会调低风扇速率,降频功能引脚输出低电平到gpu;

步骤3:gpu接收到降频功能引脚的低电平信号,调整自身工作在一半的频率从而使整机功耗降低一半保证单一psu供电模块提供电源gpu可以正常工作;

步骤4监控管理模块输出警告提示,要求管理人员检查或更换错误psu电源模块;电源恢复正常后监控管理模块取消警告,恢复正常风扇控制,降频功能引脚输出高电平,gpu恢复正常频率工作。

储能电容的容量为3300uf,储能电容放电给gpu供电使gpu正常工作的时间为12ms,步骤1到步骤3的动作在12ms内完成,不会导致gpu异常掉电。

psu供电模块提供gpu服务器的正常工作电源;监控管理模块用于检测psu供电模块的状况和控制风扇和gpu;风扇主要是保证gpu服务器的散热;gpu是gpu服务器处理数据的核心单元。

实施例2提供的一种gpu服务器电源异常保护方法,包括如下步骤:

psu电源模块内设有储能电容;

psu电源模块出现故障,报警信号输出低电平,储能电容提供足够的电源保证出现问题时gpu在设定时间内能正常运行;

监控管理模块检测到报警信号低电平,监控管理模块通过电源管理总线检查确认异常psu电源模块;

确认psu电源模块异常,监控管理芯片会调低风扇速率,监控管理芯片的降频功能引脚输出低电平到gpu;

gpu接收到降频功能引脚的低电平信号,调整自身工作在一半的频率从而使整机功耗降低一半,储能电容的容量为3300uf,储能电容放电给gpu供电使gpu正常工作的时间为12ms,上述步骤在12ms内完成不会导致gpu异常掉电;

监控管理模块输出警告提示,要求管理人员检查或更换错误psu电源模块。

电源恢复正常后监控管理模块取消警告,恢复正常风扇控制,降频功能引脚输出高电平,gpu恢复正常频率工作。

以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1