一种基于降频控制的GPU供电保护结构及方法与流程

文档序号:26139376发布日期:2021-08-03 14:22阅读:178来源:国知局
一种基于降频控制的GPU供电保护结构及方法与流程

本发明属于服务器技术领域,具体涉及一种基于降频控制的gpu供电保护结构及方法。



背景技术:

当前gpu服务器广泛应用于深度学习、人工智能以及其他高性能领域,在满足了客户高计算力的需求的同时,对gpu的稳定性可靠性提出高要求。因此在故障发生时的保护机制引起更多关注与研究。

aigpu服务器当前有配置8卡或16卡,对掌握gpu的运行情况提出更高的要求,但当前整机对gpu的监控主要依赖于芯片原厂提供的加载在驱动中的工具,比如nvidia的nvidia-smi监控工具;该工具更多的是监控gpu是否在位、温度、功耗等运行状态信息监控,发生异常后在日志中体现出来;这仅是对gpu的监控,是故障发生后查看日志辅助问题分析,但没有在异常发生时实施保护;

gpu的降频机制在异常发生时起到保护gpu的作用,包含软件降频以及硬件降频,软件降频通过vbios实现,硬件降频是gpu芯片内部有降频线路,比如过温会触发gpu降频保护机制;除了温度超出最大操作温度,还有gpu工作电压低于正常工作电压时导致gpu工作异常,也是需要重点关注的问题;所以本专利针对该技术点进行阐述;

传统方法利用服务器整机主板端给gpu供电,会监控电压并设置欠压过流保护点,同时gpu内部会监控电压,但均是在电压异常时发生断电或者gpu掉卡,发生宕机均是客户无法接受的故障;短时间的电压电流异常不能进行有效保护,不能满足稳定性的要求。



技术实现要素:

针对现有技术的上述不足,本发明提供一种基于降频控制的gpu供电保护结构及方法,以解决上述技术问题。

第一方面,本发明提供一种基于降频控制的gpu供电保护结构,包括:电流采样模块、电压采样模块以及降频模块;所述电流采样模块包括:精密电阻、电流采样芯片和bmc;所述电压采样模块包括比较器u1、第一分压电阻和第二分压电阻;所述降频模块包括cpld和gpu。

进一步的,

所述gpu与cpld连接;

所述gpu的输入端与精密电阻连接,所述精密电阻的两端与电流采样芯片并联,所述电流采样芯片与bmc连接,所述bmc与cpld连接;

所述gpu的输入端与所述第一分压电阻连接,所述第一分压电阻的另一端与第二分压电阻连接,所述第二分压电阻的另一端接地;

所述比较器的一个输入管脚接入到第一分压电阻与第二分压电阻之间;所述比较器的输出端与cpld连接。

第二方面,本发明提供一种基于降频控制的gpu供电保护方法,包括:

在所述电流采样模块、电压采样模块对gpu的输入电流和输入电压进行监控,并分别设定最大工作电流阈值和最小工作电压阈值;

在所述降频模块,当gpu输入电流超出设定的阈值时,则触发gpu降频;

进一步的,通过所述电流采样模块,所述方法还包括:

gpu的输入工作电压并流经精密电阻;

电流采样芯片获取精密电阻两端的压差,并将所述压差传递至bmc中;

bmc根据欧姆定律将所述压差转换为电流信息,并设定最大工作电流阈值;

当精密电阻的实时电流大于所述最大工作电流阈值时,bmc发送降频指令至cpld。

进一步的,通过所述电压采样模块,所述方法还包括:

gpu的工作电压经由第一分压电阻和第二分压电阻分压为分压电压;

分压电压输入至比较器的输入管脚,并同基准电压进行比较:当分压电压不低于基准电压时,比较器输出高电平;当分压电压低于基准电压时,比较器输出低电平。

进一步的,所述方法还包括:

分压电压的计算公式为:分压电压=gpu的输入电压*第二分压电阻/(第一分压电阻+第二分压电阻)。

进一步的,通过所述降频模块,所述方法还包括:

cpld接收到由bmc和比较器传输来的降频信号后,进行降频信号有效检测;

若降频低电平信号持续时间大于50ms,cpld发送降频信号给gpu,触发gpu降频动作;若降频低电平信号持续时间小于等于50ms,cpld不动作。

进一步的,,所述方法还包括:

设置cpld发送的降频信号持续时间最长为5s,5s后恢复默认状态,继续下一轮监控。

进一步的,所述方法还包括:

当cpld触发gpu降频时,cpld同时将降频动作信息传输至bmc中;

bmc上传系统日志,记录gpu降频动作及降频产生原因。

进一步的,所述方法还包括:

设置bmc采集到的gpu电流连续5次超出内部设定阈值时才能触发bmc发送降频指令至cpld,且若5次中任一次gpu工作电流低于内部设定阈值,则bmc无动作。

本发明的有益效果在于,

本发明提供的一种基于降频控制的gpu供电保护结构及方法,通过对gpu的输入电流和输入电压进行监控,并分别设定最大工作电流阈值和最小工作电压阈值,当gpu输入电流超出设定阈值时触发gpu降频动作,降低gpu的工作电流,提升gpu工作电压,实现gpu的稳定运行,避免因gpu工作电压低于正常工作电压范围导致gpu发生异常状况。同时设置自恢复功能,避免gpu长时间降频导致的系统工作异常。同时bmc将降频信息及降频原因上传系统日志,增强功能可视性。

此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的结构的电路连接示意图。

图2是本发明一个实施例的电流采集工作机制的示意性流程框图。

图3是本发明一个实施例的电压采集工作机制的示意性流程框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。

下面对本发明中出现的关键术语进行解释。

bmc:baseboardmanagementcontroller,基板管理控制器。

cpld:complexprogrammablelogicdevice,复杂可编程逻辑器件。

gpio:general-purposeinput/output,通用输入输出端口。

下面将参考附图并结合实施例来详细说明本发明。

实施例1

如图1所示,本实施例提供一种基于降频控制的gpu供电保护结构,包括:电流采样模块、电压采样模块以及降频模块;所述电流采样模块包括:精密电阻r1、电流采样芯片和bmc;所述电压采样模块包括比较器u1、第一分压电阻r2和第二分压电阻r3;所述降频模块包括cpld和gpu。

具体的连接结构如下:

所述gpu与cpld连接;所述gpu的输入端与精密电阻r1连接,所述精密电阻r1的两端与电流采样芯片并联,所述电流采样芯片与bmc连接,所述bmc与cpld连接;所述gpu的输入端与所述第一分压电阻r2连接,所述第一分压电阻r2的另一端与第二分压电阻r3连接,所述第二分压电阻r3的另一端接地;所述比较器u1的一个输入管脚接入到第一分压电阻r2与第二分压电阻r3之间;所述比较器u1的输出端与cpld连接。

基于上述结构,本实施例提供一种基于降频控制的gpu供电保护方法,当gpu供电状态超出设定阈值,触发gpu降频动作,实现gpu供电保护功能;同时设置自恢复功能,避免gpu长时间降频导致的系统工作异常。同时bmc将降频信息及降频原因上传系统日志,增强功能可视性。

具体的,所述方法包括:

1、如图2所示,电流采样模块的工作机制为:gpu的输入12v电压流经精密电阻r1,电流采样芯片获取精密电阻r1两端的压差,并经过i2c总线将此压差信息传递至bmc中,bmc将此压差信息转换为电流信息,并与内部设定阈值进行比较,当流经精密电阻r1的电流大于bmc内部设定阈值时,bmc发送降频指令至cpld,工作流程如图2所示。

在本实施例中,为增强环路的抗干扰能力,同时避免gpu任一超频动作带来电流增加而导致的gpu降频现象,设置bmc采集到的gpu电流连续5次超出内部设定阈值时才能触发bmc发送降频指令至cpld,若5次中任一次gpu工作电流低于内部设定阈值,则bmc无动作。

在本实施例中,bmc将精密电阻r1两端压差转换为电流信息的原则为欧姆定律,即i=u/r1,其中u为精密电阻r1两端压差。

2、如图3所示,电压采样模块的工作机制为:gpu的12v工作电压经由分压电阻r2和分压电阻r3分压为分压电压v0,分压电压v0输入至比较器u1的输入管脚,并同基准电压vref进行比较,当v0不低于基准电压vref时,比较器u1输出高电平;当分压电压v0低于基准电压vref时,比较器u1输出低电平。

其中,分压电压v0的计算公式为:v0=v*r3/(r2+r3),其中v为gpu的输入电压。

3、降频模块的工作机制为:cpld接收到由bmc和比较器u1传输来的降频信号后,优先进行检测,若降频低电平信号持续时间大于50ms,cpld发送降频信号给gpu,触发gpu降频动作;若降频低电平信号持续时间小于等于50ms,cpld不动作。

4、为防止gpu发生降频后持续处于降频状态,导致系统工作异常,设定cpld发送的降频信号持续时间为5s,5s后恢复默认状态,继续下一轮监控。

5、为增加此发明的可视性,增加cpld和bmc之间的i2c信息传输,当cpld触发gpu降频时,cpld将此动作信息通过i2c传输至bmc中,bmc上传系统日志,并记录gpu降频动作及降频产生原因。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1