一种GPU服务器散热调控方法及系统与流程

文档序号:16261909发布日期:2018-12-14 21:37阅读:448来源:国知局
一种GPU服务器散热调控方法及系统与流程

本发明属于gpu服务器散热设计领域,涉及一种gpu服务器散热调控方法及系统,用于gpu服务器显卡加压时调控gpu服务器散热。

背景技术

当前高端显卡已广泛用于图像视频计算与深度学习领域,高功耗显卡对整机散热提出较高要求;系统需要掌握显卡在不同负载下的温度来调节整机风扇转速,以满足显卡在高性能负载下能够持续运行;

不同于被动散热gpu卡的情况,gpu服务器可通过smbus信号直接读取gpu芯片温度进而调整gpu服务器风扇转速。主动散热的gtx显卡,芯片原厂未开放smbus寄存器地址给服务器厂商,所以gpu服务器无法通过smbus掌握显卡温度。该类显卡自带风扇,有独立的散热调控策略。对显卡加压显卡功耗超过200w的gtx显卡(gtx显卡较紧密的排列在机箱内)温度升高到某设定值时,显卡本身设计策略是保持在基准频率运行,此时无法达到满载运行;当显卡温度再升高,则会出现降频甚至是宕机问题。



技术实现要素:

鉴于上述问题,本发明提供了一种gpu服务器散热调控方法及系统,该方法基于bmc(基板管理控制器),应用于gpu服务器显卡加压时,具体通过监控gpu服务器整机功耗调整gpu服务器风扇的转速以实现gpu服务器散热调控;本发明使得显卡工作持续在满载且目标操作温度以下。本发明的技术方案如下:

一种gpu服务器散热调控方法,通过监控gpu服务器整机功耗调整gpu服务器风扇转速的方法为:

实时监控gpu服务器整机功耗;

基于实时监控到的gpu服务器整机功耗,依据预先设定的gpu服务器风扇转速与gpu服务器整机功耗的对应关系调整gpu服务器风扇的转速。

进一步的,gpu服务器显卡为主动散热显卡;优选为gtx主动散热显卡。

更进一步的,所述gpu服务器风扇转速与gpu服务器整机功耗的对应关系的获得方法为:

(1)查看显卡功耗和温度;

(2)在显卡正常运行温度范围内,使显卡加压至不同功耗;

(3)对应监控gpu服务器整机功耗,分别调整风扇转速使显卡均持续工作在满载且目标温度以下,记录上述对应监控到的gpu服务器整机功耗及其各自对应的上述调整后的相应gpu服务器风扇转速,即获取到所述的gpu服务器风扇转速与gpu服务器整机功耗的对应关系;所述目标温度的取值范围与所述显卡正常运行温度范围相同。

本发明还包括,一种gpu服务器散热调控系统,该系统基于bmc,应用于gpu服务器显卡加压时,系统包括:

监控模块,用于实时监控gpu服务器整机功耗;

散热调控模块,与所述的监控模块相连,用于依据监控模块实时监控到的gpu服务器整机功耗,依据gpu服务器整机功耗及其对应gpu服务器风扇转速的对应关系调整gpu服务器风扇的转速。

进一步的,gpu服务器显卡为主动散热显卡;优选为gtx主动散热显卡。

基于gpu服务器散热调控系统的,所述gpu服务器风扇转速与gpu服务器整机功耗的对应关系的获得方法为:

(1)查看显卡功耗和温度;

(2)在显卡正常运行温度范围内,使显卡加压至不同功耗;

(3)对应监控gpu服务器整机功耗,分别调整风扇转速使显卡均持续工作在满载且目标温度以下,记录上述对应监控到的gpu服务器整机功耗及其各自对应的上述调整后的相应gpu服务器风扇转速,即获取到所述的gpu服务器风扇转速与gpu服务器整机功耗的对应关系;所述目标温度的取值范围与所述显卡正常运行温度范围相同。

从以上技术方案可以看出,本发明具有以下优点:

(1)本发明提供的是基于bmc,应用于gpu服务器显卡加压时通过监控整机功耗调整风扇转速的散热方法,具体的,所述的通过监控gpu服务器整机功耗调整gpu服务器风扇转速的方法为:实时监控gpu服务器整机功耗;实时监控到的gpu服务器整机功耗,依据预先设定的gpu服务器风扇转速与gpu服务器整机功耗的对应关系调整gpu服务器风扇的转速;本发明使得显卡工作持续在满载且目标操作温度以下。

(2)本发明还提供了一种gpu服务器散热调控系统,该系统基于bmc,应用于gpu服务器显卡加压时,系统包括:监控模块,用于实时监控gpu服务器整机功耗;散热调控模块,与所述的监控模块相连,用于基于依据监控模块监控到的gpu服务器整机功耗,依据预先设定的gpu服务器风扇转速与gpu服务器整机功耗的对应关系调整gpu服务器风扇的转速;同样的,本发明gpu服务器散热调控系统使得显卡工作持续在满载且目标操作温度以下。

附图说明

为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明所述gpu服务器散热调控方法的方法流程示意图。

图2为本发明所述gpu服务器散热调控系统的功能结构框图示意图。

具体实施方式

为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本具体实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本专利中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利保护的范围。

实施例1:

gpu服务器散热调控方法基于bmc,应用于gpu服务器显卡加压时,通过监控gpu服务器整机功耗调整gpu服务器风扇转速;

如图1所示,所述的通过监控gpu服务器整机功耗调整gpu服务器风扇转速的方法为:

实时监控gpu服务器整机功耗;

基于实时监控到的gpu服务器整机功耗,依据预先设定的gpu服务器风扇转速与gpu服务器整机功耗的对应关系调整gpu服务器风扇的转速。

以显卡为gtx1080ti为例,所述gpu服务器风扇转速与gpu服务器整机功耗的对应关系的获得方法为:

(1)通过nvidia-smi查看显卡功耗和温度;

(2)在显卡正常运行温度范围内,显卡加压至功耗为50w、100w、150w、200w、250w;

(3)分别在bmc下读出系统总功耗,并调节风扇转速,使显卡温度工作在targettemprature以下;这里的targettemprature是显卡工作在boost频率并满载运行的最大温度;分别将显卡加压至功耗为50w、100w、150w、200w、250w时的系统风扇转速定义为r1、r2、r3、r4、r5;显卡加压至功耗为50w、100w、150w、200w、250w时系统总功耗分别定义为p1、p2、p3、p4、p5;记录系统总功耗与系统风扇转速调节的关系,作为gtx显卡用作深度学习计算或者ai框架训练时的整机风扇散热策略;设定此时的bmc版本为gtx显卡满载运行应用下的版本;特别的,显卡不加压时,整机散热策略仍按照原本系统散热设计。需要说明的是,本实施例中的功耗值可根据实际需要进行调整。

所述的gpu服务器散热调控系统,如图2所示,该系统基于bmc,应用于gpu服务器显卡加压时,系统包括:

监控模块,用于实时监控gpu服务器整机功耗;

散热调控模块,与所述的监控模块相连,用于基于依据监控模块监控到的gpu服务器整机功耗,依据预先设定的gpu服务器风扇转速与gpu服务器整机功耗的对应关系调整gpu服务器风扇的转速。

使用时,bmc通过监控模块实时监控gpu服务器整机功耗,基于监控模块实时监控到的gpu服务器整机功耗,(bmc)散热调控模块依据gpu服务器整机功耗及其对应gpu服务器风扇转速的对应关系的调控策略调整gpu服务器风扇的转速。

具体地,所述gpu服务器整机功耗及其对应gpu服务器风扇转速的对应关系的获得方法为:

(1)查看显卡功耗和温度;

(2)在显卡正常运行温度范围内,使显卡加压至不同功耗;

(3)对应监控gpu服务器整机功耗,分别调整风扇转速使显卡均持续工作在满载且目标温度以下,记录上述对应监控到的gpu服务器整机功耗及其各自对应的上述调整后的相应gpu服务器风扇转速,即获取到所述的gpu服务器风扇转速与gpu服务器整机功耗的对应关系;所述目标温度的取值范围与所述显卡正常运行温度范围相同。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1