本技术涉及散热,特别是涉及一种gpu加速卡的散热调控优化方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术:
1、当前gpu(graphics processing unit,图形处理器)加速卡已被广泛应用于计算机技术领域,搭载有gpu加速卡的计算机的计算性能和执行效率得到提高,可用于加速处理如深度学习训练、数据挖掘和大数据分析等各种计算任务;但由于gpu加速卡在进行高强度计算时会产生较大的热量,因此需要采用有效的散热方案来保证其稳定运行。
2、传统技术中,在一个散热调控周期内gpu加速卡需要依次读取自身的所有信息。然而,由于gpu加速卡本身读取频率的限制以及所需要读取的信息数量较大,导致当前散热方案中散热调控周期过长,bmc(baseboard management controller,基板管理控制器)无法及时获取各张gpu加速卡的温度信息,这会给gpu加速卡的安全运行造成一定的隐患。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种gpu加速卡的散热调控优化方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本技术提供了一种gpu加速卡的散热调控优化方法。所述方法包括:
3、获取gpu加速卡的信息读取频率和优化后的散热调控周期;
4、根据所述信息读取频率和散热调控周期,得到所述gpu加速卡在一个所述散热调控周期内的最大信息读取笔数;
5、确定当前所述散热调控周期内除温度信息以外的其他待读取信息,以使所述温度信息和其他待读取信息的笔数之和不超过所述最大信息读取笔数;
6、根据所述温度信息和其他待读取信息,生成并发送信息读取指令至各张gpu加速卡;
7、在每一所述散热调控周期内,根据接收到的所述各张gpu加速卡返回的温度信息,对风扇转速进行调整。
8、在其中一个实施例中,在根据所述温度信息和其他待读取信息,生成并发送信息读取指令至各张gpu加速卡之前,还包括:
9、初始化各张gpu加速卡;按照预设顺序,依次读取所述各张gpu加速卡的运行状态信息;根据所述各张gpu加速卡的运行状态信息,识别所述各张gpu加速卡的运行状态是否正常;
10、所述根据所述温度信息和其他待读取信息,生成并发送信息读取指令至各张gpu加速卡,包括:
11、在识别到所述各张gpu加速卡的运行状态均正常时,根据所述温度信息和其他待读取信息,生成并发送信息读取指令至各张gpu加速卡。
12、在其中一个实施例中,所述方法还包括:
13、在识别到存在至少一张gpu加速卡的运行状态异常时,获取异常gpu加速卡的位置信息;根据所述异常gpu加速卡的位置信息,生成gpu加速卡异常故障报警信息。
14、在其中一个实施例中,所述根据接收到的所述各张gpu加速卡返回的温度信息,对风扇转速进行调整,包括:
15、根据接收到的所述各张gpu加速卡返回的温度信息,得到所述各张gpu加速卡中存在的温度最大值;在所述温度最大值未超过温度预警值时,根据所述温度最大值和预设的风扇转速调整规则,对所述风扇转速进行调整。
16、在其中一个实施例中,所述方法还包括:
17、在所述温度最大值超过温度预警值时,将所述风扇转速调整到最高转速直至所述各张gpu加速卡中散热后的温度最大值小于所述温度预警值。
18、在其中一个实施例中,所述根据所述信息读取频率和散热调控周期,得到所述gpu加速卡在一个所述散热调控周期内的最大信息读取笔数,包括:
19、将所述信息读取频率和散热调控周期输入预设的信息读取笔数运算模型,得到所述信息读取笔数运算模型输出的在一个所述散热调控周期内的最大信息读取笔数。
20、第二方面,本技术还提供了一种gpu加速卡的散热调控优化装置。所述装置包括:
21、信息获取模块,用于获取gpu加速卡的信息读取频率和优化后的散热调控周期;
22、数据运算模块,用于根据所述信息读取频率和散热调控周期,得到所述gpu加速卡在一个所述散热调控周期内的最大信息读取笔数;
23、信息确定模块,用于确定当前所述散热调控周期内除温度信息以外的其他待读取信息,以使所述温度信息和其他待读取信息的笔数之和不超过所述最大信息读取笔数;
24、指令生成模块,用于根据所述温度信息和其他待读取信息,生成并发送信息读取指令至各张gpu加速卡;
25、转速调整模块,用于在每一所述散热调控周期内,根据接收到的所述各张gpu加速卡返回的温度信息,对风扇转速进行调整。
26、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
27、获取gpu加速卡的信息读取频率和优化后的散热调控周期;根据所述信息读取频率和散热调控周期,得到所述gpu加速卡在一个所述散热调控周期内的最大信息读取笔数;确定当前所述散热调控周期内除温度信息以外的其他待读取信息,以使所述温度信息和其他待读取信息的笔数之和不超过所述最大信息读取笔数;根据所述温度信息和其他待读取信息,生成并发送信息读取指令至各张gpu加速卡;在每一所述散热调控周期内,根据接收到的所述各张gpu加速卡返回的温度信息,对风扇转速进行调整。
28、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
29、获取gpu加速卡的信息读取频率和优化后的散热调控周期;根据所述信息读取频率和散热调控周期,得到所述gpu加速卡在一个所述散热调控周期内的最大信息读取笔数;确定当前所述散热调控周期内除温度信息以外的其他待读取信息,以使所述温度信息和其他待读取信息的笔数之和不超过所述最大信息读取笔数;根据所述温度信息和其他待读取信息,生成并发送信息读取指令至各张gpu加速卡;在每一所述散热调控周期内,根据接收到的所述各张gpu加速卡返回的温度信息,对风扇转速进行调整。
30、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
31、获取gpu加速卡的信息读取频率和优化后的散热调控周期;根据所述信息读取频率和散热调控周期,得到所述gpu加速卡在一个所述散热调控周期内的最大信息读取笔数;确定当前所述散热调控周期内除温度信息以外的其他待读取信息,以使所述温度信息和其他待读取信息的笔数之和不超过所述最大信息读取笔数;根据所述温度信息和其他待读取信息,生成并发送信息读取指令至各张gpu加速卡;在每一所述散热调控周期内,根据接收到的所述各张gpu加速卡返回的温度信息,对风扇转速进行调整。
32、上述gpu加速卡的散热调控优化方法、装置、计算机设备、存储介质和计算机程序产品,通过获取gpu加速卡的信息读取频率和优化后的散热调控周期;根据信息读取频率和散热调控周期,得到gpu加速卡在一个散热调控周期内的最大信息读取笔数;确定当前散热调控周期内除温度信息以外的其他待读取信息,以使温度信息和其他待读取信息的笔数之和不超过最大信息读取笔数;根据温度信息和其他待读取信息,生成并发送信息读取指令至各张gpu加速卡;在每一散热调控周期内,根据接收到的各张gpu加速卡返回的温度信息,对风扇转速进行调整。这样,通过缩短散热调控周期,bmc可以优先读取每张gpu加速卡的温度信息,然后间隔一段时间再读取gpu加速卡的其他信息,由此可以保证bmc在gpu高负载压力的情况下仍能及时读取并监控温度信息,实现系统风扇对gpu加速卡温度变化的及时响应,从而有效避免了gpu加速卡超温问题的发生,并消除了温度过高带来的安全隐患。