一种基于仿真GPU的电源测试方法、系统及存储介质与流程

文档序号:30299245发布日期:2022-06-04 21:12阅读:154来源:国知局
一种基于仿真GPU的电源测试方法、系统及存储介质与流程
一种基于仿真gpu的电源测试方法、系统及存储介质
技术领域
1.本发明涉及电源测试技术领域,具体涉及一种基于仿真gpu的电源测试方法、系统及存储介质。


背景技术:

2.随着市场中对于人工智能的研究越发重视,ai服务器的市场需求也逐渐增大,服务器电源(psu)作为服务器的重要部件,对服务器的稳定运行有着至关重要的作用。而图形处理器(gpu,graphics processing unit)是高性能服务器中的核心图形处理器,在ai服务器中起到不可或缺的作用,其工作时功耗很大。而且在ai服务器各类部件中,gpu的更新换代较快,不同型号的gpu在性能测试各方面存在较大差异。同时gpu价值较高,容易损坏,使得整体测试过程效率较低、消耗成本较大。
3.在对服务器电源测试过程中,在gpu压力模型中,不同时间需要进行的并行运算量存在很大差异,电源负载会在短时间内进行剧烈变化,这使得电源测试过程中面临更多的挑战。而且,亟需一种服务器电源测试平台,替代不同类型的gpu,降低电源测试对gpu的过度依赖。


技术实现要素:

4.为了解决上述背景技术中提到的至少一个问题,本发明提供一种基于仿真gpu的电源测试方法及系统,通过电子负载来模仿真实gpu负载变化,监测电源的变化,以此实现对电源的测试,节省了测试平台的搭建和物料成本,提高了测试验证的工作效率。
5.本发明实施例提供的具体技术方案如下:
6.第一方面,提供一种基于仿真gpu的电源测试方法,所述方法包括:
7.采集真实运行gpu的功耗数据和温度数据,形成数据集;
8.根据所述数据集构建最大似然估计模型和最大瞬态变化模型;
9.根据所述最大似然估计模型和所述最大瞬态变化模型,控制可编程负载变化以实现对待测psu的测试;
10.记录对待测psu的测试中的波形和/或电流数据,得到测试结果。
11.进一步的,还包括:通过示波器记录所述波形以及通过霍尔元器件检测出所述电流数据;
12.判断所述波形和/或所述电流数据是否满足预设条件;
13.若所述波形和/或所述电流数据均满足预设条件,则所述测试结果为通过;
14.否则,则所述测试结果为不通过。
15.进一步的,采集运行gpu压力模型的功耗数据和温度数据,形成数据集,具体包括:
16.pc控制中心通过usb串口与功率计连接,并记录真实运行gpu时的功耗数据;
17.pc控制中心通过监控bmc状态,记录真实运行gpu时的温度数据;
18.通过所述pc控制中心多次真实运行gpu,得到包括时间维度、所述功耗数据、所述
温度数据的所述数据集。
19.进一步的,使用所述数据集,求取最大似然估计模型和最大瞬态变化模型,具体包括:
20.分别计算所述功耗数据和所述温度数据的均值、方差和标准差;
21.判断所述方差是否大于标准差;
22.若是,则保存为第一数据集;
23.若否,则保存为第二数据集。
24.进一步的,将所述第一数据集保存为最大瞬态变化模型;对所述第二数据集中数据进行预处理,求取似然函数和最大似然估计,得到最大似然估计模型。
25.进一步的,根据所述最大似然估计模型和所述最大瞬态变化模型,控制可编程负载变化以实现对待测psu的测试,具体包括:
26.pc控制中心根据所述最大似然估计模型和所述最大瞬态变化模型,控制温箱和负载在时间维度变化,并开始对所述待测psu进行加压测试。
27.进一步的,采用运放比较模块与所述霍尔元器件连接,对所述霍尔元器件输出的电压信号进行信号增强。
28.第二方面,提供一种基于仿真gpu的电源测试系统,所述系统包括:
29.信息采集模块,用于采集真实运行gpu的功耗数据和温度数据,形成数据集;
30.数据统计模块,使用所述数据集,求取最大似然估计模型和最大瞬态变化模型;
31.模拟测试模块,根据所述最大似然估计模型和所述最大瞬态变化模型,控制可编程负载变化以实现对待测psu的测试;
32.结果生成模块,记录对待测psu的测试中的波形和电流数据,得到测试结果。
33.第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序实现如上所述方法的步骤。
34.第四方面,提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上所述的基于仿真gpu的电源测试方法。
35.本发明实施例具有如下有益效果:
36.1.通过采集运行gpu压力模型得到的功率和温度数据,得到数据集,使用数据集分别求取最大似然估计模型和最大瞬态变化模型,pc控制中心根据这两个模型中的温度变化和负载变化进行控制对待测psu的加压测试,然后记录对待测psu测试过程中的波形和电流变化,得到测试结果,通过电子负载来模仿真实gpu负载变化,监测电源的变化,以此实现对电源的测试,节省了测试平台的搭建和物料成本,提高了测试验证的工作效率;
37.2.通过示波器显示出波形数据,通过霍尔元器件读取电流数据,并将得到的波形数据和电流数据与预设条件中的数据进行比较,其中预设条件数据即为电源设计规范标准数据,当波形数据和电流数据均满足预设条件时,则表明待测psu测试通过;
38.3.通过数据集获得两个模型,分别为最大似然估计模型和最大瞬态变化模型,包含了日常状态和极限状态下数据,使得根据该两种模型对可编程负载的控制更为精准,提高仿真测试过程的精确性。
附图说明
39.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
40.图1用于体现本技术的测试方法的示意图;
41.图2用于体现本技术中的霍尔元器件的应用电路图;
42.图3用于体现本技术中的信号增强电路图;
43.图4用于体现本技术中的控制可编程负载变化的示意图;
44.图5用于实施本技术中所述的各个实施例的示例性系统示意图;
45.图6用于体现本技术实施例中的计算机设备的结构示意图。
具体实施方式
46.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
47.随着市场中对于人工智能的研究越发重视,ai服务器的市场需求也逐渐增大,服务器电源(psu)作为服务器的重要部件,对服务器的稳定运行有着至关重要的作用。而图形处理器(gpu,graphics processing unit)是高性能服务器中的核心图形处理器,在ai服务器中起到不可或缺的作用,其工作时功耗很大。而且在ai服务器各类部件中,gpu的更新换代较快,不同型号的gpu在性能测试各方面存在较大差异。同时gpu价值较高,容易损坏,使得整体测试过程效率较低、消耗成本较大。
48.在对服务器电源测试过程中,在gpu压力模型中,不同时间需要进行的并行运算量存在很大差异,电源负载会在短时间内进行剧烈变化,这使得电源测试过程中面临更多的挑战。而且,亟需一种服务器电源测试平台,替代不同类型的gpu,降低电源测试对gpu的过度依赖。基于以上问题,本技术提出了一种基于仿真gpu的电源测试方法、系统及存储介质,通过电子负载来模仿真实gpu负载变化,监测电源的变化,以此实现对电源的测试,节省了测试平台的搭建和物料成本,提高了测试验证的工作效率。
49.实施例一
50.提供了一种提供一种基于仿真gpu的电源测试方法,应用于服务器,如图1所示,所述方法包括:
51.步骤s1:采集真实运行gpu的功耗数据和温度数据,形成数据集。
52.具体的,在服务器内部设置有待测psu、功率计、热电偶、ai服务器整机和pc控制中心,pc控制中心负责记录采集数据,进行数据处理,并且监控服务器整机的状态。pc控制中心通过usb串口与功率计连接,记录运行在ai服务器整机上运行gpu压力模型后的功耗数据。同时,通过热电偶与ai服务器整机连接用于对ai服务器整机进行温度检测,pc控制中心与服务器的基板管理控制器构成局域网,实时监控bmc动作状态,记录运行gpu压力模型时的温度数据,并且监控压力过程中出现的异常情况。通过多次真实运行gpu压力模型,形成
一个包括时间温度、功耗数据和温度数据的三维数据集。
53.步骤s2:根据所述数据集构建最大似然估计模型和最大瞬态变化模型。
54.具体的,根据多次运行gpu压力模型,得到500组数据,形成数据集中的数据,分别计算每组中同一时间间隔下的功耗数据组和温度数据组对应的均值、方差和标准差,例如500组数据包括第1组、第2组到第500组数据,每组数据中的时间间隔相同均为3600s,每组数据有包含3600对数据,即1~3600s中的不同时刻对应的单个功耗和温度数据。
55.其中,均值(x)计算公式如下:
[0056][0057]
其中,n为每组数据中单个数据的个数,i为1~n中对应的第i个数据。
[0058]
方差(s2)计算公式如下:
[0059][0060]
其中,n为每组数据中单个数据的个数,i为每组数据中的第i个数据。
[0061]
标准差(s)的计算公式如下:
[0062][0063]
其中,n为每组数据中单个数据的个数,i为每组数据中的第i个数据;xi为每组数据中排列在第i个对应的单个数据的数值。
[0064]
判断每组数据中方差是否大于标准差,并将方差大于标准差的部分数据保存为第一数据集,否则,则保存为第二数据集。对于方差大于标注差的第一数据集,选择单位时间内功耗数据最大的情况,求取最大瞬态变化模型。对第二数据集中的数据再次计算方差与标准差,再次判断第二数据集中计算得到的方差与标准差,将方差小于等于标准差的数据集再次集中到第二数据集,然后开始对第二数据集中的数据进行第三次计算方差与标准差,如此循环多次,且至少循环5次,得到最终的第二数据集。使用最终得到的第二数据集中的数据求取似然函数、最大似然估计,得到最大似然估计模型。
[0065]
步骤s3:根据所述最大似然估计模型和所述最大瞬态变化模型,控制可编程负载变化以实现对待测psu的测试。
[0066]
如图4所示,pc控制中心根据最大似然估计模型和最大瞬态变化模型,控制温度和负载在时间维度的变化,并开始对待测psu进行加压测试,具体的,通过pc控制中心调节可编程负载的变化,通过模拟功率在时间维度的变化,以实现对gpu的仿真模拟。
[0067]
具体的,霍尔元器件是一种应用霍尔效应的半导体,由于通电导线周围存在磁场,其大小和导线中的电流成正比,故可以利用霍尔元器件测量出磁场,就可以确定导线电流的大小,利用这一原理制成了霍尔电流传感器,本技术中采用acs712作为霍尔电流检测的主控芯片有感应芯片,如图2所示,霍尔元器件的应用电路图。
[0068]
在待测psu的输入端和输出端分别连接霍尔元器件,采用了两路相同的连接方案,其中ip+为电流的流入端,分别接入psu输入端与psu输出端电流的正极流入端,ip-分别接
入psu输入端与psu输出端的电流流出端。通过vout引脚,将电流信号转换为电压信号,传送给运放比较模块。采用mp1584作为电源主控方案,使用dcdc数字电源模块为霍尔元器件提供5v的稳定供电。通过运放比较模块进行一级电压跟随,对于霍尔元器件输出的电压信号进行信号增强,如图3所示为信号增强电路图,此时应用lm358作为电压基准的跟随,应用于运放比较的psu电流输入端与psu的电流输出端,vin为连接霍尔元器件模块的vout输出端,对于霍尔元器件的输出信号进行信号增强与滤波的作用,最后作用于vo输出通过信号处理与pc控制中心连接,以实现根据最大似然估计模型和最大瞬态变化模型对于可编程负载的调整变化,从而形成模拟真实ai服务器的压力环境,开始对待测psu进行加压测试。
[0069]
步骤s4:记录对待测psu的测试中的波形和/或电流数据,得到测试结果。
[0070]
具体的,通过示波器记录波形以及通过霍尔元器件检测电流数据,判断波形和/或电流数据是否满足预设条件;当通过波形数据进行判断时,通过示波器记录波形若波形和预设条件中的波形一致,则测试结果为通过。当通过电流数据进行判断时,通过霍尔元器件检测电流数据。当通过波形数据和电流数据进行测试时,波形和预设条件中的波形一致,同时电流数据满足于预设条件中的电流数据范围,例如预设条件中电流范围为小于等于i0,则说明波形和电流数据均满足预设条件,测试结果为通过。若波形或者电流数据其中一项为满足预设条件,或者二者均未满足预设条件则测试结果为不通过,从而得到测试报告,其中预设条件为电源设计规范标准数据,当波形数据和电流数据均满足预设条件时候,说明待测psu的测试结果合格。
[0071]
实施例二
[0072]
对应上述实施例,提供一种基于仿真gpu的电源测试系统,所述系统包括:
[0073]
信息采集模块,用于采集真实运行gpu的功耗数据和温度数据,形成数据集;
[0074]
数据统计模块,使用所述数据集,求取最大似然估计模型和最大瞬态变化模型;
[0075]
模拟测试模块,根据所述最大似然估计模型和所述最大瞬态变化模型,控制可编程负载变化以实现对待测psu的测试;
[0076]
结果生成模块,记录对待测psu的测试中的波形和电流数据,得到测试结果。
[0077]
图5示出可被用于实施本技术中所述的各个实施例的示例性系统。
[0078]
如图5所示,在一些实施例中,系统能够作为各所述实施例中的任意一个用于交通噪声控制的上述设备。在一些实施例中,系统可包括具有指令的一个或多个计算机可读介质(例如,系统存储器或nvm/存储设备)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本技术中所述的动作的一个或多个处理器(例如,(一个或多个)处理器)。
[0079]
对于一个实施例,系统控制模块可包括任意适当的接口控制器,以向(一个或多个)处理器中的至少一个和/或与系统控制模块通信的任意适当的设备或组件提供任意适当的接口。
[0080]
系统控制模块可包括存储器控制器模块,以向系统存储器提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
[0081]
系统存储器可被用于例如为系统加载和存储数据和/或指令。对于一个实施例,系统存储器可包括任意适当的易失性存储器,例如,适当的dram。在一些实施例中,系统存储器可包括双倍数据速率类型四同步动态随机存取存储器(ddr4sdram)。
[0082]
对于一个实施例,系统控制模块可包括一个或多个输入/输出(i/o)控制器,以向nvm/存储设备及(一个或多个)通信接口提供接口。
[0083]
例如,nvm/存储设备可被用于存储数据和/或指令。nvm/存储设备可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(hdd)、一个或多个光盘(cd)驱动器和/或一个或多个数字通用光盘(dvd)驱动器)。
[0084]
实施例三
[0085]
本发明实施例提供一种计算机设备,该计算机设备可以是服务器。如图6所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据集中的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于仿真gpu的电源测试方法,其实现通过以下步骤:
[0086]
步骤101:采集真实运行gpu的功耗数据和温度数据,形成数据集;
[0087]
步骤102:根据所述数据集构建最大似然估计模型和最大瞬态变化模型;
[0088]
步骤103:根据所述最大似然估计模型和所述最大瞬态变化模型,控制可编程负载变化以实现对待测psu的测试;
[0089]
步骤104:记录对待测psu的测试中的波形和/或电流数据,得到测试结果。
[0090]
实施例四
[0091]
本发明实施例提供一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行如上所述的基于仿真gpu的电源测试方法。
[0092]
其中,计算机可执行指令执行时实现以下步骤:
[0093]
采集真实运行gpu的功耗数据和温度数据,形成数据集;
[0094]
使用所述数据集,求取最大似然估计模型和最大瞬态变化模型;
[0095]
根据所述最大似然估计模型和所述最大瞬态变化模型,控制可编程负载变化以实现对待测psu的测试;
[0096]
记录对待测psu的测试中的波形和电流数据,得到测试结果。
[0097]
在本实施例中,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括,但不限于,易失性存储器,诸如随机存储器(ram,dram,sram);以及非易失性存储器,诸如闪存、各种只读存储器(rom,prom,eprom,eeprom)、磁性和铁磁/铁电存储器(mram,feram);以及磁性和光学存储设备(硬盘、磁带、cd、dvd);或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。
[0098]
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。
[0099]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精
神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1