本发明涉及异构计算,具体地说是异构计算平台的gpu功耗测试及压力测试方法及装置。
背景技术:
1、异构计算(heterogeneous computing)能经济有效地获取高性能计算能力、可扩展性好、计算资源利用率高、发展潜力巨大,已成为并行/分布计算领域中的研究领域热点之一。通常见到的异构计算系统都是“cpu+xpu加速处理器”的架构(xpu特指其他各类非cpu处理器)。目前,cpu+gpu的组合比较流行,满足大部分场景应用需求,而这种组合对于功耗要求比较严苛,所以对于异构平台的功耗测试显得尤为重要。在现代的异构计算系统中,cpu和gpu的异构形式主要有耦合式和分离式两种,要想得到gpu的最高功耗必须将cpu和gpu同步满载并单独监控gpu实时功耗,但是一般的分离式异构平台中gpu都是直插主板pcie卡槽,不能单独记录功耗。
2、如何单独检测gpu的实时功耗、并在不影响高功耗gpu性能的情况下进行散热,是需要解决的技术问题。
技术实现思路
1、本发明的技术任务是针对以上不足,提供异构计算平台的gpu功耗测试及压力测试方法及装置,来解决如何单独检测gpu的实时功耗、并在不影响高功耗gpu性能的情况下进行散热的技术问题。
2、第一方面,本发明一种异构计算平台的gpu功耗测试及压力测试方法,应用于cpu+gpu异构计算平台,所述方法包括如下步骤:
3、搭建测试平台:将gpu插入pcie插槽转接卡后固定在散热箱中,散热箱两侧各固定散热风扇,通过pcie信号转接卡将pcie插槽转接卡连接到主板,将gpu卡和pcie插槽转接卡分别通过电源线连接至电源监控显示模块,电源监控显示模块用于采集gpu卡和pcie转接卡的电压、电流和功耗并形成日志;
4、调节独立电源分别供电:通过独立电源分别为散热风扇、电源监控显示模块供电;
5、测试负载情况:通过压力工具调节负载状态,查看压力工具运行状态,并记录cpu和gpu负载情况;
6、日志监控:通过电源监控显示模块追踪各个负载状态下gpu卡和pcie插槽转接卡的电压、电流以及功耗并形成日志;
7、日志保存及查询:导出日志,并基于日志中的信息进行功耗查询和分析。
8、作为优选,搭建测试平台包括如下步骤:
9、断开主机电源,将peie信号转接卡插入主机pcie插槽中;
10、通过传输线将pcie信号转接卡与散热箱内pcie插槽转接卡相连;
11、将gpu插入pcie插槽转接卡;
12、将gpu和pcie插槽转接卡通过电源线分别与电源监控显示模块相连。
13、作为优选,调节独立电源分别供电包括如下步骤:
14、将每个散热风扇分别连接独立电源;
15、将电源监控显示模块连接独立电源;
16、调节电压分别为散热风扇、电源监控显示模块供电。
17、作为优选,测试负载情况包括如下步骤:
18、将主机上电开机,启动系统;
19、运行压力工具,调节负载状态,分别进行空闲、50%负载、满载运行;
20、查看压力工具运行状态,记录cpu和gpu负载情况。
21、作为优选,日志监控包括如下步骤:
22、分别查看每种负载状态下电源监控显示模块的数值;
23、分别记录gpu卡和pcie插槽转接卡的功耗。
24、作为优选,日志保存及查询包括如下步骤:
25、通过电源监控显示模块导出电源日志;
26、通过分析工具将电源日志表格化以及曲线化,生成表格图和曲线图;
27、分别对比生成的曲线图,判断gpu的实际功耗的变化情况。
28、第二方面,本发明一种异构计算平台的gpu功耗及压力测试装置,应用于cpu+gpu异构计算平台,用于通过如第一方面任一项所述的方法进行gpu功耗及压力测试,所述系统包括测试平台、负载测试模块、日志监控模块以及日志保存及查询模块;
29、测试平台中,gpu插入pcie插槽转接卡后固定在散热箱中,散热箱两侧各固定散热风扇,通过pcie信号转接卡将pcie插槽转接卡连接到主板,将gpu卡和pcie插槽转接卡分别通过电源线连接至电源监控显示模块,电源监控显示模块用于采集gpu卡和pcie转接卡的电压、电流和功耗并形成日志;
30、散热风扇、电源监控显示模块分别连接有独立电源进行单独供电;
31、负载测试模块中配置有压力工具,用于执行如下:通过压力工具调节负载状态,查看压力工具运行状态,并记录cpu和gpu负载情况;
32、日志监控模块用于执行如下:通过电源监控显示模块追踪各个负载状态下gpu卡和pcie插槽转接卡的电压、电流以及功耗并形成电源日志;
33、日志保存及查询模块用于执行如下:导出电源日志,并基于电源日志中的信息进行功耗查询和分析。
34、作为优选peie信号转接卡插入主机pcie插槽中,并通过传输线与散热箱内pcie插槽转接卡相连;gpu插入pcie插槽转接卡中,gpu和pcie插槽转接卡通过电源线分别与电源监控显示模块相连。
35、作为优选,负载测试模块用于执行如下:
36、将主机上电开机,启动系统;
37、运行压力工具,调节负载状态,分别进行空闲、50%负载、满载运行;
38、查看压力工具运行状态,记录cpu和gpu负载情况。
39、作为优选,日志监控模块用于执行如下:
40、分别查看每种负载状态下电源监控显示模块的数值;
41、分别记录gpu卡和pcie插槽转接卡的功耗;
42、日志保存及查询模块用于执行如下:
43、通过电源监控显示模块导出电源日志;
44、通过分析工具将电源日志表格化以及曲线化,生成表格图和曲线图;
45、分别对比生成的曲线图,判断gpu的实际功耗的变化情况。
46、本发明的异构计算平台的gpu功耗及压力测试方法及装置具有以下优点:
47、1、可以通过散热箱单独给gpu进行散热而不影响其性能,还可以通过电源监控显示模块给gpu独立供电并直接获取电压及功耗信息,大大节省了测试时间,提升了测试的可行性和便捷性;
48、2、对于电源日志存储,更好的保存了gpu的功耗监测日志,为异构平台的分析调优工作提供更准确的数据支撑。
1.一种异构计算平台的gpu功耗测试及压力测试方法,其特征在于,应用于cpu+gpu异构计算平台,所述方法包括如下步骤:
2.根据权利要求1所述的异构计算平台的gpu功耗测试及压力测试方法,其特征在于,搭建测试平台包括如下步骤:
3.根据权利要求1所述的异构计算平台的gpu功耗测试及压力测试方法,其特征在于,调节独立电源分别供电包括如下步骤:
4.根据权利要求1所述的异构计算平台的gpu功耗测试及压力测试方法,其特征在于,测试负载情况包括如下步骤:
5.根据权利要求1所述的异构计算平台的gpu功耗测试及压力测试方法,其特征在于,日志监控包括如下步骤:
6.根据权利要求1所述的异构计算平台的gpu功耗测试及压力测试方法,其特征在于,日志保存及查询包括如下步骤:
7.一种异构计算平台的gpu功耗及压力测试装置,其特征在于,应用于cpu+gpu异构计算平台,用于通过如权利要求1-6任一项所述的方法进行gpu功耗及压力测试,所述系统包括测试平台、负载测试模块、日志监控模块以及日志保存及查询模块;
8.根据权利要求7所述的异构计算平台的gpu功耗及压力测试装置,其特征在于,peie信号转接卡插入主机pcie插槽中,并通过传输线与散热箱内pcie插槽转接卡相连;gpu插入pcie插槽转接卡中,gpu和pcie插槽转接卡通过电源线分别与电源监控显示模块相连。
9.根据权利要求7所述的异构计算平台的gpu功耗及压力测试装置,其特征在于,负载测试模块用于执行如下:
10.根据权利要求7所述的异构计算平台的gpu功耗及压力测试装置,其特征在于,日志监控模块用于执行如下: