一种多GPU系统的EDP测试方法、系统、设备及存储介质与流程

文档序号:14008187阅读:410来源:国知局
一种多GPU系统的EDP测试方法、系统、设备及存储介质与流程

本发明涉及gpu技术领域,特别涉及一种多gpu系统的edp测试方法、系统、设备及存储介质。



背景技术:

当前,为了满足客户提出的高性能计算机服务器的需求,相关企业研发了全新架构的计算型服务器pcie-box,通过pcieredriver卡和minisashd高速线缆外接一台server使用,此时的gpubox相当于server端的pcie设备,目前server端最多可以连接4个gpubox服务器节点。

gpu进行并行运算,gpu数量和带宽的提升固然大幅提高了计算处理的性能,但是,gpubox在高功耗、高频率的情况下供电需要满足gpu的inputedp(即electricaldesignpower,电气设计功耗)测试,测试时gpubox需要与server端进行联合测试。

目前,单server最多可支持16颗gpu,当多个gpubox节点搭配不同的gpu时,单次edp测试全程需要3个小时左右的时间,并且需要测试很多次,期间还需要人工进行多次干预,以对测试过程进行管理和不断地调整,从而需要耗费大量的测试时间,整个测试过程十分的繁杂。

综上所述可以看出,如何提升多gpu系统的edp测试效率是目前亟待解决的问题。



技术实现要素:

有鉴于此,本发明的目的在于提供一种多gpu系统的edp测试方法、系统、设备及存储介质,能够大幅提升多gpu系统的edp测试效率。其具体方案如下:

第一方面,本发明公开了一种多gpu系统的edp测试方法,包括:

步骤s11:检测当前server端的操作系统中是否已安装显卡驱动;

步骤s12:若所述操作系统中没安装显卡驱动,则直接进入步骤s13;若所述操作系统中已安装显卡驱动,则卸载该显卡驱动,并进入步骤s13;

步骤s13:安装与多个待测gpubox节点所搭配使用的gpu分别对应的nvqual测试程序;

步骤s14:利用安装完毕的nvqual测试程序来调用expect脚本,以对相应的gpu进行一次或多次edp测试,得到相应的edp测试结果。

可选的,所述若所述操作系统中已安装显卡驱动,则卸载该显卡驱动的步骤,包括:

若所述操作系统中已安装显卡驱动,则关闭当前正使用该显卡驱动的进程,然后卸载该显卡驱动。

可选的,所述安装与多个待测gpubox节点所搭配使用的gpu分别对应的nvqual测试程序的步骤之前,还包括:

通过第一参数设定接口获取用户输入的待测gpubox节点的节点特征参数,以利用该节点特征参数确定相应的待测gpubox节点。

可选的,所述待测gpubox节点的节点特征参数包括ip地址。

可选的,所述利用安装完毕的nvqual测试程序来调用expect脚本,以对相应的gpu进行一次或多次edp测试的步骤之前,还包括:

通过第二参数设定接口获取用户输入的edp测试次数。

可选的,所述安装与多个待测gpubox节点所搭配使用的gpu分别对应的nvqual测试程序的步骤,包括:

安装与所述多个待测gpubox节点所搭配使用的gpu对应的gpu驱动程序和cuda测试程序,并配置相应的cuda环境变量;

获取并安装与所述多个待测gpubox节点所搭配使用的gpu的型号分别对应的nvqual测试程序。

可选的,所述安装与多个待测gpubox节点所搭配使用的gpu分别对应的nvqual测试程序的步骤之前,还包括:

将与所述多个待测gpubox节点所搭配使用的gpu对应的gpu驱动程序、cuda测试程序和nvqual测试程序保存至所述server端的操作系统下。

第二方面,本发明公开了一种多gpu系统的edp测试系统,包括显卡驱动检测模块、显卡驱动卸载模块、nvqual安装模块和edp测试模块;其中,

所述显卡驱动检测模块,用于检测当前server端的操作系统中是否已安装显卡驱动,如果否,则启动所述nvqual安装模块的工作流程,如果是,则启动所述显卡驱动卸载的工作流程;

所述显卡驱动卸载模块,用于在所述操作系统中已安装显卡驱动的情况下,卸载该显卡驱动,并启动所述nvqual安装模块的工作流程;

所述nvqual安装模块,用于安装与多个待测gpubox节点所搭配使用的gpu分别对应的nvqual测试程序;

edp测试模块,用于利用安装完毕的nvqual测试程序来调用expect脚本,以对相应的gpu进行一次或多次edp测试,得到相应的edp测试结果。

第三方面,本发明公开了一种多gpu系统的edp测试设备,包括处理器以及用于存储edp测试程序的存储器;其中,所述处理器通过执行所述存储器中的edp测试程序以实现前述公开的edp测试方法。

第四方面,本发明公开了一种计算机可读存储介质,用于存储edp测试程序,所述edp测试程序被处理器执行后实现前述公开的edp测试方法。

可见,本发明在server端的操作系统没有安装显卡驱动的情况下,安装与多个待测gpubox节点所搭配使用的gpu对应的nvqual测试程序,这样可以使得后续能够利用安装完毕的nvqual测试程序来调用expect脚本,以对相应的gpu自动地进行一次或多次edp测试,在整个测试进行的过程中,无需人工进行干预,从而实现了自动化的edp测试,由此大幅提升了多gpu系统的edp测试效率,减少了大量的测试时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种多gpu系统的edp测试方法流程图;‘

图2为本发明实施例公开的一种具体的多gpu系统的edp测试方法流程图;

图3为本发明实施例公开的一种多gpu系统的edp测试系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种多gpu系统的edp测试方法,参见图1所示,该方法包括:

步骤s11:检测当前server端的操作系统中是否已安装显卡驱动。

本实施例中,上述显卡驱动具体可以包括但不限于nvidia显卡驱动。

步骤s12:若操作系统中没安装显卡驱动,则直接进入步骤s13;若操作系统中已安装显卡驱动,则卸载该显卡驱动,并进入步骤s13。

步骤s13:安装与多个待测gpubox节点所搭配使用的gpu分别对应的nvqual测试程序。

本实施例中,上述多个待测gpubox节点是指位于多gpu系统的所有gpubox节点中的任意多个节点或全部的节点。

步骤s14:利用安装完毕的nvqual测试程序来调用expect脚本,以对相应的gpu进行一次或多次edp测试,得到相应的edp测试结果。

可见,本发明实施例在server端的操作系统没有安装显卡驱动的情况下,安装与多个待测gpubox节点所搭配使用的gpu对应的nvqual测试程序,这样可以使得后续能够利用安装完毕的nvqual测试程序来调用expect脚本,以对相应的gpu自动地进行一次或多次edp测试,在整个测试进行的过程中,无需人工进行干预,从而实现了自动化的edp测试,由此大幅提升了多gpu系统的edp测试效率,减少了大量的测试时间。

在前述实施例的基础上,本发明实施例公开了一种具体的多gpu系统的edp测试方法,参见图2所示,该方法包括:

步骤s21:检测当前server端的操作系统中是否已安装显卡驱动。

步骤s22:若操作系统中没安装显卡驱动,则直接进入步骤s23;若操作系统中已安装显卡驱动,则关闭当前正使用该显卡驱动的进程,然后卸载该显卡驱动,并进入步骤s23。

可以理解的是,上述卸载显卡驱动之后,还需进行reboot操作,以实现重启。

步骤s23:安装与多个待测gpubox节点所搭配使用的gpu对应的gpu驱动程序和cuda测试程序,并配置相应的cuda环境变量;获取并安装与多个待测gpubox节点所搭配使用的gpu的型号分别对应的nvqual测试程序。

本实施中,上述步骤s23之前,还可以包括:

通过第一参数设定接口获取用户输入的待测gpubox节点的节点特征参数,以利用该节点特征参数确定相应的待测gpubox节点。

其中,上述待测gpubox节点的节点特征参数包括但不限于ip地址。

可以理解的是,在上述步骤23之前,还可以包括:

将与多个待测gpubox节点所搭配使用的gpu对应的gpu驱动程序、cuda测试程序和nvqual测试程序保存至server端的操作系统下,以方便后续的获取及安装。

步骤s24:利用安装完毕的nvqual测试程序来调用expect脚本,以对相应的gpu进行一次或多次edp测试,得到相应的edp测试结果。

本实施例中,上述利用安装完毕的nvqual测试程序来调用expect脚本,以对相应的gpu进行一次或多次edp测试的步骤之前,还包括:通过第二参数设定接口获取用户输入的edp测试次数。这样可以使得用户只需在测试前输入相应的测试次数的参数,后续系统便可根据该参数并利用相应的nvqual测试程序来对相应的gpu进行相应次数的edp测试,

另外,可以理解的是,在得到相应的edp测试结果之后,可以将该结果记录下来,例如以日志的形式记录下来,以便相关工作人员进行查阅。

本实施例中,在进行edp测试之前,可以先利用minisashd高速线缆将gpubox节点与server端连接起来,然后开启gpubox节点,相隔一段时间后再开启server端,接着拷贝相关的驱动程序和测试程序到server端的操作系统下,最后按照上述公开的测试方法展开测试即可,从而实现同时多次进行对多个节点的多个edp测试,以使得多个gpu峰值功耗同时达到顶峰状态,能够有效地验证系统电源是否能够处理板卡投射出的最差功率峰值。

相应的,本发明实施例还公开了一种多gpu系统的edp测试系统,参见图3所示,该系统包括显卡驱动检测模块11、显卡驱动卸载模块12、nvqual安装模块13和edp测试模块14;其中,

显卡驱动检测模块11,用于检测当前server端的操作系统中是否已安装显卡驱动,如果否,则启动nvqual安装模块13的工作流程,如果是,则启动显卡驱动卸载12的工作流程;

显卡驱动卸载模块12,用于在操作系统中已安装显卡驱动的情况下,卸载该显卡驱动,并启动nvqual安装模块13的工作流程;

nvqual安装模块13,用于安装与多个待测gpubox节点所搭配使用的gpu分别对应的nvqual测试程序;

edp测试模块14,用于利用安装完毕的nvqual测试程序来调用expect脚本,以对相应的gpu进行一次或多次edp测试,得到相应的edp测试结果。

关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。

相应的,本发明实施例还公开了一种多gpu系统的edp测试设备,包括处理器以及用于存储edp测试程序的存储器;其中,处理器通过执行存储器中的edp测试程序以实现前述公开的edp测试方法。

相应的,本发明实施例还公开了一种计算机可读存储介质,用于存储edp测试程序,edp测试程序被处理器执行后实现前述公开的edp测试方法。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种多gpu系统的edp测试方法、系统、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1