本发明涉及gpu服务器技术领域,具体地说是一种sxm2gpu链路测试板卡及测试方法。
背景技术:
随着人工智能和高性能计算的兴起,gpu(graphicsprocessorunit,显示处理器单元)运算的优势在高性能计算机的体现越来越明显,相较于传统的cpu处理器,超高的处理器核心,更适合并行运算的人工智能和高性能要求,gpu服务器已经成为服务器下个快速增长点,sxm2(显示处理器公司nvidia定义的高性能处理器模块类型)gpu是nvidia公司为进一步提高处理性能,打破原有的pcie(peripheralcomponentinterconnectexpress,高速串行计算机扩展总线)显卡规范自主定义的一种高规格gpu模块。
针对sxm2gpu服务器,为保证服务器的质量和性能,在出厂前需要对与sxm2gpu模组通信链路的正常性进行测试。
目前工厂测试都是使用真实的sxm2gpu模组进行。sxm2gpu本身价格相当昂贵,而且接口连接器插拔次数有限,在多次测试的情况下,会导致sxm2gpu模组损坏率比较高,工程测试成本太高。
技术实现要素:
本发明实施例中提供了一种sxm2gpu链路测试板卡及测试方法,以解决现有技术中利用真实sxm2gpu模组进行链路测试成本高的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明第一方面提供了一种sxm2gpu链路测试板卡,所述测试板卡包括扣卡连接器、电源转换模块、pcie槽位和nvlink模块,所述扣卡连接器用于连接gpu服务器,所述电源转换模块用于给测试板卡供电,所述pcie槽位安装pciegpu卡,用于验证与sxm2gpu连接的pcie链路是否正常,所述nvlink模块用于测试sxm2gpu之间的链路是否正常。
结合第一方面,在第一方面第一种可能的实现方式中,所述测试板卡的尺寸与sxm2gpu模组的尺寸一致,所述扣卡连接器的型号与sxm2gpu模组的连接器型号相同。
结合第一方面,在第一方面第二种可能的实现方式中,所述pcie槽位为标准pciex16槽,pcie槽位倾斜安装在所述测试板卡上。
结合第一方面,在第一方面第三种可能的实现方式中,所述nvlink模块包括信号指示灯,所述信号指示灯的一端连接电源转换模块,另一端依次通过本测试板卡nvlink信号发送端和另一测试板卡nvlink信号接收端接地。
本发明第二方面提供了一种sxm2gpu链路测试方法,基于上述测试板卡,所述测试方法包括以下步骤:
将测试板卡安装在sxm2gpu模组安装位置,通过卡扣连接器连接gpu服务器;
将卡扣连接器输出的pcie信号连接至pcie槽位,验证pcie链路的正常与否;
将卡扣连接器输出的nvlink信号连接信号指示灯,验证sxm2gpu模组之间链路的正常与否。
结合第二方面,在第二方面第一种可能的实现方式中,所述将卡扣连接器输出的pcie信号连接至pcie槽位,验证pcie链路的正常与否的具体过程为:
将pciegpu卡插入pcie槽位内;
获取pciegpu卡的pcie连接宽度和速度;
通过判断pcie连接宽度和速度是否符合要求,验证pcie链路的正常与否。
结合第二方面,在第二方面第二种可能的实现方式中,所述将卡扣连接器输出的nvlink信号连接信号指示灯,验证sxm2gpu模组之间链路的正常与否的具体过程为:
本测试板卡nvlink信号发送端和另一测试板卡nvlink信号接收端通过信号指示灯连接;
获取信号指示灯的状态,根据信号指示灯的亮灭,验证sxm2gpu模组之间链路的正常与否。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
1、本发明实施例提供的测试板卡能够替换真实sxm2gpu模组,测试与sxm2gpu模组通信链路的可靠性,无需再使用真实sxm2gpu模组进行测试,避免链路测试过程中对sxm2gpu模组的损坏,大大节约了测试成本。
2、测试板卡的尺寸与sxm2gpu模组尺寸一致,便于测试板卡安装到sxm2gpu模组处,并且扣卡连接器选用与sxm2gpu模组相同的连接器,实现测试板卡与gpu服务器的通信,保证链路测试的顺利进行。
3、sxm2gpu模之间nvlink链路的测试通过信号指示灯来实现,操作简单,且测试结果清晰可见。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明测试板卡的结构示意图;
图2是本发明进行sxm2gpu模组之间nvlink链路测试的电路示意图;
图3是本发明测试方法的流程示意图;
图4是本发明进行pcie链路测试的流程示意图;
图5是本发明进行nvlink链路测试的流程示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明的测试板卡包括扣卡连接器、电源转换模块、pcie槽位和nvlink模块,扣卡连接器用于连接gpu服务器,电源转换模块用于给测试板卡供电,pcie槽位安装pciegpu卡,用于验证与sxm2gpu模组连接的pcie链路是否正常,nvlink模块用于测试sxm2gpu之间的链路是否正常。
扣卡连接器是测试板卡和gpu服务器连接的接口连接器,采用的是和sxm2gpu模组相同的连接器fci74221-101lf(fci是世界范围内电子连接器的最主要设计者、生产商和供应商);pcie槽位采用的是标准的pciex16槽,主要负责验证pcie链路;电源转换模块负责把提供给sxm2gpu模组的5v电源转换成测试板卡需要的3.3v电源;nvlink模块用于验证gpu服务器上sxm2gpu模组之间nvlink链路。
sxm2gpu测试板卡的尺寸和真实sxm2gpu模组尺寸一致,均为140mmx78mm,结构上可以直接放在gpu放置的位置,扣卡连接器也采用和sxm2gpu模组相同型号,所以可以结构上完全替换真实的gpu模块,而不需要修改相关服务器机箱结构。
sxm2gpu模组和gpu服务器连接总线接口采用的pciex16接口,sxm2gpu模组是扣卡连接器输出pcie信号到sxm2gpu芯片,本测试板卡设计把cpu(centralprocessingunit,中央处理器)处理器输出的pcie信号直接连接到标准pciex16的槽位,由于标准的pcie槽位要比sxm2gpu卡的长度长,设计上把pcie槽位倾斜放置,本实施例优选倾斜45度角,这样工厂测试就可以插入标准的pciegpu卡,通过测试pciegpu卡的pcie连接宽度和速度验证和sxm2gpu模组通信的pcie链路的正常与否。
nvlink是sxm2gpu相对标准gpu特有的总线接口,是不同的sxm2gpu之间通信的链路,链路的高频特性是在开发阶段实验室验证调试完成,pcb工厂严格管控参数就行可以保证,量产后工厂主要是要验证链路的连通性。
如图2所示,测试板卡设计采用的是led点灯的方式,也方便工厂测试,板卡在原有的nvlink发送端(tx端)放着led,接收端(rx端)直接对地,当两个测试板卡同时安装后形成一个led工作的完整回路,如果链路正常,led会变亮,如果gpu服务器板卡故障,led就会不亮,这样就有利于工厂测试,同时根据led有丝印标注和链路对应的关系,判定链路错误的位置。
由于sxm2gpu模组只提供了12v和5v,但是标准的pcie槽位需要3.3v,而且nvlink模块的led点灯链路同样需要3.3v,板卡上设计5v转3.3v的电源转换模块,一是验证5v电源是否正常,二是提供pcie槽位和led的正常工作。
如图3所示,对sxm2gpu链路测试的方法包括以下步骤:
s1,将测试板卡安装在sxm2gpu模组安装位置,通过卡扣连接器连接gpu服务器;
s2,将卡扣连接器输出的pcie信号连接至pcie槽位,验证pcie链路的正常与否;
s3,将卡扣连接器输出的nvlink信号连接信号指示灯,验证sxm2gpu模组之间链路的正常与否。
如图4所示,步骤s2的具体实现过程为:
s21,将pciegpu卡插入pcie槽位内;
s22,获取pciegpu卡的pcie连接宽度和速度;
s23,判断pcie连接宽度和速度是否符合要求;
s24,若是,pcie链路正常;
s25,若否,pcie链路故障。
如图5所示,步骤s3的具体实现过程为:
s31,本测试板卡nvlink信号发送端和另一测试板卡nvlink信号接收端通过信号指示灯连接;
s32,获取信号指示灯的状态;
s33,判读信号指示灯led是否被点亮;
s34,若是,sxm2gpu模组之间的链路正常;
s35,若否,sxm2gpu模组之间的链路故障。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。