一种GPU拓扑连接检测方法、装置、设备及存储介质与流程

文档序号:21318331发布日期:2020-06-30 20:48阅读:1195来源:国知局
一种GPU拓扑连接检测方法、装置、设备及存储介质与流程

本发明涉及gpu服务器领域,特别是涉及一种gpu拓扑连接检测方法、装置、设备及存储介质。



背景技术:

随着ai市场飞速发展、服务越来越智能化,图形处理器(graphicsprocessingunit,gpu)服务器已经成为各个ai公司的必需品。而对于各种各样的服务,单颗gpu已经无法满足人们的需求,从而在一个gpu服务器内,gpu的数量也在逐渐增多。随着gpu数量的增加,对于gpu的拓扑结构也有不同的需求。

目前,主流的gpu工作拓扑结构分别为balance、common以及cascade。图1至图3分别示出了这三种gpu工作拓扑的连接方式。而实现gpu工作拓扑的方式主要有两种:一种是通过开关切换,这种方式会引入多余的芯片,并且会使服务器增加更多的板卡数量或者pcb层数,从而导致成本的增加;另一种是使用线缆的方式,这种方式可以减小服务器尺寸,并且更为灵活。

但是,对于使用线缆的方式实现不同的gpu工作拓扑时,目前除了开机后登录系统查看设备是否符合拓扑外,没有别的办法查看线缆是否按照需求连接的。这就导致一个问题,若线缆接错了,就只能开机后,在os下查看拓扑才能发现,然后需要关机重新更换线缆,操作较为复杂。

因此,如何自动检验gpu拓扑与接线方式是否匹配,是本领域技术人员亟待解决的技术问题。



技术实现要素:

有鉴于此,本发明的目的在于提供一种gpu拓扑连接检测方法、装置、设备及存储介质,可以自动检验gpu拓扑与实际的线缆接法是否匹配,操作简单,效率高。其具体方案如下:

一种gpu拓扑连接检测方法,包括:

在gpu服务器中增设cpld和与所述cpld连接的拨码开关;

通过调节所述拨码开关来选定用户所需的gpu拓扑的配置并发送至所述cpld;

在接上电源后无需开机,通过所述cpld根据预先建立的不同gpu拓扑与所述cpld接收的线缆id之间的对应关系,判断当前线缆是否按照用户所需的gpu拓扑进行连接。

优选地,在本发明实施例提供的上述gpu拓扑连接检测方法中,判断当前线缆是否按照用户所需的gpu拓扑进行连接,具体包括:

将所述拨码开关发送的gpu拓扑的配置与当前线缆发送的线缆id进行对比;

若对比结果与预先建立的所述对应关系不匹配,确定所述线缆连接错误;

若对比结果与预先建立的所述对应关系匹配,确定所述线缆连接正确。

优选地,在本发明实施例提供的上述gpu拓扑连接检测方法中,在确定所述线缆连接错误的同时,还包括:

将连接错误的所述线缆对应的警示灯点亮,以提醒相关人员更换所述线缆。

优选地,在本发明实施例提供的上述gpu拓扑连接检测方法中,还包括:

当未调节所述拨码开关时,在开机的瞬间,通过所述cpld将当前线缆对应的警示灯全部点亮且闪烁,以提醒相关人员未配置gpu拓扑。

优选地,在本发明实施例提供的上述gpu拓扑连接检测方法中,通过调节所述拨码开关来选定用户所需的gpu拓扑的配置,具体包括:

当所述拨码开关为两位二进制拨码开关时,通过调节所述拨码开关将用户所需的gpu拓扑分别配置为01、10和11;其中00为未配置状态。

本发明实施例还提供了一种gpu拓扑连接检测装置,包括:cpld和与所述cpld连接的拨码开关;其中,

所述拨码开关,用于设置用户所需的gpu拓扑的配置并发送至所述cpld;

所述cpld,用于在接上电源后无需开机,根据预先建立的不同gpu拓扑与所述cpld接收的线缆id之间的对应关系,判断当前线缆是否按照用户所需的gpu拓扑进行连接。

优选地,在本发明实施例提供的上述gpu拓扑连接检测装置中,所述cpld,具体用于将所述拨码开关发送的gpu拓扑的配置与当前线缆发送的线缆id进行对比;若对比结果与预先建立的所述对应关系不匹配,确定所述线缆连接错误,同时将连接错误的所述线缆对应的警示灯点亮,以提醒相关人员更换所述线缆;若对比结果与预先建立的所述对应关系匹配,确定所述线缆连接正确。

优选地,在本发明实施例提供的上述gpu拓扑连接检测装置中,所述cpld,还用于当未调节所述拨码开关时,在开机的瞬间,将当前线缆对应的警示灯全部点亮且闪烁,以提醒相关人员未配置gpu拓扑。

本发明实施例还提供了一种gpu拓扑连接检测设备,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如本发明实施例提供的上述gpu拓扑连接检测方法。

本发明实施例还提供了一种计算机可读存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如本发明实施例提供的上述gpu拓扑连接检测方法。

从上述技术方案可以看出,本发明所提供的一种gpu拓扑连接检测方法、装置、设备及存储介质,包括:在gpu服务器中增设cpld和与cpld连接的拨码开关;通过调节拨码开关来选定用户所需的gpu拓扑的配置并发送至cpld;在接上电源后无需开机,通过cpld根据预先建立的不同gpu拓扑与cpld接收的线缆id之间的对应关系,判断当前线缆是否按照用户所需的gpu拓扑进行连接。

本发明通过增设的拨码开关可以实现根据不同用户选定不同的gpu拓扑并将配置的gpu拓扑发送给cpld,cpld可以在gpu服务器插上电源的瞬间判断配置的gpu拓扑与实际的线缆接法是否匹配,进而自动检查线缆是否按照用户所需的gpu拓扑进行连接,由于不需要开机进入系统,只需要插上电源就可以检查出线缆是否接错,操作简单易行,提高了工作效率。

附图说明

为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1至图3分别为现有的三种gpu工作拓扑的连接方式;

图4为本发明实施例提供的gpu拓扑连接检测方法流程图;

图5为本发明实施例提供的自动检验gpu拓扑与接线方式是否匹配的框架图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供一种gpu拓扑连接检测方法,如图4所示,包括以下步骤:

s401、在gpu服务器中增设cpld和与cpld连接的拨码开关;

s402、通过调节拨码开关来选定用户所需的gpu拓扑的配置并发送至cpld;

在实际应用中,通过增设的拨码开关,首先根据不同用户需求,选定使用哪种gpu工作拓扑,如balance、common或cascade,然后将配置的gpu拓扑发送给cpld;

s403、在接上电源后无需开机,通过cpld根据预先建立的不同gpu拓扑与cpld接收的线缆id之间的对应关系,判断当前线缆是否按照用户所需的gpu拓扑进行连接;

需要说明的是,不同的线缆接法会发送给cpld不同的拓扑密码(如二进制数字窜),该拓扑密码就是线缆id;根据预先建立的不同gpu拓扑与cpld接收的线缆id之间的对应关系,以及拨码开关发送的gpu拓扑的配置,通过cpld就可以判断当前接好的线缆是否按照用户所需的gpu拓扑进行连接。

在本发明实施例提供的上述gpu拓扑连接检测方法中,通过增设的拨码开关可以实现根据不同用户选定不同的gpu拓扑并将配置的gpu拓扑发送给cpld,cpld可以在gpu服务器插上电源的瞬间判断配置的gpu拓扑与实际的线缆接法是否匹配,进而自动检查线缆是否按照用户所需的gpu拓扑进行连接,由于不需要开机进入系统,只需要插上电源就可以检查出线缆是否接错,操作简单易行,提高了工作效率。

在具体实施时,在本发明实施例提供的上述gpu拓扑连接检测方法中,步骤s402通过调节拨码开关来选定用户所需的gpu拓扑的配置,具体可以包括:当拨码开关为两位二进制拨码开关时,通过调节拨码开关将用户所需的gpu拓扑分别配置为01、10和11;其中00为未配置状态。例如:balance配置为01,common配置为10,cascade配置为11。

在具体实施时,在本发明实施例提供的上述gpu拓扑连接检测方法中,步骤s403判断当前线缆是否按照用户所需的gpu拓扑进行连接,具体可以包括:将拨码开关发送的gpu拓扑的配置与当前线缆发送的线缆id进行对比;若对比结果与预先建立的对应关系不匹配,确定线缆连接错误;若对比结果与预先建立的对应关系匹配,确定线缆连接正确。

在实际应用中,假设拨码开关发送的gpu拓扑的配置为01,预先建立的对应关系是gpu拓扑的配置为01时,cpld接收的线缆id应为00,若当前线缆发送的线缆id为01,说明对比结果与预先建立的对应关系不匹配,确定线缆连接错误,需要更换线缆,重新连接;若当前线缆发送的线缆id为00,说明对比结果与预先建立的对应关系0匹配,确定线缆连接正确。

进一步地,在具体实施时,在本发明实施例提供的上述gpu拓扑连接检测方法中,在确定线缆连接错误的同时,还可以包括:将连接错误的线缆对应的警示灯点亮,以提醒相关人员更换线缆。

需要注意的是,在自动检查gpu线缆是否插错的同时,可以定位线缆插错的位置。具体地,在配置的gpu拓扑与实际的线缆接法不匹配时,cpld可以通过线缆对应的警示灯确认是哪根线缆接的有问题而不需要等到进入系统后再确认接法是否正确,例如将接错的线缆对应的警示灯(如红色灯)点亮,让组装机器的工作人员及时更改。

在具体实施时,在本发明实施例提供的上述gpu拓扑连接检测方法中,还可以包括:当未调节拨码开关时,在开机的瞬间,通过cpld将当前线缆对应的警示灯全部点亮且闪烁,以提醒相关人员未配置gpu拓扑。

下面以两路gpu服务器为例对本发明实施例提供的上述gpu拓扑连接检测方法进行详细的说明:

如图5所示,conn0、conn1、conn2为主板接gpu的连接器;conn3、conn4、conn5为gpu板的连接器。l1为conn3的警示灯;l2为conn5的警示灯。图5中gpu板上有一个两位二进制拨码开关(即能实现00/01/10/11)。

下表一是预先建立的不同gpu拓扑与cpld接收的线缆id之间的对应关系:

表一

具体的方法步骤如下:首先通过拨码开关设置用户所需的gpu拓扑(01/10/11),其中00为未配置状态;如果配置人员忘记调节拨码开关,在开机的瞬间,cpld会使l1和l2灯闪烁,以提醒工作人员未配置gpu拓扑。在选定完gpu拓扑后,线缆的连接关系也完成,在接上电源后无需开机,cpld会将拨码开关选定的配置与线缆实际接法的进行对比,当cpld对比出两边的设置(id)不匹配的时候,会以拨码开关选择的配置为准,然后对比线缆实际连接设置,将错误的线缆id值对应的警示灯点亮,提醒工作人员线缆连接错误。

通过使用上面描述的方法,可以在gpu服务器插上电源的瞬间就知道线缆是否按照用户所需的gpu拓扑连接正确,而不需要开机且进入os系统查看,如果接法不正确,可以通过线缆状态灯确认哪根线缆接错。

基于同一发明构思,本发明实施例还提供了一种gpu拓扑连接检测装置,由于该装置解决问题的原理与前述一种gpu拓扑连接检测方法相似,因此该装置的实施可以参见gpu拓扑连接检测方法的实施,重复之处不再赘述。

在具体实施时,本发明实施例提供的gpu拓扑连接检测装置,具体包括:cpld和与cpld连接的拨码开关;其中,

拨码开关,用于设置用户所需的gpu拓扑的配置并发送至cpld;

cpld,用于在接上电源后无需开机,根据预先建立的不同gpu拓扑与cpld接收的线缆id之间的对应关系,判断当前线缆是否按照用户所需的gpu拓扑进行连接。

在本发明实施例提供的上述gpu拓扑连接检测装置中,通过拨码开关可以实现根据不同用户选定不同的gpu拓扑并将配置的gpu拓扑发送给cpld,cpld可以在gpu服务器插上电源的瞬间自动检查线缆是否按照用户所需的gpu拓扑进行连接,操作简单,工作效率高。

在具体实施时,在本发明实施例提供的上述gpu拓扑连接检测装置中,cpld,具体可以用于将拨码开关发送的gpu拓扑的配置与当前线缆发送的线缆id进行对比;若对比结果与预先建立的对应关系不匹配,确定线缆连接错误,同时将连接错误的线缆对应的警示灯点亮,以提醒相关人员更换线缆;若对比结果与预先建立的对应关系匹配,确定线缆连接正确。

进一步地,在具体实施时,在本发明实施例提供的上述gpu拓扑连接检测装置中,cpld,还可以用于当未调节拨码开关时,在开机的瞬间,将当前线缆对应的警示灯全部点亮且闪烁,以提醒相关人员未配置gpu拓扑。

关于上述部件更加具体的工作过程可以参考前述实施例公开的相应内容,在此不再进行赘述。

相应的,本发明实施例还公开了一种gpu拓扑连接检测设备,包括处理器和存储器;其中,处理器执行存储器中保存的计算机程序时实现前述实施例公开的gpu拓扑连接检测方法。

关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。

进一步的,本发明还公开了一种计算机可读存储介质,用于存储计算机程序;计算机程序被处理器执行时实现前述公开的gpu拓扑连接检测方法。

关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备、存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

本发明实施例提供的一种gpu拓扑连接检测方法、装置、设备及存储介质,包括:在gpu服务器中增设cpld和与cpld连接的拨码开关;通过调节拨码开关来选定用户所需的gpu拓扑的配置并发送至cpld;在接上电源后无需开机,通过cpld根据预先建立的不同gpu拓扑与cpld接收的线缆id之间的对应关系,判断当前线缆是否按照用户所需的gpu拓扑进行连接。这样通过增设的拨码开关可以实现根据不同用户选定不同的gpu拓扑并将配置的gpu拓扑发送给cpld,cpld可以在gpu服务器插上电源的瞬间判断配置的gpu拓扑与实际的线缆接法是否匹配,进而自动检查线缆是否按照用户所需的gpu拓扑进行连接,由于不需要开机进入系统,只需要插上电源就可以检查出线缆是否接错,操作简单易行,提高了工作效率。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的gpu拓扑连接检测方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1