一种图形处理器模组异常检测方法及电子设备与流程

文档序号:43465014发布日期:2025-10-21 23:14阅读:24来源:国知局

本申请涉及计算机,特别涉及一种图形处理器模组异常检测方法及电子设备。


背景技术:

1、当前,在服务器生产过程中对gpu(图形处理器,graphics processing unit)的检测依赖上电后的bios(basic input output system,基本输入输出系统)自检或操作系统识别,这种方式存在故障定位模糊的缺陷,仅能反馈gpu缺失类的笼统错误,无法定位具体的故障点,从而导致单次故障返工耗时较长,使得产线效率损失显著。并且,还存在以下缺点:①依赖上电检测:需服务器通电后才能启动检测流程,导致检测周期长、硬件损耗高;②无法预判未识别到的gpu的故障:传统bios自检仅能反馈已识别到的gpu的故障,无法在组装阶段前发现接触不良或插槽故障;③缺乏非侵入式检测手段:当前方案多需修改固件或依赖操作系统,难以在生产线上实现快速部署。


技术实现思路

1、有鉴于此,本申请的目的在于提供一种图形处理器模组异常检测方法及电子设备,能够在服务器下电的状态下进行处理器模组的异常检测,并且,可以提前发现处理器模组未识别问题,减少生产线拆机返工次数,从而降低了返工率,并避免了服务器频繁上电带来的硬件损耗,降低了服务器生命周期内的维护成本,同时,解决了服务器生产环节中因gpu模组单体异常导致的生产受阻,避免了上电后返工,从而提升了模组异常检测效率。其具体方案如下:

2、第一方面,本申请公开了一种图形处理器模组异常检测方法,应用于外置于目标服务器,且集成有用于供电的电源管理组件的检测设备,包括:

3、当检测到目标调试接口接入时,通过目标调试接口向目标服务器中的管理控制器发送初始化指令,以激活与管理控制器中的多路复用器连接的接口通道;目标调试接口为位于目标服务器的主板上的管理控制器的调试接口;

4、当接收到管理控制器返回的确认响应时,向管理控制器发送预设格式的接口指令,以通过接口通道读取位于目标图形处理器模组中的各图形处理器内的寄存器中的数据,得到寄存器数据,并将寄存器数据发送至检测设备;

5、对寄存器数据中的关键字段进行解析,得到各关键字段对应的目标字段值,并将目标字段值与预设字段值进行比对,得到比对结果;预设字段值为预设目标映射中的相应字段的字段值,预设目标映射用于记录不同类型图形处理器模组以及相应的异常相关信息;

6、若比对结果表明关键字段对应的目标字段值与预设目标映射中相应字段对应的值不一致,则判定目标图形处理器模组中的相应图形处理器存在异常。

7、第二方面,本申请公开了一种电子设备,包括处理器和存储器;其中,处理器执行存储器中保存的计算机程序时实现前述的图形处理器模组异常检测方法。

8、本申请预先创建了一个外置于目标服务器,且集成有用于供电的电源管理组件的检测设备,通过该检测设备可以在检测到与服务器主板上管理控制器连接的目标调试接口接入时,通过该接口向管理控制器发送初始化指令,从而激活与管理控制器中的多路复用器连接的接口通道,以通过该接口通道访问图形处理器模组中各个寄存器中的数据,然后将寄存器数据中的关键字段对应的字段值与预设目标映射中的相应字段值进行一致性比对,最后根据比对结果以及寄存器数据中的位置信息确定模组中的相应图形处理器是否存在异常。由于该外置的检测设备能够提供电源,因此可以在服务器下电的状态下进行处理器模组的异常检测,即无需服务器通电,从而不依赖服务器上电,并且,可以提前发现处理器模组未识别问题,减少生产线拆机返工次数,从而降低了返工率;另外,采用了非侵入式的检测方式,无需修改固件且不依赖操作系统,因此避免了服务器频繁上电带来的硬件损耗,并降低了服务器生命周期内的维护成本,同时,基于位置信息可以准确的定位到出现异常的单个gpu,从而解决了服务器生产环节中因单体异常导致的生产受阻,避免了上电后返工,从而提升了模组异常检测效率。



技术特征:

1.一种图形处理器模组异常检测方法,其特征在于,应用于外置于目标服务器,且集成有用于供电的电源管理组件的检测设备,包括:

2.根据权利要求1所述的图形处理器模组异常检测方法,其特征在于,所述通过所述目标调试接口向所述目标服务器中的管理控制器发送初始化指令,以激活与所述管理控制器中的多路复用器连接的接口通道,包括:

3.根据权利要求2所述的图形处理器模组异常检测方法,其特征在于,所述检测设备中包括接口探头、隔离保护电路;

4.根据权利要求3所述的图形处理器模组异常检测方法,其特征在于,所述检测设备中还包括主控制器和协议转换组件;

5.根据权利要求1所述的图形处理器模组异常检测方法,其特征在于,所述关键字段包括模组标识符字段、硬件健康状态字段、错误计数器字段、子设备标识符字段以及温度警告状态字段中的任意一种或多种。

6.根据权利要求5所述的图形处理器模组异常检测方法,其特征在于,所述将解析到的目标字段值与预设字段值进行比对,得到比对结果,包括:

7.根据权利要求1所述的图形处理器模组异常检测方法,其特征在于,还包括:

8.根据权利要求7所述的图形处理器模组异常检测方法,其特征在于,所述基于所述位置信息判定所述目标图形处理器模组中的相应图形处理器存在异常之后,还包括:

9.根据权利要求1至8任一项所述的图形处理器模组异常检测方法,其特征在于,还包括:

10.一种电子设备,其特征在于,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至9任一项所述的图形处理器模组异常检测方法。


技术总结
本申请公开了一种图形处理器模组异常检测方法及电子设备,涉及计算机技术领域,应用于外置于服务器,且集成有用于供电的电源管理组件的检测设备,包括:在检测到与服务器主板上管理控制器连接的调试接口接入时,向管理控制器发送初始化指令,以激活与管理控制器中的多路复用器连接的接口通道,并通过该接口通道访问模组中各个寄存器内的数据,然后将寄存器数据中的关键字段对应的字段值与预设目标映射中的相应字段值进行比对,并根据比对结果以及位置信息判定图形处理器是否存在异常。通过外置的检测设备能够在服务器下电的状态下进行异常检测,从而降低了返工率,并避免了硬件损耗,同时提升了模组异常检测效率,并实现了故障的精准定位。

技术研发人员:柴小明,路明远,冯其涛
受保护的技术使用者:苏州元脑智能科技有限公司
技术研发日:
技术公布日:2025/10/20
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1