一种PCI-E链路问题处理方法、装置、设备及介质与流程

文档序号:37342108发布日期:2024-03-18 18:13阅读:11来源:国知局
一种PCI-E链路问题处理方法、装置、设备及介质与流程

本发明涉及故障检测,特别涉及一种pci-e链路问题处理方法、装置、设备及介质。


背景技术:

1、nvme(non-volatile memory express,非易失性内存主机控制器接口规范)ssd(solid state drives,固态硬盘)在用户研发测试版本测试、整机组装生产线、日常业务使用过程中,经常会出现pci-e(pci-express,peripheral component interconnectexpress,一种高速串行计算机扩展总线标准)相关异常问题,比如丢盘、降lane(数据通路)、某次上电启动不识别盘的情况。其中有些是firmware(固件,fw)在某些特定场合下会发生某种异常动作(事件)导致;还有一些是由于盘端的u.2(一种接口规范)链接器与背板链接器、slimline(一种信号传输接口)等硬件链接异常问题导致;当然nvme盘端的本身硬件设计缺陷因素也会导致pci-e相关链路质量的稳定性及可靠性异常。

2、当前进行pci-e链路问题检测时,需要针对每个nvme ssd的链路质量都进行检测,但是由于检测手段的多样化往往不能快速定位到问题原因,由此耗费了大量人力及时间成本。

3、因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种pci-e链路问题处理方法、装置、设备及介质,能够采用一套标准的方法批量针对nvme ssd的pci-e链路进行检测,提前发现问题。这样在出现问题时能够更快地定位到问题原因,节省大量人力及时间成本。其具体方案如下:

2、第一方面,本技术公开了一种pci-e链路问题处理方法,应用于nvme固态硬盘,包括:

3、获取预先编写的shell脚本并执行所述shell脚本以判断针对所述nvme固态硬盘是否出现检查错误事件;

4、如果出现所述检查错误事件,则确定与所述检查错误事件对应的当前pci-e链路问题的异常类型,并根据所述异常类型确定针对所述当前pci-e链路问题的问题处理策略;其中,所述异常类型包括用于表征当前pci-e链路出现数据通路降低的第一异常类型、用于表征所述nvme固态硬盘的当前传输速率低于对应的规范设计传输速率的第二异常类型、用于表征仅识别pci-e设备的第三异常类型以及用于表征所有设备均不识别的第四异常类型;

5、基于所述问题处理策略定位所述当前pci-e链路问题的问题原因,以便根据所述问题原因对所述当前pci-e链路问题进行相应的处理。

6、可选的,所述获取预先编写的shell脚本并执行所述shell脚本以判断针对所述nvme固态硬盘是否出现检查错误事件,包括:

7、获取预先编写的shell脚本并将所述shell脚本拷贝到测试服务器的目标文件位置进行解压;

8、基于所述目标文件位置在解压后的所述shell脚本中为终端赋予操作权限,以便所述终端根据所述操作权限执行所述shell脚本,并通过所述shell脚本的执行结果判断针对所述nvme固态硬盘是否出现检查错误事件。

9、可选的,所述基于所述目标文件位置在解压后的所述shell脚本中为终端赋予操作权限,以便所述终端根据所述操作权限执行所述shell脚本,并通过所述shell脚本的执行结果判断针对所述nvme固态硬盘是否出现检查错误事件,包括:

10、基于所述目标文件位置在解压后的所述shell脚本中为终端赋予操作权限,以便所述终端根据所述操作权限执行所述shell脚本,并根据所述shell脚本的执行结果获取与所述nvme固态硬盘对应的事件标识;

11、判断所述事件标识的类型,如果所有的所述事件标识的类型均为通过标识,则判定针对所述nvme固态硬盘没有出现所述检查错误事件;如果存在任一所述事件标识的类型为失败标识,则判定针对所述nvme固态硬盘出现所述检查错误事件,然后确定导致所述事件标识的类型为所述失败标识的目标nvme固态硬盘。

12、可选的,所述确定与所述检查错误事件对应的当前pci-e链路问题的异常类型,并根据所述异常类型确定针对所述当前pci-e链路问题的问题处理策略,包括:

13、利用所述nvme固态硬盘对应的厂商私有驱动器管理工具或带内眼图工具获取所述nvme固态硬盘的第一电子眼图;

14、如果所述当前pci-e链路问题为所述第一异常类型,则根据所述第一电子眼图确定针对所述第一异常类型的第一问题处理策略;所述第一问题处理策略为根据所述第一电子眼图定位所述数据通路降低的问题原因的问题处理策略;

15、相应的,所述基于所述问题处理策略定位所述当前pci-e链路问题的问题原因,以便根据所述问题原因对所述当前pci-e链路问题进行相应的处理,包括:

16、基于所述第一问题处理策略,判断当前查看的所述第一电子眼图是否存在异常;

17、如果当前查看的所述第一电子眼图不存在异常,则定位所述数据通路降低的问题原因为固件漏洞,然后针对所述固件漏洞使用所述nvme固态硬盘对应的厂商日志收集工具收集所述nvme固态硬盘的日志信息;

18、如果当前查看的所述第一电子眼图存在异常,则重新与所述nvme固态硬盘建立链接并监测所述第一电子眼图是否恢复正常;

19、当所述第一电子眼图恢复正常时,定位所述数据通路降低的问题原因为所述固件漏洞,并执行所述针对所述固件漏洞使用所述nvme固态硬盘对应的厂商日志收集工具收集所述nvme固态硬盘的日志信息的步骤;

20、当所述第一电子眼图没有恢复正常时,通过插拔所述nvme固态硬盘或对所述nvme固态硬盘进行交叉验证以定位所述数据通路降低的问题原因。

21、可选的,所述确定与所述检查错误事件对应的当前pci-e链路问题的异常类型,并根据所述异常类型确定针对所述当前pci-e链路问题的问题处理策略,包括:

22、通过所述shell脚本获取所述nvme固态硬盘的当前传输速率;

23、如果所述当前pci-e链路问题为所述第二异常类型,则根据所述当前传输速率确定针对所述第二异常类型的第二问题处理策略;所述第二问题处理策略为定位所述当前传输速率低于对应的规范设计传输速率的问题原因的问题处理策略;

24、相应的,所述基于所述问题处理策略定位所述当前pci-e链路问题的问题原因,以便根据所述问题原因对所述当前pci-e链路问题进行相应的处理,包括:

25、基于所述第二问题处理策略,判断所述当前传输速率是否与所述nvme固态硬盘的当前执行环境相匹配;

26、如果所述当前传输速率与所述nvme固态硬盘的当前执行环境不匹配,则定位所述当前传输速率低于对应的规范设计传输速率的问题原因为环境不匹配;

27、如果所述当前传输速率与所述nvme固态硬盘的当前执行环境匹配,则利用所述nvme固态硬盘对应的厂商私有驱动器管理工具或带内眼图工具获取所述nvme固态硬盘的第二电子眼图;

28、判断当前查看的所述第二电子眼图是否存在异常;

29、如果当前查看的所述第二电子眼图不存在异常,则定位所述当前传输速率低于对应的规范设计传输速率的问题原因为固件漏洞,并针对所述固件漏洞使用所述nvme固态硬盘对应的厂商日志收集工具收集所述nvme固态硬盘的日志信息;

30、如果当前查看的所述第二电子眼图存在异常,则重新与所述nvme固态硬盘建立链接并监测所述第二电子眼图是否恢复正常;

31、当所述第二电子眼图恢复正常时,定位所述当前传输速率低于对应的规范设计传输速率的问题原因为所述固件漏洞,然后执行所述针对所述固件漏洞使用所述nvme固态硬盘对应的厂商日志收集工具收集所述nvme固态硬盘的日志信息的步骤;

32、当所述第二电子眼图没有恢复正常时,通过插拔所述nvme固态硬盘或对所述nvme固态硬盘进行交叉验证以定位所述当前传输速率低于对应的规范设计传输速率的问题原因。

33、可选的,所述确定与所述检查错误事件对应的当前pci-e链路问题的异常类型,并根据所述异常类型确定针对所述当前pci-e链路问题的问题处理策略,包括:

34、如果所述当前pci-e链路问题为所述第三异常类型,则确定针对所述第三异常类型的第三问题处理策略;所述第三问题处理策略为定位所述仅识别pci-e设备的问题原因的问题处理策略;

35、相应的,所述基于所述问题处理策略定位所述当前pci-e链路问题的问题原因,以便根据所述问题原因对所述当前pci-e链路问题进行相应的处理,包括:

36、基于所述第三问题处理策略,对所述仅识别pci-e设备的场景进行复现,并收集复现场景下的第一目标数据信息;

37、通过插拔所述nvme固态硬盘监测所述仅识别pci-e设备的问题是否消失,如果所述仅识别pci-e设备的问题消失,则定位所述仅识别pci-e设备的问题原因为丢盘;如果所述仅识别pci-e设备的问题不消失,则打包所述第一目标数据信息并将所述第一目标数据信息发送至厂商端以定位所述仅识别pci-e设备的问题原因。

38、可选的,所述确定与所述检查错误事件对应的当前pci-e链路问题的异常类型,并根据所述异常类型确定针对所述当前pci-e链路问题的问题处理策略,包括:

39、如果所述当前pci-e链路问题为所述第四异常类型,则确定针对所述第四异常类型的第四问题处理策略;所述第四问题处理策略为定位所述所有设备均不识别的问题原因的问题处理策略;

40、相应的,所述基于所述问题处理策略定位所述当前pci-e链路问题的问题原因,以便根据所述问题原因对所述当前pci-e链路问题进行相应的处理,包括:

41、基于所述第四问题处理策略,判断服务器背板电源以及所述nvme固态硬盘的盘端电源是否供电正常;

42、如果所述服务器背板电源以及所述nvme固态硬盘的盘端电源供电正常,则对所述所有设备均不识别的场景进行复现,并收集复现场景下的第二目标数据信息;

43、通过插拔所述nvme固态硬盘监测所述仅识别pci-e设备的问题是否消失,如果所述所有设备均不识别的问题消失,则定位所述所有设备均不识别的问题原因为链接虚接;如果所述所有设备均不识别的问题不消失,则查看服务器是否支持热插拔;

44、如果所述服务器不支持热插拔,则定位所述所有设备均不识别的问题原因为所述服务器不支持热插拔;如果所述服务器支持热插拔,则定位所述所有设备均不识别的问题原因为所述nvme固态硬盘的盘端硬件异常,并打包所述第二目标数据信息并将所述第二目标数据信息发送至厂商端以定位所述所有设备均不识别的问题原因。

45、第二方面,本技术公开了一种pci-e链路问题处理装置,应用于nvme固态硬盘,包括:

46、shell脚本执行模块,用于获取预先编写的shell脚本并执行所述shell脚本以判断针对所述nvme固态硬盘是否出现检查错误事件;

47、处理策略确定模块,用于如果出现所述检查错误事件,则确定与所述检查错误事件对应的当前pci-e链路问题的异常类型,并根据所述异常类型确定针对所述当前pci-e链路问题的问题处理策略;其中,所述异常类型包括用于表征当前pci-e链路出现数据通路降低的第一异常类型、用于表征所述nvme固态硬盘的当前传输速率低于对应的规范设计传输速率的第二异常类型、用于表征仅识别pci-e设备的第三异常类型以及用于表征所有设备均不识别的第四异常类型;

48、问题原因定位模块,用于基于所述问题处理策略定位所述当前pci-e链路问题的问题原因,以便根据所述问题原因对所述当前pci-e链路问题进行相应的处理。

49、第三方面,本技术公开了一种电子设备,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如前所述的pci-e链路问题处理方法。

50、第四方面,本技术公开了一种计算机可读存储介质,用于存储计算机程序;其中所述计算机程序被处理器执行时实现如前所述的pci-e链路问题处理方法。

51、本技术提供了一种pci-e链路问题处理方法,应用于nvme固态硬盘,包括:获取预先编写的shell脚本并执行所述shell脚本以判断针对所述nvme固态硬盘是否出现检查错误事件;如果出现所述检查错误事件,则确定与所述检查错误事件对应的当前pci-e链路问题的异常类型,并根据所述异常类型确定针对所述当前pci-e链路问题的问题处理策略;其中,所述异常类型包括用于表征当前pci-e链路出现数据通路降低的第一异常类型、用于表征所述nvme固态硬盘的当前传输速率低于对应的规范设计传输速率的第二异常类型、用于表征仅识别pci-e设备的第三异常类型以及用于表征所有设备均不识别的第四异常类型;基于所述问题处理策略定位所述当前pci-e链路问题的问题原因,以便根据所述问题原因对所述当前pci-e链路问题进行相应的处理。

52、本技术的有益技术效果为:首先通过执行预先编写的shell脚本进行普适性的初步检查,可实现批量nvme固态硬盘的数据自动化收集,判断针对nvme固态硬盘是否出现检查错误事件,节省人力、提高漏洞定位效率。其次,如果针对nvme固态硬盘出现检查错误事件,本技术针对检查错误事件对应的pci-e链路问题进行充分的总结,划分为不同情况下的四种异常类型。每种异常类型都对应了pci-e链路问题的问题处理策略。根据问题处理策略定位pci-e链路问题的问题原因,然后对其进行相应的处理。如此一来,能够在出现问题时更快的定位到问题原因,节省大量人力及时间成本,更容易发现固件及硬件设计漏洞。越早发现漏洞,越能节约产品开发的成本。

53、此外,本技术提供的一种pci-e链路问题处理装置、设备及存储介质,与上述pci-e链路问题处理方法对应,效果同上。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1