PCIe终端设备错误记录方法、装置、电子设备及介质与流程

文档序号:37553233发布日期:2024-04-08 14:04阅读:12来源:国知局
PCIe终端设备错误记录方法、装置、电子设备及介质与流程

本发明涉及计算机,尤其涉及一种pcie终端设备错误记录方法、装置、电子设备及介质。


背景技术:

1、随着时代进步,网路通讯的架构越来越庞大,系统也越来越大且精密。在系统架构配置上,为了保有最佳的系统性能以及高稳定性需要对现有架构做扩充。一般的系统会使用pcie交换芯片做pcie的扩展,进而提供更多的io接口使用,而多种io接口的使用会面临空间不足且板卡需要大量扩充的窘境。即便达到了扩充,如何在系统出错时及时地作判断并及置报错信息是目前开发过程很大的难题。

2、目前,现有pcie终端设备错误记录大多是通过南桥(platform controller hub,简称pch)相关的存储器,汇报给基板管理控制器(baseboard management controller),简称bmc或者os(operating system)再填写至使用者观看的健康日志与os相关日志中。然而,现有的pcie错误记录方式存在以下两类问题:第一类问题是统日志资料较为简洁,无法准确的定位到对应的问题,运维人员或者使用者可能在维修上会花费较多的时间,造成交付件的效率不佳;第二类问题是该系统遇到宕机、突然断电、重启等问题,可能导致系统报错的pcie问题没有即刻被保留,这将导致研发人员与维修人员难以定位问题以及排除问题。


技术实现思路

1、本发明提供一种pcie终端设备错误记录方法、装置、电子设备及介质,用以解决现有技术中的pcie错误信息记录不全的缺陷,实现更全面、详细记录pcie终端设备错误数据。

2、根本发明的第一方面,本发明提供一种pcie终端设备错误记录方法,所述方法包括:

3、利用pcie交换芯片对中央处理器的pcie链路进行扩展,得到多路pcie扩展链路;

4、在至少一个pcie终端设备连接到所述多路pcie扩展链路的任意一路上的情况下,持续检测pcie终端设备是否发生错误;

5、响应于检测到任一pcie终端设备发生错误,则从所述pcie交换芯片的第一寄存器中读取与错误相关的第一错误数据;

6、将读取到的第一错误数据写入非易失性存储器中。

7、在一些可能的实施方式中,所述方法还包括:

8、响应于检测到任一pcie终端设备发生错误,则从所述中央处理器的第二寄存器中读取与错误相关的第二错误数据;

9、将读取到的所述第二错误数据通过smi协议发送给基本输入输出系统;

10、由所述基本输入输出系统通过sci协议将接收到的所述第二错误数据记录在操作系统的中。

11、在一些可能的实施方式中,所述方法还包:

12、对所述第一错误数据和所述第二错误数据进行汇总,得到汇总错误数据;

13、将所述汇总数据发送给基板管理控制器;

14、基板管理控制器将所述汇总错误数据推送给用户。

15、在一些可能的实施方式中,所述第一寄存器中包括中央处理器的pcie链路的发送错误信息和接收错误信息,所述第二寄存器中包括pcie交换芯片的各会让pcie扩展链路的发送错误信息和接收错误信息;

16、所述对所述第一错误数据和所述第二错误数据进行汇总,得到汇总错误数据的步骤包括:

17、响应于所述第一错误数据中存在中央处理器的pcie链路的发送错误信息,则判断所述第二错误数据中是否存在pcie扩展链路的发送错误信息;

18、响应于所述第二错误数据中存在pcie扩展链路的发送错误信息,则过滤掉所述第一错误数据中存在中央处理器的pcie链路的发送错误信息和所述第二错误数据中存在pcie扩展链路的发送错误信息中的重复信息,得到第一过滤数据;

19、响应于所述第一错误数据中存在中央处理器的pcie链路的接收错误信息,则判断所述第二错误数据中是否存在pcie扩展链路的接收错误信息;

20、响应于所述第二错误数据中存在pcie扩展链路的接收错误信息,则过滤掉所述第一错误数据中存在中央处理器的pcie链路的接收错误信息和所述第二错误数据中存在pcie扩展链路的接收错误信息中的重复信息,得到第二过滤数据;

21、整合所述第一过滤数据和所述第二过滤后数据,得到所述汇总错误数据。

22、在一些可能的实施方式中,触发执行对所述第一错误数据和所述第二错误数据进行汇总步骤的条件包括:用户通过bmc发出汇总命令或者产生新的第二错误数据。

23、在一些可能的实施方式中,所述利用pcie交换芯片对中央处理器的pcie链路进行扩展,得到多路pcie扩展链路,包括:

24、将中央处理器至少一条pcie链路通过pcie x16金手指连接到所述pcie交换芯片的第一接口上;

25、将所述pcie交换芯片的多个第二接口分别连接到两个mcio x8连接器上;

26、遍历所有所述第二接口,将连接到相同第二接口的两个mcio x8连接器组合为一路,得到与每个第二接口对应的pcie扩展链路。

27、在一些可能的实施方式中,所述将读取到的第一错误数据写入非易失性存储器中的步骤,包括:

28、获取所述非易失性存储器当前未使用的存储空间,得到剩余存储容量;

29、判断所述剩余存储容量是否大于等于所述第一错误数据的容量;

30、响应于所述剩余存储容量大于等于所述第一错误数据的容量,则将所述第一错误数据写入所述非易失性存储器当前未使用的存储空间中;

31、响应于所述剩余存储容量小于所述第一错误数据的容量,则将所述第一错误数据的一部分写入当前未使用的存储空间中,以及将所述第一错误数的据剩余部分以覆盖写的方式写入所述述非易失性存储器当前已使用的存储空间中。

32、根据本发明的第二方面,本发明还提供一种pcie终端设备错误记录装置,所述装置包括:

33、扩展模块,用于利用pcie交换芯片对中央处理器的pcie链路进行扩展,得到多路pcie扩展链路;

34、检测模块,用于在至少一个pcie终端设备连接到所述多路pcie扩展链路的任意一路上的情况下,持续检测pcie终端设备是否发生错误;

35、读取模块,用于响应于检测到任一pcie终端设备发生错误,则从所述pcie交换芯片的第一寄存器中读取与错误相关的第一错误数据;

36、写入模块,用于将读取到的第一错误数据写入非易失性存储器中。

37、根据本发明的第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述pcie终端设备错误记录方法。

38、根据本发明的第三方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述pcie终端设备错误记录方法。

39、本发明提供的一种pcie终端设备错误记录方法,使用pcie交换芯片对中央处理器的pcie链路进行扩展得到多路pcie扩展链路,当检测到任一pcie终端设备发生错误时,将pcie交换芯片的第一寄存器中与错误相关的第一错误数据备份到非易失性存储器中,丰富了pcie终端设备错误记录方式,能够全面记录pcie终端设备错误发生时的相关数据,有助于提升错误分析和定位效率,降低运维难度和成本。

40、此外,本实施例的一种pcie终端设备错误记录装置、一种电子设备和一种非暂态计算机可读存储介质,同样能实现上述技术效果,这里不再赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1