PCIe设备的异常检测设备、系统、服务器、方法与流程

文档序号:37310722发布日期:2024-03-13 20:59阅读:45来源:国知局
PCIe设备的异常检测设备、系统、服务器、方法与流程

本技术实施例涉及计算机领域,具体而言,涉及一种pcie设备的异常检测设备、系统、服务器、方法。


背景技术:

1、随着数字经济的发展,作为数字经济基础设施的数据中心规模越来越大,部分大型数据中心的服务器规模甚至达到了百万台量级,在如此大的规模下,哪怕是极小故障,发生的故障总量也是惊人的,给数据中心的运维造成极大挑战。pcie设备在服务器的故障中占比比较高。现有技术中主要是通过bmc+bios的方式进行pcie设备的异常诊断。或者bmc通过带外的方式直接读取pcie设备的日志,来获取pcie设备异常时的异常信息。但bmc本身性能和存储能力的不足、i2c总线轮询的时效差,会导致pcie设备在异常时无法实时在线捕捉到故障现场的运行信息,导致确定异常问题的时间长、准确率低的问题。


技术实现思路

1、本技术实施例提供了一种pcie设备的异常检测设备、系统、服务器、方法,以至少解决相关技术中无法实时获取pcie设备异常时的异常信息,导致确定异常问题的时间长、准确率低的问题。

2、根据本技术的一个实施例,提供了一种pcie设备的异常检测设备,包括:处理芯片和存储设备,其中,上述处理芯片允许通过多种类型的接口与pcie设备和cpu连接,上述处理芯片用于在上述pcie设备出现异常时,通过第一uart接口获取上述pcie设备的运行信息,并基于上述运行信息检测上述pcie设备的异常,通过第一usb接口将上述运行信息和异常检测结果传输至上述cpu,其中,上述pcie设备为支持pcie链路连接的设备,上述pcie设备通过上述pcie链路与上述cpu连接;上述处理芯片和上述pcie设备中的协议分析仪连接,其中,上述协议分析仪,用于检测上述pcie设备的上下行链路中传输的数据包,并在上述上下行链路中传输上述数据包的过程中出现异常的情况下,获取上述上下行链路传输上述数据包的链路追踪信息,上述运行信息中包括上述链路追踪信息;上述存储设备与上述处理芯片连接,用于存储上述运行信息和上述异常检测结果。

3、在一个示例性实施例中,在上述异常检测设备设置在服务器之内时,上述处理芯片通过第二usb接口或者i2c接口与bmc连接,其中,在上述处理芯片通过上述i2c接口与上述bmc连接时,上述处理芯片用于通过上述i2c接口将上述运行信息和上述异常检测结果发送至上述bmc;在上述处理芯片通过上述第二usb接口与上述bmc连接时,上述处理芯片用于通过上述第二usb接口将上述运行信息和上述异常检测结果发送至上述bmc。

4、在一个示例性实施例中,在上述异常检测设备设置在服务器之内时,上述处理芯片通过第二uart接口与bmc连接,其中,上述处理芯片,用于通过上述第二uart接口接收上述bmc发送的通信指令,并响应上述通信指令,建立上述pcie设备与上位机之间的通信,上述上位机用于获取上述运行信息和上述异常检测结果;或者,上述处理芯片,用于将上述运行信息和上述异常检测结果通过上述bmc发送至上述上位机。

5、在一个示例性实施例中,上述处理芯片,还用于标注获取的样本运行信息中的异常原因,得到异常样本数据集,并利用上述异常样本数据集训练得到异常分析模型,其中,上述异常分析模型设置在上述处理芯片中,上述异常分析模型用于基于上述运行信息预测上述pcie设备的异常并生成告警信息。

6、在一个示例性实施例中,上述处理芯片,还用于接收bmc发送的异常中断指令,并响应上述异常中断指令,通过上述第一uart接口获取上述链路追踪信息。

7、在一个示例性实施例中,在上述异常检测设备设置在服务器之外时,上述处理芯片通过phy芯片与上位机连接,以将上述运行信息和上述异常检测结果发送至上述上位机。

8、在一个示例性实施例中,上述处理芯片以虚拟设备的形式显示在操作系统中,上述处理芯片允许在上述操作系统中通过上述虚拟设备对上述运行信息和上述异常检测结果进行读取。

9、在一个示例性实施例中,在上述存储设备包括多个时,多个上述存储设备通过上述处理芯片组成磁盘阵列,多个上述存储设备中包括主用存储设备和备用存储设备。

10、根据本技术的一个实施例,提供了一种pcie设备的异常检测系统,包括异常检测设备和pcie设备,其中,上述异常检测设备上部署了处理芯片和存储设备,上述处理芯片中包括多种类型的接口;上述多种类型的接口中的第一uart接口用于连接上述pcie设备,上述多种类型的接口中的第一usb接口用于连接cpu,其中,上述pcie设备为支持pcie链路连接的设备,上述pcie设备通过上述pcie链路与上述cpu连接;上述处理芯片,用于在上述pcie设备出现异常时,获取上述pcie设备的运行信息,并基于上述运行信息检测上述pcie设备的异常,将上述运行信息和异常检测结果传输至上述cpu;上述pcie设备中包括协议分析仪,其中,上述协议分析仪,用于检测上述pcie设备的上下行链路中传输的数据包,并在上述上下行链路中传输上述数据包的过程中出现异常的情况下,获取上述上下行链路传输上述数据包的链路追踪信息,上述运行信息中包括上述链路追踪信息;上述存储设备与上述处理芯片连接,用于存储上述运行信息和上述异常检测结果。

11、在一个示例性实施例中,上述系统还包括:bmc,其中,上述bmc通过第二usb接口或者i2c接口与上述处理芯片连接,其中,在上述bmc通过上述i2c接口与上述处理芯片连接时,上述bmc用于通过上述i2c接口从上述处理芯片读取上述运行信息和上述异常检测结果,在上述bmc通过上述第二usb接口与上述处理芯片连接时,上述bmc用于通过上述第二usb接口从上述处理芯片读取上述运行信息和上述异常检测结果。

12、在一个示例性实施例中,上述系统还包括:上位机,其中,上述上位机通过bmc与上述处理芯片连接,用于通过上述bmc读取上述运行信息和上述异常检测结果。

13、在一个示例性实施例中,上述系统还包括:phy芯片,其中,上述phy芯片与上位机连接,用于将上述运行信息和上述异常检测结果发送至上述上位机。

14、在一个示例性实施例中,上述pcie设备中包括协议分析仪,其中,上述协议分析仪,用于检测上述pcie设备的上下行链路中传输的数据包,并在上述上下行链路中传输上述数据包的过程中出现异常的情况下,获取上述上下行链路传输上述数据包的链路追踪信息,上述运行信息中包括上述链路追踪信息。

15、根据本技术的一个实施例,提供了一种服务器,包括上述的pcie设备的异常检测系统。

16、根据本技术的一个实施例,提供了一种pcie设备的异常检测方法,包括:在pcie设备出现异常时,通过第一uart接口获取上述pcie设备的运行信息,其中,上述pcie设备为支持pcie链路连接的设备,上述pcie设备通过上述pcie链路与cpu连接,上述pcie设备中包括协议分析仪,其中,上述协议分析仪,用于检测上述pcie设备的上下行链路中传输的数据包,并在上述上下行链路中传输上述数据包的过程中出现异常的情况下,获取上述上下行链路传输上述数据包的链路追踪信息,上述运行信息中包括上述链路追踪信息;基于上述运行信息检测上述pcie设备的异常;通过第一usb接口将上述运行信息和异常检测结果传输至上述cpu。

17、在一个示例性实施例中,在pcie设备出现异常时,通过第一uart接口获取上述pcie设备的运行信息,包括:通过上述pcie设备中的协议分析仪获取链路追踪信息,得到上述运行信息,其中,上述协议分析仪用于检测上述pcie设备的上下行链路中传输的数据包,并在上述上下行链路中传输上述数据包的过程中出现异常的情况下,获取上述上下行链路传输上述数据包的链路追踪信息;或者,接收bmc发送的异常中断指令,并响应上述异常中断指令,通过上述第一uart接口获取上述运行信息。

18、在一个示例性实施例中,基于上述运行信息检测上述pcie设备的异常,包括:将上述运行信息输入至异常分析模型,得到上述异常分析模型输出的上述pcie设备的异常,其中,上述异常分析模型是基于异常样本数据集训练得到的模型,上述异常样本数据集是通过标注样本运行信息中的异常原因得到的数据集。

19、根据本技术的另一个实施例,提供了一种pcie设备的异常检测装置,包括:第一获取模块,用于在pcie设备出现异常时,通过第一uart接口获取上述pcie设备的运行信息,其中,上述pcie设备为支持pcie链路连接的设备,上述pcie设备通过上述pcie链路与cpu连接,上述pcie设备中包括协议分析仪,其中,上述协议分析仪,用于检测上述pcie设备的上下行链路中传输的数据包,并在上述上下行链路中传输上述数据包的过程中出现异常的情况下,获取上述上下行链路传输上述数据包的链路追踪信息,上述运行信息中包括上述链路追踪信息;第一检测模块,用于基于上述运行信息检测上述pcie设备的异常;第一传输模块,用于通过第一usb接口将上述运行信息和异常检测结果传输至上述cpu。

20、根据本技术的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

21、根据本技术的又一个实施例,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

22、通过本技术,由于异常检测设备是独立于bmc的设备,主要包括处理芯片,处理芯片允许通过多种类型的接口与pcie设备和cpu连接,在pcie设备出现异常时,通过第一uart接口获取pcie设备的运行信息,并基于运行信息检测pcie设备的异常,通过第一usb接口将运行信息和异常检测结果传输至cpu,并通过存储设备存储运行信息和异常检测结果,并且,pcie设备中包括协议分析仪用于检测pcie设备的上下行链路中传输的数据包,并在上下行链路中传输数据包的过程中出现异常的情况下,获取上下行链路传输数据包的链路追踪信息,运行信息中包括链路追踪信息。并不依赖bmc的性能和存储能力,可以在pcie设备出现异常时,实时获取异常时刻的pcie设备的全部运行信息。因此,可以解决相关技术中无法实时获取pcie设备异常时的异常信息,导致确定异常问题的时间长、准确率低的问题,达到实时获取pcie设备异常时的异常信息,减少确定异常问题的时间、提高确定异常的准确率的效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1