一种告警方法、计算设备及存储介质与流程

文档序号:33767534发布日期:2023-04-18 20:09阅读:36来源:国知局
一种告警方法、计算设备及存储介质与流程

本技术涉及通信领域,尤其涉及一种告警方法、计算设备及存储介质。


背景技术:

1、快速外设组件互连(peripheral component interconnect express,pcie)设备(例如网卡、显卡等设备)作为计算设备的外设设备,可以实现网络连接、图像处理等功能。随着技术的发展,应用场景的多样化,pcie设备的功能也越来越多,内部结构也越来越复杂,这导致pcie设备出现问题的概率也变大。为及时获取并解决pcie设备出现的问题,计算设备需要对pcie设备进行监控管理。

2、传统技术中,当pcie设备在运行过程中出现异常时,通常会在日志中记录事件,例如当前温度60℃。运维人员只能通过设备管理模块主动查询pcie设备的当前工作状态或日志,例如:依次查询pcie设备的传感器参数来获取pcie设备的当前工作状态或日志,并基于所查询到的当前工作状态或日志,确定pcie设备发生异常。该方法效率低下,耗费大量人力资源,对pcie设备的运维带来极大的不便。


技术实现思路

1、本技术提供了一种告警方法、计算设备及存储介质,能够自动生成告警信息并通过cpu系统向设备管理模块上报该告警信息,提高pcie设备的运维效率。

2、为实现上述技术目的,本技术采用如下技术方案:

3、第一方面,本技术提供了一种告警方法,应用于pcie设备,方法包括:生成告警信息,所述告警信息用于指示所述pcie设备发生异常;通过带外管理协议向cpu系统发送告警信息,以便于cpu系统通过带外管理协议向设备管理模块发送告警信息。

4、可以理解的是,该方法中当pcie设备发生异常,自动生成告警信息,并将告警信息发送至cpu系统,使得cpu系统向设备管理模块发送告警信息。可以理解的是,当前pcie设备不存在告警信息上报功能,而且运行在cpu系统中的os没有定义pcie设备的告警接口,因此,即使pcie设备生成告警信息,也不能上报给os。而设备管理模块也只能通过查询pcie设备的传感器参数来获取pcie设备的当前工作状态或日志,并基于所查询到的当前工作状态或日志,确定pcie设备发生异常。本技术提出的方法中,不需要在os中设置接口,只需要pcie设备在生成告警信息后,使用带外管理协议,将告警信息由cpu传递给设备管理模块,改动量较小,实现成本较低。该方法使得运维人员及时获取告警信息,展开相关处理工作,该主动上报告警的方法相比于现有技术中只能通过查询当前工作状态或日志来确定pcie设备是否发生异常的方法而言,能够提高pcie设备运维效率,减少人力资源的浪费。

5、在一种可能的实现方式中,上述pcie设备通过第一接口与cpu系统通信,cpu系统通过第二接口与设备管理模块通信,第一接口与第二接口均遵循带外管理协议,带外管理协议包括pldm over mctp over pcie协议,上述通过带外管理协议向cpu系统发送告警信息,以便于cpu系统通过带外管理协议向设备管理模块发送告警信息,包括:通过第一接口向cpu系统发送第一消息,以便于cpu系统通过第二接口向设备管理模块发送第一消息;其中,第一消息包括告警信息。

6、可以理解的是,带外管理协议中的管理组件传输协议mctp的上层所承载的pldm协议,能够实现本技术中pcie设备告警信息上报给设备管理模块的功能,同时,使用该协议在技术上改动量小,实现成本较低,因此本技术基于pldm协议对其中oem specific数据类型进行功能扩展,发送第一消息以实现告警上报功能,以提高运维效率。

7、在另一种可能的实现方式中,上述第一消息是pldm协议中的oem specific数据类型的异步通知消息,异步通知消息中的pldm数据内容包含告警信息。

8、可以理解的是,本技术使用pldm协议中的oem specific数据类型的异步通知消息来实现告警信息上报的方法,使用现有pldm协议技术,容易实现且成本较低;同时,该消息类型是异步通知消息类型,不需要设备管理模块响应,pcie设备就能够直接向设备管理模块发送告警信息,提高了告警信息发送效率。

9、在另一种可能的实现方式中,上述方法还包括:当异常恢复正常后,生成告警消除信息;向cpu系统发送告警消除信息,以便于cpu系统向设备管理模块发送告警消除信息。

10、可以理解的是,告警消除信息是与告警信息对应的信息,该信息用于及时提醒运维人员异常已经恢复正常,减少运维人员的维护成本。

11、在另一种可能的实现方式中,上述pcie设备通过第一接口与cpu系统通信,cpu系统通过第二接口与设备管理模块通信,第一接口与第二接口均遵循带外管理协议,带外管理协议包括pldm over mctp over pcie协议,上述通过带外管理协议向cpu系统发送告警消除信息,以便于cpu系统通过带外管理协议向设备管理模块发送告警消除信息,包括:通过第一接口向cpu系统发送第二消息,以便于cpu系统通过第二接口向设备管理模块发送第二消息;其中,第二消息包括告警消除信息。

12、可以理解的是,带外管理协议中的管理组件传输协议mctp的上层所承载的pldm协议,能够实现本技术中pcie设备告警信息上报给设备管理模块的功能,同时,使用该协议在技术上改动量小,实现成本较低,因此本技术基于pldm协议对其中oem specific数据类型进行功能扩展,发送第二消息以实现告警上报功能,以提高运维效率。

13、在另一种可能的实现方式中,上述第二消息是pldm协议中的oem specific数据类型的异步通知消息,异步通知消息中的pldm数据内容包含告警消除信息。

14、可以理解的是,本技术使用pldm协议中的oem specific数据类型的异步通知消息来实现告警消除信息上报的方法,使用现有pldm协议技术,容易实现且成本较低;同时,该消息类型是异步通知消息类型,不需要设备管理模块响应,pcie设备就能够直接向设备管理模块发送告警消除信息,提高了告警消除信息发送效率。

15、在另一种可能的实现方式中,pcie设备通过第三接口与cpu系统通信,cpu系统通过第四接口与设备管理模块通信,第三接口与第四接口均遵循带外管理协议,带外管理协议包括nc-si over mctp over pcie协议,上述通过带外管理协议向cpu系统发送告警信息,以便于cpu系统通过带外管理协议向设备管理模块发送告警信息,包括:通过第三接口向cpu系统发送第三消息,以便于cpu系统通过第四接口向设备管理模块发送第三消息;其中,第三消息包括告警信息。

16、可以理解的是,带外管理协议中的管理组件传输协议mctp的上层所承载的nc-si协议,能够实现本技术中pcie设备告警信息上报给设备管理模块的功能,同时,使用该协议在技术上改动量小,实现成本较低。因此本技术通过使用nc-si协议中的oem aen异步事件通知消息来传送pcie设备的告警信息,实现了pcie设备主动上报告警信息的功能,以提高运维效率。

17、在另一种可能的实现方式中,第三消息是nc-si协议中的oem aen异步事件通知消息,异步事件通知消息中的aen数据内容包含告警信息。

18、可以理解的是,本技术使用nc-si协议中的oem aen异步事件通知消息发送告警信息,使用现有nc-si协议技术,容易实现且成本较低;同时,该消息是异步事件通知消息,pcie设备不需先获得设备管理模块的响应,就能够直接向设备管理模块发送告警信息,提高了告警信息的发送效率。

19、在另一种可能的实现方式中,pcie设备通过第三接口与cpu系统通信,cpu系统通过第四接口与设备管理模块通信,第三接口与第四接口均遵循带外管理协议,带外管理协议包括nc-si over mctp over pcie协议,上述通过带外管理协议向cpu系统发送告警消除信息,以便于cpu系统通过带外管理协议向设备管理模块发送告警消除信息,包括:通过第三接口向cpu系统发送第四消息,以便于cpu系统通过第四接口向设备管理模块发送第四消息;其中,第四消息包括告警消除信息。

20、可以理解的是,带外管理协议中的管理组件传输协议mctp的上层所承载的nc-si协议,能够实现本技术中pcie设备告警消除信息上报给设备管理模块的功能,同时,使用该协议在技术上改动量小,实现成本较低。因此本技术通过使用nc-si协议中的oem aen异步事件通知消息来传送pcie设备的告警消除信息,实现了pcie设备主动上报告警消除信息的功能,以提高运维效率。

21、在另一种可能的实现方式中,第四消息是nc-si协议中的oem aen异步事件通知消息,异步事件通知消息中的aen数据内容包含告警消除信息。

22、可以理解的是,本技术使用nc-si协议中的oem aen异步事件通知消息发送告警消除信息,使用现有nc-si协议技术,容易实现且成本较低;同时,该消息是异步事件通知消息,pcie设备不需先获得设备管理模块的响应,就能够直接向设备管理模块发送告警消除信息,提高了告警消除信息的发送效率。

23、在另一种可能的实现方式中,告警信息包括:异常发生的原因和/或异常的严重程度、异常发生的位置和/或异常发生的时间。

24、可以理解的是,在告警信息中设置异常发生的原因、异常的严重程度、异常发生的位置和/或异常发生的时间,有利于运维人员直接感知产生告警的异常的严重程度、异常发生的原因、位置和时间,及时采取对应处理措施。

25、第二方面,本技术实施例提供了一种告警方法,应用于中央处理器cpu系统,方法包括:

26、接收pcie设备发送的告警信息,将告警信息发送至设备管理模块。

27、在一种可能的实现方式中,上述方法还包括:接收pcie设备发送的告警消除信息,将告警消除信息发送至设备管理模块。

28、在一种可能的实现方式中,上述pcie设备通过第一接口与cpu系统通信,cpu系统通过第二接口与设备管理模块通信,第一接口与第二接口均遵循带外管理协议,带外管理协议包括pldm over mctp over pcie协议,上述接收pcie设备发送的告警信息,将告警信息发送至设备管理模块,包括:接收pcie设备通过第一接口发送的告警信息,通过第二接口向设备管理模块发送告警信息。

29、在另一种可能的实现方式中,上述方法还包括:接收pcie设备通过第一接口发送的告警消除信息,通过第二接口向设备管理模块发送告警消除信息。

30、在另一种可能的实现方式中,上述pcie设备通过第三接口与cpu系统通信,cpu系统通过第四接口与设备管理模块通信,第三接口与第四接口均遵循带外管理协议,带外管理协议包括nc-si over mctp over pcie协议,上述接收pcie设备发送的告警信息,将告警信息发送至设备管理模块,包括:接收pcie设备通过第三接口发送的告警信息,通过第四接口向设备管理模块发送告警信息。

31、在另一种可能的实现方式中,上述方法还包括:接收pcie设备通过第三接口发送的告警消除信息,通过第四接口向设备管理模块发送告警消除信息。

32、上述第二方面及其各种实现方式的具体描述,可以参考第一方面及其各种实现方式中的详细描述。

33、第三方面,本技术实施例提供了一种告警方法,应用于设备管理模块,方法包括:接收cpu系统发送的pcie设备的告警信息。

34、在一种可能的实现方式中,接收cpu系统发送的pcie设备的告警消除信息。

35、在另一种可能的实现方式中,上述pcie设备通过第一接口与cpu系统通信,cpu系统通过第二接口与设备管理模块通信,第一接口与第二接口均遵循带外管理协议,带外管理协议包括pldm over mctp over pcie协议,接收cpu系统发送的pcie设备的告警信息,包括:通过第二接口接收cpu系统发送的pcie设备的告警信息。

36、在另一种可能的实现方式中,上述方法还包括:通过第二接口接收cpu系统发送的pcie设备的告警消除信息。

37、在另一种可能的实现方式中,上述pcie设备通过第三接口与cpu系统通信,cpu系统通过第四接口与设备管理模块通信,第三接口与第四接口均遵循带外管理协议,带外管理协议包括nc-si over mctp over pcie协议,上述接收cpu系统发送的pcie设备的告警信息,包括:通过第四接口接收cpu系统发送的pcie设备的告警信息。

38、在另一种可能的实现方式中,上述方法还包括:通过第四接口接收cpu系统发送的pcie设备的告警消除信息。

39、上述第三方面及其各种实现方式的具体描述,可以参考第一方面及其各种实现方式中的详细描述。

40、第四方面,本技术实施例提供一种计算设备,包括pcie设备、cpu系统和设备管理模块,其中pcie设备应用于第一方面或第一方面中任一种可能的实现方式的告警方法的各个模块;其中cpu系统应用于第二方面或第二方面中任一种可能的实现方式的告警方法的各个模块;其中设备管理模块应用于第三方面或第三方面中任一种可能的实现方式的告警方法的各个模块。

41、第五方面,本技术实施例提供一种告警装置,包括存储器和处理器。存储器和处理器耦合;存储器用于存储计算机程序代码,计算机程序代码包括计算机指令。当处理器执行该计算机指令时,使得该告警装置执行如第一方面及其任一种可能的实现方式的告警方法;或者,当处理器执行该计算机指令时,使得该告警装置执行如第二方面及其任一种可能的实现方式的告警方法;或者,当处理器执行该计算机指令时,使得该告警装置执行如第三方面及其任一种可能的实现方式的告警方法。

42、第六方面,本技术提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令。其中,当计算机指令在告警装置上运行时,使得该告警装置执行如第一方面及其任一种可能的实现方式的告警方法;或者,当计算机指令在告警装置上运行时,使得该告警装置执行如第二方面及其任一种可能的实现方式的告警方法;或者,当计算机指令在告警装置上运行时,使得该告警装置执行如第三方面及其任一种可能的实现方式的告警方法。

43、第七方面,本技术提供一种计算机程序产品,该计算机程序产品包括计算机指令。其中,当计算机指令在告警装置上运行时,使得该告警装置执行如第一方面及其任一种可能的实现方式的告警方法;或者,当计算机指令在告警装置上运行时,使得该告警装置执行如第二方面及其任一种可能的实现方式的告警方法;或者,当计算机指令在告警装置上运行时,使得该告警装置执行如第三方面及其任一种可能的实现方式的告警方法。

44、本技术中第三方面到第七方面的告警装置在执行如第一方面及其任一种可能的实现方式的告警方法时,可以是pcie设备;本技术中第三方面到第六方面的告警装置在执行如第二方面及其任一种可能的实现方式的告警方法时,可以是cpu系统;本技术中第三方面到第六方面的告警装置在执行如第三方面及其任一种可能的实现方式的告警方法时,可以是设备管理模块。

45、本技术中第三方面到第六方面及其各种实现方式的具体描述,可以参考第一方面、第二方面或第三方面及其各种实现方式中的详细描述;并且,第三方面到第六方面及其各种实现方式的有益效果,可以参考第一方面、第二方面或第三方面及其各种实现方式中的有益效果分析,此处不再赘述。

46、本技术的这些方面或其他方面在以下的描述中会更加简明易懂。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1