设备故障信息的收集方法、装置、设备及存储介质与流程

文档序号:35452634发布日期:2023-09-14 10:37阅读:24来源:国知局
设备故障信息的收集方法、装置、设备及存储介质与流程

本技术涉及服务器,尤其涉及一种设备故障信息的收集方法、装置、设备及存储介质。


背景技术:

1、随着it业务系统的发展,越来越多的硬件资源投入使用。相比于以往的资源不足时代,当前基本都是资源过剩的状态,基础资源性能已不是最大的问题。现在用户更多关心的是硬件的状态。比如硬盘、内存条、风扇、电源是否有故障。因为这些基础部件大多做了冗余设计,坏掉一个可能从操作系统层面无法察觉,但已埋下隐患。

2、传统对于服务器的运维场景是需要大量的人员频繁进出机房观察设备状态指示灯进行巡检记录。对于服务器出现不同的故障时,服务器通常可采集的错误信息不同,例如服务器出现非灾难性设备故障时,基本输入输出系统只能将sel上报给控制管理器,不能获取其他的错误信息用于对故障问题分析。

3、综上所述,在出现非灾难性设备故障时,如何完善的收集错误信息进行设备故障问题精准定位分析是本领域亟需解决的难题。


技术实现思路

1、本技术提供一种设备故障信息的收集方法、装置、设备及存储介质,用以解决在出现非灾难性设备故障时,如何完善的收集错误信息进行设备故障问题精准定位分析的问题。

2、第一方面,本技术提供一种设备故障信息的收集方法,应用于业务服务器,包括:

3、在根据管理控制器bmc发送的访问状态触发了可屏蔽中断nmi处理时,通过所述nmi收集操作系统的环境信息,所述环境信息包括内存信息,硬盘信息,电源信息,风扇信息,温度信息;

4、向所述bmc发送通信恢复请求和所述环境信息,所述通信恢复请求用于请求恢复所述业务服务器与所述bmc之间的通信;

5、若与所述bmc之间的通信恢复正常,则通过所述nmi向所述bmc发送控制指令,所述控制指令用于指示所述bmc收集故障信息,所述控制指令包括信息抓取指令,信息存储指令,网络状态检测指令。

6、结合第一方面,在一些实施例中,所述方法还包括:

7、检测所述操作系统的dmesg命令中是否存在未处理的故障信息;

8、若所述dmesg命令中存在未处理的故障信息,则向所述bmc发送健康状态检测请求,所述健康状态检测请求用于指示所述bmc检测其访问状态;

9、接收所述bmc发送的所述访问状态,所述访问状态包括访问正常或访问异常;

10、若所述访问状态为访问异常,则确定触发所述nmi处理;

11、若所述访问状态为访问正常,则确定不触发所述nmi处理。

12、结合第一方面,在一些实施例中,所述向所述bmc发送通信恢复请求之后,所述方法还包括:

13、接收所述bmc返回的通信恢复结果,所述通信恢复结果用于指示所述业务服务器与所述bmc之间的通信是否恢复正常。

14、结合第一方面,在一些实施例中,所述方法还包括:

15、若所述通信恢复结果指示所述业务服务器与所述bmc之间的通信未恢复正常,则向所述bmc发送强制通信指令,所述强制通信指令为重启指令,切换指令,升级指令中任一个。

16、第二方面,本技术提供一种设备故障信息的收集方法,应用于管理控制器bmc,包括:

17、在访问状态异常时,接收业务服务器发送的通信恢复请求和环境信息,所述通信恢复请求用于请求恢复所述业务服务器与所述bmc之间的通信,所述环境信息包括内存信息,硬盘信息,电源信息,风扇信息,温度信息;

18、根据所述通信恢复请求恢复与所述业务服务器之间的通信;

19、在与所述业务服务器之间的通信恢复正常后,接收所述业务服务器发送的控制指令,所述控制指令包括信息抓取指令,信息存储指令,网络状态检测指令;

20、根据所述控制指令收集中央处理器cpu的寄存器信息,并将所述cpu的寄存器信息和所述环境信息上报至日志服务器。

21、结合第二方面,在一些实施例中,所述根据所述控制指令收集中央处理器cpu的寄存器信息,并将所述cpu的寄存器信息和所述环境信息上报至日志服务器,包括:

22、根据所述网络状态检测指令,确定网络状态是否正常;

23、若所述网络状态正常,则根据所述信息抓取指令以及预设的信息抓取策略,抓取所述cpu的寄存器信息,所述信息抓取策略包括对硬件不能自动恢复的错误抓取所述cpu的寄存器信息;

24、根据所述信息存储指令,将所述cpu的寄存器信息以及所述环境信息上传至日志服务器。

25、结合第二方面,在一些实施例中,所述方法还包括:

26、若所述网络状态不正常,则根据所述信息抓取指令,抓取非易失区域中的所述cpu的寄存器信息;

27、根据所述信息存储指令,将所述cpu的寄存器信息和所述环境信息保存在本地硬盘。

28、结合第二方面,在一些实施例中,所述根据所述通信恢复请求恢复与所述业务服务器之间的通信之后,所述方法还包括:

29、向所述业务服务器发送通信恢复结果,所述通信恢复结果用于指示所述业务服务器与所述bmc之间的通信是否恢复正常。

30、结合第二方面,在一些实施例中,所述方法还包括:

31、若所述通信恢复结果指示所述业务服务器与所述bmc之间的通信未恢复正常,则接收所述业务服务器发送的强制通信指令,所述强制通信指令为重启指令,切换指令,升级指令中任一个;

32、执行所述强制通信指令以恢复与所述业务服务器之间的通信。

33、结合第二方面,在一些实施例中,在所述接收业务服务器发送的通信恢复请求之前,所述方法还包括:

34、接收所述业务服务器发送的健康状态检测请求;

35、根据所述健康状态检测请求检测获取访问状态,所述访问状态包括访问正常或访问异常;

36、向所述业务服务器发送所述访问状态。

37、第三方面,本技术提供一种设备故障信息的收集装置,包括:

38、信息收集模块,用于在根据管理控制器bmc发送的访问状态触发了可屏蔽中断nmi处理时,通过所述nmi收集操作系统的环境信息,所述环境信息包括内存信息,硬盘信息,电源信息,风扇信息,温度信息;

39、第一发送模块,用于向所述bmc发送通信恢复请求和所述环境信息,所述通信恢复请求用于请求恢复所述业务服务器与所述bmc之间的通信;

40、第二发送模块,用于若与所述bmc之间的通信恢复正常,则通过所述nmi向所述bmc发送控制指令,所述控制指令用于指示所述bmc收集故障信息,所述控制指令包括信息抓取指令,信息存储指令,网络状态检测指令。

41、结合第三方面,在一些实施例中,所述装置还包括:

42、检测模块,用于检测所述操作系统的dmesg命令中是否存在未处理的故障信息;

43、第三发送模块,用于若所述dmesg命令中存在未处理的故障信息,则向所述bmc发送健康状态检测请求,所述健康状态检测请求用于指示所述bmc检测其访问状态;

44、第一接收模块,用于接收所述bmc发送的所述访问状态,所述访问状态包括访问正常或访问异常;

45、第一确定模块,用于若所述访问状态为访问异常,则确定触发所述nmi处理;

46、第二确定模块,用于若所述访问状态为访问正常,则确定不触发所述nmi处理。

47、结合第三方面,在一些实施例中,所述装置还包括:

48、第二接收模块,用于接收所述bmc返回的通信恢复结果,所述通信恢复结果用于指示所述业务服务器与所述bmc之间的通信是否恢复正常。

49、结合第三方面,在一些实施例中,所述装置还包括:

50、第四发送模块,用于若所述通信恢复结果指示所述业务服务器与所述bmc之间的通信未恢复正常,则向所述bmc发送强制通信指令,所述强制通信指令为重启指令,切换指令,升级指令中任一个。

51、第四方面,本技术提供一种设备故障信息的收集装置,包括:

52、第一接收模块,用于在访问状态异常时,接收业务服务器发送的通信恢复请求和环境信息,所述通信恢复请求用于请求恢复所述业务服务器与所述bmc之间的通信,所述环境信息包括内存信息,硬盘信息,电源信息,风扇信息,温度信息;

53、通信恢复模块,用于根据所述通信恢复请求恢复与所述业务服务器之间的通信;

54、第二接收模块,用于在与所述业务服务器之间的通信恢复正常后,接收所述业务服务器发送的控制指令,所述控制指令包括信息抓取指令,信息存储指令,网络状态检测指令;

55、信息上报模块,用于根据所述控制指令收集中央处理器cpu的寄存器信息,并将所述cpu的寄存器信息和所述环境信息上报至日志服务器。

56、结合第四方面,在一些实施例中,所述信息上报模块,包括:

57、确定单元,用于根据所述网络状态检测指令,确定网络状态是否正常;

58、第一抓取单元,用于若所述网络状态正常,则根据所述信息抓取指令以及预设的信息抓取策略,抓取所述cpu的寄存器信息,所述信息抓取策略包括对硬件不能自动恢复的错误抓取所述cpu的寄存器信息;

59、第一存储单元,用于根据所述信息存储指令,将所述cpu的寄存器信息以及所述环境信息上传至日志服务器。

60、结合第四方面,在一些实施例中,所述信息上报模块,还包括:

61、第二抓取单元,用于若所述网络状态不正常,则根据所述信息抓取指令,抓取非易失区域中的所述cpu的寄存器信息;

62、第二存储单元,用于根据所述信息存储指令,将所述cpu的寄存器信息和所述环境信息保存在本地硬盘。

63、结合第四方面,在一些实施例中,所述装置还包括:

64、第一发送模块,用于向所述业务服务器发送通信恢复结果,所述通信恢复结果用于指示所述业务服务器与所述bmc之间的通信是否恢复正常。

65、结合第四方面,在一些实施例中,所述装置还包括:

66、第三接收模块,用于若所述通信恢复结果指示所述业务服务器与所述bmc之间的通信未恢复正常,则接收所述业务服务器发送的强制通信指令,所述强制通信指令为重启指令,切换指令,升级指令中任一个;

67、指令执行模块,用于执行所述强制通信指令以恢复与所述业务服务器之间的通信。

68、结合第四方面,在一些实施例中,所述装置还包括:

69、第四接收模块,用于接收所述业务服务器发送的健康状态检测请求;

70、获取模块,用于根据所述健康状态检测请求检测获取访问状态,所述访问状态包括访问正常或访问异常;

71、第二发送模块,用于向所述业务服务器发送所述访问状态。

72、第五方面,本技术提供一种业务服务器,包括:

73、存储器、处理器、通信接口;

74、所述存储器存储计算机指令;

75、所述处理器执行所述存储器存储的计算机指令,使得所述业务服务器执行如第一方面所述的设备故障信息的收集方法。

76、第六方面,本技术提供一种管理控制器bmc,包括:

77、存储器、处理器、通信接口;

78、所述存储器存储计算机指令;

79、所述处理器执行所述存储器存储的计算机指令,使得所述管理控制器bmc执行第二方面所述的设备故障信息的收集方法。

80、第七方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述任一方面所述的设备故障信息的收集方法。

81、本技术提供的设备故障信息的收集方法、装置、设备及存储介质,在根据管理控制器bmc发送的访问状态触发了可屏蔽中断nmi处理时,通过nmi收集操作系统的环境信息,向bmc发送通信恢复请求和环境信息,根据通信恢复请求恢复与业务服务器之间的通信,若与bmc之间的通信恢复正常,则通过nmi向bmc发送控制指令,最后根据控制指令收集中央处理器cpu的寄存器信息,并将cpu的寄存器信息和环境信息上报至日志服务器,针对于非灾难性设备故障,实现了cpu的寄存器信息以及操作系统环境信息的收集,使得收集的错误信息完整性更高,进而降低了产生灾难性设备故障的风险。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1