一种故障排查方法、装置及存储介质与流程

文档序号:33753032发布日期:2023-04-18 13:44阅读:38来源:国知局
一种故障排查方法、装置及存储介质与流程

本申请涉及互联网通信,尤其涉及一种故障排查方法、装置及存储介质。


背景技术:

1、服务器部件出现异常,往往会影响服务器对于相关业务功能的支持实现。相关技术中,通常由工作人员结合各类日志和业务系统的相关功能实现情况来进行确定出现异常的服务器部件,以及针对出现异常的服务器部件进行故障排查。该过程对于个人感性判断的依赖度较高且缺乏程序化的故障排查逻辑。这样往往由于过分依赖人工出现效率低下、信息遗漏等问题,从而不能提供及时且准确的故障排查方案。


技术实现思路

1、为了解决现有技术应用在故障排查时,不能提供及时且准确的故障排查方案等问题,本申请提供了一种故障排查方法、装置及存储介质:

2、根据本申请的第一方面,提供了一种故障排查方法,所述方法包括:

3、响应于针对指定服务器集群的温度告警日志,确定所述温度告警日志所指示的目标部件以及目标服务器;其中,所述目标部件为所述目标服务器中出现温度告警的服务器部件,所述目标服务器为所述指定服务器集群中的任一服务器;

4、获取所述目标部件的第一类传感器信息以及可疑部件的第二类传感器信息;其中,所述可疑部件为所述目标服务器中与引发所述目标部件出现温度告警具有疑似关联关系的服务器部件;

5、获取所述目标服务器所属部署单元的温度信息;

6、基于所述第一类传感器信息、所述第二类传感器信息以及所述温度信息,确定针对所述温度告警日志的故障排查结果。

7、根据本申请的第二方面,提供了一种故障排查装置,所述装置包括:

8、第一确定模块:用于响应于针对指定服务器集群的温度告警日志,确定所述温度告警日志所指示的目标部件以及目标服务器;其中,所述目标部件为所述目标服务器中出现温度告警的服务器部件,所述目标服务器为所述指定服务器集群中的任一服务器;

9、第一获取模块:用于获取所述目标部件的第一类传感器信息以及可疑部件的第二类传感器信息;其中,所述可疑部件为所述目标服务器中与引发所述目标部件出现温度告警具有疑似关联关系的服务器部件;

10、第二获取模块:用于获取所述目标服务器所属部署单元的温度信息;

11、第二确定模块:用于基于所述第一类传感器信息、所述第二类传感器信息以及所述温度信息,确定针对所述温度告警日志的故障排查结果。

12、根据本申请的第三方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如第一方面所述的故障排查方法。

13、根据本申请的第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如第一方面所述的故障排查方法。

14、根据本申请的第五方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如第一方面所述的故障排查方法。

15、本申请提供的一种故障排查方法、装置及存储介质,具有如下技术效果:

16、本申请通过确定温度告警日志所指示的目标部件以及目标服务器,然后获取目标部件的第一类传感器信息、可疑部件的第二类传感器信息以及目标服务器所属部署单元的温度信息,从而基于获取到的信息确定针对该温度告警日志的故障排查结果。其中,目标部件为目标服务器中出现温度告警的服务器部件,可疑部件为目标服务器中与引发目标部件出现温度告警具有疑似关联关系的服务器部件。本申请提供了一套程序化的故障排查方案,基于该方案可以规避个人感性判断的干扰,减少漏判和误判的出现,从而能够实现准确的故障排查。人工介入的减少,整个故障排查流程的自动化,可以提高故障排查效率、节省人力成本开销。



技术特征:

1.一种故障排查方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述确定所述温度告警日志所指示的目标部件以及所述目标服务器之后,所述方法还包括:

3.根据权利要求1或2任一项所述的方法,其特征在于:

4.根据权利要求2所述的方法,其特征在于,所述基于所述第一类传感器信息、所述第二类传感器信息以及所述温度信息,确定针对所述温度告警日志的故障排查结果,包括:

5.根据权利要求4项所述的方法,其特征在于,在所述基于所述第一类传感器信息和第一预设数量阈值的对比结果,确定针对所述温度告警日志的验证结果之后,所述方法还包括:

6.根据权利要求4所述的方法,其特征在于,所述可疑部件包括进风口组件和风扇组件,所述第二类传感器信息包括所述进风口组件的温度值和所述风扇组件的转速值,所述第二预设数量阈值包括所述进风口组件的温度阈值和所述风扇组件的转速阈值;

7.根据权利要求6所述的方法,其特征在于,在所述获取针对所述可疑故障原因进行排查处理得到的第一类故障排查结果之前,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述方法还包括:

9.一种故障排查装置,其特征在于,所述装置包括:

10.一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8任一所述的故障排查方法。


技术总结
本申请公开了一种故障排查方法、装置及存储介质。方法包括:响应于针对指定服务器集群的温度告警日志,确定温度告警日志所指示的目标部件以及目标服务器;其中,目标部件为目标服务器中出现温度告警的服务器部件;获取目标部件的第一类传感器信息、可疑部件的第二类传感器信息以及目标服务器所属部署单元的温度信息;基于第一类传感器信息、第二类传感器信息以及温度信息,确定针对温度告警日志的故障排查结果。本申请提供了一套程序化的故障排查方案,基于该方案可以规避个人感性判断的干扰,减少漏判和误判的出现,从而能够实现准确的故障排查。人工介入的减少,整个故障排查流程的自动化,可以提高故障排查效率、节省人力成本开销。

技术研发人员:曾令新
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1