服务器故障定位方法、系统、终端及存储介质与流程

文档序号:29140664发布日期:2022-03-05 02:39阅读:501来源:国知局
服务器故障定位方法、系统、终端及存储介质与流程

1.本发明涉及服务器技术领域,具体涉及一种服务器故障定位方法、系统、终端及存储介质。


背景技术:

2.现有的服务器故障诊断方法,服务器需要链接到bmc web中查看相关不良日志或者系统下调取黑盒日志经行解析。这种方法都存在两个缺点:一,日志的解析需要专业研发人员的帮助,时效性差,并且有时影响到产品的交付。二,系统bmc sel获取的信息量有限,甚至无法定位详细的位置。这样给维修带来很多不便和干扰。


技术实现要素:

3.针对现有技术的上述不足,本发明提供一种服务器故障定位方法、系统、终端及存储介质,以解决上述技术问题。
4.第一方面,本发明提供一种服务器故障定位方法,包括:
5.监控测试日志,并在监控到测试日志存在报错信息之后断开与所有外部pcie设备的连接;
6.重启服务器,重新采集测试日志并判断新的测试日志是否存在报错信息:
7.若是,则判定pcie端口不存在故障;
8.若否,则判定pcie端口存在故障,并对pcie端口逐一排查。
9.进一步的,监控测试日志,包括:
10.创建监控进程,所述监控进程利用关键词筛选技术从测试日志筛选报错信息。
11.进一步的,在判定pcie端口不存在故障之后,所述方法还包括:
12.重启服务器,并在服务器重启过程中监控系统健康指示灯状态;
13.如果系统健康指示灯在基本输入输出系统完成全部开机跳转网络启动时由监控状态转换为故障状态,则判定网络模组存在故障。
14.进一步的,对pcie端口逐一排查,包括:
15.将所有pcie端口重新连接相应的外部pcie设备;
16.随机选取一个pcie端口作为目标端口,卸载目标端口的驱动;
17.重启服务器并重新采集测试日志,监控测试日志是否存在报错信息,保存监控结果并为所述目标端口安装驱动;
18.遍历所有pcie端口,将监控结果为无报错信息的pcie端口作为故障端口输出。
19.第二方面,本发明提供一种服务器故障定位系统,包括:
20.报错监控单元,用于监控测试日志,并在监控到测试日志存在报错信息之后断开与所有外部pcie设备的连接;
21.报错判断单元,用于重启服务器,重新采集测试日志并判断新的测试日志是否存在报错信息;
22.第一判定单元,用于若新的测试日志存在报错信息,则判定pcie端口不存在故障;
23.第二判定单元,用于若新的测试日志不存在报错信息,则判定pcie端口存在故障,并对pcie端口逐一排查。
24.进一步的,报错监控单元包括:
25.进程创建模块,用于创建监控进程,所述监控进程利用关键词筛选技术从测试日志筛选报错信息。
26.进一步的,所述系统还包括:
27.指示监控单元,用于重启服务器,并在服务器重启过程中监控系统健康指示灯状态;
28.网络判定单元,用于如果系统健康指示灯在基本输入输出系统完成全部开机跳转网络启动时由监控状态转换为故障状态,则判定网络模组存在故障。
29.进一步的,第二判定单元包括:
30.设备连接模块,用于将所有pcie端口重新连接相应的外部pcie设备;
31.驱动卸载模块,用于随机选取一个pcie端口作为目标端口,卸载目标端口的驱动;
32.结果获取模块,用于重启服务器并重新采集测试日志,监控测试日志是否存在报错信息,保存监控结果并为所述目标端口安装驱动;
33.结果输出模块,用于遍历所有pcie端口,将监控结果为无报错信息的pcie端口作为故障端口输出。
34.第三方面,提供一种终端,包括:
35.处理器、存储器,其中,
36.该存储器用于存储计算机程序,
37.该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
38.第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
39.本发明的有益效果在于,本发明提供的服务器故障定位方法、系统、终端及存储介质,通过监控报错信息,并在获取到报错信息后断开所有外设设备。满足机器开机最小配置。逐次上电观察机器状态,系统下读取是否还存在报错信息,直到报错信息消失。定位到最后一次断开部件的模组。然后再依次刨析模组。本发明可以快速有效的定位pcie中断,冲突产生的报错诊断。具有定位准确,时效快的特点。
40.此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
41.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
42.图1是本发明一个实施例的方法的示意性流程图。
43.图2是本发明一个实施例的系统的示意性框图。
44.图3为本发明实施例提供的一种终端的结构示意图。
具体实施方式
45.为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
46.下面对本发明中出现的关键术语进行解释。
47.bmc,执行伺服器远端管理控制器,英文全称为baseboard management controller.为基板管理控制器。它可以在机器未开机的状态下,对机器进行固件升级、查看机器设备、等一些操作。在bmc中完全实现ipmi功能需要一个功能强大的16位元或32位元微控制器以及用于数据储存的ram、用于非挥发性数据储存的快闪记忆体和韧体,在安全远程重启、安全重新上电、lan警告和系统健康监视方面能提供基本的远程可管理性。除了基本的ipmi功能和系统工作监视功能外,通过利用2个快闪记忆体之一储存以前的bios,mbmc还能实现bios快速元件的选择和保护。例如,在远程bios升级後系统不能启动时,远程管理人员可以切换回以前工作的bios映像来启动系统。一旦bios升级後,bios映像还能被锁住,可有效防止病毒对它的侵害。
48.bios是英文"basic input output system"的缩略词,直译过来后中文名称就是"基本输入输出系统"。在ibm pc兼容系统上,是一种业界标准的固件接口。它是一组固化到计算机内主板上一个rom芯片上的程序,它保存着计算机最重要的基本输入输出的程序、开机后自检程序和系统自启动程序,它可从cmos中读写系统设置的具体信息。其主要功能是为计算机提供最底层的、最直接的硬件设置和控制。此外,bios还向作业系统提供一些系统参数。系统硬件的变化是由bios隐藏,程序使用bios功能而不是直接控制硬件。现代作业系统会忽略bios提供的抽象层并直接控制硬件组件。
49.图1是本发明一个实施例的方法的示意性流程图。其中,图1执行主体可以为一种服务器故障定位系统。
50.如图1所示,该方法包括:
51.步骤110,监控测试日志,并在监控到测试日志存在报错信息之后断开与所有外部pcie设备的连接;
52.步骤120,重启服务器,重新采集测试日志并判断新的测试日志是否存在报错信息:
53.步骤130,若是,则判定pcie端口不存在故障;
54.步骤140,若否,则判定pcie端口存在故障,并对pcie端口逐一排查。
55.为了便于对本发明的理解,下面以本发明服务器故障定位方法的原理,结合实施例中对服务器故障进行定位的过程,对本发明提供的服务器故障定位方法做进一步的描述。
56.具体的,所述服务器故障定位方法包括:
57.s1、监控测试日志,并在监控到测试日志存在报错信息之后断开与所有外部pcie设备的连接。
58.创建监控进程,所述监控进程利用关键词筛选技术从测试日志筛选报错信息。关
键词可以是critical interrupt pcie_status|bus degraded|asserted等报错类型。
59.s2、重启服务器,重新采集测试日志并判断新的测试日志是否存在报错信息:若是,则判定pcie端口不存在故障;若否,则判定pcie端口存在故障,并对pcie端口逐一排查。
60.断掉所有外部pcie设备后,组装完机器盖上盖子,上电开机,进入系统提取bmc sel日志。发现ritical interrupt pci_status报错信息消失。同时系统健康灯恢复正常。
61.断开外设模组后,机器恢复正常,critical interrupt pci_status消失,可以判断处由于外部pci报错引起的pci中断。如果存在多个外设模组则需要进行进一步的故障定位:
62.1)将所有pcie端口重新连接相应的外部pcie设备;
63.2)随机选取一个pcie端口作为目标端口,卸载目标端口的驱动;
64.3)重启服务器并重新采集测试日志,监控测试日志是否存在报错信息,保存监控结果并为所述目标端口安装驱动;
65.4)遍历所有pcie端口,将监控结果为无报错信息的pcie端口作为故障端口输出。
66.上述实施方式为一种自动排查的实施方式,可由脚本执行。在本发明的其他实施方式中也可由人工进行外部设备逐一断开排查。
67.如果断开所有外设模组后,报错信息仍然存在。则重启服务器,在开机post过程中发现,bios在开机的整个过程中,系统健康灯保持正常亮绿色灯,当完成全部开机的瞬间,跳转网络启动时,突然系统健康灯转变成红灯。由此判定网络出问题的可能性极大。分析网络模组,有五部分组成:25g网卡、转接卡1、10g网卡、转接卡2和slim ocplink线。处理方法例如,对网络模组逐一验证,最后发现,链接转接卡2的slim sas接口的线,存在问题。只要接入转接卡2的线,机器立刻报错critical interrupt pci_status消失。拔掉后,机器恢复正常。
68.如图2所示,该系统200包括:
69.报错监控单元210,用于监控测试日志,并在监控到测试日志存在报错信息之后断开与所有外部pcie设备的连接;
70.报错判断单元220,用于重启服务器,重新采集测试日志并判断新的测试日志是否存在报错信息;
71.第一判定单元230,用于若新的测试日志存在报错信息,则判定pcie端口不存在故障;
72.第二判定单元240,用于若新的测试日志不存在报错信息,则判定pcie端口存在故障,并对pcie端口逐一排查。
73.可选地,作为本发明一个实施例,报错监控单元包括:
74.进程创建模块,用于创建监控进程,所述监控进程利用关键词筛选技术从测试日志筛选报错信息。
75.可选地,作为本发明一个实施例,所述系统还包括:
76.指示监控单元,用于重启服务器,并在服务器重启过程中监控系统健康指示灯状态;
77.网络判定单元,用于如果系统健康指示灯在基本输入输出系统完成全部开机跳转网络启动时由监控状态转换为故障状态,则判定网络模组存在故障。
78.可选地,作为本发明一个实施例,第二判定单元包括:
79.设备连接模块,用于将所有pcie端口重新连接相应的外部pcie设备;
80.驱动卸载模块,用于随机选取一个pcie端口作为目标端口,卸载目标端口的驱动;
81.结果获取模块,用于重启服务器并重新采集测试日志,监控测试日志是否存在报错信息,保存监控结果并为所述目标端口安装驱动;
82.结果输出模块,用于遍历所有pcie端口,将监控结果为无报错信息的pcie端口作为故障端口输出。
83.图3为本发明实施例提供的一种终端300的结构示意图,该终端300可以用于执行本发明实施例提供的服务器故障定位方法。
84.其中,该终端300可以包括:处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
85.其中,该存储器320可以用于存储处理器310的执行指令,存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。当存储器320中的执行指令由处理器310执行时,使得终端300能够执行以下上述方法实施例中的部分或全部步骤。
86.处理器310为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(integrated circuit,简称ic)组成,例如可以由单颗封装的ic所组成,也可以由连接多颗相同功能或不同功能的封装ic而组成。举例来说,处理器310可以仅包括中央处理器(central processing unit,简称cpu)。在本发明实施方式中,cpu可以是单运算核心,也可以包括多运算核心。
87.通信单元330,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
88.本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:rom)或随机存储记忆体(英文:random access memory,简称:ram)等。
89.因此,本发明通过监控报错信息,并在获取到报错信息后断开所有外设设备。满足机器开机最小配置。逐次上电观察机器状态,系统下读取是否还存在报错信息,直到报错信息消失。定位到最后一次断开部件的模组。然后再依次刨析模组。本发明可以快速有效的定位pcie中断,冲突产生的报错诊断。具有定位准确,时效快的特点,本实施例所能达到的技术效果可以参见上文中的描述,此处不再赘述。
90.本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在
一个存储介质中如u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
91.本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
92.在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
93.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
94.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
95.尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1