一种诊断黑盒日志中PCIE报错信息的方法和系统与流程

文档序号:16134238发布日期:2018-12-01 00:43阅读:587来源:国知局

本领域涉及计算机领域,并且,更具体地涉及一种诊断黑盒日志中pcie报错信息的方法和系统。

背景技术

服务器是提供计算服务的设备,由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。如今在竞争日益激烈的服务器市场中,服务器的可靠性成为越来越重要的指标。服务器出现故障后的停机时间是服务器可靠性的重要组成部分。

服务器黑盒日志中记录了服务器运行中各个组件的状态事件,包括组件的正常运行记录和组件发生故障的记录,例如电源的上下线、内存发生ecc(纠错码)故障、pcie(高速串行计算机总线)总线错误等。黑盒日志有助于工作人员检查服务器是否发生故障以及确定发生故障的具体设备。

现有根据黑盒日志记录排查服务器故障的方法为人工筛查,工作人员查看黑盒日志记录中的pcie故障信息,然后根据pcie故障信息查看服务器主板结构图,在主板结构图中定位发生故障的pcie设备。

人工筛查黑盒日志中的pcie故障信息,不仅消耗大量人力、时间,并且排查结果也存在一定的不正确性。



技术实现要素:

有鉴于此,本发明实施例的目的在于提出一种诊断黑盒日志中pcie报错信息的方法和系统,能够实现黑盒日志的pcie错误信息自动化诊断,降低了人力成本,提高了pcie设备故障的分析效率,并且提高了排查故障的准确性。

基于上述目的,本发明的实施例的一个方面提供了一种诊断黑盒日志中pcie报错信息的方法,包括以下步骤:

1)经由日志收集工具收集所述黑盒日志;

2)经由报错信息检索模块查找所述黑盒日志中的报错关键词组;

3)经由错误信息分析模块提取所述报错关键词组中的参数,并基于所述参数分析发生故障的设备信息;和

4)经由故障解释输出模块输出发生故障的所述设备信息。

根据本发明的一个实施例,在步骤1)之前还包括建立pcie插槽的bus/dev/func与主板丝印对照表的步骤。

根据本发明的一个实施例,所述对照表为所述pcie插槽中bus/dev/func的一组数字参数与相应主板丝印的对应关系。

根据本发明的一个实施例,经由日志收集工具收集所述黑盒日志包括:所述日志收集工具将所述黑盒日志解析为文本文件。

根据本发明的一个实施例,步骤2)中所述报错关键词组包括pcieerror、busno、devno、funcno。

根据本发明的一个实施例,步骤3)中所述参数为与所述报错关键词组中busno、devno、funcno相对应的一组数字。

根据本发明的一个实施例,基于所述参数分析发生故障的设备信息包括:所述错误信息分析模块通过在所述对照表中查找所述参数来分析发生故障的所述设备信息。

根据本发明的一个实施例,发生故障的所述设备信息包括主板丝印。

本发明的实施例的另一个方面,还提供了一种诊断黑盒日志中pcie报错信息的系统,包括:

用于收集所述黑盒日志的日志收集工具;

用于查找所述黑盒日志中的报错关键词组的报错信息检索模块;

用于提取所述报错关键词组中的参数并基于所述参数分析发生故障的设备信息的错误信息分析模块;和

用于输出发生故障的所述设备信息的故障解释输出模块。

根据本发明的一个实施例,所述故障解释输出模块为视觉输出或听觉输出中的一种。

本发明具有以下有益技术效果:本发明实施例提供的诊断黑盒日志中pcie报错信息的方法和设备,通过报错信息检索模块查找黑盒日志中的报错关键词组;经由错误信息分析模块提取报错关键词组中的参数,并基于该参数分析发生故障的设备信息;经由故障解释输出模块输出发生故障的设备信息的技术方案,能够实现黑盒日志的pcie错误信息自动化诊断,降低了人力成本,提高了pcie设备故障的分析效率,并且提高了排查故障的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为根据本发明一个实施例的诊断黑盒日志中pcie报错信息的方法的示意性流程图;

图2为根据本发明一个实施例的诊断黑盒日志中pcie报错信息的系统的示意性框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。

基于上述目的,本发明的实施例的第一个方面,提出了一种诊断黑盒日志中pcie报错信息的方法一个实施例。图1示出的是该方法的示意性流程图。

如图1中所示,该方法可以包括以下步骤:

步骤s101,经由日志收集工具收集所述黑盒日志;

步骤s102,经由报错信息检索模块查找黑盒日志中的报错关键词组;

步骤s103,经由错误信息分析模块提取报错关键词组中的参数,并基于该参数分析发生故障的设备信息;

步骤s104,经由故障解释输出模块输出发生故障的设备信息。

通过以上技术方案,能够实现黑盒日志的pcie错误信息自动化诊断,降低了人力成本,提高了pcie设备故障的分析效率,并且提高了排查故障的准确性。

在本发明的一个优选实施例中,在步骤s101之前还包括建立pcie插槽的bus/dev/func与主板丝印对照表的步骤。在本发明的一个优选实施例中,该对照表为pcie插槽中bus/dev/func的一组数值参数与相应主板丝印的对应关系,其实例如下表1所示:

表1服务器pcie丝印对照表

应当理解,表1仅仅是一个示例,可以扩展并覆盖更多型号的服务器。

在本发明的一个优选实施例中,步骤s102中的报错关键词组包括pcieerror、busno、devno、funcno。例如,当服务器上外接的pcie设备发生故障时,黑盒日志会有如下形式的日志记录:“[jun10201716:29:03]:pcieerror:busno0devno3funcno0busfatalerrorassertion.”。当经由报错信息检索模块查找到黑盒日志记录中的关键词组时,读取日志行,传输到错误信息分析模块,例如将上述报错信息“pcieerror:busno0devno3funcno2busfatalerrorassertion.”传输到错误信息分析模块。

在本发明的一个优选实施例中,步骤s103中的发生故障的设备信息包括主板丝印,主板丝印为发生故障设备的具体物理位置,可以直接获得发生故障设备的位置。

在本发明的一个优选实施例中,步骤s103中的参数为与报错关键词组中busno、devno、funcno相对应的一组数字。在经由报错信息检索模块将读取的日志行传输到错误信息分析模块之后,错误信息分析模块将与busno、devno、funcno相对应的一组数字提取出来。例如:报错信息为“pcieerror:busno0devno3funcno2busfatalerrorassertion.”则将busno、devno、funcno三个参数后的相应数字参数提取出来,即,提取出来的数字参数为0,3,2,并将上述数字参数组合成规定形式,例如0/3/2。

在本发明的一个优选实施例中,错误信息分析模块通过在上述对照表中查找数字参数来分析故障设备信息。例如,如果发生pcie故障的服务器型号为sa5212m4,根据上述方法提取出的参数为0/3/2,则经由错误信息分析模块在上述对照表中查找服务器型号为sa5212m4,参数为0/3/2的设备信息的相应主板丝印为pcie_1_cpu0。通过该技术方案,能够方便快捷并且准确地定位出发生故障的设备,很大程度提高了故障分析的效率。

在本发明的一个优选实施例中,日志收集工具可以存储在存储器中,经由网络连接到服务器中的存储器中,可以将服务器中以二进制文件形式存储的黑盒日志解析成记录服务器运行记录的文本文件,然后将该文本文件传输到报错信息检索模块。通过该技术方案,可以实现自动地解析黑盒日志,节省了人力和时间。

实施例1

使用本发明的方法对一台发生pcie故障的型号为sa5212m4的服务器的黑盒日志进行分析。

首先,借助日志收集工具将服务器中以二进制文件形式存储的黑盒日志解析成记录服务器运行记录的文本文件:blackbox_deode.txt;

然后,经由错误信息分析模块读取该文本文件blackbox_decode.txt,遍历查找“pcieerror,busno,devno,funcno”关键词组,找到日志中报错信息“[jun20201811:40:03]:pcieerror:busno0devno3funcno2busfatalerrorassertion.”,将该报错信息“pcieerror:busno0devno3funcno2busfatalerrorassertion.”传输到错误信息分析模块;

再然后,经由错误信息分析模块将与busno,devno,funcno相对应的一组数字提取出来,即提取出0,3,2,并将上述数字参数组合成规定形式为0/3/2,在对照表(参见表1)中查找服务器型号为sa5212m4,“bus/dev/func”为“0/3/2”的设备信息的相应主板丝印为pcie_1_cpu0,将该主板丝印信息传输到故障解释输出模块。

最后经由故障解释输出模块在工作人员的电脑显示屏上显示发生故障的设备信息的主板丝印为pcie_1_cpu0。

需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(read-onlymemory,rom)或随机存取存储器(randomaccessmemory,ram)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外,根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时,执行本发明实施例公开的方法中限定的上述功能。

基于上述目的,本发明的实施例的第二个方面,提出了一种诊断黑盒日志中pcie报错信息的系统的一个实施例。图2为该系统200的示意性框图。如图2中所示,该系统200可以包括:用于查找黑盒日志中的报错关键词组的报错信息检索模块201;用于提取报错关键词组中的参数并基于参数分析发生故障的设备信息的错误信息分析模块202;和用于输出发生故障的设备信息的故障解释输出模块203;用于收集所述黑盒日志的日志收集工具204。

报错信息检索模块201可通信地连接到错误信息分析模块202,错误信息分析模块202可通信地连接到故障解释输出模块203。报错信息检索模块201和错误信息分析模块202可以是在一个或多个计算装置(例如服务器、个人电脑等)上实施的计算机可读指令(例如软件),该指令存储在与此相关(例如硬盘、存储器等)的计算机可读介质(也简称为处理器可读介质)上。

日志收集工具204可以存储在存储器中,经由网络连接到服务器中的存储器中,可以将服务器中以二进制文件形式存储的黑盒日志解析成记录服务器运行记录的文本文件,然后将该文本文件传输到报错信息检索模块201。

在本发明的一个优选实施例中,故障解释输出模块可以是视觉输出模块,例如液晶显示器、有机发光二极管显示器、平板显示器、固态显示器等,或者可以是听觉输出模块,例如扬声器等。故障解释输出模块也可以将发生故障的设备信息传输到移动设备中,例如移动电话、平板电脑、笔记本电脑等。故障解释输出模块也可以与打印机等相连,直接打印出发生故障的设备信息。通过该技术方案,可以直观清楚地接收到发生故障的设备信息。

另外,该系统可以被设置成执行上述方法。该系统还可以被设置成当服务器出现故障时,自动地运行该系统进行故障分析。该系统还可以被设置成当需要对服务器进行故障分析时,由工作人员手动地启动该系统进行故障分析。

需要特别指出的是,上述系统的实施例采用了上述方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到上述方法的其他实施例中。

此外,典型地,本发明实施例公开所述的系统、设备等可为各种电子终端设备,例如手机、个人数字助理(pda)、平板电脑(pad)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的系统、设备。

此外,上述方法步骤以及系统单元或模块也可以利用控制器以及用于存储使得控制器实现上述步骤或单元或模块功能的计算机程序的计算机可读存储介质实现。

此外,应该明白的是,实现本发明的方法和系统所采用的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦写可编程rom(eeprom)或快闪存储器。易失性存储器可以包括随机存取存储器(ram),该ram可以充当外部高速缓存存储器。作为例子而非限制性的,ram可以以多种形式获得,比如同步ram(dram)、动态ram(dram)、同步dram(sdram)、双数据速率sdram(ddrsdram)、增强sdram(esdram)、同步链路dram(sldram)以及直接rambusram(drram)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

上述实施例,特别是任何“优选”实施例是实现的可能示例,并且仅为了清楚地理解本发明的原理而提出。可以在不脱离本文所描述的技术的精神和原理的情况下对上述实施例进行许多变化和修改。所有修改旨在被包括在本公开的范围内并且由所附权利要求保护。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1