一种定位服务器宕机故障的装置及方法与流程

文档序号:16246949发布日期:2018-12-11 23:40阅读:401来源:国知局
一种定位服务器宕机故障的装置及方法与流程

本发明涉及服务器故障定位技术领域,具体地说是一种定位服务器宕机故障的装置及方法。

背景技术

服务器操作系统上一般运行着非常关键的业务应用,系统的可靠性非常重要。但随着系统硬件资源规模的不断扩展,系统业务应用复杂程度的不断提高,系统出现不稳定的几率也随之不断上升。服务器宕机问题在机房时有发生,严重影响业务应用的运行。

在发生服务器宕机时,运维工程师通常根据bmc(baseboardmanagementcontroller,基板管理控制器)上报的信息进行故障定位和维修。

然而,宕机后bmc上报故障能力非常有限,要定位故障部件,需要运维工程师同时结合自身的经验,反复验证和测试故障部件,需花费大量的时间,且对运维工程师的经验要求较高,增大了人力成本。



技术实现要素:

本发明实施例中提供了一种定位服务器宕机故障的装置及方法,以解决现有技术中服务器宕机时,故障定位的效率低、成本高的问题。

为了解决上述技术问题,本发明实施例公开了如下技术方案:

本发明第一方面提供了一种定位服务器宕机故障的装置,包括部署在监控服务器上的mca故障诊断系统,所述装置还包括

日志收集模块,在mca(machine-checkarchitecture,故障诊断结构)故障诊断系统的触发下,收集业务服务器的csr(controlandstatusregister,控制和状态寄存器)日志;

分析定位模块,用于解析收集到的日志,与规则库的内容进行匹配,定位故障位置。

结合第一方面,在第一方面第一种可能的实现方式中,所述规则库记录不同宕机场景下对应的故障部件,并记录更换和/或维修部件的规则。

结合第一方面,在第一方面第一种可能的实现方式中,所述日志收集模块包括

发送单元,在mca故障诊断系统的触发下,向业务服务器发送ipmi命令,请求csr日志;

接收单元,收集业务服务器返回的csr日志。

结合第一方面,在第一方面第一种可能的实现方式中,所述分析定位模块包括

日志解析单元,用于解析csr日志的内容,得到故障类型;

故障定位单元,匹配相应故障类型的数据库,定位故障具体位置。

结合第一方面,在第一方面第一种可能的实现方式中,所述故障类型包括内存部件故障类、pcie(peripheralcomponentinterconnectexpress,一种高速串行计算机扩展总线标准)部件故障类、cpu(centralprocessingunit,中央处理器)故障类和主板故障类。

结合第一方面,在第一方面第一种可能的实现方式中,所述规则库包括内存故障数据库、pcie故障数据库、cpu故障数据库和主板故障数据库。

本发明第二方面提供了一种定位服务器宕机故障的方法,包括以下步骤:

在mca故障诊断系统的触发下,收集业务服务器的csr日志;

解析收集到的日志,与规则库的内容进行匹配,得到故障位置。

结合第二方面,在第二方面第一种可能的实现方式中,收集业务服务器的csr日志的具体过程为:

向业务服务器发送ipmi(intelligentplatformmanagementinterface,智能平台管理接口)命令,请求csr日志;

收集业务服务器返回的csr日志。

结合第二方面,在第二方面第一种可能的实现方式中,所述解析收集到的日志,与规则库的内容进行匹配,得到故障位置的具体过程为:

解析csr日志的内容,得到故障类型;

根据故障类型,匹配相应的故障数据库,定位故障部件的具体位置。

结合第二方面,在第二方面第二种可能的实现方式中,所述方法还包括

根据故障位置,结合规则库内的记录,对故障部件进行更换或维修。

发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:

1、通过获取和分析业务服务器的csr日志,结合规则库,快速定位引起宕机的故障器件,提高故障器件的定位效率,且整个过程无需人为参与,大大节省了人力成本。

2、对故障的定位包括cpu、pcie、主板和内存,几乎覆盖了服务器容易引起宕机故障的所有部件,可以定位到大部分的故障部件,实用性强。

3、规则库中记录了故障的类型、具体位置以及维修和/或更换规则,方便运维直接建立维修工单,便于故障的快速排除,为服务器业务的快速恢复提供了支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明所述装置的结构示意图;

图2是本发明所述方法实施例1的结构示意图;

图3是本发明方法实施例中步骤s2的实现流程示意图;

图4是本发明所述方法实施例2的结构示意图。

具体实施方式

为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

实施例

如图1所示,定位服务器宕机故障的装置包括mca故障诊断系统1、日志收集模块2、分析定位模块3和规则库4。

故障诊断系统1部署在监控服务器上,用于对业务服务器进行故障监控,当发现业务服务器出现宕机(如ping数据口没有响应)时,触发日志收集模块2。

日志收集模块2在mca故障诊断系统的触发下,收集业务服务器的csr日志。日志收集模块包括发送单元21和接收单元22,发送单元21通过向业务服务器发送ipmi命令来请求csr日志,接收单元22用于收集业务服务器返回的csr日志。

分析定位模块3解析收集到的日志,与规则库的内容进行匹配,定位故障位置。分析定位模块3包括日志解析单元31和故障定位单元32,日志解析单元31解析csr日志的内容,得到故障类型。故障类型包括内存部件故障类、pcie部件故障类、cpu故障类和主板故障类。故障定位单元32匹配相应故障类型的数据库,定位故障具体位置。

规则库4内包含故障类型数据库和不同宕机场景下对应的故障部件,并记录更换和/或维修部件的规则。故障类型数据库包括内存故障数据库、pcie故障数据库、cpu故障数据库和主板故障数据库。

如图2所示,定位服务器宕机故障的方法包括步骤:

s1,在mca故障诊断系统的触发下,收集业务服务器的csr日志;

mca对业务服务器的运行情况进行实时监控,当发现业务服务器宕机时,触发监控服务器向业务服务器发送ipmi命令来请求csr日志,并收集业务服务器返回的csr日志。

s2,解析收集到的日志,与规则库的内容进行匹配,得到故障位置。

如图3所示,解析csr日志内容,得到故障类型,故障类型分为内存部件故障类、pcie部件故障类、cpu故障类和主板故障类。

当解析出故障类型为内存部件故障类时,匹配内存故障数据库,定位内存的具体位置。

当解析出故障类型为pcie部件故障类时,首先匹配pcie故障数据库,分析故障pcieport(端口),然后依据服务器pcie开发文档,定位pcie设备具体位置,最后通过bmc获取pcie设备id,企鹅人故障设备名称,如网卡、raid(redundantarraysofindependentdisks,磁盘阵列)卡。

当解析出故障类型为cpu故障类时,匹配cpu故障数据库,定位故障cpu。

当解析出故障类型为主板故障类时,匹配主板故障数据库,定位故障主板。

如图4所示,定位出故障部件后,还包括步骤s3,结合规则库内的记录,对故障部件进行更换或维修。

规则库内记录了不同宕机场景下,对应故障器件的维修和/或更换规则,在定位到故障部件时,结合宕机场景,直接提供维修或更换策略,节省了大量人力物力,节省成本。

以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1