一种用于服务器故障检测的便携式设备及方法与流程

文档序号:18101387发布日期:2019-07-06 11:22阅读:130来源:国知局
本发明属于服务器故障检测
技术领域
:,特别涉及一种用于服务器故障检测的便携式设备及方法。
背景技术
::服务器在长时间运行中随着部件的老化失效故障在所难免,服务器常见故障包括宕机、黑屏、自动重启、掉电等等,故障的快速检测和修复对于保证服务器可用性十分重要。目前在服务器中已经具备了比较完善的故障检测机制,一般来讲通过bmc实时监控平台的运行情况来实现。目前服务器的平台运行情况主要由bmc提供带外监控,bmc可以监控平台的供电、温度、部件在位状态、部件运行状态、网络状态等各种信息。当服务器发生故障时,bmc可以提供sel日志用于记录平台运行日志,sdr文件用于记录平台sensor信息,如电压、温度、风扇转速。黑盒日志,记录其它需要进一步分析的信息,一般包括cpu的寄存器打印、psu的寄存器打印等多种日志用于分析故障原因。目前通用的做法一般有几种,第一,现场通过电脑带外连接bmc后收集日志,之后将日志发回后台分析,因为现场客服工程师技术水平一般不高,没有办法做到自己分析,只能带笔记本到现场收集日志后请后台分析确认。第二,提供信息收集工具,请客户代为收集信息,之后将日志发回后台分析确认。第三,少数如大的企业,自己具备数据中心运营能力,会自己初步分析判断故障原因,报修时提供初步分析原因和要求。针对目前这些做法,仍然存在现场分析时效受限的缺陷。具体来说,现场工程师需要花费较长时间收集bmc的各种信息,并且结合后台的确认才能确认故障来源。由于bmc的日志种类繁多,现场工程师需要经过仔细培训才能掌握各种日志的收集方法,而且一定要使用电脑连接服务器后才能执行日志的收集工作。技术实现要素:基于以上缺点,本发明提出了一种用于服务器故障检测的便携式设备及方法,代替笔记本电脑现场自动收集日志的方法,同时结合在故障检测设备中预装的故障特征库,自动分析故障原因。为了实现上述目的,本发明提出了一种用于服务器故障检测的便携式设备,便携式设备为基于armcortexa9内核的嵌入式设备,该设备包括:mcu,用于运行操作系统,以及运行和分析bmc日志的软件;内存模块,用于提供运行内存;系统存储模块,作为系统存储器,存储从服务器bmc返回的检测数据;输入输出模块,用于与外界进行信息交互,显示故障检测结果。进一步的,所述便携式设备还包括供电模块,所述供电模块分别与mcu、内存模块、系统存储模块和输入输出模块相连,用于提供故障检测设备所需的电源。进一步的,所述mcu依次连接rgmii接口、以太网接口以及服务器bmc,用于实现与服务器bmc的数据通信。进一步的,所述mcu通过ddr3接口与内存模块相连。进一步的,所述mcu通过lvds接口与输入输出模块相连。进一步的,所述mcu通过emmc的接口与系统存储模块相连。一种用于服务器故障检测便携式设备的检测方法是基于一种用于服务器故障检测的便携式设备实现的,所述检测方法包括以下步骤:在输入输出模块上设置服务器故障检测设备的网络参数;带外通过故障检测设备给bmc发送数据,bmc收到所述故障检测设备发送的数据;带外通过故障检测设备给bmc发送ipmi命令,bmc收到所述ipmi命令并作出回复,使故障检测设备与bmcping通;故障检测设备按照cmd列表发送命令给bmc,并保存bmc根据cmd列表返回的检测数据;按照预设值以及根据所述cmd列表返回的检测数据分析服务器的健康状态,在输入输出模块上显示故障检测结果。进一步的,所述网络参数包括ipmode、ip地址、掩码、网关以及带外idusername和带外iduserpassword。进一步的,所述cmd列表包括系统信息、平台日志、平台状态、cpu状态和黑盒日志。进一步的,分析服务器健康状态的具体过程为:结合平台日志,检查是否存在内存和pcie设备故障;结合平台状态,采用量化的方法,检查温度和电压是否存在异常;并根据平台日志,确认故障的类型;结合cpu状态,检测内存控制器、pcie控制器是否存在异常;结合黑盒日志与在输入输出模块上显示故障检测结果定位故障位置。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:本发明实施例提出了一种用于服务器故障检测的便携式设备及方法,该设备是基于armcortexa9内核的一个简易的嵌入式设备,该设备包括:mcu,用于运行操作系统,以及运行和分析bmc日志的软件;内存模块,用于提供运行内存;系统存储模块,作为系统存储器,存储从服务器bmc返回的检测数据;输入输出模块,用于与外界进行信息交互,显示故障检测结果。基于本发明实施例提出的一种用于服务器故障检测的便携式设备,还提出了一种用于服务器故障检测的方法,在输入输出模块上设置服务器故障检测设备的网络参数;带外通过故障检测设备给bmc发送数据,bmc收到所述故障检测设备发送的数据;带外通过故障检测设备给bmc发送ipmi命令,bmc收到ipmi命令并作出回复,使故障检测设备与bmcping通;故障检测设备按照cmd列表发送命令给bmc,并保存bmc根据cmd列表返回的检测数据;按照预设值以及根据所述cmd列表返回的检测数据分析服务器的健康状态,在输入输出模块上显示故障检测结果。本发明提出的一种服务器故障检测的便携式设备,方便客户现场故障快速定位,避免了携带笔记本电脑,可以通过设备软件中内置的故障特征库进行故障诊断,避免占用后台资源,通过网线直接与bmc通信,快速诊断故障,使用方便。附图说明附图1是本发明实施例1提出的一种用于服务器故障检测的便携式设备连接示意图;附图2是基于本发明实施例1提出的一种用于服务器故障检测的便携式设备的检测方法流程图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。实施例1本发明实施例1提出了一种用于服务器故障检测的便携式设备,该设备包括是基于armcortexa9内核的一个简易的嵌入式设备,包括:mcu,用于运行操作系统,以及运行和分析bmc日志的软件;内存模块,用于提供运行内存;系统存储模块,作为系统存储器,存储从服务器bmc返回的检测数据;输入输出模块,用于与外界进行信息交互,显示故障检测结果。mcu通过rgmii接口与以太网接口互相通信;以太网接口与服务器的bmc互相通信;mcu通过ddr3接口与内存模块相连;mcu通过lvds接口与输入输出模块相连mcu通过emmc的接口与系统存储模块相连。该设备还包括供电模块;供电模块用于提供故障检测设备所需的电源;供电模块分别与mcu、内存模块、系统存储模块和输入输出模块相连。如图1所示给出了一种用于服务器故障检测的便携式设备连接示意图。mcu的型号采用三星s5p4418,以太网接口的型号为rj45以太网接口。输入输出模块包括触摸屏。内存模块为ddr3模块;系统存储模块采用emmc模块。mcu,用于运行操作系统,以及运行和分析bmc日志的软件,以及处理通过输入输出模块输入的命令以及数据,分析bmc日志;ddr3用于提供运行内存;emmc模块作为系统存储器,存储检测数据,触摸屏用于与外界进行信息交互。mcu通过rgmii接口与rj45以太网接口互相通信,rj45以太网接口,提供以太网接口与待检测服务器的bmc专口相连;mcu通过ddr3接口与ddr3模块相连;mcu通过lvds接口与触摸屏相连;mcu通过emmc的接口与emmc模块相连。其中emmc的接口包括clk、datastrobe、command和data[8:0]。该便携式设备上还设置有按钮和led,用于设备输入输出确认以及状态显示,mcu通过gpio与按钮及led相连。基于本发明实施例1提出的一种用于服务器故障检测的便携式设备,还提出了一种服务器故障检测的便携式设备的检测方法。首先,将该故障检测设备与服务器bmc管理专口使用网线连接到一起,然后进行系统自检以及初始化。其次,在触摸屏上设置服务器故障检测设备的网络参数,使故障检测设备与bmcping通。其中网络参数包括ipmode、ip地址、掩码、网关以及带外idusername和带外iduserpassword。判断故障检测设备与bmc是否ping通分为两步:第一,确认网络是否可以ping通,带外通过故障检测设备给bmc发送数据,bmc可以收到故障检测设备发送的数据,则说明网络可以ping通。第二,确认是否可以带外登录管理账户,带过通过故障检测设备给bmc发送ipmi命令,bmc收到ipmi命令并作出回复,则说明可以带外登录管理账户,可以与带外管理交互。然后,故障检测设备按照cmd列表发送命令,并保存bmc根据cmd列表返回的数据;其中cmd列表包括系统信息、平台日志、平台状态、cpu状态和黑盒日志。系统信息,包括整机机型、sn、固件版本信息等。平台日志包括bmcsel信息等。平台状态,包括电压和温度的大小等。cpu状态,包括cpu中的寄存器的状态。黑盒日志与平台日志配合定位故障位置。最后,按照预设值以及根据cmd列表返回的数据分析服务器的健康状态,在输入输出模块上显示故障检测结果。平台日志:检查是否存在内存和pcie设备故障,若有故障则结合黑盒日志定位位置、温度和电压是否存在异常,通过看状态,如存在异常,结合平台状态的信息确认是软故障还是硬故障;其中,第一,软故障判定标准:内存报错correctableecc具有偶发性,不持续,或pcie设备出现少量ce报错。第二,硬故障判定标准:内存uncorrectableecc、或者correctableecc持续不断,pcie设备出现uce报错。平台状态,采用读取电压和温度的值检测电压和温度是否存在异常。cpu状态:cpu和pcie控制器有状态寄存器,通过状态寄存器,检查内存控制器、pcie控制器是否存在异常。黑盒日志与平台日志配合定位故障位置,例如:如故障现象为宕机,从bmc带外读出sel来发现有pcie设备的uce报错,无其它错误指向,则可以基本确认宕机是由某一个pcie设备导致的,进一步检查黑盒日志,读出pcieuce的具体位置和具体错误类型,确认是哪个外部设备的报错。如果故障通过上述信息无法判断,工程师将故障日志发回后台进行确认。如图2给出了基于本发明实施例1提出的一种用于服务器故障检测的便携式设备的检测方法流程图。在步骤s201中,开始处理该流程。在步骤s202中,系统进行自检以及初始化。在步骤s203中,设置服务器故障检测设备的网络参数,其中网络参数包括ipmode、ip地址、掩码、网关以及带外idusername和带外iduserpassword。在步骤s204中,检测故障检测设备与bmc是否可以ping通,判断的标准为,第一,确认网络是否可以ping通,带外通过故障检测设备给bmc发送数据,bmc可以收到故障检测设备发送的数据,则说明网络可以ping通。第二,确认是否可以带外登录管理账户,带过通过故障检测设备给bmc发送ipmi命令,bmc收到ipmi命令并作出回复,则说明可以带外登录管理账户,可以与带外管理交互。如果故障检测设备与bmc没有ping通,则返回步骤s203;如果故障检测设备与bmc可以ping通,则执行步骤s205。在步骤s205中,故障检测设备按照cmd列表发送命令。在步骤s206中,保存bmc返回的信息。并按照预设值,检测服务器的健康状态。在步骤s207中,判断cmd命令列表是否完成,如果没有执行完毕,则返回步骤s205,如果cmd命令列表执行完毕,则屏幕打印初步分析结果。在步骤s208中,屏幕打印初步分析结果。在步骤s209中,整个流程结束。以上内容仅仅是对本发明的结构所作的举例和说明,所属本
技术领域
:的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1