服务器故障检测系统及方法与流程

文档序号:11063408阅读:1355来源:国知局
本发明涉及一种服务器故障检测系统及方法。
背景技术
:传统的服务器故障检测通常借助于平台管理控制器(BaseboardManagementController,简称BMC)获取服务器系统内的各个异常事件,并通过LED驱动器显示将异常事件显示出来。然而,由于BMC的运算能力有限,当BMC需处理的资源过多而无法工作时,该服务器系统的异常事件将无法被呈现,从而,会产生故障检测中断,导致技术人员无法进行故障检测的问题。技术实现要素:鉴于以上内容,有必要提供一种能实时监控系统异常事件,并能即时将异常事件呈现的服务器故障检测系统及方法。一种服务器故障检测系统,该服务器故障检测系统包括:一现场可编程阵列,用于检测系统中相应位置的故障事件,并输出该故障事件的逻辑电平信号;及一用户介面,包括一显示器及一处理单元,所述处理单元用于接收所述故障事件的逻辑电平信号,并判断该故障事件的逻辑电平信号的边缘状态是否存在变化,若存在变化,则处理单元输出故障信息至显示器。一种服务器故障检测方法,应用于一服务器故障检测系统中,该方法包括步骤:检测服务器系统中的故障事件;将该故障事件以逻辑电平的形式输出;判断该故障事件的逻辑电平信号的边缘状态是否存在变化,若存在变化,则输出故障信息。相较于现有技术,本发明的服务器故障检测系统及方法通过现场可编程阵列能实时侦测服务器系统的故障事件,并通过用户介面的处理单元将该故障事件处理后呈现于显示器,从而,为使用者提供实时、直观、可靠的故障事件提示,以提高检测效率。附图说明图1是本发明服务器故障检测系统较佳实施例的的示意图。图2是本发明服务器故障检测系统的用户介面的较佳实施例的方框图。图3是本发明服务器故障检测方法中故障事件由现场可编程阵列到用户介面的较佳实施例的流程图。图4是本发明服务器故障检测方法中用户介面处理故障事件的较佳实施例的流程图。主要元件符号说明服务器故障检测系统10现场可编程阵列11用户介面12异常事件检测单元110寄存器转换级电路112锁存模组201处理器模组202串口传输器113、114第一检测单元1101第二检测单元1102第三检测单元1103第四检测单元1104设定单元1105显示器120处理单元122选择单元1221判断单元1222检测单元1223控制单元1224输出单元1225如下具体实施方式将结合上述附图进一步说明本发明。具体实施方式下面结合附图及较佳实施方式对本发明作进一步详细描述:参考图1,是服务器故障检测系统10较佳实施例的示意图。在本实施例中,所述的服务器故障检测系统10包括,但不仅限于,一现场可编程阵列11及一用户介面12。所述现场可编程阵列11包括一异常事件检测单元110及一寄存器转换级(RegisterTransferLevel,简称RTL)电路112。所述RTL电路112包括一锁存模组201及一处理器模组202。所述异常事件检测单元110通过一串口传输器113与锁存模组201相连,所述处理器模组202通过一串口传输器114与用户介面12相连。在本实施例中,所述串口传输器113及114采用RS232串行总线进行串口之间的数据传输。在本实施例中,所述异常事件检测单元110包括,但不仅限于,第一检测单元1101、第二检测单元1102、第三检测单元1103、第四检测单元1104及一设定单元1105。所述第一检测单元1101用于检测服务器中处理器、存储器及芯片组的是否存在故障。所述第二检测单元1102用于检测服务器中备用保险丝芯片是否存在故障。所述第三检测单元1103用于检测服务器中各个供电电源是否存在故障。所述第四检测单元1104用于检测服务器中各个稳压器是否存在故障。每一检测单元检测系统中相应位置的故障事件,并将该故障事件以逻辑电平的形式输出。所述设定单元1105用以接收所述第一至第四检测单元的检测到的故障信号的逻辑电平,并将该些故障信号的逻辑电平设定统一的故障状态值,例如:逻辑“0”。所述锁存模组201用于接收所述异常事件检测单元110侦测到的故障状态值,以将该故障事件的故障状态值暂存以维持某种电平状态,避免该故障状态值受后续信号的影响而改变电平状态。所述处理器模组202为基于32位的精简指令集计算机(ReducedInstruction-SetComputer,简称RISC)架构的软微处理器,在本实施例中,该处理器模组202为LatticeMico32芯片。所述处理器模组202通过基本输入输出(GeneralPurposeInput/Output,GPIO)接口与锁存模组201相连,并用以接收所述锁存模组201输出的暂存后的故障状态值的逻辑电平信号。所述该处理器模组202将该故障状态值的逻辑电平信号通过串口传输器114传递至用户介面12。请参照图2,所述用户介面12包括一显示器120及一处理单元122,所述处理单元122包括一选择单元1221、一判断单元1222、一检测单元1223、一控制单元1224及一输出单元1225。所述选择单元1221用以选择一待检测的串口,以接收所述故障事件的逻辑电平信号。所述判断单元1222判断串口是否选择成功。所述选择单元1221还用以选择该串口的波特率,以设定该串口通信时的速率,并传递给所述判断单元1222判断串口波特率是否匹配成功。所述判断单元1222还用以检测每一串口是否存在串口连线,若不存在,则所述控制单元1224控制输出单元1225输出一串口初始化失败的信息,并提示用户是否继续操作,若用户选择继续,则所述控制单元1224清空串口的缓存数据,并扫描串口的数据。所述检测单元1223还用于检测数据传输的起始位置和结束位置,并根据起始位置和结束位置来获取传输的数据,并检测数据边缘状态。所述判断单元1222还用于判断该数据边缘状态是否存在上升沿,若存在上升沿,则输出单元1225输出一故障提示信息至所述显示器120。所述判断单元1222还用于判断所有的数据边缘状态是否检测完毕,若没有检测完毕,则继续检测数据边缘状态;若检测完毕,则结束进程。参考图3所示,是应用于上述服务器故障检测系统10的故障检测方法中故障事件由现场可编程阵列到用户介面的较佳实施例的流程图,步骤包括如下:步骤S301,所述异常事件检测单元110通过每一检测单元检测系统中相应位置的故障事件,并将该故障事件以逻辑电平的形式输出。步骤S302,所述设定单元1105接收所述每一检测单元的检测到的故障信号的逻辑电平,并将该些故障信号的逻辑电平设定统一的故障状态值,例如:逻辑“0”。步骤S303,所述锁存模组201接收所述异常事件检测单元110侦测到的故障状态值,以将该故障事件的故障状态值暂存以维持某种电平状态。步骤S304,所述处理器模组202通过GPIO接口接收所述锁存模组201输出的暂存后的故障状态值的逻辑电平信号,并将该故障状态值的逻辑电平信号通过串口传输器114传递至用户介面12的串口。参考图4所示,为用户介面12接收到所述现场可编程阵列11输出的故障状态值的逻辑电平信号,并进行处理的的较佳实施例的流程图,该处理步骤包括如下:步骤S401,所述选择单元1221选择用户介面12的一待检测的串口,以接收所述故障事件的逻辑电平信号,在本实施例中,串口的选择包括通过检测单元1223检查串口驱动程序。步骤S402,所述判断单元1222判断所述串口选择是否选择成功,若未成功选择串口,则返回步骤S401;若成功选择串口,则执行步骤S403。步骤S403,所述选择单元1221选择该串口的波特率,以设定该串口通信时的速率,并传递给所述判断单元1222。步骤S404,所述判断单元1222判断串口波特率是否匹配成功,若匹配成功则执行步骤S405,若未匹配成功,则返回步骤S403。步骤S405,判断单元1222检测每一串口是否存在串口连线,若不存在,则执行步骤S406;若存在,则执行步骤S408。步骤S406,所述控制单元1224控制输出单元1225输出一对话框以显示串口初始化失败的信息。步骤S407,输出单元1225输出的对话框提示用户是否继续操作,若用户选择继续,则执行步骤S408;若用户选择不继续,则关闭该对话框以结束进程。步骤S408,控制单元1224清空串口的缓存数据,并扫描该串口的数据。步骤S409,所述检测单元1223检测数据传输的起始位置和结束位置,以确定获取数据的字符区间范围。在本实施例中,先检测起始位置,当起始位置确定好后,再检测结束位置。步骤S410,所述检测单元1223根据起始位置和结束位置来获取传输的数据,并检测该数据的边缘状态,在本实施例中,该数据的边缘状态是指该数据的边缘处的逻辑电平状态。步骤S411,所述判断单元1222判断该数据边缘状态是否存在上升沿,若存在上升沿,则执行步骤S412;若不存在上升沿,则返回步骤S410。步骤S412,输出单元1225输出一故障提示信息至所述显示器120,以提示用户故障事件发生的位置及类型。步骤S413,所述判断单元1222判断所有的数据的边缘状态是否检测完毕,若没有检测完毕,则返回步骤S410;若已经检测完毕,则结束进程。综上,通过上述服务器故障检测系统及方法,能够实时、准确、不间断地完成服务器故障检测工作。以上实施例仅用以说明本发明的技术方案而非限制,尽管参照以上较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换都不应脱离本发明技术方案的精神和范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1