服务器故障可视化侦测及处理方法、系统及可编程芯片的制作方法

文档序号:6549256阅读:241来源:国知局
服务器故障可视化侦测及处理方法、系统及可编程芯片的制作方法
【专利摘要】本发明公开了服务器故障可视化侦测及处理方法、装置及可编程芯片,该方法包括:可编程芯片接收服务器中的基板管理控制器BMC发送的故障信息;所述可编程芯片将所述故障信息发送至OLED显示器进行显示,并且根据所述故障信息判断故障级别,根据所述故障级别反馈相应的处理策略至所述BMC,以驱动所述BMC根据所述处理策略对所述服务器进行相应处理。本发明不仅能够减少BMS的占用率,还可以达到快速定位故障的目的,并且对多节点系统和冗余系统能够很好地支持,另外,可编程芯片能够判断发生的故障级别,并且反馈相应的处理策略来驱使BMC对故障进行相应处理。
【专利说明】服务器故障可视化侦测及处理方法、系统及可编程芯片
【技术领域】
[0001]本发明涉及计算机应用【技术领域】,具体涉及一种服务器故障可视化侦测及处理方法、系统及可编程芯片。
【背景技术】
[0002]高可靠性作为服务器的一个重要特性,使得故障检测必然成为服务器的一个重要功能。目前服务器故障检测主要是利用的LED灯与故障手册结合的方式,具体就是用户先判断LED灯的状态,然后查阅故障手册定位具体的故障,这种方法的缺点是故障手册中信息一般都很多,用户查找会花费很多的时间,无法做到快速定位故障的目的。
[0003]其次,传统的故障检测方法是通过BMC直接控制LED驱动器,如图1所示,基板管理控制器(BaseboardManagement Controller,简称 BMC)通过 SMB(SMBUS 的缩写)直接控制LED驱动器,让LED矩阵可以随时显示服务器的运行情况。当前,为了更好的实现人机交互,故障检测需要显示的内容的丰富性和即时性要求也越来越高。但是这样会占用运算能力有限的BMC相当多的资源,甚至有可能出现显示不及时的状况。并且,传统的故障检测方法仅适用于单节点非冗余系统,即每个节点的BMC智能控制相对于的LED矩阵,这种架构不适用于多节点系统和冗余系统。

【发明内容】

[0004]本发明需要解决的技术问题是提供一种服务器故障可视化侦测及处理方法、系统及可编程芯片,不仅能够减少BMS的占用率,还可以达到快速定位故障的目的。
[0005]为了解决上述技术问题,本发明提供了一种服务器故障可视化侦测及处理方法,包括:
[0006]可编程芯片接收服务器中的基板管理控制器BMC发送的故障信息;
[0007]所述可编程芯片将所述故障信息发送至OLED显示器进行显示,并且根据所述故障信息判断故障级别,根据所述故障级别反馈相应的处理策略至所述BMC,以驱动所述BMC根据所述处理策略对所述服务器进行相应处理。
[0008]进一步地,还包括:
[0009]所述可编程芯片接收到所述BMC发送的服务器的工作状态信息;
[0010]所述可编程芯片将所述工作状态信息发送至OLED显示器进行显示。
[0011]进一步地,所述可编程芯片采用智能平台管理接口 IPMI协议与所述BMC进行通信;所述可编程芯片通过I2C总线接收所述BMC发送的所述故障信息,通过通用异步收发器UART接口接收所述BMC发送的所述工作状态信息;所述可编程芯片通过UART接口反馈所述相应的处理策略至所述BMC ;
[0012]其中,所述可编程芯片为片上可编程系统PSOC系列芯片。
[0013]进一步地,所述故障信息包括:定位信息和报错信息;
[0014]所述方法还包括:BMC通过与FPGA通信进行定位,将所述故障信息以数据包格式发送给所述可编程芯片;所述定位信息为发生故障的硬件信息,所述报错信息为所述发生故障的硬件的出错信息。
[0015]进一步地,所述方法还包括:为每个故障级别设置相应的阈值以及处理策略,
[0016]所述根据所述故障信息判断故障级别,根据所述故障级别反馈相应的处理策略至所述BMC,以驱动BMC根据所述处理策略对服务器进行相应处理,包括:
[0017]如果所述报错信息达到某一故障级别对应的阈值,则判断发生的故障为该故障级另|J,并查询对应的处理策略,将所述处理策略发送至所述BMC,其中,所述处理策略中还包括:所述定位信息和所述故障级别。
[0018]进一步地,所述BMC包括一个或多个。
[0019]为了解决上述技术问题,本发明还提供了一种可编程芯片,用于服务器故障可视化侦测及处理,包括:
[0020]接收模块,用于接收BMC发送的故障信息;
[0021]显示控制模块,用于将所述故障信息发送至OLED显示器进行显示;
[0022]故障控制模块,用于根据所述故障信息判断故障级别,根据所述故障级别反馈相应的处理策略至所述BMC,以驱动BMC根据所述处理策略对服务器进行相应处理。
[0023]进一步地,所述可编程芯片采用IPMI协议与所述BMC进行通信;
[0024]所述接收模块,还用于通过I2C总线接收所述故障信息;
[0025]所述显示控制模块,还用于通过串行外设接口 SPI将所述故障信息发送至所述OLED显示器;
[0026]所述故障控制模块,还用于通过UART接口反馈所述相应的处理策略至所述BMC。
[0027]进一步地,所述故障信息包括:定位信息和报错信息;所述定位信息为发生故障的硬件的位置信息,所述报错信息为所述发送故障的硬件的出错信息。
[0028]所述故障控制模块,还用于为每个故障级别设置相应的阈值以及处理策略;
[0029]所述故障控制模块,用于根据所述故障信息判断故障级别,根据所述故障级别反馈相应的处理策略至所述BMC,以驱动BMC根据所述处理策略对服务器进行相应处理,包括:
[0030]如果所述报错信息达到某一故障级别对应的阈值,则判断发生的故障为该故障级另|J,并查询对应的处理策略,将所述处理策略发送至所述BMC,其中,所述处理策略中还包括:所述定位信息和所述故障级别。
[0031]为了解决上述技术问题,本发明还提供了一种服务器故障可视化侦测及处理系统,包括:一个或多个BMC、如上所述的可编程芯片以及OLED显示器。
[0032]与现有技术相比,本发明的至少一个实施例提供的服务器故障可视化侦测及处理方法、系统及可编程芯片,在服务器上增加OLED (有机发光二极管)显示器,在OLED显示器与BMC之间加上可编程芯片,此外,用户通过OLED显示的故障信息,可以快速定位到故障点;在另一个实施例中,采用PSOC (Programmable System On Chip,片上可编程系统)系列芯片,输入可以连接一个或多个BMC,输出到一个OLED显示器上,以实现由BMC控制PSOC驱动OLED显示的模式,不仅能够减少BMS的占用率,同时能够让客户了解更丰富的服务器的即时运行情况,并且对多节点系统和冗余系统能够很好地支持。在另一个实施例中,可编程芯片能够判断发生的故障级别,并且反馈相应的处理策略来驱使BMC对故障进行相应处理。【专利附图】

【附图说明】
[0033]图1是现有技术中故障检测示意图;
[0034]图2是实施例中服务器故障可视化侦测及处理装置的结构图;
[0035]图3是实施例中可编程芯片的结构图;
[0036]图4是实施例中服务器故障可视化侦测及处理方法的流程图。
【具体实施方式】
[0037]为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
[0038]实施例:
[0039]如图2所示,本实施例提供了一种服务器故障可视化侦测及处理系统,包括:BMC、可编程芯片以及OLED显示器,其中:
[0040]BMC与可编程芯片相互连接,并通过智能平台管理接口(IntelligentPlatformManagement Interface,简称IPMI)与所述可编程芯片通信;通过通用异步收发器(Universal Asynchronous Receiver/Transmitter,简称UART)接口发送服务器的工作状态信息,通过I2C总线发送故障信息至所述可编程芯片;所述可编程芯片通过UART接口反馈故障处理策略至BMC ;
[0041 ] BMC通过与FPGA通信获取服务器的工作状态信息或故障信息;
[0042]所述可编程芯片与OLED显示器相互连接,并通过串行外设接口(SerialPeripheral Interface,简称SPI)将所述故障信息发送至OLED显示器。
[0043]其中,可编程芯片可采用PSOC系列芯片,比如采用赛普拉斯公司生产的CypressPS0C4系列芯片。
[0044]优选地,该系统包括一个或多个BMC,一个可编程芯片通过连接多个BMC,以驱动OLED显示器显示故障信息,可以实现对多节点系统和冗余系统的支持。例如,现在一台八路服务器(八个CPU),可以有两种工作模式,八路工作模式和双四路工作模式,在八路工作模式下那就是一个BMC起作用,如果是双四路工作模式就是两个BMC起作用,BMC多少由具体的工作模式决定。
[0045]如图3所示,本实施例提供了可编程芯片,用于服务器故障可视化侦测及处理,包括:
[0046]接收模块,用于接收BMC发送的故障信息;
[0047]显示控制模块,用于将所述故障信息发送至OLED显示器进行显示;
[0048]故障控制模块,用于根据所述故障信息判断故障级别,根据所述故障级别反馈相应的处理策略至所述BMC,以驱动BMC根据所述处理策略对服务器进行相应处理。
[0049]其中,所述BMC包括一个或多个,显不控制模块将一个或多个BMC的故障信息发送至OLED显示器进行显示;故障控制模块,将与BMC对应的处理策略反馈至该BMC所属的服务器。
[0050]其中,所述可编程芯片采用IPMI协议与所述BMC进行通信;[0051]所述接收模块,还用于通过I2C总线接收所述故障信息;
[0052]所述显示控制模块,还用于通过串行外设接口 SPI将所述故障信息发送至所述OLED显示器;
[0053]所述故障控制模块,还用于通过UART接口反馈所述相应的处理策略至所述BMC。
[0054]其中,所述故障信息包括:定位信息和报错信息;所述定位信息为发生故障的硬件的位置信息,所述报错信息为所述发送故障的硬件的出错信息。例如,I号内存板上温度过高为多少,其中I号板为定位信息,温度为报错信息。BMC通过与现场可编程逻辑门阵列(Field Programmable Gate Array,简称FPGA)通信进行定位,将所述故障信息以数据包格式发送给所述可编程芯片,比如,故障信息格式可以是CPUOerror temperature65° ;
[0055]所述故障控制模块,还用于为每个故障级别设置相应的阈值以及处理策略;
[0056]所述故障控制模块,用于根据所述故障信息判断故障级别,根据所述故障级别反馈相应的处理策略至所述BMC,以驱动BMC根据所述处理策略对服务器进行相应处理,包括:
[0057]如果所述报错信息达到某一故障级别对应的阈值,则判断发生的故障为该故障级另IJ,并查询对应的处理策略,将所述处理策略发送至所述BMC,其中,所述处理策略中还包括:所述定位信息和所述故障级别。
[0058]例如,设置3个故障级别,分别是:警告故障、严重警告和不可恢复故障,以CPU为例,分别对应3个故障级别的阈值设为70°、80°、90°,也就是说,报错信息中CPU的温度达到70°为告警故障,达到90°则为不可恢复故障。对应警告和严重警告的处理策略可以是查看服务器风扇是否在位并启动,而严重警告对应的处理策略则可以是直接关机。BMC接收到可编程芯片的处理策略后,就可以根据所述处理策略对服务器进行相应处理。
[0059]另外,故障级别还可以包括普通警告,先发送至OLED显示,同时OLED会显示出用户对此故障的可操作选项,用户通过按键选中选项,进而可编程芯片才将该用户选中的故障处理方式作为对该普通告警故障的处理策略发送给BMC。
[0060]所述可编程芯片为片上可编程系统PSOC系列芯片。
[0061]如图4所示,本实施例提供了一种服务器故障可视化侦测及处理方法,包括以下步骤:
[0062]SlOl:可编程芯片接收到BMC发送的故障信息;
[0063]BMC需实时监控服务器是否发生故障,当监控到服务器发生故障时,将故障信息发送给可编程芯片;
[0064]所述故障信息包括:定位信息和报错信息;例如,I号内存板上温度过高为多少,其中I号板为定位信息,温度为报错信息。所述定位信息为发生故障的硬件信息,比如:发生故障的硬件是CPU、硬盘Disk、风扇以及内存板MRB、电源PSU等等,所述报错信息为所述发生故障的硬件的出错信息,如CPU电压和温度的出错信息、Disk出错信息、风扇出错信息等等。由BMC通过与FPGA通信进行定位,然后将所述故障信息以数据包格式发送给PSoC。例如,故障信息格式可以是CPUO error temperature65°。
[0065]优选地,与可编程芯片连接的BMC包括一个或多个,一个可编程芯片通过连接多个BMC,以驱动OLED显示器显示故障信息,可以实现对多节点系统和冗余系统的支持。
[0066]S102:所述可编程芯片将所述故障信息发送至OLED显示器进行显示,并且根据所述故障信息判断故障级别,根据所述故障级别反馈相应的处理策略至所述BMC,以驱动BMC根据所述处理策略对服务器进行相应处理。
[0067]其中,所述方法还包括:为每个故障级别设置相应的阈值以及处理策略,
[0068]所述根据所述故障信息判断故障级别,根据所述故障级别反馈相应的处理策略至所述BMC,以驱动BMC根据所述处理策略对服务器进行相应处理,包括:
[0069]如果所述报错信息达到某一故障级别对应的阈值,则判断发生的故障为该故障级另IJ,并查询对应的处理策略,将所述处理策略发送至所述BMC,其中,所述处理策略中还包括:所述定位信息和所述故障级别。
[0070]例如,设置3个故障级别,分别是:警告故障、严重警告和不可恢复故障,以CPU为例,分别对应3个故障级别的阈值设为70°、80°、90°,也就是说,报错信息中CPU的温度达到70°为告警故障,达到90°则为不可恢复故障。对应警告和严重警告的处理策略可以是查看服务器风扇是否在位并启动,而严重警告对应的处理策略则可以是直接关机。BMC接收到可编程芯片的处理策略后,就可以根据所述处理策略对服务器进行相应处理。
[0071]另外,故障级别还可以包括普通警告,先发送至OLED显示,同时OLED会显示出用户对此故障的可操作选项,用户通过按键选中选项,进而可编程芯片才将该用户选中的故障处理方式作为对该普通告警故障的处理策略发送给BMC。
[0072]优选地,所述BMC包括一个或多个,可编程芯片接收每个BMC发送的故障信息,并将一个或多个BMC的故障信息发送至OLED显示器进行显示;将与BMC对应的处理策略反馈至该BMC所属的服务器。
[0073]此外,当BMC没有监控到服务器发生故障,即服务器处于正常工作状态时,所述方法还包括:
[0074]BMC向所述可编程芯片发送服务器的工作状态信息;所述可编程芯片将所述工作状态信息发送至OLED显示器进行显示。
[0075]OLED显示器显示的工作状态信息包括:服务器硬件配置信息(比如:操作系统版本、CPU型号、内存以及硬盘大小)、网络配置参数(比如:ip地址、网关、子网掩码)、BMC固件版本信息、OLED固件版本信息、用户自定义字符串显示、服务器运行状态下CPU硬盘内存利用率信息、客服电话等。
[0076]其中,本实施例中,优选地采用赛普拉斯公司生产的PSOC芯片;PS0C芯片是指PSOC系统单片机,在一个专有的MCU(Microprogrammed Control Unit,微处理控制单元)内核周围集成了可配置的模拟和数字外围器件阵列PSOC块,利用芯片内部的可编程互联阵列,有效地配置芯片上的模拟和数字块资源,达到可编程片上系统的目的。在BMC和OLED之间加入PS0C,而PSOC中烧录了控制OLED显示所需的代码。
[0077]所述可编程芯片采用智能平台管理接口 IPMI协议与所述BMC进行通信;所述可编程芯片通过I2C总线接收所述BMC发送的所述故障信息,I2C总线是由PHILIPS公司开发的两线式串行总线,所述可编程芯片通过通用异步收发器UART接口接收所述BMC发送的所述工作状态信息;所述可编程芯片通过UART接口反馈所述相应的处理策略至所述BMC。
[0078]在一个应用示例中,以可编程芯片采用Cypress PS0C4芯片为例,Cypress PS0C4芯片通过UART接口与BMC通信以获取服务器正常工作状态和性能信息以及反馈相应的故障处理策略给BMC ;通过I2C总线与BMC通信以获取服务器发生故障时的故障信息。[0079]PS0C4将解析后的数据通过SPI传入OLED显示器的buffer,OLED显示器通过buffer里的数据做出相应的显示。
[0080]服务器无故障时,PS0C4芯片与BMC以IPMI协议进行通信,将获取到的相关服务器硬件配置信息、网络参数、利用率等信息发送给OLED显示器进行显示。
[0081]当服务器发生故障时,BMC通过I2C总线将故障信息发送给PS0C4芯片,PS0C4芯片将故障信息发送至OLED显示器,OLED显示器会跳出服务器正常显示状态,对故障信息进行两秒中闪烁报警,报警完成后,回到正常界面,同时会在显示屏的左上方显示一个报警标记位,用户可以通过OLED上的报警标识位,判断是否有故障以及是否故障已经被处理,若故障未处理,用户可以通过按键操作,对定位的故障源进行相应简单的处理,譬如对故障的源的控制芯片进行reset处理。用户若要查看故障信息,需要按键操作进入故障信息菜单项,显示故障信息。
[0082]同时,PS0C4芯片根据所述故障信息判断故障级别,根据所述故障级别反馈相应的处理策略至所述BMC,以驱动BMC根据所述处理策略对服务器进行相应处理。例如,PS0C4芯片判断发生了不可恢复故障,PS0C4芯片直接反馈关机的处理策略给BMC以驱动BMC对服务器进行关机处理。
[0083]从上述实施例可以看出,相对于现有技术,上述实施例中提供的的至少一个实施例提供的服务器故障可视化侦测及处理方法、装置及可编程芯片,在服务器上增加OLED显示器,在OLED显示器与BMC之间加上可编程芯片,此外,用户通过OLED显示的故障信息,可以快速定位到故障点;在另一个实施例中,采用PSOC系列芯片,输入可以连接一个或多个BMC,输出到一个OLED显示器上,以实现由BMC控制PSOC驱动OLED显示的模式,不仅能够减少BMS的占用率,同时能够让客户了解更丰富的服务器的即时运行情况,并且对多节点系统和冗余系统能够很好地支持。在另一个实施例中,可编程芯片能够判断发生的故障级另Ij,并且反馈相应的处理策略来驱使BMC对故障进行相应处理。
[0084]本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
[0085]以上所述仅为本发明的优选实施例而已,并非用于限定本发明的保护范围。根据本发明的
【发明内容】
,还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种服务器故障可视化侦测及处理方法,包括: 可编程芯片接收服务器中的基板管理控制器BMC发送的故障信息; 所述可编程芯片将所述故障信息发送至OLED显示器进行显示,并且根据所述故障信息判断故障级别,根据所述故障级别反馈相应的处理策略至所述BMC,以驱动所述BMC根据所述处理策略对所述服务器进行相应处理。
2.如权利要求1所述的方法,其特征在于,还包括: 所述可编程芯片接收到所述BMC发送的服务器的工作状态信息; 所述可编程芯片将所述工作状态信息发送至OLED显示器进行显示。
3.如权利要求2所述的方法,其特征在于: 所述可编程芯片采用智能平台管理接口 IPMI协议与所述BMC进行通信;所述可编程芯片通过I2C总线接收所述BMC发送的所述故障信息,通过通用异步收发器UART接口接收所述BMC发送的所述工作状态信息;所述可编程芯片通过UART接口反馈所述相应的处理策略至所述BMC ; 其中,所述可编程芯片为片上可编程系统PSOC系列芯片。
4.如权利要求1所述的方法,其特征在于: 所述故障信息包括:定位信息和报错信息; 所述方法还包括:BMC通过与FPGA通信进行定位,将所述故障信息以数据包格式发送给所述可编程芯片;所述定位信息为发生故障的硬件信息,所述报错信息为所述发生故障的硬件的出错信息。
5.如权利要求4所述的方法,其特征在于: 所述方法还包括:为每个故障级别设置相应的阈值以及处理策略, 所述根据所述故障信息判断故障级别,根据所述故障级别反馈相应的处理策略至所述BMC,以驱动BMC根据所述处理策略对服务器进行相应处理,包括: 如果所述报错信息达到某一故障级别对应的阈值,则判断发生的故障为该故障级别,并查询对应的处理策略,将所述处理策略发送至所述BMC,其中,所述处理策略中还包括:所述定位信息和所述故障级别。
6.如权利要求1~5任一项权利要求所述的方法,其特征在于: 所述BMC包括一个或多个。
7.一种可编程芯片,用于服务器故障可视化侦测及处理,包括: 接收模块,用于接收BMC发送的故障信息; 显示控制模块,用于将所述故障信息发送至OLED显示器进行显示; 故障控制模块,用于根据所述故障信息判断故障级别,根据所述故障级别反馈相应的处理策略至所述BMC,以驱动BMC根据所述处理策略对服务器进行相应处理。
8.如权利要求7所述的可编程芯片,其特征在于: 所述可编程芯片采用IPMI协议与所述BMC进行通信; 所述接收模块 ,还用于通过I2C总线接收所述故障信息; 所述显示控制模块,还用于通过串行外设接口 SPI将所述故障信息发送至所述OLED显示器; 所述故障控制模块,还用于通过UART接口反馈所述相应的处理策略至所述BMC。
9.如权利要求8所述的可编程芯片,其特征在于: 所述故障信息包括:定位信息和报错信息;所述定位信息为发生故障的硬件的位置信息,所述报错信息为所述发送故障的硬件的出错信息; 所述故障控制模块,还用于为每个故障级别设置相应的阈值以及处理策略; 所述故障控制模块,用于根据所述故障信息判断故障级别,根据所述故障级别反馈相应的处理策略至所述BMC,以驱动BMC根据所述处理策略对服务器进行相应处理,包括:如果所述报错信息达到某一故障级别对应的阈值,则判断发生的故障为该故障级别,并查询对应的处理策略,将所述处理策略发送至所述BMC,其中,所述处理策略中还包括:所述定位信息和所述故障级别。
10.一种服务器故障可视化侦测及处理系统,包括:一个或多个BMC、如权利要求7~9所述的可编程芯片以及OLED显示器。
【文档编号】G06F11/22GK104021054SQ201410258508
【公开日】2014年9月3日 申请日期:2014年6月11日 优先权日:2014年6月11日
【发明者】郑天 申请人:浪潮(北京)电子信息产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1