一种服务器上电状态监测系统及方法与流程

文档序号:15163870发布日期:2018-08-14 17:11阅读:127来源:国知局

本发明涉及计算机技术领域,特别涉及一种服务器上电状态监测系统及方法。



背景技术:

服务器作为一种计算机设备,在启动时,计算机各个部件的上电时序,是主板上的供电,从最开始的电压适配器电压输入,到最后的cpu供电的产生,都有严格地开启顺序控制。bios(basicinputoutputsystem,基本输入输出系统)启动前的上电异常在存储系统领域是极为难于定位的难题,其出现概率相对较小,但是分析定位成本很高、难度很大,例如部件损坏、电源过压、欠压等都能够导致,如果仅靠硬件工程师量测信号会非常费时费力,fpga(field-programmablegatearray,即现场可编程门阵列)作为上电时序控制的关键部件,精准定义了每个关键电压信号的先后顺序,如果某个电压信号无法启动,该电压信号之后的电信号也将无法启动,从而存储系统无法启动。

上电异常侦测是比较难于分析的,在存储系统保有量持续增加的时代,如何提供一种低成本、简单、精准的存储系统异常检测机制,是本领域技术人员亟待解决的技术问题。



技术实现要素:

有鉴于此,本发明的目的在于提供一种服务器上电状态监测系统及方法,低成本、简单、精准地对服务器的上电异常状况进行检测。其具体方案如下:

一方面,本发明提供一种服务器上电状态监测系统,包括:fpga部,expander部;

所述fpga部,用于控制服务器上电时序启动,并记录对应的上电状况信息到存储器;

所述expander,用于获取所述上电状况信息;判断所述上电状况信息中是否存在异常状况信息;如果是,则记录所述异常状况信息。

优选地,所述expander,还用于:

重复获取n次上电状况信息;

判断n次所述上电状况信息中是否存在相一致的异常状况信息;

如果是,则记录所述异常状况信息;所述n为大于1的正整数。

优选地,还包括:

i2c总线,用于连接所述fpga部与所述expander部,传递所述上电状况信息。

优选地,所述存储器为寄存器。

优选地,所述fpga部,还用于当记录到服务器上电状况存在异常状况时,控制服务器上电时序停止。

优选地,还包括:通信装置,用于传输所述异常状况信息到预设位置。

另一方面,本发明提供一种服务器上电状态监测方法,应用于上述任一种服务器上电状态监测系统,包括:

fpga部,控制服务器上电时序启动,并记录对应的上电状况信息到存储器;

所述expander获取所述上电状况信息;

所述expander判断所述上电状况信息中是否存在异常状况信息;

如果是,则所述expander记录所述异常状况信息。

优选地,还包括:

所述expander重复获取n次上电状况信息;

所述expander判断n次所述上电状况信息中是否存在相一致的异常状况信息;

如果是,则所述expander记录所述异常状况信息;所述n为大于1的正整数。

优选地,还包括:

所述fpga部,当记录到服务器上电状况存在异常状况时,控制服务器上电时序停止。

优选地,还包括:所述expander传输所述异常状况信息到预设位置。

本发明提供一种服务器上电状态监测系统,包括:fpga部,expander部;所述fpga部,用于控制服务器上电时序启动,并记录对应的上电状况信息到存储器;所述expander,用于获取所述上电状况信息;判断所述上电状况信息中是否存在异常状况信息;如果是,则记录所述异常状况信息。本发明提供的服务器上电状态监测系统,在fpga部控制服务器上电时,能够监测fpga在存储器中记录的上电状况信息,并判断其中有误异常状况信息,从而对异常状况信息进行记录,以方便后续利用该记录,对服务器的上电工作状态进行分析,能够低成本、简单、精准地对服务器的上电异常状况进行检测。

本发明提供一种服务器上电状态监测方法,应用于上述服务器上电状态监测系统,也具有上述的有益效果,在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明具体实施方式提供的服务器上电状态监测系统的组成示意图;

图2为本发明具体实施方式提供的服务器上电状态监测系统的拓展组成示意图;

图3为本发明一种具体实施方式提供的一种服务器上电状态监测方法的流程图;

图4为本发明一种具体实施方式提供的一种服务器上电状态监测方法的重复确定流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图1,图1为本发明具体实施方式提供的服务器上电状态监测系统的组成示意图。

在本发明的一种具体实施方式中,本发明实施例提供一种服务器上电状态监测系统100,包括:fpga部110,expander部120;

所述fpga部110,用于控制服务器上电时序启动,并记录对应的上电状况信息到存储器111111;

所述expander部120,用于获取所述上电状况信息;判断所述上电状况信息中是否存在异常状况信息;如果是,则记录所述异常状况信息。

一般地,在服务器上电控制中,fpga部110的并行处理度高,适合与触发器丰富的结构,因此适合于完成时序逻辑。因此,在服务器中,设计采用fpga部110来控制服务器各个部分的上电情况。fpga部110记录各个部分的上电情况到存储器111,每个部分的上电情况占用1个bit的空间,该部分正常启动后fpga部110将存储相应bit设置为1,而未启动设置为0,expander部120通过读取存储器111器信息,得知服务器各个部分的上电情况。服务器正常开机后,fpga部110中定义好的存储器111每个bit位都是1(即每个定义好的电信号都启动完成),如果服务器某个部分无法启动,则expander部120将读到相应的bit位为0,以此判断该bit位对应的服务器上电部分没有正常上电。

众所周知,expander部120的供电是standby(备用)电,所以expander部120在服务器启动之前先启动,因此,expander部120能够访问fpga部110获取上电状况信息,判断其中是否存在异常状况信息,并记录异常状况信息,继而可以方便将记录的异常状况信息上传到上位机,供用户或技术工程师查看、分析服务器的具体异常部位。

在本发明的一种具体实施方式中,expander部120周期性地向fpga部110发送请求命令获取fpga部110寄存器内存储的上电状况信息,例如,如果服务器上电顺序依次为:s4、p12v、p5v、p3.3v、vpp…,相应地,设定对应的存储位置名称依次为:bit1、bit2、bit3、bit4、bit5…,那么如果expander部120将能够通过约定的规则得知bit3及以后的bit位为0,也就是p3.3v(第四个上电部位)及以后的电信号没有启动,expander部120将记录p3.3v未正常启动的事件,用户或技术人员发现服务器未正常启动后通过网络访问expander部120获取此异常事件,从而得知造成上电异常的原因为p3.3v未启动,再结合与p3.3v相关的部件推断出哪些可疑部件存在异常,从而寻找到故障的根本原因。

进一步地,为了减少expander部120的误判,可以设置所述expander部120,还用于:重复获取n次上电状况信息;判断n次所述上电状况信息中是否存在相一致的异常状况信息;如果是,则记录所述异常状况信息;所述n为大于1的正整数。

因为expander部120采用周期性轮询的方式获取fpga部110寄存器数据,存在误告警的风险,即expander部120读取数据时fpga部110正常进行上电过程,尚未来得及更新寄存器(最近上电信号之后的信号bit位是0),而expander部120获取到未更新前的寄存器数据,误以为bit位没设置为1而认为该信号未上电,为了避免此类误告警,expander部120需要对fpga部110获取数据进行重试,即expander部120侦测到有未启动信号时,多获取几次fpga部110数据以确认异常是否真正发生,可以根据上电时序总体时间和expander部120轮训获取fpga部110的时间设置合适的重试次数。例如重试次数为3,expander部120继续发送i2c请求获取fpga部110寄存器,如果3次获取的寄存器数据都表明该信号没有正常启动,说明该信号真的没有启动,expander部120记录该信号未启动的事件。

更进一步地,为了在fpga部110与expander部120之间传递信息,可以在两者之间设置i2c总线,用于连接所述fpga部110与所述expander部120,传递所述上电状况信息。i2c总线是由philips公司开发的一种简单、双向二线制同步串行总线。它只需要两根线即可在连接于总线上的器件之间传送信息。存储系统硬盘控制器作为监控管理设备通过i2c连接到fpga部110,fpga部110提供i2c模块,expander部120作为i2c的master设备,fpga部110作为i2c的slave设备;expander部120通过给fpga部110发送i2c请求获取fpga部110寄存器数据。

expander部120和fpga部110约定好fpga部110存储上电时序信号状态存储器111位置,即所在fpga部110整体存储器111空间的位置,以便expander部120发送i2c请求时指定该位置获取到对应的寄存器数据;expander部120和fpga部110两端约定每个电信号对应的bit位置。

值得指出的是,为了方便fpga部110进行上电状况信息的存储,所述存储器111为寄存器。寄存器拥有非常高的读写速度,所以在寄存器之间的数据传送非常快。fpga部110配置寄存器,为上电时序侦测开辟一段寄存器区域,每个电信号设置一个bit位,一般通用服务器的上电时序信号有20个左右,例如powerbutton被按下后s4、p12v、p5v、p3.3v、vpp…等电信号将先后启动,所以需要3个字节的寄存器,1个字节8个bit,3个字节24个bit,按照电信号的上电顺序给每个电信号分配相应的bit位置,bit位为1代表该bit位对应电信号启动,为0代表对应的电信号未启动;fpga部110编写逻辑程序,上电前默认所有寄存器bit位为0,按照所述方案的逻辑过程,在每个信号启动后下一个信号启动前设置约定的相应bit位为1。expander部120和fpga部110约定好fpga部110的寄存器位置;expander部120通过i2c命令获取到整个时序侦测寄存器数据后,查看每个电信号的对应的bit位就能得知哪个电信号启动,哪个电信号未启动。

服务器开机前,即fpga部110上电时序启动前,fpga部110寄存器中默认所有bit位为0,每个电信号启动以后下一个电信号启动前,fpga部110设置相应的bit位为1,举例说明,powerbutton按下后上电时序启动,第一个信号为s4,s4启动后设置bit0位1,接着p12v启动后设置bit1位1,p5v启动后设置bit2位1,假定接下来的p3.3v未启动,那么p3.3v对应的bit3为0,其后面的所有电信号将无法启动,相应的bit都为0;从整个寄存器分布可以看到,bit0-2是1,而bit3及以后的bit位都为0。

还需要指出的是fpga部110在控制服务器上电的过程中,当记录到服务器上电状况存在异常状况时,控制服务器上电时序停止。fpga部110上电时每个电信号都是按照预设好的顺序一个一个的上电启动,前一个信号的启动时下一个信号上电的输入,如果某一个信号无法正常启动,后面所有信号将不会被启动。

本发明提供一种服务器上电状态监测系统,包括:fpga部110,expander部120;所述fpga部110,用于控制服务器上电时序启动,并记录对应的上电状况信息到存储器111;所述expander部120,用于获取所述上电状况信息;判断所述上电状况信息中是否存在异常状况信息;如果是,则记录所述异常状况信息。本发明提供的服务器上电状态监测系统,在fpga部110控制服务器上电时,能够监测fpga部110在存储器111中记录的上电状况信息,并判断其中有误异常状况信息,从而对异常状况信息进行记录,以方便后续利用该记录,对服务器的上电工作状态进行分析,能够低成本、简单、精准地对服务器的上电异常状况进行检测。

请参考图2,图2为本发明具体实施方式提供的服务器上电状态监测系统的拓展组成示意图。

在上述具体实施方式的基础上,本具体实施方式中,为了将异常状况信息传递到容易查看的设备上,还可以在fpga部110设置通信装置121,用于传输所述异常状况信息到预设位置。expander部120作为简单的单片机,所支持控制协议比较简单,需要开发与上位机通信的服务端程序;区别于服务器专业的bmc监控管理芯片,expander部120带外管理支持较弱,采用串口方式与expander部120通信时,用户或技术人员需要到存储机房通过串口线连接到存储系统的expander部120。该通信装置121可以采用网络通信装置,例如4g、wifi等通信方式,也可以采用线路接口通信方式。

expander部120上报异常事件给上位机,expander部120编写嵌入式代码,启动基于串口或网络接口的状态反馈服务程序,expander部120和上位机约定串口或网络接口通信协议,约定发送的命令及返回的数据格式,上位机通过串口或网络接口连接expander部120,发送约定好的命令获取上电异常的事件,供用户或技术工程师查看。技术工程师得知造成上电异常的原因为某个电信号未启动时,再结合与该电信号相关的部件推断出哪些可疑部件存在异常,从而寻找到故障的根本原因,更换部件解决问题。

请参考图3,图3为本发明一种具体实施方式提供的一种服务器上电状态监测方法的流程图。

在本发明的一种具体实施方式中,本发明实施例提供一种服务器上电状态监测方法,应用于上述任一种具体实施方式中的服务器上电状态监测系统,包括:

s11:fpga部110,控制服务器上电时序启动,并记录对应的上电状况信息到存储器111;

s12:所述expander部120获取所述上电状况信息;

s13:所述expander部120判断所述上电状况信息中是否存在异常状况信息;

s14:如果是,则所述expander部120记录所述异常状况信息。

请参考图4,图4为本发明一种具体实施方式提供的一种服务器上电状态监测方法的重复确定流程图。

为了避免expander部120误判,可以采用多次重复确定上电异常状况的方式:

s21:所述expander部120重复获取n次上电状况信息;

s22:所述expander部120判断n次所述上电状况信息中是否存在相一致的异常状况信息;

s23:如果是,则所述expander部120记录所述异常状况信息;所述n为大于1的正整数。

为了节约流程,在fpga部110记录到异常状况时,也就是记录到服务器的某一部分没有正常上电时,所述fpga部110,当记录到服务器上电状况存在异常状况时,控制服务器上电时序停止。因为,如果fpga部110控制服务器继续上电,服务器最后也不能正常工作。

为了方便对异常状况信息的查看,所述expander部120可以传输所述异常状况信息到预设位置。例如可以将异常状况信息传递到上位机或则其他的方便查看的设备上。expander部120可以通过串口与上位机通信,上位机通过预先设定的串口命令从expander部120获知异常状态;如果可以接受成本少量增加,可以为expander部120配备网络控制器,通过发送网络命令给expander部120从而获取异常状况信息。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种服务器上电状态监测系统及方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1