一种记录单板复位原因的方法、控制器及存储设备与流程

文档序号:16998696发布日期:2019-03-02 01:34阅读:222来源:国知局
一种记录单板复位原因的方法、控制器及存储设备与流程

本发明涉及存储领域,特别是涉及一种记录单板复位原因的方法、控制器及存储设备。



背景技术:

随着云服务及大数据的发展,存储设备的需求量越来越大。存储设备的稳定性对于云服务及大数据的发展至关重要。但是,存储设备在长期运行过程中,可能会出现异常重启的情况。由于在存储设备重启的过程中,会伴随着存储设备的单板复位,所以重启前的信息很容易丢失。若重启前的信息丢失的话,会导致重启后无法查询到单板复位原因,从而不利于存储设备的故障定位、故障解决及后续的质量提升。

因此,如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。



技术实现要素:

本发明的目的是提供一种记录单板复位原因的方法、控制器及存储设备,可实时检测各工作模块的工作情况,并可将各工作模块的与单板复位相关的工作信息对应存储至信息存储空间。即使存储设备重启,重启后也可通过查询信息存储空间确定单板复位原因,从而有利于存储设备的故障定位、故障解决及后续的质量提升。

为解决上述技术问题,本发明提供了一种记录单板复位原因的方法,包括:

预先为存储设备中各工作模块一一设置信息存储空间;

实时检测各所述工作模块的工作情况;

当检测到任一所述工作模块出现与所述存储设备的单板复位相关的工作情况时,将该工作模块的与单板复位相关的工作信息存储至该工作模块对应的信息存储空间。

优选地,所述工作信息包括与单板复位相关的工作内容和信息生成时间。

优选地,各所述工作模块包括南桥平台控制器中心pch和/或基板管理控制器bmc和/或cpu和/或供电单元psu。

优选地,当所述工作模块为cpu时,所述当检测到任一所述工作模块出现与所述存储设备的单板复位相关的工作情况时,将该工作模块的与单板复位相关的工作信息存储至该工作模块对应的信息存储空间的过程具体为:

当检测到所述cpu出现与所述存储设备的单板复位相关的过温情况和/或运行错误情况时,将所述cpu的过温信息及过温时间,和/或运行错误信息及运行错误时间存储至所述cpu对应的信息存储空间。

优选地,当所述工作模块为psu时,所述当检测到任一所述工作模块出现与所述存储设备的单板复位相关的工作情况时,将该工作模块的与单板复位相关的工作信息存储至该工作模块对应的信息存储空间的过程具体为:

当检测到所述psu出现与所述存储设备的单板复位相关的掉电情况时,将所述psu的掉电信息及掉电时间存储至所述psu对应的信息存储空间。

优选地,该方法还包括:

预先为各所述工作模块一一设置标志存储空间;

在将某一工作模块的与单板复位相关的工作信息存储至该工作模块对应的信息存储空间的同时,将该工作模块对应的标志存储空间置位。

为解决上述技术问题,本发明还提供了一种记录单板复位原因的控制器,包括:

预设单元,用于预先为存储设备中各工作模块一一设置信息存储空间;

检测单元,用于实时检测各所述工作模块的工作情况;

存储单元,用于当检测到任一所述工作模块出现与所述存储设备的单板复位相关的工作情况时,将该工作模块的与单板复位相关的工作信息存储至该工作模块对应的信息存储空间。

优选地,各所述工作模块包括南桥pch和/或bmc和/或cpu和/或psu。

优选地,该控制器具体为复杂可编程逻辑器件cpld。

为解决上述技术问题,本发明还提供了一种存储设备,包括上述任一种记录单板复位原因的控制器。

本发明提供了一种记录单板复位原因的方法,包括:预先为存储设备中各工作模块一一设置信息存储空间;实时检测各工作模块的工作情况;当检测到任一工作模块出现与存储设备的单板复位相关的工作情况时,将该工作模块的与单板复位相关的工作信息存储至该工作模块对应的信息存储空间。

可见,本申请可实时检测各工作模块的工作情况,并可将各工作模块的与单板复位相关的工作信息对应存储至信息存储空间。即使存储设备重启,重启后也可通过查询信息存储空间确定单板复位原因,从而有利于存储设备的故障定位、故障解决及后续的质量提升。

本发明还提供了一种记录单板复位原因的控制器及存储设备,与上述记录方法具有相同的有益效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种记录单板复位原因的方法的流程图;

图2为本发明提供的一种记录单板复位原因的控制器的结构示意图;

图3为本发明提供的一种记录单板复位原因的控制器和存储设备中各工作模块的连接结构图。

具体实施方式

本发明的核心是提供一种记录单板复位原因的方法、控制器及存储设备,可实时检测各工作模块的工作情况,并可将各工作模块的与单板复位相关的工作信息对应存储至信息存储空间。即使存储设备重启,重启后也可通过查询信息存储空间确定单板复位原因,从而有利于存储设备的故障定位、故障解决及后续的质量提升。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参照图1,图1为本发明提供的一种记录单板复位原因的方法的流程图。

该记录单板复位原因的方法包括:

步骤s1:预先为存储设备中各工作模块一一设置信息存储空间。

具体地,为了避免存储设备重启后无法查询到单板复位原因(即单板重启原因),本申请提前从存储设备的所有工作模块中确定与单板复位相关的工作模块(即自身工作情况可能导致单板复位的工作模块)。然后,本申请为与单板复位相关的各工作模块一一设置信息存储空间,为后续存储各工作模块的与单板复位相关的工作信息打下基础。

步骤s2:实时检测各工作模块的工作情况。

具体地,本申请实时检测与单板复位相关的各工作模块的工作情况,目的是检测到正处于复位异常工作情况的工作模块(即此工作模块此时的工作情况可能会导致单板复位)。

步骤s3:当检测到任一工作模块出现与存储设备的单板复位相关的工作情况时,将该工作模块的与单板复位相关的工作信息存储至该工作模块对应的信息存储空间。

具体地,当检测到任一工作模块出现与存储设备的单板复位相关的工作情况(即复位异常工作情况)时,将该工作模块的与单板复位相关的工作信息(代表的是可能导致单板复位的原因,可称为复位信息)存储至该工作模块对应的信息存储空间。若此时系统发生重启,则在重启后便可查询出现复位异常工作情况的工作模块的信息存储空间,从而确定单板复位原因。

本发明提供了一种记录单板复位原因的方法,包括:预先为存储设备中各工作模块一一设置信息存储空间;实时检测各工作模块的工作情况;当检测到任一工作模块出现与存储设备的单板复位相关的工作情况时,将该工作模块的与单板复位相关的工作信息存储至该工作模块对应的信息存储空间。

可见,本申请可实时检测各工作模块的工作情况,并可将各工作模块的与单板复位相关的工作信息对应存储至信息存储空间。即使存储设备重启,重启后也可通过查询信息存储空间确定单板复位原因,从而有利于存储设备的故障定位、故障解决及后续的质量提升。

在上述实施例的基础上:

作为一种优选地实施例,工作信息包括与单板复位相关的工作内容和信息生成时间。

具体地,本申请的工作信息包括与单板复位相关的工作内容和信息生成时间(即工作模块出现复位异常工作情况的时间)。若系统重启,则可查询与重启时间较相近的信息生成时间对应的工作内容,从而确定单板复位原因。

作为一种优选地实施例,各工作模块包括南桥平台控制器中心pch和/或基板管理控制器bmc和/或cpu和/或供电单元psu。

具体地,本申请的与单板复位相关的各工作模块包括南桥pch(platformcontrollerhub,平台控制器中心)、bmc(baseboardmanagementcontrolle,基板管理控制器)、cpu及psu(powersupplyunit,供电单元)。这些工作模块均为导致单板复位的主要工作模块,当然,本申请的与单板复位相关的各工作模块还可包括其余一些导致单板复位的工作模块,本申请在此不做特别的限定,根据实际情况而定。

作为一种优选地实施例,当工作模块为cpu时,当检测到任一工作模块出现与存储设备的单板复位相关的工作情况时,将该工作模块的与单板复位相关的工作信息存储至该工作模块对应的信息存储空间的过程具体为:

当检测到cpu出现与存储设备的单板复位相关的过温情况和/或运行错误情况时,将cpu的过温信息及过温时间,和/或运行错误信息及运行错误时间存储至cpu对应的信息存储空间。

具体地,对于cpu来说,与存储设备的单板复位相关的工作情况有过温情况和运行错误情况,所以当检测到cpu出现过温情况和/或运行错误情况时,将cpu的过温信息(对应:与单板复位相关的工作内容)及过温时间(对应:信息生成时间),和/或运行错误信息(对应:与单板复位相关的工作内容)及运行错误时间(对应:信息生成时间)存储至cpu对应的信息存储空间。

作为一种优选地实施例,当工作模块为psu时,当检测到任一工作模块出现与存储设备的单板复位相关的工作情况时,将该工作模块的与单板复位相关的工作信息存储至该工作模块对应的信息存储空间的过程具体为:

当检测到psu出现与存储设备的单板复位相关的掉电情况时,将psu的掉电信息及掉电时间存储至psu对应的信息存储空间。

具体地,对于psu来说,与存储设备的单板复位相关的工作情况有掉电情况,所以当检测到psu出现掉电情况时(具体检测:检测psu的powerok信号,当双电源掉电时,powerok信号跌落),将psu的掉电信息(对应:与单板复位相关的工作内容)及掉电时间(对应:信息生成时间)存储至psu对应的信息存储空间。

综上,本申请不但可以记录cpu大系统和bmc小系统这类软件发起的复位,而且可以记录像psu电源掉电、cpu过温保护这类硬件故障导致的单板复位。

作为一种优选地实施例,该方法还包括:

预先为各工作模块一一设置标志存储空间;

在将某一工作模块的与单板复位相关的工作信息存储至该工作模块对应的信息存储空间的同时,将该工作模块对应的标志存储空间置位。

进一步地,本申请还可提前为与单板复位相关的各工作模块一一设置标志存储空间,目的是当检测到任一工作模块出现复位异常工作情况时,将该工作模块对应的标志存储空间置位,也就是说,标志存储空间的数值状态(可称为复位标志)代表对应的工作模块是否出现复位异常工作情况。则在系统重启后通过查询标志存储空间,即可判断出具体哪个工作模块出现复位异常工作情况;再通过查询相应的信息存储空间,即可查询到详细的单板复位原因。

请参照图2,图2为本发明提供的一种记录单板复位原因的控制器的结构示意图。

该记录单板复位原因的控制器包括:

预设单元1,用于预先为存储设备中各工作模块一一设置信息存储空间;

检测单元2,用于实时检测各工作模块的工作情况;

存储单元3,用于当检测到任一工作模块出现与存储设备的单板复位相关的工作情况时,将该工作模块的与单板复位相关的工作信息存储至该工作模块对应的信息存储空间。

作为一种优选地实施例,各工作模块包括南桥pch和/或bmc和/或cpu和/或psu。

作为一种优选地实施例,该控制器具体为复杂可编程逻辑器件cpld。

具体地,本申请的控制器可选用但不仅限于cpld(complexprogrammablelogicdevice,复杂可编程逻辑器件),并可采用verilog硬件描述语言进行相关的逻辑控制和记录。

请参照图3,图3为本发明提供的一种记录单板复位原因的控制器和存储设备中各工作模块的连接结构图。其中,cpld通过lpc总线和南桥pch连接,南桥pch可通过lpc总线实现对cpld逻辑寄存器的读写(南桥pch的复位原因存储至逻辑寄存器a、复位标志存储至flag_a寄存器);cpld通过spi总线和bmc连接,bmc可通过spi总线实现对cpld逻辑寄存器的读写(bmc的复位原因存储至逻辑寄存器b,复位标志存储至flag_b寄存器);cpld与cpu生成可导致单板复位的信号(如过温信号、caterr)的端口连接,便于对所有硬件复位源进行监控(cpu的复位原因存储至逻辑寄存器c、复位标志存储至flag_c寄存器);cpld与psu生成powerok信号的端口连接(psu的复位原因存储至逻辑寄存器d、复位标志存储至flag_d寄存器)。可见,在系统重启后通过查询cpld寄存器flag_a、flag_b、flag_c、flag_d,即可判断出具体哪个工作模块出现复位异常工作情况;再查询相应的cpld逻辑寄存器(a、b、c、d),即可查询到详细的单板复位原因。

综上,本申请采用cpld和南桥pch、bmc、cpu及psu互联,cpld可完整记录各个模块的复位信息;当系统重启后,通过查询cpld寄存器,便可确定单板复位原因。

本实施例提供的控制器的其他介绍请参考上述方法实施例,本申请在此不再赘述。

本发明还提供了一种存储设备,包括上述任一种记录单板复位原因的控制器。

本申请提供的存储设备的介绍请参考上述控制器的实施例,本申请在此不再赘述。

还需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1