电源模块故障诊断方法、电源模块及整机柜服务器的制造方法

文档序号:10552455阅读:917来源:国知局
电源模块故障诊断方法、电源模块及整机柜服务器的制造方法
【专利摘要】本发明公开了一种电源模块故障诊断方法,包括:对电源模块的健康状态信息进行检测;当检测到所述电源模块的健康状态信息发生变化时,记录发生变化的健康状态信息到指定存储空间;当接收到读取指令时,输出所述指定存储空间内存储的健康状态信息;该方法能够获取电源模块出现故障的时的健康状态信息,使用户能够根据获取的电源模块的健康状态信息分析电源模块故障的原因,从而可以提高电源模块故障诊断的可靠性;进一步用户还可以根据获取到的信息预测电源模块的状态,防止出现电源故障;本发明公开了一种电源模块及整机柜服务器。
【专利说明】
电源模块故障诊断方法、电源模块及整机柜服务器
技术领域
[0001 ]本发明涉及电源技术领域,特别涉及一种电源模块故障诊断方法、电源模块及整机柜服务器。
【背景技术】
[0002]随着用户对计算机性能要求的提高,用户对服务器的数量需求越来越多。整机柜服务器在节点密度和TCO上与传统服务器相比具有很大的优势,并在实际中应用越来越广泛。整机柜服务器进行集中供电,整机柜服务器内部有一个电源模块,电源模块的输出直接连接到机柜后面的铜牌排,整机柜服务器的节点通过铜排进行供电。
[0003]整机柜服务器集中供电机制,对整机柜服务器内部电源的故障分析和故障诊断提出了新的挑战。整机柜服务器内部少量电源的故障可能因为铜牌的连接相互影响,最终导致整机柜供电异常。而现有技术中整机柜服务器掉电后,没有途径可以得知电源模块出现故障的原因,进而不能分析每次掉电时电源模块的故障原因。因此,如何实现对电源模块故障诊断,是本领域技术人员需要解决的技术问题。

【发明内容】

[0004]本发明的目的是提供一种电源模块故障诊断方法,该方法使用户能够及时根据获取的电源模块的健康状态信息分析电源模块故障的原因,从而可以提高电源模块故障诊断的可靠性;本发明的另一目的是提供一种电源模块及整机柜服务器。
[0005]为解决上述技术问题,本发明提供一种电源模块故障诊断方法,包括:
[0006]对电源模块的健康状态信息进行检测;
[0007]当检测到所述电源模块的健康状态信息发生变化时,记录发生变化的健康状态信息到指定存储空间;
[0008]当接收到读取指令时,输出所述指定存储空间内存储的健康状态信息。
[0009]其中,所述记录发生变化的健康状态信息到指定存储空间,包括:
[0010]记录发生变化的健康状态信息到指定存储空间;其中,所述健康状态信息包括健康状态信息变化的时间及状态信息。
[0011 ]其中,所述记录发生变化的健康状态信息到指定存储空间,包括:
[0012]记录发生变化的健康状态信息到所述电源模块非易失数据存储空间中。
[0013]其中,所述记录发生变化的健康状态信息到指定存储空间,包括:
[0014]判断指定存储空间是否为满;
[0015]若是,则确定所述指定存储空间内的写入时间最长的健康状态信息,并将所述发生变化的健康状态信息覆盖所述写入时间最长的健康状态信息。
[0016]其中,所述输出所述指定存储空间内存储的健康状态信息之后,还包括:
[0017]在所述指定存储空间中删除输出的健康状态信息。
[0018]本发明还提供一种电源模块,包括:
[0019]检测单元,用于对电源模块的健康状态信息进行检测;
[0020]记录单元,用于当检测到所述电源模块的健康状态信息发生变化时,记录发生变化的健康状态信息到指定存储空间;
[0021]输出单元,用于当接收到读取指令时,输出所述指定存储空间内存储的健康状态
?目息O
[0022]其中,所述记录模块包括:
[0023]判断子单元,用于判断指定存储空间是否为满;
[0024]记录子单元,用于若是,则确定所述指定存储空间内的写入时间最长的健康状态信息,并将所述发生变化的健康状态信息覆盖所述写入时间最长的健康状态信息。
[0025]其中,还包括:
[0026]删除单元,用于输出健康状态信息后,在所述指定存储空间中删除对应的健康状态?目息O
[0027]其中,所述记录单元具体为非易失数据存储器。
[0028]本发明还提供一种整机柜服务器,包括:
[0029]上述任一项所述的电源模块;
[0030]通过I2C总线与所述电源相连的监控管理模块;其中,所述监控管理模块通过PMBUS读取所述电源模块中的输出单元的数据。
[0031]本发明所提供的电源模块故障诊断方法,包括:对电源模块的健康状态信息进行检测;当检测到所述电源模块的健康状态信息发生变化时,记录发生变化的健康状态信息到指定存储空间;当接收到读取指令时,输出所述指定存储空间内存储的健康状态信息;该方法能够获取电源模块出现故障的时的健康状态信息,使用户能够根据获取的电源模块的健康状态信息分析电源模块故障的原因,从而可以提高电源模块故障诊断的可靠性,防止出现现有技术中未能获取故障数据,从而不能得到故障原因的情况;进一步用户还可以根据获取到的信息预测电源模块的状态,防止出现电源故障;本发明还提供了一种电源模块及整机柜服务器。
【附图说明】
[0032]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0033]图1为本发明实施例所提供的电源模块故障诊断方法的流程图;
[0034]图2为本发明实施例所提供的电源模块的结构框图;
[0035]图3为本发明实施例所提供的整机柜服务器的结构框图。
【具体实施方式】
[0036]本发明的核心是提供一种电源模块故障诊断方法,该方法使用户能够及时根据获取的电源模块的健康状态信息分析电源模块故障的原因,从而可以提高电源模块故障诊断的可靠性。
[0037]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0038]请参考图1,图1为本发明实施例所提供的电源模块故障诊断方法的流程图;该方法可以包括:
[0039]S100、对电源模块的健康状态信息进行检测;
[0040]SI 10、当检测到所述电源模块的健康状态信息发生变化时,记录发生变化的健康状态信息到指定存储空间;
[0041]其中,由于电源模块出现故障会影响整个设备的正常工作,因此需要对电源模块的健康状态信息进行检测,这里的检测可以是实时进行,也可以是根据实际需求按照预定周期进行检测,这里为了能够尽可能准确全面的获取电源模块的健康状态信息,检测周期应该尽可能的短,最好是能够实时进行。
[0042]这里的检测的健康状态信息的具体内容可以根据实际情况进行设定,可选的,健康状态信息可以包括健康状态信息变化的时间及状态信息。这里并不对健康状态信息的具体内容进行限定。
[0043]由于电源模块出现故障后,设备整体会出现掉电的情况。现有技术中,设备掉电后检测到的健康状态信息数据会被清空,在设备再次上电后,也找不到健康状态信息,因此不能够对电源模块出现的故障原因进行分析,进而不能确定电源模块的故障原因,不能进行及时的故障清理,可能会存在安全隐患。因此,本实施例会在检测到电源模块的健康状态信息发生变化时,立刻记录发生变化的健康状态信息到指定存储空间,这里的指定存储空间是非易失数据存储空间,例如是电源模块中的非易失数据存储空间,也可以是指定的设备其他位置的非易失数据存储空间。优选的,记录发生变化的健康状态信息到所述电源模块非易失数据存储空间中。这样可以快速的进行存储,且不需要对设备中的其他部件做出改变,比较方便快捷。
[0044]S120、当接收到读取指令时,输出所述指定存储空间内存储的健康状态信息。
[0045]其中,当设备恢复正常时,可以通过发送读取指令,获取指定存储空间内存储的健康状态信息;利用健康状态信息可以对电源故障原因进行及时,可靠的分析。
[0046]利用整机柜服务器电源模块离线故障诊断作为具体实施例说明该方法的具体处理过程:
[0047]整机柜服务器的电源模块FW检测到电源模块健康状态存在异常以后,将电源模块的健康状态的数据保存在电源模块非易失数据存储空间中。这样整机柜服务器电源失效后,电源模块的故障现场可以保存下来。整机柜服务器掉电之后,监控管理模块提供读取电源模块非易失数据存储空间记录的方法,读取到电源模块非易失数据存储空间数据,从而可以进行电源模块的故障原因的分析和故障诊断。
[0048]基于上述技术方案,本发明实施例提供的电源模块故障诊断方法,能够获取电源模块出现故障的时的健康状态信息,使用户能够根据获取的电源模块的健康状态信息分析电源模块故障的原因,从而可以提高电源模块故障诊断的可靠性,准确性;防止出现现有技术中未能获取故障数据,从而不能得到故障原因的情况;进一步用户还可以根据获取到的信息预测电源模块的状态,防止出现电源故障。
[0049]上述实施例中记录发生变化的健康状态信息到指定存储空间,这里的指定存储空间若很大,则不需要涉及到对指定存储空间内的数据进行清理的过程,但是一旦该指定存储空间大小有限,则必须要定期或者每次都对指定存储空间内的数据进行清理;例如电源模块内的非易失数据存储空间大小有限,因此需要有一定的数据清理机制;可选的,所述记录发生变化的健康状态信息到指定存储空间可以包括:
[0050]判断指定存储空间是否为满;
[0051 ]若是,则确定所述指定存储空间内的写入时间最长的健康状态信息,并将所述发生变化的健康状态信息覆盖所述写入时间最长的健康状态信息。
[0052]其中,这里是按照指定存储空间内的健康状态数据的存储时间为依据进行新旧数据的更替。例如定义电源模块log记录机制即PSU模块FW log记录的机制,log满后,循环从第一条log覆盖。
[0053]可选的,也可以在每次输出健康状态信息后即可将该健康状态信息删除,因为,下次再出现故障已经和该数据没有关系,且该数据已经输出,即便是用于对电源模块的预测也已经进行了输出记录。因此,可以在输出所述指定存储空间内存储的健康状态信息后,删除所述指定存储空间中输出的健康状态信息。
[0054]基于上述技术方案,本发明实施例提供的电源模块故障诊断方法,能够获取电源模块出现故障的时的健康状态信息,使用户能够根据获取的电源模块的健康状态信息分析电源模块故障的原因,从而可以提高电源模块故障诊断的可靠性,准确性;防止出现现有技术中未能获取故障数据,从而不能得到故障原因的情况;进一步用户还可以根据获取到的信息预测电源模块的状态,防止出现电源故障;通过指定存储空间的数据清除过程可以提高指定存储空间的利用率,以尽可能小的存储空间资源完成该实施例的记录健康状态信息的任务。
[0055]本发明实施例提供了电源模块故障诊断方法,使用户能够及时根据获取的电源模块的健康状态信息分析电源模块故障的原因。
[0056]下面对本发明实施例提供的电源模块及整机柜服务器进行介绍,下文描述的电源模块及整机柜服务器与上文描述的电源模块故障诊断方法可相互对应参照。
[0057]请参考图2,图2为本发明实施例所提供的电源模块的结构框图;该电源模块可以包括:
[0058]检测单元110,用于对电源模块的健康状态信息进行检测;
[0059]记录单元120,用于当检测到所述电源模块的健康状态信息发生变化时,记录发生变化的健康状态信息到指定存储空间;
[0060]输出单元130,用于当接收到读取指令时,输出所述指定存储空间内存储的健康状态?目息O
[0061 ] 可选的,所述记录模块120包括:
[0062]判断子单元,用于判断指定存储空间是否为满;
[0063]记录子单元,用于若是,则确定所述指定存储空间内的写入时间最长的健康状态信息,并将所述发生变化的健康状态信息覆盖所述写入时间最长的健康状态信息。
[0064]基于上述任意实施例,该电源模块还包括:
[0065]删除单元,用于输出健康状态信息后,在所述指定存储空间中删除对应的健康状态?目息O
[0066]可选的,所述记录单元120具体为非易失数据存储器。
[0067]请参考图3,图3为本发明实施例所提供的整机柜服务器的结构框图,该整机柜服务器可以包括:
[0068]上述任意实施例所述的电源模块100;
[0069]通过I2C总线与所述电源相连的监控管理模块200;其中,所述监控管理模块200通过PMBUS读取所述电源模块中的输出单元的数据。
[0070]电源模块100包括:电源控制模块和电源PSU,其中,电源个数可以为N,即PSU_1,PSU_2到PSU_n。其中电源控制模块可以包括检测单元,记录单元和输出单元。
[0071]以该系统为例说明上述方法实施过程:
[0072]1、监控管理模块通过I2C总线与电源模块相连,监控管理模块通过PMBUS与电源模块进行数据读取和电源控制。
[0073]2、电源模块周期性检测的健康状态的变化信息,并将检测到的健康状态的变化。主要记录信息:健康状态的变化时间和状态信息Status_Word。
[0074]3、监控管理模块提供读取记录的方法。即定义监控管理模块读取记录的方法,监控管理模块可以将电源模块的记录信息读取并进行解析。
[0075]其中,本实施例主要针对整机柜服务器电源集中供电和集中管理的特点,整机柜服务器电源的故障直接影响整个设备的使用。整机柜服务器电源失效后,可能因为整机柜服务器电源供电异常导致整机柜服务器掉电。整机柜服务器掉电之后,PSU模块FW和整机柜监控管理模块掉点,进而没有途径读取电源模块出现故障的原因。同时整机柜服务器再次上电后,PSU模块FW和整机柜服务器的监控管理模块所有数据被清空,依然没有分析电源模块故障的原因的方法。通过本实施例的方法使用户能够根据获取的电源模块的健康状态信息分析电源模块故障的原因,从而可以提高电源模块故障诊断的可靠性,有利于电源模块离线的故障分析和故障诊断。
[0076]说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0077]专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0078]结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(R0M)、电可编程R0M、电可擦除可编程R0M、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
[0079]以上对本发明所提供的电源模块故障诊断方法、电源模块及整机柜服务器进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
【主权项】
1.一种电源模块故障诊断方法,其特征在于,包括: 对电源模块的健康状态信息进行检测; 当检测到所述电源模块的健康状态信息发生变化时,记录发生变化的健康状态信息到指定存储空间; 当接收到读取指令时,输出所述指定存储空间内存储的健康状态信息。2.如权利要求1所述的电源模块故障诊断方法,其特征在于,所述记录发生变化的健康状态信息到指定存储空间,包括: 记录发生变化的健康状态信息到指定存储空间;其中,所述健康状态信息包括健康状态信息变化的时间及状态信息。3.如权利要求1所述的电源模块故障诊断方法,其特征在于,所述记录发生变化的健康状态信息到指定存储空间,包括: 记录发生变化的健康状态信息到所述电源模块非易失数据存储空间中。4.如权利要求1至3任一项所述的电源模块故障诊断方法,其特征在于,所述记录发生变化的健康状态信息到指定存储空间,包括: 判断指定存储空间是否为满; 若是,则确定所述指定存储空间内的写入时间最长的健康状态信息,并将所述发生变化的健康状态信息覆盖所述写入时间最长的健康状态信息。5.如权利要求1至3任一项所述的电源模块故障诊断方法,其特征在于,所述输出所述指定存储空间内存储的健康状态信息之后,还包括: 在所述指定存储空间中删除输出的健康状态信息。6.一种电源模块,其特征在于,包括: 检测单元,用于对电源模块的健康状态信息进行检测; 记录单元,用于当检测到所述电源模块的健康状态信息发生变化时,记录发生变化的健康状态信息到指定存储空间; 输出单元,用于当接收到读取指令时,输出所述指定存储空间内存储的健康状态信息。7.如权利要求6所述的电源模块,其特征在于,所述记录模块包括: 判断子单元,用于判断指定存储空间是否为满; 记录子单元,用于若是,则确定所述指定存储空间内的写入时间最长的健康状态信息,并将所述发生变化的健康状态信息覆盖所述写入时间最长的健康状态信息。8.如权利要求6所述的电源模块,其特征在于,还包括: 删除单元,用于输出健康状态信息后,在所述指定存储空间中删除对应的健康状态信息。9.如权利要求6所述的电源模块,其特征在于,所述记录单元具体为非易失数据存储器。10.一种整机柜服务器,其特征在于,包括: 如权利要求6至9任一项所述的电源模块; 通过I2C总线与所述电源相连的监控管理模块;其中,所述监控管理模块通过PMBUS读取所述电源模块中的输出单元的数据。
【文档编号】G06F1/28GK105912086SQ201610265215
【公开日】2016年8月31日
【申请日】2016年4月26日
【发明人】李冠广, 黄家明, 乔英良
【申请人】浪潮(北京)电子信息产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1