一种通讯自动恢复方法和装置与流程

文档序号:17160162发布日期:2019-03-20 00:34阅读:159来源:国知局
一种通讯自动恢复方法和装置与流程

本申请涉及计算机技术领域,尤其涉及一种通讯自动恢复方法和装置。



背景技术:

随着云计算、大数据等新型技术的发展,对柜式服务器的需求越来越多,随之而来,对整机柜服务器散热稳定性需求越来越高。

为了满足这些需求,整机柜上集成的结点越来越密集,结点类型(包括计算结点、存储结点和gpubox结点等等)越来越多,用户对整机柜管理单元(简称rmc)与服务器节点之间的通讯稳定性要求越来越高。这是因为,当其间的通讯出现故障后,将导致rmc无法正常获取基板管理控制器(baseboardmanagementcontroler,简称bmc)监控并发送给rmc的结点实时运行信息,由于整机柜的风扇散热调速,功耗,以及电源模块(psu)等等都是由rmc通过获取各个结点的实时温度,电压,功耗等等信息进行调节,如果通讯出现故障,则会导致整个机柜运行出现风险及不稳定性的可能。



技术实现要素:

有鉴于此,本申请提供了一种通讯自动恢复方法和装置,以实现在rmc与bmc之间的通讯出现故障后,能够自动恢复通讯,从而保证整机柜运行的稳定性。

为了达到上述发明目的,本申请采用了如下技术方案:

一种通讯自动恢复方法,包括:

接收中板上报的整机柜管理单元与基板管理控制器之间的通讯状态;

判断所述通讯状态是否处于故障状态;

当所述通讯状态处于故障状态时,判断持续处于所述故障状态的时间是否超过第一预设时长,如果是,控制所述基板管理控制器进行重启,从而恢复所述基板管理控制器与所述中板、所述整机柜管理单元之间的通讯。

可选地,所述控制所述基板管理控制器进行重启,具体包括:

控制所述基板管理控制器重新初始化自身的智能平台管理总线的服务驱动及进程。

可选地,所述控制所述基板管理控制器进行重启,具体包括:

向所述中板发送所述基板管理控制器的重启指令,以使所述中板根据所述重启指令控制所述基板管理控制器进行重启,从而恢复所述基板管理控制器与所述中板、所述整机柜管理单元之间的通讯。

可选地,所述通讯状态为智能平台管理总线的通讯状态。

可选地,所述中板根据所述重启指令控制所述基板管理控制器进行重启,具体包括:

所述中板根据所述重启指令通过操作所述基板管理控制器的通用输入输出管脚来控制所述基板管理控制器进行重启。

一种通讯自动恢复装置,包括:

接收单元,用于接收中板上报的整机柜管理单元与基板管理控制器之间的通讯状态;

第一判断单元,用于判断所述通讯状态是否处于故障状态;

第二判断单元,用于当所述通讯状态处于故障状态时,判断持续处于所述故障状态的时间是否超过第一预设时长,

控制单元,用于当持续处于故障状态的时间超过第一预设时长时,控制所述基板管理控制器进行重启,从而恢复所述基板管理控制器与所述中板、所述整机柜管理单元之间的通讯。

可选地,所述控制单元,具体包括:

控制所述基板管理控制器重新初始化自身的智能平台管理总线的服务驱动及进程。

可选地,所述控制单元,具体包括:

向所述中板发送所述基板管理控制器的重启指令,以使所述中板根据所述重启指令控制所述基板管理控制器进行重启,从而恢复所述基板管理控制器与所述中板、所述整机柜管理单元之间的通讯。

可选地,所述通讯状态为智能平台管理总线的通讯状态。

可选地,所述中板根据所述重启指令控制所述基板管理控制器进行重启,具体包括:

所述中板根据所述重启指令通过操作所述基板管理控制器的通用输入输出管脚来控制所述基板管理控制器进行重启。

相较于现有技术,本申请具有以下有益效果:

基于以上技术方案可知,本申请提供的通讯自动恢复方法中,在整机柜管理单元监测到整机柜管理单元与基板管理控制器之间的通讯状态处于故障后,能够控制基板管理控制器进行重启,从而恢复该基板管理控制器与中板、整机柜管理单元之间的通讯。如此,整机柜管理单元能够实时获取到基板管理控制器发送来的服务器节点的实时运行状态,避免了rmc因获取不到服务器节点的实时运行状态,有可能导致整个机柜风扇散热调速异常、功耗监控异常等等产生的系统性风险,从而使服务器机柜监控和运行变得更加稳定。

附图说明

为了清楚地理解本申请的具体实施方式,下面将描述本申请具体实施方式时用到的附图做一简要说明。显而易见地,这些附图仅是本申请的部分实施例。

图1是本申请实施例提供的通讯自动恢复方法的应用系统架构示意图;

图2是本申请实施例提供的通讯自动恢复方法流程示意图;

图3是本申请实施例提供的通讯自动恢复方法信令示意图;

图4是本申请实施例提供的通讯自动恢复装置结构示意图。

具体实施方式

基于背景技术部分可知,当整机柜管理单元与基板管理控制器之间的通讯出现故障后,整机柜管理单元无法正常获取基板管理控制器监控并发送给rmc的结点实时运行信息,从而导致整个机柜运行出现风险及不稳定性的可能。

为了解决上述技术问题,本申请提供了一种通讯自动恢复方法,利用该方法,在整机柜管理单元监测到整机柜管理单元与基板管理控制器之间的通讯状态处于故障后,能够控制基板管理控制器进行重启,从而恢复该基板管理控制器与中板、整机柜管理单元之间的通讯。如此,整机柜管理单元能够实时获取到基板管理控制器发送来的服务器节点的实时运行状态,避免了rmc因获取不到服务器节点的实时运行状态,有可能导致整个机柜风扇散热调速异常、功耗监控异常等等产生的系统性风险,从而使服务器机柜监控和运行变得更加稳定。

为了更清楚地理解本申请的具体实施方式,下面结合附图对本申请的具体实施方式进行详细描述。

图1是本申请实施例提供的通讯自动恢复方法的应用系统架构示意图。该在应用系统架构中,包括整机柜管理单元(以下简称rmc)11、中板12以及基板管理控制器(以下简称bmc)13;

其中,bmc13用于监测服务器节点的实时运行信息,例如,服务器节点的实时温度、电压和功耗等等,并将其监测到的实时运行信息上报至中板12。

中板12将其接收到的实时运行信息上报至rmc11。可以认为,中板12为rmc11和bmc13的桥接设备。

rmc11用于根据其接收到的实时运行信息对整机柜的运行参数进行调节,例如整机柜的风扇散热调速、功耗、以及电源模块的调节等等。

基于图1所示的应用系统架构,如图2所示,本申请实施例提供的通讯自动恢复方法包括以下步骤:

s201:rmc11接收中板上报的rmc与bmc之间的通讯状态。

需要说明,在图1所示的应用系统架构中,中板12会监测其与各个bmc之间的通讯状态,并且会将其监测到的各个通讯状态上报至rmc11。

此外,中板12与各个bmc13之间通讯可以通过智能平台管理总线ipmb实现。因此,中板与各个bmc之间的通讯状态可以为各个ipmb的通讯状态。需要说明,智能平台管理总线ipmb,是atca(advancedtelecomcomputingarchitecture)先进的电信计算平台的各fru背板通讯的两组冗余i2c总线的总称。

此外,中板12还可以根据bmc13是否在第二预设时长内返回ipmi命令来判断其与bmc之间的通讯状态是否发生异常。具体地,若bmc13在第二预设时长内返回ipmi命令,则中板与bmc之间的ipmb通讯状态正常,反之,中板与bmc之间的ipmb通讯状态异常,此时,中板将该通讯状态异常的bmc的通讯状态设置为故障状态。

s202:rmc11判断所述通讯状态是否处于故障状态。

rmc11判断其接收到的各个ipmb的通讯状态是否处于故障状态,如果是,执行s203,如果否,返回s201。

s203:rmc11判断持续处于所述故障状态的时间是否超过第一预设时长,如果是,执行s204。

需要说明,中板12会实时监测各个ipmb的通讯状态,并该实时监测到的ipmb的通讯状态上报至rmc11,如此,rmc11可以根据中板12持续上报的各个ipmb的通讯状态来判断每个bmc对应的ipmb持续处于所述故障状态的时间是否超过第一预设时长,如果是,执行s204。

作为示例,该第一预设时长可以为预先设定的时间,例如可以为90s。

s204:rmc11控制所述bmc进行重启,从而恢复所述bmc与所述中板、所述rmc之间的通讯。

需要说明的是,控制bmc重启具体为可以为控制bmc重新初始化自身的智能平台管理总线的服务驱动及进程。另外,bmc重启可以实现bmc的芯片级修复。

本步骤可以具体为:rmc11向所述中板发送所述bmc的重启指令,以使所述中板根据所述重启指令控制bmc进行重启,使所述bmc重新初始化自身的智能平台管理总线的服务驱动及进程,从而恢复所述bmc与所述中板、所述rmc之间的通讯。

需要说明,中板根据所述重启指令控制bmc进行重启,可以具体为:中板根据所述重启指令通过操作所述基板管理控制器的通用输入输出管脚(generalpurposeinputoutput,gpio)来控制所述基板管理控制器进行重启,如此,该控制bmc重启过程不依赖于ipmb协议,而是通过与硬件电路的配合对bmc强制进行芯片级修复。

以上为本申请实施例提供的通讯自动恢复方法的具体实现方式。在该具体实现方式中,在rmc监测到rmc与bmc之间的通讯状态处于故障后,能够控制bmc进行重启,从而恢复该bmc与中板、rmc之间的通讯,如此,rmc能够实时获取到bmc发送来的服务器节点的实时运行状态,避免了rmc因获取不到服务器节点的实时运行状态,有可能导致整个机柜风扇散热调速异常、功耗监控异常等等产生的系统性风险,从而使服务器机柜监控和运行变得更加稳定。

需要说明,本申请实施例提供的通讯自动恢复方法可以适用于smartrack平台的大型集成服务器机柜架构,但该方法不限于大型整机柜服务器,其可以适用于拥有rmc的所有服务器架构。

为了更清楚地理解本申请实施例提供的通讯自动恢复方法,基于图1所示的应用系统架构,本申请实施例提供的通讯自动恢复方法的信令示意图如图3所示,其包括以下步骤:

s301:中板将其检测到的中板与bmc之间的通讯状态上报至rmc。

s302:rmc接收中板上报的通讯状态;

s303:rmc判断该通讯状态是否处于故障状态,如果是,执行s304,如果否,返回s302;

s304:判断中板与bmc之间的通讯状态持续处于所述故障状态的时间是否超过第一预设时长,如果是,执行s305,如果否,返回s302。

s305:向所述中板发送通讯出现故障的bmc的重启指令;

s306:中板判断是否接收到重启指令,如果是,执行s307,如果否,不执行任何操作。

s307:中板控制通讯出现故障的bmc重新初始化自身的智能平台管理总线的服务驱动及进程,从而恢复通讯出现故障的bmc与所述中板、所述rmc之间的通讯。

本步骤可以具体为:中板通过操作bmc的通用输入/输出管脚实现bmc的重启,从而使bmc重新初始化自身的智能平台管理总线的服务驱动及进程,从而恢复所述bmc与所述中板、所述rmc之间的通讯。

基于上述实施例提供的通讯自动恢复方法,本申请实施例还提供了一种通讯自动恢复装置。

请参见图4,本申请实施例提供的一种通讯自动恢复装置包括:

接收单元41,用于接收中板上报的rmc与bmc之间的通讯状态;

第一判断单元42,用于判断所述通讯状态是否处于故障状态;

第二判断单元43,用于当所述通讯状态处于故障状态时,判断持续处于所述故障状态的时间是否超过第一预设时长,

控制单元44,用于当持续处于故障状态的时间超过第一预设时长时,控制所述bmc进行重启,从而恢复所述bmc与所述中板、所述rmc之间的通讯。

作为本申请的一示例,控制单元44可以具体包括:

控制所述bmc重新初始化自身的智能平台管理总线的服务驱动及进程。

作为本申请的另一示例,控制单元44也可以具体包括:

向所述中板发送bmc的重启指令,以使所述中板根据所述重启指令控制bmc进行重启,从而恢复所述bmc与所述中板、rmc之间的通讯。

作为本申请的又一示例,所述通讯状态为智能平台管理总线的通讯状态。

作为本申请的又一示例,所述中板根据所述重启指令控制所述基板管理控制器进行重启,具体包括:

所述中板根据所述重启指令通过操作所述基板管理控制器的通用输入输出管脚来控制所述基板管理控制器进行重启。

以上为本申请实施例提供的通讯自动恢复方法和装置的具体实现方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1