一种并行计算机系统管理控制器的容错备份方法及系统的制作方法

文档序号:6614549阅读:176来源:国知局
专利名称:一种并行计算机系统管理控制器的容错备份方法及系统的制作方法
技术领域
本发明主要涉及到高性能计算机系统管理控制器的设计领域,特指一种用于并行计 算机的具有容错备份功能的系统管理控制器的原理与方法。
背景技术
随着高性能计算机系统在金融、电子商务、数据仓库、航天、航空、科学计算等重 要领域的广泛应用,用户对系统的可用性提出了越来越高的要求。7*24小时的全天候无 故障运行、不超过3秒的终端用户响应时间以及数据的整体安全性等已成为系统设计人 员追求的主要设计目标。系统的可用性来自于对系统运行环境和运行状况的了如指掌, 目前大多数中高端计算机系统采用系统管理控制器提高系统的可用性。系统管理控制器 通过不断査询设置在系统内部和周围环境的传感器,时刻掌握计算机系统的运行状况, 帮助用户快速定位故障,避免单点故障的发生,查找系统运行的瓶颈以及性能降低的根 源,从而提高系统的可用性。
目前,在中高端计算机系统中,系统管理控制器有两种实现方式。
一种是基于PCI的方式,即在一块PCI卡上实现系统管理控制器及其相关逻辑,所 有命令和数据通过PCI总线传输。例如,DELL的第9代PowerEdge服务器的可选配件 DRAC 4/p管理控制器、Continuous Computing公司的单板系统管理控制器CompactPCI 均基于PCI方式实现。事实上,管理数据通常比较重要,需要及时处理,所以并不适合 与PCI总线上的其它数据混合传输。此外,由于这种方式占用了主板的一个PCI插槽, 也不适于在高密度机架式系统中使用。
另一种是嵌入式方式。系统管理控制器采用嵌入式微处理器实现,通常集成在系统 主板上,其上运行嵌入式操作系统和管理软件(独立于主机操作系统),实现对系统主板 状态的实时监控和管理。如HP Integrity系列服务器主板上的主板管理控制器(Baseboard Management Controller—BMC),负责监控所在主板上的硬件系统,提供了硬件状态监测、 配置/故障信息显示、分区管理、网络环境管理以及电源控制等在内的多种功能,确保了 99.95%到99.999%的可用性。嵌入式系统管理控制器能够有效缩小机柜的体积,成为当 前管理中高端计算机系统的主流方法。在并行计算机系统中,用户任务通常被划分为若干个可并行执行的子任务分配到系 统的不同分区运行,子任务之间在并行执行的同时又需要进行同步,任何子任务出现异 常都将影响整个任务的运行。这种分布、并行的应用特点对系统管理提出了更高的要求, 采用上述两种方法设计的系统管理控制器,所提供的整个系统的高可靠性和高可用性均 建立在系统管理控制器本身高可靠的基础上, 一旦系统管理控制器出现故障,整个系统 的可用性和安全性就难以得到保障,系统管理控制器自身的可靠性已成为影响系统可靠 性的因素之一。
与此同时,并行计算机系统包含的主板种类多、数量大,需要管理的部件和监控的 对象非常多。因此,无论是采用高可靠性的元器件还是硬件冗余技术来提高系统管理控 制器的可靠性,都将增加系统的成本,影响系统的推广和应用。

发明内容
本发明要解决的问题就在于针对现有技术存在的技术问题,本发明提供一种低成 本的用于并行计算机的嵌入式系统管理控制器及其容错备份方法,以解决并行计算机系 统中系统管理控制器的可靠性问题,同时缓解高性能计算机系统的高可用性和低成本之 间的冲突。
为解决上述技术问题,本发明提出的解决方案为 一种并行计算机系统管理控制器 的容错备份方法,其特征在于将并行计算机系统分成若干个主板组,每一个主板组由
一个系统管理控制器eSMC负责执行其监控和管理任务,每两个系统管理控制器eSMC 构成一组,其中一个系统管理控制器eSMC将所有的监控和管理部件挂接在一条I2C总 线上,该fC总线同时与另一个系统管理控制器eSMC相连,当其中一个系统管理控制 器eSMC宕机时,另一个系统管理控制器eSMC将通过I2C总线接管其所有的监控和管 理部件。
所述每两个构成一组的系统管理控制器eSMC之间相互发送"健康"信号,并对该 "健康"信号进行实时监控。
所述"健康"信号由心跳产生器产生,两个系统管理控制器eSMC中本地心跳产生 器产生的心跳信号与远程系统管理控制器eSMC中心跳产生器的中断逻辑单元相连,当 远程心跳信号由"健康状态"跳变为"不健康状态"时,心跳中断逻辑单元产生中断信 号INT1F,系统管理控制器eSMC在周期性的査询过程中, 一旦收到此中断信号,立即 激活远程冗余I2C总线并启动远程系统管理任务。
一种并行计算机系统管理控制器的容错备份系统,其特征在于它包括一组或一组
以上的系统管理控制器eSMC,每组系统管理控制器eSMC由两个结构、功能相互独立 的系统管理控制器eSMC组成,每个系统管理控制器eSMC上设置有本地I2C总线和远
程冗余fc总线,所有的监控和管理部件挂接在本地fc总线上,远程冗余fc总线与同
组中另一个系统管理控制器eSMC的本地I2C总线相连。
所述每个系统管理控制器eSMC上均设置有容错部件,系统管理控制器eSMC的本 地I2C总线与容错部件相连,并通过远程冗余I2C总线与同组系统管理控制器eSMC上的 容错部件相连。
所述容错部件包括定时器、心跳产生器和心跳中断逻辑单元,同组两个系统管理控 制器eSMC中本地心跳产生器产生的心跳信号与远程系统管理控制器eSMC中心跳产生器 的中断逻辑单元相连,心跳中断逻辑单元接收处理远程系统管理控制器eSMC的心跳信号, 用来探测其是否存活。
所述心跳产生器中设有一个计数器HEART—COUNTER,其阈值为heartMAX,通过 定时器周期性地向计数器发出脉冲信号,计数器对定时器的脉冲信号进行计数;如果计 数器的值大于阈值heartMAX,心跳产生器输出低电平的心跳信号,表示系统管理控制器 eSMC处于宕机状态;如果计数器的值不大于heartMAX,心跳产生器输出高电平的心跳 信号,表示系统管理控制器eSMC处于正常状态;系统管理控制器eSMC上运行一段心 跳产生程序,周期性地在计数器计数值大于阈值heartMAX之前对计数器进行清零操作。
所述本地I2C总线上所挂接的监控和管理部件包括I2C监控部件和传感器、非易失性 存储器EEPROM、通用输入输出接口 GPIO以及实时时钟RTC等。
所述系统管理控制器eSMC上设有为用户提供远程和本地操作接口的以太网接口和 RS232串口 。
与现有技术相比,本发明的优点就在于
1、 本发明可以分别对多个主板组进行同时监控,每组系统管理控制器可以分别对两 个主板组进行监控和管理,同组两个eSMC在各自独立的前提下,又互为容错备份。只 要不同时出现故障,系统管理任务就能够持续正常运行,显著提高了系统的可靠性。而 且,这种不间断服务对系统管理员和用户是完全透明的,有助于减轻管理人员的工作负 担,提高工作效率。
2、 本发明的系统管理控制器的容错部件所需的定时器与计数器,在普通的嵌入式系 统中均己存在,通常情况下不需另外设计。因此,为实现系统管理控制器的容错备份机 制所需的硬件开销非常小,降低了系统开发成本。
3、 本发明不局限于具体的硬件平台,具有良好的通用性和可扩展性。本发明也适用 于目前市场上流行的在主板上集成系统管理控制器的中高端服务器系统,此时远程系统 管理控制器充当本地系统管理控制器的冗余部件。正常情况下本地系统管理控制器负责 系统所有的监控管理任务,远程系统管理控制器只监测本地系统管理控制器的心跳状态。 一旦本地系统管理控制器出现故障,远程系统管理控制器便接管所有的监控和管理任务, 并试图恢复本地系统管理控制器。
4、 本发明利用分而治之的思想,仅仅通过在系统主板上增加少量逻辑(而非增加系 统管理控制部件的数量),实现了高可靠的系统管理。随着系统规模的不断扩充,采用本 发明可节省的硬件开销相当可观,有效缓解了高性能计算机系统的高可用性和低成本之 间的冲突,而且,本发明不局限于具体的硬件平台,对于高性能计算机系统具有良好的 通用性和可扩展性。目前主流的嵌入式系统管理控制器多与系统主板捆绑设计且各自独 立,系统管理的硬件开销随着系统规模线性增加,影响系统的进一步推广和应用。


图1是本发明应用于并行计算机的系统结构示意图; 图2是本发明中系统管理器eSMC的结构框架示意图; 图3是本发明中系统管理器eSMC的容错备份功能原理示意图; 图4是本发明中心跳信号产生的流程示意图; 图5是本发明中心跳中断逻辑单元的处理流程示意图。
具体实施例方式
以下将结合附图和具体实施例对本发明做进一步详细说明。
本发明的一种并行计算机系统管理控制器的容错备份方法,将并行计算机系统分成 若干个主板组,每一个主板组由一个系统管理控制器eSMC负责执行其监控和管理任务, 每两个系统管理控制器eSMC构成一组,其中一个系统管理控制器eSMC将所有的监控和 管理部件挂接在一条I2C总线上,该I2C总线同时与另一个系统管理控制器eSMC相连, 当其中一个系统管理控制器eSMC宕机时,另一个系统管理控制器eSMC将通过I2C总线 接管其所有的监控和管理部件。其中,每两个构成一组的系统管理控制器eSMC之间相互 发送"健康"信号,并对该"健康"信号进行实时监控。该"健康"信号由心跳产生器 产生,两个系统管理控制器eSMC中本地心跳产生器产生的心跳信号与远程系统管理控制 器eSMC中心跳产生器的中断逻辑单元相连,当远程心跳信号由"健康状态"瑕咬为"不 健康状态"时,心跳中断逻辑单元产生中断信号INT一F,系统管理控制器eSMC在周期性
的查询过程中, 一旦收到此中断信号,立即激活远程冗余I2C总线并启动远程系统管理
任务。由于并行计算机系统通常包含大量的系统主板,本发明的方案即采用分而治之的 策略,将这些系统主板分为若干主板组,每一主板组包含的系统主板数量可以相同,也
可以不同。具有容错备份功能的系统管理控制器eSMC负责执行一个主板组的监控和管理 任务。如果系统管理控制器集成在主板上,那么该主板组只包含一块主板。每两个系统 管理控制器eSMC构成一组,两者既相互独立又互为备份。系统管理控制器将所有监控和 管理部件挂接在一条fC总线上,该fC总线同时与另一个eSMC连接。eSMC设置一个心 跳产生器向另一 eSMC表示自己的"健康"状态。每一个eSMC在执行本地监控任务的同 时,通过心跳技术实时探测同组中另一个eSMC (同伴)的"健康"状况, 一旦同伴出现 故障,eSMC立即接管其上的任务,实施对远程主板组的监控和管理,尽可能縮短监控任 务的中断时间,最大限度地保证系统的安全运行。系统管理控制器是采用任意一款嵌入 式微处理器的嵌入式系统,其上运行的嵌入式操作系统和应用软件通过I2C总线对系统 主板进行监控和管理。系统管理控制器具有两条I2C总线, 一条用于本地主板组的监控 和管理,称为本地I2C总线;另一条用于接管远程主板组的监控和管理,称为远程冗余 fC总线。根据I2C总线允许挂接多个主设备的特性,互为容错备份的两个eSMC都能够 访问对方的I2C设备。远程冗余I2C总线与远程eSMC上的本地I2C总线相连,为管理远 程主板组提供数据通路。若远程eSMC"健康",远程冗余fC总线处于挂起状态,否则该 总线被激活,建立与远程eSMC的通路。在eSMC宕机时所有需要被接管的功能部件均挂 接在本地^C总线上,便于远程eSMC访问本地资源。 一旦本地eSMC宕机,另一eSMC便 通过远程冗余I2C总线对处于宕机状态的eSMC的监控和管理任务进行接管。本地I2C总 线挂接的功能部件包括I2C监控部件和传感器、非易失性存储器EEPR0M、通用输入输 出接口GPIO、实时时钟RTC等。系统管理控制器还具有以太网接口和RS232串口,为用 户提供远程和本地操作接口。
在上述方法的思路下,本发明进一步提供了一种并行计算机系统管理控制器的容错 备份系统,它包括一组或一组以上的系统管理控制器eSMC,每组系统管理控制器eSMC 由两个结构、功能相互独立的系统管理控制器eSMC组成,每个系统管理控制器eSMC上 设置有本地I2C总线和远程冗余I2C总线,所有的监控和管理部件挂接在本地I2C总线上, 远程冗余fC总线与同组中另一个系统管理控制器eSMC的本地fC总线相连。其中,每 个系统管理控制器eSMC上均设置有容错部件,系统管理控制器eSMC的本地I2C总线与 容错部件相连,并通过远程冗余I2C总线与同组系统管理控制器eSMC上的容错部件相连。
该容错部件包括定时器、心跳产生器和心跳中断逻辑单元,同组两个系统管理控制器eSMC 中本地心跳产生器产生的心跳信号与远程系统管理控制器eSMC中心跳产生器的中断逻辑 单元相连,心跳中断逻辑单元用来接收处理远程系统管理控制器eSMC的心跳信号,用来 探测其是否存活。心跳产生器中设有一个计数器服ARTJX)UNTER,其阈值为heartMAX, 通过定时器周期性地向计数器发出脉冲信号,计数器对定时器的脉冲信号进行计数;如 果计数器的值大于阈值heartMAX,心跳产生器输出低电平的心跳信号,表示系统管理控 制器eSMC处于宕机状态;如果计数器的值不大于heartMAX,心跳产生器输出高电平的心 跳信号,表示系统管理控制器eSMC处于正常状态;系统管理控制器eSMC上运行一段心 跳产生程序,周期性地在计数器计数值大于阈值heartMAX之前对计数器进行清零操作。 在具体实施例中本地I2C总线上所挂接的部件包括I2C监控部件和传感器、非易失性存储 器EEPR0M、通用输入输出接口 GPIO以及实时时钟RTC等,且系统管理控制器eSMC上设 有为用户提供远程和本地操作接口的以太网接口和RS232串口 。
在具体实施例中,如图1所示本发明应用于并行计算机系统的结构示意图,其中系 统主板是并行计算机系统的基本组成模块。设并行计算机系统包含m*n个系统主板,其 中m大于或等于l, n大于或等于l。每m个系统主板为一组(称为主板组),则系统中共 有n个主板组。每一个容错系统管理控制器负责一个主板组(即m个系统主板)的监控 和管理任务。每2个容错系统管理控制器通过容错部件连接,既相互独立又互为备份。n 个容错系统管理控制器共同承担整个系统的管理任务。正常情况下, 一个eSMC只监控、 管理本地主板组,'同时通过心跳技术实时监测同伴eSMC的"健康"状况。当远程eSMC 出现故障时,本地eSMC立即接管远程eSMC上的任务,实现对远程主板组的监控和管理 并试图恢复远程eSMC,尽可能縮短监控任务的中断时间,最大限度地保证系统的安全运 行。当远程eSMC经过维修或者更换恢复正常时,本地eSMC停止远程监控和管理任务。
图2是本发明中容错系统管理控制器的结构框架结构示意图。系统管理控制器eSMC 是采用任意一款嵌入式处理器的嵌入式系统,运行嵌入式操作系统和监控管理应用软件。 系统管理控制器包含一个以太网接口和RS232串口,为用户提供远程和本地操作接口。 在I2C设备通用输入输出接口 GPIO的控制下,RS232串口能够实现系统的控制台重定向 功能。
系统管理控制器具有两个I2C总线控制器,分别挂接本地I2C总线和远程冗余I2C总 线。PC总线控制器1、本地I2C总线及其挂接设备完成对本地主板组的监控和管理。所 有在eSMC宕机时需要被接管的功能部件都挂接在本地I2C总线上,便于远程eSMC访问
本地资源。本地I2C总线挂接的功能部件包括fC监控部件和传感器、非易失性存储器 EEPR0M、通用输入输出接口 GPIO、实时时钟RTC等。监控部件与传感器以及通用输入输 出接口GPIO构成系统主板组的fC监控网络,负责各主板上硬件系统的监控和管理。非 易失性存储器EEPROM用于记录系统运行过程中产生的各种事件和系统管理配置信息。通 用输入输出接口 GPIO还用于系统主板状态信号的采集和控制信号的输出。RTC为eSMC 提供实时时钟。fC总线控制器2挂接在远程冗余fC总线上,用于在远程eSMC宕机情 况下接管远程eSMC所承担的监控管理任务。
系统管理控制器的容错部件是实现容错备份功能的关键部件,它负责产生本地eSMC 的心跳信号并监测远程eSMC的心跳状态。本地fC总线、远程冗余I2C总线和容错部件 共同为系统管理提供容错备份功能。本地eSMC通过远程冗余I2C总线和容错部件与远程 eSMC相连,本地I2C总线同时也与容错部件相连,使得本地eSMC能够访问远程容错系统 管理控制器上的任何I2C设备。
图3是eSMC的容错备份功能原理示意图。两个互为容错备份的系统管理控制器通 过容错部件连接起来。心跳产生器产生的心跳信号反映eSMC的"健康"状况,用电平信 号表示,高电平表示eSMC正常,低电平表示eSMC故障(或者高电平表示eSMC故障,低 电平表示eSMC正常)。心跳产生器产生的本地eSMC心跳信号与远程eSMC容错部件的心 跳中断逻辑单元的输入相连。心跳中断逻辑单元接收处理远程eSMC的心跳信号,探测 eSMC是否存活。 一个eSMC所产生的心跳输出信号(本地eSMC心跳)与另一个eSMC的心 跳中断逻辑单元的输入信号(远程eSMC心跳)连接, 一个eSMC的本地I2C总线与另一 个eSMC的远程冗余fC总线连接。容错部件主要包括定时器、心跳产生器和心跳中断逻 辑单元三部分。心跳产生器中有一个计数器HEARTJX)UNTER,其阈值为heartMAX。硬件 实现的定时器周期性地向计数器发出脉冲信号,计数器对定时器的脉冲信号进行计数。 如果计数器的值大于阈值heartMAX,心跳产生器输出低电平的心跳信号,表示eSMC处于 宕机状态。如果计数器的值不大于heartMAX,心跳产生器输出高电平的心跳信号,表示 eSMC处于正常状态。eSMC上运行一段心跳产生程序,周期性地在计数器计数值大于阈值 heartMAX之前对计数器进行清零操作。只要eSMC处于正常状态,心跳信号在心跳产生程 序的控制下将维持在高电平状态。eSMC的心跳中断逻辑单元接收处理远程eSMC的心跳信 号,心跳中断逻辑单元采用边沿触发的方式。如果是下降沿触发的中断,说明远程eSMC 的心跳信号从高电平跳变为低电平,表示已处于宕机状态。如果是上升沿触发的中断, 说明远程eSMC的心跳信号从低电平跳变为高电平,表示已处于正常状态。容错系统管理控制器上设计有两条I2C总线本地I2C总线和远程冗余I2C总线。远 程冗余I2C总线与远程容错系统管理器上的本地I2C总线相连,为管理远程主板组提供数 据通路。若远程eSMC"健康",远程冗余PC总线处于挂起状态,否则该总线被激活,建 立与远程eSMC的通路,所有需要接管的功能部件都通过该总线被远程eSMC访问。本地 eSMC在接管远程eSMC上的监控管理任务后,通过远程冗余I2C总线对远程eSMC进行复 位操作,试图恢复远程eSMC的正常运行。
系统管理控制器eSMC响应远程eSMC心跳中断,根据不同的中断类型采取不同的处 理措施。如果远程心跳中断是下降沿触发的中断,则说明远程eSMC处于宕机状态,本地 eSMC将激活远程冗余I2C总线,并通过远程冗余I2C总线访问远程eSMC的监控部件和传 感器及相关设备,接管远程eSMC上的监控和管理任务。当远程eSMC的任务被完全接管 后,通过远程冗余I2C总线对处于故障状态的远程eSMC进行复位操作,试图恢复远程eSMC 的正常运行。如果远程心跳中断是上升沿触发的中断,则说明远程eSMC已从宕机状态恢 复到正常状态,并且已能够执行其所在主板组的监控和管理任务,本地eSMC将停止执行 对远程eSMC所在主板组的监控和管理任务。当远程心跳信号由"健康状态"跳变为"不 健康状态"时,心跳中断逻辑单元产生中断信号INT_F。 eSMC在周期性的査询过程中, 一旦收到此中断信号,立即激活远程冗余I2C总线并启动远程系统管理任务,通过远程 冗余fC总线执行的操作有访问远程主板组的监控点、将监控数据保存到本地eSMC的 存储器、向远程eSMC发送复位命令。当远程心跳信号由"不健康状态"跳变为"健康状 态"时,心跳中断逻辑单元产生中断信号INT—N。 eSMC收到此中断信号后,根据系统设 计要求决定是否将远程主板组的监控数据通过远程冗余I2C总线传回本地eSMC,然后挂 起远程冗余fC总线,结束远程系统管理任务。
图4是心跳产生程序的流程示意图。eSMC上运行的心跳产生程序与硬件实现的心跳 产生器中的定时器和计数器协调产生心跳信号。 一方面,定时器以delay时间为周期定 时向计数器发送脉冲信号,计数器对定时器的脉冲信号进行计数。另一方面,心跳产生 程序以interval的时间间隔周期性地对计数器执行清零操作。下面以心跳信号为高电平 表示eSMC处于正常状态、低电平表示eSMC处于宕机状态为例说明心跳产生机制。计数 器具有一个阈值heartMAX,计数器的值不大于该阈值heartMAX时,心跳产生器的心跳输 出信号将输出高电平。 一旦计数器的值超过该阈值,心跳产生器的心跳输出信号将输出 低电平。如果eSMC处于正常状态,且心跳产生程序中的interval小于heartMAX*delay , 那么心跳产生程序将保证计数器的值不会超过heartMAX,从而确保心跳产生器的心跳输
出信号维持高电平而不会出现跳变。如果eSMC处于宕机状态,心跳产生程序无法正常执 行,计数器的值将超过其阈值heartMAX,心跳产生器的心跳输出信号将发生从高电平到 低电平的跳变。如果eSMC从宕机状态恢复到正常状态,心跳产生程序将正常执行,计数 器的值将在超过阈值heartMAX之前被心跳产生程序清零,心跳产生器的心跳输出信号将 发生从低电平到高电平的跳变。
图5是eSMC心跳中断逻辑单元的处理流程图。eSMC产生的心跳信号的跳变表示eSMC 状态的变化。eSMC心跳信号的跳变有两种情况从正常状态的高电平跳变为宕机状态的 低电平和从宕机状态的低电平跳变为正常状态的高电平。远程eSMC心跳中断逻辑单元探 测到这些跳变后,将产生中断信号,这个过程包括以下步骤
Al:若监测到的心跳信号由高电平跳变为低电平,则产生INT_F中断,表示远程eSMC 出现故障;
A2:若监测到的心跳信号由低电平跳变为高电平,则产生INT_N中断,表示远程eSMC 经过修复或者更换恢复正常。
eSMC处理远程eSMC心跳中断逻辑单元的过程包括以下步骤
Bl:若是INT—F中断,eSMC启动远程系统管理任务;激活远程冗余I2C总线,使其 能够访问远程eSMC本地I2C总线上的设备;eSMC通过远程冗余I2C总线对处于宕机状态 的远程eSMC进行复位操作,试图恢复远程eSMC正常运行。
B2:若是INT—N中断,eSMC停止远程系统管理任务。
以上描述了包括本发明的一个例子。此描述不可能列举出部件和方法的所有组合, 但本领域的技术人员均可以从中得到本发明更多的组合和改变,因此,本发明包含所有 这样的变更、修正和变化。 '
本发明己应用于国防科技大学计算机学院自行研制的高性能大规模并行计算机系 统,该系统每18块系统主板构成一个主板组,由一个系统管理控制器负责一个主板组的 监控和管理,相邻的两个系统管理控制器互为容错备份。具有容错备份功能的系统管理 控制器已经过验证并取得了很好的效果。本发明并不局限于具体的硬件平台,对于高性 能计算机系统和服务器具有通用性。
权利要求
1、一种并行计算机系统管理控制器的容错备份方法,其特征在于将并行计算机系统分成若干个主板组,每一个主板组由一个系统管理控制器eSMC负责执行其监控和管理任务,每两个系统管理控制器eSMC构成一组,其中一个系统管理控制器eSMC将所有的监控和管理部件挂接在一条I2C总线上,该I2C总线同时与另一个系统管理控制器eSMC相连,当其中一个系统管理控制器eSMC宕机时,另一个系统管理控制器eSMC将通过I2C总线接管其所有的监控和管理部件。
2、 根据权利要求1所述的并行计算机系统管理控制器的容错备份方法,其特征在于 所述每两个构成一组的系统管理控制器eSMC之间相互发送"健康"信号,并对该"健 康"信号进行实时监控。
3、 根据权利要求2所述的并行计算机系统管理控制器的容错备份方法,其特征在于 所述"健康"信号由心跳产生器产生,两个系统管理控制器eSMC中本地心跳产生器产 生的心跳信号与远程系统管理控制器eSMC中心跳产生器的中断逻辑单元相连,当远程 心跳信号由"健康状态"跳变为"不健康状态"时,心跳中断逻辑单元产生中断信号INT一F, 系统管理控制器eSMC在周期性的查询过程中, 一旦收到此中断信号,立即激活远程冗 余I2C总线并启动远程系统管理任务。
4、 一种并行计算机系统管理控制器的容错备份系统,其特征在于它包括一组或一 组以上的系统管理控制器eSMC,每组系统管理控制器eSMC由两个结构、功能相互独 立的系统管理控制器eSMC组成,每个系统管理控制器eSMC上设置有本地I2C总线和远程冗余fc总线,所有的监控和管理部件挂接在本地fc总线上,远程冗余fc总线与同组中另一个系统管理控制器eSMC的本地I2C总线相连。
5、 根据权利要求4所述的并行计算机系统管理控制器的容错备份系统,其特征在于 所述每个系统管理控制器eSMC上均设置有容错部件,系统管理控制器eSMC的本地I2C 总线与容错部件相连,并通过远程冗余I2C总线与同组系统管理控制器eSMC上的容错 部件相连。
6、 根据权利要求5所述的并行计算机系统管理控制器的容错备份系统,其特征在于 所述容错部件包括定时器、心跳产生器和心跳中断逻辑单元,同组两个系统管理控制器 eSMC中本地心跳产生器产生的心跳信号与远程系统管理控制器eSMC中心跳产生器的中断逻辑单元相连,心跳中断逻辑单元接收处理远程系统管理控制器eSMC的心跳信号,用 来探测是否存活。
7、 根据权利要求5所述的并行计算机系统管理控制器的容错备份系统,其特征在于: 所述心跳产生器中设有一个计数器HEART—COUNTER,其阈值为heartMAX,通过定时 器周期性地向计数器发出脉冲信号,计数器对定时器的脉冲信号进行计数;如果计数器 的值大于阈值heartMAX,心跳产生器输出低电平的心跳信号,表示系统管理控制器eSMC 处于宕机状态;如果计数器的值不大于heartMAX,心跳产生器输出高电平的心跳信号, 表示系统管理控制器eSMC处于正常状态;系统管理控制器eSMC上运行一段心跳产生 程序,周期性地在计数器计数值大于阈值heartMAX之前对计数器进行清零操作。
8、 根据权利要求4或5或6或7所述的并行计算机系统管理控制器的容错备份系统, 其特征在于所述本地PC总线上所挂接的部件包括fC监控部件和传感器、非易失性存 储器EEPROM、通用输入输出接口 GPIO以及实时时钟RTC等。
9、 根据权利要求4或5或6或7所述的并行计算机系统管理控制器的容错备份系统, 其特征在于所述系统管理控制器eSMC上设有为用户提供远程和本地操作接口的以太 网接口和RS232串口。
10、 根据权利要求8所述的并行计算机系统管理控制器的容错备份系统,其特征在 于所述系统管理控制器eSMC上设有为用户提供远程和本地操作接口的以太网接口和 RS232串口 。
全文摘要
本发明公开了一种用于并行计算机的系统管理控制器的容错备份原理与方法,将并行计算机系统分成若干个主板组,每一个主板组由一个系统管理控制器eSMC负责执行其监控和管理任务,每两个系统管理控制器eSMC构成一组,其中一个系统管理控制器eSMC将所有的监控和管理部件挂接在一条I<sup>2</sup>C总线上,该I<sup>2</sup>C总线同时与另一个系统管理控制器eSMC相连,当其中一个系统管理控制器eSMC宕机时,另一个系统管理控制器eSMC将通过I<sup>2</sup>C总线接管其所有的监控和管理部件。本发明用以解决并行计算机系统中系统管理控制器的可靠性问题,同时缓解高性能计算机系统的高可用性和低成本之间的冲突。
文档编号G06F11/00GK101178673SQ20071019260
公开日2008年5月14日 申请日期2007年12月14日 优先权日2007年12月14日
发明者刘光明, 军 夏, 屈婉霞, 俊 张, 徐炜遐, 曹跃胜, 田宝华, 强 窦, 莉 罗, 蒋句平, 义 郑, 郑明玲 申请人:中国人民解放军国防科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1