实现clump整体热插拔的方法和系统的制作方法

文档序号:8258436阅读:375来源:国知局
实现clump整体热插拔的方法和系统的制作方法
【技术领域】
[0001]本发明涉及通信技术领域,特别涉及一种在多路服务器中实现clump整体热插拔的方法和系统。
【背景技术】
[0002]随着计算机技术的发展,计算机系统的服务器数量及连接拓扑越来越复杂。对于由多路服务器组成的计算机系统,其运营和维护显得至关重要。
[0003]目前,对于多路服务器组成的计算机系统,其维护的方式包括:多路服务器监测自己的运行状态,如果出现故障,则进行报警,维护人员根据报警关闭整个计算机系统,然后,将故障的服务器拔出;后续,如果需要重新插入维修好的服务器,也需要关闭整个计算机系统,将修好的服务器插入,然后再开启整个计算机系统。
[0004]由此可见,在现有技术中,对于多路服务器,任何一个其中的服务器拔出或插入,都会导致多路服务器组成的整个计算机系统的关闭重启,因此,大大增加了关机时间,不利于系统的运营。

【发明内容】

[0005]本发明提供一种实现clump热插拔的系统和方法,能够减少多路服务器组成的计算机系统的关机时间。
[0006]本发明的技术方案是这样实现的:
[0007]一种实现clump热插拔的系统,包括:
[0008]至少两个clump,所有clump通过总线互连,所有clump中包括主clump和从clump ;
[0009]系统管理控制器SMC,与所有clump相连,获取每一个clump的设备信息,当确定其中第一 clump故障需要退出系统后,以中断形式向主clump发送第一 clump热移除指令;
[0010]主clump,接收到第一 clump热移除指令后,进行退出第一 clump的终止处理。
[0011]其中,所述主clump中配置有操作系统OS,所述主clump和所有从clump中均配置有基本输入输出系统B1S ;
[0012]所述OS,提供热插拔服务、热备份服务、提供第一 clump热插拔驱动的支持,将故障信息发送给B1S ;
[0013]所述B1S,进行热插拔中断处理、资源分配、寄存器控制和信号控制,并与SMC进行故障信息交互和硬件信号控制;
[0014]每一个clump中的硬件,与B1S和SMC进行交互,负责总线控制、热插拔信号触发、电源控制和热插拔状态指示;
[0015]所述SMC,负责故障信息收集,与B1S配合进行硬件信号控制。
[0016]优选地,所述SMC与所有clump中的B1S相连;通过接收各个B1S发来的故障信息,获取每一个clump的设备信息;
[0017]主clump中的B1S,用于收集主clump的OS报告的故障信息、主clump内部的硬件故障信息、系统1状态故障信息中的一个或多个,并发送给所述SMC ;
[0018]从clump中的B1S,用于收集所在clump内部硬件故障信息,并发送给所述SMC。
[0019]优选地,所述主clump中配置有操作系统OS,所述主clump和所有从clump中均配置有基本输入输出系统B1S ;
[0020]所述SMC,用于以中断形式将第一 clump热移除指令发送给所述主clump中的B1S ;及进一步用于控制第一 clump的复位信号,使其处于复位状态,并控制状态指示灯指示系统正在处于热拔状态,及控制第一 clump关闭电源;
[0021]所述主clump中的B1S,进一步用于处理所述中断,并上报给OS ;并进一步对除第一 clump之外的所有clump进行重新分配处理器路由、内存地址、1资源和芯片组寄存器控制;及在接收到热移除指令后,与所述SMC配合控制硬件信号、进行互连总线的开关、时序信号的触发、电源控制及状态指示;
[0022]所述主clump中的OS,进一步用于提供clump热插拔驱动的支持,将第一 clump所负责的任务进行迀移或终止,并卸载驱动,释放相应资源;
[0023]所述第一 clump中的B10S,进一步用于通过寄存器控制断开与其他clump之间的总线互连。
[0024]可选地,所述SMC,进一步用于开启新插入的第一 clump的电源系统;及进一步通知主clump的B1S对新插入的第一 clump进行链路检测和训练,重新分配处理器路由关系和内存地址,并将资源交由OS接管,
[0025]所述主clump中的OS,进一步用于重新加载驱动,对任务进行迀回或开始新的任务,完成所述第一 clump热添加工作;
[0026]新插入的第一 clump,通过内部的上电时序完成信号上电和复位。
[0027]一种实现clump热插拔的方法,将至少两个clump通过总线互连,确定主clump和从clump,以及将SMC与所有clump相连,还包括:
[0028]SMC获取每一个clump的设备信息,当确定其中第一 clump故障需要退出系统后,以中断形式向主clump发送第一 clump热移除指令;
[0029]主clump接收到第一 clump热移除指令后,进行退出第一 clump的终止处理。
[0030]其中,进一步包括:在所述主clump中配置操作系统OS,在所述主clump和所有从clump中均配置基本输入输出系统B1S ;通过所述OS、B1S、硬件和SMC之间的配合,实现所述第一 clump的热插拔。
[0031]优选地,进一步包括:将所述SMC与所有clump中的B1S相连;主clump中的B1S收集主clump的OS报告的故障信息、主clump内部的硬件故障信息、系统1状态故障信息中的一个或多个,并发送给所述SMC ;从clump中的B1S收集所在clump内部硬件故障信息,并发送给所述SMC;
[0032]所述SMC获取每一个clump的设备信息包括:所述SMC通过接收各个B1S发来的故障信息,获取每一个clump的设备信息。
[0033]优选地,进一步包括:在所述主clump中配置操作系统OS,在所述主clump和所有从clump中均配置基本输入输出系统B1S ;
[0034]所述以中断形式向主clump发送第一 clump热移除指令包括:所述SMC以中断形式将第一 clump热移除指令发送给所述主clump中的B1S ;
[0035]该方法进一步包括:所述SMC进一步控制第一 clump的复位信号,使其处于复位状态,并控制状态指示灯指示系统正在处于热拔状态,及控制第一 clump关闭电源;主clump中的B1S进一步处理所述中断,并上报给OS ;并进一步对除第一 clump之外的所有clump进行重新分配处理器路由、内存地址、1资源和芯片组寄存器控制;及在接收到热移除指令后,与所述SMC配合控制硬件信号、进行互连总线的开关、时序信号的触发、电源控制及状态指示;主clump中的OS进一步提供clump热插拔驱动的支持,将第一 clump所负责的任务进行迀移或终止,并卸载驱动,释放相应资源;所述第一 clump中的B1S进一步通过寄存器控制断开与其他clump之间的总线互连。
[0036]可选地,该方法进一步包括:
[0037]所述SMC开启新插入的第一 clump的电源系统;及进一步通知主clump的B1S对新插入的第一 clump进行链路检测和训练,重新分配处理器路由关系和内存地址,并将资源交由OS接管,所述主clump中的OS重新加载驱动,对任务进行迀回或开始新的任务,完成所述第一 clump热添加工作;新插入的第一 clump通过内部的上电时序完成信号上电和复位。
[0038]可见,本发明实施例提供了一种实现clump整体热插拔的方法和系统,能够将所有clump通过总线互连,并分为主clump和从clump ;由SMC负责确定故障的clump,由主clump进行退出clump的终止处理。具体地,是由配置在主clump中的OS,配置在每一个clump中的B1S,每一个clump的硬件以及SMC配合,完成多路服务器中clump的热插拔。整个过程无需关闭整个多路服务器的计算机系统,实现了热插拔,大大减少了关机时间,不会影响整个系统的运行。
【附图说明】
[0039]图1是本发明一个实施例中实现clump热插拔的系统的结构示意图。
[0040]图2是本发明一个实施例中B1S与SMC配合进行故障信息收集的示意图。
[0041]图3是本发明一个实施例中实现热插拔的组件工作组成示意图。
[0042]图4是本发明一个实施例中实现clump热插拔的方法的流程图。
[0043]图5是本发明另一个实施例中实现clump热插拔的方法的流程图。
[0044]图6是本发明又一个实施例中实现clump热插拔的工作流程
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1