实现clump整体热插拔的方法和系统的制作方法_2

文档序号:8258436阅读:来源:国知局
图。
【具体实施方式】
[0045]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0046]本发明一个实施例提出了一种实现clump热插拔的系统,参见图1,多路服务器是由多个计算节点组成,每一个计算节点称为一个clump,该系统包括:
[0047]至少两个clump,所有clump通过总线互连,所有clump中包括主clumplOl和从clump 102 ;
[0048]系统管理控制器(SMC) 103,与所有clump相连,获取每一个clump的设备信息,当确定其中第一 clumpl02故障需要退出系统后,以中断形式向主clump 101发送第一 clump热移除指令;
[0049]主clump 101,接收到第一 clump热移除指令后,进行退出第一 clumpl02的终止处理。
[0050]具体地,在本发明系统的一个实施例中,可以由配置在主clump中的操作系统
(OS),配置在每一个clump中的基本输入输出系统(Basic Input Output System,B1S),每一个clump的硬件以及SMC配合,完成多路服务器中clump的热插拔。基于此的实现方式可以实现多节点系统故障的判断、资源的在线重新分配、硬件信号的控制等,具体可以包括:
[0051]主clump中配置有操作系统OS,所述主clump和所有从clump中均配置有基本输入输出系统B1S ;
[0052]所述OS,提供热插拔服务、热备份服务、提供第一 clump热插拔驱动的支持,将故障信息发送给B1S ;
[0053]所述B1S,进行热插拔中断处理、资源分配、寄存器控制和信号控制,并与SMC进行故障信息交互和硬件信号控制;
[0054]每一个clump中的硬件,与B1S和SMC进行交互,负责总线控制、热插拔信号触发、电源控制和热插拔状态指示;
[0055]所述SMC,负责故障信息收集,与B1S配合进行硬件信号控制。
[0056]可见,本发明实施例提供的实现clump整体热插拔的系统,能够将所有clump通过总线互连,并分为主clump和从clump ;由SMC负责确定故障的clump,由主clump进行退出clump的终止处理。具体地,是由配置在主clump中的OS,配置在每一个clump中的B1S,每一个clump的硬件以及SMC配合,完成多路服务器中clump的热插拔。整个过程无需关闭整个多路服务器的计算机系统,实现了热插拔,大大减少了关机时间,不会影响整个系统的运行。这样,诸如银行、电信等行业的关键应用对服务器的可靠性要求越来越高,本发明实施例的系统则可以满足该要求。
[0057]在本发明系统的一个实施例中,SMC可以从主clump和从clump两个方向同时收集设备信息,以便更为全面准确地判断故障的clump,具体的实现可以包括:
[0058]所述SMC,进一步与主clump中的B1S和所有从clump中的B1S相连;通过接收各个B1S发来的故障信息,获取每一个clump的设备信息;
[0059]主clump中的B1S,用于负责收集主clump的OS报告的故障信息、主clump内部的硬件故障信息、系统1状态故障信息中的一个或多个,并发送给所述SMC ;
[0060]从clump中的B1S,用于负责收集所在clump内部硬件故障信息,并发送给所述SMC0
[0061]可将该实施例提供了完整清楚的故障信息收集和上报方案,具体是由每个clump中的B1S负责收集和上报故障信息,并明确了主clump中的B1S负责收集的信息类型和从clump中的B1S负责收集的信息类型。
[0062]基于上述实施例,本发明系统的一个实施例中,B1S与SMC配合进行故障信息收集的方式可以如图2所示。
[0063]在本发明系统的一个实施例中,一种实现所有clump中的故障从clump进行热拔出的具体实现包括:
[0064]所述主clump中配置有操作系统OS,所述主clump和所有从clump中均配置有基本输入输出系统B1S ;
[0065]所述SMC,用于以中断形式将第一 clump热移除指令发送给所述主clump中的B1S ;及进一步用于控制第一 clump的复位信号,使其处于复位状态,并控制状态指示灯指示系统正在处于热拔状态,及控制第一 clump关闭电源;
[0066]所述主clump中的B1S,进一步用于处理所述中断,并上报给OS ;并进一步对除第一 clump之外的所有clump进行重新分配处理器路由、内存地址、1资源和芯片组寄存器控制;及在接收到热移除指令后,与所述SMC配合控制硬件信号、进行互连总线的开关、时序信号的触发、电源控制及状态指示;
[0067]所述主clump中的OS,进一步用于提供clump热插拔驱动的支持,将第一 clump所负责的任务进行迀移或终止,并卸载驱动,释放相应资源;
[0068]所述第一 clump中的B1S,进一步用于通过寄存器控制断开与其他clump之间的总线互连。
[0069]在本发明系统一个实施例中,一种实现所有clump中的故障从clump维修之后,重新热插入多路服务器的计算机系统中的具体实现包括:
[0070]所述SMC,进一步用于开启新插入的第一 clump的电源系统;及进一步通知主clump的B1S对新插入的第一 clump进行链路检测和训练,重新分配处理器路由关系和内存地址,并将资源交由OS接管,
[0071]所述主clump中的OS,进一步用于重新加载驱动,对任务进行迀回或开始新的任务,完成所述第一 clump热添加工作;
[0072]新插入的第一 clump,通过内部的上电时序完成信号上电和复位。
[0073]在本发明系统的一个实施例中,实现热插拔的组件工作组成可以如图3所示。
[0074]本发明的一个实施例提出了一种实现clump热插拔的方法,参见图4,包括:
[0075]步骤401:将至少两个clump通过总线互连。
[0076]步骤402:确定主clump和从clump。
[0077]步骤403:将SMC与所有clump相连。
[0078]步骤404:SMC获取每一个clump的设备信息。
[0079]步骤405:SMC确定其中第一 clump故障需要退出系统,以中断形式向主clump发送第一 clump热移除指令。
[0080]步骤406:主clump接收到第一 clump热移除指令后,进行退出第一 clump的终止处理。
[0081]参见图5,在本发明方法的另一个实施例中,可以通过0S、B10S、硬件和SMC之间的配合,实现从clump的热插拔,具体可以包括:
[0082]步骤501:将至少两个clump通过总线互连。
[0083]步骤502:确定主clump和从clump。
[0084]步骤503:在主clump中配置OS,在主clump和所有从clump中均配置B1S。
[0085]步骤504:将SMC与所有clump中的B1S相连。
[0086]步骤505:主clump中的B1S收集主clump的OS报告的故障信息、主clump内部的硬件故障信息、系统1状态故障信息中的一个或多个,并发送给所述SMC。
[0087]步骤506:从clump中的B1S收集所在clump内部硬件故障信息,并发送给所述SMC0
[0088]步骤507:SMC接收B1S发来的信息,获取每一个clump的设备信息。
[0089]步骤508:SMC根据获取的每一个clump的设备信息,在判断出其中有发生故障需要退出系统的从clump记为c lump I时,执行步骤509。
[0090]步骤509:SMC以中断形式将clumpl热移除指令发送给主clump中的B1S。
[0091]步骤510:主clump中的B1S处理所述中断,并上报给主clump中的OS。
[0092]步骤511:主clump中的B1S对除clumpl之外的所有clump进行重新分配处理器路由、内存地址、1资源和芯片组寄存器控制;与SMC配合控制硬件信号、进行互连总线的开关、时序信号的触发、电源控制及状态指示。
[0093]步骤512:主clump中的OS提供clump热插拔驱动的支持,将clumpl所负责的任务进行迀移或终止,并卸载驱动,释放相应资源。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1