一种采用冗余PCH的服务器故障恢复系统及方法与流程

文档序号:12665177阅读:1216来源:国知局
一种采用冗余PCH的服务器故障恢复系统及方法与流程

本发明属于服务器故障恢复领域,具体涉及一种采用冗余PCH的服务器故障恢复系统及方法。



背景技术:

在八路服务器设计中,通常采用一个南桥芯片(PCH,platform controller hub)通过DMI总线与一个CPU相连接,该CPU称为主CPU,负责与PCH的数据交互。在系统开机启动时,PCH从BIOS中获取系统的设置信息、设备驱动程序和自检程序等,并通过与主CPU之间的DMI总线来完成对所有CPU和内存的自检。自检完成后,BIOS会开始引导操作系统,完成开机。在这种设计中,系统可以屏蔽掉故障的从CPU,但是如果主CPU出现故障,与PCH之间的DMI总线便无法工作,BIOS程序无法加载,系统无法屏蔽主CPU,必须通过人工更换主CPU的方式完成故障恢复,增加了服务器的宕机时间,这将对产品的可靠性产生不良影响。

此为现有技术不足之处。因此,针对现有技术中的上述缺陷,提供设计一种采用冗余PCH的服务器故障恢复系统及方法,是非常有必要的。



技术实现要素:

本发明的目的在于,针对上述主CPU出现故障时,系统无法恢复功能的缺陷,提供一种采用冗余PCH的服务器故障恢复系统及方法,以解决上述技术问题。

为实现上述目的,本发明给出以下技术方案:

一种采用冗余PCH的服务器故障恢复系统,包括

管理控制器,BIOS芯片, 南桥芯片PCH,若干CPU板,每个CPU板包括若干CPU,全部CPU板所含的CPU中只有一个主CPU,其余为从CPU;

南桥芯片PCH包括一个工作南桥芯片PCH,以及冗余南桥芯片PCH,冗余南桥芯片PCH的数量至少为1个,至多为从CPU的个数;

工作南桥芯片PCH与主CPU通过DIM总线连接,冗余南桥芯片PCH与从CPU通过DMI总线连接;

南桥芯片PCH与BIOS芯片连接;

管理控制器BMC与CPU板连接,管理控制器BMC与南桥芯片PCH连接,各CPU之间通过总线连接;各CPU之间的连接方式有多种,可以为环状连接,也可以为两两连接,即各CPU之间实现直接连接或者间接连接都可以;

BIOS芯片, 用于存放系统的设置信息、设备驱动和自检程序;

CPU板用于放置CPU,并接收屏蔽CPU的信号;

工作南桥芯片PCH用于获取BIOS芯片中存放的系统的设置信息、设备驱动和自检程序传递给主CPU;用于转发主CPU发出的CPU故障信息;

管理控制器BMC,用于接收工作南桥芯片PCH转发的CPU故障信息,用于屏蔽故障从CPU,用于配置主CPU, 用于配置工作南桥芯片PCH。

进一步地,所述CPU板为四个,每个CPU板上有两个CPU,服务器为八路服务器。

进一步地,所述南桥芯片PCH设置在独立的PCH板卡上,CPU板上设置有连接PCH板卡的连接器。

进一步地,各CPU之间通过QPI总线连接。

进一步地,各CPU之间通过UPI总线连接。

进一步地,每个CPU板上设置有一个BIOS芯片,与南桥芯片PCH连接的CPU所在的CPU板上的BIOS芯片同对应的南桥芯片PCH连接。

本发明还给出以下技术方案:

一种采用冗余PCH的服务器故障恢复方法,包括如下步骤:

步骤1.设置主CPU,设置与主CPU连接的南桥芯片默认为工作南桥芯片PCH;

步骤2.服务器尝试开机;

步骤3.工作南桥芯片PCH获取BIOS芯片中存放的系统的设置信息、设备驱动和自检程序传递给主CPU;

步骤4.若主CPU不发生故障,主CPU加载自检程序,进行自检,若从CPU没有故障,进入步骤7,若从CPU发生故障,进入步骤6;

若主CPU发生故障,自检程序无法加载,进入步骤5;

步骤5.工作南桥芯片PCH向管理控制器BMC报告;

管理控制器BMC将故障主CPU配置为从CPU,将另外一个从CPU配置为主CPU;

管理控制器BMC关闭工作南桥芯片PCH的功能,开启另一个与新的主CPU连接的冗余南桥芯片PCH的功能;回到步骤2;

步骤6. 工作南桥芯片PCH向管理控制器BMC报告;

管理控制器BMC向CPU板发送CPU配置信号屏蔽掉故障的从CPU;

步骤7.自检完成后,主CPU通过从BIOS获取的程序引导操作系统,完成开机。

进一步地,在步骤1之前增加如下步骤:

步骤1ˊ.判断是否有故障恢复需求;

步骤2ˊ.若有故障恢复需求,进入步骤1;

步骤3ˊ.若没有故障恢复需求,则只保留工作南桥芯片PCH与主CPU的连接,断开冗余南桥芯片PCH与从CPU的连接,主CPU加载自检程序,进行自检,若从CPU发生故障进入步骤6;若从CPU没有故障,进入步骤7。

本发明的有益效果在于:

本专利可应用到八路服务器产品中,本专利可以保证服务器在任意一个CPU出现故障时都能够正常开机,增强系统的可靠性,应用时,可以根据是否有故障恢复的需求决定是连接1个PCH板卡还是多个PCH板卡,提高设计的灵活性。

此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。

由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。

附图说明

图1为本发明的系统图;

图2为本发明的方法流程图;

其中,1.管理控制器BMC;2.BIOS芯片;3.第一南桥芯片PCH;4.第二南桥芯片PCH;5.第一CPU板;6.第二CPU板;7.第三CPU板;8.第四CPU板;9.第一CPU;10.第二CPU;11.第三CPU;12.第四CPU;13.第五CPU;14.第六CPU;15.第七CPU;16.第八CPU。

具体实施方式:

为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明具体实施例中的附图,对本发明中的技术方案进行清楚、完整地描述。

实施例1如图1所示,本发明提供一种采用冗余PCH的服务器故障恢复系统,包括管理控制器BMC 1,BIOS芯片2, 南桥芯片PCH,第一CPU板5,第二CPU板6,第三CPU板7,第四CPU板8,第一CPU板5上有第一CPU 9和第二CPU 10,第二CPU板 6上有第三CPU 11和第四CPU 12,第三CPU板7上有第五CPU 13和第六CPU 14,第四CPU板8上有第七CPU 15和第八CPU 16,第一CPU 9为主CPU,其余为从CPU;

南桥芯片PCH包括第一南桥芯片PCH 3和第二南桥芯片PCH 4,第一南桥芯片PCH 3为工作南桥芯片PCH,第二南桥芯片PCH 4为冗余南桥芯片PCH;第一南桥芯片PCH 3和第二南桥芯片PCH 4在独立的PCH板卡上,第一CPU板5和第四CPU板8上设置有连接PCH板卡的连接器;

第一南桥芯片PCH 3与第一CPU 9通过DIM总线连接,第二南桥芯片PCH 4与第七CPU 15通过DMI总线连接;

南桥芯片PCH与BIOS芯片2连接;每个CPU板上设置有一个BIOS芯片2,第一南桥芯片PCH 3与第一CPU板5上的BIOS芯片2连接,第二南桥芯片PCH 4与第四CPU板8上的BIOS芯片2连接;

管理控制器BMC 1与第一CPU板5、第二CPU板6、第三CPU板7、第四CPU板8连接,管理控制器BMC 1与第一南桥芯片PCH 3、第二南桥芯片PCH 4连接各CPU之间通过总线连接;第一CPU 9、第二CPU 10、第三CPU 11、第四CPU 12、第五CPU 13、第六CPU 14、第七CPU 15、第八CPU 16之间通过UPI总线连接;

实施例2如图2所示,一种采用冗余PCH的服务器故障恢复方法,包括如下步骤:

步骤1.设置主CPU,设置与主CPU连接的南桥芯片PCH默认为工作南桥芯片PCH;

步骤2.服务器尝试开机;

步骤3.工作南桥芯片PCH获取BIOS芯片中存放的系统的设置信息、设备驱动和自检程序传递给主CPU;

步骤4.若主CPU不发生故障,主CPU加载自检程序,进行自检,若从CPU没有故障,进入步骤7,若从CPU发生故障,进入步骤6;

若主CPU发生故障,自检程序无法加载,进入步骤5;

步骤5.工作南桥芯片PCH向管理控制器BMC报告;

管理控制器BMC将故障主CPU配置为从CPU,将另外一个从CPU配置为主CPU;

管理控制器BMC关闭工作南桥芯片PCH的功能,开启另一个与新的主CPU连接的冗余南桥芯片PCH的功能;回到步骤2;

步骤6. 工作南桥芯片PCH向管理控制器BMC报告;

管理控制器BMC向CPU板发送CPU配置信号屏蔽掉故障的从CPU;

步骤7.自检完成后,主CPU通过从BIOS获取的程序引导操作系统,完成开机。

DMI是指Direct Media InterfaceI(直接媒体接口)。 DMI是Intel(英特尔)公司开发用于连接主板南北桥的总线,取代了以前的Hub-Link总线。DMI采用点对点的连接方式,时钟频率为100MHz,由于它是基于PCI-Express总线,因此具有PCI-E总线的优势。DMI实现了上行与下行各1GB/s的数据传输率,总带宽达到2GB/s,这个高速接口集成了高级优先服务,允许并发通讯和真正的同步传输能力。它的基本功能对于软件是完全透明的,因此早期的软件也可以正常操作。

BIOS——Basic Input Output System,译为基本输入输出系统,是用于计算机开机过程中各种硬件设备的初始化和检测的芯片。

本发明的实施例是说明性的,而非限定性的,上述实施例只是帮助理解本发明,因此本发明不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他的具体实施方式,同样属于本发明保护的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1