用于微型服务器和群集化片上系统部署的可管理性冗余的制作方法

文档序号:9650586阅读:210来源:国知局
用于微型服务器和群集化片上系统部署的可管理性冗余的制作方法
【专利说明】
【背景技术】
[0001]在计算机生态系统中,片上系统(SoC)正变得愈加流行。正在数据中心中部署SoC系统的群集,示例来自各种处理器设计者和制造商。与所有的服务器(包括SoC微型服务器)一样,可管理性(manageablity)是要求。目前,高级RISC机器(ARM)解决方案和各种其他解决方案包括集成式可管理性,并且这对于目前可用的单节点SoC部署是足够的。随着处理系统制造商在FRU(现场替换单元)板上集成许多节点或者甚至在给定的硅封装内实现许多SoC系统,目前的可管理性能力可能不再是足够的。每一个以及每个SoC具有其自身的可管理性接入点(MAP),并且这可能导致可靠性、可用性和可服务性(RAS)问题。例如,当确定了 MAP已经要求执行功能时,MAP的失效可能是中央处理单元(CPU) SoC插槽或整个FRU板的失效。单个MAP的失效可导致整个部件的失效。
【附图说明】
[0002]图1是根据实施例的、本文中描述的系统的框图。
[0003]图2是根据实施例的、本文中描述的集成电路(1C)块的框图。
[0004]图3是根据实施例的1C封装的框图。
[0005]图4是根据实施例的服务器系统的框图。
[0006]图5是示出根据实施例的服务器系统的1C块的报告和控制能力的的框图。
[0007]图6是根据实施例的、可由本文中描述的系统执行的方法的流程图。
[0008]图7是根据实施例的、可由本文中描述的系统执行的方法的流程图。
[0009]图8是根据实施例的计算系统的框图。
[0010]图9是根据实施例的处理器和计算机可读介质的框图。
[0011]图10是根据实施例的计算系统的框图。
[0012]在附图中,参考标号的最左侧数位可标识参考标号在其中首次出现的图。
【具体实施方式】
[0013]本文中公开了用于为微型服务器和群集化SoC部署提供可管理性冗余的技术。所讨论的实施例利用跨所有的区段都起作用的但仍然提供所需的强健的系统可管理性、良率(yield)恢复和RAS的解决方案来解决与这些基于SoC的系统相关联的各种障碍,诸如,对一个或多个1C块的功能失效的报告。
[0014]图1是包括多个集成电路(1C)块102-1至102-n (统称为或总称为102)的系统的框图,每一个1C块分别包括用于执行一个或多个功能的任务块104-1至104-n(统称为或总称为104)以及用于执行管理功能的管理块106-1-106-n (统称为或总称为106)。任务块104和/或管理块106可各自包括一个或多个指令处理器。
[0015]1C块102或其子集可被设计和/或制造为彼此完全相同,并且每一个都是可配置的以执行一个或多个可分配的功能。可分配的功能可包括但不限于与例如温度控制、功率管理等有关的功能。
[0016]管理块106或其子集可配置成用于访问和/或确定对应的1C块106的状态,并且通过管理接入点(MAP) 108处的通信基础设施报告该状态。管理块106或其子集可配置成用于访问对应的1C块内的感测到的参数值,并且通过MAP 108处的通信基础设施来报告感测到的参数值。感测到的参数可包括但不限于例如,温度相关的参数(例如,温度)、功率相关的参数(例如,功耗),等等。
[0017]管理块106或其子集可以是可动态地重新配置的以执行一个或多个其他管理块106的功能。作为示例,MGB 106-1可以是可动态地重新配置的以访问和/或确定1C块102-2的状态,并且当MGB 106-2不能报告1C块102-2的状态时,通过MAP 108-1处的通信基础设施来报告该状态。MGB106-1可以是可动态地重新配置以便在如果1C块102-2的状态指示了任务块104-2实质上是可操作的而MGB 106-2是有故障的时执行MGB 106-2的附加功能,以便诸如准许任务块104-2保持是可操作的。作为另一个示例,MGB 106-1可以是可动态地重新配置的以便当MGB 106-2不能访问1C块102-2内的感测到的参数值时来这样做。作为进一步的示例,MGB 106-1可以是可动态地重新配置的以访问其他1C块(例如,与1C块102-2相邻的其他1C块)内的感测到的参数值,并且当来自1C块102-2的感测到的参数值是不可访问的或不可用的时,使用那些访问到参数值来估计1C块102-2的参数值。
[0018]管理块106或其子集可以是可动态地重新配置为基板管理控制器(BMC) 101以执行管理功能,所述管理功能诸如但不限于,监测1C块102中的其他1C块的处理、协调1C块102之间的共享资源的仲裁和分配、记录系统错误、协调1C块102的故障恢复引导(“FRB”)、1C块102之间的负载平衡、控制对通信基础设施内的各个部件的访问、风扇控制、电源监测和调节以及温度监测。基于例如具有最低或最高的标识号,管理块106可被指定为作为将报到(check in)的第一个管理块的BMC。
[0019]1C块102或其子集可以是可动态地重新配置的以执行1C块102中的一个或多个其他1C块的一个或多个所分配的任务。作为示例,1C块102-1可以是可动态地重新配置的以降低一个或多个其他1C块102的温度。1C块102-1可以是可动态地重新配置的以便在以下情况下执行1C块102的一个或多个其他1C块的一个或多个所分配的任务:如果例如一个或多个其他1C块102不能执行一个或多个所分配的任务,或者不能降低这一个或多个其他1C块的任务负荷;或者当这一个或多个其他1C块被置于降低的功耗状态下时,等等。可以构想在其中1C块102执行一个或多个其他1C块102的一个或多个所分配的任务的其他场景。
[0020]每一个1C块102或其子集可被配置为如下参照图2所描述的那样。然而,1C块102不限于图2的示例。
[0021]系统100可包括用于在1C块102之间进行通信的通信基础设施。该通信基础设施可配置成用于在MAP之间提供全部到全部连接性(all-to-all connectivity) 0系统100可表示1C封装,并且每一个1C块102可表示1C封装的对应的SoC,诸如以下参照图3所描述的,图3还示出根据实施例的、具有全部到全部连接性的通信基础设施303。然而,系统100不限于图3的示例。
[0022]系统100可表示服务器系统,并且每一个1C块102可表示服务器系统的对应的刀片(blade),诸如以下参照图4所描述的。然而,系统100不限于图4的示例。
[0023]图2是可包括任务块204和管理块206的1C块202的框图。任务块204可包括一个或多个处理器220,这一个或多个处理器220中的每一个可包括用于执行计算机程序指令的一个或多个处理核222。处理器220可包括但不限于,微处理器、图形处理器、物理处理器、数字信号处理器、网络处理器、前端通信处理器、协处理器、管理引擎(ME)、控制器或微控制器、中央处理单元(CPU)、通用指令处理器和/或专用处理器。
[0024]任务块204可进一步包括用于存储计算机程序指令和数据的计算机可读介质224,所述数据在处理器220执行计算机程序指令时由处理器220使用和/或生成。介质224可包括暂态和/或非暂态介质。在图2的示例中,介质224可包括主存储设备226和副存储设备228。
[0025]主存储设备226可包括寄存器230、处理器高速缓存232和主存储器或系统存储器234。寄存器230和高速缓存232可以是可由核222直接访问的。主存储器234可以是可由处理器220和/或核222直接访问的和/或可由处理器220和/或核222通过存储器链路或总线间接访问的。主存储226可包括易失性和非易失性存储器,诸如,随机存取存储器(RAM)及其变体,包括但不限于,静态RAM (SRAM)、动态RAM (DRAM)、同步DRAM (SDRAM)和/或双倍数据速率SDRAM(DDR SDRAM)。
[0026]副存储设备228可以是可由处理器220和/或核222通过通信基础设施238间接访问的,并且可包括非易失性存储器,诸如,只读存储器(ROM)及其变体,包括但不限于,可编程ROM(PROM)、可擦PROM(EPROM)和电可擦PROM(EEPROM)。非易失性存储器还可包括非易失性RAM (NVRAM),诸如,闪存。
[0027]处理器220可进一步包括用于在核222与内部通信基础设施238之间接口连接的控制单元236。
[0028]任务块204可进一步包括用于在处理器220与内部通信基础设施238之间接口连接的存储器控制器240。
[0029]1C块202可进一步包括用于在处理器220与系统接入点(SAP) 244-1处的外部通信基础设施之间接口连接的接口 242。
[0030]任务块204可包括用于执行一个或多个预先配置的和/或可配置的功能的1C逻辑246。处理器220可配置成用于通过通信基础设施238来与1C逻辑246接口连接。接口242可配置成用于在1C逻辑246与SAP 244-2处的外部通信基础设施之间接口连接。
[0031]在图2中,1C块202可进一步包括一个或多个传感器250,这一个或多个传感器250可包括一个或多个环境传感器,诸如,温度传感器、风扇速度传感器、电压传感器和/或功耗传感
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1