一种整机柜计算资源池节点及计算资源池化架构的制作方法

文档序号:11216079阅读:510来源:国知局
一种整机柜计算资源池节点及计算资源池化架构的制造方法与工艺

本发明涉及计算机技术领域,具体地说是一种整机柜计算资源池节点及计算资源池化架构。



背景技术:

随着互联网经济的快速发展,海量数据正以前所未有的增长趋势冲击着整个数据中心行业,对it基础架构提出了更高的要求。服务器作为数据中心的核心部件之一,为了适应未来大规模业务增长的需求,也需要对其架构进行优化和重构。

在服务器的资源重构架构中,计算资源重构是其中一个重要应用。同时模块化和高密度是服务器发展的重要趋势,表现为通用服务器逐渐向整机柜服务器演化。

目前计算资源的池化设计均未应用于整机柜服务器领域,集成密度低,能耗高,无法集中管理,资源分配模式僵化,资源有效利用率低,安装和维护工作量大。

基于此,本发明提供一种整机柜计算资源池节点及计算资源池化架构。解决整机柜计算资源池化架构设计技术,将计算资源池化形成1u节点模块应用到整机柜服务器,并实现级联扩展、动态池化、集中管理等功能。



技术实现要素:

本发明的技术任务是针对以上不足之处,提供一种整机柜计算资源池节点及计算资源池化架构。

一种整机柜计算资源池节点,以1u节点的形态应用到配置有管理模块、计算节点的整机柜服务器,其结构包括电源板、gpu节点模块和gpu,所述gpu节点模块通过电源板连接到上述管理模块,实现对gpu节点模块状态监控和计算资源的管理功能;在gpu节点模块中配置有数据交换芯片,该数据交换芯片可连接所述计算节点、gpu并实现gpu与计算节点之间计算数据的交换。

所述电源板与gpu节点模块之间采用铜排供电,供电电压为12v。

所述数据交换芯片配置2个数据上行接口和4个数据下行接口,4个数据下行接口分别接入4个gpu,1个数据上行接口可接入计算节点,该数据上行接口、数据下行接口均为pcie接口。

所述gpu节点模块中还配置有顺序互连的bmc芯片、mcpu芯片和pcieswitch芯片,该pcieswitch芯片连接上述数据交换芯片且还连接有可扩展的对外管理接口,该对外管理接口为pcie接口。

所述计算资源池节点可用于级联,即将至少两个gpu节点模块互联,具体级联结构为:首先将一gpu节点模块的上行接口接入计算节点,该gpu节点模块的另一上行接口则接入另一gpu节点模块的一上行接口;两gpu节点模块之间的对外管理接口相互连通,实现pcie管理信号的互通;该另一gpu节点模块与其它gpu节点模块之间则采用上述连接方式实现级联。

在与计算节点连接的gpu节点模块中,通过mcpu实现对gpu节点模块的管理,mcpu通过1个pcieswitch芯片连接到对外管理接口和数据交换芯片,通过bmc芯片实现上行管理通道为1和2的动态选择,即选择哪个数据上行接口,当计算节点模块为被级联模块时,管理链路切换到通道1,保持1个mcpu进行2个或n个gpu节点模块的管理,这里的n为被级联模块的数量,从而实现gpu节点模块的级联。

一种整机柜计算资源池化架构,包括一个计算节点、若干gpu节点模块、整机柜管理模块及整机柜电源总线busbar,计算节点和gpu节点模块分别通过各自的电源板连接到整机柜电源总线busbar取电,实现计算资源池的集中供电;整机柜管理模块用于实现对整机柜计算资源池的集中管理,计算节点用于作为计算资源池的主设备端,通过线缆分别连接到各gpu节点模块并传输pcie数据信号。

所述计算节点、gpu节点中的bmc芯片分别通过各自的电源板与整机柜管理模块通信,从而实现计算资源池的集中管理;该整机柜管理模块用于收集计算节点和gpu节点模块的资源信息、资源利用率,并上报给该整机柜管理模块中的上层应用软件。

所述整机柜管理模块与监控芯片bmc通信获取的资源信息包括cpu利用率、gpu利用率、网络带宽,并将资源池中资源利用率及时上报给上层应用软件。

所述系统上层应用软件将获取的所有gpu资源统一编码、管理,形成gpu资源池,并根据具体的相关资源利用率,计算gpu资源池中各gpu的业务饱和度,有效调整资源池业务应用,实现资源动态池化,同时可自动分配新运算任务,实现节点资源的最大化使用。

本发明的一种整机柜计算资源池节点及计算资源池化架构和现有技术相比,具有以下有益效果:

1)、计算资源池节点模块以1u节点的形态应用到整机柜服务器,提高部署密度。

2)、整机柜计算资源池可实现集中供电、集中管理,提高效率,降低系统能耗。

3)、gpu节点模块可实现数据级联,并可通过bmc芯片实现管理链路的动态,达到计算资源池扩展目的,减少计算节点资源需求,降低成本。

4)、基于计算资源池化节点模块设计,结合计算节点,构建整机柜形态的资源池化架构,实现整机柜形态的集中供电、集中管理、动态池化,提高交付效率、运维效率。

5)、系统上层应用软件将该机制中所有gpu资源统一编码、管理,形成gpu资源池,并根据具体的相关资源利用率,计算gpu资源池中各gpu业务饱和度,有效调整资源池业务应用,实现资源动态池化,同时可自动分配新运算任务,实现节点资源的最大化使用,从而提高资源池灵活性、利用率,降低系统能耗,实用性强,适用范围广泛,具有很好的推广应用价值。

附图说明

附图1是整机柜计算资源池节点示意图。

附图2是gpu节点模块级联架构示意图。

附图3是计算资源池管理链路级联架构示意图。

附图4是整机柜计算资源池化架构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步说明。

一种整机柜计算资源池节点,通过该计算资源池节点模块,以1u节点的形态应用到整机柜服务器,可实现计算资源池的集中管理、提高集成密度、降低能耗。计算资源池节点的4个gpu可通过如pex9797的数据交换芯片直接实现相互的计算数据交换,该节点模块的数据接口可级联到另外1个计算资源池节点,实现计算资源池数据交换单元的级联。在数据级联时,通过bmc芯片实现管理链路的动态切换,保持1个mcpu进行2个计算资源数据交换单元的管理,实现数据交换管理单元的级联。

整机柜管理系统收集计算节点和gpu节点的资源信息、资源利用率并上报给上层应用软件。系统上层应用软件将该机制中所有gpu资源统一编码、管理,形成gpu资源池,并根据具体的相关资源利用率,计算gpu资源池中各gpu业务饱和度,有效调整资源池业务应用,实现资源动态池化,并自动分配新运算任务,实现节点资源的最大化使用。

如附图1所示,本发明的具体结构包括电源板、gpu节点模块和gpu,所述gpu节点模块通过电源板连接到上述管理模块,实现对gpu节点模块状态监控和计算资源的管理功能;在gpu节点模块中配置有数据交换芯片,该数据交换芯片可连接所述计算节点、gpu并实现gpu与计算节点之间计算数据的交换。

所述电源板与gpu节点模块之间采用铜排供电,该铜排通过电源板与节点模块互联实现12v系统供电,对电源板进行热插拔、过流、过压电路设计,提高节点模块系统可靠性。

所述数据交换芯片配置2个数据上行接口和4个数据下行接口,4个数据下行接口分别接入4个gpu,1个数据上行接口可接入计算节点,该数据上行接口、数据下行接口均为pcie接口。

所述gpu节点模块中还配置有顺序互连的bmc芯片、mcpu芯片和pcieswitch芯片,该pcieswitch芯片连接上述数据交换芯片且还连接有可扩展的对外管理接口,该对外管理接口为pcie接口。

所述计算资源池节点可用于级联,即将至少两个gpu节点模块互联,具体级联结构为:首先将一gpu节点模块的上行接口接入计算节点,该gpu节点模块的另一上行接口则接入另一gpu节点模块的一上行接口;两gpu节点模块之间的对外管理接口相互连通,实现pcie管理信号的互通;该另一gpu节点模块与其它gpu节点模块之间则采用上述连接方式实现级联。

在与计算节点连接的gpu节点模块中,通过mcpu实现对gpu节点模块的管理,mcpu的通过1个pcieswitch芯片连接到对外管理接口和数据交换芯片,通过bmc芯片实现上行管理通道为1和2的动态选择,即选择哪个数据上行接口,当计算节点模块为被级联模块时,管理链路切换到通道1,保持1个mcpu进行2个或n个gpu节点模块的管理,这里的n为被级联模块的数量,从而实现gpu节点模块的级联。

数据交换芯片以pex9797芯片为例,如图2所示,为计算资源池节点模块级联架构示意图。计算资源池节点的4个gpu可通过pex9797芯片直接实现相互的计算数据交换,节点模块的1个数据上行接口连接到计算节点,另1个数据接口连接到另外1个计算资源池节点,实现计算资源池数据交换单元的级联。

如图3所示,为计算资源池管理链路级联架构示意图。计算资源池节点模块通过mcpu实现计算资源数据交换单元的管理,mcpu的pciex1管理信号通过1个pcieswitch芯片连接到对外管理接口和数据交换芯片pex9797,通过bmc芯片实现上行管理通道为1和2的动态选择。当计算节点模块为被级联模块时,管理链路切换到通道1,保持1个mcpu进行2个计算资源数据交换单元的管理,实现数据交换管理单元的级联。

一种整机柜计算资源池化架构,如图4所示,其结构包括一个计算节点、若干gpu节点模块、整机柜管理模块及整机柜电源总线busbar,计算节点和gpu节点模块分别通过各自的电源板连接到整机柜电源总线busbar取电,实现计算资源池的集中供电;整机柜管理模块用于实现对整机柜计算资源池的集中管理,计算节点作为计算资源池的host端,通过pcieredriver芯片增强pcie信号驱动能力,pcie数据信号通过线缆分别连接到各gpu节点模块,形成gpu资源池,实现整机柜计算资源池化。

所述计算节点、gpu节点中的bmc芯片分别通过各自的电源板与整机柜管理模块通信,从而实现计算资源池的集中管理;该整机柜管理模块用于收集计算节点和gpu节点模块的资源信息、资源利用率,并上报给该整机柜管理模块中的上层应用软件。

所述整机柜管理模块与监控芯片bmc通信获取的资源信息包括cpu利用率、gpu利用率、网络带宽,并将资源池中资源利用率及时上报给上层应用软件。

所述系统上层应用软件将获取的所有gpu资源统一编码、管理,形成gpu资源池,并根据具体的相关资源利用率,计算gpu资源池中各gpu的业务饱和度,有效调整资源池业务应用,实现资源动态池化,同时可自动分配新运算任务,实现节点资源的最大化使用。

在本发明中,基于数据交换芯片构建计算资源高速数据交换单元,形成计算资源池节点模块,以1u节点的形态应用到整机柜服务器,可实现计算资源池的集中管理、提高集成密度、降低能耗。

按照图2构建计算资源池节点模块数据级联架构,达到计算资源池扩展目的,减少计算节点资源需求,降低成本。

按照图3构建计算资源池节点模块管理链路级联架构,实现计算资源池扩展管理需求,降低成本。

按照图4所示,基于计算资源池化节点模块设计,结合计算节点,构建整机柜形态的资源池化架构,实现整机柜形态的集中供电、集中管理、动态池化,提高交付效率、运维效率。

通过上层软件池化管理技术,实现资源动态池化和任务自动分配,达到节点资源的最大化使用,提高资源池灵活性、利用率,降低系统能耗。

从而实现支持级联的整机柜计算资源动态池化架构。

本技术方案还可用在服务器和存储主板工厂生产检验环节,针对bios、bmc、cpld的版本检查。

通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

除说明书所述的技术特征外,均为本专业技术人员的已知技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1