多节点高密度服务器的监控及管理系统和方法与流程

文档序号:15143952发布日期:2018-08-10 20:13阅读:239来源:国知局

本发明涉及服务器领域,尤其涉及一种多节点高密度服务器的监控及管理系统和方法。



背景技术:

随着云计算、大数据、虚拟化的广泛应用,服务器向越来越高性能高密度的方向发展,更高密度和更复杂的服务器系统应运而生,对服务器系统运行状态的监控和管理的需求越来越迫切。尤其是多节点的刀片式高密度服务器,其节点多、系统复杂,一个节点或模块出现了问题,如未及时发现,可能会导致整个机器停止工作,给客户造成很大的损失。传统的监测和管理方式主要包括:(一)通过bmc每个节点做一个独立的管理网口,每个节点单独监控和管理,但这种方法涉及的网线众多(通常1个节点1根管理网线),浪费资源不利于部署和维护;且每个节点之间相互独立,无法联动,不能共享其它节点的信息,不利于整机的协调控制。(二)利用bmc做一个ncsi管理网口(即管理网口复用在普通网口上),这种方法虽然解决了第一种方法网线多不利于维护的缺点,但因为复用在普通网口上,其一般是对外提供服务的网口,在如今黑客及病毒施虐的互联网环境下,其安全性难免让人担心。(三)使用intel集成的amt功能,但因为还是推广阶段,技术不成熟,功能有限,客户体验较差,目前极少数厂商使用。(四)纯软件的方式,需要开发大量的代码,并且运行占用系统资源,最重要的是当出现硬件宕机时,软件亦无法运行,运维人员只能到现场解决问题,实际价值有限。因此如果有一种可以解决以上所有痛点,并将所有计算节点信息集合到一起的方法,将会为多节点刀片服务器的监测和管理带来很大的实际应用价值。



技术实现要素:

本发明的目的在于提供一种简单、实用的高密度服务器监控及管理方法以及适用该方法的系统。为了实现上述目的,本发明提供了如下方案:一种多节点高密度服务器的监测及管理系统,包括远端监控终端、服务器各节点、设置有mcu芯片和cpld芯片的背板以及服务器crps电源、散热装置、硬盘及硬盘信号灯;所述服务器各节点分别设置有bmc芯片;远端监控终端与任一节点连接,背板与各个节点连接;所述远端监控终端,通过网络连接服务器任一节点,用于获取服务器信息并监控管理服务器运行;所述bmc芯片,用于收集所在节点的硬件状态、温度信息传输至背板mcu芯片,并接收mcu芯片传输的其它节点信息及服务器其它信息;所述cpld芯片,用于监控服务器各硬盘状态及各节点开关机信息、控制硬盘及各节点供电,以及将监控获取的各节点及各硬盘信息传递给mcu芯片;所述mcu芯片,用于获取cpld芯片传输的各硬盘状态及各节点开关机信息、获取服务器crps电源信息、获取各节点硬件状态及温度信息,传输服务器信息至节点bmc芯片,调控服务器运行;

优选地,所述mcu芯片通过模拟串行gpio接口与cpld芯片连接,获取cpld芯片传输的服务器各节点开关机信息、服务器各硬盘的状态信息。

优选地,所述mcu芯片通过pmb接口连接crps电源,获取电源信息。

优选地,所述mcu芯片通过smb加switch的方式定义并连接服务器各节点,轮询各节点bmc,获取节点的硬件状态、温度信息以及远端监控终端的控制指令,并向bmc推送其它节点信息及服务器其它信息。

优选地,所述mcu芯片连接服务器散热装置、根据获取各节点温度信息控制散热装置运行;所述散热装置包括智能风扇。

优选地,所述cpld芯片连接服务器crps电源及各节点,控制各节点通电并获取各节点开关机状态信息。

优选地,所述cpld芯片通过sgpio连接sata/sas控制器,解码sgpio信号,获取各硬盘运行状态信息、通过gpio控制各硬盘通电、调控硬盘信号灯;所述硬盘信号灯包括状态led和健康led。

优选地,所述各节点的bmc芯片通过smb接口连接背板,向mcu传递所在节点的硬件状态信息及温度信息,并接受来自mcu的其它节点信息及服务器其它信息。

优选地,所述节点中任一节点的bmc芯片通过ipmi接口与远端监控终端连接,响应远端监控终端的信息需求、控制指令以及暂时存储无法立即响应的控制指令。

优选地,所述各节点设置独立的ipmi管理网口;所述远端监控终端包括基于ipmi协议的带ui图形界面的监测管理系统,通过节点ipmi管理网口向bmc芯片传递信息需求和控制指令。

一种多节点高密度服务器的监测及管理方法,应用上述多节点高密度服务器的监测及管理系统,其步骤包括:

s1,远程监控终端接收服务器信息,监控服务器运行状况、健康状况;

s2,当发现服务器故障时,远程监控终端发出纠正指令至所连接服务器节点的bmc芯片,该节点的bmc将纠正指令存储于bmcfwrom中;

s3,mcu轮询各服务器节点bmc,获取步骤s3中bmc的纠正指令;

s4,mcu根据纠正指令直接调控或通过cpld调控服务器运行。

本发明的技术方案提供了一种管理网线少、易于维护、多节点联动的高密度服务器的监测及管理系统和方法。本发明技术方案用于监控服务器各节点的健康状态、监控服务器每个风扇、hdd、led的状态,方便的对每个节点进行开关机、重启、强停等操作。本发明技术方案方便直观、降低了管理员的工作复杂度,便于管理员更快地发现问题,其实用性强、易于推广。

附图说明

图1.本发明具体实施例中,多节点高密度服务器的检测及管理系统示意图;

图2.本发明具体实施例中,背板的部分结构框图;

图3.本发明具体实施例中,一个节点的部分结构框图;

图4.本发明具体实施例中,节点与背板连接的结构框图;

图5.本发明具体实施例中,多节点高密度服务器的监测及管理系统的应用流程图。

具体实施方式

为使技术人员更好地理解本发明,下面参照附图对本发明的实施例进行清楚、详细的说明,但不作为对本发明的限定。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明的多节点高密度服务器的检测及管理系统主要包括远端监控终端、服务器节点以及连接远端监控终端和服务器节点的网线;用户在远程终端通过网络连接到多节点高密度服务器的其中一个节点上,通过该节点实现对该多节点高密度服务器的所有软硬件设备进行监控管理。

在具体实施例中,背板上设置有cpld芯片和mcu芯片,构成背板的主要管理功能模块。具体如图2所示,cpld芯片可作为各节点和crps电源之间开关机的协调管理模块,纪录各节点的开关机状态。cpld芯片还可接收来自服务器硬盘sas/sata控制器的sgpio信号,并解析了解各个硬盘的运行状态,并对各个硬盘的状态led和健康led实施控制。cpld芯片对各硬盘的供电进行精准控制,分时上电避免crps瞬间负荷过重,根据各节点的开关机状态决定对应的硬盘位是否供电,避免节点关机的状况下,硬盘驱动器还带电空转。cpld芯片通过连接器连接到各节点,对各节点的电源单独控制,避免所有节点同时上电造成crps瞬间负荷过重,特殊情况下可以切断某个节点的供电。cpld芯片还可与mcu沟通,将各节点的开关机信息、各hdd的健康状态等通知mcu。

mcu的主要功能包括:通过pmb接口获取crps电源的信息,如present信息、电压、电流、功耗、健康状态等;通过模拟串行gpio接口与cpld沟通,获取来自cpld的节点开关机信息、各hdd的健康状态等。mcu还通过smb加switch的方式,定义各节点的地址依次为:000、001、010···,switch再连接到各节点bmc。mcu作为master,bmc作为slave,mcu通过轮询的方式,每隔1s扫描下各节点,如果确认某个节点的bmc芯片已启动,就按预先约定的协议找bmc索取相关的节点信息如节点硬件健康状态、节点各点的温度信息、各个power的电压信息、cpu状态,memory状态等;同时向此节点推送其它节点和背板的信息。如果该节点作为远端监测管理终端的接入口,mcu还会读取来自ipmi口的信息需求和控制命令。mcu通过风扇连接器连接并控制风扇,根据收集来自各节点的温度数据,进行智能风扇控制。

如图3、图4所示,在具体实施例中,节点通过金手指连接背板的连接器,每个节点采用一个bmc芯片设计一个独立的ipmi管理网口,bmc负责监控本节点的硬件健康状态、收集本节点的温度信息,并通过smb接口接收来自背板的信息,包括背板的信息、crps电源的状态、硬盘的信息等。

在具体实施例中,本发明多节点高密度服务器的监测及管理系统的远端监控终端远端监控终端是基于ipmi协议开发的带ui图形界面的监测管理系统,连接节点的ipmi管理网口,实现对远端服务器的实时监测、管理控制等功能。与普通的管理终端不一样,我们将一台多节点服务器的多个节点归纳为一个集群,这样看起来直观,能方便的定位到是某台机器的某个节点。实现完美的、易于操作的人机交互接口。

如图5所示,本发明多节点高密度服务器的监测及管理系统的应用流程如下:

s1、远程监控终端通过网络连接服务器某一节点bmc,获取bmc的本节点信息以及mcu传递给该bmc的各节点和背板信息,监控服务器运行状况、健康状况;

s2、当发现服务器故障时,管理人员在远程监控终端ui界面,发送纠正指令至连接服务器节点的bmc芯片;该节点的bmc将纠正指令存储于bmcfwrom中;

s3、mcu轮询各服务器节点bmc,每隔1s扫描下各节点,获取步骤s2中bmc的纠正指令;

s4、mcu根据纠正指令直接调控或通过cpld调控服务器运行。

具体地,以下是本发明技术方案的具体应用实施例:

实施例1

远端监测及控制终端接在节点1的ipmi管理网口,远端监测到节点3宕机了;这时管理人员只需要点击对应此节点的ui界面的硬复位按钮,透过ipmi协议,节点1的bmc收到了要硬复位节点3的指令,节点1的bmc先将此指令存储在bmcfw的某个区域;当mcu轮询访问到节点1的bmc时,mcu就会读到要硬复位节点3的指令;这时mcu会以中断的方式快速通知节点3的bmc要硬复位节点3,最后节点3的bmc通过控制对应gpiopin脚硬复位节点3。

实施例2

某机房的空调坏了,导致服务器温度偏高,管理人员已经通过远端控制终端监测到了此信息。这时管理人员在监控终端可以采取如下临时手段,迅速给服务器降温:根据机房当前的环境温度修改为更加合理的温控策略,关掉某个hdd或节点,启用备用风扇。连接到管理终端的bmc口首先接到了指令,bmc先将此指令存储在bmcfwrom的某区域,当mcu轮询到此bmc时,就可以读到相关的指令,mcu再修改自己的风扇控制策略或透过cpld来关断某些hdd或透过bmc去关闭相应节点。

实施例3

远端控制终端侦测到某个节点的bmc失去响应,这时很可能这个节点已经损坏,为了不造成更加严重的危害,这时管理人员可以通关管理终端下达断开此节点电源的指令。连接到管理终端的bmc口首先接到了指令,bmc先将此指令存储在bmcfwrom的某区域,当mcu轮询到此bmc时,就可以读到相关的指令,mcu再透过cpld来关断某些hdd电源或透过cpld去关闭相应节点电源。

本发明的技术方案,以背板为载体,通过mcu及cpld实现各节点、背板、hdd、crps电源的监测状态控制信息的中转及交互,每个bmcfwrom里面都存储这些信息,并实时刷新;mcu获取各节点、各hdd、各crps电源、背板的温度信息,并进行智能风扇控制;cpld对每个hdd和节点的电源进行单独控制,分时上电,避免同时上电造成的crps电源瞬时电流过大,特殊情况下还可以关断某个hdd或节点的供电。本发明的方案中,一台多节点高密度服务器只需要接一个专用的ipmi管理网口,接在任何一个节点上都可以(或者为了更加可靠接几个作为一个冗余),服务器部署需要更少的网口和网线,可以节省交换机资源,易于维护;将同一台机器的各节点归纳为一个集群,能直观的看到是某台机器的某个节点,方便直观,易于推广使用。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明及附图内容所作的技术延伸或再创造均包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1