一种刀片服务器管理网络主动式检测方法
【专利摘要】本发明一种刀片服务器管理网络主动式检测方法,通过对刀片服务器关键部件增加自检机制,保证当服务器管理网络出现通信失效时具备主动处理能力。从管理模块和被管理模块两方面增加主动检测,并提供模块间的检测机制,大大提高了刀片服务器管理网络的强壮性和可用性,也促进了大规模服务器集群网络管理能力的提升。
【专利说明】—种刀片服务器管理网络主动式检测方法
【技术领域】
[0001]本发明涉及刀片服务器【技术领域】,具体地说是一种刀片服务器管理网络主动式检测方法。
【背景技术】
[0002]刀片服务器以其高计算密度、优化部署、资源共享和便于集中管理的特点被大量应用在高性能计算和云计算服务领域中,它已成为现今服务器发展的主要方向之一。刀片服务器系统通常可容纳几片至几十片计算刀片,多个电源模块及风扇模块、冗余备份管理模块、多个交换机模块。正是由于这种高密度性,具备高可用性的服务器监控管理网络就非常必要,特别是针对日益扩大的服务器集群规模,没有强壮的管理网络是不可想象的。
[0003]目前,刀片服务器的管理网络通常采用管理模块管理,此方式管理方便且集中,但集中的缺点就在于管理模块一旦出现问题,整个管理网络将无法正常运作,同时这种方法对被管理模块管理网络失效时的检测能力主动性明显不足。并且,对发生问题模块只能通过在线固件更新,或者通过停机后采用离线工具进行修改再后重新应用,这种方式不仅降低了工程实施和维护的效率,更严重影响用户的正常工作需求,特别是对于大规模服务器集群布置的网络中,一旦关键模块网络发生故障,很可能导致整个集群出现使用性问题。
[0004]因此,如何即弥补服能务器管理网络主动检测能力不足,又能提高管理网络可用性和强壮性,就成了亟需解决的问题。
【发明内容】
[0005]本发明的目的是提供一种刀片服务器管理网络主动式检测方法。
[0006]本发明的目的是按以下方式实现的,包括:1)刀片服务器各部件类型及连接方法;2)刀片服务器管理网络主动式自检机制;3)刀片服务器管理网络各模块自检方法,其中:
1)在刀片服务器各部件类型及连接方法中,所述部件类型包括:(I)刀片模块BMC单元;(2)主、备管理模块SMC单元;所述部件连接方式包括:(I)刀片模块的BMC、管理模块的SMC间通过LAN方式链接;(2)主、备管理模块的SMC间通过HeartBeat和SMBus方式链接;
2)刀片服务器管理网络主动式自检机制中,所述主动式,具体到管理模块不仅自身状态主动检测,也对被管理模块状态检测的主动查询;被管理模块自身状态主动检测;
3)刀片服务器管理网络各模块自检方法,主动式检测是对管理模块和被管理模块进行不同的自检激励、自检执行实施;其中:
管理模块自检激励包括:
1)在SMC端启动自检服务进程;
2)在SMC端通过LAN主动向BMC端发送主动查询检测指令;
3)在SMC端建立自身回环检测;
4)在主备SMC间建立基于心跳的检测机制; 管理模块自检执行实施包括:
1)SMC重启相应BMC ;
2)SMC重启自身IPMI服务主进程;
3)状态异常的SMC会被对方重启,并进行备份状态;
被管理模块自检激励包括:
1)在BMC端启动自检服务进程
2)在BMC端通过LAN主动向SMC端回复查询检测指令;
3)在BMC端建立自身回环检测;
被管理模块自检执行实施包括:
1)BMC被SMC重启;
2)BMC重启自身IPMI服务主进程。
[0007]本发明提出了一种刀片服务器管理网络主动式检测方法。同样,本方法也适用于大规模刀片服务器集群系统。
[0008]本发明的有益效果是:本发明的其他特征及优点在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中特别指出的结构来实现和获得。
[0009]本发明包括:刀片服务器管理网络主动式检测方法,及各模块的自检激励、执行及实施方法。
[0010]其中,管理网络涉及刀片服务器的管理模块和各刀片计算模块;
其中,主动式检测是关键模块主动发起检测,并接收和处理检测;
其中,管理模块的自检方法包含:对自身的主动检测,及被管理模块的主动轮询检测; 其中,被管理模块的自检机制是对自身的主动检测;
其中,服务器管理网络自检原理,建立基于LAN的IPMI Session,通过IPMI Session给自身或其它模块发送IPMI command ;
其中,管理模块的自检方法采用定时发启的方式。
【专利附图】
【附图说明】
[0011]图1是典型刀片服务器各模块组成及连接图;
图2是管理网络管理模块自检流程图;
图3是管理网络被管理模块自检流程图;
图4是管理网络主动式检测流程图。
【具体实施方式】
[0012]以下结合附图对本发明的实施例进行说明,应当理解,以此所描述的实施例仅用于说明和理解本发明,并不用于限定本发明。
[0013]图1:是根据本发明的典型刀片服务器各模块组成及连接图。如图1所示,典型刀片服务器包含一定数量计算刀片模块(BMC单元),本实例中模块数量为二十片,主备冗余的管理模块(SMC单元),若干电源和风扇,热备冗余的以太网交换机。
[0014]图2:是根据本发明的管理网络管理模块自检流程图。如图2所示,具体过程描述如下:
1)步骤1:管理模块启动自检进程;
2)步骤2:管理模块给自身建立IPMI Session ;
3)步骤3:管理模块给自身发送检测命令;
4)步骤4:若管理模块工作状态正常,则与各被管理模块建立IPMI Session,并发送主动查询检测命令;
5)步骤5:若管理模块工作状态异常,则管理模块重启IPMI Main进程;
6)步骤6:各被管理模块回复当前通信状况;
7)步骤7:若通信状态正常,不做任何处理,准备启动下一次自检过程;
8)步骤8:若通信状态异常,管理模块重启相应的被管理模块;
9)步骤9:查看定时,准备启动下一次自检过程。
[0015]图3:是根据本发明的管理网络管理模块自检流程图。被管理模块包含各个刀片计算模块和以太网交换机模块,如图2所示,具体过程描述如下:
1)步骤1:被管理模块启动自检进程;
2)步骤2:被管理模块给自身建立IPMI Session ;
3)步骤3:被管理模块给自身发送自检命令;
4)步骤4:若被管理模块工作状态正常,则不做任何处理,准备启动下一次自检;
5)步骤5:若被管理模块工作状态异常,则重启IPMI Main进程;
6)步骤6:查看定时,准备启动下一次自检过程。
[0016]图4:是根据本发明的一个实施例的管理网络主动式检测流程图。如图4所示,具体过程描述如下:
1)步骤1:刀片服务器正常启动;
2)步骤2:判断当前主动式自检定时时间是否到达;
3)步骤3:时间未到达,则继续等待;
4)步骤4:时间到达,管理模块启动主动式自检流程;
5)步骤5:时间到达,被管理模块启动主动式自检流程;
6)步骤6:实施检测的结果;
7)步骤7:重新判断当前主动式自检定时时间是否到达;
利用本实施例的刀片服务器管理网络主动式自检方法,既可以提高管理网络各关键部件的主动自检的能力,也可以增加管理网络的强壮性,降低工程实施和维护工时和成本。
[0017]除此之外,本发明也涉及对刀片服务器集中管理降低风险的改善型设计,可以从模块本身及模块间等层面提高管理网络的高度可用性。
[0018]以上所述仅为本发明的实施例而已,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种刀片服务器管理网络主动式检测方法,其特征在于包括:1)刀片服务器各部件类型及连接方法;2)刀片服务器管理网络主动式自检机制;3)刀片服务器管理网络各模块自检方法,其中: 1)在刀片服务器各部件类型及连接方法中,所述部件类型包括:(I)刀片模块BMC单元;(2)主、备管理模块SMC单元;所述部件连接方式包括:(I)刀片模块的BMC、管理模块的SMC间通过LAN方式链接;(2)主、备管理模块的SMC间通过HeartBeat和SMBus方式链接; 2)刀片服务器管理网络主动式自检机制中,所述主动式,具体到管理模块不仅自身状态主动检测,也对被管理模块状态检测的主动查询;被管理模块自身状态主动检测; 3)刀片服务器管理网络各模块自检方法,主动式检测是对管理模块和被管理模块进行不同的自检激励、自检执行实施;其中: 管理模块自检激励包括: 1)在SMC端启动自检服务进程; 2)在SMC端通过LAN主动向BMC端发送主动查询检测指令; 3)在SMC端建立自身回环检测; 4)在主备SMC间建立基于心跳的检测机制; 管理模块自检执行实施包括:. 1)SMC重启相应BMC ; 2)SMC重启自身IPMI服务主进程; 3)状态异常的SMC会被对方重启,并进行备份状态; 被管理模块自检激励包括: 1)在BMC端启动自检服务进程 2)在BMC端通过LAN主动向SMC端回复查询检测指令; 3)在BMC端建立自身回环检测; 被管理模块自检执行实施包括: 1)BMC被SMC重启; 2)BMC重启自身IPMI服务主进程; 管理网络管理模块自检流程描述如下: 步骤1:管理模块启动自检进程; 步骤2:管理模块给自身建立IPMI Session ; 步骤3:管理模块给自身发送检测命令; 步骤4:若管理模块工作状态正常,则与各被管理模块建立IPMI Session,并发送主动查询检测命令; 步骤5:若管理模块工作状态异常,则管理模块重启IPMI Main进程; 步骤6:各被管理模块回复当前通信状况; 步骤7:若通信状态正常,不做任何处理,准备启动下一次自检过程; 步骤8:若通信状态异常,管理模块重启相应的被管理模块。
2.步骤9:查看定时,准备启动下一次自检过程; 被管理模块自检程描述如下:步骤1:被管理模块启动自检进程;步骤2:被管理模块给自身建立IPMI Session ;步骤3:被管理模块给自身发送自检命令;步骤4:若被管理模块工作状态正常,则不做任何处理,准备启动下一次自检;步骤5:若被管理模块工作状态异常,则重启IPMI Main进程;步骤6:查看定时,准备启动下一次自检过程;管理网络主动式检测流程描述如下:步骤1:刀片服务器正常启动;步骤2:判断当前主动式自检定时时间是否到达;步骤3:时间未到达,则继续等待;步骤4:时间到达,管理模块启动主动式自检流程;步骤5:时间到达,被管理模块启动主动式自检流程;步骤6:实施检测的结果;步骤7:重新判断当前主 动式自检定时时间是否到达。
【文档编号】H04L12/24GK103428033SQ201310363663
【公开日】2013年12月4日 申请日期:2013年8月20日 优先权日:2013年8月20日
【发明者】陈刚 申请人:浪潮电子信息产业股份有限公司