多个机架系统的监控方法

文档序号:7991069阅读:204来源:国知局
专利名称:多个机架系统的监控方法
技术领域
本发明是有关于一种集中管理服务器的技术,且特别是有关于一种多个机架系统的监控方法。
背景技术
许多企业依据其所提供的云端服务或是业务需求而设置许多服务器(server),并将这些服务器整合成可集中管理的机架系统。也会将这些机架系统统合放置在固定局域中,例如统一放置在货柜内,藉以节省服务器的管理成本。图1说明机架系统100的方块示意图。机架系统100内部放置网络交换机120和多台服务器110_1 110_n。服务器110_1 110_11各自具有一个网络端口,这些网络端口均连接至网络交换机120。服务器110_1 110_n通过网络交换机120连接至因特网(internet) 10,因特网10也可以称作服务网络。每台服务器都是一个独立的电脑系统。举例而言,每台服务器110_1 110_n各自包含电源供应器、基板管理控制器(BMC)、以及用于散热的多个风扇。在传统的机架系统100中,各个服务器110_1 110_11通过基板管理控制器以各自管理自身的电源供应器与风扇,藉以管控其内部的功耗与温度。由于需要对整个机架系统100中的相关设备进行管理,因此机架系统100还设有管理模块。由于整合管理模块对于机架系统而言十分重要,因此若其出现故障时,需要及时得知故障讯息。

发明内容
本发明提供一种多个机架系统的监控方法,其从每一组的机架系统中选出主要的整合管理模块,以对同组中的整合管理模块进行监控并判断是否发生异常,便可在不增加硬件的情况下,达成整合管理模块在故障时能及时性相互进行汇报的功能。本发明提出一种多个机架系统的监控方法,其包括下列步骤。提供多个机架系统,其中每个机架系统皆包括一整合管理模块及多个服务器。上述整合管理模块与这些服务器通讯连接并藉以管控这些服务器。分配这些机架系统为至少一组机架组,并且选择在每一机架组内的这些整合管理模块其中之一以作为一主要整合管理模块,其中,每个机架组内的整合管理模块皆相互通讯连接。主要整合管理模块监测在所对应的机架组内、并且是除了主要整合管理模块以外的其他整合管理模块,藉以判断其他整合管理模块是否发生异常。当其他整合管理模块其中之一发生异常时,主要整合管理模块发送包含异常的整合管理模块的警示讯息。在本发明的一实施例中,上述的监控方法更包括下列步骤。选择在每一机架组内的多个整合管理模块其中之另一以作为一次要整合管理模块。此次要整合管理模块监测在所对应的机架组内、并且除了次要整合管理模块以外的其他整合管理模块。以及,当其他整合管理模块其中之一发生异常时,次要整合管理模块发送包含异常的整合管理模块的警示讯息。
在本发明的一实施例中,上述的监控方法更包括下列步骤。如果次要整合管理模块监测到异常的整合管理模块是主要整合管理模块的时候,则将此次要整合管理模块转换为主要整合管理模块,并从对应的机架组内正常工作的其他整合管理模块中选择其中之一,使其成为新的次要整合管理模块。在本发明的一实施例中,上述的监控方法更包括下列步骤。如果主要整合管理模块监测到异常的整合管理模块是次要整合管理模块的时候,从对应的机架组内正常工作的其他整合管理模块中选择其中之一,使其成为新的次要整合管理模块。基于上述,本发明实施例从每一组的机架系统中选出一个或两个整合管理模块作为此组的首领(主要整合管理模块)或副首领(次要管理模块),这两个整合管理模块会一起对同组中的整合管理模块进行监控并判断是否发生异常。此外,这两个整合管理模块也会在对方发生异常时,另外选择正常运作的整合管理模块来接管发生异常的首领或副首领的监测工作。由于不需要在每台机架系统中皆配置冗余的整合管理模块,便可在不增加硬件的情况下,达成整合管理模块在异常或故障时及时进行汇报的功能,因此利于集中管理服务器。为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图式作详细说明如下。


图1说明机架系统的方块示意图。图2是依照本发明实施例以说明多个机架系统的监控方法的流程图。图3是依照本发明实施例说明机架组与机架系统的功能模块示意图。主要元件符号说明

10:因特网(服务网络)20:管理网络100:机架系统110_1 110_n、320_l 320_4:服务器120:网络交换机100、300_1 300_4:机架系统305:机架组330_1 330_4:电力供应单元340_1 340_4:风扇单元350_1 350_4:整合管理模块360_1 360_4:服务网络交换机370_1 370_4:管理网络交换机S210 S295:步骤
具体实施例方式对于机架系统而言,传统在每一个机架系统中仅具备单一个整合管理模块,或是配置多个整合管理模块藉以相互备援,从而避免机架系统内的服务器因整合管理模块损坏而无法运作。然而,如此便会增加硬件的建置成本。于此,本发明实施例将多个机架系统中的整合管理模块相互连线,并对这些机架系统进行分组,以从每一组的机架系统中选出一个或两个整合管理模块作为此组的首领(主要整合管理模块)或副首领(次要整合管理模块)。本实施例通过这两个整合管理模块来一起对同组中的整合管理模块进行监控,从而判断该机架组中的整合管理模块是否发生异常。当这两个整合管理模块发现对方发生异常时,将会另外选择正常运作的整合管理模块来接管发生异常的首领或副首领的监测工作。因此,便可在不增加硬件的情况下,达成整合管理模块可在故障时相互进行及时汇报的功能。图2是依照本发明实施例以说明多个机架系统300_1 300_M的监控方法的流程图。图2所述的监控方法适用于多个机架系统300_1 300_M,M为正整数。为方便说明,本实施例可在下述说明中将机架系统300_1 300_11分别称为是机架I至机架M。并且,符合本发明实施例的M可为2或是大于2的正整数,但此仅为举例,并不限制本发明。首先,于步骤S210中,本实施例提供多个机架系统300_1 300_M。本实施例将机架系统300_1 300_M架设于货柜中以提供机架I至机架M。每个机架系统皆分别包括整合管理模块(Integrated Management Module ;IMM)以及多个服务器。在每个机架系统300_1 300_M中,整合管理模块与位在同个机架系统300_1 300_M中的这些服务器相互通讯连接,整合管理模块藉以管控这些服务器。于步骤S220中,分配这些机架系统300_1 300_M为至少一组机架组,并且选择在每一机架组内的这些整合管理模块其中之一以作为主要整合管理模块。每个机架系统300_1 300_M的整合管理模块350_1 350_M则是通过管理网络相互连结。换句话说,步骤S220便是在每个机架组内选择其中一个整合管理模块作为首领(或称为是主要整合管理模块)。此外,于步骤S230中,本实施例更会选择在每一机架组内的这些整合管理模块其中之另一为一次要整合管理模块。换句话说,便是在每个机架组内选择其中一个不是主要整合管理模块的另一个整合管理模块以作为副首领(或称为是次要整合管理模块)。于本实施例中,在此以4个机架系统作为一组机架组,并以图3中的机架组305作为举例,图3是依照本发明实施例说明机架组305与机架系统300_1 300_4的功能模块示意图。然而,于其他符合本发明精神的实施例中,也可将2个或2个以上的机架系统分配作为同一组机架组,因此,每一组机架组中机架系统的数量并不受限于此。在此特别说明的是,步骤S220可以利用机架系统300_1 300_M中整合管理模块的分散式结构来自动匹配并加以分组,以使同一网段中的整合管理模块所对应的机架系统分为同一组,并自动依据这些整合管理模块的相关特征值来选举出上述的首领与副首领。换句话说,本实施例可通过整合管理模块的相互通讯来使得机架系统300_1 300_4得以自动分配为同一组机架组305。举例而言,每个机架系统300_1 300_M的整合管理模块可以自行建立一机架信息表单,并且将整合管理模块本身相关的特征值写入此机架信息表单,上述特征值例如是整合管理模块各自的名称(例如,在网域名称系统(Domain Name System ;DNS)中预设的名称)、编号、网络协议地址和/或媒体访问控制地址..等可供识别整合管理模块的相关参数或信息。此外,每个整合管理模块也可通过网络封包,以将本身的特征值通过管理网络20传送到附近的整合管理模块,藉以完善其他整合管理模块中的机架信息表单。
然后,各个整合管理模块便可依据自身的分组判断程序来自动匹配对应的机架系统300_1 300_M,以使固定数量的机架系统能够分配为同一组机架组中,并得以利用这些特征值来自动选择出较佳的首领与副首领。于本实施例中,会将同一网段中的整合管理模块所对应的机架系统分为同一组机架组。于其他实施例中,这些整合管理模块350_1 350_4也可通过管理网络20及公共网络交换机以连线到一远程整合管理中心,此远程整合管理中心便可统一将这些机架系统350_1 350_4进行分组,在此不再赘述其详细流程。在此详细说明每个机架系统300_1 300_M中的硬件架构及其功能。如图3所示,机架系统300_1 300_4分别包括整合管理模块(IMM) 350_1 350_4、多个服务器320_1 320_2、电力供应单元330_1 330_4、风扇单元340_1 340_4、服务网络交换机360_1 360_4以及管理网络交换机370_1 370_4。由于每个机架系统300_1 300_M皆类似,在此以机架系统300_1 (机架I)作为举例,机架2至机架M皆可以通过机架I中的描述来推知,在此不再赘述。服务器320_1各自具有服务网络端口。服务网络交换机360_1的多个网络连接端口分别连接至服务器320_1的服务网络端口。因此,这些服务器320_1可经由服务网络交换机360_1提供服务至服务网络10 (例如,因特网)。此外,同样位在机架组305中的服务网络交换机360_1 360_4也利用各自的网络连接端口与服务网络10进行连接。服务器320_1各自具有基板管理控制器(baseboard management controller ;BMC),这些基板管理控制器则各自具有管理网络端口。这些基板管理控制器的管理网络端口各自连接至管理网络交换机370_1的多个网络连接端口其中之一。管理网络交换机370_1耦接管理网络20。此外,同样位在机架组305中的管理网络交换机370_1 370_4可以利用各自的网络连接端口相互连接,或是耦接至公共网络交换机以形成管理网络20。此管理网络20可以是局域网络(local areanetwork ;LAN),例如以太网络(Ethernet)等局域网络。因此,管理网络交换机370_1 370_4可以是以太网络交换机或是其他局域网络交换机。于本实施例中,在此特别提出的是,管理网络20上可以传送整合管理模块之间的沟通命令、网络交换机的验证讯息、基板管理控制器之间的智慧平台管理接口(Intelligent Platform Management Interface ;IPMI)讯息、传输给风扇单兀或电力供应单元的讯息、整合管理模块之间的配置信息以及同步化信息...等。因此,在管理网络20上传递的信息皆用于管理机架系统。整合管理模块350_1的管理网络端口连接至管理网络交换机370_1。在机架I中,整合管理模块350_1经由管理网络交换机370_1与这些服务器320_1的基板管理控制器通信,以获取这些服务器320_1的运行状态(例如服务器内部温度等运行状态),及/或控制这些服务器320_1的运行(例如控制服务器的开机与关机、固件更新等运行)。机架系统300_1亦配置电力供应单元330_1、多个风扇单元340_1。电力供应单元330_1提供电能给机架I内的各个装置。例如,电力供应单元330_1供电给机架I中的管理网络交换机370_1、服务网络交换机360_1、服务器320_1、风扇单元340_1以及整合管理模块350_1。电力供应单元330_1与风扇单元340_1皆具有管理网络端口,这些管理网络端口连接至管理网络交换机370_1。藉此,整合管理模块350_1可以经由管理网络交换机370_1与电力供应单元330_1以及风扇单元340_1通信,以获取电力供应单元330_1、风扇单元340_1的运行状态,及/或控制电力供应单元330_1、风扇单元340_1的运行。因此,基于上述,本实施例于上述所称的机架内部设备220_1,便是图3中机架I的多个风扇单元260_1、电力供应单元250_1以及各个服务器240_1的基板管理控制器。上述这些机架I中的内部设备皆连接至第一交换机(例如,管理网络交换机230_1)。藉此,机架I的整合管理模块230_1便可利用以太网络协议,并通过第一交换机(管理网络交换机230_1)、第二交换机(管理网络交换机230_2)来连线至机架2的整合管理模块280。请回到图2,并配合图3来接续说明本实施例所揭示的多个机架系统的监控方法。为了方便说明,在此将步骤S220中所选择出的主要整合管理模块假设是机架I中的整合管理模块350_1,且将步骤S230中所选择出的次要整合管理模块则假设是机架3中的整合管理模块350_3。接着,步骤S240 S265为主要整合管理模块350_1来执行机架组305内机架系统300_2 300_4的监测步骤,而步骤S270 S295则由次要整合管理模块350_3来执行机架组305内机架系统300_1、300_3 300_4的监测步骤,以下分别加以说明。首先说明主要整合管理模块350_1的步骤S240 S265。于步骤S240中,主要整合管理模块350_1开始监测在所对应的机架组内(例如,图3的机架组305)、并且除了主要整合管理模块350_1以外的其他整合管理模块(例如,整合管理模块350_2 350_4)是否发生异常。此处所谓的『异常』,可以指为主要整合管理模块350_1与整合管理模块350_2 4之间的网络链路无法连线、管理 网络交换器370_1 370_4其中之一发生故障而中断连线,或是整合管理模块350_2 350_4其中之一发生故障...等情况。于本实施例中,管理网络交换机370_1 370_4通过管理网络20以及一个以上的网络节点(例如,管理网络交换器370_1 370_4)相连,以实现整合管理模块350_1 370_4之间的通讯,并相互进行监测。因此,于步骤S240中,机架组305内的主要整合管理模块350_1 (首领)分别且定期地发送多个确认请求至其他整合管理模块350_2 350_4,并接收由整合管理模块350_2 350_4分别传送的多个确认回应,藉以确认主要整合管理模块350_1到整合管理模块350_2 350_4之间的网络链结是否通畅,并可同时确认整合管理模块350_2 350_4是否有发生异常。如果整合管理模块350_1偶尔没有收到整合管理模块350_2 350_4所回传的确认回应时,例如整合管理模块350_1并未接收到确认回应的连续次数小于一门槛值的时候,可能当时的整合管理模块350_2 350_4已经满载、网络链结过于壅塞而暂时无法收到此确认回应,上述情况应可以允许偶尔发生。但是,当整合管理模块350_1并未接收到该确认回应的连续次数大于上述门槛值时,则整合管理模块350_1便需将没有回传其确认回应的整合管理模块350_2 350_4判断已发生异常。于类似实施例中,整合管理模块350_1也可以通过监听整合管理模块350_2 350_4的通讯连线情况,以判断是否发生异常。换句话说,由于每个整合管理模块350_2 350_4皆会定时对其管理的服务器320_2 320_4进行通讯连线,因此整合管理模块350_1便可通过监听整合管理模块350_2 350_4接收/发送网络封包的情况来判断整合管理模块350_2 350_4、或是判断主要整合管理模块350_1到整合管理模块350_2 350_4之间的网络链路是否发生异常。
当主要整合管理模块350_1判断其他整合管理模块350_2 350_4其中之一发生异常时,则由步骤S250进入步骤S255,主要整合管理模块350_1便发送包含异常的整合管理模块的警示讯息。详言之,假设此时发生异常的整合管理模块为整合管理模块350_2,主要整合管理模块350_1判断当整合管理模块350_2发生异常时,主要整合管理模块350_1便开始检测主要整合管理模块350_1与异常的整合管理模块350_2之间的通讯链路、整合管理模块350_2是否确实故障、以及其对应的机架系统300_2中的相关设备是否还可与管理网络20连线,藉以产生一检测结果,并发送包含异常的整合管理模块350_2以及上述检测结果的警示讯息至至管理网络20上的一远程整合管理中心。藉此,便可让维护机架系统300_1 300_M的管理人员能够通过远程整合管理中心来立即得知异常的发生,进而得以立即排除。上述的警示讯息可以包括电子邮件讯息、系统日志和/或简单网络管理协议陷阱(SNMP Trap)讯息...等,本发明实施例并不限制警示讯息的类型。而于步骤S260中,主要整合管理模块350_1判断监测到异常的整合管理模块是否是次要整合管理模块350_3。如果主要整合管理模块350_1监测到异常的整合管理模块确实是次要整合管理模块350_3的时候,便由步骤S260进入步骤S265,主要整合管理模块350_1便从机架组305内正常工作的其他整合管理模块中选择其中之一,使其成为新的次要整合管理模块。藉此,便可在次要整合管理模块350_3异常或故障时,由主要整合管理模块350_1指派另一个正常工作的整合管理模块以使其成为新的副首领,从而持续执行步骤S270 S295。请继续参考图2,在此以次要整合管理模块350_3来说明步骤S270 S295。由于主要整合管理模块350_1所执行的步骤S240 S255与次要整合管理模块350_3所执行的步骤S270 S285相类似,因此部份说明可参照上述,在此不另外赘述。于步骤S270中,次要整合管理模块350_3监测在所对应的机架组305内、并且除了次要整合管理模块350_3本身以外的其他整合管理模块350_1 350_2、350_4。于步骤S280中,次要整合管理模块350_3判断其他整合管理模块350_1 350_2、30_4其中之一是否发生异常。在此假设整合管理模块350_2发生异常,因此,当其他整合管理模块350_1 350_2、350_4其中之一发生异常时,则由步骤S280进入步骤S285,次要整合管理模块350_3发送包含异常的整合管理模块350_2的警示讯息至远程整合管理中心,藉以通知管理人员。上述的警示讯息可以更包括次要整合管理模块350_3与异常的整合管理模块350_2之间的通讯链路、以及其对应的机架系统300_2中的相关设备的检测结果。而于步骤S290中,次要整合管理模块350_3判断监测到异常的整合管理模块是否是主要整合管理模块350_1。如果次要整合管理模块350_3监测到异常的整合管理模块确实是主要整合管理模块350_1的时候,便由步骤S290进入步骤S295,将次要整合管理模块350_3转换为主要整合管理模块,并从机架组305内正常工作的其他整合管理模块中选择其中之一以成为新的次要整合管理模块。藉此,便可在原本的主要整合管理模块350_1发生异常或故障时,先将次要整合管理模块350_3转换为副首领,并重新在机架组305中重新指派另一个正常工作的整合管理模块以使其成为新的副首领,让新的首领与新的副首领皆能接管原先首领及副首领所持续执行的步骤S240 S265以及步骤S270 S295。
综上所述,本发明实施例从每一机架组305的机架系统中选出其中一个或两个整合管理模块作为此机架组的首领(主要整合管理模块)以及副首领(次要整合管理模块),这两个整合管理模块会一起对同组中的整合管理模块进行监控并判断是否发生异常。藉此,当发生异常或失去连线的是主要整合管理模块,次要整合管理模块还是可以即时进行异常汇报。换言之,当其中一个整合管理模块发生异常或故障时,同组中的首领或副首领便会即时汇报给远程整合管理中心的管理人员。此外,这两个整合管理模块也会在对方发生异常时,另外选择正常运作的其他整合管理模块来接管发生异常的首领或副首领的监测工作。在此种架构下,可靠性类似于在同一个机架系统中放置两个冗余的整合管理模块,但是硬件成本则跟先前没有放置冗余的整合管理模块相同。藉此,由于不需要在每台机架系统中皆配置冗余的整合管理模块,因此本发明实施例有利于集中管理服务器,并可节省硬件成本。虽然本发明已以实施例揭露如上,然其并非用以限定本发明,任何所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当以权利要求所界定的者为准。
权利要求
1.一种多个机架系统的监控方法,包括: 提供所述这些机架系统,其中每一机架系统包括一整合管理模块及多个服务器,该整合管理模块与所述这些服务器通讯连接并管控所述这些服务器; 分配所述这些机架系统为至少一组机架组,并选择在每一机架组内的所述这些整合管理模块其中之一为一主要整合管理模块,其中每一机架组内的所述这些整合管理模块相互通讯连接; 该主要整合管理模块监测在所对应的该机架组内且除了该主要整合管理模块以外的其他整合管理模块;以及 当其他整合管理模块其中之一发生异常时,该主要整合管理模块发送包含异常的该整合管理模块的一警示讯息。
2.如权利要求1所述的监控方法,其特征在于,更包括: 选择在每一机架组内的所述这些整合管理模块其中之另一为一次要整合管理模块; 该次要整合管理模块监测在所对应的该机架组内且除了该次要整合管理模块以外的其他整合管理模块;以及 当其他整合 管理模块其中之一发生异常时,该次要整合管理模块发送包含异常的该整合管理模块的该警示讯息。
3.如权利要求2所述的监控方法,其特征在于,更包括: 如果该次要整合管理模块监测到异常的该整合管理模块是该主要整合管理模块的时候,将该次要整合管理模块转换为该主要整合管理模块,并从该机架组内正常工作的其他整合管理模块中选择其中之一以成为新的该次要整合管理模块。
4.如权利要求2所述的监控方法,其特征在于,更包括: 如果该主要整合管理模块监测到异常的该整合管理模块是该次要整合管理模块的时候,从该机架组内正常工作的其他整合管理模块中选择其中之一以成为新的该次要整合管理模块。
5.如权利要求2所述的监控方法,其特征在于,更包括: 当其他整合管理模块其中之一发生异常时,该次要整合管理模块检测异常的该整合管理模块及其对应的所述这些机架系统之其一以产生一检测结果,并发送包含异常的该整合管理模块以及该检测结果的该警示讯息。
6.如权利要求5所述的监控方法,其特征在于,该次要整合管理模块检测该次要整合管理模块与异常的该整合管理模块之间的通讯链路,以产生该检测结果。
7.如权利要求1所述的监控方法,其特征在于,分配所述这些机架系统为该至少一组机架组包括下列步骤: 依据所述这些整合管理模块的至少一特征值,自动匹配对应的所述这些整合管理模块,以使同一网段中的所述这些整合管理模块所对应的所述这些机架系统分为同一组。
8.如权利要求7所述的监控方法,其特征在于,该至少一特征值为所述这些整合管理模块各自的一名称、一网络协议地址和/或一媒体访问控制地址。
9.如权利要求1所述的监控方法,其特征在于,更包括: 当其他整合管理模块其中之一发生异常时,该主要整合管理模块检测异常的该整合管理模块及其对应的所述这些机架系统以产生一检测结果,并发送包含异常的该整合管理模块以及该检测结果的该警示讯息。
10.如权利要求9所述的监控方法,其特征在于,该主要整合管理模块检测该主要整合管理模块与异常的该整合管理模块之间的通讯链路,以产生该检测结果。
11.如权利要求1所述的监控方法,其特征在于,该主要整合管理模块监测其他整合管理模块包括下列步骤: 该主要整合管理模块分别且定期发送多个确认请求至其他整合管理模块,并接收由其他整合管理模块分别传送的多个确认回应;以及 当该主要整合管理模块并未接收到一特定确认回应的次数大于一门槛值时,该主要整合管理模块将该特定确认回应所对应的其他整合管理模块其中之一判断发生异常。
12.如权利要求1所述的监控方法,其特征在于,该主要整合管理模块监测其他整合管理模块包括下列步骤: 该主要整合管理模块监听其他整合管理模块的网络连线情况, 以判断其他整合管理模块是否发生异常。
全文摘要
一种多个机架系统的监控方法,包括下列步骤。提供这些机架系统,每个机架系统包括整合管理模块及多个服务器。整合管理模块与这些服务器通讯连接并管控这些服务器。分配这些机架系统为至少一组机架组,并选择在每一机架组内的整合管理模块其中之一作为主要整合管理模块,其中每个机架组内的整合管理模块相互通讯连接。主要整合管理模块监测在所对应的机架组内、并且除了主要整合管理模块以外的其他整合管理模块。当其他整合管理模块其中之一发生异常时,主要整合管理模块发送包含异常的整合管理模块的一警示讯息。
文档编号H04L12/24GK103139000SQ20111038602
公开日2013年6月5日 申请日期2011年11月28日 优先权日2011年11月28日
发明者王浩皓 申请人:英业达科技有限公司, 英业达股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1