一种对节点的多级监控系统的制作方法

文档序号:16061151发布日期:2018-11-24 12:11阅读:244来源:国知局

本发明涉及节点监控领域,特别是涉及一种对节点的多级监控系统。

背景技术

当前用户不仅对服务器性能的需求越来越高,而且对服务器的需求数量也越来越多。每个服务器构成一个节点,多个节点构成一个集群。集群中的多个节点可以分属同一个节点簇,也可以分属多个节点簇。每个节点有一个bmc(基板管理控制器),每个bmc监控本节点的运行信息。现有技术中,通过整机柜服务器对节点进行统一监控和管理。具体为:整机柜服务器通过一一访问每个bmc以获得对应节点的运行信息。由此可见,该方式下,整机服务器对于各节点的监控仅依赖每个bmc,一旦某一个bmc的接口出现故障,则无法实现监控,造成监控的可靠性降低。并且,单级的监控方式只能获取一个节点簇中的各节点的运行信息,无法获取其它节点簇的各节点的运行信息。

由此可见,如何提供一种可靠的监控系统是本领域技术人员亟待解决的问题。



技术实现要素:

本发明的目的是提供一种对节点的多级监控系统,用于提高监控的可靠性。

为解决上述技术问题,本发明提供一种对节点的多级监控系统,包括整机柜服务器和多个bmc,所述整机柜服务器包括至少一个tmc;

所述bmc和所述tmc的接口数量相同,均包括至少两个接口,同一类型的各所述bmc的接口与对应的tmc的一个接口连接;

其中,所述tmc的数量与集群中节点簇的数量相同,各所述bmc的各接口均获取对应节点的运行信息。

优选地,所述整机柜服务器还包括rmc,所述rmc的接口数量与所述tmc的接口数量相同,同一类型的各所述tmc的接口与所述rmc对应的接口连接。

优选地,所述bmc、所述tmc和所述rmc均包括两个接口,各所述bmc的第一接口与对应的tmc的第一接口连接,各所述tmc的第一接口与所述rmc的第一接口连接,各所述bmc的第二接口与对应的tmc的第二接口连接,各所述tmc的第二接口与所述rmc的第二接口连接。

优选地,各所述bmc的第一接口、各所述tmc的第一接口以及各所述rmc的第一接口采用第一网段连接,各所述bmc的第二接口、各所述tmc的第二接口以及各所述rmc的第二接口采用第二网段连接。

优选地,所述bmc、所述tmc和所述rmc之间通过以太网连接。

优选地,所述运行信息具体包括cpu的运行信息和/或内存的运行信息。

优选地,还包括与各所述tmc连接的第一报警模块,用于在所述运行信息异常时报警提示。

优选地,还包括与所述rmc连接的第二报警模块,用于在所述运行信息异常时报警提示。

优选地,所述第二报警模块具体包括指示灯和用于显示出现异常的运行信息对应的节点位置的显示模块。

本发明所提供的对节点的多级监控系统,包括整机柜服务器和多个bmc,整机柜服务器包括至少一个tmc;bmc和tmc的接口数量相同,均包括至少两个接口,同一类型的各bmc的接口与对应的tmc的一个接口连接;其中,tmc的数量与集群中节点簇的数量相同,各bmc的各接口均获取对应节点的运行信息。本系统中,每个bmc能够获取对应节点的运行信息,实现一级监控,每个bmc还与tmc连接,使得tmc也能够获取一个节点簇中各节点的运行信息实现二级监控,此外,每个bmc和tmc均包含至少两个接口,每个接口均能够获取节点的运行信息,实现冗余,由此可见,本系统的通过多级监控从而避免单个bmc故障导致监控可靠性降低的风险,同时,通过多个接口实现获取运行信息的冗余,进一步提高了监控的可靠性。

附图说明

为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种对节点的多级监控系统的结构图;

图2为本发明实施例提供的另一种对节点的多级监控系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。

本发明的核心是提供一种对节点的多级监控系统,用于提高监控的可靠性。

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。

本发明提到的tmc(traymanagementcontroller)的全称为:机箱管理控制器,rmc(rackmanagementcontroller)的全称为:机架管理控制器。

图1为本发明实施例提供的一种对节点的多级监控系统的结构图。如图1所示,该系统包括整机柜服务器和多个bmc,在图1中每个节点簇内的bmc没有示出,只示出了各bmc的各接口,例如第一接口和第二接口。集群中包括n各节点簇,其各接口均获取对应节点的运行信息。运行信息具体包括cpu的运行信息和/或内存的运行信息。

整机柜服务器包括至少一个tmc,图1中,用tmc0-tmcn表示,一个tmc与一个节点簇对应,即tmc的数量与集群中节点簇的数量相同。

图1中,bmc和tmc均包括两个接口,分别是第一接口和第二接口,同一类型的各bmc的接口与对应的tmc的一个接口连接,即同一个节点簇内的全部bmc的第一接口与本节点簇对应的tmc的第一接口连接,同一个节点簇内的全部bmc的第二接口与本节点簇对应的tmc的第二接口连接。对应于图1中,节点簇0中的全部bmc的第一接口与tmc0的第一接口连接,节点簇0中的全部bmc的第二接口与tmc0的第二接口连接,节点簇n中的全部bmc的第一接口与tmcn的第一接口连接,节点簇n中的全部bmc的第二接口与tmcn的第二接口连接。

以接口的数量均为2个为例,进行说明,在具体实施中,每个bmc的两个接口获取到本节点的运行信息,即同一个bmc的两个接口获取的内容是相同的,用户可以通过访问单个bmc以获取单个节点的运行信息,属于一级监控单元。同一个节点簇内的各bmc的第一接口均与本节点簇对应的tmc的第一接口连接,使得该tmc的第一接口可以得到本节点簇内全部节点的运行信息,同一个节点簇内的各bmc的第二接口均与本节点簇对应的tmc的第二接口连接,使得该tmc的第二接口可以得到本节点簇内全部节点的运行信息,使得该tmc无论通过第一接口还是第二接口均可以得到本节点簇内全部节点的运行信息,属于二级监控单元,当某一运行信息异常时,通过查看tmc能够实现对异常运行信息的定位,不需要再逐个排除。事实上,tmc的第一接口和第二接口可以是择一工作,另外一个处于备用状态,当出现故障时,处于备用状态的接口再继续获取节点的运行信息。

本实施例提供的对节点的多级监控系统,包括整机柜服务器和多个bmc,整机柜服务器包括至少一个tmc;bmc和tmc的接口数量相同,均包括至少两个接口,同一类型的各bmc的接口与对应的tmc的一个接口连接;其中,tmc的数量与集群中节点簇的数量相同,各bmc的各接口均获取对应节点的运行信息。本系统中,每个bmc能够获取对应节点的运行信息,实现一级监控,每个bmc还与tmc连接,使得tmc也能够获取一个节点簇中各节点的运行信息实现二级监控,此外,每个bmc和tmc均包含至少两个接口,每个接口均能够获取节点的运行信息,实现冗余,由此可见,本系统的通过多级监控从而避免单个bmc故障导致监控可靠性降低的风险,同时,通过多个接口实现获取运行信息的冗余,进一步提高了监控的可靠性。

图2为本发明实施例提供的另一种对节点的多级监控系统的结构图。在上一实施例的基础上,整机柜服务器还包括rmc,rmc的接口数量与tmc的接口数量相同,同一类型的各tmc的接口与rmc对应的接口连接。

如图2所示,rmc具有两个接口,全部tmc的第一接口与rmc的第一接口连接,全部tmc的第二接口与rmc的第二接口连接,即tmc0-tmcn的第一接口均与rmc的第一接口连接,tmc0-tmcn的第二接口均与rmc的第二接口连接。可以理解的是,由于每个tmc能够获取对应节点簇的各节点的运行信息,因此,rmc就可以获取集群中全部节点的运行信息,属于三级监控单元,当某一运行信息异常时,通过查看rmc能够实现对异常运行信息的定位,不需要再逐个排除。

作为优选地实施方式,各bmc的第一接口、各tmc的第一接口以及各rmc的第一接口采用第一网段连接,各bmc的第二接口、各tmc的第二接口以及各rmc的第二接口采用第二网段连接。

根据上文的描述,各bmc的第一接口、各tmc的第一接口以及各rmc的第一接口与对应的第二接口是相互独立且互为冗余,因此为了避免产生网络风暴,不同的接口所在的网段不同。优选地,bmc、tmc和rmc之间通过以太网连接。

在另一实施例中,还包括与各tmc连接的第一报警模块,用于在运行信息异常时报警提示。

本实施例在上述实施例的基础上,增加了第一报警模块,使得在运行信息异常时报警提示。第一报警模块的类型可以是蜂鸣器或指示灯,本发明不做限定。

在另一实施例中,还包括与rmc连接的第二报警模块,用于在运行信息异常时报警提示。

本实施例在上述实施例的基础上,增加了第二报警模块,使得在运行信息异常时报警提示。作为优选地实施方式,第二报警模块具体包括指示灯和用于显示出现异常的运行信息对应的节点位置的显示模块。具体的,显示模块可以显示出节点的具体位置,以便用户快速进行故障定位。

以上对本发明所提供的对节点的多级监控系统进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1