一种云数据中心监控系统的制作方法

文档序号:10525644阅读:402来源:国知局
一种云数据中心监控系统的制作方法
【专利摘要】本发明公开了一种云数据中心监控系统,包括:监控主机、离散监控控制节点和告警平台;离散监控控制节点用于对第一监控部的监控项进行第一轮询监控,进行相应的数据采集和处理,并将采集到的第一数据主动发送给监控主机;监控主机用于对第二监控部的监控项进行第二轮询监控,并对第二轮询监控所得第二数据以及接收的离散监控控制节点采集的第一数据进行相应处理;告警平台用于在监控主机判定第一数据超出第一告警阈值,和/或,第二数据超出第二告警阈值时进行告警。采用了离散控制,将一部分监控项交由离散监控控制接点进行轮询监控,大大地减轻了监控主机的轮询压力,可以有效减少监控主机的轮询时间,避免监控主机出现宕机的情况。
【专利说明】
一种云数据中心监控系统
技术领域
[0001]本发明涉及数据中心监控技术领域,特别是涉及一种云数据中心监控系统。
【背景技术】
[0002]随着科学技术的发展,信息技术得到了长足的进步。我们如今已经进入了互联网时代,随着信息交互的日益频繁和多种多样,往往采用数据中心来作为特定设备网络。
[0003]所谓的数据中心是一整套复杂的设施,它不仅仅包括计算机系统和其他与之配套的设备,还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。为了保证数据中心的正常运行,需要对其进行监控。在机房监控中,往往面临着大量的监控项,其包含软件监控和硬件监控,然而监控项过多会造成对监控项的轮询时间过长,甚至会造成监控主机宕机,即监控主机死机,这形成了数据中心的一种致命性的缺陷。
[0004]因而,如何避免对监控项的轮询时间过长,以及监控主机宕机的情况,是本领域技术人员目前需要解决的技术问题。

【发明内容】

[0005]本发明的目的是提供一种云数据中心监控系统,可以有效避免对监控项的轮询时间过长,以及监控主机宕机的情况的发生。
[0006]为解决上述技术问题,本发明提供了如下技术方案:
[0007]—种云数据中心监控系统,包括:监控主机、离散监控控制节点和告警平台;
[0008]其中,所述离散监控控制节点用于对第一监控部的监控项进行第一轮询监控,进行相应的数据采集和处理,并将采集到的第一数据主动发送给所述监控主机;
[0009]所述监控主机用于对第二监控部的监控项进行第二轮询监控,并对第二轮询监控所得第二数据以及接收的所述离散监控控制节点采集的第一数据进行相应处理;
[0010]所述告警平台用于在所述监控主机判定所述第一数据超出第一告警阈值,和/或,所述第二数据超出第二告警阈值时进行告警。
[0011 ] 优选地,所述监控主机包括:
[0012]轮询模块,用于对第二监控部的监控项进行第二轮询监控,采集第二数据;
[0013]被动接收模块,用于被动接收所述离散监控控制节点采集的第一数据;
[0014]数据处理模块,用于接收所述轮询模块采集的第二数据和所述被动接收模块获得的第一数据,并判断所述第一数据和所述第二数据是否超出对应的告警阈值;
[0015]告警处理模块,用于接收所述数据处理模块输出的判定结果,并在所述第一数据超出第一告警阈值,和/或,所述第二数据超出第二告警阈值时向所述告警平台发出告警信号。
[0016]优选地,所述监控主机还包括:
[0017]配置分发模块,用于获取所述监控主机所要监控资源的配置信息,并启动所述轮询模块、被动接收模块、数据处理模块和所述告警处理模块。
[0018]优选地,所述监控主机还包括:
[0019]自监控模块,用于对所述配置分发模块、轮询模块、被动接收模块、数据处理模块和所述告警处理模块进行监控,用于在上述任一模块出现故障时,进行报警。
[0020]优选地,所述离散监控控制节点和所述告警平台连接,用于在所述告警平台出现故障时,将所述告警平台的故障信息发送给所述监控主机,以及在自身监测到故障时直接向所述告警平台发出对应的控制节点告警信号。
[0021]优选地,所述离散监控控制节点包括用于对数据中心的硬件进行监控的工控机、arm或单片机。
[0022]优选地,所述离散监控控制节点通过RS232或RS485通讯转TCP/IP进行通讯,通过ip获取对应监控设备的信息。
[0023]优选地,还包括:
[0024]被监控端代理,所述被监控端代理设置在各被监控端的主机上,用于对对应的被监控端主机进行轮询监控,并将获取的对应第三数据主动发送至所述监控主机;
[0025]所述监控主机还用于对所述第三数据进行相应处理,判断所述第三数据是否超出对应的告警阈值,并在所述第三数据超出对应的告警阈值时向所述告警平台发出相应的告警信号。
[0026]优选地,还包括:数据库模块,与所述监控主机连接,用于存储所述监控主机处理的各项数据。
[0027]与现有技术相比,上述技术方案具有以下优点:
[0028]本发明实施例所提供的一种云数据中心监控系统,包括:监控主机、离散监控控制节点和告警平台;其中,离散监控控制节点用于对第一监控部的监控项进行第一轮询监控,进行相应的数据采集和处理,并将采集到的第一数据主动发送给监控主机;监控主机用于对第二监控部的监控项进行第二轮询监控,并对第二轮询监控所得第二数据以及接收的离散监控控制节点采集的第一数据进行相应处理;告警平台用于在监控主机判定第一数据超出第一告警阈值,和/或,第二数据超出第二告警阈值时进行告警。采用了离散控制,将一部分监控项交由离散监控控制接点进行轮询监控,并将采集到的数据主动推送给监控主机,对于这部分的监控项来说,监控主机只需要被动接受该部分监控项的轮询监控数据,而无需监控主机对这部分监控项进行轮询监控,大大地减轻了监控主机的轮询压力,可以有效减少监控主机的轮询时间,避免监控主机出现宕机的情况。
【附图说明】
[0029]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030]图1为本发明一种【具体实施方式】所提供的云数据中心监控系统结构示意图;
[0031]图2为本发明另一种【具体实施方式】所提供的云数据中心监控系统结构示意图。
【具体实施方式】
[0032]本发明的核心是提供一种云数据中心监控系统,可以有效避免对监控项的轮询时间过长,以及监控主机宕机的情况的发生。
[0033]为了使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的【具体实施方式】做详细的说明。
[0034]在以下描述中阐述了具体细节以便于充分理解本发明。但是本发明能够以多种不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广。因此本发明不受下面公开的具体实施的限制。
[0035]请参考图1,图1为本发明一种【具体实施方式】所提供的云数据中心监控系统结构示意图。
[0036]在本发明的一种【具体实施方式】中,一种云数据中心监控系统包括:监控主机1、至少一个离散监控控制节点2和告警平台3;其中,离散监控控制节点2用于对第一监控部的监控项进行第一轮询监控,进行相应的数据采集和处理,并将采集到的第一数据主动发送给监控主机I;监控主机I用于对第二监控部的监控项进行第二轮询监控,并对第二轮询监控所得第二数据以及接收的离散监控控制节点2采集的第一数据进行相应处理;告警平台3用于在监控主机I判定第一数据超出第一告警阈值,和/或,第二数据超出第二告警阈值时进行告警。
[0037]在本实施方式中,采用了离散控制的原理,将一部分监控项分配给离散监控控制节点,则离散监控控制节点就对自身所分配到的监控项进行轮询监控,并进行数据采集以及进行调节控制,将采集到的数据发送给监控主机,则监控主机只需要被动的接收该数据即可,则监控主机就无需对这一部分的监控项直接进行轮询监控也能获得该部分监控项的监控数据,这就大大地减轻了监控主机的轮询压力,可以有效减少监控主机的轮询时间,避免监控主机出现宕机的情况。
[0038]需要说明的是,所谓的第一监控部的监控项只是指分配给离散监控控制接点的监控项;第二监控部的监控项指的只是分配给监控主机的监控项。监控主机对第二数据以及第一数据进行相应处理指的是,调取第一数据和/或第二数据中的特征参数,并将该特征参数与该特征参数对应的告警阈值进行比对,得出比对信息。
[0039]请参考图2,图2为本发明另一种【具体实施方式】所提供的云数据中心监控系统结构示意图。
[0040]在上述实施方式的基础上,本发明一种实施方式中的监控主机包括:
[0041]轮询模块11,用于对第二监控部的监控项进行第二轮询监控,采集第二数据,为了提高监控效率,监控主机也会被分配到需要监控的监控项,则轮询模块就对这一部分监控项进行轮询监控,采集监控数据。被动接收模块12,用于被动接收离散监控控制节点采集的第一数据。数据处理模块13,用于接收轮询模块采集的第二数据和被动接收模块获得的第一数据,并判断第一数据和第二数据是否超出对应的告警阈值,在数据处理模块中预存有预设的告警阈值,当数据处理模块获取到对应的监控数据时,就调取对应的告警阈值与之进行比对。告警处理模块14,用于接收数据处理模块输出的判定结果,并在第一数据超出第一告警阈值,和/或,第二数据超出第二告警阈值时向告警平台发出告警信号。
[0042]进一步地,监控主机I还包括:配置分发模块15,用于获取监控主机所要监控资源的配置信息,并启动轮询模块、被动接收模块、数据处理模块和告警处理模块,将需要监控的资源的配置信息写到指定的目录下,则配置分发模块就可以进行配置文件的解析并启动其他模块。更进一步地,监控主机还包括:自监控模块16,用于对配置分发模块15、轮询模块
11、被动接收模块12、数据处理模块13和告警处理模块14进行监控,用于在上述任一模块出现故障时,进行报警。其中,自监控模块对配置分发模块15、轮询模块11、被动接收模块12、数据处理模块13和告警处理模块14这五个模块的运行状态进行监控,如果这五个模块中的任一模块丢失,或者进程挂掉,则控制该进程进行重启,如果重启失败,则产生告警请求工作人员进行支持。
[0043]监控主机的监控框架包括:轮询模块11、被动接收模块12、数据处理模块13、告警处理模块14、配置分发模块15和自监控模块16。来完成对分配给自身的监控项的轮询监控和对自身状态的监控。
[0044]在本发明的一种实施方式中,离散监控控制节点和告警平台连接,用于在告警平台出现故障时,将告警平台的故障信息发送给监控主机,以及在自身监测到故障时直接向告警平台发出对应的控制节点告警信号。
[0045]在本实施方式中,不仅对监控平台进行了监控,在告警平台出现异常时,离散监控控制接点能够将告警平台的故障信息发送至监控主机,可以在监控主机的显示界面产生告警提示;而且在监控主机出现异常时,直接接收离散监控控制节点的告警信号进行告警;此夕卜,在离散监控控制节点出现异常时,直接向告警平台发出对应的控制节点告警信号进行告警或者监控主机在不能获取到离散监控控制节点推送的数据时向告警平台发出离散监控控制节点挂掉的告警信号。使得整个监控系统的告警更加及时和准确。告警平台同时被监控主机和离散监控控制节点控制,并且自身也被监控,大大提高了告警的准确性,当告警平台异常时,离散监控控制节点会发送相应数据给监控主机,监控主机则会在界面产生告警提示;当监控主机宕机时,硬件出现故障,离散监控控制节点能够正常的产生告警通知;当离散监控控制节点发生异常时,监控主机就不能够获取到推送的数据,产生离散监控节点挂掉的告警。
[0046]在本发明的上述各实施方式中,离散监控控制节点包括用于对数据中心的硬件进行监控的工控机、arm或单片机。其中,离散监控控制节点可以对数据中心的一些关键性设备进行离散的监控控制,可以使用工控机、arm或单片机来完成对数据中心硬件的监控,采集数据发送到监控主机,在异常时发出告警信号,不仅减轻了监控主机的轮询压力,还提高了告警的准确性。对于数据中心中硬件的监控,如配电柜、UPS、空调等设备,离散监控控制节点可以通过RS232或RS485通讯转TCP/IP进行通讯,通过ip获取对应监控设备的信息,这样大大扩展了监控的接口,如果需要监控的监控项数据较少,也可以根据实际情况直接使用I/O端口进行直接监控。
[0047]在上述任一实施方式的基础行,本发明一种实施方式中的云数据中心监控系统还包括:被监控端代理4,被监控端代理4设置在各被监控端的主机上,用于对对应的被监控端主机进行轮询监控,并将获取的对应第三数据主动发送至监控主机;监控主机还用于对第三数据进行相应处理,判断第三数据是否超出对应的告警阈值,并在第三数据超出对应的告警阈值时向告警平台发出相应的告警信号。
[0048]在本实施方式中被监控端代理4即被监控端agent,将被监控端agent的agent模块安装在被监控端的主机上,由agent模块来轮询对应的监控项,完成对被监控端主机的轮询监控,并将监控数据推送给监控主机,以进一步减轻监控主机的轮询压力。也就是说agent模块实质上是一个轮询模块,将其安装在被监控端的主机上,将需要监控的监控脚本放在指定的文件夹中,启动程序,进行轮询,获取监控项的数据,推送给监控主机,以减轻监控主机的轮询压力。
[0049]进一步地,该系统还包括:数据库模块5,与所述监控主机连接,用于存储所述监控主机处理的各项数据,如监控主机接收到的监控数据和对应的阈值进行比对得到的结果。
[0050]综上所述,本发明所提供的云数据中心监控系统,通过离散监控控制节点和agent减轻监控主机的轮询和控制压力,而采用离散控制的思想,可以将一部分的监控项进行分配给离散监控控制节点,该节点对这些监控项进行轮询监控,采集数据及进行调节控制,将采集到的数据发送给监控主机,监控主机只需要被动的接收数据,这样大大减轻了监控主机的轮询压力;将agent安装在被监控端的机器上,让agent来轮询监控项,完成对该被监控端主机的监控,把监控数据推送给监控主机,减轻监控主机的轮询压力。此外,还提高了告警的及时性及准确性。
[0051]以上对本发明所提供一种云数据中心监控系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
【主权项】
1.一种云数据中心监控系统,其特征在于,包括:监控主机、离散监控控制节点和告警平台; 其中,所述离散监控控制节点用于对第一监控部的监控项进行第一轮询监控,进行相应的数据采集和处理,并将采集到的第一数据主动发送给所述监控主机; 所述监控主机用于对第二监控部的监控项进行第二轮询监控,并对第二轮询监控所得第二数据以及接收的所述离散监控控制节点采集的第一数据进行相应处理; 所述告警平台用于在所述监控主机判定所述第一数据超出第一告警阈值,和/或,所述第二数据超出第二告警阈值时进行告警。2.根据权利要求1所述的系统,其特征在于,所述监控主机包括: 轮询模块,用于对第二监控部的监控项进行第二轮询监控,采集第二数据; 被动接收模块,用于被动接收所述离散监控控制节点采集的第一数据; 数据处理模块,用于接收所述轮询模块采集的第二数据和所述被动接收模块获得的第一数据,并判断所述第一数据和所述第二数据是否超出对应的告警阈值; 告警处理模块,用于接收所述数据处理模块输出的判定结果,并在所述第一数据超出第一告警阈值,和/或,所述第二数据超出第二告警阈值时向所述告警平台发出告警信号。3.根据权利要求2所述的系统,其特征在于,所述监控主机还包括: 配置分发模块,用于获取所述监控主机所要监控资源的配置信息,并启动所述轮询模块、被动接收模块、数据处理模块和所述告警处理模块。4.根据权利要求3所述的系统,其特征在于,所述监控主机还包括: 自监控模块,用于对所述配置分发模块、轮询模块、被动接收模块、数据处理模块和所述告警处理模块进行监控,用于在上述任一模块出现故障时,进行报警。5.根据权利要求4所述的系统,其特征在于,所述离散监控控制节点和所述告警平台连接,用于在所述告警平台出现故障时,将所述告警平台的故障信息发送给所述监控主机,以及在自身监测到故障时直接向所述告警平台发出对应的控制节点告警信号。6.根据权利要求5所述的系统,其特征在于,所述离散监控控制节点包括用于对数据中心的硬件进行监控的工控机、arm或单片机。7.根据权利要求6所述的系统,其特征在于,所述离散监控控制节点通过RS232或RS485通讯转TCP/IP进行通讯,通过ip获取对应监控设备的信息。8.根据权利要求1至7任一项所述的系统,其特征在于,还包括: 被监控端代理,所述被监控端代理设置在各被监控端的主机上,用于对对应的被监控端主机进行轮询监控,并将获取的对应第三数据主动发送至所述监控主机; 所述监控主机还用于对所述第三数据进行相应处理,判断所述第三数据是否超出对应的告警阈值,并在所述第三数据超出对应的告警阈值时向所述告警平台发出相应的告警信号。9.根据权利要求8所述的系统,其特征在于,还包括: 数据库模块,与所述监控主机连接,用于存储所述监控主机处理的各项数据。
【文档编号】H04L12/24GK105897492SQ201610482066
【公开日】2016年8月24日
【申请日】2016年6月27日
【发明人】段谊海, 刘成平
【申请人】浪潮(北京)电子信息产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1