一种数据中心监控方法及系统与流程

文档序号:11959639阅读:318来源:国知局
一种数据中心监控方法及系统与流程

本发明涉及分布式监控领域,特别涉及一种数据中心监控方法及系统。



背景技术:

随着互联网的飞速发展,大规模的数据中心成为现代社会发展的需要。这就为数据中心的监控管理带来巨大挑战,一个拥有几万资源的数据中心的监控难度已非常大,更何况目前的发展趋势下几十万资源、甚至几百万资源的数据中心正在逐步产生。例如,一个具有十万资源的数据中心的监控,用传统的分布式监控方式已经无法满足,即使传统的分布式监控方式能够满足的几千资源规模的监控,也无法实现对监控所耗费资源的充分高效利用,往往造成某些分布式受控端资源空闲、而另一些分布式受控端资源耗费贻尽,也进一步影响监控数据的实时性,即监控的性能受到影响,使整个分布式监控数据采集系统无法真正达到最理想的效果。

以上挑战为大规模数据中心的监控数据采集、监控数据采集时的性能压力均带了极大的局限性,严重影响大规模数据中心监控的发展,因此,如何使各分布服务器的监控采集压力合理均衡,有效解决监控数据相互分离、各分布服务器各自运维等问题,是本领域技术人员需要解决的技术问题。



技术实现要素:

本发明的目的是提供一种数据中心监控系统及方法,大大提升大规模数据中心监控时的可监控容量,保证各分布服务器的统一调配和管理,避免各分布服务器各自为政、监控压力分配不均、监控数据相互分离不能统一分析的问题。

为解决上述技术问题,本发明提供一种数据中心监控系统,包括:主控端服务器、各分布服务器及数据库服务器;其中,

所述主控端服务器包括:

监控任务分发管理模块,用于根据选择的监控任务分发策略将监控任务的分发到对应的分布服务器;

调度管理模块,用于将分发的监控任务调配到对应的分布服务器的监控采集器,并对接收到监控数据进行处理;

分布服务器管理模块,用于通过心跳连接的方式对各分布服务器进行监管;

所述分布服务器包括:

监控采集器,用于将接收到的监控任务加入轮询队列,按照所述轮询队列的顺序依次启动对应监控任务的监测进程进行数据采集,并将采集到的数据进行分析处理和告警状态判断后得到监控数据,将所述监控数据发送到所述数据库服务器及所述调度管理模块;

所述数据库服务器,用于接收监控采集器发送的数据。

其中,所述监控任务分发管理模块包括:

分发策略单元,用于选择监控任务分发策略;

可监控数量配置表单元,用于根据所述监控任务分发策略配置可监控数量配置表,根据所述可监控数量配置表将监控任务的分发到对应的分布服务器。

其中,所述监控任务分发策略包括按照机房位置区域分发、自适应智能分发、按照被监控资源类型分发、按照被监控资源的关键性分发。

其中,所述可监控数量配置表单元具体为根据所述监控任务分发策略及各分布服务器的配置进行可监控数量配置表的配置,并根据所述可监控数量配置表将监控任务的分发到对应的分布服务器。

其中,所述分布服务器管理模块包括:

连接单元,用于将所述主控端服务器与各所述分布服务器建立心跳连接,通过心跳连接确认各所述分布服务器是否正常运行,并根据确认结果对分布服务器执行对应操作;

管理单元,用于根据可监控数量配置表控制各分布服务器的增加、删除、可监控数量修改、及对分布服务器进行开启、关闭和重新启动操作。

其中,所述调度管理模块具体用于将分发的监控任务调配到对应的分布服务器的监控采集器,并对接收到监控数据进行分析,根据分析结果进行对应的通知发送和故障处理。

本发明还提供一种数据中心监控方法,包括:

主控端服务器根据选择的监控任务分发策略将分发的监控任务调配到对应的分布服务器的监控采集器;其中,所述主控端服务器与各分布服务器通过心跳连接的方式进行连接;

各分布服务器将接收到的监控任务加入轮询队列,按照所述轮询队列的顺序依次启动对应监控任务的监测进程进行数据采集,并将采集到的数据进行分析处理和告警状态判断后得到监控数据,将所述监控数据发送到数据库服务器及所述主控端服务器;

所述主控端服务器对接收到监控数据进行处理。

其中,根据选择的监控任务分发策略将分发的监控任务调配到对应的分布服务器的监控采集器,包括:

根据选择的所述监控任务分发策略配置可监控数量配置表,根据所述可监控数量配置表将监控任务的分发到对应的分布服务器。

其中,该方法还包括:

主控端服务器根据可监控数量配置表控制各分布服务器的增加、删除、可监控数量修改、及对分布服务器进行开启、关闭和重新启动操作。

本发明所提供的数据中心监控系统,考虑分布式监控数据采集可降低主控端性能压力的特点,采用一个主控端服务器加多个分布服务器,以及各分布服务器端监控采集器的可伸缩性,结合单数据源的监控数据库设计,实现主控端服务器中的监控任务分发管理模块根据不同分发策略进行监控任务的分发,分布服务器管理模块通过心跳连接的方式进行各分布服务器的监管,调度管理模块将分发的监控任务调配到各分布服务器端的监测采集器,监控采集器依据下发和监控任务规模自动进行动态伸缩,在接收到监控任务后将其加入轮询队列,排到队时启动监测进程进行数据采集,采集到的数据经过分析处理和告警状态判断后的监控数据储存到数据库服务器中,并同时反馈到调度管理模块,供其处理,从而大大提升了大规模数据中心监控时的可监控容量,保证了各分布服务器的统一调配和管理,避免了各分布服务器各自为政、监控压力分配不均、监控数据相互分离不能统一分析的问题;本发明还提供数据中心监控方法,具有上述有益效果,在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的数据中心监控系统的结构框图;

图2为本发明实施例所提供的监控任务分发管理模块的分发过程示意图;

图3为本发明实施例所提供的监控采集器工作过程的示意图;

图4为本发明实施例所提供的数据中心监控系统的监控原理示意图。

具体实施方式

本发明的核心是提供一种数据中心监控系统及方法,大大提升大规模数据中心监控时的可监控容量,保证各分布服务器的统一调配和管理,避免各分布服务器各自为政、监控压力分配不均、监控数据相互分离不能统一分析的问题。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图1,图1为本发明实施例所提供的数据中心监控系统的结构框图;该系统可以包括:主控端服务器100、各分布服务器200及数据库服务器300;其中,

所述主控端服务器100包括:

监控任务分发管理模块110,用于根据选择的监控任务分发策略将监控任务的分发到对应的分布服务器;

具体的,监控任务分发管理模块110采用基于策略分发的思路,设计丰富的监控任务分发策略,这里的监控任务分发策略可以按照机房位置区域分发、自适应智能分发、按照被监控资源类型分发、按照被监控资源的关键性分发。这里并不对具体的策略内容进行限定,只要用户有适合其分布式系统的分发策略即可。请参考图2以5000各被监控资源为例说明上述分发过程。具体的,监控任务分发管理模块包括:

分发策略单元,用于选择监控任务分发策略;

可监控数量配置表单元,用于根据所述监控任务分发策略配置可监控数量配置表,根据所述可监控数量配置表将监控任务的分发到对应的分布服务器。

具体的可监控数量配置表单元在进行配置可监控数量配置表时还需要考虑各分布服务器的配置例如cpu、内存、硬盘等。

即监控任务分发管理模块110的工作过程为通过维护分布服务器的可监控数量配置表,实现监控任务的灵活按需分发。其中,各分布服务器的可监控数量是结合各分布服务器的配置(如cpu、内存、硬盘等)和实际监控需求经过分析后确定;监控任务分发策略可以按所在机房位置分发、自适应智能分发、按被监控资源类型分发、按被监控资源的关键性分发等,通过不同的策略分发达到各分布服务器上的监控任务、监测压力合理分布的目的。

这里的监控任务分发管理模块110可以将可监控数量配置表分别发送到调度管理模块120、分布服务器管理模块130及数据库服务器300;分别使它们完成监控任务的调配,对分布服务器的管理,使接收到数据按照可监控数量配置表存储到对应位置。

调度管理模块120,用于将分发的监控任务调配到对应的分布服务器的监控采集器,并对接收到监控数据进行处理;处理过程即对接收到监控数据进行分析,根据分析结果进行对应的通知发送和故障处理。

具体的,调度管理模块120统一对各分布服务器端监测采集器进行调配,将各自分发的监控任务下发到监测采集器,并完成各分布服务器端监测采集器反馈的监控数据统一接收和统一处理,继续完成后续的通知发送或故障处理等。

分布服务器管理模块130,用于通过心跳连接的方式对各分布服务器及所述数据库服务器进行监管;

具体的,所述分布服务器管理模块包括:

连接单元,用于将所述主控端服务器与各所述分布服务器建立心跳连接,通过心跳连接确认各所述分布服务器是否正常运行,并根据确认结果对分布服务器执行对应操作;

管理单元,用于根据可监控数量配置表控制各分布服务器的增加、删除、可监控数量修改、及对分布服务器进行开启、关闭和重新启动操作。

即完成全方位的分布服务器管理,使主控端服务器与各分布服务器在某种意义上融为一体,共同完成大规模数据中心监控的统一调度和分布采集。

所述分布服务器200包括:

监控采集器210,用于将接收到的监控任务加入轮询队列,按照所述轮询队列的顺序依次启动对应监控任务的监测进程进行数据采集,并将采集到的数据进行分析处理和告警状态判断后得到监控数据,将所述监控数据发送到所述数据库服务器及所述调度管理模块;

具体的,将监控任务加入轮询队列,当排队完成时启动监测进程进行数据采集,并将收集到的数据进行分析处理和告警状态判断后得到监控数据,最后,在将监控数据推送到监控数据库储存的同时,也反馈到调度管理模块。为了更加完整的了解分布式系统的状态,还可以将采集到的数据一起发送到数据库服务器中的监控数据库。请参考图3,

所述数据库服务器300,用于接收监控采集器发送的数据,可以将接收到的数据存储于数据库服务器中的监控数据库中。

下面以具体例子说明上述过程,请参考图4,以5000个各类资源的大规模数据中心监控为例,采用1台主控端服务器、3台分布服务器和1台数据库服务器的方式来描述这一设计方法的实现过程。

监控任务分发管理模块根据自适应智能分发策略,将5000个资源的监控任务通过调度管理模块分配到3个分布服务器上运行的共7个监测采集器上,分别为分布服务器1启用2个监测采集器负责1500个、分布服务器2启用2个监测采集器负责1500个、分布服务器3启用3个监测采集器承担2000个,这些监控任务首先由调度管理模块统一对各分布服务器端监测采集器进行调配,将各自分发的监控任务下发到监测采集器;分布服务器的监控采集器将监控任务加入轮询队列,当排队完成时启动监测进程进行数据采集,并将收集到的数据进行分析处理和告警状态判断后得到监控数据,再将监控数据推送到监控数据库储存的同时,也反馈到调度管理模块,继续完成后续的通知发送或故障处理等。分布服务器管理模块将主控端服务器与各分布服务器建立心跳连接,以及对分布服务器的控制,完成全方位的分布服务器管理,使主控端服务器与各分布服务器在某种意义上融为一体,共同完成大规模数据中心监控的统一调度和分布采集。

基于上述技术方案,本发明实施例提的数据中心监控系统,该系统大大提升大规模数据中心监控时的可监控容量,保证各分布服务器的统一调配和管理,避免各分布服务器各自为政、监控压力分配不均、监控数据相互分离不能统一分析的问题。

下面对本发明实施例提供的数据中心监控方法进行介绍,下文描述的数据中心监控方法与上文描述的数据中心监控系统可相互对应参照。

本发明还提供一种数据中心监控方法,包括:

主控端服务器根据选择的监控任务分发策略将分发的监控任务调配到对应的分布服务器的监控采集器;其中,所述主控端服务器与各分布服务器通过心跳连接的方式进行连接;

各分布服务器将接收到的监控任务加入轮询队列,按照所述轮询队列的顺序依次启动对应监控任务的监测进程进行数据采集,并将采集到的数据进行分析处理和告警状态判断后得到监控数据,将所述监控数据发送到数据库服务器及所述主控端服务器;

所述主控端服务器对接收到监控数据进行处理。

基于上述实施例,根据选择的监控任务分发策略将分发的监控任务调配到对应的分布服务器的监控采集器,包括:

根据选择的所述监控任务分发策略配置可监控数量配置表,根据所述可监控数量配置表将监控任务的分发到对应的分布服务器。

基于上述实施例,该方法还包括:

主控端服务器根据可监控数量配置表控制各分布服务器的增加、删除、可监控数量修改、及对分布服务器进行开启、关闭和重新启动操作。

说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

以上对本发明所提供的数据中心监控系统及方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1