一种云数据中心基础设施监控告警的方法

文档序号:7805462阅读:409来源:国知局
一种云数据中心基础设施监控告警的方法
【专利摘要】本发明提供一种云数据中心基础设施监控告警的方法,提出一种恰当可配置的对云数据中心基础设施监控告警的方法,最终实现利用该技术,用户可以及时掌握云数据中心各项基础设施的负载程度和健康状况;及时更新、维护故障设备,为云数据中心的管理员运营和维护数据中心提供方便。本发明一种云数据中心基础设施监控告警的方法,通过采集端采用基础信息采集器采用可配置,自适应的线程管理器实现;根据用户的需求,对每一个监控项设定告警指标及告警恢复指标及采样周期;对于产生的告警及告警恢复进行详细的记录和管理,因而,具有很好的使用价值。
【专利说明】一种云数据中心基础设施监控告警的方法
【技术领域】
[0001]本发明涉及云计算领域,具体地说是一种云数据中心基础设施监控告警的方法。【背景技术】
[0002]随着云计算技术的不断成熟,云计算逐步成为业界的发展热点,云海操作系统纷纷投入到政府、高校、商业等等多个领域进行使用。在云海操作系统中,对于基础物理设备的监控和管理成为整个应用中的主要组成部分,物理设备的告警数据分析是此部分的重要组成模块。但是随着物理设备数据量的增大,每天产生的告警数据数以万计,如何对这些数据进行分析,使设备达到更高的使用效率是云海OS系统重要的研究内容。
[0003]云计算是一种以服务为特征的服务模式,它以崭新的业务模式为使用者提供高性能,低成本,可弹性的持续计算能力和存储服务,支持各种不同的企业级信息化应用,云计算中包括计算资源,电力能源,交互能力,弹性,负载均衡及虚拟化,而这所有的计算资源都是以服务的方式提供的,这种新型服务能够起到的最大好处在于合理配置整网络内的计算资源,提高计算能力的利用率,降低成本,节能减排,真正的实现数据中心的绿色化,集中化。为了实现以上的云计算服务功能,现阶段数据中心中需要各种各样的硬件基础资源的支撑,同时支持基础资源的动态添加、删除及修改,以实现数据中心在各种情况下的升级。因此对于数据中心基础设施的监控与管理就显得尤为重要。采用本方法,可以动态配置监控信息的采集,根据用户需求定义监控指标项和阈值,方便管理员及时定位故障,降低可能的宕机风险,以此确保其客户最低限度的宕机时间。

【发明内容】

[0004]本发明的目的是提供一种云数据中心基础设施监控告警的方法。
[0005]本发明的目的是按以下方式实现的,该方法提出一种恰当可配置的对云数据中心基础设施监控告警的方法,最终实现利用该技术,用户可以及时掌握云数据中心各项基础设施的负载程度和健康状况;及时更新、维护故障设备,为云数据中心的管理员运营和维护数据中心提供方便。
[0006]上述方法由三部分组成:
(1)基础信息采集器的设计定义,抓取各个设施的性能、健康指标,汇总分析;
(2)告警、告警恢复的设置;
(3)告警历史的管理。
[0007]上述采集的监控项,包括CPU使用率,内存使用率,CPU风扇转速,CPU温度。
【专利附图】

【附图说明】
[0008]图1为一种云数据中心基础设施监控告警的方法的结构示意图。
[0009]实施方式
参照说明书附图对本发明的作以下详细地说明。[0010]如图1说书,本发明的一种基于云计算数据中心安全增强模型的设计方法是按以下方式实现的,该方法提出一种恰当可配置的对云数据中心基础设施监控告警的方法,最终实现利用该技术,用户可以及时掌握云数据中心各项基础设施的负载程度和健康状况;及时更新、维护故障设备,为云数据中心的管理员运营和维护数据中心提供方便。
[0011]上述该方法由三部分组成:
(1)基础信息采集器的设计定义,抓取各个设施的性能、健康指标,汇总分析;
(2)告警、告警恢复的设置;
(3)告警历史的管理。
[0012]采集的监控项,包括CPU使用率,内存使用率,CPU风扇转速,CPU温度。
[0013]具体步骤如下:
(I)、设定需要采集的监控项,如CPU使用率,内存使用率,CPU风扇转速,CPU温度等。
[0014](2)、设定每个监控指标的阈值,如CPU 70-90,内存80%_95%等,以及每个指标的采样周期。
[0015](3)、根据监控规模的大小,配置信息采集器的各项参数指标。如核心规模10线程,最大规模50线程。最大缓存3000个。
[0016](4)、系统启动后,采集器根据设定收集各种监控数据,系统根据告警和告警恢复等设置进行指标分析和报告生成,同时将数据规整记录至告警历史中。
[0017](5)、用户可以根据所需查看相应的告警和报表,也可以手动恢复告警。
[0018]基础信息采集器的设计定义
采集端采用基础信息采集器采用可配置,自适应的线程管理器实现。可同时对多个设备进行信息的采集和分析。信息采集器核心采用一个可配置线程池,通过参数控制线程池的规模和采集任务的缓存规模来实现对核心并发数的约束控制。既能够保证大量监控采集任务能得到有效的执行,同时又能有效保证系统的负载程度。当用户数据中心规模较大,对监控实时性要求较高时,可增大线程池规模。当用户数据中心规模一般,可减小线程池规模,增大缓存规模,节约监控节点的资源消耗。
[0019]告警、告警恢复的设置
根据用户的需求,对每一个监控项设定告警指标及告警恢复指标及采样周期。为了防止在短时间内频繁的收到告警和告警恢复设置,将告警和告警恢复指标设定为一个阈值。当指标超过阈值上限时,触发告警。当指标降低至阈值下限以下时,触发告警恢复。使数据中心管理员可以着重关注长时间无法恢复的告警。同时支持管理员手动恢复该告警,忽略该告警的上报。
[0020]告警历史的管理
对于产生的告警及告警恢复进行详细的记录和管理。方便用户索引和查找。为数据中心的运营情况和基础设施的健康情况提供数据依据。根据用户的需要生成日、周、月、年的数据中心健康程度曲线,故障率等。智能分析出容易出问题的设备和最容易出现的故障类型。为数据中心的升级、优化提供数据决策基础。
[0021]除说明书所述的技术特征外,均为本专业技术人员的已知技术。
【权利要求】
1.一种云数据中心基础设施监控告警的方法,其特征在于提出一种恰当可配置的对云数据中心基础设施监控告警的方法,最终实现利用该技术,用户可以及时掌握云数据中心各项基础设施的负载程度和健康状况;及时更新、维护故障设备,为云数据中心的管理员运营和维护数据中心提供方便。
2.根据权利要求1所述的一种云数据中心基础设施监控告警的方法,其特征在于该方法由三部分组成: (1)基础信息采集器的设计定义,抓取各个设施的性能、健康指标,汇总分析; (2)告警、告警恢复的设置; (3)告警历史的管理。
3.根据权利要求1所述的一种云数据中心基础设施监控告警的方法,其特征在于采集的监控项,包括CPU使用率,内存使用率,CPU风扇转速,CPU温度。
【文档编号】H04L12/24GK103986790SQ201410246267
【公开日】2014年8月13日 申请日期:2014年6月5日 优先权日:2014年6月5日
【发明者】赵仁明, 朱波, 陈光新 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1