一种大规模服务器监控时的告警阀值设置方法

文档序号:6636969阅读:392来源:国知局
一种大规模服务器监控时的告警阀值设置方法
【专利摘要】本发明提供一种大规模服务器监控时的告警阀值设置方法,涉及服务器监控、资源故障告警领域,本发明设计结构包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块。充分发挥资源告警阀值的自循环优化机制和基于模板库的告警阀值批量分发应用等特点,采用典型资源优先入资源库进行自循环优化,并生成模板的设计方法,实现大规模同型号同配置服务器批量应用模板进行告警阀值设置,从而大大降低了大规模服务器监控的过程中进行告警阀值设置的复杂度,提高了告警阀值设置的准确性和合理性。
【专利说明】一种大规模服务器监控时的告警阀值设置方法

【技术领域】
[0001]本发明涉及服务器监控、资源故障告警领域,具体涉及一种大规模服务器监控时的告警阀值设置方法。

【背景技术】
[0002]随着数据中心的飞速发展,大规模的服务器应用越来越成为数据中心的主要特点。在大规模服务器的监控管理中使用自动化的监控系统就成为必然,但是由于规模太大,若要实现每台服务器每项监测数据可以灵活自主的设置合理的、实际环境需要的告警阀值,会给管理员带来非常大的挑战。可想而知,一个拥有上千台服务器的集群化应用,如果对每台服务器上的每项监测参数设置合理、可控的告警阀值,需要投入大量的时间和资源去完成。例如,一个2000台服务器规模的集群进行监控,每台服务器具有50个监测项(如系统CPU利用率、系统物理内存利用率、电源I的功耗、风扇I的转速等均为一个监测项),那么就会产生100000个监测项,要想对这100000个监测项进行合理的、用户可控制的告警阀值设置,用传统的方式首先很难保证设置的正确性,再有也需要很多的资源和时间去完成,一旦需要改动调整,则还要投入大量的时间和资源进行优化,既浪费了大量的人力物力也无法保证调整过程中集群中服务器监控的有效性。以上挑战为大规模服务器监控时告警阀值的设置和设置过程中服务器监控的有效性带了极大的局限性,严重影响大规模服务器监控时告警的合理性和准确性,因此设计大规模服务器监控时的告警阀值设置方法可以有效解决该难题。


【发明内容】

[0003]本发明的设计主要考虑资源告警阀值的自循环优化机制和基于模板库的告警阀值批量分发应用的特点,采用典型资源优先入资源库进行自循环优化,以及典型资源的告警阀值经过优化后生成模板的设计方法,实现大规模同型号同配置服务器批量应用模板进行告警阀值设置,从而大大降低了大规模服务器监控的过程中进行告警阀值设置的复杂度,提高了告警阀值设置的准确性和合理性。
[0004]资源告警阀值的自循环优化机制和基于模板库的告警阀值批量分发应用,考虑大规模服务器监控时告警阀值的灵活控制非常复杂的特点,采用典型资源优先入资源库进行自循环优化,以及典型资源的告警阀值经过优化后生成模板的设计方法,实现大规模同型号同配置服务器批量应用模板进行告警阀值设置,从而大大降低了大规模服务器监控的过程中进行告警阀值设置的复杂度,提高了告警阀值设置的准确性和合理性,避免了浪费大量人力逐个进行告警阀值设置和人为设置的告警阀值不合理、不统一、无法真实反应资源故障原因等问题。大规模服务器监控时的告警阀值设置方法的设计结构包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块。
[0005]所述的资源告警阀值自循环优化模块设计,基于告警阀值经验库,设计自循环优化流程,可使典型资源的每个监测项的告警阀值根据阀值经验库中的数据进行调整,当阀值与经验库中数据相比过高时,便减小阀值;当阀值与经验库中数据相比过低时,便增加阀值,直到达到一种合理、准确的阀值水平,循环结束。其中,判断阀值是否准确、是否合理的依据为资源真正出现故障了才告警并且根据故障的严重程度分级告警。
[0006]所述的资源模板库生成模块设计,选择典型的、能够代表某型号某配置服务器的资源,启动其各监测项的告警阀值自循环优化,并根据优化完成的数据生成该型号该配置服务器监控对应的模板,并通过建立模板库的方式对模板进行维护,如添加模板、修改模板和删除模板。资源模板库通过资源库提供的典型资源监控配置生成模板,并由资源模板库管理模块调用,将模板应用到相同型号相同配置的服务器上,通过这种方式完成告警阀值的设置。
[0007]所述的资源配置库模块设计,将各种型号各种配置的服务器以资源挂载监测项的方式构建为资源配置库,并为每台服务器的资源配置属性加入告警阀值,为每台服务器提供设置告警阀值的平台,并为资源告警阀值自循环优化模块提供典型资源配置。
[0008]所述的资源模板库管理模块设计,其特征在于建立模板批量应用策略,为不同型号不同配置的服务器指定相应的模板,模板由资源模板库中获取,并通过驱动应用策略生效,将获取到的各资源模板分发应用到每个资源、每台服务器上。并且,当该型号该配置服务器的告警阀值需要调整时,只需要统一调整资源模板,然后批量应用即可,无需逐个调整、逐个应用,与此同时,该模块还负责资源模板的整个生命周期管理,从新建到应用到调整再到结束。
[0009]弥补了传统服务器监控告警阀值设置时准确性差、资源时间耗费严重的不足,采用自循环优化结合阀值经验库的方法,实现告警阀值的自循环调整,大大增强了告警阀值的合理性和准确性,并通过典型资源生成模板、资源模板批量应用到服务器的方式,实现了对告警阀值的统一化管理,在大规模服务器监控告警阀值设置应用中具有很高的技术价值。

【专利附图】

【附图说明】
[0010]附图1是传统的服务器监控时的告警阀值设置原理示意图。
[0011]附图2是资源告警阀值自循环优化模块示意图。
[0012]附图3是资源模板库生成模块示意图。
[0013]附图4是大规模服务器监控时的告警阀值设置原理示意图。

【具体实施方式】
[0014]下面参照附图,对本发明的内容以分别位于4个机柜的4种型号和配置的服务器的告警阀值设置为例,采用4种模板、每种资源或模板下设6个监测项的方式,来描述这一设计方法的实现过程。
[0015]正如
【发明内容】
中所描述的,本发明中大规模服务器监控时的告警阀值设置方法主要包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块。
[0016]大规模服务器监控时的告警阀值设置方法设计包括:资源配置库模块、资源告警阀值自循环优化模块、资源模板库生成模块和资源模板库管理模块,如图4所示,其中位于4个机柜的12台服务器首先被纳入到资源配置库中,然后在不同型号不同配置的服务器中分别设置一个典型资源,每个典型资源调用自循环优化模板,将自己的各个监测项告警阀值与告警阀值经验库中的数据进行对比分析,根据高低进行循环调整,直到达到一种合理、准确的告警阀值,循环结束。将各型号各配置对应的典型资源生成不同的资源模板,开始进入模板库进行统一管理,经过模板库生成模块对各资源模板的优化处理后,最终由资源模板库管理模块调用来将模板分别与各型号各配置的服务器资源进行关联,经过批量应用生效后完成告警阀值的设置过程。与此同时,当有新的告警阀值需要调整时,只需要将模板中的各监测项告警阀值修改后,重新再应用生效即可。
【权利要求】
1.一种大规模服务器监控时的告警阀值设置方法,其特征在于,其结构包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块; 服务器首先被纳入到资源配置库中,然后在不同型号不同配置的服务器中分别设置一个典型资源,每个典型资源调用自循环优化模板,将自己的各个监测项告警阀值与告警阀值经验库中的数据进行对比分析,根据高低进行循环调整,直到达到一种合理、准确的告警阀值,循环结束;将各型号各配置对应的典型资源生成不同的资源模板,开始进入模板库进行统一管理,经过模板库生成模块对各资源模板的优化处理后,最终由资源模板库管理模块调用来将模板分别与各型号各配置的服务器资源进行关联,经过批量应用生效后完成告警阀值的设置过程;与此同时,当有新的告警阀值需要调整时,只需要将模板中的各监测项告警阀值修改后,重新再应用生效即可。
2.根据权利要求1所述的方法,其特征在于所述的资源告警阀值自循环优化模块,基于告警阀值经验库,设计自循环优化流程,可使典型资源的每个监测项的告警阀值根据阀值经验库中的数据进行调整,当阀值与经验库中数据相比过高时,便减小阀值;当阀值与经验库中数据相比过低时,便增加阀值,直到达到一种合理、准确的阀值水平,循环结束;其中,判断阀值是否准确、是否合理的依据为资源真正出现故障了才告警并且根据故障的严重程度分级告警。
3.根据权利要求1所述的方法,其特征在于所述的资源模板库生成模块,选择典型的、能够代表一种型号一种配置服务器的资源,启动其各监测项的告警阀值自循环优化,并根据优化完成的数据生成该型号该配置服务器监控对应的模板,并通过建立模板库的方式对模板进行维护;资源模板库通过资源库提供的典型资源监控配置生成模板,并由资源模板库管理模块调用,将模板应用到相同型号相同配置的服务器上,通过这种方式完成告警阀值的设置。
4.根据权利要求1所述的方法,其特征在于所述的资源配置库模块,将各种型号各种配置的服务器以资源挂载监测项的方式构建为资源配置库,并为每台服务器的资源配置属性加入告警阀值,为每台服务器提供设置告警阀值的平台,并为资源告警阀值自循环优化模块提供典型资源配置。
5.根据权利要求1所述的方法,其特征在于所述的资源模板库管理模块,建立模板批量应用策略,为不同型号不同配置的服务器指定相应的模板,模板由资源模板库中获取,并通过驱动应用策略生效,将获取到的各资源模板分发应用到每个资源、每台服务器上;并且,当该型号该配置服务器的告警阀值需要调整时,只需要统一调整资源模板,然后批量应用即可,与此同时,该模块还负责资源模板的整个生命周期管理,从新建到应用到调整再到结束。
【文档编号】G06F11/30GK104375926SQ201410721437
【公开日】2015年2月25日 申请日期:2014年12月3日 优先权日:2014年12月3日
【发明者】陆峰, 刘成平, 李锋 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1