一种面向关键任务计算机集群的弹性监控方法_3

文档序号:9306585阅读:来源:国知局
,监测的数据包括6个部分:CPU利用率、内存利用率、cache 未命中率、CPU温度、虚拟内存、网络带宽使用率,并将监测数据临时存储在本地节点的存储 空间;
[0082] ②该子节点的监控代理每隔t秒钟发送一个心跳包给主节点的管理系统,确保主 节点和子节点最基本的通信,告知主节点该子节点处于正常工作状态;
[0083] ③如果该子节点的监控代理监测到CPU利用率、内存利用率、cache未命中率、CPU 温度、虚拟内存、网络带宽使用率超出阈值,即出现%>Wpw2>W2、w3>W3、w4>W4、w5> W5、w6>W6中的一种或多种情况,该子节点的监控代理立刻向主节点发送该条异常状态信 息,并由主节点的监控管理系统发出警报,通知管理员进行维护。
[0084] 下面结合具体实施例对本发明的一种面向关键任务计算机集群的弹性监控方法 作以下详细地说明。
[0085] 实施例1 :
[0086] 如图1所示,关键任务计算机集群负载小于70%的情况下,并且CPU利用率W1 = 68%、内存利用率W2= 65%、cache未命中率w3= 8%、CPU温度w4= 70°C、虚拟内存w5 = 3800M、网络带宽使用率W6= 80%时,且CPU电压、I/O状态、硬盘状态、重要端口都正常,工 作流程如下:
[0087] (1)主节点利用各个监控代理获取子节点的监测数据;
[0088] (2)主节点对子节点的监测数据进行负载评定,子节点负载小于70% ;
[0089] (3)该子节点每个监控周期开始时,监控代理查看本地是否存在临时存储的监测 数据文件,如果有,则打包发送给主节点的管理系统,并删除已发送的临时存储文件;
[0090] (4)主节点的管理系统根据子节点的监测数据,其中CPU利用率W1、内存利用率w2、 cache未命中率w3、CPU温度W4、虚拟内存、网络带宽使用率都处于正常范围,CPU电压、I/O 状态、硬盘状态、重要端口都正常;
[0091] (5)监测数据的CPU利用率W1= 68%、内存利用率W2= 65%、cache未命中率W3 =8%、0?1]温度《4=70°(:、虚拟内存¥5= 380(^网络带宽使用率《6=80%采用公式(1) 计算该子节点不健康程度P,其中I、W2、W3、W4、W5、Wj别为90 %、90 %、10 %、80°C、4000M, 90%,A1、人2、人3、人4、人 5、入6分别为0.25、0.25、0.1、0.15、0.1、0.15,计算不健康程度 P',P' = 81 > 70,该节点处于不健康状态,报警通知管理人员进行维护。
[0092] 实施例2 :
[0093] 如图1所示,关键任务计算机集群负载大于70%的情况下,但监测数据中CPU温度 为《4= 85°C,超出阈值,其他监测数据在正常范围时,工作流程如下:
[0094] (1)主节点利用各个监控代理获取子节点的监测数据;
[0095] (2)主节点对获得的监测数据对该子节点进行负载评定,负载大于70% ;
[0096] (3)该子节点的监控代理在高负载监控方案下,不再实时上报本机监测数据,而是 将监测数据临时存储在本地节点的存储空间;
[0097] (4)该子节点的监控代理每隔5秒钟发送一个心跳包给主节点的管理系统,确保 主节点和子节点最基本的通信,告知主节点该子节点处于正常工作状态;
[0098] (5)该子节点的监控代理监测到CPU温度W4= 85°C>W4,超出阈值,该子节点的监 控代理立刻向主节点发送该条异常状态信息,并由主节点的监控管理系发出警报,通知管 理员进行维护。
【主权项】
1. 一种面向关键任务计算机集群的弹性监控方法,其特征在于:包括以下步骤, 步骤一:为集群中的主节点设置一个管理系统,为每个子节点分配一个监控代理,子节 点的监控代理负责采集各自节点的监控数据,并发送给主节点的管理系统,监控数据包括: CPU利用率、内存利用率、cache未命中率、CPU温度、虚拟内存、网络带宽使用率、CPU电压、 I/O状态、硬盘状态和重要端口; 步骤二:主节点的管理系统根据接收监控代理的监控数据,在每个监控周期开始时,计 算出集群每个节点的最大负载,节点的最大负载为其CPU利用率、内存利用率以及网络带 宽使用率三项的平均值,如果子节点最大负载大于70%,则进入步骤三;如果子节点最大 负载小于等于70%且大于30%,则进入步骤四;如果子节点最负载小于等于30%进入步骤 五; 步骤三:主节点的管理系统采取高负载监控方法对子节点进行监控,进入步骤六; 步骤四:主节点的管理系统采取正常负载监控方法对子节点进行监控,进入步骤六; 步骤五:主节点的管理系统采取低负载监控方法对子节点进行监控,进入步骤六; 步骤六:返回步骤一,直到任务结束。2. 根据权利要求1所述的一种面向关键任务计算机集群的弹性监控方法,其特征在 于:所述的高负载监控方法为: (1) 子节点的监控代理对节点进行监控,监控数据为CPU利用率、内存利用率、cache未 命中率、CPU温度、虚拟内存和网络带宽使用率,将监控数据临时存储在本地节点的存储空 间内; (2) 子节点的监控代理每隔t秒发送一个心跳包给主节点的管理系统,告知主节点该 子节点处于正常工作状态; (3) 如果子节点的监控代理监控到CPU利用率、内存利用率、cache未命中率、CPU温 度、虚拟内存、网络带宽使用率中的一个或多个数据超出阈值,子节点的监控代理立刻向主 节点发送该条异常状态信息,主节点的管理系统将接收的子节点的异常信息,向管理人员 发出警报。3. 根据权利要求1所述的一种面向关键任务计算机集群的弹性监控方法,其特征在 于:所述的正常负载监控方法为: (1) 子节点监控代理查看本地是否存在临时存储的监控数据文件,如果存在临时存储 的监控数据,则打包发送给主节点的管理系统,并删除已发送的临时存储文件; (2) 管理系统告知该子节点的监控代理对节点进行全面监控,监控的数据包括:CPU利 用率、内存利用率、cache未命中率、CPU温度、虚拟内存、网络带宽使用率、CPU电压、I/O状 态、硬盘状态和重要端口; (3) 如果子节点的监控代理监控到CPU利用率、内存利用率、cache未命中率、CPU温 度、虚拟内存、网络带宽使用率中的一个或多个数据超出阈值,子节点的监控代理立刻向主 节点发送该条异常状态信息,主节点的管理系统将接收的子节点的异常信息,向管理人员 发出警报; (4) 主节点的管理系统根据子节点的监测数据,判断是否有I/O响应超时、硬盘读写故 障、CPU电压超出阈值或者重要端口被非法占用的异常情况,如果出现异常,主节点的管理 系统向管理人员发出警报。4.根据权利要求1所述的一种面向关键任务计算机集群的弹性监控方法,其特征在 于:所述的低负载监控方法为: (1) 子节点监控代理查看本地是否存在临时存储的监控数据文件,如果存在临时存储 的监控数据,则打包发送给主节点的管理系统,并删除已发送的临时存储文件; (2) 主节点的管理系统告知子节点的监控代理对子节点进行全面监控,监控的数据包 括:CPU利用率、内存利用率、cache未命中率、CPU温度、虚拟内存、网络带宽使用率、CPU电 压、I/O状态、硬盘状态、重要端口; (3) 如果子节点的监控代理监控到CPU利用率、内存利用率、cache未命中率、CPU温 度、虚拟内存、网络带宽使用率中的一个或多个数据超出阈值,子节点的监控代理立刻向主 节点发送该条异常状态信息,主节点的管理系统将接收的子节点的异常信息,向管理人员 发出警报; (4) 主节点的管理系统根据子节点的监测数据,判断是否有I/O响应超时、硬盘读写故 障、CPU电压超出阈值或者重要端口被非法占用的异常情况,如果出现异常,主节点的管理 系统向管理人员发出警报; (5) 主节点的管理系统根据子节点的监测数据计算不健康程度P:其中CPU利用率Wl、内存利用率w2、cache未命中率w3、CPU温度w4、虚拟内存w5、网络 带宽使用率w6,I、W2、W3、W4、W5、16分别是CPU利用率、内存利用率、cache未命中率、CPU温 度、虚拟内存、网络带宽使用率的事先规定阈值,A^A2、A3、A4、A5、A6分别为以上监测 数据的权重; 如果不健康程度大于阈值,主节点的管理系统向管理人员发出警报。
【专利摘要】本发明公开了一种面向关键任务计算机集群的弹性监控方法。为集群中的主节点设置一个管理系统,为每个子节点分配一个监控代理,子节点的监控代理负责采集各自节点的监控数据,并发送给主节点的管理系统;在每个监控周期开始时,计算出集群每个节点的最大负载,如果子节点最大负载大于70%,则采取高负载监控方法对子节点进行监控;如果子节点最大负载小于等于70%且大于30%,则采取正常负载监控方法对子节点进行监控;如果子节点最负载小于等于30%采取低负载监控方法对子节点进行监控。本发明在集群节点高负载的情况下,减少不必要的资源占用,减少监控系统对集群性能的影响;在低负载的情况下,对节点采取更加细粒度的监控。
【IPC分类】H04L12/26, H04L12/24
【公开号】CN105024880
【申请号】CN201510419779
【发明人】王慧强, 戴秀豪, 冯光升, 吕宏武, 林俊宇
【申请人】哈尔滨工程大学
【公开日】2015年11月4日
【申请日】2015年7月17日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1