一种面向Hadoop集群的分布式监控管理系统的制作方法_3

文档序号:9929452阅读:来源:国知局
两个较短的时间间隔ti (如1秒),分别记作11、t2,取CPU快照。
[0079] 把第一次的所有CPU使用情况求和,得到S1:
[0080] SI=user[1]+nice[1]+system[l]+idle[l]+iow[1]+irq[1]+sirq[1]
[0081] 把第二次的所有cpu使用情况求和,得到S2:
[0082] S2=user[2]+nice[2]+system[2]+idle[2]+iow[2]+irq[2]+sirq[2]
[0083] 计算 CPU 使用率 CPU_usage:
[0084] CPU_usage = l-100*(idle[2]-idle[l])/(S2_Sl)
[0085] (2)内存使用率
[0086] 从监控基础数据中提取出内存相关数据:mem_total(物理内存总量)、mem_free (空闲物理内存大小)、11161]1_131^€6^(文件缓冲区的物理内存大小)、1]161]1_03(3116(1(高速缓存 区的物理内存大小h
[0087] 计算内存使用率mem_usage:
[0088] mem_usage = 100%^(mem_total-mem_free-mem_buffers-mem_cached)/mem_ total
[0089] 4.数据存储模块,包括RRD和Mysql,用于存储数据DRRD(Round Robin Database, 环形数据库)用于存储监控数据,该环形数据库使用固定大小的空间来存储数据,数据库内 的数据存储于后缀为.rrd的文件内,以便综合查询模块使用。Mysql数据库用于存储告警数 据,以便综合分析查询模块使用。此外Mysql数据库还存储了用户管理部分的相关信息,如 用户明细表,权限表,角色表等。
[0090] 5.系统管理模块,用于提供用户管理及权限管理功能,对分布式集群进行配置。为 增加系统安全性能,对分布式集群Hadoop平台的配置管理功能仅对系统管理者开放,普通 用户只具备对平台的监控功能。
[0091 ] 6.综合展示模块:用于调用综合分析查询模块,得到各种指标数据,实现分析结果 可视化。可以展示的指标如下:
[0092] (1)今日告警项目统计:以柱状图的形式直观表现出当前集群故障状态,有多少故 障服务器、故障服务和故障组件。点击所有告警可以进入告警列表页面。今日告警项目优选 从当天〇点到当前的时间段进行故障告警,可以保证提供最新的故障告警信息。
[0093] (2)集群服务器状态:将集群服务器分为三种状态,正常、故障与高负荷。查看每种 状态的机器占全部集群机器的比例,如果一台服务器有故障、负荷也高,将其归为故障一 类。
[0094] (3)未解决告警列表:所有未解决的告警。点击服务器名可详细查看这台服务器的 资源使用情况。
[0095] (4)Had〇〇p集群状态:可直观看到Hadoop集群是否繁忙。柱状图可直观看到当前运 行的Map和Reduce作业数和等待运行的Map和Reduce数。
[0096] (5)HDFS容量:可直观看到HDFS使用容量,包括HDFS使用容量、非DFS使用容量和未 使用容量。
[0097] (6)正在运行的MapReduce作业:列出了基本信息、输入数据量、Map和Reduce作业 完成百分比。
[0098] (7)可改变粒度的资源使用时序图,包括CPU利用率,内存利用率。可点击图形左上 角的粒度按钮或者拉动图形下方的粒度条来改变查看粒度和监控区间。列表中列出了服务 器基本机器信息和当前资源使用。
[0099]通过本发明,能够提供一种更适用于实际需求的监控管理系统。通过此系统能够 及时了解服务器资源分配,跟踪分布式集群运行状况,告警异常状况,简化分布式集群配置 操作,在此基础上发现系统资源瓶颈,并优化性能。
【主权项】
1. 一种用于分布式集群系统的分布式监控管理系统,其特征在于包括:性能监控模块, 故障报警模块,综合分析查询模块,综合展示模块,数据存储模块,配置管理模块,系统管理 模块,其中: 性能监控模块用于监控分布式集群系统中各个被监控节点的性能,并将采集到的监控 数据存储到数据存储模块; 故障报警模块用于根据数据存储模块中存储的监控数据进行故障报警,或者接收监控 节点和被监控节点传送的报警数据,将接收到的报警数据存储到数据存储模块并根据该数 据进行故障报警; 综合分析查询模块用于读取数据存储模块中的监控数据或报警数据,进行计算分析, 将计算后的分析结果存入数据存储模块; 数据存储模块用于存储监控数据或报警数据; 综合展示模块用于展示综合分析查询模块的分析结果; 系统管理模块用于进行用户管理及权限管理; 配置管理模块用于对分布式集群系统进行统一配置。2. 根据权利要求1所述的分布式监控管理系统,其特征在于: 性能监控模块包括收集模块和汇聚模块; 收集模块用于读取被监控节点的监控数据,并将收集到的监控数据传输给汇聚模块; 汇聚模块收集监控数据并汇总存储到数据存储模块。3. 根据权利要求1所述的分布式监控管理系统,其特征在于: 故障报警模块,用于扫描数据存储模块中的数据,确定告警信息的级别和种类,发出短 信或邮件报警;或者接收监控节点和被监控节点上的报警信息收集模块传送的报警数据, 将该接收的报警数据存储到数据存储模块,并根据报警数据的级别和种类,发出短信或邮 件报警。4. 根据权利要求1所述的分布式监控管理系统,其特征在于:综合展示模块进行如下之 一或其组合的展示: (1) 今日告警项目统计:以柱状图的形式表现出当前集群故障状态,有多少故障服务 器、故障服务和故障组件; (2) 集群服务器状态:将集群服务器分为三种状态:正常、故障与高负荷; (3) 未解决告警列表:所有未解决的告警; (4) 可改变粒度的资源使用时序图:包括CRJ利用率,内存利用率。5. 根据权利要求1所述的分布式监控管理系统,其特征在于:数据存储模块包括RRD和 Mysql,监控数据存储在RRD中,报警数据存储在Mysql中。6. -种用于分布式集群系统的分布式监控管理方法,其特征在于包括以下步骤: 步骤1.监控分布式集群系统中的被监控节点,将监控数据存储到数据存储模块; 步骤2.根据存储的监控数据进行故障报警,或者接收监控节点和被监控节点上的报警 信息收集模块传送的报警数据,将该接收的报警数据存储到数据存储模块并根据该信息进 行故障报警; 步骤3.读取数据存储模块中的监控数据或报警数据,进行计算分析,保存计算后的分 析结果; 步骤4.展示综合分析查询模块的分析结果; 步骤5.进行用户管理及权限管理; 步骤6.对分布式集群系统进行统一配置。7. 根据权利要求6所述的分布式监控管理方法,其特征在于: 步骤1中的监控包括:读取被监控节点的监控数据,将收集到的监控数据汇总存储。8. 根据权利要求6所述的分布式监控管理方法,其特征在于:步骤2中的故障报警具体 为扫描数据存储模块中的数据,确定告警信息的级别和种类,发出短信或邮件报警;或者接 收监控节点和被监控节点上的报警信息收集模块所传送的报警数据,将该接收的报警数据 存储到数据存储模块,并根据报警数据的级别和种类,发出短信或邮件报警。9. 根据权利要求6所述的分布式监控管理方法,其特征在于:步骤4中的综合展示包括 如下之一或其组合的展示: (1) 今日告警项目统计:以柱状图的形式表现出当前集群故障状态,有多少故障服务 器、故障服务和故障组件; (2) 集群服务器状态:将集群服务器分为三种状态:正常、故障与高负荷; (3) 未解决告警列表:所有未解决的告警; (4) 可改变粒度的资源使用时序图:包括CRJ利用率,内存利用率。10. 根据权利要求6所述的分布式监控管理方法,其特征在于:数据存储模块包括RRD和 Mysql,监控数据存储在RRD中,报警数据存储在Mysql中。
【专利摘要】本发明涉及一种面向Hadoop集群的分布式监控管理系统。一种更适用于我们实际需求的监控管理系统。主要包括性能监控模块,故障报警模块,综合分析查询模块,综合展示模块,数据存储模块,配置管理模块,系统管理模块。通过此系统能够了解服务器资源分配,跟踪Hadoop运行状况,告警异常状况,简化Hadoop平台配置操作,在此基础上发现系统资源瓶颈,并优化性能。此系统也可用于其他需求环境中对于分布式集群的监控管理。
【IPC分类】G06F11/32, G06F11/30
【公开号】CN105718351
【申请号】CN201610010050
【发明人】许丹霞, 刘寅, 汪伟, 郑宇
【申请人】北京汇商融通信息技术有限公司
【公开日】2016年6月29日
【申请日】2016年1月8日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1