一种面向Hadoop集群的分布式监控管理系统的制作方法_2

文档序号:9929452阅读:来源:国知局
端数据的 可视化。去掉Ganglia繁琐复杂的展示参数和指标,只展现一般管理者和维护者感兴趣的监 控指标,此外综合展示模块还展示Nagios搜集的各个报警信息。当然本系统也支持用户直 接访问Gang 1 ia自带的gweb页面,查看用户所关心的其他监控指标。
[0028]所述的分布式监控管理系统,优选的:
[0029]配置管理模块,基于zookeeper实现分布式统一配置服务,时效性和数据安全性都 能得到保证,目的在于简化平台配置操作,当监控管理系统进行报警时,相关人员可以修改 Hadoop平台的配置,重新组织和协调资源,并提供web界面简化配置操作。
[0030] 所述的分布式监控管理系统,优选的:
[0031] 系统管理模块,提供web界面维护用户管理及权限管理功能。增加系统安全性能, 对Hadoop平台的配置管理功能仅对系统管理者开放,普通用户只具备对平台的监控功能。 [0032] 一种用于分布式集群系统的分布式监控管理系统,包括:性能监控模块,故障报警 模块,综合分析查询模块,综合展示模块,数据存储模块,配置管理模块,系统管理模块,其 中:
[0033] 性能监控模块用于监控分布式集群系统被监控节点的监控数据,并将该监控数据 存储到数据存储模块;
[0034] 故障报警模块用于根据数据存储模块中存储的监控数据进行故障报警,或者接收 监控节点和被监控节点传送的报警数据,将该接收的报警数据存储到数据存储模块并根据 该信息进行故障报警;
[0035] 综合分析查询模块用于读取数据库中的监控数据或报警数据,进行计算分析,将 计算后的分析结果存入数据存储模块;
[0036] 数据存储模块,用于存储监控数据或报警数据;
[0037]综合展示模块用于展示综合分析查询模块的分析结果;
[0038]系统管理模块用于进行用户管理及权限管理;
[0039]配置管理模块用于对分布式集群系统进行统一配置。
[0040]所述的分布式监控管理系统,优选的:
[0041 ]性能监控模块包括收集模块和汇聚模块;
[0042] 收集模块用于读取被监控节点的监控数据,并将收集到的监控数据传输给汇聚模 块;
[0043] 汇聚模块收集监控数据并汇总存储到数据存储模块。
[0044] 所述的分布式监控管理系统,优选的:
[0045] 故障报警模块,扫描数据存储模块中的数据,确定告警信息的级别和种类,发出短 信或邮件报警;或者接收监控节点或被监控节点传送的报警数据,将该接收的报警数据存 储到数据存储模块,并根据报警数据的级别和种类,发出短信或邮件报警。
[0046] 所述的分布式监控管理系统,优选的:综合展示模块进行如下之一或其组合的展 示:
[0047] (1)今日告警项目统计:以柱状图的形式直观表现出当前集群故障状态,有多少故 障服务器、故障服务和故障组件;
[0048] (2)集群服务器状态:将集群服务器分为三种状态:正常、故障与高负荷;
[0049] (3)未解决告警列表:所有未解决的告警;
[0050] (4)可改变粒度的资源使用时序图:包括CPU利用率,内存利用率。
[0051]所述的分布式监控管理系统,优选的:数据存储模块包括RRD或Mysql,监控数据存 储在RRD中,报警数据存储在Mysql中。
[0052] 一种用于分布式集群系统的分布式监控管理方法,包括以下步骤:
[0053]步骤1.监控分布式集群系统中被监控节点,将监控数据存储到数据存储模块;
[0054] 步骤2.根据存储的监控数据进行故障报警,或者接收监控节点和被监控节点传送 的报警数据,将该接收的报警数据进行存储到数据存储模块并根据该信息进行故障报警;
[0055] 步骤3.读取数据存储模块中的监控数据或报警数据,进行计算分析,保存计算后 的分析结果;
[0056] 步骤4.展示综合分析查询模块的分析结果;
[0057]步骤5.进行用户管理及权限管理;
[0058]步骤6.对分布式集群系统进行统一配置。
[0059]所述的分布式监控管理方法,优选的:
[0060]步骤1中的监控包括:读取被监控节点的监控数据,将收集到的监控数据汇总存 储。
[0061 ]所述的分布式监控管理方法,优选的:
[0062]步骤2中的故障报警具体为扫描数据存储模块中的数据,确定告警信息的级别和 种类,发出短信或邮件报警;或者接收监控节点和被监控节点传送的报警数据,将该接收的 报警数据存储到数据存储模块,并根据报警数据的级别和种类,发出短信或邮件报警。 [0063]所述的分布式监控管理方法,优选的:步骤4中的综合展示包括如下之一或其组合 的展示:
[0064] (1)今日告警项目统计:以柱状图的形式直观表现出当前集群故障状态,有多少故 障服务器、故障服务和故障组件;
[0065] (2)集群服务器状态:将集群服务器分为三种状态:正常、故障与高负荷;
[0066] (3)未解决告警列表:所有未解决的告警;
[0067] (4)可改变粒度的资源使用时序图:包括CPU利用率,内存利用率。
[0068]所述的分布式监控管理方法,优选的:数据存储模块包括RRD或Mysql,监控数据存 储在RRD中,报警数据存储在Mysql中。
【附图说明】
[0069]图1为本发明提供的面向Hadoop集群的分布式监控管理系统示意图。
【具体实施方式】
[0070]如图1所示,分布式监控管理系统包括:
[0071 ] 1.性能监控模块,用于监控分布式集群系统的性能:监控的数据包括服务器资源、 Hadoop Metrics、Hadoop组件日志以及其他组件日志。性能监控模块包括收集模块和汇聚 模块。其中收集模块用于读取被监控节点的监控数据,包括服务器资源(服务器的基本信息 包括CPU、内存、硬盘、网络10、进程等)、Hadoop Metrics(包括HDFS信息、MapReduce信息、 JVM信息以及其他Hadoop组件信息(Hbase等))、Had〇〇p组件日志以及其他组件日志。收集模 块将收集到的监控数据传输给汇聚模块,由汇聚模块统一收集监控信息并汇总存储到数据 存储模块,优选的,数据存储模块包括环形数据库RRD( (Round-Robin Database)),由RRD存 储该数据。
[0072] 2.故障报警模块,用于进行故障报警,包括告警信息收集模块和告警信息核心部 件。故障报警模块可以进行两种故障报警。第一是告警信息收集模块扫描RRD中存储的数 据,按照用户需求确定告警信息的级别和种类,选择相关的管理人员发出短信或邮件报警; 第二是告警信息核心部件接收监控节点和被监控节点的告警信息收集模块发来的告警信 息,并将告警信息存储于数据库中,例如该数据库可以是Msql数据库,供web展示使用,并根 据告警信息的级别和种类,选择相关的管理人员发出短信或邮件报警。
[0073]监控告警的项目,同样为组件信息、Hadoop集群状态信息和服务器信息。各类告警 项的告警内容如下表所示:
[0075] 3 .综合分析查询模块,用于提供计算查询服务,由于所采集的原始数据通常并不 适宜直接展示给用户,使用者通常关心的是使用原始数据计算后得到的值。所以展现给用 户的数据有一部分是经原数据计算后得到的。模块读取RRD和Mysql数据库中的监控和报警 数据,进行相关计算,将计算后的监控和报警指标存入Mysql数据库,并提供各类指标的查 询接口。
[0076] 下面给出CPU使用率和内存使用率这两个重要指标的计算方法,硬盘、负载和网络 10的值可以直接取到,通过简单的除法计算就可以得到百分比值。同样的,告警项目统计数 据通过简单的累加计算可以获得,集群服务器状态百分比数据可以通过简单的除法计算可 以获得,在次不再做赘述。其他监控和告警数据可以从数据库中直接得到。
[0077] (l)CPU 使用率
[0078]从监控基础数据(也即从被监控节点收集的监控数据)中提取出CPU相关数据:CPU user time(用户态的CPU时间,记为user[i])、CPU nice time(nice值为负的进程所占用的 CPU时间,记为nice[i])、CPU system time(核心时间,记为system[i])、CPU idle time(除 硬盘10等待时间以外其它等待时间,记为idie[i])、CPU iowait time(硬盘10等待时间,记 为iow[i])、CPU irq time(硬中断时间,记为irq[i])、CPU softirq time(软中断时间,记 为sirq[ i ])。采样
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1