一种分布式hadoop集群故障自动诊断修复系统的制作方法_2

文档序号：9581524阅读：来源：国知局

特点，总结出集群物理机的监控，对物理节点之间监控信息共享，管理节点向集群任意节点获取监控数据、资源消耗信息。
[0040]对hadoop集群中全部物理机分组，监控到每个节点平均内存、CPU负载、网络统计信息通过web将不通节点监控数据展现出来，每隔一定时间将得到的监控信息存储到数据。
[0041]4、数据存储分析处理模块:
[0042]设定监控告警规则，预配置告警ID、级别及原因，将监控数据进行结构化、统一化存储到数据库，对海量数据进行抽取、转换与预配置信息进行智能分析，进行分类、聚类、关联规则、数据探索等建模任务，提供分析结果展示。
[0043]设置热点问题告警，对热点问题进行重点分析和监控，同时建立预测模型，对故障进行预测。
[0044]设定集群告警相关性，对监控数据进行关联分析，有效分析故障所在。
[0045]5、自动修复模块:
[0046]对故障事件进行收集，对定义配置好的各类告警选项，定制预处理手段，系统监控巡检到特定事件发生时，对故障根源自动自判断，进行故障的自动处理。
[0047]定期自动的对系统做日志的收集分析，记录系统运行状况，并通过阶段性的监控、分析和总结，定时提供集群的可用性、性能、系统资源利用状况分析报告。
[0048]下面给出某移动云存储集群namenode双机运行失败，采用本发明自愈过程的案例效果。
[0049]某日凌晨，云存储集群上连交换机1S升级发生故障，集群网络中断约20分钟，网络恢复正常后，集群监控告警检测到namenode双机运行失败，进程全部退出，触发云存储业务功能使用全部失败。
[0050]监控数据将namenode日志和运行情况及失败时间、物理机运行日志，根据设定好的告警规则，将监控数据存储到数据库，数据存储分析处理模块对namenode日志数据进行抽取、转换，对告警故障关键点数据进行汇总:
[0051 ] I)主Namenode节点出现致命错误，无法记录日志到JournalNode节点，此错误会导致主Namenode进程退出；
[0052]2)备Namenode节点无法从主Namenode同步日志，在断定主Namenode退出后切换为新的主Namenode ；
[0053]3)3分钟后，新的主Namenode出现致命错误，无法记录日志JournalNode节点，此错误导致新的主Namenode进程退出。
[0054]4)通过对告警故障关键数据与预配置的告警ID、级别及原因进行关联，判定原因为主备Namenode均无法同步日志到JournalNode节点，两个Namenode进程均退出，
[0055]对namenode进程丢失该类型故障系统已经定义好预处理手段，当数据存储分析处理模块判断原因为主备namenode节点无法同步日志JournalNode节点导致进程退出时，会触发namenode进程丢失类故障预处理工具，首先检查namenode节点与JournalNode节点连通性是否正常，如果不正常，发送短信邮件给运维管理人员，如果正常，进入namenode进程启动目录，执行启动脚本，同时监控启动过程，检测启动完毕后，执行命令检查进程是否存在，同时检测JournalNode能否收到日志，并触发云存储业务功能测试工具进行测试，并将恢复的结果通知运维人员。
[0056]整个自愈过程首先是对namenode日志信息进行监控，监控到的告警信息会按照规则存储到数据库，数据存储分析处理模块会对namenode告警数据与预配置好的告警手册进行关联，分析原因，同时自动修复模块对namenode进程丢失类型故障已经编写好相应的预处理工具，当数据存储分析处理模块判断出故障原因时会同时触发自动修复模块进行预处理。
[0057]综上所述，本发明从集群监控实现数据存储与分析处理，通过智能化分析预警，触发故障的自动处理；集群告警分析结果能关联告警预处理模块，对故障自动处理，避免集群出现故障，影响系统的正常运行。具体优点如下:1、监控数据智能化分析方法，可以使性能数据、节点状态更加明确，可以快速的分析、发现、解决问题，加强系统稳定性；2、自动化故障处理方法，降低了维护人员的专业要求，很大程度上降低故障发生概率；3、集群监控智能分析手段，让集群维护不再深奥难懂，海量存储监控数据，为后续对重点问题进行分析，建立预测模型，对故障进行预测判断奠定基础。
[0058]虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。
【主权项】
1.一种分布式hadoop集群故障自动诊断修复系统，其特征在于，包括: 集群文件系统监控模块:采集获取集群节点信息以及数据库文件；作业任务监控模块:采集作业和任务的信息，并对作业任务进行控制管理，包括作业的开启和停止，对指定作业进行周期采样，以及对任务优先级进行管理；物理节点监控模块:监控每个物理节点的资源消耗信息；数据存储分析处理模块:对来自所述集群文件系统监控模块、作业任务监控模块和物理节点监控模块的监控数据进行结构化、统一化后存储到数据库；设定监控告警规则，预先配置告警ID、级别及原因；自动修复模块:预先定义配置各类常见告警故障，并为每个告警故障定制预处理脚本，当所述数据存储分析处理模块监控巡检到故障发生时，对当前发生的故障与预先定义配置的告警故障进行匹配，并调用相应的预处理脚本完成故障的自动处理。2.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统，其特征在于，所述集群文件系统监控模块包括:浏览文件记录，namenode日志记录，namenode运行情况、集群配置容量、DFS占用容量、非DFS占用容量、DFS的可使用容量、DFS已使用百分比、DFS可使用百分比、活节点数、死节点数、namenode的存储目录及类型状态。3.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统，其特征在于，所述集群文件系统监控模块包括:获取HDFS的实时数据和历史状态，根据HDFS信息浏览和定位相关文件，以及监控关闭或者打开所述相关文件时，各个磁盘已经使用和各个磁盘的总容量，剩余容量，文件名称和数目，以及文件的使用情况和历程。4.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统，其特征在于，所述作业任务监控模块控制集群任务概要信息，堆的大小，所占的比例，Map任务数，Reduce任务数以及各个节点上的任务数量值。5.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统，其特征在于，所述作业任务监控模块实时查看作业的状态，查询整个作业从开始工作到结束工作耗费的时间总和，对与指定任务的作业相关信息，显示完成的所有进度、总共要进行的任务总数，预计需要完成的任务数量，当前正在运行的任务数量、到目前为止已经完成，没有成功运行和已经终止的任务。6.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统，其特征在于，所述作业任务监控模块实时查看任务的信息，包括任务的状态、运行任务的开始和结束时间，任务的运行速度及任务所消耗的时间，记录整个任务运行日志，统计任务数目和条目。7.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统，其特征在于，所述物理节点监控模块对hadoop集群中全部物理机进行分组，监控每个物理节点平均内存和CPU负载，并对物理节点之间监控信息共享。8.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统，其特征在于，所述数据存储分析处理模块包括:设置热点问题告警，对热点问题进行优先监控，同时建立预测模型，对故障进行预测。9.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统，其特征在于，所述数据存储分析处理模块对海量数据进行抽取、转换、分类和聚类、设定集群告警相关性，并根据关联规则对监控数据进行关联分析，定位故障所在。10.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统，其特征在于，还包括设置WEB界面对所述集群文件系统监控模块、作业任务监控模块、物理节点监控模块、数据存储分析处理模块以及自动修复模块的采集监控过程进行可视化展示。
【专利摘要】本发明公开了一种分布式hadoop集群故障自动诊断修复系统，包括集群文件系统监控模块：采集获取集群节点信息以及数据库文件；作业任务监控模块：采集作业和任务的信息；物理节点监控模块：监控每个物理节点的资源消耗信息；数据存储分析处理模块：将监控数据存储到数据库；设定监控告警规则，预先配置告警ID、级别及原因；自动修复模块：预先定义配置各类常见告警故障，并为每个告警故障定制预处理脚本，当监控巡检到故障发生时，对当前发生的故障与预先定义配置的告警故障进行匹配，并调用相应的预处理脚本完成故障的自动处理。本发明能够自动诊断修复系统故障，使维护变得更加简单，性能数据、节点状态更加清晰明确。
【IPC分类】H04L12/24
【公开号】CN105337765
【申请号】CN201510650975
【发明人】程永新, 胡永, 李京龙
【申请人】上海新炬网络信息技术有限公司
【公开日】2016年2月17日
【申请日】2015年10月10日

完整全部详细技术资料下载

当前第2页1 2