一种分布式集群设备故障预警方法

文档序号:9237971阅读:315来源:国知局
一种分布式集群设备故障预警方法
【技术领域】
[0001]本发明属于分布式数据处理领域,尤其涉及一种分布式集群设备故障预警方法。
【背景技术】
[0002]近几年来,随着廉价集群集成理论完善,实施技术的实践经验逐步提高。但由于其理论基础就是采用廉价、通用服务器进行水平扩充,廉价的通用单个服务器的故障出现频率较商用服务器高。为了应对数据及服务的稳定的需求,需要进行节点冗余。因为此类集群构建容易、成本相对较低,因此云平台的使用范围不断扩大,集群内服务器数量动辄几十、几百个。大型局点甚至达到千台以上规模。
[0003]根据概率学的研宄成果,即使是小概率事件,在相应数量级上事件发生的次数就会显著增加,为此基本可以得出结论:一定时间的范围内大规模集群必定会出现单点服务器故障。随着故障机的数量不停增长,会造成剩余机器的负载不断加大,又促使剩余机器的故障出现频率增加。
[0004]为应对以上问题,可以设定专门的运维人员进行定期巡检处理、或者在此基础上添加自动监控脚本做实时通知,但这种方案都属于事后补救,不能预先判断哪些机器可能会需要重点运维。
[0005]其次,一般运维过程都是处理故障、发布处理故障。没有将集群状态与节点状态之间建立时间、空间上的联系。
[0006]另外,集群规划时,其硬件配置、节点数量、流量拓扑、运算负载均衡、存储负载均衡都和其集群承载的业务性质、规模有直接关系。但一般集群规划时基本上依赖于方案提出人的经验。不能做定性分析、定量结论。

【发明内容】

[0007]本发明所要解决的技术问题是提供一种分布式集群设备故障预警方法,进行现网故障预警,为设备的运行维护提供依据,从而可以查找出需要重点维护的设备,防止设备出现故障。
[0008]为了解决上述技术问题,本发明提供了一种分布式集群设备故障预警方法,包括:
[0009]获得集群和节点的即时信息数据,将所述即时信息数据存储到系统数据库,补充为历史数据;
[0010]根据评估模型的需要,到系统数据库中获得需要的数据,形成知识库,将所述知识库定期输入到实施评估系统;
[0011]实施评估系统根据所述即时信息数据、评估模型,知识库,输出故障预警信息。
[0012]优选的,所述获得集群和节点的即时信息数据,包括:
[0013]在网络节点部署网络探针,采集即时的网络相关数据;在各个节点系统上部署系统探针,采集系统信息数据;在各业务节点上部署业务探针,通过业务层软件接口采集业务数据。
[0014]优选的,所述系统信息数据包括以下中的一种或者一种以上的组合:cpu、内存、温度、磁盘数据。
[0015]优选的,所述方法还包括:
[0016]将所述故障预警信息反馈到系统数据库,补充为故障样本数据。
[0017]本发明通过集群和节点的即时信息,结合历史数据、运维结论等多维度数据,进行现网故障预警,为设备的运行维护提供依据,从而可以查找出需要重点维护的设备,防止设备出现故障。本发明并通过历史数据建立集群与硬件配置、节点数量、流量拓扑、运算负载均衡、存储负载均衡等相关业务拓展的关联,为集群的规划提供方案设计依据。在集群规划时,可以查找历史数据,看看每个节点的故障情况,或者负载能力等,根据历史数据进行规划。
【附图说明】
[0018]图1为本发明实施例中一种分布式集群设备故障预警系统构建方法流程图。
【具体实施方式】
[0019]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0020]本发明的主要思想是:首先部署相关的数据探针程序采集相关的数据,其中I)在相关的网络节点部署网络探针,采集即时的网络相关数据,2)在各个节点系统上部署系统探针,采集cpu、内存、温度、磁盘等信息数据,3)各业务节点上部署业务探针,通过业务层软件接口采集业务数据。通过实时收集模块将上述数据存储到系统数据库中。
[0021]参照图1所示,为本发明实施例中一种分布式集群设备故障预警方法流程图。所示方法包括:
[0022]101,获得集群和节点的即时信息数据,将所述即时信息数据存储到系统数据库,补充为历史数据;
[0023]102,根据评估模型的需要,到系统数据库中获得需要的数据,形成知识库,将所述知识库定期输入到实施评估系统;
[0024]103,实施评估系统根据所述即时信息数据、评估模型,知识库,输出故障预警信息。
[0025]在本发明的一个优选实施例中,所述获得集群和节点的即时信息数据,包括:
[0026]在网络节点部署网络探针,采集即时的网络相关数据;在各个节点系统上部署系统探针,采集系统信息数据;在各业务节点上部署业务探针,通过业务层软件接口采集业务数据。
[0027]在本发明的一个优选实施例中,所述系统信息数据包括以下中的一种或者一种以上的组合:cpu、内存、温度、磁盘数据。
[0028]在本发明的一个优选实施例中,所述方法还包括:
[0029]将所述故障预警信息反馈到系统数据库,补充为故障样本数据。
[0030]本发明由数据挖掘模块根据评估模型、根据历史数据挖掘相关的知识库,定期输入到实施评估系统。同时实施评估系统根据采集的实时信息、评估模型,结合挖掘出的知识库,输出相关的故障预警。最后预警系统处理的结果进行反馈,补充为故障样本数据。整个系统由此自我迭代,逐步形成稳定的评估网络。
[0031]以上所述的【具体实施方式】,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的【具体实施方式】而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种分布式集群设备故障预警方法,其特征在于,包括: 获得集群和节点的即时信息数据,将所述即时信息数据存储到系统数据库,补充为历史数据; 根据评估模型的需要,到系统数据库中获得需要的数据,形成知识库,将所述知识库定期输入到实施评估系统; 实施评估系统根据所述即时信息数据、评估模型,知识库,输出故障预警信息。2.如权利要求1所述的方法,其特征在于,所述获得集群和节点的即时信息数据,包括: 在网络节点部署网络探针,采集即时的网络相关数据;在各个节点系统上部署系统探针,采集系统信息数据;在各业务节点上部署业务探针,通过业务层软件接口采集业务数据。3.如权利要求1所述的方法,其特征在于,所述系统信息数据包括以下中的一种或者一种以上的组合:cpu、内存、温度、磁盘数据。4.如权利要求1所述的方法,其特征在于,所述方法还包括: 将所述故障预警信息反馈到系统数据库,补充为故障样本数据。
【专利摘要】本发明提供了一种分布式集群设备故障预警方法,包括:获得集群和节点的即时信息数据,将所述即时信息数据存储到系统数据库,补充为历史数据;根据评估模型的需要,到系统数据库中获得需要的数据,形成知识库,将所述知识库定期输入到实施评估系统;实施评估系统根据所述即时信息数据、评估模型,知识库,输出故障预警信息。本发明通过集群和节点的即时信息,结合历史数据、运维结论等多维度数据,进行现网故障预警,为设备的运行维护提供依据,从而可以查找出需要重点维护的设备,防止设备出现故障。
【IPC分类】H04L12/24, H04L29/08
【公开号】CN104954181
【申请号】CN201510307233
【发明人】葛祺, 于勇新
【申请人】北京集奥聚合网络技术有限公司
【公开日】2015年9月30日
【申请日】2015年6月8日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1