一种储存监控系统的故障定位方法及系统与流程

文档序号:18822342发布日期:2019-10-09 00:59阅读:184来源:国知局
一种储存监控系统的故障定位方法及系统与流程

本发明涉及监控领域,更具体地,涉及一种储存监控系统的故障定位方法及系统。



背景技术:

伴随着高性能计算业务的不断拓展以及新型的hpc、bd和ai融合技术的出现,无论是数据中心还是超算中心,都对数据存储基础设施的数据存储的可靠性、容量规模以及存储性能方面提出了更高的要求。众所周知,存储规模扩大的同时,软硬件出现故障的概率也会提升,而如何在提升存储规模和性能的同时保障数据存储的可靠性变得至关重要。因此,运维人员需要对存储软硬件进行实时监控,及时发现存储集群中存在的问题并及时处理。

在现有的数据中心和超算中心,对存储系统的运维监控主要是软硬件分开单独监控。硬件方面,随着存储系统规模的扩大,存储设备无法避免地涉及不同厂商、不同品牌以及不同架构,而这些不同厂商、不同品牌和不同架构的设备都可能有一套各自的监控管理系统,运维人员需要去学习使用这些管理系统,也会加重运维人员的日常工作量;软件方面,针对业务的不同,数据中心和超算中心会使用适合业务运营的存储软件,而在hpc集群系统,主要使用lustre文件系统作为存储系统上层的数据管理软件。现有的开源监控软件很多,但是为了提高通用性,各监控项指标比较分散,当整个存储系统出现故障时,现场的故障可能和问题发生的根源不一致,运维人员无法直观快速地定位故障的根源所在。



技术实现要素:

为了解决现有技术中运维监控系统的监控项指标比较分散,运维人员无法直观快速的定位故障的根源所在的不足,本发明提供了一种储存监控系统的故障定位方法。

一种储存监控系统的故障定位方法,包括以下步骤:

步骤s1:在存储监控网络的底层设备模块中的各个存储阵列和存储服务器部署底层设备数据采集模块;

步骤s2:底层设备数据采集模块采集各个存储阵列和存储服务器中采集到的存储阵列日志信息和存储服务器日志信息,并将采集到的存储阵列日志信息和存储服务器日志信息传输到数据过滤模块中;

步骤s3:所述的数据过滤模块对采集到的存储阵列日志信息和存储服务器日志信息通过logstash过滤器进行过滤,logstash过滤器统一将底层设备数据采集模块采集过来的数据进行过滤处理,logstash过滤器将原始数据过滤并重新编排成通用的格式,剔除具有噪音的存储阵列日志信息和存储服务器日志信息,并将过滤后的存储阵列日志信息和存储服务器日志信息传输到底层设备数据收集模块中;

步骤s4:底层设备数据收集模块将过滤后的存储阵列日志信息和存储服务器日志信息存放至数据库中进行持久化保存;

步骤s5:数据处理模块采集底层设备数据收集模块所存放的存储阵列日志信息和存储服务器日志信息,并对存储阵列日志信息和存储服务器日志信息进行处理,根据logstash编排过的数据格式,一一找出和底层设备模块对应的数据标签,将这些数据标签转换为属性名称,依据属性名称查找出故障点,定位发生故障的底层设备模块,并将处理后的数据以及故障信息发送到数据可视化模块以及数据通信模块中;

步骤s6:所述的数据可视化模块将处理后的数据以及故障信息进行显示,数据通信模块将处理后的数据以及故障信息发送到移动终端中。

优选的,所述的步骤s5中数据处理模块对存储阵列日志信息和存储服务器日志信息进行处理的过程采用定时器函数,定时器函数周期性地连接底层设备数据收集模块,并对底层设备数据收集模块中的存储阵列日志信息和存储服务器日志信息进行处理,从采集到的存储阵列日志信息和存储服务器日志信息中筛选出故障信息,由定时器函数将处理后的数据以及故障信息发送到数据通信模块中。

优选的,所述的步骤s5中数据处理模块对存储阵列日志信息和存储服务器日志信息采用restfulapi函数将处理后的数据以及故障信息json化供数据可视化模块调用。

本发明还提供了一种储存监控系统的故障定位系统,所述系统基于上述的方法,系统包括底层设备数据采集模块、数据过滤模块、底层设备数据收集模块、数据处理模块、数据可视化模块以及数据通信模块;

所述的底层设备数据采集模块用于采集各个存储阵列和存储服务器的存储阵列日志信息和存储服务器日志信息;

所述的数据过滤模块用于对底层设备数据采集模块采集到的存储阵列日志信息和存储服务器日志信息进行过滤,剔除具有噪音的存储阵列日志信息和存储服务器日志信息;

所述的底层设备数据收集模块用于存储底层设备数据采集模块所采集到的存储阵列日志信息和存储服务器日志信息;

所述的数据处理模块用于对采集到的存储阵列日志信息和存储服务器日志信息进行分析处理;

所述的数据可视化模块用于对数据处理模块处理后的存储阵列日志信息和存储服务器日志信息进行可视化展示;

所述的数据通信模块用于将数据处理模块处理后存储阵列日志信息和存储服务器日志信息传输到移动终端中。

系统工作时,底层设备数据采集模块开始采集各个存储阵列和存储服务器的存储阵列日志信息和存储服务器日志信息,并将采集到的存储阵列日志信息和存储服务器日志信息发送给数据过滤模块,数据过滤模块对存储阵列日志信息和存储服务器日志信息进行过滤,剔除具有噪音的存储阵列日志信息和存储服务器日志信息,并将过滤后的存储阵列日志信息和存储服务器日志信息发送至底层设备数据收集模块中存储,数据处理模块从底层设备数据收集模块中提取存储阵列日志信息和存储服务器日志信息,并对存储阵列日志信息和存储服务器日志信息进行分析处理;将处理后的数据分别发送到数据可视化模块以及数据通信模块中,数据可视化模块对数据处理模块处理后的数据进行可视化展示;数据通信模块用于将数据处理模块处理后存储阵列日志信息和存储服务器日志信息传输到移动终端中,便于工作人员查看。

优选的,所述的数据处理模块设置有多个,其中一个为主数据处理模块,其余为备用数据处理模块,当主数据处理模块出现故障时,备用数据处理模块启动进行工作直至主数据处理模块恢复正常状态。

优选的,所述的数据处理模块和数据可视化模块采用b/s模式。

与现有技术相比,本发明技术方案的有益效果是:

本发明解决了现有技术中运维监控系统的监控项指标比较分散,运维人员无法直观快速的定位的不足,本发明采用的底层设备数据采集模块部署简单、准确性、实时性高,各功能模块相互独立、耦合性低,便于系统功能扩展,本发明易于使用,简便高效,将故障数据在数据可视化模块中集中显示,易于工作人员对其进行观察,可快速实现对故障点的定位。

附图说明

图1为本发明的方法流程图。

图2为本系统框架图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;

对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示,一种储存监控系统的故障定位方法,包括以下步骤:

步骤s1:在存储监控网络的底层设备模块中的各个存储阵列和存储服务器部署底层设备数据采集模块;

步骤s2:底层设备数据采集模块采集各个存储阵列和存储服务器中采集到的存储阵列日志信息和存储服务器日志信息,并将采集到的存储阵列日志信息和存储服务器日志信息传输到数据过滤模块中;

步骤s3:所述的数据过滤模块对采集到的存储阵列日志信息和存储服务器日志信息通过logstash过滤器进行过滤,logstash过滤器统一将底层设备数据采集模块采集过来的数据进行过滤处理,logstash过滤器将原始数据过滤并重新编排成通用的格式,剔除具有噪音的存储阵列日志信息和存储服务器日志信息,并将过滤后的存储阵列日志信息和存储服务器日志信息传输到底层设备数据收集模块中;

步骤s4:底层设备数据收集模块将过滤后的存储阵列日志信息和存储服务器日志信息存放至数据库中进行持久化保存;

步骤s5:数据处理模块采集底层设备数据收集模块所存放的存储阵列日志信息和存储服务器日志信息,并对存储阵列日志信息和存储服务器日志信息进行处理,根据logstash编排过的数据格式,一一找出和底层设备模块对应的数据标签,将这些数据标签转换为属性名称,依据属性名称查找出故障点,定位发生故障的底层设备模块,并将处理后的数据以及故障信息发送到数据可视化模块以及数据通信模块中;

步骤s6:所述的数据可视化模块将处理后的数据以及故障信息进行显示,数据通信模块将处理后的数据以及故障信息发送到移动终端中。

作为一个优选的实施例,所述的步骤s5中数据处理模块对存储阵列日志信息和存储服务器日志信息进行处理的过程采用定时器函数,定时器函数周期性地连接底层设备数据收集模块,并对底层设备数据收集模块中的存储阵列日志信息和存储服务器日志信息进行处理,从采集到的存储阵列日志信息和存储服务器日志信息中筛选出故障信息,由定时器函数将处理后的数据以及故障信息发送到数据通信模块中。

作为一个优选的实施例,所述的步骤s5中数据处理模块对存储阵列日志信息和存储服务器日志信息采用restfulapi函数将处理后的数据以及故障信息json化供数据可视化模块调用。

实施例2

如图2所示,本实施例提供了一种高性能集群存储监控网络的统一监控系统,所述系统基于上述的方法,包括底层设备数据采集模块、数据过滤模块、底层设备数据收集模块、数据处理模块、数据可视化模块以及数据通信模块;

所述的底层设备数据采集模块用于采集各个存储阵列和存储服务器的存储阵列日志信息和存储服务器日志信息;

所述的数据过滤模块用于对底层设备数据采集模块采集到的存储阵列日志信息和存储服务器日志信息进行过滤,剔除具有噪音的存储阵列日志信息和存储服务器日志信息;

所述的底层设备数据收集模块用于存储底层设备数据采集模块所采集到的数据;

所述的数据处理模块用于对采集到的数据进行分析处理;

所述的数据可视化模块用于对数据处理模块处理后的数据进行可视化展示;

所述的数据通信模块用于将数据处理模块处理后存储阵列日志信息和存储服务器日志信息传输到移动终端中。

系统工作时,底层设备数据采集模块开始采集各个存储阵列和存储服务器的存储阵列日志信息和存储服务器日志信息,并将采集到的存储阵列日志信息和存储服务器日志信息发送给数据过滤模块,数据过滤模块对存储阵列日志信息和存储服务器日志信息进行过滤,剔除具有噪音的存储阵列日志信息和存储服务器日志信息,并将过滤后的存储阵列日志信息和存储服务器日志信息发送至底层设备数据收集模块中存储,数据处理模块从底层设备数据收集模块中提取存储阵列日志信息和存储服务器日志信息,并对存储阵列日志信息和存储服务器日志信息进行分析处理;将处理后的数据分别发送到数据可视化模块以及数据通信模块中,数据可视化模块对数据处理模块处理后的数据进行可视化展示;

数据通信模块用于将数据处理模块处理后存储阵列日志信息和存储服务器日志信息传输到移动终端中,便于工作人员查看。

作为一个优选的实施例,所述的数据处理模块设置有两个,分别为主数据处理模块以及备用数据处理模块,当主数据处理模块出现故障时,备用数据处理模块启动进行工作直至主数据处理模块恢复正常状态。

作为一个优选的实施例,所述的数据处理模块和数据可视化模块采用b/s模式。

相同或相似的标号对应相同或相似的部件;

附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1