一种磁盘故障告警方法、装置、设备及可读存储介质与流程

文档序号:24872625发布日期:2021-04-30 12:45阅读:118来源:国知局
一种磁盘故障告警方法、装置、设备及可读存储介质与流程

本发明涉及计算机应用技术领域,特别是涉及一种磁盘故障告警方法、装置、设备及可读存储介质。



背景技术:

随着信息化持续深入,数据存储的需求日益增长,分布式存储系统规模也持续扩大。相应的,磁盘读写频率、读写次数越来越高,在磁盘的使用过程中不可避免会发生磁盘故障,磁盘故障后为了提示技术人员及时修复,磁盘故障告警就显得尤为重要。

目前的磁盘故障告警方案中滞后较高,故障一般具有突发性,这种突发性故障的修复对于技术人员的要求较高;而且在磁盘故障后,故障磁盘已经不可避免的会对存储系统产生负面影响,影响存储系统的正常运行,对于系统的稳定运行产生影响。

综上所述,如何实现磁盘故障的快速处理,保障存储系统运行的稳定性,是目前本领域技术人员急需解决的技术问题。



技术实现要素:

本发明的目的是提供一种磁盘故障告警方法、装置、设备及可读存储介质,可以实现磁盘故障的快速处理,保障存储系统运行的稳定性。

为解决上述技术问题,本发明提供如下技术方案:

一种磁盘故障告警方法,包括:

收集集群内各节点的磁盘特征数据,得到特征库;

监测所述节点的磁盘健康状态;

若经过所述监测确定第一磁盘故障,从所述特征库中确定所述第一磁盘对应的特征数据,作为目标特征数据;

在所述特征库中根据所述目标特征数据进行特征匹配,得到特征匹配的磁盘,作为故障临界磁盘;

对所述第一磁盘进行故障报警,对所述故障临界磁盘进行故障预警。

可选地,所述收集集群内各节点的磁盘特征数据,得到特征库,包括:

定时采集集群内所有节点的磁盘特征数据;

根据所述磁盘特征数据统计各采集时间下各磁盘对应的特征数据,得到特征库。

可选地,所述定时采集集群内所有节点的磁盘特征数据,包括:

定时采集集群内所有节点的磁盘损坏状态数据,作为所述磁盘特征数据;其中,所述磁盘损坏状态数据包括损坏扇区数量。

可选地,若经过所述监测确定第一磁盘故障,从所述特征库中确定所述第一磁盘对应的特征数据,作为目标特征数据,包括:

若经过所述监测确定第一磁盘故障,从所述特征库中确定所述第一磁盘对应的损坏扇区数量,作为损坏扇区阈值;

根据预设排查范围以及所述损坏扇区阈值,确定临界故障的扇区损坏数量范围,作为所述目标特征数据;

则相应地,在所述特征库中根据所述目标特征数据进行特征匹配,得到特征匹配的磁盘,作为故障临界磁盘,包括:

在所述特征库中筛选出损坏扇区数量属于所述扇区损坏数量范围的磁盘,作为所述故障临界磁盘。

可选地,若经过所述监测确定第一磁盘故障,从所述特征库中确定所述第一磁盘对应的特征数据,作为目标特征数据,包括:

若经过所述监测确定第一磁盘故障,从所述特征库中获取预设时间范围内所述第一磁盘对应的损坏扇区数量;

根据所述损坏扇区数量,统计生成第一磁盘对应的扇区损坏数量增长情况,作为所述目标特征数据;

则相应地,在所述特征库中根据所述目标特征数据进行特征匹配,得到特征匹配的磁盘,作为故障临界磁盘,包括:

在所述特征库中分别统计各磁盘损坏扇区数量对应的数量增长情况;

根据所述各磁盘对应的数量增长情况与所述第一磁盘对应的扇区损坏数量增长情况进行增长变化规律匹配,得到增长规律匹配的磁盘;

将所述增长规律匹配的磁盘作为所述故障临界磁盘。

可选地,根据所述各磁盘对应的数量增长情况与所述第一磁盘对应的扇区损坏数量增长情况进行增长变化规律匹配,包括:

根据所述各磁盘对应的数量增长情况与所述第一磁盘对应的扇区损坏数量增长情况进行增长率匹配。

可选地,在所述特征库中根据所述目标特征数据进行特征匹配,得到特征匹配的磁盘,作为故障临界磁盘,包括:

获取所述特征库中与所述第磁盘的磁盘型号相同的磁盘,作为待选磁盘;

在所述特征库中根据所述目标特征数据对所述待选磁盘对应的特征数据进行特征匹配,得到特征匹配的磁盘,作为故障临界磁盘。

一种磁盘故障告警装置,包括:

数据收集单元,用于收集集群内各节点的磁盘特征数据,得到特征库;

状态监测单元,用于监测所述节点的磁盘健康状态;

数据提取单元,用于若经过所述监测确定第一磁盘故障,从所述特征库中确定所述第一磁盘对应的特征数据,作为目标特征数据;

特征匹配单元,用于在所述特征库中根据所述目标特征数据进行特征匹配,得到特征匹配的磁盘,作为故障临界磁盘;

故障告警单元,用于对所述第一磁盘进行故障报警,对所述故障临界磁盘进行故障预警。

一种磁盘故障告警设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现上述磁盘故障告警方法的步骤。

一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述磁盘故障告警方法的步骤。

本发明实施例所提供的方法,收集同属于一个存储系集群中的磁盘的特征数据以及健康状态,在一个存储系统内磁盘使用保持均衡状态,各磁盘间的运行环境相同,当存储系统内出现磁盘故障时,大概率存在其他磁盘处于故障临界点,由此基于已出现故障的磁盘对应的磁盘特征实现其他磁盘的故障预测,若目前正在运行的磁盘中存在符合该故障磁盘的磁盘特征的磁盘,则判定该磁盘具有较高的故障风险,从而实现磁盘故障的预测以及预警,以便于相关技术人员及时对故障临界磁盘进行故障排查以及磁盘运维,避免故障临界磁盘发生故障后对于系统运行稳定性带来的影响,同时也可以降低相关技术人员的磁盘运维压力。

相应地,本发明实施例还提供了与上述磁盘故障告警方法相对应的磁盘故障告警装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种磁盘故障告警方法的实施流程图;

图2为本发明实施例中一种特征采集及告警示意图;

图3为本发明实施例中一种磁盘故障告警装置的结构示意图;

图4为本发明实施例中一种磁盘故障告警设备的结构示意图。

具体实施方式

本发明的核心是提供一种磁盘故障告警方法,可以实现磁盘故障的快速处理,保障存储系统运行的稳定性。

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图1,图1为本发明实施例中一种磁盘故障告警方法的流程图,该方法包括以下步骤:

s101、收集集群内各节点的磁盘特征数据,得到特征库;

收集集群内各节点的磁盘特征数据,而一个节点中可能包括不止一个磁盘,则需要收集各节点下所有磁盘对应的磁盘特征数据。为保障数据收集的全面性,可以收集集群内所有节点中设置的所有磁盘的磁盘特征数据,也可以收集集群内指定的节点(或指定的磁盘)对应的磁盘特征数据,可以根据实际磁盘故障的监测对象进行收集磁盘特征数据的节点以及磁盘的设置。

其中,本实施例中对于具体采集的磁盘特征数据的数据类型不做限定,比如可以包括磁盘状态(比如扇区损坏情况、扇区数据读写速率等)、磁盘型号、磁盘占用大小等,可以根据磁盘故障预判的方式进行磁盘特征数据的配置,在此不再赘述。

收集集群内各节点的磁盘特征数据,可以根据节点进行磁盘特征数据的分类存储,也可以直接罗列各节点下各磁盘对应的特征数据等,本实施例中对于特征库中的信息统计方式不做限定,可以根据实际查看的需要进行相应设定。

另外,收集集群内各节点的磁盘特征数据可以定期收集,也可以仅收集一次,若磁盘特征数据变化较小,可以仅收集一次,而若磁盘特征数据变化明显,则可能需要定时或实时收集,以便于及时感知特征的变化,实现磁盘故障的有效评估。

s102、监测节点的磁盘健康状态;

监测节点的磁盘健康状态,以确定节点中磁盘的健康状态,比如节点1中磁盘1正常运行,磁盘2故障等,通过监测节点的磁盘健康状态可以实现磁盘故障的快速发现,有利于及时对于磁盘故障进行处理。

监测节点的磁盘健康状态可以为实时监测,也可以为定时检测,为保障磁盘故障的即使感知,磁盘健康状态的监测时间间隔不宜过长。

而监测节点的磁盘健康状态的具体实现步骤本实施例中不做限定,可以参照相关技术中的实现方式,在此不再赘述。

s103、若经过监测确定第一磁盘故障,从特征库中确定第一磁盘对应的特征数据,作为目标特征数据;

经过分析发现,存储系统内一般使用相同型号,相同批次的磁盘,且在分布式系统内,磁盘使用率保持均衡状态。当存储系统内出现磁盘故障时,大概率存在其他磁盘处于故障临界点。针对于此,本实施例中提出一种磁盘故障预测的方法,基于已出现故障的磁盘对应的磁盘特征实现其他磁盘的故障预测,若目前正在运行的磁盘中存在符合该故障磁盘的磁盘特征的磁盘,则判定该磁盘具有较高的故障风险,从而实现磁盘故障的预测。

而为了实现方式目的,首先,需要从已经收集的具有集群内所有节点的磁盘特征数据的特征库中查找当前已出现故障的第一磁盘的特征数据,作为目标特征数据,从而基于该目标特征数据进行其他磁盘的特征数据的匹配。

s104、在特征库中根据目标特征数据进行特征匹配,得到特征匹配的磁盘,作为故障临界磁盘;

特征库中存储有个节点对应的各磁盘的磁盘特征数据,将其分别与该目标特征数据进行特征匹配,而其中,可以将特征库中所有磁盘进行特征比对,也可以选取其中指定的磁盘进行特征比对。其中,为了提升故障预测的精准度,同时减少特征匹配的工作量,可以仅获取特征库中与第磁盘的磁盘型号相同的磁盘,作为待选磁盘;在特征库中根据目标特征数据对待选磁盘对应的特征数据进行特征匹配。

另外,本实施例中对于特征匹配中具体采用的比对方式以及评估量不做限定,比如可以将扇区损坏数量作为评估量,若扇区损坏数量与第一磁盘相同时,判定特征匹配。本实施例中仅以上述情况为例进行介绍,其他的基于本实施例的特征比对实现方式均可参照本实施例的介绍,在此不再赘述。

若在在特征库中根据目标特征数据进行特征匹配,得到特征匹配的磁盘,则说明该磁盘与故障磁盘具有相同的磁盘特征,则该磁盘的故障风险较大,本实施例中将特征匹配的磁盘作为故障预测的结果,即作为故障临界磁盘。

需要说明的是,本实施例中对于在特征库中根据目标特征数据进行特征匹配没有得到特征匹配的磁盘的处理方式不做限定,可以仅对第一磁盘进行故障报警,也可以重新进行特征匹配,可以根据实际故障预测的需要进行相应设定,在此不再赘述。

s105、对第一磁盘进行故障报警,对故障临界磁盘进行故障预警。

第一磁盘由于已判定出现故障,因此对第一磁盘进行实际故障报警,以指示第一磁盘出现故障;故障临界磁盘为经过本实施例预判得到的可能会发生故障的磁盘,对于故障临界磁盘可以进行故障预测告警如图2所示,以指示故障临界磁盘运行状态较差,可能处于故障的临界点,属于易发生故障的磁盘,以便于相关技术人员及时对故障临界磁盘进行故障排查以及磁盘运维,避免故障临界磁盘发生故障后对于系统运行稳定性带来的影响,同时也可以降低相关技术人员的磁盘运维压力。

需要说明的是,本实施例中对于对第一磁盘进行故障报警,以及对故障临界磁盘进行故障预警的执行时间节点,即触发方式不做限定,可以在确定故障临界磁盘之后,同时对于第一磁盘的以及故障临界磁盘进行告警,也可以在监测确定第一磁盘故障后,立即触发故障报警,在判定存在故障临界磁盘,且确定故障临界磁盘是哪个磁盘后,再对故障临界磁盘进行故障预警。以上为两种告警实现方式,本实施例中仅以上述两种实现方式为例进行介绍,当然,也可以采取其他的触发方式,均可参照上述介绍,在此不再赘述。

基于上述介绍,本发明实施例所提供的技术方案,收集同属于一个存储系集群中的磁盘的特征数据以及健康状态,在一个存储系统内磁盘使用保持均衡状态,各磁盘间的运行环境相同,当存储系统内出现磁盘故障时,大概率存在其他磁盘处于故障临界点,由此基于已出现故障的磁盘对应的磁盘特征实现其他磁盘的故障预测,若目前正在运行的磁盘中存在符合该故障磁盘的磁盘特征的磁盘,则判定该磁盘具有较高的故障风险,从而实现磁盘故障的预测以及预警,以便于相关技术人员及时对故障临界磁盘进行故障排查以及磁盘运维,避免故障临界磁盘发生故障后对于系统运行稳定性带来的影响,同时也可以降低相关技术人员的磁盘运维压力。

需要说明的是,基于上述实施例,本发明实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在本文的优选/改进实施例中不再一一赘述。

上述实施例中对于收集集群内各节点的磁盘特征数据,得到特征库的实现方式不做限定,本实施例中介绍一种数据收集方式以及一种特征库的特征匹配实现方式。

一种收集集群内各节点的磁盘特征数据,得到特征库的实现方式如下:

(1)定时采集集群内所有节点的磁盘特征数据;

(2)根据磁盘特征数据统计各采集时间下各磁盘对应的特征数据,得到特征库。

上述数据收集方式采用定时收集以及按时间统计的方式,定时收集可以保障磁盘特征数据的及时更新,提升故障预测精准度,按照采集时间进行特征数据的统计可以强化特征的时间变化规律,提升分析的精准度。

但是上述数据收集方式中对于具体收集的磁盘特征数据的数据种类不做限定,由于目前磁盘的故障与损坏状态息息相关,损坏越严重,磁盘故障可能性越高,因此可以针对磁盘损坏状态数据进行故障的评估预测。进一步地,在磁盘损坏状态中,损坏扇区数量为其中较为重要的评估量,损坏扇区数量越多,磁盘故障的概率越大,因此可以定时采集集群内所有节点的磁盘损坏状态数据(包括损坏扇区数量),作为磁盘特征数据,以提升故障预测精准度的同时降低数据分析的难度。

而基于损坏扇区数量统计的特征库,一种目标特征数据的筛选的实现方式如下:

(1)若经过监测确定第一磁盘故障,从特征库中确定第一磁盘对应的损坏扇区数量,作为损坏扇区阈值;

比如第一磁盘在故障时的损坏扇区数量为6,则可以将6作为损坏扇区阈值,推断相似运行环境下,损坏扇区数量为6的磁盘损坏概率较高。

(2)根据预设排查范围以及损坏扇区阈值,确定临界故障的扇区损坏数量范围,作为目标特征数据;

比如预设排查范围为±1,则在损坏扇区阈值为6时,生成的临界故障的扇区损坏数量范围即为6±1,即[5,7],将[5,7]作为目标特征数据。

则相应地,基于上述目标特征数据的筛选,在特征库中根据目标特征数据进行特征匹配,得到特征匹配的磁盘,作为故障临界磁盘,的一种实现方式如下:

(3)在特征库中筛选出损坏扇区数量属于扇区损坏数量范围的磁盘,作为故障临界磁盘。

比如特征库中目前正在运行的磁盘1的损坏扇区数量为5,5∈[5,7],则判定磁盘1的损坏扇区数量属于扇区损坏数量范围,则可以将磁盘1作为判定得到的故障临界磁盘;另外,目前正在运行的磁盘2的损坏扇区数量为4,则判定磁盘2的损坏扇区数量不属于扇区损坏数量范围,则磁盘2不作为故障临界磁盘。

以上筛选以及特征匹配实现方式中评估量易获取,且特征匹配实现方式简单,评估精准度较高,可以实现精准的磁盘故障预测。

基于损坏扇区数量统计的特征库,另一种目标特征数据的筛选的实现方式如下:

(1)若经过监测确定第一磁盘故障,从特征库中获取预设时间范围内第一磁盘对应的损坏扇区数量;

预设时间范围为对第一磁盘进行数据统计的时间范围,可以为设定的时间段,比如发生故障前的某一段时间;也可以为特征库中统计得到的所有时间节点,可以根据实际特征匹配的精度进行相应的时间范围的设置,在此不再赘述。

(2)根据损坏扇区数量,统计生成第一磁盘对应的扇区损坏数量增长情况,作为目标特征数据;

比如第一磁盘在第一时间下损坏扇区数量为1,在第一时间下损坏扇区数量为1,在第二时间下损坏扇区数量为1,在第三时间下损坏扇区数量为1,在第四时间下损坏扇区数量为5,在第五时间下损坏扇区数量为6,同时在第五时间下判定磁盘故障,以上数据可以作为一种目标特征数据。

则相应地,基于上述目标特征数据的筛选,在特征库中根据目标特征数据进行特征匹配,得到特征匹配的磁盘,作为故障临界磁盘,的一种实现方式如下:

(3)在特征库中分别统计各磁盘损坏扇区数量对应的数量增长情况;

分别按照故障的第一磁盘的扇区损坏数量增长情况统计方式统计特征库中其他磁盘的扇区损坏数量增长情况,其中两者统计的时间范围可以不同。

(4)根据各磁盘对应的数量增长情况与第一磁盘对应的扇区损坏数量增长情况进行增长变化规律匹配,得到增长规律匹配的磁盘;

一种增长变化规律比如在某一时间节点下扇区损坏数量猛增超过200%,又比如每隔固定时间间隔扇区损坏数量增加10%,具体的变化规律根据数据相适应生成,以上仅为两种示例。

(5)将增长规律匹配的磁盘作为故障临界磁盘。

若特征库中存在于第一磁盘增长规律匹配的磁盘,则证明该磁盘的运行发展轨迹与故障的第一底盘相似度较高,可能会与第一磁盘具有相同的运行结果(即故障),因此,可以将具有匹配的增长规律的磁盘作为故障临界磁盘。

而其中,增长规律中可以评估的指标项较多,比如可以为增长平均值,最大值等,可以根据实际比对的需要进行相应设定,可以根据各磁盘对应的数量增长情况与第一磁盘对应的扇区损坏数量增长情况进行增长率匹配,增长率可以表现较长时间范围下的整体变化情况,可以排除不同的运行节点的干扰,实现高精准分析。

上述实现方式通过扇区损坏增长规律来实现深层次的运行发展轨迹的分析,可以实现更为精准的特征匹配,但是数据分析过程较上个实现方式更难一些。

需要说明的是,本实施例中仅以上述实现方式为例对特征库的生成以及匹配过程为例进行介绍,其他基于本申请的实现方式均可参照本实施例的介绍,在此不再赘述。

相应于上面的方法实施例,本发明实施例还提供了一种磁盘故障告警装置,下文描述的磁盘故障告警装置与上文描述的磁盘故障告警方法可相互对应参照。

参见图3所示,该装置包括以下单元:

数据收集单元110主要用于收集集群内各节点的磁盘特征数据,得到特征库;

状态监测单元120主要用于监测节点的磁盘健康状态;

数据提取单元130主要用于若经过监测确定第一磁盘故障,从特征库中确定第一磁盘对应的特征数据,作为目标特征数据;

特征匹配单元140主要用于在特征库中根据目标特征数据进行特征匹配,得到特征匹配的磁盘,作为故障临界磁盘;

故障告警单元150主要用于对第一磁盘进行故障报警,对故障临界磁盘进行故障预警。

需要说明的是,本实施例中对于单元的功能划分以及功能的限定不做限定,为加深理解,在此介绍另一种装置的单元设置方式,如下所示,主要包括三个单元:磁盘特征采集单元、故障检测单元以及特征匹配单元。

磁盘特征采集单元以守护进程的方式运行在集群内所有节点上,使用定时采集的方式收集所有节点上的磁盘特征(比如损坏扇区数量),并将磁盘编号、时间、特征数据记录生成特征库;

故障检测单元以守护进程的方式运行在集群内所有节点上,使用定时检测的方式,检查所有节点上的磁盘健康状态。当磁盘出现故障或者不可用时,触发磁盘故障告警;

特征匹配单元,用于当出现磁盘故障时,从磁盘特征库获取故障磁盘特征信息,并匹配特征库内所有数据,如果存在特征匹配,则认为该磁盘处于故障临界状态,同样触发磁盘故障告警。

则基于上述单元划分方式,装置一种协作方式如下:特征采集单元采集集群内所有磁盘信息,并生成特征数据库。故障检测单元检测出现磁盘故障时,触发特征匹配单元获取故障磁盘特征信息,匹配特征数据库历史记录。如果存在特征匹配数据,同样触发该磁盘预测故障告警。

本实施例中仅以上述两种装置的单元划分方式为例进行介绍,其他基于本实施例的单元划分方式均可参照上述介绍,在此不再赘述。

相应于上面的方法实施例,本发明实施例还提供了一种磁盘故障告警设备,下文描述的一种磁盘故障告警设备与上文描述的一种磁盘故障告警方法可相互对应参照。

该磁盘故障告警设备包括:

存储器,用于存储计算机程序;

处理器,用于执行计算机程序时实现上述方法实施例的磁盘故障告警方法的步骤。

具体的,请参考图4,为本实施例提供的一种磁盘故障告警设备的具体结构示意图,该磁盘故障告警设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储器332通信,在磁盘故障告警设备301上执行存储器332中的一系列指令操作。

磁盘故障告警设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。

上文所描述的磁盘故障告警方法中的步骤可以由磁盘故障告警设备的结构实现。

相应于上面的方法实施例,本发明实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种磁盘故障告警方法可相互对应参照。

一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的磁盘故障告警方法的步骤。

该可读存储介质具体可以为u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1