一种异构硬盘系统故障预警方法及装置与流程

文档序号:36825304发布日期:2024-01-26 16:36阅读:16来源:国知局
一种异构硬盘系统故障预警方法及装置与流程

本技术涉及智能检测,具体涉及一种异构硬盘系统故障预警方法及装置。另外,还涉及一种电子设备及处理器可读存储介质。


背景技术:

1、近年来,随着大数据、云计算等技术的快速发展,数据量呈现爆炸性增长。云服务厂商建立庞大的数据中心,为用户提供高品质的服务,而数据中心的稳定运行成为影响用户体验的关键。在数据中心中,硬盘故障最为常见,约占数据中心硬件故障的78%,其物理特性决定了使用时间越长故障的几率会增加。硬盘发生故障会发生不可预料的后果,一方面会造成在硬盘上运行的任务或系统崩溃,导致服务中断;另一方面可能会导致用户保存的大量数据丢失。为了提高数据中心的可靠性和安全性,一些容错机制被采用,常用的分为被动容错和主动容错。被动容错是在硬盘故障发生之后进行补救的措施,比如:冗余磁盘阵列(redundant arrays of inexpensive disks,raid)技术,该方法采用虚拟化存储技术将多个硬盘组合起来,成为一个或多个硬盘组,来实现数据冗余和性能提升;以及数据中心会采用多副本策略来提升存储系统的可靠性,以hdfs(hadoop distributed file system)为例,通过对数据进行多次备份来解决存储的容错问题。这些被动容错技术虽然能保证数据安全可靠,存在代价昂贵、存储空间利用率等问题。不同于被动容错机制,主动容错是一种能提前预测故障硬盘的机制,从而及时采取相应措施,降低运维成本,提升数据中心的可靠性和用户体验。因其优势显著,成为硬盘故障诊断的热点方向。

2、s.m.a.r.t (self-monitoring, analysis and report technology)是一种典型的主动容错技术,全称为自我监测、分析和报告技术,可检测并记录与驱动可靠性相关的属性。近年来,许多研究基于s.m.a.r.t信息构建机器学习和深度学习的硬盘故障预测模型,但是这些方法通常假设训练数据和测试数据来自同一分布。然而,在真实的数据中心,存储系统由数千甚至数百万个硬盘构成,这些硬盘通常来自不同的供应商或者来自同一个供应商的不同型号的硬盘,这些不同型号的硬盘,称之为异构硬盘系统。此外,异构硬盘系的硬盘数量会伴随硬盘故障的发生逐渐增多。异构硬盘之间通常具有不同的smart数据分布,采用单个型号硬盘数据训练的故障预测模型,不适用于其他型号的硬盘,现有技术中采用的迁移学习方法局限性较高,需要依赖异构硬盘种类数量,同时未考虑不同型号硬盘数量对模型参数的影响等,导致实际故障预警效率和精确度较差。因此,如何设计一种更为高效、易用的异构硬盘系统故障预警方案成为当前亟待解决的问题。


技术实现思路

1、为此,本技术提供一种异构硬盘系统故障预警方法及装置,以解决现有技术中存在的异构硬盘系统故障预警方案局限性较高,从而导致实际应用中的故障预警精确性和效率较差的缺陷。

2、第一方面,本技术提供一种异构硬盘系统故障预警方法,包括:

3、获得异构硬盘系统中不同型号硬盘的硬盘状态属性数据,并根据硬盘型号和所述硬盘状态属性数据的分布差异性,对所述硬盘状态属性数据进行聚类分组,确定所述硬盘状态属性数据所属的硬盘类簇;

4、将每个所述硬盘类簇对应的硬盘状态属性数据分别输入到预设的多塔结构的硬盘故障预测模型进行异常检测处理,获得所述多塔结构的硬盘故障预测模型输出的硬盘健康指标信息;其中,所述硬盘故障预测模型是基于样本硬盘状态属性数据以及所述样本硬盘状态属性数据对应的硬盘健康标签信息进行训练得到的;

5、基于所述硬盘健康指标信息对所述异构硬盘系统进行故障预警。

6、进一步的,所述将每个所述硬盘类簇对应的硬盘状态属性数据分别输入到预设的多塔结构的硬盘故障预测模型进行异常检测处理,获得所述多塔结构的硬盘故障预测模型输出的硬盘健康指标信息,具体包括:

7、根据当前所述硬盘状态属性数据所属的硬盘类簇,将所述硬盘状态属性数据选择输入至所述多塔结构的硬盘故障预测模型中对应的硬盘个性特征提取模块,获得每个硬盘类簇对应的个性特征参数;

8、将所述硬盘状态属性数据输入至所述多塔结构的硬盘故障预测模型中的硬盘共性特征提取模块,获得不同硬盘类簇的共性特征参数;

9、基于所述个性特征参数和所述共性特征参数,确定所述异构硬盘系统中不同型号硬盘对应的目标属性表征;

10、将所述目标属性表征输入至所述多塔结构的硬盘故障预测模型中的硬盘故障预警功能模块进行故障推理分析,获得所述硬盘故障预警功能模块输出的硬盘健康指标信息。

11、进一步的,所述根据硬盘型号和所述硬盘状态属性数据的分布差异性,对所述硬盘状态属性数据进行聚类分组,确定所述硬盘状态属性数据所属的硬盘类簇,具体包括:

12、根据所述异构硬盘系统中的硬盘型号,将属于同一硬盘型号的硬盘状态属性数据分配到同一硬盘类簇中;若存在一个或多个硬盘型号的硬盘状态属性数据的数据量大于或等于预设的数据量阈值,则将对应的一个或多个第一硬盘类簇分别拆分为多个第二硬盘类簇;其中,所述第一硬盘类簇的数据量大于所述第二硬盘类簇的数据量;或者,若存在一个或多个硬盘型号的硬盘状态属性数据的数据量小于所述数据量阈值,则将对应的一个或多个第三硬盘类簇合并为一个第四硬盘类簇;所述第四硬盘类簇的数据量大于所述第三硬盘类簇的数据量;

13、基于所述硬盘状态属性数据的分布差异性对所述硬盘状态属性数据进行聚类,以将所述硬盘状态属性数据分配到所述第二硬盘类簇或所述第四硬盘类簇,确定所述硬盘状态属性数据所属的硬盘类簇。

14、进一步的,所述硬盘健康指标信息为所述多塔结构的硬盘故障预测模型对所述硬盘状态属性数据进行异常检测处理得到的硬盘健康分数值;所述硬盘健康分数值与硬盘健康程度成正比关系;

15、所述基于所述硬盘健康指标信息对所述异构硬盘系统进行故障预警,具体包括:将所述硬盘健康分数值与当前选择的打分阈值进行比对分析,在所述硬盘健康分数值小于所述打分阈值的情况下,判定异构硬盘系统发生故障,并生成相应的故障预警提示信息。

16、进一步的,在将所述硬盘健康分数值与当前选择的打分阈值进行比对分析之后,还包括:在所述硬盘健康分数值大于或等于所述打分阈值的情况下,判定所述异构硬盘系统为健康状态。

17、进一步的,所述的异构硬盘系统故障预警方法,还包括:在所述异构硬盘系统为健康状态的情况下,将所述硬盘健康分数值大于或等于所述打分阈值的硬盘状态属性数据作为新的训练样本对所述多塔结构的硬盘故障预测模型进行自适应梯度训练,以实时更新所述多塔结构的硬盘故障预测模型中各个模块的参数,获得新的多塔结构的硬盘故障预测模型,以利用所述新的多塔结构的硬盘故障预测模型对后续输入的硬盘状态属性数据进行异常检测处理。

18、进一步的,在获得异构硬盘系统中不同型号硬盘的硬盘状态属性数据之前,还包括:在离线状态下进行模型训练,获得所述多塔结构的硬盘故障预测模型;

19、所述在离线状态下进行模型训练,获得所述多塔结构的硬盘故障预测模型,具体包括:

20、获取样本硬盘的样本硬盘状态属性数据;其中,所述样本硬盘状态属性数据包括健康硬盘对应的状态属性数据和异常硬盘对应的状态属性数据;

21、根据样本硬盘的硬盘型号和所述样本硬盘状态属性数据的分布差异性,对所述样本硬盘状态属性数据进行聚类分组,确定所述样本硬盘状态属性数据所属的样本硬盘类簇;

22、基于所述样本硬盘类簇对应的所述样本硬盘状态属性数据训练初始的多塔结构的硬盘故障预测模型,并通过比较多个硬盘异常检测阈值对最终异常检测结果的影响情况,对多个硬盘异常检测阈值进行筛选,确定满足预设的概率置信度条件的硬盘异常检测阈值,并基于所述满足预设的概率置信度条件的硬盘异常检测阈值更新模型参数的打分阈值,获得最终训练完成的所述多塔结构的硬盘故障预测模型;其中,所述打分阈值为概率置信度大于或等于预设的概率置信度的硬盘异常检测阈值。

23、进一步的,所述获得异构硬盘系统中不同型号硬盘的硬盘状态属性数据,具体包括:获取异构硬盘系统中不同型号硬盘的原始硬盘状态属性数据,对所述原始硬盘状态属性数据进行缺失值填充,获得第一硬盘状态属性数据;对所述第一硬盘状态属性数据进行特征筛选,获得第二硬盘状态属性数据;对所述第二硬盘状态属性数据进行归一化处理,获得所述硬盘状态属性数据。

24、进一步的,所述基于所述个性特征参数和所述共性特征参数,确定所述异构硬盘系统中不同型号硬盘对应的目标属性表征,具体包括:

25、将所述个性特征参数和所述共性特征参数进行相乘,获得所述异构硬盘系统中不同型号硬盘对应的目标属性表征。

26、进一步的,所述基于所述硬盘状态属性数据的分布差异性对所述硬盘状态属性数据进行聚类,以将所述硬盘状态属性数据分配到所述第二硬盘类簇或所述第四硬盘类簇,确定所述硬盘状态属性数据所属的硬盘类簇,具体包括:

27、确定用于聚类的度量准则;

28、基于所述硬盘状态属性数据的分布差异性以及所述度量准则对所述硬盘状态属性数据进行聚类处理,以将所述硬盘状态属性数据分配到所述第二硬盘类簇或所述第四硬盘类簇,获得所述硬盘状态属性数据所属的硬盘类簇。

29、进一步的,所述根据当前所述硬盘状态属性数据所属的硬盘类簇,将所述硬盘状态属性数据选择输入至所述多塔结构的硬盘故障预测模型中对应的硬盘个性特征提取模块,获得每个硬盘类簇对应的个性特征参数,具体包括:

30、根据当前所述硬盘状态属性数据所属的硬盘类簇,确定对应的硬盘个性特征提取模块的标识信息;

31、基于所述标识信息,将所述硬盘状态属性数据选择输入至所述多塔结构的硬盘故障预测模型中对应的硬盘个性特征提取模块,获得每个硬盘类簇对应的个性特征参数。

32、进一步的,所述多塔结构的硬盘故障预测模型中包括多个硬盘个性特征提取模块,每个硬盘个性特征提取模块对应处理一个硬盘类簇的硬盘状态属性数据,且每个硬盘个性特征提取模块对应的一个目标权重参数。

33、第二方面,本技术还提供一种异构硬盘系统故障预警装置,包括:

34、聚类分组单元,用于获得异构硬盘系统中不同型号硬盘的硬盘状态属性数据,并根据硬盘型号和所述硬盘状态属性数据的分布差异性,对所述硬盘状态属性数据进行聚类分组,确定所述硬盘状态属性数据所属的硬盘类簇;

35、故障分析单元,用于将每个所述硬盘类簇对应的硬盘状态属性数据分别输入到预设的多塔结构的硬盘故障预测模型进行异常检测处理,获得所述多塔结构的硬盘故障预测模型输出的硬盘健康指标信息;其中,所述硬盘故障预测模型是基于样本硬盘状态属性数据以及所述样本硬盘状态属性数据对应的硬盘健康标签信息进行训练得到的;

36、故障预警单元,用于基于所述硬盘健康指标信息对所述异构硬盘系统进行故障预警。

37、进一步的,所述故障分析单元,具体用于:

38、根据当前所述硬盘状态属性数据所属的硬盘类簇,将所述硬盘状态属性数据选择输入至所述多塔结构的硬盘故障预测模型中对应的硬盘个性特征提取模块,获得每个硬盘类簇对应的个性特征参数;

39、将所述硬盘状态属性数据输入至所述多塔结构的硬盘故障预测模型中的硬盘共性特征提取模块,获得不同硬盘类簇的共性特征参数;

40、基于所述个性特征参数和所述共性特征参数,确定所述异构硬盘系统中不同型号硬盘对应的目标属性表征;

41、将所述目标属性表征输入至所述多塔结构的硬盘故障预测模型中的硬盘故障预警功能模块进行故障推理分析,获得所述硬盘故障预警功能模块输出的硬盘健康指标信息。

42、进一步的,所述根据硬盘型号和所述硬盘状态属性数据的分布差异性,对所述硬盘状态属性数据进行聚类分组,确定所述硬盘状态属性数据所属的硬盘类簇,具体包括:

43、根据所述异构硬盘系统中的硬盘型号,将属于同一硬盘型号的硬盘状态属性数据分配到同一硬盘类簇中;若存在一个或多个硬盘型号的硬盘状态属性数据的数据量大于或等于预设的数据量阈值,则将对应的一个或多个第一硬盘类簇分别拆分为多个第二硬盘类簇;其中,所述第一硬盘类簇的数据量大于所述第二硬盘类簇的数据量;或者,若存在一个或多个硬盘型号的硬盘状态属性数据的数据量小于所述数据量阈值,则将对应的一个或多个第三硬盘类簇合并为一个第四硬盘类簇;所述第四硬盘类簇的数据量大于所述第三硬盘类簇的数据量;

44、基于所述硬盘状态属性数据的分布差异性对所述硬盘状态属性数据进行聚类,以将所述硬盘状态属性数据分配到所述第二硬盘类簇或所述第四硬盘类簇,确定所述硬盘状态属性数据所属的硬盘类簇。

45、进一步的,所述硬盘健康指标信息为所述多塔结构的硬盘故障预测模型对所述硬盘状态属性数据进行异常检测处理得到的硬盘健康分数值;所述硬盘健康分数值与硬盘健康程度成正比关系;

46、所述故障预警单元,具体用于:将所述硬盘健康分数值与当前选择的打分阈值进行比对分析,在所述硬盘健康分数值小于所述打分阈值的情况下,判定异构硬盘系统发生故障,并生成相应的故障预警提示信息。

47、进一步的,在将所述硬盘健康分数值与当前选择的打分阈值进行比对分析之后,所述故障预警单元还用于:在所述硬盘健康分数值大于或等于所述打分阈值的情况下,判定所述异构硬盘系统为健康状态。

48、进一步的,所述的异构硬盘系统故障预警装置,还包括:模型参数更新单元,用于在所述异构硬盘系统为健康状态的情况下,将所述硬盘健康分数值大于或等于所述打分阈值的硬盘状态属性数据作为新的训练样本对所述多塔结构的硬盘故障预测模型进行自适应梯度训练,以实时更新所述多塔结构的硬盘故障预测模型中各个模块的参数,获得新的多塔结构的硬盘故障预测模型,以利用所述新的多塔结构的硬盘故障预测模型对后续输入的硬盘状态属性数据进行异常检测处理。

49、进一步的,在获得异构硬盘系统中不同型号硬盘的硬盘状态属性数据之前,还包括:模型离线训练单元,用于在离线状态下进行模型训练,获得所述多塔结构的硬盘故障预测模型;

50、所述模型离线训练单元,具体用于:

51、获取样本硬盘的样本硬盘状态属性数据;其中,所述样本硬盘状态属性数据包括健康硬盘对应的状态属性数据和异常硬盘对应的状态属性数据;

52、根据样本硬盘的硬盘型号和所述样本硬盘状态属性数据的分布差异性,对所述样本硬盘状态属性数据进行聚类分组,确定所述样本硬盘状态属性数据所属的样本硬盘类簇;

53、基于所述样本硬盘类簇对应的所述样本硬盘状态属性数据训练初始的多塔结构的硬盘故障预测模型,并通过比较多个硬盘异常检测阈值对最终异常检测结果的影响情况,对多个硬盘异常检测阈值进行筛选,确定满足预设的概率置信度条件的硬盘异常检测阈值,并基于所述满足预设的概率置信度条件的硬盘异常检测阈值更新模型参数的打分阈值,获得最终训练完成的所述多塔结构的硬盘故障预测模型;其中,所述打分阈值为概率置信度大于或等于预设的概率置信度的硬盘异常检测阈值。

54、进一步的,所述聚类分组单元,具体用于:获取异构硬盘系统中不同型号硬盘的原始硬盘状态属性数据,对所述原始硬盘状态属性数据进行缺失值填充,获得第一硬盘状态属性数据;对所述第一硬盘状态属性数据进行特征筛选,获得第二硬盘状态属性数据;对所述第二硬盘状态属性数据进行归一化处理,获得所述硬盘状态属性数据。

55、进一步的,所述基于所述个性特征参数和所述共性特征参数,确定所述异构硬盘系统中不同型号硬盘对应的目标属性表征,具体包括:

56、将所述个性特征参数和所述共性特征参数进行相乘,获得所述异构硬盘系统中不同型号硬盘对应的目标属性表征。

57、进一步的,所述基于所述硬盘状态属性数据的分布差异性对所述硬盘状态属性数据进行聚类,以将所述硬盘状态属性数据分配到所述第二硬盘类簇或所述第四硬盘类簇,确定所述硬盘状态属性数据所属的硬盘类簇,具体包括:

58、确定用于聚类的度量准则;

59、基于所述硬盘状态属性数据的分布差异性以及所述度量准则对所述硬盘状态属性数据进行聚类处理,以将所述硬盘状态属性数据分配到所述第二硬盘类簇或所述第四硬盘类簇,获得所述硬盘状态属性数据所属的硬盘类簇。

60、进一步的,所述根据当前所述硬盘状态属性数据所属的硬盘类簇,将所述硬盘状态属性数据选择输入至所述多塔结构的硬盘故障预测模型中对应的硬盘个性特征提取模块,获得每个硬盘类簇对应的个性特征参数,具体包括:

61、根据当前所述硬盘状态属性数据所属的硬盘类簇,确定对应的硬盘个性特征提取模块的标识信息;

62、基于所述标识信息,将所述硬盘状态属性数据选择输入至所述多塔结构的硬盘故障预测模型中对应的硬盘个性特征提取模块,获得每个硬盘类簇对应的个性特征参数。

63、进一步的,所述多塔结构的硬盘故障预测模型中包括多个硬盘个性特征提取模块,每个硬盘个性特征提取模块对应处理一个硬盘类簇的硬盘状态属性数据,且每个硬盘个性特征提取模块对应的一个目标权重参数。

64、第三方面,本技术还提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的异构硬盘系统故障预警方法的步骤。

65、第四方面,本技术还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任意一项所述的异构硬盘系统故障预警方法的步骤。

66、本技术提供的异构硬盘系统故障预警方法,通过获得异构硬盘系统中不同型号硬盘的硬盘状态属性数据,并根据硬盘型号和所述硬盘状态属性数据的分布差异性,对所述硬盘状态属性数据进行聚类分组,确定所述硬盘状态属性数据所属的硬盘类簇,将每个所述硬盘类簇对应的硬盘状态属性数据分别输入到预设的多塔结构的硬盘故障预测模型进行异常检测处理,获得所述多塔结构的硬盘故障预测模型输出的硬盘健康指标信息,并基于所述硬盘健康指标信息对所述异构硬盘系统进行故障预警,能够有效提高了异构硬盘系统故障预警的精确度和效率,从而提升了异构硬盘系统运行的稳定性和安全性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1