一种大规模硬盘故障预测领域中的数据预处理算法的制作方法

文档序号:24160727发布日期:2021-03-05 16:26阅读:75来源:国知局
一种大规模硬盘故障预测领域中的数据预处理算法的制作方法

[0001]
本发明涉及计算机技术领域,具体为一种大规模硬盘故障预测领域中的数据预处理算法。


背景技术:

[0002]
随着数据中心数据规模的扩大,硬盘在计算机中的应用越来越广泛。然而,硬盘故障在实际情况下经常发生。随着使用时间的增加,硬盘的稳定性和准确性不断下降,对整个基础设施的负面影响是巨大的。基于smart属性的磁盘故障预测方法主要分为统计方法和机器学习方法,统计方法主要包括秩和检验以及贝叶斯方法。
[0003]
但是在这三种方法中,使用所有25个属性的支持向量机取得了最佳的预测性能,其fdr为50.6%,然而对于小部分smart属性,秩和检验优于svm,在现实生活中,由于系统故障或磁盘老化等原因,它往往不能令人满意,数据集中有许多缺失的值,这对我们的模型和特性有严重的影响,磁盘虽然不会立即失效,但是随着长时间的小错误累积,磁盘会出现故障,然而,当我们使用二元分类法时,不可避免地会发生突变,如果直接使用发生故障的磁盘的历史数据,而忽略两个连续时间点之间的突变,则模型会与正数据和负数据混淆,将少数样本进行gan的data augmentation操作,并且由于磁盘故障预测再另一方面同样是一个样本极其不均衡数据,少的样本在整体样本中所占的比例相当之小。


技术实现要素:

[0004]
针对现有技术的不足,本发明提供了一种大规模硬盘故障预测领域中的数据预处理算法,解决了由于系统故障或磁盘老化等原因,它往往不能令人满意,数据集中有许多缺失的值,磁盘虽然不会立即失效,但是随着长时间的小错误累积,磁盘会出现故障,当使用二元分类法时,不可避免地会发生突变,如果直接使用发生故障的磁盘的历史数据,而忽略两个连续时间点之间的突变,则模型会与正数据和负数据混淆,将少数样本进行gan的data augmentation操作,并且由于磁盘故障预测再另一方面同样是一个样本极其不均衡数据,少的样本在整体样本中所占的比例相当之小的问题。
[0005]
为实现以上目的,本发明通过以下技术方案予以实现:一种大规模硬盘故障预测领域中的数据预处理算法,包括以下步骤:
[0006]
s1、时间序列维度缺失值填充:面对输入的缺失值占比非常庞大的硬盘故障数据,采用sdf算法对数据进行时间序列纬度上的缺失值填充,其数学形式是逐次以三次曲线的极小点逼近寻求函数f(t)的极小点,令t1<t2,在搜索区间[t1,t2]中以拟合f(t),使满足(i=1,2)(此式记为(1)式)对求导并令其等于零,求得在[t1,t2]中由a0,a1,a2和a3表示的极小点表达式,再由方程组(1)解得a0,a1,a2和a3;
[0007]
s2、数据打标建模:采用roz算法进行数据打标建模,其算法形式如下所示:
[0008]
输入:磁盘d的历史数据;
[0009]
输出:经过筛选的磁盘历史数据;
[0010]
1:只加载失败磁盘的最后一天数据dpositive;
[0011]
2:加载没有失败的磁盘的历史数据;
[0012]
3:连接两个数据dncaatite和dpositiue,训练一个模型模型goz;
[0013]
4:加载在最后一天dpositisc历史失败的磁盘的历史数据;
[0014]
5:sct有一个阈值;
[0015]
6:for i-0 to length(dpositie_history)do;
[0016]
7:pi=modelnoz(dpositinc历史);
[0017]
8:如果p>阈值,则labelpi;
[0018]
9:clscteailire_hiatory=1标签pitivs_hintory0;
[0019]
10:如果结束了;
[0020]
11:将标签1和dnceatine的dpositiue history连接为d;
[0021]
12:输出d;
[0022]
s3、数据增强:采用smart-gan模型对少样本进行数据增强操作,当学习给定数据集的分布时,生成性对抗网络显示出强大的通用性,gan的基本优化过程由两个相互作用的网络组成,第一种类型称为生成器,它使用随机向量作为输入,并生成尽可能接近实际数据集的样本分布,第二个称为鉴别器,试图将实际数据集与生成的样本区分开。
[0023]
优选的,所述步骤s1中,sdf是以三次样条函数为基础的,三次样条曲线是由三阶多项式通过一组m个控制点构成的样条曲线。
[0024]
优选的,所述步骤s1中,将方程组(1)解得a0,a1,a2和a3的数值代入表达式中,使得f(t)的近似极小点,然后逐次迭代。
[0025]
优选的,所述在近似极小点处的导数值的绝对值小于某给定误差时,迭代停止,即可到一个合理的缺失值填充后的数据集。
[0026]
优选的,所述步骤s2中,将故障日定义为正标签,其他没有故障的磁盘定义为负标签,训练一个模型来定义“失败”,并使用模型在故障发生的那一天给未标记的数据一个标签,这个标签包含正标签和负标签。
[0027]
优选的,所述正标签和负标签操作完成后,删除磁盘出现故障的所有负片部分,即可得到具有明显区分程度的正负样本。
[0028]
优选的,所述步骤s3的smart-gan模型中,gan模型通过生成器和判别器的不断迭代,互相博弈进化,使其趋于稳定,然后得到同假样本分布相近的大量假样本。
[0029]
优选的,所述步骤s3中,在收敛时,理想情况下,期望生成器生成与实际数据集分布相同的样本。
[0030]
有益效果
[0031]
本发明提供了一种大规模硬盘故障预测领域中的数据预处理算法,与现有技术相比具备以下有益效果:
[0032]
(1)、该大规模硬盘故障预测领域中的数据预处理算法,通过采用roz算法进行数据打标建模,将故障日定义为正标签,其他没有故障的磁盘定义为负标签,训练一个模型来
定义“失败”,并使用模型在故障发生的那一天给未标记的数据一个标签,这个标签包含正标签和负标签,正标签和负标签操作完成后,删除磁盘出现故障的所有负片部分,即可得到具有明显区分程度的正负样本,使得roz算法可以很好地处理两个连续时间点之间的突变情况,从而有效地增加了模型的区分能力。
[0033]
(2)、该大规模硬盘故障预测领域中的数据预处理算法,通过三次曲线φ(t)=a0+a1t+a2t2+a3t3的极小点逼近寻求函数f(t)的极小点,令t1<t2,在搜索区间[t1,t2]中以φ(t)拟合f(t),使满足φ(ti)=f(ti),φ'(ti)=f'(ti),(i=1,2)(此式记为(1)式)对φ(t)求导并令其等于零,求得φ(t)在[t1,t2]中由a0,a1,a2和a3表示的极小点表达式,再由方程组(1)解得a0,a1,a2和a3,sdf算法作为一种三次样条插值的填充方法,具有扎实的数学理论证明,同时,从效果来说,sdf算法可以有效地处理带有时间序列属性的数据的异常值所带来的数值急剧变化,以及大面积缺失的情况,从而使得原始数据的质量变得更高。
[0034]
(3)、该大规模硬盘故障预测领域中的数据预处理算法,通过采用smart-gan模型对少样本进行数据增强操作,当学习给定数据集的分布时,生成性对抗网络显示出强大的通用性,gan的基本优化过程由两个相互作用的网络组成,第一种类型称为生成器,它使用随机向量作为输入,并生成尽可能接近实际数据集的样本分布,第二个称为鉴别器,试图将实际数据集与生成的样本区分开,可以有效地对小样本数据集进行data augmentation操作,从而降低了模型学习不平衡样本时的bias。
[0035]
(4)、该大规模硬盘故障预测领域中的数据预处理算法,通过采用sdf算法和roz算法以及smart-gan模型,使得三种算法中,程序简单,便于人工进行操作,提高工作效率,且能够易于实现。
附图说明
[0036]
图1为本发明smart-gan结构的示意图;
[0037]
图2为本发明实验结果的示意图。
具体实施方式
[0038]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0039]
请参阅图1-2,本发明提供一种技术方案:一种大规模硬盘故障预测领域中的数据预处理算法,包括以下步骤:
[0040]
s1、时间序列维度缺失值填充:面对输入的缺失值占比非常庞大的硬盘故障数据,采用sdf算法对数据进行时间序列纬度上的缺失值填充,其数学形式是逐次以三次曲线的极小点逼近寻求函数f(t)的极小点,令t1<t2,在搜索区间[t1,t2]中以拟合f(t),使满足(i=1,2)(此式记为(1)式)对求导并令其等于零,求得在[t1,t2]中由a0,a1,a2和a3表示的极小点表达式,再由方程组(1)解得a0,a1,a2和a3;
[0041]
s2、数据打标建模:采用roz算法进行数据打标建模,其算法形式如下所示:
[0042]
输入:磁盘d的历史数据;
[0043]
输出:经过筛选的磁盘历史数据;
[0044]
1:只加载失败磁盘的最后一天数据dpositive;
[0045]
2:加载没有失败的磁盘的历史数据;
[0046]
3:连接两个数据dncaatite和dpositiue,训练一个模型模型goz;
[0047]
4:加载在最后一天dpositisc历史失败的磁盘的历史数据;
[0048]
5:sct有一个阈值;
[0049]
6:for i-0 to length(dpositie_history)do;
[0050]
7:pi=modelnoz(dpositinc历史);
[0051]
8:如果p>阈值,则labelpi;
[0052]
9:clscteailire_hiatory=1标签pitivs_hintory0;
[0053]
10:如果结束了;
[0054]
11:将标签1和dnceatine的dpositiue history连接为d;
[0055]
12:输出d;
[0056]
s3、数据增强:采用smart-gan模型对少样本进行数据增强操作,当学习给定数据集的分布时,生成性对抗网络显示出强大的通用性,gan的基本优化过程由两个相互作用的网络组成,第一种类型称为生成器,它使用随机向量作为输入,并生成尽可能接近实际数据集的样本分布,第二个称为鉴别器,试图将实际数据集与生成的样本区分开。
[0057]
进一步的,步骤s1中,sdf是以三次样条函数为基础的,三次样条曲线是由三阶多项式通过一组m个控制点构成的样条曲线。
[0058]
进一步的,步骤s1中,将方程组(1)解得a0,a1,a2和a3的数值代入表达式中,使得f(t)的近似极小点,然后逐次迭代。
[0059]
进一步的,在近似极小点处的导数值的绝对值小于某给定误差时,迭代停止,即可到一个合理的缺失值填充后的数据集。
[0060]
进一步的,步骤s2中,将故障日定义为正标签,其他没有故障的磁盘定义为负标签,训练一个模型来定义“失败”,并使用模型在故障发生的那一天给未标记的数据一个标签,这个标签包含正标签和负标签。
[0061]
进一步的,正标签和负标签操作完成后,删除磁盘出现故障的所有负片部分,即可得到具有明显区分程度的正负样本。
[0062]
进一步的,步骤s3的smart-gan模型中,gan模型通过生成器和判别器的不断迭代,互相博弈进化,使其趋于稳定,然后得到同假样本分布相近的大量假样本。
[0063]
进一步的,步骤s3中,在收敛时,理想情况下,期望生成器生成与实际数据集分布相同的样本。
[0064]
综上所述,采用本发明的三种算法与传统的算法相比,本发明中算法程序简单,便于人工进行操作,提高工作效率,且能够易于实现,smart-gan模型可以有效地对小样本数据集进行dataaugmentation操作,从而降低了模型学习不平衡样本时的bias,sdf算法作为一种三次样条插值的填充方法,具有扎实的数学理论证明,同时,从效果来说,sdf算法可以
有效地处理带有时间序列属性的数据的异常值所带来的数值急剧变化,以及大面积缺失的情况,从而使得原始数据的质量变得更高,roz算法可以很好地处理两个连续时间点之间的突变情况,从而有效地增加了模型的区分能力,本发明将磁盘故障预测问题转化为异常检测问题,同时采用roz、sdf和smart-gan对数据进行处理,使模型的鲁棒性和预测精度相较于未处理之前,有着明显的提升。
[0065]
同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。
[0066]
采用相同的base model(catboost),然后分别加以本发明的三种算法,通过实验对比,如图2所示,无论是分开使用还是同时采用roz、sdf和smart-gan的算法对数据进行处理,模型的鲁棒性和预测精度相较于未处理之前,都有着非常显著的提升。
[0067]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0068]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1