一种大规模硬盘故障预测领域中的数据预处理算法的制作方法

文档序号：24160727发布日期：2021-03-05 16:26阅读：来源：国知局

技术特征：
1.一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于，包括以下步骤：s1、时间序列维度缺失值填充：面对输入的缺失值占比非常庞大的硬盘故障数据，采用sdf算法对数据进行时间序列纬度上的缺失值填充，其数学形式是逐次以三次曲线的极小点逼近寻求函数f(t)的极小点，令t1<t2，在搜索区间[t1，t2]中以拟合f(t)，使满足(此式记为(1)式)对求导并令其等于零，求得在[t1，t2]中由a0，a1，a2和a3表示的极小点表达式，再由方程组(1)解得a0，a1，a2和a3；s2、数据打标建模：采用roz算法进行数据打标建模，其算法形式如下所示：输入：磁盘d的历史数据；输出：经过筛选的磁盘历史数据；1：只加载失败磁盘的最后一天数据dpositive；2：加载没有失败的磁盘的历史数据；3：连接两个数据dncaatite和dpositiue，训练一个模型模型goz；4：加载在最后一天dpositisc历史失败的磁盘的历史数据；5：sct有一个阈值；6：for i-0 to length(dpositie_history)do；7：pi＝modelnoz(dpositinc历史)；8：如果p>阈值，则labelpi；9：clscteailire_hiatory＝1标签pitivs_hintory0；10：如果结束了；11：将标签1和dnceatine的dpositiue history连接为d；12：输出d；s3、数据增强：采用smart-gan模型对少样本进行数据增强操作，当学习给定数据集的分布时，生成性对抗网络显示出强大的通用性，gan的基本优化过程由两个相互作用的网络组成，第一种类型称为生成器，它使用随机向量作为输入，并生成尽可能接近实际数据集的样本分布，第二个称为鉴别器，试图将实际数据集与生成的样本区分开。2.根据权利要求1所述的一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于：所述步骤s1中，sdf是以三次样条函数为基础的，三次样条曲线是由三阶多项式通过一组m个控制点构成的样条曲线。3.根据权利要求1所述的一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于：所述步骤s1中，将方程组(1)解得a0，a1，a2和a3的数值代入表达式中，使得f(t)的近似极小点，然后逐次迭代。4.根据权利要求3所述的一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于：所述在近似极小点处的导数值的绝对值小于某给定误差时，迭代停止，即可到一个合理的缺失值填充后的数据集。5.根据权利要求1所述的一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于：所述步骤s2中，将故障日定义为正标签，其他没有故障的磁盘定义为负标签，训练一
个模型来定义“失败”，并使用模型在故障发生的那一天给未标记的数据一个标签，这个标签包含正标签和负标签。6.根据权利要求5所述的一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于：所述正标签和负标签操作完成后，删除磁盘出现故障的所有负片部分，即可得到具有明显区分程度的正负样本。7.根据权利要求1所述的一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于：所述步骤s3的smart-gan模型中，gan模型通过生成器和判别器的不断迭代，互相博弈进化，使其趋于稳定，然后得到同假样本分布相近的大量假样本。8.根据权利要求1所述的一种大规模硬盘故障预测领域中的数据预处理算法，其特征在于：所述步骤s3中，在收敛时，理想情况下，期望生成器生成与实际数据集分布相同的样本。

完整全部详细技术资料下载

当前第2页1 2 3