磁盘的故障分析模型生成方法、装置及计算机设备与流程

文档序号:31049343发布日期:2022-08-06 06:22阅读:88来源:国知局
磁盘的故障分析模型生成方法、装置及计算机设备与流程

1.本技术涉及数据处理技术领域,特别是涉及一种磁盘的故障分析模型生成方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:

2.随着数据中心规模的不断扩大,磁盘的使用规模已达百万级别。那么,磁盘故障也就成为数据中心较为常见的事件。但是,磁盘故障频发会影响存储系统的稳定性以及可靠性,所以亟待需要一种对磁盘的故障进行分析的方法,以在磁盘发生故障之前能够及时的进行处理,从而降低因磁盘故障造成的损失,提升存储系统的稳定性以及可靠性。
3.目前,主要通过故障预测模型对磁盘进行故障预测。但是,现有的故障预测模型在训练过程中容易陷入过拟合状态,导致模型的泛化能力较低,所以通过现有的故障预测模型对磁盘故障进行预测,其预测的准确性较低。


技术实现要素:

4.基于此,本技术提供一种磁盘的故障分析模型生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,生成的故障分析模型精度高,能够提升分析磁盘故障的准确性。
5.第一方面,本技术提供了一种磁盘的故障分析模型生成方法,该方法包括:
6.获取磁盘的目标属性数据;
7.对所述目标属性数据进行分类获得初始正样本和初始负样本,所述初始正样本为正常属性数据,所述初始负样本为异常属性数据;
8.对所述初始正样本进行处理获得目标正样本,和/或,对所述初始负样本进行处理获得目标负样本,所述目标正样本数量和所述目标负样本数量的差值小于预设阈值;
9.基于所述目标正样本和所述目标负样本,利用集成算法对初始故障分析模型进行训练,获得所述故障分析模型。
10.第二方面,本技术还提供了一种磁盘的故障分析模型生成装置,该装置包括:
11.获取模块,用于获取磁盘的目标属性数据;
12.分类模块,用于对所述目标属性数据进行分类获得初始正样本和初始负样本,所述初始正样本为正常属性数据,所述初始负样本为异常属性数据;
13.处理模块,用于对所述初始正样本进行处理获得目标正样本,和/或,对所述初始负样本进行处理获得目标负样本,所述目标正样本数量和所述目标负样本数量的差值小于预设阈值;
14.训练模块,用于基于所述目标正样本和所述目标负样本,利用集成算法对初始故障分析模型进行训练,获得所述故障分析模型。
15.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项方
法的步骤。
16.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项方法的步骤。
17.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一项方法的步骤。
18.本技术提供了一种磁盘的故障分析模型生成方法、装置、计算机设备、存储介质和计算机程序产品,该方法包括:获取磁盘的目标属性数据;对目标属性数据进行分类获得初始正样本和初始负样本,初始正样本为正常属性数据,初始负样本为异常属性数据;对初始正样本进行处理获得目标正样本,和/或,对初始负样本进行处理获得目标负样本,目标正样本数量和目标负样本数量的差值小于预设阈值;基于目标正样本和目标负样本,利用集成算法对初始故障分析模型进行训练,获得故障分析模型。由于本技术在进行故障分析模型训练时,选用的正样本与负样本的比例较为均衡,所以在进行故障分析模型训练时,能够提升模型的学习效果,进一步提升模型的泛化能力,使得训练得到的模型精度较高,对磁盘故障预测的准确性高。
附图说明
19.图1为一个实施例中磁盘的故障分析模型生成方法的应用环境图;
20.图2为一个实施例中磁盘的故障分析模型生成方法的流程示意图;
21.图3为一个实施例中磁盘的故障分析模型生成步骤的流程示意图;
22.图4为另一个实施例中磁盘的故障分析模型生成方法的流程示意图;
23.图5为另一个实施例中磁盘的故障分析模型生成方法的流程示意图;
24.图6为另一个实施例中磁盘的故障分析模型生成方法的流程示意图;
25.图7为一个实施例中磁盘的故障分析模型生成装置的结构框图;
26.图8为一个实施例中计算机设备的内部结构图。
具体实施方式
27.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
28.本技术实施例提供的磁盘的故障分析模型生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。通过终端102采集磁盘的多组属性数据发送给服务器,服务器从多组属性数据中筛选获得目标属性数据,然后对目标属性数据进行分类获得初始正样本和初始负样本,并对初始正样本和初始负样本进行处理,使得获得的目标正样本数量与目标负样本数量的差值小于预设阈值,最后,基于目标正样本和目标度样本对初始故障分析模型进行训练,获得故障分析模型,以对磁盘进行故障分析。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组
成的服务器集群来实现。
29.在一个实施例中,如图2所示,提供了一种磁盘的故障分析模型生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
30.步骤s202,获取磁盘的目标属性数据。
31.其中,属性数据是磁盘在使用过程中产生的数据,能够表征磁盘的运行状态,同时,还可以用于对磁盘进行故障检测。在通常情况下,磁盘的生产厂商会基于磁盘的属性数据对磁盘的状态进行监测和分析,以对磁盘的故障进行预测。但是由于不同厂商的分析规则不同,对于磁盘故障的定位不同,所以会存在对磁盘故障预测不准确的情况出现。
32.目标属性数据可以是服务器直接基于磁盘获取的;目标属性数据还可以是终端设备采集后发送给服务器的;目标属性数据还可以是服务器直接采集磁盘的多个属性数据后经过处理得到的;目标属性数据还可以是终端设备直接采集磁盘的多个属性数据后经过处理得到,并发送给服务器的;本技术对此不加以限定。其中,上述磁盘可以是来自不同厂商的多个磁盘,可以是来自不同厂商不同型号的多个磁盘,可以是来自同一厂商不同型号的多个磁盘,可以是来自同一厂商同一型号的多个磁盘等,本技术对此也不加以限定。目标属性数据包括多组,每一组属性数据可以是包括有磁盘的温度数据、磁盘的湿度数据、磁盘的气压数据、磁盘的供电电压数据、磁盘磁头的电阻数据、磁盘的启停次数、磁盘的再分配扇区数、磁盘的错误读取率、磁盘的旋转重试次数、磁盘的校准重试次数、磁盘的奇偶校验错误率、磁盘的多区域错误率等。其中,磁盘的温度数据还可以是磁盘盘体的工作温度、pcb板周围的工作温度、预设时间段内磁盘盘体的最高工作温度、预设时间段内磁盘盘体的最低工作温度等。
33.步骤s204,对目标属性数据进行分类获得初始正样本和初始负样本,初始正样本为正常属性数据,初始负样本为异常属性数据。
34.其中,服务器基于上述获取的针对磁盘的多组目标属性数据,需要对多组目标属性数据进行分类操作,执行分类操作的目的是将目标属性数据中的正常属性数据和异常属性数据分开,以用于后续进行模型训练。其中,对多组目标属性数据执行分类的操作可以是基于预先设置的与各目标属性数据的类型对应的异常数据的阈值范围或正常数据的阈值范围来实现;对多组目标属性数据进行分类还可以是基于预先设置的分类模型,将多组目标属性数据输入分类模型来实现等,本技术对此不加以限定。
35.示例性的,可以是将各目标属性数据与对应的异常数据的阈值范围进行比对,在目标属性数据处于异常数据的阈值范围时,则将该目标属性数据划分为异常属性数据,反之,则将该目标属性数据划分为正常属性数据;或者,可以是将各目标属性数据与对应的正常数据的阈值范围进行比对,若目标属性数据处于正常数据的阈值范围,则将该目标属性数据划分为正常属性数据,反之,则将该目标属性数据划分为异常属性数据。
36.步骤s206,对初始正样本进行处理获得目标正样本,和/或,对初始负样本进行处理获得目标负样本,目标正样本的数量和目标负样本的数量的差值小于预设阈值。
37.其中,基于上述对目标属性数据进行分类的操作,获得多个正常属性数据以及多个异常属性数据。由于,在通常情况下,磁盘在使用过程中,产生的正常属性数据的量远大于异常属性数据的量,即使目标属性数据是基于大量的磁盘获得的,正常属性数据的量与异常属性数据的量差距也很大。若直接将上述获得的正常属性数据和异常属性数据作为正
样本和负样本进行模型训练,会因为正样本与负样本的比例失衡使得模型容易陷入过拟合状态,导致训练获得的模型泛化能力较低。那么,使用通过上述方法训练得到的模型对磁盘的故障进行预测,预测的准确性无法保证。所以,本技术在通过分类得到的初始正样本和初始负样本进行模型训练之前,还会对初始正样本和初始负样本进行处理获得目标正样本和目标负样本,以使目标正样本的数量和目标负样本的数量的差值小于预设阈值,也即使得目标正样本的数量与目标负样本的数量达到均衡的状态。其中,预设阈值例如可以是设置为1、2、3等。
38.对初始正样本进行处理的方法可以是:对初始正样本进行随机抽样处理;对初始正样本进行处理的方法还可以是:基于选择策略对初始正样本进行筛选,选择策略例如可以是从不同类别的初始正样本中选择预定数量的初始正样本等;对初始正样本进行处理的方法还可以是:将初始正样本输入样本筛选模型中进行筛选等,本技术对此不加以限定。只要从初始正样本选出目标正样本即可,例如服务器分类获得了10000个初始正样本,通过随机抽样对初始正样本进行抽样,获得了1000个目标正样本。
39.对初始负样本进行处理的方法可以是:按照预定的添加策略基于初始负样本进行样本添加;对初始负样本进行处理的方法可以是:将初始负样本输入样本扩充模型中对初始负样本进行扩充等,本技术对此不加以限定。只要基于初始负样本获得目标负样本即可,例如服务器分类获得了10个初始负样本,按照(0.01,0.2)的添加范围对每一类异常属性数据进行添加,获得1000个目标负样本。
40.步骤s208,基于目标正样本和目标负样本,利用集成算法对初始故障分析模型进行训练,获得故障分析模型。
41.其中,基于上述对初始正样本和初始负样本处理后获得的目标正样本和目标负样本,对初始故障分析进行模型训练,获得故障分析模型。模型训练可以是通过集成算法训练获得,集成算法例如可以是xgboost集成算法、bagging集成算法、boosting集成算法、stacking集成算法等。由于集成算法具有抗噪声能力强、能够增加泛化性、使得模型不容易过拟合、训练速度快、对数据适应能力强、对缺失数据以及非平衡数据训练也比较稳定等优点,所以本技术通过集成算法对初始故障分析模型进行训练,获得故障分析模型,能够提高获得故障分析模型的效率,且训练获得的故障分析模型具有泛化能力强以及精度高的特点。模型训练可以是进行有监督的训练,还可以是进行无监督的训练,对此本技术不加以限定。
42.本技术提供了一种磁盘的故障分析模型生成方法,该方法包括:获取磁盘的目标属性数据;对目标属性数据进行分类获得初始正样本和初始负样本,初始正样本为正常属性数据,初始负样本为异常属性数据;对初始正样本进行处理获得目标正样本,和/或,对初始负样本进行处理获得目标负样本,目标正样本数量和目标负样本数量的差值小于预设阈值;基于目标正样本和目标负样本,利用集成算法对初始故障分析模型进行训练,获得故障分析模型。由于本技术在进行故障分析模型训练时,选用的正样本与负样本的比例较为均衡,所以在进行故障分析模型训练时,能够提升模型的学习效果,进一步提升模型的泛化能力,使得训练得到的模型精度较高,对磁盘故障预测的准确性高。
43.在一个实施例中,如图3所示,本技术实施例是获取磁盘的目标属性数据的一种可选的方法实施例,该方法包括如下步骤:
44.步骤s302,获取磁盘的多组属性数据。
45.其中,磁盘可以是来自不同厂商的多个磁盘,可以是来自不同厂商不同型号的多个磁盘,可以是来自同一厂商不同型号的多个磁盘,可以是来自同一厂商同一型号的多个磁盘等,本技术对此也不加以限定。执行获取磁盘的多组属性数据操作的主体可以是服务器,还可以是终端设备。那么,终端设备可以是将获取的磁盘的多组属性数据通过网络发送给服务器,由服务器继续后续的操作。多组属性数据与磁盘发生故障息息相关,一般情况下会通过影响磁盘故障的所有属性数据进行模型训练,目前,影响磁盘故障的属性有255类。
46.示例性的,多组属性数据例如可以包括:磁盘盘体的工作温度、pcb板周围的工作温度、预设时间段内磁盘盘体的最高工作温度、预设时间段内磁盘盘体的最低工作温度、磁盘的湿度数据、磁盘的气压数据、磁盘的供电电压数据、磁盘磁头的电阻数据、磁盘的启停次数、磁盘的再分配扇区数、磁盘的错误读取率、磁盘的旋转重试次数。终端获得的多组属性数据为(40℃,30℃,70℃,30℃,45%,1.1kpa,12v,220ω,2,100,5%,1)、(30℃,10℃,75℃,20℃,40%,1.2kpa,11v,210ω,1,60,1%,2)、(32℃,25℃,60℃,25℃,41%,1.3kpa,10v,180ω,3,50,0.1%,1)、(35℃,20℃,65℃,31℃,46%,1.4kpa,11v,250ω,4,70,3%,3)、(45℃,15℃,68℃,35℃,50%,1.5kpa,8v,190ω,6,80,2%,5)、(50℃,40℃,78℃,32℃,60%,1.05kpa,5v,225ω,2,85,3%,3)、(68℃,60℃,80℃,18℃,65%,1.12kpa,15v,220ω,5,90,4%,2)。
47.步骤s304,通过主成分分析法对多组属性数据进行分析,得到分析结果。
48.其中,基于上述描述可知影响磁盘故障的属性数据众多,若直接通过磁盘的所有属性数据进行模型训练,服务器处理数据的压力非常大,会导致处理效率的下降,所以可以是在服务器获得了影响磁盘故障的所有属性数据后,从众多的属性数据中筛选出目标属性数据(目标属性数据的种类远小于多组属性数据的种类)。但是不能进行盲目筛选,盲目筛选会导致筛选得到的数据不具代表性,不能够尽可能多地保留原始属性数据的信息,那么会存在通过这样的属性数据进行模型训练,得到的模型精度不高的问题出现。所以本技术通过主成分分析法对多组属性数据进行分析,相当于都属性数据进行降维处理,但在进行降维处理的同时尽可能多地保留了原始属性数据的信息。
49.步骤s306,基于分析结果确定目标属性数据。
50.基于上述通过主成分分析法对多组属性数据进行分析后,根据分析结果,从多组属性数据中确定目标属性数据。其中,分析结果例如是各属性数据对应的属性与磁盘故障相关性的概率、各属性数据对应的属性的权重排名、各属性数据对应的属性排名等。
51.多组属性数据例如可以包括:磁盘盘体的工作温度、pcb板周围的工作温度、预设时间段内磁盘盘体的最高工作温度、预设时间段内磁盘盘体的最低工作温度、磁盘的湿度数据、磁盘的气压数据、磁盘的供电电压数据、磁盘磁头的电阻数据、磁盘的启停次数、磁盘的再分配扇区数、磁盘的错误读取率、磁盘的旋转重试次数。终端获得的多组属性数据为(40℃,30℃,70℃,30℃,45%,1.1kpa,12v,220ω,2,100,5%,1)、(30℃,10℃,75℃,20℃,40%,1.2kpa,11v,210ω,1,60,1%,2)、(32℃,25℃,60℃,25℃,41%,1.3kpa,10v,180ω,3,50,0.1%,1)、(35℃,20℃,65℃,31℃,46%,1.4kpa,11v,250ω,4,70,3%,3)、(45℃,15℃,68℃,35℃,50%,1.5kpa,8v,190ω,6,80,2%,5)、(50℃,40℃,78℃,32℃,60%,1.05kpa,5v,225ω,2,85,3%,3)、(68℃,60℃,80℃,18℃,65%,1.12kpa,15v,220ω,5,
90,4%,2)。通过主成分分析法获得目标属性数据可以是包括:磁盘盘体的工作温度、磁盘的供电电压数据、磁盘磁头的电阻数据、磁盘的启停次数、磁盘的再分配扇区数、磁盘的错误读取率;那么,最终获得的目标属性数据为:(40℃,12v,220ω,2,100,5%),(30℃,11v,210ω,1,60,1%),(32℃,10v,180ω,3,50,0.1%),(35℃,11v,250ω,4,70,3%),(45℃,8v,190ω,6,80,2%),(50℃,5v,225ω,2,85,3%),(68℃,15v,220ω,5,90,4%)。
52.本技术提供了一种磁盘的故障分析模型生成方法,该方法通过主成分分析法对获得的磁盘的多种不同种类的属性数据进行分析,从多组属性数据中确定目标属性数据,相当于对磁盘的属性数据进行了降维处理,减少了服务器处理数据的压力,同时尽可能多地保留了原始属性数据的信息,能够提高模型训练的效率。
53.在一个实施例中,如图4所示,图4为本技术实施例提供的一种基于分析结果确定目标属性数据的一种可选的方法实施例,该方法实施例包括如下步骤:
54.步骤s402,根据各属性的权重信息对各属性进行排序得到排序结果。
55.其中,基于上述描述的对磁盘的目标属性数据进行降维处理,得到目标属性数据的多种方案。本技术可以是基于磁盘的多组属性数据进行主成分分析后,获得磁盘的多个属性的权重信息,进一步的得到多个属性的排序结果。排序结果可以是按照权重从高到低的顺序排列,也可以是按照权重从低到高的顺序排列,本技术对此不加以限定。
56.示例性的,例如按照权重从高到低的顺序排列对磁盘的属性进行排序获得的排序结果为:磁盘盘体的工作温度、磁盘的供电电压数据、磁盘磁头的电阻数据、磁盘的启停次数、磁盘的再分配扇区数、磁盘的错误读取率、磁盘的湿度数据、磁盘的气压数据、磁盘的旋转重试次数、磁盘的校准重试次数、磁盘的奇偶校验错误率、磁盘的多区域错误率。
57.步骤s404,基于排序结果和预定的选取策略从各属性中确定目标属性。
58.其中,选择策略可以是从排序结果中从权重最高的开始,依次选取前6个属性作为目标属性;选择策略还可以是从排序结果中权重最高的开始,依次间隔性的选取6个属性作为目标属性(可以是间隔一个属性,还可以是间隔两个属性等);选择策略还可以是从排序结果中权重最高的开始,依次选取5个属性作为目标属性等,本技术对此不加以限定。
59.示例性的,可以是从上述排序结果中,按照从权重最高的开始,依次选取前6个属性作为目标属性,则选择的目标属性为:磁盘盘体的工作温度、磁盘的供电电压数据、磁盘磁头的电阻数据、磁盘的启停次数、磁盘的再分配扇区数、磁盘的错误读取率。
60.步骤s406,将目标属性对应的属性数据作为目标属性数据。
61.其中,基于上述选取的目标属性,可以是将目标属性对应的属性数据作为目标属性数据,以通过目标属性数据进行故障分析模型的训练。
62.可选地,从最高的权重信息对应的属性开始,依次选取排序结果中的预设个数的属性,将预设个数的属性作为目标属性。
63.其中,根据上述描述的基于对磁盘的属性进行权重排序,获得排序结果,基于排序结果和预定的选择策略从各属性中确定目标属性,并将目标属性对应的属性数据作为目标属性数据。本技术可以是将从最高的权重信息对应的属性开始,依次选取排序结果中预设个数的属性作为选取策略对各属性进行选取,将预设个数的属性作为目标属性。预设个数例如可以是100个、80个、60个、50个、30个等,本技术对此不加以限定。
64.本技术提供了一种磁盘的故障分析模型生成方法,该方法根据磁盘各属性的权重
信息排序结果从各属性中选取权重较高的属性作为目标属性,进一步的确定目标属性数据,能够对属性数据进行降维处理的同时,尽可能多地保留原始属性数据的信息。降低的服务器处理数据的压力,提高模型训练的效率。
65.在一个实施例中,如图5所示,图5为本实施例中获得目标正样本的一种可选的方法实施例,该方法实施例包括如下步骤:
66.步骤s502,通过聚类算法对初始正样本进行分类,获得多组分类正样本。
67.其中,在对初始正样本进行处理的过程中,需要对各属性的属性数据进行对应的处理,由于初始正样本中包括多个属性的大量属性数据,大量属性数据交织在一起,所以需要对属性数据进行处理以获得对应属性的属性数据,便于后续的处理。基于上述对目标属性数据进行分类获得初始正样本后,可以是通过聚类算法将初始正样本中各个属性对应的属性数据进行分类,获得多组分类正样本。多组分类正样本包括每一个属性以及与每一个属性对应的属性数据。
68.示例性的,目标属性数据例如为:(40℃,30℃,70℃,30℃,45%,1.1kpa,12v,220ω,2,100,5%,1)、(30℃,10℃,75℃,20℃,40%,1.2kpa,11v,210ω,1,60,1%,2)、(32℃,25℃,60℃,25℃,41%,1.3kpa,10v,180ω,3,50,0.1%,1)、(35℃,20℃,65℃,31℃,46%,1.4kpa,11v,250ω,4,70,3%,3)、(45℃,15℃,68℃,35℃,50%,1.5kpa,8v,190ω,6,80,2%,5)、(50℃,40℃,78℃,32℃,60%,1.05kpa,5v,225ω,2,85,3%,3)、(68℃,60℃,80℃,18℃,65%,1.12kpa,15v,220ω,5,90,4%,2)。对目标属性数据进行分类获得的初始正样本例如为:40℃,30℃,70℃,30℃,45%,1.1kpa,12v,220ω,2,100,5%,1,
69.30℃,10℃,75℃,20℃,40%,1.2kpa,11v,210ω,1,60,1%,2,32℃,25℃,60℃,25℃,41%,1.3kpa,10v,180ω,3,50,0.1%,1,35℃,20℃,65℃,31℃,46%,1.4kpa,11v,250ω,4,70,3%,3,45℃,15℃,68℃,35℃,50%,1.5kpa,8v,190ω,6,80,2%,5,50℃,40℃,78℃,32℃,60%,1.05kpa,5v,225ω,2,85,3%,3,68℃,60℃,80℃,18℃,65%,1.12kpa,15v,220ω,5,90,4%,2。
70.通过聚类算法获得的多组分类正样本为:磁盘盘体的工作温度(40℃,30℃,32℃,35℃,45℃,50℃);pcb板周围的工作温度(30℃,25℃,20℃,40℃,60℃);预设时间段内磁盘盘体的最高工作温度(70℃,75℃,60℃,65℃,68℃);预设时间段内磁盘盘体的最低工作温度(30℃,20℃,25℃,31℃,35℃,32℃);磁盘的湿度数据(45%,40%,41%,46%,50%);磁盘的气压数据(1.1kpa,1.2kpa,1.3kpa,1.05kpa,1.12kpa);磁盘的供电电压数据(12v,11v,10v,11v,8v);磁盘磁头的电阻数据(220ω,210ω,225ω,220ω);磁盘的启停次数(2,1,3,4,2);磁盘的再分配扇区数(60,50,70,80,85,90);磁盘的错误读取率(1%,0.1%,3%,2%,3%);磁盘的旋转重试次数(1,2,1,3,3,2)。
71.步骤s504,对多组分类正样本分别进行随机抽样处理得到随机抽样结果。
72.其中,基于上述通过聚类算法对初始正样本进行分类获得了多组分类正样本,因为每一组分类正样本的样本数量较多,在模型训练过程中,容易出现正样本数量和负样本数量比例不均衡的现象,导致模型泛化能力较低,得到的模型的精度不高。所以,需要对正样本的数量进行缩小,本技术通过随机抽样的方法对正样本进行数量上的缩小。
73.示例性的,根据随机抽样,获得的随机抽样结果为磁盘盘体的工作温度(40℃,30℃,32℃,35℃);pcb板周围的工作温度(30℃,25℃,40℃,60℃);预设时间段内磁盘盘体的
最高工作温度(70℃,60℃,65℃,68℃);预设时间段内磁盘盘体的最低工作温度(30℃,31℃,35℃,32℃);磁盘的湿度数据(45%,40%,41%,46%);磁盘的气压数据(1.1kpa,1.2kpa,1.05kpa,1.12kpa);磁盘的供电电压数据(12v,11v,10v,11v);磁盘磁头的电阻数据(220ω,210ω,225ω,220ω);磁盘的启停次数(2,1,3,2);磁盘的再分配扇区数(60,50,70,80,85);磁盘的错误读取率(1%,0.1%,3%,2%);磁盘的旋转重试次数(1,2,1,2)。
74.步骤s506,基于多组分类正样本的随机抽样结果获得目标正样本。
75.其中,基于上述随机抽样的结果,获得目标正样本例如可以是:(40℃,30℃,32℃,35℃,30℃,25℃,40℃,60℃,70℃,60℃,65℃,68℃,30℃,31℃,35℃,32℃,45%,40%,41%,46%,1.1kpa,1.2kpa,1.05kpa,1.12kpa,12v,11v,10v,11v,220ω,210ω,225ω,220ω,2,1,3,2,60,50,70,80,85,1%,0.1%,3%,2%,1,2,1,2。
76.本技术提供了一种磁盘的故障分析模型生成方法,该方法通过聚类算法先对初始正样本进行分类,进而通过随机抽样的方法获得目标正样本,由于每个正样本都是随机抽取的,根据概率论不仅能够用正样本统计量对总体样本进行估计,还能计算出抽样误差,从而能够控制总体样本的可靠程度。
77.在一个实施例中,如图6所示,图6位本实施例提供的获得目标负样本的一种可选的方法实施例,该方法实施例包括如下步骤:
78.步骤s602,通过聚类算法对初始负样本进行分类,获得多组分类负样本;
79.步骤s604,基于多组分类负样本根据预定的增加策略对多组负样本进行增加样本处理;
80.步骤s606,基于对每一组分类负样本的增加样本处理获得目标正样本。
81.其中,基于上述对获得目标正样本的处理步骤,本技术通过相同的积累算法对初始负样本进行分类,获得多组分类负样本,然后基于增加策略对多组负样本进行增加样本处理,获得目标正样本。增加策略例如可以是:对温度数据按照(0.01℃,0.1℃)的添加范围进行添加;对湿度数据按照(0.1%,1%)的添加范围进行添加;对气压数据按照(0.001kpa,0.01kpa)的添加范围进行添加;对电压数据按照(1v,2v)的添加范围进行添加;对电阻数据按照(1ω,10ω)的添加范围进行添加;对次数按照(1,5)的添加范围进行添加;对再分配扇区数按照(10,50)的添加范围进行添加;对错误读取率按照(0.01%,1%)的添加范围进行添加。增加策略可以是基于经验获得,在此不加以限定。
82.示例性的,通过聚类算法对初始负样本进行分类,获得多组分类负样本为:
83.磁盘盘体的工作温度(68℃);pcb板周围的工作温度(10℃,15℃);预设时间段内磁盘盘体的最高工作温度(78℃,80℃);预设时间段内磁盘盘体的最低工作温度(18℃);磁盘的湿度数据(60%,65%);磁盘的气压数据(1.4kpa,1.5kpa);磁盘的供电电压数据(5v,15v);磁盘磁头的电阻数据(180ω,250ω,190ω);磁盘的启停次数(6,5);磁盘的再分配扇区数(100);磁盘的错误读取率(5%,4%);磁盘的旋转重试次数(5)。
84.按照对应的添加策略获得的目标负样本为磁盘盘体的工作温度(68℃,68.02℃,68.05℃,68.1℃);pcb板周围的工作温度(10℃,10.1℃,15.1℃,15℃);预设时间段内磁盘盘体的最高工作温度(78℃,78.1℃,80℃,80.1℃);预设时间段内磁盘盘体的最低工作温度(18℃,18.02℃,18.05℃,18.1℃);磁盘的湿度数据(60%,61%,65%,66%);磁盘的气压数据(1.4kpa,1.41kpa,1.5kpa,1.51kpa);磁盘的供电电压数据(5v,6v,15v,17v);磁盘
磁头的电阻数据(180ω,250ω,190ω,260ω);磁盘的启停次数(6,5,7,9);磁盘的再分配扇区数(100,110,130,160);磁盘的错误读取率(5%,6%,4%,4.5%);磁盘的旋转重试次数(5,6,8,9)。
85.本技术提供了一种磁盘的故障分析模型生成方法,该方法通过聚类算法先对初始负样本进行分类,进而通过增加策略添加后获得目标负样本,由于每个负样本都是基于对应的增加策略增加获得,所以能够保证负样本添加过程中可依据性,避免盲目添加导致添加的负样本不准确的现象发生。
86.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
87.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的磁盘的故障分析模型生成方法的磁盘的故障分析模型生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个磁盘的故障分析模型生成装置实施例中的具体限定可以参见上文中对于磁盘的故障分析模型生成方法的限定,在此不再赘述。
88.在一个实施例中,如图7所示,提供了一种磁盘的故障分析模型生成装置,包括:获取模块702、分类模块704、处理模块706和训练模块708,其中:
89.获取模块702,用于获取磁盘的目标属性数据;
90.分类模块704,用于对目标属性数据进行分类获得初始正样本和初始负样本,初始正样本为正常属性数据,初始负样本为异常属性数据;
91.处理模块706,用于对初始正样本进行处理获得目标正样本,和/或,对初始负样本进行处理获得目标负样本,目标正样本数量和目标负样本数量的差值小于预设阈值;
92.训练模块708,用于基于目标正样本和目标负样本,利用集成算法对初始故障分析模型进行训练,获得故障分析模型。
93.在一个实施例中,获取模块702,具体用于获取磁盘的多组属性数据;
94.通过主成分分析法对多组属性数据进行分析,得到分析结果;
95.基于分析结果确定目标属性数据。
96.在一个实施例中,分析结果包括磁盘的各属性的权重信息,获取模块702,具体还用于根据各属性的权重信息对各属性进行排序得到排序结果;
97.基于排序结果和预定的选取策略从各属性中确定目标属性;
98.将目标属性对应的属性数据作为目标属性数据。
99.在一个实施例中,获取模块702,具体还用于从最高的权重信息对应的属性开始,依次选取排序结果中的预设个数的属性,将预设个数的属性作为目标属性。
100.在一个实施例中,处理模块706,具体用于通过聚类算法对初始正样本进行分类,获得多组分类正样本;
101.对多组分类正样本分别进行随机抽样处理得到随机抽样结果;
102.基于多组分类正样本的随机抽样结果获得目标正样本。
103.在一个实施例中,处理模块706,具体还用于通过聚类算法对初始负样本进行分类,获得多组分类负样本;
104.基于多组分类负样本根据预定的增加策略对多组负样本进行增加样本处理;
105.基于对每一组分类负样本的增加样本处理获得目标正样本。
106.上述磁盘的故障分析模型生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
107.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储磁盘的属性数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种磁盘的故障分析模型生成方法。
108.本领域技术人员可以理解,图8中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
109.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
110.获取磁盘的目标属性数据;
111.对目标属性数据进行分类获得初始正样本和初始负样本,初始正样本为正常属性数据,初始负样本为异常属性数据;
112.对初始正样本进行处理获得目标正样本,和/或,对初始负样本进行处理获得目标负样本,目标正样本的数量和目标负样本的数量的差值小于预设阈值;
113.基于目标正样本和目标负样本,利用集成算法对初始故障分析模型进行训练,获得故障分析模型。
114.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
115.获取磁盘的多组属性数据;
116.通过主成分分析法对多组属性数据进行分析,得到分析结果;
117.基于分析结果确定目标属性数据。
118.在一个实施例中,分析结果包括磁盘的各属性的权重信息,处理器执行计算机程序时还实现以下步骤:
119.根据各属性的权重信息对各属性进行排序得到排序结果;
120.基于排序结果和预定的选取策略从各属性中确定目标属性;
121.将目标属性对应的属性数据作为目标属性数据。
122.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
123.从最高的权重信息对应的属性开始,依次选取排序结果中的预设个数的属性,将预设个数的属性作为目标属性。
124.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
125.通过聚类算法对初始正样本进行分类,获得多组分类正样本;
126.对多组分类正样本分别进行随机抽样处理得到随机抽样结果;
127.基于多组分类正样本的随机抽样结果获得目标正样本。
128.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
129.通过聚类算法对初始负样本进行分类,获得多组分类负样本;
130.基于多组分类负样本根据预定的增加策略对多组负样本进行增加样本处理;
131.基于对每一组分类负样本的增加样本处理获得目标正样本。
132.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
133.获取磁盘的目标属性数据;
134.对目标属性数据进行分类获得初始正样本和初始负样本,初始正样本为正常属性数据,初始负样本为异常属性数据;
135.对初始正样本进行处理获得目标正样本,和/或,对初始负样本进行处理获得目标负样本,目标正样本的数量和目标负样本的数量的差值小于预设阈值;
136.基于目标正样本和目标负样本,利用集成算法对初始故障分析模型进行训练,获得故障分析模型。
137.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
138.获取磁盘的多组属性数据;
139.通过主成分分析法对多组属性数据进行分析,得到分析结果;
140.基于分析结果确定目标属性数据。
141.在一个实施例中,分析结果包括磁盘的各属性的权重信息,计算机程序被处理器执行时还实现以下步骤:
142.根据各属性的权重信息对各属性进行排序得到排序结果;
143.基于排序结果和预定的选取策略从各属性中确定目标属性;
144.将目标属性对应的属性数据作为目标属性数据。
145.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
146.从最高的权重信息对应的属性开始,依次选取排序结果中的预设个数的属性,将预设个数的属性作为目标属性。
147.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
148.通过聚类算法对初始正样本进行分类,获得多组分类正样本;
149.对多组分类正样本分别进行随机抽样处理得到随机抽样结果;
150.基于多组分类正样本的随机抽样结果获得目标正样本。
151.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
152.通过聚类算法对初始负样本进行分类,获得多组分类负样本;
153.基于多组分类负样本根据预定的增加策略对多组负样本进行增加样本处理;
154.基于对每一组分类负样本的增加样本处理获得目标正样本。
155.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
156.获取磁盘的目标属性数据;
157.对目标属性数据进行分类获得初始正样本和初始负样本,初始正样本为正常属性数据,初始负样本为异常属性数据;
158.对初始正样本进行处理获得目标正样本,和/或,对初始负样本进行处理获得目标负样本,目标正样本的数量和目标负样本的数量的差值小于预设阈值;
159.基于目标正样本和目标负样本,利用集成算法对初始故障分析模型进行训练,获得故障分析模型。
160.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
161.获取磁盘的多组属性数据;
162.通过主成分分析法对多组属性数据进行分析,得到分析结果;
163.基于分析结果确定目标属性数据。
164.在一个实施例中,分析结果包括磁盘的各属性的权重信息,计算机程序被处理器执行时还实现以下步骤:
165.根据各属性的权重信息对各属性进行排序得到排序结果;
166.基于排序结果和预定的选取策略从各属性中确定目标属性;
167.将目标属性对应的属性数据作为目标属性数据。
168.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
169.从最高的权重信息对应的属性开始,依次选取排序结果中的预设个数的属性,将预设个数的属性作为目标属性。
170.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
171.通过聚类算法对初始正样本进行分类,获得多组分类正样本;
172.对多组分类正样本分别进行随机抽样处理得到随机抽样结果;
173.基于多组分类正样本的随机抽样结果获得目标正样本。
174.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
175.通过聚类算法对初始负样本进行分类,获得多组分类负样本;
176.基于多组分类负样本根据预定的增加策略对多组负样本进行增加样本处理;
177.基于对每一组分类负样本的增加样本处理获得目标正样本。
178.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存
取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
179.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
180.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1