工业不平衡数据分类方法、装置、电子设备及存储介质

文档序号:31637962发布日期:2022-09-24 05:42阅读:66来源:国知局
工业不平衡数据分类方法、装置、电子设备及存储介质

1.本发明涉及边缘计算技术领域,更具体地说,涉及一种工业不平衡数据分类方法、装置、电子设备及存储介质。


背景技术:

2.在边缘计算领域,位于端和边侧的边缘控制器完成工业对象的参数数据采集、预处理并通过mqtt(message queuing telemetry transport,消息队列遥测传输协议)协议上传到云端,供位于saas(software-as-a-service,软件即服务,一种基于互联网提供软件服务的应用模式)层的智能应用使用。
3.由于在工业现场经常出现传感器故障、工业对象部分停机、网络传输故障、云端服务故障等现象,进而导致工业对象部分参数数据缺失,使得云端存储的工业对象运行数据出现不平衡现象,即:某些工业对象的参数数据的数量远大于另一部分参数数据的数量。这一数据不平衡现象使得在云端saas层的智能应用难以对数据进行分类。


技术实现要素:

4.有鉴于此,为解决上述问题,本发明提供一种工业不平衡数据分类方法、装置、电子设备及存储介质,技术方案如下:
5.一种工业不平衡数据分类方法,所述方法包括:
6.获取原始不平衡数据,所述原始不平衡数据中包含两类数据、且第一类数据的数据量小于第二类数据的数据量;
7.对所述原始不平衡数据中的第一类数据进行过采样,并将过采样后的第一类数据与所述原始不平衡数据中的第二类数据合并为新原始不平衡数据;
8.将所述新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型;
9.获取待处理的目标数据,通过所述分类模型对所述目标数据进行分类得到相应的分类结果。
10.优选的,所述对所述原始不平衡数据中的第一类数据进行过采样,包括:
11.将所述原始不平衡数据划分为训练集、验证集和测试集;
12.对所述训练集中的第一类数据进行聚类,得到多个聚类簇、以及所述多个聚类簇中的每个聚类簇的聚类中心;
13.依次遍历所述多个聚类簇中的每个聚类簇,并且针对遍历到的每个聚类簇,确定该聚类簇内各第一类数据k个近邻中第二类数据的数量m,以根据比例r=m/k对各第一类数据进行划分,其中,k为预设值;对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值,以增加该聚类簇内第一类数据的数据量;
14.在所述多个聚类簇遍历完毕的情况下,将所述多个聚类簇所增加的第一类数据与所述训练集中的第一类数据进行合并;
15.相应的,所述将过采样后的第一类数据与所述原始不平衡数据中的第二类数据合并为新原始不平衡数据,包括:
16.将合并后的所述训练集中的第一类数据与所述训练集中的第二类数据合并为新训练集。
17.优选的,所述将所述新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型,包括:
18.从所述新训练集中获取本次训练的训练数据,将所述训练数据中的第一类数据和第二类数据输入至超球信息粒分类器中,以调整所述超球信息粒分类器的网络参数;
19.将所述验证集中的第一类数据和第二类数据输入至参数调整后的所述超球信息粒分类器中,以确定参数调整后的所述超球信息粒分类器的f-measure值;
20.如果参数调整后的所述超球信息粒分类器的f-measure值不满足预设的结束条件,则返回执行所述从所述新训练集中获取本次训练的训练数据,这一步骤;
21.如果参数调整后的所述超球信息粒分类器的f-measure值不满足预设的结束条件,则结束训练,将参数调整后的超球信息粒分类器作为所述分类模型。
22.优选的,所述方法还包括:
23.将所述测试集中的第一类数据和第二类数据输入至所述分类模型中,以确定所述分类模型的f-measure值。
24.优选的,所述对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值,包括:
25.按照如下插值公式对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值:
26.y
new
=ci+rand(0,1)
×
(y
i-ci)
27.其中,y
new
表示所插值的第一类数据,ci表示该聚类簇的聚类中心,rand(0,1)表示从(0,1)中取一个随机数,yi表示划分结果为边界点的各第一类数据,i表示该数据簇的标识。
28.一种工业不平衡数据分类装置,所述装置包括:
29.过采样模块,用于获取原始不平衡数据,所述原始不平衡数据中包含两类数据、且第一类数据的数据量小于第二类数据的数据量;对所述原始不平衡数据中的第一类数据进行过采样,并将过采样后的第一类数据与所述原始不平衡数据中的第二类数据合并为新原始不平衡数据;
30.模型训练模块,用于将所述新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型;
31.分类模块,用于获取待处理的目标数据,通过所述分类模型对所述目标数据进行分类得到相应的分类结果。
32.优选的,用于对所述原始不平衡数据中的第一类数据进行过采样的所述过采样模块,具体用于:
33.将所述原始不平衡数据划分为训练集、验证集和测试集;对所述训练集中的第一类数据进行聚类,得到多个聚类簇、以及所述多个聚类簇中的每个聚类簇的聚类中心;依次遍历所述多个聚类簇中的每个聚类簇,并且针对遍历到的每个聚类簇,确定该聚类簇内各
第一类数据k个近邻中第二类数据的数量m,以根据比例r=m/k对各第一类数据进行划分,其中,k为预设值;对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值,以增加该聚类簇内第一类数据的数据量;在所述多个聚类簇遍历完毕的情况下,将所述多个聚类簇所增加的第一类数据与所述训练集中的第一类数据进行合并;
34.相应的,用于将过采样后的第一类数据与所述原始不平衡数据中的第二类数据合并为新原始不平衡数据所述过采样模块,具体用于:
35.将合并后的所述训练集中的第一类数据与所述训练集中的第二类数据合并为新训练集。
36.优选的,用于将所述新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型的模型训练模块,具体用于:
37.从所述新训练集中获取本次训练的训练数据,将所述训练数据中的第一类数据和第二类数据输入至超球信息粒分类器中,以调整所述超球信息粒分类器的网络参数;将所述验证集中的第一类数据和第二类数据输入至参数调整后的所述超球信息粒分类器中,以确定参数调整后的所述超球信息粒分类器的f-measure值;如果参数调整后的所述超球信息粒分类器的f-measure值不满足预设的结束条件,则返回执行所述从所述新训练集中获取本次训练的训练数据,这一步骤;如果参数调整后的所述超球信息粒分类器的f-measure值不满足预设的结束条件,则结束训练,将参数调整后的超球信息粒分类器作为所述分类模型。
38.一种电子设备,所述电子设备包括:至少一个存储器和至少一个处理器;所述存储器存储有应用程序,所述处理器调用所述存储器存储的应用程序,所述应用程序用于实现所述的工业不平衡数据分类方法。
39.一种存储介质,所述存储介质存储有计算机程序代码,所述计算机程序代码执行时实现所述的工业不平衡数据分类方法。
40.相较于现有技术,本发明实现的有益效果为:
41.本发明提供一种工业不平衡数据分类方法、装置、电子设备及存储介质,首先获取原始不平衡数据,该原始不平衡数据中包含两类数据、且第一类数据的数据量小于第二类数据的数据量;进而对原始不平衡数据中的第一类数据进行过采样,并将过采样后的第一类数据与原始不平衡数据中的第二类数据合并为新原始不平衡数据;进一步将新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型;最后,对于在获取到待处理的目标数据后,可以通过分类模型对目标数据进行分类得到相应的分类结果。基于本发明,通过对不平衡数据中第一类数据进行过采样,可以增加少数类数据的数量,并以此训练得到的分类模型,这就可以解决数据不平衡现象使得在云端saas层的智能应用难以对数据进行分类的问题,保证分类的准确性。
附图说明
42.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
43.图1为本发明实施例提供的工业不平衡数据分类方法的方法流程图;
44.图2为本发明实施例提供的工业不平衡数据分类方法的部分方法流程图;
45.图3为本发明实施例提供的工业不平衡数据分类装置的结构示意图。
具体实施方式
46.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
47.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
48.发明人对同行业已有的对不平衡数据进行过采样的方法做出如下分析:
49.第一种:随机选择少数类样本,并将其放入原始数据集,直到两个类别的样本数量大致相同。
50.这种方法的缺陷是:会使少数类样本重合度变高,导致算法过拟合。
51.第二种:smote:synthetic minority over-sampling technique(合成少数类样本的过采样技术)。在少数类样本间进行线性插值来生成新样本的过采样方法。
52.这种方法的缺陷是:可能会在噪声点(显著不同于其他数据分布的数据对象)之间插值,增加噪声样本数量,或者造成两类样本混合,这都会影响分类效果。
53.第三种:基于第二种方法smote的改进算法borderline-smote(在边界合成少数类样本的过采样技术)。该算法将少数类样本分为边界点,安全点和危险点,只在边界点与其近邻之间线性插值。
54.这种方法的缺陷是:在少数类样本边界点与其近邻之间线性插值仍然可能导致两类样本混合。
55.为解决上述问题,本发明采用改进的插值公式在聚类中心与样本点之间差值,避免两类样本的混合,减少噪声点的影响。
56.参见图1,图1为本发明实施例提供的工业不平衡数据分类方法的方法流程图。本发明实施例提供的工业不平衡数据分类方法可以应用于云端,包括如下步骤:
57.s10,获取原始不平衡数据,原始不平衡数据中包含两类数据、且第一类数据的数据量小于第二类数据的数据量。
58.本发明实施例中,原始不平衡数据中包含两类数据,其中第一类数据为少数类数据、第二类数据为多数类数据,第一类数据的数据量小于第二类数据的数据量,一般来说,在实际场景中,第一类数据的数据量会远小于第二类数据的数据量,两者数据量的数量级不同,比如第一类数据的数据量为十万级别、而第二类数据的数据量为百万级别。
59.s20,对原始不平衡数据中的第一类数据进行过采样,并将过采样后的第一类数据与原始不平衡数据中的第二类数据合并为新原始不平衡数据。
60.本发明实施例中,可以对原始不平衡数据中的第一类数据进行聚类,分为多个聚类簇,然后将每个聚类簇中的第一类数据划分为安全点、边界点和噪声点,进而按照改进的插值公司在作为边界点的第一类数据(即样本点)与其所属的聚类中心之间进行插值,避免
第一类数据和第二类数据这两类样本的混合,减少了噪声点的影响,以此完成对原始平衡数据中第一类数据的过采样。最后,将过采样后的第一类数据与原始不平衡数据中第二类数据合并为新原始不平衡数据,作为后续训练分类模型的训练样本。
61.具体实现过程中,步骤s20中“对原始不平衡数据中的第一类数据进行过采样”可以采用如下步骤,方法流程图如图2所示:
62.s201,将原始不平衡数据划分为训练集、验证集和测试集。
63.本发明实施例中,可以将原始不平衡数据的数据集划分为训练集、验证集和测试集,并且,优选的,训练集、验证集和测试集的数据量比例为3:1:1,并且,训练集、验证集和测试集三者均包含第一类数据和第二类数据。
64.s202,对训练集中的第一类数据进行聚类,得到多个聚类簇、以及多个聚类簇中的每个聚类簇的聚类中心。
65.本发明实施例中,对于训练集,可以使用诸如k-means++(一种聚类算法)对其中的第一类数据进行聚类,得到n(n≥2)个聚类簇、以及各聚类簇的聚类中心ci,其中,i=1,2,3,

,n。需要说明的是,聚类簇是由聚类所生成的一组数据的集合,同一聚类簇内的数据彼此相似、与其它聚类簇中的数据相异。
66.s203,依次遍历多个聚类簇中的每个聚类簇,并且针对遍历到的每个聚类簇,确定该聚类簇内各第一类数据k个近邻中第二类数据的数量m,以根据比例r=m/k对各第一类数据进行划分,其中,k为预设值;对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值,以增加该聚类簇内第一类数据的数据量。
67.本发明实施例中,对于聚类得到的n个聚类簇,可以依次遍历每个聚类簇,针对当前遍历到的聚类簇,可以对该聚类簇内的每个第一类数据均执行以下操作:
68.确定该第一类数据k(k为预设值)个近邻中第二类数据的数量m,进而计算第二类数据的数量m与k个近邻的比例r=m/k,并依据比例r对该第一类数据进行安全点、边界点和噪声点的划分,具体的,如果0≤r《1/2,那么该第一类数据被划分为安全点;如果1/2≤r《1,那么该第一类数据被划分为边界点;如果r=1,那么该第一类数据就是噪声点。进一步,如果该第一类数据为边界点,则可以通过改进的插值公式对该第一类数据和该聚类簇的聚类中心进行插值,以增加该聚类簇内第一类数据的数据量。
69.本发明实施例中,对smote中的插值公式进行改进,根据改进的插值公式对每个划分为边界点的第一类数据和该第一类数据所属聚类簇的聚类中心进行插值。改进的插值公式如下:
70.y
new
=ci+rand(0,1)
×
(y
i-ci)
71.其中,y
new
表示所插值的第一类数据,ci表示该聚类簇的聚类中心,rand(0,1)表示从(0,1)中取一个随机数,yi表示划分结果为边界点的各第一类数据,i表示该数据簇的标识。
72.s204,在多个聚类簇遍历完毕的情况下,将多个聚类簇所增加的第一类数据与训练集中的第一类数据进行合并。
73.本发明实施例中,按照上述步骤s203对所有聚类簇遍历完毕后,可以将所有聚类簇所增加的第一类数据与训练集中原有的第一类数据进行合并。
74.相应的,步骤s20中“将过采样后的第一类数据与原始不平衡数据中的第二类数据
合并为新原始不平衡数据”可以采用如下步骤:
75.将合并后的训练集中的第一类数据与训练集中的第二类数据合并为新训练集。
76.本发明实施例中,可以进一步将合并后的训练集中的第一类数据与训练集中原有的第二类数据进行合并,得到新训练集。
77.s30,将新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型。
78.本发明实施例中,将新原始不平衡数据作为训练样本,以超球信息粒分类器作为基础模型进行训练,采用有监督学习的方式对超球信息粒分类器进行训练得到分类模型,在此不再赘述有监督学习的过程。
79.具体实现过程中,步骤s30“将新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型”可以采用如下步骤:
80.从新训练集中获取本次训练的训练数据,将训练数据中的第一类数据和第二类数据输入至超球信息粒分类器中,以调整超球信息粒分类器的网络参数;将验证集中的第一类数据和第二类数据输入至参数调整后的超球信息粒分类器中,以确定参数调整后的超球信息粒分类器的f-measure值;如果参数调整后的超球信息粒分类器的f-measure值不满足预设的结束条件,则返回执行从新训练集中获取本次训练的训练数据,这一步骤;如果参数调整后的超球信息粒分类器的f-measure值不满足预设的结束条件,则结束训练,将参数调整后的超球信息粒分类器作为分类模型。
81.本发明实施例中,从新训练集中获取本次训练所需的训练数据,对于所获得的训练数据,将其中的第一类数据和第二类数据输入至超球信息粒分类器中,由超球信息粒分类器可以基于此调整自身的网络参数。进一步,将一验证集中的第一类数据和第二类数据输入至参数调整后的超球信息粒分类器中,由于验证集中的第一类数据和第二类数据预先均被标注有相应的类别标签,因此结合超球信息粒分类器针对验证集所输出的类别预测结果,可以确定本次训练超球信息粒分类器的分类评价指标的数值。
82.常用的分类评价指标,如准确率等在用于不平衡数据时并不能正确反映分类算法的效果。如果一个数据集中有100个样本,其中有95个属于多数类数据,只有5个属于少数类数据,那么即使某个分类算法将所有数据全部分为多数类,其准确率也有95%,但这明显不符合分类的要求。为了避免这种情况,需要选择合适的评价指标,对此,本发明选择。f-measure(一种评价不平衡数据分类效果的指标)作为超球信息粒分类器的评价指标,f-measure值可以用来评价超球信息粒分类器在不平衡数据集上的表现效果。
83.由此,根据验证集的类别标签和超球信息粒分类器针对验证集所输出的类别预测结果可以计算本次训练超球信息粒分类器的f-measure值。如果该f-measure值不满足预设的结束条件,比如f-measure值不低于阈值,则进行下一次训练,继续对超球信息粒分类器进行训练。如果该f-measure值满足预设的结束条件,比如f-measure值低于阈值,则结束训练,将本次参数调整后的超球信息粒分类器作为分类模型。由此,可以实现在训练集上训练分类模型,然后在验证集上选择表现最好的分类模型最后作为最后测试用的分类模型。
84.进一步,可以将测试集中的第一类数据和第二类数据输入至分类模型中,以确定分类模型的f-measure值。这就可以确定分类模型最终在不平衡数据集上的表现效果。
85.s40,获取待处理的目标数据,通过分类模型对目标数据进行分类得到相应的分类
结果。
86.本发明实施例中,待处理的目标数据可以为边缘控制器上传至云端的数据。云端在获得到该目标数据后,可以将该目标数据输入至分类模型中,由分类模型输出针对该目标数据的分类结果。
87.本发明提供的工业不平衡数据分类方法,通过对不平衡数据中第一类数据进行过采样,可以增加少数类数据的数量,并以此训练得到的分类模型,这就可以解决数据不平衡现象使得在云端saas层的智能应用难以对数据进行分类的问题,保证分类的准确性。
88.基于上述实施例提供的工业不平衡数据分类方法,本发明实施例则对应提供执行该工业不平衡数据分类方法的装置,该装置的结构示意图如图3所示,包括:
89.过采样模块10,用于获取原始不平衡数据,原始不平衡数据中包含两类数据、且第一类数据的数据量小于第二类数据的数据量;对原始不平衡数据中的第一类数据进行过采样,并将过采样后的第一类数据与原始不平衡数据中的第二类数据合并为新原始不平衡数据;
90.模型训练模块20,用于将新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型;
91.分类模块30,用于获取待处理的目标数据,通过分类模型对目标数据进行分类得到相应的分类结果。
92.可选的,用于对原始不平衡数据中的第一类数据进行过采样的过采样模块10,具体用于:
93.将原始不平衡数据划分为训练集、验证集和测试集;对训练集中的第一类数据进行聚类,得到多个聚类簇、以及多个聚类簇中的每个聚类簇的聚类中心;依次遍历多个聚类簇中的每个聚类簇,并且针对遍历到的每个聚类簇,确定该聚类簇内各第一类数据k个近邻中第二类数据的数量m,以根据比例r=m/k对各第一类数据进行划分,其中,k为预设值;对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值,以增加该聚类簇内第一类数据的数据量;在多个聚类簇遍历完毕的情况下,将多个聚类簇所增加的第一类数据与训练集中的第一类数据进行合并;
94.相应的,用于将过采样后的第一类数据与原始不平衡数据中的第二类数据合并为新原始不平衡数据过采样模块10,具体用于:
95.将合并后的训练集中的第一类数据与训练集中的第二类数据合并为新训练集。
96.可选的,用于将新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型的模型训练模块20,具体用于:
97.从新训练集中获取本次训练的训练数据,将训练数据中的第一类数据和第二类数据输入至超球信息粒分类器中,以调整超球信息粒分类器的网络参数;将验证集中的第一类数据和第二类数据输入至参数调整后的超球信息粒分类器中,以确定参数调整后的超球信息粒分类器的f-measure值;如果参数调整后的超球信息粒分类器的f-measure值不满足预设的结束条件,则返回执行从新训练集中获取本次训练的训练数据,这一步骤;如果参数调整后的超球信息粒分类器的f-measure值不满足预设的结束条件,则结束训练,将参数调整后的超球信息粒分类器作为分类模型。
98.可选的,模型训练模块20,还用于:
99.将测试集中的第一类数据和第二类数据输入至分类模型中,以确定分类模型的f-measure值。
100.可选的,用于对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值的过采样模块10,具体用于:
101.按照如下插值公式对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值:
102.y
new
=ci+rand(0,1)
×
(y
i-ci)
103.其中,y
new
表示所插值的第一类数据,ci表示该聚类簇的聚类中心,rand(0,1)表示从(0,1)中取一个随机数,yi表示划分结果为边界点的各第一类数据,i表示该数据簇的标识。
104.需要说明的是,本发明实施例中各模块的细化功能可以参见上述工业不平衡数据分类方法实施例对应公开部分,在此不再赘述。
105.基于上述实施例提供的工业不平衡数据分类方法,本发明实施例还提供一种电子设备,电子设备包括:至少一个存储器和至少一个处理器;存储器存储有应用程序,处理器调用存储器存储的应用程序,应用程序用于实现工业不平衡数据分类方法。
106.基于上述实施例提供的工业不平衡数据分类方法,本发明实施例还提供一种存储介质,存储介质存储有计算机程序代码,计算机程序代码执行时实现工业不平衡数据分类方法。
107.以上对本发明所提供的一种工业不平衡数据分类方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
108.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
109.还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
110.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1