分类器的训练方法及装置、分类装置与流程

文档序号:30959634发布日期:2022-07-30 12:13阅读:80来源:国知局
分类器的训练方法及装置、分类装置与流程

1.本公开涉及计算机技术领域,尤其涉及深度学习领域。


背景技术:

2.机器学习中经常会遇到数据的类别不均衡的问题,也叫数据偏斜。数据偏斜在众多的实际应用场景下都会发生,例如疾病检测、信用卡诈欺侦测、网络入侵检测等。数据偏斜对于机器学习的算法结果会产生非常差的影响,会让算法本身更加偏向于数据量较多的标签,而对于数据量小的标签表现很差。针对数据偏斜问题,相关技术中常采用随机重采样的方法,来平衡多类样本的数量,具体通过欠采样方法在训练过程中随机从多数类中去除样本,以减少多数类的样本数量以及过采样方法在原始数据集中随机选取少数类样本,并对所选样本进行复制,以增加少数类样本的数量。亦或是通过降低高置信度类别的重要性而提高低置信度类别的重要性。除此之外,数据增强也可以用来解决数据偏斜的问题。如以线性差值为原理的合成少类样本技术(synthetic minority oversampling technique,smote)算法可以在小类别样本下产生新的数据。


技术实现要素:

3.本公开提供了一种用于分类器训练的方法、装置、设备以及存储介质。
4.根据本公开的一方面,提供了一种分类器的训练方法,包括:获取原始不平衡样本集;根据原始不平衡样本集和随机噪声生成第一样本集,其中第一样本集中包括被标记为正样本的样本和被标记为负样本的样本;从第一样本集中剔除不符合预设条件的样本得到目标样本集;以原始不平衡样本集和目标样本集的合集为训练数据集,对目标分类器进行训练,其中,目标分类器用于完成对待分类不平衡样本集的分类。
5.可选地,从第一样本集中剔除不符合预设条件的样本得到目标样本集,包括:利用第一鉴别器从第一样本集中随机剔除负样本,得到第二样本集,第一样本集中的所有被标记为负样本的样本被剔除的概率均为设定概率;利用第二鉴别器从第二样本集中剔除被第二鉴别器鉴别为负样本的样本,得到目标样本集。
6.可选地,利用第二鉴别器从第二样本集中剔除被第二鉴别器鉴别为负样本的样本,得到目标样本集,包括:获取第二鉴别器中的多个预先确定的第一分类器对第一样本集中的样本的标记;将第二样本集中被目标数量第一分类器标记为负样本的样本确定为被第二鉴别器鉴别为负样本的样本;剔除被第二鉴别器鉴别为负样本的样本,得到目标样本集。
7.可选地,上述方法还包括:调整待分类不平衡样本集中第一类样本和第二类样本的损失权重使第一类样本的损失权重小于第二类样本的损失权重;利用调整后的损失权重对待分类不平衡样本集进行分类。
8.可选地,根据原始不平衡样本集和随机噪声生成第一样本集,包括:根据原始不平衡样本集和随机噪声生成候选样本集;对候选样本集中的样本进行标记,得到第一样本集,其中,标记包括:标记为正样本和标记为负样本。
9.可选地,根据原始不平衡样本集和随机噪声生成候选样本集,包括:利用预先构建的高斯混合模型对原始样本集进行归一化处理;将进行归一化处理后的原始不平衡样本集和高斯混合模型随机生成的噪声结合生成候选样本集。
10.可选地,对候选样本集中的样本进行标记,得到第一样本集,包括:根据候选样本集和原始不平衡样本集的二元交叉熵损失和样本间距对候选样本集进行标注,将标注后的候选样本集确定为第一样本集。
11.根据本公开的另一方面,提供了一种不平衡样本集的分类装置,包括:数据生成器,质量控制器和分类器;数据生成器用于生成第一样本集;质量控制器用于对第一样本集进行筛选以生成目标样本集,目标样本集和预先获取的原始不平衡样本集的合集用于对分类器进行训练;分类器用于对不平衡样本集进行分类。
12.根据本公开的再一方面,提供了一种分类器的训练装置,包括:第一获取模块,用于获取原始不平衡样本集;生成模块,用于根据原始不平衡样本集和随机噪声生成第一样本集,其中第一样本集中包括被标记为正样本的样本和标记为负样本的样本;第二获取模块,用于从第一样本集中剔除不符合预设条件的样本得到目标样本集;训练模块,用于以原始不平衡样本集和目标样本集的合集为训练数据集,对分类器进行训练,其中,分类器用于完成对待分类不平衡样本集的分类。
13.根据本公开的再一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的方法。
14.根据本公开的再一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述的方法。
15.根据本公开的再一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述的方法。
16.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
17.附图用于更好地理解本方案,不构成对本公开的限定。其中:
18.图1是根据本公开实施例的一种分类器的训练方法流程图;
19.图2是根据本公开实施例的一种不平衡样本集的分类装置示意图;
20.图3是根据本公开实施例的一种分类器训练网络框架示意图;
21.图4是根据本公开实施例的一种分类器训练方法的第一阶段示意图;
22.图5是根据本公开实施例的一种分类器训练方法的第二阶段示意图;
23.图6是用来实现本公开实施例的一种分类器的训练方法的装置示意图图;
24.图7a是根据本公开实施例的一种样本的验证流程图;
25.图7b是根据本公开实施例的另一种样本的验证流程图;
26.图8是用于实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
27.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
28.目前相关技术中采用的数据平衡方法,需要通过欠采样方法在训练过程中随机从多数类中去除样本,以减少多数类的样本数量以及过采样方法在原始数据集中随机选取少数类样本,并对所选样本进行复制,以增加少数类样本的数量。亦或是通过降低高置信度类别的重要性而提高低置信度类别的重要性。除此之外,还可以采用以线性差值为原理的smote算法可以在小类别样本下产生新的数据。但上述方法中欠采样方法在删除多数类样本的过程中会丢弃关键信息,从而降低训练得到的模型的分类准确性;而过采样方法由于生成的扩充样本中相同样本过多会造成模型的过拟合。造成上述问题的原因是直接关注数据本身,并没有考虑数据的概率分布。改进损失函数的方法以及线性插值方法也是如此,没有利用数据分布的信息。因此相关技术提供的方法都会造成训练得到的分类模型对不平衡数据的分类准确性低的问题。
29.本公开实施例,提供了一种用于分类器的训练方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
30.图1是根据本公开实施例的一种分类器的训练方法的流程图,如图1所示,该方法包括如下步骤:
31.步骤s102,获取原始不平衡样本集;
32.在本公开上述步骤s102提供的技术方案中,原始不平衡数据集在深度学习的应用场景中广泛存在,例如:图像处理、关系数据处理等。在实际的应用场景中也可以从待分类的不平衡样本中提取部分样本作为原始不平衡样本集,其中,原始不平衡样本集是指,分类任务中不同类别的样本数目差别很大的样本集,通常为样本集中的多数类样本与少数类样本的比例明显大于1:1的样本集,在日常生活中,常遇到的不平衡样本,例如:欺诈交易占总交易量的极少部分,在一些任务中,常常关注的反而是少数类样本的情况。例如在一个欺诈识别的案例中,少数类样本与多数类样本的比例为1:1000,如果直接用这个比例的样本集去进行学习的话,就很容易学习出一个将所有样本都预测为多数类情况的分类模型。所以样本不均衡会带来的影响是模型会学习到训练数据集中样本比例的这种先验信息,以致于实际进行预测时就会对多数类样本有侧重。样本集的获取目前有很多种获取的手段,例如:通过问卷调查,网络爬取或者通过数据库已有的数据进行统计。
33.步骤s104,根据原始不平衡样本集和随机噪声生成第一样本集,其中第一样本集中包括被标记为正样本的样本和被标记为负样本的样本;
34.在本公开上述步骤s104提供的技术方案中,利用原始不平衡样本集合随机噪声生成第一样本集的方式有多种,通常可以采用生成对抗网络来生成第一样本集。被标记为正样本的样本和被标记为负样本的样本也可以看作是被生成对抗网络中的判别器标记为真的样本和标记为假的样本。需要进行说明的是,第一样本集中包含有上述两种样本。
35.步骤s106,从第一样本集中剔除不符合预设条件的样本得到目标样本集;
36.在本公开上述步骤s106提供的技术方案中,从第一样本集中剔除不符合预设条件的样本,通过预设条件的设定来控制样本生成速率和样本的质量,例如可以通过放宽预设条件提高样本的生成速率以快速完成样本生成阶段,也可以通过收紧预设条件来降低样本的生成速率同时控制生成样本的质量。其中,预设条件包括但不限于:预先设置的第一样本集中样本被剔除的概率,或者是被目标数量预先训练的分类器识别的结果。2
37.在该实施例中,以预设条件为每个生成对抗网络标记为假的负样本被剔除的概率是0.8为例,遍历第一样本集中的每个负样本,进行随机剔除直到最后一个样本,也可以随机抽取第一样本集中的每个负样本进行剔除操作,每一个被抽取的样本都被添加标记直到最后一个负样本被添加抽取标记表示第一样本集中的每个负样本被抽取完毕。步骤s108,以原始不平衡样本集和目标样本集的合集为训练数据集,对目标分类器进行训练,其中,目标分类器用于完成对待分类不平衡样本集的分类。
38.分类器可以是一种分类模型,也可以是一种承载分类模型的计算机设备。分类器的种类有多种,例如:决策树分类器、选择树分类器和证据分类器,而影响分类器准确率的主要因素就是样本的数量和样本的分布是否均衡。
39.在本公开上述步骤s108提供的技术方案中,通过将目标样本集加入到原始不平衡样本集中来均衡样本的分布,从而获取样本分布均衡的训练数据集对分类器进行训练。
40.需要进行说明的是,相关技术中,生成对抗神经网络((generative adversarial network,gan))在风格迁移、图像合成、图像超分辨率、图像恢复、关系数据等领域应用很广,它可以学习出一个与原数据集分布相似的数据集。但是在数据出现偏斜的情况下,相关技术中的gan生成的数据的质量仍然不高。传统的gan可以被用来解决数据偏斜问题,但是直接依赖于随机生成的gan可能会生成质量不受控的样本,从而降低不平衡分类模型的性能。而验证生成样本的质量可以通过生成样本与原始样本的特征相似度来衡量生成特征的质量,用生成样本的标签与其在原始数据分布中的特征相对应的概率来衡量生成标签的质量。
41.通过本技术上述步骤s102至步骤s108,通过获取原始不平衡样本集;根据原始不平衡样本集和随机噪声生成第一样本集,其中第一样本集中包括被标记为正样本的样本和被标记为负样本的样本;从第一样本集中剔除不符合预设条件的样本得到目标样本集;以原始不平衡样本集和目标样本集的合集为训练数据集,对目标分类器进行训练,其中,目标分类器用于完成对待分类不平衡样本集的分类。也就是说,本公开通过调整预设条件就可以控制样本的生成速度以及生成样本的质量,从而稳定获取高质量的目标样本,将目标样本加入到原始不平衡样本集中就达到了平衡原始不平衡样本集的目的解决了分类器分类准确率低的技术问题,达到了提高分类器分类准确率的技术效果。
42.下面对该实施例的上述方法进行进一步介绍。
43.作为一种可选的实施方式,在步骤s104中,根据原始不平衡样本集和随机噪声生成第一样本集,可以先根据原始不平衡样本集和随机噪声输入到生成对抗网络模型中生成候选样本集;然后对候选样本集中的样本进行标记,得到第一样本集,其中,上述标记可以是标记为正样本和标记为负样本。
44.其中,候选样本集可以通过利用预先构建的高斯混合模型对原始不平衡样本集进
行归一化处理后,再将进行归一化处理后的原始不平衡样本集和高斯混合模型随机生成的噪声结合生成。
45.高斯混合模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,是一个将事物分解为若干的基于高斯概率密度函数形成的模型。利用高斯混合模型对原始不平衡样本集进行归一化处理,就是将原始不平衡样本集中的每个样本的特征值映射到同一区间内,消除量纲对最终结果的影响,使不同的特征具有可比性,使得原本可能分布相差较大的特征对模型有相同权重的影响,提升模型的收敛速度。
46.可以理解的是,将随机噪声输入到生成器中将随机噪声转化成符合原始不平衡样本集中的样本的分布情况从而得到候选样本,由候选样本组成候选样本集。通过生成对抗网络对生成的样本进行初步标记,可以初步了解生成样本的质量,进而提高后续步骤中样本标记的准确率。随机噪声可以来自于正态分布、均匀分布或其他任意分布,在此不再赘述。需要进行说明的是,对候选样本集进行标注的过程中,可以根据候选样本集和原始不平衡样本集的二元交叉熵损失和样本间距对候选样本集进行标注,将标注后的候选样本集确定为第一样本集,为方便表述本公开实施例中的样本间距使用wassertein距离。
47.在该实施例中,利用高斯混合模型对原始不平衡样本集进行归一化,并随机生成种子和原始不平衡样本集一起发送到生成对抗网络中的生成器中生成新的样本。一种可选的方式中,可以利用式1来更新生成器的神经网络。
48.lg=l
rec
(z,x)-ld(z)+lc(z)=∑
z∈z,x∈x
‖z-x‖
2-ld(z)+lc(z)
ꢀꢀꢀ
式1
49.式中,x表示归一化处理后的原始不平衡样本集,z表示候选样本集,l
rec
(z,x)代表重建损失,ld(z)表示对于候选样本的鉴别损失,lc(z)表示关于候选样本和原始不平衡样本的多分类损失函数,x表示x中的样本,z表示z中的样本。
50.利用二元交叉熵损失和样本间距来标记正样本与负样本,如式2所示。
51.ld(z)=l
bce
(z)+l
wgan-gp
(z)
ꢀꢀꢀ
式2
52.式中,l
bce
(z)表示二元交叉熵损失,l
wgan-gp
(z)表示有梯度惩罚的wassertein距离。
53.其中,l
bce
(z)可以通过式3得到。
54.l
bce
(z)=∑
x∈x∪z-[1|
x∈x
logd(x)+1|
x∈z
log(1-d(x))]
ꢀꢀꢀ
式3
[0055]
式中,d(x)表示样本为正样本的概率。
[0056]
其中,样本的wassertein距离可以通过式4得到。
[0057][0058]
式中,e
x~x
[d(x)]-e
x~z
[d(g(x))]示原始损失,[d(g(x))]示原始损失,表示惩罚损失,λ表示调整参数。
[0059]
作为一种可选的实施方式,在步骤s106中,具体可以通过以下方式得到目标样本集,首先利用第一鉴别器从第一样本集中随机剔除标记为负样本的样本,得到第二样本集,第一样本集中的所有被标记为负样本的样本被剔除的概率均为设定概率;然后再利用第二鉴别器从第二样本集中剔除被第二鉴别器鉴别为负样本的样本,得到目标样本集。
[0060]
需要进行说明的是,本公开通过上述方式利用两个鉴别器来实现预设条件的调整,进而控制生成样本的质量。
[0061]
第一鉴别器的主要作用是通过随机剔除的方式提高样本生成的速率,也就是说,
将第一样本集中被标记为负样本的样本以随机的方式剔除一部分,而不是直接剔除第一样本集中被标记为负样本的样本,保留部分负样本,将未被剔除的负样本统一认定为标记为正样本的样本也就是正样本,从而提升样本的生成速率。
[0062]
再将第一鉴别器认定为正样本的第二样本集输入到第二鉴别器中进行二次鉴别以控制生成样本的质量,也就是利用第二鉴别器对第二样本集中的负样本进行剔除从而得到目标样本集。
[0063]
具体地,可以通过以下方式来得到目标样本集,包括:先获取获取第二鉴别器中的多个预先确定的第一分类器对第一样本集中的样本的标记;将第二样本集中被目标数量第一分类器标记为负样本的样本确定为被第二鉴别器鉴别为负样本的样本;剔除被第二鉴别器鉴别为负样本的样本,得到目标样本集。
[0064]
需要进行说明的是,第二鉴别器中包含有多个预先训练的第一分类器,可以利用相关技术中的多种训练方式得到,在此不再赘述。由于第一分类器是利用相关技术中的常规方式训练得到的,因此鉴别性能较低,可以通过多个第一分类器投票的方式增加鉴别的准确率。
[0065]
通过多个第一分类器共同对同一个样本进行验证后参与投票,利用投票的方式来确定样本的真假,可以进一步的提高生成样本验证的准确性,从而获得高质量的样本。
[0066]
将第二样本集中被目标数量第一分类器标记为负样本的样本作为负样本剔除,在实际的实施过程中,可以通过调整目标数量的大小来调整样本鉴别的质量以及样本生成的速率,在对目标分类器训练的初期可以减少目标数量来提升样本生成的速率,在目标分类器训练的后期可以增加目标数据来提升生成样本的质量。通过第一鉴别器与第二鉴别器的双重调控,可以灵活调整样本的生成速率和生成质量,进一步的提升了分类模型的训练效率。
[0067]
作为一种可选地方式,在利用本公开提供的方法训练得到目标分类器对待分类的不平衡样本集进行分类的过程中,可以通过调整待分类不平衡样本集中第一类样本和第二类样本的损失权重使第一类样本的损失权重小于第二类样本的损失权重;利用调整后的损失权重对待分类不平衡样本集进行分类。
[0068]
第一类样本可以是不平衡样本集中的多数类样本,第二类样本可以是不平衡样本集中的少数类样本。调高第二类样本的损失权重可以提高少数类样本的鉴别准确率。
[0069]
在该实施例中,目标分类器的总损失函数可以用式5来表示:
[0070][0071]
式中,lc(x

,y)表示原始不平衡样本集和生成样本集,mic表示第二类样本的集合,mac表示第一类样本的集合,l表示一个样本的交叉熵。
[0072]
式6示出了交叉熵的定义式。
[0073][0074]
式中,c表示所有类别的集合,p(x,c)表示目标分类计算的样本属于类别c的概率。
[0075]
利用原始不平衡样本集和随机噪声生成样本之前,先对原始不平衡样本集进行归一化处理,可以将数据按照比例缩放到同一个特定的区间,从而加快梯度下降求最优解的
速度,也可以提高模型训练的准确性。
[0076]
通过候选样本集与原始不平衡样本集的二元交叉熵损失和样本间距来区分真假样本可以提高样本标注的准确度,进而提高生成样本的质量,高质量的生成样本和原始不平衡样本的合集作为训练数据集对分类器进行训练可以提高分类器的训练准确度,最终提高目标分类器的分类性能。
[0077]
本公开实施例还提供了一种用于不平衡样本集的分类装置,如图2所示,包括:数据生成器20,质量控制器22和分类器24;数据生成器20用于生成第一样本集;质量控制器22用于对第一样本集进行筛选以生成目标样本集,目标样本集和预先获取的原始不平衡样本集的合集用于对分类器24进行训练;分类器24用于对不平衡样本集进行分类。
[0078]
其中,数据生成器20包括:样本生成器201和特征鉴别器202,样本生成器201用于生成候选样本集,特征鉴别器202用于对候选样本集进行标注得到第一样本集。质量控制器22中包括:第一鉴别器221和第二鉴别器222,第一鉴别器221用于随机剔除第一样本集中的部分负样本得到第二样本集;第二鉴别器222用于对第二样本集中的样本进行二次鉴别以剔除被鉴别为负样本的样本得到目标样本集。
[0079]
图3示出了应用于本公开提出的分类器训练网络框架,如图3所示,将高斯混合模型输出的随机噪声和原始不平衡样本集输入到gan(生成对抗网络模型)中生成的样本经由特征鉴别器标记后输入到质量控制器中先后经过语义鉴别器和标签鉴别器的筛选得到高质量的目标样本集合和原始不平衡样本集一起用于分类器的训练。
[0080]
图3中示出的样本生成器、特征鉴别器、语义鉴别器、标签鉴别器和分类器是分类器训练网的各个部分可以应用于图2中示出的训练装置的实体模块中,例如:图2中第一鉴别器221应用图3中的语义鉴别器,第二鉴别器222可以应用图3中的标签鉴别器。
[0081]
可以理解的是,本公开实施例中所提供的训练网络框架在相关技术中的生成对抗网络的基础上通过加入质量控制器来调整样本的生成速率和样本的质量。样本生成器和特征鉴别器分别对应相关技术中生成对抗网络中的生成器与判别器。
[0082]
图4和图5分别示出了本公开提供的分类器训练方法的两个阶段,图4示出了其中的第一阶段,即生成对抗网络的训练阶段,对生成对抗网络进行训练,其中样本生成器和特征鉴别器进行交互式更新。在此阶段,特征鉴别器的输出是语义鉴别器的输入,语义鉴别器随机地删除一些生成的可区分的样本。然后,语义鉴别器的输出经过标签鉴别器,去除或调整质量较差的标签。最后,达到预期质量的生成样本与原始样本将被一起用来训练分类器。图5示出了第二阶段,即当生成对抗网络模型训练好之后,此时,样本生成器和特征鉴别器不再更新也就是固定住样本生成器与特征,特征鉴别器也帮助语义鉴别器去除语义质量较低的样本。在这个阶段中,数据生成器生成的样本在发送给分类器之前,先由语义鉴别器进行过滤,然后由标签鉴别器进行调整或过滤。在满足预定义的条件后,最后使用原始数据集和生成的高质量样本对分类器进行训练。
[0083]
本公开还提供了一种分类器的训练装置,如图6所示,包括:第一获取模块60,用于获取原始不平衡样本集;生成模块62,用于根据原始不平衡样本集和随机噪声生成第一样本集,其中第一样本集中包括被标记为正样本的样本和标记为负样本的样本;第二获取模块64,用于从第一样本集中剔除不符合预设条件的样本得到目标样本集;训练模块66,用于以原始不平衡样本集和目标样本集的合集为训练数据集,对分类器进行训练,其中,分类器
用于完成对待分类不平衡样本集的分类。
[0084]
可选地,生成模块62包括:第一生成子模块和第二生成子模块,第一生成子模块用于利用预先构建的高斯混合模型对原始样本集进行归一化处理;将进行归一化处理后的原始不平衡样本集和高斯混合模型随机生成的噪声结合生成候选样本集,第二生成子模块用于根据原始不平衡样本集和随机噪声生成候选样本集;对候选样本集中的样本进行标记,得到第一样本集,其中,标记包括:标记为正样本和标记为负样本。
[0085]
第一生成子模块包括:生成单元和标记单元;生成单元用于利用预先构建的高斯混合模型对原始样本集进行归一化处理;将进行归一化处理后的原始不平衡样本集和高斯混合模型随机生成的噪声结合生成候选样本集;
[0086]
标记单元用于根据候选样本集和原始不平衡样本集的二元交叉熵损失和样本间距对候选样本集进行标注,将标注后的候选样本集确定为第一样本集。
[0087]
第二获取模块64包括:目标子模块,目标子模块用于利用第一鉴别器从第一样本集中随机剔除负样本,得到第二样本集,第一样本集中的所有被标记为负样本的样本被剔除的概率均为设定概率;利用第二鉴别器从第二样本集中剔除被第二鉴别器鉴别为负样本的样本,得到目标样本集。
[0088]
目标子模块还包括:目标单元,目标单元用于获取第二鉴别器中的多个预先确定的第一分类器对第一样本集中的样本的标记;将第二样本集中被目标数量第一分类器标记为负样本的样本确定为被第二鉴别器鉴别为负样本的样本;剔除被第二鉴别器鉴别为负样本的样本,得到目标样本集。
[0089]
可选地,训练装置还包括分类模块,分类模块用于调整待分类不平衡样本集中第一类样本和第二类样本的损失权重使第一类样本的损失权重小于第二类样本的损失权重;利用调整后的损失权重对待分类不平衡样本集进行分类。
[0090]
图7a示出了一种样本的验证过程,有生成对抗网络生成的样本经过多个第一分类器鉴别后得到多个分类结果(正样本或者是负样本),目标数量第一分类器确定分类结果为负样本的情况下确定输入的样本为负样本目标数量大于设定阈值t
l

[0091]
图7b示出了另一种样本的验证过程,可以通过调整设定阈值的大小来控制样本验证的速率和质量。在样本生成的初期为了加快样本的验证速率可以缩小设定阈值,在样本生成的后期为了控制生成样本的质量,可以增加设定阈值以保障生成的样本被更多的第一分类器验证。输入的第一样本集中的样本在有目标数量第一分类器验证为真也就是正样本的情况下,确定该样本为正样本。
[0092]
需要进行说明的是,在相关技术在生成式对抗网络中,训练好的生成器可以操纵特定的特征属性以欺骗判别器,而判别器则可用来区分真实样本的和生成器合成的虚假样本。生成样本的质量便在生成器和判别器的相互对抗中,得到提高。但是,由于样本的缺乏以及不平衡,无法拥有足够的样本去区分不同样本特征。而本公开提出的分类器的训练方法通过调整质量控制器的设定条件进而调整样本的获取速率和样本质量。这样能够获取大量高质量的生成样本来平衡原始不平衡样本集,由足量的样本作为训练数据集训练得到的分类器的性能(区分样本的能力)得到提高,进一步的便提高了分类的准确性。
[0093]
需要进一步说明的是,在实际应用场景中,例如故障检测场景,一个很小的故障也会引起连锁反应。状态监测与故障诊断技术作为一种预测性维护手段,当前,用于故障诊断
的方法有很多,如专家系统模型、物理模型、数据驱动模型等。但采用数据驱动模型,需有足够多的相关监测数据和维修数据,才可以快速得到异常检验模型,可以避免对设备先验知识的依赖。但这种方法需要海量数据才能得到高精度模型,但数据量的不足的问题很难克服,虽然可以通过优化算法、仿真数据、强化学习来克服。但大多数数据驱动的故障诊断方法都假设数据集是均匀分布的,即不同类别的样本数量是接近的。然而,实际应用中的数据往往是不平衡的,对于一个正常运行的设备而言,故障样本不可避免地要远远少于正常样本。当这些数据驱动的分类算法直接用于故障诊断时,很难获得满意的结果。预测结果往往偏向于大多数类别,使得故障诊断的准确率非常低。然而,在实际应用中,故障类数据显然更为重要。因此,面对不平衡的数据,必须克服由其带来的偏差。其中,合成少类样本技术(synthetic minority oversampling technique,smote)是一种常用的方法,通过添加合成少数类样本来调整数据分布,从而提高分类性能。常用的生成对抗网络由于其高效性和灵活性,也被用于合成样本的生成。与smote及其变种主要依靠专家知识设计合成少数群体的生成规则不同,gan方法可以自动学习其内在分布并生成与真实样本相似的少数样本。一个gan包括两个变量网络:一个生成器和一个辨别器,分别表示为g和d,在gan中它们被训练成相互博弈。生成器g生成的样本用辨别器d进行判断和评价,然后根据评价结果对生成器g进行优化,这样,可以大大提高样本生成过程的效率和质量。目前,gan及其变体已经成功地应用于图像修复、场景合成、人脸识别等多个领域,但是,直接依赖于随机生成的gan可能会生成质量不受控的样本,从而降低不平衡分类模型的性能。相关技术中也存在引入了新的基于神经网络的分类器和相应的损失项来度量生成记录的标签与分类器预测的标签之间的差异。但同样没有考虑数据的分布情况。而本公开提供的方法通过直接提升生成样本的质量,来提高用于训练分类器的训练数据集的样本质量,进而提高分类器的分类准确率,可操作性和实用性都更可靠。
[0094]
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
[0095]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0096]
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0097]
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
[0098]
设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通
信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0099]
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如方法分类器的训练方法。例如,在一些实施例中,方法分类器的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行上文描述的方法分类器的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法分类器的训练方法。
[0100]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0101]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0102]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0103]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0104]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0105]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0106]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0107]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1