不平衡数据的分类方法

文档序号:26907743发布日期:2021-10-09 14:14阅读:63来源:国知局
不平衡数据的分类方法

1.本发明涉及一种不平衡数据的分类方法,属于机器学习领域。


背景技术:

2.目前,数据不平衡问题的研究主要在数据预处理层面、特征层面和分类算法层面展开,保证分类器对多数类和少数类的数据都具有较高的分类精度。在数据预处理层面,通过改变训练集样本分布降低或消除不平衡性,具体的方法是一系列的欠采样和过采样技术;在特征层面样本数量分布的不平衡往往伴随着特征属性的分布不平衡,利用特征选择方法去选择具有区分特性的特征,提高少数类的分类精度;在分类算法层面,根据算法在解决不平衡问题时的缺陷,结合不平衡数据的特点,通过合理地改进算法以提高少数类样本地识别率,典型的方法有集成学习,代价敏感学习,单类学习等。
3.主动学习的主要思想是在训练过程中引入交互能力,循环过程中主动选取最佳样本添加到训练集中,减少参加训练样本数量,节约运算消耗。根据学习进程来主动选择最佳候选样本进行学习,打破传统的从已知标识的样本集中进行被动学习的方法。这种学习算法不仅能有效减少所需评价样本数量,提高初始分类器的预测准确率,并且能主动筛选有用样本,保存了多数有用信息。主动学习可以避免大量的手工标记工作,并且可以较好解决训练集规模太大导致学习过程速度变慢,大量占用内存空间的问题。
4.主动学习的样例选择策略主要有:基于流的样例选择策略和基于池的样例选择。其中基于池的样例选择标准主要包括:不确定标准、版本空间缩减标准、泛化误差缩减标准等。基于不确定标准的样例选择主要为用概率表示不确定程度和用距离表示不确定程度。基于版本空间缩减的样例选择应使选出的样例能最大限度地缩减样本的版本空间,版本空间指的是一系列不同类型基准分类器的组合。委员会查询是基于该标准的典型算法。分类器的泛化误差是评价其鲁棒性的常用指标,基于泛化误差缩减标准样例选择的最终目标是降低分类器的泛化误差。
5.在机器学习中,样本不平衡问题指的是类别分布不均衡的现象。处理该问题时如果使用的为常规算法,分类结果往往会偏向多数类,导致少数类无法被正确识别。但是传统算法多数是基于整体正确率最大化来训练分类器,因此会忽略少数类样本影响,导致少数类的误分,从而影响传统分类器的分类结果。但是在许多实际问题中,少数类相对于多数类往往携带更多的信息量,具有更大的价值。不平衡数据分类问题广泛存在于生物医疗、金融、信息安全、工业、计算机视觉等诸多领域。


技术实现要素:

6.本发明的目的在于提供一种不平衡数据的分类方法,该方法可以减少参加训练样本的数量,减少少数类的错分率,提升分类精度。
7.为实现上述目的,本发明提供一种不平衡数据的分类方法,包括主动学习方法和过采样方法,所述不平衡数据包括第一类数据和第二类数据,所述第一类数据和/或第二类
数据中包括有标记数据和无标记数据,具体步骤为:
8.步骤1、对有标记数据进行预处理,通过计算距离特征得到初始训练集;
9.步骤2、对所述初始训练集进行训练,得到初始分类器;
10.步骤3、利用所述初始分类器计算所述无标记数据的不确定度;
11.步骤4、根据所述不确定度对所述无标记数据进行排序,并交由人工进行标记,以得到已标记数据集;
12.步骤5、对所述已标记数据集使用过采样方法进行概率过采样,以得到平衡数据集;
13.步骤6、对所述平衡数据集进行训练得到分类器,用以对所述不平衡数据进行分类。
14.作为本发明的进一步改进,所述主动学习方法为基于不确定性采样策略的样本选择方式;所述过采样方法具体为:样本的特征包括离散型特征和连续型特征,对连续型特征的样本使用em算法并利用aic准则进行拟合,得到混合高斯分布模型p,并计算每个特征在其它特征下的条件分布函数,再通过gibbs抽样得到的新的样本;对离散型特征的样本使用先统计第一类数据中每个离散特征出现的不同频率,然后根据相应的频率随机产生新的样本。
15.作为本发明的进一步改进,步骤1中的预处理为:计算有标记数据与无标记数据之间的内部距离,所述内部距离的计算公式如下:
[0016][0017]
其中,n是数据维度,和分别表示无标记数据和有标记数据的第i维特征值。
[0018]
作为本发明的进一步改进,所述内部距离的最小值为距离特征,对无标记数据和有标记数据的所有样本计算每个样本x所有的距离特征,并按照距离特征从小到大的顺序排列,选取所述距离特征最小的前t个样本与所述有标记数据构成所述初始训练集,所述距离特征的计算公式如下:
[0019]
feature_dis(x)
x∈a
=min
z∈b dis
inner
(x,z),x∈a;
[0020]
其中,z为有标记数据的所有样本。
[0021]
作为本发明的进一步改进,步骤2具体为:使用支持向量机对所述初始训练集进行训练,得到初始分类器。
[0022]
作为本发明的进一步改进,步骤3具体为:使用所述初始分类器对所述无标记数据进行分类,得到样本x
i
属于类别y
i
的概率p(y
i
|x
i
),根据样本x
i
属于类别y
i
的概率p(y
i
|x
i
)计算得到信息熵,所述信息熵即为不确定度,所述信息熵的计算公式如下:
[0023][0024]
作为本发明的进一步改进,根据最优标号和次优标号准则判断样本x
i
的分类结果,所述最优标号和次优标号准则的计算公式如下:
[0025][0026]
其中,p(y
best
|x
i
)和p(y
second_best
|x
i
)分别是样本x
i
的最优分类概率和次优分类概
率。
[0027]
作为本发明的进一步改进,步骤4具体为:将无标记数据按照所述不确定度从大到小的顺序进行排列,对不确定度最大的样本进行人工标注,并将标注后的样本添加到所述初始训练集中,以训练初始分类器,直到所述初始分类器达到阈值后停止训练,得到已标记数据集。
[0028]
作为本发明的进一步改进,步骤5具体为:使用混合高斯模型将所述已标记数据集的真实分布进行表示,并进行概率过采样,得到平衡数据集,所述混合高斯模型的分布概率密度表达式为:
[0029][0030]
其中,ω
l
=1,2,

,l是加权权重,且满足μ
l
为混合高斯模型的均值;σ
l
为混合高斯模型的方差;n(x|μ
l

l
)为第l个高斯概率分布,表达式为:
[0031][0032]
作为本发明的进一步改进,所述概率过采样具体为:对所述已标记数据集中的样本循环使用所述过采样方法,直到生成s个新的样本,使所述第一类数据和第二类数据达到平衡,得到所述平衡数据集。
[0033]
本发明的有益效果是:本发明的不平衡数据分类方法通过将主动学习和过采样方法相结合,首先通过基于bvsb的不确定度样本选择方法来主动学习,减少了参加训练样本数量,节约运算消耗。然后通过基于概率选择的过采样方法,使得不平衡数据集达到平衡,减少少数类的错分率,保证分类器对多数类和少数类的数据都具有较高的分类精度。
附图说明
[0034]
图1是本发明不平衡数据分类方法的流程图。
[0035]
图2是主动学习方法的流程图。
具体实施方式
[0036]
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0037]
请参阅图1所示,本发明提供了一种不平衡数据的分类方法,其中,该分类方法包括主动学习方法和过采样方法,不平衡数据包括第一类数据和第二类数据,第一类数据和/或第二类数据中包括有标记数据和无标记数据,换句话说,第一类数据中可以存在有标记数据,也可以不存在有标记数据,第二类数据中可以存在有标记数据,也可以不存在有标记数据,第一类数据和第二类数据中可以均存在有标记数据。
[0038]
不平衡数据指数据的类别不平衡,也就是第一类数据的数量与第二类数据的数量不平衡,本实施例中,第一类数据和第二类数据在不平衡数据中的占比,第一类数据的占比较少,第二类数据的占比较大,也就是说,第一类数据为少数类,第二类数据为多数类。
[0039]
主动学习方法包括一种根据当前不平衡数据而采用的初始训练集选择策略,是一种基于不确定性采样策略的样本选择方式,减少了参加训练样本数量,节约运算消耗。
[0040]
过采样方法为基于概率的过采样方法,具体为:样本的特征包括离散型特征和连续型特征,对连续型特征的样本使用em算法并利用aic准则进行拟合,得到混合高斯分布模型p,并计算每个特征在其它特征下的条件分布函数,再通过gibbs抽样得到的新的样本;对离散型特征的样本使用先统计少数类中每个离散特征出现的不同频率,然后根据相应的频率随机产生新的样本,保证分类器对多数类和少数类的数据都具有较高的分类精度。
[0041]
请参阅图2所示,主动学习方法具体为:首先通过已标记的样本集合l训练一个初始分类器s,通过此初始分类器s和评估样本信息量的查询算法q,评估未标记样本集u中的每个样例信息,从中选择信息量最大的样本交由人工标注者t进行人工标注,再将人工标注的样本放入已标记样本集l中对初始分类器s进行优化。
[0042]
本发明的不平衡数据分类方法包括如下步骤:
[0043]
步骤1、对有标记数据进行预处理,通过计算距离特征得到初始训练集。
[0044]
计算有标记数据与无标记数据之间的内部距离,内部距离的计算公式如下:
[0045][0046]
其中,n是数据维度,和分别为无标记数据(a)和有标记数据(b)的第i维特征值。
[0047]
对无标记数据和有标记数据中的所有样本计算出每个样本x的所有的距离特征,所有样本按照距离特征从小到大的顺序排列,选取对应距离特征最小的前t个样本与有标记数据构成初始训练集。
[0048]
在样本参数组成的所有非同类的点中,内部距离的最小值为距离特征,当x∈a时,距离特征的计算公式如下:
[0049]
feature_dis(x)
x∈a
=min
z∈b dis
inner
(x,z);
[0050]
其中,z为有标记数据(b)的所有样本。
[0051]
步骤2、对初始训练集进行训练,得到初始分类器。
[0052]
利用步骤1得到的初始训练集,通过支持向量机(svm)在初始训练集上训练得到初始分类器f
frist
,用于后续的主动学习样本选择使用。
[0053]
步骤3、利用初始分类器计算无标记数据的不确定度。
[0054]
通过步骤2得到的初始分类器对所有的无标记数据样本进行分类,得到样本x
i
属于类别y
i
的概率,记作p(y
i
|x
i
),根据样本x
i
属于类别y
i
的概率p(y
i
|x
i
)计算得到信息熵(即不确定度),信息熵的计算公式如下:
[0055][0056]
其中,表示x在范围u里取最大值,样本的信息熵越高,样本的类别属性越模糊,能给模型带来较大的价值和信息量,有利于提升分类器的精确度。
[0057]
在多分类问题中,根据最优标号和次优标号准则(bvsb准则)判断样本x
i
的分类结果,在bvsb准则中只考虑样本分类可能性最大的两个类别,忽略其它分类结果,bvsb准则的计算公式如下:
[0058]
[0059]
其中,p(y
best
|x
i
)和p(y
second_best
|x
i
)分别是样本x
i
的最优分类概率和次优分类概率。
[0060]
步骤4、根据不确定度对无标记数据进行排序,并交由人工进行标记,以得到已标记数据集。
[0061]
用户对通过步骤3选择出来的信息量最大的样本(也就是信息熵最大的样本)进行人工标注,具体的,将无标记数据按照不确定度从大到小的顺序进行排列,对不确定度最大的样本进行人工标注。将标注后的样本添加到初始训练集中,使用更新后的初始训练集重新训练初始分类器,直到初始分类器达到阈值threshold停止训练,此时训练集中的所有样本为所需的训练样本,即已标记数据集。
[0062]
步骤5、对已标记数据集使用过采样方法进行概率过采样,以得到平衡数据集。
[0063]
使用混合高斯模型对步骤4得到已标记数据集的真实分布进行表示,并进行概率过采样,得到平衡数据集。混合高斯模型是对单一高斯密度函数的扩展,可以用来逼近任意形状的概率密度,其中,参数由l个高斯混合模型加权得到,混合高斯模型的分布概率密度表达式为:
[0064][0065]
其中,ω
l
=1,2,

,l是加权权重,且满足μ
l
为混合高斯模型的均值;σ
l
为混合高斯模型的方差;n(x|μ
l

l
)为第l个高斯概率分布,表达式如下:
[0066][0067]
其中,概率过采样具体为:对已标记数据集中的样本循环使用前述过采样方法,直到生成s个新的样本,使第一类数据(少数类)和第二类数据(多数类)达到平衡,得到平衡数据集。
[0068]
步骤6、对平衡数据集进行训练得到分类器,用以对不平衡数据进行分类。
[0069]
对步骤5得到带标签的平衡数据集进行训练得到分类器。将步骤5生成的平衡数据集训练得到最终分类器f
final

[0070]
综上所述,本发明提供了一种不平衡数据的分类方法,通过使用主动学习方法在训练过程中引入交互能力,并通过bvsb准则的不确定度来选择样本,减少了参加训练样本数量,节约运算消耗。同时,在训练过程中加入过采样方法,使不平衡数据集达到平衡,减少少数类的错分率,保证了分类器对多数类和少数类的数据都具有较高的分类精度。
[0071]
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1