基于不平衡分类指标与集成学习的不平衡数据分类方法

文档序号:9235705阅读:368来源:国知局
基于不平衡分类指标与集成学习的不平衡数据分类方法
【技术领域】
[0001] 本发明属于数据处理领域,设及集成学习分类方法,具体是一种基于不平衡分类 指标与集成学习的不平衡数据分类方法,可用于不平衡数据的分类与识别。
【背景技术】
[0002] 伴随着全球信息技术的飞速发展,功能强大的计算机、数据收集设备和存储设备 为人们进行事务管理、信息检索和数据分析提供了大量的数据信息。尽管获得的数据量特 别大,但是对人们有用的数据往往只占全部数据的一小部分。该种某类样本数据数量明显 少于其他类样本的数据集被称作不平衡数据集,不平衡数据集的分类问题大量存在于现实 生活之中。例如,检测公民的信用申请是否存在欺诈,一般情况下欺诈申请要远少于合法申 请;利用诊疗数据诊断病人的疾病,如屯、脏病患者要远少于健康的人。在该些实际应用中, 人们更关屯、的是数据集中的少数类,即样本数目远少于其他类样本的一类样本,而且该些 少数类的错分代价往往非常大,因此需要有效提高少数类的分类精度。
[0003] 近几年来,不平衡数据集的分类问题越来越受到数据挖掘和机器学习研究领域的 关注,国内外学者对不平衡数据的研究主要有两个方面;一是基于数据采样的方法,其主要 目的是通过对数据进行预处理降低数据的不平衡度,如模拟增加少数类样本的少数类样本 合成过采样技术SMOTE ;二是基于分类算法的方法,Veropoulos等人提出的不同惩罚参数 的支持向量机Biased-SVM,为各类样本指派不同的惩罚参数,从一定程度上抵消了数据不 平衡度对支持向量机的影响。
[0004] 面对不平衡数据集的学习问题,研究的困难主要来自于不平衡数据本身的特点: 不平衡数据集中的少数类样本不足,样本的分布并不能很好的反映整个类的实际分布;多 数类通常会夹杂噪声数据,使得两类样本往往会出现不同程度的重叠。此外,传统的机器学 习领域的分类方法,在直接应用于不平衡数据时,如果没有考虑数据的不平衡性,容易将少 数类样本错分为多数类,尽管整体的分类精度比较高,但对少数类的分类精度非常低。

【发明内容】

[0005] 本发明的目的在于针对上述已有技术的不足,提出一种基于不平衡分类指标与集 成学习的不平衡数据分类方法,W提高分类器对少数类的分类精度。
[0006] 为实现上述目的,本发明技术方案包括如下步骤:
[0007] (1)输入一个包含两类数据的不平衡数据集,并将样本较多的类记作多数类,样本 较少的类记作少数类,从该不平衡数据集中随机选取十分之九的样本作为训练样本,将剩 余的样本作为测试样本,并设定最大迭代次数T ;
[000引 似设训练样本初始权重服从均匀分布,即每一个(Xi,yi)GS,A(-1-,.0^) = ^,其 N 中i = 1,2,. . .,N,t = 1,N表示训练样本的个数,S表示训练集,Xi表示第i个训练样本, 表示第i个训练样本的类别标识,D t表示第t轮中训练样本的样本权重;
[0009] (3)根据第t轮中训练样本的样本权重Dt选取第t轮生成的弱分类器的训练样 本,用选取的训练样本对支持向量机进行训练,获得第t轮生成的弱分类器、,用弱分类器 、对所有训练样本进行分类,得到训练样本的预测类标h t (Xi),其中i = 1,2, . . .,N ;
[0010] (4)计算第t轮生成的弱分类器ht在训练集上的错误率:
,其 中,Dt(x。yi)表示第t轮中训练样本Xi的样本权重,h t(Xi)表示第t轮训练后生成的弱分 类器、对第i个训练样本Xi的预测类标,y康示第i个训练样本的类别标识;
[0011] (5)将错误率Et与设定的阔值k = 0.5进行比较:若e t>k,令最大迭代次数T =t-1,转到步骤巧);若e t< k,则执行步骤化);
[0012] (6)计算不平衡问题的评价指标G,用G优化£t,得到优化后的错误率= EtX(l-G)\其中A是惩罚参数;
[001引 (7)根据优化后的错误率十算第t轮生成的弱分类器ht的投票权重:
[0014]做计算第t+1轮中训练样本权重:
庚中,
为中间变量,式中Dt(Xi)表示第t轮中训练样本Xi的 样本权重,a t表示第t轮生成的弱分类器的投票权重,h t (Xi)表示第t轮训练后生成的弱 分类器、对训练样本Xi的预测类标,yi表示第i个训练样本Xi的类别标识,N表示训练样 本的个数;
[001引 (9)判断t是否达到最大迭代次数T^t<T,则t加1,返回步骤(3) ^t>T, 输出强分类器
其中,at表示第t轮生成的弱分类器的投票 权重,Xj.表示第j个测试样本,y j.表示测试样本X j.的类别标识,ht(Xj.)表示第t轮生成的弱 分类器、对测试样本Xj.的预测类标。
[0016] 本发明与现有技术相比具有如下优点:
[0017] 1)本发明由于在集成算法中,通过不平衡问题评价指标G来优化弱分类器在训 练集上错误率,并将优化后的错误率用到训练样本权重的更新和弱分类器投票权重的求取 中,提高了分类器对少数类的分类精度,使集成算法更适合用于解决不平衡分类问题。
[0018] 2)本发明由于根据训练样本权重选取部分训练样本对支持向量机进行训练,避免 了过拟合,减少了计算量,提高了计算速度。
[0019] W下结合附图对本发明的实施例及效果作进一步详细描述。
【附图说明】
[0020] 图1是本发明的实现流程图;
[0021]图2是本发明与现有技术在不平衡数据集上得到的不平衡问题评价指标F对比 图。
【具体实施方式】
[0022] 参照图1,本发明的具体实现步骤如下:
[0023] 步骤1,选定训练集和测试集,并设定最大迭代次数T。
[0024] 输入一个包含两类数据的不平衡数据集,并将样本较多的类记作多数类,样本较 少的类记作少数类,从该不平衡数据集中随机选取十分之九的样本作为训练样本,将剩余 的样本作为测试样本,并设定最大迭代次数T。
[0025] 步骤2,初始化训练样本的权重。
[0026] 设训练样本初始权重服从均匀分布,即每一个(X。yi)G S,A(x,,.r,) =^,其中i =1,2,. . .,N,t = 1,N表示训练样本的个数,S表示训练集,Xi表示第i个训练样本,y i表 示第i个训练样本的类别标识,Dt表示第t轮中训练样本的样本权重。
[0027] 步骤3,从训练集中选取部分训练样本训练支持向量机。
[002引 (3a)对第t轮中训练样本的样本权重Dt进行排序,选择前n个权重较大的样本作 为第t轮生成的弱分类器的训练样本;
[0029] (3b)用选取的训练样本对支持向量机进行训练,其目标函数为:
,其中,C是惩罚参数,Wt表示通过第t轮训练支持向量机得 到的最优分类平面的权值向量,bt表示其偏置向量,C i为松弛项,Xi表示第i个训练样本;
[0030] (3c)通过求解上述的目标函数,得到第t轮生成的弱分类器ht,用弱分类器、 对所有训练样本进行分类,得到训练样本Xi的预测类标h t(Xi) = sgn(Wt ? Xi+bt),其中, sgn( ?)是符号函数,Wt表示通过第t轮训练支持向量机得到的最优分类平面的权值向量, bt表不其偏置向量。
[0031] 步骤4,利用下式计算第t轮生成的弱分类器、在训练集上的错误率e t;
[0032]
[00对其中,Dt(Xi,yi)表示第t轮中第i个训练样本Xi的样本权重,ht(Xi)表示第t轮 训练后生成的弱分类器、对第i个训练样本X i的预测类标,y i表示第i个训练样本的类别 标识。
[0034]步骤5,将错误率et与设定的阔值k = 0. 5进行比较:若e k,令最大迭代次 数T = t-1,转到步骤10 ;若e t< k,则执行步骤6。
[0035]步骤6,计算不平衡问题的评价指标G,用G优化et。
[0036] 化a)计算少数类的分类精度
其 中,TP表示预测类标为少数类且实际类标也为少数类的样本数目,FP表示预测类标为少数 类但实际类标为多数类的样本数目,FN表示预测类标为多数类但实际类标为少数类的样本 数目,TN表示预测类标为多数类且实际类标为多数类的样本数目;
[0037] 化b)依据上述计算得到的Se和Sp,计算Se和Sp的几何均值G= ?^尽^,该几 何均值是不平衡问题的评价指标;
[0038] 化C)依据上述计算得到的不平衡问题评价指标G,优化错误率£t,即= EtX(l-G)\其中A的数值根据交叉验证方法确定,优化后的错误率与不仅与被分错的样 本的权重有关,还充分考虑到了不平衡问题的特性,更适合评价不平衡问题分类结果。
[0039] 步骤7,根据优
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1