不平衡数据的半监督分类方法

文档序号:6335151阅读:1464来源:国知局
专利名称:不平衡数据的半监督分类方法
技术领域
本发明属于数据处理领域,涉及不平衡数据分类,是模式识别和机器学习在数据 挖掘领域的应用,具体的说是一种基于模糊聚类和半监督学习的不平衡数据分类方法,可 用于训练样本极少的不平衡数据的分类与识别。
背景技术
伴随着全球信息技术的飞速发展,功能强大的计算机、数据收集设备和存储设备 为人们进行事务管理、信息检索和数据分析提供了大量的数据信息。尽管获得的数据量非 常大,但是对人们有用的数据往往只占全部数据的一小部分。这种某类样本数量明显少于 其它类样本的数据集被称作不平衡数据集,不平衡数据集的分类问题大量存在于现实生活 之中,例如,检测公民的信用申请是否存在欺诈,一般情况下欺诈申请要远少于合法申请; 利用诊疗数据诊断病人的疾病,如心脏病患者要远少于健康的人。在这些实际应用中,人们 更关心的是数据集中的少数类,即样本数目远少于其它类样本的一类样本,而且这些少数 类的错分代价往往非常大,因此需要有效提高少数类的分类精度。同时随着数据采集技术的发展,获取大量未标记样本变得非常容易,而有标记样 本的获取因需要大量的人力物力仍相对困难,从而需要研究如何有效的利用大量存在的未 标记样本协助少量有标记样本提高分类器的学习性能。引入半监督学习的思想可同时利用 有标记样本和未标记样本对数据集进行训练和预测,其中基于SVM分类器的直推式支持向 量机TSVM方法就是一种具有代表性的半监督分类方法,该方法需要预先设定未标记样本 中各类样本数目比例,这通常要依据有标记样本集的数据分布对其进行估计,在实际应用 中,如果未标记样本与有标记样本的数据分布偏差较大,将严重影响TSVM分类方法对数据 集的分类和预测结果。近几年来,不平衡数据集的分类问题越来越受到数据挖掘和机器学习研究领域的 关注,国内外学者对不平衡数据的研究主要有两个方面一是基于数据采样的方法,其主要 目的是通过对数据进行预处理降低数据的不平衡度,如模拟增加少数类样本的少数类样本 合成过采样技术SMOTE; 二是基于分类算法的方法,Veropoulos等人提出的不同惩罚参数 的支持向量机Biased-SVM,为各类样本指派不同的惩罚参数,从一定程度上抵消了数据不 平衡度对分类器SVM的影响。面对不平衡数据集的学习问题,研究的困难主要来自于不平衡数据集本身的特 点不平衡数据集中的少数类样本不足,样本的分布并不能很好的反映整个类的实际分布; 多数类通常会夹杂噪声数据,使得两类样本往往会出现不同程度的重叠。此外,传统的机器 学习领域的分类方法,在直接应用于不平衡数据集时,如果没有考虑数据的不平衡性,容易 将少数类样本错分为多数类,尽管整体的分类精度比较高,但对少数类的分类精度非常低; 相反的,如果过分考虑不平衡性对分类方法的影响,又容易出现过学习现象,虽然对训练集 可以达到很高的分类精度,但面对数据集的更新和变化时,分类效果又不够理想了。

发明内容
本发明的目的在于克服上述已有技术的不足,针对有标记样本较少的不平衡数 据,提出一种基于模糊聚类和半监督学习的不平衡数据分类方法,以在考虑到数据不平衡 性的同时,引入半监督学习的思想,避免过学习现象的出现,提高分类器对数据集中少数类 的分类精度。实现本发明目的的技术思路是通过实施模糊聚类,并结合基于SVM分类器的自 训练学习过程,对未标记样本不断进行标记和利用,扩充有标记样本集中的少数类,在均衡 各类样本数目的同时,为分类器提供更多有效的样本分布信息,从而提高分类器对不平衡 数据的分类性能。其技术方案包括以下步骤(1)读取一个包含两种类型的不平衡数据集,将这两种类型按照样本数目的多少 分别记作少数类和多数类,从该两类不平衡数据样本中随机选取一部分作为初始有标记样 本集IxJ,将剩余的数据样本作为初始未标记样本集{Xj};(2)对所述不平衡数据集的聚类中心进行初始化(2a)对当前有标记样本集IxJ中的少数类样本和多数类样本分别取均值,得到均 值中心集合M = {m+,m_},其中m+是少数类样本的均值中心,m_是多数类样本的均值中心;(2b)对均值中心集合M中的各中心分别实施均值漂移算法,找到初始聚类中心 M* = {mlm_),其中<是少数类样本的初始聚类中心,屹是多数类样本的初始聚类中心;(3)基于初始聚类中心M*,对当前有标记和未标记样本实施模糊C均值聚类,得到 聚类中心AT ={<>!*},其中<是少数类样本的聚类中心,<是多数类样本的聚类中心, 并将当前所有未标记样本到各聚类中心的隶属度集合记作U= IucJj e (1,2,...,u), c e (+,-)},其中Uc;j是第j个未标记样本到标记为c的聚类中心的隶属度,u是当前未标 记样本集的样本数目;(4)通过上述模糊聚类步骤,依据隶属度集合U,从当前未标记样本集{Xj}中选取 聚类标记为正且对应隶属度最大的H个样本进行标记,即H = pXN+,从而将当前有标记样 本集和未标记样本集分别更新为和{<},式中N+是当前有标记样本集中少数类的样本数 目,P是从未标记样本中选取出并进行标记的比例;(5)对上述聚类更新后的数据集{<}和{<},进行基于SVM分类器的自训练;(6)通过上述自训练步骤,从聚类更新后的未标记样本集{X;}中选取判别函数值最 大的H*个样本进行标记,即矿=pxN:,从而将当前有标记样本集和未标记样本集分别再 次更新为{χΓ}和{<},式中<聚类更新后的有标记样本集{<}中少数类的样本数目,P是从 未标记样本中选取出并进行标记的比例;(7)对上述自训练更新后的数据集和{<},进行基于不同惩罚参数的支撑矢 量机Biased-SVM的分类;(8)对上述基于不同惩罚参数的支撑矢量机Biased-SVM的不平衡数据分类结果 利用几何均值Gm进行评估;(9)根据获得的几何均值是否达到最优作为终止条件,若满足则停止迭代,返回步 骤(8)输出分类结果,否则返回步骤(2),直到满足终止条件为止。本发明与现有技术相比具有如下优点
(1)本发明由于引入了无监督的模糊聚类算法,挖掘未标记样本中隐含的数据分 布信息,因而无需人工预先确定训练样本的标记,避免了实际操作中枯燥又费时的标记工 作;同时由于本发明使用有标记样本引导聚类过程,且不依赖于有标记样本的初始分布,因 此不会受到数据集的更新和变化所带来的影响,从而提高了分类器对不平衡数据分类的泛 化能力。 (2)本发明由于综合考虑了在实际应用中,经常会遇到有标记样本较少或很难获 取,同时数据的不平衡度又很高的数据集问题,通过实施模糊聚类,并结合基于SVM分类器 的自训练学习过程,对未标记样本不断进行标记和利用,扩充有标记样本集中的少数类,因 而可在均衡各类样本数目的同时,为分类器提供更多有效的样本分布信息,避免过学习现 象的出现,提高了分类器对不平衡数据的分类性能。


图1是本发明的流程图;图2是本发明使用均值漂移算法对聚类中心进行初始化示意3是本发明中参数ρ的设置对分类器的性能影响分析图;图4是本发明与现有技术在不平衡数据集上得到的几何均值Gm对比图。
具体实施例方式参照图1,本发明的具体实现步骤如下步骤1,选定初始有标记样本集和初始未标记样本集。给定一个不平衡数据集,该数据集的样本按照其特征和属性的不同划分为两种类 型,将这两种类型按照样本数目的多少分别记作少数类和多数类,从该两类不平衡数据集 中随机选取一部分作为初始有标记样本集IxJ,将剩余的数据样本作为初始未标记样本集W。步骤2,对所述不平衡数据集的聚类中心进行初始化。(2a)对当前有标记样本集IxJ中的少数类样本和多数类样本分别取均值,得到均 值中心集合M = {m+,m_},其中m+是少数类样本的均值中心,m_是多数类样本的均值中心;(2b)用有标记和未标记样本{xk|k = 1,...,η}分别对均值中心集合M = {m+, mj中的各中心点实施均值漂移算法,找到初始聚类中心M* = ^^,m:},其中是少数类样 本的初始聚类中心,是多数类样本的初始聚类中心。在对均值中心集合M = {m+,m_}中的各中心点实施均值漂移算法时,首先将均值漂 移向量用如下公式定义
ZG(〒) Mh(X)=k^ “―X,1)
Σ (〒) k=i n其中χ对应中心点,GO采用高斯核函数,核带宽取Z7 = 1.06^7—* A是数据集的标 准差,η是样本数目;接着将1)式右边的第一项记为mh(x),给定容许误差ε,并执行下面 三步,直至结束条件满足,(a)计算 mh(x);
(b)把 mh(x)赋给 χ ;(c)如果I |mh(x)-x | < ε,结束循环,否则返回执行(a)。在上述均值漂移算法中,因为mh(x) = x+Mh(x),且Mh(X)指向概率密度梯度的方 向,即概率密度增加最大的方向,所以均值漂移算法通过执行以上步骤,使得待求的中心点 不断的沿着概率密度的梯度方向移动,最终找到样本分布最密集的区域的中心点。图2展示了采用均值漂移算法初始聚类中心的有效性。首先从经典的四类square 数据集中任取两类,各类样本数目之比为1 5,接着从各类样本中随机选取6%的样本作 为有标记样本,其余作为未标记样本,其数据分布如图2(a)所示,“ + ”和“X”分别代表各 类的有标记样本,图2(b)中菱形“ ”代表均值中心集合M= {m+,m_}的各中心点,“ ☆”代 表通过均值漂移算法得到的初始聚类中心= {<,《}的各中心点,从图2可以看到,本发 明使用的均值漂移算法得到的初始聚类中心点更接近数据集中各类的分布中心。步骤3,基于步骤2中取得的初始聚类中心M*,对当前有标记和未标记样本实施 模糊C均值聚类,得到聚类中心AT ={<,<},其中<是少数类样本的聚类中心,<是 多数类样本的聚类中心,并将当前所有未标记样本到各聚类中心的隶属度集合记作U = IucJje (l,2,...,u),ce (+,-)},其中u。」是第j个未标记样本到标记为c的聚类中心 的隶属度,u是当前未标记样本集的样本数目。所述模糊C均值的算法步骤如下(a)给定初始聚类中心;
(b)重复下面的运算,直到有标记和未标记样本的隶属度值稳定 (bl)计算隶属度
权利要求
一种不平衡数据的半监督分类方法,包括如下步骤(1)读取一个包含两种类型的不平衡数据集,将这两种类型按照样本数目的多少分别记作少数类和多数类,从该两类不平衡数据样本中随机选取一部分作为初始有标记样本集{xi},将剩余的数据样本作为初始未标记样本集{xj};(2)对所述不平衡数据集的聚类中心进行初始化(2a)对当前有标记样本集{xi}中的少数类样本和多数类样本分别取均值,得到均值中心集合M={m+,m },其中m+是少数类样本的均值中心,m 是多数类样本的均值中心;(2b)对均值中心集合M中的各中心分别实施均值漂移算法,找到初始聚类中心其中是少数类样本的初始聚类中心,是多数类样本的初始聚类中心;(3)基于初始聚类中心M*,对当前有标记和未标记样本实施模糊C均值聚类,得到聚类中心其中是少数类样本的聚类中心,是多数类样本的聚类中心,并将当前所有未标记样本到各聚类中心的隶属度集合记作U={ucj|j∈(1,2,...,u),c∈(+, )},其中ucj是第j个未标记样本到标记为c的聚类中心的隶属度,u是当前未标记样本集的样本数目;(4)通过上述模糊聚类步骤,依据隶属度集合U,从当前未标记样本集{xj}中选取聚类标记为正且对应隶属度最大的H个样本进行标记,即H=p×N+,从而将当前有标记样本集和未标记样本集分别更新为和式中N+是当前有标记样本集中少数类的样本数目,p是从未标记样本中选取出并进行标记的比例;(5)对上述聚类更新后的数据集和进行基于SVM分类器的自训练;(6)通过上述自训练步骤,从聚类更新后的未标记样本集中选取判别函数值最大的H*个样本进行标记,即从而将当前有标记样本集和未标记样本集分别再次更新为和式中聚类更新后的有标记样本集中少数类的样本数目,p是从未标记样本中选取出并进行标记的比例;(7)对上述自训练更新后的数据集和进行基于不同惩罚参数的支撑矢量机Biased SVM的分类;(8)对上述基于不同惩罚参数的支撑矢量机Biased SVM的不平衡数据分类结果利用几何均值Gm进行评估;(9)根据获得的几何均值是否达到最优作为终止条件,若满足则停止迭代,返回步骤(8)输出分类结果,否则返回步骤(2),直到满足终止条件为止。FDA0000030757070000011.tif,FDA0000030757070000012.tif,FDA0000030757070000013.tif,FDA0000030757070000014.tif,FDA0000030757070000015.tif,FDA0000030757070000016.tif,FDA0000030757070000017.tif,FDA0000030757070000018.tif,FDA0000030757070000019.tif,FDA00000307570700000110.tif,FDA00000307570700000111.tif,FDA00000307570700000112.tif,FDA00000307570700000113.tif,FDA00000307570700000114.tif,FDA00000307570700000115.tif,FDA00000307570700000116.tif,FDA00000307570700000117.tif,FDA00000307570700000118.tif
2.根据权利要求1的不平衡数据的半监督分类方法,其中步骤(5)所述的对聚类更新 后的数据集和{々,进行基于SVM分类器的自训练,按如下步骤进行(5a)利用聚类更新后的有标记样本集{<}训练SVM分类器;(5b)利用SVM分类器的判别函数= +M导到聚类更新后的未标记样本集{々 中各样本的测试标记·叫=sgn(wx]+b),其中w是通过训练SVM分类器得到的最优分 类平面的权值向量,b是其偏置向量,sgn()是符号函数,<是用于测试的未标记样本。
3.根据权利要求1的不平衡数据的半监督分类方法,其中步骤(7)所述的对自训练更 新后的数据集和,进行基于不同惩罚参数的支撑矢量机Biased-SVM的分类,按如下步骤进行(7a)利用自训练更新后的有标记样本集{<}训练不同惩罚参数的支撑矢量机 Biased-SVM ;(7b)利用不同惩罚参数的支撑矢量机Biased-SVM的判别函数f (Xj) = wXj+b,得到 初始未标记样本集{x」}中各样本的测试标记label (Xj) = sgn (w · Xj+b),其中w是训练不 同惩罚参数的支撑矢量机Biased-SVM得到的最优分类平面的权值向量,b是其偏置向量, sgn()是符号函数,\是用于测试的未标记样本。
4.根据权利要求1的不平衡数据的半监督分类方法,其中步骤(8)所述的对基于不同 惩罚参数的支撑矢量机Biased-SVM的不平衡数据分类结果利用几何均值Gm进行评估,按 如下步骤进行TPTN(8a)分别计算出少数类的分类精度& =和多数类的分类精度沴=·TP + FN 乂 、η"…,口…FP+ TN其中,对应于数据的预测结果,TP是预测为少数类且实际为少数类样本数目,FP是预测为 少数类但实际为多数类的样本数目,FN是预测为多数类但实际为少数类的样本数目,TN是 预测为多数类且实际为多数类的样本数目;(8b)依据上述计算得到的Se和Sp值,计算几何均值Gm = ,JSe χ Sp。
全文摘要
本发明公开了一种基于模糊聚类和半监督学习的不平衡数据分类方法,主要用于解决现有技术在有标记样本较少且不平衡度较高的数据上,对少数类的分类精度低的问题。其实现步骤为(1)初始有标记样本集和未标记样本集;(2)初始聚类中心;(3)实施模糊聚类;(4)依据聚类结果更新有标记样本集和未标记样本集;(5)实施基于SVM分类器的自训练;(6)依据自训练结果更新有标记样本集和未标记样本集;(7)实施基于不同惩罚参数的支撑矢量机Biased-SVM的分类;(8)评估分类结果并输出。在有标记样本较少的不平衡数据上,本发明提高了少数类的分类精度,可用于训练样本极少的不平衡数据的分类与识别。
文档编号G06F17/30GK101980202SQ20101053091
公开日2011年2月23日 申请日期2010年11月4日 优先权日2010年11月4日
发明者侯彪, 冯吭雨, 张青, 焦李成, 王爽, 缑水平, 钟桦, 马文萍 申请人:西安电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1