一种融合增量学习的支持向量机多类分类方法

文档序号：6332519阅读：212来源：国知局

专利名称：一种融合增量学习的支持向量机多类分类方法
技术领域：
本发明涉及智能信息处理和机器学习技术领域，尤其是一种融合增量学习的支持向量机多类分类方法。适用于在复杂属性条件下，通过增量学习的方式对海量信息进行高效多类分类。
背景技术：
支持向量机(SupportVector Machine)是近几年发展起来的一种机器学习方法，它是基于结构风险最小化原则构建的，具有很强的学习能力和泛化性能，能够较好地解决小样本、高维数、非线性、局部极小等问题，广泛的应用于模式分类和非线性回归。传统的支持向量机是针对二类分类问题而提出的，不能直接用于多类分类，但在实际的应用中更多的是多类分类问题，如何将传统支持向量分类机推广到多类分类仍是目前支持向量机领域研究的热点。增量学习技术相比于传统的学习方法具有明显的优越性，主要表现为(1)增量学习算法可以充分利用历史的训练结果，从而减少后继训练时间；(2)无须保存历史数据且可舍弃无用样本减小训练集，从而减少了存储空间的占用；(3)随着增量学习过程的不断进行，所获得分类器的分类精度将不断提高。Syed.N(1999年)是最早开始基于支持向量机增量算法研究的学者，在该算法中给出了增量学习的增加策略，每次增量学习后只保留支持向量，丢弃其他的样本。 G. Cauwenberghs (2003年)等人提出了在线增量训练的精确解释，即增减一个训练样本对 Lagrange系数和支持向量的影响。该算法是有效的，但其缺点是忽略了新增样本分布对已有样本分布的影响，其训练结果并不令人满意。萧嵘等(2001年)提出了一种支持增量学习的方法ISVM，其训练集的来源为支持向量、误分数据或有选择地淘汰一些样本而来，算法具有较高的学习精度。C. DomeniconiOOOl年)提出了一种快速支持向量机增量学习算法。上述的这些算法的学习或存在振荡现象或因引入的淘汰机制缺乏新增样本对支持向量集影响的考虑而导致分类知识丢失。Liao DP等人(2007年)提出一种基于密度法的增量学习淘汰算法，该方法能准确地提出边界向量，淘汰掉非边界向量，有效地淘汰掉无用样本，保留重要信息，既保证训练的精度又提高训练的速度，计算简单且易于实现。尽管关于样本的增量学习取得上述一些成果，但有关该领域的增量学习方法的研究还处于初级阶段，且都局限于在两类分类中样本的增加，然而实际中存在大量的多分类问题，如文本分类、信用评估、人脸识别等，因此针对多类别增量学习的研究很必要也很重要。目前对支持向量机多类分类算法的研究比较多，包括l-a-Hone-against-rest) 算法.1-a-l (one-against-one)算法、DDAGSVM(directed acyclicraph SVM)算法等。Ying w等人(2006年)在克服上述算法缺点的基础上提出基于二叉树的支持向量机多分类算法 (简称BTSVM)，有较好的分类效果和分类效率，但是该算法的抗干扰能力较差，对训练数据的要求较高，在一定程度上阻碍了其应用。

发明内容
本发明要解决的技术问题是提供一种融合增量学习的支持向量机多类分类方法，旨在减少样本的训练时间、提高分类器的分类精度及抗干扰性。本发明所采用的技术方案是一种融合增量学习的支持向量机多类分类方法，其特征在于包括步骤步骤1、在总的样本中随机抽取一部分作为训练样本集D，另一部分作为测试样本集T;步骤2、对训练样本集D进行预抽取支持向量，获得最终的预抽取训练样本集PTS，剩下的训练样本作为增量样本集Btl ；步骤3、用循环迭代法对预抽取训练样本集PTS进行支持向量机训练，得到多类分类模型M-SVM ；步骤4、对多类分类模型M-SVM进行二叉树处理，得到基于二叉树的支持向量机多类分类模型BTMSVMq ；步骤5、对多类分类模型BTMSVMtl进行增量学习训练，得到新的多类分类模型 BTMSVM1 ；步骤6、将步骤1中的测试样本集T输入到多类分类模型BTMSVM1进行分类。步骤2中所述的预抽取支持向量按以下步骤进行2. 1、对K类样本根据各类样本的数量进行由多到少排序，训练样本中出现最多的类为第1类，以此类推，直至第K类，形成分类序列集合{si，s2...sk}；2. 2、确定训练样本的类型，对于K类的训练样本，训练K-I个支持向量机，第i个支持向量机以第i类样本为正的训练样本，将第i+1，i+2.....K类训练样本作为负的训练样本训练SVM⑴(i = 1. . . .K-1)，第K-I个支持向量机将以第K-I类样本作为正样本，以第 K类样本为负样本训练SVM(K-I)；2. 3、从训练样本集D中的第i类样本集中选取一个样本，根据类均值距离法求其与第i+Ι类所有样本间的距离= l，2...k，j = l，2，...k)δ Jjj = I Imi-IiijI ^TiTj
广,=丄ΣΚ—…丨2！^ Jt1始.华集的均值向量，I ImiIjI I2为i类和j类均值向其中叫λ丨表不弟ι类样本
η k=\
量间的距离，r,和&分别为i类及j类的类平均半径，η,为i类中的样本数目，称δ μ为 i类和i类之间的类均值距离；2. 4、找出这些距离中的最小值及与这个最小距离所对应的第i+Ι类中的样本，将其放在预抽取样本集合PTSO中；2. 5、返回到步骤2. 3，遍历完训练样本集D中第i类中的所有样本；2. 6、返回到步骤2. 1，遍历完训练样本集D中第i+Ι类中的所有样本；2. 7、对预抽取样本集合PTStl中的样本做唯一化处理，获得最终的预抽取训练样本集合PTS。步骤3中所述的循环迭代法按以下步骤进行3. 1、以步骤2最终获取的预抽取向量集PTS，构造数据集的分类超平面；
5
3. 2、利用所得到的分类超平面对训练样本集D进行测试，计算训练样本集D中样本与分类超平面间距离d，以及训练正确率P ；3. 3、当分类正确率P较小时，减少加入预抽取训练样本集PTS中违反 KKT条件(KKT条件是使每个样本满足优化问题的条件，在本发明中该条件定义为 at = 0 => y,f(x,) > ι，0<a,<C-兄/(χ,) = 1，α, =C-兄/(χ,)<1。其中非零的 ai
为SV，f(x) =h为SVM分类决策函数，{Xi,yi}为训练样本，C为指定常数。可知f(x) =0 为分类面，f(x) = 士1为分类间隔面，则a = 0对应的样本分布在分类器分类间隔面之外， 0<a< C对应的样本位于分类间隔面之上，a = C对应的样本位于分类间隔面关于本类的异侧。违背KKT条件等价于yif (Xi) < 1。)的样本的数量，以求减少求解二次规划问题的规模；当分类正确率P较大时，加大加入预抽取训练样本集PTS中违反KKT条件的样本的数量，以求减少循环迭代的次数，并加入到预抽取训练样本集PTS中，取代原预抽取训练样本集PTS，作为下次循环迭代的训练样本集；3. 4、当训练正确率P < 1时，重复3.3 ；当训练正确率P = 1时跳出循环，结束迭代，训练结束，得到多类分类模型M-SVM。步骤4包括4. 1、将步骤3训练得到的SVM1作为二叉树的根节点，将属于第1类的测试样本决策出来；4. 2、将不属于第1类的样本通过SVM2继续进行分类，依次类推直到SVMim将第K 类样本训练完，从而得到基于二叉树的SVM多类分类模型BTMSVM。。步骤5中所述的增量学习按以下步骤进行5. 1、将增量样本集Btl输入BTMSVMtl,将增量样本集分为满足BTMSVMtl的KKT条件和不满足KKT条件的2个集合；5. 2、对满足KKT条件的增量样本集和BTMSVMtl的负例样本集分别进行密度法淘汰处理，得到剩余集；5. 3、将剩余集与BTMSVMtl的正例样本集及增量样本集的不满足KKT条件的集合并得到新增量训练集B1;5. 4、将新增量训练集Bl输入BTMSVMtl进行训练，得到新的多类分类模型BTMSVMlt5本发明的有益效果是本方法通过将支持向量机和二叉树的基本思想相结合，以类均值距离作为二叉树的生成算法，让与其他类相隔最远的类最先分隔出来，这种方法构造的最优超平面具有较好的推广性，能有效的避免孤立点带来的问题，使其具有一定的抗干扰性，而且只需构造k-Ι个(k为样本类别总数)支持向量机分类器，测试时并不一定需要计算所有的分类器判别函数，从而可节省测试时间。同时将基于密度法的增量学习算法加入本发明的多类分类器，在实现多分类能力的同时提升其增量学习的能力。

图1是本发明的工作流程图。图2是本发明中BTIMSVM增量学习过程。
具体实施例方式
本发明融合增量学习的支持向量机多类分类方法按以下步骤进行步骤1、在总的样本中随机抽取一部分作为训练样本集D，另一部分作为测试样本集T。步骤2、对训练样本集D进行预抽取支持向量，进一步包括步骤2. 1、对K类样本根据各类样本的数量进行由多到少排序，训练样本中出现最多的类为第1类，以此类推，直至第K类，形成分类序列集合{si，s2...sk}；2. 2、确定训练样本的类型，对于K类的训练样本，训练K-I个支持向量机，第i个支持向量机以第i类样本为正的训练样本，将第i+1，i+2. . . . K类训练样本作为负的训练样本训练SVM⑴(i = 1. . . . K-1)，第K-I个支持向量机将以第K-I类样本作为正样本，以第K 类样本为负样本训练SVM(K-I)；2. 3、从训练样本集D中的第i类样本集中选取一个样本，根据类均值距离法求其与第i+Ι类所有样本间的距离= l，2...k，j = l，2，...k)
权利要求
一种融合增量学习的支持向量机多类分类方法，其特征在于包括步骤步骤1、在总的样本中随机抽取一部分作为训练样本集D，另一部分作为测试样本集T；步骤2、对训练样本集D进行预抽取支持向量，获得最终的预抽取训练样本集PTS，剩下的训练样本作为增量样本集B0；步骤3、用循环迭代法对预抽取训练样本集PTS进行支持向量机训练，得到多类分类模型M SVM；步骤4、对多类分类模型M SVM进行二叉树处理，得到基于二叉树的支持向量机多类分类模型BTMSVM0；步骤5、对多类分类模型BTMSVM0进行增量学习训练，得到新的多类分类模型BTMSVM1；步骤6、将步骤1中的测试样本集T输入到多类分类模型BTMSVM1进行分类。
2.根据权利要求1所述的融合增量学习的支持向量机多类分类方法，其特征在于步骤 2中所述的预抽取支持向量按以下步骤进行2.1、对K类样本根据各类样本的数量进行由多到少排序，训练样本中出现最多的类为第1类，以此类推，直至第K类，形成分类序列集合{si，s2...sk}；2. 2、确定训练样本的类型，对于K类的训练样本，训练K-I个支持向量机，第i个支持向量机以第i类样本为正的训练样本，将第i+1，i+2.....K类训练样本作为负的训练样本训练SVM⑴(i = 1. . . . K-1)，第K-I个支持向量机将以第K-I类样本作为正样本，以第K类样本为负样本训练SVM(K-I)；2. 3、从训练样本集D中的第i类样本集中选取一个样本，根据类均值距离法求其与第 i+Ι类所有样本间的距离= l，2...k，j = l，2，...k) 5 i,j = I Imi-HijI 2TiTjη其中叫表示第i类样本集的均值向量，I Imi-Hij I I2为i类和j类均值向量间的 ^ k=\距离，r,和rj分别为i类及j类的类平均半径，η,为i类中的样本数目，称S i,」为i类和 j类之间的类均值距离；2. 4、找出这些距离中的最小值及与这个最小距离所对应的第i+Ι类中的样本，将其放在预抽取样本集合PTStl中；2. 5、返回到步骤2. 3，遍历完训练样本集D中第i类中的所有样本； 2. 6、返回到步骤2. 1，遍历完训练样本集D中第i+Ι类中的所有样本；2.7、对预抽取样本集合PTStl中的样本做唯一化处理，获得最终的预抽取训练样本集合PTS。
3.根据权利要求1所述的融合增量学习的支持向量机多类分类方法，其特征在于步骤 3中所述的循环迭代法按以下步骤进行3. 1、以步骤2最终获取的预抽取向量集PTS，构造数据集的分类超平面； 3. 2、利用所得到的分类超平面对训练样本集D进行测试，计算训练样本集D中样本与分类超平面间距离d，以及训练正确率P ；3. 3、当分类正确率P较小时，减少加入预抽取训练样本集PTS中违反KKT条件(请解释一下KKT条件)的样本的数量，以求减少求解二次规划问题的规模；当分类正确率P较大时，加大加入预抽取训练样本集PTS中违反KKT条件的样本的数量，以求减少循环迭代的次数，并加入到预抽取训练样本集PTS中，取代原预抽取训练样本集PTS，作为下次循环迭代的训练样本集；·3.4、当训练正确率P < 1时，重复3. 3;当训练正确率P= 1时跳出循环，结束迭代，训练结束，得到多类分类模型M-SVM。
4.根据权利要求1所述的融合增量学习的支持向量机多类分类方法，其特征在于步骤 4包括4. 1、将步骤3训练得到的SVM1作为二叉树的根节点，将属于第1类的测试样本决策出来；4.2、将不属于第1类的样本通过SVM2继续进行分类，依次类推直到SVMih将第K类样本训练完，从而得到基于二叉树的SVM多类分类模型BTMSVM。。
5.根据权利要求1所述的融合增量学习的支持向量机多类分类方法，其特征在于步骤 5中所述的增量学习按以下步骤进行5. 1、将增量样本集Btl输入BTMSVMtl，将增量样本集分为满足BTMSVMtl的KKT条件和不满足KKT条件的2个集合；5. 2、对满足KKT条件的增量样本集和BTMSVM0的负例样本集分别进行密度法淘汰处理，得到剩余集；5. 3、将剩余集与BTMSVMtl的正例样本集及增量样本集的不满足KKT条件的集合并得到新增量训练集B1;5. 4、将新增量训练集Bl输入BTMSVMtl进行训练，得到新的多类分类模型BTMSVMlt全文摘要
本发明涉及一种融合增量学习的支持向量机多类分类方法。本发明的目的是提供一种融合增量学习的支持向量机多类分类方法，旨在减少样本的训练时间、提高分类器的分类精度及抗干扰性。本发明的技术方案是1、在总的样本中随机抽取一部分作为训练样本集D，另一部分作为测试样本集T；2、对训练样本集D进行预抽取支持向量；3、用循环迭代法对预抽取训练样本集PTS进行支持向量机训练，得到多类分类模型M-SVM；4、对多类分类模型M-SVM进行二叉树处理，得到支持向量机多类分类模型BTMSVM0；5、对多类分类模型BTMSVM0进行增量学习训练，得到模型BTMSVM1；6、将步骤1中的测试样本集T输入到多类分类模型BTMSVM1进行分类。本发明用于通过增量学习对海量信息进行高效多类分类。
文档编号G06F17/30GK101944122SQ20101028945
公开日2011年1月12日申请日期2010年9月17日优先权日2010年9月17日
发明者梅铮, 琚春华, 郑丽丽申请人:浙江工商大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：琚春华;郑丽丽;梅铮
技术所有人：浙江工商大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。