一种基于边缘距离排序的集成学习机修剪方法及系统的制作方法

文档序号:6639625阅读:159来源:国知局
一种基于边缘距离排序的集成学习机修剪方法及系统的制作方法
【专利摘要】本发明公开了一种基于边缘距离排序的集成学习机修剪方法及系统,所述方法包括:读入训练数据集;集成学习机训练,采用随机森林技术生成基分类器;集成学习机分类,采用简单多数投票准则合并基分类器的输出来预测训练样例的类别;训练样例边缘距离计算,利用各基分类器的投票结果计算每个训练样例的边缘距离;基分类器边缘距离计算,计算每个基分类器在其OOB样例上的边缘距离;基分类器排序,按照基分类器边缘距离大小对基分类器进行排序;最优基分类器子集选取,选取具有最优整体精度的前S个基分类器;输出最终选取结果。本发明对噪声数据、不完全数据有很好的鲁棒性,且可以大幅度地降低集成学习机中基分类器的数目,同时具有良好的分类效果。
【专利说明】一种基于边缘距离排序的集成学习机修剪方法及系统

【技术领域】
[0001] 本发明涉及数据挖掘和机器学习【技术领域】,尤其涉及一种基于边缘距离排序的集 成学习机修剪方法及系统。

【背景技术】
[0002] 集成学习因其能显著提高一个学习系统的泛化能力而得到机器学习界的广泛关 注。集成学习运用随机抽样技术获取多个有多样性差异的样本,并在这些自助样本上训练 多个基学习机的集合。随着基学习机数目的增加,集成学习机的分类错误率逐渐下降。
[0003] 为了获取最优的分类性能,通常需要构造大量的基学习机。但同时集成学习机的 时间复杂度和空间复杂度都会逐渐升高,而其预测效率明显下降。这对于在线学习更是一 个严重的问题。其实,集成学习机中大部分基学习机都可以被剔除,同时其分类性能不会下 降。
[0004] 理论已证明从集成学习机中选取最优基学习机子集是一个NP难问题。目前大量 关于这方面的研宄成果都是获取一个次最优子学习机。本发明提出一种基于排序方法的集 成学习机修剪方法。该方法的核心是利用一种基于无监督样本边缘计算方法对基学习机进 行排序。由于不涉及样本的真实类别,这种修剪方法对噪声数据以及类别不平衡数据具有 很强的鲁棒性。
[0005] 近年来大量的理论与实验研宄表明将多个简单分类器的预测结果进行组合集成 是一种提高分类器泛化性能简单而行之有效的策略。这种将多个分类器进行组合预测的 方法机器学习界将其定义命名为集成学习(ensemblelearning)。集成学习理论和算法 的研宄从上个世纪90年代开始一直是机器学习的一个热点。国际机器学习界的权威学者 Dietterich曾将集成学习列为机器学习研宄领域中的四大研宄方向之一。
[0006] 顾名思义,一个集成学习机的构建一般分为两步:单个学习机(也称为基学习机) 的生成和基学习机的合并集成。目前,常见的用于生成基学习机的方法可以粗略地分为两 大类:一类是将不同类型的基学习机算法应用于同一数据集上,这种方法得到的基学习机 通常称为是异质类型的(heterogeneous);另一类是将同一学习算法应用于不同的训练集 (通常基于原有的训练数据集进行随机抽样等方法得到),这种方法得到的基学习机被称 为是同质类型的(homogeneous)。对于同质类型基学习机方法,基于它们获取不同训练集所 采用的技术,又可以从横向概括为四类操作,从纵向上概括为四个不同层次。具体来讲,横 向上的四类操作可分为:对训练集重抽样(如1^88;[叩、130081:;[1^)、操作输入变量(如随机 子空间方法、旋转森林)、操纵输出目标(如误差校正输出编码方法)、注入随机性(如随机 森林)。
[0007] 在集成学习的研宄初期,大多数方法都将研宄重心放在了如何高效构造基学习机 以及以何种方式将它们进行合并才能得到具有最强泛化能力的集成学习机。而关于构造多 少基学习机就可以达到渐进最优集成学习机,以及是否要把这些基学习机全部用于构造集 成学习机等问题相关研宄比较少。所以,通常的做法是构造大量的基学习机并全部用于对 新样本实例的预测。2002年,周志华等人首先在理论上证明了选择性集成学习的有效性。换 句话说,就是在理论上证明了并不是构造越多的基学习机,集成学习机的泛化性能就越好。 选择性集成学习的理论证明在国内外集成学习界引起了强烈反响,大量关于这一问题的研 宄成果如雨后春笋般涌现。
[0008] 选择性集成学习在近10年中得到了广泛的研宄,图1给出了选择性集成学习算法 的基本流程框架图。对于现有的选择性集成学习算法,它们主要在评测方法的选择上存在 较大差异。这些算法大致可以分为以下几类:聚类、排序、选择、优化和其他方法。基于排序 的修剪方法通过对基分类器进行排序来达到修剪集成分类器的目的。图2给出了这类算法 的流程框架图。它们的步骤大致可以分为两步:基于某种排序指标对分类器排序;采用合 适的停止标准选取一定数量的基分类器。
[0009] 现有的基于排序的集成学习机修剪方法包括:
[0010] A.基于Boosting思想的修剪方法。该算法采用Boosting思想对Bagging集成分 类器进行修剪,并给出了两种确定参数S的取值方法:(1)直接令S~ 40%XT,该准则是 由实验的结果得出的;(2)第一个Boosting停止点准则,即在选择到某个基分类器的加 权训练误差εs> 0. 5时停止选择过程。
[0011] B.基于OOB估计基分类器的泛化误差。该算法采用Out-of-bag样本估计基于 Bagging技术所生成的每个基分类器的泛化误差,并对其排序,通过预先设置的阈值将泛化 误差较大的基分类器剔除。
[0012] 基于聚类的集成学习机修剪方法需要衡量两个基分类器预测结果的相似性以及 它们之间的多样性,这些衡量指标在集成学习机的修剪过程中起着至关重要的作用,然而 多样性在实际中难易衡量,且多样性与集成学习机预测性能之间的有效联系也较难建立。 另外如何确定最终聚类的个数也是个难题。基于优化理论的修剪方法主要思想是在基分类 器的合并过程中对它们赋予权重,通过稀疏性约束或设置阈值,借助优化算法来选择最优 的基分类器子集。而实际上针对这些参数,目前大多是启发式方法,如果选取不合适,则会 大大影响最终的预测效果。目前基于排序的修剪方法具有计算量小的优点,可用于对基学 习机排序的指标主要有误差减小量、k统计量等,然而大多数基于排序的修剪方法都是对基 分类器进行独立评估,对基分类器进行排序时没有考虑基分类器之间的互补性。
[0013] 因此,针对上述技术问题,有必要提供一种基于边缘距离排序的集成学习机修剪 方法及系统。


【发明内容】

[0014] 有鉴于此,本发明的目的在于提供一种基于边缘距离排序的集成学习机修剪方法 及系统。
[0015] 为了达到上述目的,本发明实施例提供的技术方案如下:
[0016] -种基于边缘距离排序的集成学习机修剪方法,所述方法包括:
[0017] S1、读入训练数据集;
[0018] S2、集成学习机训练,采用随机森林技术生成基分类器;
[0019] S3、集成学习机分类,采用简单多数投票准则合并基分类器的输出来预测训练样 例的类别;
[0020] S4、训练样例边缘距离计算,利用各基分类器的投票结果计算每个训练样例的边 缘距离;
[0021] S5、基分类器边缘距离计算,计算每个基分类器在其OOB样例上的边缘距离;
[0022] S6、基分类器排序,按照基分类器边缘距离大小对基分类器进行排序;
[0023] S7、最优基分类器子集选取,选取具有最优整体精度的前S个基分类器;
[0024] S8、输出最终选取结果。
[0025] 作为本发明的进一步改进,所述步骤S2具体为:
[0026] 基于训练数据集采用Bootstrap随机抽样方法有放回地获取新的训练集;
[0027] 应用C4. 5算法于新的训练集,并采用随机子空间技术训练决策树模型。
[0028] 作为本发明的进一步改进,所述步骤S3中简单多数投票准则具体为:
[0029]

【权利要求】
1. 一种基于边缘距离排序的集成学习机修剪方法,其特征在于,所述方法包括: 51、 读入训练数据集; 52、 集成学习机训练,采用随机森林技术生成基分类器; 53、 集成学习机分类,采用简单多数投票准则合并基分类器的输出来预测训练样例的 类别; 54、 训练样例边缘距离计算,利用各基分类器的投票结果计算每个训练样例的边缘距 离; 55、 基分类器边缘距离计算,计算每个基分类器在其00B样例上的边缘距离; 56、 基分类器排序,按照基分类器边缘距离大小对基分类器进行排序; 57、 最优基分类器子集选取,选取具有最优整体精度的前S个基分类器; 58、 输出最终选取结果。
2. 根据权利要求1所述的方法,其特征在于,所述步骤S2具体为: 基于训练数据集采用Bootstrap随机抽样方法有放回地获取新的训练集; 应用C4. 5算法于新的训练集,并采用随机子空间技术训练决策树模型。
3. 根据权利要求1所述的方法,其特征在于,所述步骤S3中简单多数投票准则具体 为:
其中,%= 1,h>为第j个基分类器对训练样例x的预测结果。
4. 根据权利要求1所述的方法,其特征在于,所述步骤S4中训练样例边缘距离的计算 方法为:
其中,Cl是集成学习机中各基分类器对训练样例x进行投票而得票最多的类标签,Vc;1 是类标签(^相应的投票数,c2是次得票最多的类标签,Vc;2是跟类标签〇2相关的投票数,T 是集成学习机中包含的基分类器数目,训练样例x的边缘距离取值范围为[〇,1]。
5. 根据权利要求1所述的方法,其特征在于,所述步骤S5中基分类器的选择标准为:
其中,Xi为集合X的样例,margin(x)为样例Xi的边缘距离。
6. 根据权利要求5所述的方法,其特征在于,所述步骤S5中基分类器边缘距离的计算 方法为:
其中,00B是基学习机Ht的袋外数据集,|00B|是00B中包含的样例的个数。
7. 根据权利要求1所述的方法,其特征在于,所述步骤S7中最优基分类器子集选取的 停止准则为:
其中,S代表最终选出的基分类器子集,M是S中包含的基分类器的个数。
8. -种基于边缘距离排序的集成学习机修剪系统,其特征在于,所述系统包括: 读入训练数据集模块,用于读入训练数据集; 集成学习机训练模块,用于采用随机森林技术生成基分类器; 集成学习机分类模块,用于采用简单多数投票准则合并基分类器的输出来预测训练样 例的类别; 训练样例边缘距离计算模块,用于利用各基分类器的投票结果计算每个训练样例的边 缘距离; 基分类器边缘距离计算模块,用于计算每个基分类器在其00B样例上的边缘距离; 基分类器排序模块,用于按照基分类器边缘距离大小对基分类器进行排序; 最优基分类器子集选取模块,用于选取具有最优整体精度的前S个基分类器; 输出模块,用于输出最终选取结果。
【文档编号】G06F19/00GK104484571SQ201410804079
【公开日】2015年4月1日 申请日期:2014年12月22日 优先权日:2014年12月22日
【发明者】吴胤旭, 郭向林, 蔡业首, 朱敏, 李俊杰 申请人:深圳先进技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1