基于频繁模式的选择性集成分类方法

文档序号:6526295阅读:281来源:国知局
基于频繁模式的选择性集成分类方法
【专利摘要】基于频繁模式的选择性集成分类方法,首先将未剪枝的集成分类器和样本空间映射为事务数据库,并利用布尔矩阵存储集成分类器对样本进行分类,然后根据分类结果从布尔矩阵中选择分类性能较好的基分类器构成最终的选择性集成分类器。本发明综合考虑了分类器正确分类的样本数,基分类器的平均分类精度以及集成分类器的大小3个因素对集成分类器性能的影响,较合理地评估了候选集成分类器,提高了分类精度,且能够保持较高的分类效率。
【专利说明】基于频繁模式的选择性集成分类方法
【技术领域】
[0001]本发明属于数据处理方法【技术领域】,涉及一种基于频繁模式的选择性集成分类方法。
【背景技术】
[0002]近年来,集成学习(ensemble learning, EL)已成为机器学习和数据挖掘领域的一个研究热点,国际机器学习界的权威学者Dietterich在《Al Magazine》杂志上将集成学习列为机器学习领域四大研究方向之首。集成学习通过调用一些简单的分类算法对训练样本进行学习来获取若干不同的学习机(称为基分类器),然后采用某种策略对这些学习机进行组合去解决一个共同的学习任务。集成学习方法已被广泛、有效地应用于生物、工程、医学、计算机视觉和图像处理等研究领域,代表性算法有Bagging、Boosting、AdaBoost> WAVE和RFW等。集成学习过程一般分为两个阶段:基分类器的构造与基分类器的组合。与单个分类器相比,集成分类器可以有效地提高分类器的泛化能力。
[0003]目前,常见的用于生成基分类器的方法可以按照粗细粒度的分为两大类:一类是将不同类型的学习算法应用于同一数据集上,这种方法得到的基分类器通常被称为异质类型的;另一类是将同一学习算法应用于不同的数据集上,这种基分类器被称为是同质类型的。
[0004]在集成学习的研究初期,大多数方法都是先生成多个基分类器,然后将它们全部用于构建集成分类器,但是,与单个的基分类器相比,其预测速度明显下降,而且随着基分类器数目的增长,它们所需要的存储空间也急剧增多,分类精度和分类效率也可能明显下降。
[0005]2002年,周志华等人首先提出了“选择性集成”的概念,选择性集成(ensemblepruning, EP)通过从已有的集成分类器中剔除对分类结果有负面影响的基分类器减少集成分类器的存储空间,从而提高分类器的分类精度和分类效率。但是,现有的选择性集成算法都采用随机从原始的所有基分类器中挑选部分分类器进行组合,从所有组合中挑选一个最好组合作为最终的集成分类器。由于组合的过程涉及所有基分类器,组合的数目巨大,因此,其需要大量的时间用于测试组合分类器的性能,以确定最终的组合,所以导致其分类效率低下。

【发明内容】

[0006]本发明的目的是提供一种基于频繁模式的选择性集成分类方法,解决现有技术存在的分类效率低下的问题。
[0007]本发明的技术方案是,基于频繁模式的选择性集成分类方法,首先将未剪枝的集成分类器和样本空间映射为事务数据库,并利用布尔矩阵存储集成分类器对样本进行分类,然后根据分类结果从布尔矩阵中选择分类性能较好的基分类器构成最终的选择性集成分类器。[0008]本发明的特点还在于,先输入基分类器集合C和数据集D,然后进行以下步骤:
[0009]步骤I,构建分类矩阵;
[0010]步骤2,生成候选集成分类器;
[0011]步骤3,评估候选集成分类器;
[0012]最后,输出选择性集成分类器S。
[0013]上述步骤I包括:
[0014](I)基分类器集合对数据样本进行分类;
[0015](2)初始最终选择性集成分类器的评估值为O ;
[0016](3)构建分类矩阵;
[0017](4)精简分类矩阵;
[0018]具体是,以数据集中的样本为行,集成分类器中的基分类器为列,基分类器对样本的分类结果为值来构建分类矩阵;其中,分类器列的排列顺序由该分类器的分类精度决定,即从左向右按照精度由高到低进行排列;如果一个样本能够被所有的基分类器正确分类或者错误分类,那么该样本不具有区分基分类器优劣的能力,于是将其从分类矩阵中删除。
[0019]上述步骤2具体是,根据多数投票原则,在一个含有m个基分类器Ic1, C2, , cj
的集成分类器集合中,如果存在
【权利要求】
1.基于频繁模式的选择性集成分类方法,其特征在于,首先将未剪枝的集成分类器和样本空间映射为事务数据库,并利用布尔矩阵存储集成分类器对样本进行分类,然后根据分类结果从布尔矩阵中选择分类性能较好的基分类器构成最终的选择性集成分类器。
2.如权利要求1所述的基于频繁模式的选择性集成分类方法,其特征在于,先输入基分类器集合C和数据集D,然后进行以下步骤: 步骤I,构建分类矩阵; 步骤2,生成候选集成分类器; 步骤3,评估候选集成分类器; 最后,输出选择性集成分类器S。
3.如权利要求2所述的基于频繁模式的选择性集成分类方法,其特征在于,所述步骤I包括: (1)基分类器集合对数据样本进行分类; (2)初始最终选择性集成分类器的评估值为O; (3)构建分类矩阵; (4)精简分类矩阵; 具体是,以数据集中的样本为行,集成分类器中的基分类器为列,基分类器对样本的分类结果为值来构建分类矩阵;其中,分类器列的排列顺序由该分类器的分类精度决定,即从左向右按照精度由高到低进行排列;如果一个样本能够被所有的基分类器正确分类或者错误分类,那么该样本不具有区分基分类器优劣的能力,于是将其从分类矩阵中删除。
4.如权利要求2所述的基于频繁模式的选择性集成分类方法,其特征在于,所述步骤2具体是,根据多数投票原则,在一个含有m个基分类器{Cl,C2,, cj的集成分类器集合中,如果存在
5.如权利要求2所述的基于频繁模式的选择性集成分类方法,其特征在于,所述步骤3具体是,在集成分类器的大小s从O增长到m的过程中,算法重复执行步骤2生成多个候选集成分类器;从集成分类器正确分类的样本数、基分类器的平均分类精度以及集成分类器的大小三个方面对候选集成分类器进行评估,选择具有最大评估值的候选集成分类器作为最终的选择性集成分类器,其评估值计算如下:
【文档编号】G06F17/30GK103744924SQ201310740476
【公开日】2014年4月23日 申请日期:2013年12月26日 优先权日:2013年12月26日
【发明者】周红芳, 王啸, 赵雪涵, 段文聪, 郭杰, 张国荣, 王心怡, 何馨依 申请人:西安理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1