一种机器学习中的分类器集成方法

文档序号：6522598阅读：1760来源：国知局

一种机器学习中的分类器集成方法
【专利摘要】本发明提供了一种机器学习中的分类器集成方法，它使用RandomForest算法产生的基分类器作为新的算法的基分类器。使用L1_Magic算法对这些原始分类器的权值进行优化，充分利用了各个基分类器之间的差异性，使得集合分类器对训练集中的每一个样本分类正确的可能性一致。使用新的集成分类器采用带权值的投票方式对测试集进行分类，进而提高了分类的正确率。与RandomForest算法相比，该发明的最大的优点在于充分利用了各个基分类器之间的差异性，使得集合分类器对样本数据的分类正确率有了提高。同时也完善了对人工智能领域中如何使用多样性/差异性提高集成分类器效果。
【专利说明】一种机器学习中的分类器集成方法
【技术领域】
[0001]本发明属于人工智能与模式识别【技术领域】，是一种新的应用在机器学习中的分类器集成方法。
【背景技术】
[0002]分类在人工智能与模式识别领域中是一项非常重要的任务，分类的目的是学会一种分类函数或分类模型(也常常称作分类器)，该模型能把数据库中的数据项映射到给定类别中的某一个类别。分类具有广泛的应用，例如医疗诊断、欺诈检测、信用卡系统的信用分级、图像模式识别等。以信用卡系统的信用分级为例来说明分类的应用，当银行需要根据用户的特征信息(比如年龄、职业、收入、教育背景等)来预测用户的信用等级时，可以通过对已知信用等级的用户特征信息数据集的分析和学习来建立用户信用等级分类的模型。当有新的用户需要进行信用等级的预测时，可以采用分类的方法将新用户划分到与其具有相似特征信息的用户一类中去，从而预测出该用户的信用等级。分类器的构造方法有统计方法、机器学习方法、神经网络方法等。现有的机器学习分类器构造方法有很多种，而其中最重要的一种方法是集成分类器学习方法，如Bagging算法、RandomForest算法、Boosting算法
坐寸ο
[0003]大量的研究者通过实验和分析证明集成分类器中的单个分类器的正确率和基分类器与基分类器之间的差异性是决定集成分类器优劣的两个重要指标。现有的衡量分类器之间的差异性的指标有很多种，如Q statistics, Kohav1-Wolpert variance, entropymeasure E等，但是被广泛采用的标准还没有统一。并且如何使用分类器之间的多样性这一衡量指标去引导设计更好的多分类器集成算法的问题还没有解决。

【发明内容】

[0004]本发明公开的机器学习中的分类器集成方法，主要用在字符识别、人脸识别、图像分析等方面。该发明与现有的单分类器的差别在于整合了一组不同的分类器，获得了比单分类器更好的学习效果，与现有的集成分类器方法的差别主要在于创造了一种将一组分类器整合在一起且充分的利用分类器间的差异性的策略，从而使得新的集合分类器对样本的分类正确率有了提高。本发明重点是解决机器学习领域中如何使用分类器的差异性从而设计出性能更好的分类器集成算法这一问题。
[0005]本发明的目的在于解决上述现有方法中存在的难题，提供一种新的分类器集成方法，提高对数据分类的正确率。
[0006]为实现上述目的，本发明公开了如下的技术内容:
一种机器学习中的分类器集成方法，所述分类器集成方法包括基分类器的产生、给予基分类器优化后的权重、采用带权值的投票方法对数据进行分类；利用RandomForest算法生成的不同的多棵决策树分类器作为新的算法的基分类器，采用Ll_Magic算法对基分类器的权重进行优化，充分利用基分类器之间的差异性，使得集成分类器。[0007]其中所述方案包括以下步骤:
(1)第一步:对给定的数据样本集进行分割；将给定的含有N个样本的数据集按9:1分割比例随机的划分成两份，分别作为训练集和测试集，其样本数目分别标记为
Τ"】和2 ；
(2)第二步:在训练集上进行模型的学习，得到不同的分类器；使用RandomForest算法在训练集上进行分类模型的学习，从而可以生成M个基分类器；
(3)第三步:给予第二步学习得到的分类器相应的权重系数。分别使用第二步中得到
的M个分类器对第一步中得到的训练集中的73个样本进行分类，其分类结果标记为(其中i GZ且Ki在34,iEZ且T1),如果分类正确，则= I，否则ay = 0，从而可以得到M X T1阶矩阵A ;分别使用第二步中得到的M个分类器对第一步中得到的训练集中的Fi个样本进行分类，可以得到每一个分类器在训练集上分类的正确率^ (其中iGZl.l<i< Μ)组成的集合，记为向量(f ；假设H个具有特定正确率a的分类器相互独立，则它们组成的集合对训练数据进行分类正确的结果X服从于二项分布，BPx-B (n, a)
，那么这η个分类器组成的集合对样本分类正确的概率P = F(X > pj)，从而可以求得
与正确率为a的分类器等价的正确率为b的分类器的个数，以M个分类器中在训练集上分类的正确率最大的分类器为基准，从而可以求得每一个与之等价的分类器的数目ξ (其中
iGZl.l<i< Μ)组成的集合，记为向量中的每一项进行标准化得到新的向

t t

I
量，标准化的过程为氏=;M个分类器的权重系数(其中；c 7 Fl 1 -K M )组0H/ I fc i ?.1 < I < M
成的集合记为向量;为了使得这M个分类器组成的集合具有多样性，进而提高集成分类

N M
器的正确率，可以对权重系数进行优化，即求得最优的^吏得工Σ (α?~ x 值

If* |=:L ?=1
最小，其中需要满足的条件是Σ =]且O S Wi S氏;采用Ll_Magic算法可以求得近似最优的^ ；
(4)第四步:集成第二步得到的分类器，对测试集进行分类；将给定数据样本的类标号的数目记为L ;依次使用第二步中得到的M个分类器对第一步中得到的测试集中的1~2个样本进行分类，可以得到对每一个样本都有M个分类结果，采用带权值的投票方法决定最终的分类结果，即将得票权值最高的分类结果1 (其中kGZ且K i)作为这M个分
类器组成的集成分类器对该样本分类的最终结果。
[0008]本发明更加详细的方法如下:
第一步:对给定的数据样本集进行分割。将给定的含有N个样本的数据集按9:1分割
比例随机的划分成两份，分别作为训练集和测试集，其样本数目分别标记为乃和!^。
[0009]第二步:在训练集上进行模型的学习，得到不同的分类器。使用RandomForest算法(算法见图1)在训练集上进行分类模型的学习，从而可以生成M个基分类器。
[0010]第三步:给予第二步学习得到的分类器相应的权重系数。
[0011](I)分别使用第二步中得到的M个分类器对第一步中得到的训练集中的1~3个样本进行分类，其分类结果标记为Gy (其中i G Z且I S ?《《，i G Z且I < j < I；)，如果分类正确，则Cty = I，否则Ciy = O,从而可以得到Mx F1阶矩阵A。
[0012](2)分别使用第二步中得到的M个分类器对第一步中得到的训练集中的F3个样本进行分类，可以得到每一个分类器在训练集上分类的正确率￡(其中? € Z且K ? S Μ)组成的集合，记为向量if。
[0013](3)假设η个具有特定正确率a的分类器相互独立，则它们组成的集合对训练数据进行分类正确的结果X服从于二项分布，即X~B(n,a),那么这Π个分类器组成的集合对样
本分类正确的概率
【权利要求】
1.一种机器学习中的分类器集成方法，所述分类器集成方法包括基分类器的产生、给予基分类器优化后的权重、采用带权值的投票方法对数据进行分类；利用RandomForest算法生成的不同的多棵决策树分类器作为新的算法的基分类器，采用Ll_Magic算法对基分类器的权重进行优化，充分利用基分类器之间的差异性，使得集成分类器。
2.权利要求1所述的方法，其特征在于所述方案包括以下步骤: (1)第一步:对给定的数据样本集进行分割；将给定的含有N个样本的数据集按9:1分割比例随机的划分成两份，分别作为训练集和测试集，其样本数目分别标记为驟2 ； (2)第二步:在训练集上进行模型的学习，得到不同的分类器；使用RandomForest算法在训练集上进行分类模型的学习，从而可以生成M个基分类器； (3)第三步:给予第二步学习得到的分类器相应的权重系数；分别使用第二步中得到的M个分类器对第一步中得到的训练集中的F3个样本进行分类，其分类结果标记为
【文档编号】G06K9/62GK103632168SQ201310655891
【公开日】2014年3月12日申请日期:2013年12月9日优先权日:2013年12月9日
【发明者】陈科, 朱波申请人:天津工业大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈科;朱波
技术所有人：天津工业大学
我是此专利的发明人

上一篇：基于共享内存设计的无线终端数据库构建方法
上一篇：一种用于模乘和模平方的快速模约简算法电路的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。