适应动态调整基分类器权重的集成学习方法及装置的制造方法

文档序号：9811071阅读：458来源：国知局

适应动态调整基分类器权重的集成学习方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘、机器学习等领域，尤其涉及一种自适应动态调整基分类器权重的集成学习方法及装置。
【背景技术】
[0002] 集成学习是近年来数据挖掘和机器学习领域的研究热点之一。集成学习通过将多个基分类器的分类结果按一定的方式进行组合集成，从而决定最终的分类，可以显著提高学习系统的泛化能力，被视为具有广泛应用前景的技术。
[0003] 现有集成学习方法在集成过程中，往往忽略了测试样本与基分类器之间的适应性问题，即有的测试样本适合第一个基分类器，有的适合第二个基分类器等。
[0004] Boosting方法是一种应用广泛的基分类器组合方法，该算法虽然在一定程度上提高了基分类器的分类性能，但是由于该算法是静态地对基分类器进行权重赋值，这样就可能会导致给予与测试样本不相匹配的基分类器权重分配，降低了集成分类正确率。

【发明内容】

[0005] 鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述测试样本与基分类器的适应性问题。
[0006] 根据本发明的一个方面，提供了一种自适应动态调整基分类器权重的集成学习方法，包括：
[0007] 构建多个基分类器；
[0008] 基于多个所述基分类器，对采集到的训练样本进行聚类；
[0009] 确定各个所述基分类器对聚类后的训练样本的各个簇的适应度；
[0010] 计算所述测试样本与聚类后的训练样本各个簇的相似度；
[0011] 对所述适应度和所述相似度进行整合，得到每个所述测试样本针对各个所述基分类器相适应的权重，并将多个所述权重组合为一个强分类器。
[0012] 进一步地，采用下列任意一种方式构建多个所述基分类器：
[0013] 通过对相同的所述训练样本选取不同的分类算法训练得到；
[0014] 调整所述训练样本的权重并利用不同或相同的分类算法训练得到；
[0015] 调整所述训练样本的特征权重并利用不同或相同的分类算法训练得到。
[0016] 进一步地，采用下列任意一种方式对所述训练样本进行聚类：
[0017] 划分聚类、层次聚类、密度聚类、网格聚类。
[0018] 进一步地，计算各个所述基分类器对聚类后的训练样本的各个簇的适应度矩阵的过程进一步包括：
[0019] 利用η个所述基分类器对聚类算法生成的k个簇分别进行测试，计算得出基分类器在各个簇上的错误率e1J;
[0020] 利用错误率eij进行相应的对数处理，从而得到η个基分类器对k个簇的适应度f^，并以n*k矩阵的形式进行存储，得到适应度矩阵;其中，i表示第i个基分类器，j表示第j个簇类。
[0021]进一步地，计算所述测试样本与聚类后的训练样本各个簇的相似度向量的过程进一步包括：
[0022]针对某一个测试样本，在动态求出所述测试样本到各个簇质心的距离山后，得出所述测试样本与各个簇的相似度1/山，并以k*l向量的形式进行存储，得到相似度向量。
[0023] 进一步地，当所述适应度以适应度矩阵形式存以及所述相似度以相似度向量形式存储时，则所述适应度矩阵和所述相似度向量进行整合的过程进一步包括：
[0024] 将所述适应度矩阵和所述相似度向量相乘，最终得到针对每一个所述测试样本的多个基分类器的权重向量，将多个基分类器的权重向量组合为一个适合所述测试样本的强分类器。
[0025] 根据本发明的另一个方面，提供了一种自适应动态调整基分类器权重的集成学习装置，包括：
[0026] 构建模块，用于构建多个基分类器；
[0027] 聚类模块，用于基于多个所述基分类器，对采集到的训练样本进行聚类；
[0028] 适应度确定模块，用于确定各个所述基分类器对聚类后的训练样本的各个簇的适应度；
[0029]相似度计算模块，用于计算所述测试样本与聚类后的训练样本各个簇的相似度；
[0030] 组合模块，用于对所述适应度和所述相似度进行整合，得到每个所述测试样本针对各个所述基分类器相适应的权重，并将多个所述权重组合为一个强分类器。
[0031] 进一步地，所述构建模块采用下列任意一种方式构建多个所述基分类器：
[0032] 通过对相同的所述训练样本选取不同的分类算法训练得到；
[0033] 调整所述训练样本的权重并利用不同或相同的分类算法训练得到；
[0034] 调整所述训练样本的特征权重并利用不同或相同的分类算法训练得到。
[0035] 进一步地，所述聚类模块采用下列任意一种方式对所述训练样本进行聚类：
[0036] 划分聚类、层次聚类、密度聚类、网格聚类。
[0037] 进一步地，所述适应度确定模块进一步用于，利用η个所述基分类器对聚类算法生成的k个簇分别进行测试，计算得出基分类器在各个簇上的错误率e lj;利用错误率eij进行相应的对数处理，从而得到η个基分类器对k个簇的适应度f^，并以n*k矩阵的形式进行存储，得到适应度矩阵;其中，i表示第i个基分类器，j表示第j个簇类。
[0038] 进一步地，所述相似度计算模块进一步用于，针对某一个测试样本，在动态求出所述测试样本到各个簇质心的距离山后，得出所述测试样本与各个簇的相似度1/山，并以k*l 向量的形式进行存储，得到相似度向量。
[0039] 进一步地，当所述适应度以适应度矩阵形式存以及所述相似度以相似度向量形式存储时，所述组合模块进一步用于，将所述适应度矩阵和所述相似度向量相乘，最终得到针对每个所述测试样本的多个基分类器的权重向量，将多个基分类器的权重向量组合为适合所述测试样本的强分类器。
[0040] 本发明的有益效果为：
[0041] 本发明通过结合聚类算法，并考虑测试样本与基分类器的适应性，动态地对基分类器进行权重赋值，可有效提高分类器的泛化能力和分类精确率。
[0042] 上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的【具体实施方式】。
【附图说明】
[0043] 通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
[0044] 图1为本发明所述方法实施例的流程示意图；
[0045] 图2为本发明所述方法实施例中，单层决策树基分类器构建流程示意图；
[0046] 图3为本发明所述方法实施例中，测试样本与基分类器的关系示意图；
[0047] 图4为本发明所述装置实施例的结构示意图。具体实施例
[0048] 为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0049] 下面结合附图和具体的实施方式对本发明所述方法作进一步的描述。
[0050] 参考图1，图1为本发明实施例一提供基于数据流量特征的流量异常检测中的自适应动态调整基分类器权重的集成学习方法流程图，具体可以包括如下步骤：
[0051 ] S101，基分类器构建
[0052]参考图2,图2为本实施例提供单层决策树基分类器构建流程示意图，其中，gl代表第i个训练样本集的权重向量，Di代表第i个训练样本集，DSi代表第i个单层决策树。本实施例中，使用给定带有标签的数据样本对单层决策树进行训练，选择AdaBoost算法的方式构建η个单层决策树，每个单层决策树即为一个基分类器。
[0053]其中，带有标签的数据样本是由多维特征属性组成，数据样本为异常的，其标签为 1;反之，数据样本正常的，其标签为〇。
[0054]其中，多个基分类器的构建可选择下列任意一种方式：
[

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李智星;张亮;王进;王占一;
技术所有人：北京奇虎科技有限公司;重庆邮电大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。