适应动态调整基分类器权重的集成学习方法及装置的制造方法

文档序号:9811071阅读:458来源:国知局
适应动态调整基分类器权重的集成学习方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘、机器学习等领域,尤其涉及一种自适应动态调整基分类器 权重的集成学习方法及装置。
【背景技术】
[0002] 集成学习是近年来数据挖掘和机器学习领域的研究热点之一。集成学习通过将多 个基分类器的分类结果按一定的方式进行组合集成,从而决定最终的分类,可以显著提高 学习系统的泛化能力,被视为具有广泛应用前景的技术。
[0003] 现有集成学习方法在集成过程中,往往忽略了测试样本与基分类器之间的适应性 问题,即有的测试样本适合第一个基分类器,有的适合第二个基分类器等。
[0004] Boosting方法是一种应用广泛的基分类器组合方法,该算法虽然在一定程度上提 高了基分类器的分类性能,但是由于该算法是静态地对基分类器进行权重赋值,这样就可 能会导致给予与测试样本不相匹配的基分类器权重分配,降低了集成分类正确率。

【发明内容】

[0005] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或 者减缓上述测试样本与基分类器的适应性问题。
[0006] 根据本发明的一个方面,提供了一种自适应动态调整基分类器权重的集成学习方 法,包括:
[0007] 构建多个基分类器;
[0008] 基于多个所述基分类器,对采集到的训练样本进行聚类;
[0009] 确定各个所述基分类器对聚类后的训练样本的各个簇的适应度;
[0010] 计算所述测试样本与聚类后的训练样本各个簇的相似度;
[0011] 对所述适应度和所述相似度进行整合,得到每个所述测试样本针对各个所述基分 类器相适应的权重,并将多个所述权重组合为一个强分类器。
[0012] 进一步地,采用下列任意一种方式构建多个所述基分类器:
[0013] 通过对相同的所述训练样本选取不同的分类算法训练得到;
[0014] 调整所述训练样本的权重并利用不同或相同的分类算法训练得到;
[0015] 调整所述训练样本的特征权重并利用不同或相同的分类算法训练得到。
[0016] 进一步地,采用下列任意一种方式对所述训练样本进行聚类:
[0017] 划分聚类、层次聚类、密度聚类、网格聚类。
[0018] 进一步地,计算各个所述基分类器对聚类后的训练样本的各个簇的适应度矩阵的 过程进一步包括:
[0019] 利用η个所述基分类器对聚类算法生成的k个簇分别进行测试,计算得出基分类器 在各个簇上的错误率e1J;
[0020] 利用错误率eij进行相应的对数处理,从而得到η个基分类器对k个簇的适应度f^, 并以n*k矩阵的形式进行存储,得到适应度矩阵;其中,i表示第i个基分类器,j表示第j个簇 类。
[0021]进一步地,计算所述测试样本与聚类后的训练样本各个簇的相似度向量的过程进 一步包括:
[0022]针对某一个测试样本,在动态求出所述测试样本到各个簇质心的距离山后,得出 所述测试样本与各个簇的相似度1/山,并以k*l向量的形式进行存储,得到相似度向量。
[0023] 进一步地,当所述适应度以适应度矩阵形式存以及所述相似度以相似度向量形式 存储时,则所述适应度矩阵和所述相似度向量进行整合的过程进一步包括:
[0024] 将所述适应度矩阵和所述相似度向量相乘,最终得到针对每一个所述测试样本的 多个基分类器的权重向量,将多个基分类器的权重向量组合为一个适合所述测试样本的强 分类器。
[0025] 根据本发明的另一个方面,提供了一种自适应动态调整基分类器权重的集成学习 装置,包括:
[0026] 构建模块,用于构建多个基分类器;
[0027] 聚类模块,用于基于多个所述基分类器,对采集到的训练样本进行聚类;
[0028] 适应度确定模块,用于确定各个所述基分类器对聚类后的训练样本的各个簇的适 应度;
[0029]相似度计算模块,用于计算所述测试样本与聚类后的训练样本各个簇的相似度;
[0030] 组合模块,用于对所述适应度和所述相似度进行整合,得到每个所述测试样本针 对各个所述基分类器相适应的权重,并将多个所述权重组合为一个强分类器。
[0031] 进一步地,所述构建模块采用下列任意一种方式构建多个所述基分类器:
[0032] 通过对相同的所述训练样本选取不同的分类算法训练得到;
[0033] 调整所述训练样本的权重并利用不同或相同的分类算法训练得到;
[0034] 调整所述训练样本的特征权重并利用不同或相同的分类算法训练得到。
[0035] 进一步地,所述聚类模块采用下列任意一种方式对所述训练样本进行聚类:
[0036] 划分聚类、层次聚类、密度聚类、网格聚类。
[0037] 进一步地,所述适应度确定模块进一步用于,利用η个所述基分类器对聚类算法生 成的k个簇分别进行测试,计算得出基分类器在各个簇上的错误率e lj;利用错误率eij进行 相应的对数处理,从而得到η个基分类器对k个簇的适应度f^,并以n*k矩阵的形式进行存 储,得到适应度矩阵;其中,i表示第i个基分类器,j表示第j个簇类。
[0038] 进一步地,所述相似度计算模块进一步用于,针对某一个测试样本,在动态求出所 述测试样本到各个簇质心的距离山后,得出所述测试样本与各个簇的相似度1/山,并以k*l 向量的形式进行存储,得到相似度向量。
[0039] 进一步地,当所述适应度以适应度矩阵形式存以及所述相似度以相似度向量形式 存储时,所述组合模块进一步用于,将所述适应度矩阵和所述相似度向量相乘,最终得到针 对每个所述测试样本的多个基分类器的权重向量,将多个基分类器的权重向量组合为适合 所述测试样本的强分类器。
[0040] 本发明的有益效果为:
[0041] 本发明通过结合聚类算法,并考虑测试样本与基分类器的适应性,动态地对基分 类器进行权重赋值,可有效提高分类器的泛化能力和分类精确率。
[0042] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0043] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0044] 图1为本发明所述方法实施例的流程示意图;
[0045] 图2为本发明所述方法实施例中,单层决策树基分类器构建流程示意图;
[0046] 图3为本发明所述方法实施例中,测试样本与基分类器的关系示意图;
[0047] 图4为本发明所述装置实施例的结构示意图。 具体实施例
[0048] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其 他的附图。
[0049] 下面结合附图和具体的实施方式对本发明所述方法作进一步的描述。
[0050] 参考图1,图1为本发明实施例一提供基于数据流量特征的流量异常检测中的自适 应动态调整基分类器权重的集成学习方法流程图,具体可以包括如下步骤:
[0051 ] S101,基分类器构建
[0052]参考图2,图2为本实施例提供单层决策树基分类器构建流程示意图,其中,gl代表 第i个训练样本集的权重向量,Di代表第i个训练样本集,DSi代表第i个单层决策树。本实施 例中,使用给定带有标签的数据样本对单层决策树进行训练,选择AdaBoost算法的方式构 建η个单层决策树,每个单层决策树即为一个基分类器。
[0053]其中,带有标签的数据样本是由多维特征属性组成,数据样本为异常的,其标签为 1;反之,数据样本正常的,其标签为〇。
[0054]其中,多个基分类器的构建可选择下列任意一种方式:
[
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1