一种基于局部和全局信息的采样式聚类集成方法

文档序号:10489418阅读:263来源:国知局
一种基于局部和全局信息的采样式聚类集成方法
【专利摘要】本发明公开了一种基于局部和全局信息的采样式聚类集成方法,首先对目标数据集进行混合采样并生成学习样本,在此学习样本空间中进行聚类分析并生成聚类划分,接下来对聚类划分进行质量评估,并根据评估结果更新目标数据集的权重向量;以上步骤进重复多轮,进而产生多个聚类划分。然后把多个聚类划分融合为一个新的特征表示,并使用传统的聚类算法对此特征表示做聚类分析,并生成集成聚类结果。本发明使得集成学习具有较强的抗噪性,同时也使其具有极高解决问题数据的能力;而且新的特征可以有效而全面地表征全局与局部的簇结构信息,使得集成学习算法在不同特点的数据集上产生好的效果。
【专利说明】
-种基于局部和全局信息的采样式聚类集成方法
技术领域
[0001] 本发明属于机器学习领域,尤其设及一种基于局部和全局信息的采样式聚类集成 方法。
【背景技术】
[0002] 本发明公开了一种基于局部和全局信息的采样式聚类集成方法,主要设及学习样 本采样机制与聚类集成学习算法两个方面:(1)学习样本采样机制数据采样技术主要包括 Ξ种:欠采样、过采样和混合采样。随机采样是欠采样技术中较为简单的一种,它随机去掉 数据集中的多数类样本,降低学习过程中的计算成本,尤其是在数据集中存在噪声时,使用 随机欠采样技术效果较好;另外一种就是加权采样方法,运种采样方法给数据集中的每一 样本分配一个权值,提取出来的学习样本的概率由其权值的大小决定,它使得学习过程具 有指向性,集中处理问题样本,但是,此类方法对于噪声和异常样本较为敏感,容易造成学 习的不准确。采样技术方法的缺点是容易造成分类器的过度拟合,同时也增加计算成本。对 多数类使用欠采样技术时,会存在丢失多数类数据中的一些有用信息,而对少数类数据的 过采样技术,训练的时间与复杂度会很高,有时甚至会导致分类器的过拟合。交叉采样方法 主要针对于监督学习问题,其采样机制是通过先验的数据集类信息实现,此信息在非监督 学习问题中并不提供。所W对于聚类集成算法,只有Bagging的随机采样和Boosting的加权 采样方法较为可行。但运两种方法都存在各自的缺陷。(2)聚类集成算法,聚类集成学习的 目的是把同一个目标数据集的多个聚类分析结果整合在一起生成一个具有更高性能的最 终的集成聚类结果。一般来说,集成学习算法的构造由两部分组成,即成员聚类器的产生与 融合,现有的聚类集成学习算法主要在运两方面存在差异。在第一步生成多个成员聚类器 时,是否能够产生高质量和差异大的成员聚类器集合是决定集成学习结果好坏的重要因 素。对于聚类集成学习算法,很多方法可W用来产生多个成员聚类器,常用的方法可分为: 在同一数据集上使用不同的聚类算法,W产生不同的聚类结果;使用同一聚类算法,但结合 不同的初始化和参数设置来产生不同的聚类结果;在同一数据集的多个特征空间中使用相 同的聚类算法,W产生不同的聚类结果;对目标数据集进行学习样本采样,在不同的学习样 本空间中使用相同的聚类算法,W产生不同的聚类结果。
[0003] 现有聚类集成学习算法存在很大的局限性:只针对单一特点的数据集有效和对数 据集的簇结构有较强的假设性。为此,开发一种普遍适用于不同特点数据集的聚类集成算 法极为迫切。

【发明内容】

[0004] 本发明的目的在于提供一种基于局部和全局信息的采样式聚类集成方法,旨在解 决现有聚类集成学习算法存在只针对单一特点的数据集有效和对数据集的簇结构有较强 的假设性的问题。
[0005] 本发明是运样实现的,一种基于局部和全局信息的采样式聚类集成方法,所述的 基于局部和全局信息的采样式聚类集成方法包括w下步骤:
[0006] 首先对目标数据集进行混合采样并生成学习样本,在学习样本空间中进行聚类分 析并生成聚类划分,接下来对聚类划分进行质量评估,并根据评估结果更新目标数据集的 权重向量,重复多轮,进而产生多个聚类划分;
[0007] 然后把多个聚类划分融合为一个新的特征表示,并使用聚类算法对此特征表示做 聚类分析,并生成集成聚类结果。
[0008] 进一步,所述聚类算法的聚类集成融合函数根据簇结构的局部和全局信息将同一 数据集的多个划分转化为一个新的特征表示,在此特征空间中,使用聚类算法生成最终的 集成划分。
[0009] 进一步,所述混合采样包括随机采样和加权采样两种采样方法,具体方法为:
[0010] 步骤一、使用随机采样的方法从目标数据集中提取初始学习样本;
[0011] 步骤二、使用加权采样的方法从初始学习样本中提取最终的学习样本。
[0012] 进一步,对目标数据集扣庇1进行多轮采样,并使用K-means聚类算法对采样空间 进行聚类分析,产生多个初始聚类划分沪担,K-means聚类算法如下:
[0013] 步骤一、从η个数据对象任意选择k个对象作为初始聚类中屯、;
[0014] 步骤二、根据每个聚类对象的均值,计算每个对象与中屯、对象的距离;并根据最小 距离重新对相应对象进行聚类划分;
[0015] 步骤Ξ、重新计算每个聚类的均值;
[0016] 步骤四、循环步骤二到步骤Ξ直到每个聚类不再发生变化为止。
[0017] 进一步,所述聚类集成融合函数整合簇结构的局部和全局信息,将同一数据集 片,浩的多个划分化但转化为一个新的特征表示Η={αιΗ?.....日沁},其中,护。和at 分别为划分Pt的特征表示和权值;
[001 引
[0019] XI为样本i的标注,I NB I是自定义的邻域大小,
I邻域内的点到簇 表征点^的平均距离:分别是位于XI与簇表征点 叫的局部比例因子。
[0020] 本发明提出的混合采样方法融合了随机采样和加权采样于一体,混合采样机制中 的随机采样可W减少学习样本中的噪声数据点,同时混合采样机制中的加权采样又可W选 取较难的学习样本进行具有针对性的聚类分析,其结合了两种经典集成算法Bagging与 Boosting的优势;聚类集成融合函数根据簇结构的局部和全局信息将同一数据集的多个划 分转化为一个新的特征表示;在此特征空间中,可W使用任何一种传统的聚类算法生成最 终的集成划分,此特征表示可W有效而全面地表征全局与局部的簇结构信息,使得集成学 习算法在不同特点的数据集上产生好的效果。本发明首先对目标数据集进行混合采样并生 成学习样本,混合采样机制中的随机采样可W减少学习样本中的噪声数据点,同时混合采 样机制中的加权采样可W选取较难的学习样本进行具有针对性的聚类分析,并生成聚类划 分;接下来对聚类划分进行质量评估,并根据评估结果更新目标数据集的权值向量,具有较 高聚类质量的数据点的权重降低,具有较差聚类质量的数据点的权重升高,那么根据更新 的权值向量进行加权采样,较差聚类质量的数据点就会在下一轮被选取,并对其进行具有 针对性的聚类分析,W上工作重复多轮,进而产生多个聚类划分;然后把多个聚类划分融合 为一个新的特征表示,并使用传统的聚类算法对此特征表示做聚类分析,并生成集成聚类 结果,此特征表示可W有效而全面地表征全局与局部的簇结构信息,使得集成学习算法在 不同特点的数据集上产生好的效果。
【附图说明】
[0021] 图1是本发明实施例提供的基于局部和全局信息的采样式聚类集成方法流程图。
[0022] 图2是本发明实施例提供的不同密度分布簇结构的人工数据-算法比较。
[0023] 图3是本发明实施例提供的不平衡簇结构的人工数据-算法比较。
[0024] 图4是本发明实施例提供的特异簇结构的人工数据-算法比较。
【具体实施方式】
[0025] 为能进一步了解本发明的
【发明内容】
、特点及功效,兹例举W下实施例,并配合附图 详细说明如下。
[0026] 请参阅图1:
[0027] -种基于局部和全局信息的采样式聚类集成方法,包括:
[002引S101:目标数据;
[0029] S102:基于混合学习样本采集机制的初始聚类生成模块;
[0030] S103:基于全局与局部簇结构信息的聚类集成融合函数模块;
[0031] S104:集成聚类结果。
[0032] 进一步,所述基于混合学习样本采集机制的初始聚类生成模块通过优化组合随机 采样和加权采样两种采样方法,进行混合式采样,具体方法为:
[0033] 步骤一、使用随机采样的方法从目标数据集中提取初始学习样本;
[0034] 步骤二、使用加权采样的方法从初始学习样本中提取最终的学习样本。
[0035] 运种新的学习样本采集方法不仅使得集成学习具有Bagging集成算法一样的抗噪 性,同时也使其具有Boosting集成算法一样针对性解决问题数据的能力。从理论分析的角 度,可W通过推导聚类集成学习的代价函数来证明混合采样机制的合理性。如公式(eq.l) 所示,可W得出结论:指数形式的集成学习代价函数其实是实际代价函数的上限。
[0036]
[0037]其中
%其初始聚类划分Pt的权值,反应 划分Pt的聚类质量;P(Xn)是数据集拆庶的先验概率,是未知的,一般定义为P(Xn) = l/N; It(Xn)是聚类划分Pt在数据点Xn的代价值。其具体计算公式如下:
[00 測
.(eq 巧
[0039] 对于聚类划分Pt,max执;)和mill舶)分别表示数据点Χη被分配到离它最近簇与最远 簇的自信度,自信度的计算公式如(eq. 5)。
[0040] 接下来,通过对公式(eq.l)的进一步推导其指数形式的代价函数如下:
[0041]
[0042] 可W意识函
I实际上就是反应集成学 习模型的聚类分析质量,运一点和Boosting算法是一致的。因此在每一轮生成一个初始聚 类划分Pt后,混合采样中加权采样机制将对每一个数据点从新分配一个权值,计算如下:
[00 创
(eq.4)
[0044] 另外,公式(eq.3)中的p(xn) = l/N正好对应Bagging算法的随机采样机制。所W, 本发明所提出的混合采样机制实际上最佳地优化了聚类集成学习的指数形式代价函数Le。
[0045] 进一步,所述基于混合学习样本采集机制的初始聚类生成模块对目标数据集 扣拍,进行多轮采样,并使用K-means聚类算法对采样空间进行聚类分析,产生多个初始聚 类划分沪盾。
[0046] 进一步,K-means聚类算法描述如下:
[0047] 步骤一、从η个数据对象任意选择k个对象作为初始聚类中屯、;
[004引步骤二、根据每个聚类对象的均值(中屯、对象),计算每个对象与运些中屯、对象的 距离;并根据最小距离重新对相应对象进行聚类划分;
[0049] 步骤Ξ、重新计算每个(有变化)聚类的均值(中屯、对象);
[0050] 步骤四、循环步骤二到步骤Ξ直到每个聚类不再发生变化为止。
[0051] 进一步,基于全局与局部簇结构信息的聚类集成融合函数模块中,新的融合函数 整合簇结构的局部和全局信息,将同一数据集I.T,.培的多个划分扣担转化为一个新的特征 表示H= {α出1……日棘},其中,矿4;,]、心和at分别为划分Pt的特征表示和权值;
[0052]
(eq 5)
[0化3] 在公式(eq.5)中,Xi为样本i的标注,|NB|是自定义的邻域大小
是 邻域内的点到簇表征点的平均距离:
分别是 位于XI与簇表征点的局部比例因子。在此特征空间中,可W使用任何一种传统的聚类算 法,如K-means,生成最终的集成聚类结果。
[0054]为了验证本发明的性能生成了多套具有复杂簇结构的二维数据集,并分别使用本 发明公布的聚类集成算法,K-means算法,Bagging集成算法,Boosting集成算法对多套二维 数据集进行聚类分析,其性能用统一标准的分类正确率来衡量,计算公式描述如下:
[0化5]
[0056] 其中,L={Gi.....Gk4表示数据集的真实类标,P={Ci.....Ck}表示聚类结果。
[0057] 因为发明公布的聚类集成算法,Bagging集成算法,Boosting集成算法均为基于采 样的学习模式,为了试验比较的公平性,对Ξ种算法设置相同的采样率为10%。根据研发的 混合采样机制,S = Sr X Sw,进一步设定随机采样率Sr = 50%,加权采样率Sr = 20% ;如图2- 4.a所示,人为生成了Ξ套二维数据集,不同的标记表示不同类别的数据点;其中,图2.a表 示的是具有不同密度分布簇结构的人工数据集,其具有=类相同数量的数据点,但每一类 数据点具有不同的密度分布;图3.a表示的是具有不平衡簇结构的人工数据集,其具有四类 相同密度分布的数据点,但每一类数据点的个数不相同;图4.a表示的是具有特异簇结构的 人工数据集,其具有两类不同数量的数据点,并且各自的分布具有特异的簇结构;在Ξ套二 维数据集上我们测试K-means算法,Bagging集成算法,Boosting集成算法与发明公布的聚 类集成算法;如图2-4所示,本发明在使用混合采样的方法后,在对不同簇结构的人工数据 进行聚类分析中(图2-4. e)优于其他比较的算法,再加入新的融合函数后,其性能(图2- 4.f)获得进一步的提升。
[005引 W上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制, 凡是依据本发明的技术实质对W上实施例所做的任何简单修改,等同变化与修饰,均属于 本发明技术方案的范围内。
【主权项】
1. 一种基于局部和全局信息的采样式聚类集成方法,其特征在于,所述的基于局部和 全局信息的采样式聚类集成方法包括以下步骤: 首先对目标数据集进行混合采样并生成学习样本,在学习样本空间中进行聚类分析并 生成聚类划分,接下来对聚类划分进行质量评估,并根据评估结果更新目标数据集的权重 向量,重复多轮,进而产生多个聚类划分; 然后把多个聚类划分融合为一个新的特征表示,并使用聚类算法对此特征表示做聚类 分析,并生成集成聚类结果。2. 如权利要求1所述的基于局部和全局信息的采样式聚类集成方法,其特征在于,所述 聚类算法的聚类集成融合函数根据簇结构的局部和全局信息将同一数据集的多个划分转 化为一个新的特征表示,在此特征空间中,使用聚类算法生成最终的集成划分。3. 如权利要求1所述的基于局部和全局信息的采样式聚类集成方法,其特征在于,所述 混合米样包括随机米样和加权米样两种米样方法,具体方法为: 步骤一、使用随机采样的方法从目标数据集中提取初始学习样本; 步骤二、使用加权采样的方法从初始学习样本中提取最终的学习样本。4. 如权利要求1所述的基于局部和全局信息的采样式聚类集成方法,其特征在于,对目 标数据进行多轮采样,并使用K-means聚类算法对采样空间进行聚类分析,产生多 个初始聚类划分,K-means聚类算法如下: 步骤一、从η个数据对象任意选择k个对象作为初始聚类中心; 步骤二、根据每个聚类对象的均值,计算每个对象与中心对象的距离;并根据最小距离 重新对相应对象进行聚类划分; 步骤三、重新计算每个聚类的均值; 步骤四、循环步骤二到步骤三直到每个聚类不再发生变化为止。5. 如权利要求2所述的基于局部和全局信息的采样式聚类集成方法,其特征在于,所述 聚类集成融合函数整合簇结构的局部和全局信息,将同一数据集W匕的多个划分转 化为一个新的特征表示H= Ia1H1……CttHtI,其中,/T = 和at分别为划分pt的特征表示 和权值;Xi为样本i的标注,I NB I是自定义的邻域大小,&Σ?/<Λ?( 是邻域内的点到簇表征点4的平均距I 别是位于^与簇表征点A的局 部比例因子。
【文档编号】G06K9/66GK105844303SQ201610217372
【公开日】2016年8月10日
【申请日】2016年4月8日
【发明人】杨云
【申请人】云南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1