一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法

文档序号:8258921阅读:249来源:国知局
一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法
【技术领域】
[0001] 本发明涉及数据挖掘预处理技术领域,具体来说是一种基于Canopy聚类和BIRCH 层次聚类的连续属性离散化方法。
【背景技术】
[0002] 连续属性离散化是数据挖掘的重要预处理步骤,直接影响到数据挖掘的效果。目 前,很多数据挖掘算法在建模前都要求连续属性离散化,如粗糙集算法。连续属性的离散化 是指在特定的连续属性的值域范围内设定若干个划分点,将属性的值域范围划分为一些离 散化的区间,最后用不同的符号或整数代表落在每个自区间中的属性值。连续属性离散化 本质上可归结为利用选取的断点来对条件属性的空间进行划分的问题,即将m维(假设有 m个条件属性)空间划分成n个(n〈card(U))区域,每个区域中对象的决策值相同,则每个 这样的区域对应一个离散后决策系统中的一个对象。
[0003] 目前,连续属性离散化方法大致上可以归为非监督离散化和有监督离散化两大 类:
[0004] 有监督离散化方法,如统计检验法、信息熵法、贪心算法及其改进算法等,此类方 法的优势是考虑了连续属性离散化时对象的分类信息,缺点是忽略了样本间的关联性,因 而容易造成不合理的离散化或产生太多的离散化区间数目。
[0005] 非监督离散化方法,如密度分布聚类、超立方体聚类、Canopy聚类等,此类方法的 优势是简单、易于操作,但由于不带类别信息,此类方法需要事先人为地指定聚类簇数且大 多没有考虑对象的分类信息,因此,离散化效果往往不太理想。

【发明内容】

[0006] 本发明的目的是为了解决现有技术中离散化效果差、离散化不合理的缺陷,提供 一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法来解决上述问题。
[0007] 为了实现上述目的,本发明的技术方案如下:
[0008] 一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,包括以下步骤:
[0009] 利用Canopy聚类实现连续属性数据初始聚类;设置合理的距离阈值Tl、T2,其中 阈值Tl、T2为划分Canopy大小的度量;利用Canopy聚类方法,将相似对象放在一个子集 Cluster中;经处理后获取各个Cluster的质心,完成数据初始聚类;
[0010] 以初始聚类中心为样本,通过BIRCH层次聚类进行二次聚类;利用Canopy聚类输 出的Cluster质心,结合聚类特征可加性原理构建聚类特征CF和聚类特征树CF树;通过 BIRCH聚类方法把稀疏的簇当做离群点删除,将稠密的簇合并为更大的簇,实现数据集的二 次聚类;
[0011] 对断点集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据, 实现连续属性的离散化;以BIRCH聚类算法的聚类中心为断点集,以轮廓系数作为聚类效 果评价指标,以不相容度作为离散效果评价指标,对数据集任一样本找出其所在维各聚类 中心的最近邻,以此作为离散微调依据,将聚类微调的结果作为最终连续属性离散结果。
[0012] 所述的Canopy聚类方法包括以下步骤:
[0013] 将数据集预处理后得到List集合,经十折交叉验证方法后选择两个距离阈值T1 和 T2,且 T1>T2 ;
[0014] 循环List集合,从List集合中任取一点t,用距离度量快速计算点t与所有 Canopy之间的距离;
[0015] 若点t与某个Canopy距离在T1以内,则将点t加入到该Canopy ;
[0016] 若点t与某个Canopy的距离在T2以内,则把点t从List中删除。
[0017] 所述的Cluster的质心计算公式如下:
[0018]
【主权项】
1. 一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,其特征在于,包括 以下步骤: 11) 利用Canopy聚类实现连续属性数据初始聚类;设置合理的距离阈值Tl、T2,其中 阈值Tl、T2为划分Canopy大小的度量;利用Canopy聚类方法,将相似对象放在一个子集 Cluster中;经处理后获取各个Cluster的质心,完成数据初始聚类; 12) 以初始聚类中心为样本,通过BIRCH层次聚类进行二次聚类;利用Canopy聚类输 出的Cluster质心,结合聚类特征可加性原理构建聚类特征CF和聚类特征树CF树;通过 BIRCH聚类方法把稀疏的簇当做离群点删除,将稠密的簇合并为更大的簇,实现数据集的二 次聚类; 13) 对断点集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据,实 现连续属性的离散化;以BIRCH聚类算法的聚类中心为断点集,以轮廓系数作为聚类效果 评价指标,以不相容度作为离散效果评价指标,对数据集任一样本找出其所在维各聚类中 心的最近邻,以此作为离散微调依据,将聚类微调的结果作为最终连续属性离散结果。
2. 根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化 方法,其特征在于,所述的Canopy聚类方法包括以下步骤: 21) 将数据集预处理后得到List集合,经十折交叉验证方法后选择两个距离阈值T1和 T2,且T1>T2 ; 22) 循环List集合,从List集合中任取一点t,用距离度量快速计算点t与所有Canopy 之间的距离; 若点t与某个Canopy距离在T1以内,则将点t加入到该Canopy; 若点t与某个Canopy的距离在T2以内,则把点t从List中删除。
3. 根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化 方法,其特征在于,所述的Cluster的质心计算公式如下:
其中:C/为簇Cj的聚类中心;n为样本数目;为簇j时第k个属性第n条样本。
4. 根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化 方法,其特征在于,所述的结合聚类特征可加性原理构建聚类特征CF和聚类特征树CF树包 括以下步骤: 41) 定义聚类特征CF为三元组,CF= {n,LS,SS}, 其中n是聚类数据的数目,LS是n个数据点的线性和,SS是s个数据点的平方和; 42) 以聚类特征CF为基础,推导出簇的形心X(l、簇的半径R,公式如下:
R为成员对象到形心X〇的平均距离; 43)假设CF1=(N^LSpSSJ、CF2= (N2,LS2,SS2),CFJPCF^别为两个类的聚类特 征; 合并后新簇的聚类特征为CFi+CF2=(Ni+N2,LSi+LS2,SSi+SS2)。
5. 根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化 方法,其特征在于,所述的轮廓系数S的取值范围在[_1,1]之间变化,在此范围内,值越大 聚类效果越好,轮廓系数S的计算公式如下:
其中,%是样本i到本簇中所有其他样本的平均距离;bi是样本i到不包含该样本的 其他任意簇中所有样本平均距离的最小值。
6. 根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化 方法,其特征在于,所述的不相容度的计算步骤如下: 61) 设知识表达系统R= (U,A,V,f),A为一个有限属性集合,v为属性a的值域, f:UXA-V为{目息函数,即:VfleJ,xGU,f(x,a)GVa; 62) 属性Ai的不相容度公式如下:
其中,AiT为只考虑条件属性时论域中不相容样本的集合,Card(A广)、Card(U)分别为集 合A'U的基数; 63) 整个决策表的相容性度量如下所示:
设定不相容度误差界限0 = 〇. 25,a= 1(T7,则每个属性的不相容度近似估计值为:
,离散后的属性不相容度满足|ai-aT| = |&厂0.1|〈0.25。
7. 根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化 方法,其特征在于,所述的聚类离散微调包括以下步骤: 71) 对断点集任一样本i找出其所在维各聚类中心的最近邻; 72) 将最近邻的聚类中心标识赋予i,实现了样本到其所属聚类中心的微调,实现了连 续属性离散化。
【专利摘要】本发明涉及一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,与现有技术相比解决了离散化效果差、离散化不合理的缺陷。本发明包括以下步骤:利用Canopy聚类实现连续属性数据初始聚类;以初始聚类中心为样本,通过BIRCH层次聚类进行二次聚类;对断点集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据,实现连续属性的离散化。本发明可解决高维、大数据样本的连续属性离散化方法,减少连续属性值的数目,降低系统对存储空间的依赖,使离散化后的数据更规约和简化,便于理解、使用和解释,扩大了适用范围。
【IPC分类】G06F17-30
【公开号】CN104573050
【申请号】CN201510028384
【发明人】闫永刚, 陶刚, 刘俊, 张小兵, 张晓花
【申请人】安徽科力信息产业有限责任公司
【公开日】2015年4月29日
【申请日】2015年1月20日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1