一种基于集合特征向量的快速聚类方法和装置的制作方法

文档序号:6581591阅读:222来源:国知局
专利名称:一种基于集合特征向量的快速聚类方法和装置的制作方法
技术领域
本发明涉及数据挖掘、聚类分析、高维数据聚类等技术领域,具体涉及一种基于集合特征向量的快速聚类方法和装置。
背景技术
聚类是数据挖掘领域最为常见的任务之一,用于发现在数据集中未知的对象类。对高维数据的处理能力是聚类研究的一个重要内容。许多聚类算法在维数比较低的情况下能够生成质量比较高的聚类结果,却难以应用于高维数据的情况,有时甚至可能会产生错误的聚类结果。在提出本发明之前,我们已经在高维数据挖掘领域,特别是高维稀疏数据挖掘领域,提出了一个有效的算法——CAB0SFV聚类算法。CAB0SFV算法从集合的角度定义了一种新的差异度计算方法,称为“稀疏特征差异度(Sparse Feature Distance, SFD)”以此反映一个集合内部对象间的相似程度,并通过新定义的一个概念“稀疏特征向量(Sparse Feature Vector, SFV)”来概括一个对象集合所包含的全部聚类相关信息,可以方便地计算集合内对象的相似程度。稀疏特征向量能够对数据进行有效压缩,使得数据处理量大大减少,并且只需进行一次数据扫描就可以生成聚类结果。CAB0SFV聚类算法中差异度的计算是基于集合给出的,其定义如下:集合的稀疏差异度:假设有η个对象,描述每个对象的属性有m个,Y为其中的一个对象子集,其中的对象个数 可以用|γ|表示,在该子集中所有对象稀疏特征取值皆为I的属性个数为a(0 < a < m),稀 疏特征取值不全相同的属性个数为e (O < e < m),则集合Y的稀疏差异度SFD(Y)定义为:
权利要求
1.一种基于集合特征向量的快速聚类方法,其特征在于,包括以下步骤: (1)数据属性转换步骤:将输入的混合属性数据转化为二值属性; (2)数据排序步骤:按照对象稀疏性指数或不干涉序列指数对数据进行排序; (3)初次聚类步骤:该步骤包括两个子步骤: 首先,令排序后的第一个对象单独成类,得到其集合特征向量, 然后,顺序扫描其余待聚类对象,如果将当前扫描到的对象并入任何一个已经创建的类中,都会使得并入后的集合差异度大于集合差异度上限h,则创建一个新类,该新类仅包含当前扫描到的对象;否则,将当前对象并入使得并入后集合差异度最小的类中,并更新该类的集合特征向量; (4)二次聚类步骤:将初次聚类步骤得到的初次聚类结果作为输入进行二次聚类。然后去除聚类结果中的孤立点,得到最终聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤2)中的对象稀疏性指数是指对象属性中取值为I的个数;所述不干涉序列指数是指不干涉序列与对象的属性的内积,其计算方法如下:设一个二值属性数据集X有η个对象,每个对象共有m个属性。X为数据集X中的一个对象,其属性值分别为(I1(X), d2(x),…,dm(x), ((Ii(X)=O或I, i=l, 2,..., m),则对象 X 的不干涉序列指数为:Q(X7M)=Cl1 (X) MJd2 (X) M2+...+(!_ (X) Mm 其中(M1, M2,…,Mm)为某选定的不干涉序列M= (M1, M2, M3,…,Mi,…)的前m项。
3.根据权利要求1所述的方法,其特征在于,所述步骤3)中的集合特征向量是指集合内所有对象参与聚类所需的相关信息的特征表示向量,其定义如下:设一个二值属性数据集有η个对象,描述每个对象的 属性有m个,Y为其中的一个对象子集,其中的对象个数可以用IyI表示,在该子集中所有对象取值皆为I的属性个数为a(0<a<m),对应的属性序号为j2,...,ja,取值不全相同的属性个数为e (O彡e彡m),对应的属性序号为kp K2,…,ke,则向量SFV⑴=(I Y|,S(Y),NS(Y),SD(Y))称为对象集合Y的集合特征向量。其中S(Y)为Y中所有对象取值都为I的属性序号集合,NS (Y)为取值不全相同的属性序号集合,SD (Y)为集合差异度;所述集合差异度是指集合内对象间的差异程度,其计算方法如下:设一个二值属性数据集有η个对象,描述每个对象的属性有m个,Y为其中的一个对象子集,其中的对象个数记为I Yl,在该子集中所有对象取值皆为I的属性个数为a (O m),取值不全相同的属性个数为e (O ( e ( m),则定义为子集Y的集合差异度。
4.根据权利要求1所述的方法,其特征在于,所述步骤4)中对初次聚类结果进行二次聚类是指将初次聚类结果中各个类的集合特征向量视作待聚类对象,将每个集合特征向量的S集中的属性作为该集合特征向量的集合属性值,并将步骤2)和步骤3)中的集合差异度、集合特征向量对应改变为拓展集合差异度和拓展集合特征向量,同时将集合差异度上限h改变为拓展集合差异度上限b2后,按照步骤2)和步骤3)进行聚类的过程。
5.根据权利要求4所述的方法,其特征在于,所述的集合属性值定义如下:设函数f:Xi — Vk表示集合X中的某个对象Xi对应的属性值vk(i = I, 2,..., n ;k = I, 2,..., I),其中I表示所有属性取值的总数量。当集合X内的每个对象都对应某个属性值Vk时,称该属性值为集合X的集合属性值,集合X的所有集合属性值可以表示为AVS(X)。
6.根据权利要求4所述的方法,其特征在于,所述的拓展集合差异度是指多个集合之间的总体差异程度。其计算方法如下:对于数据集U,X为U的一个划分X = {X1; X2,,Xk},k e N,Xi是X中的某一个元素,Xi的集合属性值为AVS(Xi),Q是X的一个子集,Q为其元素个数,|q| ( k,对于该子集中的所有集合,相同的集合属性个数为S(Q),不全相同的集合属性值个数为NS (Q),则定义= 为子集Q的拓展集合差异度,对应地,定义ESFV(Q) = (|Q|,S(Q),NS(Q) ,ESD(Q))为拓展集合特征向量。
7.一种基于集合特征向量的快速聚类装置,其特征在于,包括以下组成模块: 数据输入模块:用于将载于其他媒介上的信息数字化并且读入计算机中,或者将载于其他计算机、存储设备中的信息直接读入该装置所处的计算机中; 数据属性转换模块,用于对数据进行属性转换,将混合数据中的分类属性和数值属性转换为二值属性; 数据排序模块,用于按照对象稀疏性指数或不干涉序列指数对数据进行排序; 初次聚类模块,用于对数据进行初次聚类; 二次聚类模块,用于在初次聚类的基础上对数据进行二次排序; 结果展示模块,用于将二次聚类模块得到的聚类结果以图形或/和文字的形式展示出来。
全文摘要
本发明提供一种基于集合特征向量的快速聚类方法和装置。所述方法有如下步骤1)将输入的混合属性数据转化为二值属性;2)按照对象稀疏性指数或不干涉序列指数排序;3)令排序后的第一个对象单独成类,得到其集合特征向量,然后顺序扫描其余待聚类对象,由当前扫描到的对象并入已经创建类的集合差异度与集合差异度上限b1的大小决定该对象是并入某个已经创建的类中还是单独创建一个新类;4)对步骤3)得到的初次聚类结果进行二次聚类,然后去除聚类结果中的孤立点,得到最终聚类结果。本发明只需要对数据进行一次排序和一次扫描即可完成聚类过程,兼顾聚类质量的同时,大幅降低了聚类所需的时间,而且聚类结果可以不受数据输入顺序的影响。
文档编号G06F17/30GK103077228SQ20131000040
公开日2013年5月1日 申请日期2013年1月2日 优先权日2013年1月2日
发明者武森, 姜敏, 魏桂英, 鄂旭 申请人:北京科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1