一种数据挖掘中基于线性判别分析的改进型k均值聚类方法

文档序号:6519728阅读:2377来源:国知局
一种数据挖掘中基于线性判别分析的改进型k均值聚类方法
【专利摘要】一种数据挖掘中基于线性判别分析的改进型k均值聚类方法,即LKM算法,首先运用线性判别分析(LDA)对原始的n维数据集A进行线性降维,得到l维的数据集Y,然后运用k均值聚类算法对于降维后的数据集Y进行聚类分析,并输出最终结果。本发明采用数据降维与K均值聚类方法结合的方法,利用数据降维技术弥补k均值聚类算法面对高维数据时的缺陷。通过数据降维来达到减轻维数灾难和消除高维空间中其他不相关属性的目的。同时,这也提高了k均值聚类算法处理高维数据的性能,弥补了k均值聚类算法的相关缺陷。
【专利说明】一种数据挖掘中基于线性判别分析的改进型K均值聚类方法
【技术领域】
[0001]本发明是一种基于线性判别分析(Linear discriminant analysis, LDA)对K均值聚类方法进行性能改进的优化方法,即LKM (LDA-based K-Means algorithm)算法,属于数据挖掘中的聚类分析研究领域。
【背景技术】
[0002]聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及模糊聚类。K均值聚类方法是一种很典型的基于距离划分的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似性就越大。由于其算法思想简便,又容易实现对大规模数据的聚类,因此K均值聚类方法己成为最常用的聚类算法之一。
[0003]目前,K均值聚类方法仍然存在着不少缺点,主要的问题有以下几个方面:(1)严重依赖于初始中心点的选取;(2)聚类个数K需要预先给定;(3)聚类结果易受噪声点数据的影响;(4)不适用于大数据量的聚类问题;(5)不能对高维数据进行有效处理。
[0004]K均值聚类方法在处理二维或三维数据的情况下仍能够很好地保证聚类的质量,然而随着技术的发展和人类获取信息能力的增强,需要进行K均值聚类分析处理的数据维数也在不断地增加。在N维(N > 3)数据对象处理之中,K均值聚类方法经常碰到“维数灾难”的问题。“维数灾难”(Curse of Dimensionality)指的是处理多变量函数时所需的采样点数,随着空间维数的增加将会呈现指数增长的困难;现在一般指高维数据空间的本征稀疏性。此时,K均值聚类方法的处理时间过长,效率低下。
[0005]目前,有关于数据降维的理论研究,国内外专家学者已经展开了很多的相关工作和探讨。所谓数据降维是指通过线性或非线性映射将样本从高维空间映射到低维空间,从而获得高维数据的一个有意义的低维表示的过程。然而,国内鲜有将数据降维和K均值聚类方法结合起来,利用数据降维技术弥补K均值聚类方法面对高维数据时的缺陷。通过数据降维可以减轻维数灾难和消除高维空间中其他不相关属性,我们认为对降维后的数据进行聚类分析,这提高了 K均值聚类方法处理高维数据的性能。

【发明内容】

[0006]技术问题:本发明针对K均值聚类方法无法对高维数据进行聚类分析,无法达到K均值聚类方法对高维数据进行快速处理等问题,提供一种数据挖掘中基于线性判别分析的改进型K均值聚类方法,利用线性判别分析的线性映射,将原始的高维数据一一映射到低维空间中,完成线性降维操作,得到适合K均值聚类分析的低维数据,并完成聚类分析。
[0007]技术方案:本发明的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法具体如下:[0008]在K均值聚类方法进行聚类分析之前,依据线性判别分析建立降维模型,将高维数据一一映射到低维空间,使其变为常见的低维数据即二维或一维数据,等待聚类分析;利用K均值聚类方法对低维数据进行分类,计算新的聚类中心,不断迭代直至误差平方和准则函数收敛,完成聚类分析;具体步骤描述如下:
[0009]I)利用线性判别分析生成一个转换矩阵G ;
[0010]2)生成线性判别分析中主要包括的三个散射矩阵:类内散射矩阵Sw,类间散射矩阵Sb和总散射矩阵St ;
[0011]3)根据转换矩阵G、类间散射矩阵Sb和总散射矩阵St计算最佳转化矩阵
【权利要求】
1.一种数据挖掘中基于线性判别分析的改进型K均值聚类方法,其特征在于在K均值聚类方法进行聚类分析之前,依据线性判别分析建立降维模型,将高维数据一一映射到低维空间,使其变为常见的低维数据即二维或一维数据,等待聚类分析;利用K均值聚类方法对低维数据进行分类,计算新的聚类中心,不断迭代直至误差平方和准则函数收敛,完成聚类分析;具体步骤描述如下: 1)利用线性判别分析生成一个转换矩阵G; 2)生成线性判别分析中主要包括的三个散射矩阵:类内散射矩阵Sw,类间散射矩阵Sb和总散射矩阵St ; 3)根据转换矩阵G、类间散射矩阵Sb和总散射矩阵St计算最佳转化矩阵
2.根据权利要求1所述的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法,其特征在于所述的在K均值聚类方法进行聚类分析之前,依据线性判别分析建立降维模型,将高维数据一一映射到低维空间,使其变为常见的低维数据即二维或一维数据,等待聚类分析;具体描述如下: 在线性判别分析LDA中,尽可能使类内距离最小化的同时使类间距离达到最大化,得到最优的投影方向以产生最好的分类结果,即选择使得样本类间离散度和样本类内离散度的比值最大化的特征描述样本;对于给定的矩阵A G Rdxn, Rdxn表示全体dXn实矩阵构成的n维实线性空间,利用线性判别分析LDA能够生成一个转换矩阵G G RdxljRdxl表示全体dXl实矩阵构成的I维实线性空间,把n维空间中矩阵A的每一个列向量一一映射到I维空间中的向量71,即: Yi = G1^ai G R1 (I < d), I ^ i ^ n(I) 为了满足K均值聚类方法中划分成K个聚类的需要,将矩阵A划分成K个相应的聚类,A = [A1,…,Ak],其中,
3.根据权利要求1所述的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法,其特征在于所述的利用K均值聚类方法对低维数据进行分类,计算新的聚类中心,不断迭代直至误差平方和准则函数收敛,完成聚类分析。具体描述如下:从降维后得到的数据集Y所包含的n个数据中任意选择K个作为初始聚类中心,计算所有数据与初始聚类中心的欧式距离,即:
4.根据权利要求2所述的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法,其特征在于所述的依据线性判别分析建立降维模型,将高维数据一一映射到低维空间,具体描述如下:在LDA线性降维阶段,运用randO函数随机产生初始的n维实线性空间A G Rdxn,利用LDA能够生成一个转换矩阵G G RdxlJE n维空间中矩阵A的每一个列向量Bi 一一映射到I维空间中的向量yi,得到降维后的数据集Y。
5.根据权利要求3所述的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法,其特征在于所述的利用K均值聚类方法对低维数据进行分类,计算新的聚类中心,不断迭代直至误差平方和准则函数收敛,完成聚类分析。具体描述如下:在K均值聚类分析阶段,从降维后得到的数据集Y所包含的n个数据中任意选择K个数据作为初始聚类中心;根据每个聚类中心,计算所有数据与这K个聚类中心的欧式距离;并根据最小距离重新对相应数据进行划分;重新计算每个聚类中心;计算误差平方和准则函数,当满足收敛条件,即函数收敛时,则算法终止;如果条件不满足则不断重复迭代过程直到标准测度函数开始收敛为止。
【文档编号】G06F17/30GK103678500SQ201310582288
【公开日】2014年3月26日 申请日期:2013年11月18日 优先权日:2013年11月18日
【发明者】王堃, 张玉华, 孙雁飞, 吴蒙, 郭篁, 陈思光 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1