基于地标点表示的谱聚类方法

文档序号:6369463阅读:368来源:国知局
专利名称:基于地标点表示的谱聚类方法
技术领域
本发明涉及图像数据处理中的机器学习与模式识别技术领域,具体涉及一种采用稀疏编码技术进行聚类分析的谱聚类方法。
背景技术
聚类是机器学习与模式识别中一种重要的方法,它要求能合理地按样本的特性来进行合理的分类,但没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的学习,是无监督学习的代表。常见的聚类分析方法主要包括如下几种 分裂法,又称划分方法。首先创建K个划分,K为要创建的划分的个数;然后利 用一个循环定位的技术通过将对象从一个划分移到另一个划分来改善划分质量。典型的划分方法有Kmeans, Kmedoids 和 CLARA (Clustering LARge Application)等。 层次法,通过创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。典型的层次方法有BIRCH(BalancedIterative Reducing and Clustering using Hierarchies), CURE(Clustering UsingREprisentatives)和 CHEMALOEN 等。 基于密度的方法,根据密度完成对象的聚类。它根据对象周围的密度不断增长聚类。典型的基于密度的方法有DBSCAN(Densit-based Spatial Clustering ofApplication with Noise)和 OPTICS(Ordering Points To Identify the ClusteringStructure)。 基于图的方法。它将聚类问题视为图的划分问题,以谱聚类(SpectralClustering)为典型代表。谱聚类突破了其他聚类算法只能适用于欧式空间、得到的类只能为凸集的局限性,往往能够产生更好的聚类效果。然而该算法需要进行图的构建和分解过程,计算复杂度较高,不能应用在大规模数据集上。针对以上的问题,也就是为了解决谱聚类对大规模数据集的计算复杂度过高的问题,需要设计新的算法既能够保持原始算法的聚类效果,又能加速聚类的过程。目前主要采用的手段有 基于 Kmeans 的近似谱聚类(Kmeans-based Approximate SpectralClustering, PCA):该方法的核心在于减少数据集的大小,具体步骤为通过Kmeans聚类将原始数据集用聚类中心点集来表示,然后直接对聚类中心点集进行谱聚类。 基于代表的谱聚类(Committees-based Spectral Clustering, CSC):该方法的关键思想也在于减少数据集的大小。具体步骤为通过Kmeans聚类将原始数据集中最接近聚类中心的点用聚类中心表示,从而减少了数据集的大小便于随后的谱聚类,如图I所示,(a)为Kmeans聚类,A为Kmeans聚类的聚类分割线;(b)为谱聚类,B为谱聚类的聚类分割线。有图I可见,Kmeans聚类和谱聚类在中间点的分布上存在差异。
NystrSm分解法OystrSm):通过?Jystr5m方法来加速图的特征值分解过程,从而加速谱聚类。上述方法都在某种意义上采用了随机采样的思想,用一部分点来作为整个数据集的代表,虽然在实际中具有一定的效果,但是还是丧失了大部分数据信息和具体的分布结构。稀疏编码是一种获取图像稀疏表达的方法,最早应用于模拟哺乳动物视觉系统主视皮层Vl区简单细胞感受的人工神经网络的编码方式,后来被广泛应用图像处理等领域。

发明内容
本发明要解决的技术问题是提供一种谱聚类算法效率高、计算复杂度低、聚类效果好的基于地标点表示的谱聚类方法。为解决上述技术问题,本发明采用的技术方案为一种基于地标点表示的谱聚类方法,其实施步骤如下I)输入数据X和聚类数k ;2)在数据X中通过Kmeans聚类算法或者随机采样产生P个地标点;3)将所述数据X基于所述P个地标点构建稀疏表示矩阵Z ;4)根据所述稀疏表示矩阵Z计算ZtZ的前k个特征向量A ;5)根据所述稀疏表示矩阵Z计算Z的右奇异向量得到ZZt的前k个特征向量Bt ;6)对特征向量Bt的每一行通过Kmeans聚类算法进行Kmeans聚类,最终输出聚类结果。作为本发明上述技术方案的进一步改进所述步骤3)中构建稀疏表示矩阵Z的表达式为
权利要求
1.一种基于地标点表示的谱聚类方法,其特征在于其实施步骤如下 1)输入数据X和聚类数k; 2)在数据X中通过Kmeans聚类算法或者随机采样产生P个地标点; 3)将所述数据X基于所述P个地标点构建稀疏表示矩阵Z; 4)根据所述稀疏表示矩阵Z计算ZtZ的前k个特征向量A; 5)根据所述稀疏表示矩阵Z计算Z的右奇异向量得到ZZt的前k个特征向量Bt; 6)对特征向量Bt的每一行通过Kmeans聚类算法进行Kmeans聚类,最终输出聚类结果。
2.根据权利要求I所述的基于地标点表示的谱聚类方法,其特征在于,所述步骤3)中构建稀疏表不矩阵Z的表达式为
3.根据权利要求I或2所述的基于地标点表示的谱聚类方法,其特征在于,所述步骤4)的详细步骤为 4.I)根据所述稀疏表示矩阵Z计算稀疏表示矩阵Z的转置矩阵Zt ; 4.2)将所述转置矩阵Zt乘以稀疏表示矩阵Z得到ZtZ ; 4.3)用QR分解等数值计算的方法来计算ZtZ的前k个特征向量A和所述特征向量对应的矩阵形式特征值E。
4.根据权利要求3所述的基于地标点表示的谱聚类方法,其特征在于所述步骤5)具体是指根据Bt = E -1AX求解ZZt的前k个特征向量BT,其中X为原始数据组成的矩阵,A为所述步骤4. 3)中得到的前k个特征向量,E为所述步骤4. 3)中得到的特征向量对应的矩阵形式特征值,E 1表示计算矩阵E的逆。
全文摘要
本发明公开了一种基于地标点表示的谱聚类方法,其实施步骤如下1)输入数据X和聚类数k;2)在数据X中通过Kmeans聚类算法或者随机采样产生P个地标点;3)将所述数据X基于所述P个地标点构建稀疏表示矩阵Z;4)根据所述稀疏表示矩阵Z计算ZTZ的前k个特征向量A;5)根据所述稀疏表示矩阵Z计算Z的右奇异向量得到ZZT的前k个特征向量BT;6)对特征向量BT的每一行通过Kmeans聚类算法进行Kmeans聚类,最终输出聚类结果。本发明具有谱聚类算法效率高、计算复杂度低、聚类效果好的优点。
文档编号G06K9/62GK102799891SQ201210168089
公开日2012年11月28日 申请日期2012年5月24日 优先权日2012年5月24日
发明者蔡登 , 陈鑫磊, 何晓飞 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1