一种基于局部密度和测地距离的分层谱聚类方法

文档序号:8457576阅读:310来源:国知局
一种基于局部密度和测地距离的分层谱聚类方法
【技术领域】
[0001] 本发明属于聚类分析技术领域,涉及谱聚类中改进亲合矩阵的构造方法。具体地 说是一种基于局部密度和测地距离的分层谱聚类方法,可用于图像分割、文本挖掘、机器学 习等领域。
【背景技术】
[0002] 谱聚类算法主要是对数据对象进行分析处理,将其分为多个簇,同一个簇内具有 较高的相似性,不同簇间具有较低的相似性。谱聚类算法是建立在谱图理论的基础上,其本 质就是将传统的聚类问题转换为图的最优划分问题。首先根据给定的数据集,计算亲合矩 阵(相似度矩阵)以描述数据点之间的相似性,并计算规范化的拉普拉斯矩阵的特征值和 特征向量,通过选择合适的特征向量对不同的数据点进行聚类。传统的聚类分析方法(如 k-means算法、EM算法等),是建立在凸球形的样本空间,不适用于任意形状的样本空间聚 类,算法容易陷入局部最优;而谱聚类算法只与样本的个数有关,与数据样本的维数无关, 能够识别任意形状的样本空间且能收敛全局最优,因此被广泛应用于计算机视觉、图像分 害J、文本挖掘、VISI设计、语音识别、机器学习等领域。
[0003] 近年来,Shi和Malik根据谱图理论建立了基于2-way划分的规范割(Ncut)目标 函数,设计用于图像分割的谱聚类算法。经Ng等人研宄,发展成为k-way划分的NJW算法。 这些算法中都是采用欧氏距离决定的高斯核函数作为相似度矩阵,其中核参数需要人工确 定增加了算法的不确定性;同时采用欧氏距离的方法很难反应样本之间真实的相似关系, 尤其是对具有复杂分布结构的任意形状的数据集而言,无法有效的表示类内和类间的相似 性。
[0004] 在相似度方面的研宄,目前出现了许多改进的方法,如自调节的谱聚类方法 (简称 STSC,参见:Zelnik-Manor L, Perona P. ((Self-tuning spectral clustering)), Advances in neural information processing systems. 2004:1601-1608)、基于流行排 序定义亲和图的方法(简称ROM-MSC,参见:Xia T, Cao J, Zhang Y,et al.《On defining affinity graph for spectral clustering through ranking on manifolds)). Neurocompu ting, 2009, 72(13) :3203-3211)。2014年Yan等人提出了基于密度敏感距离测度和欧氏距离 的相似函数,其中需要计算最短路径的密度敏感距离测度相似性函数的谱聚类方法(简称 DSSC,参见:Yan J, Cheng D, Zong M, et al. ((Improved Spectral Clustering Algorithm Based on Similarity Measure》,Advanced Data Mining and Applications. Springer International Publishing, 2014:641-654)通过放大不同高密度区域内数据点间距离,同 时缩短同一高密度区域内数据点间距离,发现复杂数据分布的空间特征;这些方法虽然在 一定程度上改善了谱聚类方法的聚类性能,但并未能解决粘连数据集如何构造相似度矩阵 问题。传统的测地距离采用K近邻图计算方法,当K值较小的时候,将原来流形结构分为多 个不连通的子流形结构;K值过大又会导致不同类间具有较强连通性。所以当样本点的K个 近邻点大部分是同类内的点,测地距离可以更好的反映样本的分布;当存在样本点的K个 近邻点中大部分属于不同类的时候,测地距离无法有效的反映不同类间的真实关系。因此, 在解决粘连数据集聚类问题时,基于传统测地距离计算的谱聚类(Spectral clustering based on geodesic distance,简称GSC)和DSSC等谱聚类方法都无法获取良好的效果。

【发明内容】

[0005] 本发明的目的在于克服上述【背景技术】中存在的问题,提出一种基于局部密度和测 地距离的分层谱聚类方法,通过对局部密度有向图剪枝生成的边缘点和非边缘点构造无向 连通图,并计算测地距离和相似度矩阵,使得聚类结果更加准确。尤其针对粘连数据集时, 其优势更加明显。
[0006] 实现本发明的技术关键是:一种基于局部密度和测地距离的分层谱聚类方法。具 体实现步骤包括如下:
[0007] (1)输入数据集X = (X1, X2, ...,xn} e Rd,Xn表示数据集中的第η个样本,η为样 本个数,d为样本维数;
[0008] (2)局部密度计算:
[0009] 令P i为样本X i的局部密度,i = 1,2,…η。
【主权项】
1. 一种基于局部密度和测地距离的分层谱聚类方法,包括如下步骤: (1) 输入数据集X= {Xl,x2,...,xn}eRd,xn表示数据集中的第n个样本,n为样本个 数,d为样本维数; (2) 局部密度计算: 令Pi为样本xi的局部密度,i= 1,2,…n。
其中n为样本总数,d(Xi,xj为样本Xi与样本x郝欧式距离,d。为截断距离。 (3) 密度有向图的构造: (3a)计算样本点Xi与局部密度高于Pi的点间最小距离:
(3b)定义集合Vall存放所有点的标号,数组NMigh存放每个点的最近高密度点标号,根 据式
可以判断样本\的最近高密度点标号为: Nneigh(Xi) = j 其中局部密度最高的点,没有与其最近的高密度点。为了方便选择边缘点,局部密度最 高点的最近高密度点为本身,若局部密度最高点为NMigh(Xq) =q。 (3c)构造密度有向图: 每个点与其最近的高密度点构造有向图,方向为该点指向其最近的高密度点。 (4) 有向图剪枝和边缘点集合生成: Nmigh存放每个点的最近高密度点的标号,在Nmigh中没有出现标号的点即是边缘点,与 边缘点连接的边需要进行剪枝。在对有向图进行一次剪枝后,将边缘点加入集合。此 时,有向图中又会出现边缘点,对其进行二次剪枝,将剪枝后边缘点再次加入集合。经 过二次剪枝后,剩下的点称为非边缘点,用集合V表示,满足
VMgUV=vall。 (5) 无向连通图构造: (5a)非边缘点集合V中的点采用K近邻方式构图: 寻找集合V中样本点Xi在集合V中的K个最近邻样本点,如果^_是x,在集合V中的K个最近邻样本点,则P(Xi,Xj) = 1,P(Xj,Xi) = 1 ;否则P(Xi,Xj) = 0,P(Xj,Xi) = 0。 (5b)边缘点集合VMg中的点构图 缘点集合中的样本点Xi,根据式Nmigh(Xi) =j将每个边缘点与其最近的高密度点 构造连接关系,则PU"Xj) = 1,P(Xj,xD= 1 ;否则P(Xi,Xj) = 0,P(Xj,xD= 0。 (6) 计算测地距离 (6a)初始化测地距离矩阵:
其中d(Xi,xp为样本点x# 间的欧氏距离。 (6b)计算最短路径: Fork=lton (xi>xj) -rnin{dG (xj,Xj),dG (xi;xk) +dG (xk,Xj)} End (7) 计算样本集X内所有点之间的相似度,得到相似度矩阵A,
,其中A(Xi,Xj) = 0,i=j。尺度参数 〇i=d(xi,x),为样 本点Xi的第1个近邻点。 (8) 构建度矩阵D和拉普拉斯矩阵L;其中,D为对角矩阵,对角元素表示 第i个样本Xi的度,L=D-1/2AD_1/2;
(9) 计算L的前k个最大特征值所对应的特征向量,并构成矩阵U,然后单位化得到矩 阵Y= [yij]nXk,其中,
(10) 将Y的每一行作为k维空间中的一个样本点,通过K-means算法将这些样本点聚 成k类;当且仅当Y的第i行被分配为第j类时,将样本\分配为第j类。
2.根据权利要求1所述的谱聚类方法,其中步骤(4)按如下过程进行: (2. 1)初始化=Vall,匕零=0,Larg=0,m= 2 ;其中m为剪枝的次数,0为空集 合。 (2. 2)将集合V中每个点的最近高密度点标号存放在VtMP中; (2. 3)VtMP中重复出现的标号,只保留一个。寻找在集合V中出现而在集合VtMP中未出 现的标号,加入集合Vm£ffg(Vmall;=Vm£ffg+(V-Vte;mp));其中+,-为集合运算。 (2. 4)更新集合V=Vtemp,匕= 0,m=m-1 ;如果m> 0转至步骤(2. 2),如果m彡0, 程序结束,返回边缘点集合非边缘点集合V。
【专利摘要】本发明公开了一种基于局部密度和测地距离的分层谱聚类方法。主要解决已有聚类技术很难对粘连数据集进行准确聚类的问题。实现过程为:(1)计算样本的局部密度,选择最近高密度点构造有向图;(2)对有向图进行剪枝并生成边缘点集合;(3)构造无向连通图:边缘点与其最近高密度点构造边,非边缘点之间的K个近邻点构造边;(4)根据无向连通图计算测地距离和相似度矩阵(5)计算度矩阵和规范化的拉普拉斯矩阵;(6)单位化谱矩阵,并采用K-means算法得出聚类结果。本发明与现有的聚类技术相比,在粘连数据集上能够获得更加真实的相似度矩阵,使得聚类结果更加准确。
【IPC分类】G06K9-62
【公开号】CN104778480
【申请号】CN201510233619
【发明人】葛洪伟, 张涛, 苏树智, 杨金龙
【申请人】江南大学
【公开日】2015年7月15日
【申请日】2015年5月8日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1