一种基于子空间聚类的数据处理方法_4

文档序号:9417863阅读:来源:国知局
四步:根据邻接关系,计算相似度矩阵W以及拉普拉斯矩阵L,对L进行谱聚类 分割,获得最终的聚类结果。
[0104] 参见图2,展示了本发明提供的技术方案在进行2类、3类、5类以及10类聚类实验 时的准确率和计算效率,每个结果均为100次随机实验的平均值。由图2可以得知,和传统 方法相比较,本发明提供的方法在具有较高的聚类精度和较高的运算效率。
[0105] 因此,基于本发明提供的一种基于子空间聚类的数据处理方法,其相比现有的基 于优化的子空间聚类方法的运算复杂度大大降低,更加适应于大规模数据的处理,本发明 可以在保证高精度的同时,快速、有效地对大规模的数据进行聚类处理,可以满足人们的大 规模数据处理需求,节约人们宝贵的时间,可以很好地适用于图像处理、计算机视觉和图像 运动分割等数据处理领域,具有重大的生产实践意义。
[0106] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人 员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应 视为本发明的保护范围。
【主权项】
1. 一种基于子空间聚类的数据处理方法,其特征在于,包括以下步骤: 第一步:对于需要进行子空间聚类的全部数据,提取其中的特征点; 第二步:对所提取的全部特征点进行归一化处理,获得特征点矩阵; 第三步:为经过归一化处理的每个特征点X建立一个近邻集n,每个所述近邻集Q包 含与其所归属特征点X所在的子空间距离最近的、预设数量的样本特征点; 第四步:根据每个特征点X的近邻集Q,对应构建全部特征点间的相似度矩阵W ; 第五步:计算全部特征点间的相似度矩阵W对应的拉普拉斯矩阵L,并对每个拉普拉斯 矩阵L进行谱聚类分割,获得每个特征点的类别标号,实现对全部数据的子空间聚类处理。2. 如权利要求1所述的方法,其特征在于,所述第二步具体为:将全部特征点分别除以 自己的模长,获得对应的单位向量,然后以获得的单位向量代替原特征点作为新的特征点, 最终获得特征点矩阵X G RDXN; 其中,D为特征维度,N为特征点数量,X的每一列即对应一个特征点的特征向量。3. 如权利要求1所述的方法,其特征在于,所述第三步具体包括以下步骤: 步骤A)以经过归一化处理的每个特征点X为中心样本特征点,为每个特征点X构建初 始化的近邻集Q ; 步骤B)根据近邻集Q内包含的样本特征点,确定所述中心样本特征点X所在子空间 U的正交基,实现对子空间U张成的更新; 步骤C)对于不在中心样本特征点X近邻集Q内的所有特征点,逐一计算它们到中心 样本特征点X的子空间U的投影,在子空间U上投影长度最大的特征点即为距离子空间U 最近的样本特征点,将与当前所述中心样本特征点X所在的子空间距离最近的样本特征点 新添加到近邻集Q中; 步骤D)计算所述近邻集Q中的每个样本特征点与中心样本特征点X的亲和力,如果 所述近邻集Q中与中心样本特征点X的亲和力最低的样本特征点不是新添加到近邻集Q 中的样本特征点,则从近邻集Q中删除该样本特征点,然后返回执行步骤B),直到所述近 邻集Q中所有样本特征点的数量达到预设数量。4. 如权利要求3所述的方法,其特征在于,所述步骤A)包括以下步骤: 首先将每个特征点X作为中心样本特征点,并将自身加入到初始化的近邻集Q内; 对于除中心样本特征点X外的其余特征点,选取距中心样本特征点X最近的P个特征 点,P为预设的大于1的整数,根据稀疏表示目标函数minIICI11 s. t.X= X(P)c,逐一计算 所述距中心样本特征点X最近的P个特征点对中心样本特征点X的重构系数,并选择其中 重构系数c最大项对应的特征点作为除中心样本特征点X外加入近邻集Q的第一个样本 特征点,从而为每个中心样本特征点X构建初始化的近邻集Q。5. 如权利要求4所述的方法,其特征在于,在所述步骤B)中,所述子空间U的正交基按 增量方式计算得到,具体正交基的计算公式如下:其中,为加入近邻集的最后一个特征点,,急〉为I,与正交基Tlk的内积。。6. 如权利要求5所述的方法,其特征在于,在所述步骤C)中,对于不在中心样本特征点 X近邻集Q内的所有特征点,其在子空间U上的投影长度按以下公式计算:其中,m为当前中心样本特征点X的子空间的维度,〈X,nk>为X与正交基n k的内积。。7. 如权利要求6所述的方法,其特征在于,在所述步骤D)中,计算所述近邻集n中的 每个样本特征点与中心样本特征点X的亲和力的公式如下: Ok =^kX, 其中,XfiS由位于近邻集Q内的特征点构成的矩阵,Z^SXd^Moore-Penrose伪逆 矩阵,(A)i指A的第k行,Ck即为近邻集Q中第k个特征点与中心样本特征点X的亲和 力。8. 如权利要求1至7中任意一项所述的方法,其特征在于,所述第四步具体包括以下步 骤: 计算特征点间的毗邻矩阵Z,所述毗邻矩阵Z的计算公式为其中,i,j = 1,2,…,N; 然后,根据特征点间的毗邻矩阵Z,计算对应的相似度矩阵W = Z+ZT,其中,Zt为毗邻矩 阵Z的转置。9. 如权利要求1至7中任意一项所述的方法,其特征在于,所述第五步具体包括以下步 骤: 步骤Al)计算度矩阵D,D为一对角矩阵,其对角线上的元素为其中,i = 1,2,…,N; 步骤A2)根据所述度矩阵D和相似度矩阵W,计算拉普拉斯矩阵L = D-W ; 步骤A3)计算拉普拉斯矩阵L的前k个最大特征值所对应的特征向量Iv1, V2,…,vk}, 其中k为用户指定的分割类别数,然后将这k个N维特征向量排列在一起组成第一矩阵V, N为大于0的整数; 步骤A4)将第一矩阵V中的每一行IV1, V2,…,VJ当做k维空间的一个向量,对这N 个向量采用K-means聚类算法进行聚类,聚类结果记为S1, S2,…,Sk; 步骤A5)对于全部特征点中第i个样本特征点,若V1G S j,则第i个样本特征点的输 出类别标号为j,其中I < i < N,且i为整数,I < j < k,且j为整数,从而获得每个特征 点的类别标号,实现对全部数据的子空间聚类处理。
【专利摘要】本发明公开了一种基于子空间聚类的数据处理方法,包括步骤:对于需要进行子空间聚类的全部数据,提取其中的特征点;对所提取的全部特征点归一化处理,获得特征点矩阵;为经过归一化处理的每个特征点x建立一个近邻集Ω;根据每个特征点x的近邻集Ω,构建全部特征点间的相似度矩阵W;计算全部特征点间的相似度矩阵W对应的拉普拉斯矩阵L,并对每个拉普拉斯矩阵L进行谱聚类分割,获得每个特征点的类别标号,实现对全部数据的子空间聚类处理。本发明公开的一种基于子空间聚类的数据处理方法,其在保证高精度的同时,高效地对大规模数据进行聚类处理,满足大规模数据处理需求,很好地适用于图像处理、计算机视觉和图像运动分割等数据处理领域。
【IPC分类】G06K9/62
【公开号】CN105139031
【申请号】CN201510520771
【发明人】孙哲南, 谭铁牛, 宋凌霄, 张曼, 赫然
【申请人】天津中科智能识别产业技术研究院有限公司
【公开日】2015年12月9日
【申请日】2015年8月21日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1