一种基于子空间聚类的数据处理方法_4

文档序号：9417863阅读：来源：国知局

四步：根据邻接关系，计算相似度矩阵W以及拉普拉斯矩阵L，对L进行谱聚类分割，获得最终的聚类结果。
[0104] 参见图2,展示了本发明提供的技术方案在进行2类、3类、5类以及10类聚类实验时的准确率和计算效率，每个结果均为100次随机实验的平均值。由图2可以得知，和传统方法相比较，本发明提供的方法在具有较高的聚类精度和较高的运算效率。
[0105] 因此，基于本发明提供的一种基于子空间聚类的数据处理方法，其相比现有的基于优化的子空间聚类方法的运算复杂度大大降低，更加适应于大规模数据的处理，本发明可以在保证高精度的同时，快速、有效地对大规模的数据进行聚类处理，可以满足人们的大规模数据处理需求，节约人们宝贵的时间，可以很好地适用于图像处理、计算机视觉和图像运动分割等数据处理领域，具有重大的生产实践意义。
[0106] 以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。
【主权项】
1. 一种基于子空间聚类的数据处理方法，其特征在于，包括以下步骤：第一步：对于需要进行子空间聚类的全部数据，提取其中的特征点；第二步：对所提取的全部特征点进行归一化处理，获得特征点矩阵；第三步：为经过归一化处理的每个特征点X建立一个近邻集n，每个所述近邻集Q包含与其所归属特征点X所在的子空间距离最近的、预设数量的样本特征点；第四步：根据每个特征点X的近邻集Q，对应构建全部特征点间的相似度矩阵W ; 第五步：计算全部特征点间的相似度矩阵W对应的拉普拉斯矩阵L，并对每个拉普拉斯矩阵L进行谱聚类分割，获得每个特征点的类别标号，实现对全部数据的子空间聚类处理。2. 如权利要求1所述的方法，其特征在于，所述第二步具体为：将全部特征点分别除以自己的模长，获得对应的单位向量，然后以获得的单位向量代替原特征点作为新的特征点，最终获得特征点矩阵X G RDXN; 其中，D为特征维度，N为特征点数量，X的每一列即对应一个特征点的特征向量。3. 如权利要求1所述的方法，其特征在于，所述第三步具体包括以下步骤：步骤A)以经过归一化处理的每个特征点X为中心样本特征点，为每个特征点X构建初始化的近邻集Q ; 步骤B)根据近邻集Q内包含的样本特征点，确定所述中心样本特征点X所在子空间 U的正交基，实现对子空间U张成的更新；步骤C)对于不在中心样本特征点X近邻集Q内的所有特征点，逐一计算它们到中心样本特征点X的子空间U的投影，在子空间U上投影长度最大的特征点即为距离子空间U 最近的样本特征点，将与当前所述中心样本特征点X所在的子空间距离最近的样本特征点新添加到近邻集Q中；步骤D)计算所述近邻集Q中的每个样本特征点与中心样本特征点X的亲和力，如果所述近邻集Q中与中心样本特征点X的亲和力最低的样本特征点不是新添加到近邻集Q 中的样本特征点，则从近邻集Q中删除该样本特征点，然后返回执行步骤B)，直到所述近邻集Q中所有样本特征点的数量达到预设数量。4. 如权利要求3所述的方法，其特征在于，所述步骤A)包括以下步骤：首先将每个特征点X作为中心样本特征点，并将自身加入到初始化的近邻集Q内；对于除中心样本特征点X外的其余特征点，选取距中心样本特征点X最近的P个特征点，P为预设的大于1的整数，根据稀疏表示目标函数minIICI11 s. t.X= X(P)c，逐一计算所述距中心样本特征点X最近的P个特征点对中心样本特征点X的重构系数，并选择其中重构系数c最大项对应的特征点作为除中心样本特征点X外加入近邻集Q的第一个样本特征点，从而为每个中心样本特征点X构建初始化的近邻集Q。5. 如权利要求4所述的方法，其特征在于，在所述步骤B)中，所述子空间U的正交基按增量方式计算得到，具体正交基的计算公式如下：其中，为加入近邻集的最后一个特征点，，急〉为I,与正交基Tlk的内积。。6. 如权利要求5所述的方法，其特征在于，在所述步骤C)中，对于不在中心样本特征点 X近邻集Q内的所有特征点，其在子空间U上的投影长度按以下公式计算：其中，m为当前中心样本特征点X的子空间的维度，〈X，nk>为X与正交基n k的内积。。7. 如权利要求6所述的方法，其特征在于，在所述步骤D)中，计算所述近邻集n中的每个样本特征点与中心样本特征点X的亲和力的公式如下： Ok =^kX, 其中，XfiS由位于近邻集Q内的特征点构成的矩阵，Z^SXd^Moore-Penrose伪逆矩阵，（A)i指A的第k行，Ck即为近邻集Q中第k个特征点与中心样本特征点X的亲和力。8. 如权利要求1至7中任意一项所述的方法，其特征在于，所述第四步具体包括以下步骤：计算特征点间的毗邻矩阵Z，所述毗邻矩阵Z的计算公式为其中，i，j = 1，2，…，N; 然后，根据特征点间的毗邻矩阵Z，计算对应的相似度矩阵W = Z+ZT，其中，Zt为毗邻矩阵Z的转置。9. 如权利要求1至7中任意一项所述的方法，其特征在于，所述第五步具体包括以下步骤：步骤Al)计算度矩阵D，D为一对角矩阵，其对角线上的元素为其中，i = 1，2，…，N; 步骤A2)根据所述度矩阵D和相似度矩阵W，计算拉普拉斯矩阵L = D-W ; 步骤A3)计算拉普拉斯矩阵L的前k个最大特征值所对应的特征向量Iv1, V2，…，vk}，其中k为用户指定的分割类别数，然后将这k个N维特征向量排列在一起组成第一矩阵V， N为大于0的整数；步骤A4)将第一矩阵V中的每一行IV1, V2，…，VJ当做k维空间的一个向量，对这N 个向量采用K-means聚类算法进行聚类，聚类结果记为S1, S2，…，Sk; 步骤A5)对于全部特征点中第i个样本特征点，若V1G S j，则第i个样本特征点的输出类别标号为j，其中I < i < N，且i为整数，I < j < k，且j为整数，从而获得每个特征点的类别标号，实现对全部数据的子空间聚类处理。
【专利摘要】本发明公开了一种基于子空间聚类的数据处理方法，包括步骤：对于需要进行子空间聚类的全部数据，提取其中的特征点；对所提取的全部特征点归一化处理，获得特征点矩阵；为经过归一化处理的每个特征点x建立一个近邻集Ω；根据每个特征点x的近邻集Ω，构建全部特征点间的相似度矩阵W；计算全部特征点间的相似度矩阵W对应的拉普拉斯矩阵L，并对每个拉普拉斯矩阵L进行谱聚类分割，获得每个特征点的类别标号，实现对全部数据的子空间聚类处理。本发明公开的一种基于子空间聚类的数据处理方法，其在保证高精度的同时，高效地对大规模数据进行聚类处理，满足大规模数据处理需求，很好地适用于图像处理、计算机视觉和图像运动分割等数据处理领域。
【IPC分类】G06K9/62
【公开号】CN105139031
【申请号】CN201510520771
【发明人】孙哲南, 谭铁牛, 宋凌霄, 张曼, 赫然
【申请人】天津中科智能识别产业技术研究院有限公司
【公开日】2015年12月9日
【申请日】2015年8月21日

完整全部详细技术资料下载

当前第4页1 2 3 4