一种基于子空间聚类的数据处理方法

文档序号:9417863阅读:500来源:国知局
一种基于子空间聚类的数据处理方法
【技术领域】
[0001] 本发明涉及模式识别、数字图像处理等数据处理技术领域,特别是涉及一种基于 子空间聚类的数据处理方法。
【背景技术】
[0002] 目前,聚类分析是数据挖掘领域中的关键技术之一。高维数据聚类是聚类分析技 术的难点和重点,子空间聚类是实现高维数据集聚类的有效途径,它是在高维数据空间中 对传统聚类算法的一种扩展,其思想是将搜索局部化在相关维中进行。子空间聚类技术因 其在现实生活中的适用性而在图像分割、运动分割、人脸聚类、图像压缩与表示等方面具有 广泛的应用。子空间聚类的目的是是寻找位于混合高维空间中的聚类,其基本假设是高维 空间中的点往往分布于多个不同的低维子空间中,而每个低维子空间即为一个类。
[0003] 对于基于谱聚类的子空间聚类方法,目前由于其优异的性能而备受关注,国内外 领先的子空间聚类算法大多属于这一类。基于谱聚类的子空间聚类方法通常分为两个步 骤:首先对输入的特征点计算一个亲和力矩阵,用于度量特征点之间的相关性;然后对此 亲和力矩阵应用谱聚类算法得到聚类分割结果。基于谱聚类的子空间聚类算法主要差异在 于不同的亲和力矩阵构建方法。而亲和力矩阵的构建方法可以分为两类,第一类方式是: 将每个特征数据表示为其他特征数据的线性组合,从而将这些线性组合稀疏作为亲和力的 度量。求解这种线性组合的过程往往依赖于最优化理论,因此这种方法被称为基于最优化 的亲和力矩阵构建方法。第二类构建亲和力矩阵的方法则不经过优化过程,而是使用贪婪 算法直接为每个特征数据选择一批相近特征数据作为其近邻集,然后以特征数据是否在其 近邻集内的所属关系来构建亲和力矩阵。这类方法的计算过程相比基于最优化的方法要简 化很多,因此,具有计算速度快的优点,但是由于贪婪算法只能达到单步最优的特征,其聚 类结果往往容易收到噪声点的影响,因此,严重影响到聚类的效果,其所取得的聚类精度较 低,无法满足人们的使用需求。
[0004] 如今,随着大数据时代的来临,人们需要处理的数据规模往往非常大,因此,人们 对基于聚类算法的数据处理方法提出了更要的要求,要求不仅高效,而且具有更高的聚类 精度。因此,目前现有的基于谱聚类的子空间聚类的数据处理方法中,基于最优化的方法时 间复杂度较高,而基于贪婪算法的方法聚类结果易受噪声点影响,鲁棒性不强,因此现有的 子空间聚类数据处理方法并不适用于大规模数据的处理。
[0005] 因此,目前迫切需要开发出一种方法,其可以在保证高精度的同时,快速、有效地 对大规模的数据进行聚类处理,可以满足人们的大规模数据处理需求,节约人们宝贵的时 间。

【发明内容】

[0006] 有鉴于此,本发明的目的是提供一种基于子空间聚类的数据处理方法,其可以在 保证高精度的同时,快速、有效地对大规模的数据进行聚类处理,可以满足人们的大规模数 据处理需求,节约人们宝贵的时间,可以很好地适用于图像处理、计算机视觉和图像运动分 割等数据处理领域,具有重大的生产实践意义。
[0007] 为此,本发明提供了一种基于子空间聚类的数据处理方法,包括以下步骤:
[0008] 第一步:对于需要进行子空间聚类的全部数据,提取其中的特征点;
[0009] 第二步:对所提取的全部特征点进行归一化处理,获得特征点矩阵;
[0010] 第三步:为经过归一化处理的每个特征点X建立一个近邻集Ω,每个所述近邻集 Ω包含与其所归属特征点X所在的子空间距离最近的、预设数量的样本特征点;
[0011] 第四步:根据每个特征点X的近邻集Ω,对应构建全部特征点间的相似度矩阵W ;
[0012] 第五步:计算全部特征点间的相似度矩阵W对应的拉普拉斯矩阵L,并对每个拉普 拉斯矩阵L进行谱聚类分割,获得每个特征点的类别标号,实现对全部数据的子空间聚类 处理。
[0013] 其中,所述第二步具体为:将全部特征点分别除以自己的模长,获得对应的单位向 量,然后以获得的单位向量代替原特征点作为新的特征点,最终获得特征点矩阵X e Rdxn;
[0014] 其中,D为特征维度,N为特征点数量,X的每一列即对应一个特征点的特征向量。
[0015] 其中,所述第三步具体包括以下步骤:
[0016] 步骤A)以经过归一化处理的每个特征点X为中心样本特征点,为每个特征点X构 建初始化的近邻集Ω ;
[0017] 步骤B)根据近邻集Ω内包含的样本特征点,确定所述中心样本特征点X所在子 空间U的正交基,实现对子空间U张成的更新;
[0018] 步骤C)对于不在中心样本特征点X近邻集Ω内的所有特征点,逐一计算它们到 中心样本特征点X的子空间U的投影,在子空间U上投影长度最大的特征点即为距离子空 间U最近的样本特征点,将与当前所述中心样本特征点X所在的子空间距离最近的样本特 征点新添加到近邻集Ω中;
[0019] 步骤D)计算所述近邻集Ω中的每个样本特征点与中心样本特征点X的亲和力, 如果所述近邻集Ω中与中心样本特征点X的亲和力最低的样本特征点不是新添加到近邻 集Ω中的样本特征点,则从近邻集Ω中删除该样本特征点,然后返回执行步骤B),直到所 述近邻集Ω中所有样本特征点的数量达到预设数量。
[0020] 其中,所述步骤A)包括以下步骤:
[0021] 首先将每个特征点X作为中心样本特征点,并将自身加入到初始化的近邻集Ω 内;
[0022] 对于除中心样本特征点X外的其余特征点,选取距中心样本特征点X最近的P个 特征点,P为预设的大于1的整数,根据稀疏表示目标函数min I I c I I t. X = X(P)c,逐一计 算所述距中心样本特征点X最近的P个特征点对中心样本特征点X的重构系数,并选择其 中重构系数c最大项对应的特征点作为除中心样本特征点X外加入近邻集Ω的第一个样 本特征点,从而为每个中心样本特征点X构建初始化的近邻集Ω。
[0023] 其中,在所述步骤B)中,所述子空间U的正交基按增量方式计算得到,具体正交基 的计算公式如下: CN 105139031 A IX m "ti 3/8 页
[0024] - :5
[0025] 其中,为加入近邻集Ω的最后一个特征点
·与正交基nk的内 积。。
[0026] 其中,在所述步骤C)中,对于不在中心样本特征点X近邻集Ω内的所有特征点, 其在子空间U上的投影长度按以下公式计算:
[0027]
[0028] 其中,m为当前中心样本特征点X的子空间的维度,〈X,n k>为X与正交基n k的 内积。。
[0029] 其中,在所述步骤D)中,计算所述近邻集Ω中的每个样本特征点与中心样本特征 点X的亲和力的公式如下:
[0030]
[0031] 其中,ΧΩ*由位于近邻集Ω内的特征点构成的矩阵,碎为乂,的Moore-Penrose 伪逆矩阵,?1指难的第k行,Ck即为近邻集Ω中第k个特征点与中心样本特征点X的 亲和力。
[0032] 其中,所述第四步具体包括以下步骤:
[003
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1