一种基于子空间聚类的数据处理方法_3

文档序号:9417863阅读:来源:国知局
得到全部的正交基。若当前子空间的维度已达用户指定维度,则不再增加正交基,张成 的子空间不再更新。
[0071] 步骤S1033:对于不在中心样本特征点x近邻集Ω内的所有特征点,逐一计算它 们到中心样本特征点X的子空间U的投影,在子空间U上投影长度最大的特征点即为距离 子空间U最近的样本特征点,将与当前所述中心样本特征点X所在的子空间距离最近的样 本特征点新添加到近邻集Ω中(即支撑样本集)。
[0072] 对于本发明,需要说明的是,根据上一步骤S1033得到子空间U后,对不在近邻集 Ω内的所有特征点计算到子空间U的投影。因所有特征点均已归一化处理,故在子空间U 上投影长度最大的点即为距离子空间U最近的样本特征点。对于不在特征点X近邻集Ω 内的所有特征点,其在子空间U上的投影长度按以下公式计算:
[0073]
[0074] 其中m为当前特征点X的子空间的维度。其中,〈X,nk>为X与正交基n k的内 积。
[0075] 对于本发明采用的方法,贪婪地选择不在近邻集Ω合中距离当前子空间U最近的 特征点作为下一个加入近邻集Ω的样本。
[0076]
[0077] 其中,[N]代表集合{1,2,…,N},即所有样本特征点的索引集合,[Ν]\Ω代表近 邻集Ω在集合[Ν]中的补集。即在未加入近邻集Ω的特征点中选取距离当前子空间最近 的点加入近邻集Ω。
[0078] 步骤S1034 :计算所述近邻集Ω中的每个样本特征点与中心样本特征点X的亲和 力,如果所述近邻集Ω中与中心样本特征点X的亲和力最低的样本特征点不是新添加到近 邻集Ω中的样本特征点,则从近邻集Ω中删除该样本特征点(如果是,不做处理),然后返 回执行步骤S1032,直到所述近邻集Ω中所有样本特征点的数量达到预设数量(即用户预 设的数量)。
[0079] 对于本发明,通过实施步骤S1033,通过检测亲和力的高低,来回溯并剔除近邻集 Ω中不合适的样本特征点。每次加入一个新的样本特征点至近邻集Ω后,对近邻集Ω中 所有元素进行一个回溯。具体实现上,计算在子空间U中的每个样本特征点与中心样本特 征点X的亲和力公式如下:
[0080]
[0081] 其中,乂。为由位于近邻集Ω内的特征点构成的矩阵,为乂。的Moore-Penrose 伪逆矩阵,(4),;指4的第k行,Ck即为Ω中第k个特征点与X的亲和力。因此,若求得的 与中心样本特征点X亲和力最低的点不是最近加入的:,则将该与X亲和力最低的点从 近邻集Ω中剔除。因此,对于本发明,如果近邻集Ω中的邻居总数(即样本特征点总数) 达到用户预设的数目,则退出迭代,否则返回执行步骤S1032,重复循环执行,继续增加近邻 集内的样本特征点,直到近邻集Ω中的邻居总数(即样本特征点总数)达到用户预设的数 目。
[0082] 对于所述步骤S104,根据每个特征点x的近邻集Ω,对应构建每个特征点的相似 度矩阵W,该步骤具体包括以下步骤:
[0083] 步骤S1041 :计算全部特征点间的毗邻矩阵Ζ,所述毗邻矩阵Z的计算公式为
[0084]
[0085] 其中,i,j = 1,2,…,N ;
[0086] 步骤S1042 :然后,根据特征点间的的毗邻矩阵Z,计算对应的相似度矩阵W = Ζ+Ζτ,其中,Zt为毗邻矩阵Z的转置。
[0087] 对于所述步骤S105,计算全部特征点间的相似度矩阵W对应的拉普拉斯矩阵L,并 对每个拉普拉斯矩阵L进行谱聚类分割,获得每个特征点的类别标号,从而实现对全部数 据的子空间聚类处理。其中,计算每个特征点的相似度矩阵W的拉普拉斯矩阵L的过程如 下,包括以下步骤:
[0088] 步骤S1051 :计算度矩阵D,D为一对角矩阵,其对角线上的元素为
[0089]
;
[0090] 其中,i = 1,2,…,N ;
[0091] 步骤S1052 :根据所述度矩阵D和相似度矩阵W,计算拉普拉斯矩阵L = D-W ;
[0092] 步骤S1053 :计算拉普拉斯矩阵L的前k个最大特征值所对应的特征(列)向量 Iv1, V2,…,vk},其中k为用户指定的分割类别数,然后将这k个N维特征向量排列在一起组 成第一矩阵V,N为大于0的整数;
[0093] 步骤S1054 :将第一矩阵V中的每一行IV1, V2,…,VN}当做k维空间的一个向量, 对这N个向量采用K-means聚类算法进行聚类,聚类结果记为S 1, S2,…,Sk,N为大于0的 整数;
[0094] 对于本发明,为了不影响以上步骤S1054的运算执行时间,本发明采用了一种现 有快速的k均值聚类算法lites-kmeans ;
[0095] 步骤S1055 :对于第i个样本特征点,若V1G S j,则第i个样本特征点的输出类别 标号为j,其中I < i < N,且i为整数,I < j < k,且j为整数,从而获得每个特征点的类 别标号,实现对全部数据的子空间聚类处理。
[0096] 对于本发明,针对实际环境下处理大规模数据的需求,提出了一种基于浮动搜索 和贪婪近邻选择的子空间聚类的数据处理方法。该方法使用贪婪算法选择样本来构建子空 间,并加入浮动搜索来回溯判断由贪婪算法选择的样本是否为正确样本,最后依据所选样 本构成的近邻集生成毗邻矩阵来进行子空间聚类。
[0097] 本发明采用贪婪子空间近邻选择的方法来构建近邻集,并加入浮动搜索剔除错误 选择的样本特征点。贪婪选择的特性使得该方法具有较快的计算效率,而浮动搜索的引入 使该方法增强了算法的鲁棒性,可以获得更高的识别率。
[0098] 为更加清楚地理解本发明的技术方案,下面结合具体实施例来进一步说明。
[0099] 将本发明提出的技术方案应用于一个公开的人脸数据库,即Extended-YaleB人 脸数据库。该数据库包括28个人的在64种不同光照条件,9种不同姿态下的人脸图像。在 本发明的实施例中,采用其中由每个人脸的64张正脸图像构成数据库子集,进行2类聚类 实验。为了降低计算量,本发明把原始96X84的人脸图像降采样到48X42大小,并将降采 样的图像拉成一个维度为2016的列向量作为输入特征。选择两个人共128张图像进行聚 类,因此输入数据矩阵为2016X128。具体步骤如下:
[0100] 第一步:首先对所有输入数据进行归一化,得到128个单位长度的特征向量。
[0101] 第二步:由于不用光照下的人脸图像理论上来说位于一个9维的子空间上,且考 虑在实际条件下噪声等的影响,因此,本发明将构建的子空间维度设为15,略高于理论子空 间维度。考虑到每一类的样本特征点实际数目较多且类别较少,设定初始邻居选择范围为 10个样本特征点,近邻集的容量为15个样本特征点。
[0102] 第三步:然后根据技术细节中所述步骤S103,为每个样本特征点计算得到包含15 个邻居的近邻集(每个所述近邻集Ω包含与其所归属特征点X所在的子空间距离最近的、 预设数量为15的样本特征点)。
[0103] 第
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1