一种基于子空间聚类的数据处理方法_3

文档序号：9417863阅读：来源：国知局

得到全部的正交基。若当前子空间的维度已达用户指定维度，则不再增加正交基，张成的子空间不再更新。
[0071] 步骤S1033:对于不在中心样本特征点x近邻集Ω内的所有特征点，逐一计算它们到中心样本特征点X的子空间U的投影，在子空间U上投影长度最大的特征点即为距离子空间U最近的样本特征点，将与当前所述中心样本特征点X所在的子空间距离最近的样本特征点新添加到近邻集Ω中（即支撑样本集）。
[0072] 对于本发明，需要说明的是，根据上一步骤S1033得到子空间U后，对不在近邻集 Ω内的所有特征点计算到子空间U的投影。因所有特征点均已归一化处理，故在子空间U 上投影长度最大的点即为距离子空间U最近的样本特征点。对于不在特征点X近邻集Ω 内的所有特征点，其在子空间U上的投影长度按以下公式计算：
[0073]
[0074] 其中m为当前特征点X的子空间的维度。其中，〈X，nk>为X与正交基n k的内积。
[0075] 对于本发明采用的方法，贪婪地选择不在近邻集Ω合中距离当前子空间U最近的特征点作为下一个加入近邻集Ω的样本。
[0076]
[0077] 其中，[N]代表集合{1，2,…，N}，即所有样本特征点的索引集合，[Ν]\Ω代表近邻集Ω在集合[Ν]中的补集。即在未加入近邻集Ω的特征点中选取距离当前子空间最近的点加入近邻集Ω。
[0078] 步骤S1034 :计算所述近邻集Ω中的每个样本特征点与中心样本特征点X的亲和力，如果所述近邻集Ω中与中心样本特征点X的亲和力最低的样本特征点不是新添加到近邻集Ω中的样本特征点，则从近邻集Ω中删除该样本特征点（如果是，不做处理），然后返回执行步骤S1032,直到所述近邻集Ω中所有样本特征点的数量达到预设数量（即用户预设的数量）。
[0079] 对于本发明，通过实施步骤S1033,通过检测亲和力的高低，来回溯并剔除近邻集 Ω中不合适的样本特征点。每次加入一个新的样本特征点至近邻集Ω后，对近邻集Ω中所有元素进行一个回溯。具体实现上，计算在子空间U中的每个样本特征点与中心样本特征点X的亲和力公式如下：
[0080]
[0081] 其中，乂。为由位于近邻集Ω内的特征点构成的矩阵，为乂。的Moore-Penrose 伪逆矩阵，(4),;指4的第k行，Ck即为Ω中第k个特征点与X的亲和力。因此，若求得的与中心样本特征点X亲和力最低的点不是最近加入的:，则将该与X亲和力最低的点从近邻集Ω中剔除。因此，对于本发明，如果近邻集Ω中的邻居总数（即样本特征点总数）达到用户预设的数目，则退出迭代，否则返回执行步骤S1032,重复循环执行，继续增加近邻集内的样本特征点，直到近邻集Ω中的邻居总数（即样本特征点总数）达到用户预设的数目。
[0082] 对于所述步骤S104,根据每个特征点x的近邻集Ω，对应构建每个特征点的相似度矩阵W，该步骤具体包括以下步骤：
[0083] 步骤S1041 :计算全部特征点间的毗邻矩阵Ζ，所述毗邻矩阵Z的计算公式为
[0084]
[0085] 其中，i，j = 1，2，…，N ;
[0086] 步骤S1042 :然后，根据特征点间的的毗邻矩阵Z，计算对应的相似度矩阵W = Ζ+Ζτ，其中，Zt为毗邻矩阵Z的转置。
[0087] 对于所述步骤S105,计算全部特征点间的相似度矩阵W对应的拉普拉斯矩阵L，并对每个拉普拉斯矩阵L进行谱聚类分割，获得每个特征点的类别标号，从而实现对全部数据的子空间聚类处理。其中，计算每个特征点的相似度矩阵W的拉普拉斯矩阵L的过程如下，包括以下步骤：
[0088] 步骤S1051 :计算度矩阵D，D为一对角矩阵，其对角线上的元素为
[0089]
;
[0090] 其中，i = 1，2，…，N ;
[0091] 步骤S1052 :根据所述度矩阵D和相似度矩阵W，计算拉普拉斯矩阵L = D-W ;
[0092] 步骤S1053 :计算拉普拉斯矩阵L的前k个最大特征值所对应的特征（列）向量 Iv1, V2，…，vk}，其中k为用户指定的分割类别数，然后将这k个N维特征向量排列在一起组成第一矩阵V，N为大于0的整数；
[0093] 步骤S1054 :将第一矩阵V中的每一行IV1, V2，…，VN}当做k维空间的一个向量，对这N个向量采用K-means聚类算法进行聚类，聚类结果记为S 1, S2，…，Sk，N为大于0的整数；
[0094] 对于本发明，为了不影响以上步骤S1054的运算执行时间，本发明采用了一种现有快速的k均值聚类算法lites-kmeans ;
[0095] 步骤S1055 :对于第i个样本特征点，若V1G S j，则第i个样本特征点的输出类别标号为j，其中I < i < N，且i为整数，I < j < k，且j为整数，从而获得每个特征点的类别标号，实现对全部数据的子空间聚类处理。
[0096] 对于本发明，针对实际环境下处理大规模数据的需求，提出了一种基于浮动搜索和贪婪近邻选择的子空间聚类的数据处理方法。该方法使用贪婪算法选择样本来构建子空间，并加入浮动搜索来回溯判断由贪婪算法选择的样本是否为正确样本，最后依据所选样本构成的近邻集生成毗邻矩阵来进行子空间聚类。
[0097] 本发明采用贪婪子空间近邻选择的方法来构建近邻集，并加入浮动搜索剔除错误选择的样本特征点。贪婪选择的特性使得该方法具有较快的计算效率，而浮动搜索的引入使该方法增强了算法的鲁棒性，可以获得更高的识别率。
[0098] 为更加清楚地理解本发明的技术方案，下面结合具体实施例来进一步说明。
[0099] 将本发明提出的技术方案应用于一个公开的人脸数据库，即Extended-YaleB人脸数据库。该数据库包括28个人的在64种不同光照条件，9种不同姿态下的人脸图像。在本发明的实施例中，采用其中由每个人脸的64张正脸图像构成数据库子集，进行2类聚类实验。为了降低计算量，本发明把原始96X84的人脸图像降采样到48X42大小，并将降采样的图像拉成一个维度为2016的列向量作为输入特征。选择两个人共128张图像进行聚类，因此输入数据矩阵为2016X128。具体步骤如下：
[0100] 第一步：首先对所有输入数据进行归一化，得到128个单位长度的特征向量。
[0101] 第二步：由于不用光照下的人脸图像理论上来说位于一个9维的子空间上，且考虑在实际条件下噪声等的影响，因此，本发明将构建的子空间维度设为15,略高于理论子空间维度。考虑到每一类的样本特征点实际数目较多且类别较少，设定初始邻居选择范围为 10个样本特征点，近邻集的容量为15个样本特征点。
[0102] 第三步：然后根据技术细节中所述步骤S103,为每个样本特征点计算得到包含15 个邻居的近邻集（每个所述近邻集Ω包含与其所归属特征点X所在的子空间距离最近的、预设数量为15的样本特征点）。
[0103] 第

完整全部详细技术资料下载

当前第3页1 2 3 4