有监督的流形学习算法

文档序号:8259584阅读:701来源:国知局
有监督的流形学习算法
【技术领域】
[0001] 本发明属于目标识别领域的数据降维方法,具体是一种有监督的流形学习算法。
【背景技术】
[0002] 随着科学技术的发展,人类获得的数据越来越多,而且这些数据往往具有很高的 维数,对于典型的图像数据来说,其维数就是图像的像素数,而图像的像素数一般都很高。 如何从这些高维的数据提取中有用的数据用来进行后续的处理是个巨大的问题。特征提取 技术是解决这个问题的一个重要的方法。对于许多问题例如数据可视化、计算机视觉和模 式识别特征提取都是一个基础性的问题。对于人脸识别来说,特征提取是完成人脸识别的 关键。
[0003] 在过去几十年中,人们提出了很多关于特征提取的方法,这些方法中有监督学习 的方法也有非监督学习的方法,有线性的方法也有非线性的方法。在这些方法中,文献1 (I. Joliffe, Principal Component Analysis. Springer-Verlag, 1986)中提出 了主成分分析 (PCA),文献2 (K. Fukunnaga, Introduction to Statistical Pattern Recognition, second ed. Academic Press, 1991)提出了线性判别式分析(LDA)是两种使用最多的线性特征提取 方法。PCA将原始的高维数据映射到由全部原始数据协方差矩阵的最大特征值对应的特征 向量所张成一个低维子空间中。PCA能够在最小均方意义下,寻找最能代表原始数据的投影 方法。另外,由于没用利用到类别信息,所以PCA是一种完全的非监督学习方法。
[0004] 与PCA不同,LDA是一种有监督的学习方法,最早可以追溯到1936年Fisher发表 的论文,其本质思想是选择使Fisher准则函数达到极值的向量作为最佳投影方向。从而使 得样本在该方向上投影后,能够同时达到类间离散度最大和类内离散度最小。
[0005] 然而,PCA和LDA都是从全局的欧式结构进行考虑的而不是从流形结构上进行 考虑。而最近的研宄表明人脸图像有可能是驻留在一个非线性的流形之上,同时不同 的人脸图像会处在不同的流形之上。为此人们提出了很多流形学习算法来寻找嵌入在 原始高维数据中的本质低维流形,在这些算法中包括等距特征映射算法(IS0MAP)(文 献 3, J. B. Tenenbaum, V. de. Silva, J. C. Langford, A global geometric framework for nonlinear dimensionality reduction, Science 290(2000)2319 - 2323.),局部线性嵌 入(LLE)(文献 4,S. T. Roweis, L. K. Saul, Nonlinear dimension reduction by locally linear embedding, Science290 (2000) 2323 - 2326.)和拉普拉斯特征映射(LE)(文献 5, M. Belkin, P. Niyogi, Laplacian eigenmaps for dimensionality reduction and data representation, Neural Computation 15(6) (2003) 1373 - 1396.)等。实验表明这些算 法对于模拟数据和真实的数据,比如人脸图像能够找到这些数据的有意义的低维嵌入。 He 等人提出了 局部保留映射(LPP)(文献 6, X. He, S. Yan,Y. Hu,P. Niyogi, H. Zhang, Face recognition using laplacian faces, IEEE Transactions on Pattern Analysis and Machine Intelligence 27(3) (2005)328 - 340.),LPP的目标函数是最小化映射后的数据 的局部散布矩阵。与其他的流形学习算法相比较,LPP算法拥有明显的优势比如能够得到 更加明显的映射,更加易于计算等。但是这些算法都属于非监督学习算法,无法利用到数据 的类别信息而且在计算的过程中需要认为的设定一下参数,而这些参数对于最终结果的影 响很大。但是如何选取这些参数,却没有统一的标准。
[0006] 在文献 7 (Bo Li, De-Shuang Huang, Chaoffang, Kun-Hong Liu, Feature extraction using constrained maximum variance mapping, Pattern Recognition 41 (2008)3287 -3294)中 Bo 等人提出了 CMVM 算法(constrained maximum variance mapping),该算法将 不同类别分开同时保持任意流形的全局结构。换句话说改算法可以在得到最优结果的同 时不破坏其他类大的全局结构。这种算法在分离不同的类别时,将与本类不同的其他全部 类都考虑进去,这样虽然能够达到将不同类的分开的目的,但是由于各个类之间的距离不 同,距离最远的和距离最近的类应该分别对待而不应该是一视同仁。同时在构建局部散布 矩阵时没有考虑到近邻点的类别信息,有可能会使得一个点的近邻包含不是该点算在类的 点,对后续的处理有不利影响。文献 8(Shuicheng Yan,Dong Xu,Benyu Zhang,Hong-Jiang Zhang, Qiang Yang, Senior, Stephen Lin, Graph Embedding and Extensions:A General Framework for Dimensionality Reduction, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol, 29, No. 1,January, 2007)中 Yan 等人提出了 MFA 算法 (Marginal Fisher Analysis)该算法设计了一个本质图(intrinsic graph)来描述流形 内部的紧凑性和另外一个惩罚矩阵来描述不同类之间的离散性。本质图描述了每一类的类 内部近邻点的关系,并且每个点都与它的K近邻相连,惩罚矩阵描述了边缘点的邻域关系, 不同类的边缘点点对被连接起来。但是该算法存在不同类之间的边缘点点对的个数难以 确定,而且距离最远的和距离最近的类应该分别对待而不应该是一视同仁。文献9 (Wankou Yang, Changyin Sun, Lei Zhang, A multi-manifold discriminant analysis method for image feature extraction, Pattern Recognition 44 (2011) 1649 - 1657)中Wankou Yang 等人提出 MMDA 算法(Multi-Manifold Discriminant Analysis),该算法在 LPP 的基础上, 使用每一类数据的类内权重矩阵的和去加权该类的均值,然后将类间均值视为新的数据, 寻找一个最优的投影矩阵使得加权类均值的类间散布矩阵达到最大同时每一类的类内散 布矩阵达到最小。但是该算法存在使用加权的类均值去衡量类内数据存在一定的偏差,尤 其是当数据分布比较无规则的情况下这种表现更加明显。

【发明内容】

[0007] 本发明的目的在于提供一种有监督的流形学习算法。
[0008] 实现本发明目的的技术方案为:一种有监督的流形学习算法,步骤如下:
[0009] 步骤一:使用KNN方法寻找每一个样本的近邻样本。在寻找时限定只在同一类样 本中寻找与该样本点最近邻的K个样本,并置对应的类内权重矩阵W(i,j) = 1,遍历所有样 本从而完成类内权重矩阵的构建,使用得到的类内权重矩阵建立类内散布矩阵去描述流形 的局部结构。
[0010] 步骤二:对于每个样本Xi,使用KNN方法寻找不同类的K1个最近邻的样本,统计这 K1个样本的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1