一种基于局部线性回归的流形学习泛化算法

文档序号:6550782阅读:548来源:国知局
一种基于局部线性回归的流形学习泛化算法
【专利摘要】一种基于局部线性回归的流形学习泛化算法,属于高光谱图像数据降维【技术领域】。本发明的目的在于提出一种适用于任何一种流形学习算法、能够保持原流形学习降维结果、基于局部线性回归的流形学习泛化方法,其步骤为:一、寻找邻域;二、计算投影矩阵;三、求取线性回归系数矩阵;四、计算新样本降维结果。本发明可以在保持原有流形学习降维结果的基础上实现新样本的泛化,构建了一个从高维到低维的线性映射,可使得任一不具备泛化能力的流形学习算法如LE、LLE、LTSA等具有泛化能力,从而使得这些耗时的流形学习算法适用于高光谱图像的降维处理过程。
【专利说明】-种基于局部线性回归的流形学习泛化算法

【技术领域】
[0001] 本发明属于高光谱图像数据降维【技术领域】,具体涉及一种流形学习的泛化算法。

【背景技术】
[0002] 高光谱图像能够记录地物丰富的光谱信息,这有利于准确精细对地物进行分类 识别。但是高光谱数据波段数变大必然会造成信息冗余和数据处理的困难,带来维数灾 难,这种现象给高光谱数据处理带来了阻碍,因此消除高光谱数据的这种信息的冗余性成 为了必须解决的问题。高光谱数据的这种冗余性主要是高光谱数据波段间的相关性造成 的,降维是一种重要的预处理方法,利用低维数据来表达高维数据的特征,它能有效保留图 像信息,减少信息冗余。常见的高光谱图像降维算法分为线性降维和非线性降维,尽管像 PCA (Principal Component Analysis)和 LDA (Linear Discriminant Analysis)这样的线性 降维算法实现简单,但是因为高光谱图像具有非线性特性,因此流形学习算法可以更好地 挖掘高光谱数据的非线性结构,提高数据分析能力。经典的流形学习算法有LE(Laplacian Egenmap)、LLE(Locally Linear Embedding)和 LTSA(Local Tangent Space Alignment)算 法,可用于高光谱图像的特征提取算法。但是经典非线性的流形学习算法大多无泛化能力, 无法直接学习新的高光谱数据,必须和所有的旧数据一起学习才能够获得新的降维结果。
[0003] 流形学习算法的泛化问题可以描述为:已知高光谱数据集x= {Xl,χ2,..., XN} e RDXN,N是样本集个数,D是样本集维数,&表示的第j个高光谱数据样本,还已知某 一种流形学习算法对X降维之后获得的降维数据集Y = {yi,y2, ...,yN} e RdXN,d是降维 维数,h为\的降维结果,对于一个新的高光谱数据e rDX1,求取Xmw对应的降维结果 ynewe RdX1。
[0004] 为了使得流形学习具备泛化能力,目前已经有许学者做了许多尝试。其中将非线 性学习算法进行线性化、将非线性学习算法进行核拓展等都是常用的思路。然而线性化会 改变原流形学习算法的降维结果,而核拓展则需要为每个特定的流形学习算法构造核函 数。


【发明内容】

[0005] 本发明的目的在于提出一种适用于任何一种流形学习算法、能够保持原流形学习 降维结果、基于局部线性回归的流形学习泛化方法,使得不具备泛化能力的流形学习算法 如LTSA、LLE、LE等经典流形学习算法获得泛化能力,从而使得流形学习算法适用于高光谱 图像的降维处理过程。
[0006] 本发明的目的是通过以下技术方案实现的:
[0007] 分布在高维流形上的数据在一个很小的局部区域可近似看作分布在一个低维超 平面上,在这个邻域内,可假设高维数据和低维嵌入之间存在一个线性映射。因此,对于一 个新的样本点,首先在原始数据空间中寻找它的邻域,然后在这个邻域中构建一个从高维 到低维的线性映射,最后通过线性映射实现对新样本的泛化。
[0008] 如图1所示,本发明提供的基于局部线性回归的流形学习泛化算法,其具体步骤 如下:
[0009] 步骤一、寻找领域:
[0010] 对于一个新的数据样本,在高光谱数据集X中找到XMW的k个最近样本点构成 邻域数据集Xe Λ13"*,D是样本集维数,并获得i在降维数据集Y中对应的降维邻域数据集 Fe iT**,d是降维维数,要求k彡d,R表示实数域。
[0011] 计算xnew与X中第j个高光谱数据样本的χ」的距离B (j):
[0012] B (j) = I I Xj-Xnew I 12 j = 1,2, . . . , No
[0013] 对距离向量B中的元素从小到大排序,取前k个最小的元素对应的数据样本组成 f,并在lid中找到对应的F。
[0014] 步骤二、计算投影矩阵:
[0015] 1)构建矩阵C:
[0016]

【权利要求】
1. 一种基于局部线性回归的流形学习泛化算法,其特征在于所述流形学习泛化算法步 骤如下: 步骤一、寻找领域: 对于一个新的数据样本XMW,在高光谱数据集X中找到XMW的k个最近样本点构成邻 域数据集Xe i?7"*,D是样本集维数,并获得文在降维数据集Y中对应的降维邻域数据集 Fe及?,d是降维维数,要求k彡d,R表示实数域; 计算与X中第j个高光谱数据样本的&的距离B (j): B(j) = I |xj-xnew| |2 j = 1,2, · · ·,N ; 对距离向量B中的元素进行排序,获取f,并在Υ。^中找到对应的f ; 步骤二、计算投影矩阵: 1) 构建矩阵C :
其中,Hk为k维中心化算子,
,ek = [1,1,· · · 1]T e Rkxl是长度为k 的元素全为"1"的列向量,Ik为kXk的单位矩阵; 2) 对矩阵C进行特征分解: Cv -入 v, 其中,V是矩阵C的特征向量,λ是特征向量V对应的特征值; 3) 计算局部投影矩阵V :
其中,Vi为C的第i大特征值λ i对应的特征向量,V(i)是投影矩阵V第i列,d是降 维维数; 步骤三、求取线性回归系数矩阵: 1) 计算邻域数据集f的切空间坐标z :
其中,ντ是局部投影矩阵V的转置矩阵; 2) 计算线性回归系数矩阵L:
其中,Ζ与f的映射关系为
,Ei为线性回归误差,(·)+表示求 Moore-Penrose广义逆运算符; 步骤四、计算新样本降维结果:
其中,
> Mk为k维求均值算子,
是xMW的降维结果。
2. 根据权利要求1所述的基于局部线性回归的流形学习泛化算法,其特征在于所述步 骤一中,对距离向量B中的元素从小到大排序,取前k个最小的元素对应的数据样本组成 1,并在11(1中找到对应的7。
【文档编号】G06K9/62GK104050482SQ201410288959
【公开日】2014年9月17日 申请日期:2014年6月24日 优先权日:2014年6月24日
【发明者】张淼, 刘攀, 赖镇洲, 沈毅 申请人:哈尔滨工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1