一种高光谱图像降维处理方法与流程

文档序号:11234472阅读:1731来源:国知局
一种高光谱图像降维处理方法与流程

本发明属于图像处理领域,特别是在提升降维后数据精度的方面。



背景技术:

高光谱图像通常有几百个波段,有大量数据冗余,导致数据难以利用。大部分流形学习算法对大小为n×n的数据相似矩阵进行特征向量分析,其中n表示数据点的数量,该分析的复杂度至少为o(n2)。对于普通计算机,进行大规模计算与存储十分的不便。因此我们引入流行学习的方法来对高光谱图像进行处理。

流形学习根据投影方式分为:(1)线性算法,已经大范围广泛使用的流形学习算法,代表算法有在统计学中有广泛应用的主成分分析(principalcomponentanalysis,pca)算法。(2)非线性算法,主要基于邻域图(graphmap)建立映射关系,代表算法有包括保留点间距离的等距映射(isometricmapping,isomap)算法。

主成分分析在最小二乘的情况下,寻找数据从自然坐标系到其主成分坐标系的线性变换,以实现原始数据在变换后坐标系下的最佳表达。主成分分析算法通过保留方差较大的线性组合成分使得数据的主要结构得以保存,但是该算法没有涉及到数据内部结构组成,所以该数据对应对非线性的数据集可能效果较差。

等距映射算法尽量保存数据点的内在几何结构,而且算法本身效率较高,原理较为简单直接,对于数据本身非线性特征较强的高光谱遥感图像数据适用性较好,常用于高光谱图像的降维处理中。但是,使用邻域关系图中的最短路径估计测地线距离会产生下列问题:(1)对噪声较为敏感;(2)计算测地线距离矩阵十分繁琐,不易实现。因此,我们在领域图的构建中,引入l1范数来对该算法进行改进。



技术实现要素:

针对上述问题,我们提出了一种新的高光谱图像降维框架,并针对高光谱图像的特点,对等距映射算法计算量大,时间长的缺点提出改进。

本发明主要针对等距映射算法以及局部线性嵌入算法在邻域选择等问题上存在的缺点,引入具有稀疏特性的l1范数,对上述算法进行改进。首先,针对常规等距映射算法存在的邻域连接问题,使用l1与l2范数结合的算法,优化算法中邻域选择时的“短路”问题。其次,针对局部线性嵌入(lle)算法中邻域选择范围较小的问题,引入l1范数,使算法自适应地在较大的邻域范围内选择近邻点。最后,利用已有数据集标签信息,建立监督学习得到的邻域关系图,进一步强化邻域选择效果。因此本发明技术方案为一种高光谱图像降维处理方法,该方法包括:

步骤1:对原高光谱图像进行归一化处理,利用统计学采样方法对归一化后的图像进行数据采样,获得一个数据子集;

步骤2:采用isomap降维方法,对步骤1获得的数据子集进行流形学习降维,得到流形骨架;

步骤3:将步骤1中未被采样的数据使用局部线性嵌入算法嵌入到步骤2获得的流形骨架中,完成高光谱图像降维;

步骤4:使用k最近邻分类方法,对不同流形学习算法降维前后的数据进行分类,得到分类结果后,使用混淆矩阵,用户精度,总体精度,kappa系数来评价降维结果。

进一步的,所述步骤2的isomap降维方法中采用如下公式建立邻域关系图;

其中:e(xi)表示计算得到的邻域点的个数,wi表示高维空间数据点的权重,x{i}表示样本点xi周围的k最近邻点集;λ为调谐系数。

本发明一种高光谱图像降维处理方法,该方法通过对采样的少量数据进行降维,得到流形骨架,在将其余数据嵌入到流形骨架中,这样大幅度的减少了计算量,缩短了计算时间。

附图说明

图1为高光谱流形学习降维流程图。

图2为salinas-a数据集isomap算法改进前后降维效果分析。

图3为salinas-a数据集原始数据投影图;(a)为二维平面投影,(b)为三维立体投影。

图4为salinas-a数据集原始数据l1-isomap降维后投影图;(a)为二维平面投影,(b)为三维立体投影。

具体实施方式

步骤1.利用统计学采样方法得到原数据集的一个子集作为界标(landmark)。

在此步骤中,通过采样的方法减少用于后续处理的数据点个数,随后过程中的运算量将会大幅度降低。这些采样得到的点被称作界标,主要参与随后的数据降维。理想情况下,采样得到的界标应当是可以保留原数据几何结构的最小子集。采样后的下一步就是数据降维,为了准确地表达原有的流形结构,用于流形骨架学习的界标必须在原始数据集中精心选择。

步骤2.根据得到的界标进行流形学习降维形成流形骨架;

对采样得到的样本点数据集流形学习得到的流形可以看作对整个数据集流形学习得到的流形的近似。流形学习降维方法可以应用到采样后抽取的较小的数据集上。我们将学习采样数据得到的流形称作流形骨架。

在isomap(等距映射算法)中,应该尽量避免选取的邻域过大。在原始算法构建邻域关系图的步骤中,邻域经由计算欧式距离选取k个最近点。而k值的选择对关系图的构建举足轻重。如果k值过大,产生“短路距离”的可能性会大幅增长;但是如果k值过小,建立的关系图可能不够完整。而且,在某一区域内较为准确的k值可能在另一区域内并不适用。因此,我们发明了基于l1范数的邻域选择算法用于处理这个问题。

假设数据集x是需要建立邻域关系图的高维数据集,x是需要进行邻域连接的一个目标样本点。使用如下代价函数进行重建:

并且

||wi||>0

其中,首项表示重构中的误差,第二项利用了l1范数的稀疏特性。在上述公式中,调谐系数λ控制系数项所占权重。加入限制条件是为了保证至少有一个权重值是非零的。x中任意的具有非零权重wij的样本点xj,都将被认为是的一个近邻计算。

也就是说,x中每一点都有潜在可能成为xi的近邻点。由于样本点的数量一般都很大,计算开销也是一个大问题。如果l1范数邻域的选择依照在l2范数的邻域附近选择,邻域选择出现错误的风险也会降低。是以,限制潜在邻域的数量能够解决计算中存在的过大开销问题。邻域首先被限制在k最近邻的附近,这可以保证邻域点不会距离样本点过远,也可以加速l1优化的过程。加入上述考虑,公式可以改写为:

其中,x{i}是样本点xi的k最近邻;整个邻域关系图通过寻找数据集x中的所有样本点的邻域点建立。

邻域图构建完成后,isomap计算相似矩阵dg=dg(i,j),,其中dg(i,j)表示数据点i和j之间在关系图g中的测地线距离;测地线距离可以使用dijkstra'salgorithm快速有效地进行计算:

其中,dij表示点xi与点xj之间的测地线距离,ni表示点xi的k个近邻点的集合、nj表示点xj的k个近邻点的集合,k表示邻域图构建中的最近邻个数。

相似矩阵dg建立后,isomap算法使用传统mds技术通过最小化如下代价函数进行降维:

其中,dg表示相似矩阵dy是矩阵{dy(i,j)=||yi-yj||}的欧氏距离,表示l2矩阵范数,τ(·)是测地线距离的二阶变量,将测地线距离转化为内积形式:

其中,

s=(d(i,j))2

s是距离平方矩阵,h是中心矩阵,n矩阵中元素的个数。d(i,j)表示xi与点xj之间的距离,δ(i,j)表示单位矩阵。通过将矩阵τ(dg)的前d’个特征向量设置为yi的坐标,代价函数e可以被最小化,数据的残差按照这些特征值依次减小。当特征向量的数量降到数据潜在流形的维度,残差随着特征向量个数的增加降低到最小。进行非线性降维的结果是得到数据在d’维上的低维表达。

步骤3.将剩余的数据使用局部线性嵌入算法嵌入到流形骨架中,从而完成高光谱图像降维;

学习得到流形骨架后,剩余的数据点将会使用lle算法嵌入。lle算法可以归结为三步:

(1)确定每个待重建点的k个近邻点;

(2)通过这些点的近邻点计算得出用于下一步重建的局部重建系数矩阵;

(3)通过该样本点的近邻点及其对应的局部重建系数矩阵重构这个点。

步骤4.使用已有的k最近邻(knn)分类方法,对不同流形学习算法降维前后的数据进行分类,验证分类效果。

knn算法的基本思路是,借由距离函数求解需要分类的样本x和每个训练类别集合的距离,该距离作为相似性的一个测度。选择与需要分类的样本点距离最小的k个点,这些点将被当作x的k个最近邻,最后以这些最近邻中所属个数最多的类别将作为x的类别。

算法分为如下几步:

step1.通过特征项的集合对已知样本进行学习训练;

step2.在新的样本到达后,使用向量表达该点;

step3.在训练集中选取与新进入的样本相似度最大(距离最短)的k个样本点,计算公式为:

step4.在新样本点的k个近邻中,顺序计算每类的权重,计算公式如下:

其中,x表示更新样本点的特征向量,sim()为相似性度量的求解公式,与步骤3中计算过程一致,而y(di,cj)为类别属性函数,如若di属于cj类,则函数值为1,其它情况为0。

step5.计算类别的权值,将数据点归类到值最大的类别中

混淆矩阵(confusionmatrix):

经常用于对比分类情况和实际地物信息,能够通过矩阵对比分类前后的类别信息。混淆矩阵比较每个像元的实际类别和通过分类器分类后的类别。混淆矩阵的每一列表示参考点信息中的某个地物种类,每一行中的数字代表真实像元在分类图像中对应于相应种类的数量,通过统计像素个数表出。

总体精度(overallaccuracy),计算公式如下:

总体精度是影像中所有的像元数中分类精度与实际相符的像元总和所占比例,像元的实际分类受制于地物实际影像或者地物实际感兴趣区域。被正确归类的像元分布于混淆矩阵的对角线上,它表示被正确分类到地物实际类别中的像元数,像元总数等于所有地物实际类别中的像元之和。

kappa系数(kappacoefficient):

kappa系数用于处理在数据分析时面对的一致性检验的问题。即判断不同的模型或者分析方法在预测结果上是否相互符合、分析的结果与实际结果是否存在出入等等。在遥感图像分类中,kappa系数用以度量两幅输入图像间的吻合程度,评价输出图像。kappa系数的计算公式如下:

其中,

pii=两幅影像中同归于i类的像元比值;

pi.=参考影像中归于i类的像元比值;

p.i=非参考影像中归于i类的像元比值。

如果输入的两幅影像完全一致(没有变化),则kappa系数是1。如果两幅图像全部不一致,kappa系数取值-1。如果输入的影像判断结果由概率造成,kappa系数等于0。当kappa系数>0时,表示结果有价值,且该系数愈大,结果愈理想。kappa<0.4,说明一致性程度很差;当kappa≥0.75后,表示两幅影像的一致性令人满意。

生产者精度(producer’saccuracy):生产者精度也叫做制图精度,是指某类别实际像元总数中被正确归类到这一类的像元所占的比率,其计算公式如下:

用户精度(user’saccuracy):指正确归类到一类的像元总数和和整幅影像被分类器划分为该类的像元数的比率,根据下式计算:

表1为salinas-a数据集去掉未标记点后降维精度比较。

表2为salinasa-a数据集去掉未标记点后分类混淆矩阵。

其中,表1与表2中,o、b、c、l4、l5、l6、l7分别为不同的地物类别。

表1salinas-a数据集总体降维精度比较

表2salinas-a数据集去掉未标记点l1-isomap降维后分类混淆矩阵

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1