基于稀疏表示的半监督高光谱图像分类方法与流程

文档序号:11865380阅读:290来源:国知局
基于稀疏表示的半监督高光谱图像分类方法与流程
本发明属于图像处理
技术领域
,特别涉及一种高光谱图像分类方法,可用于农作物生长周期的检测和高光谱图像的地物识别。
背景技术
:高光谱遥感是遥感领域在20世纪80年代起最重要的发展之一,也是当今及今后几十年内遥感的前沿技术。高光谱遥感技术利用成像光谱仪以纳米级的光谱分辨率,以几十或几百个波段同时对地表物成像,能够获得地物的连续光谱信息,实现地物空间信息、辐射信息、光谱信息的同步获取,具有“图谱合一”的特性,从而使人类对地观测和信息获取能力向前迈进了一大步。常用的高光谱图像数据包括由美国宇航局NASA喷气推进实验室的空载可见光/红外成像光谱仪AVIRIS获得的IndianPines数据集和帕维亚大学数据集UP,以及NASA的EO-IHYPERION光谱仪获得的Botswana数据集等。遥感图像分类就是将遥感图像中的每个像元划归到类别中去的过程。高光谱图像分类是建立在遥感图像分类的基础上,结合高光谱遥感图像特点,对高光谱图像进行像元的识别和分类。由于高光谱遥感技术获取的图像包含了丰富的空间、辐射和光谱三重信息,这些信息特别适合分类,但仍存在巨大的挑战和困难:(1)数据量大,至少几十个波段,导致计算复杂度很高,也给数据的存储、传递和显示带来了挑战;(2)维数过高,存在冗余数据,会降低分类精度;(3)波段多,且波段间相关性高,导致所需训练样本数目增多,如果训练样本不足,将导致从训练样本得到的参数不可靠。因此如何有效的利用高光谱图像的特点,提高高光谱图像分类精度是一个重要问题。目前,已经有许多著名的高光谱图像分类方法,比如支撑矢量机SVM,基于稀疏表示SR,基于图的半监督学习等。其中SR在近年来受到许多学者的关注,并已经在机器学习,压缩感知等领域获得显著成果。对于高光谱图像,考虑到高光谱图像高维的现象,假定属于同一类的像素点通常位于相同的低维子空间,并且这些低维子空间通常满足不相交,对于一个未知测试样本,它可以由字典中的样本点稀疏线性组合而成,对应的线性组合系数表示这个未知测试样本可能来自哪个子空间,最后根据最小重构误差确定测试样本的具体标签。基于上述SR原理的分类器SRC是一种有监督分类方法,这种方法只借助有标记样本的监督信息,而没有运用无标记样本的结构信息。由于获取大量有标记样本需要付出很大的代价,特别是在有标记样本个数很少时,SRC方法往往难以精准地预测无标记样本的类标,从而不能得到较好的分类结果,尤其对于高光谱图像数据,其有标记样本的获取是耗时耗力且非常困难。技术实现要素:本发明的目的在于针对上述现有技术的不足,提出一种基于稀疏表示的半监督高光谱图像分类方法,以利用少量的有标记样本以及大量的无标记样本,精准地预测无标记样本类标,提高高光谱图像的分类正确率。实现本发明目的的技术方案是,对每一个有标记样本学习出一个关于无标记样本的稀疏表示系数,利用这些获得的稀疏表示系数计算每一个无标记样本属于不同类的类概率,在每一个无标记样本的类概率矩阵中选出最大类概率并把这个无标记样本归为这一类。其具体实现步骤包括如下:(1)输入高光谱图像X=[x1,x2,...,xi,...,xN]∈RA,xi表示高光谱图像中的第i个像素点,i=1,2,3,...,N,N表示像素点总数,每一个像素点用一个特征向量表示,A表示该特征向量维数,R表示实数域;(2)设高光谱图像含有n个无标记样本和m个有标记样本,n>m且n+m=N,用高光谱图像的无标记样本构成无标记矩阵U=[μ1,μ2,...,μj,...,μn],μj表示第j个无标记样本,j=1,2,3,...,n;用有标记样本构成有标记矩阵L=[l1,l2,...,lk,...,lm],lk表示第k个有标记样本,k=1,2,...m,lk的类标为yk∈{1,2,...,c},c为高光谱图像的类别数;(3)用无标记矩阵U作为字典D;(4)对字典D和有标记样本矩阵L在稀疏表示的框架下进行更新,预处理集合表示空集:4a)根据稀疏表示理论,对L中的每一个样本lk,k=1,2,...,m,利用字典D中的无标记样本对其进行稀疏表示为其中:ak=[ak1,ak2,...,akj,...,akn]T是稀疏表示系数向量,akj是ak中第j个元素,误差ek是一个极小的常量,T表示向量的转置;4b)利用正交匹配追踪算法OMP得到有标记样本lk在字典D上的稀疏表示系数向量:其中||·||2为l2范数,度量数据重构误差;||·||1为l1范数,用来保证向量a的稀疏度,λ是重构误差项与稀疏项的平衡因子;4c)通过下式计算每一个无标记样本μj属于第ν类的类概率:sjv=Σk=1makj2I(yk=v)Σk=1makj2,v=1,2,...,c;]]>其中I(·)是0-1判别函数,若yk=ν,则I(yk=ν)=1,否则I(yk=ν)=0;用计算出的类概率sjν构成类概率向量sj=[sj1,sj2,...,sjν,...sjc]T,sjν表示第j个无标记样本属于第ν类的概率,ν=1,2,...,c;4d)选出类概率向量sj中的最大类概率,记作并赋予该无标记样本的类标为ν,选出γν≠0所对应的所有无标记样本放入预处理集合W,统计W中样本个数,记为Wnum;4e)提取字典D中预测出类标的无标记样本并按照预测类标将这些无标记样本放入有标记样本集L对应的类中并从D中剔除,即使得有标记样本集L=L∪W,字典D=D\W,同时更新无标记样本的个数n和有标记样本的个数m,使n=n-Wnum,m=m+Wnum;4f)如果字典D中剩余无标记样本的个数小于样本点的特征维数,执行步骤(5),否则,返回步骤(4);(5)把数据集X中每个样本作为节点,通过高斯核函数RBF来计算不同节点之间的权重,将有标记样本的类标信息通过节点之间的权重传给无标记样本,从而对无标记样本进行类标预测,得到预测出的类标结果,完成对高光谱图像分类。本发明与现有的技术相比具有以下优点:1.节约了标记样本的时间和成本低现有SRC分类方法运用大量有标记样本稀疏线性表示每一个无标记样本,而本发明运用大量无标记样本稀疏线性表示每一个有标记样本,从而不需要大量有标记样本,节约了标记样本的时间和标记样本的成本。2.分类精度高本发明将提取字典中已预测好类标的无标记样本加入有标记样本集,再用字典中剩下的无标记样本稀疏线性表示每一个有标记样本,通过不断地循环此操作,使少量有标记样本的类标信息和大量无标记样本的结构信息融合,从而对无标记样本的类标做出精准预测,提高了分类精度。附图说明图1是本发明的实现流程图;图2是本发明仿真采用的IndianPines图像;图3是用本发明与现有方法在每类有标记样本个数不同时的分类精度对比图;图4是用本发明与现有方法在每类有标记样本个数为15时,对IndianPines图像的分类结果对比图。具体实施方式以下结合实例对本发明的具体实施步骤进一步的说明:步骤1,输入高光谱图像。采用美国宇航局NASA喷气推进实验室的空载可见光/红外成光谱仪AVIRIS于1992年6月在印第安纳西北部获取的IndianPines图像,图像大小为145×145,共220个波段,去除噪声以及大气和水域吸收的波段还有200个波段,去除背景点后,总共10366个像素点,16类地物信息。用X=[x1,x2,...,xi,...,xN]∈RA,表示IndianPines图像数据集,xi表示高光谱图像中的第i个像素点,i=1,2,3,...,N,N表示像素点总数,每一个像素点用一个特征向量表示,A表示该特征维数,R表示实数域。步骤2,构造有标记样本矩阵L和无标记样本矩阵U。2a)把包含c类的原始IndianPines图像数据集划分为c个子数据集,这些子数据集分别对应不同的类别,从每一个子数据集中随机选取m/c个样本点,用所有子数据集选出的样本点构成有标记样本矩阵L=[l1,l2,...,lk,...,lm],lk表示一个第k个有标记样本,k=1,2,...m,其中,m是有标记样本的总数,在实验中设置为不同的值;2b)提取所有子数据集选出的样本点的类标构成类标向量Llabel=[llabel-1,llabel-2,...,llabel-k,...,llabel-m],Llabel是有标记样本矩阵L对应的类标集,llabel-k是有标记样本矩阵L中第k个样本的类标,llabel-k∈{1,2,...,c},c为高光谱图像的类标数;2c)用所有子数据集中剩余样本点构成无标记矩阵U=[μ1,μ2,...,μj,...,μn],μj表示第j个无标记样本,j=1,2,3,...,n,n=N-m且n>m。步骤3,用无标记矩阵U作为字典D。步骤4,对字典D与有标记样本矩阵L进行更新,预处理集合表示空集。4a)根据稀疏表示理论,对L中的每一个有标记样本lk,k=1,2,...,m,利用字典D中的无标记样本对其进行稀疏表示:其中,ak=[ak1,ak2,...,akj,...,akn]T是稀疏表示系数向量,akj是ak中第k行第j列系数,若akj≠0,则表示在重构有标记样本lk时,字典D中的第j个无标记样本μj被选中并且这个无标记样本μj的贡献作用是akj,akj越大代表这个无标记样本μj在重构有标记样本lk时,作用越大,即这个无标记样本μj和有标记样本lk属于同一类的概率越大;误差ek是一个极小的常量,表示在字典D上重构有标记样本lk时的残差,T表示向量的转置;4b)通过下式求解有标记样本lk在字典D上的稀疏表示系数向量:其中||·||2为l2范数,度量数据重构误差;||·||1为l1范数,用来保证向量a的稀疏度,λ是重构误差项与稀疏项的平衡因子:现有求解稀疏表示系数向量ak的方法有正交匹配追踪OMP,子空间追踪SP,本发明采用的是正交匹配追踪OMP,其求解步骤如下:4b1)输入:有标记样本lk,字典D,设定稀疏度sp=5;4b2)初始化:残差r0=lk,索引集迭代次数控制变量t=1,∏t是大小为μnum×1的全零向量,μnum是字典D中无标记样本的个数;4b3)找出第t-1次的残差rt-1和字典D中每个无标记样本μj内积中最大值所对应的脚标Δt,即Δt=argmaxj=1,2,....,n|<rt-1,μj>|;4b4)更新索引集Λt=Λt-1∪{Δt},记录字典D中的重建原子,构成原子集合4b5)由最小二乘得到akt=argmin||lk-Etakt||2;4b6)更新:第t次残差rt=lk-Etakt,字典D=D\Et,∏t第Δt行值改为akt,t=t+1;4b7)判断是否满足t>sp,若满足,则停止迭代,输出系数集合∏t;若不满足,则返回4b3)。4c)通过下式计算每一个无标记样本μj属于第ν类的类概率:sjv=Σk=1makj2I(yk=v)Σk=1makj2,v=1,2,...,c;]]>其中I(·)是0-1判别函数,若yk=ν,则I(yk=ν)=1,否则I(yk=ν)=0;用计算出的类概率sjν构成类概率向量sj=[sj1,sj2,...,sjν,...sjc]T,sjν表示第j个无标记样本属于第ν类的类概率,sjν越大表示第j个无标记样本属于第ν类的可能性越高,ν=1,2,...,c;4d)选出类概率向量sj中的最大类概率,记作并赋予该无标记样本的类标为ν,选出γν≠0所对应的所有无标记样本放入预处理集合W,统计W中样本个数,记为Wnum;4e)提取字典D中预测出类标的无标记样本并按照预测类标将这些无标记样本放入有标记样本集L对应的类中并从D中剔除,即使得有标记样本集L=L∪W,字典D=D\W,同时更新无标记样本的个数n和有标记样本的个数m,使n=n-Wnum,m=m+Wnum;4f)如果字典D中剩余无标记样本的个数小于样本点的特征维数,执行步骤(5),否则,返回步骤(4)。步骤5,对剩余无标记样本进行类标预测。5a)把数据集X中每个样本作为节点,通过高斯核函数RBF来计算不同节点之间的权重,其计算公式如下:其中xp,xq表示图像X中的两个样本点,是超参,ζpq表示xp和xq之间的权重,p=1,2,3,...,N,q=1,2,3,...,N。5b)将有标记样本的类标信息通过节点之间的权重传给无标记样本,从而对无标记样本进行类标预测,其步骤如下:5b1)定义一个转移概率Ppq:Ppq=P(xp→xq)=ζpqΣh=1Nξph]]>其中,Ppq表示从节点p转移到节点q的概率,xp,xq表示图像X中的两个样本点,ζpq是p与q之间的权重,p=1,2,3,...,N,q=1,2,3,...,N;5b2)用计算出的转移概率Ppq构造节点xp的转移向量Pp=[Pp1,Pp2,...,Ppq,...,PpN]T;5b3)用转移向量Pp构造转移矩阵P=[P1,P2,...,Pp,...,PN],Pp表示第p个节点的转移向量;5b4)定义有标记样本集L的类标指示矩阵YL:如果样本lk的类别是ν,则该行的第ν个元素为1,其他元素为0,YL的大小为m×c;5b5)定义字典D的类标指示矩阵YD是大小为n×c的全零向量;5b6)合并YL和YD得到预测矩阵Fnew={YL;YD},Fnew的大小为N×c,“;”表示按行合并;5b7)使用类标传播的方法在转移矩阵P上传递有标记样本的类标信息,得到字典D中所有无标记样本的类标预测矩阵F=PFnew;5b8)如果Fnew和F之间的差异小于10-10,执行5b9),否则,更新Fnew=F,执行5b7);5b9)根据类标预测矩阵F确定每个无标记样本的预测类标:其中g=1,2,...,n;5c)得到的无标记样本的预测类标结果,完成对高光谱图像分类。本发明的效果可以通过以下仿真实验进一步说明:1.仿真条件:仿真实验采用美国宇航局NASA喷气推进实验室的空载可见光/红外成光谱仪AVIRIS于1992年6月在印第安纳西北部获取的IndianPines图像,如图2所示,图像大小为145×145,共220个波段,去除噪声以及大气和水域吸收的波段还有200个波段,去除背景点后,总共10366个像素点,16类地物信息,表1列出了16类地物的名称以及每类的样本个数。仿真实验在CPU为IntelCore(TM)2Duo、主频2.33GHz,内存为2G的WINDOWSwin8系统上用MATLAB2010软件进行。表1IndianPines图像中的16类数据类别类别名称个数类别类别名称个数1ALfalfa549Oats202Corn-notill143410Soybeans-notill9683Corn-min83411Soybeans-min24684Corn23412Soybeans-clean6145Grass/Pasture49713Wheat2126Grass/Trees74714Woods12947Grass/pasture-mowed2615Bldg-Grass-Tree-Drives3808Hay-windrowed48916Stone-steeltowers952.仿真内容及分析:使用本发明与现有三种方法对高光谱图像IndianPines进行分类,现有三种方法分别:稀疏表示分类器SRC,基于图的类标传播算法LP,支撑矢量机SVM,本发明基于稀疏表示的半监督高光谱图像分类方法的缩写为Semi-SR。仿真1,每类分别随机选取2,6,10,15和20个样本点作为训练样本,剩下部分全部作为测试样本构成字典D来评价不同训练样本数目对实验结果的影响,并取10次实验结果的平均值作为最终的实验结果,如图3所示。图3表明,随着训练样本个数的增加,SVM算法,LP算法,Semi-SR算法的分类精度都不同程度的提高。更进一步地,当每类有标记样本个数为2,6时,Semi-SR算法的分类精度都很高,远远超越其它分类算法的精度,这种现象表明Semi-SR算法在处理训练样本数目少时有着显明的优势。对于传统的SR算法,必须用有标记样本做字典且有标记样本的个数应该大于其维数,故每类有标记样本个数为2,6,10时,不满足要求,从而没有实验结果。仿真2,为了更详细地对算法进行分析,每类随机取15个样本点作为训练样本,剩下样本点全部作为测试样本构成字典D,并取10次的平均结果作为最终的分类结果,结果如图4所示,其中图4a是SVM分类精度为69.52%的结果图;图4b是LP分类精度为61.87%的结果图;图4c是SR分类精度为60.25%的结果图;图4d是Semi-SR分类精度为56.71%结果图,分类精度是分类结果的衡量指标。图4表明,在训练样本个数较多时,各个分类算法的分类结果有所不同。综上可知,本发明在稀疏表示的基础上结合半监督学习对高光谱图像进行分类,充分利用少量有标记样本的类标信息与大量无标记样本的结构信息,特别是在有标记样本个数很少时,准确预测无标记样本的类标,得到较好的分类结果。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1