一种基于主动学习的高光谱图像分类方法

文档序号:6538867阅读:284来源:国知局
一种基于主动学习的高光谱图像分类方法
【专利摘要】本发明公开了一种基于主动学习的高光谱图像分类方法,它属于图像处理【技术领域】,主要解决基于集成的查询方法所获得的信息量存在重复的问题。其分类过程为:对高光谱图像进行特征提取;将所有样本随机划分为已标记数据集、未标记数据集和测试数据集;构造初始集成分类器;每一次迭代,根据新的信息量度量准则挑选未标记样本;利用最终得到的集成分类器进行预测,得到分类结果。本发明定义了一种新的信息量度量准则,相比于基于集成的查询准则,能够有效降低信息量的重复程度,获得更好的分类性能,可用于高光谱图像目标识别。
【专利说明】一种基于主动学习的高光谱图像分类方法
【技术领域】
[0001]本发明属于图像处理领域,特别是一种基于主动学习的高光谱图像分类方法,可应用于目标识别。
【背景技术】
[0002]伴随着遥感技术的不断进步,遥感传感器能够提供越来越多的数据。如何处理这些数据在遥感领域已经产生了巨大的兴趣。在遥感应用方面,例如环境检测、农业管理和城市绘图等,地物分类是非常重要的。利用这些数据所包含的丰富信息来获得高的分类精度,对于我们来说是一个巨大的挑战。特别地,在高光谱数据中光谱信息是极其的丰富。一幅高光谱图像也许包含有上百万个像素,每一个像素包括成百上千个光谱带,这使得人工标记变得很困难。因此,自动地物分类与识别正在成为一个热点。
[0003]许多关于遥感图像的自动分类技术的研究均是建立在监督学习方法的基础之上。监督学习的含义为:在已标记数据集上训练得到一个分类器,然后该分类器被用来预测未标记样本的标记。在机器学习领域,大量的分类器已经被开发出来。但是,监督学习器的分类性能依赖于可得到的已标记样本的数目与质量。已标记数据集的大小和一个分类器的分类精度之间通常是正相关的。换句话说,为了得到高的分类精度,已标记样本的数目应该尽可能的大。然而,对于高光谱数据,由于维数通常很高,该问题显得更加严重。当训练样本的数目对特征的数目的比率较小时,也许会发生维数灾难。因此,对于高光谱数据来说,很容易就发生过拟合训练数据的现象,这给分类器的泛化能力带来了不利的影响。
[0004]在现实生 活中,要获得遥感数据的标记是非常昂贵并耗时的,因为需要专家人为标记或者实地勘察。因此,如何利用尽可能少的已标记样本来获得尽可能高的分类精度在遥感数据分类中起着非常重要的作用。主动学习刚好就是被设计用来强调这类问题。主动学习的目地在于挑选出最具有信息量的未标记样本用于人工标记,这样一个分类器就能够利用尽可能少的已标记样本来获得尽可能高的分类精度。说的更具体一点,在已标记数据集上训练得到一个分类器,该分类器被用来预测未标记样本的标记。基于预先定义的查询策略,获得了每一个未标记样本的信息量。根据信息量的排序挑选出固定数目的最高信息量的样本。分析人员人工地标记这部分最高信息量的样本,该分类器在扩大的已标记数据集上重新训练。该过程重复进行直到一些停止条件被满足。这个过程中最重要的一步是如何度量未标记样本的信息量。如果使用更好的度量方法就能够期待获得更好的分类性能。在机器学习领域中,有关主动学习技术的研究有很多。近些年,主动学习在遥感领域已经引起了极大的兴趣。
[0005]查询策略在主动学习中非常重要,基于集成的查询是其中一种查询策略之一,它根据集成的不一致性程度来评估未标i己样:Φ:的信息減,MK所不:
1111 f — -wg,-
Y 爾爾
[0006]上式中,Xu为未标记样本,y,取遍所有的可能的标记,V(Yi)为所有那些预测得到的类别标记是Yi的分类器的数目,m为集成大小。[0007]然而,通过该查询策略所获得的信息量也许重复,这就导致了一些未标记样本拥有同样的信息量并且将被随机挑出。这给分类性能的提高带来了不利的影响。在本发明中,提供了一种基于主动学习的高光谱图像分类方法用来处理这个问题。

【发明内容】

[0008]针对上述问题,本发明的目的是提供基于主动学习的高光谱图像分类方法,旨在降低信息量的重复程度来获得它们的一个更精确的排序,从而提高高光谱图像的分类精度。
[0009]为实现上述目的,本发明采取以下技术方案:一种基于主动学习的高光谱图像分类方法,包括如下步骤:
[0010](I)对高光谱图像的每一个样本即像素,提取谱特征与空间特征,将这些特征融合为一个特征向量;
[0011](2)将所有样本随机划分为测试数据集与训练数据集,训练数据集被进一步随机划分为已标记数据集和未标记数据集;
[0012](3)在已标记数据集上构造初始集成分类器;
[0013](4)每一次迭代,根据新的信息量度量准则挑选出固定数目的最高信息量的未标记样本用于人工标记;
[0014](5)利用最终得到的集成分类器进行预测。
[0015]所述步骤I)是按以下步骤进行的:
[0016](Ia)利用主成分分析PCA算法提取高光谱图像的谱特征,若干个主成分能够包含图像的大部分信息;
[0017](Ib)在每一个主成分的基础上进行形态学开和闭运算,提取形态学特征;
[0018](Ic)将提取出来的谱特征和形态学特征融入一个特征向量,形成每一个样本即像素的新特征。
[0019]所述步骤4)按如下过程进行:
[0020]4a)对每一个未标记样本xu,按照新的信息量度量准则计算它的信息量:
[0021]
【权利要求】
1.一种基于主动学习的高光谱图像分类方法,其特征在于:包括如下步骤: 1)对高光谱图像的每一个样本即像素,提取谱特征与空间特征,将提取谱特征与空间特征融合为一个特征向量; 2)将所有样本随机划分为测试数据集与训练数据集,训练数据集被进一步随机划分为已标记数据集和未标记数据集; 3)在已标记数据集上构造初始集成分类器; 4)每一次迭代,根据新的信息量度量准则挑选出固定数目的最高信息量的未标记样本用于人工标记; 5)利用最终得到的集成分类器进行预测。
2.据权利要求1所述的一种基于主动学习的高光谱图像分类方法,其特征在于:所述步骤I)是按以下步骤进行的: (Ia)利用主成分分析PCA算法提取高光谱图像的谱特征,若干个主成分能够包含图像的大部分信息; (Ib)在每一个主成分的基础上进行形态学开和闭运算,提取形态学特征; (Ic)将提取出来的谱特征和形态学特征融入一个特征向量,形成每一个样本即像素的新特征。
3.根据权利要求1所述的一种基于主动学习的高光谱图像分类方法,其特征在于:所述步骤4)按如下过程进行: 4a)对每一个未标记样本xu,按照新的信息量度量准则计算它的信息量:
【文档编号】G06K9/62GK103839078SQ201410066856
【公开日】2014年6月4日 申请日期:2014年2月26日 优先权日:2014年2月26日
【发明者】王爽, 焦李成, 吴林生, 侯彪, 马文萍, 马晶晶, 牛东 申请人:西安电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1