基于加权熵的半监督随机森林高光谱遥感影像分类方法与流程

文档序号:14444956阅读:294来源:国知局
基于加权熵的半监督随机森林高光谱遥感影像分类方法与流程

本发明涉基于加权熵的半监督随机森林高光谱遥感影像分类方法,属遥感测绘技术领域。



背景技术:

随着空间技术的迅猛发展,遥感影像对我们的生活的影响越来越大,传统的遥感分类技术已经不能满足现在人们的图像信息挖掘的要求。如何充分的挖掘出遥感影像潜在的信息已经成为我们研究的热点。而遥感影像分类技术是信息挖掘的核心技术,因此越来越多的学者深入到对遥感影像分类技术的研究之中。

本文实验中使用的是高光谱遥感图像。它是一种集光谱维度和空间维度于一体的包含大量潜在信息的成像遥感技术。由于它包含有大量的信息以及数据具有多义性,易受huges噪声的影响,故传统的基于单个分类器分类方法已不能满足于高光谱遥感的分类需求。考虑到高光谱遥感图像的特征,考虑使用随机森林算法进行分类。

随机森林算法是一种基于cart决策树算法原理的分类方法,它由一系列cart决策树组合而成的,并由决策树进行投票,最后把得票数最多的作为该地物类别最终的分类结果。其使用的属性度量标准是gino指标。

这种算法是分类树的汇总,给出了所有变量的重要性,这种算法面对在数据缺失和不平衡时候仍旧比较稳健,可以预测多达几千种解释变量。随机森林通过产生大量的分类树建立自变量与因变量的关系,这可以成功得计算出变量非线性作用和交互作用,即使在干扰性比较大的情况下,业不易产生过度拟合。基于随机森林的以上特性,将其用来处理高光谱遥感影像中局部极值以及各分类地物差别大以及训练速度较慢的问题是一个很不错的选择。

鉴于高光谱遥感影像自身信息量大并且它还是一种新型细分光谱成像遥感技术,要充分挖掘出其中的潜在信息非常困难,同时考虑训练样本获取十分困难,并且代价很高的现状,传统的监督分类的方法显而不太实用。但是非监督分类的方法虽然不需要训练样本,但是由于其分类精度的局限,在现实分类中很少被用到。鉴于以上原因,使用半监督分类的方法进行地物分类会是一个不错的选择。

半监督分类是一种主动学习的分类算法,在有训练过程中同时使用了标记样本和未标记样本。在信息量爆炸的今天,分类问题变得越来越复杂,而半监督分类算法在仅获取一小部分分类样本的情况下,达到了很好得分类效果,受到了人们的青睐。这种分类算法是从少量标记实例和大量未标记实例中创建模型的。

现今使用的半监督学习(semi-supervisedlearning)分类方法是充分利用少量的训练样本和大量的未标记的样本创建模型进行分类的自训练机器学习方法。在面临仅有少量标记样本和大量未标记的样本的情况下十分适用。鉴于样本标记十分昂贵并且随着成像光谱技术的飞速发展和高光谱影像的海量涌现等原因,研究半监督机器学习的分类方法十分有意义。这项发明可以优化高光谱遥感影像的分类性能,提高高光谱遥感的分类精度和分类效率。如今已经应用的高光谱遥感影像半监督分类方法有很多种,例如:基于半监督稀疏鉴别嵌入的高光谱遥感影像分类方法(中华人民共和国知识产权局申请公开号cn103593676a)它利用半监督稀疏鉴别嵌入算法对高光谱遥感影像进行维数约减并采用流行学习进行特征提取不仅仅考虑了高光谱具有复杂的非线性特性还保持样本间的稀疏重构关系,它充分利用了少量标记样本和大量的无标记样本充分挖掘隐藏在高光谱遥感图像中的丰富的信息和低维流形结构,这种算法有效的提高了地物的分类精度;基于图正则化的半监督高光谱遥感图像分类方法(中华人民共和国知识产权局申请公开号cn102096825a)它是一种很有研究价值的分类方法,它属于非参数化充分表达高光谱数据的流形特性。但是,很多正则化的半监督分类方法对于高光谱数据的可扩展性和泛化性能有所欠缺。因此为了适应高光谱遥感图像维数高、数据量大,但是样本提取十分困难的特性,寻找一种稳健高精度的分类方法是当今急需要解决的问题。

本发明提出的一种基于加权熵的半监督随机森林高光谱遥感影像分类方法,在选取训练样本数10%的情况下进行分类,它通过带有概率输出的基于cart决策树的随机森林,依据投票数的多少初步预测出地物,然后再利用加权熵算法给研究者需要的地物赋予一定的权重,把对于研究者没有参考价值的地物赋予零权重,选择出加权熵值较大的地物加入到训练样本中组成新的训练样本,接着再次进行预测分类,按照以上步骤进行,直到满足迭代停止的条件或者未标记的地物用完为止。这种分类方法经济适用,并且十分适用于高光谱遥感图像的特性,用于大面积的地物密集地区的分类,对于研究者而言具有很高的使用价值。



技术实现要素:

为了解决现有分类技术上的一些不足,本发明提供一种基于加权熵的半监督随机森林高光谱遥感影像分类方法,解决了高光谱遥感影像中空间维度上信息挖掘不充分和分类不平衡以及分类差别较大等问题,有效的提高了分类的精度和效率,为研究者提供了很好得参考价值。

为了实现上面提到的效果,提出了基于加权熵的半监督随机森林高光谱遥感影像分类方法,其包括以下步骤:

第一步,基础建模,首先建议带概率随机数据抽取计算函数模型,然后将高光谱遥感图像数据、训练样本集数据及类别集数据分别录入到带概率随机数据抽取计算函数模型中;

第二步,高光谱遥感图像数据信息分析,完成第一步后,依靠训练样本集和分类类别集,使用带概率输出的随机森林的方法计算出判断出投票数最多的地物类别所对应的期望值,并初步判断出高光谱遥感图像中各像元所代表的类别的发生概率,并对各类别进行初步判断;

第三步,评定输出结果,对第二步后,第二步运算得到的类别的发生概率输出分类结果并进行精度评定,若为第一次迭代则进行下面的步骤,否则与上一次输出结果进行比较,若二者的差值大于给定的阈值则继续进行下面的步骤,若是小于给定的阈值就把最终结果输出;

第四步,不确定性转换,利用基于投票概率的加权熵算法并依据满足研究者需求不同对地物赋予不同的权重,将第三步评定得到的概率评定结果转化为不确定性;

第五步,补漏计算,完成第四步后,依据不确定性把高光谱影像中未标记标签像元转换为标记标签像元,然后将新的标记标签加入到第一步中的训练集中,并返回到第四步中,迭代运行直到满足终止要求为止或者未标记训练样本用完为止。

进一步的,所述的第一步中,高光谱遥感图像数据为卫星高光谱遥感图像及无人机高光谱遥感图中的任意一种或两种共用,训练样本集为经过先验知识获得的训练样本,是基于步骤所输入的高光谱遥感图像选出来训练样本;类别集为通过先验知识获得的类别集,即最终的分类数目,是基于步骤所输入的高光谱遥感图像初步预测出来的类别集。

进一步的,所述的第二步中,依靠训练样本集和分类类别集,使用带有概率输出的随机森林的方法计算出高光谱遥感图像中各像元所代表的类别的概率方法。使用的带有概率输出的随机森林是基于cart决策树算法的分类方法。由于随机森林是由一系列cart决策树组合而成的,并由决策树进行投票,其使用的属性度量标准是gino指标;gino指标具体公式如下:

公式(1)中pi是类别ci在d中出现的概率,gino指标值越小,表明样本的“纯净度”就越高。在只有二元分裂时,对于训练样本数据集d中的属性a将分成d1和d2,则给定划分d的gini指标如下公式所示:

对于离散值属性,在算法中递归的选择该属性产生最小的gini指标的子集作为它的分裂子集;

对于连续值属性,必须考虑所有可能的分裂点,其决策类似于id3中介绍的信息增益处理方法,其公式:

选定给定的连续属性值产生最小的gini指标的点作为改属性的分裂点。在cart构建的时候,不管决策树中的节点是否被划分,都给每一个节点t标记上相应的类,使用不等式作为判别划分标准:

若对于除节点i以外的所有类cj都成立,则将节点t标记为类;其中p(i)表示类ci的先验概率,nit是节点t的样本中ci类的数量,pc(j/i)表示将节点i错分为cj类的代价,这可通过查找决策树矩阵找到;

由带有概率输出的半监督分类随机森林模型结果变量的概率公式x表示某一像元的,dn表示类别集;c求解公式如式(2)所示:

估计系数c是通过最大似然估计的法求解。

进一步的,所述的第二步中,计算出的各像元类别概率输出各像元对应的类别是指:

进一步的,所述的第三步中输出分类结果并进行精度评定,若为第一次迭代则进行下面的步骤,否则与上一次输出结果进行比较,若二者的差值大于给定的阈值则继续进行下面的步骤,若是小于给定的阈值就把最终结果输出。

进一步的,所述的第四步中,利用基于投票概率的加权熵算法并依据满足研究者需求不同对地物赋予不同的权重,将概率转化为不确定性对遥感图像中各像元的概率转换为不确定性公式是指:

所用的加权熵算法的功能考虑了人们对信息的关注程度和事件的发生对人们产生的影响。在计算高光谱图像数据像元的加权熵值时,会出现极大值的情况,为了保证实验结果的准确性,采用了归一化处理,如公式(7)所示:

进一步的,所述的第五步中,利用基于投票概率的加权熵理论并依据满足研究者需求不同对地物赋予不同的权重,将概率转化为不确定性;依据不确定性把高光谱影像中未标记标签像元转换为标记标签像元;然而不确定性越大其包含的信息越丰富,故将加权熵最大的像元计入训练集中构成新的训练集进行迭代处理,迭代运行直到满足终止要求为止或者未标记训练样本用完为止。

本发明的有益效果:充分利用高光谱遥感图像中仅能获取的少量训练样本和大量未标记的样本进行高光谱图像信息的挖掘,利用带概率随机森林通过决策树按照投票的方式初步确定出地物的类别,之后采用加权熵算法筛选出满足研究者需求的很难提取出来的地物类别,选取加权熵最大的像元添加到训练样本中,在进行迭代处理,直到满足截止条件为止或者未标记的样本已经用完的时候,停止迭代输出分类结果,最终完成地物的分类。

附图说明

下面结合附图和具体实施方式来详细说明本发明;

图1为本发明方法流程图;

图2为本发明数据处理流程;

图3为本发明使用的高光谱遥感原图像、地物光谱图和各个地物对应的类别标示;

图4为本发明中使用的各个算法最终的分类效果图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。

如图1—4所述的基于加权熵的半监督随机森林高光谱遥感影像分类方法,其包括以下步骤:

第一步,基础建模,首先建议带概率随机数据抽取计算函数模型,然后将高光谱遥感图像数据、训练样本集数据及类别集数据分别录入到带概率随机数据抽取计算函数模型中;

第二步,高光谱遥感图像数据信息分析,完成第一步后,依靠训练样本集和分类类别集,使用带概率输出的随机森林的方法计算出判断出投票数最多的地物类别所对应的期望值,并初步判断出高光谱遥感图像中各像元所代表的类别的发生概率,并对各类别进行初步判断;

第三步,评定输出结果,对第二步后,第二步运算得到的类别的发生概率输出分类结果并进行精度评定,若为第一次迭代则进行下面的步骤,否则与上一次输出结果进行比较,若二者的差值大于给定的阈值则继续进行下面的步骤,若是小于给定的阈值就把最终结果输出;

第四步,不确定性转换,利用基于投票概率的加权熵算法并依据满足研究者需求不同对地物赋予不同的权重,将第三步评定得到的概率评定结果转化为不确定性;

第五步,补漏计算,完成第四步后,依据不确定性把高光谱影像中未标记标签像元转换为标记标签像元,然后将新的标记标签加入到第一步中的训练集中,并返回到第四步中,迭代运行直到满足终止要求为止或者未标记训练样本用完为止。

本实施例中,所述的第一步中,高光谱遥感图像数据为卫星高光谱遥感图像及无人机高光谱遥感图中的任意一种或两种共用,训练样本集为经过先验知识获得的训练样本,是基于步骤所输入的高光谱遥感图像选出来训练样本;类别集为通过先验知识获得的类别集,即最终的分类数目,是基于步骤所输入的高光谱遥感图像初步预测出来的类别集。

本实施例中,所述的第二步中,依靠训练样本集和分类类别集,使用带有概率输出的随机森林的方法计算出高光谱遥感图像中各像元所代表的类别的概率方法。使用的带有概率输出的随机森林是基于cart决策树算法的分类方法。由于随机森林是由一系列cart决策树组合而成的,并由决策树进行投票,其使用的属性度量标准是gino指标;gino指标具体公式如下:

公式(1)中pi是类别ci在d中出现的概率,gino指标值越小,表明样本的“纯净度”就越高。在只有二元分裂时,对于训练样本数据集d中的属性a将分成d1和d2,则给定划分d的gini指标如下公式所示:

对于离散值属性,在算法中递归的选择该属性产生最小的gini指标的子集作为它的分裂子集;

对于连续值属性,必须考虑所有可能的分裂点,其决策类似于id3中介绍的信息增益处理方法,其公式:

选定给定的连续属性值产生最小的gini指标的点作为改属性的分裂点。在cart构建的时候,不管决策树中的节点是否被划分,都给每一个节点t标记上相应的类,使用不等式作为判别划分标准:

若对于除节点i以外的所有类cj都成立,则将节点t标记为类;其中p(i)表示类ci的先验概率,nit是节点t的样本中ci类的数量,pc(j/i)表示将节点i错分为cj类的代价,这可通过查找决策树矩阵找到;

由带有概率输出的半监督分类随机森林模型结果变量的概率公式x表示某一像元的,dn表示类别集;c求解公式如式(2)所示:

估计系数c是通过最大似然估计的法求解。

本实施例中,所述的第二步中,计算出的各像元类别概率输出各像元对应的类别是指:

本实施例中,所述的第三步中输出分类结果并进行精度评定,若为第一次迭代则进行下面的步骤,否则与上一次输出结果进行比较,若二者的差值大于给定的阈值则继续进行下面的步骤,若是小于给定的阈值就把最终结果输出。

本实施例中,所述的第四步中,利用基于投票概率的加权熵算法并依据满足研究者需求不同对地物赋予不同的权重,将概率转化为不确定性对遥感图像中各像元的概率转换为不确定性公式是指:

所用的加权熵算法的功能考虑了人们对信息的关注程度和事件的发生对人们产生的影响。在计算高光谱图像数据像元的加权熵值时,会出现极大值的情况,为了保证实验结果的准确性,采用了归一化处理,如公式(7)所示:

本实施例中,所述的第五步中,利用基于投票概率的加权熵理论并依据满足研究者需求不同对地物赋予不同的权重,将概率转化为不确定性;依据不确定性把高光谱影像中未标记标签像元转换为标记标签像元;然而不确定性越大其包含的信息越丰富,故将加权熵最大的像元计入训练集中构成新的训练集进行迭代处理,迭代运行直到满足终止要求为止或者未标记训练样本用完为止。

基于加权熵的半监督随机森林高光谱遥感影像分类方法同上述的具体实施方式的步骤;hyperion成像光谱仪搭载在eo-1卫星平台上,于2000年11月由美国宇航局(nasa)发射升空。其所覆盖的波长范围是400~2500nm,共有220个波段,光谱分辨率是10nm,空间分辨率是30米,扫描方式是推扫式。本文所使用的图像位于中国内蒙古自治区境内,获取时间是2010年8月,由于原始影像图幅较大,为了研究方便裁出高529个像素,宽256个像素的一块实验区域,经过大气纠正和几何纠正后,去除信噪比低的波段共选择139个波段来进行分析。根据影像目视判读,影像上的土地覆盖地物主要包括裸地、建筑物、农作物、草地、沙地、水体六种类型。hyperion数据真彩色合成影像如图1所示,各类别训练样本分布如图2所示,6种类别地物的光谱曲线如图3所示。

为证明本方法的准确性和高效性,将本发明基于加权熵的半监督随机森林高光谱遥感影像分类方法分别于经典的机器学习分类算法非监督的k-means算法、监督分类的最大似然分类算法和支持向量机分类(supportvectormachinealgorithm)算法在相同的样本条件下进行结果对比。通过观察实验数据的结果得到如下的结论:k-means算法无论在运行时间还是在分类精度方面都稍逊色,并且错分漏分的现象很严重;最大似然分类算法分类精度和反应与实际吻合度的kappa系数都很高,但是运行时间较长;然而支持向量机分类算法分类精度以及吻合度都很高并且运行效率较高,应用于大面积的连续分类效果很好。但是支持向量机分类算法的两个参数c和ó是依据不同数据参数在不断地变化,分类效果不够稳健,它经常需要调节参数来适应对不同地物的敏感度,尤其是低于叫细小的地物,分类效果不是特别好。本文提出来的方法对参数设置不敏感,它给出了所有变量的重要性,这种算法面对在数据缺失和不平衡时候仍旧比较稳健,可以预测多达几千种解释变量并且通过产生大量的分类树建立自变量与因变量的关系,这可以成功得计算出变量非线性作用和交互作用,即使在干扰性比较大的情况下,也不易产生过度拟合。图3(a)是k-means算法的结果图,图3(b)是最大似然分类算法的结果图。表1列出了各种不同分类方法在本实验的最终分类精度。

本文提出来的算法能够在仅仅获取少量训练样本的情况下,充分利用少量标记样本与大量未标记样本建立自训练机器学习分类模型来挖掘隐藏在高光谱遥感图像中的大量有用信息,为科学研究和地物识别以及地物覆盖率的计算提供了很好的参考值。与其他分类算法相比,既提高了分类的精度也大大缩短的运行的时间,同时也解决了分类过程中遇见的分类差别大以及分类不均衡的问题,在面对数据缺失时也能很好的预测出地物的类别。

由于高光谱遥感图像包含有大量的光谱维度信息和丰富的空间维度信息,因此越来越广泛得应用于地物翻盖率预测、军事勘察、资源勘测、网络信息传播等领域之中。但是由于现在技术的局限性,对于其光谱维信息的挖掘力度还可以,但对于其空间维度信息的挖掘明显欠缺。如何充分挖掘高光谱遥感图像中隐藏的大量信息是研究的核心问题。然而高光谱遥感图像分类技术是对高光谱遥感图像进行处理的核心技术。本发明提出来的基于加权熵的半监督随机森林高光谱遥感分类方法十分适用于对高光谱遥感图像进行分类,本发明为研究人员提供了参考价值,是一项很有意义的发明。

本发明的有益效果:充分利用高光谱遥感图像中仅能获取的少量训练样本和大量未标记的样本进行高光谱图像信息的挖掘,利用带概率随机森林通过决策树按照投票的方式初步确定出地物的类别,之后采用加权熵算法筛选出满足研究者需求的很难提取出来的地物类别,选取加权熵最大的像元添加到训练样本中,在进行迭代处理,直到满足截止条件为止或者未标记的样本已经用完的时候,停止迭代输出分类结果,最终完成地物的分类。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1