一种改进的基于无监督表征学习的遥感图像场景分类方法与流程

文档序号:21547863发布日期:2020-07-17 17:59阅读:360来源:国知局
一种改进的基于无监督表征学习的遥感图像场景分类方法与流程

本发明属于遥感图像智能分类领域。具体涉及一种基于无监督表征学习的遥感图像场景分类方法,可以根骨不带标签的样本,生成高质量的假样本作为数据扩充,然后实现高性能的分类任务。



背景技术:

遥感图像场景分类是航空和卫星图像分析领域的一个活跃的研究课题,它是根据图像内容将场景图像分类为一组离散的有意义的土地使用和土地利用(lulc)类。遥感图像场景分类是遥感图像分析解译的重要手段,在灾情监测、交通监管等军事和民用领域均有重要应用价值。场景分类的核心是遥感图像特征提取,如传统的k-means、支持向量机等分类方法。很多高分辨率遥感图像场景分类方法将以手工特征进行编码,以此作为图像的特征表示,比如bovw模型(bagofvisualwords)。

近年来,深度学习作为模式识别中新的智能方法,成为机器学习领域研究的热点,在图像、音频、文字识别与分类中得到了广泛应用。场景分类的结果通常取决于从图像中提取的特征,但目前最热门的深度学习方法往往存在着许多局限性,如深度卷积神经网络能够提取有效特征的前提条件是需要大量的带标签训练样本。然而,对未标记的遥感图像进行标注代价太大。为了解决这个问题,部分学者提出了一些无监督的深度学习模型,从大规模无标记数据集中学习到可重复使用的特征。无监督特征学习在机器视觉中已经取得了广泛的应用,例如限制玻尔兹曼机(rbm)、稀疏自动编码器(sae)和深度信念网络(dbn)等。然而,由于遥感图像场景中的复杂地物类型(如密集居民区、工业区等)和类间相似性(如教堂和体育场、公路和停车场等)等因素,他们对遥感图像的识别准确性并不令人满意。

goodfellow等人提出的生成对抗网络(gan)是一种很有前途的无监督学习方法,它是由一个生成器g和鉴别器d组成,生成模型g通过随机噪声(一维序列)生成假样本尽力混淆d模型的鉴定,而鉴别模型d主要学习数据来源到底是来自真实的数据还是生成数据。gans是一种以无监督学习的方法,可以帮助解决带标签训练集样本少的问题,模型训练时不需要对隐变量做推断,生成器的参数更新不是直接来自数据样本,而是来自鉴别器的反向传播。为了使gans更适用于图像领域,radford等人提出了一种结合了生成对抗网络和深度卷积神经网络的深度卷积生成对抗网络模型(dcgan)。该模型能够很好地学习到图像的特征表示,然后生成出高质量的图像。很多基于dcgan的模型也都被证实了其的优越性,比如cgan、wgan等。但目前对gans的研究主要集中在小尺度图像的生成上(比如64×64),但对高质量、高分辨率遥感图像的研究甚少。对比其他图像数据集比如mnist、lusn等,遥感图像面积覆盖更广,分辨率更高,地物更加复杂。因此xu等学者将微调的dcgans模型用于遥感图像场景分类,增加辅助分类器来进行监督分类,在低样本率的情况下取得了较高的精度。lin等学者首次将gans模型与遥感图像场景分类结合在一起,提出了martagans模型来进行无监督表征学习,在ucmerced数据集上取得了很好的效果。但以上学者的模型存在生成出来的假样本质量低、在多类别的数据集上效果不好,适用性差等问题。而且传统的gans网络也存在着训练困难、生成器和鉴别器的损失率无法指示训练过程、生成的样本缺乏多样性等问题,使得生成出来的遥感图像出现破碎斑块,甚至退化成噪声点等情况。



技术实现要素:

本发明旨在解决上述现有研究中所存在的问题,本发明提出一种更加高效的改进的基于无监督表征学习的遥感图像场景分类方法,用以从无监督表征学习的角度来实现复杂的遥感图像,并生成高质量的样本扩充。

鉴于此,为了实现上述目的,本发明采用的技术方案是,一种改进的基于无监督表征学习的遥感图像场景分类方法,包括以下步骤:

根据需求选取遥感图像场景数据集,该方法适用于各类遥感图像场景数据集;

对数据集中的遥感图像进行预处理,获得真实遥感图像的数据分布x;

初始化模型的参数,所述模型包括生成器和鉴别器;包括尺寸大小的限定,模型中生成器和鉴别器的输入大小为256×256,其他超参数如指数衰减率β1设置为0.5,衰减系数β2设置为0.9;

将一个随机噪声z输入生成器,随后该噪声在构成生成器的反卷积神经网络中映射得到一个新的数据分布g(z);

将真实遥感图像的数据分布x与g(z)共同输入到鉴别器中,鉴别器对输入的两个数据分别做出判断,输出一个概率值;真实数据的概率值接近于1,生成数据的概率值接近于0,则说明此时生成器生成的数据置信度不高,鉴别器会将生成数据中需要调整的参数反馈给生成器,生成器在接受到调整的梯度信号后进行调整重新生成;

通过最大池化操作将鉴别器的倒数三层神经网络的特征映射图连接在一起作为一个多特征融合层,提取遥感图像特征信息中隐藏的复杂空间、纹理特性等;

由多特征融合层中提取到的遥感图像特征信息,输入到一个由全连接网络构成的多层感知机分类器(mlpclassifier),实现分类。

进一步,所述多特征融合层还将特征匹配损失和鉴别器判断样本是否来自真实样本的真假损失反馈给生成器,使生成器能够生成接近真实样本图像的假样本图像。

本发明的优点和有益效果如下:

目前大多数的场景分类算法都是基于卷积神经网络模型,一般通过改变模型结构、参数和分类器等方式提取更抽象的特征信息。本发明则使用了生成对抗网络和卷积神经网络结合的方法,提出了一种新的基于wgan-gp(wassersteinganwithgradientpenalty)模型的无监督特征学习模型,该模型引入了wasserstein距离代替了原本的jensen–shannondivergence(js)距离来衡量生成样本分布和真实样本分布之间的距离,使其能够在两个样本图像的分布没有重叠的情况下依然能很好地表示样本之间的差异。具体通过生成器和鉴别器的loss不取log,每次更新鉴别器的参数之后把它们的绝对值截断到不超过一个固定常数c等手段优化了原始生成对抗网络(gans)模型的目标函数,结构更加稳定,能够生成出清晰而多样的高分辨率遥感图像。在鉴别器后面将倒数三层通过最大池化等操作连接在一起作为多特征层,该层融合了高级、中级信息,能够最大限度地提取遥感图像中隐藏的复杂空间、纹理特性。本发明设计的多特征层除了为分类器提供特征信息外,也为生成器反馈特征匹配损失和真假图像损失率,使生成器能够生成接近真实样本图像的假样本图像,这样达到样本扩充的目的,实现样本增强。

通过鉴别器的卷积神经网络和多特征层的特征融合步骤,可以使生成器生成更加逼近真实样本分布的假样本图像,也能提取出更加抽象的深层次特征信息,该信息能以张量的形式保存出来,为后续的分类器训练提供支持。在最后,本发明使用由全连接网络构成的多层感知机分类器(mlpclassifier)来实现分类功能。该分类器结构简单,能够实现多类别的特征训练和分类操作。通过在ucmerced、aid和nwpu-resisc45这三个数据集上的实验,本发明的模型比其他无监督生成模型(比如martagans等)能够生成更加清晰而多样的图像,分类性能也更高,尤其是在多类别复杂的数据集上,无监督表征学习更加高效。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明提供的一种改进的基于无监督表征学习的遥感图像场景分类方法的流程图;

图2为本发明模型中生成器的网络结构图;

图3为本发明模型中鉴别器和分类器的网络结构图。

具体实施方式

下面将结合本发明实施案例中的附图,对本发明实施案例中的技术方案进行、清楚的描述。所描述的实例仅是本发明的一部分实施案例。

本发明面向遥感图像场景分类的相关研究,基于无监督表征学习和生成对抗网络来实现样本的扩充和特征的提取。使用ucmerced、aid和nwpu-resisc45这三个数据集来实验和验证,借助pytorch平台来实现代码和操作流程,采用ubuntu16.04操作系统,实验配置为一个3.70ghz8-corei7-8700k的cpu和nvidiagtx1080的gpu。本发明提出了一种新的基于wgan-gp模型的无监督特征学习模型(如图1所示),该模型优化了原始生成对抗网络模型的目标函数,结构更加稳定,能够生成出清晰而多样的高分辨率遥感图像。本发明在鉴别器后面通过最大池化操作将鉴别器的倒数三层神经网络的特征映射图连接在一起作为多特征层,该层融合了高级、中级信息,能够最大限度地提取遥感图像中隐藏的复杂空间、纹理特性。多特征层除了为分类器提供特征信息外,也为生成器反馈特征匹配损失和真假图像损失率,使生成器能够生成接近真实样本图像的假样本图像。本发明使用由全连接网络构成的多层感知机分类器来实现分类功能。通过在三个数据集上的实验,本发明的模型比其他无监督生成模型能够生成更加清晰而多样的图像,分类性能也更高。

本发明的图1示出了本发明的方法流程图,下面分别介绍一下整个算法的训练流程和模型中生成器、鉴别器和分类器的设计细节:

(1)所有的实验环境都是基于pytorch平台,训练模型时的batchsize为64,一共训练300个epoch,在鉴别器中对所有卷积层使用leakyrelu激活函数,在生成器中除了输出层使用了tanh函数外,其它层都使用了relu激活函数。学习率设为0.0002,其他超参数如指数衰减率β1设为0.5,衰减系数β2设为0.9,生成器和鉴别器轮流更新参数,鉴别器每更新两次生成器更新一次,这样可以使模型更加稳定,避免生成器损失崩溃。

(2)其中生成器是从均匀分布中随机抽取的100个随机噪声作为输入向量,然后重塑为一组4-d张量。本发明使用了六次转置卷积操作将随机噪声生成大小为256×256的rgb遥感图像,每一次的转置卷积操作都是一个上采样的过程,反卷积核的大小设为4×4,步长为2。这样设计是为了使内核大小被步长整除时,转置卷积层可以避免不均匀重叠,消除了棋盘格子状的伪影。除了输出层,其他转置卷积层本发明都使用relu激活函数,具体的网络结构如图2所示。

(3)对于鉴别器,本发明输入的是生成器生成的假样本和无标记的真实样本。本发明使用六层卷积层来提取特征和鉴别输入数据是来自生成器的假数据还是真实样本数据,卷积核的大小设为5×5,步长为2。多特征融合层包含倒数三个卷积层的特征信息,本发明分别使用内核为4×4、2×2的最大池化操作来筛选倒数第三和第二个卷积层的特征,然后把它们和最后一个卷积层全部特征图连接起来称作多特征融合层。从而融合了高级、中级信息,能够最大限度地提取遥感图像中隐藏的复杂空间、纹理特性。

(4)首先将一个多维的随机噪声z输入生成器,随后该噪声在构成生成器的神经网络中映射到一个新的数据分布g(z)。生成对抗网络的整体公式可以如下表示:

其中pdata(x)表示真实样本的分布,pz(z)表示随机噪声z生成假样本的分布,在公式右侧第一项保证了鉴别器能够对真实训练图像做出正确判断(输出d(x)接近于1);右侧第二项的目的是使生成的图像g(z)尽可能真实,使鉴别器无法将其与真实图像区分开来。d和g表示的是鉴别器和生成器,表示该公式是通过最小化生成器的期望值,最大化鉴别器的期望值来体现生成器与鉴别器之间的对抗博弈过程,x代表真实样本,z代表随机的多维噪声,d(x)和g(z)分别代表鉴别器接收的是来自真实样本的分布和生成器接收随机噪声输出的假样本的分布,表示的是样本的概率来自真实数据的期望值,表示样本来自生成器的概率的期望值。d(g(z))表示的是鉴别器接收的样本是来自生成器生成的假样本的分布。

生成对抗网络训练过程可以看出:g的参数更新不直接来自于样本,避免了其他生成式模型中以真实样本进行最大似然估计,导致学习到的模型受到限制。理想状态下,生成器最后将生成与真实样本同分布的伪样本,鉴别器的正确率约为0.5,达到纳什均衡,此时生成器和鉴别器都学习到了样本的分布和特征。因此生成器的损失函数可以定义为最小化如下式子:

l(g)wgan=-ez~p(z)[d(z)]

其中d(z)表示的是鉴别器接收的样本是由随机噪声生成的假样本的分布,ez~p(z)[d(z)]代表的是当鉴别器接收的样本是来自生成器随机噪声生成的样本的期望值,l(g)wgan表示生成器的损失函数。

(5)其中生成器是将多维随机噪声通过转置卷积运算生成与真实样本相近的分布,而鉴别器则是一个二分类器,以区分输入的图像是真实样本还是生成的假样本。在分类任务中,本发明将鉴别模型作为特征提取器,然后生成模型提供了额外的训练数据,使鉴别器能够更好地学习图像特征。在训练鉴别器时,固定生成器的权重。所以鉴别器的损失函数为:

其中λ是惩罚系数,表示梯度函数。wgan-gp模型从理论上解决了原始生成对抗网络因为生成器梯度消失而导致训练不稳定的问题,同时也具有强大的稳定性,因此本发明就是用基于wgan-gp的理论模型。

(6)在鉴别器后面通过最大池化操作将鉴别器的倒数三层神经网络的特征映射图连接在一起作为一个多特征融合层,该层融合了高级、中级信息,能够最大限度地提取遥感图像中隐藏的复杂空间、纹理特性。该多特征层除了为分类器提供特征信息外,也为生成器反馈特征匹配损失和真假损失率,其中真假损失率是鉴别器损失函数反馈给生成器的一个梯度信号,它的目的是输出一个期望值,判断输入的图像样本是来自真实的样本还是来自生成器生成的假样本,如果真实数据的概率值接近于1,生成数据的概率值接近于0,则说明此时生成器生成的数据置信度不高,鉴别器会将生成数据中需要调整的参数反馈给生成器,生成器在接受到调整的梯度信号后进行调整重新生成。而为了使生成器生成的图像更像真实图像,本发明将鉴别器中的特征匹配层的期望值与原始wgan的生成模型损失函数进行结合。在训练生成器的时候增加了特征匹配部分,以匹配鉴别器的多特征层中的特征的预期值。因此特征匹配损失定义如下:

其中f(x)表示鉴别器的多特征层上的激活函数,该公式能够将无标记的真实样本数据中的特征的期望值反馈给生成器,使得生成器能够生成出与无标记真实样本相近的特征图像。原始wgan生成器的损失函数为lwgan=-ez~p(z)[d(z)],因此,本发明的模型最终的生成器损失函数就定义如下:

(7)分类操作主要是通过一个全连接网络构成的多层感知机分类器(mlpclassifier)来实现分类功能。通过在多个数据集上的实验,本发明的模型比其他无监督生成模型(比如martagans等)能够生成更加清晰而多样的图像,分类性能也更高。

以上这些实例应理解为仅用于解释本发明而不用于限制本发明的保护范围。依据本发明所作的各种改动或修改这类等效变化和修饰同样落入本发明权利要求所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1