一种基于深度学习的生成式遥感图像压缩方法与流程

文档序号:22254380发布日期:2020-09-18 13:24阅读:128来源:国知局
一种基于深度学习的生成式遥感图像压缩方法与流程

本发明属于遥感图像压缩领域,利用深度学习框架对遥感图像压缩与解压缩处理。



背景技术:

相较于自然图像,遥感图像的光谱维包含了更加丰富的信息,且遥感图像种类繁多,数据量大。利用不同地物所具有的光谱曲线差异,遥感图像被广泛应用于国民经济的各个领域。随着高分遥感成像技术的应用普及,如何有效的压缩由于遥感图像光谱和空间分辨率显著提升所带来的传输和存储数据量激增等挑战是遥感图像应用过程中亟待解决的问题。

新兴的图像处理方法深度学习(deeplearning)通过从大量训练样本中学习目标的特征来完成特定的任务。目前深度学习已经在图像分类、目标检测、行人再识别等多个图像处理的领域取得了重大成就。

目前,现有的深度学习技术多用于普通可见光图像的压缩,而基于深度学习的遥感图像压缩技术还是比较少的。toderici(参考文献todericig,vincentd,johnstonn,etal.fullresolutionimagecompressionwithrecurrentneuralnetworks[j].arxivpreprintarxiv:1608.05148,2016.)等提出了基于长短时记忆网络的、可变比率的图像压缩算法。算法将一张32×32大小的图像输入到网络中,通过减少图像的尺度和调节特征图的个数,实现对图像的压缩,然后通过解码网络实现图像信息的还原。ball(参考文献balléj,laparrav,simoncelliep.end-to-endoptimizedimagecompression[j].arxivpreprintarxiv:1611.01704,2016.)等使用卷积神经网络来实现图像的压缩。网络包含分析变换结构,量化结构和合成变换结构三个部分,这些结构主要由卷积层、图像降采样层、gdn归一化层等组成。li(参考文献lim,zuow,gus,etal.learningconvolutionalnetworksforcontent-weightedimagecompression[j].arxivpreprintarxiv:1703.10553,2017.)等提出了基于图像内容加权的图像压缩技术,此方法针对不同的图像内容使用不同的比特率编码,它在传统自编码器结构的基础上,加入了重要性图概念,通过重要性图来实现不同图像内容的码率控制。但是这些作者提出的方法都是针对可见光图像的压缩,而不是针对遥感图像的压缩。此外,随着超算芯片等相关计算力方案的提升,深度学习模型部署于星上环境的条件日益成熟,如何克服深度模型规模和时间上的壁垒,也是一项重要的议题。

综上所述,目前的遥感图像压缩算法还需要针对不同遥感图像光谱数目存在的巨大差异设计一套较为普适的压缩方案,以自动适应不同光谱数目条件下的遥感图像压缩处理;同时为解决海量遥感图像的快速压缩处理,需要实现更高的率失真压缩算法性能;此外,为满足遥感图像的压缩部署在星上等小型物联网设施上的应用需求,所提出的压缩的算法和模型需要满足部署平台有限的资源规模需求和较少的推理时间需求的限制。



技术实现要素:

为解决上述问题,本发明提供了一种深度学习生成式遥感图像压缩方法,采用“自编码器(auto-encoder)+生成对抗模型(gan)”的模式,通过编码器、量化器、解码器(生成器)和判别器三个部分的处理,完成满足小型物联网部署环境要求的自适应遥感图像压缩处理。

本发明所述的一种深度学习生成式遥感图像压缩方法,所采用的技术方案是:图像张量经过编码器网络压缩处理后,得到原图像的1/128规模的隐藏表征张量,再将隐藏表征张量输入到量化器网络经过预量化和量化处理得到二进制的码流,量化后的二进制码流输入到解码器(生成器)得到重建图像,重建图像再输入判别器网络进行甄别处理,生成器(解码器)与判别器进行有限次博弈(训练),达到纳什均衡状态(网络收敛),实现图像的率失真优化。

所述编码器网络包含为通道自适应模块(channel-adaptor)和下行块(downblock)模块,channel-adaptor是一层保留空间维度的卷积层(kernel-size=3,padding=1),图像张量(b,c,h,w)经过channel-adaptor空间维度(h,w)不变,通道数变为4×max{8,c},其中,b是批处理数量,c为图像通道,h为图像高度,w为图像宽度。上述公式c为具体的通道数。编码器里由m(通常取值为3、4、5)个基于密集网络(densenet)构建的downblock;每个downblock由密集模块(d-denseblock)和下采样模块(downsample)组成;d-denseblock由4个密集单元(d-denseunit)组成,d-denseblock的输出是其中所有d-denseunit在c维度上的拼接之和;d-denseunit依次由gdn(generalizednormalizationtransformation)归一化、leakyrelu激活以及输出c为m的卷积层组成,在本方案中原图像经过编码器实现c/(m×210)倍率的压缩。

所述量化器网络包括预量化和量化处理模块。本方案在量化器网络中引入了基于离散神经网络学习的预量化处理模块,在瓶颈层(bottleneck)将码流(b*c*h*w)映射到嵌入流行空间(c*(b*h*w))中,以kl散度构造的损失函数,学习参数为c的b*h*w维度的类别分布,实现结构的聚簇化。预量化模块的处理都是以矩阵向量运算的方式实现。量化处理模块是将预量化之后的特征图(featuremaps)进行{-1,1}二值化处理得到码流。

所述解码器(生成器)和判别器共同构成生成对抗模型(gan):解码器(生成器)由m(通常取值为3、4、5)个基于密集网络(densenet)构建的上行块(upblock)组成;每个upblock由u-denseblock和上采样upsample(pixel-shuffle)模块组成;u-denseblock由4个u-denseunit组成,u-denseblock的输出是其中所有u-denseunit在c维度上的拼接之和;u-denseunit依次由igdn(inversegeneralizednormalizationtransformation)反归一化、leakyrelu激活以及输出c为m的卷积层组成。判别器网络基本结构为4个栈式连接卷积层,把最后一层卷积层的特征距离作为距离度量。

所述一种深度学习生成式遥感图像压缩方法,模型训练使用的损失函数l如下:

l=(1-msssim)+mse+0.01×psnr+pro_q_diff+gan_loss

msssim表示图像多尺度结构相似度,mse为均方误差,psnr为图像信号峰值信噪比,pro_q_diff为预量化模块的损失,gan_loss为生成对抗损失。

(1)本方案对于光谱数接近自然图像的高分辨率遥感图像乃至高光谱图像都具有较好的性能。对于光谱维度(c)为n的图像张量(c*h*w)在编码之前输入3*3卷积层进行非线性处理输出c为32,高度h和宽度w不变的张量。编码器由m(通常取值为3、4、5)个基于densenet构建的downblock组成;每个downblock由denseblock和downsample模块组成;denseblock由4个denseunit组成,denseblock的输出是其中所有denseunit在c维度上的拼接之和;denseunit依次由gdn(generalizednormalizationtransformation)归一化、leakyrelu激活以及输出c为m的卷积层组成。相应的解码器由m个基于densenet构建的upblock组成;每个upblock由denseblock和upsample模块组成;denseblock层级以下单元和编码器部分一致。

(2)本发明针对遥感图像数据量庞大的特点,设计了低码率压缩的方案。本方案采用“自编码器(auto-encoder)+生成对抗模型(gan)”的范式。由编码器从图像x提取图像特征(featuremap)映射到隐藏空间z,再经过预量化和量化以及熵编码处理,再经过解码器(生成器)重建图像试图通过判别器验证,判别器则试图将重建的图像证伪。判别器-生成器模式的图像压缩框架适合对极端的低码率、低带宽场景。在本方案中原图像经过编码器实现n/(m×210)倍率的压缩,再经过预量化、量化和熵编码得到最终的码流。

(3)本发明针对遥感图像的谱间相关性和空间相关性以及纹理特性,设计了将三者融合的压缩方案。本框架在编码器基于densenet设计,在降维的同时将空间-光谱信息序列重新整合提取特征图(featuremaps),同时利用自注意力机制对特征图(featuremaps)的上下文进行解耦,以抑制噪声和消除冗余信息。同时,本方案在量化模块引入了基于离散神经网络学习的预量化模块,在瓶颈层(bottleneck)将码流(b*c*h*w)映射到嵌入流行空间(c*(b*h*w))中以kl散度构造的损失函数,学习参数为c的b*h*w维度的类别分布,在注意力机制基础上实现结构的聚簇化。

(4)本发明针对深度神经网络模型部署在小型物联网设备上的困难,对网络模型进行了优化,采用densenet单元构造编码器-解码器,编码器和解码器的分别单元之间的跨层连接即实现了信息的高度融合,也大幅提升了模型参数的利用率,与目前常用的同等性能残差神经网络(resnet)单元结构相比,其模型参数规模减少一半。

因此,本发明具有如下优点:适用于任意光谱维度的同源遥感图像进行压缩处理,即网络可直接处理同源数据集中的遥感图像,无须再针对图像光谱维度进行前处理,实现端到端的遥感图像压缩。本框架非常适用于低带宽、低码率条件下遥感图像压缩传输,并且具有优异的图像重建能力。考虑到星上等小型物联网设备环境的限制,本框架针对深度神经网络的规模和运行速度进行了优化,便于面向物联网设备的部署和推广。

附图说明

图1是本发明实施例中的“自编码器(auto-encoder)+生成对抗模型(gan)”范式网络示意图。

图2是本发明实施例中编码器-解码器-预量化-量化-判别器模块结构示意图。

图3是本发明实施例中dense-unit结构示意图。

图4是本发明实施例中denseblock结构示意图。

图5是本发明实施例中densenet编码器结构示意图。

图6是本发明实施例中densenet解码器结构示意图。

图7是本发明实施例中预量化(priming-quantize)原理示意图。

图8是本发明实施例中高分遥感图像在0.104bpp压缩率的重建效果图,其中(a)(c)为原始图像,(b)(d)为重建效果图。

具体实施方式

下面结合实例和附图,讲解具体的压缩流程。

以3×64×64的图像作为训练图像,3×512×512的图像作为测试图像,主要步骤包括:

1.数据集准备和神经网络超参数:

1.1将约8000张高分二号遥感图像进行随机裁剪为尺寸为64×64×3的图像块。

1.2把裁剪好的图像块转换为以batchsize为8的8×64×64×3规格的张量,准备输入网络模型进行训练,全部数据迭代100次,训练使用的损失函数l如下:

l=(1-msssim)+mse+0.01×psnr+pre_q_diff+gan_loss

其中,msssim表示图像多尺度结构相似度,mse为均方误差,psnr为图像信号峰值信噪比(msssim,mse,psnr三者作为编码器网络的损失),pre_q_dif为预量化模块的损失(由于量化处理模块的损失很小,可忽略不计),gan_loss为生成对抗损失(所述解码器(生成器)和判别器共同构成生成对抗模型(gan))。

2.编码:

原始的8×3×64×64的图像张量进入由5个downblock组成编码器网络,downblock之间有递归跳层连接,如附图2所示;downblock由d-denseblock和下采样模块(downsample)组成,如附图5所示;d-denseblock由4个d-dense-unit组成,d-dense-unit之间有顺序的递归跳层连接,d-denseblock通过跳层连接将前面所有的d-dense-unit的输出在通道维度上拼接融合(concatenation),如附图4所示;依次由gdn(generalizednormalizationtransformation)归一化、leakyrelu激活以及卷积层组成,如附图3所示。编码器在下采样过程中将原始图像张量的空间信息逐步转移到谱间维度,利用densenet网络结构特点,将前后文信息串联并整合。针对遥感图像“同谱异物,同物异谱”的特性,这一设计有效的联合提炼空谱的信息,并且去除冗余,实现数据高效压缩。经过编码器处理得到8×24×2×2的隐藏表征张量,与输入原始的8×3×64×64的图像张量相比,实现1/128倍率的压缩。

3.预量化和量化:

3.1预量化(priming-quantize):将编码器网络输出的8×24×2×2规模的隐藏表征张量ze(x)映射到隐藏的嵌入空间e∈rk×d(k=24,d=8×2×2)中。d为嵌入空间向量ej∈rd的维度,k是向量ej∈rd类别数量。ze(x)遵循参数为k的后验类别分布q(z=k|x),以如下方式独热编码(one-hot):

ze(x)经过网络学习,向最近邻嵌入空间e映射,在rk×d空间中实现离散化归并表示(discretizationclusteringrepresentation)得到zq(x)。如下公式所示:

zq(x)=ek,wherek=argminj||ze(x)-ej||2

ek表示嵌入空间e中的向量。

3.2量化:预量化的输出zq(x)再进行量化计算,为了降低存储空间和传输带宽,

需要将上述类型数据进行{-1,1}二值化处理。

4.解码:

量化得到的码流再输入到解码器中,8×24×2×2张量进入由5个upblock组成解码器网络,如附图1所示;upblock由u-denseblock和上采样模块(pixel-shuffle)组成,如附图6所示;u-denseblock由4个u-dense-unit组成,u-dense-unit之间有顺序的递归跳层连接,u-denseblock通过跳层连接将前面所有的u-dense-unit的输出在通道维度上拼接融合(concatenation),如附图4所示;每个u-dense-unit由batchnormal、gdn激活以及卷积层组成,如附图3所示。解码器在上采样过程中将码流的谱间信息逐步转移到空间维度,得到8×3×64×64规模的张量(tensor),实现图像的重建。

5.解码器(生成器)和判别器处理:

将原图像和重建图像输入到判别器中处理,判别器试图证伪生成器(解码器)生成的图像,输出的gan_loss作为总体损失函数的一部分。在两者不断的迭代博弈中实现图像率失真优化。

本发明网络模型划分为三部分,分为编码器、预量化和量化模块、解码器(生成器)和判别器,因此模型的训练也分为三个阶段。实施阶段将图像(数据)依次输入收敛的以上模型执行,可以实现0.104bpp的压缩率,重建图像ms-ssim为0.976,psnr为29.01的效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1