一种基于自注意力机制和GAN的水下图像实时复原模型

文档序号:26142436发布日期:2021-08-03 14:27阅读:212来源:国知局
一种基于自注意力机制和GAN的水下图像实时复原模型

本发明涉及图像处理和深度学习技术领域,更具体的说,本发明面向水下退化图像的复原任务。



背景技术:

近年来,水下机器人被广泛应用于海洋资源探索等方面,水下退化图像的增强和复原技术由于其对于海洋探索开发利用的重要意义而备受关注。海洋环境复杂度多样,多重不利因素如光在水中传输时又会受到水的吸收、反射和散射等影响而发生严重的衰减,采集到的水下图像难免会出现可见范围有限、模糊不清、低对比度、非均匀光照、色彩不协调以及噪声等问题。水下图像增强与复原技术旨在对退化的水下图像进行修复,以期改善原始水下图像的对比度低、颜色失真、细节模糊等问题,以获得更加清晰的水下图像。水下图像的复原方法依赖具体的物理模型,需考虑图像质量下降的根本原因,并使其恢复降质前的状态。那么如何学习一个真实、合理的水下成像模型,受先验知识和假设条件的约束。



技术实现要素:

本发明的目的在于针对图像处理的实时性要求,提出一种基于自注意力机制和gan的水下图像实时复原模型。

本发明的目的是通过以下技术方案来实现的:一种基于自注意力机制和gan的水下图像实时复原模型,包括以下步骤:

1.一种基于自注意力机制和gan的水下图像实时复原模型,其特征在于:具体实现步骤如下:

s1、相关工作:

s1.1、生成对抗网络模型:gan是由生成器和判别器两个网络组成的深度神经网络。生成器和判别器均采用博弈论中零和博弈的思想,其中生成器的目标是学习退化水下图像与清晰水下图像间的映射关系,以生成高质量的清晰水下图像;判别器的目标是使网络学会区分生成的虚假图像和真实的参考图。我们的判别器的任务是双重的,即,第一,保存图像内容;第二,去除水下噪音。在对抗的过程中,两者共同制约,共同进步,使生成模型生成的样本更接近真实样本,从而获得所需样本;

s1.2、:自我注意力模块:自注意力机制计算图像中任意两个像素点之间的关系,以获得图像的全局几何特征。它是一种使内部细节与外部感官保持一致的机制,以提高某些区域的观察精度。自注意力机制是对注意力机制的改进,能够快速提取稀疏矩阵数据的重要特征,并且减少了对外部信息的依赖,能够更好地捕捉数据或特征的内部相关性;

s2、提出的模型和学习:

s2.1、建立模型框架:受gan-rs的启发,本发明提出的架构包括一个生成网络g和一个多分支的判别网络d,而d包含一个对抗分支adversarialbranch和一个批评分支criticbranch。基于正向传播cnn的生成网络g是一种由9个残差块叠加组成的编码器-解码器结构。经过反卷积运算,以原始分辨率生成合成图像。为了同时保持图像内容和去除水下噪声,判别网络d将一组水下原始图像和合成图像作为输入,通过正向传播cnn从两个方面分析图像,然后生成对抗映射和水下索引映射。判别网络d的主干是一层卷积,为了保持图像内容,通过对抗分支识别图像真伪。另一方面,批评分支被精心设计成一种回归,以辨别图像是否属于水下场景。即评估图像中水下特性的强度,促进图像发生器产生无水下噪声的图像;

s2.2、增添自注意力模块:

记自注意力模块输入为前一个隐藏层中的卷积特征图x∈rc×h×w,将其维度变为x∈rc×n,其中c为通道数,n=h×w。首先使用两个1×1卷积对输入x执行wf∈r℃×c和wg∈r℃×c运算后,f(x)=wfx,g(x)=wgx表示将具有不同权重矩阵的图像特征相乘而获得的两个特征空间,其中℃=c/8;将两个张量转换为矩阵形式,然后将f(x)的转置与g(x)相乘得到的结果进行softmax运算,得到注意力图β∈rn×n

βj,i用来表示模型合成区域j的图像内容区域i的相关性,两个位置的特征表示越相似,它们之间的相关性越强。同时,将全局信息和局部信息整合到一起,将x输入到1×1卷积进行线性变换wh∈rc×c得到特征图h(x)=whx,然后将注意力图β和h(x)相乘得到自注意力特征图,记为o=(o1,o2,...,oj,...,on)∈rc×n,并将其形状变为rc×h×w,得到:

最后,得到注意力层的输出为:

yi=γoi+xi

为了兼顾领域信息和远距离特征相关性,引入初始化为0参数γ,并能通过逐步的学习来更新其权重参数,让网络首先关注领域信息,之后再关联到全局其他位置的特征。因此自注意力模块具有关联全局信息,建立长远依赖关系能力;

s3、基于自注意力机制和生成对抗网络:

s3.1、生成网络:为了提高网络的鲁棒性,在网络中加入残差块,经过反卷积运算,以原始分辨率生成合成图像;

s3.2、对抗网络:这两个分支是使用(cbr)单元的堆栈来关注图像特征。作为权衡,我们用4个cbr单位构建对抗分支,而批评分支使用6个单位;

2.在一个优选地实施方式中,所述步骤s2.2在生成器和判别器批评分支引入自注意力模块self-attention。

3.在一个优选地实施方式中,所述步骤s3由于交叉熵在训练过程中可能出现导致梯度消失问题,本发明使用最小二乘形式损失函数:

生成网络输入为原始水下图像x,z为随机采样的噪音,g(x,y)=y表示通过生成网络生成合成图像y,pdata(x,y)和pz(z)分边表示x,y分布和随机噪音z分布,a=1,b=0分别表示真实数据和合成数据的标签。

如果使用传统的单一分支判别网络,gan就会将真实图像作为理想输出,为了进一步提高图像质量,促进判别网络生成去除水下噪音的图像,提出一种新的损失函数来训练批评分支,即水下指数损失lu。

水下指标u:

do、da、db用来区分水下图像和空中图像,al表示l通道的平均值

该模型使用l2范式函数进行学习。

内容感知损失:该损失项可以指导g生成与参考图像内容尽可能形似的合成图像,图像内容函数定义由预先训练vgg-19网络的conv5_2层提取的高级特征。定义如下:

使用多项损失函数进行网络模型的学习,这有利于网络参数的加速收敛,同时可以提高模型的鲁棒性。目标函数通过将对抗损失llsc、水下指数损失lu、内容感知损失lcon进行线性叠加,得到:

其中w为权衡参数,最优模型为d*=argdminld,g*=arggminlg,g和d使用各自的反向传播优化器,可以分别和同时进行训练。

本发明的技术效果和优点:

基于cnn设计的网络架构无法关联全局信息,建立长距离、多层级的依赖关系,尤其是在场景几何结构复杂处、边缘细节和远处物体这些地方易丢失纹理细节的信息,为了提高深度学习对图像细节、边缘轮廓的学习能力,将注意力机制结合到深度网络模型中,在公开数据集uiebd数据集(提供890辐参考图像和相应的高质量参考图像及60幅未提供参考图像的水下图像,场景多样,图像内容具有广泛性,使成对图像能够进行指导图像质量评价和端到端的学习)上展现了所提出的模型和方法的高质量结果。该方法能够自适应地实时改善水下视觉质量,并产生整体优越的恢复性能。

附图说明

图1为本发明生成对抗网络工作原理示意图

图2为本发明基于自注意力机制和gan的框架示意图

具体实施方式

下面结合具体实施方式对本发明一种基于自注意力机制和gan的水下图像实时复原模型作进一步的详述。

本发明提出的基于自注意力机制和gan的水下图像实时复原模型引入了自注意力模块,具体实现步骤如下:

s1、相关工作:

s1.1、生成对抗网络模型:gan是由生成器和判别器两个网络组成的深度神经网络。生成器和判别器均采用博弈论中零和博弈的思想,其中生成器的目标是学习退化水下图像与清晰水下图像间的映射关系,以生成高质量的清晰水下图像;判别器的目标是使网络学会区分生成的虚假图像和真实的参考图。我们的判别器的任务是双重的,即,第一,保存图像内容;第二,去除水下噪音。在对抗的过程中,两者共同制约,共同进步,使生成模型生成的样本更接近真实样本,从而获得所需样本;

s1.2、:自我注意力模块:自注意力机制计算图像中任意两个像素点之间的关系,以获得图像的全局几何特征。它是一种使内部细节与外部感官保持一致的机制,以提高某些区域的观察精度。自注意力机制是对注意力机制的改进,能够快速提取稀疏矩阵数据的重要特征,并且减少了对外部信息的依赖,能够更好地捕捉数据或特征的内部相关性;

s2、提出的模型和学习:

s2.1、建立模型框架:受gan-rs的启发,本发明提出的架构包括一个生成网络g和一个多分支的判别网络d,而d包含一个对抗分支adversarialbranch和一个批评分支criticbranch。基于正向传播cnn的生成网络g是一种由9个残差块叠加组成的编码器-解码器结构。经过反卷积运算,以原始分辨率生成合成图像。为了同时保持图像内容和去除水下噪声,判别网络d将一组水下原始图像和合成图像作为输入,通过正向传播cnn从两个方面分析图像,然后生成对抗映射和水下索引映射。判别网络d的主干是一层卷积,为了保持图像内容,通过对抗分支识别图像真伪。另一方面,批评分支被精心设计成一种回归,以辨别图像是否属于水下场景。即评估图像中水下特性的强度,促进图像发生器产生无水下噪声的图像;

s2.2、增添自注意力模块:基于cnn设计的网络架构无法关联全局信息,建立长距离、多层级的依赖关系,尤其是在场景几何结构复杂处、边缘细节和远处物体这些地方易丢失纹理细节的信息,为了提高深度学习对图像细节、边缘轮廓的学习能力,将注意力机制结合到深度网络模型中,在公开数据集uiebd数据集(提供890辐参考图像和相应的高质量参考图像及60幅未提供参考图像的水下图像,场景多样,图像内容具有广泛性,使成对图像能够进行指导图像质量评价和端到端的学习)上展现了所提出的模型和方法的高质量结果。该方法能够自适应地实时改善水下视觉质量,并产生整体优越的恢复性能;

记自注意力模块输入为前一个隐藏层中的卷积特征图x∈rc×h×w,将其维度变为x∈rc×n,其中c为通道数,n=h×w。首先使用两个1×1卷积对输入x执行wf∈r℃×c和wg∈r℃×c运算后,f(x)=wfx,g(x)=wgx表示将具有不同权重矩阵的图像特征相乘而获得的两个特征空间,其中℃=c/8;将两个张量转换为矩阵形式,然后将f(x)的转置与g(x)相乘得到的结果进行softmax运算,得到注意力图β∈rn×n

βj,i用来表示模型合成区域j的图像内容区域i的相关性,两个位置的特征表示越相似,它们之间的相关性越强。同时,将全局信息和局部信息整合到一起,将x输入到1×1卷积进行线性变换wh∈rc×c得到特征图h(x)=whx,然后将注意力图β和h(x)相乘得到自注意力特征图,记为o=(o1,o2,...,oj,...,on)∈rc×n,并将其形状变为rc×h×w,得到:

最后,得到注意力层的输出为:

yi=γoi+xi

为了兼顾领域信息和远距离特征相关性,引入初始化为0参数γ,并能通过逐步的学习来更新其权重参数,让网络首先关注领域信息,之后再关联到全局其他位置的特征。因此自注意力模块具有关联全局信息,建立长远依赖关系能力;

s3、基于自注意力机制和生成对抗网络:

s3.1、生成网络:为了提高网络的鲁棒性,在网络中加入残差块,经过反卷积运算,以原始分辨率生成合成图像;

s3.2、对抗网络:这两个分支是使用(cbr)单元的堆栈来关注图像特征。作为权衡,我们用4个cbr单位构建对抗分支,而批评分支使用6个单位;

由于交叉熵在训练过程中可能出现导致梯度消失问题,本发明使用最小二乘形式损失函数:

生成网络输入为原始水下图像x,z为随机采样的噪音,g(x,y)=y表示通过生成网络生成合成图像y,pdata(x,y)和pz(z)分边表示x,y分布和随机噪音z分布,a=1,b=0分别表示真实数据和合成数据的标签。

如果使用传统的单一分支判别网络,gan就会将真实图像作为理想输出,为了进一步提高图像质量,促进判别网络生成去除水下噪音的图像,提出一种新的损失函数来训练批评分支,即水下指数损失lu。

水下指标u:

do、da、db用来区分水下图像和空中图像,al表示l通道的平均值

该模型使用l2范式函数进行学习。

内容感知损失:该损失项可以指导g生成与参考图像内容尽可能形似的合成图像,图像内容函数定义由预先训练vgg-19网络的conv5_2层提取的高级特征。定义如下:

使用多项损失函数进行网络模型的学习,这有利于网络参数的加速收敛,同时可以提高模型的鲁棒性。目标函数通过将对抗损失llsc、水下指数损失lu、内容感知损失lcon进行线性叠加,得到:

其中w为权衡参数,最优模型为d*=argdminld,g*=arggminlg,g和d使用各自的反向传播优化器,可以分别和同时进行训练。

实施方式具体为:在公开数据集uiebd数据集(提供890辐参考图像和相应的高质量参考图像及60幅未提供参考图像的水下图像,场景多样,图像内容具有广泛性,使成对图像能够进行指导图像质量评价和端到端的学习)上展现了所提出的模型和方法的高质量结果。该方法能够自适应地实时改善水下视觉质量,并产生整体优越的恢复性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1