用于水下视觉导航与建图的图像增强方法、设备及介质

文档序号:37270140发布日期:2024-03-12 20:58阅读:8来源:国知局
用于水下视觉导航与建图的图像增强方法、设备及介质

本技术实施例涉及图像处理,特别涉及一种用于水下视觉导航与建图的图像增强方法、设备及介质。


背景技术:

1、自二十一世纪以来,随着陆地资源的逐渐匮乏,人们把研究的重点放在了海洋资源的开发上,auv(autonomous underwater vehicle,自主水下航行器),可以更好地代替人工实现海底资源勘探、海底考古和海底扫雷等水下作业。auv执行水下任务的前提是具有高精度的导航定位系统,为了实现该功能,国内外科研人员进行了大量相关的研究。惯性导航定位系统、水声定位系统、slam技术(simultaneous localization and mapping,基于视觉的即时定位与地图构建),都为avu水下导航问题提供了解决思路。

2、视觉slam是建立在图像信息上的导航定位系统,图像质量直接影响到整个视觉slam算法能否正常运行。光在水中传播时,由于水对光的选择性吸收,不同波长的光会呈现出不同程度的衰减,再加上水的浑浊度,以及悬浮在水中的有机颗粒,获取到的水下图像往往存在严重的色彩失真,表现出蓝绿色调。此外,水中包含的细小颗粒物对光的散射,还会降低捕获的图像对比度,使其细节变得模糊,加大了特征提取的难度。这对视觉slam算法前端的特征提取部分影响非常大,直接对原始水下图像提取orb特征(oriented fast androtated brief)的话,数量非常少,会导致后续图像帧间的转换矩阵精度下降或无法计算,最终使整个视觉slam算法导航误差变大或无法运行。


技术实现思路

1、本技术实施例的目的在于提供一种用于水下视觉导航与建图的图像增强方法、设备及介质,能够快速改善原始水下图像的质量,提升图像中特征点的数量,满足视觉slam算法对前端特征的要求,保证水下视觉导航与建图可以顺利进行。

2、为解决上述技术问题,本技术的实施例提供了一种用于水下视觉导航与建图的图像增强方法,包括以下步骤:获取若干样本水下图像及其对应的参考图像,生成训练集和验证集;基于所述训练集和预设的损失函数对预构建的生成器和判别器进行训练,得到训练完成的生成器;其中,所述预构建的生成器中设置有混合注意力模块,所述混合注意力模块用于关注并提取包括颜色特征和纹理特征在内的重要特征,所述损失函数包括对抗损失项、l1损失项、色偏损失项和梯度损失项;将所述验证集中的各样本水下图像输入至所述训练完成的生成器中,根据所述训练完成的生成器的输出和所述各样本水下图像对应的参考图像,调整所述训练完成的生成器中的各超参数,得到增强模型;将待增强水下图像输入至所述增强模型中,获得增强后的图像,以进行视觉slam。

3、本技术的实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的用于水下视觉导航与建图的图像增强方法。

4、本技术的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的用于水下视觉导航与建图的图像增强方法。

5、本技术的实施例提供的用于水下视觉导航与建图的图像增强方法、设备及介质,基于生成对抗网络技术,训练生成器和判别器,基于训练出的生成器获得增强模型,考虑到水下图像主要受色彩失真、细节模糊等困扰,本技术在生成器中设置了混合注意力模块,混合注意力模块能够使生成器关注包括颜色特征和纹理特征在内的重要特征,这样训练得到的增强模型也就获得了色彩均衡、细节提取的能力,使用增强模型处理待增强水下图像,便可以快速改善原始水下图像的质量,提升图像中特征点的数量,满足视觉slam算法对前端特征的要求,保证水下视觉导航与建图可以顺利进行。同时,模型训练的过程包括训练和验证两大部分,训练使得模型获得基本的图像增强能力,而验证则可以对模型的超参数进行微调,优化模型的图像增强效果。在训练时,使用包括对抗损失项、l1损失项、色偏损失项和梯度损失项的损失函数,在提升整个模型的训练效率的同时,更加关注色彩信息和纹理信息,使得增强模型对于水下场景有很好的适配度。

6、在一些可选的实施例中,所述样本水下图像和所述待增强水下图像均为rgb图像,所述预构建的生成器由若干个二维卷积块、若干个转置卷积块和若干个混合注意力模块组成,每个所述混合注意力模块均包括一个通道注意力模块和一个空间注意力模块;所述二维卷积块用于对自身的输入特征图进行下采样、提取特征并缩小尺寸;所述转置卷积块用于对自身的输入特征图进行上采样并放大尺寸;所述通道注意力模块用于确定自身的输入特征图的各通道的权重值,使所述生成器关注权重值大的通道的特征;所述空间注意力模块用于根据自身的输入特征图的各通道的平均值,分别将所述各通道的特征划分为重要特征和次要特征,使所述生成器关注所述重要特征。混合注意力模块主要由通道注意力模块和空间注意力模块组成,通道注意力模块负责强化重要的通道特征并抑制次要通道的特征,由于输入图像都是rgb三通道的水下图像,通道注意力也就是色彩注意力,其能够抬升红橙色调,抑制蓝绿色调,有效解决色彩失真问题。空间注意力模块负责使生成器(增强模型)更加关注图像中高纹理的部分,也就能丰富水下图像的细节,有效解决图像模糊的问题。

7、在一些可选的实施例中,所述通道注意力模块通过以下步骤,确定自身的输入特征图的各通道的权重值,使所述生成器关注权重值大的通道的特征:将自身的输入特征图分别通过平均池化层和最大池化层,得到平均特征张量和最大特征张量,再分别乘以第一可学习参数和第二可学习参数,得到第一中间张量和第二中间张量;将所述平均特征张量和所述最大特征张量各自乘以第一预设系数后进行逐元素相加,得到第三中间张量,并对所述第一中间张量、所述第二中间张量和所述第三中间张量进行逐元素相加,得到通道张量;对所述通道张量经第一非线性操作进行降维,再经卷积层进行升维,得到处理后的通道张量;对所述处理后的通道张量进行归一化,得到通道权重张量,并将所述通道权重张量与所述通道注意力模块自身的输入特征图进行逐元素相乘,得到与所述通道注意力模块自身的输入特征图对应的输出特征图。通道注意力模块主要由自适应选择操作、压缩操作和融合操作三部分组成,采用最大池化和平均池化聚合特征图的信息,使两种池化结果拥有不同的权重以得到通道的不同权重,从而使生成器(增强模型)关注权重值大的通道的特征。

8、在一些可选的实施例中,所述对所述通道张量经第一非线性操作进行降维,再经卷积层进行升维,得到处理后的通道张量,通过以下公式实现:

9、

10、其中,φ1(·)表示所述第一非线性操作,由卷积层、bn层和relu激活函数顺序组成,表示输出通道数为d且输入通道数为cin的1×1二维卷积,表示输出通道数为cin且输入通道为d的1×1二维卷积,δ(·)表示所述relu激活函数,fadd表示所述通道张量,fs表示降维后的通道张量,fz表示所述处理后的通道张量;

11、所述对所述处理后的通道张量进行归一化,得到通道权重张量,并将所述通道权重张量与所述通道注意力模块自身的输入特征图进行逐元素相乘,得到与所述通道注意力模块自身的输入特征图对应的输出特征图,通过以下公式实现:

12、

13、其中,x1表示所述通道注意力模块自身的输入特征图,表示所述逐元素相乘,σ(·)表示softmax激活函数,fca表示所述通道权重张量,y1表示所述与所述通道注意力模块自身的输入特征图对应的输出特征图。

14、在一些可选的实施例中,所述空间注意力模块通过以下步骤,根据自身的输入特征图的各通道的平均值,分别将所述各通道的特征划分为重要特征和次要特征,使所述生成器关注所述重要特征:对自身的输入特征图的各通道分别进行自适应平均池化,得到各通道对应的像素值的平均值,对于每一个通道,将所述通道中像素值大于所述平均值的特征确定为重要特征,并将像素值小于或等于所述平均值的特征确定为次要特征;基于各所述重要特征生成与所述空间注意力模块的输入特征图尺寸相同的重要张量,并基于各所述次要特征生成与所述空间注意力模块的输入特征图尺寸相同的次要张量;分别将所述重要张量和所述次要张量与所述空间注意力模块的输入特征图逐像素相乘,得到重要特征图和次要特征图;对所述重要特征图分别进行平均池化和最大池化并进行逐像素相加,得到第一特征图,对所述次要特征图分别进行平均池化和最大池化并进行逐像素相加,得到第二特征图,并对所述第一特征图和所述第二特征图进行共享卷积,得到第四中间张量和第五中间张量;分别对所述第四中间张量和所述第五中间张量进行第二非线性操作,得到第一空间注意张量和第二空间注意张量;将所述第一空间注意张量与所述重要特征图进行逐像素相乘,得到第一空间加权特征图,并将所述第二空间注意张量与所述次要特征图进行逐像素相乘,得到第二空间加权特征图;对所述第一空间加权特征图和所述第二空间加权特征图分别进行逐像素相加,得到与所述空间注意力模块自身的输入特征图对应的输出特征图。空间注意力模块主要由特征分离操作、选取操作和融合操作三部分组成,将每个通道中的特征划分为重要特征和次要特征,然后沿通道维度应用平均池化和最大池化操作,再将两种池化结果经过一系列卷积得到第一空间加权特征图和第二空间特征图,最终得到空间注意力图,在此过程中,生成器(增强模型)得以更加关注重要特征。

15、在一些可选的实施例中,所述对所述重要特征图分别进行平均池化和最大池化并进行逐像素相加,得到第一特征图,对所述次要特征图分别进行平均池化和最大池化并进行逐像素相加,得到第二特征图,并对所述第一特征图和所述第二特征图进行共享卷积,得到第四中间张量和第五中间张量,分别对所述第四中间张量和所述第五中间张量进行第二非线性操作,得到第一空间注意张量和第二空间注意张量,通过以下公式实现:

16、

17、

18、其中,f1表示所述重要特征图,f2表示所述次要特征图,avgpool(·)表示所述平均池化,maxpool(·)表示所述最大池化,表示所述第一特征图,表示所述第二特征图,表示输出通道数为1且输入通道数为1的7×7二维卷积,表示所述第四中间张量,表示所述第五中间张量,φ2(·)表示所述第二非线性操作,由bn层和relu激活函数顺序组成,fsa1表示所述第一空间注意张量,fsa2表示所述第二空间注意张量;

19、所述将所述第一空间注意张量与所述重要特征图进行逐像素相乘,得到第一空间加权特征图,并将所述第二空间注意张量与所述次要特征图进行逐像素相乘,得到第二空间加权特征图,对所述第一空间加权特征图和所述第二空间特征图分别进行逐像素相加,得到与所述空间注意力模块自身的输入特征图对应的输出特征图,通过以下公式实现:。

20、

21、其中,fs1表示所述第一空间加权特征图,fs2表示所述第二加权空间特征图,表示所述逐像素相加,表示所述逐元素相乘,y2表示与所述空间注意力模块自身的输入特征图对应的输出特征图。

22、在一些可选的实施例中,所述判别器包括3×3最大池化分支、1×1卷积分支、3×3卷积分支、5×5卷积分支、以及3×3平均池化分支,每个分支后端均设置有一个3×3空洞卷积,不同分支后端设置的3×3空洞卷积的空洞系数不同,各所述3×3空洞卷积后端均连接同一个1×1聚合卷积,所述1×1聚合卷积后端连接一个leaky relu激活函数层;所述3×3最大池化分支、所述1×1卷积分支、所述3×3卷积分支、以及所述5×5卷积分支,用于增加所述判别器对不同尺度的适应度;所述1×1卷积分支还用于限制所述判别器的通道数量;所述3×3平均池化分支用于加强所述判别器对背景特征的学习;不同空洞系数的所述3×3空洞卷积用于扩大扩大感受野;所述1×1聚合卷积用于聚合各所述分支的信息,并将通道数量还原为与所述判别器的输入相同。判别器的主要作用是判别生成器得到的增强图像的真假,感受野的大小可以反映模型对上下文信息的利用率,为了减少不同子区域之间上下文信息的丢失,本技术在判别器中设置了具有多尺度感受野的多样化分支,很好地提升了判别器的判别能力。

23、在一些可选的实施例中,对于所述生成器而言,所述预设的损失函数通过以下公式表示:

24、lg=ladv+λg1l1+λg2lcol+λg3lgra

25、ladv=e(y){log[d(y)]}+e(x){log{1-d[g(x)]}}

26、l1=ex,y[||y-g(x)||1]

27、lcol=dch(y)/m(y)-dch(x)/m(x)

28、

29、其中,lg为对于所述生成器而言的损失函数,λg1、λg2、λg3为预设的损失项权重系数,ladv为所述对抗损失项,l1为所述l1损失项,lcol为所述色偏损失项,lgra为所述梯度损失项,g(·)表示所述生成器,d(·)表示所述判别器,e(·)表示数学期望,||·||1表示l1范数,dch(·)表示平均色差函数,m(·)表示中心距函数,表示水平方向的梯度算子,表示垂直方向的梯度算子。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1