一种基于注意力和阈值分割的红外与可见光图像融合方法

文档序号:35462921发布日期:2023-09-16 01:43阅读:23来源:国知局
一种基于注意力和阈值分割的红外与可见光图像融合方法

本发明涉及图像融合领域,尤其涉及一种基于注意力和阈值分割的红外与可见光图像融合方法。


背景技术:

1、红外与可见光图像融合是图像融合领域的重要分支。图像融合的本质是结合源图像中最重要的信息,生成一个信息更丰富、视觉效果更好的单一图像。红外成像对目标的探测和识别能力强,不受雨雪、风霜等恶劣环境影响,目标成像清楚、准确度高、抗干扰能力强。但是同时有像素分辨率低、对比度较差、背景纹理模糊等问题。可见光图像符合人眼视觉特征,具有高的分辨率,可以反映丰富的纹理和细节等场景信息。但是可见光图像容易受到环境因素的影响,在受到干扰情况下,可见光图像不能突出场景目标。将红外与可见光传感器获取的图像进行互补融合,融合后的图像既具有红外图像的显著目标信息又具有可见光图像的背景纹理信息。当前,红外和可见光融合技术被广泛地应用于图像增强、目标识别、目标检测、目标跟踪、农业自动化、遥感检测等领域。

2、现有的传统方法通常使用相同的变换或表示从源图像中提取特征,而不考虑红外和可见图像的固有特性;在大多数方法中测量活动水平和融合规则的设计都是手动的,往往会变得更加复杂。与传统的图像融合算法依赖于人为测量并设计融合规则的方法不同,深度学习算法能够在不受人为操作影响的情况下,通过网络的自主学习训练,实现端到端的融合。卷积神经网络方法依靠神经网络强大的拟合能力,在精心设计的损失函数指导下实现有效信息的提取与重构,在图像融合领域具有很大的成功潜力。基于红外与可见光图像融合任务的特殊性,融合图像需要保留源图像的大部分信息,单纯的前向卷积操作难以保留源图像的重要信息,并且语义信息过于抽象会给特征重构带来困难。


技术实现思路

1、本发明所要解决的技术问题是:克服上述相关技术中的缺陷,提供一种基于注意力和阈值分割的红外与可见光图像融合方法,前期通过实验分析合理分配红外与可见光图像的输入比;对两种不同类型的图片特征提取后的不同层级特征进行反向元素级融合,减少信息丢失,并且深层特征接受所有浅层特征元素信息,使图像特征充分提取,在深层级卷积在双流路径中反向传输时利用注意力交互模块进行信息交流并增强;在特征重建阶段应用残差结构减弱梯度消失防止退化现象;最后引入阈值分割对损失函数进行优化,加快融合速度。

2、本发明所采用的技术方案是:一种基于注意力和阈值分割的红外与可见光图像融合方法,包括以下步骤:

3、s1:构建图像融合网络,包括:输入模块、红外路径、可见光路径、通道注意力交互模块、空间注意力交互模块、特征重构模块、阈值分割模块;输入模块的输入为描述同一时刻同一场景的一张红外图像iir与一张可见光图像ivi,输入模块内部,通道维度拼接2张相同红外图像iir和1张对应的可见光图像ivi形成三维图像作为红外路径的输入a,通道维度拼接2张相同可见光图像ivi和1张对应的红外图像iir形成三维图像作为可见光路径的输入b;红外路径和可见光路径分别使用5层的卷积神经网络进行正向特征提取获得特征向量,每层的特征向量包括红外特征向量a和可见光特征向量b,随着网络层数由1至5增加,由第1、2层浅层卷积特征向量逐步形成第4、5层深层卷积特征向量;选取第5层特征向量即红外特征向量a1与可见光特征向量b1作为通道注意力交互模块的输入,随后将通道注意力交互模块的输出a1’与b1’分别和a1与b1以及第4层特征向量进行元素级融合获得a2与b2,对应元素相加且特征形状不变,选取a2与b2作为空间注意力交互模块的输入,随后将空间注意力交互模块的输出a2’与b2’分别和a2与b2以及第2层特征向量进行元素级融合获得最终的红外路径输出与可见光路径输出;红外路径和可见光路径先对深层特征向量进行处理再传输给浅层特征向量即特征向量反向传输;随后对红外路径输出与可见光路径输出进行特征融合,即将两个输出在通道维度上拼接得到特征向量f;随后特征重构模块进行特征重构,即利用卷积神经网络与残差结构对特征向量f进行降维,最后输出一张一维融合图像if;阈值分割模块使用阈值分割红外图像iir获得阈值分割图像ith,围绕融合图像与红外图像、可见光图像、阈值分割图像建立损失函数,控制最终融合图像的输出。

4、s2:利用多对红外图像与可见光图像作为训练集对图像融合网络进行训练,利用训练完毕的图像融合网络进行图像融合,获得融合图像。

5、所述使用5层的卷积神经网络进行正向特征提取获得特征向量,具体为:5层卷积神经网络分别由步长为1的5×5卷积核、3×3卷积核、1×1卷积核、3×3卷积核和1×1卷积核组成,每层卷积神经网络操作都与batch normalization批归一化层和leakyrelu激活函数配合使用;卷积神经网络第1层至第5层的特征向量大小分别h×w×16,h×w×64,h×w×32,h×w×64,h×w×64,其中h和w为特征的第一维高度和第二维宽度,卷积过程中h与w保持不变。

6、所述通道注意力交互模块和空间注意力交互模块都为两输入两输出结构,并且输入与输出的特征维度都保持不变,所述的通道注意力交互模块具体为:首先对通道注意力交互模块的两个输入特征向量a1与b1进行通道维度上的拼接得到特征向量f1,然后对f1进行如下操作:

7、

8、式(1)中fgapc(·)为通道不变的全局平均池化,h、w、c分别指f1的第一维高度、第二维宽度和第三维通道数,inputc表示对输入特征向量f1的通道,即c个通道的空间维度h×w;inputc(i,j)表示每个通道空间维度中的元素点坐标,其中i∈(1,h),j∈(1,w),通过对c个通道空间维度h×w的压缩得到1×1×c维向量gc,再对gc进行如下操作:

9、fc=fc(gc)=σ(w2δ(w1gc))                            (2)

10、式(2)中fc(·)为全连接层操作,为对输入gc赋予注意力权重,σ表示激活函数sigmoid,δ表示激活函数leakyrelu,w1与w2分别为第一个与第二个全连接的权重,两层全连接对gc自适应重新校准,通过第一个全连接层将gc通道数降至原来的1/r,第二个全连接层又将gc通道数升至与a1、b1相同的通道数,最终获取注意力权重参数fc,分别和输入a1与b1相乘,得到通道注意力交互模块两个输出特征向量a1’与b1’,r取8;

11、所述的空间注意力交互模块具体为:首先对空间注意力交互模块的两个输入特征向量a2与b2进行通道维度上的拼接得到特征向量f2,然后对f2进行如下操作:

12、

13、式(3)中fgaps(·)可以描述为空间不变的全局平均池化,h、w、c分别指f2的高度、宽度和通道数,inputh,w表示对于输入特征向量f2的空间维度而言,即空间维度h×w的c个通道,inputh,w(k)表示空间维度h×w第k个通道,其中k∈(1,c),通过对h×w中每个元素的c个通道取平均得到1个h×w维元素gs,再对gs进行以下操作:

14、fs=f7×7(gs)                                (4)

15、式(4)中f7×7(·)代表卷积核为7×7的卷积操作,最后经过sigmoid激活获得fs,分别与输入a2和b2相乘,得到空间注意力交互模块两个输出特征向量a2’与b2’。

16、所述特征重构模块进行特征重构是指利用卷积神经网络与残差结构对特征向量f进行特征重构,先利用步长为1的3×3卷积核与1×1卷积核对特征向量f进行卷积操作,然后利用步长为1的1×1卷积核作为跳跃层对特征向量f进行卷积操作,最终得到一张h×w×1的融合图像。

17、所述阈值分割模块使用阈值分割红外图像iir获得阈值分割图像ith方法如下式:

18、

19、式(5)中f(i,j)为红外图像iir像素点的像素值,thresh表示阈值,取整张图像像素平均值;该式表示若某像素点的像素值大于阈值,则像素值不变,反之赋予0。

20、所述损失函数包括总损失ltotal如下:

21、ltotal=lcontent+lgradient                              (6)

22、式(6)中ltotal为总损失,lcontent为内容损失,lgradient为梯度损失。

23、所述内容损失lcontent如下:

24、

25、式(7)中,||·||2指l2范数,ifusion为融合图像,iir、ivi和ith分别是红外图像、可见光图像和对应红外阈值分割图像,h和w分别是图像的高度和宽度,a1、a2和b为常数,a1<a2。

26、所述梯度损失lgradient如下:

27、

28、式(8)中,||·||2指l2范数,表示梯度算符,和分别是融合图像、红外图像和可见光图像的梯度形式,h和w分别是图像的高度和宽度,α和β为常数。

29、本发明的有益效果是:(1)在融合网络中采取特征元素级融合,即对不同特征向量进行对应元素相加,融合过程特征向量的维度保持不变。浅层网络特征向量和输入比较近,包含一些细粒度的信息,包括图像的纹理、边缘、棱角信息,特征元素级相加能将这些细粒度信息添加到特征向量中,特征向量每一维下的信息量增加,这显然会使得每张图片的语义信息更加丰富,从而丰富了最终融合图像的细节信息,对最终的图像描述是有益的。(2)两种不同的注意力交互模块,通道注意力交互模块与空间注意力交互模块,更好地提取图像特征,提升保留重要特征信息的能力,增强两条路径之间的信息流动性,经过通道注意力交互后,使得模型关注图像全局信息量最大的通道特征,而抑制不重要的通道特征。利用空间注意力交互模块对特征空间层面上进行注意力分配,减少噪声,保留融合图像所需要的信息。(3)引入阈值分割图像优化损失函数,阈值分割图像可以保留显著的红外目标,抑制非红外信息的干扰,提升红外目标的信息保留度,增强红外信息与可见光信息的对比度,加快损失下降过程,提高训练速度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1