彩色可见光与红外图像显著性目标检测方法

文档序号:35712921发布日期:2023-10-12 15:36阅读:43来源:国知局
彩色可见光与红外图像显著性目标检测方法

本发明涉及一种显著物体检测技术,尤其是涉及一种彩色可见光与红外图像显著性目标检测方法。


背景技术:

1、显著性目标检测(salient object detection,sod)旨在捕捉和分割图像或视频中的突出对象。显著性目标检测作为一个重要的预处理步骤,它已被广泛应用于计算机视觉和图像处理任务,如图像分割、对象跟踪、图像检索和图像质量评估等。近年来,卷积/深度神经网络因强大的学习能力和在特征提取方面的优秀表现,将显著性目标检测的性能推向了一个新的高度。然而,当遇到具有挑战性的场景(例如多个物体、杂乱无章的背景、不利的光照条件或透明物体)时,仅使用彩色可见光图像的显著性目标检测会出现性能下降。因此,在显著性目标检测任务中,额外引入其他类型的模态并将其与彩色可见光图像相结合是一种常见的解决方案。

2、具有辅助深度图像的彩色可见光与深度图像显著性目标检测、具有红外图像的彩色可见光与红外图像显著性目标检测已被开发,使用广泛的深度传感器和红外相机作为附加模态信息。深度信息包含丰富的空间结构和3d布局信息,但在一些极端环境(例如,较差的照明和混乱的场景)中为显著性目标检测提供有用的信息是不可靠的。由于红外图像可以反映物体表面的热辐射,因此在这些极端环境下与彩色可见光图像自然互补,近年来对彩色可见光与红外图像显著性目标检测的研究越来越受到关注。

3、当前针对多模态显著性目标检测还存在以下几个问题:

4、第一,如何采取一个合理的多模态特征交互策略来处理两种模态之间的差异?在理想情况下,彩色可见光图像和红外图像都可以提供丰富的几何信息和物体边界。此外,彩色可见光图像可以在良好的光照条件下提供充足的颜色信息,红外图像可以提供物体表面的温度信息,这就导致了这两种模态之间的差异,并且在识别显著性目标的过程中,人们倾向于通过彩色可见光图像而不是红外图像来确定目标的位置。同时,红外图像更有可能提供干扰性信息,从而影响对目标的识别。因此,为了减少干扰性信息的引入并且尽可能利用好两种模态各自的信息,采用不对称的特征交互策略是更为合理的。

5、第二,如何平衡不同模态的内部差距并融合多模态的特征?在特征交互后,由于这些单模态特征除了自身模态的信息外,只携带了来自另一模态的部分判别信息,因此必须研究一种有效的融合策略,充分利用跨模态的互补信息。大多数现有的方法使用线性操作、卷积操作、注意力方法或其他组合方法等简单的手段,未能充分利用两个模态的互补信息。因此,选择和融合不同模态内部有价值的特征对于提高彩色可见光与红外图像显著性目标检测的准确度是十分必要的。


技术实现思路

1、本发明所要解决的技术问题是提供一种彩色可见光与红外图像显著性目标检测方法,其能够有效地提高显著性目标检测的准确度。

2、本发明解决上述技术问题所采用的技术方案为:一种彩色可见光与红外图像显著性目标检测方法,该方法首先构建一个包含数对彩色可见光图像和与其对应的红外图像的训练集,并搭建一个神经网络;其次将训练集中的数对彩色可见光图像和与其对应的红外图像输入到神经网络中进行多轮网络训练,网络训练结束后得到神经网络训练模型;再次使用神经网络训练模型对测试图像对进行预测,预测得到测试图像对的显著性目标图像,其特征在于:所述的神经网络主要由特征提取模块、非对称特征互补模块、特征选择与融合模块、语义增强解码器构成,其中:

3、所述的特征提取模块包括两个resnet50骨干网路;第1个resnet50骨干网络的第一层的输入端接收一幅大小为h×w×3的彩色可见光图像,第1个rsenet50骨干网络的第一层的输出端输出的特征图记为fr1,第1个resnet50骨干网络的第二层的输入端接收fr1,第1个rsenet50骨干网络的第二层的输出端输出的特征图记为fr2,第1个resnet50骨干网络的第三层的输入端接收fr2,第1个rsenet50骨干网络的第三层的输出端输出的特征图记为fr3,第1个resnet50骨干网络的第四层的输入端接收fr3,第1个rsenet50骨干网络的第四层的输出端输出的特征图记为fr4,第1个resnet50骨干网络的第五层的输入端接收fr4,第1个rsenet50骨干网络的第五层的输出端输出的特征图记为fr5;第2个resnet50骨干网络的第一层的输入端接收一幅大小为h×w×3的红外图像,第2个rsenet50骨干网络的第一层的输出端输出的特征图记为ft1,第2个resnet50骨干网络的第二层的输入端接收ft1,第2个rsenet50骨干网络的第二层的输出端输出的特征图记为ft2,第2个resnet50骨干网络的第三层的输入端接收ft2,第2个rsenet50骨干网络的第三层的输出端输出的特征图记为ft3,第2个resnet50骨干网络的第四层的输入端接收ft3,第2个rsenet50骨干网络的第四层的输出端输出的特征图记为ft4,第2个resnet50骨干网络的第五层的输入端接收ft4,第2个rsenet50骨干网络的第五层的输出端输出的特征图记为ft5;其中,resnet50骨干网络共有五层,fr1和ft1的大小为fr2和ft2的大小为fr3和ft3的大小为fr4和ft4的大小为fr5和ft5的大小为

4、所述的非对称特征互补模块由彩色可见光特征互补模块和红外特征互补模块构成;

5、所述的彩色可见光特征互补模块包括结构相同的五个彩色可见光特征互补块;第1个彩色可见光特征互补块的第一输入端接收fr1、第二输入端接收ft1,第1个彩色可见光特征互补块的输出端输出的特征图记为第2个彩色可见光特征互补块的第一输入端接收fr2、第二输入端接收ft2,第2个彩色可见光特征互补块的输出端输出的特征图记为第3个彩色可见光特征互补块的第一输入端接收fr3、第二输入端接收ft3,第3个彩色可见光特征互补块的输出端输出的特征图记为第4个彩色可见光特征互补块的第一输入端接收fr4、第二输入端接收ft4,第4个彩色可见光特征互补块的输出端输出的特征图记为第5个彩色可见光特征互补块的第一输入端接收fr5、第二输入端接收ft5,第5个彩色可见光特征互补块的输出端输出的特征图记为其中,的大小为的大小为的大小为的大小为的大小为

6、所述的红外特征互补模块包括结构相同的五个红外特征互补块;第1个红外特征互补块的第一输入端接收ft1、第二输入端接收fr1,第1个红外特征互补块的输出端输出的特征图记为第2个红外特征互补块的第一输入端接收ft2、第二输入端接收fr2,第2个红外特征互补块的输出端输出的特征图记为第3个红外特征互补块的第一输入端接收ft3、第二输入端接收fr3,第3个红外特征互补块的输出端输出的特征图记为第4个红外特征互补块的第一输入端接收ft4、第二输入端接收fr4,第4个红外特征互补块的输出端输出的特征图记为第5个红外特征互补块的第一输入端接收ft5、第二输入端接收fr5,第5个红外特征互补块的输出端输出的特征图记为其中,的大小为的大小为的大小为的大小为的大小为

7、所述的特征选择与融合模块包括五个结构相同的特征选择与融合块;第1个特征选择与融合块的第一输入端接收第二输入端接收第1个特征选择与融合块的输出端输出的特征图记为第2个特征选择与融合块的第一输入端接收第二输入端接收第2个特征选择与融合块的输出端输出的特征图记为第3个特征选择与融合块的第一输入端接收第二输入端接收第3个特征选择与融合块的输出端输出的特征图记为第4个特征选择与融合块的第一输入端接收第二输入端接收第4个特征选择与融合块的输出端输出的特征图记为第5个特征选择与融合块的第一输入端接收第二输入端接收第5个特征选择与融合块输出的特征图记为其中,的大小为的大小为的大小为的大小为的大小为

8、所述的语义增强解码器包括三个结构相同的语义增强解码块;第1个语义增强解码块的第一输入端接收第二输入端接收第三输入端接收第1个语义增强解码块的输出端输出的特征图记为s1,并将s1作为第1幅粗显著性目标图像;第2个语义增强解码块的第一输入端接收第二输入端接收第三输入端接收第2个语义增强解码块的输出端输出的特征图记为s2,并将s2作为第2幅粗显著性目标图像;第3个语义增强解码块的第一输入端接收第二输入端接收第三输入端接收第3个语义增强解码块的输出端输出的特征图记为s3,并将s3作为第3幅粗显著性目标图像;其中,s1的大小为s2的大小为s3的大小为

9、将第1幅粗显著性目标图像s1、第2幅粗显著性目标图像s2、第3幅粗显著性目标图像s3进行逐元素相加操作并进行上采样操作,将得到的特征图记为sf,并将sf作为最终的显著性目标图像;其中,上采样操作的模式为双线性,sf的大小为h×w×1。

10、训练集的构建过程为:选取至少200对原始彩色可见光图像和与其对应的原始红外图像;然后对每幅原始彩色可见光图像和与其对应的原始红外图像进行降采样操作,将图像大小降采样为h×w;再将所有大小为h×w的彩色可见光图像和与其对应的红外图像构成训练集。

11、神经网络训练模型的获得过程为:将训练集中的每对彩色可见光图像和与其对应的红外图像输入到神经网络中进行网络训练,在每轮网络训练结束之前计算损失函数l来优化神经网络,在总共进行150轮网络训练后得到神经网络训练模型;其中,在网络训练的前40轮中在网络训练的后110轮中sf表示神经网络输出的最终的显著性目标图像,g表示标签图像,sj表示神经网络中得到的第j幅粗显著性目标图像,lbce()表示二元交叉熵损失,liou()表示交并比损失。

12、使用神经网络训练模型对测试图像对进行预测,预测得到测试图像对的显著性目标图像的过程为:任意选取一对原始彩色可见光图像和与其对应的原始红外图像;然后对该对原始彩色可见光图像和原始红外图像进行降采样操作,将图像大小降采样为h×w,并作为测试图像对;再将测试图像对输入到神经网络训练模型中,预测得到测试图像对的显著性目标图像。

13、彩色可见光特征互补块主要由第1个卷积层至第5个卷积层、第1个batchnormalization层至第5个batch normalization层、第1个relu激活层至第5个relu激活层组成;对于第i个彩色可见光特征互补块,第1个卷积层的输入端作为第i个彩色可见光特征互补块的第一输入端接收fri,第1个batch normalization层的输入端接收第1个卷积层的输出端输出的特征图,第1个relu激活层的输入端接收第1个batch normalization层的输出端输出的特征图,第1个relu激活层的输出端输出的特征图记为第2个卷积层的输入端作为第i个彩色可见光特征互补块的第二输入端接收fti,第2个batch normalization层的输入端接收第2个卷积层的输出端输出的特征图,第2个relu激活层的输入端接收第2个batch normalization层的输出端输出的特征图,第2个relu激活层的输出端输出的特征图记为对和进行元素相乘操作,并将得到的特征图记为对和进行元素相减操作,其中作为被减特征,并将得到的特征图记为对和进行通道连接操作,并将得到的特征图记为第3个卷积层的输入端接收第3个batch normalization层的输入端接收第3个卷积层的输出端输出的特征图,第3个relu激活层的输入端接收第3个batch normalization层的输出端输出的特征图,第3个relu激活层的输出端输出的特征图记为对和进行元素相加操作,并将得到的特征图记为第4个卷积层的输入端接收第4个batch normalization层的输入端接收第4个卷积层的输出端输出的特征图,第4个relu激活层的输入端接收第4个batch normalization层的输出端输出的特征图,第4个relu激活层的输出端输出的特征图记为第5个卷积层的输入端接收fri,第5个batch normalization层的输入端接收第5个卷积层的输出端输出的特征图,第5个relu激活层的输入端接收第5个batchnormalization层的输出端输出的特征图,第5个relu激活层的输出端输出的特征图记为对和进行元素相加操作,并将得到的特征图记为即为第i个彩色可见光特征互补块的输出端输出的特征图;其中,1≤i≤5,fri表示第1个resnet50骨干网络的第i层的输出端输出的特征图,fti表示第2个resnet50骨干网络的第i层的输出端输出的特征图,第1个卷积层至第5个卷积层均为2d卷积层,第1个彩色可见光特征互补块中:第1个卷积层和第2个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第3个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第4个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第5个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1;第2个彩色可见光特征互补块中:第1个卷积层和第2个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第3个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第4个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第5个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1;第3个彩色可见光特征互补块中:第1个卷积层和第2个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第3个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第4个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第5个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1;第4个彩色可见光特征互补块中:第1个卷积层和第2个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第3个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第4个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第5个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1;第5个彩色可见光特征互补块中:第1个卷积层和第2个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第3个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第4个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1,第5个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1。

14、红外特征互补块主要由第6个卷积层至第9个卷积层、第6个batch normalization层至第9个batch normalization层、第6个relu激活层至第9个relu激活层、第1个空间注意力层组成;对于第i个红外特征互补块,第6个卷积层的输入端作为第i个红外特征互补块的第一输入端接收fti,第6个batch normalization层的输入端接收第6个卷积层的输出端输出的特征图,第6个relu激活层的输入端接收第6个batch normalization层的输出端输出的特征图,第6个relu激活层的输出端输出的特征图记为第7个卷积层的输入端作为第i个红外特征互补块的第二输入端接收fri,第7个batch normalization层的输入端接收第7个卷积层的输出端输出的特征图,第7个relu激活层的输入端接收第7个batchnormalization层的输出端输出的特征图,第7个relu激活层的输出端输出的特征图记为对和进行元素相乘操作,并将得到的特征图记为对和进行元素相减操作,其中作为被减特征,并将得到的特征图记为对和进行通道连接操作,并将得到的特征图记为第8个卷积层的输入端接收第8个batch normalization层的输入端接收第8个卷积层的输出端输出的特征图,第8个relu激活层的输入端接收第8个batch normalization层的输出端输出的特征图,第8个relu激活层的输出端输出的特征图记为对和进行元素相加操作,并将得到的特征图记为第9个卷积层的输入端接收第9个batch normalization层的输入端接收第9个卷积层的输出端输出的特征图,第9个relu激活层的输入端接收第9个batch normalization层的输出端输出的特征图,第9个relu激活层的输出端输出的特征图记为第1个空间注意力层的输入端接收fri,第1个空间注意力层的输出端输出的特征图记为对和进行元素相乘操作,并将得到的特征图记为即为第i个红外特征互补块的输出端输出的特征图;其中,1≤i≤5,fri表示第1个resnet50骨干网络的第i层的输出端输出的特征图,fti表示第2个resnet50骨干网络的第i层的输出端输出的特征图,第6个卷积层至第9个卷积层均为2d卷积层,第1个红外特征互补块中:第6个卷积层和第7个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第8个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第9个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1;第2个红外特征互补块中:第6个卷积层和第7个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第8个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第9个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1;第3个红外特征互补块中:第6个卷积层和第7个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第8个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第9个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1;第4个红外特征互补块中:第6个卷积层和第7个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第8个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第9个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1;第5个红外特征互补块中:第6个卷积层和第7个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第8个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第9个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1。

15、特征选择与融合块主要由第1个平均池化层、第2个平均池化层、第1个最大池化层、第2个最大池化层、第1个全连接层、第2个全连接层、第1个sigmoid激活层、第2个sigmoid激活层、第10个卷积层至第19个卷积层、第10个batch normalization层至第17个batch normalization层、第10个relu激活层至第12个relu激活层、第1个prelu激活层至第6个prelu激活层组成;对于第i个特征选择与融合块,第1个平均池化层和第1个最大池化层各自的输入端均作为第i个特征选择与融合块的第一输入端接收第1个平均池化层的输出端输出的特征图记为第1个最大池化层的输出端输出的特征图记为第2个平均池化层和第2个最大池化层各自的输入端均作为第i个特征选择与融合块的第二输入端接收第2个最大池化层的输出端输出的特征图记为第2个平均池化层的输出端输出的特征图记为对和进行通道连接操作,并将得到的特征图记为对和进行通道连接操作,并将得到的特征图记为第1个全连接层的输入端接收第1个全连接层的输出端输出的特征图记为第2个全连接层的输入端接收第2个全连接层的输出端输出的特征图记为对和进行元素相加操作,并将得到的特征图作为第1个sigmoid激活层的输入,将对第1个sigmoid激活层的输出端输出的特征图进行通道分割后输出的特征图分别记为和对和进行逐通道相乘操作,并将得到的特征图记为对和进行逐通道相乘操作,并将得到的特征图记为第10个卷积层的输入端接收第10个batch normalization层的输入端接收第10个卷积层的输出端输出的特征图,第1个prelu激活层的输入端接收第10个batch normalization层的输出端输出的特征图,第1个prelu激活层的输出端输出的特征图记为第11个卷积层的输入端接收第11个batchnormalization层的输入端接收第11个卷积层的输出端输出的特征图,第2个prelu激活层的输入端接收第11个batch normalization层的输出端输出的特征图,第2个prelu激活层的输出端输出的特征图记为第12个卷积层的输入端接收第12个batchnormalization层的输入端接收第12个卷积层的输出端输出的特征图,第3个prelu激活层的输入端接收第12个batch normalization层的输出端输出的特征图,第3个prelu激活层的输出端输出的特征图记为第13个卷积层的输入端接收第13个batchnormalization层的输入端接收第13个卷积层的输出端输出的特征图,第4个prelu激活层的输入端接收第13个batch normalization层的输出端输出的特征图,第4个prelu激活层的输出端输出的特征图记为第14个卷积层的输入端接收第14个batchnormalization层的输入端接收第14个卷积层的输出端输出的特征图,第5个prelu激活层的输入端接收第14个batch normalization层的输出端输出的特征图,第5个prelu激活层的输出端输出的特征图记为第15个卷积层的输入端接收第15个batchnormalization层的输入端接收第15个卷积层的输出端输出的特征图,第6个prelu激活层的输入端接收第15个batch normalization层的输出端输出的特征图,第6个prelu激活层的输出端输出的特征图记为对和进行通道连接操作,并将得到的特征图记为对和进行通道连接操作,并将得到的特征图记为第16个卷积层的输入端接收第16个batch normalization层的输入端接收第16个卷积层的输出端输出的特征图,第10个relu激活层的输入端接收第16个batchnormalization层的输出端输出的特征图,第10个relu激活层的输出端输出的特征图记为第17个卷积层的输入端接收第17个batch normalization层的输入端接收第17个卷积层的输出端输出的特征图,第11个relu激活层的输入端接收第17个batchnormalization层的输出端输出的特征图,第11个relu激活层的输出端输出的特征图记为对和进行元素相乘操作,并将得到的特征图记为对和进行元素相减操作,其中作为被减特征,并将得到的特征图记为对和进行元素相减操作,其中作为被减特征,并将得到的特征图记为对进行通道连接操作,并将得到的特征图记为第18个卷积层的输入端接收第12个relu激活层的输入端接收第18个卷积层的输出端输出的特征图,第19个卷积层的输入端接收第12个relu激活层的输出端输出的特征图,第19个卷积层的输出端输出的特征图记为第2个sigmoid激活层的输入端接收第2个sigmoid激活层的输出端输出的特征图进行通道分割后得到的特征图分别记为和对和进行元素相乘操作,并将得到的特征图记为对和进行元素相乘操作,并将得到的特征图记为对和进行元素相加操作,并将得到的特征图记为即为第i个特征选择与融合块的输出端输出的特征图;其中,1≤i≤5,表示第i个红外特征互补块的输出端输出的特征图,表示第i个彩色可见光特征互补块的输出端输出的特征图,第10个卷积层至第19个卷积层均为2d卷积层,第1个特征选择与融合块中:第1个全连接层和第2个全连接层的输入尺寸为1×1×128、中间隐藏层的尺寸为1×1×64、输出尺寸为1×1×128,和的尺寸为1×1×64,第10个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第11个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为2、膨胀率为2,第12个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为4、膨胀率为4,第13个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第14个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为2、膨胀率为2,第15个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为4、膨胀率为4,第16个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第17个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第18个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第19个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,和的尺寸为第2个特征选择与融合块中:第1个全连接层和第2个全连接层的输入尺寸为1×1×512、中间隐藏层的尺寸为1×1×256、输出尺寸为1×1×512,和的尺寸为1×1×256,第10个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第11个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为2、膨胀率为2,第12个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为4、膨胀率为4,第13个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第14个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为2、膨胀率为2,第15个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为4、膨胀率为4,第16个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第17个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第18个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第19个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,和的尺寸为第3个特征选择与融合块中:第1个全连接层和第2个全连接层的输入尺寸为1×1×128、中间隐藏层的尺寸为1×1×64、输出尺寸为1×1×128,和的尺寸为1×1×64,第10个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第11个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为2、膨胀率为2,第12个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为4、膨胀率为4,第13个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第14个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为2、膨胀率为2,第15个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为4、膨胀率为4,第16个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第17个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第18个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第19个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、

16、滑动步长为1、自动填充为0、膨胀率为1,和的尺寸为第4个特征选择与融合块中:第1个全连接层和第2个全连接层的输入尺寸为1×1×128、中间隐藏层的尺寸为1×1×64、输出尺寸为1×1×128,和的尺寸为1×1×64,第10个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第11个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为2、膨胀率为2,第12个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为4、膨胀率为4,第13个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第14个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为2、膨胀率为2,第15个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为4、膨胀率为4,第16个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第17个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第18个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第19个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,和的尺寸为第5个特征选择与融合块中:第1个全连接层和第2个全连接层的输入尺寸为1×1×128、中间隐藏层的尺寸为1×1×64、输出尺寸为1×1×128,和的尺寸为1×1×64,第10个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第11个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为2、膨胀率为2,第12个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为4、膨胀率为4,第13个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第14个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为2、膨胀率为2,第15个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为4、膨胀率为4,第16个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第17个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第18个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第19个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,和的尺寸为

17、所述的语义增强解码块主要由第20个卷积层至第29个卷积层、第18个batchnormalization层至第23个batch normalization层、第13个relu激活层至第19个relu激活层、第3个sigmoid激活层、transformer层、第2个空间注意力层、第1个通道注意力层、第2个通道注意力层、第1个上采样层至第3个上采样层组成;对于第j个语义增强解码块,第20个卷积层的输入端作为第j个语义增强解码块的第一输入端接收第18个batchnormalization层的输入端接收第20个卷积层的输出端输出的特征图,第13个relu激活层的输入端接收第18个batch normalization层的输出端输出的特征图,第1个上采样层的输入端接收第13个relu激活层的输出端输出的特征图,第21个卷积层的输入端接收第1个上采样层的输出端输出的特征图,第19个batch normalization层的输入端接收第21个卷积层的输出端输出的特征图,第14个relu激活层的输入端接收第19个batch normalization层的输出端输出的特征图,transformer层的输入端接收第14个relu激活层的输出端输出的特征图,transformer层的输出端输出的特征图记为第2个空间注意力层的输入端接收第2个上采样层的输入端接收第2个空间注意力层的输出端输出的特征图,第2个上采样层的输出端输出的特征图记为第j个语义增强解码块的第二输入端接收对与进行元素相乘操作,并将得到的特征图记为第22个卷积层的输入端接收第20个batch normalization层的输入端接收第22个卷积层的输出端输出的特征图,第15个relu激活层的输入端接收第20个batch normalization层的输出端输出的特征图,第3个上采样层的输入端接收第15个relu激活层的输出端输出的特征图,第23个卷积层的输入端接收第3个上采样层的输出端输出的特征图,第21个batchnormalization层的输入端接收第23个卷积层的输出端输出的特征图,第16个relu激活层的输入端接收第21个batch normalization层的输出端输出的特征图,第16个relu激活层的输出端输出的特征图记为对和进行通道拼接操作,并将得到的特征图记为第1个通道注意力层的输入端接收第24个卷积层的输入端接收第1个通道注意力层的输出端输出的特征图,第25个卷积层的输入端接收第24个卷积层的输出端输出的特征图,第22个batch normalization层的输入端接收第25个卷积层的输出端输出的特征图,第17个relu激活层的输入端接收第22个batch normalization层的输出端输出的特征图,第26个卷积层的输入端接收第17个relu激活层的输出端输出的特征图,第23个batch normalization层的输入端接收第26个卷积层的输出端输出的特征图,第18个relu激活层的输入端接收第23个batch normalization层的输出端输出的特征图,第18个relu激活层的输出端输出的特征图记为第j个语义增强解码块的第一输入端接收对与进行元素相乘操作,并将得到的特征图记为对和进行通道拼接操作,并将得到的特征图记为第2个通道注意力层的输入端接收第27个卷积层的输入端接收第2个通道注意力层的输出端输出的特征图,第27个卷积层的输出端输出的特征图记为第28个卷积层的输入端接收第19个relu激活层的输入端接收第28个卷积层的输出端输出的特征图,第29个卷积层的输入端接收第19个relu激活层的输出端输出的特征图,第3个sigmoid激活层的输入端接收第29个卷积层的输出端输出的特征图,第3个sigmoid激活层的输出端输出的特征图记为sj,sj即为第j个语义增强解码块的输出端输出的特征图;其中,1≤j≤3,表示第j+2个特征选择与融合块的输出端输出的特征图,第20个卷积层至第29个卷积层均为2d卷积层,第1个语义增强解码块中:第20个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第21个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第22个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第23个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第24个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第25个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第26个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第27个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为0,第28个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第29个卷积层的输入尺寸为

18、输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第1个上采样层的输出特征尺寸固定为通道数不变、模式为双线性插值,第2个上采样层的输出特征尺寸固定为通道数不变、模式为双线性插值,第3个上采样层的输出特征尺寸固定为通道数不变、模式为双线性插值,transformer层的输入尺寸为输出尺寸为第2个语义增强解码块中:第20个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第21个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第22个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第23个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第24个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第25个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第26个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第27个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为0,第28个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第29个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第1个上采样层的输出特征尺寸固定为通道数不变、模式为双线性插值,第2个上采样层的输出特征尺寸固定为通道数不变、模式为双线性插值,第3个上采样层的输出特征尺寸固定为通道数不变、模式为双线性插值,transformer层的输入尺寸为输出尺寸为第3个语义增强解码块中:第20个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第21个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第22个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第23个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第24个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第25个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第26个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为1,第27个卷积层的输入尺寸为输出尺寸为卷积核大小为1×1、滑动步长为1、自动填充为0、膨胀率为0,第28个卷积层的输入尺寸为输出尺寸为卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第29个卷积层的输入尺寸为输出尺寸为

19、卷积核大小为3×3、滑动步长为1、自动填充为1、膨胀率为1,第1个上采样层的输出特征尺寸固定为通道数不变、模式为双线性插值,第2个上采样层的输出特征尺寸固定为通道数不变、模式为双线性插值,第3个上采样层的输出特征尺寸固定为通道数不变、模式为双线性插值,transformer层的输入尺寸为输出尺寸为

20、与现有技术相比,本发明的优点在于:

21、1)本发明方法构建的神经网络采用resnet50骨干网络进行特征提取,从彩色可见光图像、红外图像中提取特征;然后采用非对称特征互补模块,通过非对称策略让不同模态特征之间充分交互;再采用特征选择与融合模块在通道和空间维度上选择并融合有价值的特征;最后采用三个语义增强解码块解码出准确的显著性目标检测结果。

22、2)本发明方法基于两种模态之间的固有差异以及各自的特点,在构建的神经网络中采用了非对称特征互补模块(包括彩色可见光特征互补模块与红外特征互补模块)来让两个模态之间充分交互的同时减少干扰信息的引入,以充分交互多模态互补信息,减小不同模态之间的模态差异,提高彩色可见光与红外图像显著目标检测的准确性。

23、3)本发明方法针对多模态特征难以高质量融合的问题,在构建的神经网络中采用了特征选择与融合模块,该模块可以在通道维度和空间维度上筛选出有价值的特征,并设计了融合策略以实现彩色可见光特征与红外特征的融合来解决不同模态的内部差距的问题,从而有效地提高了彩色可见光与红外图像显著目标检测的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1