基于阶梯状递进神经网络的显著性物体检测方法

文档序号:26142475发布日期:2021-08-03 14:27阅读:100来源:国知局
基于阶梯状递进神经网络的显著性物体检测方法

本发明涉及图像处理技术领域,尤其是涉及一种基于阶梯状递进神经网络的显著性物体检测方法。



背景技术:

显著性检测的目的是检测出一个场景中最吸引人类注意力的物体,在视觉追踪、图像分割等很多视觉任务上有广泛的应用;目前大多方法重点考虑从rgb图像或者rgb-d图像中预测显著物体,这严重依赖于光照条件、天气情况以及深度图的质量,而红外图像可以很好地弥补光照不足等问题,捕捉到更多可见光图像所缺失的信息;红外光谱图提供了场景三维的空间关系,可以有效地辅助显著性物体检测算法避免由前景和背景颜色带来歧义;因此越来越多工作开始研究如何更好地借助光谱图来进行显著性物体检测任务,即rgb-t显著性物体检测。

之前的rgb-d显著性物体的方法,常常使用深度对比度作为重要的先验;这些方法实际上是利用深度信息将注意力关注于前景区域;但是,深度图的质量也因此变得十分重要,往往会影响网络最后的预测结果。前景和背景的分布存在巨大差异,无差别地从其中学习显著性的线索较为困难;传统方法中有一些方法提出分别从前景和背景推理显著性区域的策略,但是在基于深度学习的方法中,这个朴素而有效的思想并未被重视,借助光谱图来进行显著性物体检测任务可以有效的解决深度图质量差所带来的问题。



技术实现要素:

本发明所要解决的技术问题是提供一种基于阶梯状递进神经网络的显著性物体检测方法,其检测速度快,准确率高。

本发明解决上述技术问题所采用的技术方案为:一种基于阶梯状递进神经网络的显著性物体检测方法,其特征在于包括训练阶段和测试阶段两个过程;

所述的训练阶段过程的具体步骤为:

步骤1_1:选取q幅原始的带有显著性物体的各类场景图像及每幅原始的带有显著性物体的各类场景图像对应的显著性物体真实检测图像,由q幅原始的带有显著性物体的各类场景图像及对应的显著性物体真实检测图像构成训练集;

步骤1_2:构建卷积神经网络,卷积神经网络主要由10个基础模块、5个交融模块、多尺度锐化特征模块、金字塔锐化特征模块和4个引导模块组成;

步骤1_3:将训练集中原始的带有显著性物体的各类场景图像作为原始输入图像输入到卷积神经网络中进行训练,得到对应的显著性物体预测图像;

步骤1_4:计算所有显著性物体预测图像组成的图像集与对应的显著性物体真实检测图像组成的图像集之间的损失函数值,当训练次数达到预设次数时,卷积神经网络训练结束,获得训练后的卷积神经网络;

所述的测试阶段过程的具体步骤为:

步骤2_1:选取测试集中的第p组待检测的带有显著性物体的各类场景;

步骤2_2:将第p组待检测的带有显著性物体的各类场景输入到训练后的卷积神经网络中,训练后的卷积神经网络输出对应的显著性物体预测图像。

所述卷积神经网络主要由十个基础模块、五个交融模块、多尺度锐化特征模块、金字塔锐化特征模块和四个引导模块组成,具体为:

第一基础模块、第二基础模块、第三基础模块、第四基础模块和第五基础模块依次连接,第六基础模块、第七基础模块、第八基础模块、第九基础模块和第十基础模块依次连接,卷积神经网络的输入分别输入到第一基础模块和第六基础模块;第一基础模块和第六基础模块的输出同时输入到第一交融模块,第二基础模块和第七基础模块的输出同时输入到第二交融模块,第三基础模块和第八基础模块的输出同时输入到第三交融模块,第四基础模块和第九基础模块的输出同时输入到第四交融模块,第五基础模块和第十基础模块的输出同时输入到第五交融模块,第一交融模块、第二交融模块、第三交融模块和第四交融模块的输出分别输入到多尺度锐化特征模块的第五输入端、第四输入端、第三输入端和第二输入端,第五交融模块的输出经金字塔锐化特征模块后输入到多尺度锐化特征模块的第一输入端;每个引导模块均有两个输入端,多尺度锐化特征模块的第五输出端、第四输出端、第三输出端和第二输出端分别与第四引导模块、第三引导模块、第二引导模块和第一引导模块的第一输入端相连,多尺度锐化特征模块的第一输出端与第一引导模块的第二输入端相连,第一引导模块的输出输入到第二引导模块的第二输入端,第二引导模块的输出输入到第三引导模块的第二输入端,第三引导模块的输出输入到第二引导模块的第二输入端,第四引导模块的输出作为卷积神经网络的输出。

所述多尺度锐化特征模块具体为:

多尺度锐化特征模块包括四个堆叠模块、十个上采样模块和四个特征过滤模块;

多尺度锐化特征模块的第五输入端输入到第四堆叠模块,多尺度锐化特征模块的第四输入端输入到第三堆叠模块,多尺度锐化特征模块的第三输入端输入到第二堆叠模块,多尺度锐化特征模块的第二输入端输入到第一堆叠模块,多尺度锐化特征模块的第一输入端输入到第一上采样模块,第一上采样模块的输出分别输入到第一堆叠模块和第二上采样模块,第二上采样模块的输出分别输入到第二堆叠模块和第三上采样模块,第三上采样模块的输出分别输入到第三堆叠模块和第四上采样模块,第四上采样模块的输出输入到第四堆叠模块;

多尺度锐化特征模块的第二输入端还输入到第五上采样模块,第五上采样模块的输出分别输入到第二堆叠模块和第六上采样模块,第六上采样模块的输出分别输入到第三堆叠模块和第七上采样模块,第七上采样模块的输出输入到第四堆叠模块;

多尺度锐化特征模块的第三输入端还输入到第八上采样模块,第八上采样模块的输出分别输入到第三堆叠模块和第九上采样模块,第九上采样模块的输出输入到第四堆叠模块;多尺度锐化特征模块的第四输入端的输入还输入到第十上采样模块,第十上采样模块的输出输入到第四堆叠模块;

第一上采样模块的输入作为多尺度锐化特征模块的第一输出端,第一堆叠模块的输出经第一特征过滤模块后的输出作为多尺度锐化特征模块的第二输出端,第二堆叠模块的输出经第二特征过滤模块后的输出作为多尺度锐化特征模块的第三输出端,第三堆叠模块的输出经第三特征过滤模块后的输出作为多尺度锐化特征模块的第四输出端,第四堆叠模块的输出经第四特征过滤模块后的输出作为多尺度锐化特征模块的第五输出端。

所述引导模块具体为:引导模块包括第十一上采样模块、三个卷积模块、三个激活模块、第二分割模块和中间模块;

引导模块第一输入端的输入输入到第十一上采样模块,第十一上采样模块依次经第一卷积模块和第一激活模块后与第二分割模块相连,引导模块第一输入端的输入和第二分割模块的输出进行相乘后的输出再与引导模块第一输入端的输入进行相加后输入到第二卷积模块,第二卷积模块的输出输入到第二激活模块,引导模块第一输入端的输入和第二分割模块的输出进行相乘后的输出输入到第三卷积模块,第三卷积模块经第三激活模块后与中间模块相连,第二激活模块的输出与引导模块第二输入端的输入进行相乘后输出第一中间输出,中间模块的输出与引导模块第二输入端的输入进行相乘后输出第二中间输出,第一中间输出、第二中间输出和引导模块第二输入端的输入进行相加后的输出作为引导模块的输出。

所述交融模块具体为:交融模块包括第四卷积模块、第五卷积模块、自适应模块和第四激活模块;

第四卷积模块、第五卷积模块、自适应模块和第四激活模块依次相连,交融模块的输入输入到第四卷积模块,交融模块的输入和第四激活模块的输出进行相乘后的输出再与交融模块的输入进行相加后的输出作为交融模块的输出。

所述金字塔锐化特征模块具体为:金字塔锐化特征模块包括六个卷积模块和第五堆叠模块;

金字塔锐化特征模块的输入分别输入到第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块和第十卷积模块,第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块和第十卷积模块输出均输入到第五堆叠模块,第五堆叠模块与第十一卷积模块相连,第十一卷积模块的输出作为金字塔锐化特征模块的输出。

所述特征过滤模块具体为:

特征过滤模块包括第一卷积模块、第二卷积模块、第一激活模块和第一分割模块;第一卷积模块、第二卷积模块、第一激活模块和第一分割模块依次连接,特征过滤模块的输入输入到第一卷积模块,第一分割模块的输出和特征过滤模块的输入进行相乘后的输出作为特征过滤模块的输出。

与现有技术相比,本发明的有益效果在于:

1)本发明方法构建卷积神经网络,使用训练集中带有显著性物体的各类场景的图像输入到卷积神经网络中进行训练,得到卷积神经网络显著性检测训练模型;再将待检测的各类场景图像输入到卷积神经网络显著性物体检测训练模型中,预测得到各类场景图像对应的显著性物体图像,由于本发明方法在构建卷积神经网络时结合了rgb图像和thermal图像,能够在杂乱的背景和易混淆的前景中更加有效的却确定图像中显著性物体的位置,提高卷积神经网络对物体特征提取的能力,提高网络的对图像中显著性物体检测的准确率,从而可以更好的处理混乱背景对显著性物体图像检测的任务。

2)本发明方法采用特征锐化模块,可以很好的联结低维和高维特征,可以更好的对确定显著性物体的空间位置;采用空洞卷积,提高感受野,更好的提取网络特征。

3)本发明方法在搭建卷积神经网络中的使用了特征引导模块,阶梯状的引导模块通过逐阶级递进更好的去优化显著性物体图像,锐化边界,得到一个更加具体的显著性图像。

附图说明

图1为本发明方法的实现框图;

图2为多尺度锐化特征模块框架;

图3为特征过滤模块框架;

图4为引导模块框架;

图5为交融模块框架;

图6为金字塔锐化特征模块框架;

图7a为第一幅原始的图像;

图7b为利用本发明方法对图7a所示的第一幅原始的图像进行检测,所得到的显著性物体图像;

图8a为第二幅原始的图像;

图8b为利用本发明方法对图8a所示的第二幅原始的图像进行检测,所得到的显著性物体图像;

图9a为第三幅原始的图像;

图9b为利用本发明方法对图9a所示的第三幅原始的图像进行检测,所得到的显著性物体图像。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于阶梯状递进神经网络的显著性物体检测方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;

训练阶段过程的具体步骤为:

步骤1_1:选取q幅原始的带有显著性物体的各类场景图像及每幅原始的带有显著性物体的各类场景图像对应的显著性物体真实检测图像,由q幅原始的带有显著性物体的各类场景图像及对应的显著性物体真实检测图像构成训练集;将训练集中的第q幅原始的带有显著性物体的各类场景图像记为将训练集中与对应的显著性物体真实检测图像记为其中,原始的带有显著性物体的各类场景图像是rgb图像,q为正整数,q≥1000,如取q=2500,q为正整数,1≤q≤q,原始的带有显著性物体的各类场景图像主要由拍摄于不同场景的不同显著性物体的rgb图像及其多光谱图像组成,rgb图像里记录着红绿蓝三个波段的光谱信息,多光谱图像记录着另外三个不同波段的光谱信息,每一个波段的光谱信息相当于一个通道分量,即每幅原始的带有显著性物体的各类场景图像包含rgb图像的r通道分量、g通道分量与b通道分量和多光谱图像的另外三个热红外通道分量(thermal)。

步骤1_2:构建卷积神经网络,卷积神经网络主要由10个基础模块、5个交融模块、多尺度锐化特征模块、金字塔锐化特征模块和4个引导模块组成;

卷积神经网络主要由十个基础模块、五个交融模块、多尺度锐化特征模块、金字塔锐化特征模块和四个引导模块组成,具体为:

如图1所示,第一基础模块、第二基础模块、第三基础模块、第四基础模块和第五基础模块依次连接,第六基础模块、第七基础模块、第八基础模块、第九基础模块和第十基础模块依次连接,卷积神经网络的输入分别输入到第一基础模块和第六基础模块,将每幅原始的带有显著性物体的各类场景图像的rgb图像输入第一基础模块,将每幅原始的带有显著性物体的各类场景图像的多光谱图像输入第六基础模块;第一基础模块和第六基础模块的输出同时输入到第一交融模块,第二基础模块和第七基础模块的输出同时输入到第二交融模块,第三基础模块和第八基础模块的输出同时输入到第三交融模块,第四基础模块和第九基础模块的输出同时输入到第四交融模块,第五基础模块和第十基础模块的输出同时输入到第五交融模块,第一交融模块、第二交融模块、第三交融模块和第四交融模块的输出分别输入到多尺度锐化特征模块的第五输入端、第四输入端、第三输入端和第二输入端,第五交融模块的输出经金字塔锐化特征模块后输入到多尺度锐化特征模块的第一输入端;每个引导模块均有两个输入端,多尺度锐化特征模块的第五输出端、第四输出端、第三输出端和第二输出端分别与第四引导模块、第三引导模块、第二引导模块和第一引导模块的第一输入端相连,多尺度锐化特征模块的第一输出端与第一引导模块的第二输入端相连,第一引导模块的输出输入到第二引导模块的第二输入端,第二引导模块的输出输入到第三引导模块的第二输入端,第三引导模块的输出输入到第二引导模块的第二输入端,第四引导模块的输出作为卷积神经网络的输出。

如图2所示,多尺度锐化特征模块具体为:

多尺度锐化特征模块包括四个堆叠模块、十个上采样模块和四个特征过滤模块;

多尺度锐化特征模块的第五输入端输入到第四堆叠模块,多尺度锐化特征模块的第四输入端输入到第三堆叠模块,多尺度锐化特征模块的第三输入端输入到第二堆叠模块,多尺度锐化特征模块的第二输入端输入到第一堆叠模块,多尺度锐化特征模块的第一输入端输入到第一上采样模块,第一上采样模块的输出分别输入到第一堆叠模块和第二上采样模块,第二上采样模块的输出分别输入到第二堆叠模块和第三上采样模块,第三上采样模块的输出分别输入到第三堆叠模块和第四上采样模块,第四上采样模块的输出输入到第四堆叠模块;

多尺度锐化特征模块的第二输入端还输入到第五上采样模块,第五上采样模块的输出分别输入到第二堆叠模块和第六上采样模块,第六上采样模块的输出分别输入到第三堆叠模块和第七上采样模块,第七上采样模块的输出输入到第四堆叠模块;

多尺度锐化特征模块的第三输入端还输入到第八上采样模块,第八上采样模块的输出分别输入到第三堆叠模块和第九上采样模块,第九上采样模块的输出输入到第四堆叠模块;多尺度锐化特征模块的第四输入端的输入还输入到第十上采样模块,第十上采样模块的输出输入到第四堆叠模块;

第一上采样模块的输入作为多尺度锐化特征模块的第一输出端,第一堆叠模块的输出经第一特征过滤模块后的输出作为多尺度锐化特征模块的第二输出端,第二堆叠模块的输出经第二特征过滤模块后的输出作为多尺度锐化特征模块的第三输出端,第三堆叠模块的输出经第三特征过滤模块后的输出作为多尺度锐化特征模块的第四输出端,第四堆叠模块的输出经第四特征过滤模块后的输出作为多尺度锐化特征模块的第五输出端。

如图4所示,第一引导模块、第二引导模块、第三引导模块和第四引导模块结构相同,引导模块具体为:引导模块包括第十一上采样模块、三个卷积模块、三个激活模块、第二分割模块和中间模块;

引导模块第一输入端的输入输入到第十一上采样模块,第十一上采样模块依次经第一卷积模块和第一激活模块后与第二分割模块相连,引导模块第一输入端的输入和第二分割模块的输出进行相乘后的输出再与引导模块第一输入端的输入进行相加后输入到第二卷积模块,第二卷积模块的输出输入到第二激活模块,引导模块第一输入端的输入和第二分割模块的输出进行相乘后的输出输入到第三卷积模块,第三卷积模块经第三激活模块后与中间模块相连,第二激活模块的输出与引导模块第二输入端的输入进行相乘后输出第一中间输出,中间模块的输出与引导模块第二输入端的输入进行相乘后输出第二中间输出,第一中间输出、第二中间输出和引导模块第二输入端的输入进行相加后的输出作为引导模块的输出。

如图5所示,交融模块具体为:交融模块包括第四卷积模块、第五卷积模块、自适应模块和第四激活模块;

第四卷积模块、第五卷积模块、自适应模块和第四激活模块依次相连,交融模块的输入输入到第四卷积模块,交融模块的输入和第四激活模块的输出进行相乘后的输出再与交融模块的输入进行相加后的输出作为交融模块的输出。

如图6所示,金字塔锐化特征模块具体为:金字塔锐化特征模块包括六个卷积模块和第五堆叠模块;

金字塔锐化特征模块的输入分别输入到第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块和第十卷积模块,第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块和第十卷积模块输出均输入到第五堆叠模块,第五堆叠模块与第十一卷积模块相连,第十一卷积模块的输出作为金字塔锐化特征模块的输出。

如图3所示,特征过滤模块具体为:

特征过滤模块包括第一卷积模块、第二卷积模块、第一激活模块和第一分割模块;第一卷积模块、第二卷积模块、第一激活模块和第一分割模块依次连接,特征过滤模块的输入输入到第一卷积模块,第一分割模块的输出和特征过滤模块的输入进行相乘后的输出作为特征过滤模块的输出。

resnet-34卷积神经网络的5个基础模块的结构分别与本发明的第一基础模块、第二基础模块、第三基础模块、第四基础模块和第五基础模块的结构相同。本发明的第一基础模块和第六基础模块的结构相同,第二基础模块和第七基础模块的结构相同,第三基础模块和第八基础模块的结构相同,第四基础模块和第九基础模块的结构相同,第五基础模块和第十基础模块的结构相同。

对于第一个基础模块。其由依次设置的第1个卷积层、第1个归一化层、第1个激活层;第一个基础模块的输入端接收原始输入图像的rgb三通道分量,要求输入端接收的原始输入图像的宽度为w、高度为h,第一个基础模块的输出端输出64副特征图,将64副特征图构成的集合记为n1;其中,第1个卷积层中的卷积核的大小为3×3、卷积核的个数为64、卷积核的步长为2、卷积层的填充系数为1、卷积层的偏置参数为否,第1个归一化层的输入特征数为64,第1个激活层所采用的激活方式为“relu”,n1中的每幅特征图的宽度为w/2、高度为h/2。

对于第二个基础模块。其由依次设置的第1个下采样层、第1个残差块、第2个残差块、第3个残差块;第二个基础模块的输入端接收n1中的所有特征图,第二个基础模块的输出端输出64副特征图,将64副特征图构成的集合记为n2;其中,第1个下采样层所采用的是最大池化下采样,最大池化下采样的卷积核大小为3×3,最大池化下采样卷积核的步长为2,最大池化下采样卷积核的填充系数为1,偏置参数为否;第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为64,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为64;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为64,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为64;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为64,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为64;n2中的每幅特征图的宽度为w/4、高度为h/4。

对于第三个基础模块。其由依次设置的第1个残差块、第2个残差块、第3个残差块和第4个残差块组成;第三个基础模块的输入端接收n2中的所有特征图,第三个基础模块的输出端输出128副特征图,将128副特征图构成的集合记为n3;其中,第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为2、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为128,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为128;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为128,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为128;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为128,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为128;第4个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为128,第4个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为128;n3中的每幅特征图的宽度为w/8、高度为h/8。

对于第四个基础模块。其由依次设置的第1个残差块、第2个残差块、第3个残差块、第4个残差块、第5个残差块和第6个残差块组成;第四个基础模块的输入端接收n3中的所有特征图,第四个基础模块的输出端输出256副特征图,将256副特征图构成的集合记为n4;其中,第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为2、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为256,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为256;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为256,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为256;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为256,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为256;第4个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第4个残差块中的第一个卷积核的个数为256,第4个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第4个残差块中的第二个卷积核的个数为256;第5个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第5个残差块中的第一个卷积核的个数为256,第5个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第5个残差块中的第二个卷积核的个数为256;第6个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第6个残差块中的第一个卷积核的个数为256,第6个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第6个残差块中的第二个卷积核的个数为256;n4中的每幅特征图的宽度为w/16、高度为h/16。

对于第五个基础模块。其由依次设置的第1个残差块、第2个残差块和第3个残差块组成;第五个基础模块的输入端接收n4中的所有特征图,第五个基础模块的输出端输出512副特征图,将512副特征图构成的集合记为n5;其中,第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为2、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为512,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为512;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为512,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为512;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为512,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为512;n5中的每幅特征图的宽度为w/32、高度为h/32。

对于第六个基础模块。其由依次设置的第1个卷积层、第1个归一化层、第1个激活层;第六个基础模块的输入端接收原始红外图像的三通道分量,要求输入端接收的原始输入图像的宽度为w、高度为h,第一个基础模块的输出端输出64副特征图,将64副特征图构成的集合记为n6;其中,第1个卷积层中的卷积核的大小为3×3、卷积核的个数为64、卷积核的步长为2、卷积层的填充系数为1、卷积层的偏置参数为否,第1个归一化层的输入特征数为64,第1个激活层所采用的激活方式为“relu”,n6中的每幅特征图的宽度为w/2、高度为h/2。

对于第七个基础模块。其由依次设置的第1个下采样层、第1个残差块、第2个残差块、第3个残差块;第七个基础模块的输入端接收n6中的所有特征图,第七个基础模块的输出端输出64副特征图,将64副特征图构成的集合记为n7;其中,第1个下采样层所采用的是最大池化下采样,最大池化下采样的卷积核大小为3×3,最大池化下采样卷积核的步长为2,最大池化下采样卷积核的填充系数为1,偏置参数为否;第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为64,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为64;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为64,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为64;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为64,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为64;n7中的每幅特征图的宽度为w/4、高度为h/4。

对于第八个基础模块。其由依次设置的第1个残差块、第2个残差块、第3个残差块和第4个残差块组成;第八个基础模块的输入端接收n7中的所有特征图,第八个基础模块的输出端输出128副特征图,将128副特征图构成的集合记为n8;其中,第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为2、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为128,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为128;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为128,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为128;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为128,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为128;第4个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为128,第4个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为128;n8中的每幅特征图的宽度为w/8、高度为h/8。

对于第九个基础模块。其由依次设置的第1个残差块、第2个残差块、第3个残差块、第4个残差块、第5个残差块和第6个残差块组成;第九个基础模块的输入端接收n8中的所有特征图,第九个基础模块的输出端输出256副特征图,将256副特征图构成的集合记为n9;其中,第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为2、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为256,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为256;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为256,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为256;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为256,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为256;第4个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第4个残差块中的第一个卷积核的个数为256,第4个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第4个残差块中的第二个卷积核的个数为256;第5个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第5个残差块中的第一个卷积核的个数为256,第5个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第5个残差块中的第二个卷积核的个数为256;第6个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第6个残差块中的第一个卷积核的个数为256,第6个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第6个残差块中的第二个卷积核的个数为256;n9中的每幅特征图的宽度为w/16、高度为h/16。

对于第十个基础模块。其由依次设置的第1个残差块、第2个残差块和第3个残差块组成;第十个基础模块的输入端接收n9中的所有特征图,第十个基础模块的输出端输出512副特征图,将512副特征图构成的集合记为n10;其中,第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为2、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为512,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为512;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为512,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为512;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为512,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为512;n10中的每幅特征图的宽度为w/32、高度为h/32。

对于第一个交融模块。其由依次设置的第1个卷积模块、第2个卷积模块、第1个自适应模块和第1个激活函数组成;第一个交融模块的输入端接收n1和n6中的所有特征图,第一个交融模块的输出端输出64副特征图,将64副特征图构成的集合记为n11;其中,第1个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个自适应模块采用的是自适应平均池化,其输出特征图的大小为1×1,第1个激活函数所采用的激活方式为“relu”;n11中的每幅特征图的宽度为w/2、高度为h/2。

对于第二个交融模块。其由依次设置的第1个卷积模块、第2个卷积模块、第1个自适应模块和第1个激活函数组成;第二个交融模块的输入端接收n2和n7中的所有特征图,第二个交融模块的输出端输出128副特征图,将128副特征图构成的集合记为n12;其中,第1个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个自适应模块采用的是自适应平均池化,其输出特征图的大小为1×1,第1个激活函数所采用的激活方式为“relu”;n12中的每幅特征图的宽度为w/4、高度为h/4。

对于第三个交融模块。其由依次设置的第1个卷积模块、第2个卷积模块、第1个自适应模块和第1个激活函数组成;第三个交融模块的输入端接收n3和n8中的所有特征图,第三个交融模块的输出端输出256副特征图,将256副特征图构成的集合记为n13;其中,第1个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个自适应模块采用的是自适应平均池化,其输出特征图的大小为1×1,第1个激活函数所采用的激活方式为“relu”;n13中的每幅特征图的宽度为w/8、高度为h/8。

对于第四个交融模块。其由依次设置的第1个卷积模块、第2个卷积模块、第1个自适应模块和第1个激活函数组成;第四个交融模块的输入端接收n4和n9中的所有特征图,第四个交融模块的输出端输出512副特征图,将512副特征图构成的集合记为n14;其中,第1个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个自适应模块采用的是自适应平均池化,其输出特征图的大小为1×1,第1个激活函数所采用的激活方式为“relu”;n14中的每幅特征图的宽度为w/16、高度为h/16。

对于第五个交融模块。其由依次设置的第1个卷积模块、第2个卷积模块、第1个自适应模块和第1个激活函数组成;第五个交融模块的输入端接收n5和n10中的所有特征图,第五个交融模块的输出端输出512副特征图,将512副特征图构成的集合记为n15;其中,第1个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个自适应模块采用的是自适应平均池化,其输出特征图的大小为1×1,第1个激活函数所采用的激活方式为“relu”;n15中的每幅特征图的宽度为w/32、高度为h/32。

对于金字塔锐化特征模块。其由依次设置的第1个卷积模块、第2个卷积模块、第3个卷积模块、第4个卷积模块、第5个卷积模块、第6个卷积模块和第1个堆叠模块组成;金字塔锐化特征模块接收n15中的所有特征图,金字塔锐化特征模块的输出端输出512副特征图,将512副特征图构成的集合记为n16;其中,第1个卷积模块的卷积核大小为1×1、卷积核步长为1、填充为0、偏置参数为否,第2个卷积模块的卷积核大小为3×3、卷积核步长为1、填充为1、空洞率为1、偏置参数为否,第3个卷积模块的卷积核大小为3×3、卷积核步长为1、填充为6、空洞率为6、偏置参数为否,第4个卷积模块的卷积核大小为3×3、卷积核步长为1、填充为12、空洞率为12、偏置参数为否,第5个卷积模块的卷积核大小为3×3、卷积核步长为1、填充为18、空洞率为18、偏置参数为否,第6个卷积模块的卷积核大小为1×1、卷积核步长为1、填充为0、偏置参数为否,第1个堆叠模块在通道维度上进行堆叠;n16中的每幅特征图的宽度为w/32、高度为h/32。

对于多尺度锐化特征模块。其由设置的第1个特征过滤模块、第2个特征过滤模块、第3个特征过滤模块、第4个特征过滤模块、第1个堆叠模块、第2个堆叠模块、第3个堆叠模块、第4个堆叠模块、第1个上采样模块、第2个上采样模块、第3个上采样模块、第4个上采样模块、第5个上采样模块、第6个上采样模块、第7个上采样模块、第8个上采样模块、第9个上采样模块、第10个上采样模块组成;多尺度锐化特征模块接收n11、n12、n13、n14和n16中的所有特征图,多尺度锐化特征模块有5个输出端,第一个输出端输出64副特征图,将64副特征图构成的集合记为n17,第二个输出端输出128副特征图,将128副特征图构成的集合记为n18,第三个输出端输出256副特征图,将256副特征图构成的集合记为n19,第四个输出端输出512副特征图,将512副特征图构成的集合记为n20,第五个输出端输出512副特征图,将512副特征图构成的集合记为n21;其中,第1个堆叠模块、第2个堆叠模块、第3个堆叠模块和第4个堆叠模块在特征图的通道维度上进行堆叠,第1个上采样模块、第2个上采样模块、第3个上采样模块、第4个上采样模块、第5个上采样模块、第6个上采样模块、第7个上采样模块、第8个上采样模块、第9个上采样模块和第10个上采样模块都采用2倍的双线性插值上采样,第1个特征过滤模块、第2个特征过滤模块、第3个特征过滤模块和第4个特征过滤模块里的第一个卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个特征过滤模块里的第二个卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个特征过滤模块里的第一个激活模块采用的激活方式为“softmax”,第1个特征过滤模块里的第一个切割模块将特征图在通道上切割为2份;n17中的每幅特征图的宽度为w/32、高度为h/32,n18中的每幅特征图的宽度为w/16、高度为h/16,n19中的每幅特征图的宽度为w/8、高度为h/8,n20中的每幅特征图的宽度为w/4、高度为h/4,n21中的每幅特征图的宽度为w/2、高度为h/2。

对于第一个引导模块。其由依次设置的第1个上采样模块、第1个卷积模块、第2个卷积模块、第3个卷积模块、第1个激活函数、第2个激活函数、第3个激活函数、第1个切割函数、第1个中间函数构成;第一个引导模块接收n21和n20中的所有特征图,第一个引导模块的输出端输出512副特征图,将512副特征图构成的集合记为n22;其中,第1个上采样模块所采用的是2倍的双线性插值上采样,第1个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第3个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个激活函数所采用的激活方式为“softmax”,第2个激活函数所采用的激活方式为“sidmoid”,第3个激活函数所采用的激活方式为“sidmoid”,第1个切割模块将特征图在通道上切割为2份,第1个中间函数的表达式为:f(x)=-x+1;n22中的每幅特征图的宽度为w/16、高度为h/16。

对于第二个引导模块。其由依次设置的第1个上采样模块、第1个卷积模块、第2个卷积模块、第3个卷积模块、第1个激活函数、第2个激活函数、第3个激活函数、第1个切割函数、第1个中间函数构成;第二个引导模块接收n22和n19中的所有特征图,第一个引导模块的输出端输出256副特征图,将256副特征图构成的集合记为n23;其中,第1个上采样模块所采用的是2倍的双线性插值上采样,第1个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第3个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个激活函数所采用的激活方式为“softmax”,第2个激活函数所采用的激活方式为“sidmoid”,第3个激活函数所采用的激活方式为“sidmoid”,第1个切割模块将特征图在通道上切割为2份,第1个中间函数的表达式为:f(x)=-x+1;n23中的每幅特征图的宽度为w/8、高度为h/8。

对于第三个引导模块。其由依次设置的第1个上采样模块、第1个卷积模块、第2个卷积模块、第3个卷积模块、第1个激活函数、第2个激活函数、第3个激活函数、第1个切割函数、第1个中间函数构成;第三个引导模块接收n23和n18中的所有特征图,第一个引导模块的输出端输出128副特征图,将128副特征图构成的集合记为n24;其中,第1个上采样模块所采用的是2倍的双线性插值上采样,第1个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第3个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个激活函数所采用的激活方式为“softmax”,第2个激活函数所采用的激活方式为“sidmoid”,第3个激活函数所采用的激活方式为“sidmoid”,第1个切割模块将特征图在通道上切割为2份,第1个中间函数的表达式为:f(x)=-x+1;n24中的每幅特征图的宽度为w/4、高度为h/4。

对于第四个引导模块。其由依次设置的第1个上采样模块、第1个卷积模块、第2个卷积模块、第3个卷积模块、第1个激活函数、第2个激活函数、第3个激活函数、第1个切割函数、第1个中间函数构成;第四个引导模块接收n24和n17中的所有特征图,第一个引导模块的输出端输出64副特征图,将64副特征图构成的集合记为n25;其中,第1个上采样模块所采用的是2倍的双线性插值上采样,第1个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第3个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个激活函数所采用的激活方式为“softmax”,第2个激活函数所采用的激活方式为“sidmoid”,第3个激活函数所采用的激活方式为“sidmoid”,第1个切割模块将特征图在通道上切割为2份,第1个中间函数的表达式为:f(x)=-x+1;n25中的每幅特征图的宽度为w/2、高度为h/2。

步骤1_3:将训练集中原始的带有显著性物体的各类场景图像作为原始输入图像输入到卷积神经网络中进行训练,得到对应的显著性物体预测图像,将得到的对应的显著性物体预测图像记为jpre;

步骤1_4:计算所有显著性物体预测图像组成的图像集与对应的显著性物体真实检测图像组成的图像集之间的损失函数值,当训练次数达到预设次数时,卷积神经网络训练结束,获得训练后的卷积神经网络;将第q幅显著性物体预测图像与第q幅显著性物体真实检测图像之间的损失函数值记为采用二分类交叉熵(binarycategoricalcrossentropy)获得。

测试阶段过程的具体步骤为:

步骤2_1:选取测试集中的第p组待检测的带有显著性物体的各类场景;将第p组待检测的带有显著性物体的各类场景图像记为ip,其中,1≤p≤p,p=4、3、2、1。

步骤2_2:将第p组待检测的带有显著性物体的各类场景图像ip的r通道分量、g通道分量、b通道分量和三个热红外通道分量(thermal)输入到训练后的卷积神经网络中,训练后的卷积神经网络输出对应的显著性物体预测图像,显著性物体预测图像记为

为了进一步验证本发明方法的可行性和有效性,进行实验。

使用基于python的深度学习库pytorch3.6搭建多尺度带孔卷积神经网络的架构。采用vt800、vt1000和vt5000测试集来分析利用本发明方法预测得到显著性物体图像效果如何。这里,利用评估目标检测方法的3个常用客观参量作为评价指标,即召回率、精确率、平均绝对误差来评价预测垃圾分类的检测性能。

利用本发明方法在测试集中的每幅图像进行检测,得到每幅图像对应的显著性物体图像,反映本发明方法的目标检测效果的召回率、精确率、平均绝对误差如表1所列。从表1所列的数据可知,按本发明方法得到的显著性物体图像结果是较好的,表明利用本发明方法来获取各类场景的显著性物体图像是可行且有效的。

表1利用本发明方法在测试集上的评测结果

图7a给出了第1幅原始的图像;图7b给出了利用本发明方法对图7a所示的原始图像进行显著性物体检测,得到显著性物体图像;图8a给出了第2幅原始的图像;图8b给出了利用本发明方法对图8a所示的原始图像进行显著性物体检测,得到显著性物体图像;图9a给出了第3幅原始的图像;图9b给出了利用本发明方法对图9a所示的原始图像进行显著性物体检测,得到的显著性物体图像。对比图7a和图7b,对比图8a和图8b,对比图9a和图9b,可以看出利用本发明方法得到的显著性物体图像的精确率较高。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1