本发明涉及计算机视觉,具体指一种基于多模态特征融合的显著目标识别方法。
背景技术:
1、显著目标检测是计算机视觉领域的一个重要研究方向,旨在从图像或视频中准确地检测和定位与背景明显不同的显著目标。这些显著目标通常是用户关注的重点,因此在很多应用中具有重要价值,例如图像检索、自动驾驶、视频监控、医学图像分析等。对于一般rgb图像的显著目标识别或者双模态图像(rgb&d或者rgd&t)的显著目标识别已经取得了显著的成果。
2、对于单模态显著目标识别,研究者们一直在探索各种有效的特征提取方法,包括基于传统图像处理技术的低级特征(如颜色、纹理和边缘等),以及基于深度学习的高级特征(如卷积神经网络中的卷积层特征)。近年来,深度学习方法在显著目标检测中取得了显著进展语义分割在过去十年中取得了巨大的进展,并广泛应用于自动驱动和医学分析。但是由于图像传感器的物理限制,大多数单模态语义分割模型在一些应用场景中受到限制,如低光环境、雾和烟雾。因此,多模态语义分割在最近这些年受到了广泛的关注。
3、而多模态显著目标检测,在日常显著目标识别领域,除了rgb图像作为主要识别处理对象之外,热红外(tir)图像也经常作为别处理对象。因为热红外图像反映物体表面温度信息,可以突出温度高于周围环境的车辆和行人。有人引入tir图像作为补充,以提高模型处理具有挑战性的城市驾驶场景的能力,这激发了rgb-hertir(rgb-t)语义分割的兴起。
4、目前市面上常见的多为双模态显著目标检测,而三模态的显著目标工作还停留在初步阶段。目前已有的rgb、thermal、depth三模态融合显著目标识别方法大多性能比较差,边缘检测不够清晰,识别不够准确检测效果无法达到我们的需求,因此对于如何较好的融合多模态特征还有很多方法有待发掘。
技术实现思路
1、本发明针对现有技术的不足,提出一种基于多模态特征融合的显著目标识别方法,优化边缘检测,拥有较好的显著目标检测效果,满足市场需求。
2、为了解决上述技术问题,本发明的技术方案为:
3、一种基于多模态特征融合的显著目标识别方法,包括如下步骤:
4、s1、构建编码器并使用所构建的编码器提取rgb、thermal、depth图像的特征;
5、s2、构建特征融合模块,通过特征融合模块进行多模态信息融合得到i层初级融合特征,
6、所述特征融合模块包括特征连接网络和特征交叉网络,所述特征连接网络由三个平行的se+cbr模块组成,所述se模块由全局平均池化层、卷积层、relu激活函数层、sigmoid函数层组成;所述cbr模块由卷积层、正则化层、relu层组成;所述特征交叉模块由cbr模块和若干层不同扩张率的扩张卷积构成;
7、s3、构建融合模块s,通过融合模块s进行相邻特征层的初级融合特征的相互融合;
8、所述融合模块s由两个空间注意力组成,第一个所述空间注意力为通道维度的平均池化,具体为,把特征图的每个通道求平均值,得到通道数为1的空间注意力图;
9、s4、对融合后的二级融合特征进行逐层解码,具体解码方法如下:
10、首先,不同于其他层,将步骤s2中得到的第五层初级融合特征f5直接送入解码块d中,经过dropout、cbr、upsample处理之后标记为d5.表示为:
11、d5=upsample(cbr(cbr(dropout(f5))))
12、对于第四个解码块来说,他的输入为第四个融合模块s的输出,可以表示为:
13、d4=upsample(cbr(cbr(dropout(s4))))
14、对于其他层,可以表示为:
15、di=upsample(cbr(cbr(dropout(si+s4)))) (i=1,2,3)
16、其中si为第i层s模块的输出,最后一层解码块的输出为得到显著性图。
17、作为优选,所述编码器是由3个不共享参数的vgg-16网络组成。
18、作为优选,所述特征交叉网络中有4个扩张卷积,其扩张率分别为1、3、5、7。
19、作为优选,所述步骤s2中多模态信息融合的方法,表达式如下:
20、
21、
22、
23、fci=cat((fvi,fti,fdi))
24、fi=conv3*3(cat(φ1(fci),φ3(fci),φ5(fci),φ7(fci))) (i=1,2,3,4,5)
25、其中,cbr表示卷积层、正则化层、relu层,xvi、xti、xdi分别表示第i层提取出来v、t、d的特征表示全局平均池化函数,cat表示连接操作,conva*a表示卷积核边长为a的卷积操作,φa表示扩张率为a的卷积。
26、作为优选,所述步骤s3的方法为:
27、通过特征融合模块得到了五层初级融合特征,将相邻层的初级融合特征和上一层解码块d的输出特征送入融合模块s中;
28、首先相邻两层的初级融合特征进行相加,然后经过通道求平均的空间注意力对特征进行优化,再将前一层的输出与本层相加,最后使用另一个空间注意力进一步优化特征,其过程可以表示为:
29、s′i=conv3*3(upsample(fi+1))+fi
30、si=sa(β(s′i)×(s′i+di+1)) (i=1,2,3,4)
31、其中,upsanple(·)为双线性上采样两倍,fi为第i层多模态信息融合的输出,di+1为前一层解码模块的输出。
32、作为优选,第四个融合模块s的输出向后跳跃连接到每个解码块d的输入端并且与融合模块s的输出相加,最后一起送入解码块d中。这样能够多次充分利用高级语义特征。使得融合更加充分。另外,本发明在每一个编码器的输出端都设有一个损失监督,以更加细化的训练每一个模块。从而拥有一个非常准确的显著目标检测结果。
33、本发明具有以下的特点和有益效果:
34、本发明三种模态特征均通过vgg16网络提取。具有相似性的相邻融合特征通过s模块获得了显著的互相增强,使显著目标更加突出,解码阶段,融合了多层级信息,融合得到的特征质量更高。通过多层跳跃连接使融合更加充分,模型性能比以往的三模态融合模型都要高。拥有较好的显著目标检测效果。
1.一种基于多模态特征融合的显著目标识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于多模态特征融合的显著目标识别方法,其特征在于,所述编码器是由3个不共享参数的vgg-16网络组成。
3.根据权利要求3所述的一种基于多模态特征融合的显著目标识别方法,其特征在于,所述特征交叉网络中有4个扩张卷积,其扩张率分别为1、3、5、7。
4.根据权利要求1所述的一种基于多模态特征融合的显著目标识别方法,其特征在于,所述步骤s2中多模态信息融合的方法,表达式如下:
5.根据权利要求4所述的一种基于多模态特征融合的显著目标识别方法,其特征在于,所述步骤s3的方法为:
6.根据权利要求5所述的一种基于多模态特征融合的显著目标识别方法,其特征在于,第四个融合模块s的输出向后跳跃连接到每个解码块d的输入端并且与融合模块s的输出相加,最后一起送入解码块d中。