一种权衡计算资源与检测性能的显著性目标检测方法

文档序号:37186488发布日期:2024-03-01 12:50阅读:15来源:国知局
一种权衡计算资源与检测性能的显著性目标检测方法

本发明涉及目标检测,尤其涉及一种权衡计算资源与检测性能的显著性目标检测方法。


背景技术:

1、受人类可以自动高效地分析复杂视觉场景这一事实的启发,相应的计算机视觉算法应该能够快速定位显著性内容,而忽略其他非显著性内容。实现该计算机视觉方法便是显著性目标检测(sod)。具体而言,sod旨在有效提取视觉场景中的重要信息并准确过滤掉冗余信息,探索和模拟人类的视觉注意力机制,协助其他计算机视觉任务进一步提取场景中更高层次的语义信息,建立从局部到全局对视觉场景的理解。近年来,显著对象检测已被广泛应用于目标检测、语义分割、同时定位和建图、视频处理、机器人导航和行人重识别等领域。因为它能够大大降低后续处理的复杂性并提高整体性能,因此,显著目标检测在计算机视觉和图像处理领域备受关注并蓬勃发展。虽然当前涌现出了一些优秀的轻量级显著性目标检测算法,但是其轻量化、准确性和实时性三者并没有达到较好的平衡。

2、文献《y.liu,y.-c.gu,x.-y.zhang,w.wang and m.-m.cheng.lightweightsalient object detection via hierarchical visual perception learning.ieeetransactions on cybernetics,vol.51,no.9,pp.4439-4449.2021.》通过模仿灵长类视觉皮层进行分级视觉感知学习以实现高效的显著性目标检测。随后,文献《y.liu,x.-y.zhang,j.-w.bian,l.zhang and m.-m.cheng.samnet:stereoscopically attentivemulti-scale network for lightweight salient object detection.ieeetransactions on image processing,vol.30,pp.3804-3814,2021.》提出了的sam模块使小型网络能够编码高级特征和低级细节。文献《y.liu,x.-y.zhang,j.-w.bian,l.zhangand m.-m.cheng.edn:salient object detection via extremely-downsamplednetwork.ieee transactions on image processing,vol.31,pp.3125-3136,2022.》采用了一种极端技术(极低采样网络)来有效地学习整个图像的全局视图。文献《m.-m.cheng,s.-h.gao,a.borji,y.-q.tan,z.lin and m.wang.a highly efficient modelto study the semantics of salient object detection.ieee transactions onpattern analysis and machine intelligence,vol.44,no.11,pp.8006-8021,2022.》提出了广义octconv,在利用阶段内和跨阶段的多尺度特征的同时通过动态权重衰减方案提取出更多的有效特征。同时使用goctconvs构建了一个极度轻量级的模型csnet*。

3、文献《y.liu,y.-c.gu,x.-y.zhang,w.wang and m.-m.cheng.lightweightsalient object detection via hierarchical visual perceptionlearning.ieeetransactions on cybernetics,vol.51,no.9,pp.4439-4449.2021.》、文献《y.liu,x.-y.zhang,j.-w.bian,l.zhang and m.-m.cheng.samnet:stereoscopically attentivemulti-scale network for lightweight salient object detection.ieeetransactions on image processing,vol.30,pp.3804-3814,2021.》和文献《y.liu,x.-y.zhang,j.-w.bian,l.zhang and m.-m.cheng.edn:salient object detection viaextremely-downsamplednetwork.ieee transactions on image processing,vol.31,pp.3125-3136,2022.》提出了三个具有代表性的轻量级显著性目标检测模型,它们在轻量化程度上虽然展现出了较强的优势,但是他们的性能较弱,并且串行(以图像一帧一帧的形式传给模型)处理数据实时性较弱。文献《m.-m.cheng,s.-h.gao,a.borji,y.-q.tan,z.linand m.wang.a highly efficient model to study the semantics of salient objectdetection.ieee transactions on pattern analysis and machine intelligence,vol.44,no.11,pp.8006-8021,2022.》提出的极度轻量级模型csnet及其变体csnet*同样存在以上的弊端。综上所述,当前的研究无法很好地平衡轻量级、准确性和实时性三者的关系。


技术实现思路

1、针对现有技术的不足,本发明提供一种权衡计算资源与检测性能的显著性目标检测方法。提出一种权衡计算资源与检测性能的显著性目标检测模型,实现轻量化、准确度和实时性三者的较好平衡,同时凭借其轻量化的特性使得显著性目标检测模型可以轻易的嵌入到各种计算机视觉任务中,有效的提高他们的任务性能。

2、本发明的技术方案如下:

3、一种权衡计算资源与检测性能的显著性目标检测方法,建立一种显著性目标检测模型;将采集到的rgb图像逐帧传输到显著性目标检测模型中,通过模拟类脑机制实现多级特征的融合,通过设计特征融合模块输出显著性目标的掩码图,实现以像素级别对显著性目标进行检测与分割;

4、所述显著性目标检测模型包括显著性目标检测编码器、显著性目标检测特征融合器和显著性目标检测特征解码器;rgb图像经显著性目标检测编码器编码为五级语义特征,各级特征经显著性目标检测特征融合器后分别得到完整的各级特征,经显著性目标检测特征解码器得到预期显著性目标的掩码图。

5、所述显著性目标检测编码器为轻量级显著性骨干网络lsbnet或超轻量级显著性主干网络elsbnet;lsbnet和elsbnet均输出五个层级的编码特征f1、f2、f3、f4和f5;lsbnet和elsbnet编码器均是通过block堆叠而来的:

6、

7、x为输入特征、conv1*1为卷积核为1*1的卷积层、dwconv3*3为卷积核为3*3的深度可分离卷积层、stride为卷积操作的步长。

8、所述显著性目标检测特征融合器通过上下文门控模块cgm建立;lsbnet或elsbnet输出的五级特征f1、f2、f3、f4和f5经显著性目标检测特征融合器进行各级特征之间的耦合。

9、所述上下文门控模块cgm包括深度可分离卷积层、sigmoid函数层、相加操作层和相乘操作层;

10、当上下文门控模块为第一层block对应的同层上下文门控模块时,输入特征f1定义为当前层cgm的主要特征;

11、输入特征f1依次经深度可分离卷积层、sigmoid函数层,将特征值归一化为[0,1],形成gate1通道:

12、fstage1=gate1*f1,gate1=sigmoid(dsconv3*3(f1))

13、输入特征f2、f3、f4、f5为其它层block中的编码器的输出特征;将输入特征f2到f5分别采样至输入特征f1相同大小,采样后的f2、f3、f4、f5直接相加作为次要特征;设计gate2通道,当gate1通道中未提取出主要特征时,次要特征用于补充前景特征,同时主要特征f1的背景特征从次要特征中获得;gate2通道和最终输出fstage2表示为:

14、

15、fstage1、fstage2和f1以相加的方式组合后通过深度可分离卷积输出融合的特征;特征fstage1作为受大脑启发的“兴奋性神经元”,特征fstage2作为受大脑启发的“抑制性神经元”,二者相互作用以增强主要特征f1;fstage3表示为:

16、

17、所述上下文门控模块为第二层block至第五层block任一对应的同层上下文门控模块时,输入特征为当前层及其之后各层block中的编码器的输出特征和其之前层经上下文门控模块输出的特征;当前层block中的编码器的输出特征为主要特征,其余特征采样相加后为次要特征,计算流程与上下文门控模块为第一层block对应的同层上下文门控模块的计算流程相同。

18、所述显著性目标检测特征解码器通过特征融合模块建立;所述特征融合模块根据输入特征个数改变其计算方式;最后一层的特征融合模块输入特征仅为当前层上下文门控模块的输出特征,当只有单个输入特征时,输出fout表示为:

19、fout=dsconv3*3(dsconv3*3(fstage3(i))),i=5,1。

20、所述特征融合模块为第一层至第四层中的任一层时,其输入特征为当前层上下文门控模块的输出特征和下一层特征融合模块的输出特征;输出fout表示为:

21、fout=dsconv3*3(dsconv3*3(concat((fstage3(i),fstage3(i-1)),dim=c))),i=5,4,3,2。

22、本发明的有益效果:本发明提供一种权衡计算资源与检测性能的显著性目标检测方法,针对当前轻量级显著性模型比较于重量级模型性能下降的同时串行处理数据的实时性差的问题,实现了轻量化、准确度和实时性三者的平衡。本发明的模型可以适应特定的应用需求,并配备了一个新颖的(极其)轻量级的显著性骨干网络,具有最简单的网络架构来实现多层次特征的提取,并且无需在imagenet上进行预训练即可获得高性能。此外,受人脑生理机制的启发,通过引入上下文门控模块(cgm)和特征融合模块,该模型与现有的最先进方法相比,大大提高了准确性和实时性,并实现了轻量级需求、准确性和实时能力之间的良好平衡。与其他最先进的方法相比,我们的方法比(极其)轻量级的方法具有优势,更容易嵌入资源有限的设备中,并实现实时性能。作为一个轻量级模型,larnet的检测性能甚至优于一些重量级方法。本发明为轻量级sod方法提供了新的思路,进一步推动了轻量级模型的开发和实际应用的实施,证明了轻量级方法正在接近并几乎超过重量级方法的性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1