基于多视角引导网络的显著和伪装物体分割方法

文档序号:37642567发布日期:2024-04-18 18:06阅读:7来源:国知局
基于多视角引导网络的显著和伪装物体分割方法

本发明属于计算机视觉及人工智能,涉及基于多视角引导网络的显著和伪装物体分割方法。


背景技术:

1、通用对象分割是计算机视觉领域最流行的方向之一,也是众多计算机视觉任务的前提。而以检测对象的显著程度为依据,通用对象分割可以划分为显著对象分割和伪装对象分割。其中,显著对象分割的旨在分割出图像中最吸引人注意的目标,对象是否被判定为“显著”通常与其所处的空间位置有很大的关系—通常显著对象位于图像中间,相反地,对于伪装对象而言,位置不再成为限制,它们更多的依靠色彩的伪装出现在图像中的任何位置,并且尽可能的融入环境和背景让人难以察觉。我们注意到,这两类看似完全矛盾的分割任务,却又在概念上具有一定的重合空间,因此我们尝试从二者的共同点出发,充分考虑二者区别,提出一个通用的分割方法;现有的分割模型通用性差,无法实现对显著物体和伪装物体的准确分割。


技术实现思路

1、本发明的目的是提供基于多视角引导网络的显著和伪装物体分割方法,实现对显著物体和伪装物体的准确分割;具备大幅提高了分割模型的通用性,实现了一种通用方法同时具备两种分割能力,并取得了优异的性能的特点。

2、本发明所采用的技术方案是,基于多视角引导网络的显著和伪装物体分割方法,具体按以下步骤实施:

3、步骤1,建立多视角信息提取模块;

4、步骤2,建立特征提取模块;

5、步骤3,建立显著度探索模块,深度挖掘经步骤1和步骤2处理后的图像中的显著和伪装信息达到精确识别的目的。

6、本发明的特点还在于:

7、其中步骤1中多视角信息提取模块具体为:采用多视角图像作为输入,经过多视角编码器进行特征提取,再经过多视角融合模块进行信息整合,具体按以下步骤实施:

8、步骤1.1,输入图像i经过多视角编码器,得到三组特征xl,xm,xs;

9、步骤1.2,处理后的三组特征经过多视角融合模块得到一组融合后的特征fc和一个粗略预测图pc;

10、其中步骤1.1具体按以下步骤实施:

11、步骤1.1.1,输入图像i首先经过尺度缩放获得三个图像is,im,il,尺寸分别为原始图像的0.5倍、1.0倍和1.5倍;

12、步骤1.1.2,图像is,im,il送入基于卷积的多视角编码器,经过编码器处理,得到三组特征xl,xm,xs,分别对应输入is,im,il;

13、其中步骤1.2具体按以下步骤实施:

14、步骤1.2.1,首先对三组特征作尺寸统一,统一尺寸后的特征记作cl,cm,cs,整个操作用公式如下:

15、ck=cbr(u(cbr(xk))),k∈(s,m,l)  (1)

16、式中,cbr()表示卷积、batchnorm和relu操作,u()表示上采样操作;

17、步骤1.2.2,尺寸统一后的特征经过设计的注意力模块,分别得到一组特征cfeature和一组注意力向量catt;如下式:

18、catt=att(cat(cl,cm,cs))    (2)

19、cfeature=cbr(cat(cl,cm,cs))  (3)

20、式中,att()表示注意力模块,cat()表示联结操作;

21、步骤1.2.2,cfeature和catt再经过卷积融合获得特征fc和粗预测图pc;如公式(4)和(5)所示:

22、fc=conv(cbr(cfeature×catt))             (4)

23、pc=conv(cbr(cfeature×catt))     (5)

24、式中,conv()表示卷积操作;

25、其中步骤2中特征提取模块具体为使用带金字塔池化的transformer网络进行特征提取,具体按照以下步骤实施:

26、步骤2.1,在传统的transformer网络中引入了金字塔池化操作,对key和value进行了池化操作,整个自注意力机制如下式所示:

27、

28、式中,q,分别代表自注意力机制中的quary、经过池化操作的key和经过池化操作的value;dhead代表多头注意力的数量;softmax()指激活函数;

29、步骤2.2,将输入图像连续经过四次带金字塔池化的transformer层,输出四组特征图t1,t2,t3,t4;

30、其中步骤3中显著度探索模块具体为:将主干网络提取到的特征t1,t2,t3,t4和多视角信息融合,并深度挖掘其中的显著和伪装信息从而达到精确识别的目的,具体按照以下步骤实施:

31、步骤3.1,将多视角信息fc、pc以及主干网络提取到的最后一层特征t4作为输入送入显著度探索模块,得到处理后的特征f4和粗略预测图p4;

32、步骤3.2,将得到的特征f4、预测图p4和主干特征t3再次送入显著度探索模块,获得特征f3和预测图p3;

33、步骤3.3,将得到的特征f3、预测图p3和主干特征t2再次送入显著度探索模块,获得特征f2和预测图p2;

34、步骤3.4,将得到的特征f2、预测图p2和主干特征t1再次送入显著度探索模块,获得特征f1和预测图p1;

35、步骤3.5,预测图p1即为最终生成的高分辨预测图;

36、其中步骤3.1具体按以下步骤实施:

37、步骤3.1.1,首先将fc、pc分为两个支路并行处理,第一个支路的目的是为了进一步探索色彩信息,从而识别伪装目标,具体操作为:fc经过尺寸调整获得对应的q、k、v,其中q、k分别于pc进行融合,融合后的q与k的转置进行乘法操作,公式表示如下:

38、fc′=(q×reshape(pc))×(q×reshape(pc))t  (7)

39、fc′再与v相乘得到此支路处理后的特征fc″;

40、步骤3.1.2,另一个支路的目的是为了进一步探索空间位置信息,从而识别显著目标;具体操作为:fc先经过1x1卷积调整通道数,再经过调整尺寸大小获得对应的q′、k′、v′,将q′、k′分别于pc进行融合,融合后的q′与k′的转置进行乘法,再与v′相乘得到此支路处理后的特征fp″;

41、步骤3.1.3,最后对两个支路的处理结果进行融合,获得融合后的特征d4,公式表示如下:

42、d4=cat(cbr(fc″×t4),cbr(fp″×t4),)    (8)

43、步骤3.1.4,再用d4通过卷积操作产生一组特征f4和一组粗略预测图p4。

44、本发明的有益效果是:

45、本发明的基于多视角引导网络的显著和伪装物体分割方法适用于显著对象和伪装对象的分割网络;充分考虑了两者之间的共性,同时有效地解决了它们的差异,从而产生了准确的预测图像;提出了一种多视角融合模块,用于合并从cnn编码器提取的多视图特征信息;该模块不仅提高了模型分割性能,而且有效地管理了计算负载的增加;此外,引入了一个显著度探索模块,该模块同时从颜色和位置角度探索上下文信息,生成精确的预测结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1