一种基于深度学习的全景分割方法

文档序号:25791709发布日期:2021-07-09 11:30阅读:238来源:国知局
一种基于深度学习的全景分割方法

1.本发明属于计算机视觉领域,属于场景解析中对图像进行像素级分割的图像分割技术。


背景技术:

2.图像分割是计算机视觉领域的一大研究热点,其目的是根据图像中颜色、形状、语义等特征将图像划分为若干区域。在深度学习技术之前,图像分割多采用一些传统的图像处理方法,例如阈值法、区域生长、边缘检测等。随着神经网络的兴起与快速发展,图像分割领域在诸多方面取得巨大的进展。深度学习下的图像分割技术主要包括了语义分割、实例分割与全景分割。语义分割、实例分割与全景分割的示意图如附图1所示。其中左边图像为语义分割示意图,中间为实例分割示意图,右边为全景分割示意图。
3.图像语义分割的主要任务是对图像中每一个像素点的进行类别预测,实现图像的像素级别分割。实例分割在目标检测的基础上融合了语义分割,实现对实例对象进行像素级别的分割,它在对像素点进行分类的同时赋予每个像素点相对应的实例id。一般来说,语义分割关注的是图像背景的分割,而实例分割则关注的是前景实例的分割。为了统一语义分割与实例分割的工作,最近学者们提出了一项新的分割任务——全景分割。全景分割融合了语义分割与实例分割,其主要任务是对场景图像中每一个像素点进行语义类别预测(stuff),并为属于实例目标(things)的像素赋予实例识别号,以实现更为全面的场景理解。全景分割能够提供非常丰富的语义信息与精细的场景图像分割,是未来自动驾驶、生物医学等领域的关键技术。然而,由于全景分割相比语义分割与实例分割更为复杂,目前仍无法实现工业上的应用。
4.由于语义分割与实例分割属于不同的视觉任务,其输入数据、网络结构及训练策略等都存在着较大的差异,因此全景分割采用两个子网络实现语义分割与实例分割,再经过后处理融合方法对语义分割与实例分割结果进行融合,得到最终的全景分割结果。因此全景分割子网络的分割结果将直接影响全景分割的效果。同时这种方法将会带来大量的冗余计算。在一幅场景图像中,前景与背景往往存在着密切的联系,如何利用两个子网络间的信息相互促进,减少不必要的计算,是全景分割一项重要的研究内容。本发明着力于通过改进全景分割子网络以促进全景分割网络的性能。本发明具有较好的通用性,能够方便的与各种全景分割网络相结合。


技术实现要素:

5.为了有效的提升全景分割网络性能,本发明针对全景分割子网络特点,分别设计了语义注意力模块、实例注意力模块以增强全景分割子网络的分割能力。同时针对语义分割与实例分割的相关性,设计语义辅助实例模块,增强子网络间的特征信息传递。
6.本发明所采用的技术方案是:
7.步骤1:使用resnet

50和fpn网络作为全景分割特征提取的骨干网络。提取具有多
尺度特征信息的特征图c1,c2,c3,c4,c5。
8.步骤2:将步骤1中c2~c5作为共享特征分别送入语义分割子网络与实例分割子网络中。
9.步骤3:该步骤是该专利的核心内容之一。语义分割子网络中将共享特征通过语义注意力模块,再进行上采样得到语义分割特征图。语义注意力模块如附图2所示。
10.步骤4:该步骤是该专利的核心内容之一。实例分割子网络中将共享特征通过实例分割模块,再经过rpn网络得到实例候选锚框。实例注意力模块如附图3所示。
11.步骤5:该步骤是该专利的核心内容之一。将步骤3中得到的语义分割特征图与步骤4中的实例候选锚框通过一个语义辅助实例模块,使语义信息融合至实例特征中。语义辅助实例分割模块如附图4所示。
12.步骤6:分别根据子网络的特征图进行语义分割与实例分割,并对结果进行融合,得到最终全景分割结果。网络整体结构如附图5所示。
13.与现有技术相比,本发明能够有效的对全景分割子任务进行增强,并利用子任务的内在联系实现子网络分割的相互促进,从而提升全景分割效果。本发明具有较好的通用性,适用于多种全景分割网络。
附图说明
14.图1为:语义分割、实例分割与全景分割的示意图
15.图2为:本发明的语义注意力模块示意图。
16.图3为:本发明的实例注意力模块示意图。
17.图4为:本发明的语义辅助实例分割模块示意图。
18.图5为:本发明的全景分割网络整体结构图。
19.图6为:本发明的全景分割效果图。
20.图7为:本发明在coco数据集上与主流全景分割算法对比结果。
21.图8为:本发明在cityscapes数据集上与主流全景分割算法对比结果。
具体实施方式
22.下面结合附图和附表对本发明进一步说明。
23.首先,网络利用一个resnet

50与fpn网络构成全景分割的特征共享模块,对输入图像进行特征提取,resnet

50包含五个阶段,记为res1,res2,res3,res4,res5。每个阶段输出一个特征图层,尺寸分别为原图的1/2,1/4,1/8,1/16,1/32。将该特征送入一个传统的fpn网络中,得到网络不同尺寸的共享特征。记为c1,c2,c3,c4,c5。然后将共享特征分别送入到语义分割子网络与实例分割子网络中进行子任务分割。
24.在语义分割子网络中,首先共享特征会通过一个语义注意力模块。语义注意力模块的实现具体如下:
25.如附图2所示。对于输入的特征图a∈r
c*h*w
,模块首先通过1
×1×
1的卷积将特征图通道维度降到1维,然后重构操作将特征映射为一维向量b,该向量中每一个元素代表了原特征图中对应像素点的信息。由此可以得到特征图中任意两点的相关系数。即:
26.c=b
t
b
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
27.其中b=[b1,b2,

,b
n
],代表特征图中每个像素点的特征强度;c
ij
表示像素点b
i
与b
j
的相关性,相关性越大,则对特征的增强效果越强。最后将该相关性反映到每个像素点上,就完成了语义注意力机制。具体实现如公式(2)所示。
[0028]
s
i
=∑
j
c
ij
b
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0029]
将s与原特征相加,就可以得到最终语义分割的特征图。
[0030]
实例分割子网络采用mask r

cnn网络作为基本网络,在此基础上添加实例注意力模块与语义辅助实例分割模块对实例分割子网络进行增强。其中实例注意力模块的实现具体如下:
[0031]
如附图3所示。实例注意力模块目的在于学习不同特征间的相互关系,而不关注特征内部的细节信息。因此对一个输入特征图层a∈r
c*h*w
,实例注意力模块首先对其做全局平均池化操作(global average pooling,gap),使每张特征图降至1
×
1,降低网络计算量。
[0032][0033]
然后通过两个1
×
1的卷积核学习不同特征层间的相关性,并在第一个1
×
1卷积核后增加一个relu层,以增强网络非线性学习能力。
[0034]
c=conv(b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0035]
d=conv(relu(c))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0036]
其中第一次卷积操作对特征向量b进行了16倍降维,第二次卷积操作使特征维度还原至原始维度。经过两次卷积操作后,d中每个元素大小代表了其他特征层对该它贡献的权重总和,该权重由网络学习获得。最后将学习到的权重与原特征图相乘,得到最终的实例分割特征图。
[0037]
s
c
=d
c
a
c
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0038]
语义辅助实例分割模块的具体实现如下:
[0039]
如附图4所示。经过训练语义分割子网络能够获得包含丰富语义信息的特征图,语义辅助实例分割模块首先将语义分割子分支的特征图通过一个1
×
1的卷积将语义分割特征图维度降至一维,使语义分割的特征具有更强的特征表达能力。然后将该特征与rpn网络输出特征层连接,并通过一个1
×
1的卷积将语义特征信息融合到实例分割的特征中。
[0040]
最后对两个子网络分割结果进行融合,得到最终的全景分割结果。
[0041]
具体方法:
[0042]
(1)resnet

50骨干网络对输入图像进行特征提取,得到c1、c2、c3、c4、c5五个特征图层。取c2~c5作为网络输入特征。
[0043]
(2)将特征图c2~c5送入fpn网络,得到融合多尺度信息的特征图,记为p1~p5。
[0044]
(3)p1~p5作为共享特征送入语义分割子网络,经过语义注意力模块与上采样过程得到语义分割特征图。并根据语义分割特征图进行图像的语义分割。
[0045]
(4)p1~p5作为共享特征送入实例分割子网络,经过实例注意力模块与一个rpn得到实例候选锚框。
[0046]
(5)利用语义辅助实例分割模块将(3)中语义分割特征与(4)中实例分割特征融合,得到具有融合语义信息的实例特征。
[0047]
(6)根据(5)中实例特征进行mask分支掩膜生成及box与class预测。生成实例分割
结果。
[0048]
(7)对(3)中语义分割结果与(6)中实例分割结果进行融合得到全景分割结果。
[0049]
本发明针对语义分割与实例分割的特点,设计语义注意力模块与实例注意力模块。语义分割子网络处理的对象的是图像中的背景填充物。其特点是没有固定的形状,通常是一些不可数的物体,例如天空、草地、路面等。在特征上表现为对空间位置依赖性强、语义信息丰富。因此图像中,像素的空间位置与上下文语义信息将对语义分割产生较大的影响。语义注意力模块通过将更广范围的语义信息编码到局部感受野中,来捕捉空间任意两个位置的空间依赖性,从而实现具有相似特征的两个位置相互促进的效果。实例分割子分支处理的对象则是图像中的前景目标,在训练过程中实例分割更关注图像的结构特征提取。在深度学习中,卷积神经网络在各层特征学习中通常会获得一组多通道的特征图,每个通道代表了网络对图像某一特征的响应。因此实例注意力模块通过建立通道间的依赖关系来获取不同结构特征的相互关系,增强实例分割子网络对每个实例对象的分割能力。
[0050]
针对语义分割与实例分割的关联性,本发明设计语义辅助实例分割模块,实现子任务的相互促进。在一个场景当中,背景与前景往往存在着密切的关系,一个特定的目标对象更容易出现在某一些语义场景下,而在另一些语义场景中出现的概率则会大大降低。因此,合理的运用场景的语义信息,将对目标对象的检测与分割工作起到良好的指导作用。语义分割特征图中包含了丰富的场景语义信息,语义辅助实例分割模块将语义分割特征图与实例分割特征图进行融合,使实例分割能够更好的获取上下文语义,使实例的判断更为准确。附图6展示了本发明的全景分割效果。其中第一列为原始图像,第二列为真实标签,第三列为本发明的全景分割结果。
[0051]
本发明在coco数据集与cityscapes数据集上与当前主流的全景分割算法进行对比,结果如图7与图8所示。其中pq为全景分割质量,其值越高表示分割结果越好。根据表中结果可以看出,本发明的全景分割方法具有更高的准确率。
[0052]
以上所述,仅为本发明的具体实施方式,本说明中所公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征或/和步骤外,均可以任何方式组合。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1