一种基于弱监督学习的门控特征注意力等变分割方法

文档序号:29734898发布日期:2022-04-21 15:33阅读:175来源:国知局
一种基于弱监督学习的门控特征注意力等变分割方法

1.本发明属于图像处理技术领域。


背景技术:

2.随着深度学习的广泛应用,计算机视觉技术得到了迅猛发展。计算机视觉是一门研究如何让机器替代人眼对现实物体进行识别、跟踪和检测的科学。它是一种对生物视觉的模拟,由计算机代替人类的大脑对图像数据进行相应的分析处理,最终希望计算机可以像人类一样通过“视觉”来观察和认识世界。
3.语义分割是计算机视觉的主要任务之一,是大量高级视觉任务的必备前提。现阶段的语义分割网络分为两类:一种是强监督分割网络,需要针对分割场景中的物体进行像素级标注,数据集制作成本较高;另一种是弱监督分割网络,只需要使用弱于像素级的其他标注,数据集制作成本较低。在分割精度方面,强监督网络分割精度较高,而弱监督分割网络因为标注监督信息的不足,往往在精度上稍逊一筹。
4.在分割原理方面,这两类分割网络都是通过卷积神经网络从图像的特征图中提取特征进行像素点类别的判定。例如,基于全卷积的分割网络fcn,它不需要生成候选区域,并且能够直接使用不同尺度的图像作为输入,实现了网络端到端训练。基于编码器-解码器结构的分割网络u-net,它主要由收缩路径和对称扩张路径组成,收缩路径用来获得上下文信息,对称扩张路径用来精确定位分割边界,提高了网络的分割精度。但这些分割网络大多需要像素级标注的支持,面对一些特殊场景的分割,专门制作数据集标注的代价是高昂的。直到类激活映射(cam)的出现,基于图像级标注的分割精度显著提高,cam可以实现对物体类的粗略定位。但cam粗略定位集中在物体类最显著的区域,往往不能覆盖到物体类的整体。为了解决这个问题,提出了一些扩展cam的方法。sec分割提出三条准则来对cam进行改进,分别是初始种子的选择、激活区域的扩大和激活区域边缘的约束。ficklenet通过对隐藏单元的随机选择,来构建许多个不同的定位图,然后将这些定位图聚合为单个定位图。但这些改进方法大多基于初始cam,并对初始cam的特征图进行处理,其结果受到初始cam和初始特征图的约束。虽然采用多种训练策略进行cam的扩展,但其扩展方法亦属于cam本身的改进,并没有引入新的cam和其对应的特征图。为了提高弱监督分割网络的精度,分割网络建立在一个层数更多的卷积神经网络上,但改进cam的最终覆盖区域没有与小尺度或大尺度物相匹配,其可能的原因为:1、cam是基于普通分类网络的框架改进得到的,具有分类网路的一般特性,也只需要图像级标注进行约束便可完成网络的训练,其本身就存在监督信息不足的问题;2、在cam改进方面虽然尝试了多种改进方法,但并未建立全局像素点的关联性,导致其分割细粒度不够;也未对分割结果引入类似像素级的约束,导致其扩展区域不完整。
5.全局注意力机制在强监督分割网络中应用甚广,可以建立像素点间的关联性,提高最终结果的分割精度。但是这种全局注意力机制是针对图像中所有像素点的,同样也需要对应的像素级标注来监督,这在弱监督分割网络中是无法实现的。


技术实现要素:

6.发明目的:为了解决上述现有技术存在的问题,本发明提供了一种基于弱监督学习的门控特征注意力等变分割方法。
7.技术方案:本发明提供了一种基于弱监督学习的门控特征注意力等变分割方法,具体包括如下步骤:
8.步骤1:建立并训练第一分类网络,对第一分类网络进行权重共享得到第二分类网络,所述第一、二分类网络为孪生分类网络;建立并训练第一门控的部分融合模块,对第一门控的部分融合模块进行权重共享得到第二门控的部分融合模块;
9.步骤2:对原始图像进行仿射变换得到仿射图像;
10.步骤3:将原始图像输入至第一分类网络,将仿射图像输入至第二分类网络;
11.步骤4:将第一分类网络的最后一层的特征层作为类激活映射;将第二分类网络的最后一层特征层作为仿射类激活映射;
12.步骤5:将第一分类网络第二,第三,第四和第五阶段输出的特征图输入至第一门控的部分融合模块,得到门控特征图;将第二分类网络第二,第三,第四和第五阶段输出的特征图输入至第二门控的部分融合模块,得到仿射门控特征图;
13.步骤6:将类激活映射,仿射类激活映射,门控特征图以及仿射门控特征图输入至交叉特征注意力模型中,得到交叉特征注意力模型输出的改进的类激活映射;
14.步骤7:将改进的类激活映射进行上采样,上采样后的改进的类激活映射的尺寸为h0×
w0×
c;其中h0和w0分别为原始图像的高和宽,c为图像的类别总数,将上采样后的改进类激活映射上每个像素点在所有通道方向上最大值所在的位置对应的类别作为该像素点的类别,从而实现所有像素点的类别分类。
15.进一步的,所述第一分类网络采用resnet38分类网络。
16.进一步的,所述步骤5中第一门控的部分融合模块或第二门控的部分融合模块对输入的特征图进行如下处理:
17.步骤5.1:首先对相应的分类网络的第二阶段输出的特征图进行双线性下采样,使得分类网络的第二阶段输出的特征图与分类网络第三阶段,第四阶段或第五阶段输出的特征图的宽度和高度一致;
18.步骤5.2:采用第一~四卷积核分别对第三阶段输出的特征图,第四阶段输出的特征图,第五阶段输出的特征图以及双线性下采样后的第二阶段输出的特征图进行卷积操作,得到特征图x3,x4,x5和x2;
19.步骤5.3:在x3,x4,x5和x2中选择主体特征图,采用融合函数将主体特征图与部分特征图融合,得到融合后的特征图;所述部分特征图为x3,x4,x5和x2中除主体特征图以外的特征图;
20.步骤5.4:第一门控的部分融合模块或第二门控的部分融合模块对输入至相应分类网络中的图像进行下采样,将下采样后的图像与融合后的特征图进行拼接,最终得到门控特征图和仿射门控特征图。
21.进一步的,所述步骤5.3中融合函数如下所示:
22.23.其中l=2,3,4或5;l=5,gi=sigmoid(wi*xi),g
l
=sigmoid(w
l
*x
l
),wi为分类网络中第i阶段的权重参数,w
l
为分类网络中第i阶段的权重参数;x
l
表示主体特征图,为主体特征图与部分特征图融合后的特征图,为超参数。
24.进一步的,所述步骤5.3中选择x3和x4作为主体特征图,则经过融合函数后得到融合后的特征图和
25.进一步的,所述步骤6中交叉特征注意力模型对输入的类激活映射,仿射类激活映射,门控特征图以及仿射门控特征图进行如下操作:
26.步骤6.1:对仿射类激活映射和仿射门控特征图分别进行双线性上采样;
27.步骤6.2:将门控特征图和仿射门控特征图进行拼接,采用两个共享权值的1
×
1卷积层对拼接后的特征图进行卷积操作得到尺寸为h
×w×
c1的新门控特征图,h,w为分类网络第三、第四或第五阶段输出的特征图的高度和宽度,c1为新门控特征图的通道数;
28.步骤6.3:对新的门控特征图的所有像素点间进行相似度计算,得到相似度矩阵;
29.步骤6.4:将相似度矩阵与仿射类激活映射进行乘积计算,将乘积后的结果与类激活映射相加,最终得到改进的类激活映射。
30.进一步的,所述步骤6.3中采用如下公式进行相似度计算:
[0031][0032]
其中x
i’,x
j’分别表示新的门控特征图中第i’和第j’个像素点,t为张量转置,relu(
·
)为激活函数,f(x
i’,x
j’)表示第i’和第j’个像素点之间的相似度,θ(.)表示1*1的卷积核,||.||表示计算张量。
[0033]
进一步的,该方法还包括对第一、第二分类网,第一、第二门控的部分融合模块以及交叉特征注意力模型构成的分割网络进行端到端的整体训练,则训练时采用的损失函数为:
[0034]
l
total
=l
cls
+l
self-ec
+l
cross-ec
[0035]
其中l
cls
为分类网络的损失函数,l
self-ec
为等变损失函数,l
cross-ec
为交叉等变损失函数,表达式如下所示:
[0036][0037][0038]
其中,l
self-ec
为自等变损失函数,l
cross-ec
为交叉等变损失函数,x为原始图像,a(
·
)和a-1
(
·
)分别为仿射变换函数和仿射逆变换函数,为分类网络,为分割网络函,||
·
||
l1
是计算张量的l1损失函数。
[0039]
有益效果:在弱监督语义分割领域中,本发明提出了门控特征注意力等变分割算法,本发明构建两支等变约束的孪生网络,挖掘模型自身的额外监督信息,为弱监督网络的分割结果提供了类似像素级标注的约束。门控的部分融合模块通过连接当前层特征图与其他层特征图,只筛选出有效的特征信息,并结合了原始图像的颜色信息,提高了全局注意力模块的像素点分类准确性。交叉特征注意力模块比起全局注意力模块,能够更好地利用孪
生网络的有效特征图和类激活映射,从而扩展初始类激活映射的覆盖区域。并提高了弱监督网络的分割精度。本发明结合了这三方面的优点,在分割精度方面,超越了许多弱监督的多物体分割算法。
附图说明
[0040]
图1为本发明流程图。
[0041]
图2为门控的部分融合模块的框架示意图。
[0042]
图3为交叉特征注意力模块的框架示意图。
具体实施方式
[0043]
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
[0044]
图1为本发明所提出的基于弱监督学习的门控特征注意力分割方法的流程示意图,其具体可分为等变约束的孪生分类网络、门控的部分融合模块和交叉特征注意力模块这三个模块。其具体流程步骤如下:
[0045]
首先,构建resnet38分类网络,将图像和其所对应的分类标注送入网络中,通过分类损失函数进行分类训练,得到图像的类别信息。在分类训练中,分类损失函数如下所示:
[0046][0047]
其中z是分类网络的预测向量,l’是图像的分类标注,c’为类别编号,c为类别总数(包含目标类别数量的c-1个和背景类别数量的1个)。z
c’和l’c
分别是图像属于类别c的预测置信度和其分类的真值标注。
[0048]
其次,将原始图像输入至训练后分类网络,将训练后的分类网络的最后一层特征图(c,h,w),作为类激活映射(cam),其中c为通道方向,h为高度方向,w为宽度方向,该类激活映射得到了图像中物体类的位置信息。
[0049]
再次,如图2所示将原始图像输入至分类网络后得到的各阶段输出的特征图,即第二、三、四和五阶段输出的特征图导入到门控的部分融合模块中对特征图像进行融合处理,将融合后的特征图与下采样后的rgb三通道的原始图像进行拼接,从而筛选出有利于提高最终分割平均交并比(miou)的特征信息,得到最后的门控特征图。并将原始图像的颜色信息与筛选后有效特征图(最后的门控特征图)进行拼接,得到门控特征图。
[0050]
针对类激活映射与传统语义分割网络具有不同网络结构的问题,本实施例提出了门控的部分融合模块来对类激活映射的原有特征图进行特征筛选。首先,对resnet38中的第二阶段输出的特征图进行双线性下采样的操作,降低特征图的宽度和高度,均为原来的1/2,保证其与第三、四、五阶段输出的特征图宽度和高度的一致性。其次,通过四个独立的1
×
1卷积核对具有相同宽度和高度的第二、三、四、五阶段输出的特征图分别进行处理,保证它们通道数均为256,并得到图2中的四个具有相同尺度的预处理后的特征图x2、x3、x4和x5。然后,通过一个门控的部分融合函数来进行有效特征的筛选,其可以被定义为:
[0051][0052]
其中l=2,3,4或5;l=5,gi=sigmoid(wi*xi),g
l
=sigmoid(w
l
*x
l
),wi为分类网络中第i阶段的权重参数,w
l
为主体特征图在分类网络中所对应阶段的权重参数;x
l
表示主体特征图(从x2、x3、x4和x5中选择的主体特征图),xi表示部分特征图(x3,x4,x5和x2中除主体特征图以外的特征图)为主体特征图与部分特征图融合后的特征图;为平衡超参数;公式中加入了平衡超参数和选择第二、三、四、五层的特征图进行部分融合,以区分当前阶段(主体特征图)和其他阶段(部分特征图)之间的不同阶段的特征图。
[0053]
其中xi表示第i阶段输出的特征图,注意这里的l和i都是特征图各阶段的位置索引,l指门控的部分融合函数计算的当前阶段,而i是当前阶段外的其他阶段,门控的部分融合模块针对当前阶段l的特征图进行处理,并将其他阶段i(即i≠l)的特征图信息进行了引入。第i阶段的门控参数图gi是由分类网络第i阶段的权重参数得到gi=sigmoid(wi*xi)。第l阶段的门控参数图g
l
的生成方法与gi相同,故g
l
=sigmoid(w
l
*x
l
),代表了当前阶段l的门控参数图。这里为了避免g
l
≈1时,门控函数出现无法有效融合其他阶段特征图的问题,提出了一个非线性的平衡超参数在门控的部分融合模块中,本实施例中只将x3和x4作为主体特征图,并融合其他阶段特征图(即部分特征图)的有效信息。最后,将具有rgb三通道的原始图像进行双线性下采样,得到rgb特征图将与部分融合后的新特征图和进行拼接,得到最终的门控特征图提高了生成的特征图的有效性。
[0054]
然后,对输入至分类网络的图像(也既原始图像)并行引入仿射变换中的缩放方法,将原始图像的尺寸缩小到原来的0.4倍,并将训练后的分类网络进行权重共享而得到第二个分类网络,则第一分类网络和第二分类网络为两个孪生分类网络;实现由图像级标注向像素级标注的转换,然后,将两个孪生网络的门控特征图和类激活映射(第一分类网络对应类激活映射和门控特征图,第二分类网络对应仿射类激活映射和仿射门控特征图)送入到本实施例设计的交叉特征注意力模块中,该模块的具体实现如图3所示。建立起全局像素点之间的关联性,实现对类激活映射和仿射类激活映射的扩展,得到改进类激活映射,最终实现了结合图像级标注的弱监督语义分割。在该交叉特征注意力模块中,首先需要将仿射门控特征图和仿射类激活映射进行上采样操作;再将上采样后的仿射门控特征图与门控特征图进行拼接,并结合两个共享权重的1
×
1卷积层进行特征融合,得到尺寸为(h
×w×
c1)新的门控特征图,h和w是分类网络第三、四或五阶段输出的特征图的高度和宽度,c1为新门控特征图的通道数,本实施例中设置为195。对新的门控特征图的所有像素点间进行相似度计算,相似度越高的像素点属于同一类的概率越大,相似度越低的属于同类的概率也越小。结合图3的流程,将计算出的相似度矩阵与上采样后的仿射类激活映射进行乘积,并与类激活映射相加,得到改进后的类激活映射。改进后的类激活映射扩大了类激活映射的覆盖区域,缓解了类激活映射粗略定位仅集中在物体类最显著区域的问题,提高了弱监督分割网络的准确性。
[0055]
针对类激活映射的粗略定位集中在物体类最显著的区域的问题,本实施例提出的交叉特征注意力模块对初始类激活映射的覆盖区域进行扩展。首先,从两支等变约束的孪生网络中提取出门控特征图和类激活映射,将它们导入到交叉特征注意力模块中。由于仿射变换后的仿射图像在尺寸上小于原始图像,两个孪生网络对应的门控特征图和类激活映射也具有不同的尺寸。为了能够在交叉特征注意力模块建立两支孪生网络门控特征图的联系,对仿射门控特征图和仿射类激活映射都进行了双线性上采样的操作,保证其与未经过仿射的门控特征图和类激活映射具有相同的尺寸。紧接着,将两个门控特征图进行拼接操作和1
×
1卷积的操作,生成一个融合特征图x,方便后续的建立全局像素点的关联性。在交叉特征注意力模块定义了一个交叉特征注意力等式,其可表示为:
[0056][0057]
其中i’和j’分别是融合特征图x的位置索引(也既x
i’,x
j’分别表示新的门控特征图中第i’和第j’个像素点),m和n分别是仿射类激活映射和类激活映射,残差结构的超参数λ设定为0.2。这里的函数f(
·
)是像素点相似度函数,c(x
i’)是归一化参数,其可以表示为而像素点相似度函数f(
·
)可以定义为:
[0058][0059]
其中上标t表示张量转置,θ(.)表示1*1的卷积核,||
·
||表示对张量计算其长度,通过这种归一化,使得相似度大小始终在[-1,1]的范围内。激活函数relu(
·
)用来移除相似度为负数的像素点不相关的联系,仅保留相似度为正数的联系。交叉特征注意力等式的结果为最终的改进类激活映射,选取其每个像素点的特征向量中最大元素所在位置的类别作为该像素点的类别。
[0060]
如图1所示,整个网络最终的分割结果由改进类激活映射(h
×w×
c)进行上采样操作,将改进类激活映射的尺寸上采样为与原始图像(h0×
w0)等高等宽的尺寸(h0×
w0×
c)。其中c为的类别总数(包含目标类别数量的c-1个和背景类别数量的1个),并找到上采样的改进类激活映射中每个位置上的像素点在c个通道方向上的最大值所在位置对应的类别,将该类别作为对应像素点的雷贝,从而实现所有像素点的类别分类,像素点分类的最终结果就是整个网络的最终分割图。在网络训练的过程中,除了使用分类损失函数训练resnet38分类网络外,在孪生网络、门控的部分融合模块和交叉特征注意力模块三部分构建好后构成分割网络,再对整个分割网络进行一次端到端的训练,并引入等变约束的方法,在这端到端的训练过程中,等变约束方法主要由两种等变损失函数(即自等变损失函数和交叉等变损失函数)组成,通过自等变损失函数l
self-ec
来约束类激活映射和仿射类激活映射的等变一致性,通过交叉等变损失函数l
cross-ec
来约束改进类激活映射与前两种类激活映射(类激活映射和仿射类激活映射)的等变一致性。这两种等变损失函数分别定义为:
[0061][0062]
[0063]
其中x为原始图像,a(
·
)和a-1
(
·
)为仿射变换函数和仿射逆变换函数,为分类网络,为分割网络,||
·
||
l1
是计算张量的l1损失函数。在最后一次端到端的训练中,其总损失函数如下所示:
[0064]
l
total
=l
cls
+l
self-ec
+l
cross-ec
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0065]
最终的总损失函数l
total
是分类损失l
cls
、自等变损失l
self-ec
和交叉等变损失l
cross-ec
的总和,三种损失共同约束弱监督分割网络,缩小了弱监督网络与强监督网络之间的差距。
[0066]
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1