一种基于自注意力机制与空洞卷积池化的语义分割方法、存储介质和视觉装置与流程

文档序号:33017157发布日期:2023-01-20 16:50阅读:53来源:国知局
一种基于自注意力机制与空洞卷积池化的语义分割方法、存储介质和视觉装置与流程

1.本发明涉及计算机视觉技术领域,具体涉及基于自注意力机制与空洞卷积池化的语义分割方法、存储介质和视觉装置。


背景技术:

2.图像分割任务是计算机视觉中场景理解的重要方向,其为人工智能的决策提供前置有用信息的获取和视觉场景基础属性的理解。自2014年全卷积神经网络(fully convolutional networks,fcn)提出以来,将全连接层去除,通过卷积与反卷积,或者说是编码与解码,将输入与输出实现点到点对应的思想,已经成为现如今的语义分割框架研究的基础。但是fcn在去除全连接层后,特征在深度压缩后还需要还原回原图尺寸以得到像素级分类标注图的输出,这就不可避免产生了另外的问题:一是在下采样过程中,随着网络层数加深造成了浅层信息的丢失,二是卷积核感受野的限制带来了上下文关联信息的缺失。因此,亟需改进优化fcn技术。


技术实现要素:

3.本发明的目的之一在于避免现有技术中的不足之处而提供一种基于自注意力机制与空洞卷积池化的语义分割方法,该基于自注意力机制与空洞卷积池化的语义分割方法能得到上下文信息丰富、不同尺度的抽象特征,其能有效补全丢失的浅层信息。
4.为实现上述目的之一,本发明提供以下技术方案:
5.提供一种基于自注意力机制与空洞卷积池化的语义分割方法,包括以下步骤
6.s1、采用编码器对输入图像进行提取特征,由浅至深分别提取出x1、x2、x3……
xk多层特征,所述多层特征的特征尺寸按x1、x2、x3……
xk的顺序逐层减半,多层特征的通道数按x1、x2、x3……
xk的顺序逐层增加;
7.s2、采用自注意力结构分别求取s1处理后的每层特征xi的自相关矩阵以转置特征xi,将转置后的xi再次与s1处理后的特征xi进行矩阵相乘,获取全局自注意力信息,输出特征yi,yi的通道数与xi的通道数保持一致;
8.s3、采用轻量化空洞卷积池化结构miniaspp对每层输入特征yi进行感受野增强,获取上下文信息,输出特征zi;
9.s4、采用解码器通过级联上采样的方式将s3处理后的各层特征按zk、z
k-1
……
z3、z2、z1的顺序拼接,得到原始输入图像尺寸大小的语义分割结果。
10.在一些实施方式中,s1中,提取出x1、x2、x3、x4四层特征;x1、x2、x3、x4的通道数分别为256、512、1024、2048。
11.在一些实施方式中,所述s2由以下阶段实现:
12.s21、特征集成阶段:针对输入的特征xi,分别经过两个1x1卷积,得到两个特征q、k,合并通道数以外的维度,通过双线性池化捕捉两个特征间的复杂关系,求取自相关矩阵
式(1),式(1)如下所示:
[0013][0014]
其中,q=[q1,

,q
wh
]∈rm×
wh
,k=[k1,

,k
wh
]∈rn×
wh
,q、k是同一个特征经过两个不同的1x1卷积得到的同源特征,表示为k=θ(x;w
θ
)。
[0015]
将双线性池化操作的输出变量定义为g=[g1,

,gn]∈rm×n,重写第二个特征,重写第二个特征是一个wh维的行向量,最终输出式(2),式(2)如下所示:
[0016][0017]
式(2)中表示特征集成的每个基元gi是通过收集局部特征用加权得到的;j为特征图上像素点的位置,i为不同的注意力图,最后再将softmax应用于k,将注意力权值映射到0~1中,得到二阶注意力池化过程式(3),式(3)如下所示:
[0018]gi
=qsoftmax(ki)
t
ꢀꢀꢀ
(3)
[0019]
s22、特征分配阶段:通过一个1x1卷积得到特征v,用作特征分配的输入,将上一个阶段集成的特征自适应地分布到输入的每一个位置vi,以此感知全局信息,得到经过自注意的每个特征式(4),式(4)如下所示:
[0020][0021]
其中v=[v1,

,v
wh
]∈rn×
wh
,特征v是输入特征x经过1x1卷积后,再经过softmax映射到0~1中,表示为v=softmax(ρ(x;w
ρ
))。
[0022]
s23、结合阶段:将特征集成阶段与特征分配阶段结合,将s1处理后的xi与经过全局注意处理后的特征xi做残差运算,得到最终的注意力模块运算步骤式(5),式(5)如下所示:
[0023][0024]
在一些实施方式中,s3中,所述miniaspp模块由三个并行子分支组成,其中两个并行子分支均应用3
×
3的卷积,且该两分支分别使用128个输出通道以及分别为1和6的膨胀率,剩下一个子分支采用64
×
64平均池化运算,步长为1,然后对边界进行复制填充,恢复输入的空间分辨率,再经过一个1
×
1卷积,输出通道为128;最后,三个子分支的输出进行通道数的拼接,通过一个3x3的卷积后,三个分支的特征融合并降维至256个通道数。
[0025]
在一些实施方式中,所述编码器采取resnet50网络。
[0026]
还提供一种存储介质,所述存储介质用于存储程序,所述程序被处理器执行时实现上述的基于自注意力机制与空洞卷积池化的语义分割方法。
[0027]
还提供一种视觉装置,包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于自注意力机制与空洞卷积池化的语义分割方法。
[0028]
本发明一种基于自注意力机制与空洞卷积池化的语义分割方法的有益效果:
[0029]
(1)本发明的基于自注意力机制与空洞卷积池化的语义分割方法,由浅至深对输入图像进行深度多层特征提取后,分别求取每层特征的自相关矩阵,将其与原始输入特征进行矩阵相乘,获取全局自注意力信息,得到双注意力模块;并行的串联了双注意力模块和轻量化空洞卷积池化金字塔结构,对图自身的像素间关联性质进行学习和扩大感受野,得到更精确的像素级别的分类。此外,在将深度语义特征上采样回到原图大小过程中,采用了级联上采样,用以补全一些下采样过程中丢失的细节信息,最终得到了有效的基于全卷积网络的语义分割框架。
[0030]
(2)本发明的基于自注意力机制与空洞卷积池化的语义分割方法,通过自注意力模块对图自身的像素间关联性质进行学习,同时融入先集合再分布的软注意力思想,优化自注意力结构的参数量,提高了分割效率。
附图说明
[0031]
图1是实施例的语义分割算法框架图。
[0032]
图2是实施例的语义分割算法流程图。
[0033]
图3是实施例的自注意力结构图。
[0034]
图4是实施例的轻量化空洞卷积池化结构图。
具体实施方式
[0035]
下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
[0036]
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“该”旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0037]
应当理解,尽管在本发明可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0038]
实施例
[0039]
自2014年全卷积神经网络(fully convolutional networks,fcn)提出以来,将全连接层去除,通过卷积与反卷积,或者说是编码与解码,将输入与输出实现点到点对应的思想,已经成为现如今的语义分割框架研究的基础。但是fcn在去除全连接层后,特征在深度压缩后还需要还原回原图尺寸以得到像素级分类标注图的输出,这就不可避免的产生了另外的问题:一是在下采样过程中,随着网络层数加深造成了浅层信息的丢失,二是卷积核感
受野的限制带来了上下文关联信息的缺失。因此,亟需改进优化fcn技术。
[0040]
针对上述问题,本实施公开了基于自注意力机制与空洞卷积池化的语义分割方法,其流程可参见图2,
[0041]
s1、如图1所示的语义分割算法框架,编码器结构采取resnet50网络,对输入图像进行特征提取,由浅至深分别提取出x1、x2、x3、x4四层特征,实际应用中,还根据需要提取其他数目的特征。x1、x2、x3、x4特征尺寸w、h按照x1、x2、x3、x4的顺序逐层减半,x1、x2、x3、x4的通道数逐层增加,即x1、x2、x3、x4的通道数分别为256、512、1024、2048。本步骤由浅至深地对图像进行特征提取,能完整地提取出特征。
[0042]
s2、采用如图3所示的自注意力结构(sa)分别求取s1处理后的每层特征xi的自相关矩阵以转置特征xi,将转置后的xi再次与s1处理后的特征xi进行矩阵相乘,获取全局自注意力信息,输出特征yi,通道数与xi保持一致。详细步骤分为以下两个阶段:
[0043]
s21、特征集成(gathering)阶段,针对输入的特征x,分别经过两个1x1卷积,得到两个特征q、k,将除了通道数外的维度进行合并,之后通过双线性池化(bilinear pooling),捕捉两个特征间的复杂关系,求取自相关矩阵,如式(1)所示。
[0044][0045]
其中,q=[q1,

,q
wh
]∈rm×
wh
,k=[k1,

,k
wh
]∈rn×
wh
,两者是同一个特征经过两个不同的1x1卷积得到的同源特征,可表示为k=θ(x;w
θ
)。
[0046]
式(1)中:t表示转置操作,即将矩阵的行列互换;qi、ki分别表示特征矩阵q和k中的第i个列向量;。
[0047]
式(1)表示对q、k做双线性池化操作的具体计算实现,是对q的每一个列向量和k的每一个列向量的转置做两两相乘,最后累加;q矩阵即描述w*h个列向量。
[0048]
将双线性池化操作的输出变量定义为g=[g1,

,gn]∈rm×n,其中,m x n表示特征g矩阵属的实数空间,即g的特征尺寸为m x n,即,表示g有n个列向量gi,每个列向量gi的尺寸为1 x m,即gi中有m个数值;重写第二个特征中有m个数值;重写第二个特征是一个wh维的行向量,最终输出如式(2)所示。
[0049][0050]
上式中表示的是特征集成的每个基元gi是通过收集局部特征用加权得到的;j为特征图上像素点的位置,i则为不同的注意力图最后再将softmax应用于k,将注意力权值映射到0~1中去,最终得到二阶注意力池化过程如式(3)所示。
[0051]gi
=qsoftmax(ki)
t
ꢀꢀꢀ
(3)
[0052]
s22、特征分配(distributing)阶段,同样通过一个1x1卷积得到特征v,用作特征分配的输入,然后将上一个阶段集成的特征自适应地分布到输入的每一个位置vi,以此感知全局信息,得到经过自注意的每个特征,如式(4)所示。
[0053][0054]
其中v=[v1,

,v
wh
]∈rn×
wh
,特征v是输入特征x经过1x1卷积后,再经过
softmax映射到0~1中,表示为v=softmax(ρ(x;w
ρ
)),式(4)中yi表示对特征v中的每一个位置vi做特征分配操作。
[0055]
式(1)~(4)中,θ、ρ代表三个卷积操作,w代表每个操作对应的参数,表示q、k、v来自同一个x,经过1x1卷积(每个卷积操作学到的参数是不一样的)得到的同源特征。
[0056]
s23、将上面两个步骤结合起来,将原始输入x与经过全局注意的特征做残差运算,得到最终的注意力模块运算步骤,如式(5)所示。
[0057][0058]
式(5)中,f表示是特征分配阶段的操作,即式(4)实现的操作,g代表的是特征集成阶段的操作,即式(1)(2)(3)描述的操作,v、代表卷积操作,v是特征分配阶段的输入。
[0059]
s3、采用如图4所示的轻量化空洞卷积池化结构miniaspp对每层输入特征yi进行感受野增强,获取上下文信息,输出特征zi,zi通道数都为256。其中,所述miniaspp模块由三个并行子分支组成,其中两个并行子分支均应用3
×
3的卷积,且该两分支分别使用128个输出通道以及分别为1和6的膨胀率,剩下一个子分支采用64
×
64平均池化运算,步长为1,然后对边界进行复制填充,恢复输入的空间分辨率,再经过一个1
×
1卷积,输出通道为128;最后,三个子分支的输出进行通道数的拼接,通过一个3x3的卷积后,三个分支的特征融合并降维至256个通道数。最后,输出miniaspp模块。
[0060]
s4、采用解码器通过级联上采样的方式将s3处理后的z1、z2、z3、z4四层特征拼接,即,以z4、z3、z2、z1的方向串联拼接起来,最终得到图1所示的原始输入图像尺寸大小的语义分割结果。
[0061]
本实施例的基于自注意力机制与空洞卷积池化的语义分割方法,提出了一种自注意力结构,通过自注意力模块对图自身的像素间关联性质进行学习,同时融入先集合再分布的软注意力思想,优化自注意力结构的参数量,提高了分割效率;并且,提出了一种轻量化的空洞卷积池化金字塔结构,在不增加参数量的情况下扩大感受野,并通过轻量化结构的级联上采样模式来融合多深度,多尺度的特征,补全了特征压缩过程中丢失的浅层信息。
[0062]
即,本实施例先由浅至深对图像进行深度多层特征提取后,分别求取每层特征的自相关矩阵,将其与原始输入特征进行矩阵相乘,获取全局自注意力信息,得到双注意力模块;并行的串联了双注意力模块和轻量化空洞卷积池化金字塔结构,对图自身的像素间关联性质进行学习和扩大感受野,得到更精确的像素级别的分类。此外在将深度语义特征上采样回到原图大小过程中,采用了级联上采样,用以补全一些下采样过程中丢失的细节信息,最终得到了有效的基于全卷积网络的语义分割框架。
[0063]
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本技术的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号
和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0064]
在本技术的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本技术保护范围的限制;方位词“内、外”是指相对于各部件本身的轮廓的内外。
[0065]
为了便于描述,在这里可以使用空间相对术语,如“在
……
之上”、“在
……
上方”、“在
……
上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语“在
……
上方”可以包括“在
……
上方”和“在
……
下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。
[0066]
此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本技术保护范围的限制。
[0067]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1