一种基于类编解码结构的草图语义分割方法

文档序号:31415626发布日期:2022-09-03 13:53阅读:110来源:国知局
一种基于类编解码结构的草图语义分割方法

1.本发明涉及一种基于类编解码结构的草图语义分割方法,属于计算机视觉技术领域。


背景技术:

2.草图是一种最直观最原始的交流方式之一,从远古时期一直受到人类的欢迎。最近几年,随着触屏设备的普及和绘画程序的出现,人们通过草图绘制创作了不少作品。与图像明显不同,草图具有稀疏性,并有多个抽象层次。目前,有关草图的相关研究包括:草图识别,基于草图的图像检索,基于草图的3d模型检索,草图语义分割和草图标注等。其中,草图语义分割对理解草图内容起着重要作用,因此,草图语义分割在实现其他有关草图的视觉任务中扮演了重要角色。当前的草图语义分割方法主要基于深度学习方法实现。依据草图输入的具体形态和格式,相关方法被大体分为三大类:基于序列的方法、基于图像的方法和基于点的方法。基于序列的方法,将草图当成笔画序列,并基于序列模型,如:rnn等编码草图特征。基于图像的方法,直接将草图语义分割问题转化为图像语义分割问题,并通过建立结合草图特点的卷积神经网络解决。这种方法将草图只看成静态图像,因此丢失了笔画信息。基于点的方法将草图当成一个点集合,通过不断聚集局部特征,并使用这些特征建立编解码结构生成基于点的语义分割图。为了方便起见,本发明将不断聚集局部特征的模块称为局部特征聚集模块。传统的局部特征聚集模块在感知采样点的周围区域时,忽略了笔画的内部结构和笔画的连续性,因此本发明定义了笔画距离,并随机使用欧式距离和笔画距离来感知采样点的周围区域,这使得新颖的局部特征聚集模块符合草图的二维空间分布和笔画结构。与此同时,传统的局部特征聚集模块通常只编码了绝对位置信息和中间阶段特征。本发明提出新颖的局部模块编码了丰富的信息,包括:绝对位置信息、相对位置信息、中间阶段特征和笔画信息等,而这些丰富的信息对草图语义理解具有重要作用。与传统草图语义分割方法相比,所提方法更注重草图内部线段与线段的关系,基于多头自注意力思想,提出线段层次自注意力模块用于建立和加强线段之间的关系。进一步地,本发明提出了类编解码结构,类编解码结构由编码阶段和解码阶段构成,编码阶段使用新颖的局部特征聚集模块对草图特征进行编码,解码阶段基于这些草图特征生成语义分割图。类编解码结构与传统的编解码结构有两点不同之处,第一,在编解码的过程中,不对采样点进行下采样和上采样操作。第二,通过收集若干个关键阶段的特征,实现全局多尺度机制。相对于传统方法而言,所提方法同时关注点层次语义和线段层次语义。综上所述,本发明的方法解决了传统方法未解决的几个关键问题,包括:(1)编码过程未注重笔画的连续性和内部结构;(2)编码信息内容不充分,尤其是对语义重要的信息;(3)未实现全局注意力机制,编码解码过程中丢掉了关键点特征;(4)未注重草图内部结构,尤其是线段与线段的关系。


技术实现要素:

3.本发明的目的在于提供一种基于类编解码结构的草图语义分割方法,该方法输入
为点集合,训练方法简单,是基于一种端到端网络的方法。本发明从“点”角度和“线段”角度共同标注草图上任意一点的语义,相比传统方法,该方法更注重笔画结构,及草图中线段与线段的关系。另外,方法还编码了大量的有用信息显著提高了草图特征的语义区分能力。
4.为实现上述目的,本发明采用的技术方案是:
5.一种基于类编解码结构的草图语义分割方法,包括如下步骤:
6.(1)点格式数据的获取:利用最远点采样法对草图样本进行采样,将草图样本转化为具有n个点的点集合;
7.(2)构建草图语义分割模型:构建类编解码结构;类编码结构的编码阶段包括若干个局部特征聚集模块,解码阶段包括若干个多层感知机和在末尾的两个子分支,所述两个子分支包括:点层次子分支和线段层次子分支。其中,在线段层次子分支基于多头注意力机制设计了线段层次自注意力模块,用于建立和增强草图中线段与线段的关系。
8.(3)训练草图语义分割模型:点层次子分支和线段层次子分支分别连接两个交叉熵损失,两个交叉熵损失联合用于引导草图语义分割模型的训练。相关的损失表示为:
9.l=l
point-level
+l
segment-level
[0010][0011][0012]
其中,l
point-level
是点层次损失,l
segment-level
是线段层次损失。y
i,j
是一个独热向量,即当y
i,j
的语义为k时,y
i,j,k
为1,而y
i,j
向量的其他所有元素都为0。
[0013]
(4)获取语义分割结果:将测试的样本即一个含有n个点的点集合输入至已训练好的语义分割模型,点层次子分支会生成点层次语义分割图,线段层次子分支会生成线段层次语义分割图,将点层次语义分割图与线段层次语义分割图融合,获得最终的分割结果。
[0014]
进一步地,所述新颖的局部特征聚集模块的内部包含了两个基本处理步骤,包括:使用区域感知过程p获取采样点的周围区域。基于采样点和所获取的周围区域使用特征计算过程c编码采样点的特征。
[0015]
进一步地,所述的区域感知过程p,其特征在于,区域感知过程p随机使用欧式距离或笔画距离并结合k近邻算法来获取采样点的周围区域。具体地,笔画距离定义如下:
[0016][0017]
其中,(xi,yi)为采样点pi的坐标,(x
ij
,y
ij
)为pi周围任意一点p
ij
的坐标,si和s
ij
为pi和p
ij
的所属笔画id,m为缩放因子,且m满足以下公式:
[0018][0019]
其中,w为草图的宽度,h为草图的高度。进一步地,所述的特征计算过程c,其特征在于,对pi的周围区域进行编码,编码过程捕捉了丰富草图信息,包括:绝对位置信息、相对位置信息、中间阶段特征、距离信息和笔画信息等,具体表示如下:
[0020][0021]
其中,fi和f
ij
分别为pi和p
ij
的中间阶段特征,dist
ij
为pi与p
ij
之间的距离,θ
ij
为pi与p
ij
之间的角度,s
ij
为p
ij
的笔画id,m为多层感知机,δ为relu函数。
[0022]
进一步地,所述线段层次自注意力模块构建和增强了草图中线段与线段之间的关系。给定线段特征fs,构建和增强线段之间关系的具体步骤为:(1)通过多层感知机和矩阵形变获取相关的查询向量vq和键向量vk,具体过程如下:
[0023]
vq=t(m(fs))
[0024]
vk=t(m(fs))
[0025]
其中,m为多层感知机,t为矩阵形变。依据线段在笔画中的位置p
stroke
、线段在草图中的位置p
sketch
和查询嵌入字典,得到线段在笔画中的位置嵌入和线段在草图中的位置嵌入,具体过程如下:
[0026]estroke
=t(s(p
stroke
,d
stroke
))
[0027]esketch
=t(s(p
sketch
,d
sketch
))
[0028]
其中,s是相关字典的查询过程。将位置嵌入e
stroke
和e
sketch
相加,并将相加结果与查询向量vq相乘,得到线段的位置特征,具体过程如下:
[0029][0030]
其中,+代表逐元素相加,代表矩阵相乘。进一步,将查询向量vq进行形变与键向量vk相乘得线段的内容特征。详细过程如下:
[0031][0032]
最终,建立和增强线段与线段关系的线段特征的计算方法如下:
[0033][0034]
其中,vv代表值向量,softmax为激活函数。fs'为线段层次自注意力模块处理后的线段特征。
[0035]
进一步地,所述类编解码结构与传统的编解码结构执行1个相同操作和2个不同操作。1个相同操作为:利用多层感知机使采样点的特征维度先增加后减少。2个不同的操作为:类编解码结构对采样点不执行下采样和上采样操作,即:采样点的个数在编解码的过程中维持不变;类编解码结构通过收集和连接中间若干阶段的草图特征实现全局多尺度机制。
[0036]
与现有技术相比,本发明方法具有如下优点:
[0037]
1、本发明是一种使用点集合作为输入的草图语义分割方法,与绝大多数方法相比,本发明方法具有参数量少,计算复杂度低等特点,方便方法移植到便携设备上运行。
[0038]
2、本发明的局部特征聚集模块编码了丰富的与语义相关的信息,包括:绝对位置信息,相对位置信息,中间阶段特征,笔画信息等,相对于传统局部特征聚集模块所考虑到的信息更加充分,且本发明的局部特征聚集模块计算过程符合笔画结构。
[0039]
3、本发明提出了一种线段层次自注意力模块,该模块被设置在类编解码结构末尾的线段层次子分支用于建立和增强草图中线段之间的关系,更加精准地描述草图的内部结构。
[0040]
4、本发明提出了一种类编解码结构,该结构与传统的编解码结构相比,未丢掉关
键点的特征信息,且实现了全局多尺度技术,使最终生成的语义分割结果可以关注到不同关键阶段的草图特征。本发明依据“点”层次和“线段”层次两个角度共同划分草图的语义,且所依赖的模型是一种端到端网络,方法简单而高效。
附图说明
[0041]
图1是本发明方法的流程图;
[0042]
图2是所提模型的框架图;
[0043]
图3是新颖的局部特征聚集模块的内部工作原理图;
[0044]
图4是传统区域感知过程和所提区域感知过程图;
[0045]
图5是传统卷积核的隐式编码内容图;
[0046]
图6是线段层次自注意力内部原理图;
具体实施方式
[0047]
下面结合附图对本发明做进一步说明:
[0048]
图1是本发明方法的流程图,所述一种基于类编解码结构的草图语义分割方法包括以下内容:
[0049]
内容1,本发明使用spg和sketchseg-150k数据集进行训练和测试。在spg和sketchseg-150k执行最远点采样法,使每个样本可以用固定数量的点表示,即将输入样本转化为固定数量的点集合。
[0050]
内容2,构建本发明的草图语义分割模型。本发明所提出的语义分割模型如图2所示,其中,nlfa表示新颖的局部特征聚集,slsa表示线段层次自注意力,mlp表示多层感知机,pl和sl分别代表点层次和线段层次。依据图2,所述草图语义分割模型包括类编解码结构,所述类编解码结构包括4个编码阶段和5个解码阶段,所述编码阶段主要通过局部特征聚集模块实现,所述解码阶段包括4个多层感知机以及末尾的点层次子分支和线段层次子分支,解码阶段的点层次子分支只执行了降维操作,由多层感知机实现。在线段层次子分支上,设计了线段层次自注意力模块用于建立和增强草图中线段之间的关系,方便描述草图的内容结构。通过论述草图语义分割模型的结构可知,新颖的局部特征聚集模块、线段层次自注意力模块和类编解码结构是所提方法的重要组成部分,下面重点论述这三个部分。
[0051]
内容2-1,局部特征聚集模块是草图语义分割方法的重要模块,其内部工作原理如图3所示。为了论述简洁,本发明忽略了超参数batch size b。依据图3,输入点pi基于不同的膨胀率r,使用区域感知过程p来获取pi周围附近的点。基于pi和被感知到所有点,pi使用特征计算过程c来编码丰富的草图信息。进一步通过多层感知机和最大池化操作完成该模块的编码。由此可知,该模块包括:区域感知过程p和特征计算过程c两个部分。
[0052]
内容2-1-1,当采样点感知周围区域时,区域感知过程扮演了关键角色。传统的局域感知过程是基于欧式距离并结合k近邻算法实现,图4(a)展示了使用传统方法获得的感知区域。在图4(a)中,pi(xi,yi)是采样点,p
ij
(x
ij
,y
ij
)是采样点周围任意一点。则周围区域p
ik
{p
i1
,p
i2
,...,p
ik
}由下列公式获取:
[0053]
[0054]
其中,argmin代表获取与最近k个距离对应的k个点。尽管上述感知过程所获得的区域符合草图在二维空间的分布,但该过程忽略了草图的笔画的连续性和笔画的内部结构。因此,本发明提出定义笔画距离并将其与k近邻算法结合来获取周围区域。具体过程如下列公式表示:
[0055][0056]
其中,(xi,yi)为采样点pi的坐标,(x
ij
,y
ij
)为pi周围任意一点p
ij
的坐标,si,s
ij
为pi和p
ij
的所属笔画id,m为缩放因子,且m满足以下公式:
[0057][0058]
其中,w为草图的宽度,h为草图的高度。上述用于获取周围区域的公式表明,在pi和p
ij
为同一笔画的情况下,笔画距离等于传统的欧式距离。否则,两点之间的笔画距离会增大数倍。换句话说,区域感知过程p沿着草图笔画感知周围区域,这使得所提方法考虑了笔画的连续性,有利于感知笔画结构。所提方法的感知区域如图4(b)所示,在实际训练时,感知过程p随机选择欧式距离或笔画距离完成感知过程,这导致所提方法同时考虑草图的二维空间分布和笔画结构。值得注意的是,区域感知过程p还使用了膨胀卷积思想扩大感区域,在图3中,使用不同的膨胀率r实现这一过程。
[0059]
内容2-1-2,特征计算过程c被用于编码各种草图信息。传统的特征计算过程只编码了绝对位置信息和中间阶段特征,这些编码的草图信息对于表示草图并不充分,这严重阻碍了草图语义分割的性能。很明显,特征计算过程和cnn的卷积核有这类似的作用,然而,cnn的卷积核隐式编码了距离信息和相对位置信息。如图5所示,pi与{p
i1
,p
i2
,...,p
i8
}之间的距离为1曼哈顿距离,它们之间的角度为{0
°
,45
°
,...,135
°
}。而传统的特征计算过程忽略了这些关键信息,这严重降低了草图内容的完整性。为此,本发明编码了距离信息、相对位置信息和笔画信息。具体如下:
[0060][0061][0062]
其中,dist
ij
为距离信息,θ
ij
是相对位置信息,即pi和p
ij
之间的角度。进一步,新颖的局部特征聚集模块编码内容如下:
[0063][0064]
其中,fi和f
ij
为pi和p
ij
的中间阶段特征,s
ij
为p
ij
的笔画信息,为连接操作,m为使用多层感知机的线性转换,δ为relu激活函数。根据以上论述,新颖的局部特征聚集模块编码了丰富的草图信息和上下文信息,对比以往的局部特征聚集模块,考虑了笔画结构和笔画的连续性。
[0065]
内容2-2,本发明设计了线段层次自注意力模块用于建立和增强草图内部线段之间的关系。假设该模块的输入为[b,n,d]维的草图特征,其中,b为batch size,n代表采样点
个数,d代表特征维度。本发明将同一笔画上若干个点划分为一个线段,假设每个草图被分为s个线段。具有[b,s,d']维的新线段特征可以通过将具有[b,s,d
×
n/s]维的初始线段特征送入多层感知机获取。本发明的目的是学习线段之间的关系用于描述草图的内部结构。众所周知,多头自注意力机制被用于计算任意两个目标的关系,且被广泛用于自然语言处理和计算机视觉等领域。多头注意力的成功主要源于任意两个目标的关联和它们之间的长依赖。多头注意力机制使神经网络可以同时关注到多个子空间的特征。基于多头注意力思想,本发明通过考虑线段特征和草图特点首次设计了一个线段层次自注意力模块用于学习和增强草图的内部结构。详细的计算方法被展示在图6。给定线段特征fs[s,d'],查询向量vq[h,d”/h,s]和键向量vk[h,d”/h,s]可以通过以下公式获得:
[0066]
vq=t(m(fs))
[0067]
vk=t(m(fs))
[0068]
其中,m代表多层感知机,它的输出维度为:d”,t代表矩阵形变,且查询向量vq和键向量vk都有h个子空间。与此同时,线段的位置信息通过一下公式处理:
[0069]estroke
=t(s(p
stroke
,d
stroke
))
[0070]esketch
=t(s(p
sketch
,d
sketch
))
[0071]
其中,s是相关字典的查询过程。p
stroke
和p
sketch
是两个独热向量,分别代表线段在所属笔画的位置信息和线段在所属草图的位置信息。依据p
stroke
和p
sketch
的值查询嵌入字典d
stroke
和d
sketch
,之后对查询结果执行矩阵变换获得对应的位置嵌入e
stroke
和e
sketch
。很明显,p
stroke
和p
sketch
的存在使得线段之间的关系可以捕捉线段在所属笔画的局部位置和线段在所属草图中的全局位置,这使得线段之间的关系更加精确。进一步地,本发明对线段的位置特征和内容特征进行编码。相关的公式如下:
[0072][0073][0074]
其中,代表矩阵乘法,+代表逐元素相加。最终,线段层次自注意力模块的计算过程如下:
[0075][0076]
其中,vv代表值向量,softmax为激活函数。fs'为线段层次自注意力模块处理后的线段特征。
[0077]
内容2-3,类编解码结构是所提方法的框架,类编解码结构主要由两个重要特点。所提方法的框架是基于类编解码结构而非真实的编解码结构。基于全局注意力机制,类编解码结构将若干阶段的草图特征聚集用于生成最终的草图分割结果。
[0078]
内容2-3-1,图2详细展示了由八个阶段和两个子分支组成的类编码结构。前四个阶段是使用新颖的局部特征聚集模块的编码阶段,后四个阶段是只使用非线性变换的解码阶段。相比常规的编解码结构,类编解码结构没有对采样点执行下采样和上采样操作。这种方式使得采样点的数量维持不变,保留了重要点的特征,进一步确保了所提方法的性能。与常规的编解码结构类似,所有阶段的特征通道数先增加后减少,这意味着在前四个阶段本发明逐步丰富深度特征,之后依据这些深度特征标记每个点的语义。
[0079]
内容2-3-2,编码阶段的新颖的局部特征聚集模块基于膨胀卷积思想实现了多尺
度机制。然而,这种机制被限制在局部区域,不同阶段的全局上下文在编码和解码的过程中被忽略。从全局的角度看,缺乏长依赖将导致同一类点的特征差异。因此,本发明使用跳跃链接聚集中间若干阶段的特征以建立全局多尺度机制,相关细节可以查看图2。依据图2可以看出,用于生成最终语义分割图的特征主要来源于四个中间阶段的输出,这些输出描述了不同的全局语义信息,提升了语义分析的能力。
[0080]
内容3,训练本发明的草图语义分割模型。将点层次交叉熵损失l
point-level
连接到点层次分支,线段层次交叉熵损失l
segment-level
连接到线段层次分支。l
point-level
和l
segment-level
两个交叉熵损失联合用于训练草图语义分割模型。相关的公式如下:
[0081]
l=l
point-level
+l
segment-level
[0082][0083][0084]
其中,l
point-level
是点层次交叉熵损失,l
segment-level
是线段层次交叉熵损失。y
i,j
是一个独热向量,代表语义标注,即:当y
i,j
的语义为k时,y
i,j,k
为1,而y
i,j
向量的其他所有元素都为0。将spg和sketchseg-150k数据集中的训练样本输入至所提草图语义分割模型,并使用adam算法执行100轮优化该模型,得到训练好草图语义分割模型。
[0085]
内容4,将spg和sketchseg-150k数据集中的测试样本输入至已训练好的草图语义分割模型,该模型的两个子分支会输出点层次的语义分割图和线段层次的语义分割图,将线段层次的语义分割图进行repeat操作使得分割图的维度与点层次的语义分割图的维度一致,之后将这两个语义分割图执行逐元素相加操作得到最终的草图语义分割结果。
[0086]
以上所述的实施例仅是对本发明的其中一种实施方式,用于理解方法及其核心思想,而非对本发明的范围进行限定。在不脱离本发明设计思想的前提下,本领域研究人员对本发明的技术方案做出的变形和改进均应落入本发明权利要求书确定的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1