图像分割方法和装置以及图像分割模型的训练方法和装置与流程

文档序号:31449496发布日期:2022-09-07 12:52阅读:67来源:国知局
图像分割方法和装置以及图像分割模型的训练方法和装置与流程

1.本公开涉及图像处理领域,尤其涉及一种图像分割方法和图像分割装置、以及图像分割模型的训练方法和训练装置。


背景技术:

2.图像显著性目标分割是一项非常重要的计算机视觉任务,它在图像检索、视觉跟踪图像编辑和影视制作中有多种应用。图像显著性目标分割是指通过智能算法模拟人的视觉特点,逐像素提取图像中的显著区域。
3.随着深度学习的快速发展,深度神经网络被广泛应用于图像显著性目标分割中,从深度网络提取的高层语义特征能够从复杂场景中更准确地辨别目标对象和背景,从而极大地提升了显著性目标分割的效果,因此,深度学习技术成为了该领域中主流的技术之一。虽然基于深度神经网络的分割方法已经取得了很大的进步,但是仍然存在分割准确率低的问题。


技术实现要素:

4.本公开提供一种图像分割方法和图像分割装置以及图像分割模型的训练方法和训练装置,以至少解决上述问题。本公开的技术方案如下:
5.根据本公开实施例的第一方面,提供一种图像分割模型的训练方法,所述训练方法可包括:获取样本图像的第一图像语义特征,所述第一图像语义特征与第一分辨率对应;依据所述第一图像语义特征,获取所述样本图像的语义编码特征;依据所述第一图像语义特征,获取所述样本图像的第二图像语义特征,所述第二图像语义特征与第二分辨率对应,所述第二分辨率高于所述第一分辨率;依据所述语义编码特征和所述第二图像语义特征,得到所述样本图像的图像分割结果;基于所述图像分割结果和预设图像分割结果的差异,确定训练损失,在所述训练损失满足预设条件时,获得所述图像分割模型。
6.作为一种实施方式,获取样本图像的第一图像语义特征,可包括:对所述样本图像进行卷积处理和下采样处理,得到所述样本图像的所述第一图像语义特征。
7.作为一种实施方式,依据所述第一图像语义特征,获取所述样本图像的语义编码特征,可包括:对所述第一图像语义特征进行池化处理、全连接处理和特征映射处理中的至少一个操作,得到预设维度的所述语义编码特征。
8.作为一种实施方式,依据所述第一图像语义特征,获取所述样本图像的第二图像语义特征,可包括:对所述第一图像语义特征进行卷积处理和上采样处理,得到所述样本图像的所述第二图像语义特征。
9.作为一种实施方式,依据所述语义编码特征和所述第二图像语义特征,得到所述样本图像的图像分割结果,可包括:依据所述语义编码特征,对所述第二图像语义特征进行卷积处理,得到所述样本图像的图像分割结果。
10.作为一种实施方式,依据所述语义编码特征,对所述第二图像语义特征进行卷积
处理,可包括:基于所述语义编码特征,设置与所述样本图像对应的处理参数;利用设置后的处理参数对所述第二图像语义特征进行卷积处理。
11.作为一种实施方式,基于所述语义编码特征,设置与所述样本图像对应的处理参数,可包括:基于所述第二图像语义特征的预设通道数以及用于所述卷积处理的卷积核的预设数量和预设大小,确定所述语义编码特征的预设维度;将所述预设维度的语义编码特征中的每个维度语义编码特征分别设置为用于所述卷积处理的卷积核中的卷积权重。
12.作为一种实施方式,利用设置后的处理参数对所述第二图像语义特征进行卷积处理,可包括:对所述第二图像语义特征进行第一卷积处理,得到具有第一特征通道数的图像语义特征,其中,所述第一特征通道数小于所述第二图像语义特征的通道数;对具有第一特征通道数的图像语义特征进行第二卷积处理,得到具有所述第一通道数的图像语义特征;对具有所述第一通道数的图像语义特征进行第三卷积处理,得到具有第二通道数的图像语义特征,其中,所述第二通道数小于所述第一通道数。
13.根据本公开实施例的第二方面,提供一种图像分割方法,可包括:获取输入图像;将所述输入图像输入至图像分割模型,得到所述输入图像的图像分割结果,其中,所述图像分割模型是基于样本图像的语义编码特征和第二图像语义特征获得的图像分割结果训练得到的,所述语义编码特征和所述第二图像语义特征是依据所述样本图像的第一图像语义特征获得,所述第二图像语义特征对应的第二分辨率高于所述第一图像语义特征对应的第一分辨率。
14.作为一种实施方式,将所述输入图像输入至图像分割模型,得到所述输入图像的图像分割结果,可包括:对所述输入图像进行卷积处理和下采样处理,得到所述输入图像的所述第一图像语义特征;对所述第一图像语义特征进行池化处理、全连接处理和特征映射处理中的至少一个操作,得到预设维度的所述语义编码特征;对所述第一图像语义特征进行卷积处理和上采样处理,得到所述输入图像的所述第二图像语义特征;依据所述语义编码特征,对所述第二图像语义特征进行卷积处理,得到所述输入图像的图像分割结果。
15.作为一种实施方式,依据所述语义编码特征,对所述第二图像语义特征进行卷积处理,可包括:基于所述语义编码特征,设置与所述输入图像对应的处理参数;利用设置后的处理参数对所述第二图像语义特征进行卷积处理。
16.作为一种实施方式,基于所述语义编码特征,设置与所述输入图像对应的处理参数,可包括:基于所述第二图像语义特征的预设通道数以及用于所述卷积处理的卷积核的预设数量和预设大小,确定所述语义编码特征的预设维度;将所述预设维度的语义编码特征中的每个维度语义编码特征分别设置为用于所述卷积处理的卷积核中的卷积权重。
17.作为一种实施方式,利用设置后的处理参数对所述第二图像语义特征进行卷积处理,可包括:对所述第二图像语义特征进行第一卷积处理,得到具有第一特征通道数的图像语义特征,其中,所述第一特征通道数小于所述第二图像语义特征的通道数;对具有第一特征通道数的图像语义特征进行第二卷积处理,得到具有所述第一通道数的图像语义特征;对具有所述第一通道数的图像语义特征进行第三卷积处理,得到具有第二通道数的图像语义特征,其中,所述第二通道数小于所述第一通道数。
18.根据本公开实施例的第三方面,提供一种图像分割模型装置,可包括:编码器,被配置为获取输入图像的第一图像语义特征,所述第一图像语义特征与第一分辨率对应;第
一解码器,被配置为依据所述第一图像语义特征,获取所述输入图像的第二图像语义特征,所述第二图像语义特征与第二分辨率对应,所述第二分辨率高于所述第一分辨率;注意力模块,被配置为依据所述第一图像语义特征,获取所述输入图像的语义编码特征;第二解码器,被配置为依据所述语义编码特征和所述第二图像语义特征,得到所述输入图像的图像分割结果。
19.作为一种实施方式,所述编码器可被配置为:对所述输入图像进行卷积处理和下采样处理,得到所述输入图像的所述第一图像语义特征。
20.作为一种实施方式,所述注意力模块可被配置为:对所述第一图像语义特征进行池化处理、全连接处理和特征映射处理中的至少一个操作,得到预设维度的所述语义编码特征。
21.作为一种实施方式,所述第一解码器可被配置为:对所述第一图像语义特征进行卷积处理和上采样处理,得到所述输入图像的所述第二图像语义特征。
22.作为一种实施方式,所述第二解码器可被配置为:依据所述语义编码特征,对所述第二图像语义特征进行卷积处理,得到所述输入图像的图像分割结果。
23.作为一种实施方式,所述第二解码器可被配置为:基于所述语义编码特征,设置与所述输入图像对应的处理参数;利用设置后的处理参数,对所述第二图像语义特征进行卷积处理。
24.作为一种实施方式,所述注意力模块可被配置为:基于所述第二图像语义特征的预设通道数以及用于所述卷积处理的卷积核的预设数量和预设大小,确定所述语义编码特征的预设维度;其中,所述第二解码器可被配置为将所述预设维度的语义编码特征中的每个维度语义编码特征分别设置为用于所述卷积处理的卷积核中的卷积权重。
25.作为一种实施方式,所述第二解码器可被配置为:对所述第二图像语义特征进行第一卷积处理,得到具有第一特征通道数的图像语义特征,其中,所述第一特征通道数小于所述第二图像语义特征的通道数;对具有第一特征通道数的图像语义特征进行第二卷积处理,得到具有所述第一通道数的图像语义特征;对具有所述第一通道数的图像语义特征进行第三卷积处理,得到具有第二通道数的图像语义特征,其中,所述第二通道数小于所述第一通道数。
26.根据本公开实施例的第四方面,提供一种图像分割模型的训练装置,可包括:获取模块,被配置为获取样本图像和所述样本图像的预设图像分割结果;训练模块,被配置为:获取所述样本图像的第一图像语义特征,所述第一图像语义特征与第一分辨率对应;依据所述第一图像语义特征,获取所述样本图像的语义编码特征;依据所述第一图像语义特征,获取所述样本图像的第二图像语义特征,所述第二图像语义特征与第二分辨率对应,所述第二分辨率高于所述第一分辨率;依据所述语义编码特征和所述第二图像语义特征,得到所述样本图像的图像分割结果;基于所述图像分割结果和预设图像分割结果的差异,确定训练损失,在所述训练损失满足预设条件时,获得所述图像分割模型。
27.作为一种实施方式,训练模块可被配置为:对所述样本图像进行卷积处理和下采样处理,得到所述样本图像的所述第一图像语义特征。
28.作为一种实施方式,训练模块可被配置为:对所述第一图像语义特征进行池化处理、全连接处理和特征映射处理中的至少一个操作,得到预设维度的所述语义编码特征。
29.作为一种实施方式,训练模块可被配置为:对所述第一图像语义特征进行卷积处理和上采样处理,得到所述样本图像的所述第二图像语义特征。
30.作为一种实施方式,训练模块可被配置为:依据所述语义编码特征,对所述第二图像语义特征进行卷积处理,得到所述样本图像的图像分割结果。
31.作为一种实施方式,训练模块可被配置为基于所述语义编码特征,设置与所述样本图像对应的处理参数;利用设置后的处理参数对所述第二图像语义特征进行卷积处理。
32.作为一种实施方式,训练模块可被配置为:基于所述第二图像语义特征的预设通道数以及用于所述卷积处理的卷积核的预设数量和预设大小,确定所述语义编码特征的预设维度;将所述预设维度的语义编码特征中的每个维度语义编码特征分别设置为用于所述卷积处理的卷积核中的卷积权重。
33.作为一种实施方式,训练模块可被配置为:对所述第二图像语义特征进行第一卷积处理,得到具有第一特征通道数的图像语义特征,其中,所述第一特征通道数小于所述第二图像语义特征的通道数;对具有第一特征通道数的图像语义特征进行第二卷积处理,得到具有所述第一通道数的图像语义特征;对具有所述第一通道数的图像语义特征进行第三卷积处理,得到具有第二通道数的图像语义特征,其中,所述第二通道数小于所述第一通道数。
34.根据本公开实施例的第五方面,提供一种电子设备,所述电子设备可包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如上所述的图像分割方法和模型训练方法。
35.根据本公开实施例的第六方面,提供一种存储指令的计算机可读存储介质,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行如上所述的图像分割方法和模型训练方法。
36.根据本公开实施例的第七方面,提供一种计算机程序产品,所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如上所述的图像分割方法和模型训练方法。
37.本公开的实施例提供的技术方案至少带来以下有益效果:
38.通过学习当前输入图像的全局注意力信息(即当前输入图像的语义编码特征)来影响图像分割模型的训练过程,可提高图像分割的准确性。
39.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
40.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
41.图1是根据本公开的实施例的图像分割方法的流程图;
42.图2是根据本公开的实施例的图像分割方法的流程示意图;
43.图3是根据本公开的实施例的图像分割模型的训练方法的流程图;
44.图4是根据本公开的实施例的图像分割装置的框图;
45.图5是根据本公开的实施例的图像分割模型的训练装置的框图;
46.图6是根据本公开的实施例的图像分割设备的结构示意图;
47.图7是根据本公开的实施例的电子设备的框图。
具体实施方式
48.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
49.提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解,但这些细节仅被视为是示例性的。因此,本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下,可对描述于此的实施例进行各种改变和修改。此外,为了清楚和简洁,省略对公知的功能和结构的描述。
50.以下描述和权利要求中使用的术语和词语不限于书面含义,而仅由发明人用来实现本公开的清楚且一致的理解。因此,本领域的技术人员应清楚,本公开的各种实施例的以下描述仅被提供用于说明目的而不用于限制由权利要求及其等同物限定的本公开的目的。
51.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
52.基于深度学习的图像显著性目标分割方法主要集中在通过利用精细细节、全局语义、卷积神经网络注意力机制以及边缘信息来提升算法模型的性能。
53.现有方案虽然已经取得了很大的进步,但考虑的是在基于具有完善的标注训练数据集的情况下,同时还建立在以下假设上:所有数据标注的前景掩膜(mask)都是没有歧义性的,换句话说,前景是很明显的对象,不同的标注人员在互不干扰的情况下都会标注出相同的对象mask。
54.然而,在实际应用场景中,面临更多的情况是训练数据集标注精度参差不齐,原因在于以下几点:1、数据本身具有歧义性,不同的标注人员会标注出不同的前景mask;2、存在标注人员将数据标注错误的情况;3、现实应用中需要海量训练数据,然而完全靠人工标注的话,人力和时间成本都会很高,因此会利用半监督学习等方式(半)自动化标注训练数据,产生伪标签;然而伪标签会存在大量噪音。在上述情况下,很可能会出现混淆的样本,例如有些图像中的人代表了前景,然而另一些图像中人代表了背景,这样会使模型在学习过程中产生严重的混淆,导致不能学习到得一个较好的算法模型。
55.基于上述问题,本公开提出一种动态实例感知网络,通过从原始数据集中提取图像的语义编码特征(即注意力信息)并将语义编码特征应用到动态实例感知网络,可使网络可隐式地学习数据集中这种歧义信息,以更有效地提取歧义标注数据集中的有效信息,同时提高模型学习过程中的容错率,最大化模型算法性能。
56.在下文中,根据本公开的各种实施例,将参照附图对本公开的方法、装置进行详细描述。
57.图1是根据本公开的实施例的图像分割方法的流程图。根据本公开实施例的图像分割方法可在任何具有图像处理功能的电子设备中实现。电子设备可以是包括如下中的至少一个,例如,智能电话、平板个人计算机(pc)、移动电话、视频电话、电子书阅读器(e-book reader)、桌上型pc、膝上型pc、上网本计算机、工作站、服务器、个人数字助理(pda)、便携式多媒体播放器(pmp)、视频播放器、相机和可穿戴装置等。
58.参照图1,在步骤s101,获取输入图像。输入图像为待分割的图像。
59.在步骤s102,将输入图像输入至图像分割模型,得到该输入图像的图像分割结果。本公开的图像分割模型可包括编码器、第一解码器、注意力模块和第二解码器。
60.作为示例,可对输入图像进行卷积处理和下采样处理,得到输入图像的第一图像语义特征,对第一图像语义特征进行池化处理、全连接处理和特征映射处理中的至少一个操作,得到预设维度的语义编码特征,对第一图像语义特征进行卷积处理和上采样处理,得到输入图像的第二图像语义特征,然后依据语义编码特征,对第二图像语义特征进行卷积处理,得到输入图像的图像分割结果。
61.例如,可基于输入图像利用图像分割模型的编码器执行卷积操作和下采样操作获得输入图像的编码特征(可被称为第一图像语义特征)。这里,编码器可由任意卷积神经网络实现。例如,使用mobilenet、resnet等网络对输入图像执行编码操作,以得到输入图像的第一图像语义特征。
62.可基于第一图像语义特征利用图像分割模型的第一解码器,获得输入图像的解码特征(可被称为第二图像语义特征);以及基于注意力模块,获得输入图像的语义编码特征(也可被称为注意力信息)。这里,第一解码器可由任意卷积神经网络实现。例如,使用mobilenet、resnet等网络对编码特征执行解码操作(诸如包括卷积操作和上采样操作),以得到对应的解码特征。注意力模块可由神经网络中的池化层、全连接层、激活层中的一个或多个构成。例如,注意力模块可由池化层、第一全连接层、激活层以及第二全连接层构成,第一图像语义特征通过池化层、第一全连接层、激活层、第二全连接层的处理,得到针对输入图像的注意力信息。
63.可基于语义编码特征,设置与输入图像对应的处理参数,然后利用设置后的处理参数对第二图像语义特征进行卷积处理。
64.例如,可基于第二图像语义特征的预设通道数以及用于卷积处理的卷积核的预设数量和预设大小,确定语义编码特征的预设维度。然后将预设维度的语义编码特征中的每个维度语义编码特征分别设置为用于卷积处理的卷积核(这里指第二解码器中包括的卷积核)中的卷积权重。
65.根据本公开的实施例,第二解码器可由若干个卷积层实现,针对当前输入图像,第二解码器的参数可由当前输入图像的注意力信息设置。也就是说,第二解码器的参数可根据当前输入图像的注意力信息而不同。即可基于当前输入图像的语义编码特征来设置第二解码器的参数。例如,第二解码器由三个卷积层构成,将输入图像的注意力信息设置为三个卷积层中包括的卷积核的卷积权重。在这种情况下,为了满足第二解码器的参数设置,需要基于输入图像的解码特征的通道数以及第二解码器中包括的卷积核的数量和大小来确定输入图像的注意力信息的维度。解码特征的通道数可基于第一解码器中的输出卷积核的数量确定。第一解码器的输入卷积核的数量以及第二解码器的卷积核的数量和大小可被预先
设置。
66.在设置完第二解码器的参数之后,可使用第二解码器对输入图像的解码特征执行卷积操作,以得到图像分割结果。例如,在设置参数后,可对第二图像语义特征进行第一卷积处理,得到具有第一特征通道数的图像语义特征,其中,第一特征通道数小于第二图像语义特征的通道数,对具有第一特征通道数的图像语义特征进行第二卷积处理,得到具有第一通道数的图像语义特征,然后对具有第一通道数的图像语义特征进行第三卷积处理,得到具有第二通道数的图像语义特征,其中,第二通道数小于第一通道数。最后激活上采样输出最终的分割结果。上述卷积处理仅是示例性的,本公开不限于上述层数以及通道数的映射。
67.根据本公开的实施例,通过学习每个图像的全局歧义语义信息(即语义编码特征)并将其编码到最终产生的前景预测结果中,提高了图像分割的准确率。
68.图2是根据本公开的实施例的图像分割方法的流程示意图。图2示出了用于图像分割的网络示意图,该网络可将每张输入图像看成一个实例,并针对每张输入图像预测一组全局的语义编码特征r(xi)∈rd(即注意力信息),其中,d代表语义编码的维度,然后将该全局语义编码特征作为动态注意力头网络(dynamic attention head)卷积运算的核参数,然后生成最终的前景预测mask。该方式可以根据输入图像,自适应地调整卷积参数,隐式地学习了图像的全局歧义语义信息,并将其编码到最终生产的前景预测结果中。
69.参照图2,输入图像xi经过编码网络(即图2中的“encoder”),可生成低分辨率高语义信息的编码特征(即第一图像语义特征),然后该编码特征被送入两个分支网络中:一个分支网络是动态注意力模块(即图2中的“dynamic attention module”),该编码特征依次通过全局池化层(以执行全局池化操作)(图2中的“avg pooling”)、全连接层(图2中的“fc”)、relu激活函数(图2中的“relu”)和全连接层(图2中的另一“fc”)来生成全局的语义编码特征r(xi)∈rd(即语义编码特征);另一个分支通过一个解码卷积网络(即图2中的“decoder”),生成一个通道数(channel)为n(例如取值为10,本技术对n的取值不做限定)的卷积特征θ(即第二图像语义特征),然后θ被送入动态注意力头网络(即图2中的“dynamic attention head”),例如,动态注意力头网络可包括三个1
×
1的卷积操作(即图2中的“conv1
×
1”),第一个卷积操作可将θ映射到channel为m的特征;第二个卷积操作的输入和输出channel均为m,最后一个卷积操作可将channel为m的特征映射到channel为1的特征,然后激活上采样输出最终的分割结果,即输出mask。
70.例如,在n=10,m=8,动态注意力头网络包括三个卷积层且卷积核大小为1
×
1的情况下,语义编码特征的维度d=(10
×8×1×
1+8)+(8
×8×1×
1+8)+(8
×1×1×
1+1)=169,这样使得注意力头网络的卷积核中的每个卷积权重可被分配有全局语义编码特征(即注意力信息)中的一个特征,以实现将图像的全局歧义语义信息编码到最终生产的前景预测结果中。上述示例仅是示例性的,解码卷积网络的输出通道数、注意力头网络中的卷积层数、卷积层中的卷积核的数量以及大小可根据实际情况被不同的设置。
71.此外,在为注意力头网络的卷积核分配卷积权重时,可按照注意力信息中每个元素的顺序依次将元素作为卷积权重,或者可随机地将注意力信息中的各个权重分配给卷积权重。
72.图3是根据本公开的实施例的图像分割模型的训练方法的流程图。根据本公开实
施例的模型训练方法可在任何具有图像处理功能的电子设备中实现。电子设备可以是包括如下中的至少一个,例如,智能电话、平板个人计算机(pc)、移动电话、视频电话、电子书阅读器(e-book reader)、桌上型pc、膝上型pc、上网本计算机、工作站、服务器、个人数字助理(pda)、便携式多媒体播放器(pmp)、视频播放器、相机和可穿戴装置等。
73.根据本公开实施例的图像分割模型可由编码器、第一解码器、注意力模块和第二解码器构成。编码器和第一解码器可由任意卷积神经网络实现,例如,mobilenet、resnet。注意力模块被用于生成原始图像的注意力信息。例如,注意力模块可由池化层、激活层和全连接层实现,诸如,图2示出的动态注意力模块,并且池化层中的池化方式、全连接层的数量以及激活方式可基于实际情况被不同的设置。第二解码器可由至少一个卷积层实现,例如,图2示出的动态注意力头网络由三个卷积层实现,并且每个卷积层中的卷积核的数量以及大小可基于实际情况被不同地设置。
74.根据本公开的实施例,在确保注意力模块生成的注意力信息的维度与第一解码器输出的通道数、第二解码器中的卷积核的数量和大小相互匹配的情况下,可任意设置第一解码器的卷积核数量以及第二解码器中的卷积核的数量和大小。
75.参照图3,在步骤s301,获取样本图像的第一图像语义特征,第一图像语义特征与第一分辨率对应。这里,样本图像是指用于训练图像分割模型的训练数据。例如,可对样本图像进行卷积处理和下采样处理,得到样本图像的第一图像语义特征。第一图像语义特征表示低分辨率的高语义图像特征。
76.在步骤s302,依据第一图像语义特征,获取样本图像的语义编码特征。例如,可对第一图像语义特征进行池化处理、全连接处理和特征映射处理中的至少一个操作,得到预设维度的语义编码特征。这里,语义编码特征可表示针对样本图像预测的一组全局的语义编码特征。语义编码特征的预设维度可基于第二图像语义特征的预设通道数以及第二解码器中的卷积核的预设数量和预设大小来确定。
77.在步骤s303,依据第一图像语义特征,获取样本图像的第二图像语义特征,第二图像语义特征与第二分辨率对应,第二分辨率高于第一分辨率。例如,可对第一图像语义特征进行卷积处理和上采样处理,得到样本图像的第二图像语义特征。可预先设置第一解码器的输出通道数,使得第一解码器输出具有预设通道数的第二图像语义特征。
78.在步骤s304,依据语义编码特征和第二图像语义特征,得到样本图像的图像分割结果。
79.作为示例,可基于语义编码特征,设置与样本图像对应的处理参数,利用设置后的处理参数对第二图像语义特征进行卷积处理,以得到样本图像的图像分割结果。即可基于注意力信息设置第二解码器的处理参数,然后通过利用设置后的第二解码器对解码特征进行解码来获得图像分割结果。例如,可将注意力信息设置为第二解码器中包括的卷积核的卷积权重。注意力信息的维度可基于解码特征的通道数以及第二解码器中包括的卷积核的数量和大小被确定。
80.以第二解码器包括三个卷积层为例,针对每个卷积层中的每个卷积核,可分配有样本图像的一个语义编码特征,作为该卷积核的卷积权重。在设置完每个卷积核的卷积权重后,可利用第一卷积层对第二图像语义特征进行第一卷积处理,得到具有第一特征通道数的图像语义特征,例如,第一特征通道数小于第二图像语义特征的通道数。利用第二卷积
层对具有第一特征通道数的图像语义特征进行第二卷积处理,得到具有第一通道数的图像语义特征。利用第三卷积层对具有第一通道数的图像语义特征进行第三卷积处理,得到具有第二通道数的图像语义特征,例如,第二通道数小于第一通道数。
81.根据本公开的实施例,针对每个图像,第二解码器的处理参数可基于当前图像的注意力信息被设置。也就是说,第二解码器的卷积核中的卷积权重不是固定设置的,而是针对每个当前输入图像的注意力信息来设置第二解码器中的卷积核的权重。
82.在步骤s305,基于预测的图像分割结果和预设图像分割结果的差异,确定训练损失,在训练损失满足预设条件时,获得图像分割模型。这里,预设图像分割结果可以是与样本图像对应的标注图像。可由标注人员预先对样本图像进行显著区域的标注。
83.可基于预测的图像分割结果与对应的标注图像来构造损失函数,通过使由损失函数计算的损失值最小化来调整编码器、第一解码器、注意力模块和第二解码器的参数。
84.在本公开中,在图像分割模型的训练阶段,在基于当前图像的注意力信息设置第二解码器的参数之后,可通过使由预测结果和标注图像构造的损失函数的值最小化来调整图像分割模型中的各个网络参数,在图像分割模型的预测阶段,可针对当前输入图像的注意力信息来设置第二解码器的参数,而无需改变模型中的其他网络的参数。
85.在本公开中,针对实际应用场景,发明人发现了歧义标注数据的现象,并给出了明确的定义;进一步提出了一种动态实例感知网络,通过从原始数据集中提取图像的语义编码特征(即注意力信息)并将语义编码特征应用到动态实例感知网络,可使网络隐式地学习数据集中的歧义信息,以更有效地提取歧义标注数据集中的图像语义特征,从而获得更加准确的图像分割结果,同时提高模型学习过程中的容错率,最大化模型算法性能。
86.图4是根据本公开的实施例的图像分割装置的框图。图像分割装置也可被称为图像分割模型装置。
87.参照图4,图像分割装置400可包括编码器401、第一解码器402、注意力模块403和第二解码器404。图像分割装置400中的每个模块可由一个或多个模块来实现,并且对应模块的名称可根据模块的类型而变化。在各种实施例中,可省略图像分割装置400中的一些模块,或者还可包括另外的模块。此外,根据本公开的各种实施例的模块/元件可被组合以形成单个实体,并且因此可等效地执行相应模块/元件在组合之前的功能。
88.编码器401可获取输入图像的第一图像语义特征。第一图像语义特征与第一分辨率对应。编码器401可对输入图像进行卷积处理和下采样处理,得到输入图像的第一图像语义特征。
89.第一解码器402可依据第一图像语义特征,获取输入图像的第二图像语义特征。第二图像语义特征与第二分辨率对应,第二分辨率可高于第一分辨率。第一解码器402可对第一图像语义特征进行卷积处理和上采样处理,得到输入图像的第二图像语义特征。
90.注意力模块403可依据第一图像语义特征,获取输入图像的语义编码特征。注意力模块403可对第一图像语义特征进行池化处理、全连接处理和特征映射处理中的至少一个操作,得到预设维度的语义编码特征。注意力模块403可基于第二图像语义特征的预设通道数以及用于卷积处理的卷积核的预设数量和预设大小,确定语义编码特征的预设维度。也就是说,语义编码特征的维度可基于第二图像语义特征的通道数以及第二解码器中包括的卷积核的数量和大小被确定。
91.第二解码器404可依据语义编码特征和第二图像语义特征,得到输入图像的图像分割结果。第二解码器404可依据语义编码特征,对第二图像语义特征进行卷积处理,得到输入图像的图像分割结果。
92.作为示例,第二解码器404可基于语义编码特征,设置与输入图像对应的处理参数,利用设置后的处理参数,对第二图像语义特征进行卷积处理。
93.第二解码器404可将预设维度的语义编码特征中的每个维度语义编码特征分别设置为用于卷积处理的卷积核中的卷积权重。
94.接下来,第二解码器404可对第二图像语义特征进行第一卷积处理,得到具有第一特征通道数的图像语义特征。第一特征通道数可小于第二图像语义特征的通道数。对具有第一特征通道数的图像语义特征进行第二卷积处理,得到具有第一通道数的图像语义特征。对具有第一通道数的图像语义特征进行第三卷积处理,得到具有第二通道数的图像语义特征。第二通道数可小于第一通道数。最后,第二解码器404通过激活上采样操作输出最终的图像分割结果。
95.上面已经参照图1和图2详细描述了图像分割过程,这里不在详细赘述。
96.图5是根据本公开的实施例的图像分割模型的训练装置的框图。
97.参照图5,训练装置500可包括获取模块501和训练模块502。训练装置500中的每个模块可由一个或多个模块来实现,并且对应模块的名称可根据模块的类型而变化。在各种实施例中,可省略训练装置500中的一些模块,或者还可包括另外的模块。此外,根据本公开的各种实施例的模块/元件可被组合以形成单个实体,并且因此可等效地执行相应模块/元件在组合之前的功能。
98.获取模块501可获取样本图像和样本图像的预设图像分割结果。
99.获取模块501可获取原始图像和与原始图像对应的标注图像。在模型训练过程中,可获取多个训练图像,并且对每个训练图像进行感兴趣区域的标注以得到对应的标注图像。
100.根据本公开的实施例,可将每个训练图片(例如记为ti,i=1,2,3

n,n代表训练样本数)看作一个实例,预测每个训练图片的全局语义编码特征(即每个训练图片的注意力信息),然后将该全局语义编码特征作为用于预测掩膜的卷积运算的核参数,然后生成最终的前景预测掩膜。也就是说,本公开可根据每个输入图像,自适应地调整卷积参数,隐式地学习了当前图片的全局歧义语义信息,并将其编码到最终生产的前景预测结果中。
101.训练模块502可获取样本图像的第一图像语义特征,第一图像语义特征可与第一分辨率对应,依据第一图像语义特征,获取样本图像的语义编码特征,依据第一图像语义特征,获取样本图像的第二图像语义特征,第二图像语义特征与第二分辨率对应,第二分辨率高于第一分辨率;依据语义编码特征和第二图像语义特征,得到样本图像的图像分割结果,基于图像分割结果和预设图像分割结果的差异,确定训练损失,在训练损失满足预设条件时,获得图像分割模型。
102.例如,训练模块502可基于原始图像利用编码器获得原始图像的编码特征;基于编码特征利用第一解码器和注意力模块,分别获得原始图像的解码特征和原始图像的注意力信息;基于解码特征和注意力信息利用第二解码器,得到原始图像的图像分割结果;基于标注图像和图像分割结果来更新编码器、第一解码器、注意力模块和第二解码器的参数,并且
将更新后的编码器、第一解码器、注意力模块和第二解码器作为图像分割模型。
103.作为一个实施例,训练模块502可对样本图像进行卷积处理和下采样处理,得到样本图像的第一图像语义特征。训练模块502可对第一图像语义特征进行池化处理、全连接处理和特征映射处理中的至少一个操作,得到预设维度的语义编码特征。训练模块502可对第一图像语义特征进行卷积处理和上采样处理,得到样本图像的第二图像语义特征。训练模块502可依据语义编码特征,对第二图像语义特征进行卷积处理,得到样本图像的图像分割结果。
104.例如,训练模块502可基于语义编码特征,设置与样本图像对应的处理参数,利用设置后的处理参数对第二图像语义特征进行卷积处理。
105.具体地,训练模块502可基于第二图像语义特征的预设通道数以及用于卷积处理的卷积核的预设数量和预设大小,确定语义编码特征的预设维度,将预设维度的语义编码特征中的每个维度语义编码特征分别设置为用于卷积处理的卷积核中的卷积权重。在设置处理参数后,训练模块502可对第二图像语义特征进行第一卷积处理,得到具有第一特征通道数的图像语义特征,其中,第一特征通道数小于第二图像语义特征的通道数;对具有第一特征通道数的图像语义特征进行第二卷积处理,得到具有第一通道数的图像语义特征;对具有第一通道数的图像语义特征进行第三卷积处理,得到具有第二通道数的图像语义特征,其中,第二通道数小于第一通道数。
106.上面已经参照图3详细描述了模型训练过程,这里不在详细赘述。
107.图6是本公开实施例的硬件运行环境的图像分割设备的结构示意图。这里,图像分割设备600可实现上述图像分割功能。
108.如图6所示,图像分割设备600可包括:处理组件601、通信总线602、网络接口603、输入输出接口604、存储器605以及电源组件606。其中,通信总线602用于实现这些组件之间的连接通信号。输入输出接口604可以包括视频显示器(诸如,液晶显示器)、麦克风和扬声器以及用户交互接口(诸如,键盘、鼠标、触摸输入装置等),可选地,输入输出接口604还可包括标准的有线接口、无线接口。网络接口603可选的可包括标准的有线接口、无线接口(如无线保真接口)。存储器605可以是高速的随机存取存储器,也可以是稳定的非易失性存储器。存储器605可选的还可以是独立于前述处理组件601的存储装置。
109.本领域技术人员可以理解,图6中示出的结构并不构成对图像分割设备600的限定,可包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
110.如图6所示,作为一种存储介质的存储器605中可包括操作系统(诸如mac操作系统)、数据存储模块、网络通信模块、用户接口模块、图像分割程序、模型训练程序以及数据库。
111.在图6所示的图像分割设备600中,网络接口603主要用于与外部设备/终端进行数据通信;输入输出接口604主要用于与用户进行数据交互;图像分割设备600中的处理组件601、存储器605可被设置在图像分割设备600中,图像分割设备600通过处理组件601调用存储器605中存储的图像分割程序、模型训练程序以及由操作系统提供的各种api,执行本公开实施例提供的图像分割方法、模型训练方法等。
112.处理组件601可以包括至少一个处理器,存储器605中存储有计算机可以执行指令集合,当计算机可以执行指令集合被至少一个处理器执行时,执行根据本公开实施例的图
像分割方法和/或模型训练方法。此外,处理组件601可执行如上所述的模型训练过程、图像分割等。然而,上述示例仅是示例性的,本公开不限于此。
113.此外,处理组件601可从外部设备接收训练好的图像分割模型,并且使用图像分割模型获得输入图像的掩膜图像。
114.作为示例,图像分割设备600可以是pc计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,图像分割设备600并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。图像分割设备600还可以是集成控制系统或系统管理器的一部分,或者可以被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
115.在图像分割设备600中,处理组件601可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理组件601还可以包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
116.处理组件601可运行存储在存储器中的指令或代码,其中,存储器605还可以存储数据。指令和数据还可以经由网络接口603而通过网络被发送和接收,其中,网络接口603可以采用任何已知的传输协议。
117.存储器605可以与处理器集成为一体,例如,将ram或闪存布置在集成电路微处理器等之内。此外,存储器605可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可以使用的其他存储装置。存储器和处理器可以在操作上进行耦合,或者可以例如通过i/o端口、网络连接等互相通信,使得处理器能够读取存储在存储器中的文件。
118.根据本公开的实施例,可提供一种电子设备。图7是根据本公开实施例的电子设备的框图,该电子设备700可包括至少一个存储器702和至少一个处理器701,所述至少一个存储器702存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器701执行时,执行根据本公开实施例的图像分割方法或模型训练方法。
119.处理器701可包括中央处理器(cpu)、音频处理器、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器701还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
120.作为一种存储介质的存储器702可包括操作系统(例如mac操作系统)、数据存储模块、网络通信模块、用户接口模块、图像分割模块以及数据库。
121.存储器702可与处理器701集成为一体,例如,可将ram或闪存布置在集成电路微处理器等之内。此外,存储器702可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器702和处理器701可在操作上进行耦合,或者可例如通过i/o端口、网络连接等互相通信,使得处理器701能够读取存储在存储器702中的文件。
122.此外,电子设备700还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备700的所有组件可经由总线和/或网络而彼此连接。
123.作为示例,电子设备700可以是pc计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备700并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备700还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由
无线传输)以接口互联的便携式电子设备。
124.本领域技术人员可理解,图7中示出的结构并不构成对的限定,可包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
125.根据本公开的实施例,还可提供一种存储指令的计算机可读存储介质,其中,当指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的图像分割方法和模型训练方法。这里的计算机可读存储介质的示例包括:只读存储器(rom)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd-rom、cd-r、cd+r、cd-rw、cd+rw、dvd-rom、dvd-r、dvd+r、dvd-rw、dvd+rw、dvd-ram、bd-rom、bd-r、bd-r lth、bd-re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态硬盘(ssd)、卡式存储器(诸如,多媒体卡、安全数字(sd)卡或极速数字(xd)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
126.根据本公开的实施例中,还可提供一种计算机程序产品,该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述图像分割方法和模型训练方法。
127.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
128.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1