一种弱监督语义分割方法、装置及存储介质

文档序号:37212388发布日期:2024-03-05 14:56阅读:14来源:国知局
一种弱监督语义分割方法、装置及存储介质

本发明涉及人工智能及图像处理领域,尤其涉及一种弱监督语义分割方法、装置及存储介质。


背景技术:

1、随着自动化和机器学习的兴起,需要能够自动处理和理解图像的系统,弱监督语义分割提供了实现这一目标的方法。随着数字图像的广泛可用,需要处理大规模数据的任务正在增加;传统分割方法对大规模数据的需求很大,而弱监督方法可以帮助扩展分割技术的适用范围。此外,弱监督语义分割可以应用于医学图像分割、生物学图像分析、物体检测和图像检索等各种应用,以改进自动图像分析的效率和准确性。

2、弱监督语义分割源于计算机视觉领域对降低图像分割任务中标注数据的需求和成本的迫切需求。传统的像素级别标注对于图像分割是昂贵和耗时的,因为它需要专业人员精确绘制每个对象的边界。弱监督语义分割尝试寻找更具成本效益的方法来执行分割任务,目的之一是降低标签成本,以便更广泛地应用于各种应用领域。

3、为了缓解标注困难的问题,弱监督语义分割要从相对不完整或低质量的图像级标签信息中学习进行像素级别的图像分割,由于标签信息十分笼统,需要复杂的训练环节,因此目前仍缺少高精度的弱监督图像分割算法。其次目前的方法一般采用类激活图来获取目标类别的大概位置(定位图),然后通过细化定位图来生成伪标签。但是类激活图由于全局平均池化操作的影响,只能突出显示目标对象最具辨别力的区域,但无法发现整个图像中的次要细节。因此,目前方法生成的定位图往往只涵盖了目标的部分区域,无法精确捕捉对象的完整形状和位置。此外,目前主流的方法主要是基于卷积神经网络和分类器来提取出可细化为伪标签的定位图,但是卷积神经网络提取的特征存在局部性特征,并未考虑远距离像素的长程依赖;也有一部分是利用转换器和分类器来实现这个流程,但是对转换器中图像分块特征的潜在信息没有充分挖掘。

4、术语解释:

5、弱监督语义分割(weakly supervised segmentation):是一种计算机视觉任务,其目标是根据图像级别标签对图像中的对象和区域进行像素级分割,具有较少的标签信息。在弱监督语义分割中,标签信息通常是在图像级别而不是像素级别提供的,这使得任务更具挑战性。挑战在由于缺乏像素级别的标签,模型必须从有限的信息中推断对象的边界和形状。尽管具有一定挑战性,但这种方法在许多实际应用中很有价值,因为它减轻了手动像素级别标注的工作负担,同时允许从图像级别标签中获取有关对象位置的信息。

6、类别激活图(class activation map):又称类激活图,类别激活映射图,用于理解深度学习模型在图像分类任务中的决策过程。它允许我们可视化了解模型在分类图像时关注的区域。cam的基本思想是,通过在卷积神经网络(cnn)的最后一层卷积层之后引入全局平均池化层,将卷积层的特征图转换为权重。这些权重可以告诉我们每个特征图对于每个类别的重要性。接着将这些权重应用于原始图像的卷积特征图,得到每个类别的类激活映射。cam可以帮助理解模型是如何对输入图像的不同部分进行加权,以便进行分类决策。在可视化上,cam会强调在分类中起关键作用的区域,从而提供了对模型决策的见解。

7、阈值分割(thresholding segmentation):是一种简单有效的图像分割方法,通常用于将图像中的对象与背景分开。原理是选择一个阈值,将图像中的像素分为两个类别,一类属于对象,另一类属于背景。阈值分割的基本步骤是:首先选择一个适当的阈值。自动确定阈值的方法包括大津法(otsu's method)和基于直方图的方法。然后选择的阈值将图像中的像素分为两类,通常是对象(前景)和背景。像素的选择标准是它们的亮度或颜色与阈值的关系。最后将图像中的像素根据其分类转换为二值图像,其中对象像素通常设置为白色,而背景像素设置为黑色。阈值分割在很多应用中都有用,特别是当对象与背景之间具有明显的亮度或颜色差异时。它通常用于简单图像分割任务,如文档分析、生物医学图像处理和图像预处理。

8、对比学习(contrastive learning):是一种用于学习数据表示,特别是用于学习有关相似性和差异性的表示的深度学习方法。这种方法已经在自然语言处理、计算机视觉和语音识别等领域获得广泛应用。

9、对比学习的基本思想是将数据表示投射到一个空间,以便相似的样本之间的距离较小,而不相似的样本之间的距离较大。对比学习的主要优点是,它不需要手动标记的标签信息,因为它通过比较样本之间的相似性来进行学习。这使得对比学习在无监督或半监督学习任务中非常有用,尤其在数据标记困难或昂贵的情况下。这种方法已经取得了在图像检索、文本相似性、半监督分类等任务上的令人瞩目的成果。

10、转换器(transformer):是一种深度学习架构,最初是为自然语言处理而设计的,后来也被成功地应用于计算机视觉任务。转换器架构的核心思想是自注意力机制(self-attention),它允许模型在处理序列数据时有效地捕捉长距离依赖关系。转换器在计算机视觉中可用于图像分类任务,其中模型需要将输入图像分为不同的类别。通过对输入图像的各个部分应用自注意力机制,模型能够捕捉图像中的局部和全局信息,这有助于提高分类性能。在语义分割任务中,模型需要为图像中的每个像素分配一个类别标签,以识别不同的物体和物体部分。转换器架构可以用于学习像素级别的关系,以提高分割的精度。总之,转换器在计算机视觉中提供了一种强大的深度学习框架,它能够捕捉复杂的图像特征和关系,适用于多种视觉任务。这一架构的成功应用表明了其在图像理解和处理领域的潜力。

11、卷积神经网络(convolutional neural network):是一种在计算机视觉中广泛应用的深度学习模型。它的主要特点是能够有效地处理图像和空间数据。cnn的基本组成部分包括用于在输入图像上滑动卷积核以检测不同的特征的卷积层,用于减小特征图的空间尺寸,同时保留最重要的信息的池化层和用于进行分类或回归任务的全连接层。工作原理是逐渐从低级别特征(如边缘和纹理)到高级别特征(如物体部分和对象)的抽象过程,在计算机视觉中的应用非常广泛,已经在许多领域取得了重大突破,如自动驾驶、医学图像分析、图像识别和安全监控等。这些网络的设计受到了生物视觉系统的启发,可以有效地模拟人类对图像的理解能力。


技术实现思路

1、为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种弱监督语义分割方法、装置及存储介质。

2、本发明所采用的技术方案是:

3、一种弱监督语义分割方法,包括以下步骤:

4、获取待处理的输入图像;

5、将所述输入图像输入训练后的语义分割模型,输出分割图像;

6、其中,所述语义分割模型采用转换器作为主干网络,并使用分块对比学习来处理分块间的关系;所述语义分割模型包括至少一个定位支路,所述定位支路包括转换器模块和分块对比模块。

7、进一步地,所述定位支路对输入的图像进行以下处理:

8、将输入的图像读取成矩阵形式,并将图像裁剪为预设尺寸;

9、将尺寸处理后的图像裁剪成个分块,每个分块对应图像中的一个区域,即分块编码;将每个编码与预设初始化的位置嵌入向量相加,获得输入标记序列x;

10、将输入标记序列x输入转换器模块,利用多头自注意力机制来全局整合来自所有分块的信息,获得编码矩阵;将编码矩阵分为两部分:分类编码和分块对比编码;

11、根据分类编码计算分类损失,根据分块对比编码计算分块损失;

12、从多个转换器块中取出最后三个转换器的多头注意力权重,并生成注意力图att;根据注意力图att获得一个不使用分类器而产生的更加完整的定位图。

13、进一步地,所述利用多头自注意力机制来全局整合来自所有分块的信息,包括:

14、将输入标记序列x进行归一化,并从线性层生成查询query、钥匙key和值value;

15、通过缩放的点乘注意力计算查询和钥匙之间的注意力值;每个输出分块通过权重求和聚合所有分块的特征,其中把值value作为权重,计算公式如下:

16、

17、式中,q表示查询query,k表示钥匙key,v表示值value;d为常量,表示钥匙向量的嵌入维度。

18、进一步地,包括:

19、根据分类编码生成软标签ycls;

20、采用多标签交叉熵来计算软标签和给定的图像级标签y之间的损失loss(ycls,y),计算公式如下:

21、

22、式中,n为数据集中类别的总数量,y[i]是真实标签对类别i的结果(一般是0或者1,标志着这张图片中是否存在类别i),ycls[i]是网络模型对类别i的分类结果(一般是0到1之间的小数,越大代表这张图片中越可能存在类别i)。

23、进一步地,所述根据分块对比编码计算分块损失,包括:

24、划分负样本:建立记忆库m来存储来自不同批次的负样本;

25、划分正样本:从转换器块中获得注意力权重,根据注意力权重获取相似性矩阵,根据图像中的类别i和相似性矩阵相应的行来判定正样本;

26、获取查询向量:使用mixup策略来构建查询样本;

27、计算分块损失:计算得出分块对比损失,将分块对比损失和其他损失一起加入反向传播,以提升模型的性能和定位图的激活区域。

28、进一步地,所述分块损失的计算公式如下:

29、

30、式中,λ是一个服从贝塔概率分布的超参数,用来调节两个变量之间的比例;lnce表示噪声对比估计(nce)损失,表示通过mixup获得的查询样本,表示用于mixup的正样本i,表示用于mixup的正样本j,m-表示从记忆库m中采样出来的负样本。

31、进一步地,所述语义分割模型包括三个定位支路:上采定位支路、标准定位支路和下采定位支路;

32、对所述输入图像进行上采样,作为上采定位支路输入的图像;将所述输入图像作为标准定位支路输入的图像;对所述输入图像进行下采样,作为下采定位支路输入的图像;

33、其中,三个定位支路中的三个转换器模块采用同样的架构,上采定位支路和下采定位支路中的两个转换器模块不进行分块对比损失的计算;为了实现共享权重,采用同一个转换器而不是创建三个转换器。

34、进一步地,通过标准定位支路计算分块对比损失和分类损失,通过上采定位支路和下采定位支路计算获取额外的分类损失,表达式如下:

35、

36、

37、式中,表示上采定位支路中网络模型的分类结果,表示上采定位支路中网络模型对类别i的分类结果;yup表示上采定位支路中真实标签给出的结果;表下采定位支路中网络模型的分类结果示,表示下采定位支路中网络模型对类别i的分类结果,ydown表示下采定位支路中真实标签给出的结果;n表示数据集中类别的总数量,y[i]表示真实标签对类别i的结果。

38、本发明所采用的另一技术方案是:

39、一种弱监督语义分割装置,包括:

40、至少一个处理器;

41、至少一个存储器,用于存储至少一个程序;

42、当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述方法。

43、本发明所采用的另一技术方案是:

44、一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

45、本发明的有益效果是:本发明提出了一种基于转换器的图像分块对比的弱监督语义分割算法,算法采用转换器作为主干网络并使用分块对比学习来处理分块间的关系,能够实现较高精度的分割效果,从而有效缓解标注困难的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1