基于分割大模型的高精度弱监督目标检测分割方法

文档序号:37223170发布日期:2024-03-05 15:22阅读:20来源:国知局
基于分割大模型的高精度弱监督目标检测分割方法

本发明涉及深度学习和计算机视觉,,更具体地,涉及一种基于分割大模型的高精度弱监督目标检测分割方法。


背景技术:

1、在计算机视觉领域中,弱监督目标检测和弱监督物体分割已经成为研究的热点话题。与传统的全监督方法相比,弱监督方法只需要较少的标注信息,如图像级标签或边界框标注,而不是像素级的精确标注。这使得弱监督方法在处理大规模未标注数据时更加高效和实用。

2、弱监督目标检测和分割的关键挑战之一在于如何从有限的监督信息中学习到足够的特征,以进行准确的物体定位和分割。目前的研究主要集中在两个方面:一是如何利用现有的弱标注信息最大化模型的性能,二是如何设计有效的算法来补充或推测缺失的标注信息。在这些研究中,一种常见的方法是利用弱标注数据训练一个弱监督目标检测模型,然后通过各种策略如自学习、伪标签生成或注意力机制,进一步提炼和优化模型的预测能力。

3、弱监督物体分割的研究同样面临着挑战。这种方法通常依赖于图像级的标签来指导物体分割,但这种方法往往缺乏足够的定位信息,导致分割精度有限。为了解决这一问题,研究者们尝试采用多任务学习、迁移学习以及生成对抗网络等技术来提升模型的分割性能。此外,融合弱监督和半监督学习的方法也被探索用于进一步提高分割准确性。

4、总体而言,弱监督目标检测和分割领域仍存在许多未解决的问题,如何更有效地利用有限的标注信息、如何设计更加鲁棒和高效的算法等。随着研究的不断深入,这些问题有望得到解决,进而推动该领域的发展。


技术实现思路

1、针对现有技术的缺陷及以上的改进需求,本发明旨在设计一种经济的、高效的基于分割大模型的高精度弱监督目标检测分割方法。该方法主要依托于空间相关的查询,实例相关的查询,以及语义相关的查询。通过查询来提示分割大模型以获取建议框,该方法实现了利用较少的建议框数量达到较高召回率的目的;并构建了一种有效的动态包围框伪标签生成方法,对于不同的类别,所述方案在归一化之后的尺度下进行包围框伪标签的生成;同时提出了一种高效地感兴趣区域/查询丢弃的方法用于训练全监督目标检测网络,所述方法能够最小化噪声标签对重训练的影响。对于弱监督物体分割任务,所述方案利用弱监督目标检测生成的高质量包围框伪标签提示分割大模型,进而获取对应的实例信息。所述方法可以检测并分割感兴趣实例,并且只依赖图片类别标签和分割大模型提供监督信息。

2、为实现上述目的,本发明提供了一种基于分割大模型的高精度弱监督目标检测分割方法,包括以下步骤:

3、(1)使用分类线索提示分割大模型,从而生成高召回的图片建议框,包括以下子步骤:

4、(1.1)将训练集的图片输入到朴素视觉变换分类网络用以生成分类线索,包括交叉注意力激活图,粗糙类激活图,以及精细类激活图。具体包括如下子步骤:

5、(1.1.1)从分类网络的自注意力图中获取交叉注意力图其中k是视觉变换网络编码器的层数,h是每层的注意力头的数量,n×n是视觉令牌的空间尺寸,c是分类标签的类别总数;

6、(1.1.2)从卷积类激活头中获取粗糙的类激活图卷积类激活头将最终转换器层的视觉令牌作为输入并生成粗略的类激活图;

7、(1.1.3)利用分类网络生成精细的类激活图

8、(1.2)使用空间采样生成空间相关的查询点,并通过(1.1)步骤中获取的激活图生成实例相关的查询点和语义相关的查询点;具体包括如下子步骤:

9、(1.2.1)密集采样,此步骤需要将图像分割成s×s个图像块,并以中心点作为空间相关查询;

10、(1.2.2)从交叉注意力图中获取峰值点作为实例相关查询;

11、(1.2.2.1)将峰值点坐标列表和对应峰值列表初始化为空;

12、(1.2.2.2)将待删除的点坐标列表和对应值的列表初始化为空;

13、(1.2.2.3)初始化一个具有图片最短边1/4长度作为核大小的最大池化操作核,该最大池化操作核的步长为其池化核大小的1/2;

14、(1.2.2.4)将输入的交叉注意力图进行形状重塑,确保其最后两个维度对应原始图像大小,其余作为第一个维度;

15、(1.2.2.4)将(1.2.2.3)步骤中初始化的最大池化操作核应用到(1.2.2.4)步骤重塑后的交叉注意力图上,从而得到初步激活点坐标列表与初步激活点值列表;

16、(1.2.2.5)将(1.2.2.4)步骤中得到的初步激活点值列表进行排序,按照降序顺序进行;对应地,也将其初步激活点坐标列表进行排序;

17、(1.2.2.6)对于初步激活点值列表中的每个索引都进行检查,符合一定条件则添加至待删除的点坐标列表和对应的值的列表中;

18、(1.2.2.6.1)如果当前索引所对应的初步激活点坐标和初步激活点值在待删除的点坐标列表和待删除的点值列表中,则跳过该索引对应的后续检测,开始进行下一个索引的检测;

19、(1.2.2.6.2)如果当前索引所对应的初步激活点值小于激活阈值τactivate,则将当前索引所对应的初步激活点坐标添加到待删除的点坐标列表中,并将当前索引所对应的初步激活点值添加到待删除的点值列表中;并跳过该索引对应的后续检测,开始进行下一个索引的检测;

20、(1.2.2.6.3)如果当前索引之后的各个索引所对应的初步激活点距离当前索引所对应的初步激活点的空间距离小于等于距离阈值d,则将满足条件的索引所对应的初步激活点坐标添加到待删除的点坐标列表中,并将满足条件的索引所对应的初步激活点值添加到待删除的点值列表中;

21、(1.2.2.7)对于处于待删除的点坐标列表和对应的值的列表中的点坐标和值,都将其从初步激活点坐标列表与初步激活点值列表中删除;

22、(1.2.2.8)返回更新后的激活点坐标列表与更新后的激活点值列表;

23、(1.2.3)从粗略类激活图和精细类激活图中提取峰值点作为语义相关查询;

24、(1.3)使用(1.2)步骤中生成的查询点来提示分割大模型,从而生成图片建议框;具体包括如下子步骤:

25、(1.3.1)将空间相关查询直接发送给分割大模型以获取相应的建议掩码和建议框,并对重复的建议框进行筛除;

26、(1.3.2)使用聚类方法对实例相关查询进行聚类,再将聚类后的实例相关查询发送给分割大模型以获取相应的建议掩码和建议框;

27、(1.3.3)将语义相关查询直接发送给分割大模型以获取相应的建议掩码和建议框;

28、(2)基于(1)中最终生成的图片建议框构建弱监督目标检测管线,其特征在于,包括:

29、(2.1)基于(1)中最终生成的图片建议框训练弱监督目标检测网络;

30、(2.2)利用(2.1)步骤中训练好的弱监督目标检测网络进行推理,并基于本发明提出的动态伪标签生成策略进行高质量包围框伪标签的生成;具体包括如下子步骤:

31、(2.2.1)利用训练好的弱监督目标检测网络对图片进行推理;

32、(2.2.2)从框列表和相应的分数列表中选择分类类别对应的框和分数,并对分数进行标准化处理;其中n是预测框的数量,b的第二个维度是类别标签和四个坐标值的组合;

33、(2.2.3)只保留分数高于阈值τs的框,将分数低于此阈值的框过滤掉;

34、(2.2.4)只保留主要部分不包含在一些较大包围框中的包围框,将不满足此条件的包围框过滤掉;

35、(2.2.5)返回框列表b’作为最终的包围框伪标签;

36、(2.3)采用基于感兴趣区域丢弃的方法,或者基于查询丢弃的方法,利用(2.2)步骤中的生成的高质量包围框伪标签进行全监督目标检测网络的训练;具体包括如下子步骤:

37、(2.3.1)分别确定分类损失和回归损失的阈值τcls和τreg;

38、(2.3.2)计算第i个感兴趣区域的丢弃信号di;和分别表示每个感兴趣区域的分类损失和回归损失;当感兴趣区域的两个损失都低于其阈值时,本方法将其丢弃信号di设置为1;具体的公式如下所示:

39、

40、(2.3.3)将di整合到最终损失的计算中;如果包围框为正样本,则为1;如果包围框为负样本,则为0;λ是平衡权重;

41、

42、(2.3.4)对分类损失lcls设置百分比阈值τ;

43、(2.3.5)计算第i个查询的丢弃信号di;若第i个查询的损失小于τ%处的损失,即则将其对应di设置为1;具体的公式如下所示:

44、

45、(2.3.6)将di整合到最终损失的计算中;和分别表示包围框损失以及交并比损失;具体的公式如下所示:

46、

47、(3)使用(2.2)步骤中生成的高质量包围框伪标签作为分割大模型的提示,进而生成可供物体分割网络训练的伪标签;具体包括如下子步骤:

48、(3.1)对使用(2.2)步骤生成的高质量包围框伪标签提示分割大模型,用以生成实例级别伪标签;

49、(3.1.1)将高质量包围框输入到分割大模型中,获得高质量包围框对应的物体分割掩码;

50、(3.1.2)将高质量包围框对应的物体类别属性赋予给包围框对应的物体分割掩码;

51、(3.2)使用(3.1)步骤生成的实例级别伪标签训练物体分割网络;

52、(3.2.1)将高质量包围框和其对应的物体分割掩码作为监督信息,训练基于r-cnn的物体分割网络;

53、(3.2.2)将高质量包围框对应的物体分割掩码作为监督信息,训练基于查询的物体分割网络。

54、总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:

55、(1)准确度高:该发明针对弱监督目标检测和分割问题,通过基于分割大模型的高精度弱监督目标检测分割方法进行实例的检测以及前后景分割,更精确地生成实例的前景掩码;

56、(2)速度快:该发明提出的基于分割大模型的弱监督目标检测方法可以进行更快速的建议框生成,召回率极高,后续的弱监督目标检测网络的训练速度也优于此前的方法;

57、(3)鲁棒性强:该发明基于分割大模型,拥有更强的类别无关的分割性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1