一种基于混合擦除策略的弱监督目标定位方法与流程

文档序号：35997840发布日期：2023-11-16 10:05阅读：32来源：国知局

本发明涉及目标检测，尤其涉及一种基于混合擦除策略的弱监督目标定位方法。

背景技术：

1、视觉是人类获取信息的重要来源，研究表明，人类通过视觉渠道获取80％以上的外界信息。图像是多媒体中的重要信息形式，形象、生动直观地承载着大量的信息，因此研究如何用计算机系统解释图像，实现类似人类视觉系统理解外部世界具有重要意义。其中，目标检测是计算机视觉中的一个基本且重要的问题，目标检测的目的是，在给定一张图片，通过计算机系统准确找到目标的位置以及判别目标的类别。目标检测在很多领域都有应用需求，被广为研究的有人脸检测，行人检测，车辆检测等重要目标的检测。

2、近年来，深度学习技术迅猛发展，在目标检测领域得到越来越多的关注，克服了很多基于特征的传统目标检测方法。目前基于深度学习的全监督目标检测算法有两大类：基于回归的one-stage目标检测算法，以及基于候选框的two-stage目标检测算法。基于候选框的two-stage目标检测算法分为提取候选框模块和分类模块，具有代表性的算法有r-cnn,faster-rcnn等方法。基于回归的one-stage目标检测算法直接通过回归来学习目标的位置及类别，代表的算法有yolo、ssd等算法，由于相对于基于候选框的目标检测算法而言基于回归的目标检测算法只有一步，所以大大加快了目标检测的速度。然而上述中的全监督目标检测需要大量且昂贵的边界框标注信息。有标注的数据虽然提升了基于深度学习的目标检测算法的性能，但是也耗费了大量的时间成本和人力成本。现实世界中有巨量的未标注过的数据，无法训练全监督目标检测算法。

3、弱监督定位算法不需要昂贵的边界框标注信息，只需要图像级别的类别标签，即可学习到图像中目标的位置信息。因此如何实现高精度的弱监督定位是有很大的研究和应用价值。目前弱监督目标定位研究通过训练一个深度学习分类模型，然后通过最后分类器的特殊类别权值对最后一层卷积特征图进行加权来获取定位图。然而由于分类模型更倾向于识别图像中物体最有辨识度的判别区域，导致无法定位成功。针对这一问题，一种朴素而有效的思想是按定位图的权重遮盖目标最有辨识度的区域，迫使网络利用目标的其他位置学习分类信息，从而由定位到部分区域转向定位到整体的目标区域。目前已有科研团队进行相应的研究，但现有技术中仍存在以下的缺陷：忽略了分类网络产生的类激活映射图中包含的目标空间信息；忽略了擦除策略中擦除分支可能带有噪声的问题；忽略了基于伪标签的策略本身标签不准确的问题；忽略了擦除策略可能的其他应用场景；定位精度低，时间长。

技术实现思路

1、为了克服现有技术的不足，本发明目的是提供一种基于混合擦除策略的弱监督定位方法，以解决现有的弱监督定位方法中目标位置搜索域狭窄、准确率低及定位区域小的问题。

2、为了实现上述目的，本发明提供了一种基于混合擦除策略的弱监督目标定位方法，包括：

3、构建神经网络，所述神经网络包括第一深度学习分类模型、第二深度学习分类模型和深度学习语义分割模型；

4、将图像输入所述第一深度学习分类模型，获取所述第一深度学习分类模型中全卷积网络输出的第一特征图，通过全局平均池化层将所述第一特征图输入第一分类器生成第一激活图；

5、根据所述第一激活图的像素激活值总和得到擦除阈值；

6、对所述第一特征图执行归一化操作，并对所述第一特征图中大于所述擦除阈值的像素值进行零替换操作，得到第二特征图，通过全局平均池化层将所述第二特征图输入第二分类器生成第二激活图；

7、根据所述第二激活图获取蒙版，将所述蒙版叠加到所述图像的原图上，得到所述第二激活图的目标区域；

8、将所述第二激活图输入所述第二深度学习分类模型，通过归一化指数函数得到所述第二激活图的目标区域的目标预测概率；

9、将所述目标预测概率作为所述第二激活图的权重，并将所述第二激活图与第一激活图相加，得到定位图；

10、根据所述定位图进行筛选，得到第一阶段蒙版；

11、将所述图像和第一阶段蒙版输入所述深度学习语义分割模型，获取所述深度学习语义分割模型中全卷积网络输出的第三特征图，并根据所述第三特征图生成第三激活图；

12、对所述第三激活图进行翻转擦除得到第四激活图，将所述第三激活图和第四激活图的商作为损失函数引导所述深度学习语义分割模型的训练；

13、对所述深度学习语义分割模型的输出结果进行归一化操作，得到定位框集合。

14、优选的，所述第一深度学习分类模型包括：全卷积网络、全局平均池化层和两个独立的全连接层网络。

15、优选的，所述深度学习语义分割模型包括：全卷积网络和全连接层网络。

16、优选的，所述将图像输入所述第一深度学习分类模型之前，还包括：

17、训练所述第一深度学习分类模型，使得所述第一深度学习分类模型具有分类能力。

18、进一步优选的，所述训练所述第一深度学习分类模型，使得所述第一深度学习分类模型具有分类能力，具体包括：

19、使用带有类别标注的图像数据集训练所述第一深度学习分类模型，并且使用交叉熵函数作为损失函数，使得所述第一深度学习分类模型具有分类能力。

20、本发明实施例提供了一种基于混合擦除策略的弱监督目标定位方法，首先构建神经网络，然后将图像输入第一深度学习分类模型，获取第一特征图，根据第一特征图生成第一激活图，根据第一激活图获取擦除阈值；对第一特征图执行归一化操作和零替换操作，得到第二特征图，通过全局平均池化层生成第二激活图；根据第二激活图获取蒙版，并将蒙版叠加到原图，得到第二激活图的目标区域；将第二激活图输入第二深度学习分类模型，通过归一化函数得到第二激活图的目标预测概率；将第二激活图与第一激活图相加，得到定位图；筛选定位图得到第一阶段蒙版；将图像和第一阶段蒙版输入深度学习语义分割模型，获取第三特征图，并根据第三特征图生成第三激活图；对第三激活图进行翻转擦除得到第四激活图，将第三激活图和第四激活图的商作为损失函数引导深度学习语义分割模型的训练；对深度学习语义分割模型的输出结果进行归一化操作，得到定位框集合。本发明引入自适应的阈值策略来引导擦除，避免人工选择阈值，同时，通过翻转擦除策略，避免了在伪标签训练阶段可能带来的类别信息不明确导致定位错误的问题，本发明的方案能够方便地与现有弱监督定位擦除技术融合，具有扩展性强，定位精度高及低计算资源特性。

技术特征：

1.一种基于混合擦除策略的弱监督目标定位方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于混合擦除策略的弱监督目标定位方法，其特征在于，所述第一深度学习分类模型包括：全卷积网络、全局平均池化层和两个独立的全连接层网络。

3.根据权利要求1所述的基于混合擦除策略的弱监督目标定位方法，其特征在于，所述深度学习语义分割模型包括：全卷积网络和全连接层网络。

4.根据权利要求1所述的基于混合擦除策略的弱监督目标定位方法，其特征在于，所述将图像输入所述第一深度学习分类模型之前，还包括：

5.根据权利要求4所述的基于混合擦除策略的弱监督目标定位方法，其特征在于，所述训练所述第一深度学习分类模型，使得所述第一深度学习分类模型具有分类能力，具体包括：

技术总结
本发明涉及一种基于混合擦除策略的弱监督目标定位方法，包括：构建神经网络，将图像输入第一深度学习分类模型，获取第一特征图生成第一激活图，根据第一激活图得到擦除阈值；对第一特征图进行归一化和零替换操作得到第二特征图并生成第二激活图；获取第二激活图的目标区域及目标预测概率；将第二激活图与第一激活图相加得到定位图，并筛选定位图得到第一阶段蒙版；将图像和第一阶段蒙版输入深度学习语义分割模型得到第三特征图并生成第三激活图；对第三激活图翻转擦除得到第四激活图，引导深度学习语义分割模型训练，并对输出结果继续归一化操作，得到定位框集合。本发明的弱监督定位方法扩展性强，定位精度高。

技术研发人员：薛松,阎士奇,苗津铨,李乾,张程,王曙,李鲲鹏,唐化勇,王军涛,张启发,刘峻杭,贾瑞涛
受保护的技术使用者：中车青岛四方车辆研究所有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：薛松阎士奇苗津铨李乾张程王曙李鲲鹏唐化勇王军涛张启发刘峻杭贾瑞涛
技术所有人：中车青岛四方车辆研究所有限公司
我是此专利的发明人

上一篇：一种热解重镁水的方法及其装置、碱式碳酸镁与流程
上一篇：一种堆叠料盘上下料装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。