一种基于数据增强的弱监督目标定位方法与流程

文档序号:15555699发布日期:2018-09-29 01:04阅读:1386来源:国知局

本发明涉及图像识别领域,尤其是涉及了一种基于数据增强的弱监督目标定位方法。



背景技术:

目标定位的目的是确定一个目标在图像中的位置,目前最先进的目标定位技术利用的是全监督学习的算法,需要大量的注释,而弱监督的方法不依赖于注释,因此是一个实用的替代方法,易于扩展到新的对象类。目标定位技术可以应用于许多领域,比如遥感领域,输入遥感图像后可以自动定位建筑物或人物在遥感图像中的位置,从而确定所在地点;也可以应用在医疗领域,根据医学x光图像或显微图像分析各种病变;在军事领域,目标定位可以用于定位敌方的位置。然而,以往的目标定位方法只专注于目标对象最具鉴别性的部分,而忽略了弱鉴别性的部分。

本发明中提出了一种基于数据增强的弱监督目标定位方法。对于输入的图片,先利用预激活残差网络实现分类网络的作用,作为基准网络,然后用一个网络数据集来训练分类网络,同时通过数据增强、小的批处理规模和深的网络深度优化定位性能,接着应用类激活映射(cam)算法生成热图,通过控制热图的阈值,由基准网络输出分类(即对象标签)和定位(即边界框)的结果。本发明能够对目标对象弱鉴别性的部分进行分类定位,同时能提高弱监督目标定位技术的准确度。



技术实现要素:

针对以往的目标定位方法只专注于目标对象最具鉴别性的部分,而忽略了弱鉴别性的部分的问题,本发明的目的在于提供一种基于数据增强的弱监督目标定位方法,对于输入的图片,先利用预激活残差网络实现分类网络的作用,作为基准网络,然后用一个网络数据集来训练分类网络,同时通过数据增强、小的批处理规模和深的网络深度优化定位性能,接着应用类激活映射(cam)算法生成热图,通过控制热图的阈值,由基准网络输出分类(即对象标签)和定位(即边界框)的结果。

为解决上述问题,本发明提供一种基于数据增强的弱监督目标定位方法,其主要内容包括:

(一)基准网络的构建;

(二)目标的定位;

(三)性能的优化。

其中,所述的基准网络的构建,是指先利用预激活残差网络实现分类网络的作用,作为基准网络,其中预激活残差网络是残差网络的一个改进版本。

进一步地,所述的分类网络,预激活剩余网络作为分类网络时,要对输入层的大小进行细微的修改,然后用一个网络数据集来训练分类网络,使用动量优化器对分类网络进行1500个周期的训练,其中将动量设置为0.9,初始学习速率设置为0.1,每250个周期将学习速率降低10,权重的衰减是10-4;用tensorflow(第二代人工智能学习系统)来实现代码,在每次迭代中,网格大小[0×0,4×4,8×8,16×16]被随机地应用于输入图像。

其中,所述的目标的定位,是指先应用类激活映射(cam)算法生成热图,然后,通过控制热图的阈值,由基准网络输出分类(即对象标签)和定位(即边界框)的结果。

进一步地,所述的cam算法,是指在卷积神经网络(cnn)的最后一个卷积层之后,用一个全局平均池(gap)层取代了原来的全连接层,这种优化方法方案适用于任何类型的cnn网络;利用gap层,能将特征图的空间信息可视化,然后,通过聚合高层的激活图与gap层和softmax层之间的权重来生成热图。

其中,所述的性能的优化,主要包括数据增强、批处理规模和网络深度对性能的优化。

进一步地,所述的数据增强,是指引入谷歌网络调整(gr)算法来解决对较弱鉴别性的部分的定位问题;捉迷藏(hns)算法是隐藏特定区域,而gr是在训练时只提供特定区域的信息给cnn网络,尽管这两种方法的目的都是在边界框中包含更弱鉴别性的部分,但是gr更加先进,因为它增加了具有更小的有效区域的图像。

进一步地,所述的谷歌网络调整(gr)算法,是指随机地裁剪出8%到100%的输入图像,纵横比在0.75和1.33之间,然后将裁剪后的图像大小调整为原始输入图像大小。

进一步地,所述的批处理规模,指通过减小批处理规模,提高弱监督目标定位技术的准确度。

进一步地,所述的网络深度,指增加网络深度,并利用一个恒等映射使梯度不随网络深度的增加而消失,从而提高弱监督目标定位技术的准确度。

附图说明

图1是本发明一种基于数据增强的弱监督目标定位方法的系统流程图。

图2是本发明一种基于数据增强的弱监督目标定位方法的方法对比图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于数据增强的弱监督目标定位方法的系统流程图。主要包括基准网络的构建,目标的定位和性能的优化。

其中,基准网络的构建是指先利用预激活残差网络实现分类网络的作用,作为基准网络,其中预激活残差网络是残差网络的一个改进版本。

进一步地,所述的分类网络,预激活剩余网络作为分类网络时,要对输入层的大小进行细微的修改,然后用一个网络数据集来训练分类网络,使用动量优化器对分类网络进行1500个周期的训练,其中将动量设置为0.9,初始学习速率设置为0.1,每250个周期将学习速率降低10,权重的衰减是10-4;用tensorflow(第二代人工智能学习系统)来实现代码,在每次迭代中,网格大小[0×0,4×4,8×8,16×16]被随机地应用于输入图像。

其中,所述的目标的定位,是指先应用类激活映射(cam)算法生成热图,然后,通过控制热图的阈值,由基准网络输出分类(即对象标签)和定位(即边界框)的结果。

进一步地,所述的cam算法,是指在卷积神经网络(cnn)的最后一个卷积层之后,用一个全局平均池(gap)层取代了原来的全连接层,这种优化方法方案适用于任何类型的cnn网络;利用gap层,能将特征图的空间信息可视化,然后,通过聚合高层的激活图与gap层和softmax层之间的权重来生成热图。

其中,所述的性能的优化,主要包括数据增强、批处理规模和网络深度对性能的优化。

进一步地,所述的批处理规模,指通过减小批处理规模,提高弱监督目标定位技术的准确度。

进一步地,所述的网络深度,指增加网络深度,并利用一个恒等映射使梯度不随网络深度的增加而消失,从而提高弱监督目标定位技术的准确度。

图2是本发明一种基于数据增强的弱监督目标定位方法的方法对比图。

捉迷藏(hns)算法和谷歌网络调整(gr)算法都是数据增强的方法,用于解决对较弱鉴别性的部分的定位问题;捉迷藏(hns)算法是隐藏特定区域,而gr是在训练时只提供特定区域的信息给cnn网络,尽管这两种方法的目的都是在边界框中包含更弱鉴别性的部分,但是gr更加先进,因为它增加了具有更小的有效区域的图像。

其中,谷歌网络调整(gr)算法,是指随机地裁剪出8%到100%的输入图像,纵横比在0.75和1.33之间,然后将裁剪后的图像大小调整为原始输入图像大小。

对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1