一种基于弱监督学习的图像目标检测方法与流程

文档序号:18903438发布日期:2019-10-18 22:18阅读:505来源:国知局
一种基于弱监督学习的图像目标检测方法与流程

本发明属于神经网络技术领域,具体涉及一种基于弱监督学习的图像目标检测方法。



背景技术:

随着深度学习在计算机视觉任务的应用越来越广泛,当下深度神经网络模型在图像分类、目标检测、语义分割等任务中表现优异,但是监督学习式地训练模型需要大量人工标注信息,这些标注信息,尤其是位置相关的标注,往往会耗费大量的人力物力,因此对标注信息依赖更低的弱监督学习方法成为了研究热点。弱监督学习是机器学习的一种方式,区别于监督学习模型要求标注与模型输出一一对应,弱监督学习依赖的标注信息仅需要部分层级标注,故弱监督学习在实际计算机视觉任务中具有良好的应用前景与经济效益。

(1)图像特征提取

传统特征提取主要运用图像处理的手段,手工设计特征模式以及相应的提取方法,设计和提取的过程中融入了大量的人工痕迹,在耗费人力的同时,也不利于从数据本身的角度进行信息挖掘。卷积神经网络的方法则利用网络能够自学习的特性,从设计实现过程中尽量地避免人工过度干预,在简化过程的同时,还能达到比传统方法更好的识别效果,而深度神经网络的多层结构使其能够学习到更高层、更抽象的表达,采用多尺度特征融合的方式能够提取到图像更为确切的特征。

(2)目标检测

目标检测任务是在生产生活中常见的一种计算机视觉任务,其要求模型输出目标的包围框和该框对应的目标类别,以用于后续的任务中。常见的基于深度卷积网络的目标检测模型在训练时都采用了人工标注的包围框作为监督信息,通常使用神经网络回归目标框坐标的思路完成。基于弱监督学习的目标检测方法不依赖人工标注的包围框信息,极大减小了在标注工作中的人力物力代价。



技术实现要素:

本发明的目的在于:为解决现有基于深度学习的图像目标检测方法对于人工标注的过度依赖的技术问题,设计基于多尺度特征图的深度卷积神经网络模型提取生成图像的类别热力图,基于模型输出的类别热力图实现图像目标检测任务,提出一种基于弱监督学习的图像目标检测方法。

本发明采用的技术方案如下:

一种基于弱监督学习的图像目标检测方法,该方法包括如下步骤:

步骤1:收集图像数据集,采用多示例学习方法训练构建的基于多尺度特征图的深度卷积神经网络模型;

步骤2:输入实际图像,通过深度卷积神经网络模型提取实际图像的类别热力图;

步骤3:采用二值化图像连通区域分析方法输出类别热力图中目标的包围框,得到目标检测结果。

优选地,所述步骤1包括如下步骤:

步骤1.1:收集整理图像数据,对图像尺寸做归一化处理,并对图像作多热编码标注;

步骤1.2:构建基于多尺度特征图的深度卷积神经网络模型,深度卷积神经网络模型的主干网络模型采用经公开数据集预训练的模型;

步骤1.3:采用多示例学习方法训练构建的深度卷积神经网络模型,其中标注数据使用步骤1.1中的多热编码标注。

优选地,步骤2.2包括如下步骤:

步骤2.2.1:选取深度卷积神经网络模型的主干网络模型中的不同下采样阶段,对输入的实际图像通过特征提取网络提取多尺度特征;

步骤2.2.2:多尺度特征经卷积层转换后,进行全局多尺度池化,输出多类别的分类概率值。

优选地,所述步骤1.3包括如下步骤:

步骤1.3.1:通过多热编码标注和深度卷积神经网络模型输出预测值作为多类别概率,以计算交叉熵损失函数;使用高光损失函数对深度卷积神经网络模型中的输出特征图进行约束,迫使卷积网络模型中的输出特征图上的响应值往确定性高处靠拢,并将这交叉熵损失函数和高光损失函数之和作为模型的总体损失函数;

步骤1.3.2:在训练时对总损失函数使用优化器进行梯度下降优化,训练深度卷积神经网络模型直至收敛,即在5轮训练中总体损失函数波动幅度保持在0.1之内。

优选地,所述步骤2包括如下步骤:

步骤2.1:对于输入的实际图像进行尺度归一化处理;

步骤2.2:将经归一化处理的实际图像经过深度卷积神经网络模型处理得到各特征尺度的类别热力图;

步骤2.3:将各特征尺度的类别热力图融合为一幅特征融合后的类别热力图。

优选地,所述步骤2.2包括如下步骤:

步骤2.2.1:选取深度卷积神经网络模型的主干网络模型中的不同下采样阶段,对输入的实际图像通过特征提取网络提取多尺度特征;

步骤2.2.2:多尺度特征经卷积层转换后,进行全局多尺度池化,输出多类别的分类概率值。

优选地,所述步骤2.3包括如下步骤:

步骤2.3.1:将所有特征尺度对应的类别热力图采样至经归一化处理后的实际图像的尺寸;

步骤2.3.2:在每个位置对多个特征尺度对应的类别热力图的响应值求均值,得到特征融合后的类别热力图。

优选地,所述步骤3中的具体步骤如下:

步骤3.1:以深度卷积神经网络模型输出的分类结果作为目标的分类依据,选择类别热力图中存在类对应的特征图;其中,输出分类概率值大于等于0.5的认为有该类存在,否则认为该类不存在;

步骤3.2:计算每个类对应的特征图中的响应值均值,将响应值均值作为二值化阈值,并将每个类对应的特征图二值化;

步骤3.3:使用连通区域分析方法,采取8-领域模式,对二值化后的特征图进行连通区域分析,标注每个区域作为对应类的目标区域;

步骤3.4:将每个类的目标区域的最小外接矩形作为对应类目标的包围框;

步骤3.5:将类别热力图中所有存在类别对应的包围框输出,完成图像目标检测。

综上所述,由于采用了上述技术方案,本发明区别于现有技术的有益效果是:

1、本发明采用的是一种基于弱监督学习方法,其方法主要是通过采用多示例学习方法训练深度卷积神经网络模型,再将实际图像输入到已训练的深度卷积神经网络模型中,提取实际图像的类别热力图,最后采用二值化图像连通区域分析方法输出类别热力图中目标的包围框,即可得到目标检测结果。本发明使用基于弱监督学习方法实现了图像目标检测任务,在卷积神经网络模型训练中的标注仅使用图像级分类标注信息即可完成目标检测任务,有别于现有技术所需的目标包围框标注信息,大大减少了人工标注图像中目标的工作,使得完成图像目标检测任务更具经济效益。

2、本发明中,通过构建基于多尺度特征的深度卷积神经网络模型,能够从不同尺度范畴提取特征,生成的类别热力图更能够反应目标的响应区域,有别于现有的卷积网络模型结构所导致的特征提取尺度单一的缺点,本发明中的深度卷积神经网络模型结构保障了目标检测的准确性。

3、本发明中,提出在训练卷积网络模型中引入一种新的损失函数称之为高光损失函数,其作用为约束卷积网络模型中的输出特征图,进而使模型最终产生的类别热力图更加贴合目标范围,相较于不使用该损失函数的模型,进一步提高目标检测的准确性与有效性。

附图说明

图1为本发明基于弱监督学习的图像目标检测方法的流程示意图;

图2为本发明中基于弱监督学习的图像目标检测方法的框架示意图;

图3为本发明中深度卷积神经网络模型示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

本实施方式针对一副真实场景图像进行检测,模型的训练采用公开数据集vocpascal进行,预训练主干网络模块采用在公开数据集imagenet上训练的分类网络inception-resnet-v2进行,目标类别(分类结果)为飞机、自行车、鸟类、船舶、瓶子、公交车、小汽车、猫类、椅子、牛类、餐桌、狗类、马类、摩托车、人类、盆栽、羊类、沙发、火车和显示器等。

一种基于弱监督学习的图像目标检测方法,该方法包括如下步骤:

步骤1:使用vocpascal数据集,以图像数据集及对应图像级多分类标注作为输入,对基于多尺度特征图的深度卷积神经网络模型进行多示例训练。具体步骤如下:

步骤1.1:对数据集中的图像尺寸做归一化处理,一致通过尺寸归一化操作将图像采样至513×513,使用数据集中的分类信息得到图像对应分类的多热编码标注;

步骤1.2:构建基于多尺度特征图的深度卷积神经网络模型,主干网络采用inception-resnet-v2模型去掉分类层的部分;

步骤1.3:采用多示例学习的方法训练构建的深度卷积神经网络模型。包括以下步骤:

步骤1.3.1:通过多热编码标注和深度卷积神经网络模型输出预测值作为多类别概率,以计算交叉熵损失函数,公式如:l=-ylog(y’)-(1-y)log(1-y’),其中y为模型输出的多类别概率、y’为图像级类别标注;使用高光损失函数对深度卷积神经网络模型中的输出特征图进行约束,迫使卷积网络模型中的输出特征图上的响应值往确定性高处靠拢,即往1或0趋近,具体在某尺度特征图(i,j)位置的高光损失函数计算公式为:h(i,j)=-p(i,j)logp(i,j)-(1-p(i,j))log(1-p(i,j)),其中p表示该特征图上的响应值,i表示横坐标,j表示纵坐标,并将这交叉熵损失函数和高光损失函数之和作为模型的总体损失函数;

步骤1.3.2:在训练时对总损失函数使用优化器(不限于adam优化器)进行梯度下降优化,训练模型进行梯度下降优化,分为两个阶段训练,第一阶段对模型进行微调,第二阶段训练整体模型,训练深度卷积神经网络模型直至收敛,即在5轮训练中总体损失函数波动幅度保持在0.1之内。

步骤2:输入实际图像,通过已训练的模型提取并融合其类别热力图。具体步骤如下:

步骤2.1:对于输入的实际图像进行尺度采样至513×513(归一化处理);

步骤2.2:将经处理的实际图像经过模型得到各特征尺度的类别热力图;深度卷积神经网络模型中舍弃主干网络的分类层部分,通过三次下采样阶段得到不同特征尺度的输出并设计转换层;包括以下步骤:

步骤2.2.1:选取预训练的主干网络模型中的不同下采样阶段,对输入的实际图像通过特征提取网络提取到多尺度特征(即多个语义尺度的特征);

步骤2.2.2:多尺度特征经卷积层转换后,进行全局多尺度池化,具体地,将各尺度下对应的特征图经过一层卷积层转换至通道数为m×c的特征图,其中c为目标分类类别数,在本例中取20,m为每一类中不同特征参数,在实施中m常取10,此后对每个m层在通道维度进行平均池化,得到通道数为c的类别热力图,再使用全局top-k池化,即取类别热力图上取最大的k个值作为这一层的输出,再实施中k取20,最后将每个尺度下对应的输出求和并概率化最终输出多类别的分类概率值。

步骤2.3:将各特征尺度的类别热力图融合为一幅特征融合后的类别热力图。包括以下步骤:

步骤2.3.1:将所有特征尺度对应的类别热力图使用重采样至输入图像尺寸513×513;

步骤2.3.2:在通道数为c的特征图每个位置对多个特征尺度对应的类别热力图的值求均值,得到特征融合后的类别热力图。

步骤3:基于深度卷积神经网络模型输出的类别热力图和分类概率,采用二值化图像连通区域分析方法输出类别热力图中目标的包围框,得到目标检测结果。具体步骤如下:

步骤3.1:以深度卷积神经网络模型输出的分类结果作为目标的分类依据,选择类别热力图中存在类对应的特征图;其中,输出分类概率值大于等于0.5的认为有该类存在,否则认为该类不存在;

步骤3.2:计算每个类对应的特征图中的响应值均值,将响应值均值作为二值化阈值,将每个类对应的特征图二值化,具体地,特征图响应值大于等于二值化阈值的位置设为1,否则设为0;

步骤3.3:使用图像处理中的连通区域分析方法,采取8-领域模式(即视一个点周围8方向点都为领域,),对二值化后的特征图进行连通区域分析,标注每个区域作为对应类的目标区域;

步骤3.4:将每个类对应的特征图中经标注的各个目标区域的最小外接矩形作为对应类目标的包围框;

步骤3.5:将类别热力图中所有存在类别对应的目标包围框连同类别输出,完成图像目标检测任务。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1