一种基于特征融合的自适应权重深度学习目标分类方法与流程

文档序号:17929363发布日期:2019-06-15 00:41阅读:3461来源:国知局
一种基于特征融合的自适应权重深度学习目标分类方法与流程

本发明涉及的是一种深度学习目标分类方法,特别是一种基于特征融合的自适应权重深度学习目标分类方法,属于图像识别技术领域。



背景技术:

目标分类技术在众多领域应用广泛,近些年,人工智能领域发展如火如荼,目标分类技术已成为人工智能领域不可或缺的技术基础,目标分类可以为视频监控、自动驾驶等提供重要的信息源,如通过目标分类,提供图像中是否存在行人、车辆以及建筑物等,可以说精准的目标分类技术是众多领域亟待解决的技术瓶颈。早期,人们往往采用手工设计的特征来提取图像信息开展目标分类工作,特征包括颜色特征、纹理特征、形状特征等,但是通过这些特征,对图像中目标识别的准确率较低,原因是这些传统特征并不能代表图像中目标的本质,因此只采用传统特征及图像识别技术并不能满足图像精准分类的要求。

随着深度学习技术的兴起和发展,深度学习为图像目标高识别率提供了新的解决方案,在很多领域都取得了惊人的成绩,与传统特征相比,深度学习中卷积神经网络所提取的卷积特征,更能代表目标本质,并且具有强大的鲁棒性,在进行目标分类时通常用到网络最后一个卷积层所产生的特征图,该层的特征图比其他卷积层更为抽象,对目标分类效果较好,但是提取的特征丢掉较多细节信息,因此,卷积神经网络在区分类别相近的物体时,有时分类效果较差,如直接利用faster-rcnn网络实现对不同杯子开展精确分类时,很难将类别细化,降低了深度学习网络的识别准确率。

综上,只利用图像中的卷积特征或传统特征,都存在各自的局限性,更为合适的方法是采用多特征融合的方法,卷积特征在分辨目标大类方面更具优势,如目标是否为水瓶,而传统特征在分辨同一大类下的小类更具优势,如水瓶是矿泉水瓶还是可口可乐瓶。在传统特征中,hog特征可以代表图像的全局特征,表征了图像的梯度信息,将其和卷积特征融合,可以提高分类的成功率。以前有部分学者采用将卷积特征与hog特征相结合,往往先提取其中一种特征,在此基础上提取另一种特征,通过支持向量机分类,但是这种方式存在两个问题:首先,提取其中一种特征的环节势必弱化另一种特征;其次,该过程并未改变各特征的影响权重和损失函数,没有考虑到不同特征对分类准确率的增益是不同的。因此以前的方法的分类效果并不理想。



技术实现要素:

本发明的目的在于提供一种能够实现图像中目标精准分类的基于特征融合的自适应权重深度学习目标分类方法。

本发明的目的是这样实现的:

(1)、目标粗检测

将含有roi-align层和fpn结构的faster-rcnn目标检测网络,根据softmax前的概率值,通过降低检测阈值,获取检测框,然后通过极大值抑制原理,筛选出符合条件的检测框,然后建立先验知识库,定目标范围;

(2)、提取图像卷积特征和hog特征,对hog特征扩维处理

提取图像特征在resnet网络框架下完成,提取基本的卷积特征,获得n维的卷积特征图,在resnet网络框架下增加opencv提取图像hog特征的代码,改造resnet网络框架,一张图像对应一个hog特征图,将hog特征图复制n份,扩展为n维hog特征图;

(3)、将senet嵌入到resnet网络框架,建立用于提取图像多特征权重的网络框架

将senet模块嵌入到改造的resnet网络框架中,在改造后的resnet网络框架每一次计算获取图像卷积特征和hog特征之后,通过senet模块计算相应特征的权重向量,作为后续进一步处理得的预处理信息;

(4)、计算卷积特征和hog特征的自适应权重向量,制定特征融合策略,计算图像融合特征

根据hog特征、卷积特征及其权重向量相乘叠加实现融合工作,利用opencv获取n维hog特征后,利用senet模块计算获得每个hog特征fh的自适应权值ph,由resnet第一层卷积层的卷积计算、激化、池化提取原始图片的n维卷积特征fc1,利用senet模块计算获得卷积特征自适应权值pc1,由下式计算新的卷积特征fcn1:

fcn1=fc1·pc1+fh·ph(1)

由resnet卷积层后的layer1层、layer2层、layer3层、layer4层在前一层的计算的新的融合特征的基础上进一步提取卷积特征和相应的权值向量,两者相乘得到融合特征fcn,即满足下式所示:

fcn=fcx·pcx(2)

上式中,fcx表示resnet网络layer第x层的提取的卷积特征,pcx表示利用senet网络计算出的layer第x层卷积特征的自适应权值;

(5)、建立基于精准二分类网络集的多目标分类框架

首先通过fasterrcnn网络对目标进行大类检测,再针对结果选择二分类网络集内对应的二分类网络,开展精准分类,最后得到目标分类结果。

本发明提供了一种融合图像hog特征和卷积特征、实现图像中目标精准分类的深度学习网络。该网络综合考虑hog特征和卷积特征,同时提取两种特征,并采用一定的策略将两种特征相结合,通过训练网络得到最优的自适应特征权重,通过设计多个二分类器来代替多分类器,实现目标的精准分类目标。

本发明的主要技术特点体现在:

第一、制定了低阈值—粗检测的策略。

本发明将含有roi-align层和fpn结构的faster-rcnn目标检测网络,根据softmax前的概率值,通过降低检测阈值,获取较多的检测框,然后通过极大值抑制原理,筛选出较为符合条件的检测框。然后建立先验知识库,即确定目标可能的大致范围,该知识库由人工建立,如水杯可能在桌子等支撑物体上,再比如移动机器人只能在地面上,而不会出现在悬空位置,这样就能在先验知识的基础上,进一步缩小由得到的目标检测框。

第二、本发明提取图像特征在resnet网络框架下完成,该网络有提取图像卷积特征的功能,本发明用以提取基本的卷积特征,获得n维的卷积特征图,在resnet网络框架下增加opencv提取图像hog特征的代码,改造resnet网络框架,由于hog特征是针对灰度图的特征,所以一张图像对应一个hog特征图,为了后续的特征图融合工作,本发明将hog特征图复制n份,扩展为n维hog特征图。

第三、将senet嵌入到resnet网络框架,建立用于提取图像多特征权重的网络框架。

本发明在提取图像卷积特征和hog特征的基础上,进一步考虑所提取图像特征的影响权重向量,将senet模块嵌入到前述改造的resnet网络框架中,在改造后的resnet网络框架每一次计算获取图像卷积特征和hog特征之后,通过senet模块计算相应特征的权重向量,作为后续进一步处理得的预处理信息,该网络框架实现卷积特征、hog特征与相应的权重向量同步获取功能。

第四、计算卷积特征和hog特征的自适应权重向量,制定特征融合策略,计算图像融合特征。

本发明根据hog特征、卷积特征及其权重向量相乘叠加实现融合工作,利用opencv获取n维hog特征后,利用senet模块计算获得每个hog特征fh的自适应权值ph,由resnet第一层卷积层的卷积计算、激化、池化提取原始图片的n维卷积特征fc1,利用senet模块计算获得卷积特征自适应权值pc1,计算新的卷积特征fcn1。

由resnet卷积层后的layer1层、layer2层、layer3层、layer4层在前一层的计算的新的融合特征的基础上进一步提取卷积特征和相应的权值向量,两者相乘得到融合特征fcn。

本发明在卷基层和激活函数层之间,增加批量归一化层,加速网络学习收敛。

第五、本发明将senet、resnet与fasterrcnn网络结合,建立多种精确的二分类网络构成网络集,该二分类网络主要由前面所述的resnet和senet组成。实现步骤为首先通过fasterrcnn网络对目标进行大类检测,再针对结果选择二分类网络集内对应的二分类网络,开展精准分类,最后得到目标分类结果。

本发明的有益效果主要体现在:本发明针对传统方法对目标精准分类准确率不高的问题,将图像卷积特征与hog特征融合,提取图像特征的自适应权重向量,设计深度学习网络构型和参数,构建精准的分类网络,一方面,该网络通过降低得分阈值来得到更多的候选框,以此提高目标检测的召回率,在复杂环境下仍能具有优秀的检出能力;另一方面,该网络通过设计多个二分类网络,在多分类问题上具有更高的准确率,同时对于同类别下的不同小类别目标,也具有较高的可分辨能力。

附图说明

图1是本发明的结构框图。

图2是桌子上目标的合理区域示意图。

图3是提取图像特征图权重结构图。

图4是分类网络实现流程。

图5是降低阈值获得样本框试验结果。

图6是不考虑hog特征的目标识别效果。

图7是本发明识别效果。

具体实施方式

下面举例对本发明做更详细的描述。

本发明的结构框图如图1所示,其中涉及到fasterrcnn网络、resnet网络、senet网络,其中fasterrcnn网络用于完成目标识别的工作,resnet网络用于提取图像卷积特征和hog特征,senet网络用于计算特征图的权重向量,并通过特征融合方式实现目标分类任务。

1、制定低阈值—粗检测的策略

本发明将含有roi-align层和fpn结构的faster-rcnn目标检测网络,对网络输出节点经过softmax函数解算出的概率值,降低其可检测阈值,显示更多的低概率目标,这些目标作为备选目标。为了完成提高检测召回率的目标,本发明降低阈值,允许更多的疑似区域出现,考虑到此处由于目标得分为softmax函数输出的概率值,该值并非线性变化,故本发明采用读取网络softmax前的输出作为判定概率依据,为使检测框可以在不考虑准确率的前提下尽可能多的涵盖所有物体,将阈值设置为0.5。并依靠非极大值抑制以及调节合理的输出概率值,将检测框的概率得分按照降序排列,并将概率值最高的检测框作为极大值,按照概率降序,依次计算其他检测框与极大值检测框的重叠率,若重叠率小于一定阈值,则认为在该范围内,出现了两个同类物体,不处理;若重叠率大于阈值,则认为该检测框和极大值检测框为同一物体,消除非极大值检测框。

模拟人根据先验知识基础上寻找物体的思路,建立物体可能存在区域的先验知识库,即确定目标可能的大致范围,如水杯可能在桌子等支撑物体上、移动机器人只能在地面上,这些物体不会出现在悬空位置,这样就能在先验知识的基础上,进一步缩小由得到的目标粗检测框。采用合理空间的空间约束思想不仅可以大大降低目标检测的运算量,还能够降低误检的概率。以桌子1为例,其上目标的合理区域2的示意图如图2所示。

根据以上内容,通过降低阈值和合理区域判定,可初步确定目标检测框的范围,该范围内的检测框将通过后面的方法进行再判断。

2、提取图像卷积特征和hog特征

针对通过降低阈值获得的粗检测图像截图,采用resnet网络提取图像卷积特征,resnet网络中含有1个卷积层和4个layer层,每个layer层有1个残差模块,每个layer层由64个1×1×256卷积核、64个3×3×64卷积核、256个1×1×64卷积核构成。最后经过4个全连接层输出分类向量。卷积层经过卷积核、激活层、池化层输出卷积特征。为了实现后续卷积特征与hog特征的融合,本发明在resnet网络增加提取hog特征的功能,考虑到hog为图像传统特征,这里利用opencv中提取特征的模块完成hog特征提取工作。

3、将senet嵌入到resnet网络,建立用于提取图像特征权重的网络框架

本发明将senet网络嵌入到resnet网络中,用于在提取图像特征的同时,专门提取卷积特征和hog特征的权重向量,本发明在考虑图像的卷积特征和hog特征的同时,增加对相应特征的影响权重,增加对目标识别的准确率。嵌入后senet的网络框架结构如图3所示。

图3中,se模块连接在网络特征提取模块之后,网络特征提取模块分别为resnet提取的卷积特征和opencv提取hog特征,再分别通过全局平均池化、两个全连接层和sigmoid激活函数,再经过比例系数和权值叠加,分别得到卷积特征图和hog特征图的权重向量。resnet网络中含有1个卷积层和4layer层,本发明中每一层都嵌入了senet网络,即对以上各层的特征图均计算其相应的权重向量。

4、计算卷积特征和hog特征的自适应权重向量,并求取新的卷积特征。

如图2所示,在每一层中得到的卷积特征都与senet网络计算相应的权值相乘得到新的卷积特征图,并为后续的各层提供卷积特征。由于hog特征在resnet网络第一层即已获取,本发明考虑卷积特征和hog特征的权值向量,新的特征图采用如下步骤实现上述功能:

步骤1:利用opencv获取hog特征后,经过senet网络,得到hog特征fh的自适应权值ph;

步骤2:由resnet第一层卷积层的卷积计算、激化、池化提取原始图片的卷积特征fc1,利用senet网络计算卷积特征自适应权值pc1,由下式计算新的卷积特征fcn1:

fcn1=fc1·pc1+fh·ph(3)

步骤3:由resnet的layer1层卷积计算提取fcn1卷积图的卷积特征fc2,利用senet网络计算卷积特征自适应权值pc2,由下式计算新的卷积特征fcn2:

fcn2=fc2·pc2(4)

步骤4:由resnet的layer2层卷积计算提取fcn2卷积图的卷积特征fc3,利用senet网络计算卷积特征自适应权值pc3,由下式计算新的卷积特征fcn3:

fcn3=fc3·pc3(5)

步骤5:由resnet的layer3层卷积计算提取fcn3卷积图的卷积特征fc4,利用senet网络计算卷积特征自适应权值pc4,由下式计算新的卷积特征fcn4:

fcn4=fc4·pc4(6)

步骤6:由resnet的layer4层卷积计算提取fcn4卷积图的卷积特征fc5,利用senet网络计算卷积特征自适应权值pc5,由下式计算新的卷积特征fcn5:

fcn5=fc5·pc5(7)

经过上述步骤,实现了senet获取卷积特征和hog特征的权值向量并合成新的特征图,在resnet框架下,实现了卷积特征和hog特征的真正融合。

图2所示网络既要提取图像特征,又要计算图像特征的影响权重向量,同时senet网络中存在全局均值池化,因此深度学习收敛速度较慢。本发明在上述网络特征提取的卷积层和激活函数层之间,增加批量归一化层,专门用于加速网络学习收敛任务。

5、建立基于精准二分类网络集的多目标分类框架。

考虑到faster-rcnn网络在对大的类别具有较高的识别率,但是对于同一类别下的小类识别率较不理想,为此,本发明将多个二分类网络组成网络集,用于检测fasterrcnn网络输出目标粗分类,进而得到目标的精确分类,流程如图4所示:

利用fasterrcnn对粗检测出的目标框进行初步判断,确定目标大类别,再通过可对大类别目标进行精细分类的二分类网络进行精准分类,图4中二分类网络集内的每一个二分类网络,均由前面所述的resnet和senet组成,每一个二分类网络用于判断目标是否为某具体的目标,比如大目标为bottle类,二分类网络包括用于区分:是否为bottle_beer小类、是否为bottle_tea小类、是否为bottle_milk小类等,通过以上流程实现目标的精准分类。

试验验证

选择实验室工作环境的图像作为训练、测试、验证的样本集,利用本发明提出的目标分类方法开展深度学习训练,这里的样本种类共包含杯子等13类目标和1个背景类,训练样本数量为500,测试和验证样本数量均为100,训练过程共含批次为100,每批同时训练200个样本。

(1)fasterrcnn网络降低阈值获得样本框,如图5所示:

从图5可以看出,根据本发明提出的降低阈值的方法,可获得很多无关的框,但是所有的框构成了目标粗检测结果集,虽然出现了冗余检测框,但是这样可以最大化的包含可检测的目标范围。

(2)不考虑hog特征融合的fasterrcnn目标识别,识别效果如图6:

从图6中可以看出,如果不考虑hog特征融合,fasterrcnn对同为bottle分类的绿茶瓶子(图中标记为bottle_tea)和奶茶瓶子(图中标记为bottle_tea)的分辨效果较差。

(3)本发明融合hog特征的卷积神经网络识别效果,如下图7所示:

从图7中可以看出,本发明不仅对目标识别正确率较高,而且能够对同一分类的不同小类识别率也较高,如同为bottle分类的绿茶瓶子、奶茶瓶子、瓶酒瓶子均分类正确,且识别正确率均在90%以上。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1