智能冰箱中基于Faster‑RCNN的多目标检测方法与流程

文档序号:13620109阅读:749来源:国知局

本发明属于智能家电领域,尤其是智能冰箱物品识别领域,涉及一种用于智能冰箱的基于faster-rcnn多目标检测方法。



背景技术:

目前智能冰箱产品的物品识别技术广泛使用无线射频识别(rfid)、图像识别、二维码扫描、语音识别、气味识别等先进的自动识别技术。但是由于rfid、二维码需要为每个物品加贴标签,操作繁琐,气味识别需要加装气味传感器,且由于冰箱是密闭系统,不同种类之间气味容易造成干扰,应用受到限制。随着无线通信技术、计算机硬件的发展,图像识别技术逐渐成为冰箱物品识别的研究热点。现有基于cnn(convolutionalneuralnetworks,卷积神经网络)的物品图像识别技术,大多通过摄像头拍摄冰箱冷藏室内物品,然后通过传统方法进行图像分割,提取出单个目标图片,再将图片发送至云端服务器,云端服务器搭建了cnn网络,最后通过分类器对图片进行分类。但是这种传统分割方法极易受到背景因素的影响。故为解决图像中存在多类物品,多目标检测技术被广泛提出。

faster-rcnn网络是目前比较流行的通用多目标检测框架之一,其检测流程如图1所示。现有的faster-rcnn算法主要分成三个部分:第一部分是cnn基础网络,用来完成图像特征的提取;第二部分是rpn(regionproposalnetworks)网络,其主要是利用卷积神经网络直接产生区域目标,使用的方法本质上就是滑动窗口。在cnn基础网络的最后一层特征图上使用固定大小的窗口滑动,如图2所示,每个窗口会输出一个固定大小维度的特征向量(这个维度和cnn基础网络有关,如vgg16为512维),然后对每一个窗口产生的9个候选框,进行判断是否是目标及进行坐标回归;最后一部分是判别网络,即分类与边框回归,它是对rpn网络提取的目标区域进行分类与坐标回归修正。基于vgg16的faster-rcnn整个网络具体架构图如图3所示。

虽然基于faster-rcnn的多目标检测技术对于大中等目标的准确率已经很高,但是对于小目标以及一些分辨率较差的目标识别始终是个痛点。由于小目标及一些比较模糊的目标,其分辨率本身比较低,原图又经过多层的卷积(线性乘积求和)、池化(即取区域平均或最大)后,到了最后一层特征图时,图像分辨率缩小了好几倍,在类别判断的时候,特征已经模糊不清了,基本上只能看见一些轮廓信息,这样就容易出现误识别或者识别的分数太低。由于faster-rcnn网络对低于置信度阈值的检测框均未作处理,所以显示检测结果的时候会出现:置信度阈值调高产生漏检;置信度阈值调低产生误检的情况。



技术实现要素:

本发明的目的,在于提供一种智能冰箱中基于faster-rcnn的多目标检测方法,其利用rpn网络检测目标存在准确率高的特性,在物体识别时无需进行图像分割,提高对小目标及分辨率较低目标的识别效果,进一步提高目标识别的准确率,降低误检率。

为了达成上述目的,本发明的解决方案是:

一种智能冰箱中基于faster-rcnn的多目标检测方法,包括如下步骤:

步骤1,利用冰箱内置摄像头,拍摄冰箱冷藏室内物品图片,并将图片传输至云端;

步骤2,将图片送入多目标检测网络,包括如下内容:

步骤21,将图像数据输入到vgg16基础网络中进行图像特征的提取;

步骤22,在vgg16的最后一层特征图上进行rpn网络搜索,在特征图上的每个滑动窗口位置生成特征向量,并将各特征向量送入两个并列的全连接层做预测,判断是否存在目标及进行坐标回归,然后对rpn提取的可能存在的目标区域进行分类与坐标回归修正,并对目标区域进行非极大值抑制;

步骤23,将识别分数处于设定范围之内的多目标检测框重新收集整合进行再识别;

步骤3,当再识别检测完毕后,结合第一次识别分数高于置信度阈值的目标检测结果在移动端应用中进行最终整体展示。

上述步骤21中,vgg16基础网络包含13个卷积层和4个池化层,其中,第2、4、7、10个卷积层后面分别设置池化层。

上述步骤23中,进行再识别的过程是:降低置信度阈值,将识别分数处于设定范围之内的多目标检测框重新整合提取。

上述整合通过special_nms实现,具体过程是:第一步,将识别分数处于预设置信度阈值范围的目标检测框收集,保留坐标信息,去除分数,分别计算每个目标检测框的面积;第二步,随机固定一个检测框,然后计算其余遍历检测框与固定检测框的iou大小,如果其iou小于所设定iou重叠阈值,保留当前固定框与遍历框的位置坐标;如果其iou大于所设定iou重叠阈值,则采用平均调整位置整合当前固定框与当前遍历框的位置坐标,更新成为一个新的检测框;第三步,固定下一个检测框,重复第二步,直至整合完毕。

上述第二步中,采用平均调整位置整合当前固定框与当前遍历框的位置坐标更新成为一个新的检测框的具体内容是:分配一个δ参数和一个1-δ参数分别乘以当前固定框和遍历框的位置坐标,其中,00δ01。

上述置信度阈值范围为0.2-0.7,该区间设定可以根据实际情况进行调整。

采用上述方案后,本发明具有以下特点:

(1)使用多目标检测技术,可以一次同时获得图像的多个物品类别信息,不同于一般的物品图像识别上使用的单个物品图像上传或拍摄,也就是适合用于冰箱内部有多类物品情况。

(2)针对多目标检测漏检、误检等情况,通过引入基于改进的faster-rcnn技术,将低于某个置信度阈值范围的目标检测框收集整合,对整合后的roi区域进行图像增强处理,然后将最短边缩放到固定尺寸,再进行识别,进一步提高分类精度。

(3)在训练阶段,针对冰箱内的物品摆放姿态千奇百怪,视角多变,采取左右旋转90°、加噪、亮度扰动等多种手段相结合的数据扩增方法对faster-rcnn进行增强处理。

附图说明

图1是faster-rcnn检测流程示意图;

图2是rpn网络结构图;

图3是faster-rcnn基于vgg16的网络架构图;

图4是改进的faster-rcnn检测流程图;

其中,featuremap,特征图;convlayers,卷积层;bounding-boxregression,边框回归;

图5是再识别流程图;

图6是special_nms流程图;

图7是本发明的流程图;

图8是改进前后的faster-rcnn检测算法实验结果图;

其中,图8a为faster-rcnn检测算法实验结果,图8b为相对应改进后的faster-rcnn检测算法实验结果;

图8c为faster-rcnn检测算法实验结果,图8d为相对应改进后的faster-rcnn检测算法实验结果;

图8e为faster-rcnn检测算法实验结果,图8f为相对应改进后的faster-rcnn检测算法实验结果;

图8g为faster-rcnn检测算法实验结果,图8h为相对应改进后的faster-rcnn检测算法实验结果;

具体实施方式

首先对本发明的思路作一梳理。

针对现有基于cnn的物品图像识别技术对于图像中存在多类目标时,图像分割极易受到背景因素影响的不足,本发明人考虑引入基于faster-rcnn的多目标检测技术,这样在图像中存在多类目标时,无需预先进行图像分割,但是,通过前文的分析,现有的faster-rcnn网络无法解决小目标以及一些分辨率比较低的目标识别效果不佳的情况,因此,本发明人对现有的faster-rcnn网络进行改进,前期结合一定的数据增强方法(本发明采用旋转、加噪、亮度扰动)对实验数据进行扩增,并将这些实验数据送入网络中训练。改进的faster-rcnn网络主要用于解决小目标及分辨率较差的目标识别问题,能将漏检的目标检出,且在一定程度上降低了误检。

小目标通常在整幅图像所占比例较小,分辨率较低,在最后一层特征图上除了轮廓信息比较清晰外,纹理信息已经比较模糊,分辨率较差的目标同理。本发明通过引入基于改进的faster-rcnn的多目标检测技术,将低于置信度阈值的roi区域周围的置信度分数比较低的检测框收集整合,然后经过图像增强处理,加强纹理信息,再送入网络进行再识别,此时图像信息最短边缩放到一定尺寸(600左右,尺寸越大,所需要的时间越多),对小目标及分辨率较差的目标有一定的放大作用,放大后的小目标及分辨率较差的目标再经过cnn网络的特征提取,在最后一层特征图上,与之前识别相比清晰了许多,此时再进行分类,可以提高检测能力,充分解决了小目标及分辨率较差的目标识别能力不佳等问题。

以下将结合附图,对本发明的技术方案进行详细说明。

如图7所示,本发明提供一种智能冰箱中基于faster-rcnn的多目标检测方法,包括如下步骤:

步骤1,利用冰箱内置摄像头,拍摄冰箱冷藏室内物品图片,并将图片传输至云端;

步骤2,将图片送入多目标检测网络——改进后的faster-rcnn网络。

改进的faster-rcnn网络检测流程如图4所示,具体包括如下步骤:

第一步,将图像数据输入到vgg16基础网络中,具体结构如图3所示,该网络包含13个卷积层、4个池化层,其中第2、4、7、10个卷积层后面紧接着是最大值池化。

第二步,进行rpn网络搜索,它是在conv5-512这一层,也即vgg16的最后一层特征图上做操作,并在特征图上的每个滑动窗口位置上生成特征向量,并将各个特征向量送入两个并列的全连接层(即判断是否存在目标和坐标回归)做预测,判断是否存在目标及进行坐标回归,然后对rpn提取的可能存在的目标区域进行分类与坐标回归修正,并对目标区域进行非极大值抑制。

第三步,将置信度处于0.2-0.7之间的多目标检测框重新收集进行再识别。整个再识别过程如图5所示,通过降低置信度,然后将低于某个范围的置信度阈值(实验收集0.2-0.7之间的置信度)的多目标检测框重新整合提取。由于某个感兴趣区域(regionofinterest,roi)可能有多个检测框存在,因此我们将对这个区域的检测框进行整合。整合是通过special_nms(其中,nms指非极大值抑制)来实现并提取的,该方法主要根据iou(目标窗口与标记窗口的交叠率)的大小为依据来进行整合。然后对提取的roi区域进行一个锐化处理,增加纹理细节,再将roi送入data层,重新识别。最后进行一个信息整合,将坐标信息以及分类情况映射回原图。

其中,special_nms检测框整合的流程图如图6所示,步骤是:第一步,将识别分数处于某个置信度阈值范围的目标检测框收集,保留坐标信息,去除分数,分别计算每个目标检测框的面积。第二步,随机固定一个检测框,然后计算其余遍历检测框与固定检测框的iou大小。如果其iou小于所设定iou重叠阈值则不进行处理,即保留当前遍历框的位置坐标;如果其iou大于所设定iou重叠阈值,则采用平均调整位置整合当前固定框与当前遍历框的位置坐标,更新成为一个新的检测框。平均调整位置的策略是分配一个δ参数和一个1-δ参数分别乘以当前固定框和遍历框的位置坐标,其中,00δ01。将乘完后的当前固定框位置坐标与当前遍历检测框的位置坐标相加得到整合后的一个新的检测框的位置坐标信息。第三步,再固定下一个检测框,重复第二步,直至整合完毕。

步骤3,当再识别检测完毕后,结合第一次识别高于置信度阈值的目标检测结果在移动端应用中进行最终整体展示。

由图8中4组实验结果可以看出,改进后的faster-rcnn能有效地解决漏检情况,且一定程度上可以防止误检。

以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1