基于卷积神经网络的快速目标检测方法

文档序号：8259598阅读：683来源：国知局

基于卷积神经网络的快速目标检测方法
【技术领域】
[0001] 本发明涉及计算机视觉技术，具体是涉及一种基于卷积神经网络的快速目标检测方法。
【背景技术】
[0002] 人类感知世界的一个重要来源就是通过图像信息，研宄表明，人类获取外界信息中大约有80%?90%的信息来自于人类眼睛获取的图像信息。人类对外界图像信息感知能力很高，可以快速定位目标和分析目标。计算机要具有强大的视觉感知和理解能力，就应该具备类似人类强大的目标检测和识别能力。目标检测是视觉感知和目标理解的一个很重要的前提工作，目标获取的效率和精度决定着视觉感知的速度和效果。一旦计算机具备类似人类强大的目标检测盒感知能力，就可以更好的在各行业替代人力工作，大大节约生产成本。另外它对日常智能服务行业也提供了强大的支撑。因此，对计算机视觉中的目标检测技术进行深入研宄，不断提高检测的准确率，具有重要的现实意义。
[0003] 目前学术界中解决这两个问题的发展趋势是从使用启发式方法到使用机器学习的方法。所用特征也从手工特征转向基于任务自适应提取的特征。目标检测和识别的模型也开始出现从单一特定目标检测和识别到多目标检测和识别同时进行的功能转变。最典型的例子就是深度学习模的出现，解决了传统目标检测和识别的模型只针对有限任务的目标检测和识别任务有效的问题。比如，在2001年，Viola-Jone提出的正面人脸检测框架基于Harr特征对人脸检测相当有效，但是对于侧脸人脸以及行人检测效果不是太好。直到2005年，Dalai等人提出HOG特征并且使用SVM对每个平滑窗对应的HOG (Histogram of Gradient)特征进行分类的策略后，垂直行人检测效果才有了一个质的突破。然而，HOG这一手工特征，对于图像分类和识别以及任意姿态的行人、动物、植物等目标的检测效果并不令人满意。接着形变模型（^Deformable Part Models:DPM)应运而生解决有形变的目标检测问题。形变模型虽然试着解决因形变导致目标检测不到的问题，但是其模型中需要的形变部件现实中很难理想的捕获到，原因就没有一个好的模型和好的特征来识别部件，因此它在多类目标检测数据集（PASCAL VOC，ImageNet)上效果并不是太好。最近的一个突破性工作是深度学习模型的出现。在最大的图像分类和目标检测数据集ImageNet上，基于深度学习t旲型之一卷积神经网络（CNN)做的目标检测和识别精度的提尚更是超过以往最尚精度一倍之多。最近两年ImageNet数据集分类和检测性能出众的算法几乎全部采用卷积神经网络，不同的它们的网络结构不同。目前ImageNet数据集上图像分类和目标检测最高的精度分别为95 %和55%。
[0004] 尽管基于卷积神经网络的方法在目标检测和识别上提高了很高的精度，但是由于卷积神经网络网络复杂且计算量大，应用在目标检测上效率并不是很高，目前很多方法都是基于GPU来对目标检测程序进行加速。给定一张目标图像，使用平滑窗策略做目标检测，即使采用GPU加速，其算法复杂度仍然很大，效率极低。为了解决卷积神经网络在目标检测上的效率问题，目前学术界主流的解决方案可以分为三类。第一类是基于图割的方法，先对给定图像进行图像分割，通过分割块得到一些潜在的目标区域。然后用卷积神经网络对这些目标区域进行特征提取和分类，最终得到目标的位置。这种方法的缺点就是很依赖于图像分割的好坏。第二类是通过卷积神经网络对原始图像提取特征，然后在特征图上用平滑窗策略做目标位置的回归和目标的分类。这种方法在利用卷积神经网络对大图提取特征时，会丢失一些对分类和回归有用的特征信息，因此最后的模型的性能无法达到最优。第三类方法则是用卷积神经网络分类的优势来寻找部件，进而构建形变模型，采用形变模型的思想对目标做检测。但是这种把卷积神经网络的分类和形变模型中的目标检测分开执行的做法，使得整体框架的检测效果不是很出众，另外这种模型的效率也不是很高。

【发明内容】

[0005] 本发明的目的在于提出一种基于卷积神经网络的快速目标检测方法。
[0006] 本发明包括以下步骤：
[0007] A)准备训练样本集（Xi，yi)，i = 1，……，N，N为训练样本数，N为自然数，\表示训练样本对应的固定大小的图像，包含目标且目标充满画幅的图像是正样本，其他图像是负样本％表示样本类别向量：
[0008]
【主权项】
1.基于卷积神经网络的快速目标检测方法，其特征在于包括以下步骤： A) 准备训练样本集（Xi，yi)，i= 1，……，N，N为训练样本数，N为自然数，Xi表示训练样本对应的固定大小的图像，包含目标且目标充满画幅的图像是正样本，其他图像是负样本；yi表示样本类别向量：
B) 将所有训练样本分m批，将m-2批样本放进设计的卷积神经网络里用反向传播算法训练，2批样本用于测试，所述卷积神经网络包含卷积层、最大池化层和局部对比归一化层三个成分，这三个成分扮演非线性函数的功能，目的是把位于流形上的原始图像映射到欧式空间，卷积的激活函数采用非线性校正单元，设计好包含这三个成分的网络结构模型后，用反向传播算法训练对模型进行训练，得到参数W; C) 提取步骤B)中的训练好的参数W，采用扩展图的方式解决卷积神经网络中最大池化丢失信息的问题，给定测试图像，针对2X2的卷积核中每个偏移，都保存一个对应的特征图，称为扩展图；对于每一层max-pooling核大小为K，整个卷积神经网络有p层，扩展之后每个最大池化的下采样层特征图数目扩展至2K倍，整个网络扩展到〇 = (2K)1*，然后把参数W用于任意大小的待检测图像，获取全连接前的扩展特征图，称它为判别完备特征；给定输入图像X，已训练好的滤波器组K和偏移b，卷积层的输出写成公式一的形式：

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王菡子;郭冠军;严严;
技术所有人：厦门大学;
我是此专利的发明人

上一篇：一种目标光谱匹配方法
上一篇：一种基于决定路径权重的不确定图分割方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。