基于卷积神经网络的快速目标检测方法

文档序号:8259598阅读:683来源:国知局
基于卷积神经网络的快速目标检测方法
【技术领域】
[0001] 本发明涉及计算机视觉技术,具体是涉及一种基于卷积神经网络的快速目标检测 方法。
【背景技术】
[0002] 人类感知世界的一个重要来源就是通过图像信息,研宄表明,人类获取外界信息 中大约有80%?90%的信息来自于人类眼睛获取的图像信息。人类对外界图像信息感知 能力很高,可以快速定位目标和分析目标。计算机要具有强大的视觉感知和理解能力,就应 该具备类似人类强大的目标检测和识别能力。目标检测是视觉感知和目标理解的一个很重 要的前提工作,目标获取的效率和精度决定着视觉感知的速度和效果。一旦计算机具备类 似人类强大的目标检测盒感知能力,就可以更好的在各行业替代人力工作,大大节约生产 成本。另外它对日常智能服务行业也提供了强大的支撑。因此,对计算机视觉中的目标检 测技术进行深入研宄,不断提高检测的准确率,具有重要的现实意义。
[0003] 目前学术界中解决这两个问题的发展趋势是从使用启发式方法到使用机器学习 的方法。所用特征也从手工特征转向基于任务自适应提取的特征。目标检测和识别的模 型也开始出现从单一特定目标检测和识别到多目标检测和识别同时进行的功能转变。最 典型的例子就是深度学习模的出现,解决了传统目标检测和识别的模型只针对有限任务的 目标检测和识别任务有效的问题。比如,在2001年,Viola-Jone提出的正面人脸检测框架 基于Harr特征对人脸检测相当有效,但是对于侧脸人脸以及行人检测效果不是太好。直 到2005年,Dalai等人提出HOG特征并且使用SVM对每个平滑窗对应的HOG (Histogram of Gradient)特征进行分类的策略后,垂直行人检测效果才有了一个质的突破。然而,HOG这 一手工特征,对于图像分类和识别以及任意姿态的行人、动物、植物等目标的检测效果并不 令人满意。接着形变模型(^Deformable Part Models:DPM)应运而生解决有形变的目标检 测问题。形变模型虽然试着解决因形变导致目标检测不到的问题,但是其模型中需要的形 变部件现实中很难理想的捕获到,原因就没有一个好的模型和好的特征来识别部件,因此 它在多类目标检测数据集(PASCAL VOC,ImageNet)上效果并不是太好。最近的一个突破性 工作是深度学习模型的出现。在最大的图像分类和目标检测数据集ImageNet上,基于深度 学习t旲型之一卷积神经网络(CNN)做的目标检测和识别精度的提尚更是超过以往最尚精 度一倍之多。最近两年ImageNet数据集分类和检测性能出众的算法几乎全部采用卷积神 经网络,不同的它们的网络结构不同。目前ImageNet数据集上图像分类和目标检测最高的 精度分别为95 %和55%。
[0004] 尽管基于卷积神经网络的方法在目标检测和识别上提高了很高的精度,但是由于 卷积神经网络网络复杂且计算量大,应用在目标检测上效率并不是很高,目前很多方法都 是基于GPU来对目标检测程序进行加速。给定一张目标图像,使用平滑窗策略做目标检测, 即使采用GPU加速,其算法复杂度仍然很大,效率极低。为了解决卷积神经网络在目标检测 上的效率问题,目前学术界主流的解决方案可以分为三类。第一类是基于图割的方法,先对 给定图像进行图像分割,通过分割块得到一些潜在的目标区域。然后用卷积神经网络对这 些目标区域进行特征提取和分类,最终得到目标的位置。这种方法的缺点就是很依赖于图 像分割的好坏。第二类是通过卷积神经网络对原始图像提取特征,然后在特征图上用平滑 窗策略做目标位置的回归和目标的分类。这种方法在利用卷积神经网络对大图提取特征 时,会丢失一些对分类和回归有用的特征信息,因此最后的模型的性能无法达到最优。第三 类方法则是用卷积神经网络分类的优势来寻找部件,进而构建形变模型,采用形变模型的 思想对目标做检测。但是这种把卷积神经网络的分类和形变模型中的目标检测分开执行的 做法,使得整体框架的检测效果不是很出众,另外这种模型的效率也不是很高。

【发明内容】

[0005] 本发明的目的在于提出一种基于卷积神经网络的快速目标检测方法。
[0006] 本发明包括以下步骤:
[0007] A)准备训练样本集(Xi,yi),i = 1,……,N,N为训练样本数,N为自然数,\表 示训练样本对应的固定大小的图像,包含目标且目标充满画幅的图像是正样本,其他图像 是负样本%表示样本类别向量:
[0008]
【主权项】
1.基于卷积神经网络的快速目标检测方法,其特征在于包括以下步骤: A) 准备训练样本集(Xi,yi),i= 1,……,N,N为训练样本数,N为自然数,Xi表示训 练样本对应的固定大小的图像,包含目标且目标充满画幅的图像是正样本,其他图像是负 样本;yi表示样本类别向量:
B) 将所有训练样本分m批,将m-2批样本放进设计的卷积神经网络里用反向传播算法 训练,2批样本用于测试,所述卷积神经网络包含卷积层、最大池化层和局部对比归一化层 三个成分,这三个成分扮演非线性函数的功能,目的是把位于流形上的原始图像映射到欧 式空间,卷积的激活函数采用非线性校正单元,设计好包含这三个成分的网络结构模型后, 用反向传播算法训练对模型进行训练,得到参数W; C) 提取步骤B)中的训练好的参数W,采用扩展图的方式解决卷积神经网络中最大池化 丢失信息的问题,给定测试图像,针对2X2的卷积核中每个偏移,都保存一个对应的特征 图,称为扩展图;对于每一层max-pooling核大小为K,整个卷积神经网络有p层,扩展之后 每个最大池化的下采样层特征图数目扩展至2K倍,整个网络扩展到〇 = (2K)1*,然后把参 数W用于任意大小的待检测图像,获取全连接前的扩展特征图,称它为判别完备特征;给定 输入图像X,已训练好的滤波器组K和偏移b,卷积层的输出写成公式一的形式:
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1