一种基于数据与任务驱动的图像分类方法

文档序号：6547618阅读：361来源：国知局

一种基于数据与任务驱动的图像分类方法
【专利摘要】本发明公开了一种基于数据与任务驱动的图像分类方法，该方法包括：根据数据集规模与图像内容设计卷积神经网络结构；使用给定分类数据集对卷积神经网络模型进行训练；使用训练后的卷积神经网络对训练集图像提取特征表达；将测试图像输入训练后的卷积神经网络，并进行分类。本发明方法基于非线性卷积特征学习，可以以数据驱动的方式实现模型对数据集的自适应，从而更好的描述特定的数据集，通过任务驱动的方式直接对K近邻的误差进行优化，使其能够在K近邻任务上取得更好的性能；并且在训练阶段可以采用GPU进行高效训练，在测试阶段只需使用CPU就可以实现高效的K近邻图像分类，非常适用于大规模的图像分类、检索等任务。
【专利说明】一种基于数据与任务驱动的图像分类方法
【技术领域】
[0001]本发明涉及计算机视觉中图像分类【技术领域】，特别涉及一种基于数据与任务驱动的图像分类方法。
【背景技术】
[0002]图像分类是计算机视觉最基本的研究问题之一，其要解决的问题就是给定一张图像自动判断其中是否包含某类物体。图像分类问题是视觉研究一个核心课题，许多其他视觉研究都要依赖和涉及图像分类问题，如图像中物体检测、跟踪，图像分割，视频中物体分类、检测、跟踪，行为分析，手势识别等。
[0003]K近邻图像分类是一种图像分类方法，是指在对图像分类时采用的是K近邻投票的方式，即K个最近的图像中出现次数最多的类别预测为该测试样本的类别。除了可以简单、高效地实现对图像进行分类外，K近邻分类还有很多其他特性。比如K近邻图像分类能够获取与测试图像最接近的样本，可以应用在图像检索、人脸检索、视频检索等领域。
[0004]由于传统技术中分类器的选择与图像特征表达是两个独立的过程，而且K近邻分类是一个非参数模型，其预测严重依赖于数据的空间分布，也即图像特征表达，这就导致图像特征表达对K近邻分类而言不是最优的，对分类性能造成影响。
[0005]近年来，图像分类领域发展迅速，在分类技术方面取得了很多重要突破。当前，词包模型是图像特征表达主流框架之一。词包模型通过对密集提取的图像块的底层特征描述进行统计特征描述，获得对图像的整体特征表达。词包模型通常由底层特征描述、视觉单词生成、底层特征编码、特征汇聚、分类器训练与测试等步骤构成，在分类器训练前，我们可以认为词包模型采用的是无监督的方式对图像进行表达，不论是传统的SIFT、HOG等底层特征还是词包模型中层特征表达，都没有利用到图像的标签信息，因而这样的特征表达对于K近邻分类这样的无参数模型来说，通常不是最优的。

【发明内容】

[0006]有鉴于此，本发明的主要目的是提供一种基于数据与任务驱动的图像分类方法，以实现在大尺度图像数据集上更加快速、准确的图像分类。
[0007]为了达到上述目的，本发明采用以下技术方案:
[0008]一种基于数据与任务驱动的图像分类方法，包括:
[0009]数据集准备，根据数据集规模与图像内容设计卷积神经网络结构；
[0010]模型训练，使用给定分类数据集对卷积神经网络模型进行训练；
[0011]使用训练后的卷积神经网络对训练集图像进行特征表达提取；
[0012]将测试图像输入训练后的卷积神经网络，使用K近邻方式对测试图像进行分类。
[0013]进一步的，所述数据集准备，根据数据集规模与图像内容设计卷积神经网络结构，还包括:
[0014]至少通过以下方式中的一种或多种实现数据增强:1)从原始图像随机裁剪去图像四周的边缘部分以产生出新的具有细微差别的样本图像；2)在原始图像像素中加入随机高斯噪声产生出新的样本图像。
[0015]进一步的，所述数据集准备，根据数据集规模与图像内容设计卷积神经网络结构，还包括:
[0016]将图像样本缩放到固定尺寸，并将像素拉直成一个向量作为卷积神经网络的输入。
[0017]进一步的，所述模型训练，使用给定分类数据集对卷积神经网络模型进行训练，具体还包括:
[0018]使用卷积神经网络作为基本特征变换模型；
[0019]基于邻分量分析期望错误率作为损失函数对卷积神经网络模型进行训练；
[0020]基于梯度的优化方法进行网络训练，并使用GPU进行运算。
[0021]进一步的，所述使用训练后的卷积神经网络对训练集图像进行提取特征表达，包括:
[0022]将所有训练图像输入训练后的卷积神经网络，取出最后一层全连接层的响应作为每张训练图像的特征表达。
[0023]进一步的，将训练集图像的特征表达构造成KD-树并预先存储。
[0024]进一步的，所述将测试图像输入训练后的卷积神经网络，使用K近邻方式对测试图像进行分类，包括:
[0025]对于给定测试图像，将该图像缩放到卷积神经网络模型输入大小，然后送入卷积神经网络进行前向计算，取出最后一层全连接层的响应作为该测试图像的特征表达，使用该表达在训练集图像的特征表达中进行K近邻检索，将特征表达最近的K个训练图像中出现次数最多的类别预测为该测试图像的类别。
[0026]进一步的，所述基于邻分量分析期望错误率作为损失函数对卷积神经网络模型进行训练，具体包括:
[0027]采用邻分量分析NCA来对K近邻分类误差进行估计，给定N对训练样本{(Xi，Yi) | i=I,…，N},其中Xi是图像样本，Yi是其对应的标签，对于一个样本Xi来说，另一个样本Xj与Xi属于同一个类别的概率定义为
【权利要求】
1.一种基于数据与任务驱动的图像分类方法，其特征在于，包括: 数据集准备，根据数据集规模与图像内容设计卷积神经网络结构；模型训练，使用给定分类数据集对卷积神经网络模型进行训练；使用训练后的卷积神经网络对训练集图像进行特征表达提取；将测试图像输入训练后的卷积神经网络，使用K近邻方式对测试图像进行分类。
2.根据权利要求1所述的基于数据与任务驱动的图像分类方法，其特征在于，数据集准备，根据数据集规模与图像内容设计卷积神经网络结构，还包括: 至少通过以下方式中的一种或多种实现数据增强:1)从原始图像随机裁剪去图像四周的边缘部分以产生出新的具有细微差别的样本图像；2)在原始图像像素中加入随机高斯噪声产生出新的样本图像。
3.根据权利要求1所述的基于数据与任务驱动的图像分类方法，其特征在于，数据集准备，根据数据集规模与图像内容设计卷积神经网络结构，还包括: 将图像样本缩放到固定尺寸，并将像素拉直成一个向量作为卷积神经网络的输入。
4.根据权利要求1所述的基于数据与任务驱动的图像分类方法，其特征在于，模型训练，使用给定分类数据集对卷积神经网络模型进行训练，具体还包括: 使用卷积神经网络作为基本特征变换模型；基于邻分量分析期望错误率作为损失函数对卷积神经网络模型进行训练；基于梯度的优化方法进行网络训练，并使用GPU进行运算。
5.根据权利要求1所述的基于数据与任务驱动的图像分类方法，其特征在于，使用训练后的卷积神经网络对训练集图像进行提取特征表达，包括: 将所有训练图像输入训练后的卷积神经网络，取出最后一层全连接层的响应作为每张训练图像的特征表达。
6.根据权利要求5所述的基于数据与任务驱动的图像分类方法，其特征在于，将训练集图像的特征表达构造成KD-树并预先存储。
7.根据权利要求1所述的基于数据与任务驱动的图像分类方法，其特征在于，将测试图像输入训练后的卷积神经网络，使用K近邻方式对测试图像进行分类，包括: 对于给定测试图像，将该图像缩放到卷积神经网络模型输入大小，然后送入卷积神经网络进行前向计算，取出最后一层全连接层的响应作为该测试图像的特征表达，使用该表达在训练集图像的特征表达中进行K近邻检索，将特征表达最近的K个训练图像中出现次数最多的类别预测为该测试图像的类别。
8.根据权利要求4所述的基于数据与任务驱动的图像分类方法，其特征在于，基于邻分量分析期望错误率作为损失函数对卷积神经网络模型进行训练，具体包括: 采用邻分量分析NCA来对K近邻分类误差进行估计，给定N对训练样本{(Xi, Yi) I i =.1，…，N}，其中，Xi是图像样本，yi是其对应的标签，对于一个样本Xi来说，另一个样本Xj与Xi属于同一个类别的概率定义为
9.根据权利要求4所述的基于数据与任务驱动的图像分类方法，其特征在于，基于梯度的优化方法进行网络训练具体包括以下方式之一:随机梯度下降、共轭梯度法、拟牛顿法、L-BFGS。
【文档编号】G06K9/62GK103984959SQ201410224860
【公开日】2014年8月13日申请日期:2014年5月26日优先权日:2014年5月26日
【发明者】黄凯奇, 任伟强, 张俊格申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄凯奇;任伟强;张俊格
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：一种先进的冷轧机板形辊包角计算方法
上一篇：一种抗信号干扰的方法及装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。