一种基于自编码器词袋的视觉特征表示方法

文档序号:6625933阅读:766来源:国知局
一种基于自编码器词袋的视觉特征表示方法
【专利摘要】一种基于自编码器词袋的视觉特征表示方法:输入训练样本构成训练集;对训练集中的每个训练样本进行预处理,减小光照、噪声等对图像表示准确度的影响;生成视觉字典,是利用自编码器提取随机图像块特征,再使用聚类方法把所述的随机图像块的特征聚类成若干视觉单词,所有视觉单词组成了视觉字典;使用滑窗的方式对训练集里的图像依次采集图像块,并将所采集的图像块作为自编码器的输入,自编码器的输出即为图像的局部特征;将图像的局部特征依据视觉字典量化为视觉单词;统计视觉单词的频率,生成视觉单词直方图,所述视觉单词直方图即为图像的全局视觉特征表示。本发明既利用自编码器自主学习特征表达的特点,又通过BoVW框架降低了对训练样本数量的要求。
【专利说明】-种基于自编码器词袋的视觉特征表示方法

【技术领域】
[0001] 本发明涉及一种多媒体分析、机器视觉等领域的视觉特征表示方法。特别是涉及 一种基于自编码器词袋的视觉特征表示方法。

【背景技术】
[0002] 视觉表示是多媒体分析、机器视觉等领域的重要问题之一,它深刻地影响着多媒 体检索、图像分类、场景分析、目标识别等诸多现实应用问题。近年来,随着网络技术的飞速 发展,越来越多的数字图像开始充斥人们的生活,如何准确地表示这些视觉数据(特别是 在大数据环境下),已经成为一个迫切需要解决的问题。
[0003] 词袋(Bag of Words, BoW)模型最初应用于文档检索和分类领域,其基本思想是: 统计语料库(corpus)中的所有单词组成字典,对于每一篇文档依据字典统计其中单词出 现的频次,用由这些单词频率组成的直方图来表示这篇文档。BoW模型因其简单而有效的 优点得到了广泛的应用,计算机视觉领域的研究者们将同样的思想应用到多媒体分析、机 器视觉等领域,建立了由文本分析技术向视觉分析领域的过渡,相应的方法称作视觉词袋 (Bag of Visual Words, BoVff)〇
[0004] BoVW主要包含局部特征提取,视觉字典建立,局部特征量化,图像表示等四个 步骤。其中最关键的就是局部特征的提取和视觉字典的建立。比较经典的方法是使用 SIFT (Scale-Invariant Feature Transform)描述子。SIFT 是 David Lowe 于 1999 年提出 的局部描述子,并于2004年进行了进一步的完善。在此之后,相关研究领域的研究者们针 对SIFT算法提出了大量改进方法。虽然SIFT特征对平移、旋转等具有良好的不变性,然 而,该算法及其改进方法所提取的局部特征都是手工设计的特征,并不是从数据中自主学 习到的特征,因而难以挖掘数据本质结构,尤其在大数据环境下,手工设计的特征局限性比 较大。
[0005] 深度学习模型是近些年研究的热点,它通过构建多层神经网络以及利用大量的训 练数据提升特征表达的能力。在深度学习领域中,堆叠自编码器(Stacked Autoencoder, SAE)是一个重要的模型。SAE是由自编码器(Autoencoder,AE)堆叠而成的深度模型。在训 练SAE时,一般都以整个图像作为网络的输入,并且使用全连接,即第一个隐层的每个神经 元都与输入图像的所有像素连接,因而图像的尺寸对整个网络参数的数量有很大的影响, 若图像的尺寸较大,将导致参数非常多。由于深度架构的固有属性(含有较多的隐层)以 及使用整个图像作为输入等原因,导致SAE仅适用于图像尺寸较小、训练样本较多的情况, 而在图像尺寸比较大、样本个数比较少的情况下,深度网络(不仅仅是SAE)很容易过拟合, 因而难以学习到有效的特征。
[0006] 在基于深度网络的特征表示方法中,由于深度网络含有大量参数,在训练样本较 少的情况下容易出现过拟合问题;在基于视觉词袋的特征表示方法中,一般使用SIFT等人 工设计的特征,因而难以发现数据内在的结构。


【发明内容】

[0007] 本发明所要解决的技术问题是,提供一种结合视觉词袋框架以及自编码器,以达 到有效利用数据内在结构、提高特征表示能力的基于自编码器词袋的视觉特征表示方法。
[0008] 本发明所采用的技术方案是:一种基于自编码器词袋的视觉特征表示方法,包括 如下步骤:
[0009] 1)输入训练样本构成训练集;
[0010] 2)对训练集中的每个训练样本进行预处理,以减小光照、噪声等对图像表示准确 度的影响;
[0011] 3)生成视觉字典,是利用自编码器提取随机图像块特征,再使用聚类方法把所述 的随机图像块的特征聚类成若干视觉单词,所有视觉单词组成了视觉字典;
[0012] 4)使用滑窗的方式对训练集里的图像依次采集图像块,并将所采集的图像块作为 自编码器的输入,自编码器的输出即为图像的局部特征;
[0013] 5)将图像的局部特征依据视觉字典量化为视觉单词;
[0014] 6)统计视觉单词的频率,生成视觉单词直方图,所述视觉单词直方图即为图像的 全局视觉特征表示。
[0015] 步骤2)所述的预处理是采用均值归一化或方差归一化进行的。
[0016] 步骤3)所述的生成视觉字典具体过程包括:
[0017] (1)从预处理后的训练集中随机选取多个训练样本,再从所述的每个训练样本中 随机米集图像块;
[0018] (2)将第(1)步采集的图像块作为自编码器的输入,训练自编码器;
[0019] (3)再次将第(1)步随机采集的图像块输入到已训练完成的自编码器中,得到所 述随机采集图像块的特征;
[0020] (4)使用聚类方法把所述的随机采集图像块的特征聚类成若干视觉单词,所有视 觉单词组成了视觉字典。
[0021] 第(1)步所述的随机采集图像块。是每次从所有样本中随机选取一张图像,再从 所述图像中随机采集一个pXp大小的图像块,重复N p次后可以得到一个P2XNp的矩阵,所 述的矩阵用于自编码器的训练,其中P和N都是大于1的整数。
[0022] 第(2)步所述的训练,是以Jspa_(W,b)为目标函数,使用反向传播算法求得 Jspa^(W,b)对神经网络中每个参数的偏导数,再结合无约束优化算法,从而训练得到一个 用以提取图像局部特征的自编码器,其中,

【权利要求】
1. 一种基于自编码器词袋的视觉特征表示方法,其特征在于,包括如下步骤: 1) 输入训练样本构成训练集; 2) 对训练集中的每个训练样本进行预处理,以减小光照、噪声等对图像表示准确度的 影响; 3) 生成视觉字典,是利用自编码器提取随机图像块特征,再使用聚类方法把所述的随 机图像块的特征聚类成若干视觉单词,所有视觉单词组成了视觉字典; 4) 使用滑窗的方式对训练集里的图像依次采集图像块,并将所采集的图像块作为自编 码器的输入,自编码器的输出即为图像的局部特征; 5) 将图像的局部特征依据视觉字典量化为视觉单词; 6) 统计视觉单词的频率,生成视觉单词直方图,所述视觉单词直方图即为图像的全局 视觉特征表示。
2. 根据权利要求1所述的一种基于自编码器词袋的视觉特征表示方法,其特征在于, 步骤2)所述的预处理是采用均值归一化或方差归一化进行的。
3. 根据权利要求1所述的一种基于自编码器词袋的视觉特征表示方法,其特征在于, 步骤3)所述的生成视觉字典具体过程包括: (1) 从预处理后的训练集中随机选取多个训练样本,再从所述的每个训练样本中随机 采集图像块; (2) 将第(1)步采集的图像块作为自编码器的输入,训练自编码器; (3) 再次将第(1)步随机采集的图像块输入到已训练完成的自编码器中,得到所述随 机采集图像块的特征; (4) 使用聚类方法把所述的随机采集图像块的特征聚类成若干视觉单词,所有视觉单 词组成了视觉字典。
4. 根据权利要求3所述的一种基于自编码器词袋的视觉特征表示方法,其特征在于, 第(1)步所述的随机采集图像块。是每次从所有样本中随机选取一张图像,再从所述图像 中随机采集一个PXp大小的图像块,重复Np次后可以得到一个P2XNp的矩阵,所述的矩阵 用于自编码器的训练,其中P和N都是大于1的整数。
5. 根据权利要求3所述的一种基于自编码器词袋的视觉特征表示方法,其特征在于, 第⑵步所述的训练,是以Jsp_ (W,b)为目标函数,使用反向传播算法求得Jspa_ (W,b)对 神经网络中每个参数的偏导数,再结合无约束优化算法,从而训练得到一个用以提取图像 局部特征的自编码器,其中, 式中,N是随机图像块的总数,表示第
i个随机图像块,W是目编码器的权重参数矩 阵,Wu表示第i层第j个神经元的权重参数,b是自编码器的偏置参数向量,J(W,b;χω)表 示输入第i个随机图像块时自编码器的代价函数,λ和β分别是控制权重衰减项和稀疏 惩罚项的权重系数,S2是隐藏层神经元的个数,/>,表示隐藏层第j个神经元的平均激活度, P为稀疏性参数。
【文档编号】G06K9/62GK104239897SQ201410448549
【公开日】2014年12月24日 申请日期:2014年9月4日 优先权日:2014年9月4日
【发明者】冀中, 刘青 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1