一种基于自编码器词袋的视觉特征表示方法

文档序号：6625933阅读：766来源：国知局

一种基于自编码器词袋的视觉特征表示方法
【专利摘要】一种基于自编码器词袋的视觉特征表示方法：输入训练样本构成训练集；对训练集中的每个训练样本进行预处理，减小光照、噪声等对图像表示准确度的影响；生成视觉字典，是利用自编码器提取随机图像块特征，再使用聚类方法把所述的随机图像块的特征聚类成若干视觉单词，所有视觉单词组成了视觉字典；使用滑窗的方式对训练集里的图像依次采集图像块，并将所采集的图像块作为自编码器的输入，自编码器的输出即为图像的局部特征；将图像的局部特征依据视觉字典量化为视觉单词；统计视觉单词的频率，生成视觉单词直方图，所述视觉单词直方图即为图像的全局视觉特征表示。本发明既利用自编码器自主学习特征表达的特点，又通过BoVW框架降低了对训练样本数量的要求。
【专利说明】-种基于自编码器词袋的视觉特征表示方法

【技术领域】
[0001] 本发明涉及一种多媒体分析、机器视觉等领域的视觉特征表示方法。特别是涉及一种基于自编码器词袋的视觉特征表示方法。

【背景技术】
[0002] 视觉表示是多媒体分析、机器视觉等领域的重要问题之一，它深刻地影响着多媒体检索、图像分类、场景分析、目标识别等诸多现实应用问题。近年来，随着网络技术的飞速发展，越来越多的数字图像开始充斥人们的生活，如何准确地表示这些视觉数据（特别是在大数据环境下），已经成为一个迫切需要解决的问题。
[0003] 词袋（Bag of Words, BoW)模型最初应用于文档检索和分类领域，其基本思想是：统计语料库（corpus)中的所有单词组成字典，对于每一篇文档依据字典统计其中单词出现的频次，用由这些单词频率组成的直方图来表示这篇文档。BoW模型因其简单而有效的优点得到了广泛的应用，计算机视觉领域的研究者们将同样的思想应用到多媒体分析、机器视觉等领域，建立了由文本分析技术向视觉分析领域的过渡，相应的方法称作视觉词袋 (Bag of Visual Words, BoVff)〇
[0004] BoVW主要包含局部特征提取，视觉字典建立，局部特征量化，图像表示等四个步骤。其中最关键的就是局部特征的提取和视觉字典的建立。比较经典的方法是使用 SIFT (Scale-Invariant Feature Transform)描述子。SIFT 是 David Lowe 于 1999 年提出的局部描述子，并于2004年进行了进一步的完善。在此之后，相关研究领域的研究者们针对SIFT算法提出了大量改进方法。虽然SIFT特征对平移、旋转等具有良好的不变性，然而，该算法及其改进方法所提取的局部特征都是手工设计的特征，并不是从数据中自主学习到的特征，因而难以挖掘数据本质结构，尤其在大数据环境下，手工设计的特征局限性比较大。
[0005] 深度学习模型是近些年研究的热点，它通过构建多层神经网络以及利用大量的训练数据提升特征表达的能力。在深度学习领域中，堆叠自编码器（Stacked Autoencoder, SAE)是一个重要的模型。SAE是由自编码器（Autoencoder，AE)堆叠而成的深度模型。在训练SAE时，一般都以整个图像作为网络的输入，并且使用全连接，即第一个隐层的每个神经元都与输入图像的所有像素连接，因而图像的尺寸对整个网络参数的数量有很大的影响，若图像的尺寸较大，将导致参数非常多。由于深度架构的固有属性（含有较多的隐层）以及使用整个图像作为输入等原因，导致SAE仅适用于图像尺寸较小、训练样本较多的情况，而在图像尺寸比较大、样本个数比较少的情况下，深度网络（不仅仅是SAE)很容易过拟合，因而难以学习到有效的特征。
[0006] 在基于深度网络的特征表示方法中，由于深度网络含有大量参数，在训练样本较少的情况下容易出现过拟合问题；在基于视觉词袋的特征表示方法中，一般使用SIFT等人工设计的特征，因而难以发现数据内在的结构。

【发明内容】

[0007] 本发明所要解决的技术问题是，提供一种结合视觉词袋框架以及自编码器，以达到有效利用数据内在结构、提高特征表示能力的基于自编码器词袋的视觉特征表示方法。
[0008] 本发明所采用的技术方案是：一种基于自编码器词袋的视觉特征表示方法，包括如下步骤：
[0009] 1)输入训练样本构成训练集；
[0010] 2)对训练集中的每个训练样本进行预处理，以减小光照、噪声等对图像表示准确度的影响；
[0011] 3)生成视觉字典，是利用自编码器提取随机图像块特征，再使用聚类方法把所述的随机图像块的特征聚类成若干视觉单词，所有视觉单词组成了视觉字典；
[0012] 4)使用滑窗的方式对训练集里的图像依次采集图像块，并将所采集的图像块作为自编码器的输入，自编码器的输出即为图像的局部特征；
[0013] 5)将图像的局部特征依据视觉字典量化为视觉单词；
[0014] 6)统计视觉单词的频率，生成视觉单词直方图，所述视觉单词直方图即为图像的全局视觉特征表示。
[0015] 步骤2)所述的预处理是采用均值归一化或方差归一化进行的。
[0016] 步骤3)所述的生成视觉字典具体过程包括：
[0017] (1)从预处理后的训练集中随机选取多个训练样本，再从所述的每个训练样本中随机米集图像块；
[0018] (2)将第（1)步采集的图像块作为自编码器的输入，训练自编码器；
[0019] (3)再次将第（1)步随机采集的图像块输入到已训练完成的自编码器中，得到所述随机采集图像块的特征；
[0020] (4)使用聚类方法把所述的随机采集图像块的特征聚类成若干视觉单词，所有视觉单词组成了视觉字典。
[0021] 第（1)步所述的随机采集图像块。是每次从所有样本中随机选取一张图像，再从所述图像中随机采集一个pXp大小的图像块，重复N p次后可以得到一个P2XNp的矩阵，所述的矩阵用于自编码器的训练，其中P和N都是大于1的整数。
[0022] 第（2)步所述的训练，是以Jspa_(W，b)为目标函数，使用反向传播算法求得 Jspa^(W，b)对神经网络中每个参数的偏导数，再结合无约束优化算法，从而训练得到一个用以提取图像局部特征的自编码器，其中，

【权利要求】
1. 一种基于自编码器词袋的视觉特征表示方法，其特征在于，包括如下步骤： 1) 输入训练样本构成训练集； 2) 对训练集中的每个训练样本进行预处理，以减小光照、噪声等对图像表示准确度的影响； 3) 生成视觉字典，是利用自编码器提取随机图像块特征，再使用聚类方法把所述的随机图像块的特征聚类成若干视觉单词，所有视觉单词组成了视觉字典； 4) 使用滑窗的方式对训练集里的图像依次采集图像块，并将所采集的图像块作为自编码器的输入，自编码器的输出即为图像的局部特征； 5) 将图像的局部特征依据视觉字典量化为视觉单词； 6) 统计视觉单词的频率，生成视觉单词直方图，所述视觉单词直方图即为图像的全局视觉特征表示。
2. 根据权利要求1所述的一种基于自编码器词袋的视觉特征表示方法，其特征在于，步骤2)所述的预处理是采用均值归一化或方差归一化进行的。
3. 根据权利要求1所述的一种基于自编码器词袋的视觉特征表示方法，其特征在于，步骤3)所述的生成视觉字典具体过程包括： (1) 从预处理后的训练集中随机选取多个训练样本，再从所述的每个训练样本中随机采集图像块； (2) 将第（1)步采集的图像块作为自编码器的输入，训练自编码器； (3) 再次将第（1)步随机采集的图像块输入到已训练完成的自编码器中，得到所述随机采集图像块的特征； (4) 使用聚类方法把所述的随机采集图像块的特征聚类成若干视觉单词，所有视觉单词组成了视觉字典。
4. 根据权利要求3所述的一种基于自编码器词袋的视觉特征表示方法，其特征在于，第（1)步所述的随机采集图像块。是每次从所有样本中随机选取一张图像，再从所述图像中随机采集一个PXp大小的图像块，重复Np次后可以得到一个P2XNp的矩阵，所述的矩阵用于自编码器的训练，其中P和N都是大于1的整数。
5. 根据权利要求3所述的一种基于自编码器词袋的视觉特征表示方法，其特征在于，第⑵步所述的训练，是以Jsp_ (W，b)为目标函数，使用反向传播算法求得Jspa_ (W，b)对神经网络中每个参数的偏导数，再结合无约束优化算法，从而训练得到一个用以提取图像局部特征的自编码器，其中，式中，N是随机图像块的总数，表示第
i个随机图像块，W是目编码器的权重参数矩阵，Wu表示第i层第j个神经元的权重参数，b是自编码器的偏置参数向量，J(W，b;χω)表示输入第i个随机图像块时自编码器的代价函数，λ和β分别是控制权重衰减项和稀疏惩罚项的权重系数，S2是隐藏层神经元的个数，/>,表示隐藏层第j个神经元的平均激活度， P为稀疏性参数。
【文档编号】G06K9/62GK104239897SQ201410448549
【公开日】2014年12月24日申请日期:2014年9月4日优先权日:2014年9月4日
【发明者】冀中, 刘青申请人:天津大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冀中;刘青
技术所有人：天津大学
我是此专利的发明人

上一篇：文件监控方法及装置制造方法
上一篇：一种利用布娃娃物理系统模拟人物角色死亡的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。