一种用于图像场景识别的特征提取方法

文档序号：6632647阅读：523来源：国知局

一种用于图像场景识别的特征提取方法
【专利摘要】本发明涉及一种用于图像场景识别的特征提取方法，包括在一组已知类别的训练图像中挖掘信息和将待识别的测试图像进行识别两大步骤，其中第一步骤包括对图像进行预处理；提取图像的目标特征；降低目标特征的维度；执行LDA模型训练算法；生成训练图像的场景环境特征；特征组合；执行SVM训练算法。第二步骤包括将测试图像预处理；生成测试图像的码字；生成测试图像的场景环境特征；提取测试图像的目标特征；降低测试图像的目标特征维度；测试图像的特征组合；利用已训练的SVM分类器生成图像类别。本发明减小了现有方法的计算量，扩展了应用范围并提高了识别准确率。
【专利说明】一种用于图像场景识别的特征提取方法

【技术领域】
[0001] 本发明属于图像场景识别技术，具体涉及一种用于图像场景识别的特征提取方法。

【背景技术】
[0002] 图像场景识别的目的是得到图像的语义信息并给出其类别标签。它是计算机视觉、模式识别和机器学习等领域的重要研究内容，在图像库管理、图像检索等实用领域也是不可或缺的技术。基于特征袋（Bag of Features)和主题模型的方法是近年来的研究热潮，取得了很多新成果和进展。这类方法借鉴于自然语言处理过程，把图像视为局部观察量的集合并建立特征袋，利用特征袋建立主题模型，生成特征或直接生成类别。此外，图像中的目标识别技术也为图像的场景识别带来有利信息，这类方法通过识别图像中的部分目标来推断图像的场景类别。
[0003] 目前，主题模型技术尚存在一些缺点，主要体现在表达一幅待识别图像需要对图像的特征袋进行统计和推理，这种需要进行迭代的运算会加大图像识别的计算量。主题模型方法往往对场景环境敏感，但是对于一些非场景环境敏感的图像识别准确率并不理想，例如室内场景类和事件类。结合图像中的目标信息有利于弥补这一缺点，但是目前的目标识别技术难以和主题模型方法直接结合，例如Object Bank技术，其产生的特征本身具有极高的维度，这会冲淡主题模型方法所产生的特征在组合中占据的比例，并且由于维度灾难问题，识别算法运算量极大，在个人计算机、工作站平台上只能使用线性分类器。

【发明内容】

[0004] 本发明的目的是通过公开一种基于LDA模型的主题特征提取方法，用该方法得到的主题环境特征描述图像的场景环境。解决下列技术问题：表达一幅待识别图像需要进行统计和推理，运算量较大；对于事件类和室内场景识别准确率差。
[0005] 通过公开一种Object Bank特征的降维方法，解决其维度过高，难以与主题特征结合的技术问题。
[0006] 公开将环境主题特征和降维后的目标特征进行结合组成特征向量进行识别的方法，提高识别准确率。
[0007] 为实现所述目的，本发明提出的技术方案如下：本发明所述的一种用于图像场景识别的特征提取方法，包括下列两大步骤： 1.在一组已知类别的训练图像中挖掘信息参阅图1，输入一组已知类别的训练图像，每次选取一幅图像，依次执行"对图像进行预处理"、"提取图像的目标特征"步骤，直至选取完所有图像后，执行后续步骤"降低目标特征的维度"、"执行LDA模型训练算法"、"生成训练图像的场景环境特征"、"特征组合"、"执行 SVM训练算法"。其中"对图像进行预处理"步骤与"提取图像的目标特征"为并行步骤，不分先后，"降低目标特征的维度"与"执行LDA模型训练算法"、"生成训练图像的场景环境特征"为并行步骤，不分先后。
[0008] 本步骤中已知类别的训练图像数量要求不低于每类50幅。
[0009] I. 1对图像进行预处理 a.将图像归一化为PxP像素的正方形图像。
[0010] b.通过滑动网格方法，将正方形图像划分为iV个有重叠的子块。
[0011] c.对每个子块分别计算128维的SIFT灰度尺度强度区域描述符。
[0012] 1.2提取图像的目标特征利用已公开的Object Bank算法提取图像的目标特征，具体为 a.图像按照三层空间金字塔进行分块，具体为在每一层上分别均分图像为F , 22,43 个子图像，每幅图像共得到21个子图像。
[0013] b.依次遍历所有目标，对于每个目标，执行如下操作：在每个子块上，依次按照12 个尺度运行目标滤波器，求得响应值，每个尺度下响应值的最大值作为输出结果。
[0014] c.转存并输出结果，得到维度为12x21xiV。的一条目标特征向量，其中if,为选用的目标探测器的个数。
[0015] 1.3降低目标特征的维度利用本发明公开的一种目标特征降维算法对图像的目标特征进行降维，具体为 a.目标特征输入到含有个神经元的一层神经网络，特征的每个维度对应一个神经元，该层网络被叫做输入层。神经元的输出为：

【权利要求】
1. 一种用于图像场景识别的特征提取方法，其特征是包括下列两大步骤：一. 在一组已知类别的训练图像中挖掘信息输入一组已知类别的训练图像，每次选取一幅图像，依次执行"对图像进行预处理"、 "提取图像的目标特征"步骤，直至选取完所有图像后，执行后续步骤"降低目标特征的维度"、"执行LDA模型训练算法"、"生成训练图像的场景环境特征"、"特征组合"、"执行SVM训练算法"其中"对图像进行预处理"步骤与"提取图像的目标特征"为并行步骤，不分先后， "降低目标特征的维度"与"执行LDA模型训练算法"、"生成训练图像的场景环境特征"为并行步骤，不分先后，本步骤中已知类别的训练图像数量要求不低于每类50幅；二. 将待识别的测试图像进行识别其中"将测试图像预处理"、"生成测试图像的码字"、"生成测试图像的场景环境特征" 步骤与"提取测试图像的目标特征"、"降低测试图像的目标特征维度"步骤为并行步骤，不分先后。
2. 按照权利要求1所述的一种用于图像场景识别的特征提取方法，其特征是具体步骤如下：一.在一组已知类别的训练图像中挖掘信息输入一组已知类别的训练图像，每次选取一幅图像，依次执行"对图像进行预处理"、 "提取图像的目标特征"步骤，直至选取完所有图像后，执行后续步骤"降低目标特征的维度"、"执行LDA模型训练算法"、"生成训练图像的场景环境特征"、"特征组合"、"执行SVM训练算法"其中"对图像进行预处理"步骤与"提取图像的目标特征"为并行步骤，不分先后， "降低目标特征的维度"与"执行LDA模型训练算法"、"生成训练图像的场景环境特征"为并行步骤，不分先后，本步骤中已知类别的训练图像数量要求不低于每类50幅， 1) .对图像进行预处理 a. 将图像归一化为PxiM象素的正方形图像； b. 通过滑动网格方法，将正方形图像划分为AT个有重叠的子块； c. 对每个子块分别计算128维的SIFT灰度尺度强度区域描述符； 2) .提取图像的目标特征利用已公开的Object Bank算法提取图像的目标特征，具体为 a. 图像按照三层空间金字塔进行分块，具体为在每一层上分别均分图像为I2，22，42 个子图像，每幅图像共得到21个子图像； b. 依次遍历所有目标，对于每个目标，执行如下操作：在每个子块上，依次按照12个尺度运行目标滤波器，求得响应值，每个尺度下响应值的最大值作为输出结果； c. 转存并输出结果，得到维度为12x21x2^的一条目标特征向量，其中Jfe为选用的目标探测器的个数； 3) .降低目标特征的维度利用本发明公开的一种目标特征降维算法对图像的目标特征进行降维，具体为 a.目标特征输入到含有UmxJVe个神经元的一层神经网络，特征的每个维度对应一个神经元，该层网络被叫做输入层，神经元的输出为：
其中，1
纟输入层神经元的阈值，为输入的图像数量，#表示网络的第/个输入，此处#的总数量与Ob ject Bank特征维度相同，表示第i层网络的第j个神经元的输出； b. 输入层神经元的输出结果再次输入到含有SlxJV0个神经元的一层，该层命名为中间层，其中每12个对应同一图像12个目标检测尺度的输入层神经元为一组，每组连接到一个的中间层神经元，该层神经元的输出为：
c. 中间层神经元的输出结果再次输入到含有目标数个神经元的一层，该层命名为输出层，其中对应每个目标的21个空间金字塔子块作为一组，输入到一个输出层神经元，该层神经元不设阈值，神经元输出为：
d. 输出层上的输出结果y=(y5'/_\…即为降维后的目标特征； 4).行LDA模型训练算法 a. 取"对图像进行预处理"步骤中得到的SIFT灰度尺度强度区域描述符，随机选取其中的一部分作为聚类目标执行K均值聚类算法，求得聚类中心，此处随机选取的数量要求总数不小于十万个样本，聚类中心计算为 Ci = 其中Ci表示对应聚类号i的聚类中心，运算O0表示向量组的元素均值运算，表示所有当前聚类号为i的样本向量组成的向量组； b. 根据所求的聚类中心，计算每一幅"已知类别的训练图像"中每一个子块对应的聚类号，称为码字，计算公式为： L = m^vEm.{R(Sam ,Ci)) M 其中表示任一样本向量，运算f(-)表示欧几里得距离二范数， c. 图像依据其对应的码字，按照ID:C〇unt码字：计数方式进行统计，利用已公开的 Gibbs Sampling算法，使用ID:Count训练一个LDA模型，采样公式为
其中，假设表示第I个码字对应的主题变量；下标-?表示剔除其中的第f项，所以表示从对应的主题中剔除第g-项；Iitw表示主题i;中出现码字^的次数；爲是码字 V的狄利克雷先验；^表示图像IB中出现主题z的次数是主题z的狄利克雷先验，通过采样可以根据 2值估计其LDA的模型参数Am和,
其中表示主题Jt中码字?的概率表示图像B中主题的概率，对fbr和匕t进行反复计算，直至每次计算结果不再改变， 5).生成训练图像的场景环境特征图像通过其ID:C〇unt和训练好的LDA模型，利用本发明公开的环境特征提取算法生成特征向量，具体为： a. 作出简化假设如下，对于码字为安的新图像，ft.,不更新并且等于其均值，则新图像主题的先验概率公式被改进为
其中M是训练集图像的数量，通过本发明提出的新图像主题先验概率改进公式，先验概率可以被描述为一个JTxF维矩阵A，其中元素 Λ表示第J个码字被分配给第i个主题的概率； b. 定义\=1(^)，其中A(;J)表示矩阵A的第J列，所以每幅图像都被其码字的统计所定义，对于包含码字= 的图像，其环境特征向量为
6) .特征组合将"生成训练图像的场景环境特征"步骤中得到的特征向量1与"降低目标特征的维度"步骤中得到的特征向量y顺次组合成一条向量； 7) 执行SVM训练算法以"特征组合"步骤中得到的特征向量为训练样本特征向量，以图像已知的类别为类别标签，利用已公开LibSVM软件包执行SVM训练算法，得到一个训练好的SVM分类器；二.将待识别的测试图像进行识别其中"将测试图像预处理"、"生成测试图像的码字"、"生成测试图像的场景环境特征" 步骤与"提取测试图像的目标特征"、"降低测试图像的目标特征维度"步骤为并行步骤，不分先后， 1) .将测试图像预处理 a. 将图像归一化为PxP像素的正方形图像； b. 通过滑动网格方法，将正方形图像划分为I个有重叠的子块； c. 对每个子块分别计算128维的SIFT灰度尺度强度区域描述符； 2) .生成测试图像的码字 a. 取"执行LDA模型训练算法"步骤所求的聚类中心，并取"将测试图像预处理"步骤中得到的SIFT灰度尺度强度区域描述符，计算待识别图像中每一个区域描述符对应的聚类号，称为码字，计算公式为：
其中表示任一样本向量，运算AG灰示欧几里得距离二范数； b. 图像依据其对应的码字，按照ID:Count (码字：计数）方式进行统计； 3) .生成测试图像的场景环境特征图像通过其ID:C〇unt和训练好的LDA模型，利用本发明公开的环境特征提取算法生成特征向量，具体为 a. 作出简化假设如下，对于码字为牙的新图像，Pb不更新并且等于其均值 EiU，则新图像主题的先验概率公式被改进为
其中M是训练集图像的数量，通过本发明提出的新图像主题先验概率改进公式，先验概率F(z|w)可以被描述为一个JTxF维矩阵J1，其中元素表示第个码字被分配给第i个主题的概率； b. 定义\- ，其中A(;J)表示矩阵Jk的第J列，所以每幅图像都被其码字的统计所定义，对于包含码字胃" = (W1的图像，其环境特征向量为
4) .提取测试图像的目标特征利用已公开的Object Bank算法提取图像的目标特征，具体为 a. 图像按照三层空间金字塔进行分块，具体为在每一层上分别均分图像为I3,23,43 个子图像，每幅图像共得到21个子图像； b. 依次遍历所有目标，对于每个目标，执行如下操作：在每个子块上，依次按照12个尺度运行目标滤波器，求得响应值，每个尺度下响应值的最大值作为输出结果； c. 转存并输出结果，得到维度为的一条目标特征向量，其中为选用的目标探测器的个数； 5) .降低测试图像的目标特征维度利用本发明公开的一种目标特征降维算法对图像的目标特征向量进行降维，具体步骤又可分为： a. 目标特征向量输入到含有乂个神经元的一层神经网络，特征的每个维度对应一个神经元，该层网络被叫做输入层，神经元的输出为：
其中，Gm为"降低目标特征的维度"步骤运算得到的结果，χω表示网络的第J个输入，此处P的总数量与object Bank特征维度相同，f表示第I层网络的第/个神经元的输出； b. 输入层神经元的输出结果再次输入到含有SlxJV0个神经元的一层，该层命名为中间层，其中每12个对应同一图像12个目标检测尺度的输入层神经元为一组，每组连接到一个的中间层神经元，该层神经元的输出为：
c. 中间层神经元的输出结果再次输入到含有目标数个神经元的一层，该层命名为输出层，其中对应每个目标的21个空间金字塔子块作为一组，输入到一个输出层神经元，该层神经元不设阈值，神经元输出为：
d. 输出层上的输出结果y = 气…/#·)即为降维后的目标特征； 6) .测试图像的特征组合将"生成测试图像的场景环境特征"步骤中得到的向量1与"降低测试图像的目标特征维度"步骤中得到的向量--幌次组合成一条向量； 7).利用已训练的SVM分类器生成图像类别以"测试图像的特征组合"步骤中得到的特征向量为图像的特征向量，利用"执行SVM 训练算法"步骤中得到训练好的SVM分类器对图像进行识别。
【文档编号】G06K9/62GK104376326SQ201410603389
【公开日】2015年2月25日申请日期:2014年11月2日优先权日:2014年11月2日
【发明者】臧睦君, 刘通, 宋伟伟, 李阳, 王珂申请人:吉林大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：臧睦君;刘通;宋伟伟;李阳;王珂;
技术所有人：吉林大学;
我是此专利的发明人

上一篇：一种不中断数据存储服务且修复raid阵列的方法和装置制造方法
上一篇：运行任务的方法和装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。