一种用于图像场景识别的特征提取方法

文档序号:6632647阅读:523来源:国知局
一种用于图像场景识别的特征提取方法
【专利摘要】本发明涉及一种用于图像场景识别的特征提取方法,包括在一组已知类别的训练图像中挖掘信息和将待识别的测试图像进行识别两大步骤,其中第一步骤包括对图像进行预处理;提取图像的目标特征;降低目标特征的维度;执行LDA模型训练算法;生成训练图像的场景环境特征;特征组合;执行SVM训练算法。第二步骤包括将测试图像预处理;生成测试图像的码字;生成测试图像的场景环境特征;提取测试图像的目标特征;降低测试图像的目标特征维度;测试图像的特征组合;利用已训练的SVM分类器生成图像类别。本发明减小了现有方法的计算量,扩展了应用范围并提高了识别准确率。
【专利说明】一种用于图像场景识别的特征提取方法

【技术领域】
[0001] 本发明属于图像场景识别技术,具体涉及一种用于图像场景识别的特征提取方 法。

【背景技术】
[0002] 图像场景识别的目的是得到图像的语义信息并给出其类别标签。它是计算机视 觉、模式识别和机器学习等领域的重要研究内容,在图像库管理、图像检索等实用领域也是 不可或缺的技术。基于特征袋(Bag of Features)和主题模型的方法是近年来的研究热潮, 取得了很多新成果和进展。这类方法借鉴于自然语言处理过程,把图像视为局部观察量的 集合并建立特征袋,利用特征袋建立主题模型,生成特征或直接生成类别。此外,图像中的 目标识别技术也为图像的场景识别带来有利信息,这类方法通过识别图像中的部分目标来 推断图像的场景类别。
[0003] 目前,主题模型技术尚存在一些缺点,主要体现在表达一幅待识别图像需要对图 像的特征袋进行统计和推理,这种需要进行迭代的运算会加大图像识别的计算量。主题模 型方法往往对场景环境敏感,但是对于一些非场景环境敏感的图像识别准确率并不理想, 例如室内场景类和事件类。结合图像中的目标信息有利于弥补这一缺点,但是目前的目标 识别技术难以和主题模型方法直接结合,例如Object Bank技术,其产生的特征本身具有极 高的维度,这会冲淡主题模型方法所产生的特征在组合中占据的比例,并且由于维度灾难 问题,识别算法运算量极大,在个人计算机、工作站平台上只能使用线性分类器。


【发明内容】

[0004] 本发明的目的是通过公开一种基于LDA模型的主题特征提取方法,用该方法得到 的主题环境特征描述图像的场景环境。解决下列技术问题:表达一幅待识别图像需要进行 统计和推理,运算量较大;对于事件类和室内场景识别准确率差。
[0005] 通过公开一种Object Bank特征的降维方法,解决其维度过高,难以与主题特征结 合的技术问题。
[0006] 公开将环境主题特征和降维后的目标特征进行结合组成特征向量进行识别的方 法,提高识别准确率。
[0007] 为实现所述目的,本发明提出的技术方案如下: 本发明所述的一种用于图像场景识别的特征提取方法,包括下列两大步骤: 1.在一组已知类别的训练图像中挖掘信息 参阅图1,输入一组已知类别的训练图像,每次选取一幅图像,依次执行"对图像进行预 处理"、"提取图像的目标特征"步骤,直至选取完所有图像后,执行后续步骤"降低目标特 征的维度"、"执行LDA模型训练算法"、"生成训练图像的场景环境特征"、"特征组合"、"执行 SVM训练算法"。其中"对图像进行预处理"步骤与"提取图像的目标特征"为并行步骤,不 分先后,"降低目标特征的维度"与"执行LDA模型训练算法"、"生成训练图像的场景环境特 征"为并行步骤,不分先后。
[0008] 本步骤中已知类别的训练图像数量要求不低于每类50幅。
[0009] I. 1对图像进行预处理 a.将图像归一化为PxP像素的正方形图像。
[0010] b.通过滑动网格方法,将正方形图像划分为iV个有重叠的子块。
[0011] c.对每个子块分别计算128维的SIFT灰度尺度强度区域描述符。
[0012] 1.2提取图像的目标特征 利用已公开的Object Bank算法提取图像的目标特征,具体为 a.图像按照三层空间金字塔进行分块,具体为在每一层上分别均分图像为F , 22,43 个子图像,每幅图像共得到21个子图像。
[0013] b.依次遍历所有目标,对于每个目标,执行如下操作:在每个子块上,依次按照12 个尺度运行目标滤波器,求得响应值,每个尺度下响应值的最大值作为输出结果。
[0014] c.转存并输出结果,得到维度为12x21xiV。的一条目标特征向量,其中if,为选用 的目标探测器的个数。
[0015] 1.3降低目标特征的维度 利用本发明公开的一种目标特征降维算法对图像的目标特征进行降维,具体为 a.目标特征输入到含有个神经元的一层神经网络,特征的每个维度对应一 个神经元,该层网络被叫做输入层。神经元的输出为:

【权利要求】
1. 一种用于图像场景识别的特征提取方法,其特征是包括下列两大步骤: 一. 在一组已知类别的训练图像中挖掘信息 输入一组已知类别的训练图像,每次选取一幅图像,依次执行"对图像进行预处理"、 "提取图像的目标特征"步骤,直至选取完所有图像后,执行后续步骤"降低目标特征的维 度"、"执行LDA模型训练算法"、"生成训练图像的场景环境特征"、"特征组合"、"执行SVM训 练算法"其中"对图像进行预处理"步骤与"提取图像的目标特征"为并行步骤,不分先后, "降低目标特征的维度"与"执行LDA模型训练算法"、"生成训练图像的场景环境特征"为并 行步骤,不分先后,本步骤中已知类别的训练图像数量要求不低于每类50幅; 二. 将待识别的测试图像进行识别 其中"将测试图像预处理"、"生成测试图像的码字"、"生成测试图像的场景环境特征" 步骤与"提取测试图像的目标特征"、"降低测试图像的目标特征维度"步骤为并行步骤,不 分先后。
2. 按照权利要求1所述的一种用于图像场景识别的特征提取方法,其特征是具体步骤 如下: 一.在一组已知类别的训练图像中挖掘信息 输入一组已知类别的训练图像,每次选取一幅图像,依次执行"对图像进行预处理"、 "提取图像的目标特征"步骤,直至选取完所有图像后,执行后续步骤"降低目标特征的维 度"、"执行LDA模型训练算法"、"生成训练图像的场景环境特征"、"特征组合"、"执行SVM训 练算法"其中"对图像进行预处理"步骤与"提取图像的目标特征"为并行步骤,不分先后, "降低目标特征的维度"与"执行LDA模型训练算法"、"生成训练图像的场景环境特征"为并 行步骤,不分先后, 本步骤中已知类别的训练图像数量要求不低于每类50幅, 1) .对图像进行预处理 a. 将图像归一化为PxiM象素的正方形图像; b. 通过滑动网格方法,将正方形图像划分为AT个有重叠的子块; c. 对每个子块分别计算128维的SIFT灰度尺度强度区域描述符; 2) .提取图像的目标特征 利用已公开的Object Bank算法提取图像的目标特征,具体为 a. 图像按照三层空间金字塔进行分块,具体为在每一层上分别均分图像为I2,22,42 个子图像,每幅图像共得到21个子图像; b. 依次遍历所有目标,对于每个目标,执行如下操作:在每个子块上,依次按照12个尺 度运行目标滤波器,求得响应值,每个尺度下响应值的最大值作为输出结果; c. 转存并输出结果,得到维度为12x21x2^的一条目标特征向量,其中Jfe为选用的目 标探测器的个数; 3) .降低目标特征的维度 利用本发明公开的一种目标特征降维算法对图像的目标特征进行降维,具体为 a.目标特征输入到含有UmxJVe个神经元的一层神经网络,特征的每个维度对应一 个神经元,该层网络被叫做输入层, 神经元的输出为:
其中,1
纟输入层神经元的阈值,为输入的图像数量,#表示网络的 第/个输入,此处#的总数量与Ob ject Bank特征维度相同,表示第i层网络的第j个 神经元的输出; b. 输入层神经元的输出结果再次输入到含有SlxJV0个神经元的一层,该层命名为中 间层,其中每12个对应同一图像12个目标检测尺度的输入层神经元为一组,每组连接到一 个的中间层神经元,该层神经元的输出为:
c. 中间层神经元的输出结果再次输入到含有目标数个神经元的一层,该层命名为输出 层,其中对应每个目标的21个空间金字塔子块作为一组,输入到一个输出层神经元,该层 神经元不设阈值,神经元输出为:
d. 输出层上的输出结果y=(y5'/_\…即为降维后的目标特征; 4).行LDA模型训练算法 a. 取"对图像进行预处理"步骤中得到的SIFT灰度尺度强度区域描述符,随机选取其 中的一部分作为聚类目标执行K均值聚类算法,求得聚类中心,此处随机选取的数量要求 总数不小于十万个样本,聚类中心计算为 Ci = 其中Ci表示对应聚类号i的聚类中心,运算O0表示向量组的元素均值运算, 表示所有当前聚类号为i的样本向量组成的向量组; b. 根据所求的聚类中心,计算每一幅"已知类别的训练图像"中每一个子块对应的聚类 号,称为码字,计算公式为: L = m^vEm.{R(Sam ,Ci)) M 其中表示任一样本向量,运算f(-)表示欧几里得距离二范数, c. 图像依据其对应的码字,按照ID:C〇unt码字:计数方式进行统计,利用已公开的 Gibbs Sampling算法,使用ID:Count训练一个LDA模型, 采样公式为
其中,假设表示第I个码字对应的主题变量;下标-?表示剔除其中的第f项, 所以表示从对应的主题中剔除第g-项;Iitw表示主题i;中出现码字^的次数;爲是码字 V的狄利克雷先验;^表示图像IB中出现主题z的次数是主题z的狄利克雷先验, 通过采样可以根据 2值估计其LDA的模型参数Am和,
其中表示主题Jt中码字?的概率表示图像B中主题的概率, 对fbr和匕t进行反复计算,直至每次计算结果不再改变, 5).生成训练图像的场景环境特征 图像通过其ID:C〇unt和训练好的LDA模型,利用本发明公开的环境特征提取算法生成 特征向量, 具体为: a. 作出简化假设如下,对于码字为安的新图像,ft.,不更新并且等于其均值 ,则新图像主题的先验概率公式被改进为
其中M是训练集图像的数量, 通过本发明提出的新图像主题先验概率改进公式,先验概率可以被描述为一 个JTxF维矩阵A,其中元素 Λ表示第J个码字被分配给第i个主题的概率; b. 定义\=1(^),其中A(;J)表示矩阵A的第J列,所以每幅图像都被其码字的统 计所定义,对于包含码字= 的图像,其环境特征向量为
6) .特征组合 将"生成训练图像的场景环境特征"步骤中得到的特征向量1与"降低目标特征的维 度"步骤中得到的特征向量y顺次组合成一条向量; 7) 执行SVM训练算法 以"特征组合"步骤中得到的特征向量为训练样本特征向量,以图像已知的类别为类别 标签,利用已公开LibSVM软件包执行SVM训练算法,得到一个训练好的SVM分类器; 二.将待识别的测试图像进行识别 其中"将测试图像预处理"、"生成测试图像的码字"、"生成测试图像的场景环境特征" 步骤与"提取测试图像的目标特征"、"降低测试图像的目标特征维度"步骤为并行步骤,不 分先后, 1) .将测试图像预处理 a. 将图像归一化为PxP像素的正方形图像; b. 通过滑动网格方法,将正方形图像划分为I个有重叠的子块; c. 对每个子块分别计算128维的SIFT灰度尺度强度区域描述符; 2) .生成测试图像的码字 a. 取"执行LDA模型训练算法"步骤所求的聚类中心,并取"将测试图像预处理"步骤 中得到的SIFT灰度尺度强度区域描述符,计算待识别图像中每一个区域描述符对应的聚 类号,称为码字, 计算公式为:
其中表示任一样本向量,运算AG灰示欧几里得距离二范数; b. 图像依据其对应的码字,按照ID:Count (码字:计数)方式进行统计; 3) .生成测试图像的场景环境特征 图像通过其ID:C〇unt和训练好的LDA模型,利用本发明公开的环境特征提取算法生成 特征向量,具体为 a. 作出简化假设如下,对于码字为牙的新图像,Pb不更新并且等于其均值 EiU,则新图像主题的先验概率公式被改进为
其中M是训练集图像的数量, 通过本发明提出的新图像主题先验概率改进公式,先验概率F(z|w)可以被描述为一 个JTxF维矩阵J1,其中元素表示第个码字被分配给第i个主题的概率; b. 定义\- ,其中A(;J)表示矩阵Jk的第J列,所以每幅图像都被其码字的统 计所定义, 对于包含码字胃" = (W1的图像,其环境特征向量为
4) .提取测试图像的目标特征 利用已公开的Object Bank算法提取图像的目标特征,具体为 a. 图像按照三层空间金字塔进行分块,具体为在每一层上分别均分图像为I3,23,43 个子图像,每幅图像共得到21个子图像; b. 依次遍历所有目标,对于每个目标,执行如下操作:在每个子块上,依次按照12个尺 度运行目标滤波器,求得响应值,每个尺度下响应值的最大值作为输出结果; c. 转存并输出结果,得到维度为的一条目标特征向量,其中为选用的目 标探测器的个数; 5) .降低测试图像的目标特征维度 利用本发明公开的一种目标特征降维算法对图像的目标特征向量进行降维, 具体步骤又可分为: a. 目标特征向量输入到含有乂个神经元的一层神经网络,特征的每个维度 对应一个神经元,该层网络被叫做输入层, 神经元的输出为:
其中,Gm为"降低目标特征的维度"步骤运算得到的结果,χω表示网络的第J个输 入,此处P的总数量与object Bank特征维度相同,f表示第I层网络的第/个神经元的 输出; b. 输入层神经元的输出结果再次输入到含有SlxJV0个神经元的一层,该层命名为中 间层,其中每12个对应同一图像12个目标检测尺度的输入层神经元为一组,每组连接到一 个的中间层神经元, 该层神经元的输出为:
c. 中间层神经元的输出结果再次输入到含有目标数个神经元的一层,该层命名为输 出层,其中对应每个目标的21个空间金字塔子块作为一组,输入到一个输出层神经元,该 层神经元不设阈值,神经元输出为:
d. 输出层上的输出结果y = 气…/#·)即为降维后的目标特征; 6) .测试图像的特征组合 将"生成测试图像的场景环境特征"步骤中得到的向量1与"降低测试图像的目标特征 维度"步骤中得到的向量--幌次组合成一条向量; 7).利用已训练的SVM分类器生成图像类别 以"测试图像的特征组合"步骤中得到的特征向量为图像的特征向量,利用"执行SVM 训练算法"步骤中得到训练好的SVM分类器对图像进行识别。
【文档编号】G06K9/62GK104376326SQ201410603389
【公开日】2015年2月25日 申请日期:2014年11月2日 优先权日:2014年11月2日
【发明者】臧睦君, 刘通, 宋伟伟, 李阳, 王珂 申请人:吉林大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1