一种基于卷积神经网络深度特征的分级图像检索方法与流程

文档序号:14923574发布日期:2018-07-13 08:05阅读:159来源:国知局

本发明属于图像处理技术和信息检索领域,涉及一种利用深度学习中卷积神经网络提取深度特征实现的分级图像检索方法。



背景技术:

在图像数据爆炸增长的当下,对图像数据进行快速有效的检索是管理海量图像数据一种重要的方式,基于内容的图像检索(content-basedimageretrieval,简称cbir)技术在这样的实际需求下应运而生。cbir是一种在通过提取图像内容信息来实现匹配的图像检索方式,其目标是:用户给定一幅查询图像,从一个大规模数据库中快速检索到与查询图像内容相关相似的图像,并按照相似度排序返回给用户。

传统的cbir系统通过手动提取图像中的视觉特征,如颜色、纹理、形状、局部特征聚合描述符(vectoroflocallyaggregateddescriptors,vlad)等特征,实现图像检索功能。这些人工提取的特征也存在着一些局限性:一方面,对于不同类型的图像,不同特征的有效性不同,在大规模的数据集上应用时泛化能力较差;另一方面,这些特征属于视觉的浅层特征,表征的是图像表面的低级信息,并不能反映图像的内容语义信息,存在与用户理解存在不一致的“语义鸿沟”问题,难以对图像内容准确表达。

近些年随着深度学习的兴起,卷积神经网络(convolutionalneuralnetwork,cnn)被证明了在视觉表征方面有着巨大的优势,cnn的深层特征更贴近人们理解层面来解释图像内容,打破了传统方法图像特征表达的局限。现有的cbir系统利用cnn作为特征提取器,通过提取网络最后的全连接层特征来表征图像,取得了较好的检索效果。cnn是一个多隐层的网络结构,网络中间的卷积层在表征图像信息上同样具有很大的潜力,一些深层的卷积层的表征能力甚至超过了全连接层,现有的cnn图像检索方法只提取全连接层特征,而忽略了卷积层特征的作用,未能充分利用cnn特征信息,导致了卷积层中图像信息的浪费。

cnn中的特征虽然表达能力较强,但是具有维数较高的特点,对于大规模数据库,直接使用提取到的特征向量表征所有图像,需要极大的存储资源和匹配的计算开销,难以满足检索需求。因此对特征压缩处理十分重要,在保证有效信息不受损失的前提下,最大程度的去除特征向量冗余,压缩特征维度。现有的特征压缩方法常见的有主成分(principalcomponentanalysis,pca)降维、哈希编码如局部敏感哈希(locality-sensitivehashing,lsh)、语义哈希(semantichashing,sh)等方式,这些方法通常适用于一维特征向量,而应用于二维结构特征时,直接将其转化为一维特征进行处理,损失了一部分二维特征的结构信息,而且需要较多额外的步骤实现压缩操作,增大了系统计算量和算法复杂度。

综上所述,图像的有效表征是决定cbir系统检索性能的关键。现存的cbir方法基于cnn提取特征,虽然在图像表征方面已有改进,但是仍存在cnn特征利用不充分,特征压缩算法与特征本身结构脱离,且复杂度较高的问题。



技术实现要素:

为解决传统cbir系统对图像表征不深入,提取的特征存在“语义鸿沟”,以及现有基于cnn的cbir系统对网络特征利用不充分、特征压缩算法不适应二维特征和算法复杂度较高的问题,本发明提出一种基于cnn深度特征的图像检索方法。

本发明的技术方案是:采用一种两级机制的图像检索方法,包括第一级的初筛检索和第二级的精确检索。该方法基于cnn提取图像的深层特征,将提取到的不同层的特征运用到不同级的检索中,从卷积模块和全连接模块的修正线性单元rectifiedlinearunits(relu)层后提取类二进制特征图,通过二进制转化得到多层的二进制特征图向量,最大程度利用多层特征。其中,将卷积模块的二进制特征图向量用于第一级的初步筛选,将全连接模块的二进制特征图向量用于第二级的精确检索。深层特征结合分级的检索机制,在保证检索速度的同时,提升检索准确率,实现在大规模图像库中的快速精确检索。

本发明的步骤如下:

第一步:特征提取网络的参数设置:

采用cnn作为特征提取网络,网络包括多个卷积模块和一个的全连接层模块。网络参数设置的过程为:首先将该网络在大数据库上进行分类预训练来确定合适的网络初始参数;然后再进行迁移学习,在目标图像库上训练微调网络参数,使其在目标数据集上表现最优,完成特征提取网络参数的确定。

第二步:提取图像的二进制深度特征:

将图像输入训练好的cnn,分别在最后的卷积模块和全连接模块的relu层后提取类二进制深层特征,利用relu将左半部分置零,右半部分保持不变的二进制激活特点,可以直接从网络中得到类二进制特征图向量。表示从第k个relu层提取到的类二进制特征图,该层具有n个特征图,因此向量具有n个元素,每个元素vik(i=1,....,n)表征一个m*m特征图,所有特征图内的元素经过relu激活函数后都是非负的。(注:此处特征图的大小m*m取决于cnn在该层设置的特征图大小)

通过将所有vik(i=1,....,n)特征图中的非零元素置1,便可得到由n个大小为m*m标准二进制特征图组成的标准二进制特征图向量这一步提取到卷积模块中的n个卷积二进制特征图向量和一个全连接二进制特征图向量。

第三步:初筛检索阶段:

将n个种卷积二进制特征图向量用于第一级初筛阶段,用k=1,2,3,…,n分别表示。为了实现快速检索,将各特征图向量中的每个特征图进行求和操作:得到压缩后的特征向量:分别表示n种卷积特征向量。分别用这n种卷积特征向量测量目标图像库中图像与查询图像的相似度,得到对应的相似度序列t为目标图像库中图像的个数。再利用相似度融合方法,将基于n个特征得到的相似度融合成最终的全局相似度sim,将sim由高到低排序,取全局相似度sim大于阈值th的图像组成候选图像库p={i1,i2,...,im}。

相似度的测量方法是:

设查询图像的特征向量和目标图像库中图像的特征向量m为原始特征图的大小。设两特征向量的初始相似度s都为0,对于每张图像特征库中的图像,求f(q)和f(t)中对应元素的绝对差值sub,判断该差值sub的范围,按照下述规则依次修改相似度:若则s=s+3;若m/2<sub<m,则s=s+2;若m≤sub<2m,则s=s+1;若2m≤sub<3m,则s=s-1;若3m≤sub<4m,则s=s-2;若sub>4m,则s=s-3。可以得到目标图像库中所有图像基于第k个特征得到的相似度序列t表示目标图像库中图像的总个数。

相似度融合的方法是:

首先min-max归一化三种相似度序列:

可以得到归一化后的相似度序列由于排序后的相似度序列曲线下的面积与其特征的检索性能存在反相关关系,计算第k个特征的相似度融合权重为:

其中

最后可以得到目标集中图像t与查询图像q之间融合后的全局相似度为:

第四步:精确检索阶段:

为了进一步增强检索准确率,基于上一步检索得到的候选图像库p={i1,i2,...,im},本阶段检索利用全连接二进制特征向量通过汉明距离测量相似度大小:sim(q,t)=n-h(q,t),其中n为全连接特征向量的总长度,h(q,t)为目标图像t与查询图像q之间的汉明距离。将候选图像库按照相似度大小再次排序,得到最终的检索结果。

本发明的有益效果是:

本发明利用多层神经网络深层特征,实现一种分级的检索机制。与现存的检索方法相比,可以获得以下有益效果:

(1)相比于手动提取的浅层特征,本发明利用深度神经网络提取到的深层特征更加接近于人的语义理解,跨越“语义鸿沟”的障碍,更好的表征图像的内容信息,极大地增强了检索准确率。

(2)本发明利用神经网络中的非线性激活函数完成特征的压缩二值化工作,利用非线性激活函数本身具有的二进制激活特点,实现对复杂特征的二进制转化,避免了现存特征处理方法中复杂度较高的压缩编码操作;在压缩处理卷积二维结构特征时,以二维特征图为单元进行操作,避免出现与二维结构脱离的情况。

(3)本发明采用分级检索机制,在第一级检索中将深层的卷积层特征引入,利用多层深层卷积特征,在大规模目标数据集中筛选出候选目标集,为第二级检索降低目标数量。相比于现有的基于cnn的检索方法,这种分级检索的方法能够最大程度的利用cnn特征信息,提升检索准确度的同时,分散系统计算量,有利于利用英伟达公司的通用并行架构(computeunifieddevicearchitecture,cuda)并行加速实现。

附图说明

图1是本发明的图像检索系统总体流程图;

图2是本发明涉及的vgg深度卷积神经网络结构示意图;

图3是本发明检索第一阶段相似度度量算法图;

图4是基于不同特征的归一化相似度曲线关系图;

具体实施方式

图1是本发明的图像检索系统总体流程图。图像检索流程分为四个步骤:

第一步,特征提取网络的参数设置:

采用cnn中层数较深的vgg网络架构作为特征提取网络。

图2是vgg网络的网络结构示意图。

vgg网络采用多隐层结构,对输入的图像进行分类,通过一个输入层将大小为224*224的三通道图像输入网络,经过五个卷积模块和一个全连接层模块提取图像特征,最后利用这些特征在输出层输出对所有类别的概率。其中前四个卷积模块采用单卷积层和relu层的结构,第五卷积模块包括三个卷积层和relu层的结构,实现了三次卷积操作,实现深层特征的提取,由于深层特征在图像内容表征上更具优势,因此将第5卷积模块的卷积层conv5_1、conv5_2、conv5_3和全连接层fc7的特征用于本发明。

vgg网络参数的设置过程如下:

1)将该网络在大数据集imagenet(imagenet数据集包含超过120万张图像,共含有1000类)上进行分类预训练来确定合适的网络初始参数。初始化网络权重参数w~(0~0.01)高斯分布,初始化网络偏置bias为0,初始学习速率设置为0.001,每迭代100次将学习速率减小10倍,迭代训练直到网络损失函数收敛;

2)在目标图像库上微调预训练后的特征提取网络,根据目标数据库微调网络参数,实现完成特征提取网络参数的确定。将上一步预训练好的网络参数作为这一步的初始参数,减小学习速率到1e-5,微调训练整个网络,迭代训练直至网络损失函数收敛,完成特征提取网络的准备工作。

第二步,提取目标图像库和查询图像的二进制深度特征:

将目标图像库和查询图像输入上一步训练好的vgg网络,在第5个卷积模块中的卷积层conv5_1、conv5_2、conv5_3后的relu层和最后的全连接模块中fc7的relu层提取类二进制深层特征图向量通过将该向量中所有特征图vik(i=1,....,n)中的非零元素置1,转换得到标准二进制特征图向量对于每张图像得到3个卷积二进制特征图向量和1个全连接层的全连接二进制特征图向量。

第三步,初筛检索阶段:

(1)将3个种卷积二进制特征图向量用于第一级初筛阶段。将每个向量中的每个特征图进行求和操作:得到压缩后的特征向量:

(2)分别用这三种卷积特征向量测量目标图像库中图像与查询图像的相似度,得到三种目标图像库与查询图像的相似度序列

图3是本发明初筛检索阶段相似度度量算法图。

输入查询图像q的特征向量和目标图像库中图像t的特征向量卷积层conv5_1、conv5_2、conv5_3的特征图大小m为7,n为512。初始相似度s为0,对于目标图像库中的每张图像,求得f(q)和f(t)中对应元素的绝对差值sub,按照差值的范围修改相似度值。输出目标图像库中所有图像基于这三个卷积特征的相似度序列

(3)将三种特征的得到的相似度融合成最终的全局相似度sim。

图4是基于不同特征的归一化相似度曲线图。

基于vgg网络中conv3、conv4、conv5_1、conv5_2、conv5_3卷积层的五种特征分别计算得到相似度序列,将所有相似度序列经过min-max归一化后由高到底的排序,得到图4的曲线关系图,横坐标是重新排序后的相似度序号,纵坐标为归一化后的相似度值,用ap(averageprecision)来衡量不同特征的检索性能,右上角的图例反映各曲线特征的ap值,图4图例中由上到下的不同线性曲线对应的特征依次是:conv4、conv5_1、conv3、conv5_3、conv5_2卷积层的特征,ap值越高,反映特征检索性能越好。该曲线关系说明,检索效果越好,特征层数越深,归一化相似度曲线越贴近坐标轴,曲线下的面积越小,由此借助不同特征归一化曲线下的面积与特征的单独检索效果成反相关关系,设置不同特征的相似度权值。

(4)取sim大于阈值th=0.5的图像组成候选图像库p={i1,i2,...,im}。

第四步:精确检索阶段:

将全连接fc7的二进制特征图向量用于第二阶段的精确检索。基于候选图像库p={i1,i2,...,im},本阶段检索通过目标图像t与查询图像q之间的汉明距离h(q,t)得到相似度sim(q,t)=n-h(q,t),其中n=4096为fc7特征向量的长度。将候选集中的图像根据相似度由大到小排序,得到最终的检索结果。

将本发明设计的图像检索方法与其他检索方法进行对比。表1和表2分别是基于开放数据集inriaholidays和oxfordbuildings测试得到的特征压缩方法对比结果,表中检索性能均用平均准确率ap进行度量。在两种公共检索测试集上,本发明的特征压缩方法在多种特征上表现良好,与其他常见的六种特征压缩方法相比检索的准确率较高。

我们也将本发明的图像检索系统与传统的基于vlad特征的检索系统、基于全连接层特征的检索系统以及cnn中检索效果较好的基于求和下采样和pca降维操作后的全连接层特征的检索系统进行了比较,结果如表3所示。本发明在不增加系统复杂度的情况下,对检索的准确率有一定的提升,与表中的几种对比检索系统相比,检索准确率较高,优势明显。

表1基于inriaholidays数据集的特征压缩方法对比表

表2基于oxfordbuildings数据集的特征压缩方法对比表

表3不同图像检索系统检索准确率对比表

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1