一种基于深度特征的图像检索方法及装置与流程

文档序号:11155238阅读:706来源:国知局
一种基于深度特征的图像检索方法及装置与制造工艺

本发明涉及图像检索技术领域,特别涉及一种基于深度特征的图像检索方法及装置。



背景技术:

随着信息技术的飞速发展,互联网上的图像数据增长速度十分惊人。而快速精确地查找到一幅用户所需的图像,成为用户的一种急迫需求。基于内容的图像检索(Content-based Image Retrieval,CBIR)就是希望利用机器学习和图像处理技术,解决图像检索中的难题。虽然基于内容的图像检索技术经过多年的研究,但由于“语义鸿沟”的存在,目前基于内容的图像检索系统依然很难满足人们日常检索的需求。一个高精度的基于内容的图像检索系统,主要依赖于两项关键技术来实现:第一,如何将图像表示成一种有效的检索特征,实现高精度检索;第二,如何在图像检索过程中度量查询图像与被检索图像的相似度,实现高效查询。

为了解决以上两个核心问题,在过去的几十年中,研究者进行了大量的研究,有多种图像特征被用于图像检索系统。早期的图像检索系统,常常利用颜色、纹理、形状等全局特征实现图像相似度查询。虽然全局特征可以代表图像的整体描述,但是由于全局特征包含大量背景信息,使得图像中特定目标的查询精度不高。相对于利用全局特征描述图像内容,利用局部特征的图像检索方法可以显著提高检索精度,同时局部特征还可以克服图像中物体由于光照、旋转、尺度变换带来的影响。除此之外,局部特征(如SURF等特征)也进一步和BoW(Bag of Visual Words),VLAD(Vector of Locally Aggregated Descriptors),FV(Fisher Vector)等特征编码方法相结合来构建图像的特征描述符,进一步提高了图像检索系统的效率。但总体而言,不论是基于全局特征还是局部特征的图像检索系统,都没有脱离利用人工设计图像特征描述的模式,使得特征的表达能力受到限制,从而约束了图像检索系统的精度。



技术实现要素:

本发明的目的在于提供一种基于深度特征的图像检索方法及装置,能够提高图像检索的精度。

为实现上述目的,本发明提供一种基于深度特征的图像检索方法,所述方法包括:获取图像样本集,所述图像样本集中包括预设数量的图像;将所述图像样本集中的每张图像切分为多个具有独立语义的图像块;从各个所述图像块中提取相应的图像特征,并对提取的所述图像特征进行聚类运算,以确定各个所述图像特征对应的视觉单词;根据确定的所述视觉单词,构建所述图像样本集中每张图像对应的特征向量,并通过各个所述特征向量形成图像索引库;获取待检索的目标图像,并提取所述目标图像对应的目标特征向量;将所述目标特征向量与所述图像索引库中的各个特征向量进行匹配,并根据匹配结果反馈所述目标图像的检索结果。

进一步地,将所述图像样本集中的每张图像切分为多个具有独立语义的图像块具体包括:按照预设算法生成多个图像推荐窗,并利用所述多个图像推荐窗对每张图像进行切分,以得到多个具有独立语义的图像块;其中,相邻的图像块之间存在重叠部分。

进一步地,在将所述图像样本集中的每张图像切分为多个具有独立语义的图像块之后,所述方法还包括:将各个所述图像块的像素缩放至预设像素值。

进一步地,从各个所述图像块中提取相应的图像特征具体包括:基于卷积神经网络模型对各个所述图像块进行特征提取,并将所述卷积神经网络模型中第一个全连接层输出的深度特征作为各个所述图像块对应的图像特征。

进一步地,对提取的所述图像特征进行聚类运算,以确定各个所述图像特征对应的视觉单词具体包括:预先设置与所述图像特征的数量相适配的视觉单词;计算所述图像特征到每个所述视觉单词的词向量之间的距离;将所述图像特征划分至距离最近的视觉单词中,并将所述距离最近的视觉单词作为所述图像特征对应的视觉单词。

进一步地,提取所述目标图像对应的目标特征向量具体包括:将所述目标图像切分为多个具有独立语义的图像块;从目标图像对应的各个图像块中提取相应的图像特征,并确定各个所述图像特征对应的视觉单词;根据确定的所述视觉单词,构建所述目标图像对应的目标特征向量。

进一步地,将所述目标特征向量与所述图像索引库中的各个特征向量进行匹配,并根据匹配结果反馈所述目标图像的检索结果具体包括:计算所述目标特征向量与所述图像索引库中的各个特征向量之间的距离;按照计算的距离从近到远的顺序,对所述图像索引库中的特征向量进行排序,并将排序后的特征向量对应的图像作为检索结果进行反馈。

为实现上述目的,本发明还提供一种基于深度特征的图像检索装置,所述装置包括:图像样本集获取单元,用于获取图像样本集,所述图像样本集中包括预设数量的图像;图像块切分单元,用于将所述图像样本集中的每张图像切分为多个具有独立语义的图像块;视觉单词确定单元,用于从各个所述图像块中提取相应的图像特征,并对提取的所述图像特征进行聚类运算,以确定各个所述图像特征对应的视觉单词;图像索引库构建单元,用于根据确定的所述视觉单词,构建所述图像样本集中每张图像对应的特征向量,并通过各个所述特征向量形成图像索引库;目标特征向量提取单元,用于获取待检索的目标图像,并提取所述目标图像对应的目标特征向量;检索结果反馈单元,用于将所述目标特征向量与所述图像索引库中的各个特征向量进行匹配,并根据匹配结果反馈所述目标图像的检索结果。

进一步地,所述图像块切分单元具体包括:推荐窗生成模块,用于按照预设算法生成多个图像推荐窗;切分模块,用于利用所述多个图像推荐窗对每张图像进行切分,以得到多个具有独立语义的图像块;其中,相邻的图像块之间存在重叠部分。

进一步地,所述视觉单词确定单元具体包括:视觉单词设定模块,用于预先设置与所述图像特征的数量相适配的视觉单词;距离计算模块,用于计算所述图像特征到每个所述视觉单词的词向量之间的距离;视觉单词划分模块,用于将所述图像特征划分至距离最近的视觉单词中,并将所述距离最近的视觉单词作为所述图像特征对应的视觉单词。

由上可见,本发明将图像切分为具有独立语义的图像块,并可以针对各个图像块,确定相应的视觉单词。然后可以通过确定的视觉单词进行编码,从而确定各个图像对应的特征向量。这些特征向量可以构成图像索引库,当输入待检索的目标图像时,可以将目标图像的目标特征向量与图像索引库中的特征向量进行匹配,从而能够反馈与目标图像相关的检索结果。本发明利用深度特征和聚类算法,能够制定出精确的图像索引库,从而提高了图像检索的精度。

附图说明

图1为本发明实施方式提供的基于深度特征的图像检索方法流程图;

图2为本发明实施方式提供的基于深度特征的图像检索装置的功能模块图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本申请保护的范围。

请参阅图1,本发明实施方式提供一种基于深度特征的图像检索方法,所述方法包括以下步骤。

步骤S1:获取图像样本集,所述图像样本集中包括预设数量的图像。

在本实施方式中,可以利用网络爬虫在互联网上自动抓取图像,以构建图像样本集。由于Internet网络是一个网状结构的信息空间,可以用一个有向图G=(N,E)来表示整个互联网。将网页中的内容看作节点,由URL(Uniform Resource Locator,统一资源定位符)惟一表示,网页中的链接看作有向边。其中,节点集N={N0,…,Nm},节点集中的各个元素可以表示各个节点,E是超链接集合。在各个节点中,叶子节点可以是网页文件,也可以是图像、音频等媒体文件。所有的非叶子节点是网页文件。因此,爬虫在抓取网页的时候,可以使用有向图遍历算法(深度优先算法和广度优先算法)对其进行遍历,抓取所需要的图像,以构建图像样本集。抓取后的图像样本集可以使用一个单独的图像存储服务器进行存储。

步骤S2:将所述图像样本集中的每张图像切分为多个具有独立语义的图像块。

在本实施方式中,可以按照预设算法生成多个图像推荐窗,并利用所述多个图像推荐窗对每张图像进行切分,以得到多个具有独立语义的图像块;其中,相邻的图像块之间存在重叠部分。具体地,针对图像样本集中的所有图像,利用对象推荐方法,产生包含图像目标区域的推荐窗,根据推荐窗将图像样本集中的图像切分成具有独立语义的图像块。在本发明中,可以利用SSD(Single Shot Multi-Box Detector,单次多窗检测器)方法产生的图像定位外接矩形框,对该部分的图像进行切分,取其中前500个推荐窗,从而可以将一幅图像划分成500个图像块。由于图像块区域存在重叠覆盖,因此500个图像块中存在信息的冗余,而该冗余信息正是后续确定视觉单词的有效手段。在实际实现过程中,推荐窗的产生使用SSD模型,对每幅图像进行处理,需要进行大量计算,因此可以使用单独的图形工作站对图像进行切分。切分后的图像由于各个图像块的大小不同,使得后续特征提取不容易处理,因此可以将各个所述图像块的像素缩放至预设像素值。例如,可以使用图像缩放(如线性插值)方法,将所有图像块缩放到相同大小(例如224*224像素),并将统一大小的所有图像块存储于图像存储服务器中。

步骤S3:从各个所述图像块中提取相应的图像特征,并对提取的所述图像特征进行聚类运算,以确定各个所述图像特征对应的视觉单词。

在本实施方式中,可以基于卷积神经网络模型对各个所述图像块进行特征提取,并将所述卷积神经网络模型中第一个全连接层输出的深度特征作为各个所述图像块对应的图像特征。具体地,可以利用卷积神经网络模型,针对每个语义图像块提取该网络第一个全连接层输出的深度特征,该特征维度为4096维。本发明使用的卷积神经网络模型无需重新学习训练,而是采用在ImageNet上训练的VGG-19卷积神经网络模型。该模型的分类精度较好,同时具有强大的迁移学习能力,具有较好的表达能力。提取特征同样需要大量计算,可以利用单独的服务器对大量图像块进行并行处理,提高特征提取的速度。

在本实施方式中,可以预先设置与所述图像特征的数量相适配的视觉单词,然后计算所述图像特征到每个所述视觉单词的词向量之间的距离,从而可以将所述图像特征划分至距离最近的视觉单词中,并将所述距离最近的视觉单词作为所述图像特征对应的视觉单词。具体地,对于每个图像的推荐窗提取的4096维图像特征,可以利用K均值聚类算法,将各个图像特征聚类成视觉词典。聚类单词数目可以根据图像特征的数量设定,例如可以设置为1024个视觉单词。根据图像的每个图像特征到视觉单词的距离,可以将图像特征划分到相应的视觉单词中。每幅图像可以转化成500个图像特征,对于大规模的图像特征而言,聚类过程同样需要大量的距离计算,因此可以将聚类过程设置在单独的服务器上进行,并将聚类后的视觉字典进行保存。该视觉词典可以使用在线学习方式进行更新,不断增大规模提升精度。

步骤S4:根据确定的所述视觉单词,构建所述图像样本集中每张图像对应的特征向量,并通过各个所述特征向量形成图像索引库。

在本实施方式中,根据图像与图像块的关系,图像块与视觉单词的关系,可以利用视觉词典对所有图像进行特征编码。每个图像中的一个图像块被划分到一个视觉单词中,通过统计图像中每个图像特征被划分到视觉单词的个数,可以统计出视觉单词的统计特征。由于存在1024个视觉单词,则每幅图像可以被表示成一个1024维度的向量。在所述1024维向量中,每个元素可以对应一个视觉单词,如果某个图像对应的图像特征与其中的一个视觉单词相关联,那么这一位的元素可以为1,如果不关联,则可以为0。这样,500个图像块,根据每个图像块对应的视觉单词,根据视觉单词出现的频率,可以统计为1024维的统计向量,该1024维的统计直方图,是视觉单词出现频率的统计特征,从而能够有效表征图像的语义内容。在本实施方式中,可以利用所有图像的特征向量构建图像索引库。图像索引库中的特征向量与图像样本集中的图像是一一对应的关系,通过特征向量可以关联到图像样本集中的图像。

步骤S5:获取待检索的目标图像,并提取所述目标图像对应的目标特征向量。

在本实施方式中,获取目标图像的目标特征向量的过程可以与步骤S1至S4中获取图像的特征向量的步骤一致。可以将所述目标图像切分为多个具有独立语义的图像块,其中,所述目标图像对应的图像块的数量与所述图像样本集中每张图像对应的图像块的数量相同。然后可以从目标图像对应的各个图像块中提取相应的图像特征,并确定各个所述图像特征对应的视觉单词。最后则可以根据确定的所述视觉单词,构建所述目标图像对应的目标特征向量。具体地,对于待检索的目标图像,可以将该目标图像进行推荐窗图像块切分,并将所有切分的图像块缩放到224*224像素值的大小。然后提取每个图像块的图像特征,再计算图像特征与视觉单词的距离,利用深度视觉词典将目标图像的图像特征进行视觉单词编码,从而可以得到1024维的目标特征向量。

步骤S6:将所述目标特征向量与所述图像索引库中的各个特征向量进行匹配,并根据匹配结果反馈所述目标图像的检索结果。

在本实施方式中,可以计算所述目标特征向量与所述图像索引库中的各个特征向量之间的距离,然后按照计算的距离从近到远的顺序,对所述图像索引库中的特征向量进行排序,并将排序后的特征向量对应的图像作为检索结果进行反馈。距离越近,则表明目标图像与图像样本集中的图像越相似。这样便可以优先反馈更加相似的图像,以提高检索结果的精度。

请参阅图2,本发明还提供一种基于深度特征的图像检索装置,所述装置包括:

图像样本集获取单元100,用于获取图像样本集,所述图像样本集中包括预设数量的图像;

图像块切分单元200,用于将所述图像样本集中的每张图像切分为多个具有独立语义的图像块;

视觉单词确定单元300,用于从各个所述图像块中提取相应的图像特征,并对提取的所述图像特征进行聚类运算,以确定各个所述图像特征对应的视觉单词;

图像索引库构建单元400,用于根据确定的所述视觉单词,构建所述图像样本集中每张图像对应的特征向量,并通过各个所述特征向量形成图像索引库;

目标特征向量提取单元500,用于获取待检索的目标图像,并提取所述目标图像对应的目标特征向量;

检索结果反馈单元600,用于将所述目标特征向量与所述图像索引库中的各个特征向量进行匹配,并根据匹配结果反馈所述目标图像的检索结果。

在本申请一个实施方式中,所述图像块切分单元200具体包括:

推荐窗生成模块,用于按照预设算法生成多个图像推荐窗;

切分模块,用于利用所述多个图像推荐窗对每张图像进行切分,以得到多个具有独立语义的图像块;其中,相邻的图像块之间存在重叠部分。

在本申请一个实施方式中,所述视觉单词确定单元300具体包括:

视觉单词设定模块,用于预先设置与所述图像特征的数量相适配的视觉单词;

距离计算模块,用于计算所述图像特征到每个所述视觉单词的词向量之间的距离;

视觉单词划分模块,用于将所述图像特征划分至距离最近的视觉单词处,并将所述距离最近的视觉单词作为所述图像特征对应的视觉单词。

由上可见,本发明将图像切分为具有独立语义的图像块,并可以针对各个图像块,确定相应的视觉单词。然后可以通过确定的视觉单词进行编码,从而确定各个图像对应的特征向量。这些特征向量可以构成图像索引库,当输入待检索的目标图像时,可以将目标图像的目标特征向量与图像索引库中的特征向量进行匹配,从而能够反馈与目标图像相关的检索结果。本发明利用深度特征和聚类算法,能够制定出精确的图像索引库,从而提高了图像检索的精度。

上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述,本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此,虽然已经具体讨论了一些另选的实施方式,但是其它实施方式将是显而易见的,或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化,以及落在上述申请的精神和范围内的其它实施方式。

本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。

虽然通过实施方式描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1