一种基于内容检索相同或相似图像的方法与系统的制作方法

文档序号:9274721阅读:1273来源:国知局
一种基于内容检索相同或相似图像的方法与系统的制作方法
【技术领域】
[0001]本发明涉及计算机技术领域,特别地涉及一种基于内容检索相同或相似图像的方法与系统。
【背景技术】
[0002]常规的图像检索,是通过输入关键词的形式搜索到互联网上相关的图片资源,查找出自己所需要的特定图片。但是对于某个特定的图像特征,通常又有多种不同的表达方法。由于人们主观认识上的千差万别,对于某个特征并不存在一个所谓的最佳的表达方式,这样在进行图像检索时就会出现检索精度低,甚至检索不到需要的图片的情况。因此,基于内容的图像检索使用越来越多。
[0003]基于内容的图像检索为从大量图像中检索出特定内容的图像提供了有效的方法,一般使用一些特征提取的方法提取出图像的特征,然后再检索比较。现有的图片搜索引擎在进行相似图片搜索时,主要有如下两种方式:
[0004]1、根据输入的关键字,在搜索结果中挑选一张图片,再根据这张图片的特点来进行搜索,例如:Xcavator、Live, com、Picitup等,其中,图片的特点主要指色彩、形状等方面的特征;
[0005]2、通过上传本地图片或输入网络图片的URL地址,自动分析图像中的元数据,作为搜索的关键数据,例如,颜色、形状、主题风格等,取出多个像素点,提取特征值,寻找相似的图片,例如:百度识图、Gazopa、Byo image search等。
[0006]由上述可知,现有的基于内容的图像检索主要是根据图像的颜色、形状、主题风格等特征,取多个像素点提取特征值以寻找相似的图片。然而,通常情况下,不同的特征提取方法对提取出来的结果影响甚大;对于检索响应时间,会随着图像数量的增多而逐渐拉长。且现有的大部分图像识别产品,针对性是全网搜索的图片,对特定领域的相同或相似图像检索精度并没有那么高。
[0007]因此,需要一种针对特定领域的相同或相似图像类实时检索的方法和系统。由于从海量的高维数据集合中找到相似数据计算复杂度非常高,因此对需要实时查询的系统而言,方案几乎不可取。但是,如果能把特征维度降低一个量级,然后对特征建立索引,那么通过查询请求即可做到类实时查询。

【发明内容】

[0008]有鉴于此,本发明提供一种基于内容检索相同或相似图像的方法与系统,通过对图像进行特征向量提取,并对提取的图像特征向量降维及建立索引,以搭建小规模的数据集群即能满足类实时搜索相同或相似图像,检索精度高、时间短。
[0009]为实现上述目的,本发明提供以下技术方案:利用卷积神经网络模型提取图像的高层特征向量,根据特征向量维度大小利用降维方法选择最优参数进行特征向量降维,降维后的特征向量插入实时检索集群,对于要查询的图像,用上述步骤提取降维后的特征向量,在实时检索集群中采用汉明距离进行相似度量,根据计算出来的分数得到相同或相似图像。
[0010]根据本发明的一个方面,提供了一种基于内容检索相同或相似图像的方法。
[0011]本发明的一种基于内容检索相同或相似图像的方法,包括:对图像进行去重处理后,利用卷积神经网络模型提取所述图像的特定层的全连接特征向量;对提取的所述特定层的全连接特征向量进行降维,并将降维后的特征向量与所述图像的标识符及属性信息相关联;将降维后的特征向量及图像的标识符在分布式的检索集群中建立索引,并批量插入所述图像的数据信息,其中所述数据信息包括所述降维后的特征向量、所述图像的标识符及属性信息;通过对所述降维后的特征向量在所述分布式的检索集群中进行相似度量,将满足预定阈值的图像确定为相同或相似图像。
[0012]可选地,将降维后的特征向量及图像的标识符在分布式的检索集群中建立索引的步骤包括:对降维后的特征向量的每一项都采用整数建立索引;对图像的标识符采用不分词的方式直接建立索引。
[0013]可选地,将降维后的特征向量及图像的标识符在分布式的检索集群中建立索引的步骤之后,还包括:将图像的属性信息只进行存储而不建立索引。
[0014]可选地,批量插入所述图像的数据信息包括:按照图像类型批量插入所述图像的数据信息。
[0015]可选地,所述索引为倒排索引。
[0016]可选地,对所述降维后的特征向量在所述分布式的检索集群中进行相似度量包括:计算所述降维后的特征向量与所述分布式的检索集群中的特征向量之间的汉明距离。
[0017]可选地,对所述降维后的特征向量在所述分布式的检索集群进行相似度量的步骤包括:将降维后的特征向量的每一个维度的权重设为同一整数,并与所述分布式的检索集群中的特征向量进行比较,以计算汉明距离得分;所述得分在所述预定阈值之上的图像认为是所要查询图像的相同图像,否则为所要查询图像的相似图像。
[0018]可选地,所述权重是1,并且所述预定阈值为降维后特征向量维度的95%。
[0019]根据本发明的另一方面,提供了一种基于内容检索相同或相似图像的系统。
[0020]本发明的一种基于内容检索相同或相似图像的系统,包括:特征提取模块,用于对图像进行去重处理后,利用卷积神经网络模型提取图像的特定层的全连接特征向量;特征降维模块,用于对提取的所述特定层的全连接特征向量进行降维,并将降维后的特征向量与所述图像的标识符及属性信息相关联;特征入库模块,用于将降维后的特征向量及图像的标识符在分布式的检索集群中建立索引,并批量插入所述图像的数据信息,其中所述数据信息包括所述降维后的特征向量、所述图像的标识符及属性信息;特征查询模块,用于通过对所述降维后的特征向量在所述分布式的检索集群中进行相似度量,将满足预定阈值的图像确定为相同或相似图像。
[0021]可选地,所述特征入库模块还用于:对降维后的特征向量的每一项都采用整数建立索引;对图像的标识符采用不分词的方式直接建立索引。
[0022]可选地,所述特征入库模块在将降维后的特征向量及图像的标识符在分布式的检索集群中建立索引之后,还用于:将图像的属性信息只进行存储而不建立索引。
[0023]可选地,所述特征入库模块还用于:按照图像类型批量插入所述图像的数据信息。
[0024]可选地,所述索引为倒排索引。
[0025]可选地,所述特征查询模块还用于:计算所述降维后的特征向量与所述分布式的检索集群中的特征向量之间的汉明距离。
[0026]可选地,所述特征查询模块还用于:将降维后的特征向量的每一个维度权重设为同一整数,并与所述分布式的检索集群中的数据进行比较,以计算汉明距离得分;所述得分在预定阈值之上的图像认为是所要查询图像的相同图像,否则为所要查询图像的相似图像。
[0027]可选地,所述权重是1,并且所述预定阈值为降维后特征向量维度的95%。
[0028]根据本发明的技术方案,通过对图像进行全连接特征向量提取,并对提取的图像特征向量降维及建立索引,以搭建小规模的数据集群即能满足类实时搜索相同或相似图像,检索精度尚、时间短,从而提尚了检索效率,提尚了用户体验度。
【附图说明】
[0029]附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
[0030]图1是根据本发明实施例的一种基于内容检索相同或相似图像的方法的主要步骤示意图;
[0031]图2是根据本发明实施例的一种基于内容检索相同或相似图像的系统的主要模块不意图。
【具体实施方式】
[0032]以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0033]图1是根据本发明实施例的一种基于内容检索相同或相似图像的方法的主要步骤示意图。如图1所示,本发明的一种基于内容检索相同或相似图像的方法包括步骤Sll至步骤S14。
[0034]步骤Sll:对图像进行去重处理后,利用卷积神经网络模型提取所述图像的特定层的全连接特征向量。对图像进行去重的方法可根据需要进行选择,例如可选择常见的用于处理高维向量的索引办法局部敏感哈希LSH,或者其相应的各种衍生算法等。对图像进行去重处理,可以避免增加不必要的工作量,从而提高检索效率。
[0035]之后,对去重处理后的图像利用卷积神经网络模型,通过图形处理器GPU进行特征流式提取,得到图像的特定层的全连接特征向量。此处,根据所选取的卷积神经网络模型的参数及去重方法,提取相应层的全连接特征向量。得到的图像高层特征向量将被推送至特征降维模块进行处理。
[0036]步骤S12:对提取的所述特定层的全连接特征向量进行降维,并将降维后的特征向量与所述图像的标识符及属性信息相关联。在对步骤Sll中提取的高层全连接特征向量进行降维时,可根据需要选择合适的降维方法或者多种降维方法融合。例如,可以选择PCA、SPCA、GHA等降维方法,也可选择它们的融合等,并通过交叉验证等手段调节降维方法的参数以得到良好的效果,使得满足要求的同时还可以保持良好的度量距离。例如,提取到的高层特征向量为5000维,为了提高检索效率,现将该特征向量降维处理到500维,为了使信息损失量尽量减小,需要对降维方法的参数进行交叉验证并调整。降维后的特征向量每一维度设为整数,计算度量距离时可以命中个数进行度量,以与搜索引擎的原理布尔查询结果分数一致,有利于建立实时索引。
[0037]将特征向量进行降维处理后,把图像的标识符和属性信息与降维后的图像特征进行关联,得到图像降维后的特征向量与标识符和属性信息相对应的关系数据,以便于进行查询及结果显示。
[0038]步骤S13:将降维后的特征向量及图像的标识符在分布式的检索集群中建立索弓丨,并批量插入所述图像的数据信息,其中所述数据信息包括所述降维后的特征向量、所述图像的标识符及属性信息。在分布式的检索集群中建立索引字段信息时
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1