一种视觉搜索方法、装置及设备与流程

文档序号:16881019发布日期:2019-02-15 22:09阅读:344来源:国知局
一种视觉搜索方法、装置及设备与流程

本发明涉及图像处理技术领域,特别是涉及一种视觉搜索方法、装置及设备。



背景技术:

为了满足用户的需求,图像和视频的传输数量已经占据了网络带宽中的一大部分,根据统计,每年在网络上上传的图片高达数亿张,在这么庞大的数字下,隐藏了一个亟待解决的问题,如何在这么庞大的数据中找到用户最需要的视频或者图像。

视觉搜索技术中通过提取多个待检索图像的特征,并保存待检索图像的特征,使得用户在需要检索时,通过查询图像的特征,与多个待检索图像特征进行匹配,进而从多个待检索图像中查找到与查询图像匹配的图像。可以看出,提取并保存多个待检索图像的特征是视搜索技术中的重要方面。

目前的视觉搜索技术中,针对多个待检索图像提取相同码率的特征,进而保存各个待检索图像相同码率的特征。一种可能的情况下,如果待检索图像包含较少的信息,码率却比较大时,保存该待检索图像对应的码率比较大的特征,会占用过多的资源,造成存储资源的浪费。



技术实现要素:

本发明实施例的目的在于提供一种视觉搜索方法、装置及设备,以降低对存储资源的浪费。具体技术方案如下:

第一方面,本发明实施例提供了一种视觉搜索方法,包括:

获取多个待检索图像;

针对各个待检索图像,提取所述待检索图像的全局特征信息;

根据所述待检索图像的全局特征信息,计算所述待检索图像对应的复杂度指标;

确定与所述复杂度指标匹配的码率;

基于所述码率,提取所述待检索图像的图像特征,并保存所述图像特征,所述图像特征用于视觉搜索。

可选的,所述提取所述待检索图像的全局特征信息,包括:

通过fisher向量,提取所述待检索图像的全局特征向量。

可选的,所述根据所述待检索图像的全局特征信息,计算所述待检索图像对应的复杂度指标,包括:

根据所述待检索图像的全局特征信息,计算所述待检索图像的类内距离;

根据所述待检索图像的全局特征信息,计算所述待检索图像的类间距离;

将所述类内距离与所述类间距离的比值,作为所述待检索图像对应的复杂度指标。

可选的,所述根据所述待检索图像的全局特征信息,计算所述待检索图像的类内距离,包括:

确定类内其他待检索图像的全局特征信息,其中,所述类内其他待检索图像包括所述待检索图像位于的图像类别中的所有图像中、除所述待检索图像之外的图像;

根据所述待检索图像的全局特征信息和所述类内其他待检索图像的全局特征信息,计算所述待检索图像位于的图像类别中所有图像的质心位置信息;

计算所述待检索图像的全局特征信息与所述质心位置信息的第一距离,并将所述第一距离作为所述待检索图像的类内距离;或者,

分别计算所述待检索图像的全局特征信息与所述类内其他待检索图像的全局特征信息之间的第二距离;并将各个所述第二距离之和作为所述待检索图像的类内距离。

可选的,所述根据所述待检索图像的全局特征信息,计算所述待检索图像的类间距离,包括:

确定类间其他待检索图像的全局特征信息,其中,所述类间其他待检索图像包括所述多个待检索图像中、不存在于所述待检索图像位于的图像类别中的图像;

分别计算所述待检索图像的全局特征信息与所述类间其他待检索图像的全局特征信息之间的第三距离,并将各个第三距离之和作为所述待检索图像的类间距离。

可选的,所述确定与所述复杂度指标匹配的码率,包括:

确定所述复杂度指标对应的、所述待检索图像的图像排序位置信息;

确定与所述图像排序位置信息对应的码率。

可选的,所述确定所述复杂度指标对应的、所述待检索图像的图像排序位置信息,包括:

根据所述多个待检索图像中各个待检索图像分别对应的复杂度指标,对所述多个待检索图像进行排序;

根据排序的结果,确定所述待检索图像的图像排序位置信息。

可选的,所述图像特征包括尺度不变性局部特征sift特征。

第二方面,本发明实施例提供了一种视觉搜索装置,包括:

获取模块,用于获取多个待检索图像;

第一提取模块,用于针对各个待检索图像,提取所述待检索图像的全局特征信息;

计算模块,用于根据所述待检索图像的全局特征信息,计算所述待检索图像对应的复杂度指标;

确定模块,用于确定与所述复杂度指标匹配的码率;

第二提取模块,用于基于所述码率,提取所述待检索图像的图像特征,所述图像特征用于视觉搜索;

保存模块,用于保存所述图像特征。

第三方面,本发明实施例提供了一种视觉搜索设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;

所述存储器,用于存放计算机程序;

所述处理器,用于执行所述存储器上所存放的程序时,实现第一方面的方法步骤。

本发明实施例提供的视觉搜索方法、装置及设备,可以获取多个待检索图像;针对各个待检索图像,提取待检索图像的全局特征信息;根据待检索图像的全局特征信息,计算待检索图像对应的复杂度指标;确定与复杂度指标匹配的码率;基于码率,提取待检索图像的图像特征,并保存图像特征,图像特征用于视觉搜索。本发明实施例中,针对各个待检索图像,计算待检索图像对应的复杂度指标,并确定与复杂度指标匹配的码率,如此,实现自适应地确定与复杂度指标匹配的码率,能够降低保存待检索图像的图像特征过程中,对存储资源的浪费。且能够在该图像特征用于视觉搜索过程中时,保证检索的准确度。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视觉搜索方法的流程图;

图2(a)为本发明实施例中多个待检索图像关系的一种示意图;

图2(b)为本发明实施例中多个待检索图像关系的另一种示意图;

图3为本发明实施例中不同类别图像关系的示意图;

图4(a)为本发明实施例中计算待检索图像类内距离的一种示意图;

图4(b)为本发明实施例中计算待检索图像类内距离的另一种示意图;

图5为本发明实施例提供的视觉搜索装置的结构示意图;

图6为本发明实施例提供的视觉搜索设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

移动互联网的这股热潮目前已持续了很久。智能手机的使用数量已经超过了桌面电脑的使用,智能手机的发展速度已经成为历史上从来没有出现过的增长现象,这一现象体现出随着时代的发展,科技的进步,越来越多的用户希望能够在移动的过程中也能高速的接入互联网,获取到自己想要的信息。而随着信息形式的丰富,图像和视频的传输数量已经占据了网络带宽中的一大部分,根据统计,每年在网络上上传的图片高达数亿张,在这么庞大的数字下,隐藏了一个亟待解决的问题,如何在这么庞大的数据中找到用户最需要的视频或者图像。在这一背景下,移动视觉搜索技术也将变为未来人类生活中必不可少的技术之一。

为了在检索之前提取特征,传统的视觉搜索技术必须花费大量的计算。此外,频繁地发送整个图像在3g或4g网络上可能会导致严重的功耗。即使是在局部设备上的搜索,最先进的图像表现形式,词袋(bagofwords,简称:bow)和聚合局部特征描述子,在考虑到计算复杂性时仍然不适用。而基于内容的图像检索在经过了二十多年的研究和发展之后,为移动视觉搜索提供了大量的算法和技术方案储备。在这之中,图像视觉特征描述子是根本问题。一方面,常见的颜色、纹理特征描述能力有限;形状特征虽然比较符合人类的视觉认知机理,但是比较难于获取。尺度不变性局部特征(scaleinvariablefeaturetransform,简称:sift)是过去一段时间来计算机视觉和图像处理领域公认比较好的视觉特征,已得到广泛应用,但因为特征数据过大,不适合网络应用。国际标准化组织/国际电工委员会第一联合技术委员会第29分委会第11工作组(iso/iecjtcsc29wg11)为了解决sift用于移动视觉搜索时所需的高效压缩问题,从2010年3月开始制定面向视觉搜索的紧凑视觉描述子(compactdescriptorforvisualsearch,简称:cdvs)国际标准,2013年底起草完成,2014年7月通过投票,2014年内颁布为iso/iecmpeg-7part13国际标准。该标准,也可以称为cdvs视觉搜索框架可将一幅图像的视觉特征压缩到512字节到16k字节等,从而能够以很低的传输和存储代价实现海量(千万幅图像以上)图像的检索。

但是,现有的cdvs视觉搜索框架中,采用的是固定码率,即针对多个图像均采用相同的码率,提取并保存相同码率的图像特征,如此,会使得不同复杂度的图像使用相同的码率进行存储,而这会造成一定的资源浪费。由于现有的cdvs视觉搜索框架对于所有的图像进行统一标准、相同码率流的特征提取,这就会导致略微简单的图像也会提取出同复杂图像一样数量的特征点,并将所有的特征点都进行保存。在进行图像特征存储时会造成很大的资源浪费。

如此,为了降低对存储资源的浪费,本发明实施例可以根据不同图像的复杂度不同,对不同图像进行不同字节压缩再次降低比特流,从而实现更复杂的图像分配更多的码率,较简单的图像分配较少的码率的功能,对准确率以及存储代价都会有更好的提升。

本发明对现有的cdvs视觉搜索框架进行改变,使得能够以更低的码率速度达到和现有cdvs视觉搜索框架相同的检索功能,能够为移动客户端节省更多的流量,减轻网络传输的压力,也是为互联网减少负载的重要手段之一。不仅可以使用户得到更好的视觉效果,更加快速、精准地查询到自己想要搜索的图像,对于运营商这更是节省资源的需求。

下面对本发明实施例提供的视觉搜索方法进行详细说明。

本发明实施例提供的视觉搜索方法可以应用于电子设备。具体地,电子设备可以为智能手机、平板电脑、笔记本电脑或台式电脑等

本发明实施例提供了一种视觉搜索方法,如图1所示,可以包括:

s101,获取多个待检索图像。

多个待检索图像可以是图像库中的图像,或者可以是待建立至图像库的图像。或者可以是待用户通过查询图像查询的与该查询图像匹配的图像,等等。

具体地,电子设备可以从图像库中获取待检索图像;或者,可以从网络中收集待检索图像,均是允许的,本发明实施例不对获取待检索图像的方式作限制。

s102,针对各个待检索图像,提取待检索图像的全局特征信息。

全局特征信息,也即表征待检索图像全局特征的信息。如可以是待检索图像的边缘特征、轮廓特征等等。

简单地也可以理解为表示图像特征的宏观信息,粗略信息等等。

具体地,一种可选的实现方式中,通过fisher向量,提取待检索图像的全局特征向量。

全局特征信息也可以称之为全局特征子。具体地,可以通过1x128维度的0、1向量来表示。其中,fisher向量可以参照已有技术的方式,这里就不再赘述。

s103,根据待检索图像的全局特征信息,计算待检索图像对应的复杂度指标。

复杂度指标可以用于表征待检索图像包含信息的程度、或者用于表征待检索图像被检索到的复杂度,等等。

本发明实施例一种可实现方式中,可以根据待检索图像的全局特征信息,确定待检索图像包含的信息量,进而根据待检索图像包含的信息量,计算待检索图像对应的复杂度指标。

本发明实施例另一种可实现方式中,可以通过待检索图像的全局特征信息定位待检索图像的相对“位置”,进而通过不同待检索图像全局特征信息,分析不同待检索图像之间的距离,然后根据待检索图像之间的距离计算待检索图像的复杂度指标。

s104,确定与复杂度指标匹配的码率。

与复杂度指标匹配的码率也可以理解为,确定的码率随着复杂度指标表示的待检索图像的复杂度的增加而增大、减小而减小。具体地,当复杂度指标表示待检索图像较复杂时,则确定对应的较大的码率;当复杂度指标表示待检索图像较简单时,则确定对应的较小的码率。

一种可实现方式中,复杂度指标用于表征待检索图像包含信息的程度时,可以认为待检索图像包含的信息比较丰富时,待检索图像的复杂度较高,则确定该待检索图像对应的码率较大;待检索图像包含的信息比较简单时,待检索图像的复杂度较低,则确定该待检索图像对应的码率较小。

另一种可实现方式中,复杂度指标用于表征待检索图像被检索到的复杂度时,可以认为待检索图像被检索到的复杂度较高时,待检索图像的复杂度较高,则确定该待检索图像对应的码率较大;待检索图像被检索到的复杂度较低时,待检索图像的复杂度较低,则确定该待检索图像对应的码率较小。

s105,基于码率,提取待检索图像的图像特征,并保存图像特征。

图像特征可以用于视觉搜索,可以是移动视觉搜索,或者也可以是应用于非移动终端中的视觉搜索。具体地,图像特征可以用于视觉搜索过程中图像的匹配。

在图像特征提取中,图像特征可分为点特征检测和边缘检测,在图像检索中一般使用的是点特征检测,它属于局部特征,可以检测成百上千的检测点。具体地,图像特征可以为点特征mops特征,这种特征保证了图像的尺度不变性,但是它需要待匹配的图像之间尺度近似。图像特征可以是待检索图像的颜色特征、纹理特征、形状特征,等等。

一种优选的实现方式中,图像特征包括sift特征。因为sift特征对于图像的旋转和尺度变化具有不变性,对于三维视角变化和光照变化具有很强的适应性,而且其数量较多等,在图像检索中具有很大的优势。图像特征可以包括sift特征,提取待检索图像的sift特征可以更加准确地实现视觉搜索过程中通过图像特征的图像匹配。

基于码率,提取待检索图像的图像特征,也可以理解为提取码率大小的图像特征。如确定的待检索图像对应的码率为10kb,则提取10kb的图像特征。

如此,可以实现针对不同复杂度指标的待检索图像,提取不同码率的图像特征。

提取待检索图像的图像特征,并保存图像特征。如此,可以在视觉搜索过程中,针对用户的查询图像,提取与待检索图像对应的图像特征,通过图像特征之间的匹配,实现查询图像与多个待检索图像之间的匹配,进而查找到与查询图像匹配的图像,以满足用户的需求。

本发明实施例中,针对各个待检索图像,计算待检索图像对应的复杂度指标,并确定与复杂度指标匹配的码率,如此,实现自适应地确定与复杂度指标匹配的码率,能够降低保存待检索图像的图像特征过程中,对存储资源的浪费。且能够在该图像特征用于视觉搜索过程中时,保证检索的准确度。

本发明一种可选的实施例中,多个待检索图像中图像之间的距离影响图像被检索到的复杂度,且多个待检索图像中有可能不同的待检索图像中会包括不同的目标对象,则可以认为包括相同目标对象的待检索图像属于同一类别。如此,多个待检索图像可能位于不同的类别,如待检索图像1、待检索图像2以及待检索图像3属于同一类别,如类别1;而待检索图像4、待检索图像5以及待检索图像6属于同一类别,如类别2。

如图2(a)和图2(b)所示,多个待检索图像包括数据库,即图片库中的多个图片,如可以包括:位于同一类别的图片1-1,图片1-2,图片1-3,以及其他图片。

位于同一类别的图片1-1,图片1-2,图片1-3,也可以称之为“一类图片”,也可以称之为包含为同一目标的一组图片。

图2(a)中,一组图片可能会离其他图片的“距离”很远,并且一组图片内的图片距离很近。那么,如果这组图片对应的查询图片在此数据库中进行图片检索,就能更加容易的找到距离其他图片较远的图片组,并且由于图片组内的图片“距离”很近,所以就更加容易同时检索到这组图片。在图2(b)中,图片组中的图片1-3距离其他图片较近,距离本组图片较远,所以在这组图片中,图片1-3应该分配较多的码率,图像1-1和1-2则应该分配较少的码率。

根据图2(a)和图2(b)可以分析得到,图2(a)中的图片1-3相比于图2(b)中的图片1-3,应该分配更少的码率。基于这个准则,可以看出,位于同一类别的图片之间的距离会影响图片被检索到的复杂度,进而影响对图片码率的确定。同一类别图片之间的距离可以认为是类内距离。

在考虑完类内距离对码率分配的影响之后,考虑到类间距离也会影响到对码率的分配,如图3所示。

在图3中,不再考虑类内距离的影响,假设每一组图片为一个“·”点,以类别1和类别2为例进行分析。如果一个类别,如类别1,距离其他类别的“距离”都很远,那么这个类别就更容易被检索到,则可以给这个类别分配更少的码率,如果一个类别,距离其他类别的“距离”都比较近,那么这个类别就比较难被检索到,则可以给这个类别分配更多的码率,如类别2。

通过上述分析可知,根据待检索图像被检索到的复杂度,确定不同的码率,即根据待检索图像对应的复杂度指标,确定与复杂度指标匹配的码率。而复杂度指标是通过待检索图像的距离来计算的,且待检索图像的距离可以包括类内距离,以及类间距离。因此,为了确定待检索图像的复杂度指标,确定多个待检索图像对应的距离。

具体地,本发明实施例中通过待检索图像的全局特征信息之间的欧氏距离表征待检索图像之间的距离,一种可实现方式中,待检索图像的全局特征信息可以通过1x128维的全局特征向量来表示,待检索图像的全局特征信息之间的欧氏距离通过如下公式计算:

其中,为待检索图像a对应的全局特征向量与待检索图像b对应的全局特征向量之间的距离,qai中的第i个元素,qbi中的第i个元素。

本发明一种可选的实施例中,步骤s103:根据待检索图像的全局特征信息,计算待检索图像对应的复杂度指标,可以包括:

a1,根据待检索图像的全局特征信息,计算待检索图像的类内距离。

一种实现方式中,可以包括:

a11,确定类内其他待检索图像的全局特征信息。

其中,类内其他待检索图像包括待检索图像位于的图像类别中的所有图像中、除待检索图像之外的图像。

如计算待检索图像图片1-3的类内距离,则图片1-3对应的类内其他待检索图像可以包括图片1-1和图片1-2。

具体地,确定类内其他待检索图像的全局特征信息的过程,同上述步骤s102中提取待检索图像的全局特征信息的过程类似,这里就不再赘述。

a12,根据待检索图像的全局特征信息和类内其他待检索图像的全局特征信息,计算待检索图像位于的图像类别中所有图像的质心位置信息。

a13,计算待检索图像的全局特征信息与质心位置信息的第一距离,并将第一距离作为待检索图像的类内距离。

以图4(a)的图片1-3为例,图片1-3位于的图像类别中所有图像包括图片1-1、图片1-2和图片1-3。先确定图片1-1、图片1-2和图片1-3的质心位置,再将图片1-3到质心的距离dis3确定为图片1-3的类内距离。类似地,确定图片1-1的类内距离为dis1,确定图片1-2的类内距离为dis2。

且具体地,图片到质心的距离可以通过图片的全局特征信息与质心的质心位置信息之间的距离来计算,如欧氏距离,余弦距离,等等。

另一种可选的实现方式中,可以包括:

分别计算待检索图像的全局特征信息与类内其他待检索图像的全局特征信息之间的第二距离;并将各个第二距离之和作为待检索图像的类内距离。

具体地,可以通过如下公式计算:

其中,为待检索图像a的类内距离,为待检索图像a对应的全局特征向量,待检索图像k对应的全局特征向量之间的距离,待检索图像k为与待检索图像a的类内其他待检索图像,num为待检索图像的所有类内其他待检索图像的个数。

如图4(b)中计算图片1-3的类内距离,即计算图片1-3到图片1-2的距离dis6,和图片1-3到图片1-1的距离dis5,将两者之和dis5+dis6确定为图片1-3的类内距离。类似地,计算图片1-1的类内距离,即计算图片1-1到图片1-2的距离dis4,和图片1-1到图片1-3的距离dis5,将两者之和dis4+dis5确定为图片1-1的类内距离。计算图片1-2的类内距离,即计算图片1-2到图片1-1的距离dis4,和图片1-2到图片1-3的距离dis6,将两者之和dis4+dis6确定为图片1-2的类内距离。

通过上面的分析,认为图片1-3应该分配更少的码率,而通过图4(a)所示的计算方式中,图片1-1,图片1-2,图片1-3的类内距离大致相同,如此难以通过距离准确地分配对应的码率。因此,为了提高确定的码率的准确度,针对通过图4(a)所示方式计算的不同待检索图像对应的类内距离大致相同时,采用图4(b)所示的方式计算待检索图像的类内距离。

a2,根据待检索图像的全局特征信息,计算待检索图像的类间距离。

具体地,可以包括:

a21,确定类间其他待检索图像的全局特征信息。

其中,类间其他待检索图像包括多个待检索图像中、不存在于待检索图像位于的图像类别中的图像。

如计算待检索图像图片1-3的类间距离,图片1-3对应的类内其他待检索图像可以包括图片1-1和图片1-2,则图片1-3对应的类间其他待检索图像包括除图片1-1、图片1-2和图片1-3之外的其他图片。

具体地,确定类间其他待检索图像的全局特征信息的过程,与上述步骤s102中提取待检索图像的全局特征信息的过程类似,这里就不再赘述。

a22,分别计算待检索图像的全局特征信息与类间其他待检索图像的全局特征信息之间的第三距离,并将各个第三距离之和作为待检索图像的类间距离。

具体地,通过如下公式计算:

其中,为待检索图像a的类间距离,待检索图像a对应的全局特征向量待检索图像j对应的全局特征向量之间的距离,待检索图像j为与待检索图像a的类间其他待检索图像,othernum为待检索图像对应的所有类间其他待检索图像的个数。

a3,将类内距离与类间距离的比值,作为待检索图像对应的复杂度指标。

基于类间距离和类内距离的思想,希望类内距离越小越好,这样一个类别的图像更聚集,更容易被检索到。同时,希望类间距离越大越好,这样,这个类别就更容易被检索到。因此,可以给同时符合上面两条标准的图像分配较少的码率。将类内距离除以类间距离,此数值越小,则代表图像更容易检索,对应地可以分配更少的码率。反之,为其分配更大的码率。可以将这个指标定义为dii(distanceofinnerandinter),如下面公式:

其中,为待检索图像a对应的复杂度指标,为待检索图像a的类内距离,为待检索图像a的类间距离。

本发明一种可选的实施例中,步骤s104:确定与复杂度指标匹配的码率,可以包括:

b1,确定复杂度指标对应的、待检索图像的图像排序位置信息。

具体地,可以包括:

b11,根据多个待检索图像中各个待检索图像分别对应的复杂度指标,对多个待检索图像进行排序。

b12,根据排序的结果,确定待检索图像的图像排序位置信息。

具体地,可以按照升序排列,复杂度指标越大,则排序结果中的排序位置越靠前;复杂度指标越小,则排序结果中的排序位置越靠后。或者,也可以按照降序排列。

图像排序位置信息的可以为多个待检索图像中该待检索图像所在的位置序号,如多个待检索图像中所有待检索图像为100个,待检索图像的图像位置信息可以是1,10,90,等等。

b2,确定与图像排序位置信息对应的码率。

按照复杂度指标,即按照待检索图像的复杂度分配码率。本发明实施例一种实现方式中以dii指标衡量待检索图像的“复杂度”。具体地,可以根据如下公式确定码率:

其中,为待检索图像a确定的码率,为待检索图像a的图像排序位置信息,为多个待检索图像的总个数,averate为平均码率,可以为根据经验或者实际情况确定的预设值,为待检索图像a对应的复杂度指标。

通过码率的分配,图像库中减少了特征冗余,图像库中的描述子涵盖了更多的信息,从而使得紧凑特征描述子的辨别力大大增强,从而可以提高紧凑特征检索性能。且在有限的码率存储空间下,得到更为合理的码率分配模型,同时避免由于码率降低带来的精度损失。

本发明一种可选的实施例中,通过分析批量图像建库时不同图像的复杂度,判断这些图像具体所需的码率多少,在这个模型中,我们首先对待建库中所有的图像提取全局特征,认为此全局特征可以代表图像的大部分信息,在提取到全局特征之后,通过全局特征向量分析图像之间的类内距离与类间距离,由于类内距离与类间距离对检索性能的影响,本发明以类内距离与类间距离的比值作为参考因子,根据此参考因子更加均衡的分配码率,使得码率能够得到更加合理的应用,从而提升检索性能。图像业务也不同于其他的互联网业务,它可以让用户从视觉与听觉中直观的获取相应的信息,从而它的用户体验更为直观、更易于感受。所以提升检索图像的速度是用户的急迫需求,能使用户第一时间得到想要的反馈信息。

本发明基于移动视觉搜索中sift特征的表征能力,以图像之间的距离为基准建立了图像复杂度判别模型,对于即将建库的图像进行复杂度判别后再提取特征,充分利用了图像库中的存储空间存储更加复杂的图像特征,让复杂的图像充分的提取出需要的信息,较为简单的图像在不降低检索精度的基础上节省出码率空间。且本发明提出的图像复杂度判别模型基于图像之间的类内距离以及类间距离进行判别,认为类间距离越大的图像越易与其他图像相分隔开来,更易被检索,类内距离越小的图像整体类别也更易被检索到。结合这两种图像信息,判决出一个图像是否“容易”被检索到,从而给其分配相应的码率。本发明提供的方法能够在保证存储码率不变的情况下,提升检索精度。随着移动终端的迅速扩张,本发明实施例提供的方法可以在保证检索精度的情况下,节省大量带宽,有着广阔的应用前景。

本发明实施例提供了一种视觉搜索装置,如图5所示,包括:

获取模块501,用于获取多个待检索图像;

第一提取模块502,用于针对各个待检索图像,提取待检索图像的全局特征信息;

计算模块503,用于根据待检索图像的全局特征信息,计算待检索图像对应的复杂度指标;

确定模块504,用于确定与复杂度指标匹配的码率;

第二提取模块505,用于基于码率,提取待检索图像的图像特征,图像特征用于视觉搜索;

保存模块506,用于保存图像特征。

本发明实施例中,针对各个待检索图像,计算待检索图像对应的复杂度指标,并确定与复杂度指标匹配的码率,如此,实现自适应地确定与复杂度指标匹配的码率,能够降低保存待检索图像的图像特征过程中,对存储资源的浪费。且能够在该图像特征用于视觉搜索过程中时,保证检索的准确度。

可选的,第一提取模块502,具体用于通过fisher向量,提取待检索图像的全局特征向量。

可选的,计算模块503,包括:

第一计算子模块,用于根据待检索图像的全局特征信息,计算待检索图像的类内距离;

第二计算子模块,用于根据待检索图像的全局特征信息,计算待检索图像的类间距离;

作商模块,用于将类内距离与类间距离的比值,作为待检索图像对应的复杂度指标。

可选的,第一计算子模块,包括:

第一确定单元,用于确定类内其他待检索图像的全局特征信息,其中,类内其他待检索图像包括待检索图像位于的图像类别中的所有图像中、除待检索图像之外的图像;

第一计算单元,用于根据待检索图像的全局特征信息和类内其他待检索图像的全局特征信息,计算待检索图像位于的图像类别中所有图像的质心位置信息;

第二计算单元,用于计算待检索图像的全局特征信息与质心位置信息的第一距离,并将第一距离作为待检索图像的类内距离;或者,

第三计算单元,用于分别计算待检索图像的全局特征信息与类内其他待检索图像的全局特征信息之间的第二距离;并将各个第二距离之和作为待检索图像的类内距离。

可选的,第二计算子模块,包括:

第二确定单元,用于确定类间其他待检索图像的全局特征信息,其中,类间其他待检索图像包括多个待检索图像中、不存在于待检索图像位于的图像类别中的图像;

第四计算单元,用于分别计算待检索图像的全局特征信息与类间其他待检索图像的全局特征信息之间的第三距离,并将各个第三距离之和作为待检索图像的类间距离。

可选的,确定模块504,包括:

第一确定子模块,用于确定复杂度指标对应的、待检索图像的图像排序位置信息;

第二确定子模块,用于确定与图像排序位置信息对应的码率。

可选的,第一确定子模块,包括:

排序单元,用于根据多个待检索图像中各个待检索图像分别对应的复杂度指标,对多个待检索图像进行排序;

第三确定单元,用于根据排序的结果,确定待检索图像的图像排序位置信息。

可选的,图像特征包括尺度不变性局部特征sift特征。

需要说明的是,本发明实施例提供的视觉搜索装置是应用上述视觉搜索方法的装置,则上述视觉搜索方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。

本发明实施例还提供了一种视觉搜索设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信。

存储器603,用于存放计算机程序;

处理器601,用于执行存储器603上所存放的程序时,实现上述视觉搜索方法的方法步骤。

本发明实施例中,针对各个待检索图像,计算待检索图像对应的复杂度指标,并确定与复杂度指标匹配的码率,如此,实现自适应地确定与复杂度指标匹配的码率,能够降低保存待检索图像的图像特征过程中,对存储资源的浪费。且能够在该图像特征用于视觉搜索过程中时,保证检索的准确度。

上述视觉搜索设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述视觉搜索设备与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory,ram),也可以包括非易失性存储器(non-volatilememory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述视觉搜索方法的方法步骤。

本发明实施例中,针对各个待检索图像,计算待检索图像对应的复杂度指标,并确定与复杂度指标匹配的码率,如此,实现自适应地确定与复杂度指标匹配的码率,能够降低保存待检索图像的图像特征过程中,对存储资源的浪费。且能够在该图像特征用于视觉搜索过程中时,保证检索的准确度。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备及计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1