一种基于显著对象的图像检索方法及系统与流程

文档序号:12034744阅读:304来源:国知局
一种基于显著对象的图像检索方法及系统与流程

本发明属于图像检索领域,更具体地,涉及一种基于显著对象的图像检索方法及系统。



背景技术:

随着可获取图像数据量的急剧增加,对图像检索的应用需求不断提高,如何从海量图像数据快速有效地实现感兴趣目标的检索,近年来一直是计算机视觉领域的研究热点,得到来自科研人员和商业机构的关注,在医学、遥感、社交媒体、电子商务、交通、刑侦等领域均有广泛应用。基于内容的图像检索能够克服单纯基于文本的图像检索在主观性和歧义性方面的缺点,而图像内容的描述和提取是决定基于内容的图像检索性能最关键的因素。图像主要包括显著对象和背景两部分,例如在草地上拍摄狗得到的图像,图像中狗为显著对象,草地为背景。显著对象所属的种类可称为语义类别,例如显著对象为狗的图像的语义类别为狗,显著对象为马匹的图像的语义类别为马匹等。

在包含显著对象的图像中,若图像显著对象语义类别相同但是背景不同,则背景会对图像视觉特征的计算产生干扰。研究者们尝试利用图像显著性来解决这一方面的问题,比如融合视觉显著性到图像视觉计算中,尽管在一定程度上可以抑制背景的干扰,但是会增加特征计算复杂度,并且不能完全消除背景的干扰。

由图像低视觉特征与高层语义之间的语义鸿沟会造成图像检索准确度降低。采用词袋模型缩小语义鸿沟的思路是,通过创建图像特征与视觉词汇之间的映射来构造图像特征描述子,但是由于提取视觉词汇是基于整幅图像,这样容易引入噪声。另外,随着深度学习的发展,利用深度学习网络的特征学习能力获取图像深度特征来实现检索的研究也取得了一定的成果,但是直接由深度网络获取的图像特征维度较大,在进行特征匹配时计算量大、耗时长。

综上,现有图像检索方法中,图像语义类别相同时背景的干扰以及图像低层视觉特征与高层语义之间的语义鸿沟均会造成图像检索的准确度降低。



技术实现要素:

针对现有技术的缺陷,本发明的目的在于解决现有检索方法中,图像语义类别相同时背景干扰和图像低层视觉特征与高层语义之间的语义鸿沟等均会使得图像检索的准确度降低的技术问题。

为实现上述目的,第一方面,本发明实施例提供了一种基于显著对象的图像检索方法,包括:通过对包含显著对象的查询图像进行显著性检测,确定所述查询图像的显著对象所在的区域;确定所述查询图像的显著对象所在的区域的视觉特征;确定所述显著对象的语义类别;将所述查询图像的显著对象的视觉特征与图像库中相同语义类别的图像的显著对象的视觉特征进行相似度度量,确定所述图像库中与所述查询图像的相似度大于相似度阈值的图像。

本发明实施例通过提取显著对象的视觉特征,并基于显著对象的视觉特征进行图像检索,减少了背景干扰,提高了图像检索的准确度,通过判别显著对象的语义类别,仅对图像库中相同语义类别的图像进行检索,缩小了检索目标范围,在降低图像检索的复杂度的同时,有效提高了图像检索的准确度。

可选地,通过对包含显著对象的查询图像进行显著性检测,确定所述查询图像的显著对象所在的区域,包括:通过对包含显著对象的查询图像进行多尺度下的显著性检测,对每一层尺度下的查询图像进行超像素分割,分割后的每一块为一个超像素,所述多尺度通过图像金字塔实现;根据每一层尺度下的每一个超像素与邻近超像素的色彩对比度和空间对比度确定该层尺度下的显著图;通过对每层尺度下的显著图融合得到所述查询图像的显著图;通过对所述查询图像的显著图进行自适应阈值分割确定所述查询图像的显著对象所在的区域。

可选地,确定所述查询图像的显著对象所在的区域的视觉特征,包括:所述视觉特征包括颜色特征、纹理特征以及关键点特征中的至少一种;所述颜色特征包括hsv直方图特征、颜色矩特征以及颜色相关图中的至少一种,所述纹理特征包括gabor变换特征和小波矩特征。

可选地,本发明提供的图像检索方法还包括:通过对图像库中的每幅图像进行显著性检测,确定图像库中的每幅图像的显著对象所在的区域;确定所述图像库中每幅图像的显著对象所在的区域的视觉特征;通过对每幅图像的显著对象所在的区域进行训练得到网络分类器,所述网络分类器用于确定图像中显著对象所属的语义类别。

可选地,确定所述查询图像的显著对象的语义类别,包括:通过将所述查询图像的显著对象输入至所述网络分类器,确定所述查询图像的显著对象的语义类别。

可选地,将所述显著对象的视觉特征与图像库中相同语义类别的图像的显著对象的视觉特征进行相似度度量,包括:通过特征距离度量方式进行所述相似度度量,所述特征距离度量方式为以下几种距离度量方式之一:相关距离(correlation)、余弦距离(cosine)、曼哈顿距离(cityblock)、欧氏距离(euclidean)、明可夫斯基距离(minkowski)和切比雪夫距离(chebychev)等。

可选地,所述网络分类器的结构为以下几种网络结构之一:alexnet网络、lenet网络、googlenet网络、vgg网络以及resnet网络。

可选地,所述hsv直方图特征通过以下步骤得到:在hsv颜色空间,将所述显著对象对应的图像像素划分到等量空间c中,所述hsv直方图特征通过以下公式确定:

其中,h(c)表示hsv直方图特征,(x,y)为像素点坐标s(x,y)=1表示显著对象所在区域的像素点集合,i(x,y)表示查询图像中像素(x,y)的hsv值,m和n分别为查询图像的长宽,c为等量空间c中的一个单元,δ[·]用来判别像素值是否属于等量空间c中当前单元c。

所述颜色矩特征根据颜色均值和标准差确定,所述颜色均值和标准差分别从r、g以及b通道提取,所述色彩均值μk和标准差σk通过以下公式确定:

其中,ik(x,y)表示坐标(x,y)的像素颜色值。

所述颜色相关图通过颜色自相关图确定,所述颜色自相关图为只计算图像中具有相同灰度值像素的空间关系,不考虑背景像素。

本发明通过颜色自相关图,不考虑背景像素,降低了特征计算复杂度,提高了图像检索效率。

可选地,所述gabor变换特征通过多尺度多方向的滤波器组计算各个尺度下不同方向子带系数的均值和标准差确定,所述均值和方差代表系数的边缘分布,所述边缘分布用于确定gabor变换特征向量。所述小波矩特征获取所述显著对象所在区域的总特征维度为190维,以作为所述显著对象的特征描述子。

第二方面,本发明实施例提供了一种基于显著对象的图像检索系统,包括:显著性检测模块,用于通过对包含显著对象的查询图像进行显著性检测,确定所述查询图像的显著对象所在的区域;视觉特征确定模块,用于确定所述查询图像的显著对象所在的区域的视觉特征;语义类别确定模块,用于确定所述查询图像的显著对象的语义类别;相似度度量模块,用于将所述查询图像的显著对象的视觉特征与图像库中相同语义类别的图像的显著对象的视觉特征进行相似度度量,确定所述图像库中与所述查询图像的相似度大于相似度阈值的图像。

可选地,本发明提供的图像检索系统还包括:图像库显著性检测模块,用于对图像库中的每个图像进行显著性检测,确定图像库中的每个图像的显著对象所在的区域;训练模块,用于通过对每个图像的显著对象所在的区域进行训练得到网络分类器,所述网络分类器用于确定图像中显著对象所属的语义类别。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:

(1)本发明不同于传统的基于全图进行视觉特征的图像检索方法,本发明直接计算图像显著对象所在区域的视觉特征,避免背景带来的干扰,通过对图像显著对象的更准确地描述,大大提升了图像检索的准确度。

(2)本发明通过确定查询图像显著对象的语义类别,过滤掉图像库中不同语义类别的图像,缩小了图像检索的语义鸿沟,降低了图像检索的复杂度,进一步提升了图像检索的准确性。

附图说明

图1为本发明实施例提供的一种基于图像显著对象的图像检索方法流程示意图;

图2为本发明实施例提供的一种基于图像显著对象的图像检索系统的结构示意图;

图3为本发明实施例提供另一种基于图像显著对象的图像检索方法的流程图;

图4为本发明实施例提供另一种基于图像显著对象的图像检索系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

图1为本发明实施例提供的一种基于图像显著对象的图像检索方法流程示意图;包括步骤s101至步骤s104。

s101,通过对包含显著对象的查询图像进行显著性检测,确定所述查询图像的显著对象所在的区域。

具体地,通过对包含显著对象的查询图像进行多尺度下的显著性检测,对每一层尺度下的查询图像进行超像素分割,分割后的每一块为一个超像素,所述多尺度通过图像金字塔实现;根据每一层尺度下的每一个超像素与邻近超像素的色彩对比度和空间对比度确定该层尺度下的显著图;通过对每层尺度下的显著图融合得到所述查询图像的显著图;通过对所述查询图像的显著图进行自适应阈值分割确定所述查询图像的显著对象所在的区域。

s102,确定所述查询图像的显著对象所在的区域的视觉特征。

具体地,所述视觉特征包括颜色特征、纹理特征以及关键点特征中的至少一种;所述颜色特征包括hsv直方图特征、颜色矩特征以及颜色相关图中的至少一种,所述纹理特征包括gabor变换特征和小波矩特征。

可选地,所述颜色hsv直方图特征通过以下步骤得到:在hsv颜色空间,将所述显著对象对应的图像像素划分到等量空间c中,所述hsv直方图特征通过以下公式确定:

其中,h(c)表示hsv直方图特征,(x,y)为像素点坐标s(x,y)=1表示显著对象所在区域的像素点集合,i(x,y)表示查询图像中像素(x,y)的hsv值,m和n分别为查询图像的长宽,c为等量空间c中的一个单元,δ[·]用来判别像素值是否属于等量空间c中当前单元c。

所述颜色矩特征根据颜色均值和标准差确定,所述颜色均值和标准差分别从r、g以及b通道提取,所述颜色均值μk和标准差σk通过以下公式确定:

其中,ik(x,y)表示坐标(x,y)的像素颜色值。

所述颜色相关图通过颜色自相关图确定,所述颜色自相关图为只计算图像中具有相同灰度值像素的空间关系,不考虑背景像素。

本发明通过颜色自相关图,不考虑背景像素,降低了特征计算复杂度,提高了图像检索效率。

可选地,所述gabor变换特征通过多尺度多方向的滤波器组计算各个尺度下不同方向子带系数的均值和标准差确定,所述均值和方差代表系数的边缘分布,所述边缘分布用于确定gabor变换特征向量。所述小波矩特征获取所述显著对象所在区域的总特征维度为190维,以作为所述显著对象的特征描述子。

s103,确定所述查询图像的显著对象的语义类别。

具体地,本发明提供的图像检索方法还包括:通过对图像库中的每幅图像进行显著性检测,确定图像库中的每幅图像的显著对象所在的区域;通过对每幅图像的显著对象所在的区域进行训练得到网络分类器,所述网络分类器用于确定图像中显著对象所属的语义类别。

其中,语义类别可以为马匹、花朵、狗、建筑等。

具体地,通过将所述查询图像的显著对象输入至所述网络分类器,确定所述查询图像的显著对象的语义类别。

s104,将所述查询图像的显著对象的视觉特征与图像库中相同语义类别的图像的显著对象的视觉特征进行相似度度量,确定所述图像库中与所述查询图像的相似度大于相似度阈值的图像。

需要说明的是,相似度阈值可根据实际需要预设,大于相似度阈值的图像均作为与查询图像相似的图像输出,也可以定义输出图像个数,按相似度由大到小依次输出所需个数的图像作为与查询图像相似的图像。

本发明实施例提供的图像检索方法可适用于电子商务中的以图搜图,可输入某物品的图片以查询相似的物品。还可适用于其它类似需求的图像检索方法中,本发明不对此做任何限定。

通过特征距离度量方式进行所述相似度度量,所述特征距离度量方式为以下几种距离度量方式之一:相关距离(correlation)、余弦距离(cosine)、曼哈顿距离(cityblock)、欧氏距离(euclidean)、明可夫斯基距离(minkowski)和切比雪夫距离(chebychev)等。

本发明实施例通过提取显著对象的视觉特征,并基于显著对象的视觉特征进行图像检索,减少了背景干扰,提高了图像检索的准确度,通过判别显著对象的语义类别,仅对图像库中相同语义类别的图像进行检索,降低图像检索复杂度的同时,进一步提高了图像检索的准确度。

相应地,图2为本发明实施例提供的一种基于图像显著对象的图像检索系统的结构示意图;包括:查询图像显著性检测模块、视觉特征确定模块、语义类别确定模块、相似度度量模块、图像库显著性检测模块以及训练模块。

查询图像显著性检测模块,用于通过对包含显著对象的查询图像进行显著性检测,确定所述查询图像的显著对象所在的区域;视觉特征确定模块,用于确定所述查询图像的显著对象所在的区域的视觉特征;语义类别确定模块,用于确定所述查询图像的显著对象的语义类别;相似度度量模块,用于将所述查询图像的显著对象的视觉特征与图像库中相同语义类别的图像的显著对象的视觉特征进行相似度度量,确定所述图像库中与所述查询图像的相似度大于相似度阈值的图像。

可选地,图像库显著性检测模块,用于对图像库中的每个图像进行显著性检测,确定图像库中的每个图像的显著对象所在的区域;训练模块,用于通过对每个图像的显著对象所在的区域进行训练得到网络分类器,所述网络分类器用于确定图像中显著对象所属的语义类别。

可以理解的是,图2所示的图像检索系统可以包括更多或者更少的部件,各部件的功能可参见图1、图3所示的方法实施例,在此不做赘述。

图3为本发明实施例提供另一种基于图像显著对象的图像检索方法的流程图;包括如下步骤:

s1:从图像库中选取样本图像训练深度网络分类器,本发明选用卷积神经网络对样本图像进行训练,经典的卷积神经网络有alexnet网络、lenet网络、googlenet网络、vgg网络和resnet网络,本实施例选用alexnet网络,将样本图像尺寸归一化到256×256后输入到网络训练,样本类别数为图像库图像所属语义类别数,得到网络分类器。

s2:输入一幅查询图像i,图像尺寸为m×n,本发明针对包含显著对象的图像数据,因此输入的查询图像包含显著对象。

s3:对包含显著对象的查询图像进行显著性检测,得到图像显著图s。然后基于图像显著图自动分割出显著对象所在的区域。

其中,对图像进行多尺度下的显著性检测,图像多尺度是由图像金字塔实现,常用的金字塔结构有高斯金字塔、拉普拉斯金字塔和小波金字塔等,本实施例选用高斯金字塔得到多尺度图像,本实施例的多尺度为三层尺度,即l=3。

对每一层尺度下的图像,对图像进行超像素分割,分割后的每一块为一个超像素,本实施例通过计算每一个超像素与周边邻近超像素的色彩对比度和空间对比度得到该尺度下的显著图sl,然后将每层所得的显著图融合得到最终显著图显著图像素s(x,y)与原始查询图像像素i(x,y)一一对应,显著图像素的灰度值表示对应原始查询图像像素的显著度。

通过得到的图像显著图s,我们使用自适应阈值分割得到图像显著对象所在区域,其中m和n为显著图s的长宽值,(x,y)为像素点坐标。显著对象所在区域即s(x,y)=1对应的区域,图像像素i(x,y)在r、g、b三个颜色通道的灰度值保持不变,背景即s(x,y)=0对应的区域,图像像素i(x,y)的灰度值置为零。

s4:计算查询图像显著对象所在区域的视觉特征,常用的视觉特征包括色彩特征、纹理特征、关键点特征(例如sift特征)等,本实施例选用基本的hsv直方图特征、颜色矩特征和颜色相关图作为图像颜色特征,gabor变换特征和小波矩特征作为纹理特征。

在hsv颜色空间,图像像素被划分到8×2×2的等量空间c中,其中不考虑s(x,y)=0对应的背景像素,计算公式为:

其中,h(c)表示hsv直方图特征,i(x,y)代表像素(x,y)的hsv值,m和n分别为图像的长宽,c为等量空间c中的某一单元,δ[·]用来判别像素值是否属于当前单元,hsv颜色空间下,图像颜色直方图特征长度为32。

颜色矩特征分别由颜色均值和标准差获取,我们分别从r、g、b三个颜色通道计算颜色均值和标准差,获取长度为6的颜色矩特征,计算公式如下:

颜色相关图可以描述颜色的空间相关性,计算公式为:

其中,pr为一种表示相关性的符号,ic(x),ic(y)是图像中灰度值为c(x),c(y)的像素的总和,c(x),c(y)为显著对象中两种不同的颜色,x,y∈{1,2,...,n},k∈{1,2,...,d},n是颜色系列总数,d是像素间的最大距离。|p1-p2|是像素p1与p2之间的距离。本实施例在计算颜色特征时,为了降低特征计算复杂度,采用颜色自相关图,也就是只计算每幅图像中具有相同灰度值像素的空间关系,其中不考虑s(x,y)=0的背景像素,颜色自相关特征维度为64。

本实施例计算显著对象gabor变换纹理特征,为了充分获取各个尺度和方向上的纹理特征,我们选用的gabor变换滤波器包括四个尺度:0.05、0.1、0.2和0.4,包括六个相同间隔的不同方向,这样就得到了多尺度多方向的滤波器组,然后计算各个尺度下不同方向子带系数的均值和标准差,用均值和标准差代表系数的边缘分布并构建纹理特征向量。

把分割出的显著对象所在区域彩色图像转变为灰度图像,对其中背景区域进行灰度均值填充以弱化分割边界处的纹理。本实施例滤波器尺度为fm,方向子带数为fn,设wmn(,x)y为第m层第n个方向子带上坐标为(x,y)的子带系数,其中m=1,2,k,fm,n=1,2...,fn,则对应子带上均值μmn和标准差σmn的计算公式为:

通过上述公式计算出均值和标准差之后,得到显著对象的纹理特征向量为:

ftexture=(μ11,σ11,μ12,σ12,...,μfmfn,σfmfn)

另外,由于小波矩特征的平移旋转和尺度不变性,本实施例还计算了图像的小波矩特征,最终获取图像显著对象所在区域的总特征维度为190维,以此作为图像的特征描述子。

s5:将步骤s3所得的显著对象图像输入到由步骤s1训练所得的网络分类器中,其中图像尺寸归一化到256×256,得到查询图像显著对象的语义类别。

s6:对待检索图像库中所有图像进行步骤s3~s5的操作,获取图像库中所有图像的视觉特征和语义类别库。

s7:基于查询图像语义类别将待检索的图像库目标范围缩小到同语义类别图像,将查询图像特征与图像库中同类别的图像特征进行相似性度量,返回与查询图像视觉特征相似的图像集合。

其中,相似性度量方式选用特征距离度量方式,常用的特征距离计算方式有:相关距离(correlation)、余弦距离(cosine)、曼哈顿距离(cityblock)、欧氏距离(euclidean)、明可夫斯基距离(minkowski)和切比雪夫距离(chebychev)等,本实施例选用相关距离度量方式计算图像相似度,计算公式为a=[a1,a2,...,an]为查询图像特征,而b=[b1,b2,...,bn]是图像库中某幅图像的特征。

本发明通过分割出图像显著对象,提取显著对象所在区域的视觉特征作为图像特征描述子,避免背景信息的干扰。另外通过深度网络获取查询图像中显著对象的语义类别信息,过滤掉返回的不同语义类别图像,缩小目标检索范围,提高图像检索性能。

图4为本发明实施例提供另一种基于图像显著对象的图像检索系统的结构示意图,如图所示,包括离线模块和在线模块:

离线模块包括以下子模块:分类器训练子模块和特征库建库子模块。

分类器训练子模块,用于训练深度网络分类器。本实施例选用卷积神经网络对样本图像进行训练确定语义类别,经典的卷积神经网络有alexnet网络、lenet网络、googlenet网络、vgg网络和resnet网络,本实施例选用alexnet网络,将样本图像尺寸归一化到256×256后输入到网络训练,样本类别数为图像库图像所属类别数,得到网络分类器。

特征库建库子模块,用于构建待检索的图像特征库和类别库。对图像库中的图像进行显著性检测后得到图像显著图,基于显著图使用自动阈值分割出图像显著对象所在区域,然后基于显著对象所在区域计算图像视觉特征,包括颜色特征和纹理特征,得到图像特征库。另外,将图像库输入到训练好的分类器,得到图像类别库。

在线检索模块包括以下子模块:在线输入子模块、类别判定子模块、特征计算子模块以及检索输出子模块。

在线输入子模块,用于输入查询图像,其中查询图像包含显著对象。

类别判定子模块,用于判断查询显著对象的类别,使用离线训练好的分类器判别查询图像显著对象类别。

特征计算子模块,用于分割出查询图像显著对象区域,并计算图像显著对象的视觉特征。其中图像显著图是基于多尺度显著性检测模型得到,基于显著图使用自动阈值分割出图像显著对象,然后计算显著对象所在区域的颜色和纹理特征得到查询图像特征向量。

检索输出子模块,基于查询图像语义类别将待检索的图像库目标范围缩小到同语义类别图像,然后利用相关距离度量方式计算查询图像显著对象特征与图像库中同语义类别图像特征的相似度,返回并输出显示与查询图像相似的图像集合。

可以理解的是,图4所示的图像检索系统可以包括更多或者更少的部件,各部件的功能可参见图1、图3所示的方法实施例,在此不做赘述。

综上所述,针对包含显著对象的图像数据,本发明实施例提供了一种基于显著对象的图像检索方法和系统,通过自动分割出显著对象保留图像显著对象并计算特征,消除背景信息干扰,另外本发明利用训练所得深度网络分类器,获取查询图像语义类别,进行同类别图像匹配检索,缩小语义鸿沟,提升图像检索准确度。

以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1