获取图像的紧凑全局特征描述子的方法及图像检索方法

文档序号:6378852阅读:228来源:国知局
专利名称:获取图像的紧凑全局特征描述子的方法及图像检索方法
技术领域
本发明实施例涉及计算机领域,尤其涉及一种获取图像的紧凑全局特征描述子的方法及图像检索方法。
背景技术
随着智能终端的发展,移动视觉搜索应用越来越多。当前,基于智能终端的图像检索方法包括1)在移动客户端提取图像的局部特征描述子;2)对提取到的局部特征描述子进行压缩;3)通过网络将压缩后的局部特征描述子传输给服务器,以使服务器根据局部特征描述子在服务器的数据库中进行查找,并将查找的结果发送至移动客户端。然而,上述图像检索方法的局部特征压缩以及建立倒排等索引文件的计算量较高,特别地,图像检索方法中获取的局部特征描述子占用较大的空间,由此,根据当前的网·络带宽,移动客户端存在无法较快地将局部特征描述子发送至服务器的问题。另外,由于局部特征描述子占用的较大的空间,故服务器根据移动客户端传送的局部特征描述子查找匹配的过程也非常迟缓,进而严重影响了检索系统的查询响应时间,降低了查询效率。此外,现有技术还提出一种利用全局视觉特征进行图像检索的方法,该方法在提取全局特征描述子的过程中,所使用的特征降维方法和描述子压缩方法需要大量的存储空间用于存储降维矩阵和量化表等,在内存较低的移动终端上无法实现,同时,全局特征描述子的长度为固定长度,其无法应用于各种检索条件下,进而影响图像搜索的性能。

发明内容
针对上述缺陷,本发明实施例提供一种获取图像的紧凑全局特征描述子的方法及图像检索方法。一方面,本发明实施例提供一种获取图像的紧凑全局特征描述子的方法,包括获取图像的至少一个局部特征描述子,所述至少一个局部特征描述子形成一集合;根据局部特征描述子的选择方式,从所有的局部特征描述子中选取一个或多个局部特征描述子,所述选取的一个或多个局部特征描述子组成所述集合的第一子集;将所述第一子集中的局部特征描述子进行降维,获得降维后的局部特征描述子;根据预设的第一规则,将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子;将所述全局特征描述子进行数据压缩,得到所述图像的紧凑全局特征描述子;其中,所述全局特征描述子的字节大小可根据所述第一规则中的参数值的变化而变化,相应地,在所述全局特征描述子的字节大小变化时,所述紧凑全局特征描述子的字节大小也相应变化。可选地,将所述第一子集中的局部特征描述子进行降维,获得降维后的局部特征描述子,包括
采用降维矩阵对所述第一子集中的局部特征描述子进行降维,获得降维后的局部特征描述子;其中,所述降维矩阵为采用降维方式训练预设的第一图像数据集之后得到的矩阵。可选地,所述根据预设的第一规则,将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子,包括根据Fisher向量生成规则,对所述降维后的局部特征描述子进行转换,得到累积梯度向量集合,并由所述累积梯度向量集合中的累积梯度向量构造第一 Fisher向量;以及根据Fisher向量稀疏性判别规则,对所述累积梯度向量集合进行处理,并生成用于表达所述图像视觉特征的全局特征描述子。可选地,所述Fisher向量生成规则包括离线步骤和在线步骤。·相应地,根据Fisher向量生成规则,对所述降维后的局部特征描述子进行转换,得到累积梯度向量集合,并由所述累积梯度向量集合中的累积梯度向量构造第一 Fisher向量,包括所述Fisher向量生成规则的离线步骤包括训练预设的第二图像数据集得到用于产生Fisher向量的概率分布模型,所述概率分布模型是由M个独立的概率密度函数线性叠加得到的,其中,M为大于等于I的自然数;所述Fisher向量生成规则的在线步骤包括根据所述概率分布模型中的每一概率密度函数,将每一所述降维后的局部特征描述子转换为梯度向量,得到针对所述每一概率密度函数的梯度向量集合;针对所述每一概率密度函数的梯度向量集合,求所有所述梯度向量的平均值,得到每一概率密度函数对应的累积梯度向量。所述概率分布模型的M个概率密度函数各自对应的所述累积梯度向量组成累积梯度向量集合,并由所述累积梯度向量集合中的累积梯度向量构造第一 Fisher向量。所述Fisher向量稀疏性判别规则为基于方差的稀疏性判别规则,或者基于概率的稀疏性判别规则;相应地,所述根据Fisher向量稀疏性判别规则,对所述累积梯度向量集合进行处理,并生成用于表达所述图像视觉特征的全局特征描述子,包括获取所述累积梯度向量集合中的每一所述累积梯度向量的所有维度的值的方差;将所有累积梯度向量的所述方差按照从大到小依次排序,选取排序中前K个方差对应的所述累积梯度向量,将选取的K个所述累积梯度向量组成用于表达所述图像视觉特征的全局特征描述子;或者,针对所述概率分布模型中的每一概率密度函数求得每一所述降维后的局部特征描述子对应的概率值,所述概率值构成所述每一概率密度函数的概率值集合;若概率密度函数的所述概率值集合中的最大概率值大于预设的第一阈值,则选取所述概率密度函数;
将选取的所述概率密度函数对应的所述累积梯度向量保留,并将所有保留的所述累积梯度向量组成用于表达所述图像视觉特征的全局特征描述子。可选地,所述将所述全局特征描述子进行数据压缩,得到所述图像的紧凑全局特征描述子,包括采用二进制数值表示所述全局特征描述子中各维度的数值,若全局特征描述子中某一维度的数值为正数,则二进制数值为I ;若全局特征描述子中某一维度的数值为负数和零,则二进制数值为O。由上述技术方案可知,本发明实施例的获取图像的紧凑全局特征描述子的方法,通过选取图像的所有局部特征描述子中的部分局部特征描述子,对选取的局部特征描述子降维,并将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子,进而对全局特征描述子进行数据压缩,得到图像的紧凑全局特征描述子。上述方法获取的紧凑全局特征描述子利用了图像视觉特征的统计特性,更加紧凑并具有可伸缩性,解决了现·有技术中内存较低的移动终端上空间不足的缺陷。另一方面,本发明实施例提供一种采用紧凑全局特征描述子生成比特流的方法,包括如上任一所述的获取图像的紧凑全局特征描述子的方法,以及,还包括根据预设的的第一规则和全局特征描述子、紧凑全局特征描述子生成用于表达图像视觉特征的比特流。可选地,所述比特流包括头部和非头部,所述第一规则中Fisher向量生成规则的离线步骤包括训练预设的第二图像数据集得到用于产生Fisher向量的概率分布模型,所述概率分布模型是由M个独立的概率密度函数线性叠加得到的,其中,M为大于等于I的自然数;相应地,根据预设的第一规则和全局特征描述子、紧凑全局特征描述子生成用于表达图像视觉特征的比特流,包括所述比特流的头部的维度与所述概率分布模型中的概率密度函数的个数相同,且所述概率分布模型中的一概率密度函数对应所述比特流的头部的一维度;若所述概率分布模型中的一概率密度函数对应的累积梯度向量用于组成所述全局特征描述子,则与所述概率密度函数对应的所述比特流的头部的相应维度的数值为1,否则为0 ;将所述紧凑全局特征描述子组成所述比特流的非头部。由上述技术方案可知,本发明实施例的采用紧凑全局特征描述子生成比特流的方法,通过选取图像的所有局部特征描述子中的部分局部特征描述子,对选取的局部特征描述子降维,并将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子,进而对全局特征描述子进行数据压缩,得到图像的紧凑全局特征描述子,进而生成表达图像全局视觉特征的比特流。上述方法获取的比特流占用空间非常小,解决了现有技术中网络带宽限制时图像检索能力低下的问题。第三方面,本发明实施例提供一种基于比特流进行图像匹配的方法,包括如上任一所述的采用紧凑全局特征描述子生成比特流的方法,以及,还包括根据目标图像的比特流的头部和待匹配图像的比特流的头部,确定所述目标图像的全局特征描述子和所述待匹配图像的全局特征描述子是否包含相同的概率密度函数对应的累积梯度向量;若包含,则分别从目标图像的比特流的非头部与待匹配图像的比特流的非头部中取出二者共同使用的概率密度函数对应的累积梯度向量经数据压缩后生成的全部比特位;计算从目标图像的比特流的非头部取出的所述全部比特位和从待匹配图像的比特流的非头部取出的所述全部比特位之间的基于汉明距离的相似度;若所述基于汉明距离的相似度大于预置的第二阈值,则判定目标图像与待匹配图像匹配,否则不匹配。由上述技术方案可知,本发明实施例的基于比特流进行图像匹配的方法,通过选 取图像的所有局部特征描述子中的部分局部特征描述子,对选取的局部特征描述子降维,并将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子,进而对全局特征描述子进行数据压缩,得到图像的紧凑全局特征描述子,进而生成表达图像视觉特征的比特流,所述比特流的特点是可以对不同字节大小的比特流进行比较,实现了图像匹配过程中的互操作,增加了图像匹配过程的灵活性。第四方面,本发明实施例提供一种图像检索方法,包括客户端采用如上任一所述的采用紧凑全局特征描述子生成比特流的方法获取用于表达目标图像视觉特征的比特流,以及,还包括所述客户端将所述目标图像的全局视觉特征的比特流传输至服务器;所述服务器根据上述任一所述的采用紧凑全局特征描述子生成比特流的方法获取用于表达所述服务器内图像库中任一图像视觉特征的比特流;所述服务器将所述目标图像的比特流与所述服务器内的图像库中任一图像的比特流进行比较,获取前Q个与目标图像的比特流的基于汉明距离的相似度最大的服务器内的图像库中图像的比特流;所述服务器选择性地对所述前Q个基于汉明距离的相似度最大的服务器内的图像库中图像的比特流对应的图像进行后期处理;所述服务器将经过所述后期处理获得的服务器内的图像库中图像发送至所述客户端。可选地,所述服务器将所述目标图像的比特流与所述服务器内的图像库中任一图像的比特流进行比较,获取前Q个与目标图像的比特流的基于汉明距离的相似度最大的服务器内的图像库中图像的比特流,包括所述服务器根据所述目标图像的比特流的头部和所述服务器内的图像库中的任一图像的比特流的头部,确定所述目标图像的全局特征描述子和所述服务器内的图像库中的任一图像的全局特征描述子是否包含相同的概率密度函数对应的累积梯度向量;若包含,则从目标图像的比特流的非头部与所述服务器内的图像库中相应图像的比特流的非头部中取出二者共同使用的概率密度函数对应的累积梯度向量经数据压缩生成的全部比特位;计算从目标图像的比特流取出的所述全部比特位和从所述服务器内的图像库中相应图像的比特流取出的所述全部比特位之间的基于汉明距离的相似度;
获取前Q个与目标图像的比特流的基于汉明距离的相似度最大的服务器内的图像库中图像的比特流。由上述技术方案可知,本发明实施例的图像检索方法,通过选取图像的所有局部特征描述子中的部分局部特征描述子,对选取的局部特征描述子降维,并将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子,进而对全局特征描述子进行数据压缩,得到图像的紧凑全局特征描述子,进而生成表达图像视觉特征的比特流并发送至服务器,以使服务器查找相似的图像。上述方法可以在内存消耗和可伸缩性上满足不同图像搜索应用的需求,并且能够进一步提升图像搜索和匹配的性能,能更好地应用于基于移动终端的图像搜索。



为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作一简单地介绍,显而易见地下面附图只是本发明的一些实施例的附图,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得同样能实现本发明技术方案的其它附图。图I为本发明一实施例提供的获取图像的紧凑全局特征描述子的方法的流程示意图;图2至图5为本发明另一实施例提供的获取图像的紧凑全局特征描述子的方法的流程示意图;图6和图7为本发明另一实施例提供的采用紧凑全局特征描述子生成比特流的方法的流程示意图;图8为本发明一实施例提供的基于比特流进行图像匹配的方法的流程示意图;图9为本发明一实施例提供的获取图像的紧凑全局特征描述子的装置的结构示意图;图10为本发明一实施例提供的比特流生成装置的结构示意图;图11为本发明一实施例提供的图像检索系统的结构示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明的技术方案进行清楚、完整地描述。显然,下述的各个实施例都只是本发明一部分的实施例。基于本发明下述的各个实施例,本领域普通技术人员即使没有作出创造性劳动,也可以通过等效变换部分甚至全部的技术特征,而获得能够解决本发明技术问题,实现本发明技术效果的其它实施例,而这些变换而来的各个实施例显然并不脱离本发明所公开的范围。图I示出了本发明一实施例提供的获取图像的紧凑全局特征描述子的方法的流程示意图,如图I所示,本实施例中的获取图像的紧凑全局特征描述子的方法如下所述。需要说明的是,本实施例中的紧凑全局特征描述子可以是在任一设备上进行,本实施例不限制其执行主体为客户端还是服务器。101、获取图像的至少一个局部特征描述子,所述至少一个局部特征描述子形成一
举例来说,上述提及的图像可以是任意一幅图像,如,该图像可以是具有文件的照片,或者是手绘的图片,油画图像,从视频中截取的帧,地标照片、或者物品照片等,本实施例不限定上述图像的类型和图像的内容。特别地,获取图像的至少一个局部特征描述子的方式为现有的方式,举例来说,上述的局部特征描述子可为尺度不变描述子(Scale Invariant Feature Transform,简称SIFT),或者,上述的局部特征描述子可为快速鲁棒的尺度不变特征描述子(Speeded UpRobust Features,简称SURF),或其他局部特征描述子。应了解的是,SIFT或SURF的提取方式可为现有的提取方式,本实施例不再详述。通常,SIFT的维度为128维,SURF的维度为64维。102、根据局部特征描述子的选择方式,从所有的局部特征描述子中选取一个或多个局部特征描述子,所述选取的一个或多个局部特征描述子组成所述集合的第一子集。举例来说,若图像的局部特征描述子的总数为1000个,则可以选取300个局部特征描述子组成第一子集。另外,若图像的局部特征描述子的总数为150个,则可以将150个局部特征描述子
组成第一子集。可选地,如下图2中所举例的图像的局部特征描述子的选择方式。103、将所述第一子集中的局部特征描述子进行降维,获得降维后的局部特征描述子。104、根据预设的第一规则,将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子。105、将所述全局特征描述子进行数据压缩,得到所述图像的紧凑全局特征描述子;其中,所述全局特征描述子的字节大小可根据所述第一规则中的参数值的变化而变化,紧凑全局特征描述子的字节大小也会相应变化。由上述技术方案可知,本发明实施例的获取图像的紧凑全局特征描述子的方法,通过选取图像的所有局部特征描述子中的部分局部特征描述子,对选取的局部特征描述子降维,并将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子,进而对全局特征描述子进行数据压缩,得到图像的紧凑全局特征描述子。上述方法获取的紧凑全局特征描述子利用了图像视觉特征的统计特性,更加紧凑并具有可伸缩性,解决了现有技术中内存较低的移动终端上空间不足的缺陷。图2示出了本发明另一实施例提供的获取图像的紧凑全局特征描述子的方法的流程示意图,在上述图I所示的实施例的基础上,在本实施例中,上述步骤102可包括如下的子步骤1021至子步骤1023。本实施例中对于一幅图像,提取一个以上SIFT,从所有SIFT中选取包含N个SIFT的子集,所述子集中的SIFT用于后续的全局特征描述子的生成使用,其中N大于O。本实施例中N为300。需要注意的是,当上述图像提取的SIFT的个数小于N时,则选取图像的所有SIFT作为子集中的元素。
1021、分别对若干匹配图像对和非匹配图像对提取所述SIFT。其中,匹配图像对是指包含同一个物体或同一个场景的两幅图像,非匹配图像对是指包含不同物体或不同场景的两幅图像。这些匹配图像对和非匹配图像对不包括上述步骤101中的待执行操作的图像。1022、通过统计,获得所述SIFT的不同特性在正确匹配的SIFT和误匹配SIFT中的概率分布;其中,不同特性可以包括,如尺度、方向、高斯差分的峰值、到图像中心的距离等。1023、基于上述概率分布,计算当步骤101中的待执行操作的图像的SIFT的各个特性分别处于某一取值范围时,所述SIFT正确匹配的概率,根据所述概率从步骤101中的待执行操作的图像的所有SIFT中选取一个或多个SIFT。其中,假设所述SIFT的不同特性统计独立,所述SIFT正确匹配的概率为基于不同·特性计算的SIFT正确匹配的概率的乘积,并以此作为选取SIFT子集中的元素的依据。在实际应用中,也可以采用其他局部特征描述子的选择方法,不限于上述举例的步骤1021至步骤1023。需要说明的是,若干匹配图像对和非匹配图像对与待生成紧凑全局特征描述子的图像是不同的。特别地,上述步骤1021和步骤1022是可以预先获取的,即离线获取然后存储在设备中的。图3示出了本发明另一实施例提供的获取图像的紧凑全局特征描述子的方法的流程示意图,在上述图I所示的实施例的基础上,在本实施例中,上述步骤103可包括如下的子步骤1031。103、将所述第一子集中的局部特征描述子进行降维,获得降维后的局部特征描述子,包括1031、采用降维矩阵对所述第一子集中的局部特征描述子进行降维,获得降维后的局部特征描述子;其中,所述降维矩阵为采用降维方式训练预设的第一图像数据集之后得到的矩阵。举例来说,降维方式可以是主成分分析、线性判别分析等方式,其中主成分分析方式可以参考 “ Jolliffe, I. T. (1986). Principal Component Analysis. Springer-Verlag.pp. 487. ”中所公开的内容。本发明的实施例中,降维方式可主要采用主成分分析方式。需要说明的是,上述的第一图像数据集不包括上述步骤101中提及的用于生成紧凑全局特征描述子的图像。进一步地,在图2所示的实施例的基础上,上述的103的子步骤可为如下的图中未示出的子步骤1031’。1031’,利用降维矩阵分别对选取的N个SIFT进行降维,将SIFT的维度从128维降至32维。本发明的实施例中,降维方式可主要采用主成分分析方式。需要注意的是,不同的局部特征描述子的维度可能不同。特别地,可以将不同的局部特征描述子选择降至不同的维度,该维度由上述的降维矩阵决定。上述仅为举例说明,本实施例不对其进行限定。在本实施例中,对选取的第一子集中的局部特征描述子降维的目的在于,可以减小生成的图像的全局特征描述子的维度,进而可以减小最终生成的图像的紧凑全局特征描述子的维度;进一步地,通过降维操作,可以消除选取的第一子集中的局部特征描述子中的冗余信息,进而提升图像搜索和匹配的性能。图4示出了本发明另一实施例提供的获取图像的紧凑全局特征描述子的方法的流程示意图,在上述图I所示的实施例的基础上,在本实施例中,上述步骤104可包括如下的子步骤1041和1042。104、根据预设的第一规则,将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子,包括1041、根据Fisher向量(Fisher Vector)生成规则,对所述降维后的局部特征描 述子进行转换,得到累积梯度向量集合,并由所述累积梯度向量集合中的累积梯度向量构造第一 Fisher向量。1042、根据Fisher向量稀疏性判别规则,对所述累积梯度向量集合进行处理,并生成用于表达所述图像视觉特征的全局特征描述子。举例来说,上述步骤1041中的所述Fisher向量生成规则可包括离线步骤和在线步骤其中,所述Fisher向量生成规则的离线步骤包括训练预设的第二图像数据集得到用于产生Fisher向量的概率分布模型,所述概率分布模型是由M个独立的概率密度函数线性叠加得到的,其中,M为大于等于I的自然数;所述Fisher向量生成规则的在线步骤包括根据所述概率分布模型中的每一概率密度函数,将每一所述降维后的局部特征描述子转换为梯度向量,得到针对所述每一概率密度函数的梯度向量集合;针对所述每一概率密度函数的梯度向量集合,求所有所述梯度向量的平均值,得到每一概率密度函数对应的累积梯度向量。所述概率分布模型的M个概率密度函数各自对应的所述累积梯度向量组成累积梯度向量集合,并由所述累积梯度向量集合中的累积梯度向量构造第一 Fi sher向量。在实际应用中,利用第二图像数据集,可离线训练用于产生Fisher向量的概率分布模型。举例来说,概率分布模型可为高斯混合模型。当然,实际应用中的概率分布模型也可以应用其他概率分布模型,不限于高斯混合模型。需要说明的是,上述的第二图像数据集也不包括上述步骤101中提及的用于生成紧凑全局特征描述子的图像。当然,上述的第一图像数据集和上述的第二图像数据集可以相同,也可以不同。此外,Fisher向量生成规则可以参考“Florent Perronnin, ChristopherDance(2007). Fisher Kernels on Visual Vocabularies for Image Categorization,CVPR. ”所公开的内容,本实施例通过采用Fisher向量生成规则构造第一 Fisher向量。针对上述的步骤1042中的Fisher向量稀疏性判别规则,该处的Fisher向量稀疏性判别规则可为基于方差的稀疏性判别规则,或者Fisher向量稀疏性判别规则可为基于概率的稀疏性判别规则。相应地,若Fisher向量稀疏性判别规则可为基于方差的稀疏性判别规则,则上述步骤1042可具体包括如下的图中未示出的步骤10421和10422。10421、获取所述累积梯度向量集合中的每一所述累积梯度向量的所有维度的值的方差;10422、将所有累积梯度向量的所述方差按照从大到小依次排序,选取排序中前K个方差对应的所述累积梯度向量,将选取的K个所述累积梯度向量组成用于表达所述图像视觉特征的全局特征描述子。相应地,若Fisher向量稀疏性判别规则可为基于概率的稀疏性判别规则,则上述步骤1042可具体包括如下的图中未示出的步骤10421’和10422’。
10421’、针对所述概率分布模型中的每一概率密度函数求得每一所述降维后的局部特征描述子对应的概率值,所述概率值构成所述每一概率密度函数的概率值集合;10422’、若概率密度函数的所述概率值集合中的最大概率值大于预设的第一阈值,则选取所述概率密度函数;将选取的所述概率密度函数对应的所述累积梯度向量保留,并将所有保留的所述累积梯度向量组成用于表达所述图像视觉特征的全局特征描述子。需要说明的是,上述Fisher向量稀疏性判别规则中的稀疏性是指第一 Fisher向量的大部分维度对于表达图像的面向检索的区分力的作用不大时,称这样的第一 Fisher向量是稀疏的。另外,上述的第一Fisher向量可为本领域所述的自适应Fisher向量,自适应是指根据图像视觉特征的统计特性生成Fisher向量,本发明实施例中为描述方便,在某些地方使用第一 Fisher向量,在某些实施例中使用自适应Fisher向量,该处的第一 Fisher向量和自适应Fisher向量是一致的,只是叫法不同。为进一步详细描述上述的步骤104,在其他实施例中,上述的步骤104可包括如下的子步骤利用第二图像数据集训练高斯混合模型,所述高斯混合模型将用于为步骤101中的图像生成自适应Fisher向量,具体包括S01、通过第二图像数据集训练得到的高斯混合模型的参数集合为\,A包括M个
高斯分量的参数,其中包括混合权重[W1,......,WM]、均值向量[i! i,......, Um]和标准差S02、目标图像X可以表示为包含N个所述降维后的SIFT的集合,即X ={xt, t=l. . . N},xt 为第 t 个降维后的 SIFTJI^gS d。本实施例中,N=300,d=32。S03、用对数似然函数L(X| A)表示目标图像,如式⑴所示,lAX\X) = log / (A' U) = log / (.v; |/)⑴其中入为高斯混合模型的参数集合=为高斯混合模型的似然函数,Pi (xt I X )为第i个高斯分量的概率密度函数。S04、对数似然函数L(X| X)对第i个高斯分量的均值向量求偏导,得到第i个高斯分量的累积梯度向量Sf,如式(2)所示,Y dL(X\X) I ^rN ,Jxt - fj,)S,=」^ = lU ^
、.li 十'、CTi J(2 J 其中,Wi为第i个高斯分量的混合权重,U i为第i个高斯分量的均值向量,O i为第i个高斯分量的标准差Jr(i)=P(n ^为在第i个高斯分量产生第t个降维后的SIFT Xt的概率。S05、将128个高斯分量各自对应的累积梯度向量依次连接起来,得到所述自适应Fisher 向量。举例来说,在另一应用场景中,接续前述的SOl至S05之后的步骤如S06和S07 S06、基于方差的稀疏性判别规则,对于自适应Fisher向量,计算每个高斯分量的累积梯度向量所有维度的值的方差;S07,将所有方差按照从大到小依次排序,选取前K个方差较大的高斯分量的累积梯度向量,K大于I ;将所述选取的高斯分量的累积梯度向量拼接成可伸缩的全局特征描述子,即用于表达所述图像视觉特征的全局特征描述子。需要了解的是,若所述高斯分量的累积梯度向量所有维度的值方差较小(趋近于0),则该所述累积梯度向量对于表达图像的面向搜索的区分力的作用很小。该种Fisher向量稀疏性判别规则的优势是可以针对不同应用场景下对性能的不同要求生成可伸缩的全局特征描述子,进而提高图像搜索和匹配的效率。举例来说,在另一应用场景中,第二种是基于高斯分量下产生所述降维后的SIFT的概率的稀疏性判别规则,具体的,对最大概率Hiaxc^t彡N Yt (i)设置阈值,并将计算第i个闻斯分量的累积梯度向量gf的公式(2)做如下更改
X sl(x\x)臟尽=其中,T为预置阈值。在不同应用场景下可以通过修改所述预置阈值生成可伸缩的全局特征描述子。需要了解的是,在统计意义上,第i个高斯分量下产生所有所述降维后的SIFT的最大概率越大,第i个高斯分量的累积梯度向量所有维度的值的方差就越大。因此,两种规则产生的结果基本一致。图5示出了本发明另一实施例提供的获取图像的紧凑全局特征描述子的方法的流程示意图,在上述图I所示的实施例的基础上,在本实施例中,上述步骤105可包括如下的子步骤1051和1052。105、将所述全局特征描述子进行数据压缩,得到所述图像的紧凑全局特征描述子,包括1051、采用二进制数值表示所述全局特征描述子中各维度的数值,若全局特征描述子中某一维度的数值为正数,则二进制数值为I ;
1052、若全局特征描述子中某一维度的数值为负数和零,则二进制数值为O。本实施例中可采用最简单的二值化(Binarizing)方法,对所述可伸缩的全局特征描述子进行数据压缩;例如,若可伸缩的全局特征描述子某一维度的值为非负值,则将对应位置为1,否则将对应位置为O。在实际应用中,也可以采用其他将实数向量二值化的方法,如采用哈希映射函数
在一种优选的实现场景中,获取图像的紧凑全局特征描述子的方法可包括上述的步骤101—步骤1021—步骤1022—步骤1023—步骤1031—步骤1041—步骤1042—步骤1051—步骤 1052。或者,上述的步骤1031可采用1031’代替;或者,上述的步骤1042可采用10421’、10422’代替;或者,上述的步骤1042可采用10421、10422代替;或者,上述的步骤1041—步骤1042可采用SOl至S07代替。由上述图2至图5所示的技术方案可知,本实施例所述的方法,通过根据局部特征描述子的统计特性选择具有判决力的局部特征描述子,并采用主成分分析方法对选取的局部特征描述子进行降维,利用降维后的局部特征描述子生成图像的自适应Fisher向量,根据Fisher向量的稀疏性对自适应Fisher向量进行进一步压缩,进而得到可伸缩的全局特征描述子,最终通过对全局特征描述子二值化得到紧凑全局特征描述子。本实施例提供的面向搜索的全局特征描述子,可以满足不同应用对全局特征描述子字节大小的要求,并且能够进一步提升图像搜索和匹配的性能,减少内存的消耗,能更好地应用于基于移动设备的图像搜索。另外,本实施例提供的可伸缩的全局视觉特征描述子,可以在不同字节大小的全局特征描述子之间进行互操作,具有更好的灵活性。图6示出了本发明另一实施例提供的采用紧凑全局特征描述子生成比特流的方法的流程示意图,如图6所示,本实施例中的采用紧凑全局特征描述子生成比特流的方法如下所述。601、获取图像的至少一个局部特征描述子,所述至少一个局部特征描述子形成一
隹A
口 O举例来说,上述提及的图像可以是任意一幅图像,如,该图像可以是具有文件的照片,或者是手绘的图片,油画图像,从视频中截取的帧,地标照片、或者物品照片等,本实施例不限定上述图像的类型和图像的内容。特别地,获取图像的至少一个局部特征描述子的方式为现有的方式,举例来说,上述的局部特征描述子可为尺度不变描述子(Scale Invariant Feature Transform,简称SIFT),或者,上述的局部特征描述子可为快速鲁棒的尺度不变特征描述子(Speeded UpRobust Features,简称SURF),或其他局部特征描述子。应了解的是,SIFT或SURF的提取方式可为现有的提取方式,本实施例不再详述。通常,SIFT的维度为128维,SURF的维度为64维。602、根据局部特征描述子的选择方式,从所有的局部特征描述子中选取一个或多个局部特征描述子,所述选取的一个或多个局部特征描述子组成所述集合的第一子集。举例来说,若图像的局部特征描述子的总数为1000个,则可以选取300个局部特征描述子组成第一子集。另外,若图像的局部特征描述子的总数为150个,则可以将150个局部特征描述子
组成第一子集。可选地,如图2中所举例的图像的局部特征描述子的选取方式。603、将所述第一子集中的局部特征描述子进行降维,获得降维后的局部特征描述子。可选地,如图3中所举例的获取降维后的局部特征描述子的内容。604、根据预设的第一规则,将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子。
·
可选地,如图4中所举例的获取全局特征描述子的内容。605、将所述全局特征描述子进行数据压缩,得到所述图像的紧凑全局特征描述子;其中,所述全局特征描述子的字节大小可根据所述第一规则中的参数值的变化而变化,紧凑全局特征描述子的字节大小也会相应变化。可选地,如图5中所举例的获取紧凑全局特征描述子的内容。606、根据预设的第一规则和全局特征描述子、紧凑全局特征描述子生成用于表达图像视觉特征的比特流。由上述实施例可知,本实施例的采用紧凑全局特征描述子生成比特流的方法,通过选取图像的所有局部特征描述子中的部分局部特征描述子,对选取的局部特征描述子降维,并将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子,进而对全局特征描述子进行数据压缩,得到图像的紧凑全局特征描述子,进而生成表达图像全局视觉特征的比特流。上述方法获取的比特流占用空间非常小,解决了现有技术中网络带宽限制时发送有限特征导致服务端图像检索能力低下的问题。在一种应用场景中,上述的步骤602可具体采用图2中所示的步骤1021、步骤1022和步骤1023实现。在第二种应用场景中,上述的步骤603可具体采用图3所示的步骤1031实现。或者,可选地,步骤603可具体采用上述实施例中举例的步骤1031’实现。在第三种应用场景中,上述的步骤604可具体采用图4所示的步骤1041和步骤1042实现。或者,可选地,步骤604可具体采用步骤1041和步骤10421、步骤10422实现;或者,可选地,步骤604可具体采用步骤1041和步骤10421’、步骤10422’实现;在一种更优选的实现方式中,步骤604可具体采用步骤SOl至步骤S07来实现。在第四种应用场景中,上述的步骤605可具体采用步骤1051和步骤1052来实现。图7示出了本发明另一实施例提供的采用紧凑全局特征描述子生成比特流的方法的流程示意图,在图7所示的基础上,在本实施例中,上述步骤606可包括如下的子步骤6061至子步骤6063。所述比特流包括头部和非头部,所述第一规则中Fisher向量生成规则的离线步骤包括训练预设的第二图像数据集得到用于产生Fisher向量的概率分布模型,所述概率分布模型是由M个独立的概率密度函数线性叠加得到的,其中,M为大于等于I的自然数;606、根据预设的第一规则和全局特征描述子、紧凑全局特征描述子生成用于表达图像视觉特征的比特流,包括6061、所述比特流的头部的维度与所述概率分布模型中的概率密度函数的个数相同,且所述概率分布模型中的一概率密度函数对应所述比特流的头部的一维度;6062、若所述概率分布模型中的一概率密度函数对应的累积梯度向量用于组成所述全局特征描述子,则与所述概率密度函数对应的所述比特流的头部的相应维度的数值为1,否则为O。也就是说,比特流的头部由若干0、1组成,其维度等于概率分布模型中概率密度函数的个数,每一个概率分布模型的概率密度函数对应比特流头部的一位,如果该概率密度函数对应的累积梯度向量被用于拼接成可伸缩的全局特征描述子,那么比特流头部的相应位置成I,否则置成O。
6063、将所述紧凑全局特征描述子组成所述比特流的非头部。图8示出了本发明另一实施例提供的基于比特流进行图像匹配的方法的流程示意图,如图8所示,本实施例中的基于比特流进行图像匹配的方法如下所述。801、获取图像的至少一个局部特征描述子,所述至少一个局部特征描述子形成一
口 O举例来说,上述提及的图像可以是任意一幅图像,如,该图像可以是具有文件的照片,或者是手绘的图片,油画图像,从视频中截取的帧,地标照片、或者物品照片等,本实施例不限定上述图像的类型和图像的内容。特别地,获取图像的至少一个局部特征描述子的方式为现有的方式,举例来说,上述的局部特征描述子可为尺度不变描述子(Scale Invariant Feature Transform,简称SIFT),或者,上述的局部特征描述子可为快速鲁棒的尺度不变特征描述子(Speeded UpRobust Features,简称SURF),或其他局部特征描述子。应了解的是,SIFT或SURF的提取方式可为现有的提取方式,本实施例不再详述。通常,SIFT的维度为128维,SURF的维度为64维。802、根据局部特征描述子的选择方式,从所有的局部特征描述子中选取一个或多个局部特征描述子,所述选取的一个或多个局部特征描述子组成所述集合的第一子集。举例来说,若图像的局部特征描述子的总数为1000个,则可以选取300个局部特征描述子组成第一子集。另外,若图像的局部特征描述子的总数为150个,则可以将150个局部特征描述子
组成第一子集。可选地,如图2中所举例的图像的局部特征描述子的选取方式。803、将所述第一子集中的局部特征描述子进行降维,获得降维后的局部特征描述子。可选地,如图3中所举例的获取降维后的局部特征描述子的内容。804、根据预设的第一规则,将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子。可选地,如图4中所举例的获取全局特征描述子的内容。805、将所述全局特征描述子进行数据压缩,得到所述图像的紧凑全局特征描述子;
其中,所述全局特征描述子的字节大小可根据所述第一规则中的参数值的变化而变化,紧凑全局特征描述子的字节大小也会相应变化。可选地,如图5中所举例的获取紧凑全局特征描述子的内容。806、根据预设的第一规则和全局特征描述子、紧凑全局特征描述子生成用于表达图像视觉特征的比特流。可选地,如图7中所举例的生成比特流的内容。807、根据目标图像的比特流的头部和待匹配图像的比特流的头部,确定所述目标图像的全局特征描述子和所述待匹配图像的全局特征描述子是否包含相同的概率密度函数对应的累积梯度向量。808、若包含,则分别从目标图像的比特流的非头部与待匹配图像的比特流的非头部中取出二者共同使用的概率密度函数对应的累积梯度向量经数据压缩后生成的全部比特位。809、计算从目标图像的比特流的非头部取出的所述全部比特位和从待匹配图像的比特流的非头部取出的所述全部比特位之间的基于汉明距离的相似度。本实施例中,基于汉明距离的相似度的计算方法为目标图像的所述全部比特位与待匹配图像的所述全部比特位中能够对应到同一概率密度函数的比特位子段之间做异或操作,并计算异或操作结果中值为I的比特位的个数,记为目标图像的所述比特位子段与待匹配图像的所述比特位子段之间的汉明距离;用预先学习的距离权重乘以所述比特位子段之间的汉明距离,得到所述比特位子段之间的加权汉明距离;其中,距离权重是通过机器学习方法基于若干匹配图像对和非匹配图像对学习得到的,或者根据经验设置的;将所述目标图像的全局特征描述子与所述待匹配图像的全局特征描述子共同使用的所有概率密度函数对应的所述比特位子段之间的加权距离累加,并做归一化操作,得到所述基于汉明距离的相似度,如式(3)所示,
权利要求
1.一种获取图像的紧凑全局特征描述子的方法,其特征在于,包括 获取图像的至少一个局部特征描述子,所述至少一个局部特征描述子形成一集合;根据局部特征描述子的选择方式,从所有的局部特征描述子中选取一个或多个局部特征描述子,所述选取的一个或多个局部特征描述子组成所述集合的第一子集; 将所述第一子集中的局部特征描述子进行降维,获得降维后的局部特征描述子;根据预设的第一规则,将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子; 将所述全局特征描述子进行数据压缩,得到所述图像的紧凑全局特征描述子; 其中,所述全局特征描述子的字节大小可根据所述第一规则中的参数值的变化而变 化;相应地,在所述全局特征描述子的字节大小变化时,所述紧凑全局特征描述子的字节大小也相应变化。
2.根据权利要求I所述的方法,其特征在于,将所述第一子集中的局部特征描述子进行降维,获得降维后的局部特征描述子,包括 采用降维矩阵对所述第一子集中的局部特征描述子进行降维,获得降维后的局部特征描述子; 其中,所述降维矩阵为采用降维方式训练预设的第一图像数据集之后得到的矩阵。
3.根据权利要求I所述的方法,其特征在于,所述根据预设的第一规则,将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子,包括 根据Fisher向量生成规则,对所述降维后的局部特征描述子进行转换,得到累积梯度向量集合,并由所述累积梯度向量集合中的累积梯度向量构造第一 Fisher向量;以及根据Fisher向量稀疏性判别规则,对所述累积梯度向量集合进行处理,并生成用于表达所述图像视觉特征的全局特征描述子。
4.根据权利要求3所述的方法,其特征在于, 所述Fisher向量生成规则包括离线步骤和在线步骤; 相应地,根据Fisher向量生成规则,对所述降维后的局部特征描述子进行转换,得到累积梯度向量集合,并由所述累积梯度向量集合中的累积梯度向量构造第一 Fisher向量,包括 所述Fisher向量生成规则的离线步骤包括 训练预设的第二图像数据集得到用于产生Fisher向量的概率分布模型,所述概率分布模型是由M个独立的概率密度函数线性叠加得到的,其中,M为大于等于I的自然数;所述Fisher向量生成规则的在线步骤为 根据所述概率分布模型中的每一概率密度函数,将所述每一降维后的局部特征描述子转换为梯度向量,得到针对每一概率密度函数的梯度向量集合; 针对每一概率密度函数的梯度向量集合,求所有所述梯度向量的平均值,得到每一概率密度函数对应的累积梯度向量; 所述概率分布模型的M个概率密度函数各自对应的所述累积梯度向量组成累积梯度向量集合,并由所述累积梯度向量集合中的累积梯度向量构造第一 Fisher向量。
所述Fisher向量稀疏性判别规则为基于方差的稀疏性判别规则,或者基于概率的稀疏性判别规则;相应地,所述根据Fisher向量稀疏性判别规则,对所述累积梯度向量集合进行处理,并生成用于表达所述图像视觉特征的全局特征描述子,包括 获取所述累积梯度向量集合中的每一所述累积梯度向量的所有维度的值的方差;将所有累积梯度向量的所述方差按照从大到小依次排序,选取排序中前K个方差对应的所述累积梯度向量,将选取的K个累积梯度向量组成用于表达所述图像视觉特征的全局特征描述子; 或者, 针对所述概率分布模型中的每一概率密度函数求得每一所述每一降维后的局部特征描述子对应的概率值,所述概率值构成所述每一概率密度函数的概率值集合; 若概率密度函数的所述概率值集合中的最大概率值大于预设的第一阈值,则选取该概率密度函数; 将选取的所述概率密度函数对应的所述累积梯度向量保留,并将所有保留的所述累积梯度向量组成用于表达所述图像视觉特征的全局特征描述子。
5.根据权利要求I所述的方法,其特征在于,所述将所述全局特征描述子进行数据压缩,得到所述图像的紧凑全局特征描述子,包括 采用二进制数值表示所述全局特征描述子中各维度的数值,若全局特征描述子中某一维度的数值为正数,则二进制数值为I ; 若全局特征描述子中某一维度的数值为负数和零,则二进制数值为O。
6.一种采用紧凑全局特征描述子生成比特流的方法,其特征在于,包括如上权利要求I至5任一所述的方法,还包括 根据预设的第一规则和全局特征描述子、紧凑全局特征描述子生成用于表达图像全局视觉特征的比特流。
7.根据权利要求6所述的方法,其特征在于, 所述比特流包括头部和非头部,所述第一规则中Fisher向量生成规则的离线步骤包括 训练预设的第二图像数据集得到用于产生Fisher向量的概率分布模型,所述概率分布模型是由M个独立的概率密度函数线性叠加得到的,其中,M为大于等于I的自然数;相应地,根据预设的第一规则和全局特征描述子、紧凑全局特征描述子生成用于表达图像视觉特征的比特流,包括 所述比特流的头部的维度与所述概率分布模型中的概率密度函数的个数相同,且所述概率分布模型中的一概率密度函数对应所述比特流的头部的一维度; 若所述概率分布模型中的一概率密度函数对应的累积梯度向量用于组成所述全局特征描述子,则所述与该概率密度函数对应的所述比特流的头部的相应维度的数值为1,否则为O ; 将所述紧凑全局特征描述子组成所述比特流的非头部。
8.一种基于比特流进行图像匹配的方法,其特征在于,包括如上权利要求6至7任一所述的方法,还包括 根据目标图像的比特流的头部和待匹配图像的比特流的头部,确定所述目标图像的全局特征描述子和所述待匹配图像的全局特征描述子是否包含相同的概率密度函数对应的累积梯度向量; 若包含,则分别从目标图像的比特流的非头部与待匹配图像的比特流的非头部中取出二者共同使用的概率密度函数对应的累积梯度向量经数据压缩后生成的全部比特位;计算从目标图像的比特流的非头部取出的所述全部比特位和从待匹配图像的比特流的非头部取出的所述全部比特位之间的基于汉明距离的相似度; 若所述基于汉明距离的相似度大于预置的第二阈值,则判定目标图像与待匹配图像匹配,否则不匹配。
9.一种图像检索方法,其特征在于,包括 客户端采用如上权利要求6或7所述的方法获取目标图像视觉特征的比特流; 所述客户端将所述目标图像的比特流传输至服务器; 所述服务器根据上述权利要求6或7所述的方法获取用于表达所述服务器内图像库中任一图像视觉特征的比特流; 所述服务器将所述目标图像的比特流与所述服务器内的图像库中任一图像的比特流进行比较,获取前Q个与目标图像的比特流的基于汉明距离的相似度最大的服务器内的图像库中图像的比特流; 所述服务器选择性地对所述前Q个基于汉明距离的相似度最大的服务器内的图像库中图像的比特流对应的图像进行后期处理; 所述服务器将经过所述后期处理获得的服务器内的图像库中图像发送至所述客户端。
10.根据权利要求9所述的方法,其特征在于, 所述服务器将所述目标图像的比特流与所述服务器内的图像库中任一图像的比特流进行比较,获取前Q个与目标图像的比特流的基于汉明距离的相似度最大的服务器内的图像库中图像的比特流,包括 所述服务器根据所述目标图像的比特流的头部和所述服务器内的图像库中的任一图像的比特流的头部,确定所述目标图像的全局特征描述子和所述服务器内的图像库中的任一图像的全局特征描述子是否包含相同的概率密度函数对应的累积梯度向量; 若包含,则从目标图像的比特流的非头部与所述服务器内的图像库中相应图像的比特流的非头部中取出二者共同使用的概率密度函数对应的累积梯度向量经数据压缩生成的全部比特位; 计算从目标图像的比特流取出的所述全部比特位和从所述服务器内的图像库中相应图像的比特流取出的所述全部比特位之间的基于汉明距离的相似度; 获取前Q个与目标图像的比特流的基于汉明距离的相似度最大的服务器内的图像库中图像的比特流。
全文摘要
本发明提供一种获取图像的紧凑全局特征描述子的方法及图像检索方法,其中,该方法包括获取图像的至少一个局部特征描述子,从所有的局部特征描述子中选取一个或多个局部特征描述子,将所选取的局部特征描述子进行降维,获得降维后的局部特征描述子;根据第一规则,将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子;将全局特征描述子进行数据压缩,得到图像的紧凑全局特征描述子;其中,全局特征描述子的字节大小可根据第一规则中的参数值的变化而变化。上述方法获取的全局视觉特征更加紧凑并具有可伸缩性,解决了现有技术中内存较低的移动终端上空间不足的缺陷。
文档编号G06K9/64GK102968632SQ20121039096
公开日2013年3月13日 申请日期2012年10月15日 优先权日2012年10月15日
发明者段凌宇, 林杰, 陈杰, 杨爽, 李冰, 黄铁军, 高文 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1