字典学习、视觉词袋特征提取方法及检索系统的制作方法

文档序号:6550752阅读:272来源:国知局
字典学习、视觉词袋特征提取方法及检索系统的制作方法
【专利摘要】本发明提供一种字典学习方法,包括:1)基于维度将图像的局部特征向量分为第一分段和第二分段;2)用多个局部特征向量的第一分段构造第一数据矩阵,用多个局部特征向量的第二分段构造第二数据矩阵;3)对第一数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第一分段进行稀疏编码的第一字典;对第二数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第二分段进行稀疏编码的第二字典。本发明还提供了基于上述两个字典对图像局部特征进行分段稀疏表示的视觉词袋特征提取方法和相应的检索系统。本发明能够大幅减少内存占用,降低词表训练时间和特征提取时间,特别适合应用于移动终端。
【专利说明】字典学习、视觉词袋特征提取方法及检索系统
【技术领域】
[0001]本发明涉及多媒体内容分析与检索【技术领域】,具体地说,本发明涉及一种字典学习、视觉词袋特征提取方法及检索系统。
【背景技术】
[0002]视觉搜索简单地说就是“以图搜图”。为实现视觉搜索,首先需要对大规模图像库提取特征建立索引库,在用户搜索时,对查询图像提取特征,在特征索引库中快速检索并按相关性(即相似度)排序,返回结果。这个结果是一个排序的库中图像列表,其中每个结果图像可能包含与查询图像相关、结合用户特征和搜索场景的关联信息。目前,面向PC的传统视觉搜索已经积累了大量算法和技术方案可供选择。然而,随着移动互联网的快速发展,人们对移动视觉搜索有了越来越高的需求。移动视觉搜索具有移动化、网络化和智能化等特点,它通过为用户提供“所见即所知”的新一代搜索服务,便捷地将身边现实世界的视觉对象关联至互联网信息世界的视觉对象,成为链接现实世界和信息世界的桥梁和纽带。图1示出了一种典型的移动视觉搜索的构架,它通过智能手机、平板电脑等移动终端获取现实世界中对象的图像或视频,然后进行特征提取,再通过移动互联网将所提取的特征传输至服务器,服务器基于大规模数据库进行大规模视觉搜索,再将搜索结果返回给移动终端,从而实现“所见即所知”的效果。例如在一个应用场景中,用手机拍摄一个古董,然后对所拍摄图片进行检索,即可快速便捷地获得该古董的名称、形状尺寸、历史典故、评论等相关信息,这极大地提升了用户体验,真正地实现了“所见即所知”的效果。可以说,移动视觉搜索极具想象空间,具有广阔的应用前景。
[0003]然而,移动视觉搜索还面临一系列需要克服的难点,主要体现在:
[0004](I)移动终端拍摄随意性较大,旋转缩放、内容删减和背景干扰、尤其是视角变化造成的仿射形变等因素往往导致查询图像与库图像之间存在严重的视觉形变,全局颜色、纹理等传统特征很难适用,因而需要研究更为鲁棒的局部特征提取方法。
[0005](2)面对无线网络环境的带宽有限、带宽波动、时延和获取等方面挑战,需要研究视觉查询的紧凑表示。发送图像的紧凑视觉签名,比传送整张图像更具优势,不仅可降低资费,且可避免不必要的大量上行数据传输造成的传输延迟,大幅提升用户体验。
[0006](3)移动终端的处理器性能、内存和电力资源有限,因此需要研究适合于移动终端的特征提取与表示算法,以满足实际应用中对移动终端内存占用、处理速度和精度的需求。
[0007]综上所述,围绕移动智能终端,针对视觉查询进行鲁棒特征提取和紧凑表示,在不损失基于原始图像的检索性能前提下,亟待突破特征提取速度慢、内存开销大、数据不紧致的瓶颈;这也是多媒体信号处理、图像分析与检索等多个交叉研究领域共同关注的问题。
[0008]视觉特征的鲁棒性、区分性和紧凑性和提取算法的高效性是保证移动视觉搜索系统精度的重要前提。由于前述移动终端拍摄的随意性造成的巨大视觉差异,对特征的鲁棒性提出了更高的要求,全局颜色、纹理等传统特征很难适用。局部特征是指从角点、边缘、斑块等局部显著结构的图像区块中提取的视觉特征。与图像分割产生的区域不同,局部区块允许互相重叠,而且在不同图像条件下检测到的局部区块具有很高的可重复性。局部特征对旋转平移、尺度缩放、光照变化、视角变化、物体运动、遮挡、裁剪等具有较好的鲁棒性,已成为近几年来的研究热点。
[0009]文 献 K.Mikolajczyk and C.Schmid.“A performance evaluat1n of localdescriptors,,, IEEE Transact1ns on Pattern Analysis and Machine Intelligence (ΤΡΑΜI),27(10):615-1630, 2005.对一些著名的局部区块检测算法和描述算法进行了比较和总结,并指出最好的描述子是SIFT描述子。它由Lowe在ICCV’99提出、2004年IJCV完善总结。SIFT描述子对图像尺度缩放、旋转变换和光照变化情况都能保持较好鲁棒性,并被证明是现有描述子中稳定性和区分性最好的局部特征描述子。但是SIFT描述子最大的缺陷是高维,存储和欧式距离的计算都成问题,对大规模检索,这构成性能的瓶颈。SIFT特征高达128维,传输每个SIFT特征都至少需要1024比特(8比特/维)。而一幅512X512的普通图像中提取的SIFT特征点数通常高达上千个,传输SIFT特征所需比特数甚至超过传输JPEG图像本身。因此,为了采用尽可能少的特征比特数传递尽可能多的查询图像信息,特征量化成为减少传输流量、降低网络延迟、和降低服务器端特征存储占用的重要手段。
[0010]文献B.Girod, V.Chandrasekhar, D.M.Chen, N.M.Cheung, R.Grzeszczuk, Y.Reznik, G.Takacs, S.S.Tsai, and R.Vedantham.“Mobile Visual Search”;IEEE Signal Processing Magazine,Special Issue on Media Search in MobileDevices, 28(4):61-76, July2011.指出:2003 年 J.Sivic 提出的视觉词袋(Boff, Bag ofVisual Words)特征量化方法目前基于内容图像检索中最为成功和广泛应用的方法。该方法借鉴文本检索领域的BoW方法,通过K-Means聚类将局部特征采用矢量量化(Vectorquantizat1n)为特征聚类的类别标号,即视觉关键词,避免了存储海量的图像特征,并避免了计算高维特征相似性所带来的时间开销,非常适合于大规模数据环境下的局部近似图像检索。但是,该在特征量化时产生了量化损失,降低了特征的区分性,影响了检索效果。
[0011]针对这一问题,近年来,研究者们普遍采取增大词表(字典)规模(即视觉关键词总数)的方法增强BoW的区分性。实践证明在视觉词表规模达到100,000以上时,具有良好的区分性,从而能够支持海量高维特征的低比特数存储。值得注意的是:Arandjelovic等最近基于对SIFT描述子进行I1归一化和求平方根,提出RootSIFT(可参考文件:Arandjelovic, R.and Zisserman, A., “Three things everyone should knowto improve object retrieval,,,In Proc.1EEE Conf.0n Computer Vis1n and PatternRecognit1n (CVPR),2012),分别在 0xford5K 和 105K、Paris6K 数据集上实现高达 0.929、
0.891,0.910(非软分配BoW)的检索平均精度MAP。
[0012]词表规模的增大给词表训练和特征量化带来了巨大的压力。学者们采用了多种层次结构对传统的K-Means聚类方法进行改进、以及各种近似最近邻搜索方法取代精确最近邻搜索,对词表训练和特征量化过程进行加速。例如:2006年Nister等提出层次聚类的HKM, 2007年Philbin等提出近似最近邻AKM,2010年Li等通过记录字典学习迭代的中间结果提出了 RAKM方法,2012年Avrithis年提出了近似混合高斯模型的AGM方法,2013年Mikulik等结合HKM和AKM方法构建了一个两层的字典(下文中简称Mikulik方案),每层字典的规模是8K,共有64M个视觉关键词。
[0013]然而,上述改进方法仍然需要大量的高维局部特征训练词表,存在词表训练非常耗时、词表内存占用大等问题。以构建IM维BoW为例,对于AKM方法,词表(1MX128)占内存高达512M ;对于二级的HKM方法,词表训练需要聚类1025次,生成1025个1024X 128维的词表(包含I个一级词表和1024个二级词表),占用内存也超过512M。而Mikulik方案的64M维层次化大词表,其占用内存高达32G,需要20台机器组成的机群训练一整天。同时,由于K-Means聚类集中倾向于数据高密度区域,使得有些特征显著但数据量少的区域被合并,这导致描述子的区分性极大下降。
[0014]综上所述,尽管大词表BoW在PC机视觉检索领域取得了很大的成功但是,目前所有大词表BoW方法都不能应用于计算资源受限的移动终端,最大的障碍是其存在词表占用内存过大问题。现有大词表BoW方法,IM维的词表(1MX128)占内存高达512M,即使手机内存能存放这么大的词表,内存载入和计算时间也是很大的问题。
[0015]因此,当前迫切需要一种内存占用少的基于大词表BoW的移动视觉搜索解决方案。

【发明内容】

[0016]本发明的任务是提供一种内存占用少的基于大词表BoW的移动视觉搜索解决方案。
[0017]本发明提供了一种字典学习方法,包括下列步骤:
[0018]I)基于维度将图像的局部特征向量分为第一分段和第二分段;
[0019]2)用多个局部特征向量的第一分段构造第一数据矩阵,其中,第一数据矩阵的每个列向量为训练集中一个局部特征向量的第一分段,用多个局部特征向量的第二分段构造第二数据矩阵,其中,第二数据矩阵的每个列向量为训练集中一个局部特征向量的第二分段;
[0020]3)对第一数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第一分段进行稀疏编码的第一字典;对第二数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第二分段进行稀疏编码的第二字典。
[0021]其中,所述步骤3)中,稀疏非负矩阵分解采用在线学习算法、MOD算法或者KSVD算法实现。
[0022]其中,所述步骤3)中,所述稀疏非负矩阵分解包括:基于组稀疏编码优化目标函数,求解使组稀疏编码优化目标函数最小化的用于对向量进行稀疏编码的字典及相应的稀疏编码系数矩阵。
[0023]其中,所述步骤3)中,所述组稀疏编码优化目标函数中加入了表达组内稀疏编码系数值差异的正则化项。
[0024]本发明还提供了一种基于前述的字典学习方法的视觉词袋特征提取方法,包括下列步骤:
[0025]I)从图像中提取局部特征点及其局部特征向量,并对该局部特征向量进行分段,得到相应的第一分段和第二分段;
[0026]2)基于第一字典,对当前局部特征向量的第一分段进行稀疏编码,得到相应的第一稀疏编码系数向量,基于第二字典,对当前局部特征向量的第二分段进行稀疏编码,得到相应的第二稀疏编码系数向量;[0027]3)根据第一稀疏编码系数向量和第二稀疏编码系数向量中的非零元素所对应的字典基元索引号,将当前局部特征向量分配到视觉词袋中对应的视觉关键词。
[0028]其中,所述步骤3)中,找出第一稀疏编码系数向量中最大非零元素所对应的字典基元索引号I1,以及第二稀疏编码系数向量中最大非零元素所对应的字典基元索引号12,根据索引号组合[IpI2]将当前局部特征向量分配到视觉词袋中对应的一个视觉关键词。
[0029]其中,所述步骤3)中,找出第一稀疏编码系数向量中最大的两个非零元素所对应的字典基元索引号I11和112,以及第二稀疏编码系数向量中最大的两个非零元素所对应的字典基元索引号I21和I22,根据索引号组合[In、I21],[In、I22],[I12>In]和[112、122]将当前局部特征向量软分配到视觉词袋中对应的四个视觉关键词。
[0030]其中,所述视觉词袋特征提取方法还包括步骤:
[0031]4)对于由第一稀疏编码系数向量中非零元素所对应的字典基元索引号Ia和第二稀疏编码系数向量中非零元素所对应的字典基元索引号Ib组成的索引号组合[Ia、Ib],令Index = IaXK+Ib,其中K为第二稀疏编码系数向量中元素的个数,用Index表示索引号组合[Ia、Ib]所对应的视觉关键词。
[0032]本发明还提供了一种基于前述的视觉词袋特征提取方法的检索方法,包括下列步骤:
[0033]I)对于查询图片,基于所述的视觉词袋特征提取方法,将其各个局部特征点分配到视觉词袋中对应的视觉关键词,并提取该查询图片的用于几何验证的元信息;
[0034]2)基于倒排索引进行特征匹配,进而进行几何一致性校验,获得查询结果;所述倒排索引基于视觉关键词建立,其中对于每个视觉关键词,记录包含该视觉关键词的图像的标识和该图像中该视觉关键词(即相应的局部特征点)用于几何验证的元信息。
[0035]其中,所述用于几何验证的元信息包括局部特征点的在图像中的位置、尺度和主方向等。
[0036]本发明还提供了一种基于前述的视觉词袋特征提取方法的检索系统,其特征在于,包括通过互联网连接的终端模块和服务端模块,
[0037]所述终端模块用于所述的视觉词袋特征提取方法将当前图像的各个局部特征向量分配到视觉词袋中对应的视觉关键词,并将所述包括视觉关键词信息的紧凑视觉签名发送至服务端模块;
[0038]所述服务端模块用于根据从移动终端模块接收到的所述紧凑视觉签名进行特征匹配,获得查询关联信息,并将该查询关联信息返回给终端模块。
[0039]其中,所述服务端模块还用于通过字典学习得到所述第一字典和所述第二字典。
[0040]与现有技术相比,本发明具有下列技术效果:
[0041]1、本发明能够大幅减少内存占用,缩短词表训练时间和特征提取时间,特别适合应用于移动终端。
[0042]2、本发明提供的面向局部特征匹配的协同字典学习算法能够帮助提高检索系统
的查全率。
[0043]3、本发明的软分配方法能够大幅提高视觉搜索的检索性能。
【专利附图】

【附图说明】[0044]以下,结合附图来详细说明本发明的实施例,其中:
[0045]图1示出了现有技术中一种典型的移动视觉搜索的构架;
[0046]图2示出了本发明一个实施例的二层聚类的一个示例;
[0047]图3示出了本发明一个实施例的一个字典学习过程的示例图;
[0048]图4示出了本发明一个实施例中基于第一字典和第二字典进行高维视觉词袋特征量化的示例图;
[0049]图5示出了本发明一个实施例中的图像高维视觉词袋特征量化的示意图;
[0050]图6示出了本发明一个实施例中的BoW软分配方法的示意图;
[0051]图7不出了本发明一个实施例的基于大词表BoW的移动视觉检索系统的不意图;
[0052]图8示出了本发明一个实施例的基于大词表BoW的移动视觉检索系统在400万ImageNet数据集上的检索效果图;
[0053]图9示出了本发明一个实施例的检索方法中一个倒排索引文档示意图。
【具体实施方式】
[0054]根据本发明的一个实施例,提出了一种基于分段稀疏编码的高维视觉词袋特征表示方法。视觉词袋特征表示是指采用矢量量化方法将图像的高维局部特征向量映射为大词表BoW中的视觉关键词,从而减少终端至服务器端的传输流量、降低网络延迟,以及降低服务器端特征存储占用。而本实施例的高维视觉词袋特征量化方法开创性地提出“小码表大词表”的思想,使得特征量化计算对终端内存的占用和耗时大幅减少,原创性地解决了目前现有方法因占用内存过大而不能用于移动终端的问题,从而使BoW广泛应用于移动视觉搜索成为可能。
[0055]本实施例采用了一种特殊的两层聚类方法,实现高维局部特征向量与大词表BoW之间的映射。本实施例中,将高维视觉局部特征向量分成两段,每一段分别对应于一个稀疏编码字典。以SIFT特征为例进行说明,SIFT特征共有128维,分段后可获得两个64维的分段,这两个64维的分段也可以看成两个64维的特征向量。为便于描述,本文中将特征向量的前半段称为特征向量第一分段,所对应的稀疏编码字典称为一级字典,将特征向量的前半段称为特征向量第二分段,所对应的稀疏编码字典称为二级字典。
[0056]图2示出了本实施例的二层聚类的一个示例。如图2所示,假设一级字典包括K个字典基元,那么基于一级字典的基元序号I1就可以映射为K个子类,即任意一个高维视觉局部特征均可以根据其特征向量第一分段的稀疏编码最大非零元对应的基元序号I1进行第一层分类。并且这个第一层可按序号I1分成K个一级子类。在每个一级子类下,再根据特征向量第二分段进行第二层分类,假设二级字典也包括K个字典基元,那么每个一级子类下还可以进一步划分为K个二级子类。这样,整个高维视觉局部特征能够映射为K2个二级子类,如果将每个二级子类标记为BoW中的一个视觉关键词,那么就能将一个高维视觉局部特征向量量化为具有K2规模的大词表BoW中的一个视觉关键词。
[0057]一级字典和二级字典均可利用已知的训练集采用基于稀疏编码和字典学习技术进行字典学习而获得。图3示出了一个字典学习过程的示例图,包括下列步骤:
[0058]I)对已知图像进行局部特征提取,获得图像中的局部特征点及其局部特征向量(描述子)。[0059]2)基于维度将每个局部特征向量分成第一分段和第二分段,从训练集中提取的所有局部特征点的特征向量第一分段组成第一数据矩阵,所有局部特征点的特征向量第二分段组成第二数据矩阵。参考图3,假设训练集的所有图像共提取出N个局部特征点,局部特征向量的维度为d,则第一数据矩阵中的行代表第I至第d/2维度,第一数据矩阵中的列代表第I至第N个局部特征点,第二数据矩阵中的行代表第d/2+l至第d维度,第二数据矩阵中的列代表第I至第N个局部特征点。在图3中,用PpP2、…、PnR表第一或第二数据矩阵的列向量。
[0060]3)对于第一数据矩阵,基于在线学习算法(Online Dict1nary Learning),进行稀疏非负矩阵分解(Sparse NMF),得到第一字典D1,对于第二数据矩阵,基于在线学习算法,进行稀疏非负矩阵分解,得到第二字典D2。字典学习采用稀疏非负矩阵分解(SparseNMF)进行字典学习,得到稀疏编码的字典。其中,在线学习算法可参考文献:J.Mairal,F.Bach, J.Ponce, and G.Sapiro, “Online learning for matrix factorizat1n and sparsecoding, ” Journal of Machine Learning Research (JMLR), 11:19 - 60, March2010.。
[0061]设JT = [\[表示由N个局部特征组成的第一或第二数据矩阵,Xi表示第i
个局部特征的特征向量分段。/) = [?^;...;?^]表示K个基元组成的字典,α为样本i的
稀疏编码^构成的系数矩阵,则图像的Sparse NMF分解可表示为:
[0062]X ^ a D, s.t.D > O, α > O
[0063]则D和α的求解可转化为优化问题:
【权利要求】
1.一种字典学习方法,其特征在于,包括下列步骤: 1)基于维度将图像的局部特征向量分为第一分段和第二分段; 2)用训练集中局部特征向量的第一分段作为列向量,构造第一数据矩阵,用训练集中局部特征向量的第二分段作为列向量,构造第二数据矩阵; 3)对第一数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第一分段进行稀疏编码的第一字典;对第二数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第二分段进行稀疏编码的第二字典。
2.根据权利要求1所述的字典学习方法,其特征在于,所述步骤3)中,稀疏非负矩阵分解采用在线学习算法、MOD算法或者KSVD算法实现。
3.根据权利要求2所述的字典学习方法,其特征在于,所述步骤3)中,所述稀疏非负矩阵分解包括:基于组稀疏编码优化目标函数,求解使组稀疏编码优化目标函数最小化的用于对向量进行稀疏编码的字典及相应的稀疏编码系数矩阵。
4.根据权利要求3所述的字典学习方法,其特征在于,所述步骤3)中,所述组稀疏编码优化目标函数中加入了表达组内稀疏编码系数值差异的正则化项。
5.一种基于权利要求1至4中任意一项所述的字典学习方法的视觉词袋特征提取方法,包括下列步骤: 1)从图像中提取局部特征点及其局部特征向量,并对该局部特征向量进行分段,得到相应的第一分段和第二分段; 2)基于第一字典,对当前局部特征向量的第一分段进行稀疏编码,得到相应的第一稀疏编码系数向量,基于第二字典,对当前局部特征向量的第二分段进行稀疏编码,得到相应的第二稀疏编码系数向量; 3)根据第一稀疏编码系数向量和第二稀疏编码系数向量中的非零元素所对应的字典基元索引号,将当前局部特征向量分配到视觉词袋中对应的视觉关键词。
6.根据权利要求5所述的视觉词袋特征提取方法,其特征在于,所述步骤3)中,找出第一稀疏编码系数向量中最大非零元素所对应的字典基元索引号I1,以及第二稀疏编码系数向量中最大非零元素所对应的字典基元索引号I2,根据索引号组合[I1、I2]将当前局部特征向量分配到视觉词袋中对应的一个视觉关键词。
7.根据权利要求5所述的视觉词袋特征提取方法,其特征在于,所述步骤3)中,找出第一稀疏编码系数向量中最大的两个非零元素所对应的字典基元索引号I11和112,以及第二稀疏编码系数向量中最大的两个非零元素所对应的字典基元索引号I21和I22,根据索引号组合[In、I21],[In、I22],[112、I11]和[112、I22]将当前局部特征向量软分配到视觉词袋中对应的四个视觉关键词。
8.根据权利要求7所述的视觉词袋特征提取方法,其特征在于,所述视觉词袋特征提取方法还包括步骤: 4)对于由第一稀疏编码系数向量中非零元素所对应的字典基元索引号Ia和第二稀疏编码系数向量中非零元素所对应的字典基元索引号Ib组成的索引号组合[Ia、Ib],令Index=IaXK+Ib,其中K为第二稀疏编码系数向量中元素的个数,用Index表示索引号组合[Ia、IJ所对应的视觉关键词。
9.一种基于权利要求5至8中任意一项所述的视觉词袋特征提取方法的检索方法,包括下列步骤: 1)对于查询图片,基于所述的视觉词袋特征提取方法,将其各个局部特征点分配到视觉词袋中对应的视觉关键词,并提取该查询图片的用于几何验证的元信息; 2)基于倒排索引进行特征匹配,进而进行几何一致性校验,获得查询结果;所述倒排索引基于视觉关键词建立,其中对于每个视觉关键词,记录包含该视觉关键词的图像的标识和在该图像中与该视觉关键词相对应的用于几何验证的元信息。
10.一种基于权利要求5至8中任意一项所述的视觉词袋特征提取方法的检索系统,其特征在于,包括通过互联网连接的终端模块和服务端模块; 所述终端模块用于基于权利要求5至8中任意一项所述的视觉词袋特征提取方法将当前图像的各个局部特征向量分配到视觉词袋中对应的视觉关键词,并将所述包括视觉关键词信息的紧凑视觉签名发送至服务端模块; 所述服务端模块用于根据从移动终端模块接收到的所述紧凑视觉签名进行特征匹配,获得查询关联信息, 并将该查询关联信息返回给终端模块。
【文档编号】G06F17/30GK104036012SQ201410287639
【公开日】2014年9月10日 申请日期:2014年6月24日 优先权日:2014年6月24日
【发明者】唐胜, 张勇东, 李锦涛, 徐作新 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1