基于随机化视觉词典组和上下文语义信息的目标检索方法

文档序号:6369465阅读:160来源:国知局
专利名称:基于随机化视觉词典组和上下文语义信息的目标检索方法
技术领域
本发明涉及一种基于随机化视觉词典组和上下文语义信息的目标检索方法。
背景技术
近年来,随着计算机视觉,特别是图像局部特征(如SIFT)和视觉词典法(BoVW,Bag of Visual Words)的飞速发展及应用,使得目标检索技术日趋实用化,并在现实生活产品中得到了广泛应用。如 Tineye是ー种面向网络的近似重复图像检索系统,GoogleGoggles则允许用户使用手机拍摄图片并检索出与图片中所包含目标的相关信息。BoVW方法是受文本检索领域词集方法启发而产生的,由于BoVW方法性能突出,目前已经成为目标检索领域的主流方法,但是它也存在一些开放性的问题。ー是算法的时间效率低及内存消耗大问题。BoVW方法涉及到大量的高维数据近邻查找问题,如在视觉词典生成阶段,传统的做法是采用K-Means算法对特征点聚类而得到的,而K-Means算法的每次迭代都需要将数据点分配到与之最近的聚类中心,以及视觉词汇直方图构建时需找到与图像的局部特征点最近的视觉单词等,其用于近邻查找的时间将随数据规模的増大急剧增加。相关文献表明K-Means算法只适用于生成较小规模的词典,当词典规模超过IO5时就难以解決。Nister等采用层次化K-Means算法HKM (Hierarchical K-Means)提高了量化和检索效率,在此基础上,Philbin等及Cao等人又米用近似K-means算法AKM(Approximate Κ-Means)针对大规模目标检索实现了进ー步优化。而为了提高检索效率,还常引入倒排文档结构(invertedfile),尽管如此,内存消耗依然是BoVW方法面临的主要问题之一,相关文献表明处理110万幅的图像仍要占用4. 3GB的内存。此外,K-Means及其改进算法(HKM,AKM等)不支持动态扩充,即它们生成的视觉词典与现有的图像训练数据是相关的,当加入新的图像时,需对新图像训练库的局部特征点重新聚类,生成新的视觉词典。ニ是视觉单词的同义性和歧义性问题。基于K-Means以及改进的聚类算法由于没有考虑特征点之间的空间关系,在生成词典时都会导致以下2个问题①聚类中心的分布不均匀特性,即在数据点密集空间得到的聚类中心偏多,而在数据点稀疏区域得到聚类偏少,由此会导致有多个视觉单词描绘同一图像区域的现象,即视觉词汇的同义性;②偏离聚类中心的数据点会使聚类中心发生偏移,导致视觉词汇的歧义性,即同一个视觉词汇描述的特征点之间存在很大的差异现象。对此,研究人员进行了诸多尝试,如Philbin等人提出了ー种软分配(soft-assignment)的视觉词汇分布直方图的构建方法,Gemert等进ー步验证了软分配方法对克服视觉单词同义性和歧义性问题的有效性,Wang等人在构建直方图时引入了一种QP分配(quadratic programming assignment)的策略进一步提高了匹配精度,较于传统的硬分配(hard-assignment),它们在一定程度上克服了同义性和歧义性问题,然而,这些方法都是建立在应用K-Means以及其改进的聚类算法产生初始视觉词典基础上的,未能有效地解决BoVW方法存在的效率问题。此外,为了更为准确的表达目标的信息,Hsiao等则利用相关信息反馈过滤噪声。三是当人エ界定的目标区域所包含的信息不能正确或不足以表达用户检索意图时就会造成语义鸿沟而不能得到理想的检索結果。主要表现为①矩形框只是目标区域的近似表示;因为目标图像具有不规则的形状,而矩形框是ー个简单的矩形,所以从中提取的特征会包含一些与查询目标不相关的信息。②在矩形框很小的情况下,所提取的特征则不足以表征目标信息,在检索的时候会出现ー些不相关的图像。此外,由于采用聚类算法生成视觉词典时存在量化误差,也会导致原有特征信息的丢失。为解决上述问题,研究人员作了许多尝试,如Jegou等提出了一种汉明切入HE (Hamming Embedding)技术,它利用ー个ニ进制向量标识特征点 的大概位置进而补充视觉单词信息量的不足,同时也证明几何验证方法(geometric verification)对提高检索准确度的有效性,但是由于其计算复杂度较高,故要对数据库中所有图像都进行几何验证处理是不现实的,它一般只用作对初始检索结果的重排序,故而在提高查准率的同时也降低了查全率。Philbin等又将查询扩展(QueryExpansion)从文本领域引入到目标检索,提高了查全率,它利用初始检索结果中正确匹配的图像信息,经多次迭代构建信息更为精确和丰富的目标模型。查询扩展技术虽然有效,却依赖于一定的初始查全率,并且一般要经多次迭代才能达到较好的效果,因此会极大的增加算法计算复杂度,影响系统实用性。精确欧氏位置敏感哈希(E2LSH,ExactEuclidean Locality Sensitive Hashing)是位置敏感哈希LSH (Locality Sensitive Hashing)在欧氏空间的ー种实现方案,能够实现快速的大規模高维数据近似近邻查找。其基本思想是利用ー组基于稳定分布的位置敏感函数对高维数据降维映射,确保原始空间中距离较近的点,经过映射操作后,能够以较大的概率哈希到同一个桶中,而相距较远的点哈希到同一个桶的概率很小。因此,借鉴该思想,可以采用E2LSH代替传统的K-Means及其改进算法对训练图像库的局部特征点进行聚类,生成一组随机化视觉词典,进而有效地避免多个单词描述同一图像区域和同一单词描述的特征点之间有很大差异的现象。同时,由于E2LSH具有一定的随机性,因此,在利用多个E2LSH完成特征与视觉单词的映射时可以实现特征点与多个距离相近的视觉单词之间的匹配,进ー步地克服视觉单词同义性和歧义性问题。而考虑到查询目标一般不会在图像中単独出现,因此,可以将目标区域周围的视觉信息看作目标的上下文语义相关信息而用来更好的表达目标内容,如图I所示,为目标上下文语义信息示意图,其中,“荷花”为用户界定的查询目标,其周围“荷叶”和“水面”包含的信息就能用来更好的表征目标内容,尤其是当视觉单词对“荷叶” “水面”概念敏感性更强时效果尤为明显。视觉词典法(BoVW,Bag of Visual Words)的产生及应用改善了目标检索的性能,但传统的BoVW方法具有时间效率低、内存消耗大以及视觉单词同义性和歧义性的问题,并且当人エ界定的目标区域所包含的信息不能正确或不足以表达用户检索意图时也不能得到理想的检索結果。

发明内容
本发明针对现有技术不足,提出一种基于随机化视觉词典组和上下文语义信息的目标检索方法,有效地解决了传统聚类算法及查询扩展技术的多次迭代带来的高运算复杂度,并较好地降低了人工界定的目标区域与用户检索意图之间的语义鸿沟,增强了目标的区分性。本发明所采用的技术方案
一种基于随机化视觉词典组和上下文语义信息的目标检索方法,首先,采用精确欧氏位置敏感哈希函数对训练图像库的局部特征点进行聚类,生成ー组支持动态扩充的随机化视觉词典组;其次,选取查询图像并用矩形框界定目标区域,然后根据Lowe的方法提取查询图像和图像数据库的SIFT特征并对其进行E2LSH映射,实现特征点与视觉单词的匹配;
然后,在语言模型的基础上,利用查询目标区域及其周围视觉単元的图像显著度,计算查询图像中各视觉单词的检索得分,构造包含目标上下文语义信息的目标模型;最后,将图像库的特征向量存为索引文件,并引入K-L散度对目标的语言模型与图像库中任ー图像的语言模型进行相似性度量,得到检索結果。所述的基于随机化视觉词典组和上下文语义信息的目标检索方法,对于每个哈希函数gi(i = 1,…,L),利用其分别对训练图像库的SIFT点进行哈希映射,空间中距离很近的点就会存入哈希表的同一个桶中,以每个桶中心代表一个视觉单词,则每个函数gi都能生成一个哈希表(即ー个视觉词典),那么,L个函数gl,…,&就能够生成ー个视觉词典组,其中,单个视觉词典生成的详细过程可描述如下(I)训练图像库的SIFT特征提取采用目标检索常用的数据库0Xford5K作为训练图像库I = {ん/2,···,/ド··,/Γ—ρ/Γ},检测出Z中所有图像的SIFT特征点,得到包含K个点的特征库X = {ηプ2,···ふ···み—i,な-},其中每个点A都是ー个128维的SIFT特征向量;(2) E2LSH降维映射对无中的每个SIFT点r,利用gi函数对其进行降维映射,得到k维的向量gi (r);(3) E2LSH桶哈希按式(3)和⑷分别计算SIFT点r的主哈希值K (gi (r))和次哈希值h2 (gi (r)):将主、次哈希值相同的点放入同一个桶中,生成哈希表T;=^f,V2(vW ■ 驚,略的、表示哈希表Ti的第k个桶,Ni为哈希表Ti中包含桶的个数;将每个桶的中心看作一个视觉单词,便得到视觉词典Wi = { Mf, Hf ,·■·, M'f ,···, Mf—丨,},其中 = bl,;(4)视觉单词过滤对于每个视觉词典Wi,包含数据点太少或太多的视觉单词所携带的信息往往不大,因此,在信息损失很小的前提下,可以将这些视觉单词滤除棹,为每个视觉词典都保留M个视觉单词,即呎=,wf,···,Kf,···,,}, z = l, I所述的基于随机化视觉词典组和上下文语义信息的目标检索方法,为有效地利用目标区域周围的视觉单元信息,构建包含上下文语义信息的目标模型,減少与用户检索意图之间的鸿沟在语言模型的基础上引入空间位置信息并利用目标周围的视觉单元估计查询图像中各视觉单词的检索意图得分,将查询图像表示为q = {q1,qb},其中ゲ=[(9,, A)]5 -Qb =[X1, Y11 Xr, yj分别表示整幅查询图像和由矩形框界定的目标区域,用= な表示图像库中的任ー图像,其中,^di分别表示查询图像q和图像d包含的视觉单词,Mq,Md*各自包含的视觉单词数目,Pi为视觉单词Qi在查询图像中所处位置,X1, Y1, Xr, I表示矩形框的上下左右边界;假设由矩形框界定目标区域的查询图像服从以下分布p(q \0Q) = p(q\qb | 0Q) ^Upiqi, Pi | 9Q)C5)
又查询图像中各单词相互独立,故有
权利要求
1.一种基于随机化视觉词典组和上下文语义信息的目标检索方法,其特征是 首先,采用精确欧氏位置敏感哈希函数对训练图像库的局部特征点进行聚类,生成一组支持动态扩充的随机化视觉词典组; 其次,选取查询图像并用矩形框界定目标区域,然后根据Lowe的方法提取查询图像和图像数据库的SIFT特征并对其进行E2LSH映射,实现特征点与视觉单词的匹配; 然后,在视觉语言模型的基础上,利用查询目标区域及其周围视觉単元的图像显著度,计算查询图像中各视觉单词的检索得分,构造包含目标上下文语义信息的目标模型; 最后,将图像库的特征向量存为索引文件,并引入K-L散度对目标的语言模型与图像库中任ー图像的语言模型进行相似性度量,得到检索結果。
2.根据权利要求I所述的基于随机化视觉词典组和上下文语义信息的目标检索方法,其特征是对于每个哈希函数gi(i = 1,…,L),利用其分别对训练图像库的SIFT点进行哈希映射,空间中距离很近的点就会存入哈希表的同一个桶中,以每个桶中心代表一个视觉单词,则每个函数gi都能生成一个哈希表,即ー个视觉词典,那么,L个函数gl,…,gL就能够生成一个视觉词典组,其中,单个视觉词典生成的详细过程可描述如下 (O训练图像库的SIFT特征提取采用目标检索常用的数据库0Xford5K作为训练图像库I = [A.ん…ス.,…,ム/ V I-, I,检测出I中所有图像的SIFT特征点,得到包含K个点的特征库宄=k,r2,…,1V·ゾ,其中每个点A都是ー个128维的SIFT特征向量; (2)E2LSH降维映射对无中的每个SIFT点r,利用gi函数对其进行降维映射,得到k维的向量g“r); (3)E2LSH桶哈希按式(3)和(4)分别计算SIFT点r的主哈希值Ii1 (gi (r))和次哈希值h2 Qi (r)):将主、次哈希值相同的点放入同一个桶中,生成哈希表T,·汰、、)“ ■■驚,(},ぐ表示哈希表Ti的第k个桶,Ni为哈希表T,中包含桶的个数;将每个桶的中心看作ー个视觉单词,便得到视觉词典K ニ·{Hf ,Hf ,···,<,…,<し<丨,其中*f =If ; (4)视觉单词过滤对于每个视觉词典Wi,包含数据点太少或太多的视觉单词所携帯的信息往往不大,因此,在信息损失很小的前提下,可以将这些视觉单词滤除掉,为每个视觉词典都保留M个视觉单词,即/ = 1,···』。
3.根据权利要求2所述的基于随机化视觉词典组和上下文语义信息的目标检索方法,其特征是在语言模型的基础上引入空间位置信息并利用目标周围的视觉单元估计查询图像中各视觉单词的检索意图得分,将查询图像表示为q= {ポ,め,其中ゲ=[钇P, ,qb=[X1, Y11 Xr, yj分别表示整幅查询图像和由矩形框界定的目标区域,用ゴ=[ゴ,]; 表示图像库中的任ー图像,其中,%,d,分别表示查询图像q和图像d包含的视觉单词,Mq, Md为各自包含的视觉单词数目,Pi为视觉单词Qi在查询图像中所处位置,X1, Y1, Xr, I表示矩形框的上下左右边界; 假设由矩形框界定目标区域的查询图像服从以下分布
4.根据权利要求3所述的基于随机化视觉词典组和上下文语义信息的目标检索,其特征是查询图像q与图像库中任一幅图像d间的相似性可由查询似然p(q|d)度量,则有
全文摘要
本发明涉及一种基于随机化视觉词典组和上下文语义信息的目标检索方法。首先采用精确欧氏位置敏感哈希函数对训练图像库的局部特征点进行聚类,生成一组支持动态扩充的随机化视觉词典组;然后选取查询图像并用矩形框界定目标区域,提取查询图像和图像数据库的SIFT特征并对其进行E2LSH映射,实现特征点与视觉单词的匹配;在语言模型的基础上利用查询目标区域及其周围视觉单元的图像显著度,计算查询图像中各视觉单词的检索得分,构造包含目标上下文语义信息的目标模型;最后将图像库的特征向量存为索引文件,并引入K-L散度对目标的语言模型与图像库中任一图像的语言模型进行相似性度量,得到检索结果。
文档编号G06F17/30GK102693311SQ20121016867
公开日2012年9月26日 申请日期2012年5月28日 优先权日2012年5月28日
发明者李弼程, 蔺博宇, 赵永威, 高毫林 申请人:中国人民解放军信息工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1