结合语义与视觉信息的长查询图像检索重排序算法

文档序号:6620767阅读:174来源:国知局
结合语义与视觉信息的长查询图像检索重排序算法
【专利摘要】本发明公开了一种结合语义与视觉信息的长查询图像检索重排序方法,其特征是按如下步骤进行:1.输入长查询语句获得初始返回列表;2.构建视觉词典;3.将长查询语句进行分割,提取视觉概念;4.由视觉概念分别获得各自的初始返回列表;5.提取文本特征和视觉特征;6.建立概率模型;7.语义相关性估计;8.视觉相关性估计;9.结合语义与视觉的相关性估计;10.重排序获得重排序结果。本发明能够充分利用图像特征信息,从而有效提高图像检索重排序的准确性。
【专利说明】结合语义与视觉信息的长查询图像检索重排序算法

【技术领域】
[0001]本发明属于信息检索【技术领域】,具体地说是一种结合语义与视觉信息的长查询图像检索重排序方法。

【背景技术】
[0002]21世纪是信息时代,伴随着互联网技术和网络共享服务的发展,网络上图像数据呈几何级数增长,图像的检索已经成为人们日常生活中必不可少的的一项活动。随着网络用户的检索行为越来越精确,查询词变的越来越复杂,复杂的长查询比简单查询能够表达更加特定而且精确的信息。然而,现有的网络搜索引擎对于长查询所返回的检索结果通常有着错误的排序。究其原因,主要是因为:首先,长查询由多个概念组成,这就进一步扩大了文本查询词与视觉内容之间的语义鸿沟。其次,由于长查询正样本的稀缺,导致基于模型的学习效果较差 。为了改善检索的性能以提高用户体验和满意度,在初始搜索结果上,结合图像特征信息进行检索结果重排序变成了一个热门研究点。
[0003]一般而言,图像的特征信息包括图像的文本信息和图像的视觉信息。现有的web图像搜索引擎,依赖于查询语句和文本描述之间确切的文本匹配,搜索返回的结果很容易令用户不满意。目前,大多数图像重排序算法采用视觉特征进行重排序,总结起来,可以分成下面两类算法:基于伪相关反馈和基于图的重排序。这两类重排序方法都依赖视觉特征进行重排序。但是许多研究指出,只使用图像视觉信息进行重排序不能取得令人满意的结果。同时,在使用长查询进行检索时,初始检索结果通常是不可靠的,即排在初始检索结果前面的图像与查询词相关性很低。


【发明内容】

[0004]为了克服现有技术的不足,本发明提出一种结合语义与视觉信息的长查询图像检索重排序算法,能够充分利用图像特征信息,从而有效提高图像检索重排序的准确性。
[0005]本发明为解决技术问题采用如下技术方案:
[0006]本发明一种结合语义与视觉信息的长查询图像检索重排序算法的特点是按如下步骤进行:
[0007]步骤1、在搜索引擎上,输入长查询语句Q进行图像检索,返回若干个长查询图像,选取所述长查询图像中排序为前N的长查询图像,由所述前N个长查询图像构成初始返回列表X = (X1, X2,…,Xu,…,XN},Xu表示在所述初始返回列表中第U个长查询图像,U表示所述长查询图像Xu在初始返回列表中的位置为第U个,U = O, I,…,N;
[0008]步骤2、利用爬虫工具获得唯一问答对,并利用词性标注器收集所述唯一问答对中的动词和名词,并去除所述动词和名词里的停用词,从而构建视觉词典;
[0009]步骤3、利用分割工具对所述长查询语句Q进行分割,获得若干语句块,并将每个语句块与所述视觉词典进行比较,选取包含有所述视觉词典中的动词或名词的语句块作为视觉概念;并由τ个视觉概念构成视觉概念集合C = {:q0,qi,…,qc,…,dH:} ;q。表示在所述视觉概念集合C中第c个视觉概念,c = O, I,…,τ -1 ;
[0010]步骤4、在搜索引擎上,分别对所述视觉概念集合C中的每个视觉概念进行图像检索,返回与每个视觉概念相对应的若干个视觉概念图像,选取所述视觉概念图像中排序为前L的视觉概念图像,由所述前L个视觉概念图像构成样本集合D = {(X0 ;q0), (X1 ;
Ql),…,(Xc >QC),…,(乂 τ-1 > Q τ -l) I ;且乂O — (XN+1) XN+2,…,XN+L),乂I — (XN+L+1, XN+L+2> …,XN+2L),Xc — (XN+cL+l,XN+cL+2>...,XN+cL+ ζ )...,XN+(c+1)l),X τ-1 — (XN+( τ -l)L+l> XN+( τ -l)L+2>...,XN+ τ l),表不与所述第c个视觉概念q。相对应的视觉概念图像集合;χΝ+&ζ表示以所述第c个视觉概念q。进行图像检索时所返回的第?个视觉概念图像;
[0011]步骤5、对所述N个长查询图像分别提取文本特征和视觉特征,获得长查询文本特征集合 = I;,...,:?;,...,!;'[和长查询视觉特征集合F=;
Ts:1 =KtlJ21--Jfj,--, tn >表示第u个长查询图像Xu的标签列表,并由η个标签构成,t μ表示第μ个标签;fu表示第u个长查询图像Xu的视觉特征;
[0012]对所述样本集合D提取视觉特征,分别获得与所述前L个视觉概念图像相对应的图像视觉特征;由所述图像视觉特征构成特征集合,…,,
^Xc — {/n+cL+I , /n+cL+2,…,fN+cL+?,…,}表示与所述第c个视觉概念q。相对应的视觉概念图像集合X。所提取的视觉特征;fN+cl+i表示以所述第c个视觉概念q。进行图像检索时所返回的第?个视觉概念图像%+&,相对应的图像视觉特征;
[0013]步骤6、利用式⑴建立概率模型Score (Q,X,,):

【权利要求】
1.一种结合语义与视觉信息的长查询图像检索重排序算法,其特征是按如下步骤进行: 步骤1、在搜索引擎上,输入长查询语句Q进行图像检索,返回若干个长查询图像,选取所述长查询图像中排序为前N的长查询图像,由所述前N个长查询图像构成初始返回列表X = (X1, X2,…,Xu,…,XN} ,Xu表示在所述初始返回列表中第U个长查询图像,U表示所述长查询图像Xu在初始返回列表中的位置为第U个,u = O, I, -,N ; 步骤2、利用爬虫工具获得唯一问答对,并利用词性标注器收集所述唯一问答对中的动词和名词,并去除所述动词和名词里的停用词,从而构建视觉词典; 步骤3、利用分割工具对所述长查询语句Q进行分割,获得若干语句块,并将每个语句块与所述视觉词典进行比较,选取包含有所述视觉词典中的动词或名词的语句块作为视觉概念;并由τ个视觉概念构成视觉概念集合C = {:q0,qi,…,q。,…,q^:} ;q。表示在所述视觉概念集合C中第c个视觉概念,c = O, I,…,τ -1 ; 步骤4、在搜索引擎上,分别对所述视觉概念集合C中的每个视觉概念进行图像检索,返回与每个视觉概念相对应的若干个视觉概念图像,选取所述视觉概念图像中排序为前L的视觉概念图像,由所述前L个视觉概念图像构成样本集合D = {(X0 ;q0), (X1吨),…,(Xc ;Qc),…,(X τ-1 ;q τ-1) };且 Χ(| — (XN+1,XN+2> …,XN+L) ? — (XN+L+1> XN+L+2> …,XN+2L) ? —(XN+cL+l,XN+cL+2>...,XN+cL+ ζ )...,XN+(c+1)l) ,^t-1 — (XN+( τ -1)L+l) XN+( τ -l)L+2>...,XN+ τ l),父。表不与所述第C个视觉概念q。相对应的视觉概念图像集合;ΧΝ+&ζ表示以所述第c个视觉概念q。进行图像检索时所返回的第(个视觉概念图像; 步骤5、对所述N个长查询图像分别提取文本特征和视觉特征,获得长查询文本特征集合τ和长查询视觉特征集合f =化,f2,…,fu,…,fN}; Tχ? =< …Λ,.._ A >表示第u个长查询图像Xu的标签列表,并由η个标签构成,t,表示第μ个标签;fu表示第u个长查询图像Xu的视觉特征; 对所述样本集合D提取视觉特征,分别获得与所述前L个视觉概念图像相对应的图像视觉特征;由所述图像视觉特征构成特征集合&,…,Fx ,Fxc — {.1n+cLM 5/n+cL+2 5* *' 5 f.N+cl^" s /at+(c+1)Z.j表示与所述第c个视觉概念q。相对应的视觉概念图像集合X。所提取的视觉特征;fN+cl+i表示以所述第C个视觉概念q。进行图像检索时所返回的第?个视觉概念图像%+&,相对应的图像视觉特征; 步骤6、利用式(I)建立概率模型Score (Q,χ,,):
式(I)中,P (q Lq)表示第C个视觉概念q。对于所述长查询语句Q的重要程度,P (q。I xu)表示第c个视觉概念q。与所述第u个长查询图像Xu的关联性; 步骤7、语义相关性估计: 步骤7.1、利用式(2)估计任意两个视觉概念之间的语义相关性:
Sim (qi; qj) = Simc。(q” q」)X Simwd (qi; q」)X Simwiki (qi; q」) (2)式⑵中,Simco(qi)qj)表示任意两个视觉概念%和q]之间的共发频率相似度,i,j e O, I,..., τ-l,并有:
式(3)中,I表示所述搜索引擎上所有的图像总数;Mqi)和f(q」)分别表示在所述搜索引擎上输入视觉概念1和q]后分别返回的视觉概念图像总数;f(qi,Qj)表示在所述搜索引擎上同时输入视觉概念Qi和q]后返回的图像总数; 式⑵中,Simwd(qi; qj)表示通过WordNet词典工具获得的任意两个视觉概念Qi和q」之间的相似度,并有:
式(4)中,#(?)表示使用视觉概念q」在所述WordNet词典中进行查询后,返回的查询结果中视觉概念Qi出现的次数-Mqj)表示使用视觉概念Qi在所述WordNet词典中进行查询后,返回的查询结果中视觉概念q]出现的次数;#{wordsqj )ι?(/表示使用视觉概念q]在所述WordNet词典中进行查询后,返回的查询结果的总字数;;表示使用视觉概念Qi在所述WordNet词典中进行查询后,返回的查询结果的总字数; 式(2)中,Simwiki (?,?)表示通过维基百科获得的任意两个视觉概念%和9」之间的相似度,并有:
式(5)中,#(?)表示使用视觉概念%在所述维基百科中进行查询后,返回的查询结果中视觉概念Qi出现的次数-Mqj)表示使用视觉概念%在所述维基百科中进行查询后,返回的查询结果中视觉概念q]出现的次数;#卜油9] L表示使用视觉概念q]在所述维基百科中进行查询后,返回的查询结果的总字数;表示使用视觉概念%在所述维基百科中进行查询后,返回的查询结果的总字数; 步骤7.2、利用式(6)获得所述长查询语句Q与第c个视觉概念q。之间的语义相关性G(qc,Q):
步骤7.3、利用式(7)获得第c个视觉概念q。与第u个长查询图像xu之间的相关性G (qc, xu):
式(7)中,\Τ j表示所述第u个长查询图像Xu的标签列表1;的基数; 步骤8、视觉相关性估计: 步骤8.1、利用式(8)获得所述长查询语句Q与第c个视觉概念q。之间的视觉相关性V(qc, Q):
式(8)中,|X|表示所述初始返回列表X的基数;IXcJ表示所述与所述第C个视觉概念q。相对应的视觉概念图像集合X。的基数;K(fN+cl+。fu)表示高斯相似函数,并有:
K(fN+cL+ ζ, fu) = exp (-1 I fN+cL+ ζ-fuI 12/ δ 2) (9) 式(9)中,δ为尺度参数; 步骤8.2、利用式(10)将所述第c个视觉概念q。与第u个长查询图像Xu之间的视觉相关性V (q。,xu)进一步分解:
式(10)中:χω表示样本集合D中任意一个视觉概念图像; 步骤8.3、基于马尔可夫随机游走算法,将所述N个长查询图像和τ L个视觉概念图像看做节点,建立对称K近邻图;则通过式(11)获得第Φ个节点和第Ψ个节点之间的连接权重W41 ψ:
式(11)中,NK (φ)表示通过欧式距离计算的第Ψ个节点的对称K近邻图的索引集;Nk (ψ)表示通过欧式距离计算的第Φ个节点的对称K近邻图的索引集;Φ、Ψ G (O, I,..., N+ τ L); 用A表示一步转移概率矩阵,所述一步转移概率矩阵A中的元素Αωυ表示从第ω个节点转移到第u个节点的概率,A_ = W_/2VW” ;则利用式(12)获得从第ω个节点出发经过s步转移在第u个节点处的概率Pslci (xu| χω):
Pslo (χ」χω) = [As] ωυ (12) 利用式(13)获得以所述任意一个视觉概念图像χω为起点经过s步停止在第u个长查询图像Xu处的条件概率Ptlls (χω |xu):
利用Pq(Xu) =Pq(Xv),将式(13)改写为:
步骤8.4、遍历所述样本集合D中的每一个视觉概念图像,获得任意一个视觉概念图像Χω与第C个视觉概念q。之间的相关性分数P(CIcJxu):
步骤9:结合语义与视觉的相关性估计: 步骤9.1、利用式(6)和式(8),获得第c个视觉概念q。和长查询语句Q之间的最终相关分数P (q。|Q):
P (qc Q) = αν (qc, Q) + (1- α ) G (qc, Q) (15) 式(12)中,α表示权衡语义与视觉对所述最终相关分数P(QcJQ)重要程度的参数,a e (O, I); 步骤9.2、利用式(7)和式(10),获得第c个视觉概念q。和第u个长查询图像Xu之间的最终相关分数P (QcJxu):
P (qc I xu) = β V (qc, xu) + (1- β ) G (qc, xu) (16) 式(13)中,β表示权衡语义与视觉对所述最终相关分数P(QcJxu)重要程度的参数,β e (O, I); 步骤10:根据式(I)所获得的概率模型Score (Q, xu)对N个长查询图像集合X进行重排序,从而获得所述N个长查询图像的重排序结果。
【文档编号】G06F17/30GK104077419SQ201410346066
【公开日】2014年10月1日 申请日期:2014年7月18日 优先权日:2014年7月18日
【发明者】洪日昌, 高鹏飞, 汪萌, 刘学亮, 郝世杰 申请人:合肥工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1