一种用于图像或视频搜索重排序的方法

文档序号:6366848阅读:299来源:国知局
专利名称:一种用于图像或视频搜索重排序的方法
技术领域
本发明涉及面向多媒体信息检索领域,特别涉及一种用于图像或视频搜索重排序的方法。
背景技术
随着信息技术的快速发展,图像和视频等多媒体数据大量涌现,成为人们获取信息的重要途径之一。图像或视频搜索重排序是根据初始的基于文本搜索结果结合其它的可利用的辅助信息训练排序模型,利用新的排序模型对检索结果重新排序的过程,其目的是为了改善检索的准确性以提高用户体验和满意度。利用标注信息进行图像或视频的重排序是目前主要的方法,其中标注信息的获取有多种途径,例如利用人工标注、伪相关反馈、隐相关反馈等。发明人在实现本发明的过程中,发现现有技术中存在以下不足现有技术中的基于标注的图像或视频搜索重排序方法通常对所提取出来的高维特征向量进行无监督的维数约简或者将图像或视频的相关性等级信息简单的作为类别标号信息进行有监督的维数约简,然而在图像或视频搜索重排序中图像或视频的类别标号并不能充分准确地描述图像与图像之间,或视频与视频之间的关系,进而使得训练出来的排序模型不够精确,使得检索精度较低,无法满足实际应用中的需要。

发明内容
本发明提供了一种用于图像或视频搜索重排序的方法,本发明提高了检索的精度,满足了实际应用中的多种需要,详见下文描述—种用于图像或视频搜索重排序的方法,所述方法包括以下步骤(I)搜索引擎中输入查询关键词进行搜索,获取基于文本的初始搜索结果S ;(2)根据所述初始搜索结果S提取不同模态下的特征向量,获取特征向量集合;(3)根据所述初始搜索结果S对样本进行标注,获取标注后样本集合;(4)对所述特征向量集合、所述标注后样本集合进行处理,获取新特征向量;(5)将标注后样本集合的新特征向量作为训练集,获取排序模型;(6)通过所述排序模型对特征向量集合的新特征向量进行排序,获取重排序后的最终结果。所述根据所述初始搜索结果S对样本进行标注,获取标注后样本集合具体为在所述初始搜索结果S中采用伪相关反馈或者人工标注等方法为每个相关性等级A、B、C标注k个样本,组成SA、SB、Sc三个标注样本集合,其余的为未标注样本集合。所述对所述特征向量集合、所述标注后样本集合进行处理,获取新特征向量具体为I)对特征向量集合进行中心化处理,获取中心化后特征向量集合;2)通过三个相关性等级A、B、C构建6个ηXη的零矩阵CM、CBB、Ccc, CAC、Cab, Cbc,对6个零矩阵进行赋值获取约束矩阵H ;
3)通过新特征矩阵V、Y'和所述约束矩阵H构成同模态矩阵Cxx、Cyy与模态间矩阵之;4)通过所述模态矩阵Cxx、Cyy与所述模态间矩阵Gy获取矩阵Z,对所述矩阵Z进行奇异值分解,获取矩阵U和V ;5)分别取所述矩阵U和V的前d列组成矩阵[U1, L ud], [V1, L vd] (d < min(p,q)),利用 %=[W;d,L ,Wxd] = C-f[u^ ud],Wy=[_wyl,L , Wyd] = CT^ [V1X vrf]计算变换矩阵 Wj[、Wy,将(Wx)tX'和(Wy)tY'作为新特征向量。所述通过三个相关性等级A、B、C构建6个η X η的零矩阵CM、CBB, Ccc, Cac, Cab, Cbc,对6个零矩阵进行赋值获取约束矩阵H具体为对于标注后样本集合中任意两个样本X' i、X,」,若X' i、x,
j) = I,同理若X' i e SA, X' j e Sc则Cac(i, j) = I,以此类推,所述约束矩阵H的计算公式如下H = E+ Y (CM+CBB + a Cab) - (I- Y ) (Ccc-Cac-Cbc),其中,参数Y用来权衡相关约束(CM+CBB + a Cab)与不相关约束(Ccc-Cac-Cbc)这两者的重要程度,参数Y的取值通常为
,E表示nXn的单位矩阵,α用来权衡相关性等级为A的样本与相关性等级为B的样本之间的相关程度,α的取值通常为
。所述Cxx = X' V T、Cyy = Y' V τ、Cv=X fiYr 0所述通过所述模态矩阵Cxx、Cyy与所述模态间矩阵Gy获取矩阵Ζ,对所述矩阵Z进行奇异值分解,获取矩阵U和V具体为通过所述模态矩阵cxx、cyy与所述模态间矩阵4获取τ= C-J2CxC-J2,将计算出来的所述Z矩阵进行奇异值分解,即Z = UDVt。本发明提供的技术方案的有益效果是本方法针对多媒体图像、视频数据特征维数很高以及容易引起“维数灾难”的特点,首次加入信息检索中存在的相关性等级信息来构造图像与图像之间,或视频与视频之间的相关约束对与不相关约束对信息,在利用少量的标注样本信息的同时,引入大量的未标注样本信息,设计适用排序学习中的半监督维数约简方法,利用检索结果与查询之间的相关程度信息,对传统的典型相关分析方法进行了改进,达到了有效利用数据信息、提高维数约简效果的目的,将符合用户需求的结果靠前优先呈现给用户,提高了检索的准确性。


图I为本发明提供的一种用于图像或视频搜索重排序的方法的流程图;图2为本发明提供的获取新特征向量的示意 图3为本发明提供的排序性能对比的示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。为了提高检索的准确性,本发明实施例提供了一种用于图像或视频搜索重排序的方法,参见图1,详见下文描述
多媒体检索相关领域数据中存在着大量排序信息。排序信息是指排序学习中的训练数据集合所提供的可用于学习排序模型的监督信息,包括数据的相关性等级信息、数据的优先级关系信息以及建立在排序信息之上的关系对、关系序列等信息。排序信息可以通过人工标注、相关反馈、伪相关反馈和隐相关反馈等途径获取。在信息检索领域中,相关性等级信息广泛应用于信息检索中的模型训练中,例如文本与多媒体检索、问答系统、视觉搜索重排序和协同过滤等。在大多数情况下,根据与查询的相关性高低手动地或自动地对每个文档进行不同等级的标注,例如“非常相关”、“相关”、“一般相关”和“不相关”等,这些描述样本与查询相关程度的度量叫做样本的相关性等级信息。排序学习正是基于这种特殊标注的新研究领域,然而,排序学习仅仅是利用机器学习的方法学习更有效的排序模型,其侧重点在于学习的过程,并没有考虑到特征维数约简的问题。到目前为止,很少有工作把相关性等级信息用到维数约减过程中。样本的相关性等级信息不同于传统的类标号信息,前者是在信息检索中用来衡量文档与查询之间的相关程度的度量,后者指的是机器学习与模式识别领域中一类事物的所共同具有的属性。例如在传统的模式分类任务中,同一类的事物会具有共同的特征,不同类的事物具有不同的特征。传统的半监督典型相关分析方法利用正约束与负约束这种成对的约束信息进行降维,正约束与负约束均是基于类标号信息构造的成对约束项,前者指两个样本属于同一类,后者是指两个样本属于不同的两类。然而,在排序应用中,由于样本按照与查询相关的程度分为不同的相关性等级,这样即使不同相关性等级的样本之间,也可能由于与查询相关而存在不同程度的相关性,因此在传统降维方法中的正约束与负约束这种成对约束信息并不适合直接应用到排序问题中。然而,这些数据通常具有高维特性,直接对它们进行分析和处理会导致如下重要问题1)计算复杂度高;2)存储代价高昂;3)维数灾难。这成为严重制约多媒体内容分析和检索领域的关键问题。维数约简是有效解决这些问题的重要方法,其目标是通过对原始数据进行变换而得到的有效的低维表示。维数约简的定义为给定一批观察样本,记作X ={xj e RDXn,即包含η个样本,每个样本均是D维,Xi表示X集合中的第i个样本,根据某个准则,找到数据的低维表示Y = {yj e Rdxn(d < D),同时保持数据的几何结构。本发明实施例根据任意两个样本之间有无相关性及相关性的大小,引入了相关约束对与不相关约束对的概念,来表示视觉搜索重排序中样本之间的关系。任意两个标注的样本因相关性等级不同也会具有不同的程度的约束。典型相关分析CCA侧重于多模态识别。所谓多模态是指从不同的信息渠道获得样本的描述信息。典型相关分析原理是利用互补原理,最大化不同模态数据之间的相关性,减少数据之间的不确定性,从而达到降维的目的,其方法具体原理如下给定一批成对的观察样本集(Xi,Yi) e RPXR% i = 1,L,n,i表示样本集中第i个样本,η是样本集合中样本的个数,Xpyi表示样本i从两种渠道所获得的特征向量,P和q表示特征向量的维数,R表示实数。记X= [x1;L,xn] e Rpxn和Y= [Y17LiYn] e RqXn,表示所有样本在不同模态下组成
的特征矩阵。设(x,y)为样本集中的任意样本对,并设样本已经中心化,即Ι =
n ,=1
J7 = if 乂 =0 qMcca的目标是分别为样本集χ与Y寻找两组基向量^ ee Rq,使
n i=\得随机向量χ' = <χ和/ = 1<少之间的相关性最大,即求如下相关系数最大的问题
权利要求
1.一种用于图像或视频搜索重排序的方法,其特征在于,所述方法包括以下步骤 (1)搜索引擎中输入查询关键词进行捜索,获取基于文本的初始搜索结果S; (2)根据所述初始搜索结果S提取不同模态下的特征向量,获取特征向量集合; (3)根据所述初始搜索结果S对样本进行标注,获取标注后样本集合; (4)对所述特征向量集合、所述标注后样本集合进行处理,获取新特征向量; (5)将标注后样本集合的新特征向量作为训练集,获取排序模型; (6)通过所述排序模型对特征向量集合的新特征向量进行排序,获取重排序后的最終结果。
2.根据权利要求I所述的ー种用于图像或视频搜索重排序的方法,其特征在于,所述根据所述初始搜索结果S对样本进行标注,获取标注后样本集合具体为 在所述初始捜索结果S中采用伪相关反馈或者人工标注等方法为每个相关性等级A、B、C标注k个样本,组成SA、Sb、Sc三个标注样本集合,其余的为未标注样本集合。
3.根据权利要求2所述的ー种用于图像或视频搜索重排序的方法,其特征在于,所述对所述特征向量集合、所述标注后样本集合进行处理,获取新特征向量具体为 1)对特征向量集合进行中心化处理,获取中心化后特征向量集合; 2)通过三个相关性等级A、B、C构建6个nXn的零矩阵CM、CBB、Crc、CAC、CAB、CB。,对6个零矩阵进行赋值获取约束矩阵H ; 3)通过新特征矩阵X'ヽV和所述约束矩阵H构成同模态矩阵Cxx、Cyy与模态间矩阵ら; 4)通过所述模态矩阵Cxx、Cyy与所述模态间矩阵获取矩阵Z,对所述矩阵Z进行奇异值分解,获取矩阵U和V ; 5)分别取所述矩阵U和V的前d列组成矩阵[U1,L ud], [V1, L vd] (d < min (p, q)),利用K=Kd, L ,wJ = Opl mJ 馬=卜n,L ^wyd] = c7y'2[v^ vJ 计算变换矩阵 wx、Wy,将(Wx)V和(Wy)V作为新特征向量。
4.根据权利要求3所述的ー种用于图像或视频搜索重排序的方法,其特征在于,所述通过三个相关性等级A、B、C构建6个n X n的零矩阵CM、CBB、Ccc, CA。、CAB、Cbc,对6个零矩阵进行赋值获取约束矩阵H具体为 对于标注后样本集合中任意两个样本X' i、x' j,若X' i、x' j G Sa,则CAA(i, j) = I,同理若X' i G SajX' j G S。则CAe(i, j) = I,以此类推,所述约束矩阵H的计算公式如下H = E+ y (CAA+CBB + a Cab)-(I- Y ) (Ccc-Cac-Cbc),其中,參数 Y 用来权衡相关约束(CAA+CBB +QCab)与不相关约束(Cee-CAe-CB。)这两者的重要程度,參数Y的取值通常为
,E表示nXn的単位矩阵,a用来权衡相关性等级为A的样本与相关性等级为B的样本之间的相关程度,a的取值通常为

5.根据权利要求4所述的ー种用于图像或视频搜索重排序的方法,其特征在于,所述Cxx = X' V 'Cyy = Y' Y' KCv=XHYt .
6.根据权利要求5所述的ー种用于图像或视频搜索重排序的方法,其特征在于,所述通过所述模态矩阵Cxx、cyy与所述模态间矩阵获取矩阵Z,对所述矩阵Z进行奇异值分解,获取矩阵U和V具体为 通过所述模态矩阵Cxx、cyy与所述模态间矩阵ら获取Z = Cf,将计算出来的所述Z矩阵进行奇异值分解,即Z = UDVt。
全文摘要
本发明公开了一种用于图像或视频搜索重排序的方法,搜索引擎中输入查询关键词进行搜索,获取基于文本的初始搜索结果S;根据所述初始搜索结果S提取不同模态下的特征向量,获取特征向量集合;根据所述初始搜索结果S对样本进行标注,获取标注后样本集合;对所述特征向量集合、所述标注后样本集合进行处理,获取新特征向量;将标注后样本集合的新特征向量作为训练集,获取排序模型;通过所述排序模型对特征向量集合的新特征向量进行排序,获取重排序后的最终结果。本发明通过合理利用检索结果与查询之间的相关程度信息,达到了有效利用数据信息、提高维数约简效果的目的,更好地将符合用户需求的结果靠前优先呈现给用户,提高了检索的准确性。
文档编号G06F17/30GK102629279SQ20121008023
公开日2012年8月8日 申请日期2012年3月23日 优先权日2012年3月23日
发明者井佩光, 冀中, 苏育挺 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1