基于内容的图像伪相关重排序方法

文档序号:6591561阅读:216来源:国知局
专利名称:基于内容的图像伪相关重排序方法
技术领域
本发明涉及一种图像排序算法。特别是涉及一种面向多媒体领域的基于内容的图像伪相关重排序方法。
背景技术
随着多媒体技术的飞速发展,大量的数字图像涌现进人们的日常生活。人们迫切需要一种从海量图像中搜索到自己感兴趣图像的检索工具,由此基于内容的图像检索排序技术应运而生。在过去的十几年中,人们提出了大量的图像排序算法。流形排序算法是其中一个经典的算法,首先构建K最邻近图,针对相关反馈,分别设计了具有正反馈(提供给用户的检索结果都被用户标记为相关)的情况及正负反馈都有的情况的对应方法,但是此算法只能针对训练集合,对于查询样例位于数据库之外的情况虽然给出了说明,但需要扩展相似矩阵W之后再重新计算归一化相似矩阵S,比较费时,不适合用于在线查询。多媒体检索相关领域数据中存在着大量排序信息。排序信息是指排序学习中的训练数据集合所提供的可用于学习排序模型的监督信息,包括数据的相关性等级信息、数据的优先级关系信息以及建立其之上的关系对、关系序列等信息。排序信息可以通过人工标或者相关反馈等途径获取。图像搜索重排序是根据初始的基于文本搜索结果结合图像视觉信息训练排序模型,利用新的排序模型对检索结果重新排序的过程,其目的是为了改善检索的准确性以提高用户体验和满意度。根据信息利用的方式不同,图像搜索重排序可分为三个研究方向:
(I)利用标注图像/视频查询样例进行重排序,(2)利用预训练的概念检测器进行重排序,
(3)不利用附加信息的重排序。在信息检索领域中,相关性等级信息广泛应用于信息检索中的模型训练中,例如文本与多媒体检索,问答系统,视觉搜索重排序,协同过滤等。在大多数情况下,根据与查询的相关性的高低手动地或自动地对每个文档进行不同等级的标注,例如“非常相关”、“相关”、“一般相关”、“不相关”等,这些描述样本与查询相关程度的度量叫做样本的相关性等级信息。样本的相关性等级信息不同于传统的类标号信息,前者是在信息检索中用来衡量文档与查询之间的相关程度的度量,后者指的是机器学习与模式识别领域中一类事物的所共同具有的属性。例如在传统的模式分类任务中,同一类的事物会具有共同的特征,不同类的事物具有不同的特征。在排序应用中,由于样本按照与查询相关的程度分为不同的相关性等级,这样即使不同相关性等级的样本之间,也可能由于都与查询相关而存不同程度的相关性,基于此,我们根据样本之间有无相关性及相关性的大小,将样本进行重新排序,相关性高的排在前面,相关性低的排在后面.但是由于检索结果数量巨大,往往不能获得所有的相关等级信息,而且用户体验不够快速准确,所以我们通过对检索结果进行少量标注,达到对所有的结果进行有效的排序目的,以此来提高用户满意度。

发明内容
本发明所要解决的技术问题是,提供一种既能减少在排序学习过程中的庞大数据量,又能得到较高的检索效果的基于内容的图像伪相关重排序方法。本发明所采用的技术方案是:一种基于内容的图像伪相关重排序方法,首先根据查询词得到基于文本的检索结果,即样本群;对所检索到的样本群计算伪相关排序等级;根据计算出的伪相关排序等级对检索到的样本重新排序,得到最终重新排序的样本结果。所述的对所检索到的样本群计算伪相关排序等级包括如下步骤:1)设定基于文本的检索结果样本群为X=U1,…Xn} cr,Xi表示查询中的一个样本,i表示查询结果中第i个样本,η是查询结果中样本的个数;2)对步骤I)中的检索结果样本群X= (X1,…xn}CRni标注相关性等级:在这η个样本中选出3Xk个样本进行标注,其余的不进行标注,用Y*= {yi%…y3Xk*}表示相关性等级,Yi* e {0,1,2},建立数据袋{χΛ -x3Xk*},X*表示标注的样本群,X*表示标注样本群中的一个样本;3)计算相似矩阵W:为每一个未标注的样本在数据袋中寻找t个近邻,其中t ( k,并计算每一个未标注的样本Xi与所对应的近邻的相似距离:
权利要求
1.一种基于内容的图像伪相关重排序方法,其特征在于,首先根据查询词得到基于文本的检索结果,即样本群;对所检索到的样本群计算伪相关排序等级;根据计算出的伪相关排序等级对检索到的样本重新排序,得到最终重新排序的样本结果。
2.根据权利要求1所述的基于内容的图像伪相关重排序方法,其特征在于,所述的对所检索到的样本群计算伪相关排序等级包括如下步骤: O设定基于文本的检索结果样本群为X=U1,…xn} CRm, Xi表不查询中的一个样本,i表示查询结果中第i个样本,η是查询结果中样本的个数; 2)对步骤I)中的检索结果样本群X=Ix1,…xn} CRm标注相关性等级:在这η个样本中选出3Xk个样本进行标注,其余的不进行标注,用Y*={yi*,一y3X1;}表示相关性等级,Yi* e {0,1,2},建立数据袋Χ*={χΛ "I3xkI, X*表示标注的样本群,X*表示标注样本群中的一个样本; 3)计算相似矩阵W:为每一个未标注的样本在数据袋中寻找t个近邻,其中t < k,并计算每一个未标注的样本Xi与所对应的近邻的相似距离:
3.根据权利要求2所述的基于内容的图像伪相关重排序方法,其特征在于,对3Xk个样本进行标注是,在3 X k个样本中,最相关的k个标注等级为2,不相关的标注等级为O,介于最相关的等级与不相关的等级之间的为一般相关标注等级为I。
4.根据权利要求2所述的基于内容的图像伪相关重排序方法,其特征在于,由步骤4)能够得到表示近邻贡献大小的重构系数Ci:
5.根据权利要求2所述的基于内容的图像伪相关重排序方法,其特征在于,步骤5)所述的伪相关性等级Y=Iy1,…yn},其中Ji e [O, 2], Yi越大表示相关性等级越高。
全文摘要
一种基于内容的图像伪相关重排序方法,首先根据查询词得到基于文本的检索结果,即样本群;对所检索到的样本群计算伪相关排序等级;根据计算出的伪相关排序等级对检索到的样本重新排序,得到最终重新排序的样本结果。本发明提出了一种新的排序算法,高效地利用了基于内容的图象特征,与用户查询相关的图像优先呈现给用户,提高了检索排序的准确性。本发明主要针对在线检索过程查询与检索结果不相关或者相关性较小的问题提出的重排序算法,人为的加入少量标注信息,充分利用基于内容的图像特征,达到对所有的结果进行有效的排序目。
文档编号G06F17/30GK103198117SQ20131011018
公开日2013年7月10日 申请日期2013年3月29日 优先权日2013年3月29日
发明者冀中, 苏育挺, 于颜儒 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1