一种基于排列融合的图像检索重排序方法及系统与流程

文档序号:12063791阅读:来源:国知局

技术特征:

1.一种基于排列融合的图像检索重排序方法,其特征在于,包括以下步骤:

S1、在搜索引擎上输入请求查询文本Q,得到基于请求查询文本Q的初始检索结果L,提取所述初始检索结果L中每幅图像的视觉特征,再计算出所述初始检索结果L中每幅图像与其它图像的相似度;

S2、根据所述初始检索结果L中每幅图像与其它图像的相似度对所述初始检索结果L进行降噪处理后得到检索图像列表L′;

S3、从所述检索图像列表L′中选取一个或多个种子点图像,并采用基于图的重排序方法对所述检索图像列表L′中的图像进行重排序得到重排序结果;

其中,当从所述检索图像列表L′中选取一个种子点图像时,采用基于图的重排序方法对所述检索图像列表L′中的图像进行重排序得到重排序结果;当从所述检索图像列表L′中选取多个种子点图像时,采用基于图的重排序方法对所述检索图像列表L′中的图像进行重排序得到多个重排序结果,并对上述得到的多个重排序结果进行融合,得到最终重排序结果。

2.根据权利要求1所述的基于排列融合的图像检索重排序方法,其特征在于,步骤S1中提取所述初始检索结果L中每幅图像的视觉特征,再计算出所述初始检索结果L中每幅图像与其它图像的相似度具体包括:

对初始检索结果L={I1,I2,...,IN}中的图像Ii提取基于深度卷积神经网络的特征,将其表示成一个特征向量;

优选地,采用在ImageNet ILSVRC-2012数据集上训练好的卷积神经网络;将图片Ii输入该网络,提取第七层全连接层的4096维特征再将上述特征通过下述公式进行归一化,得到Ii的特征向量xi

<mrow> <msup> <mi>x</mi> <mi>i</mi> </msup> <mo>=</mo> <mo>&lsqb;</mo> <msubsup> <mi>x</mi> <mn>1</mn> <mi>i</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mn>2</mn> <mi>i</mi> </msubsup> <mo>,</mo> <mi>L</mi> <mo>,</mo> <msubsup> <mi>x</mi> <mi>K</mi> <mi>i</mi> </msubsup> <mo>&rsqb;</mo> <mo>,</mo> <msubsup> <mi>x</mi> <mi>k</mi> <mi>i</mi> </msubsup> <mo>=</mo> <msqrt> <mfrac> <msubsup> <mi>f</mi> <mi>k</mi> <mi>i</mi> </msubsup> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <msubsup> <mi>f</mi> <mi>m</mi> <mi>i</mi> </msubsup> </mrow> </mfrac> </msqrt> <mo>;</mo> </mrow>

其中,K是特征的维数且K=4096;

由于特征的维数K较高,因此需对特征进行降维处理,优选地,采用PCA对特征进行降维处理;

优选地,计算所述初始检索结果L中两幅图像Ii和Ij的相似度具体包括:计算两幅图像Ii和Ij对应特征向量间的卡方距离dij

<mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mfrac> <msup> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>k</mi> <mi>i</mi> </msubsup> <mo>-</mo> <msubsup> <mi>x</mi> <mi>k</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <msubsup> <mi>x</mi> <mi>k</mi> <mi>i</mi> </msubsup> <mo>+</mo> <msubsup> <mi>x</mi> <mi>k</mi> <mi>j</mi> </msubsup> </mrow> </mfrac> <mo>;</mo> </mrow>

两幅图像Ii和Ij的相似度sij按如下公式计算:

<mrow> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mi>&lambda;</mi> </mrow> </mfrac> <mo>;</mo> </mrow>

其中,λ=0.5。

3.根据权利要求1所述的基于排列融合的图像检索重排序方法,其特征在于,步骤S2具体包括根据所述初始检索结果L中每幅图像与其它图像的相似度对所述初始检索结果L进行降噪处理,去除所述初始检索结果L中与请求查询文本Q不相关的噪声图像,得到检索图像列表L′;

优选地,采用基于相似度加权和的降噪方法对所述初始检索结果L进行降噪处理,上述降噪方法具体包括:通过公式计算所述初始检索结果L中的每幅图像Ii与所述初始检索结果L中其它图像的相似度加权以及图像Ii的置信分数ci,所述公式为:

<mrow> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> <mi>N</mi> </munderover> <msub> <mi>&mu;</mi> <mi>j</mi> </msub> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>;</mo> </mrow>

其中,N为所述初始检索结果L中图像的幅数,sij为图像Ii和图像Ij之间的相似度,μj为加权系数,且图像Ij在所述初始检索结果L中的排序越靠前μj越大;

优选地,采用基于视觉降序的降噪方法对所述初始检索结果L进行降噪处理,上述降噪方法具体包括:

基于视觉排序的降噪方法是利用视觉排序模型来计算每幅图像的置信分数;置信分数向量c=[c1,c2,L,cN]T中的ci对应所述初始检索结果L中第i图像Ij的置信分数,且置信分数通过下式迭代求解;

c=d(S*×c)+(1-d)p;

其中,c的初值设置为1/N,d为平衡参数且d=0.85,S*为对相似性矩阵S做列归一化得到的矩阵;将上式迭代达到稳定的结果c作为每幅图像的置信分数,且置信分数越高表明图像与请求查询文本Q的相关性越高,则将所述初始检索结果L中的图像按照置信分数从高至低进行排序,得到检索图像列表L′。

4.根据权利要求3所述的基于排列融合的图像检索重排序方法,其特征在于,步骤S3具体包括从所述检索图像列表L′中多次选取种子点图像,且每个种子点图像对应一个重排序结果,再对得到的多个重排序结果进行融合以得到最终重排序结果;

优选地,采用Borda融合方法对得到的多个重排序结果进行融合,具体包括:Borda融合是将重排序结果转化成分数后再进行融合;

重排序结果中排序越靠前的图像,分数越高;具体地,重排序结果中排序为R的图像的分数s为:

<mrow> <mi>s</mi> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mo>-</mo> <mi>R</mi> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <mo>;</mo> </mrow>

其中,N为重排序结果中图像的总数量;

对每幅图像计算出其在多个重排序结果中的分数总和,分数总和越高表明该图像与请求查询文本Q的相关度越高;将每幅图像按照分数总和从高至低排列即得到最终重排序结果;

优选地,采用Condorect融合方法对得到的多个重排序结果进行融合,具体包括:Condorect融合是采用少数服从多数的投票机制;

在每次迭代过程中,选择一张图像,上述图像满足如下条件:该图像与其它图像成对比较排名,如果该图像在重排序结果中的排名比其它图像都靠前,则选取该幅图像加入融合后图像序列,同时将此图像从候选图像集中去除;在下一次迭代过程中,按照上述过程和方法再选取一张图像加入融合后图像集;如此得到最终重排序结果;

优选地,采用RRF融合方法对得到的多个重排序结果进行融合,具体包括:RRF融合方法将每幅图像按照如下公式从多个重排序结果R中计算出该幅图像的排序分数,所述公式为:

<mrow> <mi>R</mi> <mi>R</mi> <mi>F</mi> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>r</mi> <mo>&Element;</mo> <mi>R</mi> </mrow> </munder> <mfrac> <mn>1</mn> <mrow> <mn>60</mn> <mo>+</mo> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>

其中,r(Ii)为图像Ii在某个重排序结果r中的排序位置;

将每幅图像按照RRFscore的大小降序排序即得到最终重排序结果。

5.一种基于排列融合的图像检索重排序系统,其特征在于,包括:

搜索模块,用于在搜索引擎上根据请求查询文本Q得到基于请求查询文本Q的初始检索结果L;

特征提取模块,用于提取所述初始检索结果L中每幅图像的视觉特征,并计算出所述初始检索结果L中每幅图像与其它图像的相似度;

降噪处理模块,用于根据所述初始检索结果L中每幅图像与其它图像的相似度对所述初始检索结果L进行降噪处理,并得到检索图像列表L′;

重排序模块,用于从所述检索图像列表L′中选取一个或多个种子点图像,并采用基于图的重排序方法对所述检索图像列表L′中的图像进行重排序得到重排序结果。

6.根据权利要求5所述的基于排列融合的图像检索重排序系统,其特征在于,所述重排序模块从所述检索图像列表L′中选取一个种子点图像时,采用基于图的重排序方法对所述检索图像列表L′中的图像进行重排序得到重排序结果;所述重排序模块从所述检索图像列表L′中选取多个种子点图像时,采用基于图的重排序方法对所述检索图像列表L′中的图像进行重排序得到多个重排序结果,并对上述得到的多个重排序结果进行融合,得到最终重排序结果。

7.根据权利要求5所述的基于排列融合的图像检索重排序系统,其特征在于,所述特征提取模块提取所述初始检索结果L中每幅图像的视觉特征,再计算出所述初始检索结果L中每幅图像与其它图像的相似度具体包括:

对初始检索结果L={I1,I2,...,IN}中的图像Ii提取基于深度卷积神经网络的特征,将其表示成一个特征向量;

优选地,采用在ImageNet ILSVRC-2012数据集上训练好的卷积神经网络;将图片Ii输入该网络,提取第七层全连接层的4096维特征再将上述特征通过下述公式进行归一化,得到Ii的特征向量xi

<mrow> <msup> <mi>x</mi> <mi>i</mi> </msup> <mo>=</mo> <mo>&lsqb;</mo> <msubsup> <mi>x</mi> <mn>1</mn> <mi>i</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mn>2</mn> <mi>i</mi> </msubsup> <mo>,</mo> <mi>L</mi> <mo>,</mo> <msubsup> <mi>x</mi> <mi>K</mi> <mi>i</mi> </msubsup> <mo>&rsqb;</mo> <mo>,</mo> <msubsup> <mi>x</mi> <mi>k</mi> <mi>i</mi> </msubsup> <mo>=</mo> <msqrt> <mfrac> <msubsup> <mi>f</mi> <mi>k</mi> <mi>i</mi> </msubsup> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <msubsup> <mi>f</mi> <mi>m</mi> <mi>i</mi> </msubsup> </mrow> </mfrac> </msqrt> <mo>;</mo> </mrow>

其中,K是特征的维数且K=4096;

由于特征的维数K较高,因此需对特征进行降维处理,优选地,采用PCA对特征进行降维处理;

优选地,计算所述初始检索结果L中两幅图像Ii和Ij的相似度具体包括:计算两幅图像Ii和Ij对应特征向量间的卡方距离dij

<mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mfrac> <msup> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>k</mi> <mi>i</mi> </msubsup> <mo>-</mo> <msubsup> <mi>x</mi> <mi>k</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <msubsup> <mi>x</mi> <mi>k</mi> <mi>i</mi> </msubsup> <mo>+</mo> <msubsup> <mi>x</mi> <mi>k</mi> <mi>j</mi> </msubsup> </mrow> </mfrac> <mo>;</mo> </mrow>

两幅图像Ii和Ij的相似度sij按如下公式计算:

<mrow> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mi>&lambda;</mi> </mrow> </mfrac> <mo>;</mo> </mrow>

其中,λ=0.5。

8.根据权利要求5所述的基于排列融合的图像检索重排序系统,其特征在于,降噪处理模块具体包括根据所述初始检索结果L中每幅图像与其它图像的相似度对所述初始检索结果L进行降噪处理,并得到检索图像列表L′;

优选地,采用基于相似度加权和的降噪方法对所述初始检索结果L进行降噪处理,上述降噪方法具体包括:通过公式计算所述初始检索结果L中的每幅图像Ii与所述初始检索结果L中其它图像的相似度加权以及图像Ii的置信分数ci,所述公式为:

<mrow> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> <mi>N</mi> </munderover> <msub> <mi>&mu;</mi> <mi>j</mi> </msub> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>;</mo> </mrow>

其中,N为所述初始检索结果L中图像的幅数,sij为图像Ii和图像Ij之间的相似度,μj为加权系数,且图像Ij在所述初始检索结果L中的排序越靠前μj越大;

优选地,采用基于视觉降序的降噪方法对所述初始检索结果L进行降噪处理,上述降噪方法具体包括:

基于视觉排序的降噪方法是利用视觉排序模型来计算每幅图像的置信分数;置信分数向量c=[c1,c2,L,cN]T中的ci对应所述初始检索结果L中第i图像Ij的置信分数,且置信分数通过下式迭代求解;

c=d(S*×c)+(1-d)p;

其中,c的初值设置为1/N,d为平衡参数且d=0.85,S*为对相似性矩阵S做列归一化得到的矩阵;将上式迭代达到稳定的结果c作为每幅图像的置信分数,且置信分数越高表明图像与请求查询文本Q的相关性越高,则将所述初始检索结果L中的图像按照置信分数从高至低进行排序,得到检索图像列表L′。

9.根据权利要求8所述的基于排列融合的图像检索重排序系统,其特征在于,所述重排序模块具体包括从所述检索图像列表L′中选取多个种子点图像,采用基于图的重排序方法对所述检索图像列表L′中的图像进行重排序得到多个重排序结果,并对上述得到的多个重排序结果进行融合,得到最终重排序结果;

优选地,采用Borda融合方法对得到的多个重排序结果进行融合,具体包括:Borda融合是将重排序结果转化成分数后再进行融合;

重排序结果中排序越靠前的图像,分数越高;具体地,重排序结果中排序为R的图像的分数s为:

<mrow> <mi>s</mi> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mo>-</mo> <mi>R</mi> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <mo>;</mo> </mrow>

其中,N为重排序结果中图像的总数量;

对每幅图像计算出其在多个重排序结果中的分数总和,分数总和越高表明该图像与请求查询文本Q的相关度越高;将每幅图像按照分数总和从高至低排列即得到最终重排序结果;

优选地,采用Condorect融合方法对得到的多个重排序结果进行融合,具体包括:Condorect融合是采用少数服从多数的投票机制;

在每次迭代过程中,选择一张图像,上述图像满足如下条件:该图像与其它图像成对比较排名,如果该图像在重排序结果中的排名比其它图像都靠前,则选取该幅图像加入融合后图像序列,同时将此图像从候选图像集中去除;在下一次迭代过程中,按照上述过程和方法再选取一张图像加入融合后图像集;如此得到最终重排序结果;

优选地,采用RRF融合方法对得到的多个重排序结果进行融合,具体包括:RRF融合方法将每幅图像按照如下公式从多个重排序结果R中计算出该幅图像的排序分数,所述公式为:

<mrow> <mi>R</mi> <mi>R</mi> <mi>F</mi> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>r</mi> <mo>&Element;</mo> <mi>R</mi> </mrow> </munder> <mfrac> <mn>1</mn> <mrow> <mn>60</mn> <mo>+</mo> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>

其中,r(Ii)为图像Ii在某个重排序结果r中的排序位置;

将每幅图像按照RRFscore的大小降序排序即得到最终重排序结果。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1