一种基于视觉词典优化和查询扩展的图像检索方法与流程

文档序号:11830633阅读:来源:国知局

技术特征:

1.一种基于视觉词典优化和查询扩展的图像检索方法,其特征在于,包括:

提取训练图像的SIFT特征,利用基于密度的聚类方法对SIFT特征进行聚类,生成由视觉单词组成的视觉词典组;

利用卡方模型获取视觉单词与各目标图像类别相关性;结合相关性和视觉单词词频过滤掉与目标图像类别无关的视觉停用词,获得优化后的视觉词典;

提取查询图像的SIFT特征,将训练图像和查询图像的SIFT特征与优化后的视觉词典进行映射匹配,得到各自的视觉词汇直方图,将查询图像的视觉词汇直方图与训练图像的视觉词汇直方图进行相似性匹配,得到初始检索结果;

根据视觉词汇直方图之间的相似性确定互相关图像,找到与查询图像相关的密度最大子图;利用最大密度子图查找算法在连接图中查找查询图像的信任图像,对初始检索结果进行重排序,得到最终检索结果。

2.根据权利要求1所述的基于视觉词典优化和查询扩展的图像检索方法,其特征在于,所述提取训练图像的SIFT特征,利用基于密度的聚类方法对SIFT特征进行聚类,生成由视觉单词组成的视觉词典组,包括:

利用局部特征提取算子从训练图像中提取SIFT特征;

通过利用基于密度的聚类方法对SIFT特征进行聚类,聚类得到的每个聚类中心代表一个视觉单词,所述视觉单词组成视觉词典;

提取查询图像的SIFT特征,将SIFT特征映射到距离最近的视觉单词中,统计得到查询图像的视觉词汇直方图。

3.根据权利要求2所述的基于视觉词典优化和查询扩展的图像检索方法,其特征在于,所述基于密度的聚类方法指通过寻找合适的密度峰值点确定聚类中心,所述聚类中心满足以下条件:聚类中心的密度大于临近数据点的密度;与其它密度更大的数据点距离相距较远。

4.根据权利要求3所述的基于视觉词典优化和查询扩展的图像检索方法,其特征在于,所述利用基于密度的聚类方法对SIFT特征进行聚类,包括:

步骤1,对待聚类的数据集中数据点xi,定义ρi表示数据点xi的局部密度,定义δi表示距xi最近且密度更高点的距离;

ρi表达式如下所示:

<mrow> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mi>j</mi> </munder> <mi>&chi;</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>d</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中,dij为数据集S的数据点xi与xj的距离,dc是设定的距离阈值,局部密度ρi实质是S中与xi距离不超过dc的数据点个数;

δi表达式如下所示:

<mrow> <msub> <mi>&delta;</mi> <mi>i</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>j</mi> <mo>:</mo> <msub> <mi>&rho;</mi> <mi>j</mi> </msub> <mo>&gt;</mo> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> </mrow> </munder> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> <mo>&lt;</mo> <msub> <mi>&rho;</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mi>j</mi> </munder> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>&rho;</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中,δi的物理意义是在局部密度大于ρi的数据点中寻找与xi最近点的距离,其值越大,表示xi与其它高密度点距离越远,则xi越有可能成为聚类中心;当xi为密度最大点时,δi等于与xi相距最远点的距离,该值远远大于其它高密度点的δ值;

步骤2,定义γi=ρiδi作为选取聚类中心的衡量指标,对进行降序排列,选取前若干个数据点作为聚类中心。

5.根据权利要求1所述的基于视觉词典优化和查询扩展的图像检索方法,其特征在于,所述利用卡方模型获取视觉单词与各目标图像类别相关性,通过如下计算公式实现:

<mrow> <msubsup> <mi>x</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>2</mn> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mfrac> <msup> <mrow> <mo>(</mo> <mi>N</mi> <mo>&CenterDot;</mo> <msub> <mi>n</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>n</mi> <mrow> <mi>k</mi> <mo>+</mo> </mrow> </msub> <mo>&CenterDot;</mo> <msub> <mi>n</mi> <mrow> <mo>+</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mi>N</mi> <mo>&CenterDot;</mo> <msub> <mi>n</mi> <mrow> <mi>k</mi> <mo>+</mo> </mrow> </msub> <mo>&CenterDot;</mo> <msub> <mi>n</mi> <mrow> <mo>+</mo> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow>

其中,卡方值代表视觉单词wi与各图像类别间统计相关性的大小,卡方值越大说明wi与各图像类别相关性越大,卡方值越小说明视觉单词wi与各图像类别相关性越小;n1j表示图像类别Cj中包含wi的图像数目,n2j表示图像类别Cj中不包含wi的图像数目,wi出现的频次独立于图像类别Cj,nk+分别表示图像集中包含wi和不包含wi的图像数目;n+j表示图像类别Cj中的图像数目,N为图像集中图像总数目。

6.根据权利要求5所述的基于视觉词典优化和查询扩展的图像检索方法,其特征在于,所述结合相关性和视觉单词词频过滤掉与目标图像类别无关的视觉停用词,通过对卡方值进行加权并过滤加权后的卡方值实现,加权后的卡方值的表达式如下:

<mrow> <msubsup> <mover> <mi>x</mi> <mo>~</mo> </mover> <mi>i</mi> <mn>2</mn> </msubsup> <mo>=</mo> <mfrac> <msubsup> <mi>x</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mrow> <mi>t</mi> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中,tf(wi)表示视觉单词wi的词频,表示wi的卡方值,表示wi加权后的卡方值。

7.根据权利要求1所述的基于视觉词典优化和查询扩展的图像检索方法,其特征在于,所述根据视觉词汇直方图之间的相似性确定互相关图像,找到与查询图像相关的密度最大子图,利用最大密度子图查找算法在连接图中查找查询图像的信任图像,对初始检索结果进行重排序,得到最终检索结果,包括:

步骤1,利用初始检索结果图像中前k幅图像的任一图像i的视觉词汇直方图fi进行相似性匹配得到k近邻图像集Nk(i),定义互为对方的k近邻图像集中元素的图像对为互相关图像Rk(i,i'),如下:

Rk(i,i')=i∈Nk(i')∩i'∈Nk(i)

步骤2,根据Rk(i,i')构造图G=(V,E,W);其中,V表示顶点集,每一个顶点表示一幅图像,E表示由连接顶点的边组成的集合,W中的元素为边的权重,k为近邻数目,任意两图像i和i'之间的连接权重计算公式如下所示:

<mrow> <mi>w</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mfrac> <mrow> <msub> <mi>N</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>&cap;</mo> <msub> <mi>N</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> </mrow> <mi>k</mi> </mfrac> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>&Element;</mo> <msub> <mi>R</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

步骤3,根据连接权重在图G=(V,E,W)中寻找与查询图像相关的密度最大子图;

步骤4,将密度最大子图顶点所代表的图像依据与查询图像的相关性大小进行降序排列,选取前Nc幅图像作为新的查询图像,计算扩展查询结果与查询图像的相似性si,如下:

<mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>{</mo> <msup> <mi>&beta;</mi> <mi>n</mi> </msup> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>f</mi> <mi>n</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> <msubsup> <mi>&sigma;</mi> <mi>n</mi> <mn>2</mn> </msubsup> </mfrac> <mo>|</mo> <mi>n</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>N</mi> <mi>c</mi> </msub> <mo>}</mo> </mrow>

其中,fi为图像i的视觉词汇直方图,图像β=0.99,

步骤5,根据si的大小进行重排序得到最终检索结果。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1