一种基于视觉词典优化和查询扩展的图像检索方法与流程

文档序号：11830633阅读：来源：国知局

技术特征：

1.一种基于视觉词典优化和查询扩展的图像检索方法，其特征在于，包括：

提取训练图像的SIFT特征，利用基于密度的聚类方法对SIFT特征进行聚类，生成由视觉单词组成的视觉词典组；

利用卡方模型获取视觉单词与各目标图像类别相关性；结合相关性和视觉单词词频过滤掉与目标图像类别无关的视觉停用词，获得优化后的视觉词典；

提取查询图像的SIFT特征，将训练图像和查询图像的SIFT特征与优化后的视觉词典进行映射匹配，得到各自的视觉词汇直方图，将查询图像的视觉词汇直方图与训练图像的视觉词汇直方图进行相似性匹配，得到初始检索结果；

根据视觉词汇直方图之间的相似性确定互相关图像，找到与查询图像相关的密度最大子图；利用最大密度子图查找算法在连接图中查找查询图像的信任图像，对初始检索结果进行重排序，得到最终检索结果。

2.根据权利要求1所述的基于视觉词典优化和查询扩展的图像检索方法，其特征在于，所述提取训练图像的SIFT特征，利用基于密度的聚类方法对SIFT特征进行聚类，生成由视觉单词组成的视觉词典组，包括：

利用局部特征提取算子从训练图像中提取SIFT特征；

通过利用基于密度的聚类方法对SIFT特征进行聚类，聚类得到的每个聚类中心代表一个视觉单词，所述视觉单词组成视觉词典；

提取查询图像的SIFT特征，将SIFT特征映射到距离最近的视觉单词中，统计得到查询图像的视觉词汇直方图。

3.根据权利要求2所述的基于视觉词典优化和查询扩展的图像检索方法，其特征在于，所述基于密度的聚类方法指通过寻找合适的密度峰值点确定聚类中心，所述聚类中心满足以下条件：聚类中心的密度大于临近数据点的密度；与其它密度更大的数据点距离相距较远。

4.根据权利要求3所述的基于视觉词典优化和查询扩展的图像检索方法，其特征在于，所述利用基于密度的聚类方法对SIFT特征进行聚类，包括：

步骤1，对待聚类的数据集中数据点x_i，定义ρ_i表示数据点x_i的局部密度，定义δ_i表示距x_i最近且密度更高点的距离；

ρ_i表达式如下所示：

$<mrow> <msub> <mi>ρ</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mi>Σ</mi> <mi>j</mi> </munder> <mi>χ</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>d</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow>$

其中，d_ij为数据集S的数据点x_i与x_j的距离，d_c是设定的距离阈值，局部密度ρ_i实质是S中与x_i距离不超过d_c的数据点个数；

δ_i表达式如下所示：

$<mrow> <msub> <mi>δ</mi> <mi>i</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>j</mi> <mo>:</mo> <msub> <mi>ρ</mi> <mi>j</mi> </msub> <mo>></mo> <msub> <mi>ρ</mi> <mi>i</mi> </msub> </mrow> </munder> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <msub> <mi>ρ</mi> <mi>i</mi> </msub> <mo><</mo> <msub> <mi>ρ</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mi>j</mi> </munder> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <msub> <mi>ρ</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>ρ</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>$

其中，δ_i的物理意义是在局部密度大于ρ_i的数据点中寻找与x_i最近点的距离，其值越大，表示x_i与其它高密度点距离越远，则x_i越有可能成为聚类中心；当x_i为密度最大点时，δ_i等于与x_i相距最远点的距离，该值远远大于其它高密度点的δ值；

步骤2，定义γ_i＝ρ_iδ_i作为选取聚类中心的衡量指标，对进行降序排列，选取前若干个数据点作为聚类中心。

5.根据权利要求1所述的基于视觉词典优化和查询扩展的图像检索方法，其特征在于，所述利用卡方模型获取视觉单词与各目标图像类别相关性，通过如下计算公式实现：

$<mrow> <msubsup> <mi>x</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mo>=</mo> <munderover> <mo>Σ</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>2</mn> </munderover> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mfrac> <msup> <mrow> <mo>(</mo> <mi>N</mi> <mo>·</mo> <msub> <mi>n</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>n</mi> <mrow> <mi>k</mi> <mo>+</mo> </mrow> </msub> <mo>·</mo> <msub> <mi>n</mi> <mrow> <mo>+</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mi>N</mi> <mo>·</mo> <msub> <mi>n</mi> <mrow> <mi>k</mi> <mo>+</mo> </mrow> </msub> <mo>·</mo> <msub> <mi>n</mi> <mrow> <mo>+</mo> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow>$

其中，卡方值代表视觉单词w_i与各图像类别间统计相关性的大小，卡方值越大说明w_i与各图像类别相关性越大，卡方值越小说明视觉单词w_i与各图像类别相关性越小；n_1j表示图像类别C_j中包含w_i的图像数目，n_2j表示图像类别C_j中不包含w_i的图像数目，w_i出现的频次独立于图像类别C_j,n_k+分别表示图像集中包含w_i和不包含w_i的图像数目；n_+j表示图像类别C_j中的图像数目，N为图像集中图像总数目。

6.根据权利要求5所述的基于视觉词典优化和查询扩展的图像检索方法，其特征在于，所述结合相关性和视觉单词词频过滤掉与目标图像类别无关的视觉停用词，通过对卡方值进行加权并过滤加权后的卡方值实现，加权后的卡方值的表达式如下：

$<mrow> <msubsup> <mover> <mi>x</mi> <mo>~</mo> </mover> <mi>i</mi> <mn>2</mn> </msubsup> <mo>=</mo> <mfrac> <msubsup> <mi>x</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mrow> <mi>t</mi> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>$

其中，tf(w_i)表示视觉单词w_i的词频,表示w_i的卡方值，表示w_i加权后的卡方值。

7.根据权利要求1所述的基于视觉词典优化和查询扩展的图像检索方法，其特征在于，所述根据视觉词汇直方图之间的相似性确定互相关图像，找到与查询图像相关的密度最大子图，利用最大密度子图查找算法在连接图中查找查询图像的信任图像，对初始检索结果进行重排序，得到最终检索结果，包括：

步骤1，利用初始检索结果图像中前k幅图像的任一图像i的视觉词汇直方图f_i进行相似性匹配得到k近邻图像集N_k(i)，定义互为对方的k近邻图像集中元素的图像对为互相关图像R_k(i,i')，如下：

R_k(i,i')＝i∈N_k(i')∩i'∈N_k(i)

步骤2，根据R_k(i,i')构造图G＝(V,E,W)；其中，V表示顶点集，每一个顶点表示一幅图像，E表示由连接顶点的边组成的集合，W中的元素为边的权重，k为近邻数目，任意两图像i和i'之间的连接权重计算公式如下所示：

$<mrow> <mi>w</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <msup> <mi>i</mi> <mo>′</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mfrac> <mrow> <msub> <mi>N</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>∩</mo> <msub> <mi>N</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>i</mi> <mo>′</mo> </msup> <mo>)</mo> </mrow> </mrow> <mi>k</mi> </mfrac> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <msup> <mi>i</mi> <mo>′</mo> </msup> <mo>)</mo> </mrow> <mo>&Element;</mo> <msub> <mi>R</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <msup> <mi>i</mi> <mo>′</mo> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>$

步骤3，根据连接权重在图G＝(V,E,W)中寻找与查询图像相关的密度最大子图；

步骤4，将密度最大子图顶点所代表的图像依据与查询图像的相关性大小进行降序排列，选取前N_c幅图像作为新的查询图像，计算扩展查询结果与查询图像的相似性s_i，如下：

$<mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>{</mo> <msup> <mi>β</mi> <mi>n</mi> </msup> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>f</mi> <mi>n</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> <msubsup> <mi>σ</mi> <mi>n</mi> <mn>2</mn> </msubsup> </mfrac> <mo>|</mo> <mi>n</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>N</mi> <mi>c</mi> </msub> <mo>}</mo> </mrow>$

其中，f_i为图像i的视觉词汇直方图，图像β＝0.99，

步骤5，根据s_i的大小进行重排序得到最终检索结果。

完整全部详细技术资料下载

当前第2页1 2 3