一种利用三元组标签的深度监督散列进行图像检索方法与流程

文档序号：11155634阅读：来源：国知局

技术特征：

1.一种利用三元组标签的深度监督散列进行图像检索方法，其特征在于，主要包括图像特征学习(一)；散列码学习(二)；损失函数(三)；模型学习(四)；输入图像获得外观相近的其他图像(五)。

2.基于权利要求书1所述的图像特征学习(一)，其特征在于，采用卷积神经网络学习图像特征，所用的CNN-F网络架构，共有八层，其中最后一层被设计来学习类别标签的概率分布，故仅可使用CNN-F的前7层。

3.基于权利要求书1所述的散列码学习(二)，其特征在于，旨在学习图像的散列码，用一个完全连接层输出图像的散列码，并且该层神经元的数量与目标散列码的长度相等，多个完全连接层或其他架构如分割和编码模块也可应用于此。

4.基于权利要求书3所述的散列码，其特征在于，一个散列码b_n对应一个图像I_n，其中b_n∈{+1，-1}^L，L是散列码的长度，散列码应该在Hamming(汉明)空间中尽可能地满足所有三元组标签，更确切地，应该尽可能比小，其中dist_H(β，γ)表示两个二值码β和γ之间的Hamming距离。

5.基于权利要求书1所述的损失函数(三)，其特征在于，评估所学习的散列码的质量，其中散列码通过计算给定三元组标签的似然性而得，并将损失函数定义为三元组标签似然性的负对数。

6.基于权利要求书5所述的三元组标签的似然性，其特征在于，通过最大化三元组标签似然性，可以使查询图像和正图像之间的汉明距离比和负图像之间的更小，并给出如下公式及证明，

令θ_ij表示两个散列码b_i，b_j∈{+1，-1}^L点积的一半：

$<mrow> <msub> <mi>θ</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msubsup> <mi>b</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

然后将三元组标签似然性公式化为：

以及

其中σ(x)是S形函数α是差值，一个正的超参数，是所有散列码的集合；

首先证明两个二值码之间的汉明距离与其内积之间有以下关系：

$<mrow> <msub> <mi>dist</mi> <mi>H</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mrow> <mo>(</mo> <mi>L</mi> <mo>-</mo> <mn>2</mn> <msub> <mi>θ</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>$

根据式4，有

$<mrow> <msub> <mi>dist</mi> <mi>H</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>b</mi> <msub> <mi>q</mi> <mi>m</mi> </msub> </msub> <mo>,</mo> <msub> <mi>b</mi> <msub> <mi>p</mi> <mi>m</mi> </msub> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>dist</mi> <mi>H</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>b</mi> <msub> <mi>q</mi> <mi>m</mi> </msub> </msub> <mo>,</mo> <msub> <mi>b</mi> <msub> <mi>n</mi> <mi>m</mi> </msub> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mrow> <mo>(</mo> <msub> <mi>θ</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>p</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <msub> <mi>θ</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>n</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>$

根据式3，可知越大，越大，因为α是一个常数，所以越大，越小，即通过最大化三元组标签似然性保持了查询图像，正图像和负图像之间的相对相似性。

7.基于权利要求书5所述的损失函数的定义，其特征在于，三元组标签似然性的负对数的定义如下：

将式3代入上等式，可得到：

$<mrow> <mi>L</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>Σ</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>θ</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>p</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <msub> <mi>θ</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>n</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <mi>α</mi> <mo>-</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>(</mo> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <msub> <mi>θ</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>p</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <msub> <mi>θ</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>n</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <mi>α</mi> </mrow> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>$

要最小化(7)中定义的损失，将二值码{b_n}松弛到真矢量{u_n}，并且重新定义θ_ij为

$<mrow> <msub> <mi>θ</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msubsup> <mi>u</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>$

损失函数即化为

$<mrow> <mtable> <mtr> <mtd> <mrow> <mi>L</mi> <mo>=</mo> <mo>-</mo> <msubsup> <mo>Σ</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>θ</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>p</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <msub> <mi>θ</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>n</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <mi>α</mi> <mo>-</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>(</mo> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <msub> <mi>θ</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>p</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <msub> <mi>θ</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>n</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <mi>α</mi> </mrow> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <mi>λ</mi> <munderover> <mo>Σ</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>|</mo> <mo>|</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>n</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>$

其中λ是平衡三元组似然性的负对数和量化误差的超参数，b_n＝sgn(u_n)，其中sgn()是符号函数且当时，等于1，否则等于-1。

8.基于权利要求书1所述的模型学习(四)，其特征在于，模型由前述三个关键部分组成，集成的网络由三个具有相同架构和共享权重的子网络组成，将三元组图像作为输入，输出图像的散列码。

9.基于权利要求书8所述的网络，其特征在于，此网络通过最小化损失函数得到训练：

$<mrow> <mtable> <mtr> <mtd> <mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>θ</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msubsup> <mo>Σ</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>θ</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>p</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <msub> <mi>θ</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>n</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <mi>α</mi> <mo>-</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>(</mo> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <msub> <mi>θ</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>p</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <msub> <mi>θ</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>n</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <mi>α</mi> </mrow> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <mi>λ</mi> <munderover> <mo>Σ</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>|</mo> <mo>|</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>n</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>$

其中θ表示子网络的所有参数，u_n是子网络第n个训练图像的输出，b_n＝sgn(u_n)，可见L关于u_n是可积分的，因此，反向传播算法可以应用于此以使损失函数最小化；

一旦训练完成，即可应用模型来为新的图像生成散列码，对于一个新图像I，将其传递到训练过的子网络，并取最后一层u的输出，则图像I的散列码b则有b＝sgn(u)。

10.基于权利要求书1所述的输入图像获得外观相近的其他图像(五)，其特征在于，将一幅图像输入到搜索引擎中，返回的结果是数据库图像中与输入图像外观相近的其他图像。

完整全部详细技术资料下载

当前第2页1 2 3