一种利用三元组标签的深度监督散列进行图像检索方法与流程

文档序号:11155634阅读:来源:国知局

技术特征:

1.一种利用三元组标签的深度监督散列进行图像检索方法,其特征在于,主要包括图像特征学习(一);散列码学习(二);损失函数(三);模型学习(四);输入图像获得外观相近的其他图像(五)。

2.基于权利要求书1所述的图像特征学习(一),其特征在于,采用卷积神经网络学习图像特征,所用的CNN-F网络架构,共有八层,其中最后一层被设计来学习类别标签的概率分布,故仅可使用CNN-F的前7层。

3.基于权利要求书1所述的散列码学习(二),其特征在于,旨在学习图像的散列码,用一个完全连接层输出图像的散列码,并且该层神经元的数量与目标散列码的长度相等,多个完全连接层或其他架构如分割和编码模块也可应用于此。

4.基于权利要求书3所述的散列码,其特征在于,一个散列码bn对应一个图像In,其中bn∈{+1,-1}L,L是散列码的长度,散列码应该在Hamming(汉明)空间中尽可能地满足所有三元组标签,更确切地,应该尽可能比小,其中distH(β,γ)表示两个二值码β和γ之间的Hamming距离。

5.基于权利要求书1所述的损失函数(三),其特征在于,评估所学习的散列码的质量,其中散列码通过计算给定三元组标签的似然性而得,并将损失函数定义为三元组标签似然性的负对数。

6.基于权利要求书5所述的三元组标签的似然性,其特征在于,通过最大化三元组标签似然性,可以使查询图像和正图像之间的汉明距离比和负图像之间的更小,并给出如下公式及证明,

令θij表示两个散列码bi,bj∈{+1,-1}L点积的一半:

<mrow> <msub> <mi>&theta;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msubsup> <mi>b</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

然后将三元组标签似然性公式化为:

以及

其中σ(x)是S形函数α是差值,一个正的超参数,是所有散列码的集合;

首先证明两个二值码之间的汉明距离与其内积之间有以下关系:

<mrow> <msub> <mi>dist</mi> <mi>H</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mrow> <mo>(</mo> <mi>L</mi> <mo>-</mo> <mn>2</mn> <msub> <mi>&theta;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

根据式4,有

<mrow> <msub> <mi>dist</mi> <mi>H</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>b</mi> <msub> <mi>q</mi> <mi>m</mi> </msub> </msub> <mo>,</mo> <msub> <mi>b</mi> <msub> <mi>p</mi> <mi>m</mi> </msub> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>dist</mi> <mi>H</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>b</mi> <msub> <mi>q</mi> <mi>m</mi> </msub> </msub> <mo>,</mo> <msub> <mi>b</mi> <msub> <mi>n</mi> <mi>m</mi> </msub> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>p</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <msub> <mi>&theta;</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>n</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

根据式3,可知越大,越大,因为α是一个常数,所以越大,越小,即通过最大化三元组标签似然性保持了查询图像,正图像和负图像之间的相对相似性。

7.基于权利要求书5所述的损失函数的定义,其特征在于,三元组标签似然性的负对数的定义如下:

将式3代入上等式,可得到:

<mrow> <mi>L</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>p</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <msub> <mi>&theta;</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>n</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <mi>&alpha;</mi> <mo>-</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>(</mo> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <msub> <mi>&theta;</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>p</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <msub> <mi>&theta;</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>n</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <mi>&alpha;</mi> </mrow> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

要最小化(7)中定义的损失,将二值码{bn}松弛到真矢量{un},并且重新定义θij

<mrow> <msub> <mi>&theta;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msubsup> <mi>u</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

损失函数即化为

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>L</mi> <mo>=</mo> <mo>-</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>p</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <msub> <mi>&theta;</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>n</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <mi>&alpha;</mi> <mo>-</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>(</mo> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <msub> <mi>&theta;</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>p</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <msub> <mi>&theta;</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>n</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <mi>&alpha;</mi> </mrow> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <mi>&lambda;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>|</mo> <mo>|</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>n</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

其中λ是平衡三元组似然性的负对数和量化误差的超参数,bn=sgn(un),其中sgn()是符号函数且当时,等于1,否则等于-1。

8.基于权利要求书1所述的模型学习(四),其特征在于,模型由前述三个关键部分组成,集成的网络由三个具有相同架构和共享权重的子网络组成,将三元组图像作为输入,输出图像的散列码。

9.基于权利要求书8所述的网络,其特征在于,此网络通过最小化损失函数得到训练:

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>p</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <msub> <mi>&theta;</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>n</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <mi>&alpha;</mi> <mo>-</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>(</mo> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <msub> <mi>&theta;</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>p</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <msub> <mi>&theta;</mi> <mrow> <msub> <mi>q</mi> <mi>m</mi> </msub> <msub> <mi>n</mi> <mi>m</mi> </msub> </mrow> </msub> <mo>-</mo> <mi>&alpha;</mi> </mrow> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <mi>&lambda;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>|</mo> <mo>|</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>n</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

其中θ表示子网络的所有参数,un是子网络第n个训练图像的输出,bn=sgn(un),可见L关于un是可积分的,因此,反向传播算法可以应用于此以使损失函数最小化;

一旦训练完成,即可应用模型来为新的图像生成散列码,对于一个新图像I,将其传递到训练过的子网络,并取最后一层u的输出,则图像I的散列码b则有b=sgn(u)。

10.基于权利要求书1所述的输入图像获得外观相近的其他图像(五),其特征在于,将一幅图像输入到搜索引擎中,返回的结果是数据库图像中与输入图像外观相近的其他图像。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1