1.一种利用三元组标签的深度监督散列进行图像检索方法,其特征在于,主要包括图像特征学习(一);散列码学习(二);损失函数(三);模型学习(四);输入图像获得外观相近的其他图像(五)。
2.基于权利要求书1所述的图像特征学习(一),其特征在于,采用卷积神经网络学习图像特征,所用的CNN-F网络架构,共有八层,其中最后一层被设计来学习类别标签的概率分布,故仅可使用CNN-F的前7层。
3.基于权利要求书1所述的散列码学习(二),其特征在于,旨在学习图像的散列码,用一个完全连接层输出图像的散列码,并且该层神经元的数量与目标散列码的长度相等,多个完全连接层或其他架构如分割和编码模块也可应用于此。
4.基于权利要求书3所述的散列码,其特征在于,一个散列码bn对应一个图像In,其中bn∈{+1,-1}L,L是散列码的长度,散列码应该在Hamming(汉明)空间中尽可能地满足所有三元组标签,更确切地,应该尽可能比小,其中distH(β,γ)表示两个二值码β和γ之间的Hamming距离。
5.基于权利要求书1所述的损失函数(三),其特征在于,评估所学习的散列码的质量,其中散列码通过计算给定三元组标签的似然性而得,并将损失函数定义为三元组标签似然性的负对数。
6.基于权利要求书5所述的三元组标签的似然性,其特征在于,通过最大化三元组标签似然性,可以使查询图像和正图像之间的汉明距离比和负图像之间的更小,并给出如下公式及证明,
令θij表示两个散列码bi,bj∈{+1,-1}L点积的一半:
然后将三元组标签似然性公式化为:
以及
其中σ(x)是S形函数α是差值,一个正的超参数,是所有散列码的集合;
首先证明两个二值码之间的汉明距离与其内积之间有以下关系:
根据式4,有
根据式3,可知越大,越大,因为α是一个常数,所以越大,越小,即通过最大化三元组标签似然性保持了查询图像,正图像和负图像之间的相对相似性。
7.基于权利要求书5所述的损失函数的定义,其特征在于,三元组标签似然性的负对数的定义如下:
将式3代入上等式,可得到:
要最小化(7)中定义的损失,将二值码{bn}松弛到真矢量{un},并且重新定义θij为
损失函数即化为
其中λ是平衡三元组似然性的负对数和量化误差的超参数,bn=sgn(un),其中sgn()是符号函数且当时,等于1,否则等于-1。
8.基于权利要求书1所述的模型学习(四),其特征在于,模型由前述三个关键部分组成,集成的网络由三个具有相同架构和共享权重的子网络组成,将三元组图像作为输入,输出图像的散列码。
9.基于权利要求书8所述的网络,其特征在于,此网络通过最小化损失函数得到训练:
其中θ表示子网络的所有参数,un是子网络第n个训练图像的输出,bn=sgn(un),可见L关于un是可积分的,因此,反向传播算法可以应用于此以使损失函数最小化;
一旦训练完成,即可应用模型来为新的图像生成散列码,对于一个新图像I,将其传递到训练过的子网络,并取最后一层u的输出,则图像I的散列码b则有b=sgn(u)。
10.基于权利要求书1所述的输入图像获得外观相近的其他图像(五),其特征在于,将一幅图像输入到搜索引擎中,返回的结果是数据库图像中与输入图像外观相近的其他图像。