一种基于无监督三元组散列的快速图像检索方法与流程

文档序号:11519829阅读:389来源:国知局
一种基于无监督三元组散列的快速图像检索方法与流程

本发明涉及图像检索领域,尤其是涉及了一种基于无监督三元组散列的快速图像检索方法。



背景技术:

随着信息数字化技术、多媒体技术的广泛应用,计算机网络、数字化图像设备如扫描仪、数字相机等技术的飞速发展,各行各业的大量信息都在以多媒体信息的方式被数字化。图像作为最基本、应用最广泛的多媒体信息,已经成为了大众化数字信息的一种形式,图像的相关技术已经广泛应用到工业制造、医疗卫生、新闻媒体、大众娱乐和家庭生活等各个方面。因此,面对着大量各式各样的图像数据库,我们需要对图像数据进行科学管理,于是,图像检索逐渐成为了人们研究的热点。传统的图像检索主要依靠关键字和文本信息进行搜索,需要由手工完成标注,图像包含的丰富内涵并非少量文本注释所能表达的,导致检索时出现歧义性,检索结果不能更好地符合人们的要求。

本发明提出了一种基于无监督三元组散列的快速图像检索方法,先提出了无监督三元组散列(uth)的构架,包括通过三元损失学习更多的图像检索表示法,最小化原始实值特征描述符和所学习的散列码之间的量化损失,保持较高的检索性能,以及最大化所学习的散列码的信息熵,尽可能多地传送信息。本发明提出无监督三元组散列(uth)构架,不需要经过标记的训练数据,不仅保持了原有的检索精度,还提高了检索的效率,能更好地符合人们的检索需求。



技术实现要素:

针对检索时出现歧义性等问题,本发明的目的在于提供一种基于无监督三元组散列的快速图像检索方法,先提出了无监督三元组散列(uth)的构架,包括通过三元损失学习更多的图像检索表示法,最小化原始实值特征描述符和所学习的散列码之间的量化损失,保持较高的检索性能,以及最大化所学习的散列码的信息熵,尽可能多地传送信息。

为解决上述问题,本发明提供一种基于无监督三元组散列的快速图像检索方法,其主要内容包括:

(一)无监督三元组散列(uth)的构架;

(二)无监督三元损失;

(三)量化损失;

(四)熵损失。

其中,所述的散列法,包括监督散列,半监督散列和无监督散列。

其中,所述的无监督三元组散列(uth)的构架,包含三个主要组成部分:

(1)通过三元损失学习更多的图像检索表示法;

(2)最小化原始实值特征描述符和所学习的散列码之间的量化损失,保持较高的检索性能;

(3)最大化所学习的散列码的信息熵,尽可能多地传送信息。

进一步地,所述的uth构架,同时实现以下三个目标:

(1)图像快速检索;

(2)精确的二进制特征描述符;

(3)最大化所学习的散列码信息。

进一步地,所述的整体损失函数,用表示三元损失函数,表示量化损失函数,表示熵损失函数;定义一个整体损失函数:

其中,α,β和γ是每个对象的参数。

其中,所述的无监督三元损失,为了确保散列码的辨别性,提出了一种无监督的三元组神经网络;训练集由未标记的数据构成;对于未标记集合中的每个图像、图像的旋转、来自数据集随机选择的图像及其本身形成三元组;可以假设图像与图像的旋转之间的距离小于对图像的随机选择的图像的距离。

进一步地,所述的三元损失函数,令(p,p+,p-)表示三元态;表示散列函数;具体地说,是锚图像的特征,分别是旋转图像和随机图像的特征;三元损失函数写为:

其中,表示两个对象之间的欧几里德距离,使用l2范数(测度空间上的平方可积函数构成的函数空间)来计算距离,m表示选择的边距;

在准备训练数据集时,以训练集合中的每个图像p旋转一定程度,形成一个p+,并随机选择除了自身以外的一个图像,形成一个p-,从而构成一个三元组(p,p+,p-)。

其中,所述的量化损失,为了学习多个非线性散列函数,添加一个激活层,然后是散列层;选择修正线性单元(relu)为激活函数,通过量化输出特征,生成二进制散列码;量化规则如下所示:

将阈值设置为0.5,并添加约束来缩小图像特征量化前后的检索性能之间的差距。

进一步地,所述的最小量化损失,最小量化损失即被定义为:

其中,n是训练数据的数量,m是散列码的长度;

损失函数(4)将每个维度的实际值推送到0或1,因此通过使用量化图像特征(即散列码)的检索性能,使实数值图像特征近似于性能。

其中,所述的熵损失,根据信息理论,当信息在代码中的每个位之间均匀分布时,达到最高熵;因此,较高的熵意味着代码携带更多的信息;添加一个约束来推动输出二进制代码中的每一位均匀分布;因此,最大熵损失表示为:

将等式(2),(4)和(5)代入方程(1),可以得到总损耗函数。

附图说明

图1是本发明一种基于无监督三元组散列的快速图像检索方法的系统框架图。

图2是本发明一种基于无监督三元组散列的快速图像检索方法的无监督三元组散列(uth)构架。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于无监督三元组散列的快速图像检索方法的系统框架图。主要包括无监督三元组散列(uth)的构架,无监督三元损失,量化损失和熵损失。

散列法包括监督散列,半监督散列和无监督散列。

无监督三元损失,为了确保散列码的辨别性,提出了一种无监督的三元组神经网络;训练集由未标记的数据构成;对于未标记集合中的每个图像、图像的旋转、来自数据集随机选择的图像及其本身形成三元组;可以假设图像与图像的旋转之间的距离小于对图像的随机选择的图像的距离。

令(p,p+,p-)表示三元态;表示散列函数;具体地说,是锚图像的特征,分别是旋转图像和随机图像的特征;三元损失函数写为:

其中,表示两个对象之间的欧几里德距离,使用l2范数(测度空间上的平方可积函数构成的函数空间)来计算距离,m表示选择的边距;

在准备训练数据集时,以训练集合中的每个图像p旋转一定程度,形成一个p+,并随机选择除了自身以外的一个图像,形成一个p-,从而构成一个三元组(p,p+,p-)。

量化损失,为了学习多个非线性散列函数,添加一个激活层,然后是散列层;选择修正线性单元(relu)为激活函数,通过量化输出特征,生成二进制散列码;量化规则如下所示:

将阈值设置为0.5,并添加约束来缩小图像特征量化前后的检索性能之间的差距。

最小量化损失即被定义为:

其中,n是训练数据的数量,m是散列码的长度;

损失函数(3)将每个维度的实际值推送到0或1,因此通过使用量化图像特征(即散列码)的检索性能,使实数值图像特征近似于性能。

熵损失,根据信息理论,当信息在代码中的每个位之间均匀分布时,达到最高熵;因此,较高的熵意味着代码携带更多的信息;添加一个约束来推动输出二进制代码中的每一位均匀分布;因此,最大熵损失表示为:

将等式(1),(3)和(4)代入方程(5),可以得到总损耗函数。

图2是本发明一种基于无监督三元组散列的快速图像检索方法的无监督三元组散列(uth)构架。uth包含三个主要组成部分:

(1)通过三元损失学习更多的图像检索表示法;

(2)最小化原始实值特征描述符和所学习的散列码之间的量化损失,保持较高的检索性能;

(3)最大化所学习的散列码的信息熵,尽可能多地传送信息。

其同时实现以下三个目标:

(1)图像快速检索;

(2)精确的二进制特征描述符;

(3)最大化所学习的散列码信息。

表示三元损失函数,表示量化损失函数,表示熵损失函数;定义一个整体损失函数:

其中,α,β和γ是每个对象的参数。

对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1