一种基于深度学习的手绘草图以图搜图方法与流程

文档序号：18740298发布日期：2019-09-21 01:41阅读：401来源：国知局

本发明涉及图形检索技术领域，具体为一种基于深度学习的手绘草图以图搜图方法。

背景技术：

以图搜图，是通过输入一张图片来搜索相似的图片的一种技术，为用户提供相关图形图像资料检索的搜索技术。涉及了数据库、数据缓存、计算机视觉、图像处理、信息检索等诸多学科。其重点技术在于特征表示和相似性度量。以图搜图服务在大数据图像检索、互联网图片素材搜索、购物搜索等多种领域都有广泛应用。目前，采用基于深度神经网络的分类器能够在视觉任务上取得十分理想的效果。

Karen Simonyan和Andrew Zisserman提出一种用于分类的深度神经网络结构，被称为VGG(Visual Geometry Group)网络，该网络有很强的特征抽取能力，在分类和检测以及其他视觉任务上表现良好；VGG网络的隐层特征包含了一定的视觉特征和语义信息。

感知哈希(Perceptual Hash)是一种根据图片内容和特征抽取其消息摘要的技术。与密码学哈希不同，密码学哈希对于输入的极为微小的变化都会产生差别很大的哈希值，而感知哈希的特点是如果两幅图片相似，那么它们的感知哈希值也相近。感知哈希在图像信息检索技术中广泛采用，传统以图搜图技术往往采用感知哈希进行图像特征提取。

对于基于深度学习的以图搜图算法,通过神经网络组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。它显著的优点是可抽象出高级特征，构建出复杂高性能的模型。采用VGG网络的中间层进行特征抽取有效的解决了特征抽取问题。

Saining Xie和Zhuowen Tu提出了一种用于边缘检测的深度神经网络HED(Holistically-nested Edge Detection)，该网络通过结合不同尺度的特征进行边缘提取，取得良好的效果，其结果相较于传统的边缘检测算子更加的自然。

但是传统的以图搜图都是通过现有的图片进行搜索，然而存在一类情况，即作为搜索请求的图片并不存在，只有人为概念性表达的手绘草图，人们希望通过简单的手绘草图搜索出形式或者概念上相匹配的图片。为解决现有技术的缺点和不足，本发明提出一种基于深度迁移学习的手绘草图搜索技术，运用深度神经网络提取图片的线条特征，用按位汉明距离进行相似性度量，从而实现高性能的相似度计算。

技术实现要素：

本发明的目的在于提供一种基于深度学习的手绘草图以图搜图方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于深度学习的手绘草图以图搜图方法，包括以下操作步骤：

S1：利用训练边缘特征提取器构建一个神经网络用于提取图像边缘，通过边缘特征数据进行训练，之后该神经网络可以作为图像边缘信息提取器提取图像的边缘的信息；

S2：利用获取深度特征提取器通过训练或者直接使用预训练的深度神经网络，将其中间层的特征作为深度特征；

S3：将图像数据库中的图片输入边缘特征提取器获得边缘特征，再将该边缘特征输入深度特征提取器，得到一张图像的线条特征表示向量，通过图像特征持久化服务进行储存，用图片ID进行索引；

S4：通过读取图像特征持久化服务的数据，将待搜索的图像边缘深度特征向量进行二值化压缩后缓存到以图搜图引擎中；

S5：进行搜索请求时，将用户输入的手绘草图送入特征提取器，得到线条特征表示向量，用该特征向量以及所需要的最相似图片数量向以图搜图引擎进行请求，以图搜图引擎获得特征向量之后进行二值化处理，然后将该特征与缓存中的图像特征进行相似度计算，将相应请求数量的最相似的图片ID按相似度进行排序后向图像数据库进行请求，通过ID索引图片之后将结果返回给请求者。

优选的，该搜图方法基于一种搜图系统，所述搜图系统包括图像数据库、深度特征提取器、图像边缘特征提取器、图像特征持久化存储服务和图像特征搜索引擎。

优选的，所述获取深度特征提取器的编码特征需要具有良好的内容表示能力，能将图片之间的相似性映射为欧式度量下的距离大小。

优选的，所述S1)中利用训练边缘特征提取器提取图像边缘，包括以下操作步骤：

S11：下载边缘检测数据集，依照HED网络搭建多层深度卷积网络；深度卷积网络包含大量的卷积层，最后一层输出单通道包含图像边缘特征的图片；

S12：裁剪、缩放图片以满足网络的输入要求，这里要求输入长款比为1比1的固定尺寸；

S13：采用Adam优化器，采用平方误差函数作为损失函数训练深度神经网络；平方误差函数表示为：

其中，output代表网络的输出，true_edge代表人工标注的真实图像边缘。

优选的，所述S2)中采用VGG16深度神经网络中间特征层作为深度特征提取器，包括以下操作步骤：

S21：获取在ImageNet数据集上预训练的VGG16神经网络；

S22：去掉其非线性分类器，直接输出其中间层编码特征，得到的深度特征为属于R¹的向量。

优选的，所述S3)中对于深度特征向量的每个分量，大于0的置1，小于等于0的置0；构建定长比特数组，在相应的比特位上置1或者置0，得到压缩的特征表示作为输出。

优选的，所述S5)中在搜索引擎中进行图像相似度计算，包括以下操作步骤：

S51：将该特征进行二值化后与缓存的图片特征进行按位异或运算；统计结果中比特位上1的个数，得到该请求图片与缓存图片的汉明距离，将图片ID按距离排序；

S52：请求时，所需求的图片数量n会作为参数传入，搜索引擎取距离最小的前n张图片的ID输出；

S53：搜索引擎根据输出的图片ID向图片数据库查询图片地址，并根据图像类别进行归类和聚合，最终将图片地址返回给请求者；

优选的，所述Adam优化器，其迭代更新规则为：

mt＝β1mt-1+(1-β1)gt

其中β1＝0.9，β2＝0.999，∈＝10^-8

与现有技术相比，本发明的有益效果是：包括以下几个方面：

一、本发明通过深度学习进行边缘提取，相比于传统通过算子进行的边缘检测，本发明提出的方法能较好的抽象出图片的边缘特征，更加符合人类对于草图的理解和观感。

二、本发明充分利用了深度卷积网络的特征抽取能力，避免了人工设计特征，抽取的特征性质较好。

三、本发明使用按位汉明距离进行相似度度量，通过优化可以获得非常高的搜索性能。

四、本发明在进行搜索请求时不需要提供实际存在的照片，只需要提供草图即可，极大的方便用户使用。

五、本发明可以将搜索结果分类，使得用户可以更加精准的查看搜索结果。

附图说明

图1为本发明的整体框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“竖直”、“上”、“下”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1，本发明提供一种技术方案：一种基于深度学习的手绘草图以图搜图方法，包括以下操作步骤：

S2：利用获取深度特征提取器通过训练或者直接使用预训练的深度神经网络，将其中间层的特征作为深度特征；

S4：通过读取图像特征持久化服务的数据，将待搜索的图像边缘深度特征向量进行二值化压缩后缓存到以图搜图引擎中；

进一步的，该搜图方法基于一种搜图系统，所述搜图系统包括图像数据库、深度特征提取器、图像边缘特征提取器、图像特征持久化存储服务和图像特征搜索引擎。

进一步的，所述获取深度特征提取器的编码特征需要具有良好的内容表示能力，能将图片之间的相似性映射为欧式度量下的距离大小。

进一步的，所述S1)中利用训练边缘特征提取器提取图像边缘，包括以下操作步骤：

S11：下载边缘检测数据集，依照HED网络搭建多层深度卷积网络；深度卷积网络包含大量的卷积层，最后一层输出单通道包含图像边缘特征的图片；

S12：裁剪、缩放图片以满足网络的输入要求，这里要求输入长款比为1比1的固定尺寸；

S13：采用Adam优化器，采用平方误差函数作为损失函数训练深度神经网络；平方误差函数表示为：

其中，output代表网络的输出，true_edge代表人工标注的真实图像边缘。

进一步的，所述S2)中采用VGG16深度神经网络中间特征层作为深度特征提取器，包括以下操作步骤：

S21：获取在ImageNet数据集上预训练的VGG16神经网络；

S22：去掉其非线性分类器，直接输出其中间层编码特征，得到的深度特征为属于R¹的向量。

进一步的，所述S3)中对于深度特征向量的每个分量，大于0的置1，小于等于0的置0；构建定长比特数组，在相应的比特位上置1或者置0，得到压缩的特征表示作为输出。

进一步的，所述S5)中在搜索引擎中进行图像相似度计算，包括以下操作步骤：

S52：请求时，所需求的图片数量n会作为参数传入，搜索引擎取距离最小的前n张图片的ID输出；

S53：搜索引擎根据输出的图片ID向图片数据库查询图片地址，并根据图像类别进行归类和聚合，最终将图片地址返回给请求者；

进一步的，所述Adam优化器，其迭代更新规则为：

mt＝β1mt-1+(1-β1)gt

其中β1＝0.9，β2＝0，999，∈＝10^-8。

工作原理：利用训练边缘特征提取器构建一个神经网络用于提取图像边缘，通过边缘特征数据进行训练，之后该神经网络可以作为图像边缘信息提取器提取图像的边缘的信息；利用获取深度特征提取器通过训练或者直接使用预训练的深度神经网络，将其中间层的特征作为深度特征，将图像数据库中的图片输入边缘特征提取器获得边缘特征，再将该边缘特征输入深度特征提取器，得到一张图像的线条特征表示向量，通过图像特征持久化服务进行储存，用图片ID进行索引；通过读取图像特征持久化服务的数据，将待搜索的图像边缘深度特征向量进行二值化压缩后缓存到以图搜图引擎中；

进行搜索请求时，将用户输入的手绘草图送入特征提取器，得到线条特征表示向量，用该特征向量以及所需要的最相似图片数量向以图搜图引擎进行请求，以图搜图引擎获得特征向量之后进行二值化处理，然后将该特征与缓存中的图像特征进行相似度计算，将相应请求数量的最相似的图片ID按相似度进行排序后向图像数据库进行请求，通过ID索引图片之后将结果返回给请求者。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：洒海涛;韩炜
技术所有人：君库（上海）信息科技有限公司
我是此专利的发明人

上一篇：振动压路机节能控制系统、控制方法和振动压路机与流程
上一篇：一种工件铣削用铣槽机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。