一种绘画图像检索方法及装置与流程

文档序号：12864200阅读：357来源：国知局

本发明涉及图像检索领域，特别涉及一种绘画图像检索方法及装置。

背景技术：

随着人们生活水平的不断提高，艺术品爱好者逐年增多。大部分艺术品爱好者知识积累有限，亟需有效的工具帮助其进行艺术品的鉴赏。假设爱好者有一幅绘画作品，但不知该作品的历史和特点。爱好者可以利用图像搜索技术，搜寻到与该作品最相似的作品，从而找到相关的背景知识和专业评论。

目前主流的图像检索方法主要分为两类：基于关键字的方法和基于图像内容的方法。基于关键字的图像检索方法根据用户输入的文字，搜索相似文字关联的图像。由于用户难以对绘画作品进行准确描述，且与文字关联的图像常常风马牛不相及，所以这种方法不适合用在绘画图像检索的场景。基于图像内容的图像检索方法无需文字描述，直接从图像中提取描述图像特点的特征向量，然后利用特征向量之间的差异进行检索。现有的图像特征描述方法一般采用人工设计的方法提取颜色、梯度和纹理信息，如方向梯度直方图(hog，histogramoforientedgridients)和局部二值模式(lbp，localbinarypattern)。这些特征容易受到光照和非线性形变等的影响，使得检索精度难以满足实际需求。

因此，如何克服复杂光照和非线性形变等对绘画图像的影响，进行更精确的绘画图像检索，是有待解决的技术难题。

技术实现要素：

本发明的目的是针对上述现有技术中存在的问题，提供一种基于深度卷积神经网络的绘画图像检索方法及装置。

为了实现上述目的，本发明提出的基于深度卷积神经网络的绘画图像检索方法包括以下步骤：

步骤s1，构建绘画图像训练样本集，所述图像训练样本集中包含同一幅绘画作品对应的多个绘画图像训练样本，并且所述图像训练样本集中的每一绘画图像训练样本的图像类别按精分类和粗分类进行标记；

步骤s2，构建绘画图像特征提取器，基于深度卷积神经网络自动从训练样本集中学习精分类特征和粗分类特征，对深度卷积神经网络进行训练，获得绘画图像训练样本的绘画图像特征向量并存储至绘画图像特征数据库中；

步骤s3，利用构建的绘画图像特征提取器提取待检索绘画图像的特征向量；以及

步骤s4，计算待检索绘画图像的特征向量与绘画图像特征数据库中每一个绘画图像特征向量之间的距离，基于计算出的距离得到图像检索结果。

优选地，所述精分类特征对应于一幅绘画作品的纹理特征，所述粗分类特征对应于绘画作品所属的画种或题材内容种类特征。

优选地，所述基于深度卷积神经网络自动从训练样本集中学习最具区分力的精分类特征和粗分类特征的步骤包括：基于精分类深度卷积神经网络自动从训练样本集中学习精分类特征，得到精分类特征向量；以及基于粗分类深度卷积神经网络自动从训练样本集中学习粗分类特征，得到粗分类特征向量。

优选地，所述获得绘画图像训练样本的绘画图像特征向量的步骤包括：绘画图像特征提取器将精分类特征向量和粗分类特征向量串联后得到绘画图像特征向量。

优选地，所述构建绘画图像训练样本集的步骤包括：对绘画作品进行以下中的一种或多种变换来丰富训练样本：颜色变换、平移变换、尺度变换以及旋转变换。

优选地，本发明使用的深度卷积神经网络的卷积层和池化层对图像的平移、缩放和扭曲等变化高度鲁棒，通过扰动增多训练样本进一步增强了绘画图像特征提取器对光照和形变的鲁棒性。

优选地，所述深度卷积神经网络的神经元采用修正线性单元relu函数或双曲正切函数作为激活函数；通过反向传播算法最小化来优化深度卷积神经网络。

本发明还提供了一种绘画图像检索装置，该装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行如上所述的绘画图像检索方法中的步骤。

本发明提出一种基于深度卷积神经网络的绘画图像检索方法。本发明所述方法对于提高绘画图像检索系统中图像检索的精度和鲁棒性具有重要的意义，其主要优点如下

(1)本发明使用的深度卷积神经网络方法，自动从训练样本中学习出极具区分力的图像表观特征，避免了传统图像检索方法手工设计特征的局限性。

(2)本发明使用的深度卷积神经网络的卷积层和池化层对图像的平移、缩放和扭曲等变化高度鲁棒，并通过扰动增多训练样本进一步增强绘画图像特征提取器对光照和形变的鲁棒性。

(3)本发明融合精分类和粗分类特征，同时考虑图像纹理细节和全局语义信息，显著提高了图像特征的表达能力，有效提高了图像检索的精度和鲁棒性。

(4)本发明提出的绘画图像检索方法便于应用到各种不同艺术品图像检索系统中。实际应用时，只需针对特定类别艺术品准备一些具有代表性的训练样本，并根据艺术品的特点设计粗分类方式，经过训练得到的图像特征提取器就可以进行准确的图像检索。

得益于上述优点，本发明能够克服复杂光照和非线性形变对绘画图像的影响，提高了绘画图像检索系统的精度、鲁棒性和易用性。本发明可广泛用于绘画作品的鉴赏和拍卖等场景。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

参考附图，本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明，在附图中：

图1是本发明一实施例中基于深度卷积神经网络的绘画图像检索方法算法流程示意图。

图2是本发明一实施例中深度卷积神经网络结构图。

图3是本发明一实施例中基于深度卷积神经网络的绘画图像特征提取器示意图。

具体实施方式

下面，对本发明的优选实施方式进行详细说明。这些优选实施方式的示例在附图中进行了例示。附图中所示和根据附图描述的本发明的实施方式仅仅是示例性的，并且本发明的技术精神及其主要操作不限于这些实施方式。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

目前，基于深度卷积神经网络的深度学习技术具有极强的自主学习能力和高度的非线性映射，从而为设计复杂的高精度高速度的自动识别提供了可能。发明人发现，深度卷积神经网络可以从大量标记样本中自动学习特征提取滤波器，采用权值共享和下采样结构使得其对图像的平移、缩放和扭曲等变化高度鲁棒。但深度卷积神经网络的成功依赖于大数据的支撑。由于绘画图像样本较少，现有的深度卷积神经网络模型可以很好地描述自然图像，但不能有效描述绘画图像。因此，如何针对绘画图像的特点，利用深度卷积神经网络搭建绘画图像检索系统，使其在训练样本较少的情况下也可以取得优良的效果，是绘画图像检索领域亟待解决的难题。

发明人发现，深度卷积神经网络可以从大量标记样本中自动学习特征提取滤波器，通过在不同图像位置共享滤波器权值和池化(pooling)的下采样操作可使得其对图像的平移、缩放和扭曲等变化高度鲁棒，可以将其应用到绘画图像检索任务中。考虑到深度卷积神经网络需要大量训练样本才可以取得理想的效果，而绘画图像样本较难搜集，数据量较小的问题，本发明利用绘画图像具有的属性特点，如画种、题材内容种类等，通过按精分类和粗分类方式标记训练样本图像类别，即利用精分类和粗分类特征准确检索绘画图像。

图1为本发明一实施例中基于深度卷积神经网络的绘画图像检索方法的流程图。如图1所示，该绘画图像检索方法包括如下步骤：

步骤s1，构建绘画图像训练样本集。

本步骤中，可按精分类和粗分类两种方式标记训练样本集中训练样本图像类别，并且，通过对训练样本图像进行平移、旋转/扭曲、尺度、颜色变换等，来丰富训练样本。

其中，精分类类别例如可对应于一幅绘画作品，例如可基于一幅绘画作品特有的纹理特征，粗分类类别例如可对应于绘画作品所属的画种或题材内容种类等。此精分类和粗分类方式仅为举例，本发明并不限于此。

一幅绘画作品可以在不同环境光照下被不同相机从不同角度拍摄，所以一幅绘画作品可以产生多张绘画图像。一幅绘画作品对应一种精分类类别，来自同一幅绘画作品的图像属于相同的精分类类别，来自不同绘画作品的图像属于不同的精分类类别。绘画图像的粗分类类别可以根据作品所属的画种(如中国画、油画、版画、水彩画、水粉画等)来确定，也可以根据作品的题材内容(如人物画、风景画、山水画、花鸟画、动物画、静物画、历史画等)来确定。可以通过在不同角度、光线下拍摄同一幅绘画作品来丰富绘画图像训练样本。

丰富的训练样本可以增强绘画图像特征提取器对光照和形变的鲁棒性。本发明还可以通过对原始训练样本图像进行颜色、尺度、旋转和平移变换当中的一种或多种变换，从而增加训练样本的丰富性。记图像i的宽度为w像素，高度为h像素，像素点颜色用rgb通道的数值(r,g,b)表示，每个通道的取值范围为[0,255]。对i进行变换的步骤例如包括：(1)颜色变换：图像中每个像素点的r、g和b值分别叠加均值为0、标准差为10的高斯噪声；(2)尺度变换：将图像缩放到原图的0.9倍至1.1倍之间；(3)旋转变换：以图像中心为圆心按顺时针或逆时针方向旋转图像，旋转角度不大于8度；(4)平移变换：对图像进行水平和竖直方向的平移，位移量分别小于0.2w和0.2h。进行步骤(2)、(3)、(4)时，超出h×w的部分被裁剪掉，没有原图像素点对应的部分用0值像素点补全。以上变换步骤中对图像的变换参数仅为示例，本发明并不限于此。一幅图像通过不同参数的变换可以产生成百上千张具有少量差异的图像。这些图像精分类和粗分类类别与原图相同。通过同一图像的变换增加的训练样本能进一步增强绘画图像特征提取器对光照和形变的鲁棒性。

步骤s2，基于深度卷积神经网络构建绘画图像特征提取器。

具体地，基于深度卷积神经网络自动从训练样本集中学习最具区分力的精分类特征和粗分类特征，对深度卷积神经网络进行训练，获得绘画图像训练样本的绘画图像特征向量并存储至绘画图像特征数据库中。

图3是本发明一实施例中基于深度卷积神经网络的绘画图像特征提取器示意图。本发明中的深度卷积神经网络可包括精分类深度卷积神经网络和粗分类深度卷积神经网络。构建的绘画图像特征提取器基于精分类深度卷积神经网络自动从训练样本集中学习精分类特征，得到精分类特征向量；并且进一步地，基于粗分类深度卷积神经网络自动从训练样本集中学习粗分类特征，得到粗分类特征向量。

随后，绘画图像特征提取器可通过将精分类特征向量和粗分类特征向量串联后得到绘画图像特征向量。

本发明一实施例中深度卷积神经网络的网络结构示例如图2所示。输入图像通过缩放归一化到256×256。具体地，按照256与长边的比例缩放图像，使长边长度等于256，短边长度小于256，然后尽可能对称地用0值像素点扩充短边两侧，直至图像大小变为256×256。将彩色图像的rgb三个通道层叠在一起输入到卷积层，此时输入图像的大小和层数可以表示为256×256×3。将输入图像的四周用宽度为5的0值像素扩充后，使用48个11×11×3的滤波器对其进行步长为4的滤波，得到64×64×48的滤波结果。对滤波结果进行步长为2的3×3的最大池化(maxpooling)，得到32×32×48的数据。第二层卷积层c2与第一层c1相似，也包括卷积和池化(pooling)两个步骤，且池化的参数一样。在卷积之前对数据的四周用宽度为2的0值像素扩充，然后使用128个5×5×48的滤波器对其进行步长为1的滤波。第三层c3和第四层c4只有卷积操作。其中第三层使用192个3×3×128、步长为1的滤波器；第四层使用192个3×3×192、步长为1的滤波器。第五层c5包括卷积和池化操作。其中卷积操作使用64个3×3×192的滤波器，池化操作与第一层相同。所以，池化之后将得到的8×8×64数据。将8×8×64数据一起送入到全连接层进行分类器的构造。全连接层包括两个隐含层(fc1、fc2)和一个输出层，其神经元数目分别为1024、1024和n(对应于类别数)。对于精分类深度卷积神经网络，n等于训练样本对应的绘画作品数目，例如训练样本图像来自于1000幅绘画作品，则n＝1000。对于粗分类深度卷积神经网络，n等于训练样本对应的粗分类类别数，例如根据作品的题材内容将训练样本粗分为人物画、风景画、山水画、花鸟画、动物画、静物画等6类，则n＝6。

精分类深度卷积神经网络为了提升精分类准确率，需要区分不同作品间的差异，特别是相似作品的细微差异。经过迭代训练后，精分类网络提取的特征主要描述了图像的纹理细节。相反地，粗分类深度卷积神经网络重在提取图像中的内在属性，而不过多关注同一粗类中不同作品的细节差异。经过迭代训练后，粗分类网络提取的特征主要描述了图像的全局语义信息。

本发明将精分类网络中1024维的全连接层fc2特征作为精分类特征向量，将粗分类网络中1024维的全连接层fc2特征作为粗分类特征向量，然后将这两个向量串接起来，形成2048维的向量作为特征数据库中绘画图像特征向量(如图3所示)，从而同时考虑了图像的纹理细节和全局语义信息。

根据训练样本丰富程度、计算资源和性能要求可以合理设计网络结构。如果训练样本十分丰富、计算资源充足、计算速度要求不高，我们可以增加卷积层的层数，使网络变得更深，以便得到更好的分类准确度。如果训练样本较少、计算资源有限、计算速度要求高，我们可以减少卷积层的层数，缩小卷积核的大小和数目，从而减少计算量。

本发明一实施例中，深度卷积神经网络中的神经元均可采用修正线性单元(relu，rectifiedlinearunit)响应函数：

f(x)＝max(0,x).

其中，x表示神经元的输入信号。relu函数将小于0的输入置为0，同时保持大于等于0的输入保持不变。当然，也可以选用其他响应函数，如双曲正切函数|tanh(x)|，本发明并不限于此。

每个神经元有两个参数需要优化，即权值和偏移量。本发明中可使用均值为0、标准差为0.01的高斯分布随机数对对网络中的权值进行初始化。第二、第四和第五卷积层以及全连接隐含层的偏移量被初始化为1，其他层的偏移量被初始化为0。通过反向传播算法最小化训练样本的真实类别与网络预测类别之间的logistic回归损失来确定网络的参数，即通过反向传播算法最小化来优化深度卷积神经网络参数。具体地，使用随机梯度下降法对初始化后的参数进行更新(优化)。以权重参数w为例，其更新过程为：

wi+1←wi+vi+1.

其中，i表示迭代次数，v为动量变量，v0等于0，ε为学习率，表示在第i个数据子集di上损失函数在w上的平均梯度。训练样本集被分为若干个数据子集，每个子集中包含128个样本。初始的学习率设置为0.01。当验证集上的误差不再下降时，将学习率下调为0.001。当验证集上的误差不再下降时，训练完成。偏移量参数的更新过程与权重参数一样。

本发明中，还可使用dropout技术来有效防止深度学习模型(深度卷积神经网络模型)过拟合。dropout技术是指在训练的时候，以0.5的概率随机地将神经元响应置零，被置零的神经元不参与反向传播；在测试的时候，将每个神经元的响应值乘以0.5。本发明一实施例中可对全连接层的前两层使用dropout技术。

步骤s3，待检索绘画图像特征提取：利用构建的绘画图像特征提取器提取待检索绘画图像的特征向量。

对于待检索的绘画图像，可利用步骤s2构建的绘画图像特征提取器提取除待检索绘画图像的特征向量，即通过将精分类网络中1024维的全连接层fc2特征作为精分类特征向量，将粗分类网络中1024维的全连接层fc2特征作为粗分类特征向量，然后将这两个向量串接起来，来形成2048维的向量作为绘画图像特征向量(如图3所示)，从而同时考虑了图像的纹理细节和全局语义信息。

步骤s4，特征匹配与排序：计算待检索的图像特征向量与特征数据库中每一个特征向量之间的距离，基于计算出的距离得到图像检索结果，例如可按距离从小到大的顺序输出图像检索结果。

例如，对第i幅待入库的图像，利用图3所示的绘画图像特征提取器提取2048维的特征向量pi，将特征向量保存在绘画图像特征数据库中。使用同样的绘画图像特征提取器提取待检索图像的特征向量q，q与数据库中pi的欧式距离di即代表了这两幅图像的差异程度：

di＝||pi-q||2

式中运算符||||2表示欧式距离。按di从小到大的顺序返回图像检索结果。

本发明的上述方法对于提高绘画图像检索系统中图像检索的精度和鲁棒性具有重要的意义，其主要优点如下：

1.本发明使用的深度卷积神经网络方法，自动从训练样本中学习出极具区分力的图像表观特征，避免了传统图像检索方法手工设计特征的局限性。

2.本发明使用的深度卷积神经网络的卷积层和池化层对图像的平移、缩放和扭曲等变化高度鲁棒，并通过扰动增多训练样本进一步增强绘画图像特征提取器对光照和形变的鲁棒性。

3.本发明融合了精分类和粗分类特征，同时考虑图像纹理细节和全局语义信息，显著提高了图像特征的表达能力，有效提高了图像检索的精度和鲁棒性。

4.本发明提出的绘画图像检索方法便于应用到各种不同艺术品图像检索系统中。实际应用时，只需针对特定类别艺术品准备一些具有代表性的训练样本，并根据艺术品的特点设计粗分类方式，经过训练得到的图像特征提取器就可以进行准确的图像检索。

相应地，本发明还提供了一种绘画图像检索装置，该装置可包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器可执行前述的绘画图像检索方法中的步骤来实现本发明。

本发明的各部分可以用硬件、软件、固件或者它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可以用本领域共知的下列技术中的任一项或者他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。

在流程图中表示或者在此以其它方式描述的逻辑和/或步骤，例

如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

如上针对一个实施例描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施例中使用，和/或与其它实施例中的特征相结合或替代其它实施例中的特征使用。

结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕洪凤;盛冬冬;冯军
技术所有人：盛世贞观（北京）科技有限公司
我是此专利的发明人

上一篇：一种采摘机器人的堆叠蘑菇快速识别方法与流程
上一篇：一种基于背景自学习的高光谱图像生物信息提取方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。