深度模型训练方法及装置、图像检索方法及装置与流程

文档序号:11774680阅读:163来源:国知局
深度模型训练方法及装置、图像检索方法及装置与流程

本申请涉及图像检索技术领域,具体涉及一种深度模型训练方法及装置、图像检索方法及装置。



背景技术:

目前现有的检索相似图像的图像检索技术方案中,通常包括以下两类方法:第一类利用传统计算机视觉方法抽取出图片特征,再对特征进行距离度量并进行排序给出检索结果;第二类利用深度学习模型抽取出图片特征,再对特征进行距离度量并进行排序给出检索结果。

上述第一类技术方案虽然准确率较高,但存在泛化能力不足的缺陷,尤其是基于语义的相似;第二类技术方案的泛化能力不错,但存在准确率有待提升的缺陷。

具体地,在第二类技术方案中,采用对比嵌入(contrastiveembedding)或三元嵌入(tripletembedding)的损失函数设计模式的方法存在只能利用构造好的成对或三元数据进行训练,训练时存在模型不易收敛的缺陷;而采用提升结构化特征嵌入(liftedstructuredfeatureembedding)的损失函数设计模式的方法对负例(即不相似的样本)的约束较弱,导致最终预测时大部分情况是负例,存在容易引起误检的缺陷。

此外,在实际应用时,当待检索的全库的数据量级很大时,特征数据的数据量会很大,其存储和运算会消耗非常多的系统资源。



技术实现要素:

鉴于现有技术中的上述缺陷或不足,期望提供一种模型易于收敛,对负例约束较强以提升特征数据的准确性,从而降低误检率的深度模型训练方法及装置、图像检索方法及装置;并进一步减少特征数据所消耗的系统资源。

第一方面,本发明提供一种深度模型训练方法,该方法包括:

根据深度模型抽取的特征数据分别计算提升结构化特征嵌入设计模式的第一损失值和对比嵌入设计模式的第二损失值;

根据该第一损失值和该第二损失值生成融合损失值;

根据该融合损失值训练深度模型。

第二方面,本发明提供一种图像检索方法,该方法包括:

分别对待检索图像和数据库中的各对比图像进行预处理;

根据如上所述的深度模型训练方法所训练得到的深度模型分别对预处理后的待检索图像和各对比图像进行特征抽取以获得特征数据;

对待检索图像的特征数据和各对比图像的特征数据进行相似度计算;

根据相似度计算的结果生成图像检索结果。

第三方面,本发明提供一种深度模型训练装置,包括第一损失计算单元、第二损失计算单元、损失融合单元和训练单元。

其中,第一损失计算单元配置用于根据深度模型抽取的特征数据计算提升结构化特征嵌入设计模式的第一损失值;第二损失计算单元配置用于根据深度模型抽取的特征数据计算对比嵌入设计模式的第二损失值;损失融合单元配置用于根据第一损失值和第二损失值生成融合损失值;训练单元配置用于根据融合损失值训练深度模型。

第四方面,本发明提供一种图像检索装置,包括预处理单元、特征抽取单元、相似度计算单元和检索结果生成单元。

其中,预处理单元配置用于分别对待检索图像和数据库中的各对比图像进行预处理;特征抽取单元配置用于根据上述深度模型训练装置训练得到的深度模型分别对预处理后的待检索图像和各对比图像进行特征抽取以获得特征数据;相似度计算单元配置用于对待检索图像的特征数据和各对比图像的特征数据进行相似度计算;检索结果生成单元配置用于根据相似度计算的结果生成图像检索结果。

第五方面,本发明还提供一种设备,包括一个或多个处理器和存储器,其中存储器包含可由该一个或多个处理器执行的指令以使得该一个或多个处理器执行根据本发明各实施例提供的深度模型训练方法或图像检索方法。

第六方面,本发明还提供一种存储有计算机程序的计算机可读存储介质,该计算机程序使计算机执行根据本发明各实施例提供的深度模型训练方法或图像检索方法。

本发明诸多实施例提供的深度模型训练方法及装置、图像检索方法及装置通过在提升结构化特征嵌入设计模式的损失层的基础上,融合对比嵌入设计模式的损失层,从而在训练过程中增加了负例的惩罚权重,在保持模型易于收敛的同时提升了特征数据的准确性,降低了误检率;

本发明一些实施例提供的深度模型训练方法及装置、图像检索方法及装置进一步通过在深度模型的最后一个全连接层之后设置位数转换层和数据二值化层,从而将特征数据稀疏化,大幅减少了特征数据运算和存储所消耗的系统资源;

本发明一些实施例提供的深度模型训练方法及装置、图像检索方法及装置进一步通过根据图像检索结果生成反馈信息以调整深度模型训练方法,进一步提高了训练和检索的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1为本发明一实施例提供的深度模型训练方法的流程图。

图2为图1所示方法的一种优选实施方式的流程图。

图3为图2所示方法的一种优选实施方式的流程图。

图4为本发明一实施例提供的图像检索方法的流程图。

图5为图4所示方法的一种优选实施方式的流程图。

图6为本发明一实施例提供的深度模型训练装置的结构示意图。

图7为图6所示装置的一种优选实施方式的结构示意图。

图8为图7所示装置的一种优选实施方式的结构示意图。

图9为本发明一实施例提供的图像检索装置的结构示意图。

图10为图9所示装置的一种优选实施方式的结构示意图。

图11为本发明一实施例提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1为本发明一实施例提供的深度模型训练方法的流程图。

如图1所示,在本实施例中,本发明提供的深度模型训练方法包括:

s13:根据深度模型抽取的特征数据分别计算提升结构化特征嵌入设计模式的第一损失值和对比嵌入设计模式的第二损失值;

s15:根据该第一损失值和该第二损失值生成融合损失值;

s17:根据该融合损失值训练深度模型。

在本实施例中,深度模型为深度卷积神经网络模型,具体可以采用lenet、alexnet、vggnet等本领域常用的种类。

在步骤s13中,对该深度模型输入批量的训练样本数据,根据该深度模型抽取训练样本数据的特征数据,根据该特征数据分别计算提升结构化特征嵌入设计模式的第一损失值和对比嵌入设计模式的第二损失值。

具体地,在本实施例中,第一损失值jl的计算方式为:

其中,

第二损失值jc的计算方式为:

其中,p为正样本的集合,n为负样本的集合,i、j、k、l均为样本标记序号,αl为第一负例惩罚参数,di,k为样本i和k之间的距离,dj,l为样本j和l之间的距离,di,j为样本i和j之间的距离,m为批尺寸参数,yi,j为标识样本i和j是否来自同一类别的样本类别参数(具体在本实施例中yi,j∈0,1),αc为第二负例惩罚参数。

第一负例惩罚参数αl和第二负例惩罚参数αc根据经验配置,可以在后续根据训练效果的反馈进行调整。

在本实施例中,通过上述公式(1)-(3)分别计算结构化特征嵌入设计模式的第一损失值和对比嵌入设计模式的第二损失值,其中通过欧式距离计算方法计算样本之间的距离。

在更多实施例中,本发明提供的方法不局限于上述公式(1)-(3)的计算方法,可配置更多不同的计算方式分别计算结构化特征嵌入设计模式的第一损失值和对比嵌入设计模式的第二损失值,只要通过在第一损失值和第二损失值的计算式中分别为较难区分的负例和普通负例配置了第一负例惩罚参数和第二负例惩罚参数,从而在后续步骤s15中通过融合两项损失值实现了增加普通负例的惩罚权重(相较于单独使用结构化特征嵌入设计模式的第一损失值),即可实现同样的技术效果。同时,在更多实施例中,还可采用巴氏距离、余弦距离、汉明距离等不同的距离计算方法计算样本之间的距离,同样可实现相同的技术效果。

在步骤s15中,融合损失值j的计算方式如下:

j=w1*jl+w2*jc;(4)

其中,w1为第一损失值的权重,w2为第二损失值的权重。

w1和w2根据经验配置,可以在后续根据训练效果的反馈进行调整。

在本实施例中,通过上述公式(4)计算生成融合损失值j,在更多实施例中,本发明提供的方法不局限于该公式,可配置各种不同的计算方式生成融合损失值,只要最终生成的融合损失值j中普通负例的惩罚权重高于第一损失值jl中普通负例的惩罚权重,即可实现相同的技术效果。

在步骤s17中,根据步骤s15生成的融合损失值训练该深度模型。

当循环执行步骤s13-s17以进行持续训练时,步骤s13中采用步骤s17训练获得的深度模型进行特征数据抽取。

上述实施例通过在提升结构化特征嵌入设计模式的损失层的基础上,融合对比嵌入设计模式的损失层,从而在训练过程中增加了负例的惩罚权重,在保持模型易于收敛的同时提升了特征数据的准确性,进而在下文具体介绍的图像检索方法中实现了降低误检率的技术效果。

图2为图1所示方法的一种优选实施方式的流程图。

如图2所示,在一优选实施例中,步骤s13之前还包括:

s11:通过在深度模型的最后一个全连接层之后设置位数转换层,将该全连接层输出的特征数据的位数转换成输出位数。

例如,若该全连接层输出的特征数据为向量数据,其向量维数为4096,则通过位数转换层,对该特征数据进行降维压缩,将其向量维数转换成512,从而将全连接层输出的特征数据的位数转换成预定的输出位数。

上述例举以向量数据为例,但不仅限于向量数据,步骤s11中的位数转换层还可对其它常用的不同数据类型进行数据位数转换。

图3为图2所示方法的一种优选实施方式的流程图。

如图3所示,在步骤s11之后还包括:

s12:通过在位数转换层之后设置数据二值化层,将特征数据转换为二值向量。

具体地,在本实施例中,该数据二值化层采用sigmoid函数将特征数据转换为0-1分布的二值向量。优选地,可以在步骤s13中配合使用汉明距离计算方法,可进一步加快下文介绍的图像检索方法中相似度计算的速度,从而减少相似度计算耗费的时间。在更多实施例中,可根据实际需求选择不同的转换算法,将特征数据转换为不同分布的二值向量。

上述实施例进一步通过在深度模型的最后一个全连接层之后设置位数转换层和数据二值化层,从而将特征数据稀疏化,大幅减少了特征数据运算和存储所消耗的系统资源。

图4为本发明一实施例提供的图像检索方法的流程图。

如图4所示,在本实施例中,本发明还提供一种图像检索方法,包括:

s21:分别对待检索图像和数据库中的各对比图像进行预处理;

s23:根据上述任一实施例的深度模型训练方法所训练得到的深度模型分别对预处理后的待检索图像和各对比图像进行特征抽取以获得特征数据;

s25:对待检索图像的特征数据和各对比图像的特征数据进行相似度计算;

s27:根据相似度计算的结果生成图像检索结果。

具体地,在步骤s21中,对待检索图像进行预处理,得到第一三通道矩阵数据,对各对比图像进行预处理,得到若干第二三通道矩阵数据。

在步骤s23中,将步骤s21生成的第一三通道矩阵数据和若干第二三通道矩阵数据输入至根据上述任一实施例提供的训练方法训练好的深度模型以进行特征抽取,获得第一特征数据和若干第二特征数据。

在步骤s25中,对步骤s23获得的第一特征数据和若干第二特征数据进行相似度计算,具体的计算方法对应于步骤s13中采用的样本距离计算方法。

在步骤s27中,根据步骤s25的计算结果生成图像检索结果,再向检索请求方反馈该图像检索结果。

图5为图4所示方法的一种优选实施方式的流程图。

如图5所示,在一优选实施例中,步骤s27之后还包括:

s29:根据图像检索结果生成反馈信息,根据反馈信息调整深度模型训练方法。

具体地,若图像检索结果反映出无法检索到应该检索到的图片,或检索到较多相似度较低的图片等检索效果不佳的问题,则可以根据具体问题生成对应的反馈信息,再根据该反馈信息对所采用的深度模型训练方法进行调整,例如,调整经验值参数,进一步调整计算公式,等等。

上述实施例进一步通过根据图像检索结果生成反馈信息以调整深度模型训练方法,进一步提高了训练和检索的准确性。

图6为本发明一实施例提供的深度模型训练装置的结构示意图。图6所示的装置可对应执行图1所示的方法。

如图6所示,在本实施例中,本发明提供一种深度模型训练装置,包括第一损失计算单元11、第二损失计算单元13、损失融合单元15和训练单元17。

其中,第一损失计算单元11配置用于根据深度模型抽取的特征数据计算提升结构化特征嵌入设计模式的第一损失值;

第二损失计算单元13配置用于根据深度模型抽取的特征数据计算对比嵌入设计模式的第二损失值;

损失融合单元15配置用于根据第一损失值和第二损失值生成融合损失值;

训练单元17配置用于根据融合损失值训练深度模型。

具体地,上述装置还可根据实际需求进一步包括常用的输入输出装置、通信装置等部件。具体原理参见上述图1所示的方法,此处不再赘述。

图7为图6所示装置的一种优选实施方式的结构示意图。图7所示的装置可对应执行图2所示的方法。

如图7所示,在一优选实施例中,该深度模型训练装置进一步还包括位数转换单元18。

位数转换单元18配置用于通过在深度模型的最后一个全连接层之后设置位数转换层,将该全连接层输出的特征数据的位数转换成输出位数。具体原理参见上述图2所示的方法,此处不再赘述。

图8为图7所示装置的一种优选实施方式的结构示意图。图8所示的装置可对应执行图3所示的方法。

如图8所示,在一优选实施例中,该深度模型训练装置进一步还包括数据二值化单元19。

数据二值化单元19配置用于通过在位数转换层之后设置数据二值化层,将特征数据转换为二值向量。具体原理参见上述图3所示的方法,此处不再赘述。

图9为本发明一实施例提供的图像检索装置的结构示意图。图9所示的装置可对应执行图4所示的方法。

如图9所示,在本实施例中,本发明提供的图像检索装置20包括预处理单元21、特征抽取单元23、相似度计算单元25和检索结果生成单元27。

其中,预处理单元21配置用于分别对(来源于检索发起端30的)待检索图像和数据库40中的各对比图像进行预处理;

特征抽取单元23配置用于根据深度模型训练装置10训练得到的深度模型分别对预处理后的待检索图像和各对比图像进行特征抽取以获得特征数据;

相似度计算单元25配置用于对待检索图像的特征数据和各对比图像的特征数据进行相似度计算;

检索结果生成单元27配置用于根据相似度计算的结果生成图像检索结果。

具体地,上述装置还可根据实际需求进一步包括常用的输入输出装置、通信装置等部件。具体原理参见上述图4所示的方法,此处不再赘述。

图10为图9所示装置的一种优选实施方式的结构示意图。图10所示的装置可对应执行图5所示的方法。

如图10所示,在一优选实施例中,图像检索装置20进一步还包括反馈调整单元29。

反馈调整单元29配置用于根据检索结果生成单元27生成的图像检索结果生成反馈信息,根据该反馈信息调整深度模型训练装置10的配置。

图11为本发明一实施例提供的一种设备的结构示意图。

如图11所示,作为另一方面,本申请还提供了一种设备1100,包括一个或多个中央处理单元(cpu)1101,其可以根据存储在只读存储器(rom)1102中的程序或者从存储部分1108加载到随机访问存储器(ram)1103中的程序而执行各种适当的动作和处理。在ram1103中,还存储有设备1100操作所需的各种程序和数据。cpu1101、rom1102以及ram1103通过总线1104彼此相连。输入/输出(i/o)接口1105也连接至总线1104。

以下部件连接至i/o接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至i/o接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地,根据本公开的实施例,上述任一实施例描述的深度模型训练方法或图像检索方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行深度模型训练方法或图像检索方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。

作为又一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例的设备中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,该程序被一个或者一个以上的处理器用来执行描述于本申请的深度模型训练方法或图像检索方法。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以通过执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以通过专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,各所述单元可以是设置在计算机或移动智能设备中的软件程序,也可以是单独配置的硬件装置。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离本申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1