基于深度学习的图像检索排序方法

文档序号：6521284阅读：503来源：国知局

基于深度学习的图像检索排序方法
【专利摘要】本发明公开了一种基于深度学习的图像检索排序方法。该方法包括以下步骤：提取查询对象和训练数据库中图像的底层特征；通过深度网络进行高层语义学习和特征融合，得到多个查询对象-图像对的高层特征以及深度网络的初定参数；对查询对象-图像对的高层特征分别进行线性回归，得到查询对象-图像对的排序分数；得到与查询对象相关的训练数据集中的图像的排序列表，将该排序列表与训练数据集中各图像的真实的排序列表进行比较，得到与查询对象相关的图像对的成对损失值；对深度网络的初定参数进行调整，得到深度网络的最终参数；计算新的查询对象的底部特征，并得到其对应的深度网络；在测试数据集中进行搜索，得到与其相关的图像列表。
【专利说明】基于深度学习的图像检索排序方法
【技术领域】
[0001]本发明涉及图像检索【技术领域】，尤其涉及一种基于深度学习的图像检索排序方法。
【背景技术】
[0002]近年来，随着数字影像设备的广泛普及，互联网上的图像数量呈爆炸式的增长，如何从海量的互联网图像中准确地检索用户想要的图像信息具有广泛的应用前景，并成为网络多媒体领域重要的研究内容。
[0003]目前大型的搜索引擎针对互联网图像检索的方法主要集中在基于关键字的搜索方法上。用户给出与所需的图片相关的文字，系统根据之前建立的文字到图片的匹配来查找包含有查询词的文本对应的图片。基于关键字检索方式由于利用技术较成熟的文本检索技术，在真实的图像搜索中取得一定的效果，但是它们仍然存在着诸多问题。一方面，文本与图像的匹配由于数据量大，往往依靠自动提取的方式进行。而自动提取的方法由于信息组织的多样化以及难于判定具体的组织方式，很难确定哪些信息是与图片相关的，从而很难为图片提取准确的文字信息。
[0004]图像检索的核心在于对返回的图像序列进行排序，同时图像底层视觉的内容信息也是影响图像检索排序的重要因素。因此，对查询-图像对的内容进行高层特征融合和学习，并结合经典的基于序列的排序学习技术将对图像的检索有着重要的促进作用。可见，基于深度学习进行图像检索排序具有广泛的应用前景。

【发明内容】

[0005]为解决现有技术中存在的上述问题，本发明提出了一种基于深度学习的图像检索排序方法。
[0006]本发明提出的一种基于深度学习的图像检索排序方法包括以下步骤:
[0007]步骤1，提取查询对象和训练数据库中所有图像的底层特征；
[0008]步骤2，对于所述步骤I提取得到的查询对象和训练数据库中所有图像的底层特征，通过深度网络进行高层语义学习和特征融合，得到查询对象与训练数据库中的所有图像形成的多个查询对象-图像对的高层特征，以及所述深度网络的初定参数；
[0009]步骤3，对于所述查询对象-图像对的高层特征分别进行线性回归，得到所述查询对象-图像对的排序分数S (X，Q)；
[0010]步骤4，根据所述查询对象-图像对的排序分数得到与所述查询对象相关的所述训练数据集中的图像的排序列表，将该排序列表与所述训练数据集中各图像的真实的排序列表进行比较，得到与所述查询对象相关的图像对Xi, Xj的成对损失值；
[0011]步骤5，基于所述成对损失值，对所述深度网络的初定参数进行调整，得到所述深度网络的最终参数；
[0012]步骤6，对于新的查询对象，按照所述步骤I计算得到新的查询对象的底部特征Qi ；
[0013]步骤7，基于所述新的查询对象的底部特征Q'，利用所述步骤5得到的所述深度网络，在测试数据集}中进行搜索，得到与所述新的查询对象相关的图像列表。
【专利附图】

【附图说明】
[0014]图1是本发明基于深度学习的图像检索排序方法的流程图；
[0015]图2是本发明中用于查询-图像对的特征融合与学习的深度网络的结构示意图。
【具体实施方式】
[0016]为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。
[0017]考虑到图像和查询文本等查询对象的特征融合与学习对于图像检索有着重要的影响，因此本发明提出了一种基于深度学习的图像检索排序方法。该方法的核心思想是通过深度学习在提取查询对象-图像对的高层语义特征的同时对它们进行特征融合，在高层语义特征的基础上得到查询对象-图像对的排序分数。
[0018]图1是本发明基于深度学习的图像检索排序方法的流程图，如图1所示，本发明提出的基于深度学习的图像检索排序方法包括以下步骤:
[0019]步骤1，提取查询对象和训练数据库中所有图像的底层特征；
[0020]提取查询对象的底层特征是为了得到查询对象的初始表示，所述查询对象包括文本或图像，文本和图像通常采用不同的底层特征来表示，在本发明一实施例中，对于文本采用词频-逆向文件频率(TF-1DF)作为其底层特征；对于查询图像和训练数据库中的图像，采用方向梯度直方图(HOG)(比如32X32维的方向梯度直方图)作为其底层特征。
[0021]步骤2，对于所述步骤I提取得到的查询对象和训练数据库中所有图像的底层特征，通过深度网络进行高层语义学习和特征融合，得到查询对象与训练数据库中的所有图像形成的多个查询对象-图像对的高层特征，以及所述深度网络的初定参数；
[0022]所述步骤2具体为:对于训练数据库中图像的底层特征X，以及查询对象的底层特征Q，采用深度网络进行逐层地特征提取和融合，同时对于所述深度网络进行逐层地贪心学习。
[0023]图2示出了本发明中用于对查询对象-图像对的底层特征进行融合与学习的深度网络的结构示意图，如图2所示，所述图像的底层特征X =O1,…,xA)以及查询对象的底
层特征^^(^，…，知^为所述深度网络的最底层河见层/?和<)的输入数据，其中，D1*
底层特征的维数，所述输入数据先经过分开的隐藏层和，然后经过融合后的隐
藏层P-hS —直到达最高层hS其中，各层的节点状态值为O或者I。在所述深度网络中，相邻的两层分别构成一个受限波尔兹曼机(RBM)，进一步地，对于进行融合的相邻两层，则构成一个多模态的受限波尔兹曼机。
[0024]所述深度网络的训练过程分为两个阶段:逐层的贪心学习过程和全局的调节过程，在逐层的贪心学习过程中，当下层的受限波尔兹曼机训练完成之后，把下层受限波尔兹曼机的隐藏层的状态作为上层受限波尔兹曼机的输入，这样逐层地向上学习，直到达到最
高层hs多模态的受限波尔兹曼机与受限波尔兹曼机类似，只不过，hLx和<层共同构成可
见层，以对第一个多模态受限波尔兹曼机进行训练。逐层的贪心学习过程完成之后，就可以
得到所述深度网络最高层P的状态值
【权利要求】
1.一种基于深度学习的图像检索排序方法，其特征在于，该方法包括以下步骤: 步骤1，提取查询对象和训练数据库中所有图像的底层特征；步骤2，对于所述步骤I提取得到的查询对象和训练数据库中所有图像的底层特征，通过深度网络进行高层语义学习和特征融合，得到查询对象与训练数据库中的所有图像形成的多个查询对象-图像对的高层特征，以及所述深度网络的初定参数；步骤3，对于所述查询对象-图像对的高层特征分别进行线性回归，得到所述查询对象-图像对的排序分数S (X，Q)；步骤4，根据所述查询对象-图像对的排序分数得到与所述查询对象相关的所述训练数据集中的图像的排序列表，将该排序列表与所述训练数据集中各图像的真实的排序列表进行比较，得到与所述查询对象相关的图像对Xi, Xj的成对损失值；步骤5，基于所述成对损失值，对所述深度网络的初定参数进行调整，得到所述深度网络的最终参数；步骤6，对于新的查询对象，按照所述步骤I计算得到新的查询对象的底部特征Q'；步骤7，基于所述新的查询对象的底部特征Q'，利用所述步骤5得到新的查询对象对应的所述深度网络，在测试数据集{If'...,XlfrtI中进行搜索，得到与所述新的查询对象相关的图像列表。
2.根据权利要求1所述的方法，其特征在于，所述查询对象包括文本或图像，文本和图像采用不同的底层特征来表示。
3.根据权利要求2所述的方法，其特征在于，对于文本采用词频-逆向文件频率作为其底层特征；对于查询图像和训练数据库中的图像，采用方向梯度直方图作为其底层特征。
4.根据权利要求1所述的方法，其特征在于，所述步骤2具体为:对于训练数据库中图像的底层特征X，以及查询对象的底层特征Q，采用深度网络进行逐层地特征提取和融合，同时对于所述深度网络进行逐层地贪心学习。
5.根据权利要求4所述的方法，其特征在于，采用深度网络进行逐层地特征提取和融合时，所述图像的底层特征Z = (A,…,xA)以及查询对象的底层特征β =(仏，…，％)为所述深度网络的最底层，即可见层<:和< 的输入数据，所述输入数据先经过分开的隐藏层和K-K，然后经过融合后的隐藏层h°-hL，一直到达最高层h1。
6.根据权利要求5所述的方法，其特征在于，在所述深度网络中，相邻的两层分别构成一个受限波尔兹曼机，进行融合的相邻两层构成一个多模态的受限波尔兹曼机。
7.根据权利要求6所述的方法，其特征在于，在逐层的贪心学习过程中，当下层的受限波尔兹曼机训练完成之后，把下层受限波尔兹曼机的隐藏层的状态作为上层受限波尔兹曼机的输入，这样逐层地向上学习，直到达到最高层hS多模态的受限波尔兹曼机与受限波尔兹曼机类似，只不过，< 和A )共同构成可见层，以对第一个多模态受限波尔兹曼机进行训练；逐层的贪心学习过程完成之后，就可以得到所述深度网络最高层P的状态值hL =(吋，…，KvJ，其中Num表示该层的节点数目，该状态值作为所述查询对象-图像对的新的特征表示，同时也初步得到所述深度网络的参数。
8.根据权利要求1所述的方法，其特征在于，所述步骤4进一步包括以下步骤: 步骤4.1:根据所述步骤3中得到的所述查询对象-图像对的排序分数S(X，Q)的大小，对所述训练数据集中的图像(X1, X2，...，X1J进行排序，其中，N表示与所述查询对象相关的图像的数目，得到与所述查询对象相关的图像的排序序列
9.根据权利要求1所述的方法，其特征在于，所述步骤5中，基于所述成对损失值，采用后向传播算法对所述深度网络的参数进行全局调整。
10.根据权利要求1所述的方法，其特征在于，所述步骤7中，首先分别计算新的查询对象-图像对的排序分数....SiXiIf.Q'h然后根据所述排序分数的大小对于所述测试数据集中的图像进行排序，即可得到与所述新的查询对象相关的图像的排序序列。
【文档编号】G06K9/66GK103593474SQ201310626253
【公开日】2014年2月19日申请日期:2013年11月28日优先权日:2013年11月28日
【发明者】徐常胜, 袁召全, 桑基韬申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐常胜;袁召全;桑基韬
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：Mcu的升级方法和装置制造方法
上一篇：一种兼容8051 ip核的中断控制器及其控制方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。