一种基于对应的深层信念网络的跨模态检索方法

文档序号:6639480阅读:306来源:国知局
一种基于对应的深层信念网络的跨模态检索方法
【专利摘要】本发明提出了一种基于对应的深层信念网络的跨模态检索方法,该方法包括:利用特征提取方法分别获得检索目标与检索库中每一个检索成员的初级向量;检索目标的初级向量分别与检索库中每一个检索成员的初级向量,通过对应的深层信念网络获得检索目标的高级向量和检索库中每一个检索成员的高级向量;利用检索目标的高级向量和检索库中每一个检索成员的高级向量计算检索目标与检索库中每一个检索成员的距离;将检索库中与检索目标距离最近的至少一个检索成员确定为与检索目标匹配的对象。
【专利说明】一种基于对应的深层信念网络的跨模态检索方法

【技术领域】
[0001] 本发明涉及多媒体检索技术,特别是一种基于对应的深层信念网络的跨模态检 索方法。

【背景技术】
[0002] 近些年互联网的发展使得多模态的数据呈现爆炸式增长。例如,电子商务网站上 的产品通常包含主干文字、简短的文本描述、以及相关的图片;社交网站上分享的图片通常 伴有标记的描述词;一些在线新闻上包含的图片和视频信息比单纯的文字报道更具有吸引 力,多模态数据的快速增长带来了巨大的跨模态检索需求。
[0003] 与传统的单模态检索不同,跨模态检索更多关注不同模态间的关系。因此,跨模态 检索问题包含两个挑战问题:一是来自不同模态的数据具有完全不同的统计特性,这使得 很难直接获得不同模态数据的关联关系;二是从不同模态数据中抽取的特征通常具有高维 的特性并且数据集的规模非常大,这使得高效的检索不容易实现。


【发明内容】

[0004] 有鉴于此,本发明提供了一种基于对应的深层信念网络(Correspondence Deep Belief Network, Corr-DBN)的跨模态检索方法,应用Corr-DBN解决跨模态数据的处理问 题,使得经Corr-DBN处理后的跨模态数据能够高效的进行距离计算,从而得到较优的检索 结果。本发明提出的技术方案是:
[0005] -种基于Corr-DBN的跨模态检索方法,该方法包括:
[0006] 利用特征提取方法分别获得检索目标与检索库中每一个检索成员的初级向量;
[0007] 所述检索目标的初级向量分别与所述检索库中每一个检索成员的初级向量,通过 对应的深层信念网络Corr-DBN获得所述检索目标的高级表达向量和所述检索库中每一个 检索成员的高级表达向量;
[0008] 利用所述检索目标的1?级表达向量和所述检索库中每一个检索成员的1?级表达 向量计算所述检索目标与所述检索库中每一个检索成员的距离;
[0009] 将所述检索库中与所述检索目标距离最近的至少一个检索成员确定为与所述检 索目标匹配的对象。
[0010] 综上所述,本发明技术方案提出了一种基于对应的深层信念网络的跨模态检 索方法,对于跨模态原始数据进行特征提取获得的初级向量,通过对应的深层信念网络 Corr-DBN的处理,得到跨模态数据在相同表示空间中的低维高级表达,进而对跨模态数据 的低维高级表达进行距离计算,根据距离确定检索结果。

【专利附图】

【附图说明】
[0011] 图1为本发明技术方案的流程图;
[0012] 图2为本发明Corr-DBN神经网络结构图;
[0013] 图3为本发明双受限波尔兹曼机的神经网络结构图;
[0014] 图4为受限波尔兹曼机模型的结构图;
[0015] 图5为对应的受限波尔兹曼机模型的结构图;
[0016] 图6为根据目标函数Q确定O的方法流程图;
[0017] 图7为本发明实施例的流程图。

【具体实施方式】
[0018] 为解决跨模态间的检索问题,本发明提出一种基于对应的深层信念网络Corr-DBN 的跨模态检索方法,本发明技术方案的流程图如图1所示,包括以下步骤:
[0019] 步骤101 :利用特征提取方法分别获得检索目标与检索库中每一个检索成员的初 级向量。
[0020] 本步骤中,为在检索库中检索与检索目标匹配的对象,首先需要对检索目标和检 索库中每一检索成员进行初级向量的获取,而特征提取方法获得的初级向量一般维数较 高,且不同模态的初级向量元素各异,一般不能直接用于检索运算。
[0021] 步骤102 :检索目标的初级向量分别与检索库中每一个检索成员的初级向量,通 过对应的深层信念网络Corr-DBN获得检索目标的高级向量和检索库中每一个检索成员的 高级向量。
[0022] 本步骤中,将检索目标的初级向量分别与检索库中每一个检索成员的初级向量作 为一个组合,通过对应的深层信念网络Corr-DBN获得检索目标的高级向量和检索库中每 一个检索成员的高级向量。通过对应的深层信念网络Corr-DBN得到的检索目标的高级向 量和检索库中每一个检索成员的1?级向量具有低维、空间兀素一致等特点,能够1?效的直 接进行检索运算。
[0023] 具体地,可以将检索目标作为第一模态,将任一个检索成员作为第二模态, Corr-DBN通过处理第一模态与第二模态的初级表达,最终输出第一模态与第二模态的高级 表达。
[0024] 步骤103 :利用检索目标的1?级表达和检索库中每一个检索成员的1?级表达计算 检索目标与检索库中任一检索成员的距离。
[0025] 具体地,可以用欧氏距离表示检索目标与检索库中每一个检索成员的距离。
[0026] 步骤104 :将检索库中与检索目标距离最近的至少一个检索成员确定为与检索目 标匹配的对象。
[0027] 本步骤中,将检索库中每个检索成员与检索目标的距离进行排序,选择距离检索 目标最近的至少一个检索成员确定为与检索目标匹配的对象。
[0028] 本发明提出了一种使用对应的深层信念网络Corr-DBN进行跨模态检索的方法, 图2为本发明对应的深层信念网络Corr-DBN神经网络结构图,如图2所示,Corr-DBN 首先对两种模态的初级向量使用至少一层双受限波尔兹曼机(Restricted Boltzmann Machine,RBM)模型获得该两种模态的中级向量,在Corr-DBN模型的顶层通过Corr-RBM模 型对两种模态的中级向量进行进一步处理,最终获得两种模态的高级表达。下面分别对双 RBM模型、Corr-RBM模型以及Corr-DBN模型进行详细介绍。
[0029] (一)双 RBM 模型:
[0030] 图3为双RBM的神经网络结构图,如图3所示,双RBM模型包括第一模态RBM模型 和第二模态RBM模型,第一模态RBM模型和第二模态RBM模型为相互独立的两个单RBM模 型,第一模态RBM模型对第一模态向量进行处理,第二模态RBM模型对第二模态向量进行处 理,且第一模态RBM模型和第二模态RBM模型之间无连接。下面仅对第一模态RBM模型进 行介绍,第二模态RBM模型的结构及参数设计与第一模态RBM结构相同。
[0031] 图4为第一模态RBM模型的神经网络结构图,如图4所示,第一模态RBM模型的可 见层V包含m个神经单元V 1?Vm,每个神经单元Vi的偏置为h,可见层神经单元之间没有 连接;隐藏层H包含s个神经单元I ll?hs,每个神经单元Ilj的偏置为Cj,可见层神经单元 之间没有连接;可见层神经单元V i与隐藏层神经单元hj的连接权值为Wij。为了便于理解, 图4中仅画出了部分可见层神经单元与隐藏层神经单元的连接权值。
[0032] 单RBM具有无向图的结构,具有Logistic激活函数δ (X) = l/(l+exp(-x)),则可 见层V和隐藏层H神经单元的联合概率分布为:
[0033] = -^cxp(-E(v,h))
[0034] 其中,Z为归一化常数,E(v,h)是由RBM的可见层神经单元、隐藏层神经单元的不 同配置定义的能量函数,根据可见层神经单元、隐藏层神经单元的不同配置,E (v,h)有不同 的表示,即只要RBM的可见层神经单元配置与隐藏层神经单元配置确定,就有相应的能量 函数,在此不作详细介绍。
[0035] 双RBM模型的参数包括:第一模态RBM的可见层神经单元与隐藏层神经单元之间 的连接权值参数集合、可见层神经单元的偏置集合和隐藏层神经单元的偏置集合,第二模 态RBM的可见层神经单元与隐藏层神经单元之间的连接权值参数集合、可见层神经单元的 偏置集合和隐藏层神经单元的偏置集合,上述参数可通过比照散度估计算法进行确定,t匕 照散度估记算法为现有技术,在此不再详细介绍。
[0036] (二)对应的受限波尔兹曼机Corr-RBM模型:
[0037] 图5为本发明Corr-RBM模型的结构图,如图5所示,Corr-RBM模型包含第一模态 Corr-RBM和第二模态Corr-RBM,第一模态Corr-RBM与第二模态Corr-RBM包含有相同的可 见层神经单元数目,第一模态Corr-RBM与第二模态Corr-RBM包含有相同的隐藏层神经单 元数目,并且第一模态Corr-RBM与所述第二模态Corr-RBM的隐藏层之间具有相关性约束。
[0038] 假定Θ表示Corr-RBM模型的参数集合,即Θ = {W1,C1,B1,WT,CT,Β τ},其中,上标 I表示第一模态,上标T表示第二模态,具体地,W1为第一模态Corr-RBM的各可见层神经单 元与隐藏层神经单元之间的连接权值参数集合,C 1为第一模态Corr-RBM的可见层神经单 元偏置参数集合,B1为第一模态Corr-RBM的隐藏层神经单元偏置参数集合,W t为第二模态 Corr-RBM的各可见层神经单元与隐藏层神经单元之间的连接权值参数集合,Ct为第二模态 Corr-RBM的可见层神经单元偏置参数集合,Bt为第二模态Corr-RBM的隐藏层神经单元偏 置参数集合。
[0039] Corr-RBM模型的参数集合Θ通过下面的参数学习算法进行确定:
[0040] 根据下述原则定义目标函数T :C〇rr-RBM模型的参数集合Θ能够最小化第一模 态与第二模态在共享表示空间上的距离,以及最小化第一模态和第二模态的负对数似然函 数。目标函数Q为Q = 1D+ct I1+β It,即Θ为令Q最小的参数集合。
[0041]其中,

【权利要求】
1. 一种基于对应的深层信念网络的跨模态检索方法,其特征在于,该方法包括: 利用特征提取方法分别获得检索目标与检索库中每一个检索成员的初级向量; 所述检索目标的初级向量分别与所述检索库中每一个检索成员的初级向量,通过对应 的深层信念网络获得所述检索目标的高级向量和所述检索库中每一个检索成员的高级向 量; 利用所述检索目标的高级向量和所述检索库中每一个检索成员的高级向量计算所述 检索目标与所述检索库中每一个检索成员的距离; 将所述检索库中与所述检索目标距离最近的至少一个检索成员确定为与所述检索目 标匹配的对象。
2. 根据权利要求1所述的方法,其特征在于,所述对应的深层信念网络Corr-DBN的非 顶层为至少一层双受限波尔兹曼机RBM结构,顶层为对应的受限波尔兹曼机Corr-RBM结 构,所述双RBM包括相互独立的第一模态RBM和第二模态RBM,所述Corr-RBM包括具有相关 性约束的第一模态Corr-RBM和第二模态Corr-RBM。
3. 根据权利要求2所述的方法,其特征在于,所述第一模态Corr-RBM与所述第二模 态Corr-RBM包含有相同的可见层神经单元数目,所述第一模态Corr-RBM与所述第二模 态Corr-RBM包含有相同的隐藏层神经单元数目,所述第一模态Corr-RBM与所述第二模态 Corr-RBM的隐藏层之间具有相关性约束。
4. 根据权利要求3所述的方法,其特征在于,该方法进一步包括: 所述Corr-RBM的配置参数0 = {W1,C1,B1,WT,CT,Βτ},其中,上标I表示第一模态,上标T表示第二模态,具体地,W1为第一模态Corr-RBM的各可见层神经单元与隐藏层神经单元 之间的连接权值参数集合,C1为第一模态Corr-RBM的可见层神经单元偏置参数集合,B1为 第一模态Corr-RBM的隐藏层神经单元偏置参数集合,Wt为第二模态Corr-RBM的各可见层 神经单元与隐藏层神经单元之间的连接权值参数集合,Ct为第二模态Corr-RBM的可见层神 经单元偏置参数集合,Bt为第二模态Corr-RBM的隐藏层神经单元偏置参数集合; 所述Corr-RBM的配置参数Θ为令目标函数Q=lD+ah+βIt最小的配置参数,且
其中,a和β是常数,且ae(〇, 1),βe(〇, 1) ;&( ·)是第一模态Corr-RBM可见 层到隐藏层的映射函数,fT( ·)和第二模态Corr-RBM可见层到隐藏层的映射函数;Pl( ·)为 第一模态Corr-RBM可见层和隐藏层神经单元的联合概率分布,ρτ(·)为第二模态Corr-RBM 可见层和隐藏层神经单元的联合概率分布;M·II为二范数映射。
5. 根据权利要求4所述的方法,其特征在于,根据目标函数Q确定0的算法为: A、第一模态Corr-RBM的可见层神经单元与隐藏层神经单元之间的连接权值参数集 合 <、可见层神经单元v/的偏置和隐藏层神经单元的偏置c;用Θ1统一表示,根 据公式y+r.a.A#进行更新,其中τ为学习速率,且τe(〇,1);ae(〇,1); Δ# = ,Δ6/,Acj},并且,
其中,〈· >data为经验分布下的数学期望,〈· >Π(Λ1为模型分布下的数学期望; Β、第二模态Corr-RBM的可见层神经单元与隐藏层神经单元之间的连接权值参数集合 <、可见层神经单元vf的偏置和隐藏层神经单元f的偏置 < 用θτ统一表示,根据公式θτ -θτ+τ ·β·ΛΘ7进行更新,其中,βe(〇, 1) ;Δ6?Γ ={Δ4,ΔΖ^,Δ?^},并且,
C、枏据以下公式俥用梯度下降的方法审新L:
其中,δ'(·)=δ(·)(1-δ(·)),且δ(·)为Logistic激活函数δ(X) = 1/ (l+exp(-x)); 重复步骤A?C,直至该算法收敛。
【文档编号】G06F17/30GK104462485SQ201410797791
【公开日】2015年3月25日 申请日期:2014年12月18日 优先权日:2014年12月18日
【发明者】李睿凡, 芦效峰, 鲁鹏, 冯方向, 李蕾, 刘咏彬, 王小捷 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1