一种使用深层结构获取双模态相似性测度的方法

文档序号:6537034阅读:417来源:国知局
一种使用深层结构获取双模态相似性测度的方法
【专利摘要】本发明提出了一种使用深层结构获取双模态相似性测度的方法,该方法包括:第一模态原始数据使用经典特征提取方法获取第一模态的低级表达P1,第二模态原始数据使用经典特征提取方法获取第二模态的低级表达T1,P1为n维向量,T1为l维向量;第一模态的低级表达P1通过堆叠的两层受限波尔兹曼机获得中级表达P3;第二模态的低级表达T1通过堆叠的两层受限波尔兹曼机获得中级表达T3;所述第一模态的中级表达P3与第二模态的中级表达T3分别使用自动编码器进行编码,编码后第一模态表示为P4,第二模态表示为T4,所述P4与T4为相同维数的向量,计算P4与T4的相似性测度。
【专利说明】一种使用深层结构获取双模态相似性测度的方法
【技术领域】
[0001]本发明涉及多媒体检索技术,特别是一种使用深层结构获取双模态相似性测度的方法。
【背景技术】
[0002]随着大规模计算与大数据的存储成为可能,多模态数据的学习与挖掘逐渐成为人们研究的热点。一方面,信息本身来源于多个模态,例如,网络上分享的旅行照片通常有些标记词汇,即照片包含了图像模态与文本模态的信息。另一方面,挖掘多源的异质数据有助于利用不同模态的信息,比如,说话人的关节和肌肉的运动通常有助于消除相似的发音引起的语音歧义。
[0003]通常情况下,对于多模态数据的研究可以转化为对多个双模态数据的研究,这样从一定程度上可以降低直接研究多模态数据的复杂度,此前已有一些学习双模态数据的方法,其中包括,扩展潜在狄利克雷分派(LDA,Latent Dirichlet Allocation)模型,挖掘了图像和文本标签在主题级上的关系;建立图像和文本的联合模型,可以认为是LDA模型的无向图扩展;还有马尔科夫随机场(MRF, Markov Random Field)和LDA结合的模型。但是,以上三种模型只包含单个隐藏层,对于比较复杂的双模态数据则无法获得有效的表达。
[0004]源于人脑的深层和分布式结构提出的深度学习试图学习获得层次化的、有效的表达,便于为后续的各种识别和挖掘提供更好的基础。在很短的发展中,深度学习在建模和挖掘单模态数据,如语音识别和计算机视觉等方面已经取得了瞩目的成就。
[0005]受到深度学习的启发,一种使用深层的自编码器完成视觉与语音的融合任务的模型,提出了视频和语音两个模态数据的共同表示,即提取两种模态中的共同成分;还有一种生成模型的深层波尔兹曼机,提出学习图像和文本的共同表示。但是这两个模型都是期望获得不同模态数据的共同成分表示,主要集中于跨模态的检索,而不是计算他们之间的相似度;而基于双胞胎自编码器的框架,将多个模态融合到单一的表示空间,虽然可以完成多模态数据之间相似度的计算,但是这个框架只能用于有标记的数据,对于没有标记的数据则无法实现相似度的计算。

【发明内容】

[0006]有鉴于此,本发明提供了一种使用深层结构获取双模态相似性测度的方法,应用深度学习框架,解决双模态数据的相似性测度计量问题。本发明提出的技术方案是:
[0007]—种使用深层结构获取双模态相似性测度的方法,该方法包括:
[0008]第一模态原始数据使用经典特征提取方法获取第一模态的低级表达Pl,第二模态原始数据使用经典特征提取方法获取第二模态的低级表达Tl,其中,Pl为η维向量,Tl为I维向量;
[0009]第一模态的低级表达Pl通过堆叠的两层受限波尔兹曼机获得中级表达Ρ3,所述Ρ3为s维二元向量;[0010]第二模态的低级表达Tl通过堆叠的两层受限波尔兹曼机获得中级表达T3,所述Τ3为s维二元向量;
[0011]所述第一模态的中级表达Ρ3与第二模态的中级表达Τ3分别使用自动编码器进行编码,编码后第一模态表示为Ρ4,第二模态表示为Τ4,所述Ρ4与Τ4为相同维数的向量,计算Ρ4与Τ4的相似性测度。
[0012]上述方案中,所述相似性测度计算方法进一步包括:
[0013]在编码层通过公式C (Ρ3, Τ3; Wf,Wg) = | | f (P3; Wf) -g (T3; Wg) | 11计算第一模态与第二模态的相似性测度C,其中I卜II1SL1范数,f(P3;Wf) = P4,g(T3;ffg) =T4,Wf为第一模态由P3计算得到P4所配置的所有偏置和连接权值的集合,Wg为第二模态由T3计算得到T4所配置的所有偏置和连接权值的集合。
[0014]上述方案中,该方法进一步包括:
[0015]所述受限波尔兹曼机的配置参数包括可见层V神经单元Vi的偏置匕、隐藏层H神经单元Iij的偏置Cj以及可见层神经单元和隐藏层神经单元的连接权值Wij ;
[0016]所述配置参数为令可见层V和隐藏层H神经单元的联合概率分布P (v, h)最大的
数值,其中
【权利要求】
1.一种使用深层结构获取双模态相似性测度的方法,其特征在于,该方法包括: 第一模态原始数据使用经典特征提取方法获取第一模态的低级表达P1,第二模态原始数据使用经典特征提取方法获取第二模态的低级表达Tl,其中,Pl为η维向量,Tl为I维向量; 第一模态的低级表达Pl通过堆叠的两层受限波尔兹曼机获得中级表达Ρ3,所述Ρ3为s维二元向量; 第二模态的低级表达Tl通过堆叠的两层受限波尔兹曼机获得中级表达Τ3,所述Τ3为s维二元向量; 所述第一模态的中级表达Ρ3与第二模态的中级表达Τ3分别使用自动编码器进行编码,编码后第一模态表示为Ρ4,第二模态表示为Τ4,所述Ρ4与Τ4为相同维数的向量,计算Ρ4与Τ4的相似性测度。
2.根据权利要求1所述的方法,其特征在于,所述相似性测度计算方法进一步包括: 在编码层通过公式(:(?3,13;1^18) = I f(P3;fff)-g(T3;ffg) I I工计算第一模态与第二模态的相似性测度C,其中M.II1SL1范数,f(P3;Wf) = P4,g(T3;ffg) =T4,Wf为第一模态由P3计算得到P4所配置的所有偏置和连接权值的集合,Wg为第二模态由T3计算得到T4所配置的所有偏置和连接权值的集合。
3.根据权利要求1所述 的方法,其特征在于,该方法进一步包括: 所述受限波尔兹曼机的配置参数包括可见层V神经单元Vi的偏置匕、隐藏层H神经单元比的偏置Cj以及可见层神经单元和隐藏层神经单元的连接权值Wij ; 所述配置参数为令可见层V和隐藏层H神经单元的联合概率分布P (v, h)最大的数值,其中
4.根据权利要求1所述的方法,其特征在于,所述Wf与Wg的训练算法进一步包括: 给定第一模态中级表达P3和第二模态中级表达T3,以及二元指标I,当训练用的第一模态与第二模态确实是同一对象的不同模态描述时,I取值为1,反之,第一模态与第二模态不是同一对象的不同模态描述时,I取值为O ; 将权值集合Wf与Wg合并表示为Θ,则定义任何成对输入的第一模态中级表达P3和第二模态中级表达T3的损失函数为:
L(P3,T3, I; Θ) = a (L1 (Ρ3; 0)+LT(T3; θ )) + (1-α ) LC(P3, T3, I; θ); 其中,
【文档编号】G06N3/08GK103793507SQ201410039222
【公开日】2014年5月14日 申请日期:2014年1月26日 优先权日:2014年1月26日
【发明者】李睿凡, 鲁鹏, 冯方向, 王小捷 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1