基于判别式多模态深度置信网多模态数据融合方法和系统的制作方法

文档序号:6538757阅读:242来源:国知局
基于判别式多模态深度置信网多模态数据融合方法和系统的制作方法
【专利摘要】本发明公开了一种基于判别式多模态深度置信网的多模态数据融合方法,该方法包括以下步骤:建立判别式多模态深度置信网;对于多个模态数据对应的深度置信网,利用限制波尔兹曼机,获得深度置信网优化后的网络权重;采用交替优化的策略来最小化判别式多模态玻尔兹曼机的目标函数,获得优化后的玻尔兹曼机权重,得到最终的判别式多模态深度置信网模型;向深度置信网模型输入待融合的多模态数据,得到融合结果。本发明还公开了一种基于判别式多模态深度置信网的多模态数据融合系统。本发明通过在传统多模态深度置信网络中引入有监督的标签信息,判别式的挖掘不同模态数据之间的关联性,从而在大规模多模态数据分类和检索任务中可以保证较高的准确率。
【专利说明】基于判别式多模态深度置信网多模态数据融合方法和系统
【技术领域】
[0001]本发明涉及模式识别与机器学习领域,特别涉及一种基于判别式多模态深度置信网的多模态数据融合方法和系统。
【背景技术】
[0002]一个概念或者内容通常可以被多个模态数据来表示,例如,图像和其相应的文字注释是表示相同内容的两种模态数据;当人们在阅读时,嘴唇的动作和相应的声音也是两种对应的模态数据。大量的工作已经证实,与单个模态数据相比,多个模态数据可以为概念提供更为全面的描述,从而可以潜在地帮助一些常见的模式识别问题,例如分类和检索。多模态数据融合的一般做法是将多模态数据融合为同一个表达,然后这个共同表达可以进一步用于后续的分类或者检索任务。
[0003]现有的多模态数据融合工作可以大致分为两类:第一类是利用“浅”层的融合模型,即模型只包括输入和共同表达这两层结构。实际上,由于各个模态都包含其模态相关的特性,会对数据融合过程带来负面的影响,从而会很大程度上降低最后数据融合的质量;另外一类工作是使用“深”层模型进行数据融合,虽然这些模型可以很好的处理多模态数据的复杂特性,但是现有大量的模型都是生成式的模型,并不能很好的适用于判别性的任务,例如分类和检索。

【发明内容】

[0004]本发明的目的是提供一种基于判别式多模态深度置信网的多模态数据融合方法和系统。为了增强多模态数据融合结果的判别性,本发明在传统无监督多模态玻尔兹曼机的基础上引入有监督的类别信息,使得融合结果更适用于分类和检索等判别型的任务。
[0005]根据本发明的一方面,本发明提出了一种基于判别式多模态深度置信网的多模态数据融合方法,该方法包括以下步骤:
[0006]步骤1、建立判别式多模态深度置信网,并设置网络的层数和节点数;
[0007]步骤2、对于多个模态数据对应的深度置信网,分别把相邻的两层结构看作一个限制的波尔兹曼机,采用无监督地自底向上的逐层训练方法来训练网络,获得多个模态数据对应的深度置信网优化后的网络权重;
[0008]步骤3、把多个模态数据对应的深度置信网中的隐含层处理结果输入到判别式多模态玻尔兹曼机中进行数据融合,并采用交替优化的策略来最小化该玻尔兹曼机的目标函数来获得优化后的玻尔兹曼机权重,从而得到最终的判别式多模态深度置信网模型;
[0009]步骤4、向所述判别式多模态深度置信网模型输入待融合的多模态数据,得到对应的融合结果。
[0010]根据本发明的另一方面,本发明还提出了一种基于判别式多模态深度置信网的多模态数据融合系统,所述系统包括:网络建立模块、网络权重优化模块和数据融合模块,其中:[0011]所述网络建立模块,用于建立判别式多模态深度置信网,并设置网络的层数和节点数;
[0012]所述网络权重优化模块,用于对于多个模态数据对应的深度置信网,分别把相邻的两层结构看作一个限制的玻尔兹曼机,采用无监督的自底向上的逐层训练方法来训练网络,以获得多个模态数据对应的深度置信网优化后的网络权重;对于判别式多模态玻尔兹曼机,采用交替优化的策略来最小化该玻尔兹曼机的目标函数来获得优化后的玻尔兹曼机权重,从而得到最终的判别式多模态深度置信网模型;
[0013]所述数据融合模块,用于向所述判别式多模态深度置信网模型输入待融合的多模态数据,得到输出层节点值,即为多模态数据融合结果。
[0014]由于本发明通过推广无监督多模态深度模型适以最大间隔方式来解决多模态数据融合,从而可以使得融合结果更具判别性。同时在训练多个模态相关的置信网权重阶段,还可以利用大量无类别标签的模态数据。
【专利附图】

【附图说明】
[0015]图1是本发明基于判别式多模态深度置信网的多模态数据融合方法流程图。
[0016]图2是本发明一实施例的解决图像和文本融合问题的模型图。
【具体实施方式】
[0017]为使本发明的目的、技术方案和优点更加清楚明自,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
[0018]根据本发明的一方面,提出一种基于判别式多模态深度置信网的多模态数据融合方法,能够广泛地应用于多模态数据的分类和检索问题。
[0019]图1示出了本发明提出的基于判别式多模态深度置信网的多模态数据融合方法的流程图,如图1所示,所述方法包括以下步骤:
[0020]步骤1、建立判别式多模态深度置信网,并设置网络的层数和节点数;
[0021]其中,所述判别式多模态深度置信网为多层网络结构,包括多个模态数据对应的深度置信网和一个判别式波尔兹曼机。所述判别式多模态深度置信网的输入层为训练多模态数据,比如可以为对应图像的像素点,在本发明一实施例中,要求所有模态内的数据保持相同的大小,例如同样大小的图像;所述输入层不仅限于图像和文本模态,还包括语音等可以表示为列向量的数据;输出层用于表示训练多模态数据的融合结果;该判别式多模态深度置信网具有网络权重,用于根据当前层节点值获得下一层节点值。所述深度置信网的输入层和输出层的节点数是固定的,但是其各隐含层的节点数需要手工调节以使得该模型的效果最优。
[0022]图2示出了本发明一实施例中所使用的判别式多模态深度置信网结构,其中图2(a)表示判别式多模态深度置信网,图2(b)和图2(c)分别表示多个模态对应的深度置信网和判别式多模态玻尔兹曼机,该实施例对图像和文本两个模态的数据进行融合,对于其他多模态数据的融合同理类推。如图2所示,这是一个五层的判别式多模态深度置信网,每层中的圆形点表示网络节点。最底两层分别代表图像和文本输入层,图像输入层输入的是一个<^难的图像列向量V e文本输入层输入的是一个维的列向量u ε EdOxl,向量的每一维度用一个节点表示,其取值范围为O到I的实数,对应归一化后的输入向量。最高层为类别层,图像和文本的类别表示为一个C维的向量y e ΙΤΧ1,向量的每一维取值为O或1,对应是否属于相应的c个类别。对于中间分别包Civ1 Civ2,吋和啤个节点的四个隐含层hi,h^,h?和岵,和最后包含dh个节点的输出层h,则分别得到屯,苟,哎,duL
和dh维的五个列向量,相应的值分别由该层前一层的向量值计算得到:
[0023]
【权利要求】
1.一种基于判别式多模态深度置信网的多模态数据融合方法,其特征在于,该方法包括以下步骤: 步骤1、建立判别式多模态深度置信网,并设置网络的层数和节点数; 步骤2、对于多个模态数据对应的深度置信网,分别把相邻的两层结构看作一个限制的波尔兹曼机,采用无监督地自底向上的逐层训练方法来训练网络,获得多个模态数据对应的深度置信网优化后的网络权重; 步骤3、把多个模态数据对应的深度置信网中的隐含层处理结果输入到判别式多模态玻尔兹曼机中进行数据融合,并采用交替优化的策略来最小化该玻尔兹曼机的目标函数来获得优化后的玻尔兹曼机权重,从而得到最终的判别式多模态深度置信网模型; 步骤4、向所述判别式多模态深度置信网模型输入待融合的多模态数据,得到对应的融合结果。
2.根据权利要求1所述的方法,其特征在于,所述判别式多模态深度置信网为多层网络结构。
3.根据权利要求1所述的方法,其特征在于,所述判别式多模态深度置信网包括多个模态,并设置网络的层数和节点数对应的深度置信网和一个判别式波尔兹曼机。
4.根据权利要求1所述的方法,其特征在于,所述判别式多模态深度置信网的输入层为训练多模态数据,输出层表示训练多模态数据的融合结果,所述判别式多模态深度置信网具有网络权重,以根据当 前层节点值获得下一层节点值。
5.根据权利要求1所述的方法,其特征在于,所述判别式多模态玻尔兹曼机是由多模态数据的最高隐含层、共享隐含层和类别层组成的三层网络结构。
6.根据权利要求1所述的方法,其特征在于,所述玻尔兹曼机的目标函数包括两项内容:真实类别与错误类别的条件概率之间差值的合页损失,和多模态数据及其类别的负对数似然函数。
7.一种基于判别式多模态深度置信网的多模态数据融合系统,其特征在于,所述系统包括:网络建立模块、网络权重优化模块和数据融合模块,其中: 所述网络建立模块,用于建立判别式多模态深度置信网,并设置网络的层数和节点数; 所述网络权重优化模块,用于对于多个模态数据对应的深度置信网,分别把相邻的两层结构看作一个限制的玻尔兹曼机,采用无监督的自底向上的逐层训练方法来训练网络,以获得多个模态数据对应的深度置信网优化后的网络权重;对于判别式多模态玻尔兹曼机,采用交替优化的策略来最小化该玻尔兹曼机的目标函数来获得优化后的玻尔兹曼机权重,从而得到最终的判别式多模态深度置信网模型; 所述数据融合模块,用于向所述判别式多模态深度置信网模型输入待融合的多模态数据,得到输出层节点值,即为多模态数据融合结果。
8.根据权利要求7所述的系统,其特征在于,所述判别式多模态深度置信网为多层网络结构。
9.根据权利要求7所述的系统,其特征在于,所述判别式多模态深度置信网包括多个模态,并设置网络的层数和节点数对应的深度置信网和一个判别式波尔兹曼机。
10.根据权利要求7所述的系统,其特征在于,所述判别式多模态深度置信网的输入层为训练 多模态数据,输出层表示训练多模态数据的融合结果,所述判别式多模态深度置信网具有网络权重,以根据当前层节点值获得下一层节点值。
【文档编号】G06F17/30GK103838836SQ201410064933
【公开日】2014年6月4日 申请日期:2014年2月25日 优先权日:2014年2月25日
【发明者】王亮, 谭铁牛, 王威, 黄岩 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1