一种基于深度学习的多模式数据融合方法与流程

文档序号:11143400阅读:580来源:国知局
一种基于深度学习的多模式数据融合方法与制造工艺

本申请涉及一种基于深度学习的多模式数据融合方法,属于机器学习领域。



背景技术:

深度学习已经成为在计算机视觉,语音分析和许多其他领域占优势的机器学习形式。深度学习采用与神经网络相似的分层结构,系统由包括输入层、多隐层、输出层组成的多层网络,只有相邻层节点之间有连接,同一层以及跨层节点之间相互无连接。

现有技术中,深度学习中多模式数据融合主要是使用深度自编码机实现音频、视频两种模式数据的融合,或者使用高斯伯努利限制波尔兹曼机、重复softMax限制玻尔兹曼机实现图片、文本两种模式数据的融合,或者使用深度玻尔兹曼机的深度学习实现音频、视频、文本等数据的融合。

但是在实际应用中,还包括大量的传感器数据,而目前还未有对音频、图像、文本、传感器数据等多种模式数据的融合。



技术实现要素:

根据本申请的一个方面,提供了一种基于深度学习的多模式数据融合方法,该方法可以融合包括传感器数据在内的多种模式数据。

一种基于深度学习的多模式数据融合方法,包括:

对N个模式数据分别进行向量化处理;N为自然数,且N个模式数据中包括传感器数据;

对N个模式数据中每一个模式数据建模,得到N个单模式数据;

将得到的任意两个单模式数据进行融合,得到双模式数据;

将包含相同模式数据的任意两个双模式数据进行融合,将任一个双模式数据和与该双模式数据不相同的单模式数据进行融合,得到三模式数据;

以此类推,根据得到的N-1模式数据进行N模式数据融合,得到N模式数据。

其中,所述N为4,四个模式数据分别为音频数据、传感器数据、图像数据和文本数据。

其中,对音频数据进行稀疏化和向量化处理具体为:

根据第j个隐层神经元的平均激活度得到m为音频数据的个数,x(i)表示第i个音频数据;

其中,表示两个分别以ρ和为均值伯努力分布的相对熵,ρ为稀疏性参数,为隐藏神经元j的激活度,n为隐层神经元个数;

设定截断核范数;

然后进行稀疏自编码学习,得到稀疏化和向量化的音频数据Jsparse(W,b);

其中,hW,b(x(i))表示重建的x(i),β,α表示稀疏化惩罚因子的权重,W(1)表示可见层到第一隐层的权重。

其中,对传感器数据和图像数据进行稀疏化和向量化处理,具体为:

设神经网络为k层,设传感器数据和图像数据均由N个数据样本组成,每个数据样本为D维向量,第k层数据向量为

预设每一层的学习阈值为(b1,…bK),每一层的学习阈值逐渐增加;

进行可见层到第一隐层的学习,得到第一隐层的向量;

根据得到的第一隐层的向量,进行第i隐层到第i+1隐层的学习,得到第i+1隐层的向量,0<i<k-2;

根据第k-2隐层的向量,进行第k-2隐层到第k-1隐层的学习,得到稀疏化和向量化后的传感器数据和图像数据。

所述第一隐层的向量为其中,{v1,...,vm}表示训练集中有m个训练样本,ρ为稀疏性参数,D表示维数,Wij表示可见层第i个单元对第一隐层第j个神经元的贡献度;bj表示第j个神经元的偏移值。

所述第k-2隐层的向量为

其中,表示第i隐层第j个向量,表示第k-2隐层第j个向量,表示第i隐层第s个神经元对第i-1隐层第j个神经元的贡献度,表示第i层到第i+1层的第j个神经元的偏移值;表示第k-2隐层第s个神经元对第k-1隐层第j个神经元的贡献度,表示第k-3层到第k-2层的第j个神经元的偏移值。

设稀疏化和向量化后的传感器数据和图像数据为h(k-1),则表示第k-1隐层第j个向量,其中,第k-2隐层第s个神经元对第k-1隐层第j个神经元的贡献度,表示第k-2层到第k层的第j个神经元的偏移值。

其中,将包含相同模式数据的任意两个双模式数据进行融合,将任一个双模式数据和与该双模式数据不相同的单模式数据进行融合,得到三模式数据,具体为:

将双模式数据中包含相同模式数据的任意两个双模式数据组合,称为第一组合;将任一个双模式数据和与其不相同的单模式数据组合,称为第二组合;

使用限制波尔兹曼机对第一组合和第二组合中的任一项的第一、第二隐层分别建模,得到三模式数据。

其中,根据得到的N-1模式数据进行N模式数据融合,得到N模式数据,具体为:

将得到的三模式数据中任一个三模式数据与其不相同的单模式数据组合,称为第三组合;将双模式数据中任一个双模式数据和与其不相同的双模式数据组合,称为第四组合;

使用限制波尔兹曼机对第三组合和第四组合中的任一项的第一、第二隐层分别建模,得到四模式数据。

进一步地,还包括:根据包含第一模式数据的多模式数据和对应不包含第一模式数据的单模式或多模式数据推测第一模式数据。

本申请能产生的有益效果包括:

1)本申请通过对N个模式数据分别进行向量化处理,然后对得到向量化后处理后的N个模式数据中每一个模式数据建模,得到双模式数据,再将得到的双模式数据融合,得到三模式数据,以此类推,最终得到N模式数据,实现对包括传感器数据在内的多种模式数据的融合;

2)进一步地,对传感器等高维数据进行向量化处理时,每一层的学习阈值逐渐增加,中间多个隐层的激活神经元数目最少,最后一层激活关联性最大的有限数目个神经元,这样,不仅可以实现逐层学习、逐层校正,还可以实现高维数据分布在有限维上,从而实现数据的压缩,即传感器等高维数据在学习过程中得到稀疏化表示,方便后续处理;

3)进一步地,基于高斯伯努利限制波尔兹曼机融合双模式或多模式数据时,隐层激活神经元的数目有限,从而获得高维数据在有限维上的表示,简化了融合过程;

4)进一步地,在一种模式或多种模式缺失的情况下,通过将已知模式数据带入多模式数据模型可以推测出丢失的或不完整的数据。

附图说明

图1为一种基于深度学习的多模式数据融合方法流程示意图。

具体实施方式

下面结合实施例详述本申请,但本申请并不局限于这些实施例。

实施例1

参见图1,本发明实施例提供了一种基于深度学习的多模式数据融合方法,该方法包括:

101、对N个模式数据分别进行向量化处理;N为自然数,且N个模式数据中包括传感器数据;

本发明实施例中,设N为4,即四个模式数据中除了传感器数据,还包括音频数据、图像数据和文本数据。

具体地,对音频数据进行稀疏化和向量化处理,具体为:

根据第j个隐层神经元的平均激活度得到m为音频数据的个数,x(i)表示第i个音频数据;

其中,表示两个分别以ρ和为均值的伯努力分布的相对熵,ρ为稀疏性参数,为隐层神经元j的激活度,n为隐层神经元个数;和相互独立,所以和相互独立,最小化也即最小化所有的相对熵,使得逼近于ρ;

设定截断核范数;

具体地,给定矩阵W(1)∈RD×n,截断核范数||W||r定义为min(D,n)-r个奇异值的和;

然后进行稀疏自编码学习,得到稀疏化和向量化的音频数据Jsparse(W,b);

其中,hW,b(x(i))表示重建的x(i),β,α表示稀疏化惩罚因子的权重,W(1)表示可见层到第一隐层的权重。

对传感器数据和图像数据进行稀疏化和向量化处理,具体为:

设神经网络为k层,设传感器数据和图像数据均由N个数据样本组成,每个数据样本为D维向量,第k层数据向量为

预设每一层的学习阈值为(b1,…bK),每一层的学习阈值逐渐增加;

进行可见层到第一隐层的学习,得到第一隐层的向量;

具体地,采用基于隐层有限数目个激活神经元的高斯伯努利限制波尔兹曼机实现可见层到第一隐层的学习,设可见层v的边缘分布为P(v;θ),则

其中,真值单元v∈RD,h∈{0,1}F

v、h的能量函数为:

其中,θ={a,b,W,σ}是模型参数,采用惩罚项进行稀疏,λ是惩罚项的权重,F表示神经元个数,然后通过对比散度算法重构出可见层,然后使用梯度下降算法学习出模型θ,对比散度算法、梯度下降学习算法属于本领域技术人员的公知常识,本发明实施例在此不再赘述。

在得出θ后,基于上述能量函数可得到当可见层为给定值、隐层神经元为1时的条件概率为:

基于上述能量函数可得到隐层为给定值、可见层为x时的条件概率:

通过上述条件概率,得到第一隐层的向量为其中,表示训练集中有m个训练样本,D是输入向量的维数,ρ为稀疏性参数;Wij表示可见层第i个单元对第一隐层第j个神经元的贡献度;bj表示第j个神经元的偏移值。

根据上述得到的第一隐层的向量,进行第i隐层到第i+1隐层的学习,得到第i+1隐层的向量,0<i<k-2;

具体地,将第i隐层的向量作为第i+1隐层的输入,得到第i+1隐层的向量,即经过多层学习后得到第k-2隐层的向量;

本发明实施例中,第i隐层的向量由实数值组成,设第i隐层的第j个向量为其中,表示第i-1隐层第s个神经元对第i隐层第j个神经元的贡献度;表示第i-1隐层到第i隐层的学习时,第j个神经元的偏移值;

重建得到第i-1隐层向量为表示第i隐层第s个神经元对第i-1隐层第j个神经元的贡献度;表示第i隐层到第i-1隐层的重建第j个神经元时的偏移值;

在已知z的情况下,设定第i-1隐层的条件分布为H(i-1)|z~N(z,σ2I)和其中,H(i-1)表示第i-1隐层,表示第i-1隐层的第k个神经元。

然后利用损失函数进行优化,得到符合约束条件的第i+1隐层的向量,约束条件为|z-h(i-1)|≤Bi

其中,C(σ2)表示常数,λ1表示惩罚项的权重,||·||*表示核范数,ξ为激活值,最优化Loss(x,z),使得z在σ2误差范围内尽量靠近。经过多层学习,可得到多个第i+1隐层的向量,经过优化后得到第k-2隐层的向量为:

其中,表示第i隐层第j个向量,表示第k-2隐层第j个向量,表示第i隐层第s个神经元对第i-1隐层第j个神经元的贡献度,表示第i层到第i+1层的第j个神经元的偏移值;表示第k-2隐层第s个神经元对第k-1隐层第j个神经元的贡献度,表示第k-3层到第k-2层的第j个神经元的偏移值;

根据第k-2隐层的向量,进行第k-2隐层到第k-1隐层的学习,得到第k-1隐层的向量:

具体地,将第k-2隐层的向量作为第k-1隐层的输入,得到第k-1隐层的向量,即稀疏化和向量化后的传感器数据和图像数据h(k-1);表示第k-1隐层第j个向量,其中,第k-2隐层第s个神经元对第k-1隐层第j个神经元的贡献度,表示第k-2层到第k层的第j个神经元的偏移值;

重建得到的第k-2隐层向量为zk-2的约束条件为

然后利用对重建得到的第k-2隐层向量进行优化,使得传感器数据和图像数据特征大量分布在关联性最大的有限数目的神经元上。

其中,1TW(k-1,k)=1,表示元素相乘,di是第k-2隐层向量h(k-2)与第k-1隐层到第k隐层的权重矩阵的第i个向量的欧式距离。

本发明实施例中每一层学习后都会和前一层互相关联,每一层的学习阈值逐渐增加,中间多个隐层的激活神经元数目最少,最后一层激活关联性最大的有限数目个神经元,这样,不仅可以实现逐层学习、逐层校正,还可以实现高维数据分布在有限维上,从而实现数据的压缩,即传感器等高维数据在学习过程中得到稀疏化表示。

对文本数据进行向量化处理具体为:对文本数据中不同的字进行编序,并将对应文本转换为关于对应字出现的频度向量。

102、对向量化处理后的N个模式数据中每一个模式数据建模,得到N个单模式数据;

本发明实施例中,向量化处理后的N个模式数据为可见层,对可见层使用限制波尔兹曼机进行建模,也就是说使用限制波尔兹曼机对向量化的音频数据、感应器数据、图像数据进行建模,使用重复Softmax的限制波尔兹曼机对文本数据建模;使用限制波尔兹曼机对N个模式数据的第一隐层和第二隐层建模。

103、将得到的任意两个单模式数据进行融合,得到双模式数据;

本发明实施例中设A为向量化的音频数据,B为向量化的传感器数据,C为向量化的图像数据,D为向量化的文本数据,则得到的双模式数据为AB、AC、AD、BC、BD、CD。

其中,任一个单模式数据与文本数据的融合可以通过基于高斯伯努利限制波尔兹曼机的模式和基于重复SoftMax的限制波尔兹曼机得到,例如AD、BD、CD。

双模式或者多模式数据融合结果由第一模式与第二模式表示,例如双模式数据融合结果为(A,B),则第一模式为A,第二模式为B;三模式数据融合结果为((AB)C),则第一模式为已经融合的AB,第二模式为C;四模式数据融合结果为((AB)(CD)),则第一模式为已经融合的AB,第二模式为已经融合的CD;以此类推。

本发明实施例中,双模式或者多模式数据融合的过程可以通过基于高斯伯努利限制波尔兹曼机表示,其中,设基于高斯伯努利限制波尔兹曼机的第一模式采用m表示,设基于高斯伯努利限制波尔兹曼机的第二模式采用t表示,继续以上述例子进行描述,双模式数据融合(A,B)中,第一模式m表示A,第二模式t表示B;三模式数据融合((AB)C)中,第一模式m表示已经融合的AB,第二模式表示C;四模式数据融合((AB)(CD))中,第一模式表示已经融合的AB,第二模式t表示已经融合的CD;以此类推。

双模式或者多模式数据融合的过程也可以通过基于{0,1}限制波尔兹曼机表示,基于{0,1}限制波尔兹曼机的第一模式采用n表示,基于{0,1}限制波尔兹曼机的第二模式采用a表示。

除了文本数据以外,其它任意两个单模式数据的融合可以通过基于高斯伯努利限制波尔兹曼机的第一模式m和基于高斯伯努利限制波尔兹曼机的第二模式t得到;还可以通过基于{0,1}限制波尔兹曼机的第一模式n和基于{0,1}限制波尔兹曼机的第二模式a得到。

104、将包含相同模式数据的任意两个双模式数据进行融合,将任一个双模式数据和与该双模式数据不相同的单模式数据进行融合,得到三模式数据;

具体地,将双模式数据中包含相同模式数据的任意两个双模式数据组合,称为第一组合;将任一个双模式数据和与其不相同的单模式数据组合,称为第二组合;

使用限制波尔兹曼机对第一组合和第二组合中的任一项的第一、第二隐层分别建模,得到三模式数据。

继续上述例子,上述6个双模式数据中包含相同模式数据的任意两个双模式数据的第一组合为:(AB,AC)、(AB,AD)、(AB,BC)、(AB,BD)、(AC,AD)、(AC,BC)、(AC,CD)、(AD,BD)、(AD,CD)、(BC,BD)、(BC,CD)、(BD,CD);

上述6个双模式数据中任一个双模式数据中与其不相同的单模式数据的第二组合为:(AB,C)、(AB,D)、(AC,B)、(AC,D)、(AD,B)、(AD,C)、(BC,A)、(BC,D)、(BD,A)、(BD,C)、(CD,A)、(CD,B);

然后,使用限制波尔兹曼机对第一组合和第二组合中的任一项的第一、第二隐层分别建模,得到三模式数据(ABC、ABD、ACD、BCD)。

基于高斯伯努利限制波尔兹曼机融合双模式或多模式数据时,隐层变量h={h(1m),h(2m),h(1t),h(2t),h(3)},即隐层激活神经元的数目有限,则双模式或多模式数据的具体融合结果如下表示:

其中,

表示m模式下,已知可见层、第二隐层神经元情况下,第一隐层的条件概率;

表示m模式下,已知第一隐层、第三隐层神经元情况,第二隐层的条件概率;

表示t模式下,已知可见层、第二隐层,第一隐层的条件概率;

表示t模式下,已知第一隐层、第三隐层,第二隐层的条件概率;

表示已知t模式的第二隐层和m模式的第二隐层,第三隐层的条件概率;

表示t模式下,给定第一隐层,可见层服从高斯分布;

表示m模式下,给定第一隐层,可见层服从高斯分布;

基于{0,1}限制波尔兹曼机融合双模式或多模式数据时,隐层变量,则双模式或多模式数据的具体融合结果如下表示:

其中,

表示n模式下,已知可见层、第二隐层神经元情况下,第一隐层的条件概率;

表示n模式下,已知可见层、第二隐层神经元情况下,第一隐层的条件概率;

表示a模式下,已知可见层、第二隐层神经元情况下,第一隐层的条件概率;

表示已知a模式的第一隐层、第三隐层神经元情况下,a模式第二隐层的条件概率;

表示已知n模式的第二隐层、a模式第二隐层神经元情况下,第三隐层的条件概率;

表示a模式下,给定第一隐层,可见层服从高斯分布;

表示n模式下,给定第一隐层,可见层服从高斯分布;

105、以此类推,根据得到的N-1模式数据进行N模式数据融合,得到N模式数据。

本发明实施例中N为4,则对得到的三模式数据进行四模式建模。

具体地,将得到的三模式数据中任一个三模式数据与其不相同的单模式数据组合,称为第三组合;将双模式数据中任一个双模式数据和与其不相同的双模式数据组合,称为第四组合;

然后使用限制波尔兹曼机对第三组合和第四组合中的任一项的第一、第二隐层分别建模,得到四模式数据。

继续上述例子,任一个三模式数据与其不相同的单模式数据的第三组合为:(ABC,D)、(ABD,C)、(ACD,B)、(BCD,A);

任一个双模式数据和与其不相同的双模式数据的第四组合为:(AB,CD)、(AC,BD)、(AD,BC);

根据第三组合和第四组合,得到四模式数据ABCD。

进一步地,得到多模式数据之后,还可以利用这些多模式数据进行学习,由于利用这些多模式数据进行学习属于本领域技术人员的公知常识,本发明在此对其过程进行简单描述:为求得满足条件的平均域参数μ,需最大化下列不等式右侧部分,可得到最理想的μ={μ(1m),μ(1t),μ(2m),μ(2t),μ(3)};其中,μ与θ相关;上面提到的不等式为

其中,

由于,

当Q(h|v;μ)=P(h|v;θ)时,logP(v;θ)=L(Q(h|v;μ)),则最小化logP(v;θ)就转化为最大化上述不等式右侧的L(Q(h|v;μ));当KL(Q(h|v;μ)||P(h|v;θ))=0时,L(Q(h|v;μ))最大,因此优化logP(v;θ)即可转化为采用Q(h|v;μ)逼近P(h|v;θ)。

本发明实施例使用朴素平均域近似进行逼近P(h|v;θ);

当双模式或者多模式数据融合的过程通过基于高斯伯努利限制波尔兹曼机表示时,构建Q(h|v;μ),通过上述学习过程得到的μ如下:

其中,Q(h|v;μ)是关于各隐层神经元的连乘形式,在于简化对后验分布的逼近。

则μ中的{μ(1m),μ(1t),μ(2m),μ(2t),μ(3)}分别为:

其中,分别对应m模式的第一隐层和第二隐层,分别对应t模式的第一隐层和第二隐层,对应混合层也即第三隐层。

当双模式或者多模式数据融合的过程也可以通过基于{0,1}限制波尔兹曼机表示时,构建的Q(h|v;μ)为:

此时μ中的{μ(1n),μ(1a),μ(2n),μ(2a),μ(3)}分别为:

其中,分别对应n模式的第一隐层和第二隐层,分别对应a模式的第一隐层和第二隐层,对应混合层也即第三隐层。

然后,

从Q(v,h;θ)上采样,得到模型期望P(v,h|θ);

vi、hj表示Q(v,h;θ)上的样本,Nv表示可见层单元个数,Nh表示隐层神经元个数;

然后根据得到的μ计算数据期望EP(h|v)

再根据当前神经元关于其他神经元的条件分布和采集到的部分样本计算全样本;

具体的,设有Q个样本,第s个样本的初始状态为(v0,s,h0,s),吉布斯采样后得到马尔科夫链,在t=50次采样后可以获得稳定状态的样本,Q个样本就构成了Q个马尔科夫链。

根据采集到的新样本和得到的μ对神经网络各层之间的连接权重w和隐层神经元的偏移值b进行更新;

具体地,设定θ情况下,求能量函数P(v,h)关于θ、W(1)、W(i)、a、b的一阶导数,获得关于P(h|v;θ)和关于P(v,h;θ)情况下对应期望的差值;

根据得到的期望差值使用梯度下降法对权重进行更新,从而达到利用得到的多模式数据进行学习的目的。

其中,能量函数P(v,h)关于θ、W(1)、W(i)、a、b的一阶导数为现有技术,本发明实施例仅列出能量函数关于连接权重W(1)和W(i)的一阶导数,其余不再赘述。

能量函数关于连接权重W(1)的一阶导数为

表示可见层和第一隐层的权值矩阵;P(v;θ)为关于v的边缘概率;

能量函数关于连接权重W(i)的一阶导数为

表示第i-1隐层和第i隐层的权值矩阵。

最终当Q(h|v;μ)=P(h|v;θ)时,上述不等式右侧部分最大,可得到最理想的μ。

进一步地,通过本发明实施例最终得到的多模式数据模型还可以推测出丢失的或不完整的数据,即根据包含第一模式数据的多模式数据和对应不包含第一模式数据的单模式或多模式数据推测第一模式数据;

例如,设第一模式数据为C模式数据,如果缺失C模式数据,通过双模式数据P(AC)、P(BC)或者P(CD)引导,然后对应的在单模式P(A)、P(B)或者P(D)上采样,就可以推测出C模式数据;也可以通过三模式数据p(ABC)、P(ACD)或者P(BCD)引导,然后对应的在双模式数据P(AB)、P(AD)或者P(BD)上采样,从而推测出C模式数据;也可以通过四模式数据p(ABCD)引导,然后在三模式数据p(ABD)上采样,推测出C模式数据,同理,缺失两个或多个模式数据时的推测方法类似,本发明实施例在此不再赘述。

本发明实施例中,通过对N个模式数据分别进行向量化处理,然后对得到向量化后处理后的N个模式数据中每一个模式数据建模,得到双模式数据,再将得到的双模式数据融合,得到三模式数据,以此类推,最终得到N模式数据,实现对包括传感器数据在内的多种模式数据的融合;进一步地,对传感器等高维数据进行向量化处理时,每一层的学习阈值逐渐增加,中间多个隐层的激活神经元数目最少,最后一层激活关联性最大的有限数目个神经元,这样,不仅可以实现逐层学习、逐层校正,还可以实现高维数据分布在有限维上,从而实现数据的压缩,即传感器等高维数据在学习过程中得到稀疏化表示,方便后续处理;进一步地,基于高斯伯努利限制波尔兹曼机融合双模式或多模式数据时,隐层激活神经元的数目有限,从而获得高维数据在有限维上的表示,简化了融合过程;进一步地,在一种模式或多种模式缺失的情况下,通过将已知模式数据带入多模式数据模型可以推测出丢失的或不完整的数据。

以上所述,仅是本申请的几个实施例,并非对本申请做任何形式的限制,虽然本申请以较佳实施例揭示如上,然而并非用以限制本申请,任何熟悉本专业的技术人员,在不脱离本申请技术方案的范围内,利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例,均属于技术方案范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1