多模态变分自编码模型训练方法、系统及相关设备与流程

文档序号:31465224发布日期:2022-09-09 20:46阅读:124来源:国知局
多模态变分自编码模型训练方法、系统及相关设备与流程

1.本发明属于多模态数据处理领域,尤其涉及一种多模态变分自编码模型训练方法、系统及相关设备。


背景技术:

2.多模态数据处理广泛存在于自然科学研究、工程技术等领域中,不同模态的数据往往是对同一事、物不同形式的表示,又各自具有独特的性质。对多模态数据进行建模与表示是人工智能研究领域的重要课题,多模态数据处理也是人工智能技术应用重要的组件。
3.采用概率生成模型处理多模态数据是一个重要的研究领域,早期的模型不能有效地处理大规模数据场景下模型训练与推理问题,而变分自编码(variational auto-encoder,简称vae)的提出很好地解决了该问题,基于vae框架的深度概率生成模型研究也成为了当前多模态数据处理重要的方向。2016年之后,一些研究工作基于vae框架通过建模数据的条件生成过程,实现模态之间的数据交叉与转换生成,但这些工作未从生成角度进行多模态数据建模,限制了模型的表示能力;2017年之后,对多模态联合数据分布的建模研究工作陆续展开,包括联合多模态变分自编码器(joint multimodal variational auto-encoder,jmvae)模型、多模态变分自编码器(multimodal variational auto-encoder,mvae)模型和专家混合多模态变分自编码器(mixture-of-experts multimodal variational auto-encoder,mmvae)模型等,这些模型通过建模多模态数据联合概率分布实现多模态数据的表示、条件生成,比分别建模不同方向上条件概率分布的训练开销更低,也获得了更有效的数据表示。但这些模型没有对数据进行解耦表示。
4.2020年以来的一些研究工作尝试将不同模态的共享与私有信息分开表示,相关工作提出了解耦的多模态变分自编码器(disentangling multimodal variational auto-encoder,dmvae)模型,该模型通过将模态共享与私有信息分开表示,并最小化共享与私有隐向量的互信息进行解耦表示,同时通过噪音对抗估计损失在隐空间对齐共享隐向量,取得了较好的效果,但该模型仍然存在数据生成质量不清晰与共享私有信息抽取不准确的问题。
5.在当前多模态数据处理领域,已有的研究工作对不同模态数据之间的共享信息没有显式的约束,这使得多模态数据共享与私有信息不能被高效地解耦表示,进而导致信息抽取不准确、生成数据模糊的问题。


技术实现要素:

6.为解决以上问题,本发明实施例提供一种多模态变分自编码模型训练方法、系统及相关设备,旨在提高多模态数据中共享和私有信息的数据生成、解耦等能力。
7.第一方面,本发明实施例提供一种多模态变分自编码模型训练方法,所述方法包括以下步骤:
8.获取包含多种模态的图像数据,并将每两张不同模态的图像数据进行配对,得到
图像对数据集;
9.构建多模态变分自编码框架模型,并将所述图像对数据集作为所述多模态变分自编码框架模型的输入,对所述多模态变分自编码框架模型进行训练;
10.使用四元组度量损失作为所述多模态变分自编码框架模型训练的损失函数,直到损失函数收敛,输出完成训练的多模态变分自编码模型。
11.更进一步地,定义所述图像对数据集中的其中一对图像分别为第一模态图像x和第二模态图像y,所述第一模态图像x和所述第二模态图像y相互配对得到的一对两模态数据为(x,y),所述两模态数据(x,y)具有共享隐向量z、以及分别对应所述第一模态图像x和所述第二模态图像y的私有隐向量h
x
、hy;
12.所述多模态变分自编码框架模型包括分别对应所述第一模态图像x和所述第二模态图像y的第一生成器第二生成器所述多模态变分自编码框架模型还包括分别对应所述私有隐向量h
x
和所述私有隐向量hy的第一私有信息编码器第二私有信息编码器以及分别对应所述第一模态图像x和所述第二模态图像y的第一共享信息编码器第一共享信息编码器
13.更进一步地,所述多模态变分自编码框架模型对所述两模态数据(x,y)的联合概率分布建模满足如下关系式(1):
[0014][0015]
关系式(1)中,p(z)、p(h
x
)、p(hy)分别为所述共享隐向量z、所述私有隐向量h
x
、所述私有隐向量hy的先验分布,且均服从各向同性的高斯分布。
[0016]
更进一步地,所述多模态变分自编码框架模型进行训练时,对于所述两模态数据(x,y),其边缘概率分布p
θ
(x,y)满足如下关系式(2):
[0017][0018]
所述多模态变分自编码框架模型使用变分推理法,利用q(z,h
x
,hy|x,y)作为变分分布,并计算lnp
θ
(x,y)的变分下界所述变分下界满足如下关系式(3):
[0019][0020]
更进一步地,所述多模态变分自编码框架模型进行训练时,对于所述两模态数据(x,y)存在模态数据缺失的情况,其边缘概率分布p
θ
(x)、p
θ
(y)分别满足如下关系式(4)、(5):
[0021][0022][0023]
所述多模态变分自编码框架模型使用变分推理法,利用q(z,h
x
,|x)、q(z,hy,|y)作
为变分分布,并计算lnp
θ
(x)的变分下界或lnp
θ
(y)的变分下界变分下界满足如下关系式(6):
[0024][0025]
变分下界满足如下关系式(7):
[0026][0027]
更进一步地,定义所述第一模态图像x和所述第二模态图像y对应的负样本分别为x_、y_,所述四元组度量损失的约束满足如下关系式(8):
[0028][0029]
关系式(8)中,μ
x
(x)与μy(y)分别表示所述第一共享信息编码器所述第二共享信息编码器的输出结果的均值,α1、α2为超参数;
[0030]
所述多模态变分自编码框架模型最终的目标函数满足如下关系式(9):
[0031][0032]
其中,β为超参数。
[0033]
更进一步地,所述多模态变分自编码模型在训练时使用梯度下降方法进行优化,使用adam作为优化器。
[0034]
第二方面,本发明实施例还提供一种多模态变分自编码模型训练系统,包括:
[0035]
数据获取模块,用于获取包含多种模态的图像数据,并将每两张不同模态的图像数据进行配对,得到图像对数据集;
[0036]
模型构建模块,用于构建多模态变分自编码框架模型,并将所述图像对数据集作为所述多模态变分自编码框架模型的输入,对所述多模态变分自编码框架模型进行训练;
[0037]
优化模块,用于使用四元组度量损失作为所述多模态变分自编码框架模型训练的损失函数,直到损失函数收敛,输出完成训练的多模态变分自编码模型。
[0038]
第三方面,本发明实施例还提供一种计算机设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例中任意一项所述的多模态变分自编码模型训练方法中的步骤。
[0039]
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中任意一项所述的多模态变分自编码模型训练方法中的步骤。
[0040]
本发明所达到的有益效果,在于提出了一种基于四元组度量损失的多模态变分自编码模型(quadruplet metric loss based multimodal variational auto-encoder,简称q-mvae)及其训练方法,在训练过程中分开建模共享与私有信息,建模不同模态的联合概率分布与单模态边缘概率分布,同时使用损失函数约束共享隐向量在隐空间的对齐,从而提高了模型的数据生成与表示能力。
附图说明
[0041]
图1是本发明实施例提供的多模态变分自编码模型训练方法的步骤流程框图;
[0042]
图2是本发明实施例提供的多模态变分自编码框架模型逻辑结构示意图;
[0043]
图3是本发明实施例提供的一种图像样本示例;
[0044]
图4是q-mvae模型与现有模型在数据交叉生成实验中进行定性实验验证的效果图;
[0045]
图5是q-mvae模型与现有的dmvae模型在数据转换生成实验中进行定性实验验证的效果图;
[0046]
图6是q-mvae模型在私有信息的解耦表示与生成实验的验证效果图;
[0047]
图7是本发明实施例提供的多模态变分自编码模型训练系统200的结构示意图;
[0048]
图8是本发明实施例提供的计算机设备的结构示意图。
具体实施方式
[0049]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0050]
请参照图1,图1是本发明实施例提供的多模态变分自编码模型训练方法的步骤流程框图,所述方法包括以下步骤:
[0051]
s1、获取包含多种模态的图像数据,并将每两张不同模态的图像数据进行配对,得到图像对数据集。
[0052]
具体的,在本发明实施例中,定义所述图像对数据集中的其中一对图像分别为第一模态图像x和第二模态图像y,所述第一模态图像x和所述第二模态图像y相互配对得到的一对两模态数据为(x,y),所述两模态数据(x,y)具有共享隐向量z、以及分别对应所述第一模态图像x和所述第二模态图像y的私有隐向量h
x
、hy。
[0053]
示例性的,所述图像数据包含mnist手写数字图像、svhn街道门牌号数字图像,这两种数字图像中所包含的图像具有两种不同的模态,将上述两种模态的每张数字图像与另一种模态相同数字类别的20张图像分别组成拥有相同数字类别的图像对,得到mnist-svhn数据集,本发明实施例中,将所述mnist-svhn数据集作为所述图像对数据集,以进行多模态变分自编码模型的训练。
[0054]
s2、构建多模态变分自编码框架模型,并将所述图像对数据集作为所述多模态变分自编码框架模型的输入,对所述多模态变分自编码框架模型进行训练。
[0055]
在说明本发明实施例的模型结构前,首先说明多模态变分自编码模型(vae)的概念,vae的目标是最大化数据联合概率分布与边缘概率分布的对数似然函数以得到模型参
数,示例性的,在一种vae的框架中,定义观测数据x,以及对应的隐变量z,其生成过程为x~p
θ
(x|z),其中z~p(z)=n(0,1),θ是生成器网络p的参数,那么多模态变分自编码模型的目标是最大化p(x),p(x)满足:
[0056]
p(x)=∫p
θ
(x|z)p(z)dz
[0057]
然而,p(x)是不可计算的,因此多模态变分自编码模型转而计算p(x)对应的证据下界(evidence lower bound,elbo),一般地,证据下界满足:
[0058][0059]
证据下界的表达式中,为负重构误差,d
kl
为正则化项,p
θ
(x|z)为生成器网络,q
φ
(z|x)为编码器网络,其中,θ、φ为目标模型参数,通过将对应的模型参数代入框架模型中进行训练,就可以得到一个编码网络、一个生成网络,编码网络可以对数据进行表示推理,生成网络可以随机生成、重构数据。
[0060]
在本发明实施例中,请参照图2,图2是本发明实施例提供的多模态变分自编码框架模型逻辑结构示意图,本发明实施例具体构建了一种基于四元组度量损失的多模态变分自编码模型(q-mvae),所述多模态变分自编码框架模型为未经过训练的模型框架,其包括分别对应所述第一模态图像x和所述第二模态图像y的第一生成器第二生成器所述多模态变分自编码框架模型还包括分别对应所述私有隐向量h
x
和所述私有隐向量hy的第一私有信息编码器第二私有信息编码器以及分别对应所述第一模态图像x和所述第二模态图像y的第一共享信息编码器第一共享信息编码器
[0061]
更进一步地,所述多模态变分自编码框架模型对所述两模态数据(x,y)的联合概率分布建模满足如下关系式(1):
[0062][0063]
关系式(1)中,p(z)、p(h
x
)、p(hy)分别为所述共享隐向量z、所述私有隐向量h
x
、所述私有隐向量hy的先验分布,且均服从各向同性的高斯分布。
[0064]
在本发明实施例中,所述多模态变分自编码框架模型进行训练时,对于所述两模态数据(x,y),其边缘概率分布p
θ
(x,y)满足如下关系式(2):
[0065][0066]
对于关系式(2),其积分使用正常计算方法不易得出解,本发明实施例的所述多模态变分自编码框架模型使用变分推理法,利用q(z,h
x
,hy|x,y)作为变分分布,对关系式(2)中的似然函数p
θ
(x,y)进行变换:
[0067][0068]
之后,再对变分分布进行分解:
[0069][0070]
变分分布分解得到的qz(x,y)是关于所述两模态数据(x,y)的共享隐向量近似后验概率分布。
[0071]
当所述两模态数据(x,y)同时存在、即没有发生数据缺失的情况时,所述多模态变分自编码框架模型采用专家积函数(product of experts,poe)的方法将不同模态的边缘后验分别整合为联合后验:
[0072][0073]
根据以上,计算lnp
θ
(x,y)的变分下界变分下界满足如下关系式(3):
[0074][0075]
另一方面,所述多模态变分自编码框架模型进行训练时,对于所述两模态数据(x,y)存在模态数据缺失的情况,需要分别考虑x或者y缺失情况下的概率分布,y缺失以及x缺失情况下的概率分布分别为:
[0076]
p
θ
(x,z,h
x
)=p
θ
(x|z,h
x
)p(z)p(h
x
)
[0077]
p
θ
(y,z,hy)=p
θ
(y|z,hy)p(z)p(hy)
[0078]
其分别对应的边缘概率分布p
θ
(x)、p
θ
(y)分别满足如下关系式(4)、(5):
[0079][0080][0081]
与模态数据完整的情况下相似,在模态数据缺失的情况下,所述多模态变分自编码框架模型仍使用变分推理法,分别利用q(z,h
x
,|x)、q(z,hy,|y)作为变分分布,对关系式(4)、(5)中的似然函数进行变换,分别得到:
[0082][0083][0084]
同时,再对缺失情况下使用的变分分布进行分解:
[0085][0086][0087]
根据以上,计算lnp
θ
(x)的变分下界或lnp
θ
(y)的变分下界变分下界满足如下关系式(6):
[0088][0089]
变分下界满足如下关系式(7):
[0090][0091]
此时,最大化关系式(3)、(6)、(7)就可以进行所述多模态变分自编码框架模型的训练,但为了提高模态数据的生成、表示、解耦等能力,需要继续对每个模态数据的共享与私有信息进行分开推理表示,不同模态的共享隐向量需要在隐空间进行对齐,因此本发明实施例引入四元组度量损失进行隐向量的对齐处理。
[0092]
s3、使用四元组度量损失作为所述多模态变分自编码框架模型训练的损失函数,直到损失函数收敛,输出完成训练的多模态变分自编码模型。
[0093]
定义所述第一模态图像x和所述第二模态图像y对应的负样本分别为x_、y_,请参照图3,图3是本发明实施例提供的一种图像样本示例,x与y分别为数字类别为2的mnist与svhn图像,x_为数字类别为5的mnist图像,y_为数字类别为8的svhn图像,需要说明的是,x_与y_也可以是2以外的任何数字类别的图像,x_与y_的数字类别关系与所述第一模态图像x和所述第二模态图像y没有关联关系,相互之间的数字类别可相同也可不同。
[0094]
所述四元组度量损失中的四元组定义为(x,y,x_,y_),关于损失函数收敛的所述四元组度量损失的约束满足如下关系式(8):
[0095][0096]
关系式(8)中,μ
x
(x)与μy(y)分别表示所述第一共享信息编码器所述第二共享信息编码器的输出结果的均值,第一项max{}与第二项max{}分别约束x、y之间的度量小于x、y与所述负样本x_、y_之间的度量,第三项max{}约束x、y之间的度量小于任意两个不同模态数据的负样本之间的度量,α1、α2为超参数;
[0097]
综合关系式(3)、(6)、(7)、(8),所述多模态变分自编码框架模型最终的目标函数满足如下关系式(9):
[0098][0099]
其中,β为超参数。
[0100]
在关系式(9)的情况下,本发明实施例所构建的所述多模态变分自编码框架模型可以进行同时考虑模态数据完整与部分缺失的两种情况的训练,其中,在模态数据完整情况下,所述多模态变分自编码框架模型对不同模态数据的共享隐变量z通过专家积函数进行积函数混合,由于编码网络均为高斯分布,所以混合后仍为高斯分布,其均值与方差的计算具有解析解,可直接用于所述多模态变分自编码框架模型的训练;在模态数据缺失情况下,所述多模态变分自编码框架模型使用所述第一共享信息编码器所述第二共享信息编码器的输出结果z作为共享隐变量z。
[0101]
更进一步地,所述多模态变分自编码模型在训练时使用梯度下降方法进行优化,使用adam作为优化器。示例性的,本发明实施例在训练所述多模态变分自编码框架模型,并输出得到所述多模态变分自编码模型时所使用的训练参数具体为:实验训练迭代次数epoch=10,批大小batchsize=128,隐空间维度zdims=20,训练中的各个超参数α1、α2、β取值分别为2、0.8、1500,使用adam作为优化器的学习率lr=0.0001,对于mnist模态图像数据采用全连接神经网络网络,对于svhn模态图像数据采用卷积神经网络,其中卷积核kernel大小为3
×
3,卷积步长stride为2,填充padding值为1。
[0102]
当最终的目标函数收敛时,即标志着训练结束,并输出完成训练的所述多模态变分自编码模型。
[0103]
示例性的,本发明实施例提供的完成训练的q-mvae模型与现有的mvae、mmvae、dmvae模型在数据交叉生成实验中进行定性实验验证的效果图如图4所示,定量实验验证对比的准确度数据如下表1所示。
[0104]
表1数据交叉生成对比的准确度数据
[0105][0106]
图4的每张生成效果图中,第一行为已知的条件模态样本,其余行表示生成的缺失模态样本,具有随机的私有信息,每一行的共享隐向量从对应条件模态样本中抽取且私有隐向量相同,图4(a)-(d)表示从条件svhn模态数据生成mnist模态数据的生成结果,通过对比四种模型的实验结果可知,本发明实施例的q-mvae模型可以生成具有随机风格,且与已知样本相同数字类别的清晰图像;表1展示了q-mvae的数据交叉生成准确度,其中每个实验均在不同随机种子下进行了5次独立实验取均值,括号内值为总体标准偏差,从表1可以看出,q-mvae模型在两模态不同方向上的交叉生成准确度均超过了各对比模型,这与图4中所展示的定性生成效果也相吻合,根据已知的条件样本,q-mvae可以很好抽取其共享信息,并且能够准确地生成拥有该共享信息的其他模态数据。
[0107]
本发明实施例提供的完成训练的q-mvae模型与现有的dmvae模型在数据转换生成实验中进行定性实验验证的效果图如图5所示。从图5中可以看出,q-mvae模型可以准确的抽取图像的公有与私有信息,并且可以进行相应的转换生成,生成质量更为清晰。
[0108]
本发明实施例提供的完成训练的q-mvae模型与现有的mvae、mmvae、dmvae模型在多模态数据分类中对比的准确度数据如下表2所示。
[0109]
表2多模态数据分类对比的准确度数据
[0110][0111]
表2为在mnist-svhn数据集下的多模态分类准确度实验结果,其中第2列与第3列表示仅提供单模态数据进行分类测试,第4列表示同时提供两模态数据进行分类测试,可以看出,q-mvae模型的分类准确度均高于各对比模型。表明q-mvae模型可以很好的抽取表示不同模态数据的共享信息,使用单个线性分类器同时对不同模态数据分类均取得高的准确率也表明本文提出的四元组度量损失对不同模态的共享隐向量在隐空间进行了很好的对齐。
[0112]
本发明实施例提供的完成训练的q-mvae模型在私有信息的解耦表示与生成实验的验证效果如图6所示,本发明实施例基于mnist-svhn数据集设计了交叉生成实验,在私有隐向量除某维度之外的所有维度值不变化的前提下,对该维度的值进行线性微量变化,观察图像生成效果,图6为在两个方向上的交叉生成,其中对私有隐向量中的10个维度进行逐维度线性微调进行数据生成,其中:5(a)中第1行可以看出生成的数字大小随着私有隐向量第1维度值的微量增大而变大,可以认为私有隐向量第1维度解耦地学习到了字体大小的生
成因子,第5行的数字角度随着私有隐向量第5维度的改变由数字角度后倾慢慢变为数字角度前倾,可以认为第5维度学习到了控制数字角度的生成因子;第10行可以被认为学习到了背景明暗的生成因子;从图5(b)中看出,第1行对应隐向量学习到了数字角度的生成因子,第3行对应隐向量学习到了数字字体粗细的生成因子,以下各行则学习到了字体胖瘦与不同字体风格的生成因子。综合图6的效果图,表示本发明实施例提供的q-mvae模型具有对图像风格信息等更细致生成因子推理的潜力。
[0113]
本发明所达到的有益效果,在于提出了一种基于四元组度量损失的多模态变分自编码模型(q-mvae)及其训练方法,在训练过程中分开建模共享与私有信息,建模不同模态的联合概率分布与单模态边缘概率分布,同时使用损失函数约束共享隐向量在隐空间的对齐,从而提高了模型的数据生成与表示能力。
[0114]
本发明实施例还提供多模态变分自编码模型训练系统,请参照图7,图7是本发明实施例提供的多模态变分自编码模型训练系统200的结构示意图,所述多模态变分自编码模型训练系统200包括:
[0115]
数据获取模块201,用于获取包含多种模态的图像数据,并将每两张不同模态的图像数据进行配对,得到图像对数据集;
[0116]
模型构建模块202,用于构建多模态变分自编码框架模型,并将所述图像对数据集作为所述多模态变分自编码框架模型的输入,对所述多模态变分自编码框架模型进行训练;
[0117]
优化模块203,用于使用四元组度量损失作为所述多模态变分自编码框架模型训练的损失函数,直到损失函数收敛,输出完成训练的多模态变分自编码模型。
[0118]
所述多模态变分自编码模型训练系统200能够实现如上述实施例中的多模态变分自编码模型训练方法中的步骤,且能实现同样的技术效果,参上述实施例中的描述,此处不再赘述。
[0119]
本发明实施例还提供一种计算机设备,请参照图8,图8是本发明实施例提供的计算机设备的结构示意图,所述计算机设备300包括:存储器302、处理器301及存储在所述存储器302上并可在所述处理器301上运行的计算机程序。
[0120]
所述处理器301调用所述存储器302存储的计算机程序,执行本发明实施例提供的多模态变分自编码模型训练方法中的步骤,请结合图1,具体包括:
[0121]
s1、获取包含多种模态的图像数据,并将每两张不同模态的图像数据进行配对,得到图像对数据集。
[0122]
更进一步地,定义所述图像对数据集中的其中一对图像分别为第一模态图像x和第二模态图像y,所述第一模态图像x和所述第二模态图像y相互配对得到的一对两模态数据为(x,y),所述两模态数据(x,y)具有共享隐向量z、以及分别对应所述第一模态图像x和所述第二模态图像y的私有隐向量h
x
、hy;
[0123]
所述多模态变分自编码框架模型包括分别对应所述第一模态图像x和所述第二模态图像y的第一生成器第二生成器所述多模态变分自编码框架模型还包括分别对应所述私有隐向量h
x
和所述私有隐向量hy的第一私有信息编码器第二私有信息编码器以及分别对应所述第一模态图像x和所述第二模态图像y的第一
共享信息编码器第一共享信息编码器
[0124]
s2、构建多模态变分自编码框架模型,并将所述图像对数据集作为所述多模态变分自编码框架模型的输入,对所述多模态变分自编码框架模型进行训练。
[0125]
更进一步地,所述多模态变分自编码框架模型对所述两模态数据(x,y)的联合概率分布建模满足如下关系式(1):
[0126][0127]
关系式(1)中,p(z)、p(h
x
)、p(hy)分别为所述共享隐向量z、所述私有隐向量h
x
、所述私有隐向量hy的先验分布,且均服从各向同性的高斯分布。
[0128]
更进一步地,所述多模态变分自编码框架模型进行训练时,对于所述两模态数据(x,y),其边缘概率分布p
θ
(x,y)满足如下关系式(2):
[0129][0130]
所述多模态变分自编码框架模型使用变分推理法,利用q(z,h
x
,hy|x,y)作为变分分布,并计算lnp
θ
(x,y)的变分下界所述变分下界满足如下关系式(3):
[0131][0132]
更进一步地,所述多模态变分自编码框架模型进行训练时,对于所述两模态数据(x,y)存在模态数据缺失的情况,其边缘概率分布p
θ
(x)、p
θ
(y)分别满足如下关系式(4)、(5):
[0133][0134][0135]
所述多模态变分自编码框架模型使用变分推理法,利用q(z,h
x
,|x)、q(z,hy,|y)作为变分分布,并计算lnp
θ
(x)的变分下界或lnpθ(y)的变分下界变分下界满足如下关系式(6):
[0136][0137]
变分下界满足如下关系式(7):
[0138][0139]
更进一步地,定义所述第一模态图像x和所述第二模态图像y对应的负样本分别为
x_、y_,所述四元组度量损失的约束满足如下关系式(8):
[0140][0141]
关系式(8)中,μ
x
(x)与μy(y)分别表示所述第一共享信息编码器所述第二共享信息编码器的输出结果的均值,α1、α2为超参数;
[0142]
所述多模态变分自编码框架模型最终的目标函数满足如下关系式(9):
[0143][0144]
其中,β为超参数。
[0145]
s3、使用四元组度量损失作为所述多模态变分自编码框架模型训练的损失函数,直到损失函数收敛,输出完成训练的多模态变分自编码模型。
[0146]
更进一步地,所述多模态变分自编码模型在训练时使用梯度下降方法进行优化,使用adam作为优化器。
[0147]
本发明实施例提供的计算机设备300能够实现如上述实施例中的多模态变分自编码模型训练方法中的步骤,且能实现同样的技术效果,参上述实施例中的描述,此处不再赘述。
[0148]
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的多模态变分自编码模型训练方法中的各个过程及步骤,且能实现相同的技术效果,为避免重复,这里不再赘述。
[0149]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存取存储器(random access memory,简称ram)等。
[0150]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0151]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务
器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0152]
上面结合附图对本发明的实施例进行了描述,所揭露的仅为本发明较佳实施例而已,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式用等同变化,均属于本发明的保护之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1