一种变分自编码混合模型的制作方法

文档序号:14687911发布日期:2018-06-15 06:30阅读:427来源:国知局

本发明属于机器学习技术领域,尤其是一种变分自编码混合模型。



背景技术:

变分自编码(Variational Autoencoders,VAEs)是一类重要的表示模型,通过变分方法来近似求解生成模型(概率解码)和识别模型(概率编码)。令X={x1,x2,…,xN}表示N个独立同分布样本组成的集合。变量x=[x1,x2,...,xd]T是一个d维向量,可以是离散变量或连续变量。VAEs模型假设数据x是由条件分布pθ(x|z)生成,其中z是连续隐变量,其先验分布为pθ(z),θ表示模型参数。此时的学习任务是通过计算边缘似然pθ(x)及隐变量z的后验分布pθ(z|x)求解模型参数,即:

pθ(x)=∫zpθ(x|z)pθ(z)dz (1)

计算边缘似然及后验分布是难解的,变分自编码通过引入自由分布qφ(z|x)用于近似后验概率分布pθ(z|x),将变量求积分问题转化为关于自由分布qφ(z|x)的优化问题LVAEs(x,θ,φ),通过近似求解该优化问题计算目标函数,即:

在变分自编码模型中,条件分布pθ(x|z)称为生成模型或概率解码,自由分布qφ(z|x)称为识别模型或概率编码。具体地,qφ(z|x)=N(z;μφ(x),Σφ(x)),其中fθ(z),μφ(x)和Σφ(x)由单隐层神经网络构成。采用随机梯度下降方法求解优化问题(3)学习变分自编码模型参数{θ,φ}。

2014年Karol Gregor等人在“Deep AutoRegressive Networks”中把自回归网络概念用在自编码器中,用自回归网络构建一种更为复杂的自编码网络,可以准确地拟合样本的潜在的分布规律。2016年,Danilo Jimenez Rezende在“Variational Inference with Normalizing Flows”中用标准流的概念把变分自编码模型中隐变量的后验概率分布复杂化,得到一种可扩展性更高的分布。虽然自回归自编码器和标准流自编码器这两种模型都使得变分推理的边缘似然提高,但是这两种方式打乱了不同类别样本的隐变量在特征空间中的分布,对隐变量随机抽样后生成的样本也无分布规律。2017年,Serena Yeung提出“Epitomic Variational Autoencoder,eVAE”,Serena分析了变分自编码模型的中间隐层,并发现在自编码模型中一些中间隐层节点对大多样本都是不活跃的,同时该隐节点的值对不同的样本变化不明显,方差较小。基于这一点,eVAE将中间隐层的节点分为多组,每个样本对应一组中间隐层节点,其他组节点将被隐藏,并且在模型中加入一个隐变量,用来指定样本对应的中间隐层节点的组别。如何将变分自编码模型与隐变量有效地结合在一起,因此,该模型的精度、空间仍然存在一些问题。



技术实现要素:

本发明的目的在于克服现有技术的不足,提出一种设计合理、精度高且有效扩充隐变量空间的变分自编码混合模型。

本发明解决其技术问题是采取以下技术方案实现的:

一种变分自编码混合模型由K个变分自编码模型组成,每个变分自编码模型由K维的二值随机隐变量指示,每个变分自编码模型的概率解码模型及概率编码模型均由单隐层神经网络组成,指示隐变量的后验概率分布由基于截棍的神经网络组成。

所述每个变分自编码模型表示如下:

令{θ1,θ2,...,θK}表示各分布分量的参数,π=[π1,π2,...,πK]表示各分布分量的权重,且K维的二值指示隐变量c=[c1,c2,…,cK]T,满足ck∈{0,1}且则πk=p(ck=1)是第k个模型的权重,变分自编码混合模型中指示隐变量概率分布p(c|π)及生成数据的条件概率分布p(x|z,c)分别为:

变分自编码混合模型的联合概率分布形式为:

p(x,z,c)=p(x|z,c)p(z)p(c|π)。

所述单隐层神经网络的条件分布pθ(x|z)为:

y=fσ(W2tanh(W1z+b1)+b2)

其中,W3,b3表示单隐层神经网络输入层的权重和偏置,W4,b4,W5,b5表示单隐层神经网络输出层的权重和偏置,故参数φ={W3,W4,W5,b3,b4,b5}。

对于连续隐变量z,基于单隐层神经网络的条件分布qφ(z|x)为:

logqφ(z|x)=logN(z;μ,δ2I)

μ=W4h+b4

logδ2=W5h+b5

h=tanh(W3z+b3)

其中,W3,b3表示概率编码中单隐层神经网络输入层的权重和偏置,W4,b4,W5,b5表示单隐层神经网络输出层的权重和偏置,故参数φ={W3,W4,W5,b3,b4,b5}。

所述指示隐变量的后验概率分布表示如下:

对于隐变量π,采用单层神经网络学习后验qη(π|z):

α=tanh(W7(W6z+b6)+b7)

其中,W6,b6表示单隐层神经网络输入层的权重和偏置,W7,b7表示单隐层神经网络输出层的权重和偏置,故参数η={W7,W8,b7,b8}。

所述变分自编码混合模型包括概率解码模型的模型参数、概率编码模型的模型参数及指示隐变量后验概率分布的模型参数,上述参数采用梯度下降方法优化目标函数计算得到。

本发明的优点和积极效果是:

本发明设计合理,其采用自编码混合模型估计隐变量和样本之间的关系,能够提高模型生成样本的能力,同时基于隐变量学习混合生成模型的权重,能够保证对隐变量抽样的简便,并且在抽样生成样本时可以由隐变量自主确定最佳的生成模型,本发明有效地扩展了隐变量空间即概率编码空间,提高了模型表示的精度,同时可有有效地生成样本。

附图说明

图1为变分自编码混合模型图模型结构图;

图2为MNIST手写字体数据集图;

图3采用MNIST数据集训练变分自编码混合模型过程中,变分下界的收敛过程图;

图4为采用MNIST数据集训练变分自编码混合模型后生成新的手写字体样本;

图5为采用MNIST数据集训练变分自编码混合模型后,隐变量空间均匀采样生成的手写字体。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

一种变分自编码混合模型,如图1所示,是由K个变分自编码模型组成混合模型,令{θ1,θ2,...,θK}表示各分布分量的参数,π=[π1,π2,...,πK]表示各分布分量的权重,且引入K维的二值随机隐变量c=[c1,c2,…,cK]T,满足ck∈{0,1}且则πk=p(ck=1)是第k个模型的权重。变分自编码混合模型的概率分布形式为:

变分自编码混合模型下联合概率分布形式为:

p(x,z,c)=p(x|z,c)p(z)p(c|π) (6)

计算隐变量c和z的后验概率分布p(z|x)和p(c|x)是难解的,根据变分近似推理方法,引入自由分布qφ(z|x)和qη(c|x),将变量积分问题转化为优化问题,具体推导过程如下:

因此,变分自编码混合模型中的变分优化问题为:

变分自编码混合模型上的学习任务是通过求解变分优化问题(8),学习变分自编码模型参数{θ,φ,η}。变分自编码混合模型的图模型表示形式如。

针对变分自编码混合模型,概率解码模型(或生成模型)pθ(x|z)和概率编码模型(或识别模型)qφ(z|x)由单隐层神经网络构成。具体的,当向量x是离散向量时,基于单隐层神经网络的条件分布pθ(x|z)为:

y=fσ(W2tanh(W1z+b1)+b2)

其中,W1,b1表示概率解码中单隐层神经网络输入层的权重和偏置,W2,b2表示单隐层神经网络输出层的权重和偏置,故参数θ={W1,W2,b1,b2}。

对于连续隐变量z,基于单隐层神经网络的条件分布qφ(z|x)为:

其中,W3,b3表示概率编码中单隐层神经网络输入层的权重和偏置,W4,b4,W5,b5表示单隐层神经网络输出层的权重和偏置,故参数φ={W3,W4,W5,b3,b4,b5}。

隐变量π选择其共轭先验分布——狄利克雷分布Dir(α),用经典的狄利克雷分布构造方法——截棍方法近似p(π),即

(π1,π2,...,πK)~Dir(α1,α2,...,αK) (11)

πk=σk (13)

在变分自编码混合模型中采用判别映射的方式实现上述构造过程中的Beta分布的截棍过程:

π1=sigmoid(f1(z,η)) (14)

π2=(1-sigmoid(f1(z,η)))sigmoid(f2(z,η)) (15)

πK=(1-sigmoid(fK-1(z,η)))...(1-sigmoid(f1(z,η))) (16)

上述构造过程可以进一步简化为:

对于隐变量π,采用单层神经网络学习后验qη(π|z):

α=tanh(W7(W6z+b6)+b7) (19)

其中,W6,b6表示单隐层神经网络输入层的权重和偏置,W7,b7表示单隐层神经网络输出层的权重和偏置,故参数η={W7,W8,b7,b8}。

L(x,θ,φ,η)是变分自编码混合模型的边缘似然的变分下界,模型的目标就是最大化该值。为得到偏差最小的估计,应该采用批量样本进行处理。采用重采样对隐变量z进行抽样,然后用随机梯度下降方法优化该目标函数L(x,θ,φ,η)。

下面以图2给出的MNIST手写数字数据集对本变分自编码混合模型进行说明。MNIST手写数字数据集来自美国国家标准与技术研究所,包括0-9共十个数字的手写字体,训练集共包括60000个字体,具体来自250个不同人手写的数字构成,其50%是高中学生,50%来自人口普查局的工作人员。MNIST手写数字的部分示例如图2所示。采用MNIST手写数字数据集对本变分自编码混合模型进行训练,具体通过求解优化式(8)计算模型参数{θ,φ,η}及变分下界L(x,θ,φ,η)。优化问题变分下界的收敛过程如图3所示,其中横坐标表示迭代次数,纵坐标表示变分下界。变分自编码模型训练完成后可以得到生成模型pθ(x|z),利用该生成模型可以生成新的手写数字样本,部分新生成的手写数字样本如图4所示。图5为采用MNIST数据集训练变分自编码混合模型后,隐变量z空间均匀采样生成的手写字体。

需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1