一种矩阵变量rbm的识别方法

文档序号:9866200阅读:473来源:国知局
一种矩阵变量rbm的识别方法
【技术领域】
[0001] 本发明属于模式识别的技术领域,具体地设及一种矩阵变量RBM的识别方法。
【背景技术】
[0002] 布尔斯曼机Boltzmann Machine(BM)是一种重要的随机神经网络,由Hinton和 Sejnowski在1985年提出。但由于传统的布尔斯曼机变量单元没有连接关系的约束导致不 能有效的在机器学习中得到应用。为了构建一个可W应用于实际的模型,Hinton提出了一 个称为限制布尔斯曼机的模型结构,在运个模型中,仅仅可见层单元和隐含层单元之间存 在连接关系。
[0003] 当隐含层和可见层单元之间受到限制时,RBM(Res1:;ricted Boltzmann Machine, 受限布尔斯曼机)模型可W被看成拥有二值变量的概率模型。最近几年,RBMs由于其强大的 特征提取和表达能力,已经广泛应用于模式识别和机器学习领域。
[0004] 给定一些训练数据,训练RBM模型的目标就是学习可见层和隐含层直接的权值,使 得由RBM表示的概率分布尽可能适应于所有的训练样本。一个训练好的RBM模型可W根据训 练数据得到的概率分布提供输入数据有效的表示。
[0005] 经典的RBM模型主要描述的是基于向量形式的输入数据或变量。然而,来源于现代 科技中的数据更多的是较为一般的结构。比如,数字图像就是2维矩阵,矩阵中包含了空间 信息。为了是经典的RBM可W应用到诸如2D图像的数据,传统的方法就是把2D数据向量化处 理。但不幸的是,运样处理不仅破坏了高价图像内部结构,导致损失了结构中隐藏的交互信 息,而且由于可见层和隐含层之间的全连接,导致了模型参数的增加。

【发明内容】

[0006] 本发明的技术解决问题是:克服现有技术的不足,提供一种矩阵变量RBM的识别方 法,其大大降低训练和推导的计算复杂度,在训练和测试过程中保持了 2D矩阵数据中的空 间信息同时在重构过程中得到良好的效果,可W应用于更复杂的数据结构。
[0007] 本发明的技术解决方案是:运种矩阵变量RBM的识别方法,该方法包括W下步骤: [000引(1)训练阶段:根据公式(4)的矩阵变量RBM进行样本训练
[0009]
(4)
[0010]其中义= [x,]e吸心为二进制可见层矩阵变量,'为二进制隐含层矩 阵变量,Θ表示所有的模型参数U,V,B和C,归一化常量Ζ( Θ )定义为
[0011]
(5)
[001 ^ 其中,r,少表巧X和Υ的二进制取值空间防=[%] Ε啜,F =吟]e 1废W为模型权 值矩阵,《=晦]巨吸^,[旬]e IT"为可见层和隐含层对应的偏置矩阵;
[0013] (2)分类阶段:将隐含层矩阵变量进行向量化,应用κ-順方法进行训练,根据残差 最小为测试图像分类。
[0014] 本发明需要学习的模型参数少于经典RBMs,因此训练和推导的计算复杂度有明显 的减少;可见层和隐含层都是矩阵形式,因此在训练和测试过程中保持了 2D矩阵数据中的 空间信息同时在重构过程中得到良好的效果;本发明可W很容易的拓展到任何阶数的张量 数据,因此可W应用于更复杂的数据结构。
【附图说明】
[001引图1示出了经典的RBM模型。
[0016] 图2示出了本发明的RBM模型。
[0017] 图3示出了当固定迭代次数和训练样本数量时的分类误差率。
[0018] 图4示出了当训练样本数量不同时不同方法的分类误差率。
【具体实施方式】
[0019] 运种矩阵变量RBM的识别方法,该方法包括W下步骤:
[0020] (1)训练阶段:根据公式(4)的矩阵变量RBM进行样本训练
[0021]
(4)
[0022] 其中义=[而]巨化W为二进制可见层矩阵变量,F = 政Ext为二进制隐含层矩 阵变量,Θ表示所有的模型参数U,V,B和C,归一化常量Z( Θ )定义为
[0023]
[0024] 其中采次表示X和Y的二进制取值空间扩=[的]€醒<^>=的,]居酸£w为模型权 值矩阵,S =鸭]e股^,C =的]e 为可见层和隐含层对应的偏置矩阵;
[0025] (2)分类阶段:将隐含层矩阵变量进行向量化,应用K-順方法进行训练,根据残差 最小为测试图像分类。
[0026] 本发明需要学习的模型参数少于经典RBMs,因此训练和推导的计算复杂度有明显 的减少;可见层和隐含层都是矩阵形式,因此在训练和测试过程中保持了 2D矩阵数据中的 空间信息同时在重构过程中得到良好的效果;本发明可W很容易的拓展到任何阶数的张量 数据,因此可W应用于更复杂的数据结构。
[0027] 优选地,所述步骤(1)包括W下分步骤:
[0028] (1.1)定义矩阵型训练样本集刀=八'|,一,.丫、.!,最大迭代次数1',学习率,权值正则 项,每组训练样本数,CD算法K步;
[0029] (1.2)随机初始化時PV,令B = C = 0随机梯度Δυ= Δν= ΔΒ= AC = 0;
[0030] (1.3)迭代步数t = l 一 Τ进行;
[0031] (1.4)随机将巧二托:,...,义分成Μ组巧…巧m,大小为b;
[0032] (1.5)组 m=l 一 Μ 进行;
[0033] (1.6)对所有数据在当前模型参数下进行吉布斯采样巧。;
[0034] (1.7)k = 0 一 K-1 进行;
[0035] (1.8)根据公式(9)对样本进行采样
[0036] ρ(γ=ι |χ; Θ )=〇(UX^+C) (9);
[0037] (1.9)根据公式(8)对样本进行采样
[003引 ρ(χ = ι |γ; Θ )=0化Τγν+β) (8).
[0039] (1.10)根据公式(18)进行梯度的更新
[0040]
[0041 ] (1.11)根据公式Θ = Θ+ Δ Θ更新模型参数Θ e Θ ;
[0042] (1.12)结束。
[0043] 优选地,最大迭代次数T为10000,学习率为0.05,权值正则项为0.01,每组训练样 本数为100, CD算法K步为1步。
[0044] 现在更详细地说明本发明。
[0045] 1模型定义
[0046] 经典的RBM[8,13]是一个二值化的向量模型,输入和隐含层都是向量形式。模型如 图1,可见层单元(立方体)和隐含层(圆柱)单元为全连接形式。
[0047] RBM的能量函数模型为:
[004引
[0049] 其中,X e e化^是二进制的可见层单元和隐含层单元,吸气(e吸^为偏 置,取€胶kK代表神经网络中可见层和隐含层的连接权。Θ ={b,c,w}为模型参数。
[0050] 为了介绍本发明的MVRBM,定义如下符号。定义义=[而]6龄为二进制可见层矩阵 变量,为二进制隐含层矩阵变量。假设独立随机变量XI冲yki从{〇,!}中取 值。??Τ:=的斯]e股kJxKxL为四阶张量参数,偏置矩阵为及=跨]€成'"和C =[崎]e吸。定 义了如下能量函数。
[0化1 ]
[0化2] 其中Θ-^?/ -,度,C/为模型参数。Θ中一共有IXJXKXL+IXJ+KXL个自由参数。 即使在I,J,K,L很小时Θ也将是一个很大的数,运样就会需要大量的训练样本和很长的时 间。为了减少自由参数的输了和节省计算复杂度,假定隐含层单元和可见层单元的连接权 值有如下关系:wリkl=UkmJ。通过定义两个新的矩阵[/ = K]e化レ/和r = [?]巨肢h^可W 把能量函数(2)改写为如下形式,
[0053] E (X, Υ) = - tr (U^YVX^) - tr () - tr (Υ\) (3)
[0054] 矩阵U和V共同的定义了输入矩阵X和隐含矩阵Y的连接权,运样,公式(2)中Θ的自 由参数减少为公式(3)中I XK+L X J+I X J+K X L。
[0055] 基于公式(3),定义如下分布:
[0056]

[0057] Θ表示所有的模型参数U,V,B和C。归一化常量Z( Θ )定义为 [0化引
[0059] 其中乂,少表示X和Y的二进制取值空间。
[0060] 公式(4)中的概率模型为矩阵变量RBM(MVRBM)。模型如图2。
[0061] 为了便于说明MVRBM的学习算法,对于可见单元和隐含单元的条件概率密度提出 了如下引理
[0062] 引理1.MVRBM模型由公式(3)(4)定义。每一个可见层单元的条件概率密度为
[0063]
[0064] 每一个隐含层单元的条件概率密度为
[00 化]
[0066] 式中 〇是5型函数 〇(x) = l/(l+e-x)
[0067] 应用矩阵表示,两个条件概率可W写为:
[006引 ρ(χ = ι |γ; Θ )=σ(υΤγν+Β) (8)
[0069] ρ(γ=ι |χ; Θ )=〇(画T+C) (9)
[0070] 最大似然函数和对于MVRBM的CD算法
[0071] 对于给定样本集巧={本,…,,在公式(4)联合分布下,梦的对数似然函数定 义为
[0075] 称(10)式等号右面的第一项为数据扩展项,第二项为模型扩展项。
[0076] 计算似然函数梯度最主要的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1