一种混合二维概率主成分分析方法

文档序号:9708793阅读:910来源:国知局
一种混合二维概率主成分分析方法
【技术领域】
[0001] 本发明属于特征提取及数据降维的技术领域,具体地涉及一种混合二维概率主成 分分析方法。
【背景技术】
[0002] 高维和多模态数据在现代计算机视觉的研究中随处可见。数据的高维度不仅增加 了算法的复杂性和存储的开销,而且也降低了算法在实际应用中的广泛性。然而,高维数据 往往是均匀分布在一个低维空间或流行空间上。所以,找到高维观测数据在低维空间中的 一种映射关系已成为机器学习研究的一个具有挑战性的问题。在过去的几十年中,关于数 据降维的算法已取得很大进展。
[0003] 主成分分析(Principal Component Analysis,PCA)是一种广泛应用于模式识别 和机器学习的降维方法。PCA有很多种解释,其中一种是假设观测到的高维数据是低维空间 中数据的一种线性映射。实际中得到的数据往往具有内部相关结构,例如,图像。为了在二 维数据上应用PCA,最直接的办法是将二维数据向量化。但向量化后的数据一般都是高维数 据,这样不仅会导致维度灾难的问题而且忽略了二维数据的空间结构信息。所以,数据向量 化的PCA并不是一种最优的特征提取方法。因此提出了一种二维数据的PCA(2DPCA)。与传统 的PCA相比,2DPCA直接对2D数据矩阵进行降维运算,因此保留了数据间的结构关系,并且取 得了优于PCA的实验结果。
[0004] 这些非概率的PCA只依赖原始数据,并没有假设任何参数,也没有将观测数据的先 验知识应用到预测结果中。为了克服这个不足,Tipping and Bishop提出了一种概率的PCA 模型(PPCA)。这个模型同样是将数据表示成一维向量,并且假设噪声服从均值是0,斜方差 为单位矩阵的高斯分布。与传统的PCA相比,PPCA是应用概率的理论达到对数据降维,模型 的参数可通过极大似然估计(MLE)得出。进而,Zhao et al.提出了基于二维数据的概率PCA (2DPPCA),这是传统PPCA到2D模型的一个突破。2DPPCA在图像空间只定义了样本的全局投 影,为了更好地表示样本的局部信息,Wang et al.基于人脸数据提出了混合概率PCA (MP2DPCA)〇
[0005] -组二维数据的概率分布是相当复杂的,大多数情况下它不能由某一特定概率分 布表示,所以需要使用混合高斯分布进行近似。根据Bishop,通过使用足够多的高斯分布, 并且调节它们的均值和方差以及线性组合的系数,几乎所有的连续概率密度都能够以任意 的精度近似。多个高斯分布的线性组合称为混合高斯(mixture of Gaussians)分布。 Rasmussen提出了高斯混合模型(GMM),Zivkovic将GMM应用于图片背景提取,Li et al.使 用混合高斯回归分析进行子空间聚类。二阶数据的概率分布使用多个高斯分布的混合模 拟,即是将二阶高维数据在多个主方向上降维,需要计算的参数较多,因此可以利用变分最 大期望算法(Variational Expectation Maximization,Variational EM)解此模型。
[0006] 但是,以上方法均不能对二维数据进行行和列两个方向上的降维。

【发明内容】

[0007] 本发明的技术解决问题是:克服现有技术的不足,提供一种混合二维概率主成分 分析方法,其能够对二维数据在行和列两个方向上进行降维,重构效果更好。
[0008] 本发明的技术解决方案是:这种混合二维概率主成分分析方法,样本服从矩阵变 量的混合高斯分布,该方法包括以下步骤:
[0009] (1)根据公式(1)构建概率的二阶主成分分析模型2DPCA
[0010] Xn = LBnRT+M+En; (1)
[0011] 其中L(pXr)和R(qXc)分别是行和列方向的降维矩阵;Bn(rXc)是样本知的隐变量核, 称为系数矩阵;r < p,c < q是降维后的行和列数;M(pXq)是均值矩阵,En是满足矩阵高斯分布的噪 声它的每个分量满足%~机= !,2.… [0012] (2)根据公式(2)构建混合的2DPCA
[0013]
(2)
[0014] 其中分离的均值项Mk是第k类样本集的均值,Lk和Rk是样本集得到的第k类降维,耶 是混合比例> 〇; m 7? = 1,喊是第k个高斯分布的方差;
[0015] (3)通过公式(4)的极大似然函数对公式(2)中的参数进行估计
[0016] (4)
[0017] znk取值为1或0,代表第η个样本是否属于第k个高斯分布。
[0018] (4)在求解公式⑷时,利用变分最大期望EM算法来优化参数在EM 算法的E步中,对隐变量:Bf.求解其后验分布:其中1是均值, 1^:;.>0,蘇&)>、0::分别是行和列方向的协方差矩阵,经计算得到公式(9)-(11) :
[0019]
[0020]
[0021]
[0022]
[0023] Μ步更新公式(4)中的参数,得到公式(12)-(14):
[0024]
[0025]
[0027] 其中yn,k表示第η个样本属于第k个高斯分布的后验概率;
[0028] 迭代进行E步和Μ步,使似然函数值增大并趋于稳定。
[0029] 本发明基于混合高斯模型对二维数据进行降维,通过引入隐变量,使用变分最大 期望算法求解模型参数,以及降维后的系数矩阵,达到对二维数据进行压缩的效果,使用降 维矩阵和系数矩阵重构图像,与原始图像比较得到损失较小的图像,将降维后的系数矩阵 看作是样本的特征,使用系数矩阵对样本进行分类,所以能够对二维数据在行和列两个方 向上进行降维,重构效果更好。
【附图说明】
[0030] 图1示出了丽1ST数据库上不同算法的重构误差,图la中Κ = 2,图lb中Κ = 5,图lc中 K = 10〇
[0031] 图2a是在Yale数据库上的重构误差曲线图,图2b是在AR数据库上的重构误差曲线 图,两图中K = 5。
【具体实施方式】
[0032] 这种混合二维概率主成分分析方法,样本服从矩阵变量的混合高斯分布,该方法 包括以下步骤:
[0033] (1)根据公式(1)构建概率的二阶主成分分析模型2DPCA
[0034] Xn = LBnRT+M+En; (1)
[0035] 其中L(pXr)和R(qXc)分别是行和列方向的降维矩阵;Bn(rXc)是样本知的隐变量核, 称为系数矩阵;r < p,c < q是降维后的行和列数;M(pXq)是均值矩阵,En是满足矩阵高斯分布的噪 声,口:%^^).,.它的每个分量满足%
[0036] (2)根据公式(2)构建混合的2DPCA
[0037] Λ"-!
[0038] 其中分离的均值项Mk是第k类样本集的均值,Lk和Rk是样本集得到的第k类降维,耶 是混合比例,% >0, = 1,喊是第k个高斯分布的方差;
[0039] (3)通过公式(4)的极大似然函数对公式(2)中的参数进行估计
[0040]
[0041 ] Znk取值为1或0,代表第η个样本是否属于第k个高斯分布。
[0042] (4)在求解公式⑷时,利用变分最大期望EM算法来优化参数11卜仏#:,在EM 算法的E步中,对隐变量:滅 :)」求解其后验分布:,其中献;):是均值, M),>.0:·分别是行和列方向的协方差矩阵,经计算得到公式(9)-(11):
[0043]
[0044]
[0045]
[0046]
[0047] Μ步更新公式(4)中的参数,得到公式(12)-(14):
[0048]
[0051] 其中yn,k表示第η个样本属于第k个高斯分布的后验概率;
[0052] 迭代进行E步和Μ步,使似然函数值增大并趋于稳定。
[0053] 本发明基于混合高斯模型对二维数据进行降维,通过引入隐变量,使用变分最大 期望算法求解模型参数,以及降维后的系数矩阵,达到对二维数据进行压缩的效果,使用降 维矩阵和系数矩阵重构图像,与原始图像比较得到损失较小的图像,将降维后的系数矩阵 看作是样本的特征,使用系数矩阵对样本进行分类,所以能够对二维数据在行和列两个方 向上进行降维,重构效果更好。
[0054] 现在更详细地说明本发明。
[0055] 为了求解公式(2),利用变分近似算法求解模型中所有变量的后验分布的密度函 数。
[0056] 1 概率的二阶 PCA(PSOPCA)
[0057] 令x= {Xi,X2, . . .,XN}是一组独立同分布随机变量的N个样本,其中每个样本的大 小为1Ρ::气2D主成分分析可以表示成如下形式:
[0058] Xn = LBnRT+M+En; (1)
[0059] 其中L(pXr)和R(qXc)分别是行和列方向的降维矩阵,Bn(rXc)是样本Xn的隐变量核,即 系数矩阵。r < p,c < q是降维后的行和列数。M(pXq)是均值矩阵,En是满足矩阵高斯分布的噪声,即, 私.創#(0;办%,%}。也就是它的每个分量满足句~。m; j。i a 则模型(1)就是标准的概率2DPCA。
[0060] 2MixB2DPPCA 模型
[0061] 对于更加复杂的数据集,单单用一个主成分模型很难拟合原来的样本集,因为这 种主成分分析是一种全局降维模型,对于一些数据分布复杂的样本,仅仅找到一个主方向 显然是不合理的。因此,提出一种局部2DPCA模型,利用多个2DPCA的混合形式找到一组降维 方向,从而可以更好的表示原始数据的主成分。
[0062] 在本项目中,考虑混合的2DPCA,目的是对复杂的二维样本数据在得到分类后,并 求解每一类的降维矩阵。假设样本Xn服从由K个高斯分布组成的高斯混合模型(GMM),即
[0063] +i.
[0064] 值得注意的是,一个分离的均值项Mk是与K个混合成分相联系的,实际上它是第k 类样本集的均值,Lk和Rk是样本集得到的第k类降维。耶是混合比例,巧> (λ. 恥=1。
[0065] 引入一个Κ维二进制随机变量ζ,Κ个元素中只有一个元素抑等于1,其他元素为0. 也就是zke {〇,1}且Hi %二1,所以p(zk= 1)=取,则ζ的后验分布定义为:
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1