一种二维概率主成分分析方法

文档序号:8381374阅读:1593来源:国知局
一种二维概率主成分分析方法
【技术领域】
[0001] 本发明属于特征提取及数据降维的技术领域,具体地涉及一种二维概率主成分分 析方法。
【背景技术】
[0002] 高维和多模态数据在现代计算机视觉的研宄中随处可见。数据的高维度不仅增加 了算法的复杂性和存储的开销,而且也降低了算法在实际应用中的广泛性。然而,高维数据 往往是均匀分布在一个低维空间或流行空间上。所以,找到高维观测数据在低维空间中的 一种映射关系已成为机器学习研宄的一个具有挑战性的问题。在过去的几十年中,关于数 据降维的算法已取得很大进展。
[0003] 主成分分析(Principal Component Analysis, PCA)是一种广泛应用于模式识别 和机器学习的降维方法。PCA有很多种解释,其中一种是假设观测到的高维数据是低维空间 中数据的一种线性映射。并且假设误差是一种高斯噪声,即L2-范数的测量方法。实际中 得到的数据往往具有内部相关结构,例如,图像。为了在二维数据上应用PCA,最直接的办法 是将二维数据向量化。但向量化后的数据一般都是高维数据,这样不仅会导致维度灾难的 问题而且忽略了二维数据的空间结构信息。所以,数据向量化的PCA并不是一种最优的特 征提取方法。因此有人提出了一种二维数据的PCA(2DPCA)。与传统的PCA相比,2DPCA直 接对2D数据矩阵进行降维运算,因此保留了数据间的结构关系,并且取得了优于PCA的实 验结果。与PCA相同的是2DPCA模型也是基于L2-范数的误差测量方法。
[0004] 这些非概率的PCA只依赖原始数据,并没有假设任何参数,也没有将观测数据的 先验知识应用到预测结果中。为了克服这个不足,Tipping and Bishop提出了一种概率的 PCA模型(PPCA)。这个模型同样是将数据表示成一维向量,并且假设噪声服从均值是0,斜 方差为单位矩阵的高斯分布。与传统的PCA相比,PPCA是应用概率的理论达到对数据降维, 模型的参数可通过极大似然估计(MLE)得出。进而,Zhao et al.提出了基于二维数据的 概率PCA (2DPPCA),这是传统PPCA到2D模型的一个突破。
[0005] 前面提到的PCA和PPCA方法都基于是高斯误差的假设。然而实际中存在的噪声 经常是不规则的,尤其是当数据集中存在离群点时,基于高斯误差的PCA找到的主方向会 偏向离群点,从而偏离数据真正的主成分。

【发明内容】

[0006] 本发明的技术解决问题是:克服现有技术的不足,提供一种二维概率主成分分析 方法,其不仅能够利用二维数据的空间结构,而且对离群点是鲁棒的。
[0007] 本发明的技术解决方案是:这种二维概率主成分分析方法,利用Ll-范数的误差 测量方式并基于Ll-范数的概率PCA模型在二维数据上降维,此模型中误差服从拉普拉斯 分布,在求解过程中,通过引入新的隐变量,将拉普拉斯分布替换为无限个高斯分布和的形 式,隐变量作为一种检测离群点的工具,进而求得行和列方向的降维矩阵。
[0008] 本发明基于LI-范数的概率PCA模型对二维数据的降维,误差服从拉普拉斯分布, 所以不仅能够利用二维数据的空间结构,而且对离群点是鲁棒的。
【附图说明】
[0009] 图1示出了根据本发明当降维维数分别1,5和10时,检测离群点的结果,其中第 一行是非概率的L1-B2DPCA所有样本的重构误差,第二行是L1-2DPPCA模型中所有的β ,的 均值。
[0010]图2是基于Ll-范数的一维概率降维方法,其是在Yale数据库上训练的重构误 差。
[0011] 图3是基于Ll-范数的一维概率降维方法,其是在ORL数据库上训练的重构误差。
【具体实施方式】
[0012] 这种二维概率主成分分析方法,利用Ll-范数的误差测量方式并基于概率PCA模 型在二维数据上降维,此模型中误差服从拉普拉斯分布,在求解过程中,通过引入新的隐变 量,将拉普拉斯分布替换为无限个高斯分布和的形式,隐变量作为一种检测离群点的工具, 进而求得行和列方向的降维矩阵。
[0013] 本发明基于Ll-范数的概率PCA模型对二维数据的降维,误差服从拉普拉斯分布, 所以不仅能够利用二维数据的空间结构,而且对离群点是鲁棒的。
[0014] 优选地,所述方法包括以下步骤:
[0015] (1)根据公式(1)建立概率的二阶PCA,
[0016] Xk= LZ kRT+M+Ek (1)
[0017] 其中L(mXr)和R(nXc)分别是行列方向的降维矩阵,Zk是模型中的核隐 变量,并且大小是rXc(r彡m,c彡n),M和E k分别是均值矩阵和误差矩阵,M是零 矩阵,AT(M,U,V):是均值为M,行和列的协方差矩阵分别为U和V的矩阵高斯分布, 如果误差矩阵满足矩阵形式的高斯分布E fr~Α?+0.σ1,".σΙ"),它的每个分量满足
【主权项】
1. 一种二维概率主成分分析方法,其特征在于:利用L1-范数的误差测量方式并基于 概率PCA模型在二维数据上降维,此模型中误差服从拉普拉斯分布,在求解过程中,通过引 入新的隐变量,将拉普拉斯分布替换为无限个高斯分布和的形式,隐变量作为一种检测离 群点的工具,进而求得行和列方向的降维矩阵。
2. 根据权利要求1所述的二维概率主成分分析方法,其特征在于:所述方法包括以下 步骤: (1) 根据公式(1)建立概率的二阶PCA, Xk=LZkRT+M+Ek (1) 其中L(mXr)和R(nXc)分别是行列方向的降维矩阵,Zk是模型中的核隐变 量,并且大小是rXc(r<m,c<n),M和Ek分别是均值矩阵和误差矩阵,M是零矩 阵,Af(M,U,V)是均值为M,行和列的协方差矩阵分别为U和V的矩阵高斯分布, 如果误差矩阵满足矩阵形式的高斯分布Efc~#(0,rfmsrfn),它的每个分量满足 〇"2)(/ .= .1.2.....m:j= 1,2..... (2) 根据公式(2)-(4)建立基于L1-范数的概率PCA模型,
其中Pfcl! 丨,。服从伽马分布,令P=I/。2,并且P服从参量为 {ap,bp}的伽马分布; (3) 通过最大期望EM算法根据公式(5)获得隐变量求解似然函数的模型,
其中Z= {Zp...,ZN}为模型中所有核的隐变量,0 = {L,R,ap,bp}为模型中所有参 量和高阶参量的集合;Q(Z,P)是隐变量Z和P的联合后验分布函数,:是样本 X与隐变量Z和P的联合分布。
3. 根据权利要求2所述的二维概率主成分分析方法,其特征在于:所述方法还包括步 骤(4),根据公式(6)对似然函数求解: 其中P(Ek)表示Ek的后验分布,tr表示矩阵的迹运算,。表示哈德玛积运算。 (6)
【专利摘要】本发明公开了一种二维概率主成分分析方法,其不仅能够利用二维数据的空间结构,而且对离群点是鲁棒的。这种二维概率主成分分析方法,利用L1-范数的误差测量方式并基于概率PCA模型在二维数据上降维,此模型中误差服从拉普拉斯分布,在求解过程中,通过引入新的隐变量,将拉普拉斯分布替换为无限个高斯分布和的形式,隐变量作为一种检测离群点的工具,进而求得行和列方向的降维矩阵。
【IPC分类】G06K9-62
【公开号】CN104700117
【申请号】CN201510113385
【发明人】孙艳丰, 句福娇, 胡永利, 尹宝才
【申请人】北京工业大学
【公开日】2015年6月10日
【申请日】2015年3月16日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1