一种二维概率主成分分析方法

文档序号：8381374阅读：1593来源：国知局

一种二维概率主成分分析方法
【技术领域】
[0001] 本发明属于特征提取及数据降维的技术领域，具体地涉及一种二维概率主成分分析方法。
【背景技术】
[0002] 高维和多模态数据在现代计算机视觉的研宄中随处可见。数据的高维度不仅增加了算法的复杂性和存储的开销，而且也降低了算法在实际应用中的广泛性。然而，高维数据往往是均匀分布在一个低维空间或流行空间上。所以，找到高维观测数据在低维空间中的一种映射关系已成为机器学习研宄的一个具有挑战性的问题。在过去的几十年中，关于数据降维的算法已取得很大进展。
[0003] 主成分分析（Principal Component Analysis, PCA)是一种广泛应用于模式识别和机器学习的降维方法。PCA有很多种解释，其中一种是假设观测到的高维数据是低维空间中数据的一种线性映射。并且假设误差是一种高斯噪声，即L2-范数的测量方法。实际中得到的数据往往具有内部相关结构，例如，图像。为了在二维数据上应用PCA，最直接的办法是将二维数据向量化。但向量化后的数据一般都是高维数据，这样不仅会导致维度灾难的问题而且忽略了二维数据的空间结构信息。所以，数据向量化的PCA并不是一种最优的特征提取方法。因此有人提出了一种二维数据的PCA(2DPCA)。与传统的PCA相比，2DPCA直接对2D数据矩阵进行降维运算，因此保留了数据间的结构关系，并且取得了优于PCA的实验结果。与PCA相同的是2DPCA模型也是基于L2-范数的误差测量方法。
[0004] 这些非概率的PCA只依赖原始数据，并没有假设任何参数，也没有将观测数据的先验知识应用到预测结果中。为了克服这个不足，Tipping and Bishop提出了一种概率的 PCA模型（PPCA)。这个模型同样是将数据表示成一维向量，并且假设噪声服从均值是0,斜方差为单位矩阵的高斯分布。与传统的PCA相比，PPCA是应用概率的理论达到对数据降维，模型的参数可通过极大似然估计（MLE)得出。进而，Zhao et al.提出了基于二维数据的概率PCA (2DPPCA)，这是传统PPCA到2D模型的一个突破。
[0005] 前面提到的PCA和PPCA方法都基于是高斯误差的假设。然而实际中存在的噪声经常是不规则的，尤其是当数据集中存在离群点时，基于高斯误差的PCA找到的主方向会偏向离群点，从而偏离数据真正的主成分。

【发明内容】

[0006] 本发明的技术解决问题是：克服现有技术的不足，提供一种二维概率主成分分析方法，其不仅能够利用二维数据的空间结构，而且对离群点是鲁棒的。
[0007] 本发明的技术解决方案是：这种二维概率主成分分析方法，利用Ll-范数的误差测量方式并基于Ll-范数的概率PCA模型在二维数据上降维，此模型中误差服从拉普拉斯分布，在求解过程中，通过引入新的隐变量，将拉普拉斯分布替换为无限个高斯分布和的形式，隐变量作为一种检测离群点的工具，进而求得行和列方向的降维矩阵。
[0008] 本发明基于LI-范数的概率PCA模型对二维数据的降维，误差服从拉普拉斯分布，所以不仅能够利用二维数据的空间结构，而且对离群点是鲁棒的。
【附图说明】
[0009] 图1示出了根据本发明当降维维数分别1，5和10时，检测离群点的结果，其中第一行是非概率的L1-B2DPCA所有样本的重构误差，第二行是L1-2DPPCA模型中所有的β ,的均值。
[0010]图2是基于Ll-范数的一维概率降维方法，其是在Yale数据库上训练的重构误差。
[0011] 图3是基于Ll-范数的一维概率降维方法，其是在ORL数据库上训练的重构误差。
【具体实施方式】
[0012] 这种二维概率主成分分析方法，利用Ll-范数的误差测量方式并基于概率PCA模型在二维数据上降维，此模型中误差服从拉普拉斯分布，在求解过程中，通过引入新的隐变量，将拉普拉斯分布替换为无限个高斯分布和的形式，隐变量作为一种检测离群点的工具，进而求得行和列方向的降维矩阵。
[0013] 本发明基于Ll-范数的概率PCA模型对二维数据的降维，误差服从拉普拉斯分布，所以不仅能够利用二维数据的空间结构，而且对离群点是鲁棒的。
[0014] 优选地，所述方法包括以下步骤：
[0015] (1)根据公式（1)建立概率的二阶PCA，
[0016] Xk= LZ kRT+M+Ek (1)
[0017] 其中L(mXr)和R(nXc)分别是行列方向的降维矩阵，Zk是模型中的核隐变量，并且大小是rXc(r彡m，c彡n)，M和E k分别是均值矩阵和误差矩阵，M是零矩阵，AT(M,U，V):是均值为M，行和列的协方差矩阵分别为U和V的矩阵高斯分布，如果误差矩阵满足矩阵形式的高斯分布E fr~Α?+0.σ1,".σΙ")，它的每个分量满足
【主权项】
1. 一种二维概率主成分分析方法，其特征在于：利用L1-范数的误差测量方式并基于概率PCA模型在二维数据上降维，此模型中误差服从拉普拉斯分布，在求解过程中，通过引入新的隐变量，将拉普拉斯分布替换为无限个高斯分布和的形式，隐变量作为一种检测离群点的工具，进而求得行和列方向的降维矩阵。
2. 根据权利要求1所述的二维概率主成分分析方法，其特征在于：所述方法包括以下步骤： (1) 根据公式（1)建立概率的二阶PCA， Xk=LZkRT+M+Ek (1) 其中L(mXr)和R(nXc)分别是行列方向的降维矩阵，Zk是模型中的核隐变量，并且大小是rXc(r<m，c<n)，M和Ek分别是均值矩阵和误差矩阵，M是零矩阵，Af(M，U,V)是均值为M，行和列的协方差矩阵分别为U和V的矩阵高斯分布，如果误差矩阵满足矩阵形式的高斯分布Efc~#(0,rfmsrfn)，它的每个分量满足〇"2)(/ .= .1.2.....m：j= 1,2..... (2) 根据公式（2)-(4)建立基于L1-范数的概率PCA模型，
其中Pfcl! 丨，。服从伽马分布，令P=I/。2,并且P服从参量为 {ap，bp}的伽马分布； (3) 通过最大期望EM算法根据公式（5)获得隐变量求解似然函数的模型，
其中Z= {Zp...，ZN}为模型中所有核的隐变量，0 = {L，R，ap，bp}为模型中所有参量和高阶参量的集合；Q(Z，P)是隐变量Z和P的联合后验分布函数，:是样本 X与隐变量Z和P的联合分布。
3. 根据权利要求2所述的二维概率主成分分析方法，其特征在于：所述方法还包括步骤（4)，根据公式（6)对似然函数求解：其中P(Ek)表示Ek的后验分布，tr表示矩阵的迹运算，。表示哈德玛积运算。 (6)
【专利摘要】本发明公开了一种二维概率主成分分析方法，其不仅能够利用二维数据的空间结构，而且对离群点是鲁棒的。这种二维概率主成分分析方法，利用L1-范数的误差测量方式并基于概率PCA模型在二维数据上降维，此模型中误差服从拉普拉斯分布，在求解过程中，通过引入新的隐变量，将拉普拉斯分布替换为无限个高斯分布和的形式，隐变量作为一种检测离群点的工具，进而求得行和列方向的降维矩阵。
【IPC分类】G06K9-62
【公开号】CN104700117
【申请号】CN201510113385
【发明人】孙艳丰, 句福娇, 胡永利, 尹宝才
【申请人】北京工业大学
【公开日】2015年6月10日
【申请日】2015年3月16日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙艳丰;句福娇;胡永利;尹宝才;
技术所有人：北京工业大学;
我是此专利的发明人

上一篇：基于卷积神经网络的肺结节良恶性预测方法
上一篇：基于多层量子脊波表示的极化sar图像地物的分类方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。