从高维非对称数据中提取分类信息的方法

文档序号:9288597阅读:524来源:国知局
从高维非对称数据中提取分类信息的方法
【技术领域】
[0001] 本发明涉及信号与图像处理领域,特别涉及一种从高维非对称数据中提取分类信 息的方法。
【背景技术】
[0002] 从两类样本数据中提取分类信息的方法具有十分重要的实际应用价值。例如,用 被提取的分类信息来区分人脸和非人脸图像、区分疾病样本和非疾病样本以及鉴别有用信 息和无用信息等。随着获取信息的技术和手段日益先进,需要分类的两类数据维度愈来愈 庞大,再加上获取的两类样本数量通常不均衡,使得传统的两类样本分类方法受到较大限 制。因此,迫切需要一种能够从高维、两类样本数不对称的大数据中提取分类信息的方法, 以满足海量信息化社会各个领域发展的需要。
[0003] 主成分分析(principal component analysis, PCA)是一种目前最常用的非监督 式多元统计分析方法,该方法主要是对数据集的协方差矩阵进行特征分析,在最小化重构 误差的条件下分离出数据中的主要成分,作为分类信息。PCA具有简化数据能力强和实现 难度较低的特点。然而,当PCA在面对不均衡样本的时候,虽然它能够在主成分空间中将重 构信息最大化,但不能很好的保留有利于分类的信息,这会导致整个应用系统的分类性能 下降。干扰PCA正确分类的元凶在于:当一类数据(称为阳性样本)的样本量小于另一类 数据(称为阴性样本)的样本量时,阳性类条件协方差矩阵中小特征值对应的特征向量会 发生严重偏移。为了改进PCA的缺陷,一种非对称PCA (Asymmetric Principal Component Analysis,简称为APCA)方法被提出。APCA重点剔除了干扰PCA正确分类的因素,对阳性类 条件协方差矩阵和阴性类条件协方差矩阵赋以新的权重,组成新的协方差矩阵代替PCA的 总体散布矩阵后再进行特征分解。相比于PCA方法,APCA方法提取非均衡数据的分类信息 能力有了很大提高,但是它在处理高维数据(例如一些医学图像)时常常发生计算量溢出 现象。原因在于APCA构建的新的协方差矩阵由多个尺寸为nXn的方阵线性组合而成,其 中η为数据的初始维度。在许多实际应用中,数据的初始维度都比较大,例如,一张尺寸为 200 X 200的图像就有40000个像素点,即40000维,因此,APCA在计算高维数据协方差矩阵 的特征值时容易导致计算机内存溢出而无法继续进行后续计算,即使能够计算,如此巨大 的矩阵维数也必然会带来极高的计算复杂度,计算时间和误差都会大幅度上升。
[0004] 由此可见,现有相关分类信息提取方法要么不适合样本不对称的数据,要么计算 复杂高、处理高维数据时容易发生计算量溢出。

【发明内容】

[0005] 【要解决的技术问题】
[0006] 本发明的目的是是为了解决【背景技术】中存在的上述缺陷,引入联合对角化理论, 设计和实现了一种从高维、两类样本数不对称的大数据中提取分类信息的方法,为了便于 说明,将本发明提供的从高维非对称数据中提取分类信息的方法命名为联合对角化主成分 分析(Joint Diagonalization Principal Component Analysis, JDPCA) 〇
[0007] 【技术方案】
[0008] 本发明是通过以下技术方案实现的。
[0009] 本发明涉及一种从高维非对称数据中提取分类信息的方法,该方法包括如下步 骤:
[0010] 步骤A :获取高维非对称数据,所述高维非对称数据由阳性样本和阴性样本组成, 分析得到所述高维非对称数据的维度η、所述高维非对称数据的总样本数量q、所述阳性样 本的样本数量q。、所述阴性样本的样本数量q。,设置待提取的分类信息的维数m ;
[0011] 步骤B :计算高维非对称样本数据的均值向量M、阳性类样本的均值向量Mci、阴性 类样本的均值向量M。,分别中心化阳性样本和阴性样本得到中心化后的阳性样本集合矩阵 S。、中心化后的阴性样本集合矩阵S。;
[0012] 步骤C :分别构建矩阵xn、矩阵Xp、矩阵Xmin、矩阵Xmr,^Ja ?α, S,.、α η=

为阴性类样本,其中j = 1,2, · · · qc。
[0024] 作为另一种优选的实施方式,所述高维非对称样本数据的维度η和高维非对称样 本数据的总样本数量q满足:η > 3q。
[0025] 作为另一种优选的实施方式,所述高维非对称样本数据为图像数据、基因表达数 据或全基因组关联研究数据。
[0026] 作为另一种优选的实施方式,所述高维非对称数据中的各个数据元素均为实数。
[0027] 下面对本发明的技术方案进行详细说明。
[0028] 本发明针对的是高维非对称数据,该数据由阳性样本与阴性样本组成,具体地,通 过分析可以得到本发明中获取到的高维非对称数据的维度为η、高维非对称数据的总样本 数量为q、阳性样本的样本数量为q。、阴性样本的样本数量q。,则q = qjq。,由于为非对称数 据,因此q。古q。,另外由于是高维数据,则η >> q,符号" >> "表示远大于,一般地,高维 非对称数据的维度η至少应为高维非对称数据的总样本数量q的3倍,即η > 3q。
[0029] 具体地,对于高维非对称数据中的阳性样本由q。个行向量表示的样本组 成,其中脚标?表示阳性类样本,X=表示阳性样本中的第i个样本,i = 1,2, . . . q。, 的均值向量Μ。为:
[0033] 对于高维非对称数据中的阴性样本,由q。个行向量表示的样本组成,其中 脚标c表示阴性类样本,X=表示阴性样本中的第j个样本,j = 1,2, ... q。,采用上述方法 同样可以求解得到的均值向量M。和类条件协方差矩阵Σ。。
[0034] 高维非对称数据为上述两类样本的并集,即,同样可以求解得 到其均值向量M,通过均值向量M求解得到中心化的高维非对称数据X,具体地,
[0035] 现有技术中的PCA是利用尺寸较小的矩阵接地对总体散布矩阵Σ t进行特 征分解,取值最大的前m个特征值对应的特征向量构成降维矩阵,再把任意一个η维数据通 过该降维矩阵进行投影,将维度降至m维,其中总体散布矩阵Σ,如式(3)所示,类间散布 矩阵Sni如式⑷所示。
[0038] 本发明提供的JDPCA方法对Σ。和Σ。赋以新的权重,组成新的协方差矩阵Σ α代 替Σ,进行特征分解,求解其特征值和特征向量,协方差矩阵Σ α如式(5)所示,
[0039] Σ α = α οΣο+α εΣε+Ση (5)
[0040] 由于Σ α中的两个类条件协方差矩阵的权重变为α。= (qyq)、α。= (qyq),不 再是两个类的先验概率的估计值,所以满足等的f就不能像PCA -样通过中 心化的高维非对称数据X直接求得。为了求解得到满足条件的本发明通过寻找一个 矩阵U,使得U能够对组成Σα的所有矩阵同时进行对角化。当对角化实现后,再通过矩阵 U和对角化后的对角矩阵构建矩阵1。由于整个计算过程不会有大小超过ηΧη的矩阵生 成,所以JDPCA的计算复杂度将大大降低。然而,现有的联合对角化方法是近似算法,通常 需要迭代或求逆计算,如果JDPCA直接采用这些算法,不仅PCA提取的信息会被歪曲,而且 其计算量将增大。为此,本发明巧妙地利用了上述协方差矩阵的低秩和实对称特性,设计了 一种快速、准确的新的非正交联合对角化算法来寻找矩阵f,使JDPCA在处理高维数据时 不会发生维数灾难问题。
[0041] 常规的联合对角化问题可以描述为如下形式:对于L个nXn大小的矩阵 A1, A2... Ap寻找一个对角化矩阵U和L个对应的对角阵A2 .. .Ai: *使得对任意 的I e {1,2, 3... U均满足A1=UA #。由于本发明中需要联合对角化的矩阵均 为实对称矩阵,则共轭转置"H" 一律写为转置"T"。根据式(3)、式(4)、式(5),令: = , αΑ ,Ctc(Mci-M) (Μ〇-Μ)τ= Σ "。,Ctci(Mc-M) (MC_M)T= Σ Μ,那么 2。可 以表示为:
[0042]
[0043] 本发明的目的为寻找一个矩阵U和4个对角阵A# Η吏得矩阵U 能够同时把?_这四个方阵对角化为对应的对角阵,Σα便可以分解为如下 的形式:
[0044] Σ α = U Λ DUT+U Λ CUT+U ΛnoUT+U ΛncUT= U (Λ 0+ Λ c+ Ληο+ Λnc) Ut (7)
[0045] 于是,式(7)中的矩阵·^(Λ。+Λε +Λ_ + Amt. )^/7"就是本发明寻找的矩阵f 〇
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1