例外点抑制的数据判别降维方法_2

文档序号:9249496阅读:来源:国知局
S4.对第k类的数据点,依据上述样本权值计算出该类别的样本均值向量和协方 差矩阵:
[0039] S5.对所有类别中的数据,分别计算不同类别之间的散度矩阵而=
和所有类别的类内散度矩阵
[0040] S6.为了提取间距和判别特征,需要求解出最优的正交投影矩阵A使其满足SbA =入S,A。该个过程可W转化为布1而的矩阵分解,其中S云1是S,的逆矩阵,A是待求解的 mX(C-l)维度矩阵,A是由特征值构成的对角矩阵。
[0041] 进一步的,所述步骤S6中包括:
[004引1化一s,+pI,其中P是一个很小的正数,I表示单位矩阵;
[004引。求解S,的逆矩阵S户,令S二
[0044]如将8分解为QZQT的形式,其中Q是mXm的正交矩阵,X是mXm的对角矩阵, 其对角元素均为非负实数且按从大到小的顺序排列;
[0045] 4)取矩阵Q的前C-1列构成新的矩阵A。
[0046] 本发明的具体为:
[0047] 1.基本统计量(类内均值、类内散度矩阵、类间散度矩阵)估计
[004引假设给定了m维空间的n个数据{(Xi,bi)|xiGR-,i= 1,2,…,n},biG(1,2,… ,C}是Xi的类别标签,C是数据的类别个数。根据数理统计知识,如果数据的概率密度函数 为P(X),则样本点的均值矩阵与协方差矩阵分别由下式估计:
[0051] 其中的p(Xi)往往难W确定其真实值,可W理解为数据点Xi在局部区域的重要程 度,也可W理解为计算类别中屯、的贡献值。本发明提出一个估计P(Xi)的新方法,并用于估 计有类标数据各个类别的类内均值、类内散度矩阵和类间散度矩阵,从而得到例外点抑制 的数据降维新算法。
[005引一般的,假设d=Mxi-Xj.ll是X占Xj.之间的欧式距离,r是一个尺度参数,Wj' =W(x;,与)=e-d2/r表示X占X之间的相似度量,则W构成一个nXn矩阵。令D是一 个n维向量,且W)=巧=1%/,则Da)表示了样本X占其它所有样本点之间的相似度之和。 令Ph) =DO')/巧=1 0(/),本发明将使用P知)作为样本点Xi在求解判别子空间过程中的贡 献值/权值。
[0053] 假设xfceRmx叫是第k类的数据矩阵,Hk是第k类的样本数量,抑表示Xk的第i 个数据,PkQ)是巧的权值,则xk的均值向量可记为
[0054]
[0055] 代入留
可m十算出Xk对应的类内散度矩阵。
[005引假设AGRmxh是待求解的投影矩阵(默认h=C-1),则巧在降维后的特征为 辟,xk在降维之后的类内均值与协方差阵可W表示为:
[0059] 由于
我们将向量Pk转换成对角矩阵,得 diag(Pk) =Dk/trace化)巧
则第k类的协方差阵 可W简化为
[0060]
[006。 设X=技i,X2,…,巧表示由全部C个类别的样本构成的数据矩阵,我们将每个类 另IJ对应的矩阵Ek按照对角线方式拼接起来构成权重矩阵W,,则全部类别的类内散度矩阵之 和表不为:
[0062]
[0063] 另一方面,由于每个类别的加权均值向量代表该类别的中屯、,所W它们可W用来 计算类间散度矩阵:
[0064]
[0065] 2.线性降维模型
[0066] 为了得到最优的低维判别空间,本发明选择费歇尔商作为基本模型。由此,目标函 数可表示为:
[0067]
[0068] 其中tr表示线性代数中的迹算子。该可W通过一个常规的矩阵分解问题来求解: S,A=SbAA,其中A表示由5^;lS6的前h个最大特征值作为对角元素构成的对角矩阵,而A 是由其对应的特征向量构成的正交阵。通常,数据的高维数会导致S,不可逆,该会给上述优 化问题带来麻烦,因此需要正则化方法(如S,^S,+PI,其中P是一个很小的正数,1表 示单位矩阵)保证S,的可逆性。
[0069] 值得一提的是,该个基本模型还可W应用于其他的基于间隔的判别准则,比如
[0070] 在特征嵌入的阶段,假设Xt是测试样本,只需要通过计算矩阵投影得到降维后的 特征表示;ATxt。
[0071] W上所述的本发明的实施方式,并不构成对本发明保护范围的限定。任何在本发 明的精神原则之内所作出的修改、等同替换和改进等,均应包含在本发明的权利要求保护 范围之内。
【主权项】
1. 一种例外点抑制的数据判别降维方法,其特征在于,包括以下步骤:51. 输入带有类别标签1、2、…、C的原始数据,C是类别总数;52. 在第k个类别内部,1彡k彡C,求出其中每一对数据点xf与 之间的关系权值该类别中其它数据点之间的权值仏(0 =Eg1 %以及权值之和/^(〇;其中的nk表示 第k个类别中数据点个数;53. 列出第k类的数据点:xf-与所有同类别数据点之间的权值,统一使用S2步骤中 的权值之和Sf做归一化处理,得到xf的最终权值~(〇=AG)/Sg1AC/);k= 1,2,...,C;i= 1,2, ...,nk,54. 对第k个类别中的数据点,依据各个样本权值计算出该类别的样本均值向量和协 方差矩阵:55. 对所有类别中的数据,分别计算不同类别之间的散度矩阵& = I:h=1(# -约妒-和所有类别的类内散度矩阵Jw二这=1%;56. 为了提取间距和判别特征,需要求解出最优的正交投影矩阵A,使其满足SbA= 入SwA这个过程可以转化为'SJ11S6的矩阵分解,其中5^是Sw的逆矩阵,A是待求解的 mX(C-I)维度矩阵,A是由特征值构成的对角矩阵。2. 根据权利要求1所述的例外点抑制的数据判别降维方法,其特征在于,所述步骤S6 中包括: 1)SW-sw+pi,其中P是一个很小的正数,I表示单位矩阵; 2) 求解S,逆矩阵巧1,令S= 3) 将S分解为Q2Qt的形式,其中Q是mXm的正交矩阵,2是mXm的对角矩阵,其对 角元素均为非负实数且按从大到小的顺序排列; 4) 取矩阵Q的前C-I列构成新的矩阵A。
【专利摘要】本发明公开一种例外点抑制的数据判别降维方法,(1)所有数据点都假设依据在判别子空间学习过程中的贡献赋予权值,其中起到积极作用的数据点赋予较大样本权值。据此,例外点在子空间学习过程中将自适应地得到衰减。(2)基于给定的类别标签,独立估算出每个类别的均值向量与协方差矩阵,然后提出基于新的统计量的线性判别准则。这种样本加权的新模式也可以用于其他基于协方差矩阵的算法当中。
【IPC分类】G06K9/62
【公开号】CN104966098
【申请号】CN201510325234
【发明人】任传贤
【申请人】中山大学
【公开日】2015年10月7日
【申请日】2015年6月15日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1