例外点抑制的数据判别降维方法_2

文档序号：9249496阅读：来源：国知局

S4.对第k类的数据点，依据上述样本权值计算出该类别的样本均值向量和协方差矩阵：
[0039] S5.对所有类别中的数据，分别计算不同类别之间的散度矩阵而=
和所有类别的类内散度矩阵
[0040] S6.为了提取间距和判别特征，需要求解出最优的正交投影矩阵A使其满足SbA =入S，A。该个过程可W转化为布1而的矩阵分解，其中S云1是S，的逆矩阵，A是待求解的 mX(C-l)维度矩阵，A是由特征值构成的对角矩阵。
[0041] 进一步的，所述步骤S6中包括：
[004引1化一s,+pI，其中P是一个很小的正数，I表示单位矩阵；
[004引。求解S,的逆矩阵S户，令S二
[0044]如将8分解为QZQT的形式，其中Q是mXm的正交矩阵，X是mXm的对角矩阵，其对角元素均为非负实数且按从大到小的顺序排列；
[0045] 4)取矩阵Q的前C-1列构成新的矩阵A。
[0046] 本发明的具体为：
[0047] 1.基本统计量（类内均值、类内散度矩阵、类间散度矩阵）估计
[004引假设给定了m维空间的n个数据{(Xi，bi)|xiGR-，i= 1，2,…，n}，biG(1，2,… ，C}是Xi的类别标签，C是数据的类别个数。根据数理统计知识，如果数据的概率密度函数为P(X)，则样本点的均值矩阵与协方差矩阵分别由下式估计：
[0051] 其中的p(Xi)往往难W确定其真实值，可W理解为数据点Xi在局部区域的重要程度，也可W理解为计算类别中屯、的贡献值。本发明提出一个估计P(Xi)的新方法，并用于估计有类标数据各个类别的类内均值、类内散度矩阵和类间散度矩阵，从而得到例外点抑制的数据降维新算法。
[005引一般的，假设d=Mxi-Xj.ll是X占Xj.之间的欧式距离，r是一个尺度参数，Wj' =W(x;，与）=e-d2/r表示X占X之间的相似度量，则W构成一个nXn矩阵。令D是一个n维向量，且W)=巧=1%/，则Da)表示了样本X占其它所有样本点之间的相似度之和。令Ph) =DO')/巧=1 0(/)，本发明将使用P知）作为样本点Xi在求解判别子空间过程中的贡献值/权值。
[0053] 假设xfceRmx叫是第k类的数据矩阵，Hk是第k类的样本数量，抑表示Xk的第i 个数据，PkQ)是巧的权值，则xk的均值向量可记为
[0054]
[0055] 代入留
可m十算出Xk对应的类内散度矩阵。
[005引假设AGRmxh是待求解的投影矩阵（默认h=C-1)，则巧在降维后的特征为辟，xk在降维之后的类内均值与协方差阵可W表示为：
[0059] 由于
我们将向量Pk转换成对角矩阵，得 diag(Pk) =Dk/trace化）巧
则第k类的协方差阵可W简化为
[0060]
[006。设X=技i，X2,…，巧表示由全部C个类别的样本构成的数据矩阵，我们将每个类另IJ对应的矩阵Ek按照对角线方式拼接起来构成权重矩阵W，，则全部类别的类内散度矩阵之和表不为：
[0062]
[0063] 另一方面，由于每个类别的加权均值向量代表该类别的中屯、，所W它们可W用来计算类间散度矩阵：
[0064]
[0065] 2.线性降维模型
[0066] 为了得到最优的低维判别空间，本发明选择费歇尔商作为基本模型。由此，目标函数可表示为：
[0067]
[0068] 其中tr表示线性代数中的迹算子。该可W通过一个常规的矩阵分解问题来求解： S，A=SbAA，其中A表示由5^；lS6的前h个最大特征值作为对角元素构成的对角矩阵，而A 是由其对应的特征向量构成的正交阵。通常，数据的高维数会导致S，不可逆，该会给上述优化问题带来麻烦，因此需要正则化方法（如S，^S，+PI，其中P是一个很小的正数，1表示单位矩阵）保证S，的可逆性。
[0069] 值得一提的是，该个基本模型还可W应用于其他的基于间隔的判别准则，比如
[0070] 在特征嵌入的阶段，假设Xt是测试样本，只需要通过计算矩阵投影得到降维后的特征表示；ATxt。
[0071] W上所述的本发明的实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。
【主权项】
1. 一种例外点抑制的数据判别降维方法，其特征在于，包括以下步骤：51. 输入带有类别标签1、2、…、C的原始数据，C是类别总数；52. 在第k个类别内部，1彡k彡C，求出其中每一对数据点xf与之间的关系权值该类别中其它数据点之间的权值仏(0 =Eg1 %以及权值之和/^(〇;其中的nk表示第k个类别中数据点个数；53. 列出第k类的数据点:xf-与所有同类别数据点之间的权值，统一使用S2步骤中的权值之和Sf做归一化处理，得到xf的最终权值~(〇=AG)/Sg1AC/);k= 1，2,...，C;i= 1，2, ...，nk，54. 对第k个类别中的数据点，依据各个样本权值计算出该类别的样本均值向量和协方差矩阵：55. 对所有类别中的数据，分别计算不同类别之间的散度矩阵& = I：h=1(# -约妒-和所有类别的类内散度矩阵Jw二这=1%;56. 为了提取间距和判别特征，需要求解出最优的正交投影矩阵A，使其满足SbA= 入SwA这个过程可以转化为'SJ11S6的矩阵分解，其中5^是Sw的逆矩阵，A是待求解的 mX(C-I)维度矩阵，A是由特征值构成的对角矩阵。2. 根据权利要求1所述的例外点抑制的数据判别降维方法，其特征在于，所述步骤S6 中包括： 1)SW-sw+pi，其中P是一个很小的正数，I表示单位矩阵； 2) 求解S，逆矩阵巧1，令S= 3) 将S分解为Q2Qt的形式，其中Q是mXm的正交矩阵，2是mXm的对角矩阵，其对角元素均为非负实数且按从大到小的顺序排列； 4) 取矩阵Q的前C-I列构成新的矩阵A。
【专利摘要】本发明公开一种例外点抑制的数据判别降维方法，（1）所有数据点都假设依据在判别子空间学习过程中的贡献赋予权值，其中起到积极作用的数据点赋予较大样本权值。据此，例外点在子空间学习过程中将自适应地得到衰减。（2）基于给定的类别标签，独立估算出每个类别的均值向量与协方差矩阵，然后提出基于新的统计量的线性判别准则。这种样本加权的新模式也可以用于其他基于协方差矩阵的算法当中。
【IPC分类】G06K9/62
【公开号】CN104966098
【申请号】CN201510325234
【发明人】任传贤
【申请人】中山大学
【公开日】2015年10月7日
【申请日】2015年6月15日

完整全部详细技术资料下载

当前第2页1 2