例外点抑制的数据判别降维方法

文档序号:9249496阅读:460来源:国知局
例外点抑制的数据判别降维方法
【技术领域】
[0001] 本发明设及数据处理领域,更具体地,设及一种例外点抑制的数据判别降维方法。
【背景技术】
[0002] 基于子空间学习的数据降维方法在智能分析与认知系统中得到了充分的重视。线 性判别分析(LDA)及其各种改进方式因为其有监督的学习方式和简单的实现过程受到了 更加广泛的关注和研究。
[0003] 然而在现实场景中,两个方面的缺陷限制了LDA的进一步应用及推广。首先,独立 同分布的基本假设显得过于苛刻。对于那些不满足该一基本假设的数据,就无法从理论上 保证得到最优解。并且对于高维数据而言,怎样判别独立同分布假设本身就是十分困难的 问题。其次,现实环境中采集到的数据往往带有一定程度的噪音和例外点,它们的存在将导 致子空间不够稳健,并且独立同分布的数据分布假设使得模型带有较大的误差。在该两种 情况下,使用传统的均值与协方差矩阵估计方法将损失子空间的判别信息。
[0004] 科研人员在数据建模与数值计算过程中发现,部分数据在判别子空间学习过程中 起了较之其他数据更加积极的作用。该样,如果对于所有数据都不加任何区分的统计量估 计,不仅显得不够合理,也在实际应用过程中有着较弱的表现。因此很有必要重新提炼数据 的局部结构特征,对数据样本进行合理区分,对那些起了积极作用的样本赋予更大的权值, 才能更加有效的挖掘数据蕴含的判别信息。通过对费歇尔线性判别分析与局部保持投影基 本思想的组合,LFDA能够学习出带有局部结构保持特性的判别子空间。Ll-Gra地将稀疏表 示方法引入到局部近邻样本刻画过程,从而有效挖掘出样本之间的稀疏表达特性,然而在 此基础上得到有助于分类的子空间。哈尔滨工业大学的徐勇教授提出了两步骤的LLDA方 法。首先对于任意给定的测试样本y,在训练集中通过稀疏表示的方法选出y的一组相关 (近邻)样本,然后基于该些相关样本执行经典的费歇尔判别准则,该样可W进一步淘汰冗 余样本,从而减小了计算复杂度。最近,Muetal.提出了自适应的嵌入框架处理多类别数 据降维问题。
[0005] 值得注意的是,W上算法或方法都可W归结为"关系加权"的基本思路。换言之,通 过对样本之间的"近邻关系"(近邻,非近邻)进行再次估计与分析,任意一组样本之间的关 系(有监督的类属关系与无监督的近邻关系)得到了基于局部几何结构的调整,从而更加 有助于判别分析。然而,该类算法的一个主要缺陷在于,如果数据存在一定程度的例外点, 那么例外点与正常数据点之间的关系也将因此而放大,从而影响判别子空间的学习。

【发明内容】

[0006] 为了克服上述现有技术的不足,本发明提出一种例外点抑制的数据判别降维方 法。该方法能够有效的求解最优判别子空间,估计出各个样本在学习过程中的贡献值,能够 较好的处理带有遮挡和例外点的数据。
[0007] 为了实现上述目的,本发明的技术方案为:
[000引一种例外点抑制的数据判别降维方法,包括w下步骤:
[0009] S1.输入带有类别标签1、2、…、C的原始数据,C是类别总数;
[0010] S2.在第k个类别内部,1《k《C,求出其中每一对数据点xf与x/之间的关系权 值
其中0是一个先验参数;然后求出该类别中第i个数据点xf与其 它数据点之间的权值
其中的rik表示第k个类别 中数据点个数;
[0011] S3.列出第k类的数据点xf与所有同类别数据点之间的权值,统一使用S2步骤 中的权值之和
敝归一化处理,得到xf的最终权值
k= 1,2,…,C;i= 1,2,…,rik,
[0012] S4.对第k个类别中的数据点,依据各自的样本权值计算出该类别的样本均值向 量和协方差矩阵:
[0015] S5.对所有类别中的数据,分别计算不同类别之间的散度矩阵&二
巧所有类别的类内散度矩醉
[0016] S6.为了提取间距和判别特征,需要求解出最优的正交投影矩阵A,使其满足SbA =入S,A。该个过程可W转化为馬1而的矩阵分解,其中是S,的逆矩阵,A是待求解的 mX(C-l)维度矩阵,A是由特征值构成的对角矩阵。
[0017] 进一步的,所述步骤S6中包括:
[0018] 1)S,^S,+P1,其中P是一个很小的正数,I表示单位矩阵;
[001引。求解S,的逆矩阵S户,令5 = &;旬;
[0020] 3)将S分解为QSQT的形式,其中Q是mXm的正交矩阵,S是mXm的对角矩阵, 其对角元素均为非负实数且按从大到小的顺序排列;
[0021] 4)取矩阵Q的前C-1列构成新的矩阵A。
[0022] 与现有技术相比,本发明的有益效果为;(1)所有数据点都假设依据在判别子空 间学习过程中的贡献赋予权值,其中起到积极作用的数据点赋予较大样本权值;据此,例外 点在子空间学习过程中将自适应地得到衰减。
[002引 似基于给定的类别标签,独立估计出每个类别的均值向量与协方差矩阵,然后提 出基于新的统计量的线性判别准则;该种样本加权的新模式也可W用于其他基于协方差矩 阵的算法当中。
[0024] 本发明提出了新的样本加权方法和数据降维方法,用于改善判别子空间的稳健性 能,在抑制噪音与例外点等方面有着十分重要的作用和广泛的应用空间。
【附图说明】
[00巧]图1为常规的近邻关系示意图。
[0026] 图2为新的均值估计方法模型示意图。
[0027] 图3为本发明方法的流程图。
【具体实施方式】
[0028] 下面结合附图对本发明做进一步的描述,但本发明的实施方式并不限于此。
[0029] 图1为常规的图嵌入模型,同一类别的所有数据点都赋予相同权值。
[0030] 图2为基于重要性采样的均值估计方法,其中实屯、圆表示赋予较大权值的重要数 据点,它们用于估计类内的加权均值。
[0031] 图3为本发明方法的流程图,其中包含数据输入、权值估计、均值估计、类内/类间 散度矩阵估计、子空间计算等主要过程。
[0032] 例外点抑制的数据判别降维方法,包括W下步骤:
[003引S1.输入带有类别标签1、2、…、C的原始数据,C是类别总数;
[0034] S2.在第k个类别内部,1《k《C,求出其中每一对数据点;rf与x/之间的关系权 值
其中0是一个先验参数;然后求出该类别中第i个数据点与其 它数据点之间的权值
其中的%表示第k个类别 中数据点个数;
[003引S3.列出第k类的数据点非与所有同类别数据点之间的权值,统一使用S2步骤 中的权值之和
敝归一化处理,得到xf的最终权值
k= 1,2,…,C;i= 1,2,…,rik,
[0036]
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1