例外点抑制的数据判别降维方法

文档序号：9249496阅读：460来源：国知局

例外点抑制的数据判别降维方法
【技术领域】
[0001] 本发明设及数据处理领域，更具体地，设及一种例外点抑制的数据判别降维方法。
【背景技术】
[0002] 基于子空间学习的数据降维方法在智能分析与认知系统中得到了充分的重视。线性判别分析（LDA)及其各种改进方式因为其有监督的学习方式和简单的实现过程受到了更加广泛的关注和研究。
[0003] 然而在现实场景中，两个方面的缺陷限制了LDA的进一步应用及推广。首先，独立同分布的基本假设显得过于苛刻。对于那些不满足该一基本假设的数据，就无法从理论上保证得到最优解。并且对于高维数据而言，怎样判别独立同分布假设本身就是十分困难的问题。其次，现实环境中采集到的数据往往带有一定程度的噪音和例外点，它们的存在将导致子空间不够稳健，并且独立同分布的数据分布假设使得模型带有较大的误差。在该两种情况下，使用传统的均值与协方差矩阵估计方法将损失子空间的判别信息。
[0004] 科研人员在数据建模与数值计算过程中发现，部分数据在判别子空间学习过程中起了较之其他数据更加积极的作用。该样，如果对于所有数据都不加任何区分的统计量估计，不仅显得不够合理，也在实际应用过程中有着较弱的表现。因此很有必要重新提炼数据的局部结构特征，对数据样本进行合理区分，对那些起了积极作用的样本赋予更大的权值，才能更加有效的挖掘数据蕴含的判别信息。通过对费歇尔线性判别分析与局部保持投影基本思想的组合，LFDA能够学习出带有局部结构保持特性的判别子空间。Ll-Gra地将稀疏表示方法引入到局部近邻样本刻画过程，从而有效挖掘出样本之间的稀疏表达特性，然而在此基础上得到有助于分类的子空间。哈尔滨工业大学的徐勇教授提出了两步骤的LLDA方法。首先对于任意给定的测试样本y，在训练集中通过稀疏表示的方法选出y的一组相关 (近邻）样本，然后基于该些相关样本执行经典的费歇尔判别准则，该样可W进一步淘汰冗余样本，从而减小了计算复杂度。最近，Muetal.提出了自适应的嵌入框架处理多类别数据降维问题。
[0005] 值得注意的是，W上算法或方法都可W归结为"关系加权"的基本思路。换言之，通过对样本之间的"近邻关系"（近邻，非近邻）进行再次估计与分析，任意一组样本之间的关系（有监督的类属关系与无监督的近邻关系）得到了基于局部几何结构的调整，从而更加有助于判别分析。然而，该类算法的一个主要缺陷在于，如果数据存在一定程度的例外点，那么例外点与正常数据点之间的关系也将因此而放大，从而影响判别子空间的学习。

【发明内容】

[0006] 为了克服上述现有技术的不足，本发明提出一种例外点抑制的数据判别降维方法。该方法能够有效的求解最优判别子空间，估计出各个样本在学习过程中的贡献值，能够较好的处理带有遮挡和例外点的数据。
[0007] 为了实现上述目的，本发明的技术方案为：
[000引一种例外点抑制的数据判别降维方法，包括w下步骤：
[0009] S1.输入带有类别标签1、2、…、C的原始数据，C是类别总数；
[0010] S2.在第k个类别内部，1《k《C，求出其中每一对数据点xf与x/之间的关系权值
其中0是一个先验参数；然后求出该类别中第i个数据点xf与其它数据点之间的权值
其中的rik表示第k个类别中数据点个数；
[0011] S3.列出第k类的数据点xf与所有同类别数据点之间的权值，统一使用S2步骤中的权值之和
敝归一化处理，得到xf的最终权值
k= 1,2,…，C;i= 1,2,…，rik，
[0012] S4.对第k个类别中的数据点，依据各自的样本权值计算出该类别的样本均值向量和协方差矩阵：
[0015] S5.对所有类别中的数据，分别计算不同类别之间的散度矩阵&二
巧所有类别的类内散度矩醉
[0016] S6.为了提取间距和判别特征，需要求解出最优的正交投影矩阵A，使其满足SbA =入S，A。该个过程可W转化为馬1而的矩阵分解，其中是S，的逆矩阵，A是待求解的 mX(C-l)维度矩阵，A是由特征值构成的对角矩阵。
[0017] 进一步的，所述步骤S6中包括：
[0018] 1)S，^S，+P1，其中P是一个很小的正数，I表示单位矩阵；
[001引。求解S，的逆矩阵S户，令5 = &；旬；
[0020] 3)将S分解为QSQT的形式，其中Q是mXm的正交矩阵，S是mXm的对角矩阵，其对角元素均为非负实数且按从大到小的顺序排列；
[0021] 4)取矩阵Q的前C-1列构成新的矩阵A。
[0022] 与现有技术相比，本发明的有益效果为；（1)所有数据点都假设依据在判别子空间学习过程中的贡献赋予权值，其中起到积极作用的数据点赋予较大样本权值；据此，例外点在子空间学习过程中将自适应地得到衰减。
[002引似基于给定的类别标签，独立估计出每个类别的均值向量与协方差矩阵，然后提出基于新的统计量的线性判别准则；该种样本加权的新模式也可W用于其他基于协方差矩阵的算法当中。
[0024] 本发明提出了新的样本加权方法和数据降维方法，用于改善判别子空间的稳健性能，在抑制噪音与例外点等方面有着十分重要的作用和广泛的应用空间。
【附图说明】
[00巧]图1为常规的近邻关系示意图。
[0026] 图2为新的均值估计方法模型示意图。
[0027] 图3为本发明方法的流程图。
【具体实施方式】
[0028] 下面结合附图对本发明做进一步的描述，但本发明的实施方式并不限于此。
[0029] 图1为常规的图嵌入模型，同一类别的所有数据点都赋予相同权值。
[0030] 图2为基于重要性采样的均值估计方法，其中实屯、圆表示赋予较大权值的重要数据点，它们用于估计类内的加权均值。
[0031] 图3为本发明方法的流程图，其中包含数据输入、权值估计、均值估计、类内/类间散度矩阵估计、子空间计算等主要过程。
[0032] 例外点抑制的数据判别降维方法，包括W下步骤：
[003引S1.输入带有类别标签1、2、…、C的原始数据，C是类别总数；
[0034] S2.在第k个类别内部，1《k《C，求出其中每一对数据点；rf与x/之间的关系权值
其中0是一个先验参数；然后求出该类别中第i个数据点与其它数据点之间的权值
其中的％表示第k个类别中数据点个数；
[003引S3.列出第k类的数据点非与所有同类别数据点之间的权值，统一使用S2步骤中的权值之和
敝归一化处理，得到xf的最终权值
k= 1，2,…，C;i= 1，2,…，rik，
[0036]

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：任传贤;
技术所有人：中山大学;
我是此专利的发明人

上一篇：一种基于人脚图像的脚型分类方法
上一篇：一种基于深度学习的复杂文字识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。