一种基于维度重构的高维数据子空间聚类投影效果优化方法

文档序号:8943432阅读:517来源:国知局
一种基于维度重构的高维数据子空间聚类投影效果优化方法
【技术领域】
[0001] 本发明涉及高维数据分析、处理和可视化技术领域,具体使用子空间聚类、LDA、 MDS和Dunn指数等相关概念和技术优化子空间聚类投影效果。
【背景技术】
[0002] 随着计算机技术在各行各业的迅速发展,使得各种数据日益增多,而这些数据中 的大量数据是多维数据甚至是高维数据。鉴于人类认知能力的局限性以及对缺乏对高维数 据空间的想象能力,人类要想获得蕴含在复杂高维数据中的深层信息仍然举步维艰。聚类 方法能够达到的一种最佳结果状态就是属于同一个簇的对象之间相似度尽可能高,而属于 不同簇的对象之间相似度尽可能低。通过聚类分析,人们可以在不清楚大量数据中规律的 情况下得到数据隐藏的知识。当数据的维度很高时噪声水平会提高,数据的密度变得更加 稀疏,基于距离的度量标准也变得失效等负面影响,这些随着维度的增加而表现出来的异 常现象叫做"维数灾难"。因此,如何对高维数据进行处理得到了广泛地关注,并成为热点研 究问题。
[0003] 可视化技术是帮助我们理解数据的一种视觉感知技术。所谓可视化,牛津英语词 典解释为"构成头脑情景的能力或过程,或不可直接察觉的某种东西的视觉"。该术语也指 将本来不可见的东西生成可见图像的过程。有人指出:可视化是一系列的转换,这种转换将 原始模拟数据转换成可显示的图像,这种转换的目的在于将信息转换成被人类感应系统所 领悟的格式。可视化技术目前应用到了基本所有的科学研究领域,它是一门涉及计算机图 形学,信号处理,人机交互,人工智能等多领域的新学科。将可视化技术的理论方法应用到 模式识别的领域中去,可以最大的发挥人类的灵活性,创新性。可视化技术的方法可以作为 抽象数据与用户之间的中间媒介,为用户提供数据的整体信息,帮助用户确定感兴趣的内 容。
[0004] 子空间是指从原始的高维数据集中以维度为单位重新构造的集合,它所构成的维 度可以部分重复也可以完全不同。聚类是一种常见的数据分析工具,其目的是把大量数据 点的集合分成若干类,使得每个类中的数据之间最大程度的相似,而不同类中的数据最大 程度的不同。聚类的数据的维度是非常高的,达到几百甚至上千维,在如此高维的空间上 进行聚类是一个具有挑战性的问题。分析其原因,主要有以下三点:1)聚类的本质是一个 无监督学习问题,很多有监督学习算法不能用;2)在这样的高维空间,实例间距离会被大 量的不相关属性所支配,可能导致相关属性的值很接近的实例相距很远,聚类的结果不理 想;3)由于维数灾难的原因,维数越高,计算量越大。对于以上问题,通常采用降维的方法 将高维数据映射到低维空间进行子空间选择,然后在子空间上聚类。常用的降维方法有 主成分分析(Principal Component Analysis,PCA)、多维尺度变化(Multi-Dimensional Scaling,MDS)、局部线性嵌入(Locally Linear Embedding,LLE)、线性判别分析(Linear Discriminant Analysis,LDA)等方法。本发明使用MDS和LDA两种降维技术对高维数据 集进行不同的组合处理。
[0005] Dunn分离性指标是一种基于几何结构的聚类有效性函数,Dunn利用数据集的紧 致性和分离性引入了一个硬聚类有效性函数
[0006]
[0007] 其中,
定义了类(^与类C_j之间的距离,而diam(Ck)定义 了聚类Ck的直径
。很明显,Dunn指标值大表明数据集包含有紧密度 和分离度好的聚类。

【发明内容】

[0008] 本发明的主要目的是优化高维数据子空间(维度子空间)聚类投影效果。针对高 维数据子空间投影效果不理想的情况,本发明提供一种可以改善投影效果的方法。
[0009] 本发明的设计思路为:本发明基于维度重构的思想,同时借助于MDS和LDA两种降 维技术,通过从原始的高维数据子空间中采集必要的聚类信息,并将这些聚类信息构造成 一个新的维度引入到原始的高维数据子空间,组成一个携带更强聚类信息的优化子空间, 那么优化子空间的聚类投影效果会比原始子空间的聚类投影效果更好。
[0010] 为了实现上述技术目的,本发明的技术方案是,
[0011] -种基于维度重构的高维数据子空间聚类投影效果优化方法,包含以下步骤:
[0012] 步骤1):探索维度子空间:从原始数据集中选择聚类结构信息较差即二维投影效 果较差的目标优化维度子空间以及若干个具有良好聚类结构信息即投影效果较好的维度 子空间;
[0013] 步骤2):构造重构维度集合:根据步骤1)得到的若干个具有良好聚类结构的维度 子空间通过CMDS算法把其数据对象投影到二维平面;然后对二维平面上的所有数据点集 合通过LDA算法处理并构造对应的判别直线;最后把若干个二维平面上的所有数据点投影 到对应的判别直线上,那么每条判别直线上所有数据点的投影值所组成的集合就构成一个 重构维度,而所有的重构维度就构成了重构维度集合;
[0014] 步骤3):构造候选优化维度子空间集合:根据步骤2)得到的重构维度集合,选取 重构维度集合中的一个或者多个重构维度与目标优化维度子空间进行自由组合,所有组合 构成候选优化维度子空间集合;
[0015] 步骤4):筛选出优化维度子空间集合:根据步骤3)得到的候选优化维度子空间 集合,对于集合中的每一个候选优化维度子空间,首先通过CMDS算法处理把候选优化维度 子空间中的数据对象投影到二维平面;然后对二维平面上的所有数据点运用K均值聚类算 法;最后计算聚类结果的Dunn指数,如果Dunn指数大于某一预先设定的阈值Q,那么就把 这个候选优化维度子空间确定为优化维度子空间;
[0016] 步骤5):确定最优维度子空间:根据步骤4)确定的优化维度子空间集合,如果集 合为空,那么没有最优维度子空间;否则,在该集合中选择对应Dunn指数最大的优化维度 子空间作为最优维度子空间。
[0017] 所述的一种基于维度重构的高维数据子空间聚类投影效果优化方法,所述步骤1) 包括以下步骤:
[0018] 步骤I. 1):计算原始数据集的二维平面的维度点集合:首先计算原始数据集的所 有维度Pearson相关系数;然后通过CMDS算法处理所得的Pearson相关系数,使得原始数 据集的维度对象投影到二维平面;
[0019] 步骤1. 2):选取目标优化维度子空间:通过对步骤I. 1)中所获得的原始数据集在 二维平面上的维度点集合,首先把维度点集合通过K均值聚类算法处理,并获得K个维度点 的聚类;然后把K个维度点的聚类作为K个候选维度子空间,并逐一通过CMDS处理候选目 标优化维度子空间的数据对象;最后计算K个候选维度子空间在二维平面上数据点的Dunn 指数,并选择Dunn指数最小且Dunn〈N的候选维度子空间作为目标优化子空间,否则,没有 目标优化子空间,并直接结束整个投影效果优化过程;
[0020] 步骤1. 3):选择若干个具有良好聚类结构的维度子空间:根据步骤1. 2)中计算得 到的K个候选维度子空间的Dunn指数,首先设置用于筛选出满足用户需求的具有良好聚类 结构信息的维度子空间阈值W,W的值越大表示筛选出的维度子空间聚类结构信息越强;然 后选择所有Dunn>W的候选维度子空间作为具有良好聚类结构的维度子空间。
[0021] 根据权利要求1所述的一种基于维度重构的高维数据子空间聚类投影效果优化 方法,所述步骤2)包括以下步骤:
[0022] 步骤2. 1):选择一个具有良好聚类结构的维度子空间,从步骤1. 3)中所得到的若 干个具有良好聚类的维度子空间选择一个未被选择过的维度子空间;
[0023] 步骤2. 2):计算二维空间数据点,根据步骤2. 1)所选择的一个具有良好聚类结构 的维度子空间,对该维度子空间中的所有数据对象通过CMDS算法和规范化处理后投影到 二维平面;
[0024] 步骤2.3):计算判别直线,根据步骤2. 2)计算所得的二维空间数据点,通过LDA 算法处理后得到该维度子空间中数据点对应的判别直线;
[0025] 步骤2. 4):计算投影值,根据步骤2. 2)计算得到的二维平面数据点以及步骤2. 3) 计算得到的判别直线,通过如下投影公式:
[0026]
(1)
[0027] 把二维平面数据点逐一投影到每一条判别直线上,根据步骤2. 2)得到的二维平 面数据点的X和y的取值范围为[_1,1]
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1