基于特征归纳的高维数据超图模型构造方法

文档序号:9471344阅读:2234来源:国知局
基于特征归纳的高维数据超图模型构造方法
【技术领域】
[0001] 本发明涉及一种高维数据聚类算法,具体地涉及一种基于特征归纳的高维数据超 图模型构造方法。
【背景技术】
[0002] 随着社会的发展,数据量急剧膨胀,数据的时效性和复杂性远远超过了当前信息 处理能力。"信息化"和"全球化"成为二十一世纪的两个重要特征。在网络技术的推动下, 近十几年来,人们生产和搜集数据的能力大幅地提高,而数据获得和生产能力大大超过了 数据处理的能力。在数据生产、传输能力远远大于数据分析能力的今天,人们虽然被数据所 淹没,可是人们却又饥饿于知识。于是数据挖掘和知识发现技术应运而生,并蓬勃发展,越 来越显示出其强大的生命力。
[0003] 聚类分析作为数据挖掘中的一个重要研究内容,它是一种重要的人类行为,人就 是通过不断地改进下意识中的聚类模式来学会如何区分各种事物。聚类(Clustering)就 是将数据对象分组成多个类或者簇(Cluster),在同一个簇中的对象之间具有较高的相似 度,而不同簇中对象的差别(或相异度)较大。聚类分析源于许多研究领域,其中包括数据 挖掘、统计学、生物学、以及机器学习。与数据挖掘中分类不相同的是,聚类是一种无指导的 学习过程,每个训练样本的类标号是未知的,要学习的类集合或数量也往往是事先不知道 的;而分类是一种有指导的学习过程,每个训练样本是在告知属于哪个类的"指导"下进行 的。
[0004] 到目前为止,聚类分析方法已经在许多领域得到了应用,并且取得了一定的成就, 这其中包括模式识别、数据分析、图像处理、市场分析研究等。在这些应用中,我们经常会碰 到一些数据集,它们可能有几十、几百或成千上万个属性。可以将这些对象表示成高维属性 空间中的点或向量,这样就把客观世界中的对象集用高维数据的集合来表示。对这种数据 进行聚类分析就是高维数据聚类问题。
[0005] 对于高维数据可以采用以下几种方法进行分析:
[0006] 1、对于高维数据,可以采用属性转换或属性约简方法,以减少数据维度,然后利 用传统的聚类算法在较低维的数据空间中完成聚类操作,如主成分分析(PCA)、多维缩放 (MDS)、自组织映射网络(SOM)、小波分析等,都是普遍应用的降维方法。降维技术的使用虽 然缩小了数据维度空间,但其可解释性、可理解性较差,可能会丢失重要的聚类信息,其结 果的表达和理解存在着一定的难度。这种降维技术对高维数据的处理有着很大的局限性, 无法满足当前高维聚类应用的发展需要。
[0007] 2、子空间(Subspace)聚类算法则从另一角度处理高维数据,由于直接在高维空 间中寻找簇(clusters)很困难,该类算法就把原始数据空间划分为不同的子空间,在子空 间考察聚类的存在。该类算法的中心思想是首先找出密切相关的维,然后在对应的子空间 中再进行聚类。代表算法包括CLIQUE算法,MAFIA算法、proclus算法。但是该类算法进行 的聚类分析通常打破了原始数据的完整性。
[0008] 3、基于超图的高维聚类技术是另一种高维数据聚类方法。基于超图的高维聚类方 法大致有三种。第一种方法是:首先利用关联规则的频繁项集来定义对象之间的相似度,并 以此建立超图模型,利用图的优化分割技术得到聚类结果。算法的主要思想是把一个求解 高维空间数据聚类问题转换为一个超图分割寻优问题,包括两个步骤:第一步,构造带权的 超图来表示不同的数据项之间的关系,把数据集中的每一个数据项看成超图的一个顶点, 把一个记录看成是一个超边,把由频繁项目集产生的关联规则的平均置信度看成是超边 的权重;第二步,得到超图以后,在此基础上对数据点进行聚类,聚类方法使用超图分割算 法HMETIS,每次将超图分成两部分,并保证被截断的超边的权重最小,反复使用超图分割算 法,直到每个分割内部都紧密联系为止,得到的分割就是簇。但是该种方法的运行时间和聚 类精度都不是很理想。
[0009] 第二种方法是:它建立模型的方法与第一种方法中提到的算法是相同的,二者不 同的是第一种方法中的算法是自顶向下对超图进行分割以得到最终的簇,而第二种方法是 采用自底向上的方法,首先将每个顶点看成一个单独的簇,然后在算法中不断合并,以得到 最终的簇。实验表明,该算法在运行时间和聚类精度上都优于第一种方法,但是该算法对于 属性值连续的情况效果不太理想。
[0010] 第三种方法中给出了属性分布相似度定义,提出基于属性相似度的超图高维聚类 算法,算法中超图的建立过程与前面两种算法不同,每个记录对应一个顶点,相似度大于某 一阑值的两个顶点之间存在一条超边,超边的权重等于两个顶点之间的相似度,超图建立 后应用超图分割算法HMETiS进行分割以得到簇。与上面两种算法不同的是,它以聚类奇异 特征值对其进行质量评价以提高算法的整体性能。因此无法全面地对高维数据集进行聚类 分析。

【发明内容】

[0011] 针对上述技术问题,本发明目的是:提供一种基于特征归纳的高维数据超图模型 构造方法,能够全面地对高维数据集进行聚类分析,并且可以进一步提高高维数据聚类算 法的运算效率。
[0012] 本发明的技术方案是:
[0013] -种基于特征归纳的高维数据超图模型构造方法,其特征在于,包括以下步骤:
[0014] SOl:将高维数据集D的n条数据记录的t个属性值离散化,将一条数据记录作为 初始矩阵X的一行,该条数据记录离散化后的属性值作为列,得到初始矩阵X;
[0015] S02:在非负条件下,初始化高维数据集特征基矩阵U和高维数据集特征系数矩阵 V;
[0016] S03 :利用迭代函数对U和V进行反复迭代求出近似解,直至目标函数Q(X,U,V)值 缩小至设定阈值,得到缩小规模的矩阵U' ;
[0017] S04 :将矩阵U'的每一行视为一条数据记录,定义不同的属性值为超图的节点,矩 阵U'的每一行构造为超图的一条超边,得到超图G。
[0018] 优选的,将构造矩阵视为一个带附加约束的非线性优化问题得到目标函数及约束 条件:
[0021] 使用如下迭代函数进行反复迭代求解,迭代函数为:
[0024] 其中,X为初始矩阵,U为高维数据集特征基矩阵,V为高维数据集特征系数矩阵, Ulj是矩阵U中第i行第j列的元素,Vu是矩阵V中第i行第j列的元素,m是矩阵U的行 数,r是矩阵U的列数,n是矩阵V的列数,Xlj为矩阵X中第i行第j列的元素,Vjk是矩阵 V中第j行第k列的元素,Ujk是矩阵U中第j行第k列的元素,Xlk为矩阵X中第i行第k 列的元素,a为拉格朗日乘子。
[0025] 本发明的优点是:
[0026] 1.本发明方法可以得到缩小规模的高维数据集特征基矩阵U,从而使得问题规模 能够显著减小,而且能够最大限度地反映原始数据集的特征。
[0027] 2.能够全面地对高维数据集进行聚类分析,并且进一步提高高维数据聚类算法的 运算效率。
【附图说明】
[0028] 下面结合附图及实施例对本发明作进一步描述:
[0029] 图1为本发明基于特征归纳的高维数据超图模型构造方法的流程图。
【具体实施方式】
[0030] 为使本发明的目的、技术方案和优点更加清楚明了,下面结合【具体实施方式】并参 照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发 明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本 发明的概念。
[0031] 实施例:
[0032] 如图1所示,一种基于特征归纳的高维数据超图模型构造方法,包括以下步骤:
[0033] SOl:将高维数据集D的n条数据记录的t个属性值离散化,将一条数据记录作为 初始矩阵X的一行,该条数据记录离散化后的属性值作为列,得到初始矩阵X;
[0034] S02:在非负条件下,初始化高维数据集特征基矩阵U和高维数据集特征系数矩阵 V;
[0035] S03 :利用迭代函数对U和V进行反复迭代求出近似解,直至目标函数Q(X,U,V)值 缩小至设定阈值,得到缩小规模的矩阵U',其中Q(X,U,V)为距离函数;从而使得问题规模 能够显著减小,而且能够最大限度地反映原始数据集的特征。
[0036] S04 :将矩阵U'的每一行视为一条数据记录,定义不同的属性值为超图的节点,矩 阵U'的每一行构造为超图的一条超边,得到超图G。
[0037] 可以将上述构造矩阵视为一个带附加约束的非线性优化问题,可以得到目标函数 及约束条件:
[0040] 先计算初始目标函数值Q。;
[0041] 再使用如下迭代公式计算第一目标函数值Q
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1