一种基于拉普拉斯正则化无监督的聚类特征选取方法

文档序号:6369531阅读:885来源:国知局
专利名称:一种基于拉普拉斯正则化无监督的聚类特征选取方法
技术领域
本发明属于数据处理技术领域,具体涉及一种基于拉普拉斯正则化无监督的聚类特征选取方法。
背景技术
聚类是机器学习和数据挖掘中一种常见的多元统计分析方法,它讨论的对象是大量的样品,要求能按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。目前,作为一种有效地数据分析手段,聚类方法被广泛应用于各大领域在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客 户群的特征;在生物上,聚类分析被用来动植物分类和基因进行分类,获取对种群固有结构的认识;在地理上,聚类能够帮助在地球中被观察的数据库上趋于的相似性;在保险行业上,聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组;在互联网应用中,聚类分析被用来对网络中的文档进行归类,对虚拟社区中的用户进行分组。常见的聚类分析方法主要包括如下几种( I)分裂法,又称划分方法,首先创建K个划分,K为要创建的划分的个数;然后利用一个循环定位的技术通过将对象从一个划分移到另一个划分来改善划分质量。典型的划分方法有K均值聚类算法(Kmeans)、K中心聚类算法(Kmedoids)和聚类大应用程序算法(CLARA, Clustering LARge Application)等。(2)层次法,通过创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。典型的层次方法有基于平衡迭代降低的层次聚类算法(BIRCH, Balanced Iterative Reducing and Clustering using Hierarchies)、基于表达的聚类算法(⑶RE, Clustering Using REprisentatives)和基于动态模型的层次聚类算法(CHEMAL0EN)等。(3)基于密度的方法,根据密度完成对象的聚类。它根据对象周围的密度不断增长聚类。典型的基于密度的方法有基于密度的聚类算法(DBSCAlDensit-based SpatialClustering of Application with Noise)和基于对象排序识别聚类结构的聚类算法(OPTICS, Ordering Points To Identify the Clustering Structure)。(4)基于网格的方法,首先将对象空间划分为有限个单元以构成网格结构,然后利用网格结构完成聚类。( 5 )基于模型的方法,它假设每个聚类的模型并发现适合相应模型的数据。这些传统的聚类方法已经比较成功的解决了低维数据的聚类问题,但随着信息技术的迅速发展,数据采集能力的提高导致各领域数据的维度呈指数级增长,由于实际应用中数据的复杂性,在处理许多高维数据时传统的聚类方法经常失效。因为传统聚类方法对高维数据集中进行聚类时,主要遇到两个问题(I)高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零,大大增加了运算的复杂度;(2)高维带来的维度灾难使得某些聚类算法的实用性几乎为零,在图像,识别,信息检索等众多领域,严重影响学习的效率和效果。针对以上两个问题,研究者提出了特征选择和特征提取两种聚类预处理方法。特征提取是将原有的特征进行转换和组合,产生新的有效的特征。而特征选择是从原来大量的特征中挑选出包含最多信息的特征。这两项技术是成功的数据应用学习的重要组成部分。根据是否利用标记数据进行训练,特征选择可以分成监督式特征学习和非监督式特征学习。典型的监督式特征学习包括费舍尔分值法(Fish score),蓬松相关系数法(Personcorrelation coefficients)等。这些方法能很有效的进行特征选择。然而,在实际应用中,由于对数据进行标记需要昂贵的人力成本,并且有时候,带标记的数据难以取得,因此监督式学习就难以在一些应用中发挥作用。故为了解决维数灾难和消除数据中对于学习来说不必要的冗余信息,常采用非监督式特征选择对数据进行预处理。目前主要的非监督式方法有拉普拉斯分值法(Laplacian Score):利用数据的原始流形空间信息,挑选出最符 合数据几何分布规律的特征点。它从最本质的原理出发,充分利用了数据的分布特性,揭示事物的本质,简化复杂的问题。Q-alpha法通过优化最小二乘法标准函数通过估计所选维度数据点的聚类性来挑选特征。方差法(Variance):选取方差变化最大的特征为所需特征。拉普拉斯分值作为经典的特征选择的谱方法,目前已经广泛应用于各种应用,该方法可以有效地找出数据的主要特征,但是不能有效地提取出数据的类别特征;Q_alpha作为一种特征选择方法,在基因的选择上有很好的效果,但是不适合其他应用(比如图形图像的处理);方差特征选择法是最简单的一种特征选择方法之一,但是它仅仅选择变化最大的特征作为包含信息量最大的特征,这样的选择方式容易被噪音数据所干扰。

发明内容
针对现有技术所存在的上述技术缺陷,本发明提供了一种基于拉普拉斯正则化无监督的聚类特征选取方法,能够改善后续学习及聚类分析的效果,提高学习及聚类分析的判别能力。一种基于拉普拉斯正则化无监督的聚类特征选取方法,包括如下步骤(I)获取样本数据集合,进而构建样本数据集合的样本特征矩阵;所述的样本特征矩阵为nXm维矩阵,n为特征个数,m为样本个数,且m和n均为大于I的自然数;(2)根据所述的样本特征矩阵,计算出其对应的拉普拉斯矩阵;(3)根据所述的拉普拉斯矩阵,利用基于拉普拉斯正则化算法从样本特征矩阵中提取出k行特征集合,k为预期给定的特征提取个数。所述的步骤(3)中,利用基于拉普拉斯正则化算法从样本特征矩阵中提取出k行特征集合的具体过程如下a.取样本特征矩阵中的任一行特征集合作为特征过渡矩阵Y1 ;
b.根据以下方程组计算特征过渡矩阵Y1对应的方差Z1
权利要求
1.一种基于拉普拉斯正则化无监督的聚类特征选取方法,包括如下步骤 (1)获取样本数据集合,进而构建样本数据集合的样本特征矩阵; 所述的样本特征矩阵为nXm维矩阵,n为特征个数,m为样本个数,且m和n均为大于I的自然数; (2)根据所述的样本特征矩阵,计算出其对应的拉普拉斯矩阵; (3)根据所述的拉普拉斯矩阵,利用基于拉普拉斯正则化算法从样本特征矩阵中提取出k行特征集合,k为预期给定的特征提取个数。
2.根据权利要求I所述的基于拉普拉斯正则化无监督的聚类特征选取方法,其特征在于所述的步骤(3)中,利用基于拉普拉斯正则化算法从样本特征矩阵中提取出k行特征集合的具体过程如下· a.取样本特征矩阵中的任一行特征集合作为特征过渡矩阵Y1; b.根据以下方程组计算特征过渡矩阵Y1对应的方差Z1 其中=YuSY1的第j列特征向量,j为自然数,且I < j Sm,L为样本特征矩阵对应的拉普拉斯矩阵,I为单位矩阵,a和P均为给定的运算系数; c.根据步骤a和b,遍历样本特征矩阵中的每一行特征集合,得到n个方差,从样本特征矩阵中提取出最小方差所对应的一行特征集合,并令该行特征集合为S1,以完成第一次特征提取; d.依次完成k次特征提取后从样本特征矩阵中提取得到k行特征集合; 其中,关于第i次特征提取的过程为构建一 i Xm维矩阵,令S广Sp1为该矩阵的前i-1行特征集合,取样本特征矩阵中除S广Sp1外的任一行特征集合为该矩阵的第i行特征集合,并使该矩阵作为特征过渡矩阵Yi, i为自然数,且2 ^ i ;根据以下方程组计算特征过渡矩阵Yi对应的方差Zi 其中yij为Yi的第j列特征向量; 依此,遍历样本特征矩阵中除外的每一行特征集合,得到n-i+1个方差,从样本特征矩阵中提取出最小方差所对应的一行特征集合,并令该行特征集合为Si。
3.根据权利要求2所述的基于拉普拉斯正则化无监督的聚类特征选取方法,其特征在于第i次特征提取过程中,根据以下方程组计算特征过渡矩阵Yi对应的方差Zi Zi = max{gn, gi2, gi3...gjgij = (Yij) 1F1Yi (Yi) Vy.j
全文摘要
本发明公开了一种基于拉普拉斯正则化无监督的聚类特征选取方法,包括(1)构建样本特征矩阵;(2)计算拉普拉斯矩阵;(3)对样本特征矩阵进行特征提取。本发明通过直接度量后续学习预测结果的方差来选择特征,能直接提高后续学习预测效果;同时在特征提取过程中考虑选取的特征点对于学习问题的预测值的影响,故能有效提高后续的学习效率;另外本发明数据的建模是基于数据的流形几何的拉普拉斯方法,该方法能有效的反映数据在空间中的分布信息,从而能够找出信息量最大的维度。
文档编号G06F17/30GK102722578SQ20121018251
公开日2012年10月10日 申请日期2012年5月31日 优先权日2012年5月31日
发明者何晓飞, 姚冠红 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1