基于图论的k-means非线性流形聚类与代表点选取方法

文档序号:6516550阅读:1248来源:国知局
基于图论的k-means非线性流形聚类与代表点选取方法
【专利摘要】本发明提供了一种基于图论的k-means非线性流形聚类和代表点选取方法,具体包括以下步骤,构建一个图模型,计算各样本点间的图距离矩阵以及无限次随机游走概率矩阵,然后在图模型上交替迭代更各类中心以及类成员直至收敛。本发明所提出的疲劳随机游走模型可以快速实现非线性的流行聚类并为每类选取一个代表点,从而克服传统k-means只在样本服从高斯分布时能够取得好效果的缺陷。本发明对图像、文本以及视频等具有低维流形分布的高维数据具有很好的聚类效果,同时能够为每类指定一个最具代表性的点,方法实现简单,易于操作。
【专利说明】基于图论的k-means非线性流形聚类与代表点选取方法
【技术领域】 [0001] 本发明涉及机器学习和模式识别中的样本聚类【技术领域】,具体地,涉及一种基于图论的k-means非线性流形聚类与代表点选取方法。
【背景技术】
[0002]现代科学研究表明,很多高维数据都服从流形分布,数据所分布的流形维数一般远低于数据本身的维度。例如一幅100x100的人脸图像有10000个数据维度,而在人脸识别的过程中,对于同一个人的不同人脸照片,其中起决定作用的关键因素可能只有数十个甚至数个,如五官的大小、比例,脸型以及表情等,而每个人的这些关键因素都服从一定的分布,即低维流形分布。如何充分挖掘这些内在因素从而提高识别的正确率给很多传统的聚类方法带来了很大的挑战。这也正是流形聚类所研究的内容。
[0003]在现有的流形聚类方法中,一类是线性流形的聚类方法,也称为子空间聚类。此类方法虽然对于线性流形分布的数据能够获得很好的效果,但是对于非线性流形分布的数据则很难获得满意效果,而实际用用中很多数据分布并不是线性的。因此,此类方法具有较大的局限性。另一类是非线性流形聚类方法,其中比较常用的是基于图论谱分析的谱聚类方法。但谱聚类方法只能给出数据集的分类信息,无法给出数据集的代表点,也就是数据集中那些最能代表该数据集特征的样本成员。实际应用中这些代表点也往往具有重要的作用,例如视频摘要或者文档摘要的目的就是要找出很少的最具代表性的视频帧或者文档句子,作为检索的关键索引或者作为内容的压缩,从而只需要浏览者很小部分的代表点就可以大概知道整个视频或文档的内容,即节省了浏览者的时间又节省了存储的空间。其他的非线性流形聚类方法要么需要苛刻的前提条件(例如只对解析流形有效或者要求非线性流形间具有很好的可分性),要么需要复杂的优化过程,不利于实际的大规模应用。
[0004]现有技术中,出现的上述类似技术,比如:
[0005][1]M.Breitenbach and G.Z.Grudic, ^Clustering through ranking onmanifolds, 〃in ICML, 2005, pp.73-80.[0006][2]E.Elhamifar, G.Sapiro, and R.Vidal,See all by looking at a few: Sparsemodeling for finding representative objects,〃in Computer Vision and PatternRecognition (CVPR), 2012IEEE Conference on,2012,pp.1600-1607.[0007]因此,随着现在各个领域实验数据的不断增多,在数据维数越来越大的情况下,亟待有一种方法能够充分地利用数据分布的低维流形特征实现很好的聚类,同时又能给出数据各样本与代表点间的关系。

【发明内容】

[0008]针对现有技术中的缺陷,本发明的目的是提供一种基于图论的k-means非线性流形聚类与代表点选取方法,具有很好的聚类效果,同时能够为每类指定一个最具代表性的点,方法实现简单,易于操作,非常适合具有低维流形分布的高维数据处理应用。[0009]为实现上述目的,本发明提出一种基于图论的k-means非线性流形聚类与代表点选取方法。该方法首先使用要聚类的样本集构建一个图模型,然后在图模型上交替更新类别中心和更新各类成员,直至收敛,收敛后的中心既是要选取的代表点,同时与各代表点具有相同类别标号的样本点为一类,其中:
[0010]在更新类别中心时,限制类别中心为图上的节点,在每次的更新中选取某个类别中的一个成员作为聚类中心,使得它与所在类别中所有其他成员的图距离之和最小;
[0011]在更新样本所属类别时,使用本发明提出的无限次随机游走概率作为样本和中心间的相似性度量,无限次随机游走概率矩阵计算方法如下:
[0012]户=(/-0;/^1其中I为单位矩阵,a是小于I的正数,P = D^1W为随机游走转移矩阵,其中W为所构建图模型的邻接矩阵,D为对角矩阵,其对角元为对应的W行和,无限次随机游走概率矩阵中的第i行第j列元素表示样本集中第i个样本到第j个样本的无限次随机游走概率。
[0013]以下对本发明上述方法做进一步说明。
[0014]传统的k-means聚类方法在不断的迭代中有两个关键步骤:更新聚类中心和更新各类成员。针对这两个关键步骤,本发明给出了彻底性的改进。本发明的方法如下:
[0015]1.更新类别中心
[0016]对于给定的样本集合,首先计算样本两两之间的欧式距离得到一个距离矩阵,然后利用此距离矩阵采用dijkstra方法或者其他类似方法计算出样本两两之间的图距离,获得一个图距离矩阵,记为队。
[0017]对于第k类的聚类中心,传统的k-means是在寻找满足如下条件的一点作为聚类中心`
[0018]
【权利要求】
1.一种基于图论的k-means非线性流形聚类与代表点选取方法,其特征在于,首先使用要聚类的样本集构建一个图模型,然后在图模型上交替更新类别中心和更新各类成员,直至收敛,收敛后的中心既是要选取的代表点,同时与各代表点具有相同类别标号的样本点为一类;其中: 在更新类别中心时,限制类别中心为图上的节点,在每次的更新中选取某个类别中的一个成员作为聚类中心,使得它与所在类别中所有其他成员的图距离之和最小; 在更新样本所属类别时,使用无限次随机游走概率作为样本和中心间的相似性度量,无限次随机游走概率矩阵计算方法如下: 户= (IiP)-1其中I为单位矩阵,a是小于I的正数,P = D4W为随机游走转移矩阵,其中W为所构建图模型的邻接矩阵,D为对角矩阵,其对角元为对应的W行和,无限次随机游走概率矩阵中的第i行第j列元素表示样本集中第i个样本到第j个样本的无限次随机游走概率。
2.根据权利要求1所述的一种基于图论的k-means非线性流形聚类与代表点选取方法,其特征在于,所述更新类别中心,具体为:对于给定的样本集合,首先计算样本两两之间的欧式距离得到一个距离矩阵,然后利用此距离矩阵计算出样本两两之间的图距离,获得一个图距离矩阵,记为队;对于第k类的聚类中心,采用如下方法决定聚类中心:
3.根据权利要求1所述的一种基于图论的k-means非线性流形聚类与代表点选取方法,其特征在于,所述更新各类的成员,具体为:首先构建一个kNN图模型,图的每个节点对应一个样本,每个节点只与离它最近的k个样本相连接,图的边使用高斯函数继续加权或其他加权;传统的随机游走矩阵为P = D-1W, t步转移矩阵为Pt,其中W是图的邻接矩阵,D是对角矩阵,对角元为
4.根据权利要求1所述的一种基于图论的k-means非线性流形聚类与代表点选取方法,其特征在于,对于样本集中的某个样本,把该样本归入离它无限次随机游走概率最大的一个中心所 在类中。
【文档编号】G06T7/00GK103617609SQ201310508232
【公开日】2014年3月5日 申请日期:2013年10月24日 优先权日:2013年10月24日
【发明者】屠恩美, 杨杰 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1