一种用于聚类的基于非负矩阵分解的降维方法

文档序号:6602016阅读:378来源:国知局
专利名称:一种用于聚类的基于非负矩阵分解的降维方法
技术领域
本发明属于统计模式识别与机器学习技术领域,具体涉及一种用于聚类的基于非 负矩阵分解的降维方法。
背景技术
聚类是机器学习领域最基本的研究任务之一。在实际应用中,数据的每一维都表 示一个相关的特征。通常情况下,难以简单地判断哪些特征有利于聚类,一个常用的方法就 是尽可能多地采集数据特征,然后进行聚类。因此,数据特征一般是高维的,而高维的数据 特征通常带来两方面的问题1)存储和计算代价较高,2)维数灾难问题。在实际应用中,维 数灾难问题是许多模式识别方法面临的主要问题之一,如步态识别、图像分类和文本处理 等。尤其是面对高维的有限样本时,维数灾难更加突出,它直接导致聚类性能的下降。降维 就是研究如何把高维数据压缩映射到低维子空间中,从而更有效地完成聚类等任务。这种 映射可以是线性或非线性的。由于线性降维方法简单有效,它广泛应用于机器学习和模式 识别的各个领域。当前,除了上述的线性或非线性的降维方法外,从不同的角度,又可分为以下 几类如,基于是否使用类标号信息,可分为无监督,半监督和监督方法。本发明考虑的 是数据的非负性。许多方法具有任意的符号,但像非负矩阵分解(normegative matrix factorization,NNMF)方法能够保持数据符号的非负性,这反映了文本,图像等数据的基本 特征。主成份分析(principal component analysis, PCA)经典的无监督线性降维方法 是[1]。降维涉及的基本问题之一是如何选择适当的维数r,PCA方法通过分析特征值易于 得到r值。最终,原特征空间的r维线性子空间按照最小平方误差原则能够最好地表示所 有的原数据。谱分析方法具有相似的选取低维数目的方法[2]。谱方法有坚实的理论基础 和广泛的应用且易于执行。另一种流行的子空间降维方法是线性判别分析(Fisher's linear discriminant analysis,LDA) [3]。这种方法能够在低维投影空间中保持类信息的相关结构。当训练样本 不充分时,得可采用半监督方法[4]。对比而言,PCA和LDA是线性降维方法,LDA明确地对 类间差异进行建模,而PCA并不考虑类信息。PCA方法对于数据重建(reconstruction)是 最优的,但它不适合类的分离与识别。上面考虑了线性情况,当数据集不能够有效地用样本均值和协方差矩阵表示时, 或者,数据中包含复杂特征时,线性方法变得低效。在这种情况下,可利用核技巧(kernel trick),如基于核的主成份分析(kernel PCA) [5]。其它的非线性技术如局部线性嵌入 (locally linearembedding,LLE) [6]禾口人工神经网络(artificial neural network,ANN)也是常用的方法。LLE方法保持了降维前后的近邻关系。ANN方法模拟了神经系统可朔 性(如,学习)机制。但ANN模型的训练一般是耗时的。 本发明聚焦于非负矩阵分解方法[8]。NNMF方法可把数据矩阵Xnxm分解为
3CnXrXMrXm,当n和m分别表示维数和样本数时,C是基矩阵而M是系数矩阵。NNMF方法的流 行在于其简单实用性。为了解决应用中的问题,标准的NNMF中加入了不同的约束或参数。 如,Li等通过在基和系数矩阵上加入三个新的约束提出了局部NNMF(l0CalNNMF,LNMF),从 而发觉有用的局部视觉模式[9] ;Cichocki等调查了基于a “距离”(a-divergence) [10] 的方法(简记为aNMF) ;Shahnaz等考虑了系数矩阵的稀疏性,提出了⑶-CLS算法[11]。 基矩阵可视为投影矩阵,所以NNMF可用于降维[12,13]。对比而言,除NNMF方法外,上述的 方法都具有任意的符号。但这些基于KL “距离”或欧几里得距离的NNMF方法也有一些共 同的问题。首先,它们不同程度地复杂化了原NNMF方法,所以,最终的更新规则比原方法需 要更多的计算时间。其次,迭代更新方法说明矩阵C和M都是自身的函数,因此C和M需要 同时被初始化,过多的初始未必会产生更有效的矩阵分解。本发明给出了一种基于非负矩 阵分解的归一化压缩方法(normalized compressionusing NNMF,记为NCMF),NCMF通过归 一化数据维最终得到了简单有效的迭代方法。

发明内容
本发明的目的在于提供一种不增加原有NNMF复杂度而收敛速度快,计算时间省 的非负矩阵降维方法。本发明提供的降维方法,采用KL “距离”,最小化数据压缩和重建之间的目标误差 函数,最终获得映射矩阵;再利用该映射矩阵,把高维数据投影到低维子空间中,从而进行 有效的数据分析,如聚类等。在最小化上述误差的过程中,在数据非负要求的基础上,加入 数据归一化约束,即分解得到的两个矩阵每列的L1范式总是为1。这个归一化约束并没有 复杂化原分解问题,相反,得到了比原NNMF等方法更加简练的结果。本发明提出的NCMF算 法在每次迭代更新中能够自然保持归一。这一特点使得最终的映射矩阵与原NNMF等方法 相比具有更好的稀疏性。在得到的低维空间中,共用的类k均值聚类算法表明NCMF得到了 更加有效的低维数据特点。与已有相关算法相比,本发明的最大优点是简单而有效。本发明中,当数据矩阵X中每行表示一个样本时,即xnXm分解为CnXjrXifXm时,和 上述矩阵分解不同,相当于把X数据矩阵进行了转置,使得n和m分别表示样本数和维数。 这种处理能够直接发觉不同维之间的内在关系,从而达到有效的降维目的。在许多应用中, 数据矩阵X中的样本列向量也被归一化,本发明对X进行了转置处理,因此归一化所有的维 列向量。这种处理方法使得矩阵C和M具有新的意义C记录了 X中高维数据的压缩结果, 则可视为压缩矩阵,而M反映了 X中的高维(列向量)与C中的低维(列向量)之间的映 射关系,则M是映射矩阵。本发明用KL “距离”作为矩阵X和压缩矩阵C及映射矩阵M乘 积的距离度量方法。相应的目标函数为F(C,M) =log^--^ +(CM)tf)+M2:,Q-D ⑴其中,E Aj = 1,k(l彡k彡r)表示矩阵C的列和矩阵M的行,i!和v是正的参 数。得到的更新规则为,
{XMT)lk/0、
其中,T表示矩阵的转置,即MT表示矩阵M的转置。NCMF在从X分解成C和M的过程中,不断地通过CM重建X,如图1所示.NCMF方 法具有简单性,归一性和稀疏性。1,简单性相比Lee在[8]中提出的基于KL “距离”的分解方法(简记为KL_NMF),我们简单 化了对矩阵C的更新。这种简单的更新来自如下的观察。由X = CM推可得XMT = C(MMT) 和C = XMT(Z)-1,其中Z = MMT是一个秩r的矩阵。如果Z是一个单位矩阵,可以安全删 除。下面的应用实例1(参考等式8)说明此时的Z是一个对角占优先的矩阵,则Z是一个 近似的对角矩阵。当高维(X中的列)均衡地对应到低维(C中的列)时,Z成了一个近似的 数量矩阵(scalar matrix)。此时Z同样可被安全删除并把逆变成简单的除法,即像C的规 则(2)进行更新即可。这样做有两个优点简单,消除了逆计算;避免引入负数。事实上,即 使高维(X中的列)非均衡地对应到低维(C中的列)中,上述公式同样适用,如同奥卡姆剃 刀简单而实用是最好的[14]。C的上述更新还有另一种解释。C中列的更新相当于X中 对应的若干列(维)的均向量,上述更新规则正好体现这个特点。这种简单性可以加速迭 代过程,从而使得NCMF方法比NNMF等方法具有更高的运行效率。2,归一性基于上述的两个更新公式可进一步推导出如下的结论C和M在每次迭代更新中

上述的推导证明了 NCMF在分解过程中,只要数据矩阵X首先被归一化,矩阵C和 M就具有归一化特点。同样的分析说明NNMF没有这种归一化特点。我们进而可分析NCMF的收敛。更新规则⑵说明C是M的函数,则目标函数⑴ 可重写为仅变量M的函数。因此,M的收敛性致关重要。而文章[15]说明M可收敛到局部 静态点。所以,M和C的更新可降低目标函数(1)的值,NCMF是收敛的。3,稀疏性公式(3)说明M的更新并不需要计算维之间的相似性,而是计算X中的每一维和 C中的列之间的相关性。在整个分解过程中,元素Xij用(CM)ij进行重建。进而,《。_ = (^/((CM)^.)说明了原值和其重建之间的大小关系。如果(Xu) > (CM)U,说明重建值不足 以估计原值,所以%」> 1放大Cik。相反,(Xu) < (CM)说明重建值过拟合(overfitting), 则《。< 1可降低Cik。如果令Y kj = E i ⑷⑷则Mkj = rkJMkJ说明Mkj通过系数rkj进行 更新。当映射矩阵M使得第j维Xvj(v= [1,2, ...,n]T)主要隶属于Mkj时,我们可以说 明总是不小于1 在每一个迭代更新步,公式(5)说明E kMkJ总为1。当Xvj主要隶属于
时,Xvj隶属于Mk,彡r & k'兴k)的值具有较小的隶属度。而这整个更新是
收敛的。因此,X中的每一维对C中列(维)的隶属度会从k’转到k中。所以,总是不 小于1。这说明每一维的隶属度随着M的更新逐渐突显出来。这也正好说明了 M的稀疏性 的特点。映射矩阵M的稀疏性特点也可通过分析实验结果得到。本发明用信息熵 (entropy) [16]来衡量稀疏性。熵是对不确定性的一种度量,当一个非负的矩阵仅由0和 1组成时,熵最小为0 ;当这些非负数全部相等时,熵最大。所以稀疏性可用熵来度量熵越 小,稀疏性越好。对于边沿分布q G R1Xm,q的熵可定义为, 如果q个矩阵,可视其为一个向量,做同样处理。从模糊聚类的角度而言,M的熵说 明了其模糊性。首先应把M变为联合分布(joint distribution)即E kJ = 1的形式。
如果M仅由0和1组成,则M'只有m个非0的1/m,此时熵为孖(M’) = m(--log-) = logm,
m m
则一个合理的度量M稀疏性的方法可定义为 当g(M)等于0时,反映了理想的多对一映射的最稀疏的结果。根据以上内容,相应的算法归纳如下1,给定数据集X (按行存放样本),低维子空间维数r及迭代次数1。2,计算数据矩阵X的样本数n和维数m。3,归一化 X,使得 E Aj = 1。4,初始化映射矩阵M G IfXm。
6
5
5,迭代1次步骤6和7。6,用[ M,更新 C。 8,返回压缩矩阵C和映射矩阵M。


图1NCMF的分解与重构过程。图2步态数据集上的一帧去除背影的图像。
具体实施例方式
实施例1可更直观地说明矩阵X,C和M的特点。矩阵 是一个简单的数据矩阵。对于文本数据来说,每一列对应不同的单词,每一行表示 某一文本中不同单词出现次数的统计向量。我们任务是在压缩的低维空间中把相似的文本 聚在一起。为了简化上述问题,数据矩阵A中的数据可首先进行二进制化处理,即, [1 if Ay>0 0 else 基于此,NCMF可得到如下的分解, 上述分解对应的三个矩阵分别用X,C和M表示时,得到X = CM。矩阵X由4个样 本行向量组成,每个样本有5维(列),而分解后的压缩矩阵C从X的5维降到了 2维。映 射矩阵M记录了不同高维与低维之间的相关性,其行向量说明了原始的X中的高维空间在 当前的低维空间中把更相似的维压缩在一起,而M的列向量说明了 X中某一原始的高维和 C中低维之间的映射关系。这是一个特例,在实际应用中,M 一般是由接近于0和1的数组 成,等式(5)说明M可保持每一列L1范式为1。实施例2说明在步态(gait)数据集[17]上的实验结果。该数据集的原始数据是 一些视频数据,从其中提取的消除背景的诸帧数据如附图2。为了应用这些步态数据,可进 一步提取数据信息,形成每个ID号(对应一个人)有若干样本特征向量的数据矩阵。为了 说明NCMF算法的降维特点,本发明采用了 galData数据中来自样本最多的前6个ID号对 应该的数据进行聚类分析。对相关的结果,我们采用三种度量方法,运行时间,稀疏性和聚类的精度,分别用秒,信息熵和纯度(purity)来度量。降维后的数据采用同样的类k均值算法SIB[18]进行聚类,并采用纯度度量聚 类精度。如果聚类结果用矩阵S记录,其中Shk表示第h类聚到第k个簇的比例(1彡h, k<r)。则纯度可定义为, 最终,我们可用平均纯度度量聚类精度。实验中每个分解算法都用行来表示数据样本。附表1显示了具体的实验结果。 NCMF运行时间最少;映射矩阵M的熵最小,这说明矩阵M最稀疏,而NCMF得到的降低数据 获得了最大的精度。这些实验结果说明NCMF比其它方法在运行时间和获得的低维数据特征上更为有 效。尽管NCMF加入了比NNMF更多的一些约束,结果却获得了更为简练的更新规则。这种 简单性,一方面使得NCMF比原NNMF更加高效,同时也比使M仅由0和1表示更加接近于恒 等分解。上述的稀疏性和归一化分析说明NCMF自然地获得了稀疏的映射矩阵M。NCMF的 更新公式(2)和(3)说明映射矩阵的计算时间占所有运行时间的2/3,这说明NCMF强调了 矩阵M的更新。一旦得到该矩阵,可快速地计算出压缩矩阵C。总之,这种简单性,归一性和 稀疏性使得NCMF算法更加有效。表1说明了 NCMF和其它相关分解算法在压缩的6维空间中降维的执行时间,映射 矩阵的稀疏性和低维数据的聚类精度三方面的实验结果。表 1 参考文献 [1]K. Fukunaga, Introduction to Statistical pattern recognition,Academic Press,2ndedition,1991.[2] J. Shi, J.Malik, Normalized cuts and image segmentation, IEEE Transactions on PatternAnalysis and Machine Intelligence 22(8) (2000)888-905.[3]R. A. Fisher, The use of multiple measurements in taxonomic problems, Annals ofEugenics 7(1936)179-188.[4]D. Cai,X. F. He,J. ff. Han,Semi-supervised discriminant analysis, in :IEEE 1lthlnternational Conference on Computer Vision(ICCV), 2007, pp.1-7.[5]S. Bernhard, S. Alexander, M. Klaus-Robert, Kernel principal component analysis,1999.[6]S. Roweis, L.Saul, Nonlinear dimensionality reduction by locally linear embedding. Science 290(5500) (2000)2223-2326.
[7]R. 0. Duda, P. E. Hart, D. G. Stork, Pattern classification, 2nd edition, Wiley,2001.[8]D. D. Lee, H. S. Seung, Learning the parts of objects by nonnegative matrix factorization, Nature 401 (6755) (1999)788-791.[9] S. Z. Li,X. W. Hou,H. J. Zhang,Learning spatially localized, parts-based representation,in :IEEE Conference on Computer Vision and Pattern Recognition(CVPR),vol. 1,2001, pp.207-212.[10]A. Cichocki,H. Lee,Y. D. Kim,S. Choi,Non-negative matrix factorization with—-divergence,Pattern Recognition Letters 29(9) (2008) 1433-1440.[11]F. Shahnaz,M. W. Berry, V. P. Pauca,R. J. Plemmons, Document clustering usingnonegative matrix factorization, Information Processing and Management 42(2006) (2005)373-386.[12]W. X. Liu, K. H. Yuan, D. Yea, Reducing microarray data via nonnegative matrixfactorization for visualization and clustering analysis, Journal of Biomedical Informatics 41 (4) (2008)602-606.[13] S. Tsuge, M. Shishibori, S. Kuroiwa, K. Kita, Dimensionality reduction usingnon-negative matrix factorization for information retrieval, in :2001 IEEE InternationalConference of Systems, Man,and Cybernetics,vol. 2,2001,pp.960-965.[14] Occam razor. http://en. wikipedia. org/wiki/0ccam% 27s—razor.[ 15] D. D. Lee , H. S. Seung,Algorithms for non-negative matrix factorization, in -Proceedings of the 13th Annual Conference on Neural Information Processing Systems(NIPS), vol. 13,2000, pp.556-562.[16]T. Cover, J. Thomas,Elements of Information Theory,JohnWiley & Sons, New York,USA,1991.[17]Gait data set. http://marathon, csee. usf. edu/GaitBaseline/.[ 1 8] N. Slonim,N. Friedman,N. Tishby,Unsupervised document classification usingsequential information maximization, in Proceeding of 25th ACM intermational Conference onResearch and Development in Information Retrieval(SIGIR),2002,pp.129-136.。
权利要求
一种用于聚类的基于非负矩阵分解的降维方法,其特征在于采用KL“距离”,在数据非负要求的基础上,加入数据归一化约束,通过最小化数据压缩和重建之间的目标误差函数,直接寻求数据维之间的内在关系,最终获得映射矩阵;再利用该映射矩阵,把高维数据投影到低维子空间中,从而进行相应的数据分析。
2.根据权利要求1所述的方法,其特征在于把数据矩阵X中每行表示一个样本,并把 xnXm分解为CnXlrXifXm,通过归一化数据矩阵X的维列向量,最终得到压缩矩阵C和映射矩 阵M,相应的目标函数为 其中,E义」=l,n为样本数,m为维数,r为低维空间的维数,表示矩阵 C的列和矩阵M的行,y和v是正的参数,得到的更新规则为 矩阵的上标T表示该矩阵的转置。
3.根据权利要求1所述的方法,其特征在于具体计算步骤如下1),给定按行存放样本数据集X,低维子空间维数r及迭代次数1;2),计算数据矩阵X的样本数n和维数m;3),归一化父,使得乙义」=1;4),初始化映射矩阵Me5),迭代1次步骤6)和7);6),用 更新 C;7),用 更新 M ;8),返回压缩矩阵C和映射矩阵M。
全文摘要
本发明属于统计模型识别与机器学习技术领域,具体为一种用于聚类的基于非负矩阵分解的降维方法。本发明方法采用KL距离,加入数据归一化约束,通过最小化数据压缩和重建之间的目标误差函数,直接发觉数据维之间的内在关系,最终获得映射矩阵;再利用该映射矩阵,把高维数据投影到低维子空间中,从而进行有效的数据分析,如聚类等。本发明得到了比原分解方法更加简练的迭代公式,并在每次迭代更新中能够自然保持归一。归一化使得最终的映射矩阵与原分解方法相比具有更好的稀疏性。在得到的低维空间中,聚类结果表明本发明方法可得到更加有效的低维数据特点,算法简单而有效。
文档编号G06F15/18GK101853239SQ20101016750
公开日2010年10月6日 申请日期2010年5月6日 优先权日2010年5月6日
发明者朱真峰, 薛向阳, 郭跃飞 申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1