一种带局域限制的矩阵概念分解方法

文档序号:6371665阅读:170来源:国知局
专利名称:一种带局域限制的矩阵概念分解方法
技术领域
本发明属于数据处理技术领域,具体涉及一种带局域限制的矩阵概念分解方法。
背景技术
聚类是机器学习和数据挖掘中一种常见的多元统计分析方法,它讨论的对象是大量的样品,要求能按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。目前,作为一种有效地数据分析手段,聚类方法被广泛应用于各大领域在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征;在生物上,聚类分析被用来动植物分类和基因进行分类,获取对种群固有结构的认识;在地理上,聚类能够帮助在地球中被观察的数据库上趋于的相似性;在保险行业上,聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组;在互联网应用中,聚类分析被用来对网络中的文档进行归类,对虚拟社区中的用户进行分组。目前,大多数聚类方法都能比较成功的解决低维数据的聚类问题,但是由于实际应用中数据的复杂性,在处理许多高维数据时经常失效。因为一些聚类方法对高维数据集中进行聚类时,主要遇到两个问题(I)高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;(2)高维带来的维度灾难使得某些聚类算法的实用性几乎为零。针对以上两个问题,也是为了解决维数灾难和消除数据中对于聚类来说不必要的冗佘信息,在进行聚类之前,先进行数据降维是非常必要的。数据的降维表示在模式识别、计算机视觉以及图像处理等应用领域是一个基本问题。线性的数据表示方法,如矢量分解(Vector Quantization, VQ)、主成分分析(Principal Component Analysis, PCA)、独立成分分析(Independent Component Analysis, I CA)、稀疏编码(Sparse Coding)、矩阵分解(Matrix Factorization, MF)等,已经被广泛应用到这些数据分析的实际应用中。在所有这些方法中,矩阵分解是最为频繁使用的基本方法。矩阵分解的基本步骤是将原始数据矩阵分解成为两个或两个以上的因子矩阵,而分解所得因子矩阵的乘积可以有效地近似表示原始数据。一般矩阵分解所得的其中一个因子矩阵(或者几个因子矩阵的乘积)可以看作原始数据的基,每组基向量都蕴含着一些数据的内在语义;其他的因子矩阵则看作系数矩阵,来表述原始数据与每组基向量的联系,它相当于原始数据在低维空间下的新表示。在现实应用中,矩阵分解后找到的基的数量通常要远小于数据的原始维度。因此矩阵分解可以有效地压缩数据大小,为其他数据学习方案如聚类、分类等提供便利。基于矩阵分解理论的非负矩阵分解(Non-negative Matrix Factorization, NMF)和概念分解(Concept Factorization,CF),已经被证实在图像处理、人脸识别、文档聚类以及生物信息化等数据分析应用中表现得十分出色。非负矩阵分解与其他矩阵分解方法的不同之处是,它要求原始数据矩阵非负(即矩阵的每个元素都是非负的),并且分解所得的因子矩阵都是非负的。使用非负矩阵分解方法所得的基可以直观地体现原始数据内蕴含的潜在语义关系,而且是对原始数据的稀疏编码。而概念分解作为非负矩阵分解的一个变种,其使用了原始数据的线性组合来表示每组基,概念分解在继承非负矩阵分解的数据降维表示能力的同时,还可以应用于任意数据集表示空间,因此概念分解可以使用核化方法来强化矩阵分解的效果。尽管以上这两种方法都能达到稀疏性目标,却无法保证局域限制。这两种分解方法所得到的基可能与原始数据距离甚远,使用这类基来进行数据表示显然也不会是最优的。

发明内容
针对现有技术所存在的上述技术缺陷,本发明提供了一种带局域限制的矩阵概念分解方法,能够改善聚类分析的效果,提高聚类分析的判别能力。一种带局域限制的矩阵概念分解方法,包括如下步骤(I)获取样本集合,进而构建样本集合的样本特征矩阵; 所述的样本特征矩阵为mXn维矩阵,m为特征个数,η为样本个数,且m和η均为大于I的自然数,样本特征矩阵中的任一元素值为对应样本对应特征的特征值;(2)根据所述的样本特征矩阵,通过带局域限制的迭代算法求解出基矩阵和系数矩阵;(3)使所述的系数矩阵作为样本特征矩阵的低维表示,并根据所述的基矩阵计算出样本特征矩阵的基,以供聚类分析。所述的步骤(2)中,带局域限制的迭代算法基于以下迭代方程组
权利要求
1.一种带局域限制的矩阵概念分解方法,包括如下步骤 (1)获取样本集合,进而构建样本集合的样本特征矩阵; 所述的样本特征矩阵为HiXn维矩阵,m为特征个数,η为样本个数,且m和η均为大于I的自然数,样本特征矩阵中的任一元素值为对应样本对应特征的特征值; (2)根据所述的样本特征矩阵,通过带局域限制的迭代算法求解出基矩阵和系数矩阵; (3)使所述的系数矩阵作为样本特征矩阵的低维表示,并根据所述的基矩阵计算出样本特征矩阵的基,以供聚类分析。
2.根据权利要求I所述的带局域限制的矩阵概念分解方法,其特征在于所述的步骤(2)中,带局域限制的迭代算法基于以下迭代方程组
3.根据权利要求I所述的带局域限制的矩阵概念分解方法,其特征在于所述的步骤(2)中,若样本特征矩阵中每个元素值均为非负数,则带局域限制的迭代算法基于以下迭代方程组
4.根据权利要求I所述的带局域限制的矩阵概念分解方法,其特征在于所述的步骤(3)中,根据基矩阵通过公式F = XW计算出样本特征矩阵的基;其中,F为样本特征矩阵的基,X为样本特征矩阵,W为基矩阵。
全文摘要
本发明公开了一种带局域限制的矩阵概念分解方法,包括(1)构建样本特征矩阵;(2)迭代输出基矩阵和系数矩阵;(3)求取样本特征矩阵的基和低维表示。本发明通过在目标函数中加入局域限制的正则项,使得分解得到的基尽可能接近更多的原始数据,所得数据表示可以同时满足稀疏性和局域限制;且通过降维去掉了高维数据中的冗余信息,提取出了能准确表示数据语义结构的低维表示,使得对于高维数据的聚类分析变得简单而有效,并具有良好的可解释性。
文档编号G06F17/30GK102779162SQ20121020031
公开日2012年11月14日 申请日期2012年6月14日 优先权日2012年6月14日
发明者刘海风, 吴朝晖, 杨政, 杨根茂 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1