一种基于非负矩阵分解的半监督聚类方法及系统的制作方法

文档序号:9304831阅读:382来源:国知局
一种基于非负矩阵分解的半监督聚类方法及系统的制作方法
【技术领域】
[0001] 本发明涉及聚类分析技术领域,尤其涉及一种基于非负矩阵分解的半监督聚类方 法及系统。
【背景技术】
[0002] 近年来非负矩阵分解技术在模式识别和人工智能中起着非常重要的作用。已有研 究表明,在心里和生理上都有人脑的基于部分表示的证据。非负矩阵表示在学习类似于人 脸,图像和文档等部分表示上有先天的优势。同时,在许多诸如信息检索,计算机视觉和模 式识别问题中,数据的特点是维数高,使得直接从样例中学习不可行。研究者们期望对高维 数据矩阵分解,得到高维矩阵分解后的低维表示。
[0003] 非负矩阵分解(nonnegativematrixfactorization,NMF)是对非负矩阵 Xe:K_分解,找到两个因子矩阵UeMW和VeJR-:,使得UV的乘积尽可能的和原来的 矩阵近似。其中,U可以看作是包含新基的矩阵,V可以看作是原来数据在新基下的表示,由 于k<<m,并且k<<n,所以V可以看作是原来矩阵X的低维表示。流形学习自从2000 年在《Science》被首次提出以来,已成为信息科学领域的研究热点。基于图正则化的非负 矩阵分解(GraphRegularizedNonnegativeMatrixFactorization,GNMF)方法,把拉普 拉斯图作为一个正则项加入到NMF框架中,有效的利用了原始数据的几何结构,取得了较 好的聚类性能。
[0004] 在数据的聚类应用中,有些数据是有标记的。上述算法都是无监督学习方法,不 能有效的利用已有的带标记数据指导聚类,所以在聚类性能上会大打折扣。基于NMF的半 监督聚类方法如约束非负矩阵分解(ConstrainedNonnegativeMatrixFactorization, CNMF),其主要思想是同类的数据映射到投影空间应该有相同的表示。这个方法强制投影 空间的表示和原空间的数据有相同类别标记,该方法存在的不足是当已知的标记数据很少 时,方法退化为NMF,不能有效的利用原始数据的内部结构,故而聚类性能得不到提升。除此 之外,CNMF方法使用不是约束对,而是硬性的标记,这种信息一般很难获得。

【发明内容】

[0005] 本发明提供了一种基于非负矩阵分解的半监督聚类方法,该方法基于非负矩阵分 解,不仅考虑了原始数据的邻域保持,同时还考虑了相似性在原始空间和低维流形子空间 的一致性,使得聚类性能在先验信息较多的时候大大提高,在先验信息很少的时候依然能 保持较好的聚类性能。
[0006] 本发明提供了一种基于非负矩阵分解的半监督聚类方法,包括:
[0007] 对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始 数据的低维近似矩阵;
[0008] 利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;
[0009] 利用精确度和互信息两种评价标准对所述聚类结果进行评价。
[0010] 优选地,所述对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似 性保持的原始数据的低维近似矩阵具体为:
[0011] 令所有数据组成的集合为,其中XieR'n是图像的总个数,m是图像样本 的维数,并假设图像数据中有NM个must-link约束对和N£个cannot-link约束对;
[0012] 构造由所有顶点构成的p_邻域图,并使用cannot-link约束对进行修正,如果两 个顶点满足cannot-link约束,同时又是p-邻域顶点,则从p-邻域图中删除这两个顶点形 成的边,其中,边上的权重定义为:
[0013]
[0014] 构造由must-link约束对构成的相似图,其中,边上的权重定义为:
[0015]
[0016] 利用公式
对非负矩阵 分解进行优化,得到投影以后的新空间的基U和原始数据在新空间的投影V,其中,Aw和入s均为参数;
[0017] 定义
,简化后得到:
[0018] F= | |X-UVT | 12+ 入wTr(VTLWV) + 入sTr(VTLSV);
[0019] 利用拉格朗日最小二乘法,分别对U和V求偏导,得到U和V的迭代公式;
[0020] 利用迭代公式求U和V直至收敛。
[0021] 优选地,所述利用精确度和互信息两种评价标准对所述聚类结果进行评价具体 为:
[0022] 对数据点山,令込和ai分别代表数据的原始标记和非负矩阵分解算法得到的标 记,定义精确度:
[0023]
其中,n是数据集的数据总数,函数mapaj把得到的类 别标记映射为数据集中相应的标记a8 (x,y)是delta函数,定义为:
[0024]
[0025] 定义互信息:
[0026]
其中,P(Cl)和pkj分别表示从数 据集中随机抽取的数据属于聚类cdPC',的概率,p(Ci,C' 表示数据同时属于聚类(^和c' 的联合概率;
[0027] 利用归一化互信息,定义
,其中,H(C)和H(C')分 别是C和C'的熵。
[0028] -种基于非负矩阵分解的半监督聚类系统,包括:
[0029] 投影模块,用于对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相 似性保持的原始数据的低维近似矩阵;
[0030] 聚类模块,用于利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类, 得到聚类结果;
[0031] 评价模块,用于利用精确度和互信息两种评价标准对所述聚类结果进行评价。
[0032] 优选地,所述投影模块对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持 又有相似性保持的原始数据的低维近似矩阵具体为:
[0033] 令所有数据组成的集合为,其中XlGR'n是图像的总个数,m是图像样本的 维数,并假设图像数据中有NM个must-link约束对和N/hcannot-link约束对;
[0034] 构造由所有顶点构成的p_邻域图,并使用cannot-link约束对进行修正,如果两 个顶点满足cannot-link约束,同时又是p-邻域顶点,则从p-邻域图中删除这两个顶点形 成的边,其中,边上的权重定义为:
[0035]
[0036] 构造由must-link约束对构成的相似图,其中,边上的权重定义为:
[0037]
[0038] 利用公式
对非负矩阵 分解进行优化,得到投影以后的新空间的基U和原始数据在新空间的投影V,其中,Aw和入s均为参数;
[0039] 定义
简化后得到:
[0040]F=| |X-UVT | 12+ 人wTr(VTLWV) + 入sTr(VTLSV);
[0041] 利用拉格朗日最小二乘法,分别对U和V求偏导,得到U和V的迭代公式;
[0042] 利用迭代公式求U和V直至收敛。
[0043] 优选地,所述评价模块利用精确度和互信息两种评价标准对所述聚类结果进行评 价具体为:
[0044]对数据点山,令込和ai分别代表数据的原始标记和非负矩阵分解算法得到的标 记,定义精确度:
[0045]
(其中,n是数据集的数据总数,函数mapaj把得到的类 别标记映射为数据集中相应的标记a8 (x,y)是delta函数,定义为:
[0046]
[0047] 定义互信息:
[0048]
其中,P(Cl)和pG'P分别表示从数 据集中随机抽取的数据属于聚类cdPC',的概率,p(Ci,C' 表示数据同时属于聚类(^和c' 的联合概率;
[0049] 利用归一化互信息,定义
,其中,H(C)和H(C')分 别是C和C'的熵。
[0050]由上述方案可知,本发明提供的一种基于非负矩阵分解的半监督聚类方法,首先 通过对原始数据矩阵作非负矩阵分解投影,得到原始数据的低维近似矩阵,然后利用算法 接收参数K对低维近似矩阵进行聚类,得到聚类结果,最后利用精确度和互信息两种评价 标准对所述聚类结果进行评价,本发明基于非负矩阵分解,不仅考虑了原始数据的邻域保 持,同时还考虑了相似性在原始空间和低维流形子空间的一致性,使得聚类性能在先验信 息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。
【附
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1