一种基于非负矩阵分解的半监督聚类方法及系统的制作方法_2

文档序号:9304831阅读:来源:国知局
图说明】
[0051] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0052]图1为本发明公开的一种基于非负矩阵分解的半监督聚类方法的流程图;
[0053]图2为本发明公开的一种基于非负矩阵分解的半监督聚类系统的结构示意图。
【具体实施方式】
[0054] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0055] 如图1所示,本发明公开的一种基于非负矩阵分解的半监督聚类方法,包括:
[0056] S101、对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持 的原始数据的低维近似矩阵;
[0057] 首先,对原始数据矩阵作非负矩阵分解投影,保持原始数据和投影后数据的邻域 结构一致性和约束对的一致性,同时要根据不同类的约束对修正邻域图,由此确保数据聚 类对于先验知识的鲁棒性,即不管先验知识是多还是少,都有好的聚类结果。
[0058] S102、利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类 结果;
[0059] 其次,用得到的原始数据在低维空间的近似矩阵V,利用kmeans进行聚类。
[0060] S103、利用精确度和互信息两种评价标准对所述聚类结果进行评价。
[0061] 最后,利用两种评价标准精确度(accuracy,AC)和互信息(mutualinformation, MI)对所得的聚类结果进行评价。
[0062] 综上所述,本发明提供的一种基于非负矩阵分解的半监督聚类方法,首先通过对 原始数据矩阵作非负矩阵分解投影,得到原始数据的低维近似矩阵,然后利用算法接收参 数K对低维近似矩阵进行聚类,得到聚类结果,最后利用精确度和互信息两种评价标准对 所述聚类结果进行评价,本发明基于非负矩阵分解,不仅考虑了原始数据的邻域保持,同时 还考虑了相似性在原始空间和低维流形子空间的一致性,使得聚类性能在先验信息较多的 时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。
[0063] 具体的,上述实施例中,步骤101对原始数据矩阵作非负矩阵分解投影,得到既有 邻域保持又有相似性保持的原始数据的低维近似矩阵具体为:
[0064] 令所有数据组成的集合为,其中XieR'n是图像的总个数,m是图像样本的 维数,并假设图像数据中有NM个must-link约束对和N/hcannot-link约束对;
[0065] 构造由所有顶点构成的p_邻域图,并使用cannot-link约束对进行修正,如果两 个顶点满足cannot-link约束,同时又是p-邻域顶点,则从p-邻域图中删除这两个顶点形 成的边,其中,边上的权重定义为:
[0066]
[0067] 构造由must-link约束对构成的相似图,其中,边上的权重定义为:
[0068]
[0069] 利用公式
对非负矩阵 分解进行优化,得到投影以后的新空间的基U和原始数据在新空间的投影V,其中,Aw和入s均为参数;
[0070] 定夕
简化后得到:
[0071] F=| |X-UVT | 12+人wTr(VTLWV)+ 入sTr(VTLSV);
[0072] 利用拉格朗日最小二乘法,分别对U和V求偏导,得到U和V的迭代公式;
[0073] 利用迭代公式求U和V直至收敛。
[0074] 具体的,上述实施例中,步骤103利用精确度和互信息两种评价标准对所述聚类 结果进行评价具体为:
[0075] 对数据点山,令ljPai分别代表数据的原始标记和非负矩阵分解算法得到的标 记,定义精确度:
[0076]
,其中,n是数据集的数据总数,函数mapaj把得到的类 别标记映射为数据集中相应的标记a8 (x,y)是delta函数,定义为:
[0077]
[0078] 定义互信息:
[0079]
,其中,P(Cl)和pk.)分别表示从数 据集中随机抽取的数据属于聚类cdPC',的概率,p(Ci,C' 表示数据同时属于聚类(^和c' 的联合概率;
[0080] 利用归一化互信息,定义
|其中,H(C)和H(C')分 别是C和C'的熵。
[0081] 为了更好的说明本发明的有益效果,对本发明在耶鲁数据集中进行了测试,目的 是对耶鲁数据集的数据聚类。耶鲁的人脸数据库,由耶鲁大学计算视觉与控制中心创建, 包含15位志愿者的165张图片,包含光照,表情和姿态。图像的大小为32x32像素,每个 像素为256灰度级,因此每幅图像可以用1024维的向量表示。从数据集中随机选择NM个 must-link约束对,和队个cannot-1ink约束对。
[0082] 从图像中随机tXnX(n_l)个约束对。在这里,n= 165,第一个实验选择t= 0. 05,其中134个must-link约束对和30个cannot-link约束对。第二个实验选择t= 0? 25,其中574个must-link约束对和54个cannot-link约束对。
[0083] 表1为本发明第一个实验与NMF,GNMF以及semiNMF算法在相同的数据集上做比 较的结果。
[0084] 表1NMF,GNMF,semiNMF和本发明方法的聚类性能对比(t= 0? 05)
[0085]
[0086] 表2为本发明第二个实验与NMF,GNMF以及semiNMF算法在相同的数据集上做比 较的结果。
[0087] 表2NMF,GNMF,semiNMF和本发明方法的聚类性能对比(t= 0. 25)
[0088]
[0089] 通过实验结果可以看出本发明对于先验知识有较强的鲁棒性,不管约束对是多还 是少,本发明的效果明显优于其他方法。
[0090] 如图2所示,为本发明公开的一种基于非负矩阵分解的半监督聚类系统,包括:
[0091] 投影模块201,用于对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有 相似性保持的原始数据的低维近似矩阵;
[0092] 首先,通过投影模块201对原始数据矩阵作非负矩阵分解投影,保持原始数据和 投影后数据的邻域结构一致性和约束对的一致性,同时要根据不同类的约束对修正邻域 图,由此确保数据聚类对于先验知识的鲁棒性,即不管先验知识是多还是少,都有好的聚类 结果。
[0093] 聚类模块202,用于利用算法接收参数K对所述原始数据的低维近似矩阵进行聚 类,得到聚类结果;
[0094] 其次,通过聚类模块202用投影模块201得到的原始数据在低维空间的近似矩阵 V,利用kmeans进行聚类。
[0095] 评价模块203,用于利用精确度和互信息两种评价标准对所述聚类结果进行评价。
[0096]最后,通过评价模块203利用两种评价标准精确度(accuracy,AC)和互信息 (mutualinformation,MI)对所得的聚类结果进行评价。
[0097] 综上所述,本发明提供的一种基于非负矩阵分解的半监督聚类系统,首先通过投 影模块对原始数据矩阵作非负矩阵分解投影,得到原始数据的低维近似矩阵,然后通过聚 类模块利用算法接收参数K对低维近似矩阵进行聚类,得到聚类结果,最后通过评价模块 利用精确度和互信息两种评价标准对所述聚类结果进行评价,本发明基于非负矩阵分解, 不仅考虑了原始数据的邻域保持,同时还考虑了相似性在原始空间和低维流形子空间的一 致性,使得聚类性能在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持 较好的聚类性能。
[0098]具体的,上述实施例中,投影模块201对原始数据矩阵作非负矩阵分解投影,得到 既有邻域保持又有相似性保持的原始数据的低维近似矩阵具体为:
[0099] 令所有数据组成的集合为{x,KU,其中XieR'n是图像的总个数,m是图像样本 的维数,并假设图像数据中有NM个mus
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1