一种基于非负矩阵分解的半监督聚类方法及系统的制作方法_2

文档序号：9304831阅读：来源：国知局

图说明】
[0051] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0052]图1为本发明公开的一种基于非负矩阵分解的半监督聚类方法的流程图；
[0053]图2为本发明公开的一种基于非负矩阵分解的半监督聚类系统的结构示意图。
【具体实施方式】
[0054] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0055] 如图1所示，本发明公开的一种基于非负矩阵分解的半监督聚类方法，包括：
[0056] S101、对原始数据矩阵作非负矩阵分解投影，得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵；
[0057] 首先，对原始数据矩阵作非负矩阵分解投影，保持原始数据和投影后数据的邻域结构一致性和约束对的一致性，同时要根据不同类的约束对修正邻域图，由此确保数据聚类对于先验知识的鲁棒性，即不管先验知识是多还是少，都有好的聚类结果。
[0058] S102、利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类，得到聚类结果；
[0059] 其次，用得到的原始数据在低维空间的近似矩阵V，利用kmeans进行聚类。
[0060] S103、利用精确度和互信息两种评价标准对所述聚类结果进行评价。
[0061] 最后，利用两种评价标准精确度（accuracy，AC)和互信息（mutualinformation， MI)对所得的聚类结果进行评价。
[0062] 综上所述，本发明提供的一种基于非负矩阵分解的半监督聚类方法，首先通过对原始数据矩阵作非负矩阵分解投影，得到原始数据的低维近似矩阵，然后利用算法接收参数K对低维近似矩阵进行聚类，得到聚类结果，最后利用精确度和互信息两种评价标准对所述聚类结果进行评价，本发明基于非负矩阵分解，不仅考虑了原始数据的邻域保持，同时还考虑了相似性在原始空间和低维流形子空间的一致性，使得聚类性能在先验信息较多的时候大大提高，在先验信息很少的时候依然能保持较好的聚类性能。
[0063] 具体的，上述实施例中，步骤101对原始数据矩阵作非负矩阵分解投影，得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵具体为：
[0064] 令所有数据组成的集合为，其中XieR'n是图像的总个数，m是图像样本的维数，并假设图像数据中有NM个must-link约束对和N/hcannot-link约束对；
[0065] 构造由所有顶点构成的p_邻域图，并使用cannot-link约束对进行修正，如果两个顶点满足cannot-link约束，同时又是p-邻域顶点，则从p-邻域图中删除这两个顶点形成的边，其中，边上的权重定义为：
[0066]
[0067] 构造由must-link约束对构成的相似图，其中，边上的权重定义为：
[0068]
[0069] 利用公式
对非负矩阵分解进行优化，得到投影以后的新空间的基U和原始数据在新空间的投影V，其中，Aw和入s均为参数；
[0070] 定夕
简化后得到：
[0071] F=| |X-UVT | 12+人wTr(VTLWV)+ 入sTr(VTLSV);
[0072] 利用拉格朗日最小二乘法，分别对U和V求偏导，得到U和V的迭代公式；
[0073] 利用迭代公式求U和V直至收敛。
[0074] 具体的，上述实施例中，步骤103利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为：
[0075] 对数据点山，令ljPai分别代表数据的原始标记和非负矩阵分解算法得到的标记，定义精确度：
[0076]
，其中，n是数据集的数据总数，函数mapaj把得到的类别标记映射为数据集中相应的标记a8 (x，y)是delta函数，定义为：
[0077]
[0078] 定义互信息：
[0079]
，其中，P(Cl)和pk.)分别表示从数据集中随机抽取的数据属于聚类cdPC'，的概率，p(Ci，C' 表示数据同时属于聚类(^和c' 的联合概率；
[0080] 利用归一化互信息，定义
|其中，H(C)和H(C'）分别是C和C'的熵。
[0081] 为了更好的说明本发明的有益效果，对本发明在耶鲁数据集中进行了测试，目的是对耶鲁数据集的数据聚类。耶鲁的人脸数据库，由耶鲁大学计算视觉与控制中心创建，包含15位志愿者的165张图片，包含光照，表情和姿态。图像的大小为32x32像素，每个像素为256灰度级，因此每幅图像可以用1024维的向量表示。从数据集中随机选择NM个 must-link约束对，和队个cannot-1ink约束对。
[0082] 从图像中随机tXnX(n_l)个约束对。在这里，n= 165,第一个实验选择t= 0. 05,其中134个must-link约束对和30个cannot-link约束对。第二个实验选择t= 0? 25,其中574个must-link约束对和54个cannot-link约束对。
[0083] 表1为本发明第一个实验与NMF，GNMF以及semiNMF算法在相同的数据集上做比较的结果。
[0084] 表1NMF，GNMF，semiNMF和本发明方法的聚类性能对比（t= 0? 05)
[0085]
[0086] 表2为本发明第二个实验与NMF，GNMF以及semiNMF算法在相同的数据集上做比较的结果。
[0087] 表2NMF，GNMF，semiNMF和本发明方法的聚类性能对比（t= 0. 25)
[0088]
[0089] 通过实验结果可以看出本发明对于先验知识有较强的鲁棒性，不管约束对是多还是少，本发明的效果明显优于其他方法。
[0090] 如图2所示，为本发明公开的一种基于非负矩阵分解的半监督聚类系统，包括：
[0091] 投影模块201，用于对原始数据矩阵作非负矩阵分解投影，得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵；
[0092] 首先，通过投影模块201对原始数据矩阵作非负矩阵分解投影，保持原始数据和投影后数据的邻域结构一致性和约束对的一致性，同时要根据不同类的约束对修正邻域图，由此确保数据聚类对于先验知识的鲁棒性，即不管先验知识是多还是少，都有好的聚类结果。
[0093] 聚类模块202,用于利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类，得到聚类结果；
[0094] 其次，通过聚类模块202用投影模块201得到的原始数据在低维空间的近似矩阵 V，利用kmeans进行聚类。
[0095] 评价模块203,用于利用精确度和互信息两种评价标准对所述聚类结果进行评价。
[0096]最后，通过评价模块203利用两种评价标准精确度（accuracy，AC)和互信息 (mutualinformation，MI)对所得的聚类结果进行评价。
[0097] 综上所述，本发明提供的一种基于非负矩阵分解的半监督聚类系统，首先通过投影模块对原始数据矩阵作非负矩阵分解投影，得到原始数据的低维近似矩阵，然后通过聚类模块利用算法接收参数K对低维近似矩阵进行聚类，得到聚类结果，最后通过评价模块利用精确度和互信息两种评价标准对所述聚类结果进行评价，本发明基于非负矩阵分解，不仅考虑了原始数据的邻域保持，同时还考虑了相似性在原始空间和低维流形子空间的一致性，使得聚类性能在先验信息较多的时候大大提高，在先验信息很少的时候依然能保持较好的聚类性能。
[0098]具体的，上述实施例中，投影模块201对原始数据矩阵作非负矩阵分解投影，得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵具体为：
[0099] 令所有数据组成的集合为{x,KU，其中XieR'n是图像的总个数，m是图像样本的维数，并假设图像数据中有NM个mus

完整全部详细技术资料下载

当前第2页1 2 3