一种基于概念分解的半监督文档分类方法及系统的制作方法_2

文档序号：9350068阅读：来源：国知局

用的PIE人脸数据库包含68个大小为32X32的灰度人脸图像，每个人在42种光照条件下的照片。从数据集中随机选择Nm个must-link约束对，和N/h cannot-link 约束对。
[0096] 从图像中随机抽取15个簇，再从这些数据中随机抽取tXnX (n-1)个约束对。在这里，n = 364,第一个实验选择t = 0. 01，共有474个must-link约束对和847个 cannot-link约束对。第二个实验选择t = 0. 2,共有9965个must-link约束对和16391 个cannot-link约束对
[0097] 表1为本发明第一个实验与CF，LCCF以及semiCF算法在相同的数据集上做比较的结果。
[0098] 表1 CF，LCCF，semiCF和本发明方法的聚类性能对比（t = 0. 01)
[0099]
[0100] 表2为本发明第二个实验与CF，LCCF以及semiCF算法在相同的数据集上做比较的结果。
[0101] 表2 CF，LCCF，semiCF和本发明方法的聚类性能对比（t = 0. 2)
[0102]
[0103] 通过实验结果可以看出本发明对于先验知识有较强的鲁棒性，不管约束对是多还是少，本发明的效果明显优于其他方法。
[0104] 如图2所示，为本发明公开的一种基于概念分解的半监督文档分类系统，包括：
[0105] 转换模块201，用于对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵；
[0106] 聚类模块202,用于利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类，得到聚类结果；
[0107] 通过聚类模块202用投影模块201得到的原始数据在低维空间的近似矩阵V，利用 kmeans进行聚类。
[0108] 评价模块203,用于利用精确度和互信息两种评价标准对所述聚类结果进行评价。
[0109] 通过评价模块203利用两种评价标准精确度（accuracy，AC)和互信息（mutual information，MI)对所得的聚类结果进行评价。
[0110] 综上所述，本发明提供的一种基于非负矩阵分解的半监督聚类系统，首先通过转换模块对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵，然后通过聚类模块利用算法接收参数K对低维近似矩阵进行聚类，得到聚类结果，最后评价模块利用精确度和互信息两种评价标准对所述聚类结果进行评价，本发明基于概念分解，不仅考虑了原始数据的邻域保持特性，同时还考虑了数据点相似在原始空间和低维流形空间的一致性，以及约束对在原始空间和转换空间的约束保持，使得聚类性能不仅在先验信息较多的时候大大提高，在先验信息很少的时候依然能保持较好的聚类性能。
[0111] 具体的，上述实施例中，转换模块201对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为：
[0112] 令所有数据组成的集合为沐}二，其中X1E R' n是图像的总个数，m是图像样本的维数，并假设图像数据中有Nm个must-link约束对和N。个cannot-link约束对；
[0113] 构造由所有顶点构成的P-邻域图，顶点由所有数据点组成，其中，边上的权重定义为：

[0125] 利用拉格朗日最小二乘法，分别对W和V求偏导，得到U和V的迭代公式；
[0126] 利用迭代公式求U和V直至收敛。
[0127] 具体的，上述实施例中，评价模块203利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为：
[0128] 对数据点Cl1，令込和ai分别代表数据的原始标记和非负矩阵分解算法得到的标记，定义精确度：
[0134] 本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备（可以是个人计算机，服务器，移动计算设备或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory)、随机存取存储器（RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0135] 本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。
[0136] 对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【主权项】
1. 一种基于概念分解的半监督文档分类方法，其特征在于，包括：对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵；利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类，得到聚类结果；利用精确度和互信息两种评价标准对所述聚类结果进行评价。2. 根据权利要求1所述的方法，其特征在于，所述对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为：令所有数据组成的集合为{xfKL1:，其中X1 e R ' η是图像的总个数，m是图像样本的维数，并假设图像数据中有Nm个must-link约束对和N /h cannot-link约束对；构造由所有顶点构成的P-邻域图，顶点由所有数据点组成，其中，边上的权重定义为：构造由同类顶点构成的相似图，其中顶点由所有数据点组成，其中，边上的权重定义为：依据must-link约束对，构成矩阵M :依据cannot-link约束对，构成矩阵C :对非负矩阵分解进行优化，得到投影以后的新空间的基W和原始数据在新空间的投影V，其中，λ^Ρ λ s均为参数；利用拉格朗日最小二乘法，分别对W和V求偏导，得到U和V的迭代公式；利用迭代公式求U和V直至收敛。3. 根据权利要求2所述的方法，其特征在于，所述利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为：对数据点Cl1，令IJP a 别代表数据的原始标记和非负矩阵分解算法得到的标记，定义精确度：，其中，η是数据集的数据总数，函数Hiap(I1)把得到的类别标记Ii映射为数据集中相应的标记α ,_，δ (X，y)是delta函数，定义为：定义互信息：，其中，P(C1)和p(c',)分别表示从数据集中随机抽取的数据属于聚类CjPW ,的概率，P(Cl，(^ ,)表示数据同时属于聚类(^和 W i的联合概率；利用归一化互信息，定义。，其中，H(C)和H(C')分别是C和C的熵。4. 一种基于概念分解的半监督文档分类系统，其特征在于，包括：转换模块，用于对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵；聚类模块，用于利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类，得到聚类结果；评价模块，用于利用精确度和互信息两种评价标准对所述聚类结果进行评价。5. 根据权利要求4所述的系统，其特征在于，所述转换模块对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为：令所有数据组成的集合为KC1，其中X1 e Rm，η是图像的总个数，m是图像样本的维数，并假设图像数据中有Nm个must-link约束对和N /h cannot-link约束对；构造由所有顶点构成的P-邻域图，顶点由所有数据点组成，其中，边上的权重定义为：构造由同类顶点构成的相似图，其中顶点由所有数据点组成，其中，边上的权重定义为：依据must-link约束对，构成矩阵M :依据cannot-link约束对，构成矩阵C :对非负矩阵分解进行优化，得到投影以后的新空间的基W和原始数据在新空间的投影V，其中，λ^Ρ λ s均为参数；F = tr (K) -2tr (VWtK) +tr (VWtKWVt) +tr (VtLV) +tr (VtMVA)，其中，利用拉格朗日最小二乘法，分别对W和V求偏导，得到U和V的迭代公式；利用迭代公式求U和V直至收敛。6.根据权利要求5所述的系统，其特征在于，所述评价模块利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为：对数据点Cl1，令IJP a 别代表数据的原始标记和非负矩阵分解算法得到的标记，定义精确度：其中，η是数据集的数据总数，函数map (I1)把得到的类别标记Ii映射为数据集中相应的标记a i，δ (X，y)是delta函数，定义为：定义互信息：和P (c',)分别表示从数据集中随机抽取的数据属于聚类CjPW ,的概率，P(Cl，(^ ,)表示数据同时属于聚类(^和 W i的联合概率；利用归一化互信息，定义其中，H(C)和H(C')分别是C和C的熵。
【专利摘要】本发明公开了一种基于概念分解的半监督文档分类方法，包括：对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵；利用算法接收参数K对原始数据的低维近似矩阵进行聚类，得到聚类结果；利用精确度和互信息两种评价标准对所述聚类结果进行评价。本发明基于概念分解，不仅考虑了原始数据的邻域保持特性，同时还考虑了数据点相似在原始空间和低维流形空间的一致性，以及约束对在原始空间和转换空间的约束保持，使得聚类性能不仅在先验信息较多的时候大大提高，在先验信息很少的时候依然能保持较好的聚类性能。本发明还公开了一种基于概念分解的半监督文档分类系统。
【IPC分类】G06K9/62, G06F17/30
【公开号】CN105069137
【申请号】CN201510507976
【发明人】路梅, 赵向军, 李凡长, 张莉
【申请人】苏州大学张家港工业技术研究院
【公开日】2015年11月18日
【申请日】2015年8月18日

完整全部详细技术资料下载

当前第2页1 2