一种基于概念分解的半监督文档分类方法及系统的制作方法

文档序号:9350068阅读:210来源:国知局
一种基于概念分解的半监督文档分类方法及系统的制作方法
【技术领域】
[0001] 本发明涉及文档分类技术领域,尤其涉及一种基于概念分解的半监督文档分类方 法及系统。
【背景技术】
[0002] 近年来矩阵分解技术在模式识别和机器学习中受到越来越广泛的关注。在许多诸 如计算机视觉和模式识别的问题中,数据的维数都很高,处理这类数据需要更多的时间和 空间。更重要的是,高维数据使得原本在低维空间简单可行的分类、聚类、检索等学习任务 也变得困难重重。因此,对高维数据矩阵进行分解,得到分解后的高维数据的低维表达成为 近期的研究热点。非负矩阵分解(nonnegative matrix factorization,,NMF)在处理像人 脸和文档等非负数据时有特别的优势。但是非负矩阵分解的一个不足之处是很难在投影空 间如再生核希尔伯特空间有效的执行NMF。
[0003] 概念分解(concept factorization,CF)克服了 NMF算法的上述不足同时继 承了 NMF方法的优点。概念分解是对矩阵Xe Rwx"分解,找到两个因子矩阵Weirx4和 Ve政"#,使得wv的乘积尽可能的和原来的矩阵近似,其中V可以看作是原来矩阵X的低 维表示。聚类的结果可以通过低维表达V导出。局部一致性原理指出,在原空间相邻的两 个顶点在转换空间应该也是相邻的,局部一致性原理在模式识、数据挖掘中有着非常重要 的作用。局部一致性概念分解(Locally Consistent Concept Factorization,LCCF)把局 部一致性原理应用到CF中,通过在CF框架中嵌入拉普拉斯图作为额外的正则化项,提升算 法的聚类性能。
[0004] 计算机视觉、模式识别、数据挖掘的实践中,有些数据是有标记的。上述算法都是 无监督学习方法,不能有效的利用已有的带标记数据指导聚类,所以在聚类性能上会大打 折扣。成对约束概念分解(pairwise constrained concept factorization,PCCF)通过把 同类的数据映射到转换空间保持相同的类别标记,不同类的数据在转换空间中的类别标记 依然不同的思想应用到CF中对原始数据聚类。该方法存在的不足是当已知的标记数据很 少时,方法退化为CF,不能有效的利用原始数据的内部结构,也不同充分的利用同类数据的 相似性,故而聚类性能得不到有效的提升。

【发明内容】

[0005] 本发明提供了一种基于概念分解的半监督文档分类方法,该方法基于概念分解, 不仅考虑了原始数据的邻域保持特性,同时还考虑了数据点相似在原始空间和低维流形空 间的一致性,以及约束对在原始空间和转换空间的约束保持,使得聚类性能不仅在先验信 息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。
[0006] 本发明提供了一种基于概念分解的半监督文档分类方法,包括:
[0007] 对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持 以及约束保持的原始数据在低维空间的近似矩阵;
[0008] 利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;
[0009] 利用精确度和互信息两种评价标准对所述聚类结果进行评价。
[0010] 优选地,所述对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保 持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为:
[0011] 令所有数据组成的集合为体}L,其中X1E Rm,n是图像的总个数,m是图像样本的 维数,并假设图像数据中有Nm个must-link约束对和N /h cannot-link约束对;
[0012] 构造由所有顶点构成的P-邻域图,顶点由所有数据点组成,其中,边上的权重定 义为:

[0024] 利用拉格朗日最小二乘法,分别对W和V求偏导,得到U和V的迭代公式;
[0025] 利用迭代公式求U和V直至收敛。
[0026] 优选地,所述利用精确度和互信息两种评价标准对所述聚类结果进行评价具体 为:
[0027] 对数据点Cl1,令込和ai分别代表数据的原始标记和非负矩阵分解算法得到的标 记,定义精确度:
别是C和C'的熵。
[0033] -种基于概念分解的半监督文档分类系统,包括:
[0034] 转换模块,用于对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保 持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵;
[0035] 聚类模块,用于利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类, 得到聚类结果;
[0036] 评价模块,用于利用精确度和互信息两种评价标准对所述聚类结果进行评价。
[0037] 优选地,所述转换模块对原始数据矩阵作分解,将数据转换到低维空间,得到既有 邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为:
[0038] 令所有数据组成的集合为{x,C1,其中X1E R'n是图像的总个数,m是图像样本的 维数,并假设图像数据中有Nm个must-link约束对和N /h cannot-link约束对;
[0039] 构造由所有顶点构成的P-邻域图,顶点由所有数据点组成,其中,边上的权重定 义为:
[0041] 构造由同类顶点构成的相似图,其中顶点由所有数据点组成,其中,边上的权重定 义为:
解进行优化,得到投影以后的新空间的基W和原始数据在新空间的投影V,其中,Ajp 均为参数;
[0051] 利用拉格朗日最小二乘法,分别对W和V求偏导,得到U和V的迭代公式;
[0052] 利用迭代公式求U和V直至收敛。
[0053] 优选地,所述评价模块利用精确度和互信息两种评价标准对所述聚类结果进行评 价具体为:
[0054] 对数据点Cl1,令込和ai分别代表数据的原始标记和非负矩阵分解算法得到的标 记,定义精确度:
别是C和C'的熵。
[0060] 由上述方案可知,本发明提供的一种基于概念分解的半监督文档分类方法,首先 通过对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及 约束保持的原始数据在低维空间的近似矩阵,然后利用算法接收参数K对低维近似矩阵进 行聚类,得到聚类结果,最后利用精确度和互信息两种评价标准对所述聚类结果进行评价, 本发明基于概念分解,不仅考虑了原始数据的邻域保持特性,同时还考虑了数据点相似在 原始空间和低维流形空间的一致性,以及约束对在原始空间和转换空间的约束保持,使得 聚类性能不仅在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的 聚类性能。
【附图说明】
[0061] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0062] 图1为本发明公开的一种基于概念分解的半监督文档分类方法的流程图;
[0063] 图2为本发明公开的一种基于概念分解的半监督文档分类系统的结构示意图。
【具体实施方式】
[0064] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0065] 如图1所示,本发明公开的一种基于概念分解的半监督文档分类方法,包括:
[0066] S101、对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似 性保持以及约束保持的原始数据在低维空间的近似矩阵;
[0067] S102、利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类 结果;
[0068] 其次,用得到的原始数据在低维空间的近似矩阵V,利用kmeans进行聚类。
[0069] S103、利用精确度和互信息两种评价标准对所述聚类结果进行评价。
[0070] 最后,利用两种评价标准精确度(accuracy,AC)和互信息(mutual information, MI)对所得的聚类结果进行评价。
[0071] 综上所述,本发明提供的一种基于非负矩阵分解的半监督聚类方法,首先通过对 原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束 保持的原始数据在低维空间的近似矩阵,然后利用算法接收参数K对低维近似矩阵进行聚 类,得到聚类结果,最后利用精确度和互信息两种评价标准对所述聚类结果进行评价,本发 明基于概念分解,不仅考虑了原始数据的邻域保持特性,同时还考虑了数据点相似在原始 空间和低维流形空间的一致性,以及约束对在原始空间和转换空间的约束保持,使得聚类 性能不仅在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类 性能。
[0072] 具体的,上述实施例中,步骤101对原始数据矩阵作分解,将数据转换到低维空 间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体 为:
[0073] 令所有数据组成的集合为拉KL1,其中X1E Rm,n是图像的总个数,m是图像样本的 维数,并假设图像数据中有Nm个must-link约束对和N /h cannot-link约束对;
[0074] 构造由所有顶点构成的P-邻域图,顶点由所有数据点组成,其中,边上的权重定 义为:

分解进行优化,得到投影以后的新空间的基W和原始数据在新空间的投影V,其中,Aw和入S 均为参数;
[0086] 利用拉格朗日最小二乘法,分别对W和V求偏导,得到U和V的迭代公式;
[0087] 利用迭代公式求U和V直至收敛。
[0088] 具体的,上述实施例中,步骤103利用精确度和互信息两种评价标准对所述聚类 结果进行评价具体为:
[0089] 对数据点Cl1,令込和ai分别代表数据的原始标记和非负矩阵分解算法得到的标 记,定义精确度:
集中随机抽取的数据属于聚类cdP c',的概率,P(c i,c' 表示数据同时属于聚类cdP c', 的联合概率;
别是C和C'的熵。
[0095] 为了更好的说明本发明的有益效果,对本发明在PIE数据集中进行了测试,求出 PIE数据集表示的高维矩阵的的低维表达,并通过对数据的低维表达实施聚类检测低维表 达的性能。该实验使
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1