标签聚类方法和系统的制作方法

文档序号:6655057阅读:302来源:国知局
专利名称:标签聚类方法和系统的制作方法
技术领域
本发明涉及数据挖掘技术领域,具体涉及协同标记方法,特别针对大数据集下的 标签聚类方法和系统。
背景技术
Web 2.0作为一种架构在用户、内容、应用基础上的高度网络化、自由化的互联网 形态吸引了大量网络用户,衍生出诸如博客、播客、社区网络、网络文摘、维基百科等Web 2.0类应用。社会化标注系统是一种典型的《吐2.0应用,目前非常流行,也很有发展前景。 例如Flickr、del. icio. us、豆瓣网等网站都采用了协同标注,它们的主要特点之一在于它 们是公开的、未受控制的系统。用户根据自己的社会文化背景、专门技术和世界观,用不同 的标签标注资源,并利用这些用户标签完成信息资源的分类、组织、检索。这种自由标注在 很大程度上促进了该系统的发展用户既不需要预先学习专门的知识和技能,也不需要依 赖先验的一致结构或共享的词汇,就可以直接使用系统。然而,与传统的信息资源分类和组织方法相比,采用协同标注对信息资源进行描 述、分类、组织、检索过程中存在着信息描述不精确、标签组织混乱,标签语意模糊等问题。 针对这些问题,现有研究大多采用的方法是对标签进行聚类,重新组织用户标签,在很大程 度上缓解了标签组织混乱,语义模糊的问题,提升了标签描述的精确性,为用户提供更好的 标签导航、浏览机制,但是,现有的标签聚类方法中只能根据不同的标签在对象中出现的次 数来两两计算它们之间的相似度,因此其存在聚类结果准确性不高的缺陷。

发明内容
为解决上述技术问题,本发明的主要技术目的是提出一种标签聚类方法和系统, 以克服现有协同标记系统中标签相似度计算不准确的缺陷,缓解标签组织混乱,标签语义 模糊问题,有效提高标签聚类的准确度。为此,本发明实施例提供了如下技术方案一种标签聚类方法,包括建立每一个待聚类标签的特征向量;计算两个特征向量在欧式空间的余弦夹角,得到待聚类标签两两之间的相似度;采用K-Means算法、根据待聚类标签之间的相似度对所述待聚类标签进行聚类。优选的,所述建立每一个待聚类标签的特征向量包括利用所述待聚类标签标记过的资源所组成的特征向量表示所述待聚类标签;对在标签集合T中的任意一个待聚类标签、e T :其特征向量
权利要求
1.一种标签聚类方法,其特征在于,包括建立每一个待聚类标签的特征向量;计算两个特征向量在欧式空间的余弦夹角,得到待聚类标签两两之间的相似度;采用K-Means算法、根据待聚类标签之间的相似度对所述待聚类标签进行聚类。
2.根据权利要求1所述的标签聚类方法,其特征在于,所述建立每一个待聚类标签的 特征向量包括利用所述待聚类标签标记过的资源所组成的特征向量表示所述待聚类标签;对在标签集合T中的任意一个待聚类标签、e T 其特征向量
3.根据权利要求1所述的标签聚类方法,其特征在于,所述建立每一个待聚类标签的 特征向量包括利用在相同的资源上共同出现过的、且不包括所述待聚类标签的其他共现标签所组成 的特征向量表示所述待聚类标签;对在标签集合T中的任意一个待聚类标签、e T其特征向量
4.根据权利要求ι所述的标签聚类方法,其特征在于,所述将标签用特征向量建模表 示包括利用在相同的资源上共同出现过的、且包括所述待聚类标签的全集共现标签所组成的 特征向量表示所述待聚类标签;对在标签集合τ中的任意一个待聚类标签ti e T 其特征向量
5.根据权利要求1所述的标签聚类方法,其特征在于,具体采用以下方式得到待聚类 标签两两之间的相似度
6.根据权利要求1所述的标签聚类方法,其特征在于,对所述待聚类标签进行聚类包括计算待聚集标签数据集的轮廓系数,确定聚类的类别; 为每一个类别选取一个待聚集标签作为该类别的初始中心点; 执行待聚集标签归类步骤,分别计算每一个待聚集标签与所有的初始中心点的相似 度,并将所述待聚集标签归入与所述标签之间相似度最大的初始中心点所在的类别中; 计算每一个类别新的中心点;当一个类别新的中心点与其初始中心点相同时,结束流程,否则,返回待聚集标签归类步骤。
7.—种标签聚类系统,其特征在于,包括特征向量建立模块,用于建立每一个待聚类标签的特征向量; 相似度计算模块,用于计算两个特征向量在欧式空间的余弦夹角,得到待聚类标签两 两之间的相似度;聚类模块,用于采用K-Means算法、根据待聚类标签之间的相似度对所述待聚类标签 进行聚类。
8.根据权利要求7所述的标签聚类系统,其特征在于,所述特征向量建立模块包括 第一特征向量建立单元,用于利用所述待聚类标签标记过的资源所组成的特征向量表示所述待聚类标签。
9.根据权利要求7所述的标签聚类系统,其特征在于,所述特征向量建立模块包括 第二特征向量建立单元,用于利用在相同的资源上共同出现过的、且不包括所述待聚类标签的其他共现标签所组成的特征向量表示所述待聚类标签。
10.根据权利要求7所述的标签聚类系统,其特征在于,所述特征向量建立模块包括 第三特征向量建立单元,用于利用在相同的资源上共同出现过的、且包括所述待聚类标签的全集共现标签所组成的特征向量表示所述待聚类标签。
全文摘要
本发明实施例公开了一种标签聚类方法和系统,所述方法包括建立每一个待聚类标签的特征向量;计算两个特征向量在欧式空间的余弦夹角,得到待聚类标签两两之间的相似度;采用K-Means算法、根据待聚类标签之间的相似度对所述待聚类标签进行聚类。标签聚类系统,包括特征向量建立模块,用于建立每一个待聚类标签的特征向量;相似度计算模块,用于计算两个特征向量在欧式空间的余弦夹角,得到待聚类标签两两之间的相似度;聚类模块,用于采用K-Means算法、根据待聚类标签之间的相似度对所述待聚类标签进行聚类。该技术方案,可以克服现有协同标记系统中标签相似度计算不准确的缺陷,缓解标签组织混乱,标签语义模糊问题,有效提高标签聚类的准确度。
文档编号G06F17/30GK102129470SQ201110076328
公开日2011年7月20日 申请日期2011年3月28日 优先权日2011年3月28日
发明者俞能海, 周津, 陈超 申请人:中国科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1