分布式Web文档聚类系统的制作方法

文档序号:6357484阅读:213来源:国知局
专利名称:分布式Web文档聚类系统的制作方法
技术领域
本申请属于信息检索、数据挖掘、人工智能领域。
背景技术
为了揭示隐藏在Web数据之后具有潜在价值的信息或结构,近年来Web挖掘技术 取得了较快的发展和广泛的应用。文档聚类是Web挖掘领域中最重要的工具之一,其目的 是将一个文档集合分成若干个簇,要求同一个簇内的文本内容具有较高的相似度,而不同 簇之间的相似度尽可能小。每个聚类过程主要包括相似度计算方法和聚类算法两个部分。目前,研究者已经提出多种文档聚类算法,大致可分为4个类别,即层次化聚类算 法、划分式聚类算法、基于密度和网格的聚类算法和其它聚类算法。这些聚类算法的研究主 要是针对集中式数据源进行挖掘,即数据对象集中分布在同一个数据节点上。然而,在许多 Web应用中,因为数据量庞大、访问效率等原因,不得不将数据分布在多个节点上,如众多站 点为提高访问效率广泛采用了多镜像技术,使得数据对象分布在不同的镜像站点上。在这 种应用环境中,必须将传统的聚类方法和分布式的策略相结合,即采用分布式聚类方法。分 布式聚类方法通常包括两个步骤①对各个节点的数据进行本地独立聚类(局部聚类),获 得数据的局部模式;②将各节点的聚类结果进行合并(全局聚类),获得数据的全局模式。

发明内容
本申请提出一个分布式Web文档聚类系统DCS (Distributed Clustering System),该系统采用的主要方法称之为 DACWD (Distributed Approach to Clustering Web Documents)。DACWD方法的核心是一个基于信息瓶颈理论的文档聚类方法DCIB (Document Clustering using Information Bottleneck)。DACWD的局部聚类和全局聚类过程迭代使 用了 DCIB方法。


图1是DCS系统的聚类过程图。
具体实施例方式DCS系统的聚类过程如错误!未找到引用源。所示。首先使用DCIB方法对各个节 点上的Web文档进行本地聚类,然后将各个节点的聚类结果集合起来作为数据对象,再次 使用DCIB方法进行聚类。具体实现步骤如下错误!未找到引用源。说明了 DCS系统聚类的基本过程。该过程分为局部聚类和 全局聚类两个阶段。在局部聚类阶段,各数据节点将各自节点上的文档数据使用DCIB方法 进行独立聚类,聚类结果代表了该节点上文档的总体特征;在全局聚类阶段,将局部聚类阶 段产生的聚类结果作为数据输入,再次使用DCIB方法进行聚类。
DCIB方法是一种基于信息瓶颈理论的文档聚类方法。该方法采用信息瓶颈理论度 量文档之间的“相似”关系,并使用增量聚类算法对文档数据进行聚类,最后对聚类结果进 行调整。这样的聚类过程一方面避免了因随机选用相似度计算方法所造成的误差;另一方 面是所采用的增量方式保证了较高的聚类效率,能够满足对时间性能有较高要求的Web应 用;同时,针对聚类结果的调整过程减轻了文档次序对增量过程造成的影响,提高了聚类的 准确率。DCIB首先随机选取一个文档初始化为一个簇,然后依次处理每个文档直至文档处 理完毕。处理过程中比较新文档与现存各个簇合并所产生的最小共有信息损失,如果最小 共有信息损失满足规定阈值,则将该文档合并到“距离”最近簇,否则新建一个簇存放该文 档。DACWD方法的详细步骤为1.假设在一个分布式的环境中,Web文档分布在η个数据节点N1A2,…,Nn上,各 个节点上的文档数目分别为S1, s2,-,Sn,节点Ni (1彡i ^n)上的文档表示为式,劣,···,<。
假设文档的特征词集合为H1, t2,…,tm},其中m为特征词个数。2.针对每个节点Ni (1彡i ^n),使用下述DCIB方法进行局部聚类1)得到节点队(1彡i ^n)上各文档4,劣,···,《的向量表示形式。根据文档中特 征词的分布情况,文档^ i么n,l <j< Α)的向量形式表示为d^ip^ld·),Pit2Idij),-,p(tm\d))}其中彳(其中1彡a彡m)表示文档<中特征词ta出现的条件概率,其计算 方法为AaI j -表示文档中特征词、的出现次数。
h j S{ta\dlj) d)幻将节点Ni(Ki^n)上的文档 ...,<表示为一个集合Z'= Wi,劣,…,<},
从中随机取一个文档表示为<,将其初始化为一个簇,记为4={4},存放在簇集合Ci中,即 c、{4},同时将4从Xi中删除。簇4的向量形式表示为
权利要求
1. 一种分布式Web文档聚类系统,该系统包括多个局部数据节点服务器和一个中心数 据节点服务器,每个局部数据节点服务器负责存储Web文档及完成局部聚类,中心数据节 点服务器负责完成全局聚类,其特征在于该系统采取以下步骤进行聚类①设在一个分布式的环境中,Web文档分布在η个数据节点N1A2,…,Nn上,各个节点上的文档数目分别为S1, s2,…,Sn,节点Ni上的文档表示为軋為,···,<,假设文档的特征词 集合为{t1;t2,…,tm},其中n、i和m为自然数,且m为特征词个数,1彡i彡η。②针对每个节点Ni,使用下述方法进行局部聚类1)得到节点Ni上各文档4,劣,…,<的向量表示形式,根据文档中特征词的分布情况, 文档<的向量形式表示为
全文摘要
本申请提出一个分布式Web文档聚类系统DCS(Distributed Clustering System),该系统采用的主要方法称之为DACWD(Distributed Approach to Clustering Web Documents)。DACWD方法的核心是一个基于信息瓶颈理论的文档聚类方法DCIB(Document Clustering using Information Bottleneck)。DACWD的局部聚类和全局聚类过程迭代使用了DCIB方法。
文档编号G06F17/30GK102110172SQ201110083090
公开日2011年6月29日 申请日期2011年3月31日 优先权日2011年3月31日
发明者刘永利 申请人:河南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1