文档聚类方法及装置、网络设备的制造方法

文档序号:9375597阅读:202来源:国知局
文档聚类方法及装置、网络设备的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘、文档聚类及web网页聚类技术领域,特别是指一种文档聚 类方法及装置、网络设备。
【背景技术】
[0002] 目前,搜索引擎技术已经趋于成熟,用户可以非常方便地通过搜索引擎来获取他 们想要寻找的网页内容。为了方便用户浏览目标网页,出现了基于web网页的推荐技术,即 根据用户关注的一些网页,向用户推荐一些相关网页,省去了用户通过搜索查找网页的麻 烦。现有技术中,基于web网页的推荐技术都是基于web网页聚类而获得推荐的相关网页 的,也就是首先对一定范围内的网页进行聚类,然后从用户收藏网页所属的类簇中选取一 个或多个网页推荐给用户。web网页聚类是文档聚类的一种,它通过分词技术将一个web网 页的所有内容切分成词,然后将这些词作为网页的特征项,据此对网页进行聚类。
[0003] 现有文档聚类算法的种类比较多,有KM、UPGMA、BKM、FIHC等,各个算法都具有其 特点,有优势也有劣势,一个公共的主要问题在性能上:针对超大数据量时,由于文档的词 较多,维度较大,需要耗费很长时间才能完成聚类算法,且非常占用CPU、内存、IO等计算资 源。
[0004] 针对文档聚类算法的性能问题,目前的主要解决方案是基于Map Reduce算法的分 布式并行计算平台,包括Apache Hadoop平台、Yahoo S4、微软Dryad等。该方案通过将一 个任务分布到多台通过网络互联的计算机上进行并行计算,来取得时间上的成倍减少,但 是这种方法需要运用多台网络互联的计算机,因此比较浪费资源,成本比较高。

【发明内容】

[0005] 本发明要解决的技术问题是提供一种文档聚类方法及装置、网络设备,能够提高 文档聚类的速度并且节约计算资源。
[0006] 为解决上述技术问题,本发明的实施例提供技术方案如下:
[0007] -方面,提供一种文档聚类方法,包括:
[0008] 步骤a :将待聚类的文档分为多组;
[0009] 步骤b:对其中一组待聚类的文档通过聚类算法进行聚类,获取初始簇,所述初始 簇对应有频繁项集;
[0010] 步骤c :获取余下的另外一组待聚类文档的特征词,根据所述特征词和所述初始 簇对应的频繁项集,将特征词包含在所述频繁项集中的文档聚类到所述频繁项集对应的初 始簇,并对剩下的特征词未包含在所述频繁项集中的文档通过聚类算法进行聚类获取新的 对应有频繁项集的初始簇;
[0011] 步骤d :判断是否存在未聚类的文档组,如果存在,转向步骤c ;如果不存在,存储 所有待聚类的文档聚类成的多个初始簇和每个所述初始簇对应的频繁项集。
[0012] 进一步地,所述步骤b包括:
[0013] 获取所述其中一组待聚类的文档中每个文档的特征词;
[0014] 根据获取的特征词使用Apriori算法提取频繁项集;
[0015] 根据所述提取的频繁项集和所述每个文档的特征词,将特征词包含在同一频繁项 集中的文档聚类成同一初始簇。
[0016] 进一步地,所述获取所述其中一组待聚类的文档中每个文档的特征词包括:
[0017] 将每个文档中的文字拆分成多个词语,并对拆分后的词语进行过滤,去除干扰词 获取文档的初始特征词;
[0018] 利用下列公式计算每个文档的每一初始特征词的分值,保留每个文档的分值大于 预设阈值的初始特征词作为该文档的特征词:
[0019]
[0020] 进一步地,所述对拆分后的词语进行过滤,去除干扰词获取文档的初始特征词包 括:
[0021] 将拆分后的词语与预设的干扰词库中的词语进行比对,如果拆分后的词语存在与 干扰词库中相同的词语,则将该词语作为干扰词去除。
[0022] 进一步地,所述预设阈值的取值范围为(λ 0005-0. 0015。
[0023] 进一步地,所述根据所述提取的频繁项集和所述每个文档的特征词,将特征词包 含在同一频繁项集中的文档聚类成同一初始簇包括:
[0024] 计算提取的每一个频繁项集的权重;
[0025] 按照权重从大到小的顺序,依次根据权重从大到小的频繁项集和每个文档的特征 词对文档进行聚类,将特征词包含在同一频繁项集中的文档聚类成同一初始簇,从而针对 每个频繁项集分别聚类成不同的初始簇。
[0026] 进一步地,所述步骤b还包括:
[0027] 对于根据所述提取的频繁项集和文档的特征词没有聚类到初始簇中的文档,以文 档的特征词在文档中出现的频率作为分量建立文档特征词向量,计算文档特征词向量与初 始簇特征词向量之间夹角的余弦值,在该余弦值大于第一预设值时,将文档聚类到对应的 初始簇中。
[0028] 进一步地,所述文档为web网页。
[0029] 进一步地,所述步骤d之后还包括:
[0030] 在用户点击web收藏夹中的网页链接后,根据所述步骤d得到的聚类结果获取用 户所点击网页所属的初始簇;
[0031] 从所述初始簇中选择至少一个网页展示给用户。
[0032] 进一步地,所述从所述初始簇中选择至少一个网页展示给用户包括:
[0033] 从所述初始簇中选择多个网页,对所述多个网页进行过滤,并将过滤后的网页展 示给用户,其中,过滤掉的网页包括但不限于内容重复的网页、内容不符合要求的网页。
[0034] 进一步地,所述步骤d之后还包括:
[0035] 在用户浏览网页时,根据所述步骤d得到的聚类结果获取用户浏览的网页所属初 始簇的特征词;
[0036] 确定与所述初始簇的特征词的匹配程度大于第二预设值的广告的特征词,并将与 该广告的特征词对应的广告推送给用户。
[0037] 本发明实施例还提供了一种文档聚类装置,包括:
[0038] 分组模块,用于将待聚类的文档分为多组;
[0039] 初始聚类模块,用于对其中一组待聚类的文档通过聚类算法进行聚类,获取初始 簇,所述初始簇对应有频繁项集;
[0040] 分层聚类模块,用于获取余下的另外一组待聚类文档的特征词,根据所述特征词 和所述初始簇对应的频繁项集,将特征词包含在所述频繁项集中的文档聚类到所述频繁项 集对应的初始簇,并对剩下的特征词未包含在所述频繁项集中的文档通过聚类算法进行聚 类获取新的对应有频繁项集的初始簇;
[0041] 处理模块,用于判断是否存在未聚类的文档组,如果存在,转向步骤c ;如果不存 在,存储所有待聚类的文档聚类成的多个初始簇和每个所述初始簇对应的频繁项集。
[0042] 进一步地,所述初始聚类模块包括:
[0043] 获取子模块,用于获取所述其中一组待聚类的文档中每个文档的特征词;
[0044] 提取子模块,用于根据获取的特征词使用Apriori算法提取频繁项集;
[0045] 聚类子模块,用于根据所述提取的频繁项集和所述每个文档的特征词,将特征词 包含在同一频繁项集中的文档聚类成同一初始簇。
[0046] 进一步地,所述获取子模块包括:
[0047] 处理单元,用于将每个文档中的文字拆分成多个词语,并对拆分后的词语进行过 滤,去除干扰词获取文档的初始特征词;
[0048] 第一计算单元,用于利用下列公式计算每个文档的每一初始特征词的分值,保留 每个文档的分值大于预设阈值的初始特征词作为该文档的特征词:
[0049]
[0050] 进一步地,所述聚类子模块包括:
[0051] 第二计算单元,用于计算提取的每一个频繁项集的权重;
[0052] 聚类单元,用于按照权重从大到小的顺序,依次根据权重从大到小的频繁项集和 每个文档的特征词对文档进行聚类,将特征词包含在同一频繁项集中的文档聚类成同一初 始簇,从而针对每个频繁项集分别聚类成不同的初始簇。
[0053] 进一步地,所述聚类子模块还用于对于根据所述提取的频繁项集和文档的特征词 没有聚类到初始簇中的文档,以文档的特征词在文档中出现的频率作为分量建立文档特征 词向量,计算文档特征词向量与初始簇特征词向量之间夹角的余弦值,在该余弦值大于第 一预设值
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1