一种基于信息瓶颈的模糊三维聚类方法

文档序号:8319310阅读:162来源:国知局
一种基于信息瓶颈的模糊三维聚类方法
【技术领域】
[0001] 本发明涉及一种基于信息瓶颈的模糊聚类方法,属于数据挖掘领域。
【背景技术】
[0002] Internet中信息的爆炸式增长为信息的管理和使用带来了不便。为了揭示隐藏 在Web数据之后具有潜在价值的信息或结构,近年来Web挖掘技术取得了较快的发展和广 泛的应用。文档聚类是Web挖掘领域的关键技术之一,其目的是将一个文档集合分成若干 个簇,要求同一个簇内的文本内容具有较高的相似度,而不同簇之间的相似度尽可能小。
[0003] 聚类研究有较长的历史,迄今为止许多优秀的聚类方法被提出。根据数据在聚类 中的积聚规则以及应用这些规则的方法,通常可将聚类方法大致划分为层次化聚类方法、 划分式聚类方法、基于密度和网格的聚类方法和其他聚类方法。在针对由文档-特征词两 个维度构成的列联表进行聚类时,传统的聚类方法表现出两个主要特点:①硬聚类,即文档 对一个簇的隶属度要么为0,要么为1 ;②一维聚类,即仅针对文档一个维度进行聚类。事实 上,文档对一个簇的隶属存在一个概率,因此隶属度应为区间[0,1]内的任意实数,而非仅 仅0和1两个取值,在这一点上,软聚类更能反映数据分布的真实特点;另一方面,一维聚类 假定特征词之间相互独立,但同义词、近义词、反义词等现象的存在,决定了特征词之间存 在相关性,忽略这种相关性而假设特征词间相互独立容易对聚类的准确率造成影响。
[0004] Internet的飞速发展,使得数据流量突飞猛进,数据形式和结构复杂多样。在此背 景下,伴随用户需求的不断提高,聚类分析的难度明显增加。在许多应用场景中,三维列联 表形式的数据逐渐增多,如用户在使用搜索引擎时,往往需要考虑用户-查询-文档三维数 据信息;又如在建立用户的兴趣模型时,同样需要考虑用户-文档-时间三维信息。三个维 度的信息息息相关,因此在聚类分析时需要对三个维度同时聚类,这对于包括模糊联合聚 类方法在内的传统方法难以实现。

【发明内容】

[0005] 基于现有技术存在的问题,本发明提出一种基于信息瓶颈理论的三维聚类方法, 在进行聚类前,准备用户使用Web搜索引擎时的用户-查询-文档三维数据信息,然后采用 以下步骤进行聚类:
[0006] (1)准备用户-查询-文档三维数据信息,表示为三维矩阵X,X中各维的维度分 别为N、K、M,其中N、K、M为自然数,X的元素表示为x ijk,其中i、j、k为自然数,1彡i彡N, I ^ j ^ K, I ^ k ^ M ;
[0007] (2)定义三个隶属度函数Uc;i,V。」,Wdt,分别表示第i个用户对第C个簇的隶属度, 第j个查询对第C个簇的隶属度,第k个文档对第c个簇的隶属度。设簇的总数目为C, I ^ c ^ C ;
[0008] (3)随机初始化uci, Wck的值,0彡u ci彡1,且
【主权项】
1. 一种基于信息瓶颈的模糊三维聚类方法,其特征在于: (1) 准备用户-查询-文档三维数据信息,表示为三维矩阵X,X中各维的维度分别 为N、K、M,其中N、K、M为自然数,X的元素表示为X ijk,其中i、j、k为自然数,1彡i彡N, I ^ j ^ K, I ^ k ^ M ; (2) 定义三个隶属度函数Ucd, Vcu.,Wdt,分别表示第i个用户对第c个簇的隶属度,第j个 查询对第c个簇的隶属度,第k个文档对第c个簇的隶属度,簇的总数目为C,I < c < C ; (3) 随机初始化uci,Wck的值,O彡u 1,且Σμ?.=1,^=1,2,…具迟叫占 1,且
r=l ?Γ表示更新后的Uci值; (7)若maxd^-CK,迭代停止,ξ为规定的阈值;否则令%=?二,转到步骤(4),继 续迭代。
【专利摘要】本发明提出了一种基于信息瓶颈理论的三维聚类方法,该方法对用户-查询-文档三维数据进行聚类。使用该方法后,对于三维列联表可实现三个维度的同时聚类,并基于信息瓶颈理论度量文档与簇质心间的距离,可有效提高聚类准确率。
【IPC分类】G06F17-30
【公开号】CN104636498
【申请号】CN201510100423
【发明人】刘永利, 万兴, 乔应旭, 雒芬, 孙江峰
【申请人】河南理工大学
【公开日】2015年5月20日
【申请日】2015年3月8日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1