一种基于集聚系数的自适应聚类方法及系统的制作方法

文档序号:6628968阅读:269来源:国知局
一种基于集聚系数的自适应聚类方法及系统的制作方法
【专利摘要】本发明提供一种基于集聚系数的自适应聚类方法,包括:根据已提取出的数据点对的属类和每次提取出的数据点间的关联关系的大小以确定数据点归于哪个属类,属类数目,建立数据点间的关联关系和属类间的关联关系;对每个属类进行预分割,计算两个子类的类内相似度和两个子类的类间相似度,判断预分割的两个子类是否满足分割条件,若是,则接收预分割;若否,则取消预分割;计算具有关联关系的两个属类的类内相似度和两个属类间的类间相似度,判断两个属类是否满足合并条件,若是,则合并两个属类生成新的属类;若否,则放弃合并。本发明首次将类中数据点两两之间的关系考虑进来,基于集聚系数计算类内相似程度和类间相似程度,使之更精确地集聚数据。
【专利说明】一种基于集聚系数的自适应聚类方法及系统

【技术领域】
[0001] 本发明属于基于网络技术的文本分析【技术领域】,涉及一种基于网络技术的自适应 聚类方法,特别是涉及一种基于集聚系数的自适应聚类方法及系统。

【背景技术】
[0002] 现实世界数据的逐步网络化和虚拟化,使得网络上数据的数量迅猛增长。随着数 据的不断积累,网络上面的数据隐含了大量固有知识,可以帮助人们完成数据分析、决策支 持等一系列的智能应用。人们越来越渴望从这些大量的数据中获取信息和知识,便于揭示 出隐含的,先前未知的并有潜在价值的信息。数据挖掘相关领域也再度成为当下热门的研 究方向之一。聚类分析是数据挖掘中的一个很活跃的研究领域。简单来说,它是将物理或 者抽象的对象集合进行分析,把特征相似的对象分到同一个类,而特征不相似的对象分到 不同的类的过程。聚类算法在模式识别,智能搜索,生物信息和语义消歧等领域都发挥重大 的作用。
[0003] 目前已有许多聚类算法被提出。概述来讲,现有的聚类算法可以分为五类:划分方 法,层次方法,基于密度的方法,基于网格的方法和基于模型的方法。大多数的聚类算法在 考虑类内相似度时,只考虑类内其它元素和核心元素之间的相似度,或者考虑相邻元素之 间的相似度,并没有考虑类中元素间两两之间的相似度,因此,现有的聚类算法无法更精确 地将网络数据集聚。
[0004] 因此,如何提供一种应用于计算机网络中基于集聚系数的自适应聚类方法及系 统,以解决现有技术中在数据的聚类过程中仅考虑类内其它元素和核心元素之间的相似 度,或者考虑相邻元素之间的相似度的聚类方法,而不存在考虑类中元素间两两之间的相 似度的聚类算法,无法更精确地聚类数据的种种缺陷,实已成为本领域从业者亟待解决的 技术问题。


【发明内容】

[0005] 鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于集聚系数的自适 应聚类方法及系统,用于解决现有技术中在数据的聚类过程中仅考虑类内其它元素和核心 元素之间的相似度,或者考虑相邻元素之间的相似度的聚类方法,而不存在考虑类中元素 间两两之间的相似度的聚类算法,无法更精确地聚类数据的问题。
[0006] 为实现上述目的及其他相关目的,本发明一方面提供一种基于集聚系数的自适应 聚类方法,藉由多台服务器及客户端构建的计算机网络系统中,用于需要聚类的元素的集 合,该集合中包括若干聚类对象集中的数据点,所述基于集聚系数的自适应聚类方法包括: 初步聚类步骤,即获取若干聚类对象集中的数据点间的关联关系,获取适用于查找邻节点 数目的最近邻算法中邻节点的数目以及通过曲线拟合技术获取所述数据点的分布曲线收 敛速率;按照所述数据点间的关联关系的大小依次提取数据点对,根据已提取出的数据点 对的属类和每次提取出的数据点间的关联关系的大小以确定所述数据点归于哪个属类,属 类数目,并建立数据点间的关联关系和属类间的关联关系,直至处理完所有数据点以获取 初步聚类结果;自学习聚类步骤,包括:分割步骤,即计算每个属类的类内相似度和计算每 个属类中的数据点的局部集聚系数,将每个属类的类内相似度与每个属类中的数据点的局 部集聚系数进行比较,按照将每个属类分割成数据点的局部集聚系数大于等于类内相似度 和数据点的局部集聚系数小于类内相似度的两个子类的分割方式进行预分割,并计算两个 子类的类内相似度和两个子类的类间相似度,判断预分割的两个子类是否满足分割条件, 若是,则接收所述预分割,产生由多个属类组成的属类集合,并继续下一步步骤;若否,则取 消所述预分割;查找步骤,在所述属类集合中查找具有关联关系的两个属类;合并步骤,即 计算具有关联关系的两个属类的类内相似度和两个属类间的类间相似度,判断具有关联关 系的两个属类是否满足合并条件,若是,则表示所述两个属类之间的关系密切,合并所述两 个属类生成新的属类;若否,则表示所述两个属类之间的关系疏远,放弃合并。
[0007] 可选地,所述基于集聚系数的自适应聚类方法中初步聚类步骤还包括:将若干聚 类对象集中的数据点间的关联关系的分布信息进行统计,并根据统计的分布信息和采用所 述曲线拟合技术获取关于若干聚类对象集中的数据点间的关联关系的曲线收敛速率;根据 所述查找邻节点数目的最近邻算法统计所述数据点间的邻节点数目的分布信息,获取邻节 点数目的确定值,判断所述数据点拥有邻节点数目大于所述邻节点数目的确定值的数据点 是否大于预定数量,若是,则继续执行按照所述数据点间的关联关系的大小依次提取数据 点对步骤;若否,则结束进程。
[0008] 可选地,在所述分割步骤中还包括更新所述两个子类与其它属类之间的类间关联 关系,删除所述两个子类原所属属类与其它属类之间的类间关联关系;在所述合并步骤中 还包括更新生成的新的属类与其它属类之间的类间关联关系,删除所述两个属类与其它属 类之间的类间关联关系。
[0009] 可选地,在所述分割步骤中的两个子类包括子类A和子类B,计算两个子类A和B 的类内相似度的公式分别为:「/?(/〇=

【权利要求】
1. 一种基于集聚系数的自适应聚类方法,藉由多台服务器及客户端构建的计算机网络 系统中,用于需要聚类的元素的集合,该集合中包括若干聚类对象集中的数据点,其特征在 于,所述基于集聚系数的自适应聚类方法包括: 初步聚类步骤,即获取若干聚类对象集中的数据点间的关联关系,获取适用于查找邻 节点数目的最近邻算法中邻节点的数目以及通过曲线拟合技术获取所述数据点的分布曲 线收敛速率;按照所述数据点间的关联关系的大小依次提取数据点对,根据已提取出的数 据点对的属类和每次提取出的数据点间的关联关系的大小以确定所述数据点归于哪个属 类,属类数目,并建立数据点间的关联关系和属类间的关联关系,直至处理完所有数据点以 获取初步聚类结果; 自学习聚类步骤,包括: 分割步骤,即计算每个属类的类内相似度和计算每个属类中的数据点的局部集聚系 数,将每个属类的类内相似度与每个属类中的数据点的局部集聚系数进行比较,按照将每 个属类分割成数据点的局部集聚系数大于等于类内相似度和数据点的局部集聚系数小于 类内相似度的两个子类的分割方式进行预分割,并计算两个子类的类内相似度和两个子类 的类间相似度,判断预分割的两个子类是否满足分割条件,若是,则接收所述预分割,产生 由多个属类组成的属类集合,并继续下一步步骤;若否,则取消所述预分割; 查找步骤,在所述属类集合中查找具有关联关系的两个属类; 合并步骤,即计算具有关联关系的两个属类的类内相似度和两个属类间的类间相似 度,判断具有关联关系的两个属类是否满足合并条件,若是,则表示所述两个属类之间的关 系密切,合并所述两个属类生成新的属类;若否,则表示所述两个属类之间的关系疏远,放 弃合并。
2. 根据权利要求1所述的基于集聚系数的自适应聚类方法,其特征在于:所述基于集 聚系数的自适应聚类方法中初步聚类步骤还包括: 将若干聚类对象集中的数据点间的关联关系的分布信息进行统计,并根据统计的分布 信息和采用所述曲线拟合技术获取关于若干聚类对象集中的数据点间的关联关系的曲线 收敛速率; 根据所述查找邻节点数目的最近邻算法统计所述数据点间的邻节点数目的分布信息, 获取邻节点数目的确定值,判断所述数据点拥有邻节点数目大于所述邻节点数目的确定值 的数据点是否大于预定数量,若是,则继续执行按照所述数据点间的关联关系的大小依次 提取数据点对步骤;若否,则结束进程。
3. 根据权利要求1所述的基于集聚系数的自适应聚类方法,其特征在于: 在所述分割步骤中还包括更新所述两个子类与其它属类之间的类间关联关系,删除所 述两个子类原所属属类与其它属类之间的类间关联关系;在所述合并步骤中还包括更新生 成的新的属类与其它属类之间的类间关联关系,删除所述两个属类与其它属类之间的类间 关联关系。
4. 根据权利要求1所述的基于集聚系数的自适应聚类方法,其特征在于:在所述分割 步骤中的两个子类包括子类A和子类B, 计算两个子类A和B的类内相似度的公式分别为:
其中,Vi表示数据点:^^^表示子类A中数据点的集合,^^表示子类B中数据点的集合, |VA|表示子类A中数据点的数目,|VB|表示子类B中数据点的数目,eg表示连接数据点i 和数据点j的边,EA表示子类A中边的集合,EB表示子类B中边的集合,C(i)为数据点Vi 的局部集聚系数,
其中,Vj,Vk表示数据点j,k,N(i)表示 数据点\的邻接点集合,E是边的集合,&表示N(i)的数目,ejk表示连接数据点j和数据 点k的边; 计算两个子类A和子类B的类间相似度的公式分别为:
其中,\表示数据点i,A'表示子类A和属于子类B并与子类A有关联关系的数据点 的类,B'表示子类B和属于子类A并与子类B有关联关系的数据点的类,|VA,|表示A'类 中数据点的数目,|VB,|表示类B'中数据点的数目,\^表示子类A中数据点的集合,VB表示 子类B中数据点的集合,表示连接数据点i和数据点j的边,C(i)为数据点Vi的局部集 聚系I
5. 根据权利要求4所述的基于集聚系数的自适应聚类方法,其特征在于:所述分割 条件为两个子类的类内相似度是否分别大于所述两个子类的类间相似度,即clu(A) > assoc (A,),且 clu (B) > assoc (B')。
6. 根据权利要求1所述的基于集聚系数的自适应聚类方法,其特征在于:在所述合并 过程中两个属类包括属类A1和属类A2, 计算两个属类A1和属类A2的类内相似度的公式分别为:

其中,Vi表示数据点i,VA1表示属类A1中数据点的集合,VA2表示属类A2中数据点的 集合,|VA1|表示属类A1中数据点的数目,|VA2|表示属类A2中数据点的数目,表示连接 数据点i和数据点j的边,EA,表示属举A1中仂的隼合,R,"表示属类A2中边的集合,C(i) 为数据点\的局部集聚系数,
其中,',Vk表示数据点j, k,N(i)表示数据点的邻接点集合,E是边的集合,表示N(i)的数目,ejk表示连接数据 点j和数据点k的边; 计算两个属类A1和属类A2的类间相似度的公式分别为:
其中,\表示数据点i,Al'表示属类A1和属类A2并与属类A1有关联关系的数据点的 属类,A2'表示属类A2和属类A1并与属类A2有关联关系的数据点的属类,|VA1,|表示A1' 属类中数据点的数目,|VA2,|表示属类A2'中数据点的数目,VA1表示属类A1中数据点的集 合,VA2表示属类A2中数据点的集合,ei1表示连接数据点i和数据点j的边,C(i)为数据 点\的局部集聚系数
7. 根据权利要求6所述的基于集聚系数的自适应聚类方法,其特征在于:所述合 并条件为两个属类的类间相似度是否分别大于等于所述两个属类的类内相似度,即
8. 根据权利要求1所述
的基于集聚系数的自适应聚类方法,其特征在于:按照所述数 据点间的关联关系的大小依次提取数据点对的步骤还包括根据检测原则检测提取出的数 据点对是否满足一属类的特征。
9. 根据权利要求8所述的基于集聚系数的自适应聚类方法,其特征在于:所述检测原 则为:所述一属类中的数据点个数为1^,属类内平均关系权重为avg(ni),提取出来的数据 点与所述一属类中类内数据点之间的关系权重为Wl,所述一属类的平均关系权重收敛速率 为JV若满足公式(l+.v",)?v妨提取出来的数据点便能加入到所述一属类中;反 之,不能加入。
10. -种基于集聚系数的自适应聚类系统,藉由多台服务器及客户端构建的计算机网 络系统中,用于需要聚类的元素的集合,该集合中包括若干聚类对象集中的数据点,其特征 在于,所述基于集聚系数的自适应聚类系统包括: 初步聚类模块,用于完成初步聚类,所述初步聚类模块包括预处理单元和初步聚类单 元,其中,所述预处理单元用于获取若干聚类对象集中的数据点间的关联关系,获取适用于 查找邻节点数目的最近邻算法中邻节点的数目以及通过曲线拟合技术获取所述数据点的 分布曲线收敛速率;所述初步聚类单元用于按照所述数据点间的关联关系的大小依次提取 数据点对,根据已提取出的数据点对的属类和已提取出的数据点间的关联关系的大小以确 定所述数据点归于哪个属类,属类数目,并建立数据点间的关联关系和属类间的关联关系, 直至处理完所有数据点以获取初步聚类结果; 自学习聚类模块,用于完成自学习聚类,所述自学习聚类模块包括第一计算单元、预分 割单元、第一判断单元、查找单元、第二计算单元、第二判断单元、及合并单元; 其中,所述第一计算单元用于计算每个属类的类内相似度和计算每个属类中的数据点 的局部集聚系数,将每个属类的类内相似度与每个属类中的数据点的局部集聚系数进行比 较,调用所述预分割单元; 所述预分割单元用于按照将每个属类分割成数据点的局部集聚系数大于等于类内相 似度和数据点的局部集聚系数小于类内相似度的两个子类的分割方式进行预分割,并计算 两个子类的类内相似度和两个子类的类间相似度; 所述第一判断单元用于判断预分割的两个子类是否满足分割条件,若是,则接收所述 预分割,产生由多个属类组成的属类集合;若否,则取消所述预分割; 所述查找单元,用于在所述属类集合中查找具有关联关系的两个属类; 所述第二计算单元,用于计算具有关联关系的两个属类的类内相似度和两个属类间的 类间相似度; 所述第二判断单元用于判断具有关联关系的两个属类是否满足合并条件,若是,则表 示所述两个属类之间的关系密切,调用所述合并单元合并所述两个属类生成新的属类;若 否,则表示所述两个属类之间的关系疏远,放弃合并。
【文档编号】G06F17/30GK104281674SQ201410512802
【公开日】2015年1月14日 申请日期:2014年9月29日 优先权日:2014年9月29日
【发明者】蒋昌俊, 陈闳中, 闫春钢, 丁志军, 钟明洁, 孙海春 申请人:同济大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1