基于核心点的社会网络聚类关联分析方法及系统的制作方法

文档序号:6604078阅读:176来源:国知局
专利名称:基于核心点的社会网络聚类关联分析方法及系统的制作方法
技术领域
本发明涉及基于核心点的社会网络聚类关联分析方法及系统。
背景技术
目前数据挖掘任务处理的对象主要是单独的数据实例,这些数据实例往往可以用 一个包含多个属性值的向量来表示,同时这些数据实例之间假设是统计上独立的。例如,要 训练一个疾病诊断系统,它的任务是诊断一个被试者是否患有某种传染病,通常的做法是 用一个向量来表示一个被试者,同时假设各被试者之间的患病情况是相互独立的,即知道 一个确诊病人对于诊断其他被试者是否患病不能提供任何帮助。直观经验告诉我们这种假 设是不合理的,一个人的亲戚、朋友患有此传染病,则他相对其他人有更大的可能性患病。 在社会里,人与人不是简单的统计上独立的采样点,他们之间必然存在着联系和影响,忽视 了这种联系会对整个诊断系统的性能带来很大的影响。为了解决这个问题,必须将数据实 例之间的关系同时考虑进来,从而提出了社会网络的概念,可以用图结构来刻画社会结构。社会网络包括很多节点和连接这些节点的一种或多种特定的链接。其中,节点往 往表示了个人、团体、人、文章和/或服务器等物理存在的实体;链接则表示节点之间存在 的各种关系,如朋友关系、亲属关系、贸易关系、引用关系等。社会网络除了图结构表示之 外,还有其他社会学形式和代数形式的表示方式。在很多情况下,链接随着时间不断改变,那么对社会网络的分析需要对一段时间 内的社会网络变化情况进行分析,目前,主要是将分析的时间段等分后进行分段分析即增 量分析。然而,在实际情况中,事物的发生发展不是均勻的,增量分析方法无法准确分析出 社会网络中的噪声和事件,其中,噪声是指与社会网络分析主题无关的联系,主要由具有社 会化特征的个体行为的随机性和不确定性造成的,例如拨错电话号码而造成的无效通话; 事件是指与社会网络分析主题相关的异常联系,例如人们在春节期间的通话。增量分析方 法,一方面,可能会在分析过程中放大噪声,或者往往无法捕捉该时间段中对事物发展产生 重大变化的演变点(事件),从而无法提供准确的分析结果,如何快速地得到准确的分析结 果,直接影响社会网络分析的效率。

发明内容
因此,本发明的目的在于提供基于核心点的社会网络聚类关联分析方法及系统, 快速地得到准确的分析结果。为实现本发明的上述目的,提供一种基于核心点的社会网络聚类关联分析方法及 系统,包括得到社会网络的平稳时间段;对平稳时间段的社会网络进行近似,得到社会网络近似图;求出所述社会网络近似图中的极大团;根据极大团之间共有点所占相应极大团的比重,将所述极大团进行归并,得到社团;根据相似度,关联不同时刻的社团。优选地,所述对平稳时间段的社会网络进行近似包括初始化空网络;将所述平稳时间段的社会网络的边集排序;按顺序将边集加入所述空网络中,直至所述空网络与所述平稳时间段的社会网络 的偏差最小,得到所述平稳时间段的社会网络近似图。优选地,所述排序顺序为降序。优选地,所述根据极大团之间共有点所占相应极大团的比重,将所述极大团进行 归并包括当两个极大团之间共有点的点数大于等于点数少的极大团的点数减N时,将该两 个极大团归并,其中,N为大于0小于点数少的极大团点数的整数。优选地,所述N为1。优选地,所述相似度包括社团的点重合度和/或结构的相似性。优选地,还包括分析所述社团结构的紧密程度;和/或,分析所述社团内部各点之间边权重分布的均勻程度。本发明还提供一种基于核心点的社会网络聚类关联分析方法及系统,其特征在 于,该系统包括平稳单元,用于得到社会网络的平稳时间段;近似单元,用于对平稳时间段的社会网络进行近似,得到社会网络近似图;计算单元,用于求出所述社会网络近似图中的极大团;社团单元,用于根据极大团之间共有点所占相应极大团的比重,将所述极大团进 行归并,得到社团;追踪单元,用于根据相似度,关联不同时刻的社团。优选地,所述近似单元包括初始化子单元,用于初始化空网络;排序子单元,用于将所述平稳时间段的社会网络的边集排序;近似子单元,用于按顺序将边集加入所述空网络中,直至所述空网络与所述平稳 时间段的社会网络的偏差最小,得到所述平稳时间段的社会网络近似图。该系统还包括分析单元,用于分析所述社团结构的紧密程度;和/或,分析所述社团内部各点之 间边权重分布的均勻程度。本发明的有益效果是本发明对得到的平稳时间段的社会网络进行近似,这种近似的方法可以有效的减 少噪声在后续分析中的影响,同时也保留了社会网络的基本特征,使得分析结果更为准确。 在社会网络近似图的基础上,采用进行极大团的求取及归并的方法,发现社团;以社团作为 后续聚类关联的核心点,且在发现社团的过程中,直接对极大团进行归并,相对于现有技术 比较极大团,根据比较结果建立极大团之间的关联关系,根据关联关系进行极大团合并的 方式,本发明的技术方案节省了大量存储关联关系的空间,且避免了归并之前的多次比较,可以快速地发现社团,进而快速地得到分析结果。


图1示出本发明实施例中基于核心点的社会网络聚类关联分析方法的流程示意 图;图2示出本发明实施例中基于核心点的社会网络聚类关联分析方法的应用流程 示意图;图3示出本发明实施例中平稳时间段的社会网络近似结构示意图;图4示出本发明实施例中极大团的结构示意图;图5示出本发明实施例中社团追踪的结构示意图;图6示出本发明实施例中基于核心点的社会网络聚类关联分析系统的结构示意 图。
具体实施例方式以下结合附图详细说明本发明的基于核心点的社会网络聚类关联分析方法及系 统。为了避免噪声,本发明采用近似图结构刻画平稳演化阶段的社会网络。请参阅图1,一种基于核心点的社会网络聚类关联分析方法及系统,包括得到社会网络的平稳时间段;对平稳时间段的社会网络进行近似,得到社会网络近似图;求出所述社会网络近似图中的极大团;根据极大团之间共有点所占相应极大团的比重,将所述极大团进行归并,得到社 团;根据相似度,关联不同时刻的社团。所述对平稳时间段的社会网络进行近似包括初始化空网络;将所述平稳时间段的社会网络的边集排序;按顺序将边集加入所述空网络中,直至所述空网络与所述平稳时间段的社会网络 的偏差最小,得到所述平稳时间段的社会网络近似图。优选地,所述排序顺序为降序。优选地,所述根据极大团之间共有点所占相应极大团的比重,将所述极大团进行 归并包括当两个极大团之间共有点的点数大于等于点数少的极大团的点数减N时,将该两 个极大团归并,其中,N为大于0小于点数少的极大团点数的整数。优选地,所述N为1。在社会网络近似图的基础上,采用进行极大团的求取及归并的方法,发现社团;以 社团作为后续聚类关联的核心点,且在发现社团的过程中,直接对极大团进行归并,相对于 现有技术比较极大团,根据比较结果建立极大团之间的关联关系,根据关联关系进行极大 团合并的方式,本发明的技术方案节省了大量存储关联关系的空间,且避免了归并之前的 多次比较,可以快速地发现社团,进而快速地得到分析结果。
优选地,所述相似度包括社团的点重合度和/或结构的相似性。优选地,还包括分析所述社团结构的紧密程度;和/或,分析所述社团内部各点之间边权重分布的均勻程度。社会网络的演化是一个平稳和事件交替出现的过程。通过对事件(演化点)发生 前后两个平稳时间段的社会网络的特征抽取,对比它们在这两个时间段的不同,从而精确 快速的发现网络演化过程中事件的发生,并且揭示该事件对网络演化所产生的影响。请参阅图2,对基于核心点的社会网络聚类关联分析方法进行应用举例201、数据接受用户输入的社会网络数据;202、平稳时间段近似采用启发式方法,初始化一个空网络,然后将网络的边集 按降序排序,并按照顺序不断加入到网络中,使得增加边之后的网络与这个时间段的网络 的偏差最小,最后得到这个时间段的近似图,例如,请参阅图3,第一网络301-1、第二网络 301-2、第三网络301-3和第四网络301-4分别为依时间先后的四个网络,它们属于同一个 平稳时间段,近似图302为这个时间段的近似图;社团发现包括203、找cliqUe(图中极大完全子图,即极大团)对于给定近似图,找出所有 clique,例如,请参阅图4,存在两个clique,分别为{1,2,4,5}和{2,3,4};204、合并部分clique 对任意两个有公共点的clique,如果其公共点个数达到这 两个clique中较小的一个clique的size-1 (size的值为极大团中的节点数),那么这两个 clique就进行合并。该步骤迭代运行,直至没有clique合并再次发生。205、划分重叠节点把重叠的节点划分给其中某个社团,得到非重叠社团;206、吸收特殊节点把原先不在某个社团中的节点吸收进来;207、合并紧密社团合并紧密关联的社团。208、社团追踪针对于不同时刻发现的社团,考虑社团的点重合度和结构的相似 性,将它们关联起来,例如,请参与图5,d图与a图最相似;209、社团演化根据追踪到的社团,从以下两个方面对社团的性质进行评价a) 社团结构的紧密程度;b)社团内部各点之间边权重分布的均勻程度。现有的社团发现的方法,由于其在进行clique合并前要建立clique间的关联关 系(是否具有k-Ι个公共点),而这种关系的建立需要进行多次clique间的比较。当图 中clique结构较多且关联较紧密时,会极大的影响该方法的效率;同时还需要保存大量 clique间的关系,从而造成内存的大量开销。本方案在社团发现的过程中,采用立即合并策略,提高了合并效率同时节省了内 存开销,提高了分析速度。本发明还提供一种基于核心点的社会网络聚类关联分析方法及系统,其特征在 于,该系统包括平稳单元,用于得到社会网络的平稳时间段;近似单元,用于对平稳时间段的社会网络进行近似,得到社会网络近似图;计算单元,用于求出所述社会网络近似图中的极大团;社团单元,用于根据极大团之间共有点所占相应极大团的比重,将所述极大团进行归并,得到社团;追踪单元,用于根据相似度,关联不同时刻的社团。优选地,所述近似单元包括初始化子单元,用于初始化空网络;排序子单元,用于将所述平稳时间段的社会网络的边集排序;近似子单元,用于按顺序将边集加入所述空网络中,直至所述空网络与所述平稳 时间段的社会网络的偏差最小,得到所述平稳时间段的社会网络近似图。该系统还包括分析单元,用于分析所述社团结构的紧密程度;和/或,分析所述社团内部各点之 间边权重分布的均勻程度。尽管以上参照具体实施方式
详细描述了本发明,但是对于本领域技术人员而言, 在本文的教示下可以对本发明作出各种修改和变形,而不脱离本发明的实质和范围。
权利要求
一种基于核心点的社会网络聚类关联分析方法及系统,包括得到社会网络的平稳时间段;对平稳时间段的社会网络进行近似,得到社会网络近似图;求出所述社会网络近似图中的极大团;根据极大团之间共有点所占相应极大团的比重,将所述极大团进行归并,得到社团;根据相似度,关联不同时刻的社团。
2.根据权利要求1所述的方法,其中,所述对平稳时间段的社会网络进行近似包括 初始化空网络;将所述平稳时间段的社会网络的边集排序;按顺序将边集加入所述空网络中,直至所述空网络与所述平稳时间段的社会网络的偏 差最小,得到所述平稳时间段的社会网络近似图。
3.根据权利要求2所述的方法,其中,所述排序顺序为降序。
4.根据权利要求1所述的方法,其中,所述根据极大团之间共有点所占相应极大团的 比重,将所述极大团进行归并包括当两个极大团之间共有点的点数大于等于点数少的极大团的点数减N时,将该两个极 大团归并,其中,N为大于O小于点数少的极大团点数的整数。
5.根据权利要求4所述的方法,其中,所述N为1。
6.根据权利要求1所述的方法,其中,所述相似度包括社团的点重合度和/或结构的相 似性。
7.根据权利要求6所述的方法,其中,还包括 分析所述社团结构的紧密程度;和/或,分析所述社团内部各点之间边权重分布的均勻程度。
8.一种基于核心点的社会网络聚类关联分析方法及系统,其特征在于,该系统包括 平稳单元,用于得到社会网络的平稳时间段;近似单元,用于对平稳时间段的社会网络进行近似,得到社会网络近似图; 计算单元,用于求出所述社会网络近似图中的极大团;社团单元,用于根据极大团之间共有点所占相应极大团的比重,将所述极大团进行归 并,得到社团;追踪单元,用于根据相似度,关联不同时刻的社团。
9.根据权利要求8所述的系统,其特征在于,所述近似单元包括 初始化子单元,用于初始化空网络;排序子单元,用于将所述平稳时间段的社会网络的边集排序; 近似子单元,用于按顺序将边集加入所述空网络中,直至所述空网络与所述平稳时间 段的社会网络的偏差最小,得到所述平稳时间段的社会网络近似图。
10.根据权利要求8或9所述的系统,其特征在于,该系统还包括分析单元,用于分析所述社团结构的紧密程度;和/或,分析所述社团内部各点之间边 权重分布的均勻程度。
全文摘要
本发明提供基于核心点的社会网络聚类关联分析方法及系统,其中,该方法包括得到社会网络的平稳时间段;对平稳时间段的社会网络进行近似,得到社会网络近似图;求出所述社会网络近似图中的极大团;根据极大团之间共有点所占相应极大团的比重,将所述极大团进行归并,得到社团;根据相似度,关联不同时刻的社团。本发明对得到的平稳时间段的社会网络进行近似,这种近似的方法可以有效的减少噪声在后续分析中的影响,同时也保留了社会网络的基本特征,使得分析结果更为准确。在发现社团的过程中,直接对极大团进行归并,可以快速地发现社团,进而快速地得到分析结果。
文档编号G06Q90/00GK101887573SQ201010198330
公开日2010年11月17日 申请日期2010年6月11日 优先权日2010年6月11日
发明者吴斌, 徐六通, 杨胜琦, 柯庆, 王柏, 肖丁 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1